ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Σχετικά έγγραφα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

ΜΕΤΑΛΛΑΞΕΙΣ ΚΑΙ ΚΑΡΚΙΝΟΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ ΒΙΟΛΟΓΙΑΣ ΟΝΟΜΑ:ΕΥΑΓΓΕΛΙΑ ΕΠΙΘΕΤΟ:ΠΡΙΦΤΗ ΤΑΞΗ:Γ ΤΜΗΜΑ:4

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Περιγραφή Χρηματοδοτούμενων Ερευνητικών Έργων 1η Προκήρυξη Ερευνητικών Έργων ΕΛ.ΙΔ.Ε.Κ. για την ενίσχυση Μεταδιδακτόρων Ερευνητών/Τριών

ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΣΤΗΝ ΙΑΤΡΙΚΗ

Εισαγωγή στην Ανοσολογία Επίκτητη Ανοσία I. Σωτήρης Ζαρογιάννης Επίκ. Καθηγητής Φυσιολογίας Εργαστήριο Φυσιολογίας Τμήμα Ιατρικής Π.Θ.

ΑΝΟΣΟΒΙΟΛΟΓΙΑ. Εξεταστική Ιανουαρίου 2010

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

Κεφάλαιο 4: Ανασυνδυασμένο DNA

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 11 ΙΟΥΝΙΟΥ 2015 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της...

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Γονιδιωματική. G. Patrinos

3. Η μέθοδος αλυσιδωτής αντίδρασης πολυμεράσης (PCR) επιτρέπει την επιλεκτική αντιγραφή μορίων DNA, χωρίς τη μεσολάβηση ζωικών κυττάρων.

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ÍÅÏ ÄÕÍÁÌÉÊÏ ÓÔÁÕÑÏÕÐÏËÇ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β) ΤΕΤΑΡΤΗ 4 ΙΟΥΝΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

Επίκτητη Ανοσιακή Απάντηση (χυμικό σκέλος) Β λεμφοκύτταρα

Φάσμα& Group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

Επιστηµονικό Πρόγραµµα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΘΕΜΑ 1 ο Α. Να βάλετε σε κύκλο το γράμμα που αντιστοιχεί στη σωστή απάντηση. (Μονάδες 25)

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου Απαντήσεις Θεμάτων

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

αμινοξύ. Η αλλαγή αυτή έχει ελάχιστη επίδραση στη στερεοδιάταξη και τη λειτουργικότητα της πρωτεϊνης. Επιβλαβής

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΠΑΡΑΣΚΕΥΗ 20 ΑΠΡΙΛΙΟΥ 2018

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

Βιολογία Προσανατολισμού Γ Λυκείου. Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ Κυριακή 9 Μαρτίου 2014

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ»

Επισκεφτήκαμε το ινστιτούτο νευρολογίας και γενετικής όπου μας μίλησε ο κύριος Βάσος Νεοκλέους και η κ. Αλέξια Φαίδωνος για τη μηχανή Polymerase

ΚΕΦΑΛΑΙΟ 8 ο...2 I. Εφαρµογές της βιοτεχνολογίας στην ιατρική...2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ...7 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ...

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

LALING/PLALING :

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

ΕΡΩΤΗΣΕΙΣ 4 Ο, 7 Ο, 8 Ο, 9 Ο ΚΕΦΑΛΑΙΩΝ

Ενδεικτικές απαντήσεις

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

ΒΙΟΛΟΓΙΑ Ο.Π. ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Να σημειώσετε το γράμμα που συμπληρώνει κατάλληλα τη φράση:

ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 18 ΜΑΪΟΥ 2011 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ

ΦΡΟΝΤΙΣΤΗΡΙΑ ΠΡΟΟΠΤΙΚΗ

Η Επιτροπή Παιδείας της ΠΕΒ. Αθήνα, 4/6/2014 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

οµή Ανοσιακού Συστήµατος Ελένη Φωτιάδου-Παππά Τµήµα Ανοσολογίας Γ.Ν. Νίκαιας-Πειραιά

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ:ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΠΑΝΕΛΛΗΝΙΕ 2017 ΑΠΑΝΣΗΕΙ ΣΟ ΜΑΘΗΜΑ ΣΗ ΒΙΟΛΟΓΙΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ

όλοι αναπνευστική οδός στομάχι στόμα

Μέθοδοι μελέτης εξέλιξης

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 1 ΙΟΥΛΙΟΥ 2004 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου

ΚΥΤΤΑΡΟΜΕΤΡΙΑ ΡΟΗΣ FLOW CYTOMETRY

3. Σχ. Βιβλίο σελ «το βακτήριο Αgrobacterium.ξένο γονίδιο» Και σελ 133 «το βακτήριο Bacillus.Βt».

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών.

φροντιστήρια Απαντήσεις Βιολογίας Γ λυκείου Προσανατολισμός Θετικών Σπουδών

Tρίτη, 3 Ιουνίου 2003 ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 2014

ΦΡΟΝΤΙΣΤΗΡΙΟ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΗΡΑΚΛΕΙΤΟΣ ΚΩΛΕΤΤΗ

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 27 ΜΑΪΟΥ 2008 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής:

Ενδεικτικές απαντήσεις βιολογίας κατεύθυνσης 2014

Πανελλαδικές εξετάσεις 2017

ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ 2007 ΕΚΦΩΝΗΣΕΙΣ

ΕΞΕΤΑΣΤΕΑ ΥΛΗ για τη ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΚΥΤΤΑΡΟΜΕΤΡΙΑ ΡΟΗΣ FLOW CYTOMETRY

ΛΥΣΗ ΤΗΣ ΑΣΚΗΣΗΣ ΕΠΑΝΑΛΗΨΗΣ

ΚεφάΠαιο 4 ΤεχνοΠογία ίου ανασυνουασμένου DNA

ΘΕΜΑ Α

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΔΙΑΓΩΝΙ ΜΑ ΠΡΟ ΟΜΟΙΩ Η ΣΗΝ ΒΙΟΛΟΓΙΑ ΠΡΟ ΑΝΑΣΟΛΙ ΜΟΤ Γ ΛΤΚΕΙΟΤ ΘΕΜΑ Α

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΙΑΤΡ ΓΘΕΤ 2 ΗΜΕΡΟΜΗΝΙΑ: 20/03/2016 ΘΕΜΑ Α

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΝΙΟΥ Ενδεικτικές απαντήσεις Θέµα Β

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΗΣ ΙΑΤΡΙΚΗΣ ΣΧΟΛΗΣ ΚΑΙ ΤΩΝ ΤΜΗΜΑΤΩΝ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ - ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ ΑΠΘ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ για το ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΞΕΙΔΙΚΕΥΣΗΣ στην ΙΑΤΡΙΚΗ ΠΛΗΡΟΦΟΡΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΜΟΡΙΑΚΩΝ ΔΕΔΟΜΕΝΩΝ ΑΠΟ CLL ΜΕ ΤΗ ΧΡΗΣΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΑΘΑΝΑΣΙΟΣ ΓΚΟΥΦΑΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΝΙΚΟΛΑΟΣ ΜΑΓΚΛΑΒΕΡΑΣ ΘΕΣΣΑΛΟΝΙΚΗ ΙΟΥΛΙΟΣ 2014

Περίληψη Με την ανάπτυξη των αλληλουχητών υψηλής απόδοσης η τεχνική της αλληλούχησης έχει σημειώσει τεράστια πρόοδο. Η αλληλούχηση επόμενης γενιάς το τελευταίο διάστημα άρχισε να εφαρμόζεται και σε μελέτες της ανοσογενετικής για την ανάλυση των ρεπερτορίων TR και IG σε παθολογικές ή φυσιολογικές καταστάσεις. Όμως, για κάθε περίπτωση προκύπτει ένας μεγάλος όγκος δεδομένων που καθιστά απαραίτητη τη χρήση υπολογιστικών εργαλείων για την ανάλυσή του. Αντικείμενο αυτής της διπλωματικής είναι η ανάπτυξη μιας μεθοδολογίας για την ανάλυση των βιολογικών δεδομένων αλληλούχησης της β αλυσίδας του Τ κυτταρικού υποδοχέα. Στα πλαίσια αυτής της εργασίας χρησιμοποιήθηκε η βάση της ανοσογενετικής του IMGT για την ανάλυση των αλληλουχιών. Η διεξαγωγή της ανάλυσης υλοποιήθηκε με την υψηλού επιπέδου γλώσσα προγραμματισμού Python. Το αρχικό στάδιο της ανάλυσης ήταν η επεξεργασία των δεδομένων κάθε ασθενή ξεχωριστά. Στη συνέχεια, συγκρίθηκαν τα δεδομένα μεταξύ των ασθενών και τα δεδομένα NGS με τα δεδομένα Sanger του ίδιου δείγματος. Επιπλέον παρουσιάστηκαν κάποια συμπερασματικά διαγράμματα και συνοπτικοί πίνακες των αποτελεσμάτων της ανάλυσης. Τέλος, περιγράφηκε η ανάπτυξη βιοπληροφορικών εργαλείων στη διαδικτυακή πλατφόρμα του Galaxy. Η μεθοδολογία που περιγράφεται στα πλαίσια αυτής της διπλωματικής συνιστά μια πρώτη προσέγγιση της επεξεργασίας των δεδομένων αλληλούχησης υψηλής απόδοσης των αναδιατάξεων του Τ κυτταρικού υποδοχέα, η οποία μπορεί να αποτελέσει τη βάση για περαιτέρω επέκταση της μελέτης. 1

Abstract The development of Next-Sequencing Generation(NGS) improved the technique of sequencing. Recent studies of immunogenetics at TR and IG repertoire use the NGS technology. The large volume of data as a result of the analysis necessitates the use of computational tools. The subject of this thesis is a methodology of the sequencing data of TCR β chain. This study uses the immunogenetics database of IMGT for the analysis of sequences. The analysis implemented in the high level language Python. The initial stage of analysis was the data processing of each patient separately. Consequently, the data was compared among patient and the data of NGS technology with the data of Sanger technology. Finally, was depicted the development of bioinformatics tools in the web-based platform of Galaxy. The methodology of this thesis is a first approach at processing of NGS data of TCR sequences. A future study at this object could rely on this approach. 2

Ευχαριστίες Ευχαριστώ τον καθηγητή Ιατρικής σχολής και διευθυντή του Εργαστηρίου Ιατρικής Πληροφορικής Νικόλαο Μαγκλαβέρα για την επίβλεψη και την εμπιστοσύνη που έδειξε στο πρόσωπό μου προτείνοντας μου ένα τόσο ενδιαφέρον θέμα. Την επίκουρο καθηγήτρια της Ιατρικής σχολής Μαρία Παπαϊωάννου για το ενδιαφέρον της για την παρούσα εργασία. Τη λέκτορα Ιωάννα Χουβαρδά για την καθοδήγηση της και την πολύτιμη βοήθειά της. Τον διευθυντή του Ινστιτούτου Εφαρμοσμένων Βιοεπιστημών Κώστα Σταματόπουλο και τους συνεργάτες του Αναστασία Χατζηδημητρίου, Αλίκη Ξωχέλλη, Άννα Βαρδή και Ευαγγελία Σταλίκα για την συνεργασία και την βοήθειά τους στο βιολογικό, ιατρικό μέρος και την μεθοδολογία της διπλωματικής. Τον Δρ Χρήστο Μαραμή για την βοήθεια του στην ανάπτυξη των βιοπληροφορικών εργαλείων του Galaxy. Τέλος να ευχαριστήσω την οικογένεια μου για την στήριξη και την συμπαράσταση. 3

Περιεχόμενα Περίληψη... 1 Abstract... 2 Ευχαριστίες... 3 Κεφάλαιο 1... 6 1.1. Επίδραση της πληροφορικής στη Βιολογία... 6 1.2 Σκοπός της Διπλωματικής... 7 1.3 Διάρθρωση Διπλωματικής... 8 Κεφάλαιο 2... 9 2.1. Ανοσοποιητικό Σύστημα- Τ λεμφοκύτταρα... 9 2.2. Τ κυτταρικός υποδοχέας... 10 2.3. Χρόνια Ιδιοπαθής Ουδετεροπενία (CIN)... 11 2.4. Χρόνια Λεμφοκυτταρική Λευχαιμία (CLL)... 12 Κεφάλαιο 3... 15 3.1.Αλληλούχηση DNA... 15 3.2.Αλληλούχηση Επόμενης Γενιάς... 15 3.3. Η μορφή των αρχείων fastq... 16 3.4.Διαδικασία preprocessing... 17 3.5 Βιοπληροφορική ανάλυση των αποτελεσμάτων NGS... 17 3.6.Διεθνες Ανοσολογικό Πληροφοριακό Σύστημα (IMGT)... 18 Κεφάλαιο 4... 21 4.1. Ανάλυση δεδομένων ευρείας κλίμακας και απαιτήσεις δεδομένων NGS... 21 4.2. Η γλώσσα Python και οι δυνατότητές της.... 22 4.3.Οι βιβλιοθήκες της Python που χρησιμοποιήθηκαν στην ανάλυση.... 23 4.4. Συναρτήσεις, δομές δεδομένων και μέθοδοι των αλγορίθμων ανάλυσης δεδομένων. 24 Κεφάλαιο 5... 27 5.1 Η Ανάλυση των αλληλουχιών της β αλυσίδας του Τ κυτταρικού υποδοχέα.... 27 5.2. Τα κριτήρια του φιλτραρίσματος των δεδομένων... 27 5.3. Ανάλυση για κάθε ασθενή... 31 5.4. Ανάλυση μεταξύ ασθενών... 33 4

5.5. Σύγκριση δεδομένων αλληλούχησης Sanger με δεδομένα αλληλούχησης επόμενης γενιάς (NGS)... 35 Κεφάλαιο 6... 38 6.1. Παρουσίαση Αποτελεσμάτων... 38 6.2. Ανάλυση των Αποτελεσμάτων της Χρόνιας Ιδιοπαθούς Ουδετεροπενίας... 38 6.3Ανάλυση αποτελεσμάτων χρόνιας λεμφοκυτταρικής αναιμίας... 54 6.4. Απεικονίσεις των κοινών CDR3 των ασθενών που πάσχουν από χρόνια ιδιοπαθή ουδετεροπενία.... 60 6.4. Εισαγωγή εργαλείων ανάλυσης δεδομένων NGS στη πλατφόρμα Galaxy.... 61 Κεφάλαιο 7... 71 7.1. Συμπεράσματα-Συζήτηση... 71 Βιβλιογραφία... 74 Δημοσιεύσεις... 76 5

Κεφάλαιο 1 1.1. Επίδραση της πληροφορικής στη Βιολογία Η φύση των δεδομένων που προκύπτουν από τις βιολογικές μελέτες του 21 ου αιώνα καθιστούν απαραίτητη τη συμβολή της τεχνογνωσίας της πληροφορικής επιστήμης[1]. Και τα δύο επιστημονικά πεδία είναι τα πιο εξελισσόμενα με συνέπεια στη βιολογία να εμφανίζεται ένας μεγάλος όγκος δεδομένων που η πληροφορική διαθέτει τη δυνατότητα να επεξεργαστεί, να αποθηκεύσει και να ερμηνεύσει δαπανώντας ελάχιστο υπολογιστικό χρόνο και υλικό σε σχέση με το παρελθόν. Η επιστήμη της βιολογίας για να αντιμετωπίσει τα καινούρια βιολογικά προβλήματα και να διευρύνει το μέχρι τώρα επίπεδο της γνώσης χρειάζεται έναν τομέα της πληροφορικής που θα ενταχθεί στο βιολογικό πλαίσιο. Επομένως, κύριοι ρόλοι της πληροφορικής στη βιολογία αποτελούν η ανάπτυξη υπολογιστικών εργαλείων, η προσομοίωση των βιολογικών φαινομένων με υπολογιστικά μοντέλα, η μεταφορά μεθόδων και προοπτικών σε βιολογικά προβλήματα και η δημιουργία διαδικτυακών ή τοπικών υποδομών για την αναζήτηση δεδομένων αλλά και την επικοινωνία της επιστημονικής κοινότητας. Ως αποτέλεσμα, η επιστήμη της βιολογίας κάνει χρήση τεχνικών της πληροφορικής χρησιμοποιώντας ως γλώσσα την τεχνολογία των υπολογιστών. Απ' την άλλη πλευρά, και η πληροφορική αρχίζει να επηρεάζεται από τις νέες απαιτήσεις της βιολογίας, δημιουργώντας νέα λογισμικά, εξελίσσοντας την υπολογιστική ισχύ αλλά και διερευνώντας νέες υπολογιστικές τεχνικές. Με την εμφάνιση της νέας τεχνικής αλληλούχησης υψηλής απόδοσης ανέκυψαν ένα πλήθος προβλημάτων που για την επίλυσή τους κρινόταν απαραίτητη η συμμετοχή της πληροφορικής. Κατ αρχάς, ο μεγάλος όγκος των δεδομένων και η επεξεργασία τους καθιστούσε αναγκαία την οργάνωση και λειτουργία ενός υπολογιστικού συστήματος που να διαθέτει τον αποθηκευτικό χώρο αλλά και τις δυνατότητες επεξεργασίας για τη διεξαγωγή μεγάλου φόρτου εργασίας. Επιπλέον ζήτημα αποτελεί η διαχείριση των fastq αρχείων, ώστε να αξιοποιηθεί κατάλληλα όλη η πληροφορία που περιέχεται και να ακολουθήσει η ανάλυση των αλληλουχιών. Ωστόσο, ακόμα και αν γίνει η σωστή ανάλυση της κάθε αλληλουχίας και γίνει η ταυτοποίηση των γονιδίων που συμβάλλουν στη δημιουργία της, παρουσιάζεται ένα 6

νέο ζήτημα, με ποιον τρόπο θα αποκτηθεί η ουσιαστική πληροφορία ώστε να προκύψουν ακριβή συμπεράσματα. Σ αυτό το κομμάτι της ανάλυσης εμφανίζονται νέα υπολογιστικά θέματα που αφορούν το φιλτράρισμα των αρχείων, τον υπολογισμό ρεπερτορίων και γενικότερα την υλοποίηση κατάλληλων αλγορίθμων για την αναζήτηση των βιολογικών πληροφοριών. Επιπλέον, η περίπτωση των λαθών κατά τη διαδικασία της αλληλούχησης εισάγει την ανάγκη για ανάπτυξη πιθανοτικών μοντέλων που θα εκμεταλλεύονται αλγόριθμοι διόρθωσης λαθών, ώστε να εξαλειφθεί η τεχνητή διαφοροποίηση που εμφανίζεται στα ρεπερτόρια. Ως αποτέλεσμα, για την εξέλιξη της επιστήμης της βιολογίας είναι απαραίτητο να αξιοποιηθούν τα εργαλεία και οι τεχνικές που διαθέτει η επιστήμη των υπολογιστών. Αλλά και ένα μέρος των επιστημόνων της πληροφορικής θα πρέπει να είναι εξοικειωμένο με την βιολογική προέλευση των προβλημάτων, ούτως ώστε να προτείνουν ρεαλιστικές και ουσιαστικές λύσεις. Είναι φυσικό και επόμενο πλέον, για τη μελέτη βιολογικών φαινομένων να δημιουργούνται επιστημονικές ομάδες με επιστήμονες και από τα δύο επιστημονικά πεδία. 1.2 Σκοπός της Διπλωματικής Από το 2004 χρησιμοποιείται μια νέα τεχνική αλληλούχησης, η αλληλούχηση επόμενης γενιάς (NGS). Ο όγκος των δεδομένων μπορεί να φτάσει έως και το ένα δισεκατομμύριο βάσεις γεγονός που σημαίνει ότι απαιτείται μια νέα μεθοδολογία για την ανάλυση των δεδομένων. Η διπλωματική αυτή ασχολείται με τα δεδομένα της ανάλυσης του IMGT- HighV/QUEST που προέκυψαν από την αλληλούχηση της αναδιάταξης της β αλυσίδας του Τ κυτταρικού υποδοχέα για τις ασθένειες της χρόνιας ιδιοπαθής ουδετεροπενίας και της χρόνιας λεμφοκυτταρικής λευχαιμίας. Σκοπός της διπλωματικής είναι η διερεύνηση των δεδομένων για την εξαγωγή κάποιων αρχικών συμπερασμάτων για το περιεχόμενό τους. Τα αποτελέσματα αυτής της μελέτης ίσως μπορούν να αποτελέσουν μια βάση για την ανάπτυξη συγκεκριμένης μεθοδολογίας για την ανάλυση των αναδιατάξεων του Τ κυτταρικού υποδοχέα. 7

1.3 Διάρθρωση Διπλωματικής Το δεύτερο κεφάλαιο περιέχει κάποιες βασικές ιατρικές και βιολογικές έννοιες που είναι απαραίτητες για την κατανόηση της μελέτης των δεδομένων NGS. Στο τρίτο κεφάλαιο περιγράφεται η αλληλούχηση επόμενης γενιάς, η επεξεργασία των δεδομένων πριν την ανάλυση των βάσεων από το εργαλείο IMGT- HighV/QUEST και τα δεδομένα που προκύπτουν από το HighV/QUEST. Στο τέταρτο κεφάλαιο γίνεται μια αναφορά της μεθοδολογίας και των εργαλείων που χρησιμοποιήθηκαν για την ανάλυση των δεδομένων. Στο πέμπτο κεφάλαιο περιγράφονται διεξοδικά όλα τα στάδια της ανάλυσης των δεδομένων καθώς και οι ορισμοί κάποιων μεγεθών που σχετίζονταν μ αυτή. Στο έκτο κεφάλαιο παρουσιάζονται τα αποτελέσματα της ανάλυσης που έγινε για δεδομένα ασθενών της χρόνιας ιδιοπαθής ουδετεροπενίας και της χρόνιας λεμφοκυτταρικής λευχαιμίας, καθώς επίσης και κάποια εργαλεία που αναπτύχθηκαν στην πλατφόρμα του Galaxy. Τέλος, στο έβδομο κεφάλαιο γίνεται ένας συνολικός απολογισμός και παρατίθενται προτάσεις για μελλοντική έρευνα. 8

Κεφάλαιο 2 2.1. Ανοσοποιητικό Σύστημα- Τ λεμφοκύτταρα Το ανοσοποιητικό σύστημα είναι υπεύθυνο για την άμυνα του οργανισμού από τους παθογόνους παράγοντες. Η ανοσία διακρίνεται σε έμφυτη και προσαρμοστική. Τα κύρια χαρακτηριστικά της προσαρμοστικής ανοσίας είναι η εξειδίκευση και η μνήμη του αντιγόνου, δηλαδή κάθε ουσίας που προκαλεί μια άνοση απάντηση. Η προσαρμοστική ανοσία χωρίζεται σε χυμική και κυτταρική. Τα κύτταρα του ανοσοποιητικού που συμμετέχουν στην κυτταρική ανοσία είναι τα Τ λεμφοκύτταρα. Τα Τ λεμφοκύτταρα παράγονται στο μυελό των οστών και μεταναστεύουν στο θύμο αδένα κατά την εμβρυϊκή και νεογνική ζωή. Εκεί συμβαίνει η διαφοροποίησή τους σε ώριμα Τ-λεμφοκύτταρα, τα οποία υπάρχουν στον περιφερικό λεμφικό ιστό, στο αίμα και στη λέμφο. Κάθε T λεμφοκύτταρο φέρει στην επιφάνειά του έναν υποδοχέα[2] (T-cell receptor, TCR) εξειδικευμένο για ένα συγκεκριμένο αντιγόνο. Η τυχαία αναδιάταξη του γενετικού υλικού των T λεμφοκυττάρων είναι υπεύθυνη για τη δημιουργία διαφορετικής ειδικότητας υποδοχέα σε κάθε T λεμφοκύτταρο. Προκειμένου ν αναγνωριστεί το αντιγόνο από τα Τ λεμφοκύτταρα, πρέπει να έχει προηγηθεί η επεξεργασία και παρουσίασή του σε κατάλληλη μορφή από κάποιο αντιγονοπαρουσιαστικό κύτταρο (μακροφάγο, δενδριτικό κύτταρο, Β λεμφοκύτταρο). Τα Τ λεμφοκύτταρα διαιρούνται σε βοηθητικά/επαγωγικά και σε κατασταλτικά/κυτταροτοξικά. Τα κύτταρα της πρώτης κατηγορίας ενισχύουν την άνοση απάντηση και βοηθούν στη διαφοροποίηση των Β λεμφοκυττάρων σε πλασματοκύτταρα. Τα κατασταλτικά λεμφοκύτταρα έχουν ρυθμιστικό ρόλο, περιορίζοντας την άνοση απάντηση. Τα κυτταροτοξικά λεμφοκύτταρα έχουν ως αποστολή τη λύση κυττάρων που έχουν προσβληθεί από μικροοργανισμούς ή έχουν υποστεί κακοήθη εξαλλαγή και αναπτύσσονται ανεξέλεγκτα. 9

2.2. Τ κυτταρικός υποδοχέας Ο Τ κυτταρικός υποδοχέας είναι ένα πρωτεϊνικό μόριο που βρίσκεται στην επιφάνεια των Τ λεμφοκυττάρων[3]. Είναι υπεύθυνος για την αναγνώριση του κυρίου συμπλέγματος ιστοσυμβατότητας (MHC) των αντιγόνων. Επειδή η σύνδεση του αντιγόνου με τον Τ κυτταρικό υποδοχέα είναι χαλαρή, πολλά TCR αναγνωρίζουν ένα αντιγόνο και το αντίστροφο. Ο TcR συντίθεται από δύο διαφορετικές πρωτεϊνικές αλυσίδες, συνήθως α και β και σπανιότερα γ και δ. Κυρίως θα μας απασχολήσει η β αλυσίδα του Τ κυτταρικού υποδοχέα επειδή είναι η πιο καθοριστική για την αντιγονική ειδικότητα και έχει μελετηθεί εκτενώς σε ποικιλία παθολογικών καταστάσεων. Εικόνα 2-1.Οι δύο κατηγορίες του Τ κυτταρικού υποδοχέα με αβ ή γδ ετεροδιμερή. Στο χρωμόσωμα 7 και στην ζώνη 34 εντοπίζεται ο γενετικός τόπος της β αλυσίδας. Αποτελείται από 82-85 γονίδια, από τα οποία τα 63-66 αντιστοιχούν στην ομάδα γονιδίων TRBV που οργανώνονται σε 32 υποομάδες. Τα γονίδια J, D και C οργανώνονται σε δύο συστοιχίες. Στη μία υπάρχουν 6 γονίδια J, 1 γονίδιο D και το γονίδιο TRBC1 ενώ στην άλλη συστοιχία 8 γονίδια J, 1 γονίδιο D και το γονίδιο TRBC2. 10

Εικόνα 2-2. Γενετικός τόπος του TCRβ. http://imgt.org/imgtrepertoire Η αλυσίδα ΤCRβ συντίθενται από διακριτά γονίδια που ενώνονται με σωματικό ανασυνδυαμό (somatic recombination) κατά την εξέλιξη του T λεμφοκυττάρου[4]. Τα ανασυνδυασμένα V, D και J γονίδια μαζί με το γονίδιο της σταθερής περιοχής Cβ μεταγράφονται σε mrna που στη συνέχεια μεταφράζεται στο πρωτεϊνικό προϊόν της αλυσίδας β. Η περιοχή κάθε αλυσίδας του TcR που είναι κυρίως υπεύθυνη για τη σύνδεση με το αντιγόνο καλείται CDR3 και στη δημιουργία της συμμετέχουν τμήματα και των τριών κατηγοριών γονιδίων V, D και J. Η περιφέρεια του Τ-κυτταρικού υποδοχέα αποτελείται από τους CDR1 και CDR2 βρόχους που κωδικοποιείται από τα γονίδια V. Λόγω του ανασυνδυαμού των V, D και J γονιδίων καθώς και της προσθήκης των P και N νουκλεοτιδίων στις συμβολές των γονιδίων που ανασυνδυάζονται, η CDR3 περιοχή παρουσιάζει υψηλή μεταβλητότητα, ενώ η περιφέρεια του υποδοχέα χαμηλή. 2.3. Χρόνια Ιδιοπαθής Ουδετεροπενία (CIN) Η χρόνια Ιδιοπαθής ουδετεροπενία του ενηλίκου (Chronic Idiopathic Neutropenia of the Adult, CIN) είναι μια σχετικά συχνή κοκκιοκυτταρική διαταραχή που ορίζεται ως εμμένουσα και χωρίς υποκείμενη αιτία ελάττωση του απόλυτου αριθμού των κυκλοφορούντων ουδετεροφίλων κοκκιοκυττάρων (Absolute Neutrophil 11

Count, ANC) κάτω από τα κατώτερα όρια της φυσιολογικής διακύμανσης για μακρά χρονική περίοδο, μεγαλύτερη των τριών μηνών ή ακόμα και για ολόκληρη τη ζωή. Η διαταραχή είναι πιο συχνή σε άτομα μέσης ηλικίας, με διάμεση ηλικία διάγνωσης τα 50 έτη, ενώ η αναλογία γυναικών προς άνδρες είναι περίπου 8 προς 1. Ο μηχανισμός που προκαλεί τη χρόνια ιδιοπαθή ουδετεροπενία δεν είναι ακόμα γνωστός. Σημαντικό ρόλο στην παθοφυσιολογία της νόσου φαίνεται να επιτελούν τα ενεργοποιημένα Τ λεμφοκύτταρα τα οποία συσσωρεύονται στο μυελό των ασθενών. Μελέτη του ρεπερτορίου της μεταβλητής περιοχής της β αλυσίδας του υποδοχέα του Τ-λεμφοκυττάρου (T-cell receptor, TCRβ) σε μεγάλο αριθμό ασθενών με κυτταρομετρία ροής και CDR3 spectratyping ανέδειξε ολιγοκλωνικούς και σπανιότερα μονοκλωνικούς CD8 + υποπληθυσμούς στο αίμα και το μυελό των ασθενών. Τα δεδομένα αυτά είναι ενδεικτικά πιθανής διέγερσης των Τ- λεμφοκυττάρων των ασθενών υπό την επίδραση αντιγονικού ερεθισμού[5]. Για την αναζήτηση περαιτέρω ανοσογενετικών μοριακών ενδείξεων αναφορικά με το ρόλο της επιλογής από αντιγόνο στην έκπτυξη των CD8 + λεμφοκυτταρικών πληθυσμών που χαρακτηρίζει την CIN πραγματοποιήθηκε ανάλυση του ρεπερτορίου των γονιδίων TCRβ αναδεικνύοντας στην πλειονότητα των ασθενών αθροίσματα (clusters) ταυτόσημων αναδιατάξεων που αντιστοιχούσαν σε διακριτούς κλωνοτύπους (clonotypes) και ανάδειξη διαφορετικών κλωνοτύπων οι οποίες ανιχνεύονταν σε δείγματα διαφορετικών ασθενών («δημόσιοι κλωνοτύποι», public clonotypes). Η ανεύρεση κοινών αναδιατάξεων (κλωνοτύπων) σε διαφορετικούς ασθενείς, καταργεί τη λογική του τυχαίου και υπαινίσσεται ισχυρά επιλογή από κοινό αντιγόνο στην ανάπτυξη και, πιθανόν, εξέλιξη της CIN. 2.4. Χρόνια Λεμφοκυτταρική Λευχαιμία (CLL) Η ΧΛΛ είναι η πιο κοινή μορφή λευχαιμίας των ενηλίκων στο Δυτικό ημισφαίριο. Συχνά αναφέρεται και σαν λευχαιμία των ηλικιωμένων με μέση ηλικία διάγνωσης τα 72 έτη, αν και σε ένα ποσοστό 20-30%, μπορεί να διαγνωσθεί και σε ηλικία μικρότερη των 55 ετών. Η αναλογία ανδρών:γυναικών είναι 2:1 12

Στη ΧΛΛ, παρατηρείται in vivo συσσώρευση μονοκλωνικών Β λεμφοκυττάρων στο αίμα, στο μυελό των οστών και στους λεμφικούς ιστούς τα οποία συνεκφράζουν τους δείκτες CD5+, CD19, CD23 και έχουν χαμηλή έκφραση ανοσοσφαιρινών επιφανείας, δίνοντας έναν φαινότυπο ενεργοποιημένων Β λεμφοκυττάρων. Χαρακτηριστικά που είναι χρήσιμα στη διάγνωση της CLL είναι η χαμηλή έκφραση του CD79b και του CD22. Ιδιαίτερο ενδιαφέρον έχει η ανομοιογένεια που παρουσιάζει η κλινική πορεία των ασθενών με ΧΛΛ που ποικίλλει από ήπια και χωρίς ανάγκη θεραπείας για μεγάλο χρονικό διάστημα έως επιθετική, ταχέως εξελισσόμενη και ανθεκτική στη θεραπεία. Στην προσπάθεια κατανόησης αυτής της κλινικής ετερογένειας, έγινε επιτακτική η ανάγκη αναγνώρισης βιολογικών δεικτών σε ανοσοφαινοτυπικο, ανοσογενετικό και κυτταρογενετικό που θα έδιναν περισσότερες πληροφορίες για την οντογκαι εξέλιξη της νόσου. Επικεντρώνοντας στα ευρήματα από την ανοσογενετική μελέτη της, η ανάλυση των μεταλλάξεων των γονιδίων των ανοσοσφαιρινών αποκάλυψε δυο κατηγορίες οι οποίες έχουν διαφορετική κλινική πορεία αναλόγως με το αν παρουσιάζουν ή όχι σωματικές μεταλλάξεις. Σαν όριο σύγκρισης με των IGHV γονιδίων με τα μη αναδιατεταγμένα γονίδια επιλέχθηκε το 2% και επομένως τα γονίδια IGHV θεωρούνται ως «μεταλλαγμένα», αν παρουσιάζουν διαφορές >2% από το αντίστοιχο μη αναδιαταγμένο γονίδιο ενώ οι αλληλουχίες των γονιδίων IGHV που έχουν διαφορές 2% σε σχέση με το αντίστοιχο μη αναδιατεταγμένο γονίδιο θεωρούνται ως «αμετάλλακτες». Οι ασθενείς εκείνοι των οποίων οι αναδιατάξεις των γονιδίων είναι μεταλλαγμένες έχουν ευνοϊκή πορεία, ενώ αντιθέτως, οι ασθενείς εκείνοι των οποίων οι αναδιατάξεις είναι αμετάλλακτες, έχουν δυσμενή κλινική πορεία[6]. Επιπλέον, η μελέτη του Β κυτταρικού υποδοχέα (BCR) έδειξε ότι περίπου 30% των ασθενών με CLL φέρουν σχεδόν πανομοιότυπους «στερεότυπους» υποδοχείς και χωρίζονται σε υποομάδες με διαφορετική κλινική πορεία. Νέα στοιχεία δείχνουν ότι η αντιγονική διέγερση, μαζί με τις αλληλεπιδράσεις με τα βοηθητικά κύτταρα και κυτοκίνες, είναι ένας βάσιμος παράγοντας που διεγείρει τον πολλαπλασιασμό των κυττάρων της CLL και τους επιτρέπει να αποφεύγουν την απόπτωση. Αυτές οι επιδράσεις μπορεί να διαφέρουν σε 13

ξεχωριστές μορφές της CLL και ως εκ τούτου να οδηγούν σε διαφορές στην κλινική εικόνα μεμονωμένων περιπτώσεων. Επιπλέον, οι ασθενείς που πάσχουν από CLL φαίνεται να φέρουν εξειδικευμένα Τ λεμφοκύτταρα στην λευχαιμία στους πληθυσμούς των CD4 και CD8. Τέλος, στους ψευδοθύλακες των λεμφαδένων φαίνεται να υπάρχει επαφή μεταξύ Τ λεμφοκυττάρων και ογκοκυττάρων[7]. 14

Κεφάλαιο 3 3.1.Αλληλούχηση DNA Η αλληλούχηση του DNA (DNA sequencing) είναι η διαδικασία προσδιορισμού της ακριβής σειράς των νουκλεοτιδίων μέσα σ ένα μόριο DNA. Περιλαμβάνει οποιαδήποτε μέθοδο ή τεχνολογία που χρησιμοποιείται για να καθορίσει τη σειρά των τεσσάρων βάσεων -αδενίνη, γουανίνη, κυτοσίνη, θυμίνη - σε έναν κλώνο του DNA. Η ανάπτυξη ταχέων μεθόδων αλληλούχησης του DNA έχει επιταχύνει σε μεγάλο βαθμό τη βιολογική και ιατρική έρευνα. Η γνώση των αλληλουχιών DNA έχει καταστεί απαραίτητη για την έρευνα στη μοριακή βιολογία, στην εξελικτική βιολογία και στη μεταγονιδιωματική βιολογία (metagenomics). Οι πρώτες προσπάθειες αλληλούχησης του DNA έγιναν το 1977 από τους Allan Maxam και Walter Gilbert και από τον Frederick Sanger. Η μέθοδος αλληλούχησης Sanger βασίζεται στην in vitro αντιγραφή του DNA με τη χρήση ενός εκκινητή (primer), μιας DNA πολυμεράσης και δεοξυριβονουκλεοτίδιων (dntps) και δι-δεοξυριβονουκλεοτιδιων (ddntps)[8]. Πρόσφατα, η ανάγκη για αλληλούχηση μεγάλης κλίμακας και με χαμηλό κόστος οδήγησε στην ανάπτυξη της αλληλούχησης επόμενης γενιάς (next generation sequencing, NGS). Στη συγκεκριμένη τεχνολογία παραλληλίζεται η διαδικασία της αλληλούχησης με συνέπεια να παράγονται χιλιάδες ή και εκατομμύρια αλληλουχίες ταυτόχρονα. 3.2.Αλληλούχηση Επόμενης Γενιάς Κατά την τελευταία δεκαετία, οι τεχνολογίες της αλληλούχησης του DNA έχουν σημειώσει τεράστια πρόοδο με την ανάπτυξη των αλληλουχητών επόμενης γενιάς. Με τη συγκεκριμένη μεθοδολογία είναι εφικτή η αλληλούχηση εκατομμυρίων μορίων DNA ταυτόχρονα, σε αντίθεση με τις μεθόδους της κλασικής υποκλωνοποίησης που ευρέως εφαρμόζονταν τις τελευταίες δεκαετίες. Οι μέθοδοι αλληλούχησης επόμενης γενιάς εφαρμόζονται τα τελευταία 5 χρόνια στο πεδίο της ανοσογενετικής και αφορούν μελέτες ρεπερτορίου των γονιδίων IG/TR. 15

Πολλές διαφορετικές μεθοδολογικές προσεγγίσεις (πλατφόρμες) NGS έχουν αναπτυχθεί τα τελευταία χρόνια με τη χρήση διαφορετικών τεχνολογιών αλληλούχησης που χαρακτηρίζονται από διαφορετική ταχύτητα, ικανότητα επικάλυψης του στόχου και ανάλυση τμημάτων διαφορετικού μήκους. Η πλατφόρμα 454/Roche χρησιμοποιεί τεχνολογία Pyrosequencing, η οποία συνδυάζει την απλή προσθήκη νουκλεοτιδίων με ανίχνευση χημειοφωτάγειας σε ενισχυμένο προϊον PCR σε γαλάκτωμα (Emulsion PCR). Έχει τη δυνατότητα ανάλυσης κλασμάτων μεγέθους 700 bp με αντίστοιχο βάθος της τάξης 150,000 διαβάσματα σε κάθε πείραμα. Η πλατφόρμα Illumina/Solexa βασίζεται στην αλληλούχηση μέσω σύνθεσης με τη μεθοδολογία SBS (Sequence by Synthesis) και, στη συνέχεια, κλωνική ενίσχυση του δείγματος (Bridge amplification). Έχει την δυνατότητα ανάλυσης κλασμάτων μεγέθους 600 bp με αντίστοιχο βάθος της τάξης εκατομμυρίων διαβασμάτων σε κάθε πείραμα. Τέλος η τεχνολογία Ion Torrent/Life Technologies έχει τη δυνατότητα να αναλύσει ένα δισεκατομμύριο αλληλουχίες ανά πείραμα, μεγέθους 200 bp. 3.3. Η μορφή των αρχείων fastq Τα fastq αρχεία είναι μια μορφή αρχείου κειμένου για την αποθήκευση βιολογικών αλληλουχιών με το αντίστοιχο σκορ της ποιότητας διαβάσματος κάθε βάσης[9]. Το αρχείο fastq για κάθε αλληλουχία χρησιμοποιεί 4 γραμμές. Η πρώτη ξεκινά με τον χαρακτήρα @ και ακολουθείται από την επικεφαλίδα της αλληλουχίας και μια περιγραφή. Η δεύτερη γραμμή είναι οι βάσεις της αλληλουχίας που διαβάστηκαν από τον αλληλουχητή. Η τρίτη γραμμή ξεκινά με το + και προαιρετικά ακολουθείται από την επικεφαλίδα της αλληλουχίας. Η τέταρτη γραμμή περιλαμβάνει το σκορ της ποιότητας διαβάσματος της αλληλουχίας σε μορφή κώδικα ASCII για συντομία και πρέπει να περιέχει τόσους χαρακτήρες όσες είναι και οι βάσεις της αλληλουχίας της δεύτερης γραμμής[10]. Από την πλατφόρμα παράγονται δύο τέτοια αρχεία fastq που συνενώνονται, ώστε να ακολουθήσει ο προσδιορισμός των γονίδιων που συμμετέχουν στον 16

ανασυνδυασμό κάθε αλληλουχίας με τη βοήθεια της ανοσολογικής βάσης δεδομένων του IMGT. 3.4.Διαδικασία preprocessing Έχοντας προηγηθεί η απομόνωση της αλυσίδας β του Τ κυτταρικού υποδοχέα και ο πολλαπλασιασμός των αλληλουχιών με την διαδικασία της αλυσιδωτής αντίδρασης της πολυμεράσης, το δείγμα το οποίο προκύπτει διαβάζεται από τον NGS sequencer της Illumina. Το αποτέλεσμα αυτής της διαδικασίας είναι δύο αρχεία fastq. Σε κάθε αρχείο περιέχεται το διάβασμα κάθε αλληλουχίας από μία φορά. Αυτές οι δύο αλληλουχίες θα πρέπει να συνενωθούν έτσι ώστε να προκύψει μία αλληλουχία, η οποία θα είναι εφικτό να αναλυθεί περαιτέρω. Όμως, κατά τη διεκπεραίωση της συνένωσης των αλληλουχιών προκύπτουν αλληλουχίες με πολύ χαμηλό quality score καθώς επίσης και αλληλουχίες που είναι μόνο μια φορά διαβασμένες. Σ αυτές τις περιπτώσεις οι αλληλουχίες απορρίπτονται από τον αλγόριθμο. Στη συνέχεια, η συνένωση (stitching) επιτυγχάνεται αφού υπολογιστεί για τη μία αλληλουχία η αντίστροφη συμπληρωματική της (reverse complement). Στη περίπτωση που το κοινό σημείο επαφής των δύο αλληλουχιών είναι μικρότερο από το κριτήριο που έχει τεθεί τότε οι αλληλουχίες δεν συνενώνονται. Για την τελική αλληλουχία επιλέγονται οι βάσεις που παρουσιάζουν μεγαλύτερο quality score στη συγκεκριμένη θέση ώστε η αλληλουχία που θα προκύψει να έχει όσο το δυνατόν λιγότερα λάθη. 3.5 Βιοπληροφορική ανάλυση των αποτελεσμάτων NGS Ιδιαίτερο ενδιαφέρον στην επιστημονική κοινότητα προσελκύει η αναζήτηση τρόπων για την ανάλυση του τεράστιου όγκου δεδομένων που προκύπτουν από την εφαρμογή των παραπάνω μεθοδολογιών[11]. 17

Ανάλογα με την τεχνολογία, τα σφάλματα που προκύπτουν μπορεί να οφείλονται είτε στην αρχική προετοιμασία του δείγματος (ενίσχυση με PCR) και κατά τη διάρκεια προετοιμασίας της βιβλιοθήκης (PCR-errors), είτε στην αλληλούχηση (Sequence errors). Η εντόπιση των σφαλμάτων αυτών αλλά και η επιδιόρθωση τους (error correction) συγκεντρώνει το μεγαλύτερο βιοπληροφορικό ενδιαφέρον επειδή μπορεί να προσδώσει τεχνητή ποικιλομορφία στην ανάλυση του ρεπερτορίου και να οδηγήσει σε εξαγωγή λάθος συμπερασμάτων. Για το λόγο αυτό, κομβικής σημασίας στην ανάλυση των αποτελεσμάτων είναι η δημιουργία μιας ολοκληρωμένης βιοπληροφορικής προσέγγισης η οποία θα περιλαμβάνει αρχικά την σύνθεση των αλληλουχίων (forward reverse read) σε περιπτώσεις απουσίας αλληλουχίας αναφοράς, το φιλτράρισμα-διόρθωση των αλληλουχιών με βάση τα πιθανά λάθη και την ποιότητα του κάθε νουκλεοτιδίου, τη διόρθωση συστηματικών λαθών (PCR/Sequence based errors), την περαιτέρω προσέγγιση των δεδομένων (ανάλυση ρεπερτορίου TRBV γονιδίων, ανεύρεση κλωνοτύπων, σύγκριση αποτελεσμάτων μεταξύ δειγμάτων και ανεύρεση δημόσιων κλωνοτύπων). 3.6.Διεθνες Ανοσολογικό Πληροφοριακό Σύστημα (IMGT) Το Διεθνές Ανοσολογικό Πληροφοριακό Σύστημα αποτελεί αναφορά για την ανοσολογία και την ανοσοπληροφορική. Είναι μια πηγή ενσωματωμένης γνώσης που εξειδικεύεται στις ανοσοσφαιρίνες(ig) και τους Τ-κυτταρικούς υποδοχείς(tr) και στην κυρίως ιστοσυμβατότητα(mh) στον άνθρωπο και σε άλλα σπονδυλωτά[12]. Επιπλέον παρέχει πρόσβαση σε προτυποποιημένα δεδομένα γονιδιώματος, πρωτεώματος και τρισδιάστατων δομών. Αποτελείται από βάσεις δεδομένων, διαδραστικά διαδικτυακά εργαλεία και διαδικτυακές πηγές. Δύο από τα εργαλεία του IMGT που χρησιμοποιήθηκαν για την ανάλυση των αλληλουχιών είναι το IMGT/V-QUEST και το IMGT/HighV-QUEST. To IMGT/V- QUEST είναι το εργαλείο που χρησιμεύει στην αναγνώριση των μεταβλητών (V), των πολύμορφων (D) και των συνδετικών (J) γονιδίων αλλά και της περιγραφής των μεταλλάξεων στις ανασυνδυασμένες αλληλουχίες IG και TR. Το IMGT/highV- QUEST είναι η εκδοχή του IMGT/V-QUEST για την ανάλυση των IG και TR 18

αλληλουχιών που παράγονται από την αλληλούχηση της επόμενης γενιάς (NGS) σε δεσμίδες μέχρι και 500.000 αλληλουχιών. Το IMGT/highV-Quest δέχεται αρχεία fasta μορφής για να είναι δυνατή η ανάλυση των αλληλουχιών. Τα δεδομένα εξόδου που προκύπτουν, έχουν την παρακάτω μορφή. Εικόνα 3-1. Μορφή του φακέλου των αποτελεσμάτων του IMGT/HighV-QUEST. http://imgt.org/highv-quest. Κάθε αρχείο μορφής text περιέχει μια εκτενή ανάλυση για κάθε νουκλεοτιδική αλληλουχία. Επιγραμματικά κάθε αρχείο περιγράφει: Summary: περιέχει μια περιληπτική σύνθεση της ανάλυσης των δεδομένων εισόδου(input data). IMGT-gapped-nt-sequences: περιλαμβάνει τις νουκλεοτιδικές αλληλουχίες που εμφανίζουν διάκενα (gapped) σύμφωνα με το σύστημα αρίθμησης της μεταβλητής περιοχής του IMGT. Nt-sequences: περιλαμβάνει συνεχείς αλληλουχίες, χωρίς διάκενα [ungapped]. IMGT-gapped-AA-sequences: περιλαμβάνει τις gapped αμινοξικές αλληλουχίες. AA-sequences: περιλαμβάνει τις ungapped αμινοξικές αλληλουχίες. Junction: περιλαμβάνει τα αποτελέσματα από την ανάλυση της συμβολής V- D-J. V-REGION-mutation-and-AA-change-table: περιλαμβάνει τον κατάλογο των μεταλλάξεων (νουκλεοτιδικές μεταλλάξεις, αμινοξικές αλλαγές). 19

V-REGION-nt-mutation-statistics: περιλαμβάνει πεδία όπως αριθμός των νουκλεοτιδικών θέσεων όπου συνέβησαν μεταλλάξεις, αριθμός πανομοιότυπων νουκλεοτιδίων και άλλες αλλαγές στο γενετικό κώδικα. V-REGION-AA-change-statistics: περιλαμβάνει πεδία όπως αριθμός των θέσεων της αμινοξικής αλυσίδας όπου συνέβησαν αλλαγές, αριθμός των πανομοιότυπων αμινοξέων. V-REGION-mutation-hotspot: καταδεικνύει τη θέση των επικέντρων μεταλλαξιγένεσης (mutation hotspots) στις περιοχές FR και CDR. Parameters: περιέχει την ημερομηνία της ανάλυσης, την εκδοχή του V- QUEST και τις παραμέτρους που χρησιμοποιήθηκαν για την ανάλυση. IMGT_HighV-QUEST_individual_files_folder: ένας φάκελος που περιλαμβάνει αρχεία με την ανάλυση της κάθε αλληλουχίας. Πιο αναλυτικά το αρχείο Summary περιέχει βασικές πληροφορίες για την κάθε αλληλουχία όπως το είδος των γονιδίων που συμμετέχουν στον ανασυνδυασμό, το CDR3 του πρωτεϊνικού προϊόντος καθώς και τα ποσοστά συμφωνίας των αλληλουχιών με τη βλαστική σειρά (germline). Πληροφορίες απαραίτητες για την περαιτέρω ανάλυση των αλληλουχιών και την εξαγωγή συμπερασμάτων για την κατάσταση του δείγματος. 20

Κεφάλαιο 4 4.1. Ανάλυση δεδομένων ευρείας κλίμακας και απαιτήσεις δεδομένων NGS Όπως έχει γίνει αντιληπτό, τα δεδομένα που προκύπτουν από την αλληλούχηση επόμενης γενιάς (NGS) παρουσιάζουν μεγάλο μέγεθος, γεγονός που οδηγεί στην ανάγκη να χρησιμοποιηθούν νέοι τρόποι ανάλυσης. Επιπλέον, κάποιοι υπολογισμοί και ομαδοποιήσεις που ήταν δυνατόν να γίνουν με απλά εργαλεία (excel) τώρα απαιτούν την ανάπτυξη αλγορίθμων και τη χρήση μεθόδων γλωσσών προγραμματισμού υψηλού επιπέδου. Επομένως, τα δεδομένα NGS θα μπορούσαν να θεωρηθούν ως δεδομένα μεγάλης κλίμακας[13], όχι μόνο ως προς το μέγεθός τους, άλλα και όσον αφορά το πλήθος και την πολυπλοκότητα της πληροφορίας που περιέχουν. Οι απαιτήσεις που δημιουργούνται από τα δεδομένα NGS από θέματα υλικού είναι χώροι αποθήκευσης που θα περιέχονται τα δεδομένα ταξινομημένα, ώστε να απλοποιείται η αναζήτηση τους, υπολογιστές με αρκετή μνήμη Ram ώστε να καταχωρούνται δομές δεδομένων που προέρχονται από τα αρχεία δεδομένων, για να αναλυθούν από επεξεργαστή που θα εκτελεί μεγάλο φόρτο διεργασιών σε μικρό χρονικό διάστημα. Σε επίπεδο λογισμικού, είναι απαραίτητα εργαλεία που θα μπορούν να αξιοποιήσουν τους πόρους του υλικού με τον βέλτιστο τρόπο, η ανάπτυξη αλγορίθμων που θα εκμεταλλεύονται τα προγραμματιστικά εργαλεία και υπολογιστικές τεχνικές που απλοποιούν την επεξεργασία των δεδομένων καθώς και την σχεδίαση ενός μοντέλου που περιγράφει την ακολουθία των διαδικασιών που επιτελούνται για την ανάλυση των δεδομένων. Η ανάλυση δεδομένων[14] είναι η διαδικασία κατά την οποία τα δεδομένα επιθεωρούνται, φιλτράρονται, μετασχηματίζονται και μοντελοποιούνται με σκοπό να προκύψει η χρήσιμη πληροφορία και τα απαραίτητα συμπεράσματα. Η διαδικασία της ανάλυσης δεδομένων έχει διάφορα στάδια που ποικίλουν ανάλογα με το σκοπό της μελέτης. Κάποια στάδια που ακολουθούνται και στην δική μας ανάλυση είναι η αξιολόγηση των δεδομένων, το φιλτράρισμά τους από ανεπιθύμητη πληροφορία, 21

εύρεση συσχετίσεων μεταξύ τους, υπολογισμός κάποιων βασικών στατιστικών μεγεθών, εξαγωγή γραφημάτων που συνοψίζουν την πληροφορία και ερμηνεία των αποτελεσμάτων που προέκυψαν. 4.2. Η γλώσσα Python και οι δυνατότητές της. Η Python είναι μια υψηλού επιπέδου γλώσσα προγραμματισμού που η φιλοσοφία της βασίζεται στην εύκολη ανάγνωση του κώδικα και τη δυνατότητα υλοποίησης σεναρίων σε λίγες γραμμές κώδικα[15]. Επιπλέον, υποστηρίζει τεχνικές του δομημένου αλλά και του αντικειμενοστραφούς προγραμματισμού. Λόγω της γρήγορης εκτέλεσης του κώδικα της, μπορεί να χρησιμοποιηθεί για την επεξεργασία δεδομένων μεγάλης κλίμακας. Φυσικά, δεν παρουσιάζει την ταχύτητα των χαμηλού επιπέδου γλωσσών όπως η C και η C++. Ωστόσο, μπορεί να εκμεταλλευτεί την ταχύτητα τους χρησιμοποιώντας βιβλιοθήκες C και C++. Οι εφαρμογές που αναπτύσσονται σε Python είναι συμβατές με τα λειτουργικά συστήματα των Windows και Linux χωρίς να εμφανίζονται προβλήματα κατά την εκτέλεσή τους. Επιπλέον, περιέχει μια πληθώρα από βιβλιοθήκες που είναι χρήσιμες για την ανάπτυξη προγραμμάτων που αφορούν διαφορετικά επιστημονικά πεδία. Τέλος, είναι διαθέσιμη δωρεάν στο διαδίκτυο ή μαζί με άλλα συστήματα (Linux, Macintosh), γι αυτό τον λόγο υπάρχει μια μεγάλη κοινότητα προγραμματιστών που την υποστηρίζουν προτείνοντας λύσεις και βελτιώσεις. Συνεπώς, βασιζόμενοι στα πλεονεκτήματα της γλώσσας αλλά και η αποδοτικότητά της στην επεξεργασία των δεδομένων της αλληλούχησης νέας γενιάς, μας οδήγησαν στην επιλογή της. Η ευκολία στην εκμάθησή της, λόγω του διαθέσιμου υλικού στο διαδίκτυο, αλλά και η επίλυση σύνθετων προβλημάτων με εύχρηστα προγραμματιστικά εργαλεία της γλώσσας, βοήθησε στην διεκπεραίωση χρονοβόρων εργασιών σε σύντομο χρονικό διάστημα. 22

4.3.Οι βιβλιοθήκες της Python που χρησιμοποιήθηκαν στην ανάλυση. Η γλώσσα Python διαθέτει βιβλιοθήκες που περιέχουν εργαλεία για την ανάλυση δεδομένων, την επεξεργασία αλφαριθμητικών(strings) και βιολογικών δεδομένων. Τα εργαλεία των βιβλιοθηκών έχουν τη δυνατότητα να απομονώσουν και να επεξεργαστούν ένα κομμάτι των δεδομένων χρησιμοποιώντας απλές μεθόδους. Συνεπώς, χρησιμοποιούνται δομές που διευκολύνουν την ανάλυση των δεδομένων. Κατ αρχάς, η χρήση των δομών δεδομένων και των διαχειριστικών εργαλείων της βιβλιοθήκης pandas[16] διευκόλυνε την ανάλυση δεδομένων που προήλθαν από το IMGT/HighV-QUEST. Οι δομές δεδομένων της βιβλιοθήκης έχουν επισημασμένους άξονες και ευθυγραμμίζουν αυτόματα τα δεδομένα. Οι συναρτήσεις εισόδου και εξόδου που διαθέτει αξιοποιούν αρχεία δεδομένων οργανωμένα σε πίνακες(tabular files) και τα αποτελέσματα εξάγονται σε κατανοητή μορφή. Επιπλέον, μπορεί να συνδυαστεί με βιβλιοθήκες που περιέχουν συναρτήσεις επεξεργασίας αλφαριθμητικών, εξαιρετικά χρήσιμες για τη μορφοποίηση των δεδομένων. Τέλος, διαθέτει λειτουργίες αναζήτησης και ομαδοποίησης που υπάρχουν στις βάσεις δεδομένων. Οι συναρτήσεις που παρείχε η βιβλιοθήκη difflib[17], συνέβαλαν στην σύγκριση και την εύρεση των διαφορών μεταξύ των κλωνοτύπων και των αμινοξικών αλληλουχιών, ώστε να καθοριστεί ο βαθμός της ανομοιογένειας των αλληλουχιών. Για κάποιους απαραίτητους υπολογισμούς που εφαρμόζονται σε βιολογικά δεδομένα η python διαθέτει ένα σύνολο από εργαλεία που περιέχει η βιβλιοθήκη biopython. Κάποιες από τις δυνατότητες της βιβλιοθήκης είναι η επεξεργασία των αλληλουχιών, αναζήτηση δεδομένων σε βάσεις με βιολογική πληροφορία (NCBI Entrez), ανάλυση(parsing) αρχείων εξόδου από αλγορίθμους επεξεργασίας βιολογικών δεδομένων (BLAST). Τέλος, χρησιμοποιήθηκε η networkx[18], για απεικόνιση και μελέτη των ρεπερτορίων των ασθενών, με τη δημιουργία δικτύων γράφων αλλά και τον υπολογισμό των ιδιοτήτων του δικτύου. Παρακάτω, θα περιγραφούν πιο διεξοδικά τα εργαλεία που οι παραπάνω βιβλιοθήκες πρόσφεραν στην ανάλυση των δεδομένων της αλληλούχησης επόμενης γενιάς. Όμως γίνεται φανερό, η γλώσσα python επιλέχθηκε λόγω των εργαλείων επεξεργασίας των βιολογικών δεδομένων που προσφέρει. 23

4.4. Συναρτήσεις, δομές δεδομένων και μέθοδοι των αλγορίθμων ανάλυσης δεδομένων. Για την διεξαγωγή της επεξεργασίας και ανάλυσης των βιολογικών δεδομένων, θα πρέπει να αναπαρασταθούν σε κατάλληλες δομές, εύκολα διαχειρίσιμες από ένα μεταγλωττιστή. Οι δομές δεδομένων που χρησιμοποιήθηκαν για την ανάλυση είναι οι λίστες(list), τα λεξικά(dictionary) και τα πλαίσια δεδομένων (dataframes). Παρακάτω ακολουθεί μια επεξήγηση για τις ιδιότητες τους και το ρόλο που έπαιξαν στην επεξεργασία των δεδομένων που διαθέταμε. Λίστα: είναι μια δομή που περιέχει ένα αριθμό αντικειμένων σε μια συγκεκριμένη διάταξη. Δίνει τη δυνατότητα της επιλογής του κάθε αντικειμένου ανάλογα με τη θέση που βρίσκεται στη λίστα και να προστεθεί ή να αφαιρεθεί ένας αριθμός από αντικείμενα. Οι πολλαπλές λειτουργίες και η επαναληψιμότητα (iteration) της python καθίστα τις λίστες ιδιαίτερα εύχρηστες. Λεξικό: είναι μια ευέλικτη δομή με όχι τόσο αυστηρή διάταξη όπως η λίστα. Αποτελείται από ζευγάρια κλειδιού(key)-τιμής(value) και θα μπορούσε να χαρακτηριστεί ως ένας κατακερματισμένος πίνακας. Πλαίσιο δεδομένων[19]: αναπαριστά ένα πίνακα που έχει ταξινομημένες στήλες και μπορεί να περιέχει διαφορετικό τύπο δεδομένων (π.χ αριθμό, αλφαριθμητικό, λογική τιμή). Διαθέτει δείκτες για τις σειρές και τις στήλες της δομής. Μία λίστα ή ένα λεξικό μπορεί εύκολα να καταχωρηθεί σε ένα πλαίσιο δεδομένων. Για να γίνει εφικτή η επεξεργασία των δεδομένων ενός αρχείου θα πρέπει πρώτα να διαβαστεί με μία μέθοδο. Η βιβλιοθήκη της pandas διαθέτει μεθόδους που διαβάζουν αρχεία που περιέχουν δεδομένα τύπου πίνακα όπως η συνάρτηση read_csv. Η συγκεκριμένη συνάρτηση έχει την ευχέρεια να διαβάζει τμηματικά ένα αρχείο και να το καταχωρεί σε μια δομή πλαισίου δεδομένων. Η κατάτμηση ενός αρχείου εξυπηρετεί στην περίπτωση που το αρχείο εμφανίζει μεγάλο όγκο δεδομένων. Για την αποθήκευση ενός πλαισίου δεδομένων σε ένα αρχείο υπάρχει η αντίστοιχη μέθοδος out_csv με την δυνατότητα επιλογής ενός χαρακτήρα που θα διαχωρίζει τα δεδομένα. Αντίστοιχα η μέθοδος out_excel αποθηκεύει σε ένα αρχείο excel τα δεδομένα ενός πλαισίου δεδομένων. 24

Όπως ειπώθηκε προηγουμένως, η βιβλιοθήκη της pandas διαθέτει μεθόδους που έχουν προέλθει από εφαρμογές σε βάσεις δεδομένων. Μ αυτό τον τρόπο, τα δεδομένα είναι εφικτό να ομαδοποιηθούν, να φιλτραριστούν και συγχωνευθούν. Οι μέθοδοι που αξιοποιήθηκαν κατά την ανάπτυξη των αλγορίθμων ανάλυσης παρουσιάζονται επιγραμματικά παρακάτω. Groupby: ομαδοποιεί ένα πλαίσιο δεδομένων με κριτήριο έναν αριθμό στηλών δημιουργώντας ένα αντικείμενο. Το αντικείμενο μπορεί να αξιοποιηθεί με τη χρήση συναρτήσεων που υπολογίζουν είτε στατιστικά μεγέθη ή κάποια ποιοτικά χαρακτηριστικά του πλαισίου δεδομένων. Sort: ταξινομεί ένα πλαίσιο δεδομένων με κριτήριο έναν αριθμό στηλών. Merge: συνδυάζει σύνολα δεδομένων με βάση κάποιο κριτήριο. Αφήνει την επιλογή στην ευχέρεια του προγραμματιστή για τον τρόπο που θα συγχωνευθούν τα δεδομένα. Για την επεξεργασία των αλληλουχιών κρίθηκε αναγκαίο να εκμεταλλευτούμε τις δυνατότητες που προσφέρουν οι βιβλιοθήκες αλφαριθμητικών αλλά και επεξεργασίας βιολογικών δεδομένων της γλώσσας Python αλλά και αλγορίθμους της θεωρίας πληροφοριών που έχουν αναπτυχθεί για την επίλυση ζητημάτων που προέκυψαν στην ανάλυσή μας. Παρακάτω αναφέρονται κάποιες συναρτήσεις που χρησιμοποιήθηκαν γι' αυτόν τον σκοπό. Hamming distance: μετράει τις αλλαγές ενός αλφαριθμητικού που χρειάζεται ώστε να μετατραπεί στο άλλο συγκρινόμενο αλφαριθμητικό. Sequence Matcher: δέχεται ως ορίσματα δύο αλφαριθμητικά και δημιουργεί ένα αντικείμενο που περιγράφει τα κομμάτια των δύο αλφαριθμητικών που ταυτίζονται. Pairwise Alignment: η biopython περιέχει ένα πακέτο συναρτήσεων που στοιχίζει δύο αλληλουχίες χρησιμοποιώντας τη μέθοδο του δυναμικού προγραμματισμού. Μ αυτή την τεχνική έχουμε δύο τύπους αλγορίθμων στοίχισης την ολική(global) και την τοπική(local). Στην ολική στοίχιση, ο αλγόριθμος αναζητά την βέλτιστη αντιστοιχία σε όλο το μήκος των αλληλουχιών. Γνωστός αλγόριθμος της ολικής στοίχισης είναι ο Needleman-Wunsch[20]. Στην τοπική στοίχιση γίνεται η καλύτερη δυνατή στοίχιση μεταξύ τμημάτων των δύο αλληλουχίων. Ο αλγόριθμος Smith-Waterman[21] είναι ένας γνωστός αλγόριθμος τοπικής στοίχισης. Στην ανάλυση εφαρμόστηκαν κυρίως συναρτήσεις ολικής στοίχισης που υπολογίζουν σκορ ομοιότητας που σχετίζεται με τον αριθμό των διαφορών και εισαγωγών της ευθυγράμμισης 25

Για μια αδρή προσπάθεια περιγραφής και απεικόνισης του ρεπερτορίου των TCR δεδομένων εκμεταλλευτήκαμε τις ιδιότητες των γράφων. Οι γράφοι είναι μαθηματικές δομές που σκοπό έχουν να περιγράψουν μοντέλα που τα στοιχεία τους παρουσιάζουν συγγένεια. Τα αντικείμενα του μοντέλου αναπαριστώνται με κόμβους ενώ η ιδιότητα που εμφανίζουν συγγένεια δύο αντικείμενα απεικονίζεται με μια ακμή. Γενικά, το ζευγάρι ενός διανυσμάτων κόμβων με ένα διάνυσμα ακμών παριστάνει ένα γράφο(g=(v,e)). Οι θεωρία γράφων εφαρμόζεται σε διάφορα επιστημονικά πεδία (πληροφορική, χημεία, εφαρμοσμένες επιστήμες, κοινωνιολογία) και είναι αντικείμενο μελέτης των διακριτών μαθηματικών. 26

Κεφάλαιο 5 5.1 Η Ανάλυση των αλληλουχιών της β αλυσίδας του Τ κυτταρικού υποδοχέα. Το αντικείμενο της μελέτης ήταν δείγματα ασθενών με χρόνια ιδιοπαθή ουδετεροπενία(cin) και χρόνια λεμφοκυτταρική λευχαιμία(cll). Στην πρώτη περίπτωση αναλύθηκαν τα αποτελέσματα 13 ασθενών ενώ στη δεύτερη 19. Αφού τα δείγματα ακολούθησαν τη διαδικασία της αλληλούχησης, τα αποτελέσματα που προήλθαν από την πλατφόρμα αλληλούχησης επεξεργάστηκαν από τον αλγόριθμο συνένωσης(stiching) και κάθε αναδιάταξη αναλύθηκε από την βάση της ανοσογενετικής IMGT. Από την αλληλούχηση των αναδιατεταγμένων αλληλουχιών της β αλυσίδας του Τ κυτταρικού υποδοχέα προκύπτουν αρχεία σε μέγεθος γίγα-βάσης (Gb). Αρχεία που για να αναλυθούν χρειάζεται να εφαρμοστούν αλγόριθμοι ανάλυσης δεδομένων για να προκύψει κάποιο συμπέρασμα. Οι πληροφορίες που παρέχει το HighV/Quest είναι λεπτομερείς και αναλυτικές για κάθε αλληλουχία, συνεπώς θα πρέπει να γίνει μια επιλογή των πληροφοριών ώστε η μελέτη να απαντά σε συγκεκριμένα βιολογικά προβλήματα. Σ αυτή τη λογική βασίστηκε η ανάλυση που ακολουθεί, με την επιλογή δεδομένων με βάση συγκεκριμένα κριτήρια, την ομαδοποίηση τους και την απεικόνιση των αποτελεσμάτων, ώστε να γίνει πιο ξεκάθαρο το περιεχόμενο των ρεπερτορίων που αλληλουχήθηκαν με υψηλή απόδοση(high-throuput sequencing). 5.2. Τα κριτήρια του φιλτραρίσματος των δεδομένων Η αρχική επεξεργασία που εκτελείται αφορά τις ιδιότητες κάθε αλληλουχίας. Πραγματοποιείται ένα είδους φιλτραρίσματος της πληροφορίας, ώστε να αναλυθεί το ρεπερτόριο κάθε ασθενή με περιεχόμενο που θα είχε ουσία για την μελέτη του. Με άλλα λόγια, κάποιες αλληλουχίες εμφανίζουν χαρακτηριστικά που δεν θεωρείται αναγκαίο να ληφθούν υπόψη κατά τη διεξαγωγή της μελέτης. Αυτά τα χαρακτηριστικά περιγράφονται με σαφήνεια στα αρχεία που προέκυψαν από την 27

σύγκριση με τις αλληλουχίες αναφοράς της βάσης ανοσογεννητικής του IMGT. Πολλές φορές η σύγκριση είναι ανεπιτυχής, γι αυτό τον λόγο δεν υπάρχουν πληροφορίες, με συνέπεια να μην είναι απαραίτητες και να αφαιρούνται από το πλαίσιο της ανάλυσης. Μία ιδιότητα του Τ κυτταρικού υποδοχέα είναι η λειτουργικότητα (functionality). Μία πρωτεΐνη μπορεί να περιγραφεί ως παραγωγική (productive) και μη παραγωγική (unproductive). Για να χαρακτηριστεί ένας Τ κυτταρικός υποδοχέας μη παραγωγικός θα πρέπει: Η περιοχή κωδικοποίησης της αναδιατεταγμένης πρωτεΐνης να περιέχει κωδικόνια τερματισμού (stop codon). Να έχουν υποστεί αλλαγές: o το κωδικόνιο έναρξης της μετάφρασης o οι περιοχές σύνδεσης (splicing sites) o και οι ρυθμιστικοί παράγοντες (regulatory elements). Το CDR3 να είναι εκτός πλαισίου ανάγνωσης. Να παρουσιάζει γενετικές αλλαγές με αποτέλεσμα να διαταράσσεται η έκφραση του γονιδιώματος σε κωδικόνια (Frameshift mutations). Οι μεταβολές των αμινοξέων οδηγούν σε λανθασμένη αναδίπλωση της πρωτεΐνης. Στην περίπτωση που δεν συντρέχουν οι παραπάνω λόγοι έχουμε έναν παραγωγικό Τ κυτταρικό υποδοχέα. Συνεπώς, για την ανάλυση του ρεπερτορίου θα ήταν ωφέλιμο να επιλεχθούν αλληλουχίες που οδηγούν σε παραγωγικούς Τ υποδοχείς. Όπως έχει αναφερθεί το γονίδιο V αποτελεί ένα μεγάλο κομμάτι της β αλυσίδας του Τ κυτταρικού υποδοχέα. Επομένως, για την ανάλυση είναι απαραίτητο να ληφθεί υπόψη το είδος του γονιδίου V και να ελεγχθεί εάν είναι λειτουργικό. Η λειτουργικότητα του V τμήματος αξιολογείται ως λειτουργικό (Functional), ανοιχτού πλαισίου ανάγνωσης(orf) και ψευδογονίδιο. Ένα λειτουργικό V γονίδιο δεν παρουσιάζει κωδικόνια τερματισμού και διαθέτει ένα κανονικό πλαίσιο ανάγνωσης κωδικονίων χωρίς να εμφανίζονται νουκλεοτίδια που δεν ανήκουν σε μία τριπλέτα κωδικοποίησης ενός αμινοξέος. Ένα γονίδιο χαρακτηρίζεται ως ORF όταν εμφανίζει ανοιχτό πλαίσιο ανάγνωσης(open reading frame) αλλά παρουσιάζει αλλαγές στις περιοχές συνδέσεως ή οδηγεί σε λανθασμένη αναδίπλωση της πρωτεΐνης ή δεν βρίσκεται στην κύρια περιοχή του χρωμοσώματος. Τέλος, υπάρχει και η πληροφορία 28

του αλληλομόρφου γονιδίου που είναι χρήσιμη στην περίπτωση που χρειαζόμαστε μια πιο λεπτομερή ανάλυση. Ένα ακόμα χαρακτηριστικό που προσφέρει το IMGT και εκμεταλλευόμαστε στην ανάλυση μας είναι το ποσοστό της ταύτισης του τμήματος του V της αλληλουχίας που διαθέτουμε με το V γονίδιο αναφοράς στον γενετικό τόπο. Σ αυτή την περίπτωση θα περιμέναμε στη μελέτη των T κυτταρικών υποδοχέων τα ποσοστά να ισούνται με 100%, διότι στο τμήμα του Τ κυτταρικού υποδοχέα που κωδικοποιείται από το V γονίδιο δεν εμφανίζονται μεταλλάξεις. Ωστόσο, παρατηρούμε ότι παρουσιάζονται ποσοστά ταύτισης του V γονιδίου μικρότερα του 100%. Αυτό το φαινόμενο οφείλεται στα σφάλματα που υπεισέρχονται κατά τη διαδικασία της PCR/sequencing. Όπως έχει αναφερθεί, το CDR3 είναι το τμήμα της β αλυσίδας που προσδένεται με το αντιγόνο και έχει προέλθει από τον ανασυνδυασμό των γονιδίων V, J και D. Επομένως, αποτελεί μείζων ζήτημα ο εντοπισμός του και η λειτουργικότητά του. Όταν αναφερόμαστε στον εντοπισμό του CDR3, εννοούμε την εύρεση του τμήματος με αρχικό κωδικόνιο το αμινοξύ της κυστεΐνης και τελικό κωδικόνιο το αμινοξύ της φαινυλαλαλίνης που περιέχεται στις αναδιατάξεις της β αλυσίδας. Επιπλέον, η λειτουργικότητα της αμινοξικής συμβολής καθορίζεται από την μη ύπαρξη κωδικονίων τερματισμού ή κωδικόνια που δεν αντιστοιχούν σε αμινοξύ εντός της, να παρουσιάζει ένα πλαίσιο ανάγνωσης όπου ο αριθμός των βάσεων αποτελεί πολλαπλάσιο του 3 και να προηγείται του πρώτου αμινοξέως το αμινοξύ της κυστείνης (C) και να ακολουθεί το τελευταίο αμινοξύ της συμβολής το αμινοξύ της φαινυλαλαλίνης (F). Επομένως κατά την διαδικασία του φιλτραρίσματος εφαρμόζεται ένας αλγόριθμος που ακολουθεί τα παρακάτω βήματα: 1. Διαβάζεται το αρχείο Summary των αποτελεσμάτων που προήλθαν από το HighV-QUEST του IMGT. 2. Γίνεται έλεγχος στα πεδία AA JUNCTION και V-GENE and allele εάν είναι κενά. Στην περίπτωση που ένα εκ των δύο ή και τα δύο είναι κενά τότε αφαιρείται το συγκεκριμένο διάβασμα (read) και αποθηκεύεται σε μια άλλη δομή πλαισίου(dataframe) με ένα επιπλέον πεδίο REASON που αιτιολογεί το λόγο που απορρίφθηκε το συγκεκριμένο διάβασμα. Στη συγκεκριμένη περίπτωση το πεδίο REASON παίρνει την τιμή «Noresults». 3. Επιλέγονται τα γονίδια V του πεδίου V-GENE and allele με την ένδειξη F που σημαίνει ότι είναι λειτουργικά. Επίσης, αφαιρείται το είδος του 29

αλληλομόρφου και διατηρείται μόνο το είδος του κυρίως γονιδίου. Στην περίπτωση που αντιστοιχούν σε μία αλληλουχία περισσότερα από ένα διαφορετικά λειτουργικά γονίδια V τότε διατηρούνται και τα δύο. Οι αλληλουχίες που εμφανίζουν στο πεδίο V-GENE and allele γονίδια με την ένδειξη «ORF or P» καταχωρούνται στη δομή πλαισίου των απορριφθέντων αλληλουχιών με την τιμή P or ORF στο πεδίο REASON. 4. Απορρίπτονται οι αλληλουχίες που στο πεδίο AA JUNCTION το CDR3 τους περιέχει τους χαρακτήρες X,#,* που δεν αντιστοιχούν σε αμινοξέα. Οι αλληλουχίες που περιέχουν στο CDR3 τους τα παραπάνω σύμβολα καταχωρούνται στη δομή πλαισίου των απορριφθέντων με την τιμή «X,#,*» στο πεδίο REASON. 5. Επιλέγονται οι αλληλουχίες που στο πεδίο του Functionality έχουν την τιμή Productive, δηλαδή αλληλουχίες που μεταφράζονται σε λειτουργικές β αλυσίδες του T υποδοχέα. Οι αλληλουχίες που είναι unproductive καταχωρούνται στη δομή πλαισίου των απορριφθέντων με την αιτιολογία «unproductive» στο πεδίο REASON. 6. Γίνεται έλεγχος στο πεδίο AA JUNCTION εάν το CDR3 ξεκίνα με το αμινοξύ της κυστεΐνης C και τελειώνει με το αμινοξύ της φαινυλαλαλίνης F. Στην περίπτωση που οι αλληλουχίες έχουν CDR3 που δεν ικανοποιεί την παραπάνω συνθήκη τότε απορρίπτονται και καταχωρούνται στη δομή πλαισίου με την αιτιολογία «Not C..F». 7. Επιλέγονται οι αλληλουχίες που στο V-REGION identity % παρουσιάζουν ποσοστό άνω του 95% αυτό σημαίνει ότι κατά προσέγγιση έως 9-10 νουκλεοτίδια του τμήματος του V γονιδίου παρουσιάζουν διαφορά σε σχέση με τη βλαστική σειρά (germline). Οι υπόλοιπες αλληλουχίες απορρίπτονται με την αιτιολογία «identity<95». 8. Σ όλα τα παραπάνω βήματα καταχωρείται σε μια λίστα ο αριθμός των αλληλουχιών που επιλέγονται και ο αριθμός που απορρίπτονται. 9. Γίνεται επεξεργασία των τιμών των πεδίων J-GENE and allele και D-GENE and allele αφαιρώντας το μέρος του αλφαριθμητικού που αφορά το αλληλόμορφο γονίδιο. 10. Εξαγωγή του πλαισίου δεδομένων των απορριφθέντων αλληλουχιών σε ένα αρχείο κειμένου tab delimited. Ανάλογα με τον σκοπό της μελέτης κάποια βήματα του αλγορίθμου όσον αφορά τα κριτήρια επιλογής των αλληλουχιών μπορούσαν να παραλειφθούν ή να παραλλαχτούν. Μετά την εκτέλεση των βημάτων του παραπάνω αλγορίθμου δημιουργείται μια δομή δεδομένων φιλτραρισμένη και με την αναγκαία πληροφορία, ώστε να επιτευχθεί η περαιτέρω ανάλυση και η εξαγωγή των ρεπερτορίων. 30

5.3. Ανάλυση για κάθε ασθενή Όπως αναφέρθηκε και προηγουμένως, αφού πάρουμε τα δεδομένα που προκύπτουν από την πλατφόρμα της αλληλούχησης για κάθε δείγμα από κάθε ασθενή και ενοποιηθούν τα δύο αρχεία και αναλυθούν από το HighV-QUEST του IMGT, τότε φιλτράρεται σύμφωνα με τα κριτήρια που αναλύθηκαν προηγουμένως. Στη συνέχεια για κάθε δείγμα ακολουθείται ανάλυση που σκοπό έχει να συγκεντρώσει τα δεδομένα και να υλοποιήσει τους απαραίτητους υπολογισμούς. Αρχικά, από τα φιλτραρισμένα δεδομένα υπολογίζονται οι κλωνότυποι του ρεπερτορίου του δείγματος. Ως κλωνότυπος θεωρείται το είδος του V γονιδίου που συμμετέχει στο σχηματισμό της β αλυσίδας και το CDR3 που δημιουργείται από τον ανασυνδυασμό των γονιδίων V,J και D. Μ αυτό τον τρόπο έχουμε ένα περιεκτικό χαρακτηρισμό της αλληλουχίας και είναι δυνατό να ομαδοποιηθούν οι αλληλουχίες με κριτήριο το είδος του κλωνοτύπου. Για τον υπολογισμό των κλωνοτύπων ομαδοποιείται το σύνολο των αλληλουχιών με κριτήριο τις τιμές των πεδίων που περιγράφει το είδος του γονιδίου V(V-GENE) και του πεδίου που περιέχει την αμινοξική αλληλουχία του CDR3 (AA- JUNCTION). Μ αυτόν τον τρόπο έχουμε ένα σύνολο ομάδων που περιέχουν αλληλουχίες με ίδιο V γονίδιο και ίδιο CDR3, επομένως έχουν ίδιο κλωνότυπο. Στη συνέχεια υπολογίζεται το μέγεθος των ομάδων, δηλαδή ο αριθμός των αλληλουχιών που χαρακτηρίζονται από ίδιο V γονίδιο και ίδιο CDR3 ή αλλιώς ο αριθμός των διαβασμάτων του συγκεκριμένου κλωνότυπου. Τέλος, η συχνότητα εμφάνισης του κλωνοτύπου υπολογίζεται από το πηλίκο του πλήθους των αλληλουχιών με ίδιο V και CDR3 προς το συνόλο των αλληλουχιών του δείγματος. Στην περίπτωση που μία αλληλουχία εμφάνιζε ίδια πιθανότητα να προήλθε από τουλάχιστον δύο διαφορετικά V γονίδια θεωρήθηκε ως ξεχωριστή περίπτωση κλωνοτύπου. 31

Μετα τον παραπάνω υπολογισμό διαπιστώνουμε ότι εμφανίζονται κλωνότυποι που είναι μεμονωμένοι (singletons) και υπάρχουν κλωνότυποι που εμφανίζονται σε δύο ή και περισσότερες αλληλουχίες δημιουργώντας συστάδες (clusters). Η εμφάνιση μεμονωμένων κλωνοτύπων είναι αναμενόμενη. Ωστόσο ένα μέρος τους μπορεί να οφείλεται σε σφάλμα είτε κατα την αλληλούχηση ή στην αλυσιδωτή αντίδραση πολυμεράσης. Ο υπολογισμός του είδους και του αριθμού των κλωνοτύπων είναι ένα πρώτο στάδιο της μελέτης των ρεπερτορίων των δειγμάτων που έχουμε στη διάθεση μας. Ένα επόμενο στάδιο της διερεύνησης είναι ο υπολογισμός του αριθμού των κλωνοτύπων που συμμετέχει το ίδιο γονίδιο V. Όπως περιγράφεται παραπάνω, το V γονίδιο αποτελεί το μεγαλύτερο κομμάτι της β αλυσίδας και ένα μέρος του περιλαμβάνεται από το CDR3. Τα υπόλοιπα τμήματα της αμινοξικής συμβολής συμπληρώνονται από τα γονίδια D και J καθώς επίσης και από μια σταθερή περιοχή C. Επομένως, θα ήταν ωφέλιμο να ερευνηθεί το πλήθος των διαφορετικών CDR3 που σχηματίζονται με τη συμμέτοχη του ίδιου V γονιδίου. Η παραπάνω υπολογιστική διαδικασία αποτελεί τον υπολογισμό του ρεπερτορίου του V γονιδίου. Επομένως, έχοντας ως δεδομένα τον συνολικό αριθμό των κλωνοτύπων, μπορεί να καταγραφεί το πλήθος των κλωνοτύπων που αντιστοιχούν στο ίδιο γονίδιο V. Αυτό αλγοριθμικά μπορεί να επιτευχθεί, ομαδοποιώντας το σύνολο των δεδομένων που περιέχονται σε μια υπολογισμένη δομή του συνόλου των κλωνοτύπων με κριτήριο την τιμή του πεδίου που είναι καταγεγραμμένο το γονίδιο V. Στον υπολογισμό του ρεπερτορίου του V γονιδίου θεωρήθηκαν ως ξεχωριστές περιπτώσεις οι κλωνότυποι που προήλθαν από αλληλουχίες για τις οποίες τα πιθανά V γονίδια ήταν πάνω από ένα. Στη συνέχεια καταμετρώντας το πλήθος κάθε ομάδας έχουμε στη διάθεση μας τον αριθμό των κλωνοτύπων που περιέχουν το ίδιο V γονίδιο. Τέλος, η συχνότητα εμφάνισης του ενός γονιδίου V στο σύνολο κλωνοτύπων υπολογίζεται από το πηλίκο του πλήθους των κλωνοτύπων που εμφανίζεται προς το σύνολο των κλωνοτύπων. Η αμινοξική συμβολή της β αλυσίδας αποτελεί το τμήμα της που παρουσιάζει ιδιαίτερο ενδιαφέρον για τον λόγο ότι αποτελεί σημείο πρόσδεσης με το αντιγόνο. Συνεπώς, είναι απαραίτητο να εξεταστεί η συχνότητα εμφάνισης ενός CDR3 στο ρεπερτόριο των αλληλουχιών. Ο υπολογισμός της συχνότητας εμφάνισης ενός CDR3 32

μπορεί να πραγματοποιηθεί με την καταγραφή του πλήθους των διαβασμάτων που κωδικοποιούν το συγκεκριμένο CDR3 και διαιρώντας το με το σύνολο των διαβασμάτων του δείγματος του ασθενή. Ένας άλλος τρόπος υπολογισμού είναι αθροίζοντας τον αριθμό των διαβασμάτων που αντιστοιχούν στους κλωνότυπους που περιλαμβάνουν το ίδιο CDR3 και διαιρώντας το αποτέλεσμα με το σύνολο των διαβασμάτων. Με τον υπολογισμό της συχνότητας κάθε γονιδίου V στο σύνολο των κλωνοτύπων και της σχετικής συχνότητας των CDR3 στο σύνολο των αλληλουχιών διαθέτουμε πληροφορίες και για τα V γονίδια που επικρατούν αλλά και για τα CDR3. Όμως, εκτός από τον υπολογισμό της σχετικής συχνότητας των κλωνοτύπων, ένας ακόμη τρόπος συσχέτισης της έκφρασης του V γονιδίου και της κωδικοποίησης του συγκεκριμένου CDR3 είναι ο υπολογισμός των συχνοτήτων των CDR3 που σχετίζονται με ένα V γονίδιο στο πλήθος των αλληλουχιών που συμμετέχει το συγκεκριμένο V. 5.4. Ανάλυση μεταξύ ασθενών Στη προηγούμενη ενότητα παρουσιάστηκε η μεθοδολογία που ακολουθήθηκε για την επεξεργασία των δεδομένων που προέκυψαν μετά από την ανάλυση από το εργαλείο HighV/QUEST της βάσης IMGT και αφορούσαν τα δεδομένα που δημιουργήθηκαν από την αλληλούχηση μιας βιβλιοθήκης αλληλουχιών της β αλυσίδας του Τ κυτταρικού υποδοχέα κάθε ασθενή. Εν συντομία, υπολογίστηκε η σχετική συχνότητα των κλωνοτύπων, το ρεπερτόριο του V γονιδίου και η σχετική συχνότητα του CDR3 της β αλυσίδας για κάθε ασθενή. Συνεπώς, μια συγκριτική μελέτη μεταξύ των ασθενών καθίσταται απαραίτητη για την εξαγωγή συμπερασμάτων. Μια πρώτη σύγκριση μεταξύ των ασθενών θα μπορούσε να επιτευχθεί με την αντιπαραβολή των υπολογισμένων ρεπερτορίων του V γονιδίου. Μ' αυτή τη μέθοδο, 33

κάποιος ειδικός στη μελέτη V ρεπερτορίων θα είχε στη διάθεσή του την ευχέρεια να διαπιστώσει το είδος των V γονιδίων και τη σχετική συχνότητα των κλωνοτύπων που συμμετέχει σε ασθενείς που πάσχουν από την ίδια ασθένεια, αλλά και να συσχετίσει το ρεπερτόριο του V γονιδίου ενός ή περισσότερων ασθενών με έναν ή περισσότερους υγιείς. Επιπλέον, ένας τρόπος για να προσεγγιστούν συνολικά τα ρεπερτόρια των V γονιδίων των ασθενών που πάσχουν από την ίδια αιτία είναι ο υπολογισμός της μέσης τιμής των σχετικών συχνοτήτων συμμετοχής των V γονιδίων στο σύνολο των κλωνοτύπων για κάθε V γονίδιο στο σύνολο των ασθενών. Για τον υπολογισμό της μέσης τιμής αθροίζεται η σχετική συχνότητα στο σύνολο των κλωνοτύπων με το συγκεκριμένο V γονίδιο του ενός ασθενή με την αντίστοιχη σχετική συχνότητα του ίδιου V γονιδίου στο ρεπερτόριο του V των άλλων ασθενών. Για την συγκριτική μελέτη μεταξύ των V ρεπερτορίων κατορθώθηκε η συγχώνευση όλων των V ρεπερτορίων με κριτήριο το είδος του V γονιδίου. Μ' αυτό τον τρόπο δημιουργήθηκε μια δομή όπου αντιστοιχήθηκαν οι σχετικές συχνότητες των V γονιδίων στο σύνολο των κλωνοτύπων μεταξύ των ασθενών. Στη περίπτωση που δεν περιλαμβανόταν ένα V γονίδιο στο ρεπερτόριο κάποιου ασθενή, ενώ το διέθεταν οι υπόλοιποι, η τιμή που καταχωρούνταν στη σχετική συχνότητα στη συγκεκριμένη θέση ήταν μηδενική. Μ' αυτό τον τρόπο, όχι μόνο γινόταν αντιληπτό ότι ο ασθενής δεν διαθέτει το συγκεκριμένο V γονίδιο αλλά και διευκόλυνε στην καλύτερη διαχείριση της δομής δεδομένων. Η μέση τιμή των σχετικών συχνοτήτων των V γονιδίων στο σύνολο των κλωνοτύπων για κάθε V γονίδιο στο σύνολο των ασθενών μπορεί να υπολογιστεί από το πηλίκο του αθροίσματος των στοιχείων της δομής που βρίσκονται κατά μήκος μιας σειράς προς το σύνολο των ασθενών που γίνεται η σύγκριση των ρεπερτορίων του V γονιδίου. Μία άλλη μέθοδος για τη σύγκριση των ρεπερτορίων ασθενών που πάσχουν από την ίδια νόσο είναι η εύρεση των κοινών κλωνοτύπων (public clonotype). Κοινός κλωνότυπος ονομάζεται οποιοσδήποτε κλωνότυπος εμφανίζεται σε δύο ή περισσότερους ασθενείς. Ο εντοπισμός και η καταγραφή όλων των κοινών κλωνοτύπων μεταξύ των ασθενών που πάσχουν από μία νόσος είναι ένα πρώτο βήμα της ανάλυσης, από το οποίο μπορούν να προκύψουν κάποια αρχικά συμπεράσματα. 34

Ωστόσο, αυτή η πρώτη προσέγγιση μπορεί να διερευνηθεί περαιτέρω χρησιμοποιώντας διάφορες μαθηματικές και υπολογιστικές τεχνικές. Για να εντοπιστούν οι κοινοί κλωνότυποι πρέπει να καταχωρηθούν οι κλωνότυποι όλων των ασθενών σε μια δομή πλαισίου δεδομένων με ένα δείκτη που υποδεικνύει σε ποιον ασθενή ανήκει ο συγκεκριμένος κλωνότυπος. Γνωρίζουμε ότι για κάθε ασθενή ο κάθε κλωνότυπος είναι μοναδικός. Επομένως, με την ομαδοποίηση των κλωνοτύπων της δομής που περιέχει τους κλωνότυπους όλων των ασθενών θα δημιουργηθούν ομάδες που θα περιέχουν τους κοινούς κλωνότυπους μεταξύ των ασθενών και ομάδες με μεμονωμένα στοιχεία. Στη συνέχεια, επιλέγονται οι ομάδες που έχουν τουλάχιστον δύο στοιχεία και απεικονίζονται με την καταγραφή του κοινού κλωνότυπου και τις σχετικές συχνότητες που εμφανίζονται σε κάθε ασθενή. Συνεπώς, δημιουργείται μια δομή που μπορεί να αποθηκευθεί σε ένα αρχείο που το περιεχόμενο του μπορεί να θεωρηθεί ως μια πρώτη προσέγγιση της εξέτασης των κοινών κλωνοτύπων. 5.5. Σύγκριση δεδομένων αλληλούχησης Sanger με δεδομένα αλληλούχησης επόμενης γενιάς (NGS) Τα δεδομένα που προκύπτουν από την αλληλούχηση Sanger για το ίδιο δείγμα ασθενών που χρησιμοποιήθηκε για την αλληλούχηση υψηλής απόδοσης παρουσιάζουν πολύ μικρότερο όγκο σε σχέση με τα δεδομένα NGS. Επομένως, δημιουργείται η ανάγκη να εξεταστεί κατά πόσο τα αποτελέσματα των δύο τεχνικών συγκλίνουν. Η πληροφορία των δεδομένων της αλληλούχησης Sanger, λόγω του μικρότερου όγκου τους, θα πρέπει να περιέχεται στην πληροφορία που διαθέτουν τα δεδομένα της αλληλούχησης επόμενης γενιάς. Όμως, αυτό είναι ένα ζήτημα που πρέπει να εξεταστεί στη πράξη, διότι κάθε πειραματική διαδικασία παρουσιάζει τις ιδιαιτερότητές της και οι συνθήκες διεξαγωγής της επηρεάζουν το αποτέλεσμα της. H συγκριτική μέθοδος που ακολουθήθηκε για τις δύο τεχνικές αλληλούχησης είναι ο εντοπισμός των μοναδικών CDR3 που προέκυψαν από την αλληλούχηση Sanger του δείγματος ενός ασθενή στα δεδομένα του ίδιου ασθενή από την αλληλούχηση επόμενης γενιάς (NGS). Δεν επιλέχθηκε να γίνει η σύγκριση ολόκληρων των αλληλουχιών που προκύπτουν, διότι υπεισέρχονται σφάλματα που θα 35

εμπόδιζαν την εύρεση όμοιων αλληλουχιών. Επιπλέον, η εμφάνιση κλωνοτύπων με ίδιο CDR3 αλλά διαφορετικό V γονίδιο αποτέλεσε εμπόδιο στην χρησιμοποίηση των κλωνοτύπων στη σύγκριση μεταξύ των δύο μεθόδων. Ως αρχικό βήμα, διερευνήθηκε η εμφάνιση των CDR3 σε αμινοξικό επίπεδο των δεδομένων αλληλούχησης του Sanger στα δεδομένα αλληλούχησης επόμενης γενιάς. Η αναζήτηση των CDR3 που ανιχνεύθηκαν στην τεχνική αλληλούχησης του Sanger στα δεδομένα NGS έγινε σε τρία στάδια. Το πρώτο στάδιο ήταν ο εντοπισμός των Sanger CDR3 στα μοναδικά CDR3 που έχουν καταγραφεί μετά την διαδικασία του φιλτραρίσματος. Η αρχική αναζήτηση έγινε σε δεδομένα που έχουν περάσει από τα κριτήρια φιλτραρίσματος και για την μείωση του υπολογιστικού χρόνου αλλά και για να ελεγχθεί εάν τα συμπεράσματα που προκύπτουν από την ανάλυση των δεδομένων υψηλής απόδοσης ομοιάζουν με αντίστοιχες μελέτες που πραγματοποιήθηκαν για την ίδια νόσο με δεδομένα αλληλούχησης Sanger. Επομένως, αφού επιλέχθηκαν τα CDR3 που μπορούσαν να θεωρηθούν λειτουργικά από τα δεδομένα Sanger επισημάνθηκαν με ένα δείκτη που περιγράφει την ταυτότητα του ασθενή που προέκυψαν και καταχωρήθηκαν σε μια δομή πλαισίου (DataFrame). Στη συνέχεια, για κάθε ασθενή διαβάστηκε το αρχείο που περιείχε τα μοναδικά CDR3 της ανάλυσης NGS και αναζητήθηκαν τα CDR3 των δεδομένων Sanger που είχαν τον δείκτη του συγκεκριμένου ασθενή. Τα CDR3 που εντοπίστηκαν και στις δύο τεχνικές αλληλούχησης και αυτά τα οποία δεν βρέθηκαν στα δεδομένα NGS καταγράφηκαν, μαζί με την συχνότητα εμφάνισης τους και την ταυτότητα του ασθενή που εντοπίστηκαν, σε δύο ξεχωριστά αρχεία. Στο επόμενο στάδιο της συγκριτικής ανάλυσης αναζητούμε τα CDR3 σε αμινοξικό επίπεδο που δεν εντοπίστηκαν στα αφιλτράριστα αρχεία δεδομένων. Η περίπτωση που κάποιες αλληλουχίες κωδικοποιούσαν τα συγκεκριμένα CDR3 αλλά δεν ικανοποιούσαν τα συγκεκριμένα φίλτρα που επιλέχθηκαν παρουσιάζει ενδιαφέρον και θα πρέπει να μελετηθεί. Συνεπώς, καταγράφηκαν τα CDR3 που εντοπίστηκαν αυτούσια στα αντίστοιχα αρχεία των αφιλτράριστων δεδομένων NGS κάθε ασθενή και τα υπόλοιπα CDR3 που δεν εντοπίστηκαν αναζητήθηκαν στο επόμενο στάδιο διερεύνησης. Αυτό το στάδιο της διερεύνησης περιλαμβάνει και την αναζήτηση των CDR3 των δεδομένων Sanger, σε νουκλεοτιδικό επίπεδο. Επομένως, τα CDR3 που δεν εντοπίστηκαν στα προηγούμενα στάδια της αναζήτησης, η αντίστοιχη νουκλεοτιδική 36

τους αλληλουχία συγκρίθηκε με όλες τις νουκλεοτιδικές αλληλουχίες της αμινοξικής συμβολής στα δεδομένα NGS. Κριτήριο για το εάν δύο αλληλουχίες μπορούν να θεωρηθούν όμοιες είναι ο υπολογισμός ενός ποσοστού ομοιότητας που προκύπτει από τον αριθμό των όμοιων νουκλεοτιδίων, αφού γίνει η ευθυγράμμιση των αλληλουχιών μεταξύ τους. Συνεπώς, οι νουκλεοτιδικές αλληλουχίες των αμινοξικών συμβολών των δεδομένων NGS που εμφανίζουν το μεγαλύτερο ποσοστό ομοιότητας με τις αντίστοιχες αλληλουχίες των δεδομένων Sanger καταγράφονται και θα μπορούσαν να ληφθούν υπόψη σε μια μελέτη για την διόρθωση των σφαλμάτων των δεδομένων αλληλούχησης επόμενης γενιάς. 37

Κεφάλαιο 6 6.1. Παρουσίαση Αποτελεσμάτων Η παραπάνω μεθοδολογία, όπως έχει αναφερθεί, εφαρμόστηκε σε περιπτώσεις ασθενών που πάσχουν από χρόνια ιδιοπαθή ουδετεροπενία και χρόνια λεμφοκυτταρική λευχαιμία. Το πλήθος των ασθενών είναι 13 και 19 αντίστοιχα και περιλαμβάνεται και η ανάλυση του δείγματος ενός υγιούς. Ο παρακάτω πίνακας περιέχει υπολογισμένα στατιστικά μεγέθη για τα δύο σύνολα δειγμάτων. Πίνακας στατιστικών μεγεθών των δύο δειγμάτων των ασθενών Παρακάτω ακολουθεί η ανάλυση και ο σχολιασμός των αποτελεσμάτων των δεδομένων της χρόνιας ιδιοπαθής ουδετεροπενίας και ένα μέρος των αποτελεσμάτων της χρόνιας λεμφοκυτταρικής λευχαιμίας. 6.2. Ανάλυση των Αποτελεσμάτων της Χρόνιας Ιδιοπαθούς Ουδετεροπενίας Αρχικά, σε όλο το δείγμα των ασθενών απορρίφθηκε ένα μέρος των αλληλουχιών που δεν πληρούσαν τα κριτήρια που περιγράφηκαν παραπάνω. Στον παρακάτω πίνακα(6-1) φαίνονται τα στάδια του φιλτραρίσματος των αλληλουχιών. 38

Στον πίνακα συμπεριλαμβάνονται και τα στάδια του φιλτραρίσματος των δεδομένων του υγιούς. Παρακάτω γίνεται μια περιγραφή των περιεχομένων του πίνακα. Patient: τo id του κάθε ασθενή. Total reads of raw data: το πλήθος των αλληλουχιών των αρχείων δεδομένων πριν την εφαρμογή των φίλτρων. Not Null CDR3/V: Οι αλληλουχίες που δεν είχαν κενό το πεδίο της ανάλυσης του CDR3 και του γονιδίου V. Filtered out: Το πλήθος των αλληλουχιών που απορρίφθηκαν σε κάθε στάδιο. Identity>95%: Το ποσοστό ομοιότητας με το germline του V γονιδίου. CDR3 landmarks C-F: Οι αλληλουχίες που το CDR3 τους ξεκινά με το αμινοξύ της κυτοσίνης και καταλήγει στο αμινοξύ της φαινυλαλανίνης. Not Containing X,#,*: Οι αλληλουχίες που το CDR3 τους δεν περιέχει τριπλέτα που δεν κωδικοποιεί κάποιο αμινοξύ ή κωδικόνιο τερματισμού ή είναι εκτός πλαισίου ανάγνωσης. Functional TRBV: Το V γονίδιο των αλληλουχιών να είναι λειτουργικό. Total filter out: Σύνολο αλληλουχιών που απορρίφθηκαν. Total filter in: Σύνολο αλληλουχιών που απέμειναν μετά το φιλτράρισμα. 39

Πίνακας 6-1. Σύνοψη της διαδικασίας του φιλτραρίσματος. Πίνακας 6-2. Πλήθος κλωνοτύπων και μοναδικών CDR3. T2783 T2784 T2785 T2786 T2832 T2834 T2835 T2836 T2859 T2860 T2862 T2863 T2864 T3082 number of clonotypes(cdr3aa -TRBV) 33906 26384 17834 59650 33728 47132 32069 27913 28629 26387 14372 7732 25156 172253 Expanding Clonotypes 8489 7872 4945 15718 10250 12405 9976 7088 7374 6857 4177 2279 6726 40245 Singletons 25417 18512 12889 43932 23478 34727 22093 20825 21255 19530 10195 5453 18430 132008 Num of unique CDR3 26613 20565 16777 47371 26230 37646 24370 22210 27085 23151 10782 6955 23089 146768 Num of unique CDR3 > 1 read 6319 6654 4656 12110 8420 9211 8765 5226 6914 5822 3287 2037 6049 44808 40

Στον παρακάτω πίνακα παρουσιάζεται ο υπολογισμός της μέσης τιμής και της τυπικής απόκλισης σε κάθε στάδιο της διαδικασίας του φιλτραρίσματος στο σύνολο του δείγματος. Πίνακας 6-3. Στατιστικά Μεγέθη διαδικασίας φιλτραρίσματος. Παρατηρούμε ότι, το ποσοστό του μέσου όρου των αλληλουχιών που απορρίφθηκαν σε σχέση με τον μέσο όρο των αρχικών αλληλουχιών είναι περίπου 19%. Ενώ το ποσοστό των αλληλουχιών που αναλύθηκε σε σχέση με το αρχικό δείγμα είναι περίπου 81%. Στη συνέχεια, έγινε η ανάλυση των αναδιατεταγμένων αλληλουχιών για κάθε ασθενή ξεχωριστά. Υπολογίστηκε το πλήθος και η συχνότητα των κλωνοτύπων, το ρεπερτόριο του V γονιδίου και το πλήθος και η συχνότητα των μοναδικών CDR3. Ο πίνακας 6-2 περιγράφει το πλήθος των κλωνοτύπων συνολικά, το πλήθος των διευρυμένων κλωνοτύπων (κλωνότυποι που εμφανίστηκαν τουλάχιστον δύο φορές), των μεμονωμένων κλωνοτύπων (κλωνότυποι που εμφανίστηκαν μία φορά), το σύνολο των μοναδικών CDR3 και το πλήθος των CDR3 με τουλάχιστον δύο διαβάσματα. Από τον πίνακα 6-2 παρατηρούμε ότι, ένα μεγάλο μέρος των κλωνοτύπων αποτελούν οι μεμονωμένοι κλωνότυποι (singletons). Ένα μέρος τους μπορεί να οφείλεται σε λάθη που εισάγονται κατά τις διαδικασίες της PCR και της 41

αλληλούχησης. Τέλος, το πλήθος των κλωνοτύπων του υγιούς (T3082) υπερβαίνει του πλήθους των κλωνότυπων των άλλων ασθενών. Στους πίνακες 6-4 και 6-5 παρουσιάζονται οι δέκα πιο συχνοί κλωνότυποι και τα δέκα πιο συχνά CDR3 αντίστοιχα, μαζί με τις συχνότητες τους για κάθε ασθενή συμπεριλαμβανομένου και του υγιή. Και στους δύο πίνακες (6-4,6-5) γίνεται φανερό ότι οι δέκα επικρατέστεροι κλωνότυποι και τα δέκα επικρατέστερα CDR3 αποτελούν ένα μεγάλο μέρος του ρεπερτορίου (σε μερικούς ασθενείς περιλαμβάνει έως και το 40% του ρεπερτορίου) σε αντιδιαστολή με τα αποτελέσματα του υγιούς (Τ3082) που οι συχνότητες των κλωνοτύπων - μοναδικών CDR3 είναι κατά πολύ μικρότερες σε σύγκριση με των ασθενών. Με άλλα λόγια, οι συχνότητες των κλωνοτύπων μοναδικών CDR3 στην περίπτωση του υγιούς παρουσιάζουν μια ομοιόμορφη κατανομή σε σχέση με τις αντίστοιχες συχνότητες των ασθενών. Τα γραφήματα της εικόνας 6-1 απεικονίζουν τα ρεπερτόρια του V γονιδίου. Ο οριζόντιος άξονας περιγράφει το είδος του V γονιδίου ενώ ο κατακόρυφος άξονας περιγράφει τη συχνότητα κάθε γονιδίου V στο σύνολο των κλωνοτύπων. Στα γραφήματα επιλέγονται τα πρώτα δέκα γονίδια V με τη μεγαλύτερη συχνότητα. Επιπλέον, κάθε στοίβα περιγράφει τη συχνότητα των CDR3 για κάθε γονίδιο V. Με μπλε χρώμα συμβολίζεται το CDR3 με την μεγαλύτερη συχνότητα κ.ο.κ για τα άλλα εννιά CDR3. Με το γκρι χρώμα συμβολίζονται οι συχνότητες των υπόλοιπων CDR3. Τα τρία πρώτα γραφήματα αντιπροσωπεύουν το ρεπερτόριο V τριών ασθενών, ενώ το τέταρτο γράφημα περιγράφει το ρεπερτόριο V του υγιούς. 42

Πίνακας 6-4. Οι δέκα πρώτοι κλωνότυποι για κάθε ασθενή T2783 T2784 T2785 T2786 T2832 V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% TRBV7-8 CASSLASNGGPSYEQYF 9,7364 TRBV29-1 CSALGRVHGYTF 11,6622 TRBV10-2 CASSVGGELFF 6,792 TRBV2 CASSWTREGNTGELFF 17,9426 TRBV4-1 CASSPILDGANVLTF 18,0906 TRBV29-1 CSVGDRESNYGYTF 4,3538 TRBV7-9 CASSLVAGAGELFF 10,5155 TRBV5-5 CASSFGPYNYGYTF 4,3725 TRBV28 CASSLIQATNQPQHF 10,2806 TRBV6-2 or TRBV6-3 CASSFARNEKLFF 7,0572 TRBV6-1 CASSHGVPNYGYTF 3,7825 TRBV15 CATSRDRGRSPLHF 7,0155 TRBV19 CASGTGDSNQPQHF 4,1271 TRBV10-3 CATQDSQTNTGELFF 6,3929 TRBV29-1 CSVDGYNYGYTF 6,3983 TRBV29-1 CSAPGMLNTEAFF 2,627 TRBV6-1 CASSVWGANEKLFF 3,6511 TRBV12-3 CASSWYRGDQPQHF 3,6334 TRBV29-1 CSVEDRVETGGYTF 2,761 TRBV19 CASSPRDKPNEKLFF 4,426 TRBV6-4 CASMSSSGANVLTF 2,3892 TRBV4-1 CASSQEIGGRVGELFF 3,2806 TRBV6-4 CASSDRDTGELFF 3,5664 TRBV13 CASSLLSGVPGELFF 2,3346 TRBV13 CASSLGVAGTYEQYF 1,6922 TRBV4-3 CASSQETTGGGTAHTF 1,3592 TRBV28 CASSQLAGGDEQYF 3,0808 TRBV12-3 CASSHRGHFANQPQHF 2,8076 TRBV6-2 or TRBV6-3 CASSKDTDTGELFF 1,6599 TRBV5-1 CASSFGQDKGFGYTF 1,6405 TRBV20-1 CSASDGAVNYGYTF 0,973 TRBV5-1 CASSLEGDQPQHF 2,8266 TRBV12-3 CASSFSGFSGNQPQHF 2,8 TRBV5-6 CASSYDGRFGAPLHF 1,473 TRBV12-3 CASTGQGYYGYTF 1,3053 TRBV15 CATSRESSGANVLTF 0,7901 TRBV12-5 CASGLDRGPEKLFF 1,3142 TRBV6-4 CASSDSATGELFF 2,6531 TRBV4-3 CASSQERGDSGNTIYF 1,0395 TRBV13 CASSLDRRQVNQPQHF 0,8778 TRBV12-3 CASRPGGSYEQYF 0,6864 TRBV19 CASSTLTGSNYGYTF 1,3074 TRBV19 CASSPGDPEGDQPQHF 2,3239 TRBV29-1 CSVETGTGVGTGELFF 0,7399 TRBV19 CASSLRRFEDGYTF 0,8423 TRBV20-1 CSARDQGAENQPQHF 0,6495 TRBV28 CASSTPGQRGYTF 0,8825 TRBV29-1 CSVGVVDTGELFF 2,3158 TRBV20-1 CSARHRDTGELFF 0,5169 TRBV11-2 CASSEDRGSNQPQHF 0,8367 T2834 T2835 T2836 T2859 T2860 V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE and allele AA JUNCTION Freq% V-GENE AA JUNCTION Freq% TRBV27 CASRSTLSWGYTF 5,2523 TRBV29-1 CSVETNGLAGEDYEQYF 5,2812 TRBV6-5 CASSYSGQVGLEQYF 12,1039 TRBV28 CASSLSDSNQPQHF 20,1782 TRBV28 CASRPDRIETGELFF 7,9462 TRBV6-1 CASSEPGQGNSPLHF 1,7295 TRBV13 CASSLGASYEQYF 4,4454 TRBV4-1 CASSPFAGQPTYGYTF 7,4534 TRBV29-1 CSDGQGSDGYTF 9,2489 TRBV7-8 CASSSYPGGRRNQPQHF 5,3813 TRBV5-5 CASSLLAGSGSEAFF 1,595 TRBV10-3 CATGSGGIDEQYF 3,6288 TRBV29-1 CSVGTGGTNEKLFF 5,0159 TRBV6-5 CASSYSETRANVLTF 8,0074 TRBV7-8 CASRKNRGILEKLFF 1,671 TRBV10-3 CATQGDSYTGELFF 1,2603 TRBV6-5 CASSYDSGFYGYTF 3,4997 TRBV20-1 CSAEGGSSYEQYF 1,5928 TRBV27 CASSFWHQGTGELFF 5,2347 TRBV29-1 CSVGGENQPQHF 1,5403 TRBV4-3 CASSQAGQSNEKLFF 1,08 TRBV15 CATSGLTGAPNSYEQYF 1,9781 TRBV12-3 CASSRDRGSLWTYGYTF 1,3634 TRBV29-1 CSVLDREGQPQHF 3,6346 TRBV6-6 CASSYPSVYGYTF 1,3245 TRBV10-3 CAISSRRGNRGEKLFF 0,9482 TRBV6-1 CASDLSVGESREQYF 1,3171 TRBV6-5 CASSWTGQVGQPQHF 1,1547 TRBV12-3 CASTGVPASANEKLFF 3,1774 TRBV6-2 or TRBV6-3 CASSYSENQPQHF 1,1614 TRBV5-6 CASSYAGSYLPRGNYGYTF 0,9318 TRBV29-1 CSVEWDGSYEQYF 1,2472 TRBV6-4 CASSDSGTGNSPLHF 0,9628 TRBV29-1 CSDSGAHYGYTF 2,1335 TRBV19 CASSRGDTDTGELFF 1,0629 TRBV6-4 CASRTGEGSPLHF 0,8708 TRBV18 CASSPGVRDSPFGYTF 1,2184 TRBV12-3 CASSLSGHRHYEQYF 0,8994 TRBV11-2 CASSLGGLSTGELFF 1,8998 TRBV6-1 CASGGTDGANVLTF 1,0335 TRBV18 CASSLQGAAYEQYF 0,8546 TRBV6-5 CASSLDGVFGKLFF 1,1429 TRBV29-1 CSVYPFGTGSSDGYTF 0,878 TRBV7-9 CASSLVVLSGANVLTF 1,6914 TRBV6-2 or TRBV6-3 CASNSQPQHF 0,9261 TRBV7-8 CASSLRSNTYNSPLHF 0,7438 TRBV12-3 CASTENYSNQPQHF 0,9197 TRBV27 CASSLKARNNYGYTF 0,8311 TRBV7-2 CASSSRLASSEQYF 1,6273 TRBV12-3 CASSLRNSPLHF 0,8967 T2862 T2863 T2864 T3082 V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% V-GENE AA JUNCTION Freq% TRBV7-8 CASSLGGYYEQYF 6,4964 TRBV13 CASSFGGANVLTF 6,9974 TRBV5-5 CASTYEGYTGELFF 10,9158 TRBV29-1 CSVGTGPSYGYTF 0,4773 TRBV27 CASSPTPGGLREKLFF 6,1549 TRBV11-2 CASSPDEGRVYGYTF 3,9938 TRBV5-5 CASSFIGSGELFF 8,4095 TRBV18 CASSPVAFSGNQPQHF 0,3544 TRBV19 CASSPTSNQPQHF 3,353 TRBV10-2 CASTGHLNEKLFF 3,9525 TRBV10-3 CAIKRDRAGELFF 3,103 TRBV29-1 CSVVWGNGYTF 0,3497 TRBV4-1 CASSQEPGTNYGYTF 3,3254 TRBV19 CASSGTGVGNQPQHF 3,677 TRBV28 CASSSTGLYQPQHF 2,6097 TRBV12-3 CASSLQGKGGELFF 0,2907 TRBV29-1 CSVFDRDYEQYF 3,1996 TRBV19 CASSFRQGGNQPQHF 3,4841 TRBV29-1 CSVDDSNNYGYTF 1,4422 TRBV29-1 CSGGTGNYGYTF 0,2808 TRBV7-8 CASGRVGYEQYF 2,9563 TRBV29-1 CSGTYGDYGYTF 3,2964 TRBV29-1 CSVPEMRGYTF 0,9944 TRBV6-2 or TRBV6-3 CASMVSGTGNEKLFF 0,2799 TRBV5-6 CASSLGSNSPLHF 1,4015 TRBV29-1 CSVLDEGTYGYTF 3,2423 TRBV11-2 CASSFRDLGTGELFF 0,932 TRBV10-3 CAINQGQQFSPLHF 0,2546 TRBV20-1 CSARTFKQGLPTNYGYTF 1,2359 TRBV24-1 CATSDLSVNQPQHF 3,1222 TRBV29-1 CSVNSDYGYTF 0,897 TRBV10-3 CAIITLDSNYGYTF 0,22 TRBV27 CASSPGPLGAWHTEAFF 1,1674 TRBV15 CATSRDWAVNEKLFF 2,8745 TRBV15 CATSREGTAPDGYTF 0,8532 TRBV7-9 CASSLDVGGLFF 0,2144 TRBV2 CASSSLYEGNQPQHF 1,1398 TRBV6-5 CASSYGPQNYGYTF 2,3452 TRBV10-3 CAISESNYGYTF 0,8217 TRBV12-3 CASSSSPLGANVLTF 0,2107 43

Πίνακας 6-5. Τα δέκα πρώτα μοναδικά CDR3 για κάθε ασθενή. T2783 T2784 T2785 T2786 T2832 T2834 T2835 AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency CASSLASNGGPSYEQYF 10,0183 CSALGRVHGYTF 11,6651 CASSVGGELFF 6,9111 CASSWTREGNTGELFF 18,1972 CASSPILDGANVLTF 19,0259 CASRSTLSWGYTF 5,3309 CSVETNGLAGEDYEQYF 5,2829 CSVGDRESNYGYTF 4,3572 CASSLVAGAGELFF 10,8873 CASSFGPYNYGYTF 4,4993 CASSLIQATNQPQHF 10,4673 CASSFARNEKLFF 7,7672 CASSEPGQGNSPLHF 2,0303 CASSLGASYEQYF 4,5282 CASSHGVPNYGYTF 4,3504 CATSRDRGRSPLHF 7,0251 CASGTGDSNQPQHF 4,1302 CATQDSQTNTGELFF 6,5953 CSVDGYNYGYTF 6,4002 CASSLLAGSGSEAFF 1,8789 CASSYDSGFYGYTF 4,3823 CSAPGMLNTEAFF 2,6286 CASSVWGANEKLFF 4,2021 CASSWYRGDQPQHF 3,712 CSVEDRVETGGYTF 2,7636 CASSPRDKPNEKLFF 4,4485 CATQGDSYTGELFF 1,3111 CATGSGGIDEQYF 3,7708 CASMSSSGANVLTF 2,4234 CASSQEIGGRVGELFF 3,602 CASSDRDTGELFF 3,5863 CASSLLSGVPGELFF 2,4061 CASSLGVAGTYEQYF 1,7261 CASSQAGQSNEKLFF 1,2366 CATSGLTGAPNSYEQYF 1,9821 CASSQETTGGGTAHTF 1,6507 CASSQLAGGDEQYF 3,1263 CASSHRGHFANQPQHF 2,8718 CASSKDTDTGELFF 1,8797 CASSFGQDKGFGYTF 1,6835 CASSYAGSYLPRGNYGYTF 1,0419 CASDLSVGESREQYF 1,7882 CSASDGAVNYGYTF 0,977 CASSLEGDQPQHF 2,8786 CASSFSGFSGNQPQHF 2,8563 CASSYDGRFGAPLHF 1,6825 CASTGQGYYGYTF 1,3872 CAISSRRGNRGEKLFF 0,9895 CASSLDGVFGKLFF 1,4331 CATSRESSGANVLTF 0,7901 CASGLDRGPEKLFF 1,4568 CASSDSATGELFF 2,6693 CASSQERGDSGNTIYF 1,2342 CASSLDRRQVNQPQHF 0,9035 CASRTGEGSPLHF 0,8869 CSVEWDGSYEQYF 1,2472 CASSLVVGLTIYF 0,7578 CASSTLTGSNYGYTF 1,3195 CASSPGDPEGDQPQHF 2,3278 CSVETGTGVGTGELFF 0,7418 CASSEDRGSNQPQHF 0,9003 CASSLQGAAYEQYF 0,8584 CASSPGVRDSPFGYTF 1,2235 CASRPGGSYEQYF 0,7317 CASSPGLETGELFF 1,0134 CSVGVVDTGELFF 2,3158 CASSKAGEHTGELFF 0,5993 CASSLRRFEDGYTF 0,8497 CASSLRSNTYNSPLHF 0,7824 CASTENYSNQPQHF 0,9699 T2836 T2859 T2860 T2862 T2863 T2864 T3082 AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency AA JUNCTION Frequency CASSYSGQVGLEQYF 13,4639 CASSLSDSNQPQHF 20,2872 CASRPDRIETGELFF 8,0028 CASSLGGYYEQYF 6,8644 CASSFGGANVLTF 7,0334 CASTYEGYTGELFF 11,122 CSVGTGPSYGYTF 0,4773 CASSPFAGQPTYGYTF 8,0531 CSDGQGSDGYTF 9,2538 CASSSYPGGRRNQPQHF 5,5903 CASSPTPGGLREKLFF 6,3134 CASSPDEGRVYGYTF 4,1116 CASSFIGSGELFF 8,6123 CASSPVAFSGNQPQHF 0,3627 CSVGTGGTNEKLFF 5,0179 CASSYSETRANVLTF 8,2174 CASRKNRGILEKLFF 1,7744 CASSQEPGTNYGYTF 3,7322 CASTGHLNEKLFF 4,0313 CAIKRDRAGELFF 3,1373 CASMVSGTGNEKLFF 0,3538 CSAEGGSSYEQYF 1,5955 CASSFWHQGTGELFF 5,2662 CASSYPSVYGYTF 1,6388 CASSPTSNQPQHF 3,3928 CASSGTGVGNQPQHF 3,689 CASSSTGLYQPQHF 2,636 CSVVWGNGYTF 0,3501 CASSWTGQVGQPQHF 1,4918 CSVLDREGQPQHF 3,6366 CSVGGENQPQHF 1,5406 CSVFDRDYEQYF 3,2037 CASSFRQGGNQPQHF 3,5028 CSVDDSNNYGYTF 1,4422 CASSLQGKGGELFF 0,3229 CASSRDRGSLWTYGYTF 1,4489 CASTGVPASANEKLFF 3,2516 CASSYSENQPQHF 1,2792 CASGRVGYEQYF 3,1219 CSGTYGDYGYTF 3,2964 CSVPEMRGYTF 0,9946 CASSLDVGGLFF 0,3062 CASSDSGTGNSPLHF 0,9968 CSDSGAHYGYTF 2,1353 CASGGTDGANVLTF 1,2202 CASSLGSNSPLHF 1,5712 CSVLDEGTYGYTF 3,2431 CASSFRDLGTGELFF 0,9469 CAINQGQQFSPLHF 0,2827 CASSLSGHRHYEQYF 0,9694 CASSLGGLSTGELFF 1,9127 CASSRGDTDTGELFF 1,0681 CASSLVQGHYTIYF 1,2471 CATSDLSVNQPQHF 3,1567 CSVNSDYGYTF 0,8975 CSGGTGNYGYTF 0,2824 CSVYPFGTGSSDGYTF 0,8783 CASSLVVLSGANVLTF 1,7352 CASNSQPQHF 1,0457 CSARTFKQGLPTNYGYTF 1,239 CATSRDWAVNEKLFF 2,876 CATSREGTAPDGYTF 0,8542 CAIITLDSNYGYTF 0,2441 CASSLKARNNYGYTF 0,8433 CASSSRLASSEQYF 1,7083 CASSYDPGQVQPQHF 0,9365 CASSPGPLGAWHTEAFF 1,2359 CASSYGPQNYGYTF 2,5216 CASGDGTRGGYTF 0,8426 CASSSSPLGANVLTF 0,237 44

Εικόνα 6-1. Ρεπερτόρια του V γονίδιου των Τ2786,Τ2834,Τ2859,Τ3082 45

Από τα γραφήματα της εικόνας 6-1 διαπιστώνουμε ότι στα γραφήματα των ασθενών, ένα μεγάλο μέρος των αλληλουχιών που προκύπτουν από τον ανασυνδυασμό του ίδιου V γονιδίου συνθέτουν το ίδιο CDR3. Κάτι αντίστοιχο όμως δεν παρατηρείται στον υγιή(τ3082) που τα δέκα πιο συχνά CDR3 με το ίδιο V γονίδιο καταλαμβάνουν μικρό μέρος των αλληλουχιών. Στο παρακάτω γράφημα[22] αναπαριστάται η σχέση των CDR3 με τα V γονίδια. Στο αριστερό ημικύκλιο τοποθετούνται τα δέκα CDR3 που για την σύνθεσή τους στον ανασυνδυασμό V-D-J συμμετέχουν περισσότερα από ένα V, ενώ στο δεξιό ημικύκλιο τοποθετούνται το είδος των V γονιδίων. Με την ετικέτα otherv χαρακτηρίζεται οποιοδήποτε άλλο V γονίδιο. Οι χρωματιστές λωρίδες αντιστοιχίζουν τα CDR3 με τα αντίστοιχα V γονίδια και το πάχος των λωρίδων συμβολίζει το ποσοστό των αλληλουχιών πού εκφράζεται το συγκεκριμένο CDR3 με την συμμετοχή του συγκεκριμένου γονιδίου V. Εικόνα 6-2. Συσχέτιση CDR3 με γονίδιο V για τον ασθενή Τ2786. 46

Από το παραπάνω γράφημα γίνεται αντιληπτό ότι για τη σύνθεση ενός CDR3 συμμετέχει σε μεγάλο ποσοστό ένα συγκεκριμένο γονίδιο V. Ωστόσο, σε ένα μικρότερο ποσοστό των αλληλουχιών συμμετέχουν και άλλα είδη V γονιδίων. Στον πίνακα 6-6 παρουσιάζεται η συχνότητα στο σύνολο των κλωνοτύπων για κάθε V γονίδιο σε κάθε ασθενή. Τέλος, η τελευταία στήλη περιέχει τον μέσο όρο των συχνοτήτων κάθε γονιδίου στο σύνολο των ασθενών. Στο παρακάτω γράφημα πίτας απεικονίζεται η μέση τιμή των συχνοτήτων των V γονιδίων στο σύνολο των κλωνοτύπων μεταξύ των ασθενών. Επιλέχθηκαν τα πρώτα V γονίδια που αθροιστικά καταλαμβάνουν πάνω από το 60% του συνόλου και με την ετικέτα others αναφερόμαστε στα υπόλοιπα γονίδια V. Εικόνα 6-3. Γράφημα πίτας του ρεπερτορίου V στο σύνολο των ασθενών. Γίνεται φανερό και από τον παραπάνω πίνακα και την απεικόνιση της πίτας ότι, το γονίδιο V29-1 εμφανίζει την μέγιστη μέση συχνότητα στο σύνολο των ασθενών και αποτελεί το κύριο V γονίδιο που συμμετέχει στην αναδιάταξη της β αλυσίδας σε κάθε ασθενή. 47

Πίνακας 6-6. Σύγκρισης ρεπερτορίων του V γονιδίου μεταξύ των ασθενών V-GENE T2783 T2784 T2785 T2786 T2832 T2834 T2835 T2836 T2859 T2860 T2862 T2863 T2864 Mean of frequencies TRBV29-1 8,4852 11,018 20,2366 13,3026 8,2602 6,259 6,9569 7,4087 21,1534 23,0758 5,9282 15,5846 32,7516 13,8785 TRBV19 8,4764 9,0661 6,5717 5,5339 7,2373 7,0398 9,3735 7,0361 1,3657 5,2753 6,951 5,7165 6,6028 6,6343 TRBV12-3 6,1199 3,631 8,5679 3,6731 6,0069 4,9818 5,6534 6,7746 5,4665 6,4729 3,5207 8,8722 3,4346 5,6289 TRBV6-5 4,2854 2,0353 3,0616 2,5214 5,1263 6,1911 6,1648 10,1351 12,8785 5,4421 4,2444 5,5613 4,1223 5,5207 TRBV27 5,4179 5,5412 3,583 4,0536 7,1069 5,6862 7,0723 4,9368 6,8043 0,9967 6,1091 3,1298 3,1126 4,8885 TRBV6-1 5,4179 3,794 3,6391 2,3504 3,884 6,9571 4,2377 3,7008 2,2914 3,2213 6,3665 5,1733 1,288 4,0247 TRBV6-2 or 2,4509 4,5027 2,041 6,1006 4,6312 4,5107 3,1557 2,9735 4,7504 5,4421 4,2304 0,4656 5,6885 3,9187 TRBV28 1,7549 2,7479 4,183 6,7158 2,9264 1,5913 2,0206 1,433 10,2064 4,722 3,5486 4,5784 4,4562 3,9142 TRBV6-4 4,0848 1,7549 3,7344 3,2942 2,2859 6,1678 2,6505 5,922 0,3807 5,8514 7,7651 0,8277 1,0296 3,5192 TRBV7-8 6,6006 2,096 1,3009 2,28 1,6129 3,3799 2,1017 3,0523 3,7724 5,6467 5,4898 3,2333 1,8564 3,2633 TRBV10-3 1,3803 2,0808 3,1737 5,5071 2,2 4,1649 3,6609 2,3752 3,5279 0,6632 1,6977 4,3585 4,2853 3,0058 TRBV11-2 2,1294 1,9482 2,5625 1,0243 3,8069 3,4817 2,9499 3,7545 3,8877 2,6718 1,6838 5,1862 2,3573 2,8803 TRBV20-1 2,97 2,4636 3,9868 3,8106 3,6201 3,3035 1,9302 2,9234 3,5873 2,2284 3,2772 0,5561 1,0375 2,7457 TRBV5-6 2,9847 2,9109 1,8616 2,3806 2,4016 3,4223 3,8604 3,2243 4,195 1,3188 3,3398 1,0217 1,0137 2,6104 TRBV7-9 2,3978 6,1401 2,7307 2,2364 2,3067 1,3982 2,7909 1,802 3,0144 1,6978 2,985 3,492 0,807 2,5999 TRBV5-1 3,0791 4,2336 1,6878 1,8324 4,7053 1,8416 3,0154 2,5221 0,3423 3,5434 2,6162 0,5173 2,6197 2,5043 TRBV4-3 3,5746 3,2444 4,6989 3,6429 1,6603 4,0906 1,9926 2,0707 0,971 1,713 2,0039 0,2069 1,4509 2,4093 TRBV4-1 1,5307 4,5179 0,2131 1,6681 5,9417 2,1408 3,0029 5,6318 0,1502 0,36 3,8617 0,3104 0,7513 2,3139 TRBV15 3,0909 2,9829 1,8896 1,9229 1,5269 2,0241 2,5632 2,4433 0,7475 2,6869 2,5049 3,492 2,1705 2,3112 TRBV13 2,9139 1,607 2,1588 2,6454 4,2042 0,5559 4,4342 1,4688 0,751 0,4851 2,2613 4,1257 0,3339 2,1496 TRBV6-6 1,4422 1,8837 1,1271 1,7502 1,9776 2,7518 1,2255 2,866 0,248 4,8016 2,4353 2,4961 1,6497 2,0504 TRBV5-5 1,8669 1,5616 3,3588 1,1115 1,1652 2,6309 2,5289 1,0676 0,2026 1,0649 1,0437 0,2457 7,7159 1,9665 TRBV2 1,3508 3,0246 2,1868 7,2054 1,4943 1,0884 1,213 1,3184 0,6846 0,7807 2,4631 0,9571 1,6815 1,9576 TRBV7-2 0,8494 2,5887 0,4205 2,0084 1,1 1,4364 2,0892 1,2324 4,45 2,3307 1,8717 4,061 0,9739 1,9548 TRBV5-4 2,2739 1,8799 0,4654 1,1567 1,5862 1,3409 2,5227 3,1921 0,1188 0,7845 1,3568 2,2763 0,5883 1,5033 TRBV4-2 1,628 1,0385 0,3813 1,2054 1,011 2,0283 2,7753 2,1925 0,3109 0,6708 1,7465 1,4873 0,163 1,2799 TRBV18 0,4778 1,7473 0,5159 1,6044 2,0369 2,3317 2,5507 1,4366 0,1118 0,2539 1,9691 0,4785 1,0972 1,2778 TRBV24-1 1,1266 1,2091 1,4691 1,2808 1,9361 0,9611 1,0321 0,5231 0,0978 1,0157 0,6123 4,2292 1,0216 1,2704 TRBV14 0,7432 1,0612 1,8728 1,3127 0,4418 0,5219 0,4459 0,5051 1,0933 0,4396 0,4523 0,0647 1,1767 0,7793 48

Ο πίνακας 6-7 περιέχει ένα μέρος των κλωνότυπων που εμφανίζονται στους περισσότερους ασθενείς. Στον πίνακα συμπεριλαμβάνεται και η συχνότητα εμφάνισης σε κάθε ασθενή. Η τελευταία στήλη περιέχει τον αριθμό των ασθενών που εμφανίστηκε ο συγκεκριμένος κλωνότυπος. Τέλος, την τιμή μηδέν παίρνει ένα πεδίο του πίνακα, όταν ένας κλωνότυπος δεν περιλαμβάνεται στο ρεπερτόριο ενός ασθενή. Παρατηρείται ότι, οι κλωνότυποι με μεγάλη συχνότητα εμφάνισης σε ένα ασθενή εμφανίζονται και στους άλλους ασθενείς αλλά σε πολύ μικρότερες συχνότητες. Τέλος, στην περίπτωση της χρόνιας ιδιοπαθής ουδετεροπενίας συγκρίθηκαν τα δεδομένα αλληλούχησης Sanger του κάθε ασθενή, με τα δεδομένα NGS. Για την ακρίβεια, αναζητήθηκαν τα CDR3 των δεδομένων Sanger στα δεδομένα NGS όπως αναφέρθηκε προηγουμένως. Τα λειτουργικά CDR3 των δεδομένων Sanger αριθμούν σε 209 σε όλους τους ασθενείς. Μετά την αναζήτηση τους στα δεδομένα NGS, εντοπίστηκαν 206 CDR3 ενώ 3 δεν εντοπίστηκαν. Τα 3 CDR3 των δεδομένων Sanger που δεν βρέθηκαν εμφανίζονταν μόνο μία φορά στο σύνολο των αλληλουχιών του ασθενή και αφορούσαν τους ασθενείς T2784,T2835 και T2860 αντίστοιχα. Στον πίνακα 6-8 παρουσιάζονται τρεις περιπτώσεις ασθενών που συγκρίνονται οι συχνότητες των CDR3 των δεδομένων NGS με τις αντίστοιχες συχνότητες των δεδομένων Sanger. Στην πρώτη περίπτωση, στον ασθενή Τ2783, ενώ υπάρχει μια αντιστοιχία των συχνοτήτων των CDR3 και το επικρατέστερο CDR3 και στα δύο αρχεία δεδομένων είναι ίδιο, παρατηρούμε ότι, δύο CDR3 εμφανίζουν αναντιστοιχία στη συχνότητα εμφάνισης τους στις δύο περιπτώσεις αλληλούχησης. Στον ασθενή T2786 οι συχνότητες από τα δεδομένα των δύο τεχνικών αλληλούχησης παρουσιάζουν μια σχετικά ακριβή αντιστοιχία. Ωστόσο, στον ασθενή Τ2863 το CDR3 με την μεγαλύτερη συχνότητα στο σύνολο των δεδομένων NGS δεν περιέχεται στα CDR3 των δεδομένων Sanger. 49

Πίνακας 6-7. Οι κοινοί κλωνότυποι των ασθενών με CIN. 50

Πίνακας 6-8. Συχνότητες των CDR3 στα δεδομένα NGS και Sanger. Τ2783 Τ2786 Τ2863 AA JUNCTION Frequency NGS Frequency Sanger AA JUNCTION Frequency NGS Frequency Sanger AA JUNCTION Frequency NGS Frequency Sanger CASSLASNGGPSYEQYF 10,0183 22,22222222 CASSWTREGNTGELFF 18,1972 35,13513514 CASTGHLNEKLFF 4,0313 14,28571429 CASSHGVPNYGYTF 4,3504 7,407407407 CASSLIQATNQPQHF 10,4673 10,81081081 CSGTYGDYGYTF 3,2964 10,71428571 CSAPGMLNTEAFF 2,6286 3,703703704 CATQDSQTNTGELFF 6,5953 5,405405405 CATSDLSVNQPQHF 3,1567 7,142857143 CASMSSSGANVLTF 2,4234 3,703703704 CASSKDTDTGELFF 1,8797 2,702702703 CASSYGPQNYGYTF 2,5216 3,571428571 CASRPGGSYEQYF 0,7366 3,703703704 CASSKAGEHTGELFF 0,6034 2,702702703 CASSLVANTGELFF 1,8661 3,571428571 CASTPEGGSGNTIYF 0,6605 3,703703704 CASSILGGANVLTF 0,3974 2,702702703 CASSSGTGTYGYTF 1,8638 3,571428571 CATGSVQGSPLHF 0,1938 7,407407407 CASSQYPGQDDTGELFF 0,2353 2,702702703 CASSITDDNQPQHF 1,7823 3,571428571 CASSPGSGNTIYF 0,0793 3,703703704 CASSLLQRPPNQPQHF 0,2019 2,702702703 CASSSRLASSEQYF 1,732 7,142857143 CASSYLWSFSGANVLTF 0,0664 3,703703704 CASSPGGTGELFF 0,1138 5,405405405 CASSLTGSNQPQHF 1,6497 3,571428571 CASSPWTGVNYGYTF 0,0648 11,11111111 CASNWGRTDRPGANVLTF 0,0989 2,702702703 CASSLVAGAGELFF 1,6086 7,142857143 CASSLSGGGGANVLTF 0,0491 7,407407407 CAISESGEQYF 0,0503 2,702702703 CASSLMRVDQPQHF 1,4874 3,571428571 CASSLEGRTWKDEQYF 0,0393 3,703703704 CSVEDRVYGANVLTF 0,0404 2,702702703 CASSPSGDLSPQHF 1,4516 3,571428571 CATGEGRNTIYF 0,0217 3,703703704 CASSSSGGTQPQHF 0,0199 2,702702703 CASSLSDRGRREKLFF 1,002 3,571428571 CASSFSAGAYEQYF 0,016 7,407407407 CASSQVYNTIYF 0,0195 2,702702703 CASSLTSGYTGELFF 0,9296 3,571428571 CAWSLPGGSGISSYEQYF 0,0157 3,703703704 CSASGTGDNYGYTF 0,0164 2,702702703 CASTDRENTGELFF 0,855 3,571428571 CASSIDHNQPQHF 0,011 2,702702703 CASSEPGQGSDQPQHF 0,8077 7,142857143 CSVEGADGANVLTF 0,0082 2,702702703 CASSFKRTGELFF 0,6424 3,571428571 CASNSGGSNQPQHF 0,002 2,702702703 CASGRVGYEQYF 0,0404 3,571428571 CACSKDTDTGELFF 0,0004 2,702702703 51

Από τα CDR3 που δεν εντοπίστηκαν στα δεδομένα NGS, αναζητήθηκε η αντίστοιχη νουκλεοτιδική αλληλουχία τους και τα αποτελέσματα της διερεύνησης παρουσιάζονται παρακάτω. Στον ασθενή T2784 δεν βρέθηκε το CDR3: CASSPPGPIHYGYTF με νουκλεοτιδική αλληλουχία: TGTGCCAGCAGCCCCCCGGGACCAATACACTATGGCTACACCTTC Η όμοια αλληλουχία CDR3 που εντοπίστηκε στα δεδομένα NGS είναι: CASSPPGPIHYGCTF με νουκλεοτιδική αλληλουχία: TGTGCCAGCAGCCCCCCGGGACCAATACACTATGGGTGCACCTTC Η ευθυγράμμιση σε νουκλεοτιδικό επίπεδο είναι: TGTGCCAGCAGCCCCCCGGGACCAATACACTATGGCTACACCTTC TGTGCCAGCAGCCCCCCGGGACCAATACACTATGGGTGCACCTTC Και σε αμινοξικό: CASSPPGPIHYGYTF CASSPPGPIHYGCTF Όμοια για τους δύο άλλους ασθενής προκύπτει: Στον ασθενή T2835 δεν βρέθηκε το CDR3: CASSLYTGYEQYF με νουκλεοτιδική αλληλουχία: TGTGCCAGCAGCTTATATACGGGCTACGAGCAGTACTTC Οι όμοιες αλληλουχίες CDR3 που εντοπίστηκαν στα δεδομένα NGS είναι: CASSLYRGYEQYF CASSLYRCYEQYF με νουκλεοτιδικές αλληλουχίες αντίστοιχα: TGTGCCAGCAGCTTATAT-CGTGGCTACGAGCAGTACTTC TGTGCCAGCAGCTTATATA-GGTGCTACGAGCAGTACTTC 52

Η ευθυγράμμιση σε νουκλεοτιδικό επίπεδο είναι: TGTGCCAGCAGCTTATATACG-GGCTACGAGCAGTACTTC TGTGCCAGCAGCTTATAT-CGTGGCTACGAGCAGTACTTC Και TGTGCCAGCAGCTTATATACG-GGCTACGAGCAGTACTTC TGTGCCAGCAGCTTATATA-GGTGCTACGAGCAGTACTTC Και σε αμινοξικό: CASSLYTGYEQYF CASSLYRGYEQYF Και CASSLYTGYEQYF CASSLYRCYEQYF Στον ασθενή T2784 δεν βρέθηκε το CDR3: CASSLRAGQPQHF με νουκλεοτιδική αλληλουχία: TGTGCCAGCAGCTTGAGGGCGGGCCAGCCCCAGCATTTT Η όμοια αλληλουχία CDR3 που εντοπίστηκε στα δεδομένα NGS είναι: CASSLGAGQPQHF με νουκλεοτιδική αλληλουχία: TGTGCCAGCAGCTTGGGGGCGGGCCAGCCCCAGCATTTT Η ευθυγράμμιση σε νουκλεοτιδικό επίπεδο είναι: TGTGCCAGCAGCTTGGGGGCGGGCCAGCCCCAGCATTTT TGTGCCAGCAGCTTGAGGGCGGGCCAGCCCCAGCATTTT Και σε αμινοξικό: CASSLRAGQPQHF CASSLGAGQPQHF 53

Επομένως, και στις τρεις περιπτώσεις Sanger CDR3 βρέθηκαν CDR3 των δεδομένων NGS που ομοιάζουν και σε αμινοξικό και σε νουκλεοτιδικό επίπεδο. Θα μπορούσαμε να υποθέσουμε ότι, οι διαφορές που εμφανίζουν τα CDR3 των δεδομένων NGS σε σχέση με τα Sanger CDR3 οφείλονται σε σφάλματα της PCR ή της αλληλούχησης. Ωστόσο, αυτή η παραδοχή μπορεί να αμφισβητηθεί διότι, ενδέχεται να μην οφείλονται σε σφάλματα οι διαφορές που επισημάνθηκαν. Η ορθή διόρθωση σφαλμάτων των αλληλουχιών θα μας οδηγούσε δίχως επιφύλαξη σε ασφαλή συμπεράσματα. 6.3Ανάλυση αποτελεσμάτων χρόνιας λεμφοκυτταρικής αναιμίας Στον παρακάτω πίνακα παρουσιάζονται τα στάδια του φιλτραρίσματος των αλληλουχιών των ασθενών που πάσχουν από χρόνια λεμφοκυτταρική λευχαιμία(cll). Σ αυτή την περίπτωση χρησιμοποιήθηκε ως επιπλέον έλεγχος μια αλληλουχία να δημιουργεί παραγωγική(productive) β αλυσίδα. Ο πίνακας 6-10 προέκυψε ύστερα από τον υπολογισμό των κλωνοτύπων και την εύρεση των μοναδικών CDR3 και περιέχει το πλήθος των κλωνοτύπων, των διευρυμένων και των μεμονωμένων κλωνοτύπων, των μοναδικών CDR3 και τον αριθμό των CDR3 που εμφανίζονται σε τουλάχιστον δύο αλληλουχίες. Τα γραφήματα της εικόνας 6-4 αποτελούν μια αναπαράσταση των ρεπερτορίων του V γονιδίου για τους ασθενείς Τ3078, Τ3079,Τ3080 και τον υγιή Τ3082. Εδώ παρατηρούμε ότι, όπως και στην περίπτωση της ουδετεροπενίας και στη λεμφοκυτταρική λευχαιμία ένα μεγάλο μέρος των αλληλουχιών με ένα συγκεκριμένο γονίδιο V έχει το ίδιο CDR3. 54

Πίνακας 6-9. Στάδια φιλτραρίσματος για CLL. Πίνακας 6-10. Πλήθος κλωνοτύπων και μοναδικών CDR3. 55

Εικόνα 6-4. Γράφημα μπαρών σε στοίβες του ρεπερτορίου του V γονιδίου 56

Το παρακάτω γράφημα[22] απεικονίζει την συσχέτιση μεταξύ του CDR3 και του V γονιδίου για τον ασθενή Τ2952. Εικόνα 6-5. Συσχέτιση CDR3 με V γονίδιο για τον Τ2952 Ο πίνακας 6-11 που ακολουθεί περιέχει τις συχνότητες του ρεπερτορίου V για κάθε ασθενή και την μέση τιμή των συχνοτήτων στο σύνολο των ασθενών που πάσχουν από λεμφοκυτταρική λευχαιμία. Ο πίνακας 6-12 παρουσιάζει τους κοινούς κλωνότυπους που εμφανίζονται στους περισσότερους ασθενείς που πάσχουν από λεμφοκυτταρική λευχαιμία μαζί με τις σχετικές συχνότητές τους. 57

Πίνακας 6-11. Τα ρεπερτόρια του V γονιδίου για όλους τους ασθενής 58

Πίνακας 6-12. Οι κοινοί κλωνότυποι των ασθενών που πάσχουν από CLL 59

6.4. Απεικονίσεις των κοινών CDR3 των ασθενών που πάσχουν από χρόνια ιδιοπαθή ουδετεροπενία. Σ αυτό το κεφάλαιο περιγράφεται μια αρχική ανάλυση των ρεπερτορίων με τη χρήση της θεωρίας των γράφων. Μετά την επιλογή των κοινών CDR3 στο σύνολο των ασθενών που πάσχουν από ουδετεροπενία αναλύθηκαν οι αλληλουχίες με ίδιο πλήθος αμινοξέων και διαφορά κατά ένα αμινοξύ. Στη συνέχεια, έγινε η σχεδίαση δικτύων γράφων που οι κόμβοι τους συμβολίζουν ένα κοινό CDR3 και οι ακμές συνδέουν τα CDR3 που διαφέρουν κατά ένα αμινοξύ. Στα παρακάτω σχήματα φαίνονται οι νησίδες των γράφων που προέκυψαν μετά από επιλογή των CDR3 με μήκος δώδεκα αμινοξέα. Ως νησίδα θεωρείται μια συνεκτική δομή που εμφανίζεται σε ένα δίκτυο γράφων. Το μέγεθος των κόμβων εξαρτάται από τον αριθμό των ασθενών που εμφανίζεται το συγκεκριμένο CDR3, ενώ το χρώμα του κόμβου εξαρτάται από την συχνότητα του συγκεκριμένου CDR3. Ο κόμβος με το λευκό χρώμα συμβολίζει το CDR3 με την μεγαλύτερη συχνότητα. Επιπλέον, δίπλα από κάθε γράφο τοποθετείται ένα γράφημα των CDR3 που περιλαμβάνονται στη νησίδα και παριστάνει τη συχνότητα κάθε αμινοξέους σε κάθε θέση του CDR3. Τα χρώματα του γραφήματος επιλέγονται με βάση την υδροφοβία των αμινοξέων. Το μπλε είναι για τα υδρόφιλα, το πράσινο για τα ουδέτερα και το μαύρο για τα υδρόφοβα αμινοξέα. Εικόνα 6-6. Νησίδα με 71 κόμβους. 60

Εικόνα 6-7. Νησίδα με 60 κόμβους. Εικόνα 6-8. Νησίδα με 54 κόμβους. Από τα παραπάνω σχήματα γίνεται φανερό ότι οι γράφοι μπορούν να χρησιμοποιηθούν για την περιγραφή της ποικιλομορφίας των ρεπερτορίων. Επιπλέον, οι ιδιότητες που διαθέτουν μπορούν να χρησιμοποιηθούν ως ποιοτικά μεγέθη της εκτίμησης και συσχέτισης ρεπερτορίων. 6.4. Εισαγωγή εργαλείων ανάλυσης δεδομένων NGS στη πλατφόρμα Galaxy. Η διαδικτυακή πλατφόρμα Galaxy[23] περιέχει εργαλεία ανάλυσης δεδομένων βιοϊατρικής. Ο κώδικας του είναι ανοιχτός και μπορεί να εγκατασταθεί σε έναν εξυπηρετητή (server) για να υπάρχει δυνατότητα διαδικτυακής πρόσβασης από οποιοδήποτε χώρο, μέσω γραφικού περιβάλλοντος. Επιπλέον, είναι δυνατή η ενσωμάτωση περεταίρω εργαλείων και χρησιμοποίηση του Galaxy ως διεπαφής 61

χρήστη (graphical user interface) για την πρόσβαση σε εργαλεία που αναπτύσσονται στα πλαίσια βιοπληροφορικής ανάλυσης. Εικόνα 6-9. Παράθυρο έναρξης. Λόγω των δυνατοτήτων του, χρησιμοποιήθηκε ως πλατφόρμα για την πρόσβαση σε εργαλεία που διεκπεραιώνουν ένα μέρος της επεξεργασίας των δεδομένων NGS που προηγήθηκε, ώστε να είναι διαθέσιμα στο χρήστη μέσω διαδικτυακού γραφικού περιβάλλοντος. Η αυτοποιημένη υποδομή που διαθέτει το Galaxy (Galaxy Tool Factory)[24] απλοποιεί την ανάπτυξη, την εγκατάσταση και τη δοκιμή ενός εργαλείου. Το εργαλείο μπορεί να αναπτυχθεί σε Python (Perl ή R), εφόσον το Galaxy διαθέτει μεταγλωττιστή γι αυτές τις γλώσσες, και να οριστούν τα αρχεία εισόδου ή παράμετροι που δέχεται το εργαλείο για να παραχθούν τα αρχεία εξόδου. Ο απαραίτητος wrapper της περιγραφής του εργαλείου αναπτύσσεται σε XML. Στo Galaxy Tool Factory μπορεί να έχει πρόσβαση μόνο ένας χρήστης που χαρακτηρίζεται ως διαχειριστής. Τα εργαλεία δημιουργήθηκαν με την λογική των workflows, ή ροών εργασίας, που περιλαμβάνουν διαδοχικά στάδια και χρησιμοποιούν την έξοδο ενός σταδίου ως είσοδο στο επόμενο. Το παρακάτω σχήμα αναπαριστά τις ροές εργασίας των εργαλείων NGS που αναπτύχθηκαν για το Galaxy. Μέσα στο πλαίσιο τοποθετούνται τα ονόματα των εργαλείων ενώ εκτός πλαισίου είναι τα ονόματα των αρχείων εισόδου και εξόδου. 62

Εικόνα 6-10. Διάγραμμα των ροών εργασίας. Ένα απλό αλλά αναγκαίο εργαλείο είναι το IMGT File Concat. Το εργαλείο ΙMGT-HighV/QUEST που χρησιμοποιούμε για την ανάλυση των αλληλουχιών έχει περιορισμό να μπορεί να αναλύει μέχρι αρχεία των 500.000 βάσεων. Επομένως στη περίπτωση που ένα αρχείο υπερβαίνει το όριο των 500.000 βάσεων, τότε χωρίζεται σε τμηματικά αρχεία. Επομένως, μετά την ανάλυση του IMGT, αυτά τα αρχεία πρέπει να συνενωθούν. Αυτή τη δουλεία επιτελεί το IMGT File Concat. Δέχεται ως είσοδο από δύο μέχρι τέσσερα αρχεία και τα ενώνει. 63

Εικόνα 6-10. Παράθυρο επιλογής αρχείων και εκτέλεσης του εργαλείου IMGT File Concat. Εικόνα 6-11. Αρχείο Εξόδου του εργαλείου IMGT File Concat. Στη συνέχεια, το αρχείο μπορεί να φιλτραριστεί χρησιμοποιώντας το εργαλείο NGS Filtering. Αυτό το εργαλείο παίρνει ως είσοδο το αρχείο Summary που προέκυψε από το IMGT-HighV/QUEST και απορρίπτει τις αλληλουχίες με βάση τα φίλτρα που επέλεξε ο χρήστης. 64

Εικόνα 6-12. Το εργαλείο NGS Filtering. Το αποτέλεσμα της εκτέλεσης του NGS Filtering είναι ένα αρχείο με τις αλληλουχίες που απέμειναν, ένα αρχείο με τις αλληλουχίες που απορρίφθηκαν και ένα αρχείο με τη σύνοψη της διαδικασίας του φιλτραρίσματος. Εικόνα 6-13. Μέρος του αρχείου με τις αλληλουχίες που δεν απορρίφθηκαν από τα φίλτρα. 65

Εικόνα 6-14. Σύνοψη της διαδικασίας του φιλτραρίσματος. Το επόμενο εργαλείο είναι το Clonotype Computation το οποίο δέχεται το αρχείο που έχει υποστεί φιλτράρισμα και υπολογίζει τους συνδυασμούς V-CDR3. Εικόνα 6-15. Το εργαλείο Clonotype Computation. Από την εκτέλεση του εργαλείου προκύπτει ένα αρχείο με τους συνδυασμούς V και CDR3, το πλήθος των αλληλουχιών για κάθε κλωνότυπο και τη συχνότητα του κάθε κλωνοτύπου και ένα αρχείο με τους πρώτους δέκα κλωνότυπους. 66

Εικόνα 6-16. Αρχείο των υπολογισμένων κλωνοτύπων. Εικόνα 6-17. Οι δέκα κλωνότυποι με την μεγαλύτερη συχνότητα. Τέλος, το εργαλείο Repertoire Extraction που δέχεται το αρχείο με τους υπολογισμένους κλωνοτύπους που προέκυψε από την εκτέλεση του εργαλείου Clonotype Computation και υπολογίζεται το ρεπερτόριο του V γονιδίου και η συχνότητα των μοναδικών CDR3. 67

Εικόνα 6-18. Το εργαλείο Repertoire Extraction. Από την εκτέλεση του εργαλείου προκύπτουν τέσσερα αρχεία. Ένα αρχείο με το ρεπερτόριο του V γονιδίου, ένα αρχείο με τα δέκα γονίδια V με τη μεγαλύτερη συχνότητα στο σύνολο των κλωνοτύπων, ένα αρχείο με τα μοναδικά CDR3 και τις συχνότητές τους και ένα αρχείο με τα 10 πιο συχνά CDR3. Εικόνα 6-19. Μέρος του αρχείου με το ρεπερτόριο του V γονιδίου. 68

Εικόνα 6-20. Τα 10 πιο συχνά V γονίδια στο σύνολο των κλωνοτύπων. Εικόνα 6-21. Αρχείο με τα μοναδικά CDR3 69

Εικόνα 6-22. Τα δέκα πιο συχνά CDR3. 70