Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Ιατρική Σχολή Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Ιατρικής Πληροφορικής της Ιατρικής Σχολής και των τμημάτων Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών και Πληροφορικής Μεθοδολογίες Βιοπληροφορικής Ανάλυσης και Διαχείρισης Λαθών σε Ανοσογενετικά Δεδομένα Αλληλούχησης Νέας Γενιάς με Εφαρμογή στη Χρόνια Λεμφοκυτταρική Λευχαιμία Πανοπούλου Χρυσή Τριμελής επιτροπή: Χουβαρδά Ιωάννα, Λέκτορας, Εργ. Ιατρικής Πληροφορικής, Ιατρική Σχολή, ΑΠΘ (επιβλέπουσα) Σταματόπουλος Κώστας, Ερευνητής Α, ΙΝΕΒ/ΕΚΕΤΑ Μαγκλαβέρας Νικόλαος, Καθηγητής, Εργ. Ιατρικής Πληροφορικής, Ιατρική Σχολή, ΑΠΘ Σεπτέμβριος 05
Περίληψη Αντικείμενο της εργασίας είναι η διόρθωση λαθών σε ανοσογενετικά δεδομένα της αλυσίδας β του Τ κυτταρικού υποδοχέα που προκύπτουν από μεθόδους Αλληλούχησης Νέας Γενιάς, με στόχο: α) τη μείωση της τεχνητής ποικιλομορφίας που εισάγεται από τα λάθη και επομένως την καλύτερη εκτίμηση της πραγματικής ποικιλομορφίας του υποδοχέα, β) την εξαγωγή γνώσης για τη διόρθωση λαθών που μπορεί αργότερα να εφαρμοστεί και σε πιο απαιτητικές περιπτώσεις (όπως στα Β λεμφοκύτταρα, όπου τα λάθη πρέπει να διαχωριστούν από τις μεταλλάξεις). Κάθε T λεμφοκύτταρο φέρει στην επιφάνειά του έναν υποδοχέα, εξειδικευμένο για ένα συγκεκριμένο αντιγόνο. Η περιοχή κάθε αλυσίδας του υποδοχέα που είναι κυρίως υπεύθυνη για τη σύνδεση με το αντιγόνο λέγεται CDR και αποτελείται από τμήματα των V, D και J γονιδίων. Οι διαφορετικοί συνδυασμοί των V, D και J γονιδίων καθώς και η προσθήκη νουκλεοτιδίων Ν στις συμβολές των αναδιατασσόμενων γονιδίων δημιουργούν τη μεγάλη ποικιλομορφία που παρουσιάζει ο υποδοχέας. Το σύνολο των αλληλουχιών που προκύπτει από την αλληλούχηση περιέχει και λανθασμένα τοποθετημένα νουκλεοτίδια κατά την ενίσχυση του δείγματος με τη διαδικασία της αλυσιδωτής αντίδρασης πολυμεράσης και λανθασμένα αναγνωσμένα νουκλεοτίδια κατά την αλληλούχηση. Τα λάθη αυτά εισάγουν τεχνητή ποικιλομορφία στο ρεπερτόριο του Τ κυτταρικού υποδοχέα. Στην εργασία μελετώνται μέθοδοι διόρθωσης των λαθών ώστε να εξαχθούν οι πραγματικές αναδιατάξεις του υποδοχέα. Τέτοιες μεθοδολογίες μπορούν να ενσωματώνουν εκ των προτέρων γνώση (π.χ. γνώση των γονιδίων αναφοράς) ή/και να στηρίζονται σε στατιστικές μεθόδους. Όσον αφορά την πρώτη περίπτωση, αναπτύσσονται μεθοδολογίες που βασίζουν τη διόρθωση στη σύγκριση με τα αναγνωρισμένα V και J γονίδια αναφοράς και αφορούν διορθώσεις στις περιοχές V και J του CDR. Προτείνεται επίσης και μία μέθοδος διόρθωσης των ορίων των περιοχών Ν και Ν. Από τις υπάρχουσες στη βιβλιογραφία μεθοδολογίες, μελετάται η μέθοδος διόρθωσης λαθών MiTCR. Οι αλγόριθμοι υλοποιήθηκαν στην υψηλού επιπέδου γλώσσα προγραμματισμού Python. Οι αλγόριθμοι του MiTCR ήταν διαθέσιμοι σε Jana και τροποποιήθηκαν κατάλληλα ώστε να εξάγουμε τα επιθυμητά αποτελέσματα. Τα δεδομένα που χρησιμοποιήθηκαν στην εργασία παραχωρήθηκαν από το INEB (Δρ. Σταματόπουλος).
4
Abstract The purpose of this work is to study error correction for Next Generation Sequencing immunogenetic data of T cell receptor chain β. The importance of error correction in T cells is two-fold: a) to help reduce the artificial diversity introduced by error and thus better estimate the actual diversity of the receptor, b) to gain insight for the error correction that can later be applied in other more challenging cases (like in B cells, where error has to be also distanced from mutation). Each T lymphocyte bears on its surface a receptor, specific for a particular antigen. The region of each receptor chain primarily responsible for binding to the antigen is CDR, consisting of V, D and J gene segments. The many possible different combinations of V, D and J genes and the addition of N nucleotides at the genes junctions create the receptor s great diversity. Sequences obtained by sequencing T cell receptor immunogenetic data contain wrongly positioned nucleotides during amplification of the sample by polymerase chain reaction and erroneously recognized nucleotides during sequencing. These errors introduce artificial diversity to the repertoire of T cell receptor. In this thesis we investigate error correction methodologies in order to extract the real diversity of the receptor. Such methods can incorporate prior biological knowledge (e.g. knowledge of reference genes) and/or can depend on statistical or machine learning methods. Related to the former, correction is based on comparison with the recognized V and J reference genes and concerns V and J regions of CDR. A method of correcting the boundaries of regions N and N is also suggested. With respect to more statistically oriented methods, from the existing in literature methodologies, we study MiTCR error correction algorithm. The algorithms implemented in high-level Python programming language. The MiTCR algorithm was available in Java and was accordingly modified to get access to the necessary information. The data for this work were provided by INAB (Dr Stamatopoulos). 5
6
Ευχαριστίες Ευχαριστώ θερμά την επιβλέπουσα Λέκτορα κ. Ιωάννα Χουβαρδά για την καθοδήγηση και την υποστήριξη που μου προσέφερε στην εκπόνηση της διπλωματικής αυτής εργασίας καθώς και τον Διδάκτορα κ. Χρήστο Μαραμή για τη συνεχή βοήθειά του. Ευχαριστώ τον διευθυντή του Ινστιτούτου Εφαρμοσμένων Βιοεπιστημών Ερευνητή Α κ. Κώστα Σταματόπουλο και τους συνεργάτες του κ. Αναστασία Χατζηδημητρίου, κ. Άννα Βαρδή και κ. Ευαγγελία Σταλίκα για τη συνεργασία και τις παρατηρήσεις τους στο βιολογικό κομμάτι της εργασίας καθώς και για τη φιλοξενία που μου πρόσφεραν στο ινστιτούτο. Θα ήθελα επίσης να ευχαριστήσω τους δικούς μου αγαπημένους ανθρώπους: την αδερφή μου και το Βαγγέλη για την κατανόησή τους που δεν τους βοήθησα και δεν ήμουν δίπλα τους όσο θα ήθελα το τελευταίο διάστημα, τους γονείς μου που με στηρίζουν και με νοιάζονται, την Κορίνα και την Εύη που είναι πάντα δίπλα μου και το Γιώργο για την παρέα και τη συμπαράσταση στην κοινή μας πορεία από την αρχή των σπουδών μας μέχρι και το μεταπτυχιακό αυτό. 7
8
Περιεχόμενα Περίληψη... Abstract... 5 Ευχαριστίες... 7 Εισαγωγή.... Το ανοσοποιητικό σύστημα.... Οι μηχανισμοί δημιουργίας της ποικιλομορφίας των Τ κυτταρικών υποδοχέων.. Αλληλούχηση DNA και βιοπληροφορική ανάλυση των αποτελεσμάτων της αλληλούχησης... 5. Αλληλούχηση DNA... 5. Προ-επεξεργασία και βιοπληροφορική ανάλυση των αποτελεσμάτων της αλληλούχησης... 7. International ImMunoGeneTics Information System - IMGT... 8 Σύνολα δεδομένων και προ-επεξεργασία.... Σύνολα δεδομένων.... Επεξεργασία φιλτράρισμα των δεδομένων... 4 Μέθοδοι για τη διόρθωση των λαθών που προκύπτουν κατά την αλυσιδωτή αντίδραση πολυμεράσης και κατά την αλληλούχηση... 5 4. Αναζήτηση στη βιβλιογραφία... 5 4. MiTCR... 5 4.. Μεθοδολογία... 5 4.. Αποτελέσματα... 9 4.. Αποτελέσματα από την εφαρμογή του αλγορίθμου MiTCR στα σύνολα δεδομένων Α και Β... 0 4. Διόρθωση των θέσεων Ν και Ν που επιστρέφει το IMGT... 4.. Μεθοδολογία... 4.. Αποτελέσματα... 5 4.. Ανάλυση λαθών... 7 4.4 Διόρθωση λαθών στην περιοχή V του CDR με βάση το IMGT... 9 4.4. Μεθοδολογία... 40 4.4. Αποτελέσματα... 4 4.5 Διόρθωση λαθών στις περιοχές V και J του CDR ως προς το CDR με την καλύτερη στοίχιση με το γονίδιο αναφοράς... 4 4.5. Μεθοδολογία... 4 9
4.5. Αποτελέσματα... 46 4.5.. Διόρθωση λαθών που οδηγούν σε διαφορετική αμινοξική αλληλουχία... 46 4.5.. Διόρθωση λαθών που είτε επιφέρουν αλλαγή στην αμινοξική αλληλουχία είτε όχι 50 5 Συμπεράσματα Μελλοντικές προεκτάσεις... 55 5. Συμπεράσματα... 55 5. Μελλοντικές προεκτάσεις... 57 Βιβλιογραφία... 59 0
Εισαγωγή. Το ανοσοποιητικό σύστημα Το ανοσοποιητικό σύστημα εξελίχθηκε για να μας προστατεύει από τους παθογόνους παράγοντες. Κάθε ανοσολογική απάντηση του οργανισμού περιλαμβάνει αρχικά την αναγνώριση του παθογόνου ή ξένου παράγοντα και στη συνέχεια την αντίδραση για την εξουδετέρωσή του. Η ανοσία διακρίνεται σε έμφυτη ή φυσική ανοσία (natural or native or innate immunity) και σε επίκτητη ή ειδική ή προσαρμοζόμενη ανοσία (acquired or specific or adaptive immunity)[]. Τα κύρια κύτταρα της φυσικής ανοσίας είναι τα επιθήλια, τα φαγοκύτταρα (μακροφάγα, ουδετερόφιλα) και το συμπλήρωμα, και το βασικό χαρακτηριστικό της ότι στερείται διακριτικής ικανότητας ως προς τον ξένο παράγοντα. Αν η φυσική ανοσία δεν κατορθώσει να εξουδετερώσει τους παθογόνους παράγοντες κινητοποιούνται πιο εξειδικευμένοι μηχανισμοί οι οποίοι συνιστούν την προσαρμοζόμενη ανοσία. Η προσαρμοζόμενη ανοσία εκδηλώνεται αργότερα από τη φυσική. Τα κύρια χαρακτηριστικά της προσαρμοζόμενης ανοσίας που είναι και τα πλεονεκτήματά της έναντι της φυσικής, είναι η μεγάλη προσαρμοστικότητα στα διαφορετικά αντιγόνα (δηλαδή κάθε ουσίας που προκαλεί μια άνοση απάντηση), η εξειδίκευση στην αναγνώρισή τους και η μνήμη σε περίπτωση επόμενης επαφής με τον ίδιο παθογόνο παράγοντα. Βασικό μειονέκτημα είναι ότι απαιτεί χρόνο (ημέρες έως εβδομάδες) για να αναπτυχθεί πλήρως. Η προσαρμοζόμενη άνοση απάντηση διακρίνεται σε χυμική (Β λεμφοκύτταρα) και κυτταρική (Τ λεμφοκύτταρα). Τα Τ λεμφοκύτταρα παράγονται στο μυελό των οστών και μεταναστεύουν στο θύμο αδένα κατά την εμβρυϊκή και νεογνική φάση. Εκεί διαφοροποιούνται σε ώριμα Τ-λεμφοκύτταρα, τα οποία υπάρχουν στον περιφερικό λεμφικό ιστό, στο αίμα και στη λέμφο. Κάθε T λεμφοκύτταρο φέρει στην επιφάνειά του έναν υποδοχέα (T cell receptor - TCR) που είναι εξειδικευμένος για ένα συγκεκριμένο αντιγόνο. Ο Τ κυτταρικός υποδοχέας συντίθεται από δύο διαφορετικές πρωτεϊνικές αλυσίδες, συνήθως τις α και β και σπανιότερα τις γ και δ. Στην παρούσα εργασία μελετάμε την β αλυσίδα του Τ κυτταρικού υποδοχέα. Η περιοχή κάθε αλυσίδας του T κυτταρικού υποδοχέα που είναι κυρίως υπεύθυνη για τη σύνδεση με το αντιγόνο λέγεται CDR (Complementarity Determining Region ) και στη δημιουργία της συμμετέχουν τμήματα από τρεις κατηγορίες γονιδίων: τα μεταβλητά (variable - V), τα ποικιλόμορφα (diversity - D) και τα συνδετικά (joining - J) γονίδια. Στην εικόνα - φαίνεται η βασική δομή ενός Τ κυτταρικού υποδοχέα που σχηματίζεται από τις αλυσίδες α και β. Παρατηρούμε ότι αποτελείται από μία σταθερή περιοχή (constant region) και μία μεταβλητή (variable region) στην άκρη της οποίας είναι το σημείο σύνδεσης με το αντιγόνο. Οι δύο αλυσίδες ενώνονται με δισουλφιδικό δεσμό.
Εικόνα - Η βασική δομή του Τ κυτταρικού υποδοχέα. Πηγή: http://cnx.org. Οι μηχανισμοί δημιουργίας της ποικιλομορφίας των Τ κυτταρικών υποδοχέων Για τη δημιουργία της μεγάλης ποικιλομορφίας των Τ κυτταρικών υποδοχέων, που τους δίνουν τη δυνατότητα αναγνώρισης εκατομμυρίων διαφορετικών αντιγόνων, υπεύθυνοι είναι δύο ειδικοί μηχανισμοί: η συνδυαστική ποικιλότητα (combinatorial diversity) κατά τον ανασυνδυασμό V-D-J και η συνδετική ποικιλότητα (junctional diversity) Τα γονίδια της β αλυσίδας ανασυνδυάζονται πρώτα. Αρχικά, ανασυνδυάζεται ένα γονίδιο D (TRBD) με ένα γονίδιο J (TRBJ) και, στη συνέχεια, ένα γονίδιο V (TRBV) ανασυνδυάζεται με το σύμπλοκο D-J. Στον άνθρωπο, η β αλυσίδα του Τ κυτταρικού υποδοχέα προκύπτει από τον ανασυνδυασμό 5 διαφορετικών TRBV, διαφορετικών TRBD και διαφορετικών TRBJ. Ακολουθεί μεταγραφή του συμπλόκου TCR-VDJ, μετάφραση του ώριμου mrna σε πολυπεπτιδική αλυσίδα στα ριβοσωμάτια και μετασυνθετική τροποποίηση των αντίστοιχων πεπτιδίων, κυρίως με γλυκοζυλίωση, στο ενδοπλασματικό δίκτυο. Κάθε γονίδιο V φέρει στο 5 άκρο του ένα μικρό εξόνιο, την αλληλουχία-οδηγό (leader). Αυτό συνθέτει ένα μικρό πεπτίδιο-οδηγό ή πεπτίδιο-σήμα (signal ή leader L peptide). Το πεπτίδιο-οδηγός τελικά αφαιρείται από μια πεπτιδάση μετά την είσοδο της πολυπεπτιδικής αλυσίδας στο ενδοπλασματικό δίκτυο. Στη συνέχεια, συμβαίνει αναδιάταξη των γονιδίων της α αλυσίδας μέχρι να παραχθεί μια λειτουργική α αλυσίδα η οποία συνδυάζεται με τη β αλυσίδα και έτσι σχηματίζεται ένας λειτουργικός αβ - TCR υποδοχέας.
Στην ποικιλότητα που προκύπτει από το συνδυασμό των διαφορετικών TRBV, TRBD και TRBJ γονιδίων έρχεται να προστεθεί και η συνδετική ποικιλότητα που δημιουργείται από την προσθήκη νουκλεοτιδίων στις συμβολές των αναδιατασσόμενων γονιδίων. Δηλαδή, ανάμεσα στα τμήματα των γονιδίων V, D και J που συνθέτουν το CDR προσθέτονται και νουκλεοτίδια τα οποία ονομάζονται νουκλεοτίδια Ν (non-template encoded nucleotides), δημιουργώντας έτσι τις Ν περιοχές του CDR. Ν ονομάζεται η περιοχή ανάμεσα στο V και το D γονίδιο, και Ν η περιοχή ανάμεσα στο D και το J γονίδιο. Η βασική δομή του CDR και η διάταξη των διαφορετικών περιοχών που το συνθέτουν φαίνεται στην εικόνα -. Εικόνα - Η διάταξη των περιοχών του CDR. Πηγή: www.adaptivebiotech.com Λόγω του ανασυνδυασμού των διαφορετικών V, D και J γονιδίων καθώς και της προσθήκης των N νουκλεοτιδίων στις συμβολές των γονιδίων, η CDR περιοχή παρουσιάζει υψηλή μεταβλητότητα.
4
Αλληλούχηση DNA και βιοπληροφορική ανάλυση των αποτελεσμάτων της αλληλούχησης Η ανοσογενετική ανάλυση των γονιδίων των αντιγονικών υποδοχέων είναι καθοριστικής σημασίας για την πρόγνωση, τη διάγνωση και την παρακολούθηση ασθενειών όπως κακοήθειες του λεμφικού ιστού, για παράδειγμα στη Χρόνια Λεμφοκυτταρική Λευχαιμία ΧΛΛ (Chronic Lymphocytic Leukemia - CLL). Στόχος επομένως είναι να εξαχθούν οι διαφορετικές αλληλουχίες που συνθέτουν τους Τ κυτταρικούς υποδοχείς που περιέχονται στο γενετικό υλικό κάθε αντικειμένου μελέτης και αυτό επιτυγχάνεται με κατάλληλες μεθόδους βιοπληροφορικής ανάλυσης.. Αλληλούχηση DNA Το πρώτο βήμα είναι η αλληλούχηση του DNA (DNA sequencing), ο προσδιορισμός δηλαδή της αλληλουχίας των νουκλεοτιδίων αδενίνη (Α), κυτοσίνη (C), γουανίνη (G) και θυμίνη (T) που συνθέτουν ένα μόριο DNA. Οι πρώτες προσπάθειες αλληλούχησης του DNA έγιναν από τους Allan Maxam και Walter Gilbert και Frederick Sanger το 977. Η μέθοδος αλληλούχησης Sanger [] βασίζεται στη χρήση διδεοξυριβονουκλεοτιδίων (ddntps) και είναι η πιο διαδεδομένη. Η Αλληλούχηση Νέας Γενιάς (Next Generation Sequencing - NGS), επέτρεψε την αλληλούχηση μεγάλου όγκου γενετικού υλικού σε σύντομο χρόνο και με μικρότερο κόστος. Με τη συγκεκριμένη μεθοδολογία μεγάλος αριθμός τμημάτων DNA αλληλουχούνται παράλληλα, οδηγώντας έτσι στον ταυτόχρονο προσδιορισμό εκατομμυρίων αλληλουχιών. Τα τελευταία χρόνια έχουν αναπτυχθεί πολλές διαφορετικές πλατφόρμες Αλληλούχησης Νέας Γενιάς καθεμία από τις οποίες χρησιμοποιεί και διαφορετική μεθοδολογία αλληλούχησης. Τέτοιες πλατφόρμες είναι: 454 Pyrosequencing (της Roche Diagnostics GMBH Ltd) [], Illumina Solexa MiSeq και HiSeq (της Illumina) [4], Ion και SOLiD (της Life Technologies/ ThermoFisher Scientific) [5]. Καθεμία από τις συσκευές αυτές προσφέρει διαφορετική ταχύτητα και ακρίβεια ανάλυσης, αναλύει τμήματα γενετικού υλικού διαφορετικού μήκους και έχει δυνατότητα μέγιστης παράλληλης αλληλούχησης διαφορετικού πλήθους τμημάτων DNA. Για τις ανάγκες ανάλυσης του ρεπερτορίου του Τ κυτταρικού υποδοχέα έχει προηγηθεί η απομόνωση της αλυσίδας β του υποδοχέα και ενίσχυση των αλληλουχιών με την τεχνική της αλυσιδωτής αντίδρασης πολυμεράσης (Polymerase Chain Reaction - PCR). Η αλυσιδωτή αντίδραση πολυμεράσης είναι μία μέθοδος παραγωγής μεγάλου αριθμού αντίγραφων αλληλουχιών DNA. Ανακαλύφθηκε το 98 από τον Kary Mullis [6], ο οποίος έλαβε το νόμπελ Ιατρικής το 99. Απαραίτητα συστατικά της αλυσιδωτής αντίδρασης πολυμεράσης είναι: 5
τα 4 δεοξυριβονουκλεοτίδια (datp, dttp, dgtp, dctp), μια θερμοανθεκτική DNA πολυμεράση (Taq, Pfu), ιόντα Mg απαραίτητα για την ενζυμική λειτουργία της πολυμεράσης και ένα ζεύγος από συνθετικά ολιγονουκλεοτίδια που λειτουργούν ως εκκινητές (primers) για τη σύνθεση του DNA Κάθε κύκλος της αντίδρασης χωρίζεται σε τρία βασικά στάδια (Εικόνα -): διαχωρισμός των αλυσίδων του DNA, σύνδεση των εκκινητών και σύνθεση του νέου DNA. Η θερμοκρασία στο κάθε στάδιο και οι συγκεντρώσεις των συστατικών της αλυσιδωτής αντίδρασης πολυμεράσης είναι σημαντικές παράμετροι για την εξέλιξη της αντίδρασης. Εικόνα - Τα βασικά στάδια της αλυσιδωτής αντίδρασης πολυμεράσης. Πηγή: https://en.wikipedia.org/wiki/polymerase_chain_reaction Στη συνέχεια το δείγμα αναλύεται από έναν Αλληλουχητή Νέας Γενιάς. Το σύνολο των αλληλουχιών που προκύπτει από την αλληλούχηση έχει και λάθη. Τα λάθη αυτά οφείλονται είτε στην αρχική προετοιμασία και ενίσχυση του δείγματος με την μέθοδο της αλυσιδωτής αντίδρασης πολυμεράσης (PCR errors), είτε στην αλληλούχηση (sequencing errors). Κατά την αλυσιδωτή αντίδραση πολυμεράσης, λάθη μπορεί να προκύψουν κατά τη δημιουργία των αντιγράφων εάν στη φάση της σύνθεσης του νέου DNA τοποθετηθεί λανθασμένο νουκλεοτίδιο στην αλυσίδα που δημιουργείται. Ο νέος αυτός κλώνος που θα δημιουργηθεί, θα συνεχίσει να πολλαπλασιάζεται και μαζί του θα πολλαπλασιάζεται και το λάθος. Παράλληλα θα συνεχίσουν να συμβαίνουν και νέα λάθη. Όσον αφορά τα λάθη αλληλούχησης, αυτά προκύπτουν όταν η πλατφόρμα αλληλούχησης αναγνωρίσει λανθασμένη βάση σε κάποια θέση της αλληλουχίας λόγω κακής ποιότητας διαβάσματος. Τα λάθη αυτά προσδίδουν τεχνητή ποικιλομορφία στο ρεπερτόριο του Τ κυτταρικού υποδοχέα. 6
. Προ-επεξεργασία και βιοπληροφορική ανάλυση των αποτελεσμάτων της αλληλούχησης Το αποτέλεσμα της διαδικασίας Αλληλούχησης Νέας Γενιάς είναι δύο αρχεία fastq. Το κάθε αρχείο περιέχει το διάβασμα κάθε αλληλουχίας μία φορά από κάθε κατεύθυνση. Τα fastq αρχεία είναι μια μορφή αρχείων κειμένου που χρησιμοποιούνται για την αποθήκευση γενετικών αλληλουχιών. Εκτός από τη νουκλεοτιδική αλληλουχία στα αρχεία αυτά καταγράφεται και η ποιότητα διαβάσματος κάθε βάσης. Το αρχείο fastq [7] για κάθε αλληλουχία χρησιμοποιεί 4 γραμμές: Η πρώτη γραμμή ξεκινάει με τον χαρακτήρα '@' και ακολουθείται από τον αναγνωριστικό κωδικό της αλληλουχίας και προαιρετικά από μία περιγραφή της, η δεύτερη γραμμή είναι η νουκλεοτιδική αλληλουχία που διαβάστηκε, η τρίτη γραμμή ξεκινάει με τον χαρακτήρα '+' και ακολουθείται προαιρετικά από το ίδιο αναγνωριστικό της αλληλουχίας και κάποια περιγραφή και η τέταρτη γραμμή περιλαμβάνει την ποιότητα διαβάσματος για κάθε βάση της αλληλουχίας της γραμμής δύο, κωδικοποιημένη ανάλογα με τη συσκευή με την οποία έγινε η αλληλούχηση Για μία αλληλουχία από συσκευή της Illumina, οι 4 γραμμές του fastq αρχείου έχουν τη μορφή: @EAS0_8_6 94/ CGCGTAACACATTGATTATTTGCACGGCGTCACACTTTGCTATGCCATAGCATTTTTATCCATAAGATT + HHHHHHHHHHHHHGHHHGHHHGHIHHHHHHHHHHHHGCHHHHFHHHHHHHGGGCFHBFBCCF Στη συνέχεια, τα δύο fastq αρχεία που επιστρέφονται από την αλληλούχηση συνενώνονται έτσι ώστε να προκύψει ένα διάβασμα για την κάθε αλληλουχία. Η συνένωση (stitching) γίνεται από ειδικούς αλγορίθμους οι οποίοι λαμβάνουν υπόψη την ποιότητα διαβάσματος των βάσεων επιλέγοντας για κάθε θέση τη βάση που προσδιορίστηκε με το μεγαλύτερο σκορ ποιότητας, ώστε η αλληλουχία που θα προκύψει να έχει όσο το δυνατόν λιγότερα λάθη. Αλληλουχίες με πολύ χαμηλή ποιότητα καθώς επίσης και αλληλουχίες που είναι μόνο μια φορά διαβασμένες απορρίπτονται από τον αλγόριθμο. Τέλος, η βιοπληροφορική ανάλυση των αποτελεσμάτων έγινε από το International ImMunoGeneTics Information System - IMGT το οποίο περιγράφεται στην συνέχεια. 7
. International ImMunoGeneTics Information System - IMGT Τo International ImMunoGeneTics Information System - IMGT [8] [9] δημιουργήθηκε το 989 από την Marie-Paule Lefranc στο εργαστήριο Laboratoire d'immunogénétique Moléculaire (LIGM) στο Μονπελιέ της Γαλλίας, με σκοπό να προτυποποιήσει και να διαχειριστεί τα ανοσογενετικά δεδομένα. Πλέον αποτελεί βασική αναφορά στην ανοσογενετική και στην ανοσοπληροφορική σε παγκόσμιο επίπεδο. Το IMGT είναι μία πηγή ολοκληρωμένης γνώσης που εξειδικεύεται στις ανοσοσφαιρίνες (immunoglobulins - IG), στους Τ κυτταρικούς υποδοχείς, σε θέματα ιστοσυμβατότητας στον άνθρωπο και σε άλλα είδη σπονδυλωτών, καθώς και στις πρωτεΐνες του ανοσοποιητικού συστήματος σε οποιοδήποτε είδος. Συμπεριλαμβάνει βάσεις δεδομένων (IMGT/LIGM-DB, IMGT/GENE-DB, IMGT/D structure-db, κ.α.) και διαδικτυακά εργαλεία για την ανάλυση αλληλουχιών, γονιδιώματος και τρισδιάστατων (D) δομών και προσφέρει και θεωρητικό υπόβαθρο για την κατανόηση του συγκεκριμένου αντικειμένου. Το IMGT χρησιμοποιείται στην ιατρική έρευνα (κυρίως για αυτοάνοσα νοσήματα, μολυσματικές ασθένειες, λευχαιμίες, λεμφώματα και μυελώματα), στην κτηνιατρική έρευνα, στη βιοτεχνολογία, στη διαγνωστική (όπως στην ανίχνευση και παρακολούθηση υπολειμματικών ασθενειών), στη θεραπευτική (μοσχεύματα, ανοσοθεραπεία, εμβολιολογία) και σε άλλους τομείς. Το IMGT είναι ελεύθερα προσβάσιμο στη διεύθυνση http://www.imgt.org. Ένα από τα εργαλεία του IMGT, το IMGT/HighV-QUEST [0], χρησιμοποιήθηκε για την ανάλυση των αλληλουχιών που μελετήθηκαν στην παρούσα εργασία. Το συγκεκριμένο εργαλείο χρησιμοποιείται στην ανάλυση των αναδιατεταγμένων νουκλεοτιδικών αλληλουχιών των ανοσοσφαιρινών και των Τ κυτταρικών υποδοχέων. Το IMGT/HighV- QUEST ταυτοποιεί τα μεταβλητά V, τα ποικιλόμορφα D και τα συνδετικά J γονίδια της κάθε αλληλουχίας μέσω της σύγκρισής τους με τα διάφορα γονίδια αναφοράς που βρίσκονται καταγεγραμμένα στον κατάλογο αναφοράς του IMGT. Σε συνδυασμό με το εργαλείο IMGT/JunctionAnalysis [] παρέχει μία πλήρη περιγραφή της ένωσης V-D-J. Το IMGT/HighV-QUEST μπορεί να δεχτεί για ανάλυση σύνολα δεδομένων μέχρι και 500.000 αλληλουχιών και για το λόγο αυτό χρησιμοποιείται για δεδομένα που έχουν προκύψει από Αλληλούχηση Νέας Γενιάς. Τα αποτελέσματα της ανάλυσης επιστρέφονται στον χρήστη συγκεντρωμένα στα παρακάτω αρχεία κειμένου ( αρχεία.txt). _Summary.txt: περιέχει τα βασικά στοιχεία για την κάθε αλληλουχία, όπως το εάν είναι λειτουργική ή όχι, τα V, D και J γονίδια που αναγνωρίστηκαν, την ακρίβεια με την οποία αναγνωρίστηκαν τα γονίδια αυτά, τα μήκη των διάφορων περιοχών κ.α. _IMGT-gapped-nt-sequences.txt: δίνει τη νουκλεοτιδική αλληλουχία της V-D-J περιοχής, αλλά και των υπόλοιπων περιοχών (FR, CDR, FR, CDR,FR κτλ.) σε μορφή που περιλαμβάνει και διάκενα (gapped), σύμφωνα με το σύστημα αρίθμησης του IMGT (IMGT numbering). 8
_nt-sequences.txt: περιέχονται οι αντίστοιχες αλληλουχίες των παραπάνω περιοχών αλλά σε μορφή χωρίς διάκενα (ungapped). 4_IMGT-gapped-AA-sequences: αντίστοιχο με το αρχείο αλλά εδώ δίνονται οι αμινοξικές αλληλουχίες. 5_AA-sequences.txt: περιέχει τις αμινοξικές αλληλουχίες αλλά σε μορφή χωρίς διάκενα (ungapped), αντίστοιχα με το αρχείο. 6_Junction.txt: περιλαμβάνει τα αποτελέσματα από την ανάλυση της ένωσης V-D-J, όπως τη νουκλεοτιδική αλληλουχία των περιοχών της ένωσης ('V-REGION, N- REGION, D-REGION, Ν-REGION, κλπ), τον αριθμό των νουκλεοτιδίων που έχουν κοπεί από τα άκρα των γονιδίων V, D και J κατά τον ανασυνδυασμό, την νουκλεοτιδική και αμινοξική αλληλουχία του CDR, κ.α. 7_V-REGION-mutation-and-AA-change-table.txt: εδώ καταγράφεται το είδος και οι θέση των νουκλεοτιδικών και αμινοξικών αλλαγών που προκύπτουν από τη σύγκριση με το V γονίδιο αναφοράς. 8_V-REGION-nt-mutation-statistics.txt: περιλαμβάνει συγκεντρωτικά στοιχεία για το πλήθος των νουκλεοτιδίων που άλλαξαν, το πλήθος των νουκλεοτιδιών που ταυτίζονται στην αλληλουχία και στο γονίδιο αναφοράς, τις θέσεις στις οποίες έγιναν οι αλλαγές και πόσες αλλαγές από αυτές ήταν ανάμεσα σε συγκεκριμένα νουκλεοτίδια π.χ. από a σε g (a>g), από c σε t (c>t) κτλ. Τα παραπάνω στοιχεία καταγράφονται για κάθε περιοχή του V-REGION. 9_V-REGION-AA-change-statistics.txt: αντίστοιχο του αρχείου 8 αλλά για τις αμινοξικές αλλαγές. 0_V-REGION-mutation-hotspot.txt: εδώ καταγράφεται η ύπαρξη και η θέση συγκεκριμένων μοτίβων ((a/t)a, t(a/t), (a/g)g(c/t)(a/t) και (a/t)(a/g)c(c/t)) σε κάθε περιοχή. _Parameters: περιέχει στοιχεία για τις παραμέτρους που επιλέχθηκαν για την ανάλυση. 9
0
Σύνολα δεδομένων και προ-επεξεργασία. Σύνολα δεδομένων Οι μεθοδολογίες που θα παρουσιαστούν στην παρούσα εργασία εφαρμόστηκαν στα δεδομένα δύο ασθενών με Χρόνια Λεμφοκυτταρική Λευχαιμία. Τα δεδομένα προέκυψαν από την αλληλούχηση του γενετικού υλικού των ασθενών σύμφωνα με μεθόδους Αλληλούχησης Νέας Γενιάς από την πλατφόρμα MiSeq της Illumina και τα δύο σύνολα αλληλουχιών που προέκυψαν αναλύθηκαν από το εργαλείο HighV-QUEST του IMGT. Πρόκειται για δεδομένα του Τ κυτταρικού υποδοχέα, οπότε τα πιθανά λάθη που περιέχουν προέρχονται μόνο από τους δύο λόγους που αναφέρθηκαν στην παράγραφο - (λάθη κατά την αλυσιδωτή αντίδραση πολυμεράσης και λάθη κατά την αλληλούχηση) και δεν οφείλονται σε μεταλλάξεις. Τα χαρακτηριστικά των συνόλων δεδομένων των δύο ασθενών, έστω σύνολο δεδομένων Α και σύνολο δεδομένων Β παρουσιάζονται στον πίνακα -. Σύνολο δεδομένων Α Σύνολο δεδομένων Β Αλληλουχίες 904 60954 Κλωνότυποι 566 7959 Singletons 78 (66.6%) 6564 (77.77%) για V-REGION identity% > 95% Κλωνότυποι 97 6506 Singletons 9057 (64.%) 499 (75.5%) για V-REGION identity% > 99% Κλωνότυποι 40 9068 Singletons 8879 (6.88%) 40 (69.96%) Πίνακας - Το πλήθος αλληλουχιών, κλωνοτύπων και singletons των συνόλων δεδομένων που χρησιμοποιήθηκαν στην ανάλυση. Στον πίνακα - φαίνεται και το πλήθος των κλωνοτύπων του ρεπερτορίου κάθε συνόλου. Με τον όρο ρεπερτόριο αναφέρεται το σύνολο των Τ κυτταρικών υποδοχέων που περιέχονται στο γενετικό υλικό του κάθε ασθενή. Ως κλωνότυπος θεωρείται ο συνδυασμός του V γονιδίου που μετέχει στο σχηματισμό της β αλυσίδας του Τ κυτταρικού υποδοχέα, με το αμινοξικό CDR που δημιουργείται από τον ανασυνδυασμό των τριών γονιδίων V, D και J και την προσθήκη επιπλέον νουκλεοτιδίων (περιοχές Ν). Αλληλουχίες με το ίδιο αναγνωρισμένο V γονίδιο και το ίδιο CDR ανήκουν στον ίδιο κλωνότυπο. Singletons είναι οι μεμονωμένοι κλωνότυποι, δηλαδή αυτοί που προκύπτουν μόνο από μία αλληλουχία. Ο υπολογισμός των κλωνοτύπων έγινε χρησιμοποιώντας τα εργαλεία της πλατφόρμας Galaxy []. Πρόκειται για μία διαδικτυακή πλατφόρμα που περιέχει εργαλεία ανάλυσης βιοϊατρικών δεδομένων. Συγκεκριμένα, χρησιμοποιήθηκε το εργαλείο 'Clonotype Computation' [] το οποίο επιστρέφει ένα αρχείο με τους διαφορετικούς συνδυασμούς
γονιδίου V και CDR δηλαδή τους διαφορετικούς κλωνότυπους που υπάρχουν στο σύνολο δεδομένων που αναλύεται, το πλήθος των αλληλουχιών που ανήκουν στον κάθε κλωνότυπο και την απόλυτη και σχετική συχνότητα του κάθε κλωνότυπου, και ένα αρχείο με τους πρώτους δέκα κλωνότυπους, δηλαδή αυτούς στους οποίους ανήκουν οι περισσότερες αλληλουχίες. Ένα παράδειγμα αρχείου εξόδου του εργαλείου 'Clonotype Computation' του Galaxy, με τους κλωνότυπους ενός συνόλου δεδομένων, φαίνεται στον πίνακα -. Παρουσιάζεται ένα μόνο μέρος του αρχείου, αυτό με τους 5 μεγαλύτερους κλωνοτύπους. V-GENE AA JUNCTION Reads Reads/Total Frequency % TRBV8 CASSPRAGTVLELFF 655 655/98445.68 TRBV CASRNGTSSVEQYF 70 70/98445.96 TRBV6-4 CASSDSPGQGAGELFF 966 966/98445 0.98 4 TRBV9 CASSGSSEQYF 955 955/98445 0.970 5 TRBV0- CATHRDKDEKLFF 770 770/98445 0.78 6 TRBV9- CSVGTGGTNEKLFF 6 6/98445 0.64 7 TRBV9- CSVGSGGTNEKLFF 66 66/98445 0.659 8 TRBV7 CASSWDANGELFF 596 596/98445 0.6054 9 TRBV5 CATSRLPLWYGYTF 56 56/98445 0.5699 0 TRBV6-4 CASSASGATGELFF 56 56/98445 0.54 TRBV9 CASSIDLATGGYEQYF 50 50/98445 0.5099 TRBV6-4 CASSDEGGAGYGYTF 490 490/98445 0.4977 TRBV9 CASEQVTGELFF 44 44/98445 0.449 4 TRBV6-4 CASSDGLYGYTF 40 40/98445 0.408 5 TRBV6-4 CASSETIPGELFF 90 90/98445 0.96 6 TRBV6-4 CASSDSPGGTGELFF 58 58/98445 0.67 7 TRBV6- or TRBV6- CASSLTAELTGELFF 8 8/98445 0.4 8 TRBV5 CATSRGVNQPQHF 0 0/98445 0.5 9 TRBV6-4 CASSEDGSNQPQHF 7 7/98445 0. 0 TRBV6-4 CASSAGTDGNQPQHF 0 0/98445 0.49 TRBV7 CASSGTVAGELFF 06 06/98445 0.08 TRBV5 CATSRDYSNQPQHF 95 95/98445 0.997 TRBV7 CASSGDSGNTIYF 88 88/98445 0.95 4 TRBV9 CASSSRGNQPQHF 88 88/98445 0.95 5 TRBV9 CASSTGTGLGNSPLHF 6 6/98445 0.67 Πίνακας - Παράδειγμα αρχείου εξόδου του Galaxy που περιέχει τους 5 πολυπληθέστερους κλωνοτύπους ενός συνόλου δεδομένων.. Επεξεργασία φιλτράρισμα των δεδομένων Πριν από την ανάλυση των δεδομένων κρίνεται αναγκαία μία αρχική επεξεργασία τους προκειμένου να χρησιμοποιηθούν μόνο δεδομένα με συγκεκριμένα χαρακτηριστικά, οδηγώντας σε αξιόπιστα αποτελέσματα. Έτσι, κατά τη φάση αυτή, αλληλουχίες με μη επιθυμητά χαρακτηριστικά φιλτράρονται εκτός του συνόλου δεδομένων και δεν λαμβάνονται υπόψη στην ανάλυση που ακολουθεί.
Η επεξεργασία των δεδομένων γίνεται με βάση το αρχείο του IMGT ('_Summary.txt'). Οι αλληλουχίες των συνόλων δεδομένων φιλτράρονται ως προς τα παρακάτω χαρακτηριστικά τους:. Ύπαρξη αναγνωρισμένων V-D-J γονιδίων και CDR Αλληλουχίες για τις οποίες δεν υπάρχει στην αντίστοιχη στήλη του αρχείου αναγνωρισμένο ένα από τα τρία γονίδια V-D-J ή το CDR, απορρίπτονται από την ανάλυση. Ο έλεγχος γίνεται στις στήλες 'V-GENE and allele', 'D-GENE and allele', 'J-GENE and allele' και 'AA JUNCTION'.. Λειτουργικότητα (Functionality) Επιλέγονται μόνο οι αλληλουχίες με τον χαρακτηρισμό 'productive' δηλαδή παραγωγική στη στήλη 'Functionality'. Παραγωγική (productive) χαρακτηρίζεται η αλληλουχία που μεταφράζεται σε λειτουργική β αλυσίδα του T κυτταρικού υποδοχέα. Αναλυτικότερα, ένας Τ κυτταρικός υποδοχέας μπορεί να περιγραφεί ως παραγωγικός (productive) ή μη παραγωγικός (unproductive) ανάλογα με την αναδιάταξη των γονιδίων της β αλυσίδας. Για να είναι ένας Τ κυτταρικός υποδοχέας παραγωγικός θα πρέπει [4] [5]: να εμφανίζει ανοιχτό πλαίσιο ανάγνωσης (open reading frame) και η περιοχή κωδικοποίησης να μην περιέχει κωδικόνια τερματισμού (stop codons) και το κωδικόνιο έναρξης της μετάφρασης, οι περιοχές σύνδεσης (splicing sites) και τα ρυθμιστικά στοιχεία (regulatory elements) να μην έχουν υποστεί αλλαγές και το CDR να είναι εντός πλαισίου ανάγνωσης (in-frame JUNCTION) Αντίθετα, μία μη παραγωγική αλληλουχία χαρακτηρίζεται από: CDR εκτός πλαισίου ανάγνωσης (out-of-frame JUNCTION) και/ ή την παρουσία κωδικονίου τερματισμού (stop codon) και/ ή αλλαγές στο κωδικόνιο έναρξης, στις περιοχές σύνδεσης (splicing sites) και τα ρυθμιστικά στοιχεία (regulatory elements) και/ ή αλλαγές που επηρεάζουν την έκφραση του γονιδιώματος σε κωδικόνια (frameshift mutations) για παράδειγμα ο αριθμός των βάσεων στο πλαίσιο ανάγνωσης να μην αποτελεί πολλαπλάσιο του, και/ ή μεταβολές αμινοξέων που οδηγούν σε λανθασμένη αναδίπλωση της πρωτεΐνης.. Αμινοξέα έναρξης και τερματισμού του CDR Αλληλουχίες το CDR των οποίων δεν ξεκινάει με το αμινοξύ της κυστεΐνης 'C' και δεν τελειώνει με το αμινοξύ της φαινυλαλαλίνης 'F' απορρίπτονται από την ανάλυση όποτε αυτό είναι επιθυμητό. Ο συγκεκριμένος έλεγχος γίνεται στη στήλη 'AA JUNCTION'.
4. Ποσοστό ταύτισης με τα αναγνωρισμένα V και J γονίδια ('V-REGION identity %' και 'J-REGION identity %') Με βάση τα ποσοστά αυτά επιλέγουμε πόσο καλά ταυτισμένα επιθυμούμε να είναι τα αναγνωρισμένα από το IMGT γονίδια με το αντίστοιχο τμήμα της αλληλουχίας που θα χρησιμοποιήσουμε στην ανάλυση. Έτσι, θέτοντας 'V-REGION identity%' > 95% στην αντίστοιχη στήλη 'V-REGION identity %' του αρχείου του IMGT επιλέγονται μόνο οι αλληλουχίες για τις οποίες το 95% τουλάχιστον των νουκλεοτιδίων του τμήματος V ταυτίζεται με αυτά του γονιδίου αναφοράς. Οι υπόλοιπες αλληλουχίες απορρίπτονται. 5. Ύπαρξη κωδικονίων που δεν αντιστοιχούν σε αμινοξέα Τέλος, αλληλουχίες που στο CDR τους περιέχονται οι χαρακτήρες X, #, * αφαιρούνται από το σύνολο των δεδομένων και δεν συμμετέχουν στην ανάλυση. Οι χαρακτήρες αυτοί αναφέρονται σε κωδικόνια που δεν αντιστοιχούν σε αμινοξέα. Ο έλεγχος γίνεται στη στήλη 'AA JUNCTION'. Ανάλογα με το στόχο κάθε μεθοδολογίας που θα αναπτυχθεί στη συνέχεια, το σύνολο των δεδομένων φιλτράρεται ως προς τα επιθυμητά από τα παραπάνω 5 χαρακτηριστικά και μέρος των αλληλουχίων παραλείπεται από την ανάλυση. 4
4 Μέθοδοι για τη διόρθωση των λαθών που προκύπτουν κατά την αλυσιδωτή αντίδραση πολυμεράσης και κατά την αλληλούχηση 4. Αναζήτηση στη βιβλιογραφία Όπως αναφέρθηκε, ένας σημαντικός αριθμός από λάθη λαμβάνει χώρα κατά τη διαδικασία της αλυσιδωτής αντίδρασης πολυμεράσης αλλά και της αλληλούχησης του DNA από την εκάστοτε πλατφόρμα, όπως η Illumina, και αυτά τα λάθη αυξάνουν την πραγματική ποικιλομορφία των Τ κυτταρικών υποδοχέων. Μέθοδοι εξάλειψης της τεχνητής αυτής ποικιλομορφίας του ρεπερτορίου έχουν προταθεί από τη βιβλιογραφία. Η συνολική απόρριψη των αλληλουχιών CDR με χαμηλή συχνότητα εμφάνισης στο δείγμα που αποτελούσε το 4% όλων των αλληλουχιών [6] και η απόρριψη των CDR χαμηλής συχνότητας τα οποία διαφέρουν κατά ένα μόνο νουκλεοτίδιο από κάποιο CDR υψηλής συχνότητας [7], είναι δύο από αυτές. Οι παραπάνω τρόποι μείωσης της τεχνητής ποικιλομορφίας του ρεπερτορίου κρίνονται αναποτελεσματικοί από την ομάδα του Ινστιτούτου 'Shemyakin-Ovchinnikov Institute of Bioorganic Chemistry RAS' της Μόσχας, η οποία προτείνει μία μεθοδολογία συνολικής διαχείρισης των δεδομένων αλλά και των λαθών που προκύπτουν από την Αλληλούχηση Νέας Γενιάς, με στόχο την εξαγωγή του πραγματικού ρεπερτορίου του Τ κυτταρικού υποδοχέα. Η μεθοδολογία τους, με τίτλο MiTCR [8] [9], αναλύεται στη συνέχεια. 4. MiTCR 4.. Μεθοδολογία Το MiTCR είναι ένα λογισμικό ανοιχτού κώδικα το οποίο υλοποιεί έναν αλγόριθμο ο οποίος δέχεται ως είσοδο τα ανεπεξέργαστα δεδομένα που επιστρέφουν οι πλατφόρμες Αλληλούχησης Νέας Γενιάς σε fastq μορφή και επιτελεί: εξαγωγή του CDR και αναγνώριση των γονιδίων V, D, και J, σύνθεση του ρεπερτορίου των κλωνοτύπων και διόρθωση λαθών που δημιουργήθηκαν κατά την αλυσιδωτή αντίδραση πολυμεράσης και κατά την αλληλούχηση. 5
Σχηματικά, το διάγραμμα ροής του MiTCR με τα τρία βήματα της μεθοδολογίας φαίνεται στην εικόνα 4-. Εικόνα 4- Το διάγραμμα ροής του MiTCR. Βήμα. Εξαγωγή CDR Για κάθε αλληλουχία από το σύνολο δεδομένων που αναλύεται εξάγεται το CDR, όπου αυτό είναι εφικτό. Το βήμα αυτό βασίζεται στην βέλτιστη ταύτιση της αλληλουχίας με κάποιο από τα γονίδια αναφοράς V, D και J, όπως αυτά είναι καταγεγραμμένα στη βάση δεδομένων του IMGT (IMGT/ GENE-DB database) και στην αναγνώριση των αμινοξέων της κυστεΐνης 'C' και της φαινυλαλαλίνης 'F' στα όρια του CDR. Κατά την εξαγωγή του CDR αποθηκεύεται και η πληροφορία σχετικά με την ποιότητα αναγνώρισης του κάθε νουκλεοτιδίου της περιοχής αυτής. Βήμα. Σύνθεση του ρεπερτορίου των κλωνοτύπων Το CDR που προκύπτει από κάθε αλληλουχία χαρακτηρίζεται είτε ως υψηλής είτε ως χαμηλής ποιότητας. Για να χαρακτηριστεί ως υψηλής ποιότητας απαιτείται η ποιότητα ανάγνωσης του νουκλεοτιδίου σε κάθε θέση του CDR να είναι μεγαλύτερη από 5 στην κλίμακα Phred (Phred quality score > 5) (Εικόνα 4-). Το σκορ ποιότητας Phred είναι ένα μέτρο της ποιότητας ανάγνωσης των νουκλεοτιδίων κατά την αλληλούχηση [0]. Τα CDR υψηλής ποιότητας ομαδοποιούνται και σχηματίζουν τους βασικούς κλωνοτύπους (core clonotypes) κάθε ένας από τους οποίους χαρακτηρίζεται από το πλήθος των όμοιων CDR που ανήκουν στον κλωνοτύπο αυτό (Εικόνα 4-). 6
Εικόνα 4- Το CDR κάθε αλληλουχίας χαρακτηρίζεται είτε ως υψηλής είτε ως χαμηλής ποιότητας. Εικόνα 4- Τα CDR υψηλής ποιότητας αποτελούν τους βασικούς κλωνοτύπους (core clonotypes). Τα CDR χαμηλής ποιότητας τα οποία όμως έχουν μόνο έως και τρία νουκλεοτίδια χαμηλής ποιότητας, αντιστοιχίζονται στον κοντινότερο βασικό κλωνοτύπο. Διαφορές ανάμεσα στα νουκλεοτιδία των CDR που συγχωνεύονται επιτρέπονται μόνο σε θέσεις χαμηλής ποιότητας. Σε περίπτωση που υπάρχουν περισσότεροι του ενός βασικοί κλωνοτύποι με τον ελάχιστο αριθμό αναντιστοιχιών, το CDR αυτό αντιστοιχίζεται τυχαία σε έναν από αυτούς με στάθμιση ανάλογη του πλήθους των αλληλουχιών οι οποίες ανήκουν στην ομάδα τους. Αλληλουχίες που περιέχουν περισσότερα από τρία νουκλεοτίδια χαμηλής ποιότητας ή που αποτυγχάνουν να αντιστοιχηθούν σε κάποιον από τους βασικούς κλωνοτύπους απορρίπτονται. 7
Εικόνα 4-4 Διαχείριση των CDR χαμηλής ποιότητας ανάλογα με τον αλγόριθμο που επιλέγεται. Η διαδικασία που περιγράφηκε γίνεται μόνο στην λειτουργία αντιστοίχισης (mapping mode) ενώ υπάρχει και η λειτουργία απόρριψης (filtering off mode) στην οποία όλα τα CDR χαμηλής ποιότητας εξαιρούνται από την ανάλυση (Εικόνα 4-4). Πλεονέκτημα της μεθοδολογίας παρουσιάζεται να είναι το γεγονός ότι χρησιμοποιώντας μόνο υψηλής ποιότητας κλωνοτύπους εξαλείφεται ο κίνδυνος διατήρησης τεχνητής ποικιλομορφίας του Τ κυτταρικού υποδοχέα από εσφαλμένη αλληλούχηση. Επιπλέον, η αντιστοίχιση και των αλληλουχιών με χαμηλή ποιότητα σε μόνο μέχρι τρεις θέσεις του CDR στους βασικούς κλωνοτύπους, επιτρέπει τη διάσωση της μέγιστης δυνατής πληροφορίας για το μέγεθος κάθε κλωνοτύπου μέσα στο σύνολο δεδομένων. Βήμα. Διόρθωση λαθών Στο βήμα αυτό, έχοντας το σύνολο των βασικών κλωνοτύπων που προήλθαν από το προηγούμενο βήμα, επιχειρείται η εξάλειψη των λαθών που προήλθαν από την αλυσιδωτή αντίδραση πολυμεράσης. Βασικοί κλωνοτύποι στους οποίους ανήκουν λίγες αλληλουχίες ενοποιούνται με πολυπληθέστερους κλωνοτύπους (τουλάχιστον με πενταπλάσιο πλήθος αλληλουχιών), από τους οποίους, επιπλέον, διαφέρουν το πολύ κατά τρία νουκλεοτίδια. Περιορισμοί θέτονται και για τη θέση των τριών αυτών αναντιστοιχιών μέσα στο CDR: επιτρέπονται το πολύ δύο αναντιστοιχίες εντός της περιοχής V του CDR με εξαίρεση τα τελευταία δύο αναγνωρισμένα νουκλεοτίδια του γονιδίου V επιτρέπονται το πολύ δύο αναντιστοιχίες εντός της περιοχής J του CDR με εξαίρεση τα πρώτα δύο αναγνωρισμένα νουκλεοτίδια του γονιδίου J 8
επιτρέπεται μόνο μία αναντιστοιχία εντός του τμήματος D με εξαίρεση τα δύο πρώτα και τα δύο τελευταία αναγνωρισμένα νουκλεοτίδια του γονιδίου και τέλος, δεν επιτρέπονται αναντιστοιχίες στις περιοχές Ν του CDR Διαφορές σε νουκλεοτίδια στα παραπάνω άκρα των γονιδίων V, D και J δεν θεωρούνται αναντιστοιχίες και δεν διορθώνονται καθώς μπορεί να προέρχονται από φυσική ποικιλομορφία του CDR, να πρόκειται δηλαδή για διαφορετικούς κλωνοτύπους. Λόγω του περιορισμού αυτού η ομάδα του MiTCR θεωρεί ότι η μεθοδολογία της πετυχαίνει να διατηρήσει τη φυσική ποικιλομορφία των Τ κυτταρικών υποδοχέων. Αποτέλεσμα του τρόπου αυτού ομαδοποίησης των κλωνοτύπων είναι ο περιορισμός του πλήθους των διαφορετικών κλωνοτύπων. Κάθε κλωνότυπος του τελικού συνόλου αποτελείται από ένα πλήθος αλληλουχίες οι οποίες περιλαμβάνουν: αλληλουχίες με όμοια υψηλής ποιότητας CDR, αλληλουχίες με λίγο χαμηλότερης ποιότητας CDR, οι οποίες διορθώνονται ως προς το παρόμοιο CDR υψηλής ποιότητας που χαρακτηρίζει την ομάδα και αλληλουχίες που ανήκαν αρχικά σε άλλο κλωνοτύπο με υψηλής ποιότητας CDR αλλά με μικρότερο πλήθος από αλληλουχίες να το συνθέτουν και ομαδοποιήθηκαν με το παρόμοιο CDR του κλωνοτύπου με μεγαλύτερο πλήθος αλληλουχιών στο τρίτο βήμα του αλγορίθμου. 4.. Αποτελέσματα Σύμφωνα με τα αποτέλεσμα που παρουσιάζει στο άρθρο της η ομάδα του MiTCR [7], με την παραπάνω μεθοδολογία πετυχαίνεται μείωση των λαθών σε ποσοστό 50-80% ενώ παράλληλα προστατεύεται η φυσική ποικιλομορφία του CDR. Γι αυτό και ο συγκεκριμένος αλγόριθμος ονομάζεται 'Save my diversity'. Μεταβάλλοντας το πλήθος των επιτρεπόμενων αναντιστοιχιών ανάμεσα στα CDR που πρόκειται να ομαδοποιηθούν αλλά και την αναλογία στο πλήθος των αλληλουχιών που εμπεριέχονται στους δύο κλωνοτύπους που πρόκειται να ομαδοποιηθούν μπορούμε να αυξήσουμε το ποσοστό των λαθών που διορθώνεται με τίμημα κάποια απώλεια στην φυσική ποικιλομορφία των κλωνοτύπων. Ο αλγόριθμος 'Eliminate these errors' που προτείνεται, επιτρέπει μόνο μία αναντιστοιχία νουκλεοτιδίου ανάμεσα στα CDR και λόγο : στο μέγεθος του κλωνοτύπου που διορθώνεται ως προς τον επικρατέστερο κλωνότυπο. Η μείωση των λαθών που πετυχαίνεται είναι >95%. Όσον αφορά στην ακρίβεια αναγνώρισης των V και J γονιδίων κατά την εξαγωγή του CDR, το MiTCR πετυχαίνει ακρίβεια 98%. Τα παραπάνω αποτελέσματα τα επιβεβαίωσαν εφαρμόζοντας τον αλγόριθμο σε τεχνητά σύνολα δεδομένα που δημιούργησαν, στηριζόμενοι σε πραγματικές πιθανότητες από λάθη αλυσιδωτής αντίδρασης πολυμεράσης 9
και λάθη αλληλούχησης, προσομοιώνοντας με τον τρόπο αυτό τα δεδομένα εξόδου της πλατφόρμας Illumina. Έτσι είχαν τη δυνατότητα να γνωρίζουν το πραγματικό ρεπερτόριο των δεδομένων τους. Τα ίδια σύνολα δεδομένων εισήχθησαν και σε δύο ακόμα πλατφόρμες εξαγωγής CDR από δεδομένα Αλληλούχησης Νέας Γενιάς, στο IMGT/HighV QUEST [] και στο λογισμικό Decombinator []. Τα συγκριτικά αποτελέσματα της αλληλούχησης που παρουσιάζονται στο άρθρο του MiTCR, φαίνονται στον πίνακα 4-. IMGT/HighV QUEST Decombinator MiTCR Αποτελεσματικότητα στην εξαγωγή του CDR 9% 8% 98% Ακρίβεια στην αναγνώριση του V γονιδίου 99% 94% 98% Ακρίβεια στην αναγνώριση του J γονιδίου 00% 99% 98% Πίνακας 4- Αποτελεσματικότητα των αλγορίθμων IMGT/HighV QUEST, Decombinator και MiTCR στην εξαγωγή του CDR και ακρίβεια στην αναγνώριση των V και J γονιδίων. Σύμφωνα με τα παραπάνω αποτελέσματα η αποδοτικότητα του MiTCR στην εξαγωγή του CDR είναι 98%, έναντι 9% και 8% του IMGT/HighV QUEST και του Decombinator αντίστοιχα. Για το 98% δηλαδή των αλληλουχιών καταφέρνει να εντοπίσει και να επιστρέψει το αποτέλεσμα/ CDR της αλληλούχησης. Η ακρίβεια στην αναγνώριση των V και J γονιδίων από το MiTCR, είναι, όπως αναφέρθηκε ήδη, ίση με 98%, με αντίστοιχα ποσοστά 99% για το V και 00% για το J από το IMGT/HighV QUEST και 94% για το V και 99% για το J από το Decombinator. 4.. Αποτελέσματα από την εφαρμογή του αλγορίθμου MiTCR στα σύνολα δεδομένων Α και Β Τα αρχεία fastq των συνόλων δεδομένων Α και Β της παρούσας εργασίας (90.4 αλληλουχίες για το σύνολο Α και 609.54 αλληλουχίες για το Β), αναλύθηκαν με τον διαθέσιμο σε γλώσσα Java αλγόριθμο MiTCR. Καθώς πρόκειται για ανοιχτό κώδικα, είχαμε τη δυνατότητα να τον τροποποιήσουμε ώστε να πάρουμε τα επιθυμητά αποτελέσματα. Έτσι, προστέθηκε η κατάλληλη συνάρτηση που να επιστρέφει πέρα από το CDR και το γονίδιο V που έχει αναγνωριστεί για την κάθε αλληλουχία. Για το σύνολο δεδομένων Α, το πλήθος των κλωνοτύπων που προκύπτει έπειτα από τη διόρθωση λαθών σύμφωνα με την μεθοδολογία του MiTCR, είναι 6.4. Οι δύο πολυπληθέστεροι κλωνότυποι, αποτελούνται από 6.7 ο πρώτος και.565 αλληλουχίες ο δεύτερος, ενώ υπάρχουν και 9.75 singletons (το 60,0% των κλωνοτύπων). 0
Αντίστοιχα για το σύνολο Β, η διόρθωση λαθών του MiTCR επιστρέφει 9.4 κλωνοτύπους εκ των οποίων οι.64 (9,4%) είναι singletons. Οι δύο πολυπληθέστεροι κλωνότυποι, αποτελούνται από.080 αλληλουχίες ο πρώτος και.465 αλληλουχίες ο δεύτερος. Παρατηρούμε ότι ενώ το σύνολο δεδομένων Β έχει διπλάσιο μέγεθος από το σύνολο Α, το ρεπερτόριο του Τ κυτταρικού του υποδοχέα έχει σχεδόν το μισό πλήθος κλωνοτύπων, παρουσιάζει δηλαδή μικρότερη ποικιλομορφία. Με τον όρο κλωνότυπο στο MiTCR εννοείται το νουκλεοτιδικό CDR καθώς οι διορθώσεις γίνονται ανάμεσα στα διαφορετικά νουκλεοτιδικά CDR χωρίς να λαμβάνεται υπόψη το αντίστοιχο γονίδιο V. Τον τελικό κλωνότυπο συνοδεύει το V γονίδιο της αλληλουχίας στην οποία ομαδοποιήθηκαν οι υπόλοιπες, ενώ η πληροφορία για το V γονίδιο καθεμιάς από αυτές χάνεται. Για τα σύνολα δεδομένων Α και Β, το αρχικό πλήθος των διαφορετικών νουκλεοτιδικών CDR είναι.7 και 95.574 CDR αντίστοιχα. Άρα η διόρθωση σφαλμάτων από το MiTCR οδήγησε σε μείωση κατά 9,8% για το σύνολο δεδομένων Α και κατά 90,% για το Β της ποικιλομορφίας του CDR. Αναλυτικά τo πλήθος των CDR φαίνεται στον πίνακα 4-. Σύνολο δεδομένων Α Σύνολο δεδομένων Β Διαφορετικά CDR στο αρχικό σύνολο 7 95574 Διαφορετικά CDR μετά τη διόρθωση από το MiTCR 64 94 Μείωση (%) 9.8% 90.% Πίνακας 4- Πλήθος διαφορετικών CDR πριν και μετά τη διόρθωση από το MiTCR. Ένα παράδειγμα βασικού κλωνοτύπου (core clonotype) που επέστρεψε το MiTCR για το σύνολο δεδομένων Α φαίνεται στην εικόνα 4-5. Εικόνα 4-5 Παράδειγμα βασικού κλωνοτύπου (core clonotype) που επιστρέφει το MiTCR. Φαίνονται οι αμινοξικές και νουκλεοτιδικές αλληλουχίες των διαφορετικών CDR που ομαδοποιούνται.
Στην περίπτωση αυτή χρησιμοποιήθηκε ο αλγόριθμος 'Eliminate these errors' ο οποίος επιτρέπει μόνο μία αναντιστοιχία νουκλεοτιδίου ανάμεσα στα CDR των αλληλουχιών που ομαδοποιούνται. Ο συγκεκριμένος κλωνότυπος προέκυψε από την ομαδοποίηση 780 όμοιων και παρόμοιων CDR με το CDR του βασικού κλωνοτύπου (με νουκλεοτιδική αλληλουχία: 'tgtgccagcagtttatcgggggcaggcggaaacaccatatatttt' και αμινοξική: 'CASSLSGAG GNTIYF'). Τα διαφορετικά CDR που ομαδοποιήθηκαν φαίνονται στην εικόνα 4-5 σε νουκλεοτιδική καθώς και σε αμινοξική μορφή. Ένα σημείο ως προς το οποίο συγκρίθηκαν το MiTCR και το IMGT είναι κατά πόσο αναγνώρισαν το ίδιο V γονίδιο κατά την εξαγωγή του CDR για το σύνολο δεδομένων Α. Από την σύγκριση προκύπτει ότι για 4.508 αλληλουχίες αναγνώρισαν διαφορετικό V γονίδιο. Αυτό αντιστοιχεί στο,4% των 6.708 αλληλουχιών για τις οποίες το MiTCR επιστρέφει γονίδιο V και CDR. Ειδικότερα, συγκρίθηκαν και οι περιπτώσεις για αλληλουχίες με 'V-REGION identity %' > 99% και για αλληλουχίες με 'V-REGION identity %' > 99% αλλά και μήκος της περιοχής V μεγαλύτερο από 08 νουκλεοτίδια. Στην πρώτη περίπτωση διαφορετικό V γονίδιο αναγνωρίστηκε για.5 αλληλουχίες (,5%) ενώ στην δεύτερη περίπτωση για.8 αλληλουχίες (,9%). Τα αποτελέσματα της σύγκρισης φαίνονται στον πίνακα 4-. Σύνολο δεδομένων Α Σύνολο αλληλουχιών (6708 αλληλουχίες) Αλληλουχίες με 'V-REGION identity %' > 99% (04544 αλληλουχίες) Αλληλουχίες με 'V-REGION identity %' > 99% και μήκος περιοχής V >08 nt (9557 αλληλουχίες) Πλήθος αλληλουχιών με διαφορετικό αναγνωρισμένο V γονίδιο από το IMGT και το MiTCR Ποσοστό 4508,4% 5,5% 8,9% Πίνακας 4- Σύγκριση MiTCR και IMGT ως προς το γονίδιο V που αναγνώρισαν για κάθε αλληλουχία. Τέλος, να αναφέρουμε ότι υπάρχουν αλληλουχίες για τις οποίες το MiTCR έχει αναγνωρίσει διαφορετικό γονίδιο V από ότι το IMGT ακόμα και σε περιπτώσεις που το IMGT δίνει ποσοστό ταύτισης 00% με το αναγνωρισμένο γονίδιο V (δηλαδή για 'V-REGION identity %' = 00%). 4. Διόρθωση των θέσεων Ν και Ν που επιστρέφει το IMGT Στοχεύοντας στη διόρθωση λαθών στο CDR και συγκεκριμένα στις περιοχές V και J του CDR, μας ενδιαφέρουν τα όρια των περιοχών αυτών τα οποία καθορίζονται από τις περιοχές Ν και Ν αντίστοιχα.
Η μεθοδολογία βασίζεται στο γεγονός ότι ομάδες αλληλουχιών με κοινά V-D-J γονίδια και κοινό νουκλεοτιδικό CDR αναμένεται να έχουν τις ίδιες περιοχές Ν και Ν. Στόχος της μεθοδολογίας είναι η αναγνώριση λαθών στον ορισμό των περιοχών αυτών από το IMGT και η διόρθωσή τους, με κριτήριο η διόρθωση να οδηγεί στην ταύτιση των περιοχών με τις επικρατούσες θέσεις μέσα στην ομάδα. Στο αρχείο του IMGT ('_Nt-sequences.txt') και συγκεκριμένα στις στήλες 'N- REGION start', 'N-REGION end', 'N-REGION start' και 'N-REGION end' δίνονται οι θέσεις στις οποίες αρχίζουν και τελειώνουν οι περιοχές Ν και Ν αντίστοιχα όπως αυτές τις έχει αναγνωρίσει το IMGT. Ως αρχή μέτρησης των θέσεων ( θέση ) θεωρείται η αρχή της περιοχής V (' V-REGION start' = ) και στη συνέχεια για την μέτρηση των θέσεων οι αλληλουχίες θεωρούνται χωρίς κενά (no-gapped-nt-sequences). 4.. Μεθοδολογία Βήμα. Επεξεργασία φιλτράρισμα των δεδομένων Η αρχική επεξεργασία των δύο συνόλων δεδομένων γίνεται σύμφωνα με το κεφάλαιο -. Στη συγκεκριμένη μεθοδολογία δεν εφαρμόστηκε ο περιορισμός για τα αμινοξέα έναρξης και τερματισμού του CDR και επιπλέον δεν τέθηκε κάποιο κατώτατο όριο στο ποσοστό ταύτισης με τα αναγνωρισμένα V και J γονίδια (V-REGION identity % και J-REGION identity % αντίστοιχα). Βήμα. Εύρεση ομάδων με κοινά V-D-J-CDR Η ομαδοποίηση των αλληλουχιών γίνεται σύμφωνα με τα αναγνωρισμένα κοινά V-D-J γονίδια και με κοινό νουκλεοτιδικό CDR. Για να μπορεί να γίνει σύγκριση των θέσεων των περιοχών Ν και Ν υπολογίζονται οι σχετικές θέσεις των 'N-REGION start', 'N-REGION end', 'N-REGION start' και 'N-REGION end' ως προς την αρχή του CDR. Ένα παράδειγμα ομάδας φαίνεται στον πίνακα 4-4 που ακολουθεί. Οι αυτές αλληλουχίες ανήκουν στην ίδια ομάδα καθώς έχουν κοινό V ('TRBV0-*04 [F]') γονίδιο, κοινό D ('TRBD*0 F') γονίδιο κοινό J ('TRBJ-*0 F') γονίδιο και κοινό CDR ('gccagcagttgggacgcgaacggggagctgttt'). Στις στήλες 'N start', 'N end', 'N start' και 'N end' φαίνονται οι σχετικές θέσεις έναρξης και τέλους των περιοχών Ν και Ν αντίστοιχα ως προς την αρχή του CDR οπότε και μπορούν να συγκριθούν μεταξύ τους.
VGENE JGENE DGENE N start N end N start N end CDR JUNCTION TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F - 9 5 9 gccagcagttgggacgcgaacggggagctgttt cgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg Πίνακας 4-4 Ομάδα αλληλουχιών με κοινά V-D-J γονίδια και κοινό νουκλεοτιδικό CDR. Φαίνονται οι σχετικές θέσεις έναρξης και τέλους των περιοχών Ν και Ν. Βήμα. Έλεγχος λανθασμένων θέσεων Ν και Ν Για κάθε ομάδα ελέγχεται αν υπάρχουν διαφορετικές αναγνωρισμένες θέσεις για τα μέλη της ομάδας. Η διόρθωση κάθε ορίου ('N start', 'N end', 'N start' και 'N end') γίνεται ανεξάρτητα από τα άλλα. Στην περίπτωση που υπάρχουν προχωράμε στη διόρθωση των θέσεων Ν ή/και Ν. Για την ομάδα του πίνακα 4-4 παρατηρούμε ότι έχει αναγνωριστεί διαφορετική θέση για την αρχή της περιοχής Ν της πρώτης αλληλουχίας από ότι για τις υπόλοιπες αλληλουχίες. Βήμα 4. Διόρθωση λανθασμένων θέσεων Ν και Ν Οι λανθασμένες θέσεις των 'N start', 'N end', 'N start' και 'N end' διορθώνονται ως προς τη θέση που έχει αναγνωριστεί για την πλειονότητα των μελών της ομάδας. Έτσι, για το παράδειγμα του πίνακα 4-4 η λανθασμένη θέση για το 'N start' της πρώτης αλληλουχίας θα διορθωθεί από - σε 4. Η διορθωμένη ομάδα φαίνεται στον πίνακα 4-5. VGENE JGENE DGENE N start N end N start N end CDR JUNCTION TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt cgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg TRBV0-*04 [F] TRBJ-*0 F TRBD*0 F 4 9 5 9 gccagcagttgggacgcgaacggggagctgttt tgtgccagcagttgggacgcgaacggg Πίνακας 4-5 Η ομάδα του πίνακα 4- με διορθωμένες σχετικές θέσεις έναρξης για την περιοχή Ν. Η θέση ως προς την οποία γίνεται η διόρθωση πρέπει να ικανοποιεί μία συνθήκη. Η συνθήκη αυτή είναι να μη φέρνει μέρος των περιοχών, ή και ολόκληρες τις περιοχές Ν και Ν εκτός του CDR. Στην περίπτωση δηλαδή της ομάδας με κοινό V ('TRBV0-*04 [F]'), D 4