Βιοπληροφορική ανάλυση ανθρώπινου εξονιώματος από δεδομένα νέας γενιάς τεχνολογιών αλληλούχισης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ Τμήμα Βιοχημείας και Βιοτεχνολογίας Πρόγραμμα Μεταπτυχιακών Σπουδών «Εφαρμογές Μοριακής Βιολογίας - Μοριακή Γενετική - Διαγνωστικοί Δείκτες» Βιοπληροφορική ανάλυση ανθρώπινου εξονιώματος από δεδομένα νέας γενιάς τεχνολογιών αλληλούχισης Χριστίνα Σίνη Επιβλέπων Καθηγητής: Γ ρηγόριος Αμούτζιας Λάρισα 2013

Bioinformatic analysis pipeline for human exome raw data from Next Generation Sequencing (NGS) technologies

ΤΡΙΜΕΛΗΣ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: κ. Γρηγόριος Αμούτζιας (Επιβλέπων). Λέκτορας Βιοπληροφορικής στη Γενωμική, Τμήμα Βιοχημείας και Βιοτεχνολογίας, Πανεπιστήμιο Θεσσαλίας, κ. Παναγιώτης Μαρκουλάτος. Καθηγητής Εφαρμοσμένης Μικροβιολογίας με έμφαση στη Βιοτεχνολογία, Τμήμα Βιοχημείας και Βιοτεχνολογίας, Πανεπιστήμιο Θεσσαλίας, κ. Θεολογία Σαραφίδου. Λέκτορας Μοριακής Γενετικής Ζωϊκών Οργανισμών, Τμήμα Βιοχημείας και Βιοτεχνολογίας, Πανεπιστήμιο Θεσσαλίας. 3

Abstract This thesis was carried out during the postgraduate program «Applications in Molecular Biology - Molecular Genetics - Diagnostic Markers», in the Bioinformatics laboratory of Dr. Grigorios Amoutzias, Lecturer o f Bionformatics in Genomics, in the Department of Biochemistry and Biotechnology, at the University of Thessaly, Greece. The thesis title is "Bioinformatic analysis pipeline for human exome raw data from Next Generation Sequencing (NGS) technologies" and deals with the publicly available bioinformatics methods, tools and databases for the analysis of exome data. Particularly, this thesis developed/optimized a bioinformatics protocol/pipeline based on publicly available tools and databases for the analysis of exome sequencing raw paired-end data from Illumina. The developed protocol of programs deals with i) downloading raw data from SRA, ii) quality control and trimming of raw data, iii) reference alignment, iv) further reprocessing of aligned data, v) realignment of problematic regions (indels), vi) estimation of insert size distribution, vii) more accurate recalibration of base quality scores, viii) SNP calling and filtering, ix) SNP annotation and further filtering and finally x) phenotype prediction. 4

Πρόλογος Η παρούσα μεταπτυχιακή εργασία διακπεραιώθηκε στα πλαίσια του μεταπτυχιακού προγράμματος «Εφαρμογές Μοριακής Βιολογίας - Μοριακή Γενετική - Διαγνωστικοί Δείκτες», στο εργαστήριο Βιοπληροφορικής του Δρ. Γρηγόριου Αμούτζια, Λέκτορα Βιοπληροφορικής στη Γενωμική, του Τμήματος Βιοχημείας και Βιοτεχνολογίας, του Πανεπιστημίου Θεσσαλίας. Ο τίτλος της εργασίας είναι "Ανάλυση του ανθρώπινου εξονιώματος από δεδομένα νέας γενιάς τεχνολογιών αλληλούχισης (Exome sequencing)" και πραγματεύεται τις μεθόδους, βιοπληροφορικά εργαλεία και βάσεις δεδομένων που είναι διαθέσιμα στο διαδίκτυο για την ανάλυση δεδομένων ανθρώπινου εξονιώματος. Συγκεκριμένα, η εργασία αυτή ανέπτυξε και βελτιστοποίησε ένα πρωτόκολο βιοπληροφορικής που βασίστηκε σε ελεύθερα διαθέσιμα προγράμματα και βάσεις δεδομένων για την ανάλυση και διαχείριση δεδομένων (paired-end sequence data) ανθρώπινου εξονιώματος που αλληλουχήθηκε με την τεχνολογία της εταιρίας Illumina. Το συγκεκριμένο πρωτόκολο διαχειρίζεται i) την απόκτηση δεδομένων αλληλούχισης από την βάση δεδομένων SRA, ϋ) τον ποιοτικό έλεγχο των δεδομένων, iii) τη στοίχιση των ακολουθιών στο ανθρώπινο γονιδίωμα αναφοράς, ίν) την περαιτέρω επεξεργασία των στοιχισμένων ακολουθιών, ν) την επαναστοίχιση προβληματικών περιοχών, vi) τον υπολογισμό της κατανομής του μεγέθους του ενθέματος των paired-end reads, vii) τον βελτιωμένο επαναυπολογισμό της ποιότητας (Q-score) των αλληλουχημένων βάσεων, viii) τον εντοπισμό SNPs και το φιλτράρισμά τους, ix) τον λειτουργικό σχολιασμό των SNPs και το επιπλέον φιλτράρισμά τους και τέλος, χ) την πρόβλεψη φαινοτύπου. 5

Ευχαριστίες Τις θερμές μου ευχαριστίες, θα ήθελα να εκφράσω στον επιβλέποντα καθηγητή μου, τον Κ.Γρηγόριο Αμούτζια για την καθοδήγηση, την κατανόηση και την πολύτιμη βοήθειά του, κατά την διάρκεια της διεκπεραίωσης της μεταπτυχιακής αυτής εργασίας. Επίσης, θα ήθελα να ευχαριστήσω την οικογένειά μου καθώς και τους στενούς μου φίλους, για την συμπαράσταση και την υπομονή που έδειξαν όλο αυτό το διάστημα. 6

Περιεχόμενα 7. Εισαγωγή... 8 1.1 Προς την αλληλούχιση του ανθρώπινου γονιδιώματος... 8 1.1.1 Το Πρόγραμμα του Ανθρώπινου Γονιδιώματος... 8 1.1.2 Πολυμορφισμοί του D N A...12 1.1.3 Μέθοδοι αλληλούχισης... 14 1.2 Νέας γενιάς τεχνολογίες αλληλούχισης (NGS)... 17 1.2.1 Roche 454 - Pyrosequencing... 22 1.2.2 Pacific Biosciences... 23 1.2.3 Illumina/Solexa...26 1.2.4 Nanopore Oxford Technologies...29 1.2.5 Ion Proton...31 1.3 Αλληλούχιση εξονιώματος... 34 1.3.1 Στρατηγικές αλληλούχισης εξονιώματος... 38 1.3.2 Μέθοδος αλληλούχισης εξονιώματος Illum ina... 40 1.3.3 Σύγκριση πλατφορμών αλληλούχισης εξονιώματος...40 1.4 Ανάλυση δεδομένων αλληλούχισης εξονιώματος... 42 2. Υλικά και μέθοδοι... 55 2.1 Χρήση προγραμματισμού...55 2.2 Βάσεις δεδομένων...55 2.3 Προγράμματα... 62 3. Αποτελέσματα...64 4. Συζήτηση...87 Βιβλιογραφία...92 Πηγές από το διαδίκτυο...98 7

1. Ε ι σ α γ ω γ ή 1.1 Προς την αλληλούχιση του ανθρώπινου γονιδιώματος Κατά τη διάρκεια των τελευταίων 20 χρόνων, σημαντικές πρόοδοι στην τεχνολογία οδήγησαν σε μια επανάσταση στον τομέα της βιολογίας (Kevles, 1999) που σημαδεύτηκε από την ακατάπαυστη προσπάθεια για την "αποκρυπτογράφηση" καταρχήν γονιδίων και αργότερα ολόκληρων γονιδιωμάτων, η οποία "έσπειρε'το πεδίο της γενωμικής (genomics). Καρπός αυτής της προσπάθειας είναι οι αλληλουχίες του γονιδιώματος ιών και ιοειδών (viroids), φυσικών πλασμιδίων, οργανιδίων, ευβακτηρίων, αρχαίο βακτηρίων, μυκήτων, ζώων και φυτών. Ωστόσο, η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος, του γενετικού αποτυπώματος της ζωής, αποτελούσε ουσιαστική πρόκληση. Για το λόγο αυτό καλλιεργήθηκε η ιδέα της αλληλούχισης του ανθρώπινου γονιδιώματος, της εγκυκλοπαίδειας της ζωής και βασικού εργαλείου (International Human Genome Sequencing Consortium, 2001) των μοριακών βιολόγων, που ήταν απαραίτητη για πολλές άλλες εφαρμογές και πειραματικές προσσεγγίσεις, όπως η μεταλλαξιγένεση σημείου, τα πειράματα μεταφοράς γονιδίων και η ανάλυση γονιδιακής ρύθμισης και πρωτεϊνικής έκφρασης (Watson et al., 2007). 1.1.1 Το Πρόγραμμα του Ανθρώπινου Γονιδιώματος Το Πρόγραμμα του Ανθρώπινου Γονιδιώματος (Human Genome Project - HGP) ξεκίνησε το 1990 και μέχρι την ολοκλήρωσή του, το 2003, προσέφερε σημαντικές ανακαλύψεις στο πεδίο της αρχιτεκτονικής και λειτουργίας του ανθρώπινου γονιδιώματος (Naidoo et al., 2011). Απώτερος στόχος του ήταν ο προσδιορισμός της αλληλουχίας των 3 δισεκατομμυρίων ζευγών βάσεων από τις οποίες αποτελούνται τα 46 χρωμοσώματα του ανθρώπου (Watson et al., 2007). Από την αρχή ήταν ξεκάθαρο ότι η αλληλούχιση του ανθρώπινου γονιδιώματος παρουσίαζε τεράστια τεχνικά και λογιστικά προβλήματα, προβλήματα σε έκταση που δεν είχε αντιμετωπίσει η βιολογική έρευνα ποτέ άλλοτε στο παρελθόν. Ένα σημαντικό πρόβλημα αφορούσε τη φύση της ανθρώπινης αλληλουχίας. Τα πειράματα 8

κινητικής υβριδοποίησης που είχαν γίνει κατά τη δεκαετία του 1970. καθώς και οι αλληλουχίες μεμονωμένων γονιδίων είχαν δείξει ότι το ανθρώπινο γονιδίωμα περιέχει πολύ μεγάλη ποσότητα επαναλαμβανόμενου DNA, το οποίο δημιουργεί δυσκολίες στην αλληλούχιση (Watson et al., 2007). Λίγο μετά την επινόηση μεθόδων για την ανάλυση της αλληλουχίας του DNA αναπτύχθηκε και η στρατηγική της τμηματικής ανάλυσης (shotgun sequencing), η οποία παρέμεινε η κύρια μέθοδος για την ανάλυση σε γενωμικό επίπεδο περίπου 20 χρόνια. Η μέθοδος τελειοποιήθηκε και διευρύνθηκε ώστε να γίνει πιο αποτελεσματική. Για παράδειγμα, η βελτίωση των πρωτοκόλλων για την κατάτμηση και κλωνοποίηση του DNA σε φορείς, επέτρεψε την παρασκευή τμηματικών βιβλιοθηκών με πιο ομοιόμορφη αντιπροσώπευση. Η πρακτική της ανάλυσης και από τα δύο άκρα των δίκλωνων τμημάτων ( "double - barreled" shotgun sequencing) που εισήχθει το 1990 από τον Ansorge και άλλους, επέτρεψε τη χρησιμοποίηση «συνδετικών πληροφοριών» (linking information) μεταξύ των κλασμάτων της αλληλουχίας. Αλληλούχηση shotgun ενός κλώνου BAC ένθεμα...γ. Φορέας BAC...... Τυχαίος τεμαχισμός (μερική πέψη, υπέρηχοι) 4 υποκλωνοποίηση & αλληλούχηση Φ ------... ^ =. Στοίχηση επιμέρους αλληλουχιών Εικ.1: Αλληλούχιση shotgun ενός κλώνου BAC (http://www. ocf.berkelev.edu/~edv/genome/nhgri.htmll 9

Η ανάλυση της αλληλουχίας ενός μεγάλου γονιδιώματος πλούσιου σε επαναλήψεις όπως το ανθρώπινο, μπορεί να γίνει με δύο τρόπους (International Human Genome Sequencing Consortium, 2001) σύμφωνα με την προσέγγιση της «τυχαίας προσπέλασης ολόκληρου γονιδιώματος», (whole - genome shotgun) που προτάθηκε στις αρχές του 1990 από τον J. Craig Venter. Η μέθοδος αυτή (πρώτος τρόπος), υποστήριζε την αλληλούχιση του γονιδιώματος μέσω της δημιουργίας κλώνων πολλών χιλιάδων μικρών τμημάτων του γονιδιώματος, σε ισάριθμα πλασμίδια, τη μαζική αλληλούχιση τυχαίων κλώνων και τέλος τη συναρμολόγηση αυτών των αναγνώσεων αλληλουχίας χωρίς να είναι γνωστή εκ των προτέρων η σχετική θέση κάθε κλώνου στο γονιδίωμα (Watson et ah, 2007). Ο δεύτερος τρόπος είναι η «ιεραρχική τμηματική» ανάλυση ("hierarchical shotgun sequencing" approach), η οποία αναφέρεται και ως «βασισμένη σε χάρτες» ( map-based"), «βασισμένη σε BAC (εικ.1)» ( ΒAC-based") ή «κλώνο κλώνο» ("clone - by - clone"). Η προσέγγιση αυτή συνίσταται στη δημιουργία και οργάνωση ενός συνόλου κλώνων με μεγάλα ένθετα τμήματα (συνήθως 100-200 kb το καθένα) που καλύπτουν το γονιδίωμα και κατόπιν στην τμηματική ανάλυση κατάλληλα επιλεγμένων κλώνων. Επειδή τα δεδομένα για την αλληλουχία αφορούν σε συγκεκριμένα τμήματα συγκεκριμένων κλώνων, το ενδεχόμενο κακής συναρμολόγησης, τόσο σε περιορισμένη όσο και σε ευρύτερη κλίμακα, περιορίζεται. Ωστόσο, μπορεί να προκύψει πρόβλημα από πιθανή αναδιάταξη μερικών κλώνων με μεγάλα ένθετα, αν και ο σχετικός κίνδυνος μπορεί να ελαττωθεί με κατάλληλα μέτρα ποιοτικού ελέγχου (International Human Genome Sequencing Consortium, 2001). Hierarchical shotgun sequencing l Χαρτογραφημένη conligs μι.νάλων κλώνων Τμηματική αλληλουχία. ACCGTAAATGGGCTGATCATGCTTAAA TGATCATGCTTAAACCCTGTGCATCCTACTG Συναρμολόγηση... ACCGTAAATGGGCTGATCATGCTTAAACCCTGTGCATCCTACTG 10

Εικ.2: Βασικές αρχές ιεραρχικής τμηματικής ανάλυσης αλληλουχίας (International Human Genome Sequencing Consortium, 2001). Τελικά, για διάφορους λόγους, αποφασίστηκε ότι η ανάλυση της αλληλουχίας του ανθρώπινου γονιδιώματος έπρεπε να γίνει με ιεραρχική προσέγγιση (εικ.2). Ήταν φρόνιμο να χρησιμοποιηθεί η συγκεκριμένη προσέγγιση στην πρώτη απόπειρα ανάλυσης ενός γονιδιώματος πλούσιου σε επαναλήψεις (International Human Genome Sequencing Consortium, 2001). Πώς θα μπορούσε άλλωστε να προσδιοριστεί η σωστή θέση των επαναλαμβανόμενων αλληλουχιών του γονιδιώματος, αφού τα διάφορα αντίγραφα προέρχονται από πολλές διαφορετικές θέσεις; Επιπλέον, τα υπολογιστικά προγράμματα συναρμολόγησης αλληλουχιών δεν ήταν τότε σε θέση να διαχειριστούν τον τεράστιο αριθμό αναγνώσεων αλληλουχίας που θα ήταν απαραίτητος για την συναρμολόγηση ακόμη και ενός μικρού γονιδιώματος (Watson et al., 2007). Με την ιεραρχική προσέγγιση, η συχνότητα λαθών συναρμολόγησης στο ολοκληρωμένο προϊόν θα ήταν μάλλον μικρότερη από την αντίστοιχη συχνότητα, για την προσέγγιση σε επίπεδο γονιδιώματος, κατά την οποία θα ήταν δύσκολο να αναγνωρισθούν περιοχές με λάθη συναρμολόγησης (International Human Genome Sequencing Consortium, 2001). Η πρόχειρη αλληλουχία (draft genome) του Προγράμματος του Ανθρώπινου Γονιδιώματος, η οποία ανακοινώθηκε το 2000 (Watson et al., 2007) ήταν ατελής εξαιτίας των ακάλυπτων περιοχών της ευχρωματίνης το οποίο άγγιζε περίπου το 30% του γονιδιώματος το οποίο δεν καλύφθηκε. Επιπλέον, υπήρχε ένας εκτενής αριθμός κενών (gaps) μεταξύ των συναρμολογημάτων τα οποία καθιστούσαν την γενωνική αλληλουχία δυσανάγνωστη (Naidoo et al., 2011). Τελικά, η ολοκληρωμένη αλληλουχία περιείχε λιγότερο από ένα σφάλμα ανά 100.000 ζεύγη βάσεων, ξεπερνώντας τον αρχικό ποιοτικό στόχο κατά δέκα φορές. Σε σύγκριση με την πρόχειρη αλληλουχία που είχε δημοσιευτεί, οι βελτιώσεις ήταν εντυπωσιακές. Η συνολική ακρίβεια ως προς τα ζεύγη βάσεων ήταν πολύ υψηλότερη στην ολοκληρωμένη αλληλουχία, όμως το πιο εντυπωσιακό ήταν η μείωση του πλήθους των χασμάτων από 150.000 σχεδόν στην πρόχειρη αλληλουχία σε 281 στην ολοκληρωμένη αλληλουχία (συντελεστής μείωσης >400χ). Ενώ ο αριθμός των 11

σφαλμάτων στην πρόχειρη αλληλουχία ήταν τεράστιος, στην ολοκληρωμένη αλληλουχία πλησίαζε το μηδέν. Συμπερασματικά, η ολοκληρωμένη αλληλουχία αποτελεί μια πιστή αναπαράσταση μιας αλληλουχίας - αναφοράς (reference - human sequence) του ανθρώπινου γονιδιώματος (Watson et al., 2007). Συγκεκριμένα, η ολοκληρωμένη αλληλουχία παρέχει ακριβείς πληροφορίες για: τον αριθμό και την πυκνότητα των γονιδίων τις μη - κωδικοποιούσες σε πρωτεΐνες περιοχές, RNA γονιδίων (ή RNA γονίδια) τον αριθμό των αντιγράφων των επαναλαμβανόμενων αλληλουχιών την λειτουργική και εξελικτική ταξινόμηση (Naidoo et al., 2011). 1.1.2 Πολυμορφισμοί του DNA Με την ολοκλήρωση του Προγράμματος του Ανθρώπινου Γονιδιώματος βρέθηκε ότι το DNA αποτελείται από πληθώρα παραλλαγών. Κάποιες από τις κατηγορίες των παραλλαγών, αναφέρονται παρακάτω, διότι συνεισφέρουν στην δημιουργία γενετικών χαρτών και στην έρευνα αυτών καθώς πολλές φορές συντελούν στον προσδιορισμό φαινοτυπικών και γονοτυπικών χαρακτηριστικών. Οι παραλλαγές του DNA μπορεί να είναι κοινές για μια ομάδα ή και μοναδικές για το κάθε άτομο. Κάποιες απο τις κατηγορίες πολυμορφισμών οι οποίες μελετώνται ευρέως ε ίν α ι: Μονονουκλεοτιδηακ πολυηορφίσιαχ (Single nucleotide polymorphism - SNP) Μονονουκλεοτιδικός πολυμορφισμός θεωρείται μία αλλαγή σε ένας ζεύγος βάσεων, μία σημειακή μεταλλαγή σε ένα γενετικό τόπο του γονιδιώματος. Πρόκειται για τον πιο συνηθισμένο τύπο πολυμορφισμού DNA καθώς συναντάται με συχνότητα περίπου 1 ανά 350 bp και ευθύνεται περίπου για το 80-85% της ποικιλομορφίας που εμφανίζει η αλληλουχία του ανθρώπινου DNA. Νέα SNPs δημιουργούνται λόγω αυθόρμητων μεταλλαγών οι οποίες συνήθως οφείλονται σε σφάλματα κατά την αντιγραφή (Russell, 2005). Επειδή, λάθη κατά την αντιγραφή συμβαίνουν σπάνια, 12

εξίσου σπάνιο γεγονός είναι και η εμφάνιση νέου SNP (Kumar et al., 2012). Ανάλογα με την κωδική περιοχή που βρίσκεται το SNP μπορεί να προκαλέσει παρανοηματικές μεταλλαγές στην αντίστοιχη πρωτεΐνη ή σιωπηλές μεταλλαγές. Εκτιμάται ότι οι μισές παρανοηματικές μεταλλαγές (non-synonymous) που οφείλονται σε SNP προκαλούν γενετικές ασθένειες στον άνθρωπο. Η γονιδιακή λειτουργία μπορεί επίσης να επηρεαστεί από τους μη κωδικούς SNP όταν αυτοί συναντώνται σε υποκινητές ή άλλες ρυθμιστικές περιοχές των γονιδίων (Russell, 2005). Μονονουκλεοτιδικές παραλλαγές (SNVs) Οι μονονουκλεοτιδικές παραλλαγές είναι παρόμοιες με τους μονονουκλεοτιδικούς πολυμορφισμούς (SNPs) με την μόνη διαφορά ότι δεν έχουν εντοπιστεί σε μεγάλη συχνότητα πληθυσμού (http://www.populationdiagnostics.com/science.html). Πολυμορφίσιιόζ αριθαού αντιγράφων ( CNVs - Copy Number Variation) Τα πολλαπλά αντίγραφα παραλλαγών (CNVs) αποτελούν το 12% των παραλλαγών του ανθρώπινου DNA. Κάθε τέτοιου είδους παραλλαγή κυμαίνεται από 1Kb νουκλεοτιδικές βάσεις έως αρκετά Mb (Stankiewicz et al., 2010). Τα CNVs μπορούν να προκληθούν από de novo μεταλλάξεις (Carvalho et al., 2007) (δομικές αναδιατάξεις όπως ελλείψεις, διπλασιασμοί, αναστροφές και μετατοπίσεις) ή να κληρονομηθούν (Lupski, 2006). Τα CNVs μπορούν να περιορίζονται σε ένα μόνο γονίδιο ή να περιλαμβάνουν μια συνεχόμενη σειρά από γονίδια. Τα πολλαπλά αντίγραφα παραλλαγών μπορούν να προκαλέσουν φαινοτυπική ποικιλομορφία, πολύπλοκα χαρακτηριστικά συμπεριφοράς και ευαισθησία σε ασθένειες (Freeman et al., 2006) 13

1.1.3 Μέθοδοι αλληλούχισης Η επινόηση τεχνικών αλληλούχισης του DNA στα μέσα της δεκαετίας του 1970 σήμανε την έναρξη μιας νέας εποχής για την βιολογική έρευνα, μια εποχή που οδήγησε γρήγορα σε τεράστια διεύρυνση των γνώσεών μας για τα γονίδια, δηλαδή για τη δομή, τη λειτουργία, τη ρύθμιση και την εξέλιξή τους. Οι τεχνικές αλληλούχισης, αν και δύσχρηστες στην αρχή, γρήγορα υιοθετήθηκαν από πολλά εργαστήρια συντελώντας στην ανάπτυξη της επιστημονικής έρευνας (Watson et al., 2007). To 1975 o Sanger παρουσίασε σε μια διάλεξη του, τη μέθοδο DNA αλληλούχισης, στην οποία γίνεται χρήση ανιχνευτών για τη σύνθεση της αλληλουχίας. Συγκεκριμένα, περιέγραψε μια μέθοδο αλληλούχισης ολιγονουκλεοτιδίων με ενζυμικό πολυμερισμό. Αυτή η μέθοδος ήταν αρχικά γνωστή ώς μέθοδος τερματισμού ή ως μέθοδος διδεοξυνουκλεοτιδίων. Αποτελείται από μία ενζυμική καταλυτική αντίδραση που πολυμερίζει τα τμήματα DNA συμπληρωματικά στη μήτρα DNA. Ένας Ρ 32 σημασμένος εκκινητής (λίγα ολιγονουκλεοτίδια με αλληλουχία συμπληρωματική της μήτρας DNA) υβριδοποιείται σε μια συγκεκριμένη περιοχή της μήτρας DNA παρέχοντας το εναρκτήριο σημείο της σύνθεσης του DNA. Παρουσία της DNA πολυμεράσης συμβαίνει καταλυτικός πολύ μερισμός των τριφωσφορικών δεόξυνουκλεοσιδίων στο DNA. Ο πολυμερισμός συνεχιζόταν μέχρι το ένζυμο να συναντήσει ένα τροποποιημένο νουκλεοσίδιο το οποίο καλείται νουκλεοσίδιο τερματισμού ή τριφωσφορικό διδεόξυ νουκλεοσίδιο στην αναπτυσσόμενη αλυσίδα. Αυτή η μέθοδος πραγματοποιείται σε τέσσερις διαφορετικούς σωλήνες, καθένας από τους οποίους περιέχει την κατάλληλη ποσότητα ενός από τα τέσσερα ddntps. Όλα τα δημιουργηθέντα τμήματα έχουν το ίδιο 5 άκρο, ενώ το 3 'άκρο καθορίζεται από το διδεόξυ νουκλεοτίδιο που χρησιμοποιήθηκε στην αντίδραση. Μετά την ολοκλήρωση και των τεσσάρων αντιδράσεων το μίγμα των διαφορετικού μεγέθους DNA τμημάτων διαχωρίζεται με τη διαδικασία της ηλεκτροφόρησης, σε ένα αποδιατακτικό gel ακρυλαμίδης, σε τέσσερα διαφορετικά πηγάδια. Η απεικόνιση των ζωνών γίνεται 14

με αυτοραδιογραφία. Η ενζυμική αυτή μέθοδος αλληλούχισης ϋναχρησιμοποιείται για γονιδιωματική έρευνα ως κύριο εργαλείο για την αλληλούχιση τμημάτων DNA. Εικ.3: Ενζυμική μέθοδος Sanger http://sulleormedisherlockholmes.protagonista.altervista.org/sulleormedisherlockholmes/sulle _orme_di_holmes/sequenziamento_dna.html To 1977 ο Allan Maxam και o Walter Gilbert δημοσίευσαν μία μέθοδο η οποία βασίζεται στην αποκοπή με χημικό τρόπο (χημική μέθοδος) των συγκεκριμένων βάσεων τερματισμού. Ο διαχωρισμός των τμημάτων γίνεται με ηλεκτροφόρηση σε τζελ πολυακριλαμίδης (Franca et ah, 2002). Η μέθοδος της ηλεκτροφόρησης σε τζελ πολυακριλαμίδης παρουσίαζε αρκετά προβλήματα όσον αφορά την προετοιμασία του τζελ (χρονοβόρα διαδικασία), του δείγματος και την διατήρηση του τζελ μετά την ηλεκτροφόρηση. Για τους λόγους αυτούς προτάθηκε η τεχνολογία της ηλεκτροφόρησης σε τριχοειδή (Capillary Electrophoresis - CE) σωληνάρια σιλικόνης. όπου η αλληλούχιση του δείγματος πραγματοποιείται σε 15

Η ενζυμική μέθοδος ήταν αρκετά χρονοβόρα και ιδιαίτερα επισφαλής. Για το λόγο αυτό, αναπτύχθηκε μια εναλλακτική μέθοδος σήμανσης (εικ.3) η οποία αντικατέστησε την ραδιενέργεια. Για την αλληλούχιση ενός τμήματος DNA πραγματοποιείται μία σύνθετη αντίδραση τερματισμού. Η αντίδραση γίνεται παρουσία των τεσσάρων κανονικών τριφωσφορικών δεόξυριβονουκλεοτιδίων σε σχετικά μεγάλη συγκέντρωση και τεσσάρων διδεόξυριβονουκλεοτιδίων σε μικρότερη συγκέντρωση τα οποία είναι σημασμένα το καθένα με διαφορετική φθορίζουσα χημική ομάδα. Έτσι σχηματίζεται μίγμα προϊόντων τερματισμού που μπορεί να έχουν οποιαδήποτε από τις τέσσερις βάσεις στο 3 'άκρο τους. Τα προϊόντα αυτά προκύπτουν από την ενσωμάτωση ενός διδεόξυριβονουκλεοτιδίου σε μία τυχαία θέση κατά τη σύνθεση. Ωστόσο επειδή τέσσερις φθορίζουσες χρωστικές που χρησιμοποιούνται εκπέμπουν φωτεινή ακτινοβολία σε διαφορετικό μήκος κύματος ( διαφορετικό χρώμα) η ταυτότητα της βάσης στην οποία τερματίζεται η σύνθεση αντιστοιχεί στο χρώμα του ddntp που έχει ενσωματωθεί στο 3 'άκρο. Τα προϊόντα της αντίδρασης φορτώνονται και αναλύονται στην ίδια διαδρομή του πηκτώματος ή σε ένα τριχοειδές σωληνάκι μιας συσκευής αυτόματης αλληλούχισης. Τα τμήματα διαχωρίζονται ανάλογα με το μέγεθος τους. Τα τμήματα είναι σημασμένα με τα χρώματα που αντιστοιχούν στα τέσσερα διαφορετικά ddntp ανάλογα με την ταυτότητα του τελευταίου νουκλεοτιδίου τους. Η ανίχνευση των τεσσάρων χρωμάτων φθορισμού των τερματικών προϊόντων τερματισμού γίνεται από το λέιζερ ανιχνευτή της συσκευής αλληλούχισης (Watson et al., 2007). 16

1.2 Νέας γενιάς τεχνολογίες αλληλούχισης (NGS) Η μέθδος του Sanger αντικαταστάθηκε το 2004 από τις νέας γενιάς τεχνολογίες αλληλούχισης προσφέροντας υψηλής ευκρίνειας αλληλούχιση περίπου 1000 φορές μεγαλύτερη από την παραδοσιακή. Μία από τις βασικές διαφορές είναι η ικανότητα ταυτόχρονης αλληλούχισης εκατομμυρίων τμημάτων DNA (massively parallel sequencing technologies). Αυτό το χαρακτηριστικό προσφέρει τη δυνατότητα αλληλούχισης μεγάλου αριθμού νουκλεοτιδίων ανά διαδρομή σε σύγκριση με την αλληλούχιση κατά Sanger. Η χημεία της νέας γενιάς τεχνολογιών αλληλούχισης, μαζί με την ικανότητα υψηλής παραγωγικής απόδοσης έχει μειώσει σημαντικά το κόστος της αλληλούχισης. Οι νέες τεχνολογίες αλληλούχισης (πιν.1), που διατίθενται σήμερα, μπορούν να ταξινομηθούν σε δεύτερης και τρίτης γενιάς (Naidoo et al., 2011). 'ΊΧ\! ()<)'/\ίλ\(, 2ης γενιάς NGS Roche /454 Illumina/Solexa SOLiD HeliScope 3ης γενιάς NGS Single-Molecule Real Time (SMRT) Ion Torrent Nanopore Πίνακας 1:Δεύτερης και τρίτης γενιάς τεχνολογίες αλληλούχισης Τα τελευταία χρόνια, οι τεχνολογίες νέας γενιάς αλληλούχισης (NGS) παρουσιάζουν μεγάλες βελτιώσεις όσον αφορά στα αποτελέσματα της αλληλούχισης, στο μήκος και 17

στην ακρίβεια των reads. Η μείωση του κόστους (εικ.4) για την πραγματοποίηση της αλληλούχισης καθώς και η ανάπτυξη του σταδίου ενίσχυσης πριν από την ανάλυση της αλληλουχίας συμβάλλουν ούτως ώστε τα NGS να θεωρούνται οι καλύτερες τεχνικές επιλογής για αλληλούχιση. Σύμφωνα με τον νόμο του Moore (εικ.5) η τεχνολογία αλληλούχισης συνδέεται άμεσα με την υπολογιστική πρόοδο όπως φαίνεται και παρακάτω και μάλιστα αναπτύσσεται πιο γρήγορα (Shokralla et al., 2012). Εικ.4:κόστος ανά αλληλούχιση http://www.genome.gov/sequencingcost Εικ.5:κόστος ανά γονιδίωμα (http://www.genome.gov/sequencingcosts/l Οι τεχνολογίες νέας γενιάς αλληλούχισης μπορούν να ταξινομηθούν σε δύο κατηγορίες (εικ.6) :α) σε αυτές που στηρίζονται σε μεθόδους PCR, όπως είναι η 18

Roche 454 Genome Sequencer, HiSeq 2000 (illumina), AB SOLiD System, Ion Personal Genome Machine και β) στις ονομαζόμενες single-molecule τεχνολογίες αλληλούχισης (SMS) που δεν χρησιμοποιούν τεχνικές PCR, όπως η HeliScope και η PacBio RS SMRT system (Shokralla et ah, 2012). Η τεχνική SMS είναι απλή και το πλεονέκτημά της είναι ότι απαιτείται λιγότερο υλικό δείγματος (<1μμ) (Metzker, 2010). Εικ.6: Σύγκριση των NGS τεχνολογιών (Shokralla et al., 2012) R e a d le n g th M ax, n u m b e r S e q u e n c in g C ategory Platform (bp) o f r e a d s / r u n o u t p u t / r u n R u n tim e PC R -based NrGS R oche 454 GS FLX 400-500 1 x lo * <500 M b 10 h technologies R oche 454 GS FLX+ 600-800 1 X 10* <700 M b 23 h R oche 454 GS Junior 400-450 1 x 103 35 M b 10 h Illum ina H iseq 2000 100-200 6 x 109 <540-600 G b 11 d Illum ina H iseq 1000 100-200 3 x 109 <270-300 G b 8.5 d Illum ina GAILx 50-75 6.4 x 10s <95 G b 7.5-1 4 5 d Illum ina M iseq 100-150 7 x 10* 1-2 G b 19-27 h ΛΒ SO LiD 5500 system 35-75 2.4 x 109-1 0 0 G b 4 d Λ Β S O L id 5500 x l s y s te m 3 5-7 5 f i x 109-2 5 0 G b 7-8 d Io n T o rre n t -314 c h ip 1 0 0-200 1 x 106 1 0 M b 3.5 h Ion T o rren t -316 chip 100-200 6 x 106 100 M b 4.7 h Ion T o rren t -318 chip 100-200 11 x 106 >1 Gb 5 5 h SM S technologies H elicos H eliscope 30-35 1 x 109-2 0-2 8 G b <1 d Pacific Bioscienccs system SI 500 50 x 10* 60-75 M b 0 5 h Τα NGS μπορούν να αναλύσουν μεγάλα γονιδιώματα σε μικρό σχετικά χρονικό διάστημα, από έναν ή περισσότερους οργανισμούς με αποτέλεσμα την δυνατότητα σύγκρισης αυτών ανάλογα με την εξελικτική τους πορεία. Ένα μείζον πλεονέκτημα των NGS το οποίο θα έχει σημαντικές επιπτώσεις στην ανθρώπινη κοινωνία, είναι η εύρεση γενετικών διαφορών (με ανθρώπινη αλληλούχιση γονιδιώματος) και η ανάλυση αυτών στο πώς επιδρούν σε υγιή αλλά και σε ασθενή άτομα. Επομένως,θα απαντηθούν πολλά ερωτήματα για το πώς τα γονίδια και οι μεταλλάξεις αυτών συμβάλλουν στον ανθρώπινο φαινότυπο (Metzker, 2010). Με την χρήση των NGS μπορεί να γίνουν τα εξής είδη αλληλούχισης: Whole genome sequencing Exome sequencing (targeted regions) RNA sequencing Chip sequencing (Shendure et al., 2008) Οι πλατφόρμες νέας γενιάς τεχνολογιών αλληλούχισης (NGS), οι οποίες υπάρχουν στην αγορά από τις διάφορες εταιρίες, είναι πολλές, με ξεχωριστά πλεονεκτήματα και 19

μειονεκτήματα η κάθε μία. Παρ όλα αυτά, όλες έχουν ένα κοινό χαρακτηριστικό μοτίβο. Template preparation ^ α) κλωνικά ενισχυμένα πρότυπα που προέρχονται από απλά μόρια DNA ή β) μονό πρότυπο DNA (SMS) Sequencing και imaging (αλληλούγιση και απεικόνιση) Η απεικόνιση στηρίζεται στα τέσσερα διαφορετικά χρώματα που σηματοδοτούν οι αζωτούχες βάσεις του μορίου που μελετάται. Data analysis (ανάλυση δεδομένων) Τα δεδομένα που προέρχονται από πλατφόρμες νέας γενιάς τεχνολογιών αλληλούχισης, χρειάζονται ειδική διαχείριση με την βοήθεια της πληροφορικής όπως είναι η αποθήκευση αυτών των δεδομένων, η ανάλυσή τους καθώς και ο ποιοτικός έλεγχος αυτών (Metzker, 2010). Κάποιες από τις πιο διαδεδομένες πλατφόρμες νέας γενιάς τεχνολογιών αλληλούχισης της εποχής μας είναι: Roche 454 - Pyrosequencing (Roche Diagnostics Corp., Branford, CT, USA) Illumina/Solexa (Inc., San Diego, CA, USA) Nanopore Oxford Technologies Ion Torrent (Life Technologies, South San Francisco, CA, USA) Pacific Biosciences Η επιλογή της πλατφόρμας γίνεται σύμφωνα με το είδος της ανάλυσης που θέλουμε να γίνει. Το παρακάτω διάγραμμα (εικ.7) δείχνει μία πειραματική προσέγγιση στη επιλογή πλατφόρμας. 20

Εικ.7: Προτεινόμενος τρόπος επιλογής πλατφόρμας ανάλογα με την πειραματική προσέγγιση (MacLean et al., 2009) 21

1.2.1 Roche 454 - Pyrosequencing To 2005, η εταιρία 454 Life Sciences παρουσίασε την πρώτη νέας γενιάς (NGS) πλατφόρμα αλληλούχισης. Η τεχνολογία ονομάζεται pyrosequencing και πραγματοποιεί αλληλούχιση με σύνθεση, σε πραγματικό χρόνο (εικ.8). One DNA molecule per b ead Gonai amplification to thousands of copies o ccj's in micromactors in an emulsion >00-200 rriion beads d i i * Cnemically crosslinked to a glass s.ide Εικ.8: Μίγμα που αποτελείται από υδατικό έλαιο-γαλάκτωμα δημιουργεί εγκλεισμό σφαιριδίων DNA συμπλοκών σε ενιαία υδατικά σταγονίδια. Ενίσχυση PCR εκτελείται εντός αυτών, για τη δημιουργία σταγονιδίων που περιέχουν σφαιρίδια με χιλιάδες αντίγραφα της ίδιας αλληλουχίας προτύπου. Τα σφαιρίδια μπορούν να προσαρτηθούν χημικά σε μία γυάλινη αντικειμενοφόρο πλάκα ή σε PicoTiter πλάκα. Πολλαπλασιασμός στερεής-φάσης. (Metzker, 2010). Εικ.9: Roche 454 - Pyrosequencing (Metzker, 2010) 22

Συγκεκριμένα, σε μία Pico titer πλάκα (εικ.9), κάθε νουκλεοτίδιο δεσμεύεται από την DNA πολυμεράση με αποτέλεσμα την απελευθέρωση πυροφωσφορικού μορίου (Shokralla et al., 2012). Ένζυμα ATP σουλφορυλάσης και λουσιφεράσης, μετατρέπουν τα πυροφωσφορικά μόρια ώστε να γίνει εκπομπή ορατού φωτός, το οποίο ανιχνεύεται από CCD σύστημα κάμερας. Κάθε τύπος νουκλεοτιδίου (datp,dctp,dgtp ΚΑΙ dttp) πλένεται πάνω στην Picotiter πλάκα και αναλύεται ξεχωριστά για τον κάθε κύκλο αλληλούχισης. Το μειονέκτημα της τεχνικής είναι η ασύγχρονη χημεία επέκτασης. Τα τελευταία χρόνια, έχουν γίνει ορισμένες βελτιώσεις στην απόδοση της αλληλουχίας των ομοπολυμερών ( Rodriguez - Ezpeleta et al., 2012). 1.2.2 Pacific Biosciences To 2010, η εταιρία Pacific Biosciences παρουσίασε μια πλατφόρμα DNA - αλληλούχισης μονόκλωνου μορίου σε πραγματικό χρόνο (SMRT - Single Molecule Real Time). Η συγκεκριμένη τεχνολογία αλληλούχισης στηρίζεται σε πραγματικό χρόνο με βάση τον φθορισμό. Για την προετοιμασία του δείγματος δεν απαιτείται στάδιο ενίσχυσης καθώς πραγματοποιείται προσέγγιση αλληλούχισης με σύνθεση μονόκλωνου μορίου (Shokralla et al., 2012). Η πρωτοπορία της πλατφόρμας στηρίζεται σε δύο τεχνολογίες: α) στην σύνδεση της φθορίζουσας χρωστικής με την 5 φωσφορική ομάδα του κάθε δεοξυριβονουκλεοτιδίου και όχι με την βάση (παλιά μέθοδος) και β) στην χρησιμοποίηση μιας νανο-δομής, ονομαζόμενη ως Zero Mode Waveguide (ZMW) στην οποία παίρνει μέρος ο πολυμερισμός του DNA, σε πραγματικό χρόνο (Niedringhaus et al., 2011). Η νανο-συσκευή Zero Mode Waveguide (ZMW) αποτελείται από δεκάδες χιλιάδες οπές, με διάμετρο νανομέτρων. Κατασκευάζεται με διάτρηση μιας λεπτής μεταλλικής μεμβράνης και υποστηρίζεται από ένα διαφανές υπόστρωμα (Shokralla et al., 2012). 23

Polymerase DNA template Nucleotide analogs w * t ' t 4 Multiplex zero-mode waveguide f chip Objective lens Color separation JlJUl Zero-mode waveguide chip ' Bioi nformatics Data processing Oichroic I Light source Prism Lens Monochrome detector Eik.10: Τεχνολογία αλληλούχισης της Pacific Biosciences. H DNA πολυμεράση, o εκκινητής και τα μόρια της βιβλιοθήκης (δημιουργία συμπλόκου) εισάγονται στην επιφάνεια της νανο-συσκευής (ZMWs). Το σύμπλοκο ακινητοποιείται στον 7ΐυθμένα των ZMWs, και προστίθενται φθορίζοντα νουκλεοτίδια. Η οπτική κάμερα και το σύστημα λέιζερ καταγράφει σε πραγματικό χρόνο την δραστικότητα της DNA πολυμεράσης με τα φθορίζοντα μόρια. Κατά τη διαδικασία της ενσωμάτωσης αυτών, η φθορίζουσα ομάδα διαχέεται μακριά, και ακολουθεί μετατόπιση του κλώνου, κάνοντας έτσι χώρο για την ανάγνωση του επόμενου νουκλεοτιδίου της αλυσίδας. (http://www.bioopticsworld.com/articles/print/volume-5/issue-06/features/dnasequencing-technologies-the-next-generation-and-bevond.htmo Η διαδικασία της αλληλούχισης, με την τεχνολογία της Pacific Biosciences, υλοποιείται σε δύο στάδια (εικ.10). Στο πρώτο στάδιο, ένα set διαφορετικών φθοριζουσών χρωστικών για την κάθε βάση ενώνεται στην 5 φωσφορική ομάδα του κάθε δεοξυριβονουκλεοτιδίου, ούτως ώστε η κάθε βάση να είναι φασματικά διαφορετική, χωρίς όμως να επηρεάζεται η λειτουργική ικανότητα της DNA πολυμεράσης. Στο δεύτερο στάδιο, το μονόκλωνο μόριο DNA με την DNA πολυμεράση ακινητοποιείται στον πυθμένα του πόρου ZMW της νανο-συσκευής. Τα σύμπλοκα των διαφόρων φθοριζουσών χρωστικών με τις βάσεις κινούνται ελεύθερα 24

στο χώρο. Κάθε χρονική στιγμή η DNA πολυμεράση (εικ.11) διαλέγει το κατάλληλο σύμπλοκο προς τη βάση του μονόκλωνου DNA. Η βάση του συμπλόκου προσδένεται με την συμπληρωματική της στην μονόκλωνη αλυσίδα και η φθορίζουσα χρωστική απομακρύνεται (Niedringhaus et al., 20011). Στάδιο πλύσης μεταξύ της ροής κάθε νουκλεοτιδίου δεν χρειάζεται με αποτέλεσμα την επιτάχυνση της νουκλεοτιδικής ενσωμάτωσης, καθώς και την βελτίωση της ποιότητας αλληλουχίας (Shokralla et al., 2012). Κατά την απομάκρυνση, το σύστημα λέιζερ καταγράφει το σήμα της κάθε φθορίζουσας χρωστικής. Η ίδια διαδικασία επαναλαμβάνεται μέχρι την ολοκλήρωση της αντιγραφής της μονόκλωνης αλυσίδας και έτσι η αλληλούχιση του δείγματος είναι έτοιμη (Niedringhaus et al., 2011). Εικ.11: Τεχνολογία αληλλούχισης της Pacific Bioscience (Metzker et al., 2010) Συμπερασματικά, το είδος της τεχνολογίας που προώθησε η Pacific Biosciences, χρησιμοποιεί τη φυσική ικανότητα της DNA πολυμεράσης να ενσωματώνει δέκα ή περισσότερα νουκλεοτίδια ανά δευτερόλεπτο σε αρκετές χιλιάδες παράλληλες οπές ZMWs (Shokralla et al., 2012). Η αλληλούχιση γίνεται με γρήγορο ρυθμό και δημιουργεί μεγάλου μήκους reads (της τάξεως των 1000 βάσεων) κάτι που αυξάνει την ποιότητα της συναρμολόγησης και τον εντοπισμό SNP (Single- Nucleotide Polymorphisms) (Niedringhaus et al., 2011). 25

1.2.3 Illumina/Solexa To 2007, η εταιρεία Illumina απέκτησε την Solexa, η οποία ανέπτυξε μια πολύ επιτυχημένη τεχνολογία αλληλούχισης των γονιδιωμάτων. Η συγχώνευση αποτέλεσε κλειδί στην ανάπτυξη εργαλείων και ανεπτυγμένων μηχανημάτων αλληλούχισης. Κάποια από τα μηχανήματα της illumina είναι το HiSeq System, HiScan SQ, Genome Analyzer MiSeq. Η επιλογή χρήσης του κάθε μηχανήματος εξαρτάται από το μέγεθος της αλληλουχίας που είναι προς αλληλούχιση. (http://www.illumina.com) Η τεχνοτροπία πίσω από τα NGS είναι παρόμοια με αυτή της ηλεκτροφόρησης με τριχοειδή (capillary electrophoresis - CE) δηλαδή ο προσδιορισμός των αζωτούχων βάσεων ενός θραύσματος γίνεται από τα σήματα που εκπέμπονται. Κάθε θραύσμα δημιουργείται εκ νέου από ένα κλώνο εκμαγείο. Η τεχνολογία της illumina προσφέρει τη δυνατότητα δημιουργίας εκατομμυρίων αντιδράσεων διαφορετικών δειγμάτων με μαζικό παράλληλο τρόπο χωρίς τον περιορισμό λίγων θραυσμάτων (παλιές τεχνολογίες). Επομένως, μπορούν να αναλυθούν πολλά δείγματα μαζί σε ένα μόνο τρέξιμο. Αυτό επίσης συνεπάγεται και μείωση του χρόνου της αλληλούχισης. fhttp://www. illumina.com) Ο τρόπος κατά τον οποίο γίνεται αλληλούχιση γονιδιωμάτων με illumina είναι ο εξής: i ο 4. Εικ.12: Διαδικασία τεχνικής αλληλούχισης Illumina (Ansorge, 2009) 26

I. Ποοετοιιιασία βιβλιοθήκη (Library Preparation) Τα δίκλωνα μόρια του DNA των δειγμάτων τεμαχίζονται με την βοήθεια ενζύμων σε τυχαία κομμάτια (θραύσματα) (εικ.12α). Ένα ολιγονουκλεοτίδιο Τ προσδένεται στα θραύσματα και προεξέχει (εικ.12β) (Ansorge, 2009). Στην συνέχεια συνδέονται και στα δύο άκρα των θραυσμάτων του DNA οι λεγόμενοι adapters. Οι adapters έχουν συγκεκριμένα αλλά διαφορετικά barcodes για το κάθε δείγμα. Τα barcodes είναι μεμονωμένες αλληλουχίες οι οποίες προστίθενται στα δείγματα ώστε να μπορεί να γίνει αναγνώριση του θραύσματος, κατά την ανάλυση των δεδομένων, με το δείγμα στο οποίο ανήκει. Μετά την σύνδεση των adapters με τα θραύσματα του DNA γίνεται αποδιάταξη των δίκλωνων μορίων σε μονόκλωνα, (εικ.120) (www.illumina.com/ngs). II. Δηιιιουργία συιιπλέγιιατος-οιιιεΐογ (Cluster Generation) One DNA molecule per cluster Template dntps and polymerase Sample preparation DNA (5 pg) 100-200 million molecular clusters Cluster growth Bridge amplification Εικ. 13Ενίσχυση στερεάς φάσης (Metzker et al., 2010) Τα μονόκλωνα μόρια τοποθετούνται πάνω σε μία επιφάνεια-πλάκα εργασίας, (εικ. 12 Ε), (workflow-glass flow cell). Η κάθε πλάκα αποτελείται εσωτερικά από ολιγονουκλεοτίδια τα οποία είναι συμπληρωματικά ως προς τους adapters, και χωρίζεται σε οχτώ ξεχωριστές λωρίδες. Πραγματοποιείται υβριδισμός (μέσω εναλλαγής υψηλής με χαμηλή θερμοκρασία) μεταξύ των ολιγονουκλεοτιδίων της πλάκας με τους adapters του ενός άκρου των μονόκλωνων θραυσμάτων DNA. Οι ελεύθεροι adapters των μονόκλωνων μορίων υβριδίζονται με τα ολιγονουκλεοτίδια 27

της πλάκας δημιουργώντας γέφυρες (εικ.13) - bridge amplification (εικ.12ε) (Mardis, 2008). Μία ισοθερμική πολυμεράση ενισχύει για την δημιουργία κλώνων (8ik.12G). Επίσης, και οι adapters της πλάκας δρουν ως εκκινητές για την ενίσχυση (Zhou et al., 2010). Η κάθε βιβλιοθήκη θραυσμάτων αποτελείται πλέον από εκατοντάδες εκατομμύρια μοναδικά συμπλέγματα (clusters). Τα συμπληρωματικά συμπλέγματα αποκόπτονται και απομακρύνονται ξεπλένοντας. Μετά την δημιουργία των clusters οι βιβλιοθήκες είναι έτοιμες προς αλληλούχιση. (www.illumina.com/ngs). III. Αλληλούγιση (Sequencing) Incorporate all four nucleotides, each label with a different dye l Wash, fourcolour imaging I Cleave dye and terminating groups, wash Εικ. 14:Μέθοδος 4 φθοριζουσών χρωστικών ΠΓο»όΊ 1TO qq I Εικ. 15:Απεικόνιση βάσεων με αλληλούχισης (Metzker et ah, 2010) CCD camera (Metzker et ah, 2010) Top: CATCGT Bottom CCCCCC Η αλληλούχιση όλων των cluster (εικ. 14) γίνεται ταυτόχρονα βάση προς βάση με παράλληλο τρόπο χρησιμοποιώντας τέσσερις διαφορετικές φθορίζουσες χρωστικές συνδεδεμένες με τέσσερα διαφορετικά ολιγονουκλεοτίδια ( A.T,G και C) (Zhou et ah, 2010). Οι τέσσερις φθορίζουσες με τις βάσεις πλησιάζουν την βάση του cluster αλλά μόνο μία θα ενωθεί μαζί της (εικ. 121). Μόλις το λέιζερ - CCD camera ανιχνεύσει ότι όντος η συμπληρωματική βάση είναι σωστή τότε καταγράφεται το 28

χρώμα της φθορίζουσας της βάσης, η φθορίζουσα χρωστική αφαιρείται και μένει η βάση (εικ.12κ). Το ίδιο γίνεται και για την επόμενη βάση της αλυσίδας του cluster μέχρι να τερματιστεί (εικ.15). Έτσι δημιουργούνται συμπληρωματικές αλυσίδες των clusters (εικ.12ι). Το ποσοστό σφάλματος της αλληλούχισης μπορεί να μειωθεί εάν η επικάλυψη των reads είναι μεγάλη. 1.2.4 Nanopore Oxford Technologies Στο μέλλον, πιστεύεται ότι η τρίτη γενιά αλληλούχισης θα πραγματοποιείται από array που θα αποτελούνται από μικρούς σε σχήμα πρωτεϊνικούς πόρους (nanopores). Η ιδέα της αλληλούχισης, βασισμένη σε nanopores, προτάθηκε πριν από περίπου 20 χρόνια. Τα πρώτα πειράματα διεξήχθησαν το 1996, χρησιμοποιώντας ως πόρους την βιολογική πρωτεΐνη α-αιμολυσίνη. Τα αποτελέσματα των πειραμάτων δεν ήταν τα επιθυμητά καθώς η μέθοδος ήταν ατελής και η τεχνολογική γνώση δεν επαρκούσε (Schneider et al., 2012). Σήμερα, η μέθοδος αυτή είναι πολλά υποσχόμενη, εξαιτίας της ανάπτυξης της τεχνολογίας, καθώς υπολογίζεται ότι θα είναι πιο φτηνή σε κόστος και πιο γρήγορη με ελάχιστη ποσότητα δείγματος. (Akan et al., 2010). Ένα ακόμη πλεονέκτημα αυτής της μεθόδου, είναι η μη σήμανση του μορίου, χωρίς ενίσχυση του δείγματος, για την ανίχνευση των αζωτούχων βάσεων (Anselmetti, 2012). Επίσης, αναμένεται να προσφέρει λύσεις στον περιορισμό των τεχνολογιών αλληλούχισης με short reads και να καταστήσει δυνατή την αλληλούχιση μεγάλων μορίων σε μερικά λεπτά, χωρίς την τροποποίηση ή την προετοιμασία δειγμάτων (Rodriguez-Ezpeleta et al., 2012). Η τεχνολογία των nanopores για την ανάλυση των νουκλεϊκών οξέων αποτελείται από δύο προσεγγίσεις: ί) τα βιολογικά nanopores (Biological nanopores) όπως είναι η αιμολυσίνη και ii) τα συνθετικά nanopores στερεής κατάστασης (Solid-state- Graphene) nanopore. Η κεντρική ιδέα κατά τη διαδικασία της αλληλούχισης με nanapore και στις δύο προσεγγίσεις είναι ίδια, με τη διαφορά ότι τα βιολογικά nanopores στηρίζονται σε μια λιπιδική διπλοστιβάδα ενώ τα συνθετικά nanopores 29

στηρίζονται σε μία συνθετική μεμβράνη (Rhee et al., 2007). Συγκεκριμένα, το μόριο του δίκλωνου DNA εισέρχεται σε ένα πρωτεϊνικό πόρο (εικ.16). Στον πρωτεϊνικό πόρο στηρίζεται μία άλλη πρωτεΐνη (πολυμεράση) η οποία κατα την διέλευση του δίκλωνου DNA, το ξετυλίγει και έτσι δημιουργούνται δύο αλυσίδες (Venkatesan et al., 2011). Εσωτερικά του πόρου, καθώς ξετυλίγεται η μονόκλωνη αλυσίδα του DNA, περνούν ιόντα και εφαρμόζεται τάση ρεύματος (εικ.17) στα άκρα της μεμβράνης (Rodriguez-Ezpeleta et al., 2012). Το δυναμικό που εφαρμόζεται διαμέσου της μεμβράνης, δημιουργεί ιονικό ρεύμα (Maitra et al., 2012). Στο δυναμικό που δημιουργείται, σε σχέση με την πολικότητα του μορίου, στηρίζεται ο εντοπισμός των βάσεων (A,T,G ή C) την κάθε χρονική στιγμή και ύστερα γίνεται η καταγραφή αυτών (Venkatesan et al., 2011). Διπλή έλικα DNA Ο Μια πρωτεΐνη ξετύλιγα την διπλή έλικα DNA σε 2 αλυσίδες. 0 Ροή ιόντων διαπερνούν τον πόρο και δημιουργούν ρεύμα. Η κάθε βάση αντιδρά και μεταβάλλεται σε διαφορετικό βαθμό στο ρεύμα. GA. G C C G Μια δεύτερη πρωτεΐνη δημιουργεί ένα πόρο στην μεμβράνη και συγκρατεί ένα μόριο "adapicr" Ο Το μόριο του adapter" συγκρατεί τις βάσεις μέχρι να προσδιοριστούν ηλεκτρονικά. Εικ. 16: Διαδικασία αλληλούχισης με τεχνολογία Nanopore (http://www2.technologyreview.com/article/427677/nanopore-sequencing/) 30

A B 0 2 4-6 r Time (ms) 10 12 Εικ.17:Α) Δημιουργία διηλεκτρικής έντασης στην μεμβράνη για τον εντοπισμό των βάσεων. (Maitra et al, 2012) Β) Γράφημα βάσεων αλληλουχίας από αλληλούχιση με Nanopore. C) Γράφημα υποθετικής ανάγνωσης αλληλουχίας από αλληλούχιση με Nanopore. (http://www.nature.com/scientificamerican/joumal/v294/nl/box/scientificamerican0106-46_bx4.html) Τέλος, υπάρχουν πολλά αναπάντητα ερωτηματικά για την τεχνική αλληλούχισης Graphene nanopore, όσον αφορά τη χημεία που χρησιμοποιεί και για το πόσο ακριβή (πιστή) είναι η μέθοδος αυτή. 1.2.5 Ion Torrent To 2010, η Life Technologies παρουσίασε μία καινούργια τεχνολογία αλληλούχισης την Ion Torrent (Shokralla et al., 2012). Η συγκεκριμένη τεχνολογία (εικ.18) δημιουργεί μια άμεση σύνδεση μεταξύ χημικών και ψηφιακών πληροφοριών, επιτρέποντας έτσι τη γρήγορη, απλή και μαζικά κλιμακούμενη αλληλούχιση. Χρησιμοποιεί την απλή χημεία του νουκλεϊκού οξέος, σύμφωνα με τον Watson, σε μια απίστευτα ισχυρή, τεχνολογία ημιαγωγών. Η αρχή της τεχνολογίας Ion Torrent βασίζεται σε μια αναπτυγμένη βιοχημική διαδικασία, στην οποία ένα νουκλεοτίδιο ενσωματώνεται σε μια αλυσίδα του DNA από μια πολυμεράση, με αποτέλεσμα την απελευθέρωση ιόντων υδρογόνου, ως παραπροϊόν (Pareek et al., 2011). 31

& ' rt ; '' >* t V a) Ion technology template β) Προσθήκη νουκλεοτιδίου στο DNA, απελευθέρωση ιόντος υδρογόνου. L / L? U / V* γ) Μη - ταίριασμα νουκλεοτιδίου, μη απελευθέρωση ιόντος υδρογόνου. δ) Ενσωμάτωση δύο νουκλεοτιδίων στο DNA, απελευθέρωση δύο ιόντων υδρογόνου. Εικ.18: Μέθοδος αλληλούχισης Ion Torrent (http://www.invitrogen.com/site/us/en/home/products-and- Services/Applications/Sequencing/Semiconductor-Sequencing/Semiconductor- Sequencing-Technologv/Ion-Torrent-Technologv-How-Does-It-Work.html) Η εκτέλεση της βιοχημικής διαδικασίας γίνεται με μαζικό και παράλληλο τρόπο, σε chip υψηλής πυκνότητας μικρο-μηχανικών πηγαδιών. Κάθε πηγάδι δέχεται ένα μόνο πρότυπο DNA από βιβλιοθήκη. Κάτω από το πηγάδι είναι ένα ιοντικά-ευαίσθητο στρώμα και ένας αισθητήρας ιόντων για την ανίχνευση της αλλαγής της συγκέντρωσης των ιόντων υδρογόνου λόγω της ενσωμάτωσης των νουκλεοτιδίων. (Shokralla et al., 2012). To 2012, η Life Technologies παρουσίασε μια νέα γενιά αλληλούχισης, την Ion Proton. Η Ion Proton είναι ένα chip (εικ.19) το οποίο έχει τη δυνατότητα αλληλούχισης του ανθρώπινου γονιδίωματος και του ανθρώπινου εξονιώματος μέσα σε λίγες ώρες (Pareek et al., 2011). To chip χρησιμοποιεί την τεχνολογία ημιαγωγών CMOS, παρόμοια με εκείνη των ψηφιακών φωτογραφικών μηχανών με την διαφορά 32

ότι αντί για τον εντοπισμό φωτός, το chip αναγνωρίζει την χημεία των μορίων και το μεταφράζει- αποκωδικοποιεί κατευθείαν σε ψηφιακά δεδομένα. fhttp://www.vincentabrv.com/en/ion-proton-sequencer-decodes-human-genome-in-ldav-for-1000-dollars-1543 ) Εικ.19: Ion Proton chip (http://www.vincentabrv.com/en/ion-proton-sequencer- decodeshuman-genome-in-1 -dav-for-1000-dollars-1543 ) 33

1 3 Αλληλούχιση εξονιώματος Οι πρόσφατες εξελίξεις στην ανάπτυξη νέων τεχνολογιών αλληλούχισης NGS) έχουν κάνει την αλληλούχιση εξονιώματος μια τεχνικά εφικτή αλλά και εξαιρετικά αποδοτική μέθοδο επιλογής (Ku et al., 2012). Τα εξόνια είναι οι περιοχές των γονιδίων τα οποία κωδικοποιούν τις πρωτεΐνες. Το εξονίωμα, είναι όλα τα εξόνια ενός γονιδιώματος. Το εξονίωμα αποτελεί περίπου το 1% του συνολικού γονιδιώματος με 180,000 εξώνια, στον άνθρωπο (Ng et al., 2009). Η αλληλούχιση του εξονιώματος δίνει το πλεονέκτημα στους ερευνητές να μπορούν να εστιάσουν μόνο σε περιοχές με υψηλή βιολογική πληροφορία. ('www.illumina.coml. Στόχος είναι η κατανόηση των αλληλομορφικών παραλλαγών και η σχέση που έχουν με τον φαινότυπο. Υψηλός εστιασμός γίνεται στα Μενδελικά νοσήματα καθώς οι περισσότερες μεταλλάξεις που ευθύνονται για αυτά συμβαίνουν στα εξόνια (Biesecker et al., 2011). Πλεονεκτύιιατα του Exome sequencing Είναι μία μέθοδος πιο φτηνή και πιο γρήγορη, περίπου 6-10 φορές πιο φτηνή σε σχέση με την αλληλούχιση ολόκληρου του γονιδιώματος (Singleton et al., 2011). Είναι μία τεχνική εύκολη στη χρήση και επιτέπει την ανίχνευση των αιτιών που προκαλούν Μενδελικά νοσήματα (Biesecker et al., 2011), την κατανόηση των αλληλομορφικών παραλλαγών και την σχέση που έχουν με τον φαινότυπο (Singleton et al., 2011). Μειονεκτύιιατα του Exome sequencing Αρκετοί παράγοντες, καθιστούν δύσκολη την στόχευση και τον εμπλουτισμό μόνο του εξονιώματος. Η αλληλούχιση του ανθρώπινου εξονιώματος καλύπτει μόνο το 1% του γονιδιώματος με αποτέλεσμα την μη κάλυψη των ιντρονίων καθώς και άλλων περιοχών που μπορεί να παίζουν σημαντικό λειτουργικό ρόλο και πολύ πιθανόν να επηρεάζουν και τα συμπτώματα της ασθένειας (Mamanova et al., 2010). 34

Εφαοιιογές του Exome sequencing Η επιτυχής ανάπτυξη της αλληλούχισης του εξονιώματος έχει σημαντικά αποτελέσματα τόσο σε ερευνητικό επίπεδο όσο και στον κλινικό τομέα. Κάποιες από τις εφαρμογές είνα ι: Ε Εύρεση ιιενδελικών ασθενειών Μία από τις πιο συχνές εφαρμογές της αλληλούχισης ανθρώπινου εξονιώματος είναι η ανίχνευση μενδελικών ασθενειών. Μέχρι στιγμής υπολογίζεται ότι πάνω από 3.000 γονίδια ευθύνονται για μενδελικά νοσήματα. Η ανάλυση του ανθρώπινου εξωνιόματος φέρει καινούριες στρατηγικές εύρεσης μενδελικών νοσημάτων σε οικογένειες με κληρονομούμενο μενδελικό γενετικό νόσημα, ανιχνεύοντας την γενωμική περιοχή του γονιδίου που προκαλεί την μετάλλλαξη (Magewski et al., 2011). Από τον Νοέμβριο του 2009 η αλληλούχιση του εξονιώματος έχει οδηγήσει στην ταυτοποίηση για πάνω απο 30 νέα γονίδια στις μενδελικές ασθένειες. Βέβαια, δεν μπορεί να γίνει πάντα ανίχνευση μιας καινούριας γενετικής ασθένειας με τη χρήση της στρατηγικής του Exome sequencing. Μια ασθένεια μπορεί να προκληθεί από μεταλλάξεις σε διαφορετικά γονίδια και να προκαλέσει τον ίδιο φαινότυπο (ασθένειας). Ένα άλλο μεγάλο πλεονέκτημα είναι η στην ανίχνευση σπάνιων σποραδικών μενδελικών διαταραχών οι οποίες προκαλούνται από de novo μεταλλάξεις όπως για παράδειγμα τα σύνδρομα schinzil-giedion και kabuki. Εκτός από την ανίχνευση σπάνιων μενδελικών de novo νοσημάτων οι μελέτες επικεντρώθηκαν στο ρόλο των κοινών νευρολογικών διαταραχών όπως είναι η διανοητική καθυστέρηση και ο αυτισμός. Η ανίχνευση τους μπορεί να βελτιώσει την διάγνωση εκατομμυρίων ατόμων με μενδελικά νοσήματα (εικ.20),να βελτιώσει τη συμβουλευτική στις οικογένειες και να απελευθερώσει καινούριους θεραπευτικούς στόχους. (Gilissen et al., 2011). 2. Καρκίνος Η εφαρμογή των NGS τεχνολογιών έχει προσφέρει αρκετά πλεονεκτήματα στη γονιδκυματική του καρκίνου. Η μαζική παράλληλη αλληλούχιση έκανε εφικτή την κατηγοριοποίηση των σωματικών μεταλλάξεων στον καρκίνο. Μια μεγάλη πρόκληση στη γονιδιωματική ανάλυση του καρκίνου είναι η ανίχνευση της καθοδηγητικής μετάλλαξης (driver mutation). Πρόσφατες 35

μελέτες για τη λευχαιμία, το μυέλωμα,τους συμπαγείς όγκους συμπεριλαμβανομένων του μαστού, του πνεύμονα και του παγκρέατος έχουν εστιάσει στην ανάλυση στις κώδικές περιοχές (Exome) για να αυξήσουν την πιθανότητα της ανίχνευσης της μετάλλαξης. Αυτό έχει ως αποτέλεσμα τη δημιουργία νέων βιο-δεικτών και τη παρασκευή στοχευμένων φαρμάκων. Παρόλα αυτά η επίτευξη αυτών των στόχων δεν είναι πάντα δυνατή καθώς η ανάλυση των καρκινικών δειγμάτων και καρκινικών γονιδιωμάτων έχουν χαρακτηριστικά τα οποία μπορεί να διαφέρουν από άλλα δείγματα ιστών και γενωμικών αλληλουχιών (Meyersoe et al., 2010). 3. Ανθρώπινη εξέλιξη Μεγάλη πρόοδος της στοχευμένης αλληλούχισης έχει παρατηρηθεί στην αλληλούχιση αρχαίου DNA. Οι ερευνητές χρησιμοποίησαν αυτή τη μέθοδο για να στοχεύσουν συγκεκριμένες περιοχές μιτοχονδριακού DNA από 5 δείγματα Neanderthal. Τα αποτελέσματα ήταν η ανίχνευση 88 γνωρισμάτων τα οποία εξελίχθηκαν στους ανθρώπους από την εποχή του διαχωρισμού με τους Neanderthal δίνοντας σημαντικές πληροφορίες για τις διαφορές μεταξύ τους σε γενετικό επίπεδο. Αυτό σημαίνει ότι η τεχνική του εξονιόματος μπορεί να φανεί εξαιρετικά χρήσιμη για να έχουμε μια πιο ολοκληρωμένη άποψη της εξελικτικής μας ιστορίας (Teer et al., 2010). Συμπερασματικά, η αλληλούχιση ανθρώπινου εξονιώματος μπορεί να προσφέρει διπλό ρόλο στη διάγνωση και στην ανακάλυψη γενετικών διαταραχών. Σε συνδυασμό με τη προβλεπόμενη μείωση του κόστους θα κερδίσει περισσότερο έδαφος σε καθημερινή χρήση από όλο και περισσότερους φορείς. 36

Disorder Inheritance Gene identified Scope Congenita! chtorics diarrhea Miller syndrome Charcot-Marie-Tooth neuropathy Metachondromatosis Schinzel-Gedicn syndrome Nonsyndromtc hearing loss Perrault syndrome Hyperphosphatasia mental retardation syndrome Sensenbrenner syndrome Cerebral cortical malformations Kaposi sarcoma Spinocerebellar ataxia Combined hypolipidemia Complex I deficiency Autoimmune lymphoproliferatrve syndrome Amyotrophic lateral sclerosis Nonsyndromtc mental retardation Kabuki syndrome Inflammatory bowel disease Nonsyndromtc mental retardation Retinitis pigmentosa Osteogenesis imperfecta Dilated cardiomyopathy Ha;du-Cheney syndrome Hajdu-Cheney syndrome Skeletal dysplasia Amefogertesis Chondrodysplasia and abnormal joint development Progeroid syndrome Infantile mitochondrial cardiomyopathy Sensory neuropathy with dementia and hearing loss Autism Recessive SIT26A3 Exome Recessive DHODH Exome Recessive SH3JC2 Genome Dominant PIPNJ 7 Genome Dominant SEJ3P! Exome Recessive GPSM2 Exome Recessive HSD17B4 Exome Recessive PiGV Exome Recessive WDR35 Exome Recessive WDR62 Exome Recessive s m i Exome Dominant TGM6 Exome Recessive ANGPTL3 Exome Recessive ACAD9 Exome Recessive m o Exome Dominant VCP Exome Dominant Various Exome Dominant MLL2 Exome Dominant XAP Exome Recessive 7tCP Exome Recessive DHDOS Exome Recessive StPPINf! Exome Dominant BAG3 Exome Dominant NOJCK2 Exome Dominant NOJCH2 Exome Recessive POPi Exome Recessive FAM20A Exome Recessive IMPADl Exome Recessive 8A M 1 Exome Recessive AAPS2 Exome Dominant DNMT1 Exome Dominant Various Exome Εικ.20: Λίστα ανιχνεύσιμων Μενδελικών ασθενειών με whole genome και exome sequencing (Parla et al., 2011). 37

1.3.1 Στρατηγικές αλληλούχισης εξονιώματος (capture methods) Τα τελευταία χρόνια η ανάπτυξη των τεχνολογιών μαζικής παράλληλης αλληλούχισης οδήγησε στην ανάπτυξη νέων μεθόδων σύλληψης (capture) των στοχευμένων - επιθυμητών περιοχών των γονιδιωμάτων. Οι νέες μέθοδοι προσφέρουν περισσότερα πλεονεκτήματα καθώς είναι πιο ευέλικτες αλλά και πιο φτηνές σε σχέση με τις παλαιότερες μεθόδους. Οι παλαιότερες μέθοδοι για μαζική παράλληλη αλληλούχιση χρησιμοποιούσαν την στόχευση συγκεκριμένων περιοχών με την τεχνική της PCR ακολουθούμενη από αλληλούχιση σε τριχοειδή. Αυτή η μέθοδος ήταν πιο χρονοβόρα και κόστιζε περισσότερο. Οι νέες μέθοδοι εξελίσσονται και βελτιώνονται ραγδαία ούτως ώστε η κάλυψη του 1% του γονιδιώματος που αποτελεί το εξονίωμα να είναι όσο το δυνατόν γίνεται πιο αποτελεσματική. Μπορεί να γίνει διάκριση των νέων μεθόδων, όπως αναφέρονται αναλυτικότερα παρακάτω, ανάμεσα σε αυτές που πραγματοποιούνται σε στερεή πλάκα (solid phase) και σε αυτές που δεν είναι (liquid phase) σε στερεή πλάκα (Teer et al., 2010). Υβριδισιακ στερεής Φάσης (Solid-phase hybridization) Στον υβριδισμό στερεής-φάσης (εικ.21) χρησιμοποιούνται ανιχνευτές συμπληρωματικοί με τις αλληλουχίες προς ανάλυση και η διαδικασία πραγματοποιείται πάνω σε μια στερεή πλάκα όπως είναι τα microarrays ή τα filters. Το δείγμα του DNA εφαρμόζεται στους ανιχνευτές όπου θα υβριδιστούν μόνο οι στοχευμένες περιοχές. Τα τμήματα που δεν υβριδίθηκαν απομακρύνονται με έκπλυση (Teer et al., 2010). Η πρώτη εταιρία που εφάρμοσε αυτή την τεχνολογία ήταν η Roche/Nimblegen και υιοθετήθηκε στις τεχνολογίες νέας γενιάς (Mamanova et al., 2010). Υβριδισαός υγρής Φάσης (Liquid-phase hybridization) Η τεχνική υβριδισμού υγρής-φάσης (εικ.22) είναι παρόμοια με της στερεής φάσης με τη διαφορά ότι οι ανιχνευτές δεν είναι προσκολλημένοι σε στερεή πλάκα αλλά αντί για αυτό είναι βιοτινυλιωμένοι (Teer et a l., 2010). Οι βιοτινυλιωμένοι ανιχνευτές που είναι δεσμευμένοι με τις συμπληρωματικές αλληλουχίες του δείγματος 38

προσελκύονται μέσω μαγνητισμού από σφαιρίδια στρεπταβιδίνης. Με την έκλουση το αδέσμευτο γενετικό υλικό απομακρύνεται και το δεσμευμένο θα αλληλουχηθεί. (Mamanova et al., 2010). Την τεχνική αυτή χρησιμοποιεί η εταιρία Agilent με RNA βιοτινυλιωμένους ανιχνευτές (Teer et al., 2010). Άλλες δύο μέθοδοι εμπλουτισμού είναι επίσης η MIP-Molecular Inversion Probes (Ενζυμική μέθοδος)(εικ.23) και η PEC - Primer extension capture (εικ.24). Εικ.21Αιαδικασία υβριδισμού Εικ.22:Διαδικασία υβριδισμού στερεής - φάσης (Teer et al., 2010) υγρής - φάσης (Teer et al., 2010) Εικ.23: MIP (Teer et al., 2010) Εικ.24: PEC (Teer et al., 2010) 39

Οι παραπάνω μέθοδοι χρησιμοποιούνται για την δέσμευση των επιθυμητών περιοχών του γονιδιώματος το οποίο στη συνέχεια θα αλληλουχηθεί. Το παρακάτω διάγραμμα (εικ.25) απεικονίζει όλες αυτές τις μεθόδους σε σχέση με τον αριθμό των γονιδίων που μπορούν αυτές να δεσμεύσουν. Μπορεί εύκολα να διακριθεί από το διάγραμμα ότι οι νέες τεχνολογίες προσφέρουν και έχουν τη δυνατότητα μεγαλύτερης στόχευσης γονιδίων με αποτέλεσμα να θεωρηθούν καλύτερες και πιο αποδοτικές τεχνικές (Mamanova et al., 2010). ο -f--------- 1--------- 1--------- 1--------- 1---- 1----1 Ο 1 2 3 4 5 Logl0 (number of genes) Εικ.25: Διάγραμμα σύγκρισης τεχνικών για την στόχευση περιοχών (Mamanova et al., 2010) 1.3.2 Μέθοδος αλληλούχισης εξονιώματος Illumina Υπάρχουν δύο βασικές μέθοδοι για αλληλούχιση με την τεχνολογία της illumina, για την δημιουργία των βιβλιοθηκών του δείγματος. Η πρώτη είναι η Amplicon sequencing και η δεύτερη, η Target Enrchment. Η μέθοδος αλληλούχισης είναι και στις δύο παρόμοια, με τη διαφορά ότι η Amplicon sequencing επιτρέπει την αλληλούχιση, μικρών σε μέγεθος επιλεγμένων περιοχών, του γονιδιώματος, σε αντίθεση με την Target Enrchment όπου οι στοχευμένες περιοχές ή γονίδια μπορούν να είναι μεγαλύτερα σε μέγεθος ή ακόμη και να αποτελούν ολόκληρο το εξονίωμα του γονιδιώματος. 1.3.3 Σύγκριση πλατφορμών αλληλούχισης εξονιώματος Για την υλοποίηση της αλληλούχισης εξονιώματος υπάρχουν τρεις δημοφιλείς επιλογές εμπλουτισμού: 40

Niblegen / Roche Agilent s SureSelect Human All Exon Illumina s TruSeq Exome Enrichment (Mamanova et ah, 2010) Οι τρεις πλατφόρμες εμπλουτισμού επιδεικνύουν ένα πολύ υψηλό επίπεδο αποτελεσματικότητας των στοχευμενών περιοχών και καλύπτουν ένα πολύ μεγάλο τμήμα του συνολικού εξονιώματος (Clark et al., 2011). Ο ι προαναφερθήσες τεχνολογίες διαφέρουν μεταξύ τους (εικ.26) ως προς : i) τις στοχευμένες περιοχές ii) το μήκος των ανιχνευτών iii) την πυκνότητα των ανιχνευτών iv) το είδος του προς ανάλυση μορίου (DNA για την Niblegen και Illumina, RNA για την Agilent) Exon "Zm "Zm Z - "Z L Lengths: 55-105 bp Nimblegen (DNA) VJ- Quantity: >2,100,000 baits i - Total: 44,007,233 bp Lengths: 114-126 bp Agilent (RNA) Quantity: 655,872 baits Total: 51,542,882 bp Lengths: 95 bp Illumina (DNA) Quantity:340,427 baits Total: 61,884,224 bp Εικ.26: Σύγκριση των πλατφορμών Niblegen, Agilent και Illumina (Clark et al., 2011) H Niblegen είναι η μόνη η οποία χρησιμοποιεί υψηλής πυκνότητας ανιχνευτές. Καλύπτει λιγότερες γενωμικές περιοχές από ότι άλλες πλατφόρμες αλλά απαιτεί λιγότερη ποσότητα δείγματος DNA. Η Illumina καλύπτει και μή - μεταφραζόμενες περιοχές, οι οποίες δεν μπορούν να στοχευθούν ούτε από την Niblegen ούτε από την Aginent (Mamanova et al., 2010). Οι παράγοντες που μπορούν να επηρεάσουν την επίδοση του exome sequencing είναι η ποιότητα του δείγματος, το μήκος των reads καθώς και η φύση του γονιδιώματος αναφοράς (Parla et al., 2011). 41

1.4 Ανάλυση δεδομένων αλληλούχισης εξονιώματος Οι τεχνολογίες NGS είναι πλέον πολύ δημοφιλείς στην επιστημονική κοινότητα, λόγω της υψηλής ποιότητας και όγκου δεδομένων που προσφέρουν (Ruffalo et al., 2012). Ο τομέας της Βιοπληροφορικής έχει αναπτύξει και συνεχίζει να αναπτύσσει με ραγδαίο ρυθμό, τα λογισμικά εργαλεία και τις βάσεις δεδομένων για την καλύτερη διαχείριση και ανάλυση των δεδομένων από πλατφόρμες NGS (Lee et al., 2011). Πολλοί υπολογιστικοί μέθοδοι είναι ήδη διαθέσιμοι για την ανάλυση των γενετικών παραλλαγών χρησιμοποιώντας δεδομένα από NGS. Αυτές οι παραλλαγές περιλαμβάνουν νουκλεοτιδικούς πολυμορφισμούς (SNPs) και δομικές παραλλαγές όπως αριθμούς αντιγράφων, ενθέσεις, διαγραφές, παράλληλοι διπλασιασμοί, αναστροφές και μετατοπίσεις. Η εύρεση και ο χαρακτηρισμός τέτοιων παραλλαγών είναι χρήσιμος σε πολλές εφαρμογές, συμπεριλαμβανομένων στις μελέτες συσχέτισης γονιδιωμάτων, στον προσδιορισμό μεταλλάξεων στον καρκίνο και στη συγκριτική γονιδιωματική (Ruffalo et al., 2012). Γενικά, η διαδικασία ανάλυσης δεδομένων ανθρώπινου εξονιώματος από δεδομένα NGS, της πλατφόρμας Illumina, απεικονίζεται στο παρακάτω διάγραμμα ροής (εικ.27). Εικ.27: Γενικό διάγραμμα ροής, ανάλυσης δεδομένων εξονιώματος Επεξεργασία συαπιεσαένων αργείων 42

Ένα από τα μεγαλύτερα προβλήματα που σχετίζονται με τα NGS, είναι η αποθήκευση και ο χειρισμός των δεδομένων. Τα δεδομένα αλληλούχισης καταλαμβάνουν τεράστιο όγκο. Για την επίλυση αυτού του προβλήματος, η εξαγωγή των αρχείων από NGS τεχνολογίες,είναι σε συμπιεσμένη μορφή (gzip). Αυτό έχει ως αποτέλεσμα την μειωμένη απαίτηση χώρου αποθήκευσης και χρόνου για τη μεταφορά των δεδομένων (Patel et al., 2012). Η αποσυμπίεση των αρχείων γίνεται με τη χρήση εργαλείων ανάλυσης, με εύκολο και γρήγορο τρόπο. Paired - end data Ο όρος paired-end", αναφέρεται στην αλληλούχιση των άκρων του ίδιου μορίου DNA - read (εικ.28). Αρχικά, γίνεται αλληλούχιση του ενός άκρου (αλληλούχιση προς τα εμπρός) και στη συνέχεια γίνεται αλληλούχιση του άλλου άκρου (αλληλούχιση προς την αντίστροφη πλευρά). Το αποτέλεσμα είναι η δημιουργία δύο αρχείων,όπου ο ένας έχει τα αλληλουχημένα reads προς τα εμπρός και ο δεύτερος τα αλληλουχημένα reads προς την αντίστροφη πλευρά. READ 1 ------------------------------------» 1111i 111111t-H Η 1Η -Η-ΗΗ-Η 1111II Μ 1111111 Μ' 11 II 11 1Μ 11 1 1111111 111111 5 <------------------------- ZQV3H Εικ.28: Τρόπος αλληλούχισης των reads για την δημιουργία δεδομένων paired-end (http://www.cureffi.org/2012/12/19/forward-and-reverse-reads-in-paired-end-sequencing/) Single - end data Ο όρος αναφέρεται στην αλληλούχιση του read μόνο από την μία άκρη στην άλλη. Το πρώτο βήμα της επεξεργασίας των δεδομένων, είναι η διαχείριση των αρχείων της αλληλούχισης. Η εξαγωγή των αρχείων αλληλούχισης από την εταιρεία illumina είναι σε μορφή FastQ. ΜοοΦύ FastQ Τα αρχεία Fastq έχουν χαρακτηριστική μορφή (εικ.29). Αποτελούνται από τέσσερις γραμμές για το κάθε read. 43

# FA STQ Data 1 @SRR032209.2000 length=36 2 GTTGTGGCTGAGATGGGATGTAAACTTGANGAKANN 3 +SRR032209,2000 length=36 4 B=A?^BBB<285i<?8%3;#########]##!#«! Εικ.29: Μορφή Fastq (Wan et al., 2011) Η πρώτη γραμμή αρχίζει πάντοτε με το σύμβολο @ και προσδιορίζει το όνομα του read. Πολλές φορές (όπως στην περίπτωση αρχείων από illumina) μπορεί να αναφέρονται πληροφορίες σχετικά με την θέση του read στο flow cell. Στην δεύτερη γραμμή εμφανίζεται η αλληλουχία του read. Δηλαδή A,T,G και C. Εμφάνιση του γράμματος Ν δηλώνει ότι η βάση δεν μπόρεσε να διαβαστεί. Η Τρίτη γραμμή περιέχει μόνο το σύμβολο "+" ή άλλοτε μπορεί και να συνοδεύεται από το όνομα του read. Τέλος, η ποιότητα της κάθε βάσης του read εμφανίζεται με κωδικοποιημένη μορφή (ASCII) στην τελευταία γραμμή. ASCII (American Standard Code for Information Interchange) To ASCII (εικ.30) είναι μία μορφή κρυπτογράφησης κειμένου με την μορφή χαρακτήρων της αγγλικής αλφαβήτου. ASCII Code Chart θ 1 2 3 4 5 6 7 8 9 A B C D E F θ NUL S0H STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO S I 1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US 2 I VI # $ % & < ( ) * + 1 - / 3 θ 1 2 3 4 5 6 7 8 9 : I < = >? 4 @ A B C D E F G H I J K L M N 0 5 Ρ Q R S T U V W X Y Z [ \ ] /V 6 ν a b c d e f 9 h i j k 1 m n 0 7 Ρ q r s t u V w X y z { 1 } ~ DEL Εικ.30: Σύστημα κρυπτογράφησης ASCII (http://en.wikipedia.org/wiki/ascii) Βαθιιός ποιότητας Ο ( Quality) Ο βαθμός - τιμή ποιότητας Q μιας βάσης, είναι η πιθανότητα η βάση αυτή να διαβάσθηκε λανθασμένα (error probability Ρ). Για την εύρεση της πιθανότητας δίνονται δύο μαθηματικές εξισώσεις. 44

Α) Πρότυπο Sanger (Standard Sanger) ή αλλιώς βαθμολογία ποιότητας Phred (quality score). Q< sanger = -10xlog10P To Phred ήταν το πρώτο πρόγραμμα το οποίο ανέπτυξε ακριβή και ισχυρή ποιότητα βαθμολόγισης για την κάθε βάση. Έχει τη δυνατότητα υπολογισμού εξαιρετικά υψηλής ακρίβειας αποτελεσμάτων, που συνδέονται λογαριθμικά με τις πιθανότητες λάθους. Η πιο σημαντική χρήση του PHRED score είναι ο αυτόματος προσδιορισμός ακρίβειας και ποιότητας των αλληλουχιών. Μπορεί, επίσης να χρησιμοποιηθεί για να εκτιμηθεί εάν οι διαφορές μεταξύ των δύο επικαλυπτόμενων ακολουθιών είναι πιο πιθανό να προκόψουν από τυχαία σφάλματα ή από διάφορα αντίγραφα μιας επαναλαμβανόμενης αλληλουχίας. Σύμφωνα με την εικ.31 το Q20 υποδηλώνει ότι η πιθανότητα η βάση να είναι λανθασμένη είναι 0.01 ενώ το Q30 είναι 0.001. Όπως είναι φανερό, όσο μεγαλύτερο είναι το Quality score (π.χ Q30 πολύ καλής ποιότητας αλληλούχιση) τόσο μεγαλύτερη ακρίβεια έχει η βάση και άρα μικρότερη πιθανότητα λάθους. Phred quality scores are logarithmically linked to error probabilities i Phred Quality Score Probability of incorrect base call Base call accuracy!io 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999% Εικ.31: Phred quality scores B) Solexa quality score: 45

To 2004, η εταιρία Solexa εισήγαγε τη δική της έκδοση υπολογισμού ποιότητας της μορφής FastQ. Παρά το γεγονός ότι η μορφή FastQ καταγράφει μόνο ένα αποτέλεσμα ποιότητας, με την εξίσωση της Solexa παράγονται επίσης και άλλα αρχεία όσον αφορά την ποιότητα και των τεσσάρων βάσεων, προκειμένου να μειώσουνε τα χαμηλής ποιότητας αποτελέσματα. Η αξιολόγιση της ποιότητας του κάθε reads είναι πολύ σημαντική διεργασία καθώς υπάρχει ενδεχόμενο ανακρίβειας της ή των βάσεων εξαιτίας συστηματικού λάθους (εικ.32) που μπορεί να έχει η τεχνολογία της αλληλούχισης που χρησιμοποιήθηκε ή η ποιότητα της ίδιας της αλληλουχίας. Error ratio in illumina GA reads 0 5 10 15 20 25 30 35 B ase position Εικ.32: Συσσώρευση λαθών κατά την ενσωμάτωση φθοριζόντων dntps. (Fttp://openi.nlm.nih.gov/detailedresult.php?imff=3096631 pone.0019534. gq01&req=4') Κάποια από τα προγράμματα ελέγχου ποιότητας των αλληλουχημένων reads είναι: Reaper, FastQC, Bcbio-nextgen., Chipster, GeneProf και Biopieces. Θα πρέπει να σημειωθεί ότι πολλά προγράμματα για την λειτουργία τους στηρίζονται στην γνώση και χρήση δυναμικού προγραμματισμού όπως της Perl, Biopython, Java ή C++. Πριν την επιλογή του προγράμματος θα πρέπει να εξακριβωθούν δύο παράμετροι. Ο πρώτος είναι, να υποστηρίζει το πρόγραμμα τα δεδομένα της συγκεκριμένης τεχνολογίας (π.χ illumina) και ο δεύτερος είναι να δέχεται αρχεία FastQ. Σε περίπτωση που το πρόγραμμα δεν δεχεται τη μορφή FastQ αλλά κάποια άλλη, 46

υπάρχει η επιλογή μετατροπής του στην επιθυμητή μορφή με την χρήση όμως κάποιων προγραμμάτων που έχουν αυτό το σκοπό. Παράδειγμα υψηλής (εικ.33) και χαμηλής ποιότητας δεδομένων (εικ.34) με την χρήση του προγράμματος FastQC. Το πρόγραμμα FastQ παρέχει πληροφορίες για την ποότητα του κάθε read,της κάθε βάσης του read, το ποσοστό GC του read, το ποσοστό των αδιάβαστων βάσεων (Ν), το ποσοστό των διπλασιασμένων reads και την κατανομή μήκους της αλληλουχίας. Basic Statistics Quality scores across all bases (lliumina 1.5 encoding) Per base sequence quality Per sequence quality scores @ Per base sequence content Per base GC content Per sequence GC content Per base N content Sequence Length D istrib ution Sequence Duplication Levels O verrepresented sequences Km er Content 1 2 3 4 5 6 7 8 9 1 5-1 9 3 0-3 4 4 5-4 9 Position in read (bp) 6 0-6 4 7 5-7 9 8S Εικ.33: Διάγραμμα απεικόνισης υψηλού βαθμού ποιότητας των βάσεων των reads 47

Quality scores across all bases (Alumina > v l.3 enccxing) Position in read (bp) Εικ.34: Διάγραμμα απεικόνισης χαμηλού βαθμού ποιότητας των βάσεων των reads Το δεύτερο βήμα περιλαμβάνει το φιλτράρισμα (trimming) των reads. Όπως αναφέρθηκε και παραπάνω, ο ποιοτικός έλεγχος της κάθε βάσης του read αλλά και επί του συνόλου του κάθε read έχει πραγματοποιηθεί και με βάση αυτό μπορεί να γίνει το φιλτράρισμα. Κατά προτίμηση κόβουμε τα reads που έχουν ποιότητα κάτω από Q20 διότι η πιθανότητα να είναι λάθος θα είναι περισσότερο από 0.01. Με το φιλτράρισμα μπορούν να επιτευχθούν τρεις στόχοι αποκοπής ανεπιθύμητων περιοχών όπως : i) των adapters των sequence reads ii) όλων των sequence reads από την θέση που εμφανίζεται χαμηλής ποιότητας αλληλούχισης η οποία όμως συνεχίζεται (π.χ εικ.33) και iii) συγκεκριμένων προβληματικών θέσεων για το κάθε sequence read χωριστά (τα κομμένα κομμάτια των sequence reads που έχουν πολύ μικρό μήκος, θα απορριφθούν). Προτεινόμενα προγράμματα για trimming των sequence reads είναι τα ακόλουθα: Condetri, NGS Toolkit, Chipster, Reaper, SeqTrim και SolexaQA. 48

Σε αυτό το σημείο, προαιρετικά, μπορεί να γίνει αφαίρεση των διπλασιασμένων reads για την καλύτερη στοίχιση των reads στην αλληλουχία αναφοράς. To Condetri εκτός από το trimming παρέχει και αυτή την δυνατότητα. Το τρίτο βήμα είναι η στοίχιση (alignment) των reads στην αλληλουχία αναφοράς.έχουν αναπτυχθεί αρκετά προγράμματα στηριζόμενα στους αλγόριθμους για τη πραγματοποίηση της σωστής ευθυγράμμισης των reads στις χρωμοσωμικές περιοχές. Κάποια από αυτά είναι τα εξής: Burrows Wheeler Aligner (BWA), Bowtie 2, SOAP2 και MAQ. Θα πρέπει να σημειωθεί ότι η αλληλουχία αναφοράς αντλείται από τις βάσεις δεδομένων UCSC ή Ensembl. Η καινούργια έκδοση της UCSC στην ανθρώπινη αλληλουχία αναφοράς είναι η hgl9. Για την καλύτερη εφαρμογή των προγραμμάτων για την ευθυγράμμιση το αρχείο της αλληλουχίας αναφοράς του ανθρώπινου γονιδιώματος θα πρέπει να είναι σε μορφή fasta. Η μορφή fasta αρχίζει με το σύμβολο 44 > στην πρώτη γραμμή και στις επόμενες γραμμές ακολουθεί η αλληλουχία. Πολλές αλληλουχίες σε μορφή fasta μπορούν να συγχωνευτούν σε ενα αρχείο, διαχωρίζοντας η μία από την άλλη από το σύμβολο 44 >. Η ένωση των αρχείων μπορεί να γίνει στο τερματικό με την εντολή cat. Ένα προτεινόμενο και εύχρηστο πρόγραμμα ευθυγράμμισης στοίχισης με την ανθρώπινη αλληλουχία αναφοράς είναι το BWA (Burrows Wheeler Aligner). Για την λειτουργία του απαιτείται μικρή μνήμη και διαχειρίζεται επιτυχώς δεδομένα από Ilumina. Για να ξεκινήσει η διαδικασία της ευθυγράμμισης, δημιουργούμε ένα ευρετήριο (index) για την αλληλουχία αναφοράς, υπό μορφή fasta στο BWA. Στην συνέχεια δίνονται εντολές για την στοίχιση των δύο αρχείων, καθώς είναι paired-end, με την αλληλουχία αναφοράς. To BWA εξάγει τα δεδομένα της ευθυγράμμισης των reads σε μορφή sai. Καθώς όμως πολλά προγράμματα χρησιμοποιούν την μορφή sam και για την συνέχεια της ανάλυσης των δεδομένων (για λόγους συμβατότητας), γίνεται μετατροπή των αρχείων sai σε sam με την βοήθεια εργαλείων - εντολών που περιλαμβάνονται στον aligner BWA. 49

Μορφή αργείων SAM Το αρχείο SAM διακρίνεται: α) στην ενότητα της επικεφαλίδας (header section) και β) στην ενότητα της ευθυγράμμισης (alignment section). Δίνει πληροφορίες σχετικά με: την στοίχιση του κάθε read τη θέση του read στο contig αναφοράς τον προσανατολισμό του read την ποιότητα στοίχισης δυνατότητα επανευθυγράμμισης των reads α) Ενότητα Επικεφαλίδας (header section) Αρχίζει πάντοτε με το σύμβολο @ και ακολουθούν δύο γράμματα με κωδικό χαρακτήρα. Δίνονται πληροφορίες για την περιοχή του χρωμοσώματος του read στην αλληλουχία αναφοράς. Στην επικεφαλίδα (εικ.35), υπάρχουν γραμμές που αποτελούνται και από πεδία δεδομένων που αναφέρονται ως «TAG: VALUE» (ετικέτες). Τα TAGs είναι προαιρετικά πεδία στο αρχείο SAM. Μια μορφή TAG είναι μια συμβολοσειρά και αποτελείται από δύο χαρακτήρες: το είδος και την τιμή, τα οποία καθορίζουν το περιεχόμενο και τη μορφή της αξίας για την αποθήκευση των πληροφοριών σχετικά με το read και το alignment. Το σύμβολο * σημαίνει ότι ο τύπος εγγραφής είναι παρόν. Επίσης οι ετικέτες που περιέχουν πεζά γράμματα προορίζονται για τους τελικούς χρήστες. Κάποιες από τις ετικέτες είναι οι εξής : @HD: Είναι η ετικέτα επικεφαλίδας ( 1η γραμμή). @SQ: Καθορίζει τη σειρά ταξινόμησης της στοίχισης στην αλληλουχία αναφοράς. @RG: Η ομάδα των reads. Η κάθε ομάδα θα πρέπει να αποτελείται από μοναδικό όνομα- κωδικό (ID) καθώς αργότερα θα τροποποιηθούν για την συγχώνευση των αρχείων SAM και θα πρέπει να μπορούν να διακριθούν μεταξύ τους. Η τιμή του ID χρησιμοποιείται για την καταγραφή της ευθυγράμμισης. @PG: Καταγραφή του προγράμματος που χρησιμοποιήθηκε. @ 00:Γραμμή σχολιασμού του αρχείου. 50

HD VN:1.3 SO:coordinate SQ SN:ref LN:45 rool 163 ref 7 30 8M2I4M1D3M = 37 39 TTAGATAAAGGATACTG * r002 0 ref 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA * r003 0 ref 9 30 5H6M * 0 0 AGCTAA * NM:i:l r004 0 ref 16 30 6M14N5M * 0 0 ATAGCTTCAGC * r003 16 ref 29 30 6H5M * 0 0 TAGGC * NM:i:0 rool 83 ref 37 30 9K = 7-39 CAGCGCCAT * Εικ.35: Παράδειγμα ενότητας επικεφαλίδας του αρχείου SAM (http://samtools.sourceforge.net/sam 1.pdf) β) Ενότητα ευθυγράμμισης (alignment section). Η ενότητα ευθυγράμμισης περιέχει πληροφορίες για το κάθε read σχετικά με το πού και το πώς έγινε η στοίχιση στην αλληλουχία αναφοράς. Η κάθε γραμμή στοίχισης, του κάθε read, αποτελείται από 11 υποχρεωτικά πεδία παρέχοντας βασικές πληροφορίες, όπως για παράδειγμα η θέσης της ευθυγράμμισης στην χαρτογράφηση. Αναλυτικότερα, τα πεδία αυτά (εικ.36) είναι τα παρακάτω και αναφέρουν: ΟΝΑΜΕ (query name): Αναφέρει την ομαδοποίηση των alignments (π.χ ζευγαρωμένα alignment ή ένα read το οποίο εμφανίζεται σε πολλαπλά alignment). FLAG: Περιέχει πληροφορίες περιγράφοντας το alignment (π.χ. τον αριθμό των θραυσμάτων, τον αριθμό των σωστά ευθυγραμμισμένων θραυσμάτων, το πρώτο θραύσμα, το τελευταίο θραύσμα καθώς και πιο read έχει μικρό quality control). RNAME: Το όνομα της αλληλουχίας αναφοράς.συνήθως περιέχει το όνομα του χρωμοσώματος. POS: Αναφορά της θέσης όπου ξεκίνησε η στοίχιση. MAPQ: Αναφορά της ποιότητας της χαρτογράφισης με βάση την κλίμακα - βαθμονόμηση Phred. CIGAR: Δίνει πληροφορίες για το ποιες βάσεις ευθυγραμμίστικαν.ποιες βάσεις δεν ταίριαζαν με την αλληλουχία αναφοράς, ποιες διαγράφησαν, τις επιπλέον βάσεις που μπορεί να υπάρχουν καθώς και τις βάσεις που δεν υπάρχουν για ταίριασμα. SEQ: Η αλληλουχία του εξεταζόμενου read για αυτό το δείγμα. OUAL: Είναι ένας δείκτης ποιότητας της εξεταζόμενης αλληλουχίας με βάση το σύστημα ASCII. 51

Col Field T ype R e g e x p /R a n g e B rie f d escrip tio n 1 Q N A M E String [!-?A - ] {1,255} Query template NAME 2 FLAG Int [0,2 16-1] bitwise FLAG 3 R N A M E String \ * l [! - ( ) + - < > - ] [! ] * Reference sequence NAME 4 PO S Int [0,229- l] 1-based leftmost mapping POSition 5 M A P Q Int [0,28- l] MAPping Quality 6 CIGAR String \ * 1 ([0-9]+ [MIDNSHPX=])+ CIGAR string 7 R N E X T String \ * 1= 1[! - ( ) + - < > - "] [! - '] * Ref. name of the m ate/next segment 8 P N E X T Int [0,229 1] Position of the m ate/next segment 9 T LEN Int [-229+ l,2 29- l] observed Template LENgth 10 SEQ String \ * l [A-Za-z=.] + segment SEQuence 11 QUAL String [! - '] + ASCII of Phred-scaled base QUALity-l-33 Εικ.36: Πληροφορίες της ενότητας ευθυγράμμισης του αρχείου SAM. (http://samtools.sourceforge.net/sam 1.pdf) Μετατροπή SAM/BAM αργείων Τις περισσότερες φορές επειδή τα αρχεία σε μορφή SAM καταλαμβάνουν πολύ χώρο ( ένα αρχείο SAM μπορεί να χρειάζεται και 20-3 0GB), για το λόγο αυτό αλλά και για την καλύτερη ανάγνωση των αρχείων γίνεται μετατροπή αυτών από την μορφή SAM σε ΒΑΜ. Η μορφή ΒΑΜ περιέχει τις ίδιες ακριβώς πληροφορίες αλλα σε ένα συμπιεσμένο, αναπροσαρμοσμένο σε δυαδική μορφή, αρχείο. Υπάρχουν διάφορα προγράμματα μετατροπής αρχείων από SAM σε ΒΑΜ. To mo εύχρηστο είναι το Picard, το οποίο έχει την ικανότητα διαχείρισης και χειραγώγισης αρχείων SAM. Η χρήση του Picard στηρίζεται σε προγραμματισμό Java. Το επόμενο βήμα είναι η αφαίρεση των μη - μοναδικών reads στην στοίχιση. Τα reads που μπορούν να στοιχιθούν σε περισσότερες από μία θέσεις και εξαιτίας του ότι δεν μπορεί να αποφασιστεί σε ποια ακριβώς θέση ουσιαστικά θα πρέπει να βρίσκονται, αφαιρούνται. Για την αφαίρεση χρησιμοποιούνται ειδικά προγράμματα όπως είναι το GATK. Με την ολοκλήρωση αυτών των βημάτων μπορεί να ξεκινήσει η διαδικασία αναγνώρισης των SNPs (SNP-calling). Το αρχικό βήμα πριν το SNP-calling, είναι ο επανα-υπολογισμός του βαθμού ποιότητας των reads. Η ακριβής ποιότητα του βαθμού των reads είναι απαραίτητη για την χρήση των σύγχρονων αλγορίθμων που ως στόχο έχουν την αναγνώριση των SNPs, καθώς ενσωματώνουν το βαθμό ποιότητας των βάσεων (σύμφωνα με την κλίμακα Phed). 52

Προγράμματα τα οποία εκτελούν επανέλεγχο της ποιότητας των reads είναι το GATK και το SOAPsnp. Το πιο ευρέως στη χρήση του επανέλεγχου των reads και προτεινόμενο, είναι το GATK. Στη συνέχεια, αρχίζει η διαδικασία εύρεσης των πολυμορφισμών και του γονοτύπου με την βοήθεια των προγραμμάτων GATK και των εργαλείων SAM. Η ταυτοποίηση των πολυμορφισμών γίνεται στηριζόμενη σε βάσεις δεδομένων που περιέχουν γνωστούς πολυμορφισμούς όπως η όύ8νρ.κατόπιν, γίνεται φιλτράρισμα των πολυμορφισμών που ανιχνεύτηκαν με στόχο την μείωση των ψευδώς-θετικών πολυμορφισμών. Εργαλεία που μπορούν να χρησιμοποιηθούν για το φιλτράρισμα των SNPs είναι το GATK, εργαλεία SAM και εργαλεία VCF. Σε αυτό το σημείο, θα πρέπει να αναφερθεί ότι αρκετά εργαλεία για την εύρεση των πολυμορφισμών των SNPs δημιουργούν αρχεία σε μορφή vcf. Τα αρχεία σε μορφή vcf περιέχουν πληροφορίες για το είδος του πολυμορφισμού, σε ποιο χρωμόσωμα βρίσκεται και τη θέση που κατέχει στο χρωμόσωμα. Το τελευταίο στάδιο της ανάλυσης, των δεδομένων του ανθρώπινου εξονιώματος, είναι ο σχολιασμός των SNPs. Έχουν αναπτυχθεί αρκετά προγράμματα που ως στόχο έχουν τον αυτοματοποιημένο σχολιασμό γενετικών παραλλαγών. Ένα από αυτά είναι το Annovar. To Annovar αντλεί πληροφορίες από την βάση δεδομένων UCSC. Εισάγοντας τη λίστα με τις παραλλαγές που ανιχνεύθηκαν, τις σχολιάζει με βάση την περιοχή στην οποία βρίσκονται, εξάγοντας ένα αρχείο σε μορφή excel. Ένα αρκετά υποσχόμενο εργαλείο σχολιασμών των πολυμορφισμών, είναι το Promethease. To Promethease, για το σχολιασμό των πολυμορφισμών στηρίζεται στην SNPedia και έχει τη δυνατότητα διαχείρισης δεδομένων από την 23andMe.Eia την λειτουργία του χρειάζεται η εισαγωγή του αρχείου των γονοτύπων και η επιλογή του γονιδιώματος αναφοράς. Τα αποτελέσματα εξάγονται σε περίπου τέσσερις ώρες. Οι πληροφορίες που δίνονται αφορούν: μοναδικούς πολυμορφισμούς οι οποίοι δεν έχουν επιβεβαιωθεί ακόμη πολυμορφισμοί που εμπλέκονται σε παθολογικές καταστάσεις 53

το είδος του μεταβολισμού σε ουσίες και η δοσολογία η οποία θα πρέπει να χορηγείται στο συγκεκριμένο άτομο (π.χ ενδιάμεσοι μεταβολίτες στο αντιπηκτικό βαρφαρίνη, όπου θα πρέπει να χορηγείται συγκεκριμένη δόση). Για την επεξεργασία των πολυμορφισμών, έχουν αναπτυχθεί προγράμματα οπτικής ανάλυσης που βοηθάνε στην ανίχνευση παραλλαγών σε σύγκριση με την αλληλουχία αναφοράς, καθώς και στη σύγκριση μεταξύ διαφορετικών δειγμάτων. Τέτοια προγράμματα είναι το IGV, το GenomeView και το Tablet. Το πρόγραμμα οπτικής ανάλυσης Tablet έχει δημιουργηθεί για την επεξεργασία δεδομένων NGS. Γίνεται απεικόνιση των contigs και προσφέρει α) την δυνατότητα αναφοράς περιοχών που δεν ταιριάζουν με την αλληλουχία αναφοράς καθώς και β) μία περίληψη των σχολιασμών των πολυμορφισμών σε σχέση με τις πληροφορίες του contig. 54

2. Υλικά και μέθοδοι Η ανάλυση και η διαχείριση των δεδομένων, για την πραγματοποίηση της παρούσας εργασίας, έγινε με την χρήση προγραμματισμού, βάσεων δεδομένων και ειδικών προγραμμάτων βιοπληροφορικής. Οι απαιτήσεις του υπολογιστικού συστήματος για την διακπεραίωση της εργασίας ήταν: Λογισμικό Linux - Ubuntu 12.04 Intel Xeon, CPU E5620, Quad Core 2.40 GHz (16 threads) Μνήμη 96GB Σκληρός δίσκος 3TB 2.1 Χρήση προγραμματισμού Η επεξεργασία των δεδομένων και η εκτέλεση των προγραμμάτων έγινε με την Perl. Η Perl είναι μία γλώσσα προγραμματισμού η οποία είναι διαθέσιμη για όλα τα λειτουργικά συστήματα. Χαρακτηριστικά της είναι η μετατροπή αρχείων, η διαχείριση αριθμών, πινάκων (απλοί ή συσχετιστικοί), συμβολοσειρών και σύνδεσης δεδομένων (προσαρμοστικότητα). Το λογισμικό που χρησιμοποιήσαμε στο εργαστήριο ήταν Linux (Ubuntu-12.04) το οποίο είχε ενσωματωμένη την Perl. 2.2 Βάσεις Δεδομένων Για την ανάλυση δεδομένων από exome sequencing χρειάστηκε η συμβολή από αρκετές βάσεις δεδομένων, που αναφέρονται παρακάτω: The National Center for Biotechnology Information (NCBI) H NCBI (εικ.37) στεγάζει μια σειρά από βάσεις δεδομένων που σχετίζονται με τη βιοτεχνολογία και τη βιοϊατρική. Σημαντικές βάσεις δεδομένων είναι η GenBank που περιλαμβάνει πληροφορίες για αλληλουχίες DNA και η PubMed, μια βιβλιογραφική βάση δεδομένων για τη βιοϊατρική βιβλιογραφία. Όλες αυτές οι βάσεις δεδομένων είναι διαθέσιμες στο διαδίκτυο μέσω της μηχανής αναζήτησης Entrez ihttp://en.wikinedia.org/wiki/national Center for Biotechnology Information). 55

Από το NCBI κατεβάσαμε τον φάκελο των SNPs σε μορφή VCF για την επαναβαθμολόγιση της ποιότητας των βάσεων μετά την στοίχιση. Το αρχείο σε μορφή VCF περιείχε τα ονόματα των χρωμοσωμάτων με αριθμούς. NCB1 Ηοπίι^ Resource List (Α-Ζ) All Resources Chemicals & Bioassays D3ta & Software DNARNA Domains &S true* urns Genes &Expres^.o^ Geiwild & Mrttane Genomes &Maps Homology Literetur* Proteins Sequsnce Analysis Taxonomy Iraminj & Tutonais Vananon Welcome to NCBI The National Center for Biotechnology Information advances science and health by providing access to biomedical and gencmlc Information. About the NCBI 1Mission 1Organization I Research I RSS Feeds Get Started Toots: Analyze d3ta using NCBI software Pownl.( : Get NCBI data or software How-To e: Learn how to accomplish specific tasks at NCBI Submissions: Submit d8ta to GenBank or other NCBI databases Genotypes and Phenotypes Data from Genome 'Vide Association studies that link enes and diseases See study variables: protocols and analysis ll 1 2 3 4 6 6 7 8 Popular Resources PubMed Bookshelf PubMed Central PubMed Health BLAST Nucleotide Genome SNP Gene Protein PubChem NCBI Announcements Now Available: NCBI Insights Blog! 2* h' 2013 NCBI hrs *.:ro: ased a iaw bk.j c..ed M 3! ins s Bk j po3ls wl: pro. an Εικ.37: Ιστοσελίδα εθνικού κέντρου πληροφοριών βιοτεχνολογίας-ncni fhttp://www.ncbi.nlm.nih.gov') Sequence Read Archive (SRA) ^ NCBI ilh Sequence Read Archive Browse i Search Download i Submit Documentation Software Trace Archive Trace Assembly Announcements Provisional SRA Tracking History About Trace Home Trace BLAST The Sequence Read Archive (SRA) stores raw sequencing data from the "next" generation of sequencing platforms including Roche 454 GS System, Iliumina Genome Analyzer, Applied Biosystems SOLiD System, Helicos Heliscope, Complete Genomics, and others. Current capabilities include: Run Browser Download facility... Search SRA (usinq_e.p.trgz) Interactive submissions facility Automated submissions browsers See Sequence Read Archive Overview for more information. Εικ.38:Βάση δεδομένων SRA (http://www.galter.northwestem.edu/news/index.cfm/2009/9/l 5/NCBI-Short-Read-Archive- SRA-of-NextGeneration-Sequencing-Data ) 56

Από την SRA αρχικά κατεβάσαμε τα εργαλεία της (SRA-TOOLKIT) και ύστερα αντλήσαμε από εκεί τα δεδομένα της αλληλούχισης του αθρώπινου εξονιώματος σε μορφή fastq από Illumina (αρχείο SRR330441). Η SRA (εικ.38) περιέχει δεδομένα τα οποία προέρχονται από αλληλούχιση με τεχνολογίες νέας γενιάς (sort reads), όπως: Illumina (Immumina Inc.), Roche/454 (Roche Diagnostics Corp.), SOLiD (Life Technologies Corp.), HeliScope Single Molecule Sequencer (Helicos Biosciences Corp.), Complete Genomics Inc., SMRT (Pasific Biosciences Inc.), Ion Torrent Sysrems Inc (Leinonen et al., 2010). Σκοπός της είναι να παρέχει στους ερευνητές δωρεάν πρόσβαση στα δεδομένα (Kodama et al., 2012). Η αποθήκευση των δεδομένων στην SRA (εικ.39) γίνεται με τέτοιο τρόπο ούτως ώστε να είναι διακριτή η προέλευση των δεδομένων αναφέροντας πληροφορίες σχετικά με τη μελέτη,την προέλευση του εξεταζόμενου δείγματος, το πείραμα, την πλατφόρμα η οποία χρησιμοποιήθηκε, την ανάλυση που έγινε καθώς και τη χρονική περίοδο που υποβλήθηκαν τα δεδομένα (Kodama et al., 2012). Τα τελευταία χρόνια παρατηρείται ανάπτυξη της SRA (εικ.39) καθώς όλο και περισσότερα δεδομένα αποθηκεύονται. Εικ.39: Δομή δεδομένων στην SRA (http://www.ebi.ac.uk/ena/about/sra subm issions) 57

984,185,657,686,751 total bases SRA database growth 2009 2010 2011 2012 Total bases ------------------------ Y e a r Open access bases Εικ.40:Ανάπτυξη της βάσης δεδομένων SRA. (http://www.ncbi.nlm.nih. gov/traces/sra/?view=announcemeno UCSC Genome Browser Η μηχανή αναζήτησης γονιδιωμάτων UCSC αναπτύσσεται και συντηρείται από μια διατμηματική ομάδα γονιδιωματικής βιοπληροφορικής του Πανεπιστήμιου της Καλιφόρνιας Σάντα Κρουζ (UCSC). Η ιστοσελίδα περιέχει την ανθρώπινη αλληλουχία αναφοράς, καθώς και προσχέδιες αλληλουχίες άλλων οργανισμών. Επίσης, συνδέεται με την βάση δεδομένων ENCODE (http://genome.ucsc.eduh Από την UCSC κατεβάσαμε την ανθρώπινη αλληλουχία αναφοράς hgl9 (GRCh37) για να γίνει η στοίχιση με τα δεδομένα μας (alignment). Το αρχείο ήταν σε συμπιεσμένη μορφή και η αλληλουχία του κάθε χρωμοσώματος βρισκόταν σε ξεχωριστό αρχείο. Με την χρήση της Perl συγχωνεύσαμε τα αρχεία των χρωμοσωμάτων σε ένα αρχείο. 58

1 OOP Genomes To πρόγραμμα των 1000 Ανθρώπινων Γονιδίων αποσκοπεί στην δημιουργία συλλογής και παροχής πληροφοριών για την κατανόηση της γενετικής συμβολής στις ασθένειες σε σχέση με την γεωγραφική προέλευση των ατόμων καθώς λειτουργικές γενετικές παραλλαγές που αυτές φέρουν (εικ.41). και τις Ο σκοπός του προγράμματος ήταν η ανίχνευση πολυμορφισμών (SNPs και δομικοί πολυμορφισμοί). Τα δείγματα για την πραγματοποίηση του προγράμματος αντλήθηκαν από 14 πληθυσμούς από την Ευρώπη, την Αμερική,την Ανατολική Ασία και την Αφρική. Η ανάλυση των δειγμάτων έγινε τόσο με χαμηλής κάλυψης αλληλούχιση ολόκληρων των γονιδιωμάτων όσο και αλληλούχιση των εξονιωμάτων. Για την διαχείριση των αναλύσεων χρησιμοποιήθηκαν αρκετοί αλγόριθμοι και πολλές πηγές δεδομένων. Τα αποτελέσματα του προγράμματος ήταν η ανίχνευση: 38 εκατομμυρίων SNPs και 1.4 εκατομμύρια μικρών προσθηκών και απαλοιφών. 1000 Genomes A Deep Catalog o f H um an Genetic Variation -- % Λ* s.. " -v\. if *»» v y -.<* - / V - * S V \ s i *, r / <?\ i f SaT. h V & iome About Data Analysis Participants Contact Browser Wiki FTP search K3S1 Ψ... 1 1 " 1 0 0 0 G E N O M E S D A T A A N D S A M P L E IN F O R M A T IO N The 1000 Genomes Project is a community resource project that aims to release data rapidly for the benefit of the scientific community. Description of data released by the project How to Access 1000 Genomes Data Data Release Policy Sample Availability Use of the Project data, presentations and publications, and authorship o Frequently Asked Questions UNKS All project announcements Files and formats 1...I l l I I...... D A T A R E L E A S E D B Y T H E 1 0 0 0 G E N O M E S P R O J E C T Sample lists and sequencing progress A summary of sequencing done for each of the three pilot projects is available here. The list of samples and allocations Is provided In a spreadsheet. Variant Calls Our variant calls are always released In vcf format. The released can be found in the release directory E8IINCBI. Εικ.41 ιστοσελίδα παροχής-άντλησης δεδομένων από το 1000 Genomes fhttp://www. 1000genomes.org/data) Software tools Download the 1000 Genomes Pilot Paper 59

Από τη βάση δεδομένων 1000 Genomes αντλήθηκαν τα SNPs του ανθρώπινου γονιδιώματος για την εύρεση των πολυμορφισμών των δεδομένων μας, μέσω του προγράμματος annovar όπως θα δούμε αναλυτικότερα παρακάτω. CCDS (Consensus coding sequence database) H CCDS είναι μια βάση δεδομένων που περιέχει πληροφορίες για τις κώδικές περιοχές του ανθρώπινου γονιδιώματος και του γονιδιώματος του ποντικιού.η βάση δεδομένων CCDS (εικ.42) συνεργάζεται με τις βάσεις δεδομένων ΕΒΙ, NCBI, UCSC και WTSI. Ο μακροπρόθεσμος στόχος του CCDS είναι η κατηγοριοποίηση των σχολιασμών του συνόλου των γενετικών παραλλαγών που έχουν βρεθεί ως τώρα (http://www.ncbi.nlm.nih.gov/ccds/ccdsbrowse.cgi). Δεδομένα από την CCDC αντλήθηκαν μέσω του Annovar. ± C onsensus CDS p ro tein set PubMed E n tre z G e n e B L A S T O M IM Search All i i for In AJI Organisms i ' and Current Releases ij f Co ) 1 dear C C D S Home FTP P rocess R eleases & S tatistics AUG-guidelmes Collaborators EBI NCBI UCSC WTSI Contact U s email CCDS Genome Displays t Ensembl 0 Genom e Browser N Map Viewer V VEGA The Consensus C D S (C C D S ) project is a collaborative effort to identify a core set of human and mouse protein coding regions that are consistently annotated and of high quality. The long term goal is to support convergence towards a stan set of gene annotations. Available information includes: Announcements Overview Access and Availability Collaborators C C D S Identifiers and Tracking Process Flow and Quality Testing Publication H Announcements Attributes section added to the CCDS Report page February 13,2013 W e are now reporting some additional information about the annotated C D S or support evidence in the new Attributes section of the C C D S report page. The initial data release includes three attribute categories: t Related Resources Gene HomoloGene RefSeq UniGene Attribute category C D S uses downstream A U G Inferred exon combination Nonsense-mediated decay I Exam ple C C D S 117 C C D S 33337 Εικ.42: Βάση δεδομένων CCDS (http://www.ncbi.nlm.nih.gov/ccds/ccdsbrowse.cgi) 60

SEOanswers Η ιστοσελίδα SEQanswers είναι μια πηγή πληροφοριών και forum συζήτησης για θέματα που αφορούν το NGS. Η κοινότητα αποτελείται από πολλά μέλη παρέχοντας βοήθεια και απαντώντας στις ερωτήσεις των χρηστών της κοινότητας. Σκοπός του ιδρυτή, είναι η κοινότητα να κατέχει μια κεντρική θέση στην εκπαίδευση της νέας γενιάς τεχνολογιών αλληλούχισης γονιδιωμάτων ('http://seqanswers.comf Από το SEQanswers όπως και από την Biostar αντλήσαμε πληροφορίες για τον τρόπο ανάλυσης των NGS. Biostar Είναι ένας δικτυακός τόπος που επικεντρώνεται στη βιοπληροφορική, στην υπολογιστική γονιδιωματική και στην ανάλυση βιολογικών δεδομένων. Η ιστοσελίδα απαρτίζεται από διάφορες θεματικές ενότητες συζητήσεων πάνω σε αυτά τα επιστημονικά αντικείμενα, βίντεο και προτεινόμενα εργαλεία βιοπληροφορικής. Επίσης, τα μέλη έχουν την δυνατότητα λήψης απαντήσεων και επίλυσης προβλημάτων, με την βοήθεια άλλων χρηστών (http://www.biostars.org). SNPedia Είναι μία ιστοσελίδα η οποία περιέχει κατάλογο των πολυμορφισμών και δίνει πληροφορίες σχετικά με την επίδραση αυτών στο φαινότυπο. Περιέχει 36.379 SNPs που μπορεί να εμπλέκονται στον μεταβολισμό φαρμάκων, στις χημικές ουσίες, γενικές πληροφορίες των πολυμορφισμών καθώς και άλλα ('http://snpedia.com/index.php/snpediaf Επίσης, χρησιμοποιείται από το λογισμικό Promethease, το οποίο χρησιμοποιήσαμε στο εργαστήριο για την επεξήγηση των SNPs. dbsnp Η βάση δεδομένων dbsnp ανήκει στην NCBI και περιέχει πληροφορίες για τους πολυμορφισμούς SNPs, τοποθετώντας το όνομα (ID) του πολυμορφισμού στην αναζήτηση ('http://www.ncbi.nlm.nih.gov/snp) 61

2.3 Προγράμματα Τα προγράμματα τα οποία χρησιμοποιήθηκαν στο εργαστήριο για την ανάλυση και την επεξεργασία των δεδομένων ήταν το fastqc, το Condetri, το BWA, τα εργαλεία Picard, τα εργαλεία SAM, το GATK, το Tablet, το Annovar και το Promethease. Αναλυτικότερα: FastQC Το πρόγραμμα FastQC χρησιμοποιήθηκε για τον ποιοτικό έλεγχο τόσο των βάσεων όσο και του συνόλου των reads. Επίσης, με το FastQC εξήγαμε πληροφορίες για το μέγεθος των reads, το ποσοστό των GC βάσεων καθώς και τον αριθμό των διπλασιασμένων reads. Condetri Με το Condetri έγινε "κόψιμο" των reads αλλα και των βάσεων που είχαν βαθμό ποιότητας (quality score) χαμηλότερο του 25. Επίσης, πραγματοποιήθηκε αφαίρεση των διπλασιασμένων reads. BWA To BWA προκαλεί στοίχιση (alignment) της αλληλουχίας αναφοράς hgl 9 με τα δεδομένα των reads μας. Αρχικά, έγινε εισαγωγή (index) της αλληλουχίας αναφοράς στο BWA και στην συνέχεια έγινε η στοίχιση. Εργαλεία Picard Τα εργαλεία Picard βοήθησαν στην χειραγώγηση των αρχείων SAM που εξήχθησαν από το BWA, δηλαδή στον καθαρισμό των reads, στο φιλτράρισμα καθώς και στη μετατροπή των αρχείων από SAM σε ΒΑΜ. GATK Το πρόγραμμα GATK χρησιμοποιεί μια σειρά εργαλείων που ως στόχο έχουν την εύρεση των προβληματικών reads (RealignerTargetCreator) και την επαναστοίχιση αυτών (IndelRealigner). Επίσης, με το GATK έγινε επαναβαθμολόγιση της ποιότητας των reads, ανίχνευση και φιλτράρισμα των SNPs. 62

Tablet To πρόγραμμα Tablet προσφέρει απεικόνιση της στοίχισης των reads ως προς το γονιδίωμα αναφοράς. Annovar Ο σχολιασμός των SNPs έγινε με το πρόγραμμα Annovar.Για την εκτέλεσή του κατεβάσαμε από τις βάσεις δεδομένων (π.χ 1000 Genome, dbsnp,esp κ.α) τους πολυμορφισμούς. Στην συνέχεια έγινε ο σχολιασμός, με αποτέλεσμα την αναφορά του ονόματος (ID) του πολυμορφισμού, την θέση του στο χρωμόσωμα και την ομοζυγωτία ή ετεροζυγωτία του αλληλομόρφου. Promethease Η ολοκλήρωση της ανάλυσής έγινε με το πρόγραμμα Promethease. To Promethease έδωσε πληροφορίες για τον κάθε πολυμορφισμό σε σχέση με το πως επηρεάζει αυτός τον φαινότυπο, π.χ πιθανότητα εμφάνισης κάποιας νόσου, μοναδικότητα χαρακτηριστικών καθώς και την απόκριση του μεταβολισμού σε χημικές ουσίες. 63

3. Αποτελέσματα Η ανάλυση και διαχείριση των δεδομένων που πραγματοποιήθηκε στο εργαστήριο, αφορούσε δεδομένα αλληλούχισης ανθρώπινου εξονιώματος από τεχνολογία Illumina. Τα βήματα και τα αποτελέσματα της ανάλυσης περιγράφονται παρακάτω. Βιίιια 1 : Αντληση αργείων σε uopipfi fasta και fastq από τη βάση δεδομένων SRA (NCBI) και UCSC Αρχικά, για να μπορέσουμε να εξάγουμε δεδομένα με τη μορφή fastq από την βάση δεδομένων SRA, θα πρέπει να εγκαταστηθεί στον υπολογιστή μας το πακέτο εργαλείων της SRA (SRA-TOOLKIT), από την NCBI. Για να κατεβάσουμε ένα συγκεκριμένο αρχείο για ένα συγκεκριμένο δείγμα, γίνεται χρήση του προγράμματος περιήγησης. Πριν την εκτέλεση των εργαλείων SRA (SRA-TOOLKIT) πρέπει να τρέξει για πρώτη φορά το διαμορφωμένο -perl script assistant.perl. Μόλις ανακτηθεί το αρχείο SRA, χρησιμοποιούμε την παρακάτω εντολή: configuration-assistant.perl SRR330441.sra Για την εξαγωγή των αρχείων fastq (αν είναι paired-end), τρέχουμε την παρακάτω εντολή, από το SRA-TOOLKIT. fastq-dump-split-3 SRR330441.sra Ανάκτηση της ανθρώπινης αλληλουγίας αναφοράν hg!9 (GRCh37L από τη βάση δεδοιιένων UCSC http://hgdownload.cse.ucsc.edu/goldenpath/hgl9/bigzips/ Το αρχείο της ανθρώπινης αλληλουχίας αναφοράς είναι σε συμπιεσμένη μορφή. Για την χρήση των δεδομένων θα πρέπει πρώτα να αποσυμπιεστεί. Τα δεδομένα για το κάθε χρωμόσωμα ξεχωριστά βρίσκεται σε διαφορετικό αρχείο. Για την χρήση των δεδομένων θα πρέπει να γίνει συγχώνευση των αρχείων, που περιέχουν τις 64

πληροφορίες των χρωμοσωμάτων, σε ένα αρχείο. Αυτό πραγματοποιείται με την εντολή cat, δηλαδή: cat chrl.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chrlo.fa chrll.fa chrl2.fa chrl3.fa chrl4.fa chrl5.fa chrl6.fa chrl7.fa chrl8.fa chrl9.fa chr20.fa chr21.fa chr22.fa chrx.fa chry.fa chrm.fa > hg!9.fa Bfimx 2 : Ποιοτικός έλεγγοc και Φιλτράρισμα (trimming, PCR duplicate removal) των reads, ιιε τ α προγράιιιιατα fastqc & Condetri Πραγματοποιήθηκε ποιοτικός έλεγχος των reads, με το πρόγραμμα fastqc, των αρχείων SRR330441_l.fastq και SRR330441_2.fastq (υπάρχουν δύο αρχεία για το ίδιο δείγμα, καθώς τα δεδομένα είναι paired-end). Τα αποτελέσματα που πήραμε ήταν τα εξής: Για το αργείο SRR330441 l.fastq: Ο συνολικός αριθμός των reads ήταν 57.090.906.Το μήκος του κάθε reads ήταν 50bp (εικ.45). Το % GC βάσεων στο σύνολο τών reads ήταν 51. Η κωδικοποίηση που χρησιμοποιήθηκε κατά την διαδικασία της αλληλούχισης ήταν Sanger/Illumina 1.9. Για το αργείο SRR330441 2.fastq: Ο συνολικός αριθμός των reads ήταν 57.090.906. Το μήκος του κάθε read ήταν 50bp. Το συνολικό ποσοστό των GC βάσεων των reads ήταν 52 και η κωδικοποίηση ήταν η ίδια με το αρχείο SRR330441_l.fastq. Παρατηρούμε ότι το quality score των βάσεων των reads και για τα δύο αρχεία (SRR330441_l.fastq και SRR330441_2.fastq) είναι αρκετά ικανοποιητικό (εικ.43 και εικ.44) δεν πέφτει κάτω από Q=20 και η πλειοψηφία αυτών έχουν μικρό ποσοστό λάθους, που σημαίνει ότι η διαδικασία της αλληλούχισης έγινε επιτυχώς ή ότι φιλτραρίστηκε πριν κατατεθεί στο SRA. 65

40 38 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 Quality sc o re s across all base s (S a n g e r/ lllumina 1.9 e n codin g) III I I I 2 0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Position in read (bp) Εκ.43:Διάγραμμα απεικόνισης της ποιότητας όλων των βάσεων των reads για το αρχείο SRR330441 1.fastq 40 Quality scores across all bases (Sanger / lllumina 1.9 encoding) 38 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Position in read (bp) 66

Εκ.44: Δ ιάγραμμα απεικόνισης τη ς ποιότητας όλω ν τω ν βάσεω ν τ ω ν reads για το αρχείο SR R 330441_ 2.fastq Distribution ορ sequence Lengths over all sequences Sequence Length 5.0E7 4.0E7 3.0E7 2.0E7 1.DE7 Sequence Length (bp) Εικ.45: Διάγραμμα απεικόνισης του μήκους των reads (ίδιο και για τα δύο αρχεία) Quality score distribution over all sequences Εικ.46: Απεικόνιση μέσου όρου της ποιότητας του κάθε read (αρχείο SRR330441_1.fastq). 67

Quality score distribution over all sequences Εικ.47: Απεικόνιση μέσου όρου της ποιότητας του κάθε read (αρχείο SRR330441_2.fastq). Παρατηρούμε ότι η ποιότητα των βάσεων προς το τέλος τως reads μειώνεται. Για το λόγο αυτό, όπως θα δούμε και παρακάτω, έγινε αφαίρεση αυτών των βάσεων ούτως ώστε η στοίχιση με την αλληλουχία αναφοράς (alignment) σε επόμενο βήμα, να είναι πιο ακριβής και να μειωθεί το ποσοστό λάθους. Στην συνέχεια, έγινε αφαίρεση των περιοχών (trimming) των reads, που δεν εκπληρώνουν τον βαθμό της επιθυμητής ποιότητας με το πρόγραμμα Condetri. Στο τερματικό πληκτρολογούμε την εντολή:./condetri_v2.2.pl -fastql=srr330441_l.fastq -fastq2=srr330441_2.fastq - prefix=srr330441 -hq=25 -lq = l3 -frac=0.8 -minlen=35 -mh=5 -ml=l -sc=33 -rm N Τα αρχεία εξάγονται με όνομα SRR330441_triml.fastq και SRR330441_trim2.fastq. Για την αφαίρεση των διπλασιασμένων reads (με το πρόγραμμα FilterPCRdupl, που είναι μαζί με το Condetri), πληκτρολογούμε την εντολή: 68

./filterpcrdupl.pl -fastql=srr330441_triml.fastq -fastq2=srr330441_trim2.fastq -prefix=srr330441 -cmp=31 To όνομα των αρχείων πλέον είναι: SRR330441_uniql.fastq και SRR33 0441_uniq2. fastq. Κατόπιν, έγινε πάλι ποιοτικός έλεγχος των δεδομένων των αρχείων SRR330441_uniql.fastq (εικ.48) και SRR330441_uniq2.fastq (εικ.49) με την χρήση του προγράμματος fastqc. Τα αποτελέσματα που πήραμε (πιν.2) μετά την αφαίρεση των διπλασιασμένων reads ήταν τα εξής: α) για τα δεδομένα του αρχείου SRR330441_uniql.fastq, οι συνολικές αλληλουχίες ήταν 34.870.773, το μήκος των reads ήταν μεταξύ 35-50 και το % GC βάσεων ήταν 49 για το σύνολο των reads και β) για τα δεδομένα του αρχείου SRR330441_uniq.fastq οι συνολικές αλληλουχίες ήταν 34.870.773, το μήκος των reads ήταν μεταξύ 35-50 και το %GC βάσεων του συνόλου των reads ήταν 49. Αναλυτικός πίνακας αποτελεσιιάτων του βαθμού ποιότητας των reads (πιν.2) Δεδομένα- αρχεία Σύνολο αλληλουχιών Μήκος των Λογικά δεδοιιένα-αργεία fasta reads %GC SRR330441_l.fastq 57.090.906 50 51 SRR330441_2.fastq 57.090.906 50 52 Δεδοιιένα ιιετά το trimming SRR33044 ltriml.fastq 37.798.377 35-50 49 SRR33044 l_trim2.fastq 37.798.377 35-50 49 Δεδοιιένα ιιετά την αφαίρεση των διπλασιασιιένων reads SRR330441_uniql. fastq 34.870.773 35-50 49 SRR330441_uniq2.fastq 34.870.773 35-50 49 69

Quality scores across all bases (Sanger / lllumina 1.9 encoding) Εκ.48:Διάγραμμα απεικόνισης της ποιότητας όλων των βάσεων των reads, μετά το φιλτράρισμα-αφαίρεση των διπλασιασμένων reads, για το αρχείο SRR330441_uniql.fastq Quality scores across all bases (Sanger / lllumina 1.9 encoding) 70

Ε κ.49:δ ιάγραμμα απεικόνισης τη ς π οιότη τα ς όλω ν τω ν βάσεω ν τω ν reads, μετά το φιλτράρισμα-αφαίρεση τω ν διπλασιασμένω ν reads, για το αρχείο SR R 330441_uniq2.fastq 60000000 50000000 10000000 ο Regular data After trimming βήματα ανάλυσης After filter duplicates (final data) Εικ.50: Ραβδόγραμμα απεικόνισης της μεταβολής των συνολικών αλληλουχιών Bfiita 3 : Στοίγιση (alignment) των reads στην αλληλουχία αναφοράς ιιε το BWA Το πρόγραμμα BWA μπορεί να αποκτηθεί ελεύθερα από την ιστοσελίδα: http://bio-bwa.sourceforge.net/ Αρχικά, δημιουργούμε ένα ευρετήριο (index) για το αρχείο hgl9.fa που περιέχει την αλληλουχία αναφοράς, με την εντολή:./bwa index -a bwtsw -p hgl 9_index hgl 9.fa (Διάρκεια: 5155 sec) Κατόπιν, δημιουργούμε αρχεία σε μορφή.sai, και για τα δύο αρχεία fastq, ξεχωριστά, με τις παρακάτω εντολές : 71

./bwa aln -t 12 hgl9_index SRR330441 uniql.fastq > SRR330441_uniql_hgl9.sai (Διάρκεια: 694 sec)./bwa aln -t 12 hgl9_index SRR330441_uniq2.fastq > SRR330441_uniq2_hgl9.sai (Διάρκεια: 689 sec) Τα αρχεία σε μορφή. sai,είναι ενδιάμεσα αρχεία και στη συνέχεια θα μετατραπούν σε αρχεία SAM. Ύστερα, δημιουργήσαμε το αρχείο SAM με το bwa sampe../bwa sampe hgl9_index SRR330441_uniql_hgl9.sai SRR330441_uniq2_hgl9.sai SRR330441_uniql.fastq SRR330441_uniq2.fastq > SRR33 0441 _uniq 1 _uniq2_hg 19.sam (Διάρκεια: 2837 sec) Βήμα 4 : Ανάλυση των δεδομένων με το προύραίαια Picard Στη συνέχεια μεταφέραμε το αρχείο SAM (SRR330441_uniql_uniq2_hgl9.sam) στον φάκελο του προγράμματος Picard και διαχειριστήκαμε, όπως θα δούμε και παρακάτω, τα εργαλεία του. Τα εγαλεία του Picard στηρίζονται σε προγραμματισμό της Java. 4.1 Καθαρισιιός του αργείου Sam Η εντολή που δώσαμε ήταν η εξής: java -Xmx4g -Djava.io.tmpdir=/tmp -jar CleanSam.jar INPUT=SRR3 30441 uniq 1 _uniq2_hg 19. sam OUTPUT=S RR330441 _uniq 1 _uniq2_hg 19.Pic 1. sam (Διάρκεια: lomin) 4.2 SortSam java -Xmx4g -Djava.io.tmpdir=/tmp -jar SortSam.jar INPUT=SRR330441_uniql_uniq2_hgl9.Picl.sam OUTPUT=SRR330441_uniql_uniq2_hgl9.Pic2.sam SORT_ORDER=queryname 72

Το όνομα του αρχείου που δημιουργήθηκε ήταν: SRR330441_uniql_uniq2_hgl9.Pic2.sam (Διάρκεια: 24min) 4.3 Φιλτράρισαα των Reads του αονείου SAM java -Xmx4g -Djava.io.tmpdir=/tmp -jar FilterSamReads.jar INPUT=SRR330441 _uniq 1 _uniq2_hg 19.Pic2.sam OUTPUT=SRR330441 uniq 1 _uniq2_hg 19.Pic3. sam FILTER=includeAligned SORT_ORDER=coordinate (Διάρκεια: 38min) 4.4 Στίαανση και αποαάκρυνση των διπλασιασαένων reads που ποοκλήθηκαν στο στάδιο της PCR java -Xmx4g -Djava.io.tmpdir=/tmp -jar MarkDuplicates.jar INPUT=SRR330441 uniq 1 _uniq2_hg 19.Pic3.sam OUTPUT=SRR330441_uniql_uniq2_hgl9.Pic4.sam METRICS_FILE=metrics CREATE_INDEX=true VALIDATION_STRINGENCY=STRICT REMOVE_DUPLICATES=true ASSUME_SORTED=true (Διάρκεια: 20min) 4.5 Μετατροπή του αργείου SAM σε BAM Όπως αναφέρθηκε παραπάνω, το αρχείο SAM μετατρέπεται σε μια συμπιεσμένη μορφή, τη μορφή ΒΑΜ, για λόγους χωρητικότητας και ευκολίας στη διαχείρισή του. Οι πληροφορίες του αρχείου παραμένουν ίδιες. java -Xmx4g -Djava.io.tmpdir=/tmp -jar SamFormatConverter.jar INPUT=SRR330441_uniq 1 _uniq2_hg 19.Pic4. sam OUTPUT=SRR330441_uniql_uniq2_hgl9.Pic4.bam (Διάρκεια: 17min) 4.6 Προσθήκη ή αντικατάσταση των οαάδων των reads 73

java -jar AddOrReplaceReadGroups.jar INPUT=SRR330441_uniql_uniq2_hgl9.Pic4.bam OUTPUT=SRR330441_uniql_uniq2_hgl 9.Pic5.bam SORT_ORDER=coordinate RGID=1 RGLB=Hum_exl RGPL=Illumina RGPU=Hum_exl RGSM=Hum_exl RGCN=bi RGDS=Hum_ex 1 RGDT=2013-l-22 CREATE_INDEX=true (Διάρκεια: 15min) 4.7 Επικύρωση του αργείου SAM java -Xmx4g -Djava.io.tmpdir=/tmp -jar ValidateSamFile.jar INPIJT=SRR33 0441 uniq 1 _uniq2_hg 19.Pic5.bam OUTPUT=validation.report VALID ATE_INDEX=true MAX_OUTPUT=l 00000 To αποτέλεσμα της εντολής είναι η εξαγωγή του αρχείου SRR330441_uniql_uniq2_hgl9.Pic5.bam. (Διάρκεια: 7min) Bring 5ο:Εντοπισμός και επαναστοίγιστι προβληματικών θέσεων με το GATK Σε αυτό το βήμα, γίνεται μεταφορά των αρχείων SRR330441_uniql_uniq2_hgl9.Pic5.bam και hgl9.fa (η αλληλουχία αναφοράς) στον φάκελο GATK. Στη συνέχεια, δίνονται οι παρακάτω εντολές: 5.1 Δημιουργία Φακέλου που περιέγει θέσεις που γρειά ονται επαναστοίύίση java -jar GenomeAnalysisTK.jar -Τ RealignerTargetCreator -R hgl9.fa -I SRR330441_uniql_uniq2_hgl9.Pic5.bam -o SRR330441.realigner.intervals (Διάρκεια: lh) Η εντολή που βάλαμε για το αρχείο που θα εξαχθεί (SRR330441.realigner.intervals) θα πρέπει να έχει κατάληξη.realigner.intervals για να συνεχίσουμε στο επόμενο βήμα. 5.2 Επαναστοίγιση προβληματικών θέσεων java -jar GenomeAnalysisTK.jar -Τ IndelRealigner -R hgl9.fa -I 74

SRR330441 uniq 1 _uniq2_hg 19.Pic5.bam -targetlntervals SRR3 3 0441 1.realigner.intervals -o SRR3 3 0441_uniq 1 _uniq2_hg 19.Pic6.bam (Διάρκεια: 18min) Βίηια 6 : Υπολογιση0 της κατανοητίς του ιιεγέθους ενθέιιατος ηετα ύ paired - end reads Για το στάδιο αυτό χρησιμοποιούνται προγράμματα του Picard. Έγινε μεταφορά του αρχείου SRR330441_imiql_uniq2_hgl9.Pic6.bam στον φάκελο Picard-tools και πληκτρολογήσαμε την παρακάτω εντολή: java -Djava.io.tmpdir=/tmp -jar FixMatelnformation.jar INPUT=SRR33 0441 _uniq 1 _uniq2_hg 19.Pic6.bam OUTPUT=SRR330441_uniql_uniq2_hgl 9.Pic7.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=true (Διάρκεια: 26min) Στη συνέχεια εκτελεστήκε η παρακάτω εντολή: java -Djava.io.tmpdir=/tmp -jar CollectlnsertSizeMetrics.jar HISTOGRAM_FILE=insert_size_histogram_file_SRR330441 INPUT=S RR330441_uniq 1 _uniq2_hg 19.Pic7.bam OUTPUT=output_collect_insert_sizes REFERENCE_SEQUENCE=hgl 9.fa ASSUME_SORTED=true (Διάρκεια: 3 min) Τα αποτελέσματα που πήραμε από αυτή την εντολή ήταν το παρακάτω ιστόγραμμα (εικ.51), που δείχνει την κατανομή του μεγέθους του ενθέματος μεταξύ των pairedend reads για το φάκελο SRR330441_uniql_uniq2_hgl9.Pic7.bam. 75

Insert Size Histogram for AII_Reads 0 in file SRR330441_uniq1_uniq2_hg19.Pic7.bam o Εικ.51: Ιστόγραμμα απεικόνισης του μεγέθους εισαγωγής των reads Βήκα 7ο: Επαναβαθμολόγιση m e ποιότητας (O-score) των βάσεων Κατεβάσαμε από τη βάση δεδομένων NCBI το αρχείο με τους ανθρώπινους πολυμορφισμούς SNPs σε μορφή VCF: ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human 9606/VCF/ Το αρχείο με όνομα common_all.vcf, έχει το όνομα των χρωμοσωμάτων μόνο με αριθμούς, ενώ το αρχείο hgl9.fa ως, chrl, chrm. 76

Χ ρ η σ ιμ ο π ο ιή σ α μ ε ένα p e rl sc rip t γ ια τη ν μ ε τ ο ν ο μ α σ ία το υ V C F α ρ χ ε ίο υ. Επαναβαθιιολόγιση ποιότητα(; Οι εντολές που εκτελέστηκαν ήταν: java -Xmx4g -jar GenomeAnalysisTK.jar -T BaseRecalibrator -I SRR330441_uniql_uniq2_hgl9.Pic7.bam -R hgl9.fa -knownsites corrected_names_common_all_dbsnpl37.vcf -o recal_data_srr330441.grp (Διάρκεια: 4h) java -jar GenomeAnalysisTK.jar \ -T PrintReads \ -R hgl9.fa \ -I SRR330441_uniql_uniq2_hgl9.Pic7.bam \ -BQSR recal_data_srr330441.grp \ -o SRR330441_uniql_uniq2_hgl9.Pic8.bam (Διάρκεια: 55 min) Biiua 8 : Ανίγνευσιι των SNPs & ωιλτράρισαα us το πρόγραιιιια GATK Η εντολή που δόθηκε ήταν η εξής : java -Xmx4g -jar GenomeAnalysisTK.jar -glm BOTH -R hgl9.fa -T UnifiedGenotyper -I SRR33 0441 _uniq 1 _uniq2_hg 19.Pic8.bam -o snps.srr330441_uniql_uniq2_hgl9.pic8.vcf -metrics snps.metrics -stand_call_conf 50.0 -stand_emit_conf 10.0 -dcov 1000 -A DepthOfCoverage -A AlleleBalance 77

(Δ ιά ρ κ εια : 6h) Στη συνέχεια έγινε φιλτράρισμα των SNPs: java -Xmx4g -jar GenomeAnalysisTK.jar -R hgl9.fa -T VariantFiltration variant snps. SRR3 30441 _uniq 1 _uniq2_hg 19.Pic8. vcf -o snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.vcf clusterwindowsize 10 filterexpression "MQO >= 4 && ((MQO / (1.0 * DP)) > 0.1)" filtername "HARD TO VALIDATE" filterexpression "DP < 5 " filtername "LowCoverage" filterexpression "QUAL < 30.0 " filtername "VeryLowQual" filterexpression "QUAL > 30.0 && QUAL < 50.0 " filtername "LowQual" filterexpression "QD < 1.5 " -filtername "LowQD" (Διάρκεια: 30sec) Bfina 9o: Λειτουργικός σγολιασικκ των SNPs ιιε τη γρτίστι του προνοάιηιατος Annovar Μετατροπή του αρχείου SRR330441_uniql_uniq2_hgl9.Pic8.vcf σε μοφή του annovar../convert2annovar.pl -format vcf4 snps. filtered. S RR3 30441_uniq 1 _uniq2_hg 19.Pic8.vcf> snps.filtered. S RR330441 _uniq 1 _uniq2_hg 19. Pi c8. annovar (Διάρκεια: λίγα δευτερόλεπτα) Στην συνέχεια κατεβάσαμε βάσεις δεδομένων για το annovar../annotate variation.pl -buildver hgl9 -downdb refgene humandb/./annotate_variation.pl -buildver hgl9 -downdb phastconselements46way humandb/./annotate_variation.pl -buildver hgl 9 -downdb genomicsuperdups humandb/./annotate_variation.pl -buildver hgl9 -downdb snpl37 -webfrom annovar humandb/./annotate variation.pl -buildver hgl 9 -downdb avsiff -webfrom annovar humandb/./annotate_variation.pl -buildver hgl 9 -downdb ljb all -webfrom annovar humandb/ 78

./annotate variation.pl -buildver hgl9 -downdb 1000g2012apr-webfrom annovar humandb/./annotate_variation.pl -buildver hgl 9 -downdb esp6500_all -webfrom annovar humandb/./summarize_annovar.pl -out snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.annovar.annotated -buildver h g l9 - verdbsnp 137 -verlooog 1000g2012apr -veresp 6500 -remove -alltranscript snps.filtered.srr330441_uniql_uniq2_hgl 9.Pic8.annovar humand Τα αρχεία που εξήχθησαν ήταν τα ακόλουθα: snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.annovar.annotated.hgl9_all.sites.2012_04_filtered snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.annovar.annotated.hgl9_avsift _filtered snps. filtered. SRR3 3 0441_uniq 1 _uniq2_hg 19.Pic8. annovar. annotated.hg 19_esp6500_ all_ filtered snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.annovar.annotated.hgl9_ljb_all_fil tered snps.filtered. SRR33 0441 _uniq 1 _uniq2_hgl 9.Pic8.annovar. annotated.hg 19_snp 137_ filtered snps. filtered. S RR3 30441 _uniq 1 _uniq2_hg 19.Pic8. annovar. annotated. exome_summar y snps. filtered. SRR3 30441 _uniq 1 _uniq2_hgl 9.Pic8.annovar. annotated.genome_summa ry Τα αρχεία αυτά περιέχουν πληροφορίες των πολυμορφισμών που ανιχνεύθηκαν κατά την ανάλυση όπως το όνομα των SNPs, τη θέση, την ομοζυγωτία ή ετεροζυγωτία των αλληλομόρφων κ.τ.λ. 79

Βίηια 10ο: Πρόβλενι/n φαινοτύπου ιιε τη γρτίστι του προγράμματος Promethease Η επεξήγηση των SNPs έγινε με τη χρήση του προγράμματος Promethease. Αρχικά τροποποιήσαμε το παρακάτω αρχείο, snps.filtered.srr330441_uniql_uniq2_hgl9.pic8.annovar.annotated.exome_summar y (μορφή.csv), στην απαιτούμενη μορφή του Promethease (.txt μορφή). Κατόπιν, εισάγαμε το αρχείο στο Promethease και πήραμε πληροφορίες (πιν.3) για τους πολυμορφισμούς των δεδομένων μας, σε σχέση με το πώς από αυτά μπορεί να επιδράσουν στον φαινότυπο. Αποτελέσματα σγολιασμού των πολυμορφισμών (πιν.3) Πολυμορφισμός (SNP) Σ ημ ασία Κατάσταση Συχνότητα Πληθυσμού Περιγραφή rs307377(c;t ) 4.0 Good None Επιπλέον δυνατότητα στη γεύση, σπάνιο Τ αλληλόμορφο προσδίδει καλύτερη ανίχνευση γεύσης umami gsl91 3.1 Bad Μειωμένος μεταβολισμός σε μη στεροειδή αντιφλεγμονώόη φάρμακα, όπου προκαλείται παράγοντας κινδύνου για γαστρεντερική αιμορραγία με λήψη των παρακάτω φαρμάκων: ακεκλοφενάκη, σελεκοξίμπη. δικλοφενάκη, ιβουπροφαίνη, indomethazine, λορνοξικάμη, μελοξικάμη, ναπροξένη, η πιροξικαμη, τενοξικόμη και valdecoxib Ετερόζυγωτία σε 3 SNPs που είναι γνωστό ότι επηρεάζουν την αντίληψη ικανότητας στη γεύση πικρότητας.τα 3 SNPs είναι rs 1024693 9. rs 1726866, rs713598 στο γονίδιο TAS2R38 gsl61 2.5 CYP2C9, ενδιάμεσοι μεταβολιστές αποτελούν 80

το 30% του πληθυσμού. Μπορούν να απαιτούν ελαφρά διαφορετικές δοσολογίες για φάρμακα όπως ταμοξιφένη, βαρφαρίνη, fluvastm, και πολλά μη στεροειδή αντιφλεγμονώόη όπως είναι η ασπιρίνη, η ιβουπροφαίνη και η ναπροξέιη. rsl6969968(a;g) 2.5 Bad 45.1% Ελαφρώς υψηλότερο κίνδυνο για την εξάρτηση από τη νικοτίνη, χαμηλότερο κίνδυνο για την εξάρτηση από την κοκαΐνη rs5888(c;t) 2.5 Bad 53.6% 3χ υψηλότερο κίνδυνο για την ηλικιοεξαρτώμε\τ εκφύλιση της ωχράς κηλίδας rsl2252(c;t) 2.5 Bad None Μειωμένη ανθεκτικότητσ στη γρίπη rs3743930(c;g) 2.5 Bad None Κανένας φορέας οικογενούς μεσογειακού πυρετού rs6265(a;g) 2.4 33.6% Διαταραχή κινητικών δεξιοτήτων μάθησης. Κίνδυνος νοσου του Alzheimer για μη ΑροΕ4 μεταφορείς, επηρεάζεται από την ετερόζυγη μορφή rs6265. rs6025(a;g) 2.3 Bad 2.7% Επιρρεπής σε θρόμβωση rs4149056(c;t) 2.1 Bad 28.3% Μειωμένη απόκριση ορισμένων φαρμάκων 5χ αυξημένος κίνδυνος μυοπάθειας για χρήστες στατινών rsl052133(c;g) 2.1 Bad 28.6% Φυσιολογικό για τον κίνδυνο καρκίνου της ουροδόχου κύστης 1 9 \ αυξημένο κίνδυνο για καρκίνο της χοληδόχου κύστης rsl815739(c;t) 2.1 58.4% Μειωμένοι μυς gs239 2.0 Bad Γυναίκες που φέρουν τουλάχιστον ένα Γ σε SNPs rs7501331 και rs 12934922 παρουσιάζουν 69% χαμηλότερη ικανότητα να μετατροπής της βήτα-καροτινης σε ρετινόλη rs283413(g;t) 2.0 0.9% 3χ υψηλότερο κίνδυνο εκδήλωσης νόσου 81

Πάρκινσον rs2476601(a;g) 2.0 Bad 21.6% 2.5x κίνδυνο για διαβήτη τόπου 1, RA. νόσος Addison (είναι αρκετά σπάνια διότι φαίνεται να παρέχει ευαισθησία για τέσσερις διαφορετικές αυτοάνοσες διαταραχές) 1 5χ κίνδυνο για τη ρευματοειδή αρθρίτιδα 1,5\ κίνδυνο για ΣΕ A 1.8χ κίνδυνο για θυρεοειδίτιδα Hashimoto rsll36287(c;t) 20 Bad 36.3% 1 5χ αυξημένο κίνδυνο εκφύλιση της ωχράς κηλίδας rsl676486(a;g) 2.0 37.3% 1 4χ κίνδυνο για την LDH rs2298566(a;c) 2.0 42.5% Αυξημένο κίνδυνο στεφανιαίας νόσου rsl051730(c;t) 2.0 Bad 45.1% 1.3 φορές αυξημένο κίνδυνο καρκίνου του πνεύμονα rs2274223(a;g) 2.0 Bad 49.6% 0,5χ αυξημένο κίνδυνο για καρκίνο του στομάχου και του οισοφάγου (εμφανίζονται σε Κινέζους Han) rsl7576(a;g) 2.0 51.3% Υψηλότερο κίνδυνο για έμφραγμα του μυοκαρδίου, καρκίνο του πνεύμονα, και χρονιά αποφρακτική πνευμονοπάθεια στους καπνιστές rsl050152(c;t) 2.0 Bad 57.5% 2.1 χ αυξημένο κίνδυνο της νόσου του Crohn rsl061170(c;t) 2.0 Bad 58.3% 2 5x κίνδυνο για την AMD υψηλότερη θνησιμότητα μεταξύ των' nonagenarians rs6152(a;g) 2.0 None Για άνδρα,αποτροπή εμφάνιση φαλάκρα διότι η μητέρα μεταφέρει ένα αντίγραφο του χρωμοσοδματος X SNP rs5400(c;t) 1.7 19.1% Σημαντικά υψηλότερη κατανάλωση γλυκόζης rsll523871(a;c) 1.6 49.2% 1 6χ αυξημένο κίνδυνο καρκίνου του μαστού για τις γυναίκες άνω των' 60 ετών' rs3764880(a;g) 1.5 13.8% Πιθανόν 1,2-1,8χ αυξημένη ευαισθησία για φυματίωση στις γυναίκες rs6746030(a;g) 1.5 22.1% Αυτό το SNP φαίνεται να 82

επηρεάζει την αντίληψη του πόνου rs2464196(c;t) 1.5 45.5% ~ 1 5x αυξημένο κίνδυνο καρκίνου του πνεύμονα rs2241880(c;t) 1.5 Bad 56.2% 1.4χ αυξημένο κίνδυνο για νόσο του Crohn σε Καυκάσιους rs5219(c;t) 1.5 None 1,3 φορές αυξημένο κίνδυνο για διαβητη τύπου 2 rsl799782(c;t) 1.3 11.7% 1,3 φορές αυξημένο κίνδυνο για καρκίνο της στοματικής κοιλότητας μεταξύ των Ασιατών rsl042713(a;g) 1.3 46.9% 1,3 φορές αυξημένο κίνδυνο επιδείνωσης του άσθματος με χρήση συσκευών για εισπνοές κατα την παιδική ηλικία rs2549782(g;t) 1.3 48.2% 1,3 χ αυξημένο κίνδυνο για προεκλαμψία στους περισσότερους πληθυσμούς. Σημείωση ότι αυτό είναι σχετικό με το εμβρυϊκό γονότυπο και όχι με το μητρικό gsl84 1.2 Good Φυσιολογική ικανότητα γεύση σε πικρό rs9306160(c;t) 1.2 47.7% 0,75 \ (μειωμένος) κίνδυνος για μετάσταση σε LN-/ER + ασθενείς με καρκίνο του μαστού rsl229984(a;g) None 0.0% 0 56χ μειωμένο κίνδυνο καρκίνου του στόματος / λάρυγγα rs2230201(a;g) None 0.0% 1.4χ κίνδυνο του λύκου rs2232165(c;t) None 4.6% Αυξημένο κίνδυνο για βαριά κατανάλωση αλκοόλ rs7951(c;t) None 4.7% 1.4χ κίνδυνο του λύκου rs2250889(c;g) None 9.2% 1.46χ υψηλότερο κίνδυνο για καρκίνο του πνεύμονα rs867186(a;g) None 17.7% EPCR Η3 απλύτυπος. Μειώνει ή αυξάνει τον κίνδυνο φλεβικής θρομβοεμβολής rsl799853(c;t) None 19.0% CYP2C9 * 2 μεταφορέας, κατά μέσο όρο 20% μείωση στο μεταβολισμό της βαρφαρίνης rsll631797(a;g) None 23.1% Συνήθως καφέ χρώμα ματιών rsl40504(a;g) None 24.8% 1 4χ αυξημένο κίνδυνο για διπολική διαταραχή rs2515641(c;t) None 25.7% 83

rs2273535(a;t) None 26.2% Υψηλό κίνδυνο καρκίνου rs2653349(a;g) None 27.7% ~ 1.5x αυξημένο κίνδυνο για πονοκεφάλους rsl042714(c;g) None 30 8% rs523349(c;g) None 32.3% Αυξημένο κίνδυνο καρκίνου των ωοθηκών rs324420(a;c) None 32.7% Φυσιολογικό rs6897932(c;t) None 32.7% 1,3χ αυξημένο κίνδυνο για σκλήρυνση κατά πλάκας rs4961(g;t) None 33.6% 1 8χ αυξημένο κίνδυνο για υψηλή πίεση του αίματος rs6971091(a;g) None 354% 2χ αυξημένο κίνδυνο για οικογενειακή παχυσαρκία rsl801253(c;g) None 36.9% Εξαρτάται από το rsl 801252 i rsl6890979(c;t) None 38.2% 1.7x κίνδυνο ουρικής αρθρίτιδας rs27044(c;g) None 38.5% 1 4χ μεγαλύτερο κίνδυνο για σπονδυλίτιδα rs2074190(c;t) None 38.9% 2.2Χ κίνδυνο για ΑΙΑ rsl012729(a;g) None 39.8% Μεταβολή αρτηριακής πίεσης σε παιδιά rs8192678(a;g) None 39.8% Υψηλότερη αρτηριακή πίεση r$2304256(a;c) None 41.1% 1 6χ αυξημένο κίνδυνο για SLE f rs2287622(c;t) None 42.0% 1.7χ μεγαλύτερο κίνδυνο για ενδοηπατική χολόσταση της κύησης rs2470890(c;t) None 42.9% rs30187(c;t) None 44.2% 1.4χ μεγαλύτερο κίνδυνο για σπονδυλίτιδα rs669(a;g) None 44.6% Ενδεχόμενη άυξηση κινδύνου για Αλτσχάιμερ rsll48259(g;t) None 45.1% Ενδιάμεση αναλογία σφιγγομυελίνης rsl801274(c;t) None 45.1% Περίπλοκο, γενικά μεγαλύτερος κίνδυνος για την πρόοδο του καρκίνου rs2270968(a;c) None 45.5% rs3184504(c;t) None 45.5% Αυξημένος κίνδυνος για celiac ασθένεια rs4633(c;t) None 45.9% Υψηλός κίνδυνος για καρκίνο του ενδομήτριου rs4680(a;g) None 46.0% rsll31532(c;t) None 46.8% Φυσιολογικό rsl049550(c;t) None 46.9% 0.62χ μειωμένο κίνδυνο για σαρκοείδωση rs3900940(c;t) None 46.9% Αυξημένος κίνδυνος στεφανιαίας νόσου. Καλύτερη ανταπόκριση στις στατίνες r$438034(c;t) None 46.9% Σε περιπτώσεις καρκίνου του μαστού μικρό 84

ποσοστό επιβίωσης των ασθενών rs602662(a;g) None 46.9% rs662(a;g) None 46.9% 0.65x μικρότερος κίνδυνος του καρκίνου των ωοθηκών. Υψηλότερος κίνδυνος στεφανιαίας νόσου, σε ορισμένες μελέτες rs855791(c;t) None 46.9% 0,1 g / dl χαμηλότερη αιμοσφαιρίνη κατά μέσο όρο rsl800860(a;g) None 48.2% 10% μικρότερα νεφρά ως νεογνό rsl2934922(a;t) 1.0 49.2% Μειωμένη μετατροπή της βήτα-καροτίνης σε ρετινόλη rs7501331(c;t) 1.0 49.5% Μειωμένη μετατροπή της βήτα-καροτίνης σε ρετινόλη rs25487(a;g) None 50.0% 2χ υψηλότερος κίνδυνος για καρκίνο του δέρματος rs3740066(a;g) None 50.8% 1 6χ κίνδυνος για ICP rs2305480(c;t) None 51.3% Φυσιολογικό rsl3181(g;t) None 52.2% 1.12χ αυξημένος κίνδυνος για καρκίνο του δέρματος rs6313(c;t) None 52.2% Υψηλός κίνδυνος για RA rs693(c;t) None 52.2% Αυξημένα λιπίδια rsl799983(g;t) None 53.8% Αυξημένος κίνδυνος προεκλαμψίας rs2227928(c;t) None 57.5% Μειωμένη απόκριση σε καρκίνο του παγκρέατος rs6277(c;t) None 587% 1.4χ υψηλότερος κίνδυνος σχιζοφρένειας rsl2150220(a;t) None 59.5% Ελαφρώς αυξημένος κίνδυνος για διάφορες αυτοάνοσες νόσους rsll43674(a;g) None None 1,3 φορές αυξημένος κίνδυνος για αυτισμό rs396991(g;t) None None Περίπλοκο,γενικά μεγαλύτερο κίνδυνο για καρκίνο rs4894(a;c) None None 1.78χ αυξημένος κίνδυνος για σχιζοφρένεια στους άνδρες rs5020278(a;g) None None Γεύση σε γλυκό% 22 % 22 όσφρηση rs5092(a;g) None None Μικρή πιθανότητα αύξησης βάρους με πρόσληψη ολανζαπίνης rs854560(a;t) None None Υψηλότερος κίνδυνος για καρδιακή νόσο και διαβητική αμφιβληστροειδοπά θεία rsl048661(g;t) 0.5 None None Ενδεχομένως υψηλότερος 85

κίνδυνος γλαυκώματος rs601338(a;g) 0.1 Bad 45.5% Ευπαθής σε λοιμώξεις Noro virus rsl726866(c;t) 0.1 46 9% Ανίχνευση πικρής γεύσης rsl0246939(c;t) 0.1 47.8% Ανίχνευση πικρής γεύσης rs713598(c;g) 0.1 51.6% Ανίχνευση πικρής γεύσης rsl2021720(c;t) 0.05 17.7% Ασθένεια ούρων Maple Syrup, αλλά φαίνεται ακίνδυνη rsll26809(a;g) 0.0 Good 33.8% Μικρή αύξηση του κινδύνου καρκίνου του δέρματος rs688(c;t) 0.0 44.2% Φυσιολογικό κίνδυνο για Αλτσχάιμερ.Στις γυναίκες υψηλότερα επίπεδα ολικής και LDL χοληστερόλης rsl802710(c;t) 0.0 Good 46.0% Κοινό στο ολοκλ.γονιδίωμα rsl800858(a;g) 0.0 48.7% Πιθανώς φυσιολογικό rs272879(c;g) 0.0 Good 50 8% Κοινό στο ολοκλ.γονιδίωμα rs272893(a;g) 0.0 Good 52.2% Κοινό στο ολοκλ.γονιδίωμα rs509749(a;g) 0.0 56.6% Κοινό, ελαφρά αύξηση του κινδύνου στους ΣΕΛ rsl800974(a;g) 0.0 Good 57.8% Κοινό στο ολοκλ.γονιδίωμα 86