ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΠΙΣΤΗΜΩΝ ΖΩΗΣ. ταξινόμηση μικρών μη κωδικών μορίων RNA

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΠΙΣΤΗΜΩΝ ΖΩΗΣ. ταξινόμηση μικρών μη κωδικών μορίων RNA"

Transcript

1 ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΠΙΣΤΗΜΩΝ ΖΩΗΣ Σχεδιασμός και υλοποίηση ευφυούς αλγοριθμικής τεχνικής για την ταξινόμηση μικρών μη κωδικών μορίων RNA ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΛΕΟΝΤΗ ΙΑΝΘΗ - ΑΓΓΕΛΙΚΗ Επιβλέπων: Λυκοθανάσης Σπυρίδων Καθηγητής Τμήματος Μηχανικών Η/Υ & Πληροφορικής Πάτρα, Ιανουάριος 2018

2 Περίληψη Σκοπός της παρούσας διπλωματικής είναι η μελέτη, η ανάλυση και η σύγκριση μεθοδολογιών ανάλυσης γονιδιακής έκφρασης με χρήση τεχνικών αλληλούχησης RNA και η αξιολόγησή τους στην ταυτοποίηση και την ποσοτικοποίηση μη κωδικών μορίων RNA. Τα μη κωδικά μόρια RNA ορίζονται ως ακολουθίες οι οποίες μεταγράφονται από DNA και είναι λειτουργικές σαν RNA σε αντίθεση με τις ακολουθίες mrna που παράγουν πρωτεΐνες. Τις τελευταίες δύο δεκαετίες η έρευνα στον τομέα των Βιοεπιστημών έχει δείξει ότι στα μη κωδικά μόρια RNA αποδίδονται όλο και περισσότερες σημαντικές ρυθμιστικές λειτουργίες. Για παράδειγμα έχει βρεθεί ότι συμμετέχουν στην ομαλή λειτουργία διαφόρων κυτταρικών διεργασιών αλλά και σε περιπτώσεις ασθενειών όπως ο καρκίνος έχει παρατηρηθεί ότι το προφίλ έκφρασης αυτών των μορίων είναι διαταραγμένο. Συνεπώς, η μελέτη τους και ο αποδοτικός εντοπισμός τους είναι ένα ανοιχτό ερευνητικό ζήτημα Βιοπληροφορικής και αρκετές μέθοδοι Υπολογιστικής Νοημοσύνης μπορούν να εφαρμοστούν. Από τη δεκαετία του 1990 αναπτύχθηκαν αρκετές νέες μέθοδοι για την αλληλούχηση του DNA όπου εφαρμόζονται μέχρι και σήμερα αποκαλούμενες ως μέθοδοι αλληλουχίας "επόμενης γενιάς" (NGS). Σ αυτές βασίζεται τα τελευταία χρόνια η RNA-seq μεθοδολογία ταυτοποίησης RNA, η οποία αντικαθιστά τις μικροσυστοιχίες για τη μελέτη της γονιδιακής έκφρασης επιτρέποντας υψηλής ανάλυσης διερεύνηση όλων των RNAs που υπάρχουν σε ένα δείγμα, χαρακτηρίζοντας τις αλληλουχίες τους και ποσοτικοποιώντας τις αφθονίες τους ταυτόχρονα. Στα πλαίσια της παρούσας διπλωματικής εργασίας υλοποιήθηκαν οι πιο διαδεδομένες μεθοδολογίες υπολογιστικής ανάλυσης δεδομένων αλληλούχησης ακολουθιών RNA και πραγματοποιήθηκε συγκριτική αξιολόγησή τους με χρήση τριών διαφορετικών συνόλων δεδομένων. Επίσης, υλοποιήθηκε και αξιολογήθηκε μεθοδολογία ανάλυσης ακολουθιών RNA με σκοπό την ταξινόμησή τους στις διάφορες υποκατηγορίες μη κωδικών μορίων RNA. H RNA-seq είναι η πιο συνηθισμένη μέθοδος μεταγραφωμικής ανάλυσης, αλλά η τεχνολογία και τα εργαλεία συνεχίζουν να εξελίσσονται. Αξίζει να σημειωθεί ότι η συμφωνία μεταξύ των αποτελεσμάτων που λαμβάνονται από τα διαφορετικά εργαλεία εξακολουθεί να μην είναι ικανοποιητική και ότι τα αποτελέσματα επηρεάζονται από τις ρυθμίσεις των παραμέτρων. Τα αποτελέσματα των τεσσάρων, επιλεγμένων στην εργασία, μεθοδολογιών ταξινόμησης ακολουθιών αποδεικνύουν πώς κάποιο μπορεί να ξεχωρίζει για την ταχύτητα του και τα ποσοστά χαρτογραφημένων reads αλλά κάποιο μπορεί να αναγνωρίζει περισσότερα σε μεγαλύτερο χρόνο. 2

3 Περιεχόμενα Ευρετήριο Εικόνων... 4 Ευρετήριο Πινάκων... 7 Ευρετήριο Γραφημάτων... 8 Βασικές Έννοιες Κεφάλαιο Πρώτο: Εισαγωγή Μικροσυστοιχίες γονιδίων Μέτρηση γονιδιακής έκφρασης Ανάλυση της τεχνολογίας των Μικροσυστοιχιών Η Τεχνολογία Μικροσυστοιχιών γονιδίου Εφαρμογές στην Βιοϊατρική έρευνα Το μέλλον των μικροσυστοιχιών RNA-seq: μια πρωτοπόρα τεχνική ανάλυσης γονιδιακής έκφρασης Το πλαίσιο της RNA-seq Πειραματικός σχεδιασμός Ανάλυση RNA-seq δεδομένων RNA-seq Vs Microarrays Κεφάλαιο Δεύτερο: Εργαλεία Ανάλυσης δεδομένων αλληλούχησης RNA Γενικά εργαλεία ανάλυσης δεδομένων αλληλούχησης RNA Εργαλεία ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNAs Πρόσφατοι αλγόριθμοι ανάλυσης δεδομένων μικρών μη κωδικών μορίων Βάσεις δεδομένων για ακολουθίες μικρών μη-κωδικών μορίων RNA στον άνθρωπο Κεφάλαιο Τρίτο: Κώδικας και διαδικασία εγκατάστασης βέλτιστης μεθοδολογίας ανάλυσης δεδομένων αλληλούχισης μικρών μη κωδικών μορίων RNA STAR GALAXY Κεφάλαιο Τέταρτο: Μεθοδολογίες ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNA Προτεινόμενη από το Galaxy και το STAR μεθοδολογία Galaxy με ταίριασμα ακολουθιών πρώτα στη mirbase και έπειτα στο μεταγράφωμα Galaxy με ταίριασμα ακολουθιών πρώτα στο μεταγράφωμα και έπειτα στη mirbase Κεφάλαιο Πέμπτο: Πειραματική αξιολόγηση διάφορων μεθοδολογιών ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNA Περιγραφή Δεδομένων Πειραματικά αποτελέσματα Κεφάλαιο Έκτο: Συμπεράσματα Κεφάλαιο Έβδομο: Αναφορές

4 Ευρετήριο Εικόνων Εικόνα 1: Τα πέντε στάδια της διαδικασίας μέτρησης της γονιδιακής έκφρασης Εικόνα 2: Σύστημα Μικροσυστοιχιών μονού και διπλού δείγματος Εικόνα 3: Gene Expression Microarray Assay Εικόνα 4: Οδηγός της RNA-seq διαδικασίας βάσει Illumina Εικόνα 5: Στρατηγικές χαρτογράφησης Read και ταυτοποίησης Μεταγράφου Εικόνα 6: Απεικόνιση πολλαπλών RNA- seq δειγμάτων Εικόνα 7: Οπτικοποίηση σύγκρισης σημάτων σε πολλαπλά δείγματα Εικόνα 8: Χάρτης θερμότητας Εικόνα 9: Απεικόνιση junctions Εικόνα 10: Στρατηγική ανίχνευσης mirna των εργαλειών mirdeep, mirdeep2 and mirdeep* Εικόνα 11: Ροή εργασίας miarma-seq pipeline Εικόνα 12: Mέθοδοι μεταγραφικής αλληλούχησης και συναρμολόγησης Εικόνα 13: Εξυπηρετητής Galaxy Εικόνα 14: Κεντρική σελίδα τοπικού Galaxy Εικόνα 15: Δικαίωμα διαχειριστή Εικόνα 16: Εγκατάσταση Εργαλείων (Galaxy) Εικόνα 17: Search Tool Shed (Galaxy) Εικόνα 18: Local Data (Galaxy) Εικόνα 19: Aρχείo fasta_indexes.loc Εικόνα 20: Αρχεία tool_data_table_conf.xml Εικόνα 21: Προετοιμασία Galaxy σύνολα δεδομένων Εικόνα 22: Πρώτος Ποιοτικός Έλεγχος (rawdatarep3) Εικόνα 23: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (rawdatarep3) Εικόνα 24: Μετατροπή FASTQ μορφή (rawdatarep3) Εικόνα 25: Δεύτερος Ποιοτικός Έλεγχος (rawdatarep3) Εικόνα 26: Αποτέλεσμα δεύτερου Ποιοτικού Ελέγχου (rawdatarep3) Εικόνα 27: Trimming Adapters & Bases (rawdatarep3) Εικόνα 28: Τελικός Ποιοτικός Έλεγχος (rawdatarep3)

5 Εικόνα 29: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (rawdatarep3) Εικόνα 30: Απόκτηση Gene Model Annotation Εικόνα 31: Χαρτογράφηση Tophat (rawdatarep3) Εικόνα 32: Αποτελέσματα Χαρτογράφησης Tophat (rawdatarep3) Εικόνα 33: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy3) Εικόνα 34: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy3) Εικόνα 35: Πλήρη αποτελέσματα στατιστικών συνόλων χαρτογράφησης (Galaxy3) Εικόνα 36: Αποτελέσματα SJ.out.tab (Galaxy3) Εικόνα 37: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy3) Εικόνα 38: Απεικόνιση αποτελεσμάτων STAR (Galaxy3) Εικόνα 39: Απεικόνιση αποτελέσματος Cold Spring Harbor Lab Εικόνα 40: Πρώτος Ποιοτικός Έλεγχος (rawdatarep4) Εικόνα 41: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (rawdatarep4) Εικόνα 42: Μετατροπή FASTQ μορφή (rawdatarep4) Εικόνα 43: Δεύτερος Ποιοτικός Έλεγχος (rawdatarep4) Εικόνα 44: Αποτέλεσμα δεύτερου Ποιοτικού Ελέγχου (rawdatarep4) Εικόνα 45: Trimming Adapters & Bases (rawdatarep4) Εικόνα 46: Τελικός Ποιοτικός Έλεγχος (rawdatarep4) Εικόνα 47: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (rawdatarep4) Εικόνα 48: Απόκτηση Gene Model Annotation Εικόνα 49: Χαρτογράφηση Tophat (rawdatarep4) Εικόνα 50: Αποτελέσματα Χαρτογράφησης Tophat (rawdatarep4) Εικόνα 51: Cufflinks (rawdatarep4) Εικόνα 52: Cufflinks (rawdatarep3) Εικόνα 53: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy4) Εικόνα 54: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy4) Εικόνα 55: Πλήρη αποτελέσματα στατιστικών συνόλων χαρτογράφησης (Galaxy4) Εικόνα 56: Αποτελέσματα SJ.out.tab (Galaxy4) Εικόνα 57: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy4) Εικόνα 58: Απεικόνιση αποτελεσμάτων STAR (Galaxy4) Εικόνα 59: Απεικόνιση αποτελέσματος Cold Spring Harbor Lab Εικόνα 60: Πρώτος Ποιοτικός Έλεγχος (raw_data_all)

6 Εικόνα 61: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (raw_data_all) Εικόνα 62: Μετατροπή FASTQ μορφή (raw_data_all) Εικόνα 63: Δεύτερος Ποιοτικός Έλεγχος (raw_data_all) Εικόνα 64: Trimming Adapters & Bases (raw_data_all) Εικόνα 65: Τελικός Ποιοτικός Έλεγχος (raw_data_all) Εικόνα 66: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (raw_data_all) Εικόνα 67: Απόκτηση Gene Model Annotation Εικόνα 68: Χαρτογράφηση Tophat (raw_data_all) Εικόνα 69: Αποτελέσματα Χαρτογράφησης Tophat (raw_data_all) Εικόνα 70: Cufflinks (raw_data_all) Εικόνα 71: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy_all) Εικόνα 72: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy_all) Εικόνα 73: Πλήρη αποτελέσματα στατιστικών σύνολων χαρτογράφησης (Galaxy_all) Εικόνα 74: Αποτελέσματα SJ.out.tab (Galaxy_all) Εικόνα 75: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy_all) Εικόνα 76: Απεικόνιση αποτελεσμάτων STAR (Galaxy_all) Εικόνα 77: Χαρτογράφηση στην mirbase (rawdatarep3) Εικόνα 78: Idxstats (rawdatarep3) Εικόνα 79: Χαρτογράφηση στο Reference Genome (rawdatarep3) Εικόνα 80: Ηtseq-count (rawdatarep3) Εικόνα 81: Αποτελέσματα χαρτογραφήσεων (rawdatarep3) Εικόνα 82: Χαρτογράφηση στην mirbase (rawdatarep4) Εικόνα 83: Idxstats (rawdatarep4) Εικόνα 84: Χαρτογράφηση στο Reference Genome (rawdatarep4) Εικόνα 85: Ηtseq-count (rawdatarep4) Εικόνα 86: Αποτελέσματα χαρτογραφήσεων (rawdatarep4) Εικόνα 87: Χαρτογράφηση στην mirbase (raw_data_all) Εικόνα 88: Idxstats (raw_data_all) Εικόνα 89: Χαρτογράφηση στο Reference Genome (raw_data_all) Εικόνα 90: Ηtseq-count (raw_data_all) Εικόνα 91: Αποτελέσματα χαρτογραφήσεων (raw_data_all) Εικόνα 92: Χαρτογράφηση στο Reference Genome (rawdatarep3)

7 Εικόνα 93: Ηtseq-count (rawdatarep3) Εικόνα 94: Χαρτογράφηση στην mirbase (rawdatarep3) Εικόνα 95: Idxstats (rawdatarep3) Εικόνα 96: Αποτελέσματα χαρτογραφήσεων (rawdatarep3) Εικόνα 97: Χαρτογράφηση στο Reference Genome (rawdatarep4) Εικόνα 98: Ηtseq-count (rawdatarep4) Εικόνα 99: Χαρτογράφηση στη mirbase (rawdatarep4) Εικόνα 100: Idxstats (rawdatarep4) Εικόνα 101: Αποτελέσματα χαρτογραφήσεων (rawdatarep4) Εικόνα 102: Χαρτογράφηση στο Reference Genome (raw_data_all) Εικόνα 103: Ηtseq-count (raw_data_all) Εικόνα 104: Χαρτογράφηση στην mirbase (raw_data_all) Εικόνα 105: Idxstats (raw_data_all) Εικόνα 106: Αποτελέσματα χαρτογραφήσεων (raw_data_all) Εικόνα 107: Επιλεγμένα δεδομένα εργασίας Ευρετήριο Πινάκων Πίνακας 1: Στατιστική ισχύς για τη διερεύνηση της διαφορικής έκφρασης που ποικίλει ανάλογα με το effect sizes και τον αριθμό των replicates Πίνακας 2: Χαρακτηριστικά επιλεγμένων διεπαφών ανάλυσης δεδομένων αλληλούχησης RNA 49 Πίνακας 3: Κριτήρια αξιολόγησης επιλεγμένων διεπαφών Πίνακας 4: Αποτελέσματα αξιολόγησης επιλεγμένων διεπαφών Πίνακας 5: Εργαλεία για την ανάλυση δεδομένων srna-seq που επιτρέπει την πρόβλεψη και τον χαρακτηρισμό του mirna Πίνακας 6: Λογισμικά για ανίχνευση mirna από δεδομένα srna-seq data Πίνακας 7: Βάσεις srna Πίνακας 8: Εντολές εγκατάστασης STAR Πίνακας 9: Εντολές βασικής ροής εργασιών STAR Πίνακας 10: Εντολές εγκατάστασης Python Πίνακας 11: Εντολές εγκατάστασης GALAXY Πίνακας 12: Εκτέλεση Galaxy Πίνακας 13: Εντολές STAR Πίνακας 14: Εντολές STAR

8 Πίνακας 15: Υπολογιστικός χρόνος ανάλυσης (Galaxy) Πίνακας 16: Υπολογιστικός χρόνος ανάλυσης (STAR) Πίνακας 17: Υπολογιστικός χρόνος ανάλυσης (mirbase(1)) Πίνακας 18: Υπολογιστικός χρόνος ανάλυσης (mirbase(2)) Πίνακας 19: Σύνολο Μετρικών, pipeline Galaxy Πίνακας 20: Σύνολο Μετρικών, pipeline STAR Πίνακας 21: Σύνολο Μετρικών, pipeline mirbase(1) Πίνακας 22: Σύνολο Μετρικών, pipeline mirbase(2) Ευρετήριο Γραφημάτων Γράφημα 1: Ποσοστό χαρτογραφημένων reads Galaxy platform Γράφημα 2: Ποσοστό χαρτογραφημένων reads - mirbase(1) Γράφημα 3: Ποσοστό χαρτογραφημένων reads - mirbase(2) Γράφημα 4: Ποσοστό χαρτογραφημένων reads STAR aligner Γράφημα 5: Ποσοστό μοναδικά χαρτογραφημένων reads -Galaxy platform Γράφημα 6: Ποσοστό μοναδικά χαρτογραφημένων reads - mirbase(1) Γράφημα 7: Ποσοστό μοναδικά χαρτογραφημένων reads - mirbase(2) Γράφημα 8: Ποσοστό μοναδικά χαρτογραφημένων reads - STAR aligner Γράφημα 9: Συνολικός αριθμός γονιδίων με Reads 0 - Galaxy platform Γράφημα 10: Συνολικός αριθμός γονιδίων με Reads 0 - STAR aligner Γράφημα 11: Συνολικός αριθμός ανιχνευμένων mirnas - Galaxy platform Γράφημα 12: Συνολικός αριθμός ανιχνευμένων mirnas - STAR aligner Γράφημα 13: Συνολικός αριθμός ανιχνευμένων mirnas - mirbase(1) Γράφημα 14: Συνολικός αριθμός ανιχνευμένων mirnas - mirbase(2)

9 Βασικές Έννοιες cdna - complementary DNA- συμπληρωματικό DNA: είναι ένα μόριο DNA που έχει συντεθεί από ώριμο mrna, δηλαδή RNA που έχει υποστεί τις απαραίτητες αποκοπές και επεξεργασίες, ώστε να είναι έτοιμο προς μετάφραση. Transcription-μεταγραφή: Η διαδικασία κατά την οποία δημιουργείται ένα μόριο mrna, με χρήση μιας αλυσίδας του DNA (γενετικό υλικό που βρίσκεται στα κύτταρα μας) ως πρότυπου. Στην συνέχεια, με μια διαδικασία που λέγεται μετάφραση (translation) το μόριο mrna μετατρέπεται σε μία πρωτεΐνη. Οι διάφορες πρωτεΐνες αποτελούν τα δομικά υλικά των οργανισμών. Οπότε πρακτικά η "συνταγή" για το πως θα είναι ένας οργανισμός είναι γραμμένη στο DNA του (φύλο, ύψος, χρώμα, μαλλιά, κλπ.) και μέσω των διαδικασιών της μεταγραφής και της μετάφρασης (γίνονται η μια μετά την άλλη), παράγονται όλα τα υλικά όλα σε κατάλληλες ποσότητες για να χτιστούν τελικά οι οργανισμοί. Transcript-μετάγραφο: Tο προϊόν μιας διαδικασίας μεταγραφής. 9/10 φορές μιλάμε για μονάδες/μόρια mrna ενώ παράγονται σε μικρές ποσότητες και άλλοι τύποι RNA όπως το trna, χρήσιμο και αυτό στην επιβίωση των οργανισμών για άλλους λόγους. Transcriptome-μεταγράφωμα: Το σύνολο όλων των προϊόντων μεταγραφής σε όλο το κύτταρο: Όλα τα μετάγραφα μαζί κάνουν το μεταγράφωμα. SncRNAs-μικρά μη κωδικά RNAs[1]: είναι κατηγορία των short RNAs, τα οποία δεν κωδικοποιούν τις πρωτεΐνες, αλλά είναι πιο πιθανό να εκτελούν ρυθμιστικές λειτουργίες εμπλέκοντας μεταγραφικoύς στόχους μέσω αλληλεπιδράσεων συγκεκριμένης αλληλουχίας (sequence-specific). Μεταξύ αυτών, τα micrornas (mirnas) είναι μοριακά μόρια μήκους περίπου 22 nt. Το ρυθμιστικό δίκτυο και η λειτουργία των mirna βασίζονται στο γεγονός ότι περισσότερα από ένα είδη mirna μπορούν να στοχεύσουν το ίδιο mrna (συνεργατικότητα) και ότι ένα mirna μπορεί να στοχεύσει εκατοντάδες είδη mrna (πολλαπλότητα). Η δέσμευση των mirnas στην 3' αμετάφραστη περιοχή (UTR) συγκεκριμένου mrna οδηγεί είτε σε αποικοδόμηση του mrna είτε στην καταστολή της πρωτεϊνικής μετάφρασης (protein translation repression). Τα mirnas μπορούν να ρυθμιστούν σε υψηλό βαθμό τόσο σε pattern όσο και σε βαθμό έκφρασης σε πολλαπλές ζωικές ασθένειες. Στοχεύοντας εκατοντάδες γονίδια που κωδικοποιούνται από τον ξενιστή και το παθογόνο, ένα απλό mirna μπορεί να επηρεάσει τα γονιδιακά δίκτυα που είναι απαραίτητα για την ανάπτυξη και την εξέλιξη μιας ασθένειας. Αυτό, σε συνδυασμό με τον υψηλό βαθμό διατήρησής τους, κατέστησε τα mirna υποψήφια για κλινική εφαρμογή για την καταπολέμηση των παθογόνων ζωικών ιών. Όντας εξαιρετικά σταθεροί, μπορούν να χρησιμοποιηθούν ως βιοδείκτες ασθενειών. Η διαθεσιμότητα των χημικώς συντεθειμένων μιμητικών και αγωνιστών mirna και η τεχνολογία RNAi (RNAi) που βασίζεται στον φορέα, γέννησαν την ιδέα των θεραπειών με βάση το μη κωδικό RNA και κατέστησαν εφικτή τη χρήση αυτής της προσέγγισης για τη δημιουργία γενετικά τροποποιημένων ζωικών φυλών, που είναι ανθεκτικα σε ορισμένα ιογενή παθογόνα. Adapters-προσαρμογείς: Σε μια βιβλιοθήκη προσδιορισμού αλληλουχίας τα ολιγονουκλεοτίδια συνδέονται με τα 5 'και 3' άκρα κάθε τμήματος DNA. Οι προσαρμογείς 9

10 είναι συμπληρωματικοί προς τα ολιγονουκλεοτίδια που υπάρχουν στην επιφάνεια των κυττάρων ροής της αλληλούχησης της Illumina. read: H επόμενης γενιάς αλληλούχηση χρησιμοποιεί εξελιγμένα μέσα για τον προσδιορισμό της αλληλουχίας νουκλεοτιδίων ενός δείγματος DNA ή RNA. Μια αλληλουχία "read" αναφέρεται σε μια σειρά δεδομένων των βάσεων Α, Τ, C και G που αντιστοιχούν στο δείγμα DNA ή RNA. Με την τεχνολογία Illumina, εκατομμύρια reads δημιουργούνται σε ένα μονό τρέξιμο αλληλούχησης. 10

11 1. Κεφάλαιο Πρώτο: Εισαγωγή Tο κεντρικό δόγμα της μοριακής βιολογίας αντιπροσώπευε τη βάση της γενετικής[2] για πάνω από πέντε δεκαετίες, περιγράφοντας τη ροή της γενετικής πληροφορίας της ζωής. Το DNA και η πρωτεΐνη, ως αποθήκη και λειτουργική ενσάρκωση αυτών των πληροφοριών, αντίστοιχα, έχουν θεωρηθεί ως οι δύο κύριοι παράγοντες στη ζωή του κυττάρου, περιορίζοντας το RNA απλά στο ρόλο του προτύπου για τη σύνθεση των πρωτεϊνών. Παρ 'όλα αυτά, αυτή η θεωρία του βιολογικού ρόλου του RNA, όπως αρχικά υποδείχθηκε από τον Gilbert το 1986[3], έχει με την πάροδο του χρόνου υποβληθεί σε προκλήσεις καθιστώντας τη αενάως μεταβαλλόμενη. Καθώς αυξήθηκε το ενδιαφέρον για τον "κόσμο του RNA", οι επόμενες μελέτες επέτρεψαν την εξερεύνηση των δυνατοτήτων ενός τέτοιου νέου οράματος[4][5], οδηγώντας τελικά σε μία από τις σημαντικότερες βιολογικές ανακαλύψεις την τελευταία δεκαετία: την ύπαρξη διαφόρων τύπων RNAs, το καθένα με τις ειδικές λειτουργίες τους στα ευκαρυωτικά κύτταρα[6][7]. Όπως επιβεβαίωσε το έργο ENCODE 1, στην πραγματικότητα το μεγαλύτερο μέρος του ανθρώπινου γονιδιώματος μεταγράφεται, αλλά μόνο ένα πολύ μικρό τμήμα του κωδικοποιεί τις πρωτεΐνες[8][9]. Πράγματι, το μεγαλύτερο υπόλοιπο τμήμα της μεταγραφόμενης γονιδιωματικής εξόδου αντιπροσωπεύεται από μη μεταφρασμένα μετάγραφα που παίζουν σημαντικό ρόλο σε πολλές βιοχημικές κυτταρικές διεργασίες [10]. Αυτά τα μη κωδικά RNA (ncrnas) χωρίζονται σε δύο κύριες κατηγορίες σύμφωνα με το μήκος αλληλουχίας νουκλεοτιδίων τους: μικρά (small) (<200 bp) και μακρά (long) (200bp ή και περισσότερα). Σε κάθε κατηγορία, υπάρχουν διάφορες ξεχωριστές κατηγορίες, κάθε μία με τη δική της τρισδιάστατη αναδίπλωση και συγκεκριμένη λειτουργία. Από τις πιο δημοφιλείς κατηγορίες μικρών ncrnas, όπως τα transfer RNAs (trnas) και τα ριβοσωμικά RNAs (rrnas), η εστίαση έχει μετατοπιστεί τα τελευταία 10 χρόνια σε ένα σύνολο μικρών RNA κατηγοριών που εμπλέκονται στη μετα-μεταγραφική ρύθμιση: micrornas (mirnas), των οποίων οι πρόδρομοι (pre-mirnas) σχηματίζουν μια ιδιόμορφη δομή φουρκέτας, small interfering RNAs (sirnas) και piwi-interacting RNAs (pirnas). Ωστόσο, παρά το γεγονός ότι έχει περισσότερο από μία δεκαετία από τότε που αλληλουχήθηκε το ανθρώπινο γονιδιώμα, οι περισσότερες μεταγραφόμενες περιοχές εξακολουθούν να έχουν άγνωστη μοριακή λειτουργική σημασία. Προσεγγίσεις για την επίλυση αυτού του προβλήματος παρέχονται από την πρωταρχική τεχνική των μικροσυστοιχιών (microarrays) αλλά και από την ολοένα αυξανόμενη τεχνολογία high throughput sequencing (HTS), γνωστή και ως ακολουθία επόμενης γενιάς (NGS). Στην πραγματικότητα, πολλά έργα μεταγραφωμικής αλληλούχησης συσσωρεύονται με αυξανόμενη ταχύτητα, δημιουργώντας δεδομένα που καθιστούν δυνατή την ταυτοποίηση 1 Encyclopedia of DNA Elements: διεθνής συνεργασία ερευνητικών ομάδων που χρηματοδοτούνται από το Εθνικό Ινστιτούτο Ανθρώπινου Γονιδιώματος (NHGRI). Ο στόχος του είναι να δημιουργηθεί ένας πλήρης κατάλογος λειτουργικών στοιχείων για το ανθρώπινο γονιδίωμα, με στοιχεία που δρουν στα επίπεδα πρωτεΐνης και RNA καθώς και με ρυθμιστικά στοιχεία που ελέγχουν τα κύτταρα και τις περιστάσεις υπό τις οποίες ένα γονίδιο είναι ενεργό. 11

12 διαφορετικών τύπων ncrna και την ποσοτικοποίηση των επιπέδων έκφρασης σε διάφορους ιστούς, συνθήκες και αναπτυξιακά στάδια Μικροσυστοιχίες γονιδίων Οι μικροσυστοιχίες γονιδίων είναι η πλέον διαδεδομένη πειραματική τεχνική για τη μέτρηση της γονιδιακής έκφρασης. Πρώτη αναφορά σε αυτού του είδους τις τεχνικές με την μορφή που εφαρμόζεται σήμερα[11], έγινε από τον se Wen Chang[12] σε σχετική επιστημονική δημοσίευση αλλά και σε κατοχύρωση ευρεσιτεχνιών. Ως πρακτική εφαρμογή όμως, πρώτη φορά υλοποιήθηκε από τους Davis και Brown στο πανεπιστήμιο του Stanford[13] αλλά και από τον Trent στο Εθνικό Ινστιτούτο Υγείας της Αμερικής. Κύρια ιδέα αυτής της μεθόδου είναι η αποτύπωση και οργάνωση σε συστοιχίες μικροσκοπικών σημείων μοναδικών γονιδίων, ακινητοποιημένων σε μια σταθερή επιφάνεια (συνήθως γυάλινη, τσιπ σιλικόνης ή μεμβράνη από νάιλον), η οποία αναφέρεται και σα γονιδιακό ή γενωμικό τσιπ με σκοπό την υβριδοποίησή τους για τη μελέτη του DNA που βοηθάει και στην ανίχνευση παθογόνων οργανισμών Μέτρηση γονιδιακής έκφρασης Μέχρι το 2000, οι μικροσυστοιχίες του DNA είχαν αναδυθεί ως μια ισχυρή τεχνική μέτρησης των μεταγράφων (transcripts) mrna (γονιδιακή έκφραση). Έχουν χρησιμοποιηθεί περισσότερο από κάθε άλλη τεχνική ώστε, να αξιολογήσουν τις διαφορές στην αφθονία mrna σε διαφορετικά βιολογικά δείγματα. Στην επόμενη δεκαετία, αναδείχθηκε μια ακόμα πιο ισχυρή τεχνική, το RNA-seq [14][15]. Πολλοί ερευνητές θεωρούν ότι η μέθοδος RNA-seq πιθανόν να υποσκελίσει τις μικροσυστοιχίες σαν μέθοδο επιλογής της απεικόνισης της γονιδιακής έκφρασης. Και στις δύο παραπάνω περιπτώσεις η διαδικασία της μέτρησης της γονιδιακής έκφρασης διαιρείται σε πέντε στάδια (Εικόνα 1): 1. Στάδιο Σχεδιασμού 2. Στάδιο Προετοιμασίας RNA και παγίδων συμπληρωματικού DNA (Probe) 3. Στάδιο Απόκτησης Δεδομένων 4. Στάδιο Ανάλυσης Δεδομένων 5. Στάδιο Βιολογικής Επιβεβαίωσης Mε την παραπάνω διαδικασία δημιουργούνται υψηλής απόδοσης δεδομένα γονιδιακής έκφρασης. Συγκεκριμένα, στο πρώτο στάδιο επιλέγονται τα βιολογικά δείγματα για τη σύγκριση της γονιδιακής έκφρασης. Ακολούθως, στο δεύτερο στάδιο, στη περίπτωση της τεχνικής των μικροσυστοιχιών, απομονώνεται, μετατρέπεται και μαρκάρεται το RNA συχνά με φθορίζουσες χρωστικές. Στη περίπτωση της τεχνικής RNA-seq, μετατρέπεται το RNA σε cdna και αποθηκεύεται σε μια βιβλιοθήκη. Στο τρίτο στάδιο, πραγματοποιείται η ανάκτηση των δεδομένων, δηλαδή τα υβριδοποιημένα δείγματα για τις μικροσυστοιχίες, τα οποία περιέχουν σε στερεά μορφή συμπληρωματικό (complementary) DNA ή ολιγονουκλεοτίδια που αντιστοιχούν σε γνωστά γονίδια. Αντίστοιχα για τη περίπτωση του 12

13 RNA-seq, εκτελείται αλληλούχηση επόμενης γενιάς. Στο τέταρτο στάδιο εκτελείται η ανάλυση των δεδομένων. Στις μικροσυστοιχίες η έκφραση των δεδομένων αναλύεται για να ταυτοποιήσει τα διαφοροποιημένα γονίδια, χρησιμοποιώντας ανάλυση διακυμάνσεων (ANOVA) και διάγραμμα διασποράς (scatter plots) ή ομαδοποίηση γονιδίων/δειγμάτων (clustering). Για RNA-seq τα raw reads χαρτογραφούνται σε ένα αναφορικό μεταγράφωμα (reference transcriptome) (ή γονιδίωμα) και συναρμολογείται σε ορισμένες περιπτώσεις η συναρμολόγηση προηγείται της ευθυγράμμισης. Η πληθικότητα (counts) των reads χρησιμοποιείται για να εξαχθεί το σχετικό επίπεδο έκφρασης των εξονίων ή των μεταγράφων. Πάνω σε αυτά τα ευρήματα εκτελείται το στάδιο πέντε, αυτό της επιβεβαίωσης και για τις δύο περιπτώσεις. Τα αποτελέσματα (Affymetrix.cel αρχεία ή RNA-seq FASTQ και BAM αρχεία) αποθηκεύονται σε μια βάση δεδομένων ώστε έτσι να διαμοιράζονται και να εκτελούνται περαιτέρω αναλύσεις. Πηγή: [11] Εικόνα 1: Τα πέντε στάδια της διαδικασίας μέτρησης της γονιδιακής έκφρασης 13

14 Ανάλυση της τεχνολογίας των Μικροσυστοιχιών Η τεχνολογία της μικροσυστοιχίας του γονιδίου έφερε την επανάσταση στη μοριακή βιολογία. Πλέον, είναι εφικτή η ανάλυση των μικροσυστοιχιών γονιδίων DNA, μέσω της οποίας μπορεί να υπάρχει ολοκληρωμένη οπτική ολόκληρου του γονιδιώματος (genomewide screenings), με σκοπό την εξαγωγή μοριακών δεικτών ασθενειών. Ειδικότερα, στην περίπτωση της πρόβλεψης της ασθένειας του καρκίνου, όπου εφαρμόζεται η μέθοδος της ταξινόμησης (classification), υπάρχουν αξιοσημείωτα ευρήματα στα οποία αναφέρεται η δημιουργία του προφίλ της γονιδιακής έκφρασης (gene-expression). Αναλυτικότερα, η μικροσυστοιχία DNA είναι μία συλλογή από μικροσκοπικές κυψέλες που συνήθως αντιπροσωπεύουν απλά γονίδια, τοποθετημένα σε συγκεκριμένη σειρά και βρίσκονται ακινητοποιημένα και συνδεδεμένα με σταθερούς δεσμούς πάνω σε μία συμπαγή επιφάνεια με τη μέθοδο της φωτολιθογραφίας. Η μεθοδολογία αυτή περιλαμβάνει από τη μία, τα γονίδια στόχους (γνωστά μόρια του γονιδίου - probes) και από την άλλη, το υπό διερεύνηση βιολογικό δείγμα (targets). Μερικοί τύποι μικροσυστοιχιών υπάρχουν τόσο για την παρακολούθηση των γονιδίων και την έκφραση του microrna όσο και για την παρακολούθηση της αύξησης και της μείωσης των μονονουκλεοτιδικών πολυμορφισμών (SNPs 2 ) και για την ανίχνευση περιοχών με εναλλακτικό μάτισμα (splice variants) Η Τεχνολογία Μικροσυστοιχιών γονιδίου Υπάρχουν αρκετές τεχνολογίες και πρωτόκολλα για την παρακολούθηση γονιδιακής έκφρασης που χρησιμοποιούν την τεχνολογία μικροσυστοιχιών. Κατ αρχήν, επισημασμένα (labeled) μετάγραφα απομονωμένα από βιολογικά δείγματα, υβριδοποιούνται σε probes μικροσυστοιχιών γονιδίου για τη διερεύνηση του πλήθους των μεταγράφων σχετικών εκφράσεων. Στο ίδιο μοτίβο, χρησιμοποιούνται και τα πρωτόκολλα. Δηλαδή, εξάγεται το συνολικό RNA από το βιολογικό δείγμα και το μετάγραφο αντιστρέφεται (transcript) μέσα στο cdna. Στην συνέχεια, ένα in vitro πείραμα μεταγραφής του cdna διεξάγεται με την ενσωμάτωση τροποποιημένων νουκλεοτιδίων για το μετέπειτα ζευγάρωμα με τα φθορίζοντα μόρια. Σε άλλα πρωτόκολλα, τα τροποποιημένα νουκλεοτίδια είναι απευθείας ενσωματωμένα στο cdna. Η παραπάνω διαδικασία διέπεται από περιορισμούς στην ποσότητα του παραγόμενου target εξαιτίας της απουσίας του βήματος της ενίσχυσης, κάτι το οποίο ίσως αποτελεί πρόβλημα, καθώς το στάδιο της ενίσχυσης δεν μπορεί να εφαρμοστεί όταν η ποσότητα του αρχικού δείγματος είναι μικρή. Το επισημασμένο target υβριδοποιείται για μερικές ώρες σε μια πλάκα μικροσυστοιχίας γονιδίου έτσι ώστε να επιτευχθεί η υβριδοποίησή του στη μικροσυστοιχία των probes. Η διαδικασία της υβριδοποίησης και του εντατικού καθαρισμού της πλάκας με σκοπό την αφαίρεση των μη χρήσιμων μοριακών target επιτυγχάνεται σαρώνοντας τη μικροσυστοιχία γονιδίου και ταυτοποιώντας τα επίπεδα υβριδοποίησης των γνωστών μορίων (probes) τα οποία αντικατοπτρίζουν τα επίπεδα γονιδιακής έκφρασης του δείγματος. 2 Μονονουκλεοτιδικοί Πολυμορφισμοί: Πολυμορφισμοί που αφορούν την αλλαγή σε μία βάση του DNA 14

15 Τα χρησιμοποιούμενα DNA probes για την έκφραση των μικροσυστοιχιών, είναι είτε ολιγονουκλεοτίδια είτε ενισχυμένα προϊόντα μεγάλου εύρους αλυσιδωτής αντίδρασης πολυμεράσης (PCR-Polymerase chain reaction) από κλώνους сdna. Το πλεονέκτημα της χρήσης probes ολιγονικλεοτιδίων είναι ότι μπορούν να σχεδιαστούν έτσι ώστε να διασφαλίσουν την ελάχιστη πρόσδεση άλλων μεταγράφων (trancripts) και ως εκ τούτου κάθε γονίδιο θα καλυφθεί με αρκετά probes. Σε αντίστοιχες εφαρμογές γνωστών εμπορικών συστημάτων μελέτης και ανάλυσης, όπως το Affymetrix GeneChips, κάθε γονίδιο καλύπτεται τυπικά από mer (-μερή) ολιγονουκλεοτίδια και 20-25mer ολιγονουκλεοτίδια με μια αταίριαστη (mismatched) βάση προς το κέντρο του για τη μέτρηση του μεγέθους της ακαθόριστης υβριδοποίησης. Η χρήση περισσότερων του ενός probe για την αναπαράσταση κάθε γονιδίου περιορίζει το πρόβλημα που προκύπτει με τα μη λειτουργικά probes, τα οποία είναι πιθανόν να σταθούν σημαντικό εμπόδιο όταν χρησιμοποιείται μόνο ένα μονό probe ολιγονουκλεοτιδίου ανά γονίδιο. Η τεχνολογία των μικροσυστοιχιών πλέον εφαρμόζεται από αρκετές εταιρίες όπως Agilent Technologies, Affymetrix, Applied Biosystems και Illumina. Κατά τη χρήση προϊόντων PCR από κλώνους cdna σαν probes, είναι δυσκολότερο να ελαχιστοποιηθεί η σταυρωτή υβριδοποίηση σε άλλα μεταγραφόμενα, εξαιτίας του μήκους του probe, το οποίο κυμαίνεται μεταξύ bp. Τα ολιγονουκλεοτίδια και τα PCR probes εντοπίζονται απευθείας σε μια γυάλινη επιφάνεια με βελόνες ρομποτικής ακρίβειας, η οποία καθιστά ικανή την εφαρμογή πολύ μικρών ποσοτήτων ανιχνευτικού διαλύματος σε ένα μεγάλο αριθμό γυάλινων πλακών. Με την παραπάνω διαδικασία εντοπίζονται όλες οι διαφορετικές παραλλαγές μορφολογίας του probe μεταξύ διαφορετικών πλακών μικροσυστοιχίας, και σαν επακόλουθο σε αυτές τις συστοιχίες υβριδοποιούνται μαζί το υπό διερεύνηση βιολογικό δείγμα και το δείγμα αναφοράς. Κάθε δείγμα μαρκάρεται (labeled) με διαφορετικού φθορισμού μόρια (συνήθως με Cy3 και Cy5, πράσινο και κόκκινο αντίστοιχα) και η πλάκα μικροσυστοιχίας σαρώνεται με δύο διαφορετικού μήκους κύματα για να μετρηθεί η αφθονία υβριδοποίησης του μετάγραφου σε κάθε δείγμα. Το δείγμα αναφοράς χρησιμοποιείται για τις συγκρίσεις μεταξύ διαφόρων πλακών με τα διαφορετικής μορφολογίας probe. Η τεχνική υβριδοποίησης δύο δειγμάτων παρέχει την αναλογία της σχετικής έκφρασης, η οποία αντικατοπτρίζει τη σχετική έκφραση του γονιδίου στα δυο δείγματα. Με τις διαθέσιμες εμπορικές τεχνικές μικροσυστοιχιών ή με τις ανέπαφες πλάκες μικροσυστοιχιών, οι σχηματισμοί και το μέγεθος των probes είναι εξαιρετικά ομοιόμορφοι. Αυτό δίνει τη δυνατότητα να υβριδοποιήσει ένα μονό δείγμα σε κάθε πλάκα μικροσυστοιχίας, όπου με αυτό τον τρόπο εξάγονται άμεσα οι μετρήσεις των επιπέδων της έκφρασης του γονιδίου. 15

16 Εικόνα 2: Σύστημα Μικροσυστοιχιών μονού και διπλού δείγματος. Πηγή: [16] Εκτός από την ταυτοποίηση των μεταγράφων mrna, η τεχνολογία μικροσυστοιχίας είναι επίσης ικανή για την ταυτοποίηση των microrna. Η ανάλυση της έκφρασης αυτών των μη κωδικών μοριακών νουκλεοτιδίων αποτελεί πρόκληση λόγω του μικρού μεγέθους και της χαμηλής αφθονίας. Ακόμα, η ανάλυση μικροσυστοιχιών ολιγονουκλεοτιδίων είναι η πιο κοινή μέθοδος υψηλής απόδοσης για την ανάλυση όλου του γονιδιώματος της έκφρασης του microrna. Η συνήθης διαδικασία χρησιμοποιεί ολιγονουκλεοτίδια DNA για να αναπαραστήσει γνωστό ανθρώπινο microrna πάνω σε πλάκες γυαλιού και ακολούθως υβριδοποιούνται τα μαρκαρισμένα micrornas. Μετά από αυστηρές πλύσεις (stringency washes), οι πλάκες σαρώνονται και αναλύονται οι εικόνες των συστοιχιών. Σε κάποιες πλατφόρμες ανάλυσης για τη βελτίωση της υβριδοποίησης του microrna χρησιμοποιείται κλειδωμένο νουκλεϊκό οξύ (LNA) νουκλεοτιδίων. Σε άλλες περιπτώσεις χρησιμοποιούνται τεχνικές κυτταρομετρικής ροής[17] ή μεγάλης κλίμακας ποσοτικοποίησης PCR σε πραγματικό χρόνο[18]. 16

17 . Εικόνα 3: Gene Expression Microarray Assay. Πηγή: [19] Τα βέλη αντιπροσωπεύουν τη διαδικασία (αριστερή στήλη) και οι εικόνες ή το κείμενο αντιπροσωπεύουν το προϊόν. Οι διαφορές στο πρωτόκολλο των τεχνολογιών onetwo dyes είναι ειδικές για την τεχνολογία παρά για τα δείγματα ή την ερώτηση. Για την CGH, η διαδικασία είναι παρόμοια, αντικαθιστώντας το mrna με το DNA Εφαρμογές στην Βιοϊατρική έρευνα Οι πιο κοινές εφαρμογές της τεχνολογίας μικροσυστοιχιών γονιδίου στην Βιοϊατρική έρευνα εντοπίζονται στο τομέα της φυσιολογίας και ειδικότερα για τη σύγκριση των μεταβολών της γονιδιακής έκφρασης. Αυτό έχει σαν αποτέλεσμα να βοηθάει στην[20]: πρόγνωση ή τη διάγνωση διαφόρων ασθενειών. στον χώρο της Φαρμακευτικής και στην Τοξικολογία Διάγνωση Ασθενειών: Η παραπάνω τεχνολογία βοηθά τους ερευνητές να μάθουν περισσότερα πάνω σε διαφορετικές ασθένειες όπως στη καρδιακή νόσο, στις ψυχικές ασθένειες, στις μολυσματικές νόσους και ειδικότερα στη μελέτη του καρκίνου. Μέχρι πρόσφατα έχουν κατηγοριοποιηθεί διαφορετικοί τύποι καρκίνου με βάση τον οργανισμό στον οποίο αναπτύσσεται. Σήμερα, οι ερευνητές διαμέσου της μικροσυστοιχίας γονιδίου μελετούν τη γονιδιακή δραστηριότητα μέσα στα καρκινικά κύτταρα με σκοπό την 17

18 κατηγοριοποίηση ακόμα περισσότερων τύπων καρκίνου. Αυτό θα βοηθήσει τη φαρμακευτική έρευνα να αναπτύξει καλύτερες στρατηγικές θεραπείας με πιο αποτελεσματικά φάρμακα που θα στοχεύουν απευθείας σε κάθε τύπο καρκίνου. Ανακάλυψη νέων Φαρμάκων: Η μέθοδος αυτή εφαρμόζεται και στη φαρμακογενομική, η οποία μελετά τις συσχετίσεις μεταξύ θεραπευτικής ανταπόκρισης στα φάρμακα και του γενετικού προφίλ του ασθενή. Ουσιαστικά γίνεται συγκριτική ανάλυση σε γονιδιακό επίπεδο μεταξύ ενός υγιούς και ενός ασθενούς κυττάρου για να ταυτοποιηθεί η βιοχημική σύσταση των συνθετικών πρωτεϊνών των ασθενών κυττάρων. Οι ερευνητές χρησιμοποιούν αυτές τις πληροφορίες για να συνθέσουν νέα φάρμακα πιο αποτελεσματικά και με λιγότερες παρενέργειες. Τοξικολογική Έρευνα: Στο χώρο της τοξικολογίας μελετώνται οι επιπτώσεις των τοξινών στα κύτταρα και το πέρασμά τους στους απογόνους τους, πιο συγκεκριμένα εξετάζεται η συσχέτιση της ανταπόκρισης των εκτεθειμένων κυττάρων σε τοξικές ουσίες και των αλλαγών στο γενετικό προφίλ τους Το μέλλον των μικροσυστοιχιών Η ανάπτυξη της νανοτεχνολογίας αναμένεται να φέρει τη χρήση των μικροσυστοιχιών γονιδίου σε ένα νέο επίπεδο, στο οποίο θα γίνεται καλύτερη και πιο εύστοχη ανάλυση της έκφρασης του ανθρώπινου γονιδιώματος και του πως αυτό αλληλεπιδρά με τη συμπεριφορά των κυττάρων σε φυσιολογικές και ασθενείς καταστάσεις[16]. Συγκεκριμένα, ο αριθμός παραλλαγών σύνδεσης ανά γονίδιο έχει υπολογιστεί σε τουλάχιστον 5-10 και ο συνολικός αριθμός SNPs να ξεπερνά τα 5 εκατομμύρια. Για να είναι ικανή και έγκυρη η στατιστική ανάλυση μεγάλου αριθμού παραμέτρων, χρειάζονται νέοι και πυκνότεροι τύποι συστοιχιών καθώς και να δημιουργηθούν μεγάλες τράπεζες ιστών, γεγονός πολύ χρήσιμο για την ταυτοποίηση των παραλλαγών του γονιδίου ως προς τη σχετιζόμενη ασθένεια. Πλέον οι μικροσυστοιχίες παίζουν μεγάλο ρόλο στην ανάλυση των παραμέτρων των κυττάρων σε συνδυασμό με φάρμακα, γονίδια, ιούς, RNAi κ.α. Η μικρο- ή νάνο τύποι συστοιχιών κάνουν δυνατή την απεικόνιση μεγάλου αριθμού παραμέτρων, όπως κατά τη διάρκεια θεραπείας από νέα υποψήφιων φαρμάκων. Όλες αυτές οι παράμετροι θα πρέπει να μετρηθούν παράλληλα σε εκατοντάδες ή χιλιάδες μικροκαλλιέργειες κυττάρων. Αυτό αποτελεί πρόκληση για τις λειτουργικές δοκιμασίες κυττάρου, για τις οποίες πρέπει να αναπτυχθούν διάφορες δοκιμασίες, όπως απόπτωσης, κυτταρικού κύκλου, κίνησης κυττάρου κ.α. Τέλος, μέσα στα επόμενα χρόνια αναμένεται εκτενή μελέτη των πρωτεομικών συστοιχιών. Μερικές νέες πολλά υποσχόμενες δοκιμασίες είναι βασισμένες πάνω στη λειτουργία του μορίου του DNA ή του πεπτιδίου, όπως εκείνων της φωσφορυλίωσης πεπτιδίων ή των δοκιμασιών πρόσδεσης του μεταγραφικού παράγοντα του DNA, που αναλύεται σε σχέση με τις προσδέσεις των αναστολέων. Έτσι τέτοιου είδους συστοιχίες βιοχημικής διεργασίας κατορθώνουν να απεικονίσουν μεγάλο εύρος βιβλιοθηκών ενώσεων για πολύ συγκεκριμένες παραμέτρους. 18

19 1.2. RNA-seq: μια πρωτοπόρα τεχνική ανάλυσης γονιδιακής έκφρασης Την τελευταία δεκαετία, εμφανίστηκαν νέες πλατφόρμες εντατικής παράλληλης αλληλούχησης για την Επόμενης Γενιάς Αλληλούχηση (Next-Generation Sequencing, NGS). Αυτές οι πλατφόρμες είναι μια επαναστατική μέθοδος για τη μελέτη του τομέα της γενετικής καθώς είναι ικανές για την ταυτόχρονη αλληλούχηση εκατοντάδων χιλιάδων κομματιών (fragments) DNA. Μερικές από τις εφαρμογές στις πλατφόρμες επόμενης γενιάς αλληλούχησης είναι οι[21]: RNA-seq για μελέτες μεταγραφωμάτων Chip-seq για την αλληλεπίδραση DNA - πρωτεϊνών CNV-seq για ποικιλομορφία/παραλλαγή νουκλεοτιδίων μεγάλου γονιδιώματος. Μεταξύ αυτών η RNA-seq είναι ίσως η πιο πολύπλοκη NGS εφαρμογή. Αυτή η τεχνική μπορεί να προσδιορίσει τα επίπεδα έκφρασης ενός συγκεκριμένου γονιδίου, διαφορικού ματίσματος (differential splicing), αλληλο-ειδικής έκφρασης (allele-specific expression) των μεταγράφων για την εύρεση βιολογικών ζητημάτων. Μέσα από τη διερεύνηση της βιβλιογραφίας προκύπτουν πολλές διαφορετικές προσεγγίσεις για την εφαρμογή της RNA-seq τεχνολογίας. Όλες αυτές οι προσεγγίσεις έχουν ένα κοινό πρότυπο βημάτων που αναλύεται στην συνέχεια Το πλαίσιο της RNA-seq Η ταυτοποίηση των μεταγράφων (Transcript identification) και η ποσοτικοποίηση της γονιδιακής έκφρασης κατατάσσονται στις κύριες δραστηριότητες του πυρήνα της μοριακής βιολογίας από την εποχή που ανακαλύφθηκε ο ρόλος του RNA ως το κλειδί μεταξύ του γονιδιώματος και του πρωτεώματος. Η ισχύς της αλληλούχησης RNA αποτυπώνεται στο γεγονός ότι τόσο η ανακάλυψη όσο και η ποσοτικοποίηση της γονιδιακής έκφρασης μπορούν πλέον να συνδυαστούν σε μια ενιαία διαδικασία αλληλούχησης υψηλής απόδοσης που καλείται RNA-seq. H RNA-seq έχει υιοθετηθεί από την γονιδιωματική κοινότητα και έχει εξελιχθεί σε ένα αναπόσπαστο μέρος της εργαλειοθήκης που χρησιμοποιείται στη μελέτη Επιστημών Ζωής. Έχουν γίνει πλέον πολλές δημοσιεύσεις για πολλές ποικιλίες από πρωτόκολλα και αναλύσεις RNA-seq. Αυτό έχει σαν αποτέλεσμα όλο και περισσότεροι νέοι ερευνητές να εκτιμούν όλα τα απαραίτητα βήματα για την καθοδήγηση μιας σωστής μελέτης RNA-seq. Οι επιστήμονες σχεδιάζουν τα πειράματα υιοθετώντας διαφορετικές στρατηγικές ανάλυσης κατά τη μελέτη ενός οργανισμού και των ερευνητικών τους στόχων. Για παράδειγμα, αν υπάρχει η αλληλουχία γονιδιώματος για τον υπό μελέτη οργανισμό, τότε είναι δυνατόν να ταυτοποιηθούν τα μετάγραφα, χαρτογραφώντας τα RNA-seq reads στο γονιδίωμα. Από την άλλη, σε οργανισμούς χωρίς αλληλουχημένα γονιδιώματα, η ποσοτικοποίηση 19

20 επιτυγχάνεται διαμέσου της σύνθεσης de novo των συνδεδεμένων reads μέσα στα contigs 3 και τότε χαρτογραφούνται αυτά στο μεταγράφωμα. Για τα καλά-σχολιασμένα (wellannotated) γονιδιώματα, όπως το ανθρώπινο γονιδίωμα, οι ερευνητές μπορούν να επιλέξουν να βασίσουν την RNA-seq ανάλυσή τους μόνο πάνω στο υπάρχον σχολιασμένο αναφορικό μεταγράφωμα ή μπορούν να προσπαθήσουν να ταυτοποιήσουν νέα μετάγραφα και τη διαφοροποιημένη γονιδιακή ρύθμισή τους (differential regulation). Επιπρόσθετα, οι ερευνητές μπορούν να ενδιαφέρονται είτε μόνο για την έκφραση της βασικής ισομορφής (isoform expression) του messenger RNA (mrna) είτε για τα επίπεδα microrna είτε για την ταυτοποίηση διαφοροποιημένων ισομορφών (allele variant). Σε όλες τις παραπάνω περιπτώσεις οι διαδικασίες σχεδιασμού και ανάλυσης των πειραμάτων θα διαφέρουν σημαντικά μεταξύ τους. Η RNA-seq διαδικασία μπορεί να χρησιμοποιηθεί αυτόνομα στη μέθοδο ταυτοποίησης (profiling) του μεταγραφώματος ή σε συνδυασμό με άλλες λειτουργικές γενομικές μεθόδους με σκοπό την ενίσχυση της ανάλυσης της έκφρασης γονιδίου. Μεταξύ άλλων η RNA-seq διαδικασία μπορεί να συνδυαστεί με διαφορετικούς τύπους βιοχημικών πειραμάτων για την ανάλυση διαφόρων πτυχών της βιολογίας των RNA, όπως στη σύνδεση του RNA με την πρωτεΐνη, στη δομή του RNA ή στις αλληλεπιδράσεις RNA-RNA. Κάθε πείραμα RNA-seq μπορεί δυνητικά να έχει πολλές διαφορετικές βέλτιστες μεθόδους για την ποσοτικοποίηση, την κανονικοποίηση και την απόλυτη ανάλυση διαφορικής έκφρασης του μετάγραφου. Επιπλέον, πρέπει να εφαρμόζονται τεχνικές ελέγχου επαναληψιμότητας και της αξιοπιστίας των αποτελεσμάτων. Μία προτεινόμενη μεθοδολογία για RNA-seq ανάλυση παρατίθεται στη συνέχεια (Εικόνα 4), όπου απεικονίζεται ένας γενικός οδηγός πειραματικού σχεδιασμού και ανάλυσης που βασίζεται στα πρότυπα αλληλούχησης της Illumina. 3 Μια ακολουθία contig είναι μια συνεχής αλληλουχία (όχι συνεχόμενη) που προκύπτει από την επανασυναρμολόγηση των μικρών κομματιών DNA που δημιουργούνται με στρατηγικές αλληλούχησης από κάτω προς τα πάνω. 20

21 Πηγή: [22] Εικόνα 4: Οδηγός της RNA-seq διαδικασίας βάσει Illumina Πιο συγκεκριμένα ο απεικονιζόμενος οδηγός περιλαμβάνει τα κύρια βήματα της διαδικασίας της ανάλυσης που περιλαμβάνουν την προ επεξεργασία πριν την ανάλυση, τη βασική ανάλυση και προηγμένη ανάλυση. Το στάδιο της προ-επεξεργασίας περιέχει: τον πειραματικό σχεδιασμό, το σχεδιασμό της αλληλούχησης και τα βήματα ελέγχου ποιότητας. Στο στάδιο της κύριας ανάλυσης περιλαμβάνονται: η ταυτοποίηση του μεταγραφώματος, η διαφορική έκφραση γονιδίου και η λειτουργική ταυτοποίηση. Το στάδιο της προηγμένης ανάλυσης περιλαμβάνει: την οπτικοποίηση, άλλες τεχνολογίες RNA-seq και την ενσωμάτωση (integration) των δεδομένων. 21

22 Πειραματικός σχεδιασμός Μια σημαντική προϋπόθεση για μια επιτυχημένη μελέτη RNA-seq είναι όταν τα παραγόμενα δεδομένα έχουν την ικανότητα να απαντούν τιθέμενα βιολογικά ερωτήματα. Για να επιτευχθεί αυτό θα πρέπει πρώτα απ όλα να γίνει ένας καλός πειραματικός σχεδιασμός, ο οποίος γίνεται, από τη μία, επιλέγοντας τον τύπο της βιβλιοθήκης, το βάθος της αλληλούχησης και τον κατάλληλο αριθμό των επαναλήψεων (replicates) για το υπό μελέτη βιολογικό σύστημα, και από την άλλη, με το σχεδιασμό μιας επαρκούς εκτέλεσης του πειράματος αλληλούχησης, διαβεβαιώνοντας έτσι ότι η απόκτηση των δεδομένων δεν θα μολυνθεί με περιττά σφάλματα. Μια σημαντική άποψη για τον πειραματικό σχεδιασμό είναι ότι το πρωτόκολλο εξαγωγής RNA συνηθίζεται να αφαιρεί υψηλής αφθονίας ριβοσωμικό RNA (rrna), το οποίο αποτελεί πάνω από το 90% του συνολικού RNA μέσα στο κύτταρο, αφήνοντας 1-2% το οποίο περιέχει το αγγελιοφόρο RNA (mrna) που είναι χρήσιμο για το πείραμα. Για τους ευκαριώτες, το πρωτόκολλο εξαγωγής RNA έχει τη δυνατότητα είτε να εμπλουτίσει το mrna με poly-a (πολυαδενυλίωση) είτε να εξαντλήσει το rrna. Η πολυαδενυλίωση τυπικά απαιτεί μια σχετικότητα μεταξύ υψηλής αναλογίας mrna με την ελάχιστη αποδόμηση σε όρους RIN (RNA integrity number) 4, γεγονός το οποίο εκφράζει ένα κλάσμα από τα αποτυχημένα reads προς τα γνωστά εξόνια. Σε περιπτώσεις βιολογικών δειγμάτων (όπως οι βιοψίες ιστού) δεν μπορούν να ληφθούν σε μεγάλη και αρκετή ποσότητα (δείγματα) ή αρκετά καλής ακεραιότητας mrna, ώστε να παραχθούν καλής ποιότητας poly(a) βιβλιοθήκες RNA-seq και συνεπώς απαιτούν την εξάντληση ριβοσωμάτων. Για περιπτώσεις βακτηριακών δειγμάτων, στα οποία το mrna δεν πολυαδενυλιώνεται, η μόνη λειτουργική εναλλακτική είναι η εξάντληση των ριβοσωμάτων. Ένα άλλο ζήτημα είναι αν θα δημιουργηθούν βιβλιοθήκες διατήρησης κλώνων (strand-preserving). Η πρώτης γενιάς τεχνολογία RNA-seq βασισμένη στην Illumina, χρησιμοποίησε τυχαίο εξαμερές (hexamer priming) για να αντιστρέψει - μεταγράψει το επιλεγμένο πολυαδενυλιωμένο mrna. Αυτή η μεθοδολογία δεν διατηρεί την περιεχόμενη πληροφορία στον κλώνο του DNA το οποίο είναι πραγματικά εκφρασμένο[23] και συνεπώς συνδυάζει την ανάλυση και την ποσοτικοποίηση των αντιαγγελιοφόρων ή των υπερκαλυπτόμενων μεταγράφων (antisense ή overlapping transcripts). Μερικά πρωτόκολλα προσδιορισμένης κατεύθυνσης (strand-specific)[24], όπως στη μέθοδο dutp, επεκτείνουν το αυθεντικό/αρχικό πρωτόκολλο μέσω της ενσωμάτωσης UTP νουκλεοτιδίων και ακολουθεί η αφομοίωση του κλώνου που περιέχει dutp. Όλα αυτά πραγματοποιούνται κατά τη διάρκεια του βήματος της δεύτερης σύνθεσης cdna και συγκεκριμένα πριν τη σύνδεση του προσαρμογέα[25]. Σε όλες αυτές τις περιπτώσεις, το μέγεθος των τελικών τμημάτων (συνήθως λιγότερο από 500 bp για την Illumina) είναι ζωτικής σημασίας για την αλληλούχηση και τη μεταγενέστερη ανάλυση. Επιπλέον, η αλληλούχηση μπορεί να περιλαμβάνει reads μονών 4 Αλγόριθμος για την ανάθεση ακέραιων τιμών σε μετρήσεις RNA. 22

23 άκρων,single-end (SE) 5 ή ζεύγη άκρων, paired-end (PE) 6, αν και τα PE είναι προτιμότερα για την de novo ανίχνευση της μεταγραφής ή για την ανάλυση της έκφρασης ισομορφής[26][27]. Με τον ίδιο τρόπο, μεγαλύτερα reads βελτιώνουν την ικανότητα χαρτογράφησης και ταυτοποίησης των μεταγράφων[27][28]. Η επιλογή του καλύτερου τρόπου αλληλούχησης εξαρτάται από τους στόχους της ανάλυσης. Η χρήση μικρών (short) SE reads είναι αποδοτικότερη για μελέτες επιπέδου γονιδιακής έκφρασης σε καλά σχολιασμένους οργανισμούς, ενώ τα μακρύτερα και PE reads είναι προτιμότερα για το χαρακτηρισμό φτωχότερου σχολιασμού μεταγραφωμάτων. Ένας άλλος σημαντικός παράγοντας του πειραματικού σχεδιασμού είναι το βάθος αλληλούχησης ή αλλιώς μέγεθος βιβλιοθήκης, το οποίο είναι ο αριθμός των αλληλουχημένων reads για ένα δοσμένο δείγμα. Όσο το δείγμα αλληλουχείται σε ένα βαθύτερο επίπεδο[23] τόσο περισσότερα μετάγραφα θα ανιχνευθούν και η ποσότητά τους θα είναι πιο ακριβής. Ωστόσο, το βέλτιστο βάθος αλληλούχησης εξαρτάται και σε αυτήν την περίπτωση από τους στόχους του πειράματος. Κάποιοι ερευνητές, ισχυρίζονται ότι η κατάλληλη ποσότητα των χαρτογραφημένων reads, για την ακριβή ποσοτικοποίηση των μεσαίων και υψηλών εκφρασμένων γονιδίων των περισσότερων ευκαρυωτικών μεταγραφωμάτων, αρκεί να είναι κοντά στα 5 εκατομμύρια. Άλλοι πάλι, φτάνουν στην αλληλούχηση πάνω από 100 εκατομμύρια reads για να ποσοτικοποιήσουν με ακρίβεια γονίδια και μετάγραφα με χαμηλά επίπεδα έκφρασης[29]. Στην περίπτωση της μελέτης μονοκύτταρων οργανισμών, όπου υπάρχει περιορισμένη πολυπλοκότητα του δείγματος, συνήθως η ποσότητα των reads είναι μόλις 1 εκατομμύριο, αλλά κάποιες φορές για υψηλά εκφρασμένα γονίδια αρκούν reads[30]. Για τη διαφοροποίηση κυτταρικών τύπων στο σπληνικό ιστό έχουν χρησιμοποιηθεί μόλις reads[31]. Συμπερασματικά, το μέγεθος της βιβλιοθήκης εξαρτάται από την πολυπλοκότητα του στοχευόμενου μεταγραφώματος. Τα πειραματικά αποτελέσματα δείχνουν ότι το βάθος αλληλούχησης βελτιώνει την ποσοτικοποίηση και την ταυτοποίηση, αλλά μπορεί επίσης να ανιχνεύσει το μεταγραφικό θόρυβο και τα περιττά (εκτός στόχου) μετάγραφα[32]. Ακόμη, χρησιμοποιούνται καμπύλες κορεσμού για την εκτίμηση της βελτίωσης της αναμενόμενης κάλυψης του μεταγραφώματος σε ένα δοσμένο βάθος αλληλούχησης[32]. Τέλος, ένας παράγοντας ζωτικής σημασίας στο στάδιο σχεδιασμού είναι ο αριθμός των επαναλήψεων (replicates). Ο αριθμός των επαναλήψεων που πρέπει να περιλαμβάνεται σε ένα RNA-seq πείραμα εξαρτάται τόσο από το βαθμό της τεχνικής μεταβλητότητας στην RNA-seq διαδικασία, όσο και από τη βιολογική μεταβλητότητα του υπό μελέτη συστήματος. Πιο συγκεκριμένα, τρεις παράγοντες καθορίζουν τον απαιτούμενο αριθμό επαναλήψεων σε ένα RNA-seq πείραμα. Ο πρώτος παράγοντας είναι η μεταβλητότητα των μετρήσεων που 5 SE, ένα κομμάτι(fragment) αλληλουχίας αλληλουχημένο από μία μόνο κατεύθυνση. 6 PE, ένα μοναδικό κομμάτι έχει αλληλουχία από το 5 'και 3' άκρο, με αποτέλεσμα την ανάγνωση προς τα εμπρός και αντίστροφα. Τα κομμάτια αλληλουχίας μπορούν να διαχωριστούν από ορισμένες βάσεις ή μπορεί να αλληλεπικαλύπτονται, δημιουργώντας ένα συνεχόμενο μακρύτερο κομμάτι SE μετά τη συγχώνευση. Τα PE βελτιώνουν την ακρίβεια της χαρτογράφησης των reads σε ένα γονιδίωμα αναφοράς. Το τυπικό μέγεθος ενός κομματιού είναι 200bp έως 500bp. 23

24 επηρεάζεται από τον τεχνικό θόρυβο και από τη βιολογική διακύμανση. Ενώ η επαναληψιμότητα στο επίπεδο αλληλούχησης είναι υψηλή[23][33], στα άλλα βήματα όπως η εξαγωγή RNA και η προετοιμασία βιβλιοθήκης έχουν υψηλότερο θόρυβο, κάτι που μπορεί να αποφέρει αποκλίσεις στα δεδομένα. Με έναν καλό πειραματικό σχεδιασμό μπορούν αυτές να ελαχιστοποιηθούν, Παράθεμα 1. Η βιολογική μεταβλητότητα διαφέρει σε κάθε πειραματική διαδικασία και συνεπώς είναι δυσκολότερο να ελεγχθεί[34]. Ωστόσο, οι βιολογικές επαναλήψεις είναι αναγκαίες αναφορικά με τον πληθυσμό και συγκεκριμένα προτείνεται να υπάρχουν το λιγότερο τρεις για κάθε ανάλυση. Για μια ισχυρή στατιστική ανάλυση απαιτείται ο υπολογισμός της διακύμανσης μεταξύ των ομάδων και των επιπέδων γονιδιακής έκφρασης. Αυτή η πληροφορία δεν είναι τυπικά διαθέσιμη εκ των προτέρων αλλά λαμβάνεται από παρόμοια πειράματα. Η ακριβής ισχύς θα εξαρτηθεί από τη μέθοδο που χρησιμοποιείται για την ανάλυση της διαφορικής έκφρασης και το υπάρχον πακέτο λογισμικού το οποίο παρέχει θεωρητικό υπολογισμό της ισχύς έναντι ενός εύρους μεταβλητών, δοσμένων μεταξύ της διακύμανσης των ομάδων των δειγμάτων, που είναι εγγενή στο πείραμα [35][36]. Στον παρακάτω πίνακα φαίνεται ένα παράδειγμα της εξάρτησης της στατιστικής ισχύς από το εύρος των μεταβολών λόγου (fold-changes) και τον αριθμό των επαναλήψεων σε ένα δείγμα RNA-seq ανθρώπινου αίματος αλληλουχημένο σε 30 εκατομμύρια χαρτογραφημένα reads. Επαναλήψεις ανά ομάδα : Μεταβολή λόγου % 25% 44% % 64% 91% 2 87% 98% 100% Βάθος αλληλούχησης (εκατομμύρια reads) 3 19% 29% 52% 10 33% 51% 80% 15 38% 57% 85% Πίνακας 1: Στατιστική ισχύς για τη διερεύνηση της διαφορικής έκφρασης που ποικίλει ανάλογα με το effect sizes και τον αριθμό των replicates. Πηγή: [22] Στον παραπάνω πίνακα απεικονίζεται ένα παράδειγμα υπολογισμού της πιθανότητας ανίχνευσης της διαφορικής έκφρασης σε έναν έλεγχο με επίπεδο σημαντικότητας 5%, για 24

25 τη σύγκριση δύο ομάδων, χρησιμοποιώντας ένα αρνητικό διωνυμικό μοντέλο, όπως περιλαμβάνει και το πακέτο RNASeqPower των Hart κ.α.[35]. Για μια σταθερή διακύμανση εντός της ομάδας, η στατιστική ισχύς αυξάνεται από τη διαφορά μεταξύ των δύο ομάδων (effect sizes), το βάθος προσδιορισμού της αλληλουχίας και του αριθμού των επαναλήψεων ανά ομάδα. Αυτός ο πίνακας παρουσιάζει τη στατιστική ισχύ για ένα γονίδιο με 70 ευθυγραμμισμένα reads, που ήταν η διάμεση κάλυψη για ένα πρωτεϊνικά κωδικοποιημένο γονίδιο σε ένα δείγμα RNA-seq αίματος (whole-blood) με 30 εκατομμύρια ευθυγραμμισμένα reads από το GTEx Project[37]. Θα πρέπει να σημειωθεί ότι αυτοί οι υπολογισμοί ισχύουν για το μέσο επίπεδο γονιδιακής έκφρασης, αλλά καθώς το δυναμικό εύρος των RNA-seq δεδομένων είναι μεγάλο, η πιθανότητα να ανιχνευθούν υψηλά εκφρασμένα γονίδια ως διαφορικά εκφρασμένα είναι μεγαλύτερη από αυτή των γονιδίων χαμηλής έκφρασης[38]. Για τις μεθόδους που επιστρέφουν FDR (false discovery rate), θα ελεγχθεί η αναλογία των γονιδίων που έχουν υψηλή έκφραση έναντι των συνολικών συνόλων γονιδίων και επίσης αυτό θα επιδράσει στην ισχύ της ανίχνευσης τους μετά από πολλαπλό διορθωτικό έλεγχο[39]. Φιλτράροντας τα εκφρασμένα γονίδια που ανιχνεύθηκαν σε χαμηλά επίπεδα πριν την ανάλυση της διαφορικής έκφρασης, μειώνεται η αυστηρότητα της διόρθωσης βελτιώνοντας ίσως την ισχύ της ανίχνευσης[40]. Επίσης, αυξάνοντας το βάθος της αλληλούχησης μπορεί επίσης να βελτιωθεί η στατιστική ισχύς για χαμηλότερης έκφρασης γονίδια[32][41], αλλά και για κάθε δοσμένο δείγμα υπάρχει ένα επίπεδο αλληλούχησης, στο οποίο επιτυγχάνεται καλύτερα η ισχύς αυξάνοντας τον αριθμό των επαναλήψεων[42]. Ο επαρκής σχεδιασμός των πειραμάτων αλληλούχησης, ώστε να αποφευχθούν οι τεχνικές αποκλίσεις, είναι εξίσου σημαντικός με έναν καλό πειραματικό σχεδιασμό, ειδικότερα όταν το πείραμα περιλαμβάνει μεγάλο αριθμό δειγμάτων που πρέπει να υποστούν επεξεργασία κατά ομάδες (batches). Σε αυτήν την περίπτωση, περιλαμβάνονται έλεγχοι, επεξεργασία τυχαίων δειγμάτων και έξυπνη διαχείριση των τρεξιμάτων αλληλούχησης, τα οποία είναι ζωτικής σημασίας για την παρατήρηση δεδομένων χωρίς σφάλματα όπως αναλύεται στη συνέχεια στο Παράθεμα 1, Εικόνα 4a. Παράθεμα 1: Επιλογές εκτέλεσης πειράματος Η προετοιμασία της RNA-seq βιβλιοθήκης και η διαδικασία αλληλούχησης περιλαμβάνει ορισμένα βήματα (κατακερματισμός RNA, σύνθεση cdna, πρόσδεση προσαρμογέα, ενίσχυση PCR, γραμμική κωδικοποίηση (bar-coding) και φόρτωση λωρίδας (lane loading)) που θα μπορούσαν να εισαγάγουν σφάλματα (biases) στα δεδομένα που προκύπτουν[43]. Η συμπερίληψη των εξωγενών (reference) μεταγράφων αναφοράς («spike-ins») είναι χρήσιμη τόσο για τον ποιοτικό έλεγχο[23][44] όσο και για την κανονικοποίηση του μεγέθους βιβλιοθήκης[45]. Σύμφωνα με τις προτάσεις των Van Dijk κ.α.[46] η ελαχιστοποίηση των σφαλμάτων επιτυγχάνεται με την χρήση προσαρμογέων (adapters) με τυχαία νουκλεοτίδια στα άκρα ή την χρήση κατακερματισμού βασισμένη σε χημική ουσία αντί για κατακερματισμό που βασίζεται σε RNase III. Εάν το RNA-seq πείραμα είναι μεγάλο και τα δείγματα πρέπει να υποστούν επεξεργασία σε διαφορετικές παρτίδες ή/και 25

26 σε τρεξίματα/λειτουργίες illumina, θα πρέπει να παρθούν προφυλάξεις στην τυχαιοποίηση των δειγμάτων μεταξύ προετοιμασίας της βιβλιοθήκης των παρτίδων και των λωρίδων (lanes) έτσι ώστε να αποφευχθεί οι τεχνικοί παράγοντες να συγχέονται με πειραματικούς παράγοντες. Μια άλλη εναλλακτική -όταν τα δείγματα είναι ξεχωριστά γραμμοκωδικοποιημένα (barcoded) και χρειάζονται πολλαπλές λωρίδες Illumina για να επιτευχθεί το επιθυμητό βάθος αλληλούχησης- είναι να συμπεριληφθούν όλα τα δείγματα σε κάθε λωρίδα, πράγμα που θα ελαχιστοποιούσε οποιοδήποτε πιθανή επίδραση στις λωρίδες Ανάλυση RNA-seq δεδομένων Η ανάλυση RNΑ-seq δεδομένων έχει τόσες παραλλαγές όσες και οι εφαρμογές αυτής της τεχνολογίας. Τα κύρια βήματα στο στάδιο της ανάλυσης για τη διεξαγωγή ενός τυπικού πειράματος RNA-seq περιλαμβάνουν τον ποιοτικό έλεγχο, την ευθυγράμμιση reads με ή χωρίς γονιδίωμα αναφοράς, παρατηρώντας μετρικές για την γονιδιακή και μεταγραφική έκφραση, καθώς επίσης και προσεγγίσεις για την ανίχνευση της γονιδιακής διαφορικής έκφρασης. Ποιοτικός Έλεγχος Για την απόκτηση των δεδομένων απαιτούνται τα παρακάτω βήματα: παρατήρηση των raw reads ευθυγράμμιση των reads ποσοτικοποίηση Σε κάθε ένα από αυτά τα βήματα εφαρμόζονται ειδικοί έλεγχοι για την παρακολούθηση των δεδομένων, Εικόνα 4a. Raw reads Ο ποιοτικός έλεγχος για τα raw reads περιλαμβάνει: την ανάλυση την αλληλούχησης την περιεκτικότητα/ποσότητα γουανίνης κυτοσίνης (GC), την παρουσία των προσαρμογέων, την υπερπληθώρα παρουσία k-mers και των διπλοτύπων reads για την ανίχνευση σφαλμάτων στην αλληλούχηση, την παρουσία λανθασμένων ευρημάτων της τεχνολογίας PCR ή μολύνσεων. Η αποδεκτή επικάλυψη, k-mer ή επιπέδων περιεκτικότητας/ποσότητας GC είναι συγκεκριμένη τόσο σε πειράματα όσο και σε οργανισμούς. Αλλά αυτές οι ποσότητες θα πρέπει να ομογενοποιούνται για δείγματα σε ίδια πειράματα. Το FastQC[47] είναι ένα 26

27 δημοφιλές εργαλείο για την εκτέλεση αυτών των αναλύσεων σε Illumina reads, ενώ το NGSQC[48] μπορεί να εφαρμοστεί σε οποιαδήποτε πλατφόρμα. Ένας γενικός κανόνας είναι ότι η ποιότητα των reads μειώνεται προς το 3 άκρο των reads, και αν αυτό γίνει τόσο χαμηλό τότε οι βάσεις θα πρέπει να αφαιρεθούν για να βελτιωθεί η χαρτογραφική ικανότητα. Εργαλεία λογισμικού όπως το FASTX-Toolkit[49] και Trimmomatic[50] μπορούν να χρησιμοποιηθούν για να απορρίπτουν reads χαμηλής ποιότητας, να κόβουν αλληλουχίες προσαρμογέων και να καταστρέφουν βάσεις ανεπαρκούς ποιότητας. Ευθυγράμμιση Read Τα reads είναι τυπικά χαρτογραφημένα είτε σε ένα γονιδίωμα είτε σε ένα μεταγράφωμα. Μία σημαντική ποιοτική παράμετρος χαρτογράφησης είναι το ποσοστό των χαρτογραφημένων reads, το οποίο είναι ένας παγκόσμιος δείκτης ευστοχίας ολόκληρης της αλληλούχησης και της παρουσίας μολυσμένου DNA. Για παράδειγμα, η χαρτογράφηση του 70% και 90% των κανονικών RNA-seq reads στο ανθρώπινο γονιδίωμα εξαρτάται από τον χαρτογραφητή (mapper) των reads που χρησιμοποιείται[51], με ένα σημαντικό μέρος των reads να χαρτογραφούνται εξίσου καλά σε ένα περιορισμένο αριθμό ταυτόσημων περιοχών ( multi-mapping reads ). Όταν τα reads χαρτογραφούνται έναντι του μεταγραφώματος, αναμένονται ελαφρώς χαμηλότερα συνολικά ποσοστά χαρτογράφησης εξαιτίας των χαμένων εισερχόμενων reads από ασχολίαστα μετάγραφα, και σημαντικά περισσότερα πολυχαρτογραφημένα (multi-mapping) reads εξαιτίας των reads τα οποία πέφτουν σε εξόνια που είναι κοινόχρηστα σε διαφορετικές ισομορφές μεταγράφων του ίδιου γονιδίου. Άλλες σημαντικές παράμετροι είναι η ομοιομορφία της κάλυψης των reads στα εξόνια και του χαρτογραφημένου κλώνου. Αν τα reads συσσωρεύονται κυρίως στο 3ʹ άκρο των μεταγράφων σε poly(a)-selected δείγματα με πολλαπλές εμφανίσεις Α στις νουκλεοτιδικές τους ακολουθίες, αυτό ίσως δείξει χαμηλής ποιότητας RNA στο αρχικό υλικό. Η περιεκτικότητα/ποσότητα GC των χαρτογραφιμένων reads ίσως αποκαλύψει PCR σφάλματα. Μερικά εργαλεία για ποιοτικό έλεγχο στην χαρτογράφηση είναι τα: Picard[52], RSeQC[53] και Qualimap[54]. Ποσοτικοποίηση Από τη στιγμή που έχουν υπολογιστεί οι πραγματικές τιμές ποσοτικοποίησης μεταγραφής, θα πρέπει να ελέγχονται για την περιεκτικότητα/ποσότητα γουανίνης - κυτοσίνης(gc) και για τις αποκλίσεις του μήκους του γονιδίου, έτσι ώστε να μπορούν να εφαρμοστούν οι διορθωτικές μέθοδοι κανονικοποίησης, εάν είναι απαραίτητο. Εάν το αναφορικό μεταγράφωμα ήταν καλά σχολιασμένο, οι ερευνητές θα μπορούσαν να αναλύσουν τη βιοτυπική σύνθεση του δείγματος, το οποίο είναι ενδεικτικό της ποιότητας του σταδίου του καθαρισμού του RNA. Για παράδειγμα, το rrna και τα μικρά (small) RNAs δεν πρέπει να εμφανίζονται σε φυσιολογικές (regular) poly(α) longrna προετοιμασίες[32][55]. Ένας αριθμός πακέτων για το στατιστικό εργαλείο R (όπως είναι το NOISeq[55] ή το EDA- Seq[40]) παρέχουν χρήσιμα διαγράμματα για τον έλεγχο της ποιότητας των δεδομένων. 27

28 Επαναληψιμότητα Τα βήματα ποιοτικού ελέγχου που περιγράφονται παραπάνω περιλαμβάνουν μεμονωμένα δείγματα. Επιπροσθέτως, είναι επίσης σημαντικό να εκτιμηθεί η ποιότητα του συνόλου των RNA-seq δεδομένων, διαδικασία η οποία πραγματοποιείται χρησιμοποόντας τεχνικές ή βιολογικές επανλήψεις των πειραμάτων (techinical ή biological replicates). Συνήθως, η επαναληψιμότητα μεταξύ των τεχνικών επαναλήψεων θα πρέπει να είναι υψηλή (Spearman R2> 0,9)[23], αλλά δεν υπάρχει σαφές πρότυπο για βιολογικές επαναλήψεις, καθώς αυτό εξαρτάται από την ετερογένεια του πειραματικού συστήματος. Εάν υπάρχουν διαφορές γονιδιακής έκφρασης μεταξύ των πειραματικών συνθηκών, θα πρέπει να αναμένεται ότι βιολογικές επαναλήψεις της ίδιας κατάστασης θα συγκεντρωθούν μαζί σε μια ανάλυση βασικής συνιστόσας (PCA). Ταυτοποίηση Μεταγράφων Όταν είναι διαθέσιμο ένα γονιδίωμα αναφοράς, κανονικά η RNA-seq ανάλυση θα περιλαμβάνει τη χαρτογράφηση των reads στο γονιδίωμα αναφοράς ή το μεταγράφωμα για να συναχθεί ποια μετάγραφα εκφράζονται. Η χαρτογράφηση αποκλειστικά στο αναφορικό μεταγράφωμα ενός γνωστού είδους αποκλείει την ανακάλυψη νέων, ασχολίαστων μετάγραφων και εστιάζει την ανάλυση μόνο στην ποσοτικοποίηση. Αντίθετα, εάν ο οργανισμός δεν έχει αλληλουχημένο γονιδίωμα, τότε η διαδρομή της ανάλυσης έχει ως εξής: πρώτα πραγματοποιείται η συναρμολόγηση των reads σε μεγαλύτερα contigs στη συνέχεια αντιμετωπίζει αυτά τα contigs ως το εκφρασμένο μεταγράφωμα, στο οποίο ξαναχαρτογραφούνται τα reads για ποσοτικοποίηση. Και στις δύο περιπτώσεις, η κάλυψη των reads μπορεί να χρησιμοποιηθεί για την ποσοτικοποίηση του επιπέδου έκφρασης μεταγραφής, Εικόνα 4b. Μια βασική επιλογή είναι εάν η ταυτοποίηση και η ποσοτικοποίηση των μεταγραφών γίνεται διαδοχικά ή ταυτόχρονα. Ευθυγράμμιση Όταν μία ακολουθία αναφοράς είναι διαθέσιμη τότε υπάρχουν δύο εναλλακτικές: χαρτογράφηση στο γονιδίωμα ή στο σχολιασμένο μεταγράφωμα, Εικόνα 5a,b, Παράθεμα 2). Σχετικά με το αν χρησιμοποιείται το γονιδίωμα ή το μεταγράφωμα, τα reads μπορούν να χαρτογραφούν μοναδικά (στην ουσία τοποθετούνται σε μία μόνο θέση στην αναφορά) ή μπορούν να είναι πολυχαρτογραφημμένα reads (multireads). Η ύπαρξη των γενομικών multireads είναι κυρίως λόγω των επαναλαμβανόμενων ακολουθιών/αλληλουχιών ή λόγω των κοινών περιοχών των παράλογων γονιδίων (paralogous genes). Αυτά κανονικά αντιπροσωπεύουν ένα σημαντικό τμήμα του αποτελέσματος της χαρτογράφησης όταν χαρτογραφούνται μέσα σε ένα γονιδίωμα και δεν πρέπει να απορρίπτονται. Όταν η αναφορά είναι το μεταγράφωμα, η πολυχαρτογράφιση συμβαίνει ακόμα πιο συχνά εξαιτίας ενός read το οποίο θα είχε χαρτογραφηθεί μοναδικά στο γονιδίωμα και θα αντιστοιχούσε το ίδιο καλά 28

29 σε όλες τις ισομορφές γονιδίου με κοινόχρηστο εξόνιο στο μεταγράφωμα. Σε κάθε περίπτωση, η χαρτογράφηση γονιδιώματος ή μεταγραφώματος, η ταυτοποίηση και η ποσοτικοποίηση μετάγραφου είναι μια σημαντική πρόκληση για εναλλακτικά εκφρασμένα γονίδια. Παράθεμα 2: Διαδικασία χαρτογράφησης σε μία αναφορά Η διαδικασία χαρτογράφησης σε ένα γονιδίωμα αναφοράς επιτρέπει την ταυτοποίηση νέων γονιδίων ή μετάγραφων, και απαιτεί τη χρήση χαρτογραφητή που επιτρέπει κενά ή που χειρίζεται εναλλακτικά ματίσματα (gapped ή spliced mapper), καθώς τα reads μπορούν να εκτείνονται σε σημεία ματίσματος (splice junctions). Η πρόκληση είναι να ταυτοποιηθεί το σημείo ματίσματος σωστά, ειδικότερα όταν υπάρχουν σφάλματα αλληλούχησης ή διαφορές με την αναφορά ή όταν αναζητούνται μη κανονικά σημεία (junctions) και συγχωνευμένα μετάγραφα. Ένας από τους πιο δημοφιλής χαρτογραφητές RNA-Seq, ο Tophat, ακολουθεί στρατηγική δύο βημάτων, στα οποία τα ασύνδετα reads πρώτα χαρτογραφούνται στα εντοπισμένα εξόνια και τότε τα αχαρτογράφητα reads διαχωρίζονται και ευθυγραμμίζονται ανεξάρτητα για να ταυτοποιήσουν junctions εξονίων[56][57]. Μερικοί άλλοι χαρτογραφητές βελτιστοποιούνται για τον εντοπισμό SNPs ή Indels 7 (GSNAP[58], PALMapper[59], MapSplice[60]), ανιχνεύουν μη κανονικά σημεία ματίσματος (STAR[51], MapSplice), πετυχαίνουν εξαιρετικά γρήγορη χαρτογράφηση (GEM[61]) ή χαρτογραφούν μακρά reads (STAR). Σημαντικές παράμετροι κατά τη διάρκεια της χαρτογράφησης είναι: η λανθάνουσα κατάσταση (strandedness) της RNA-seq βιβλιοθήκης, ο αριθμός των αναντιστοιχιών που δέχεται, το μήκος και ο τύπος των reads (SE ή PE), το μήκος των αλληλουχημένων τμημάτων (fragments). Επιπλέον, τα υπάρχοντα μοντέλα γονιδίων μπορούν να αξιοποιηθούν παρέχοντας ένα αρχείο σχολιασμού σε κάποιον χαρτογραφητή read προκειμένου να χαρτογραφηθούν με ακρίβεια οι συντεταγμένες του εξονίου και να βοηθήσει στην αναγνώριση γεγονότων ματίσματος. Η επιλογή του γονιδιακού μοντέλου μπορεί επίσης να έχει ισχυρό αντίκτυπο στην ανάλυση της ποσοτικοποίησης και της διαφορικής έκφρασης[62]. Εάν ο σχολιασμός του μεταγραφώματος είναι πλήρης (για παράδειγμα, σε ποντίκι ή σε άνθρωπο), οι ερευνητές μπορούν να επιλέξουν να χαρτογραφήσουν απευθείας σε ένα Fasta αρχείο με όλες τις αλληλουχίες μετάγραφου, για όλα τα γονίδια ενδιαφέροντος. Σε αυτή την περίπτωση, απαιτείται ευθυγράμμιση χωρίς διάκενα (no gapped alignment) και όπως εφαρμόζεται στον αλγόριθμο Bowtie[63], μπορούν να χρησιμοποιηθούν unspliced χαρτογραφητές (Εικόνα 5b). Η χαρτογράφηση του μεταφραφώματος είναι σε γενικές γραμμές γρηγορότερη αλλά δεν επιτρέπει τον υπολογιστικό εντοπισμό μεταγράφων. 7 Indel είναι ένας όρος μοριακής βιολογίας για την εισαγωγή ή τη διαγραφή βάσεων στο DNA ενός οργανισμού. Έχει ελαφρώς διαφορετικούς ορισμούς μεταξύ της χρήσης του σε εξελικτικές μελέτες και σε μελέτες σπονδυλικής και σωματικής μετάλλαξης. 29

30 Πηγή: [22] Εικόνα 5: Στρατηγικές χαρτογράφησης Read και ταυτοποίησης Μεταγράφου Οι τρεις βασικές στρατηγικές για τη διαδικασία της ανάλυση RNA-seq. 1. Όταν ένα σχολιασμένο γονιδίωμα είναι διαθέσιμο και τα reads χαρτογραφούνται στο γονιδίωμα με χρήση χαρτογραφητή χάσματος και στο αμέσως επόμενο βήμα είτε προβαίνει σε ανακάλυψη, ταυτοποίηση ή και καταμέτρηση μεταγράφων, έχοντας ή όχι σαν είσοδο, ένα αρχείο σχολιασμού. Τα νέα μετάγραφα είναι τότε λειτουργικά σχολιασμένα. 2. Όταν δεν απαιτείται νέα ανακάλυψη μεταγράφων, τα reads μπορούν να χαρτογραφηθούν στο μεταγράφωμα αναφοράς χρησιμοποιώντας έναν χωρίς διάκενα ευθυγραμμιστή. Η ταυτοποίηση και η ποσοτικοποίηση του μετάγραφου μπορούν να συμβούν ταυτόχρονα. 3. Όταν δεν υπάρχει διαθέσιμο γονιδίωμα, τα reads πρέπει να συγκεντρωθούν πρώτα σε contigs ή σε μετάγραφα. Για τον ποσοτικό προσδιορισμό τους, τα reads χαρτογραφούνται και πάλι στο νέο μεταγράφωμα αναφοράς και τότε η περαιτέρω ανάλυση γίνεται όπως στο δεύτερο βήμα ακολουθούμενη από το λειτουργικό σχολιασμό των νέων μεταγράφων όπως στο πρώτο βήμα. Ανακάλυψη Μεταγράφων Η ταυτοποίηση νέων μετάγραφων χρησιμοποιώντας τα κοντά reads που παρέχονται από την τεχνολογία Illumina είναι μία από τις πιο απαιτητικές εργασίες της RNA-seq διαδικασίας. Τα κοντά reads σπανίως εκτείνονται σε αρκετά σημεία ματίσματος και έτσι καθιστούν δύσκολη την άμεση εξαγωγή όλων των μεταγράφων πλήρους μήκους. Επιπλέον, είναι δύσκολο να προσδιοριστούν οι θέσεις έναρξης και λήξης της μεταγραφής [64] και 30

31 εργαλεία όπως το GRIT[65] που ενσωματώνουν διαφορετικά δεδομένα, όπως τα 5' άκρα από το CAGE ή το RAMPAGE, έχουν συνήθως περισσότερες πιθανότητες να σχολιάσουν σωστά τις κύρια εκφρασμένες ισομορφές. Σε κάθε περίπτωση, τα PE reads και η υψηλότερη κάλυψη βοηθά στην ανακατασκευή των χαμηλά εκφρασμένων μεταγράφων, και οι επαναλήψεις είναι απαραίτητες για τον περιορισμό ψευδών-θετικών εντοπισμών (calls) στο χαμηλό άκρο (low end) της ανίχνευσης σήματος. Αρκετές μέθοδοι, όπως αυτές των: Cufflinks[66], ireckon[67], SLIDE[68] και StringTie[69], ενσωματώνουν τους υπάρχοντες σχολιασμούς, προσθέτοντάς τους στην πιθανή λίστα ισομορφών. Η μέθοδος Montebello[70] επιτυγχάνει την ανακάλυψη ζευγών ισομορφής και την ποσοτικοποίηση χρησιμοποιώντας έναν αλγόριθμο Monte Carlo βασισμένο σε πιθανότητες για την ενίσχυση της απόδοσης. Τα εργαλεία εντοπισμού γονιδίων, όπως το Augustus[71], μπορούν να ενσωματώσουν RNA-seq δεδομένα για καλύτερο σχολιασμό των protein-coding μεταγράφων, αλλά έχουν χειρότερες επιδόσεις σε μη κωδικά μετάγραφα [72]. Γενικά, η ακριβής αναδόμηση των μεταγράφων από κοντά reads είναι δύσκολη και οι μέθοδοι τυπικά δείχνουν μία ουσιαστική δυσαρμονία[72]. Υπολογιστική ανακατασκευή μετάγραφου Όταν ένα γονιδίωμα αναφοράς δεν είναι διαθέσιμο ή είναι ατελές, τα RNA-seq reads μπορούν να συναρμολογηθούν de novo (Εικόνα 5c) σε ένα μεταγράφωμα χρησιμοποιώντας πακέτα όπως τα: SOAPdenovoTrans[73], Oases[74], Trans-ABySS[75] ή Trinity[76]. Γενικά, προτιμούνται PE strand-specific αλληλούχησης και μακριά reads, επειδή είναι πιο κατατοπιστικά[76]. Παρόλο που είναι αδύνατο να συναρμολογηθούν (assemble) χαμηλά εκφρασμένα μετάγραφα που δεν διαθέτουν επαρκή κάλυψη για αξιόπιστη συναρμολόγηση, πάρα πολλά reads είναι επίσης προβληματικά επειδή οδηγούν σε δυνητική κακή συναρμολόγηση και σε αυξημένη διάρκεια του χρόνου εκτέλεσης. Επομένως, συνιστάται η in silico μείωση του αριθμού των reads για δείγματα βαθιάς αλληλούχησης (deeply sequenced samples)[76]. Για συγκριτικές αναλύσεις μεταξύ των δειγμάτων, θα ήταν καλό να συνδυαστούν όλα τα reads από πολλαπλά δείγματα σε μία μόνο είσοδο ώστε να αποκτηθεί ένα ενοποιημένο σύνολο contigs (μεταγράφων), ακολουθούμενη από επαναχαρτογράφηση των κοντών reads για την εκτίμηση έκφρασης[76]. Τόσο με την αναφορά όσο και με την de novo διαδικασία, η ολική ανακατασκευή των μεταγραφωμάτων χρησιμοποιώντας την τεχνολογία της Illumina με κοντά-reads παραμένει ένα δύσκολο πρόβλημα, και σε πολλές περιπτώσεις η de novo συναρμολόγηση έχει ως αποτέλεσμα δεκάδες ή εκατοντάδες contigs που αντιπροσωπεύουν κατακερματισμένα μετάγραφα. Αναδυόμενες τεχνολογίες μακριών reads, όπως το SMRT της Pacific Biosciences, παρέχουν reads που είναι αρκετά μακριά για να αλληλουχήσουν ολόκληρα μετάγραφα στα περισσότερα γονίδια και αποτελούν μια πολλά υποσχόμενη εναλλακτική λύση. 31

32 Ποσοτικοποίηση μετάγραφων Η πιο κοινή εφαρμογή της RNA-seq είναι να υπολογίσει την έκφραση του γονιδίου και του μετάγραφου. Αυτή η εφαρμογή είναι πρωταρχικά, βασισμένη σε έναν αριθμό από reads, τα οποία χαρτογραφούνται σε κάθε αλληλουχία μετάγραφου, παρ όλα αυτά υπάρχουν αλγόριθμοι όπως ο Sailfish, που βασίζεται στην k-mer μέτρηση των reads χωρίς την ανάγκη για χαρτογράφηση[77]. Η απλούστερη προσέγγιση είναι η καταμέτρηση του συνόλου των ακατέργαστων (raw) χαρτογραφημένων reads χρησιμοποιώντας προγράμματα όπως το HTSeq-count[78] ή το featurecount[79]. Η προσέγγιση της ποσοτικοποίησης του επιπέδου γονιδίου, αντί του επιπέδου μετάγραφου, χρησιμοποιεί ένα αρχείο μορφής GTF (Gene Transfer Format)[80], περιέχοντας συντεταγμένες γονιδιώματος από εξόνια και γονίδια και συχνά απορρίπτει τα multi-reads. Οι μετρήσεις των ακατέργαστων reads από μόνες τους δεν είναι αρκετές για την σύγκριση των επιπέδων έκφρασης μεταξύ δειγμάτων, καθώς αυτές οι τιμές επηρεάζονται από παράγοντες όπως: το μήκος του μετάγραφου, το συνολικό αριθμό των reads και τα σφάλματα αλληλούχησης. Η μονάδα μέτρησης RPKM 8,9 (Reads Per Kilobase per Million mapped reads)[23] είναι μια μέθοδος κανονικοποίησης εντός του δείγματος που θα αφαιρέσει τα αποτελέσματα του χαρακτηριστικού μήκους και του μεγέθους της βιβλιοθήκης. Αυτή η μονάδα μέτρησης και τα επακόλουθα παράγωγά του, FPKM 10 (Fragments Per Kilobase per Million mapped reads), που είναι μια μονάδα μέτρησης της έκφρασης κανονικοποιημένου μετάγραφου εντός του δείγματος ανάλογη της RPKs και της TPM 11 (μετάγραφα ανά εκατομμύριο), είναι οι συχνότερες τιμές έκφρασης του γονιδίου που αναφέρονται στην RNA-seq διαδικασία. Θα πρέπει να σημειωθεί ότι οι μονάδες RPKM και FPKM είναι ισοδύναμες για τα SE reads και ότι η FPKM μπορεί να μετατραπεί σε TPM χρησιμοποιώντας έναν απλό τύπο[81]. Η διχοτόμηση εντός του δείγματος και οι συγκρίσεις μεταξύ δειγμάτων έχουν οδηγήσει σε μεγάλη σύγχυση τους ερευνητές. Η διόρθωση του μήκους του γονιδίου δεν είναι απαραίτητη όταν συγκρίνονται μεταβολές στην έκφραση του γονιδίου μέσα στο ίδιο γονίδιο μεταξύ των δειγμάτων, αλλά είναι απαραίτητη για τη σωστή ταξινόμηση των επιπέδων γονιδιακής έκφρασης μέσα στο δείγμα, ώστε να ληφθεί υπόψη το γεγονός ότι μακρύτερα γονίδια συσσωρεύουν περισσότερα reads. Επιπλέον, προγράμματα όπως τα Cufflinks που υπολογίζουν από τα δεδομένα το μήκος του γονιδίου, μπορούν να βρουν σημαντικές διαφορές στο μήκος του γονιδίου μεταξύ των δειγμάτων που δεν μπορούν να αγνοηθούν. Οι TPMs (Transcripts per Kilobase Millions), δείκτες που μετρούν τον αριθμό των 8 Reads ανά κιλοβάση του εξονίου ανά εκατομμύριο χαρτογραφημένων reads 9 RPKM=numReads/(geneLength/1000*totalNumReads/1,000,000), numreads είναι ο αριθμός χαρτογραφημένων reads σε μια αλληλυχία γονιδίου, genelength είναι το μήκος μιας αλληλουχίας γονιδίου και totalnumreads είναι ο συνολικός αριθμός χαρτογραφημένων reads ενός δείγματος 10 Fragments ανά κιλοβάση του εξoνίου ανά εκατομμύριο χαρτογραφημένων reads 11 Αριθμός μεταγράφων ανά εκατομμύριο κιλοβάσεις 32

33 μεταγράφων ανά εκατομμύρια κιλοβάσεις, θεωρούνται πιο συγκρίσιμοι μεταξύ δειγμάτων διαφορετικής προέλευσης και σύνθεσης, καθώς εξομαλύνουν αποτελεσματικά τις διαφορές ως προς τη σύνθεση των μεταγράφων στον παρονομαστή αντί απλώς να διαιρούνται με τον αριθμό των reads στη βιβλιοθήκη, παρόλα αυτά μπορούν να υποστούν ορισμένες αποκλίσεις. Αυτά πρέπει να αντιμετωπιστούν με τεχνικές κανονικοποίησης όπως ο TMM (Trimmed Mean of Values). Διάφοροι περίπλοκοι αλγόριθμοι έχουν αναπτυχθεί για την εκτίμηση της έκφρασης σε επίπεδο μετάγραφου, αντιμετωπίζοντας το πρόβλημα της ύπαρξης πάρα πολλών κοινών reads σε σχετικά μετάγραφα. Το Cufflinks[82] υπολογίζει την έκφραση μεταγράφων από μια χαρτογράφηση στο γονιδίωμα που λαμβάνεται από χαρτογράφους όπως ο TopHat, χρησιμοποιώντας μια προσέγγιση αναμενόμενης εκτίμησης μέγιστης πιθανοφάνειας (expectation-maximization) που εκτιμά τις αφθονίες των μεταγράφων. Αυτή η προσέγγιση λαμβάνει υπόψη σφάλματα όπως η μη ομοιόμορφη κατανομή των reads κατά μήκος του γονιδίου. Το Cufflinks είναι σχεδιασμένο για να επωφελείται από τα PE reads και να μπορεί να χρησιμοποιεί την πληροφορία GTF για να ταυτοποιεί εκφρασμένα μετάγραφα ή να μπορεί να βρίσκει de novo μετάγραφα μόνο από τα δεδομένα της χαρτογράφησης. Αλγόριθμοι για την ποσοτικοποίηση της έκφρασης από χαρτογραφήσεις μεταγραφώματος είναι μεταξύ άλλων οι εξής: RSEM (RNA-Seq by Expectation Maximization)[83], express[84], Sailfish[78]και kallisto[85]. Αυτές οι μέθοδοι, κατανέμουν τα multi-mapping reads μεταξύ των μεταγράφων και εξάγουν κανονικοποιήμενες τιμές διορθωμένες από σφάλματα αλληλούχησης[78][84][86]. Επιπλέον, ο αλγόριθμος RSEM χρησιμοποιεί μια προσέγγιση αναμενόμενης μεγιστοποίησης που επιστρέφει TPM τιμές[83]. Από την άλλη ο NURD[87] παρέχει έναν αποτελεσματικό τρόπο εκτίμησης της έκφρασης μετάγραφου από SE reads με χαμηλό υπολογιστικό κόστος. Ανάλυση διαφορικής γονιδιακής έκφρασης Η ανάλυση διαφορικής έκφρασης (Εικόνα 4b) απαιτεί ότι οι τιμές γονιδιακής έκφρασης πρέπει να συγκριθούν μεταξύ των δειγμάτων. Οι μονάδες μέτρησης RPKM, FPKM και TPM εξομαλύνουν το σημαντικότερο παράγοντα σύγκρισης των δειγμάτων, ο οποίος είναι το βάθος αλληλούχησης είτε άμεσα είτε μέσω υπολογισμού του αριθμού των μεταγράφων, ο οποίος μπορεί να διαφέρει σημαντικά μεταξύ των δειγμάτων. Αυτές οι προσεγγίσεις στηρίζονται σε μεθόδους κανονικοποίησης που βασίζονται σε ολικές ή στοχευμένες πληθικότητες (total or effective counts) και έχουν την τάση να έχουν χαμηλή απόδοση σε δείγματα με ετερογενείς κατανομές μετάγραφου, οι οποίες παραμορφώνονται από εξαιρετικά υψηλά διαφορικά εκφρασμένα χαρακτηριστικά[33][88]. Οι μέθοδοι κανονικοποίησης που το λαμβάνουν αυτό υπόψη είναι οι: TMM[89], DESeq[90], PoissonSeq[91] και UpperQuartile[33], οι οποίες αγνοούν ευμετάβλητα και υψηλά εκφρασμένα χαρακτηριστικά. Επιπλέον παράγοντες που παρεμποδίζουν τις συγκρίσεις ενδο-δείγματος περιλαμβάνουν: μεταβολές στο μήκος του μετάγραφου σε όλα τα δείγματα ή τις καταστάσεις [92], 33

34 σφάλματα θέσης στην κατά μήκος κάλυψη του μετάγραφου (οι οποίες υπολογίζονται μέσω Cufflinks), το μέσο μέγεθος θραυσμάτων[86] και η περιεκτικότητα/ποσότητα GC των γονιδίων (διορθωμένα στο πακέτο EDAseq[64]). Το πακέτο NOISeq στην R[40] περιέχει μια ευρεία ποικιλία διαγνωστικών διαγραμμάτων για τον εντοπισμό πηγών από σφάλματα σε δεδομένα RNA-seq και την εφαρμογή κατάλληλων διαδικασιών κανονικοποίησης σε κάθε περίπτωση. Τέλος, παρά τις στοχευμένες στο δείγμα (sample-specific) μεθόδους κανονικοποίησης, τα συστηματικά λάθη ενδέχεται να εξακολουθούν να υπάρχουν στα δεδομένα. Αυτά τα λάθη μπορούν να ελαχιστοποιηθούν με κατάλληλο πειραματικό σχεδιασμό[93] ή, εναλλακτικά, να απομακρυνθούν με μεθόδους διόρθωσης κατά παρτίδες όπως το COMBAT[94] ή το ARSyN[40][95]. Δεδομένου ότι η μέθοδος ποσοτικοποίησης RNA-seq, βασίζεται σε μετρήσεις reads που κατανέμονται απολύτως ή πιθανολογικά στα μετάγραφα, οι πρώτες προσεγγίσεις για τον υπολογισμό της διαφορικής έκφρασης χρησιμοποιούσαν διακριτές κατανομές πιθανοτήτων, όπως η Poisson ή αρνητική διωνυμική[90][96]. Η αρνητική διωνυμική κατανομή (γνωστή και ως κατανομή γάμμα-poisson) είναι μια γενίκευση της κατανομής Poisson, επιτρέποντας πρόσθετη διακύμανση (αποκαλούμενη υπερδιασπορά) πέρα από την αναμενόμενη διακύμανση από τυχαία δειγματοληψία από μια ομάδα μορίων που είναι χαρακτηριστικό των RNA-seq δεδομένων. Ωστόσο, η χρήση διακριτών κατανομών δεν απαιτείται για την ακριβή ανάλυση της διαφορικής έκφρασης, εφόσον λαμβάνεται υπόψη η διακύμανση δειγματοληψίας των μετρήσεων του small read (πολύ σημαντικό για πειράματα με μικρό αριθμό επαναλήψεων). Οι μέθοδοι για το μετασχηματισμό των κανονικοποιημένων μετρήσεων των RNA-seq reads, κατά την εκμάθηση της δομής διακύμανσης των δεδομένων, έχουν δειχθεί ότι αποδίδουν καλά σε σύγκριση με τις παραπάνω προσεγγίσεις διακριτής κατανομής[97][98]. Επιπλέον, μετά από εκτεταμένη κανονικοποίηση (συμπεριλαμβανομένης της απομάκρυνσης TMM και της παρτίδας), τα δεδομένα ενδέχεται να έχουν χάσει τη διακριτική φύση τους και να τείνουν περισσότερο προς τη συνεχή κατανομή. Ορισμένες μέθοδοι, όπως η edger στην R[99], λαμβάνουν ως είσοδο μετρήσεις ακατέργαστων reads και εισάγουν πιθανές πηγές σφάλματος μέσα σε ένα στατιστικό μοντέλο για την εκτέλεση μιας ολοκληρωμένης κανονικοποίησης καθώς και ανάλυσης διαφορικής έκφρασης. Σε άλλες μεθόδους, η διαφορική έκφραση απαιτεί την πρότερη κανονικοποίηση των δεδομένων για την απομάκρυνση όλων των πιθανών σφαλμάτων. Τόσο το DESeq2, όσο και το edger, χρησιμοποιεί την αρνητική διωνυμική ως κατανομή αναφοράς και παρέχει τη δική του προσέγγιση κανονικοποίησης[90][100]. Τα bayseq[101] και EBSeq[102] είναι προσεγγίσεις που βασίζονται στον Bayes, καθώς επίσης και στο μοντέλο της αρνητικής διωνυμικής, τα οποία ορίζουν μια συλλογή από μοντέλα με σκοπό την περιγραφή διαφορών μεταξύ των πειραματικών ομάδων ώστε να υπολογίσουν την εκ των υστέρων πιθανότητα καθεμιάς από αυτές για κάθε γονίδιο. Άλλες προσεγγίσεις περιλαμβάνουν μεθόδους μετασχηματισμού δεδομένων που λαμβάνουν υπόψη την 34

35 μεταβλητότητα δειγματοληψίας των μετρήσεων μικρού read και δημιουργούν διακριτές κατανομές έκφρασης γονιδίου που μπορούν να αναλυθούν με κανονικά γραμμικά μοντέλα [103]. Τέλος, μη παραμετρικές προσεγγίσεις, όπως η NOISeq[32] ή η SAMseq[103], κάνουν ελάχιστες υποθέσεις σχετικά με τα δεδομένα και εκτιμούν τη μηδενική κατανομή για τη διαφορική ανάλυση μόνο από τα πραγματικά δεδομένα. Σε μικρής κλίμακας μελέτες, που συγκρίνουν δύο δείγματα με ή χωρίς επαναλήψεις, η εκτίμηση της αρνητικής διωνυμικής κατανομής μπορεί να είναι θορυβώδης. Σε τέτοιες περιπτώσεις μία εναλλακτική λύση είναι απλούστερες μέθοδοι που βασίζονται, στην κατανομή Poisson, όπως η DEGseq[104] ή σε εμπειρικές κατανομές όπως η NOISeq. Αν και στις μεθόδους αυτές θα πρέπει να τονιστεί ότι σε περίπτωση απουσίας βιολογικής επανάληψης, ο υπολογισμός του πληθυσμού δεν μπορεί να πραγματοποιηθεί και επομένως οποιοσδήποτε υπολογισμός της τιμής p είναι άκυρος. Οι μέθοδοι ανάλυσης RNA-seq δεδομένων χωρίς επαναλήψεις, έχουν μόνο διερευνητική αξία. Πρόσφατες ανεξάρτητες μελέτες σύγκρισης απέδειξαν ότι η επιλογή της μεθόδου (ή ακόμη και η έκδοση ενός πακέτου λογισμικού) μπορεί να επηρεάσει σημαντικά το αποτέλεσμα της ανάλυσης και ότι καμία μέθοδος δεν μπορεί να αποδώσει ιδανικά σε κάθε σύνολο δεδομένων[98][105][106] (Παράθεμα 3). Συνεπώς, συνιστάται να τεκμηριώνονται λεπτομερώς οι ρυθμίσεις και οι αριθμοί έκδοσης των προγραμμάτων που χρησιμοποιούνται και να εξετάζεται η επανάληψη σημαντικών αναλύσεων χρησιμοποιώντας περισσότερα από ένα πακέτα. Παράθεμα 3: Σύγκριση των εργαλείων λογισμικού για την ανίχνευση της διαφορικής έκφρασης γονιδίου και μετάγραφου Πολλές στατιστικές μέθοδοι είναι διαθέσιμες για την ανίχνευση διαφορικής έκφρασης γονιδίου ή μετάγραφου από RNA-seq δεδομένα. Σημαντική πρόκληση αποτελεί, ο τρόπος επιλογής του καταλληλότερου εργαλείου για μια συγκεκριμένη εργασία ανάλυσης δεδομένων. Οι περισσότερες μελέτες σύγκρισης επικεντρώθηκαν σε προσομοιωμένα σύνολα δεδομένων[98][107][108] ή σε δείγματα στα οποία έχει προστεθεί γνωστής ποσότητας[105][43] εξωγενές RNA ("spike-in"). Αυτό επιτρέπει μια άμεση εκτίμηση της ευαισθησίας και της ακρίβειας των μεθόδων καθώς και του FDR ελέγχου τους. Δεδομένου ότι οι προσομοιώσεις συνήθως βασίζονται σε συγκεκριμένες στατιστικές κατανομές ή σε περιορισμένα πειραματικά σύνολα δεδομένων και δεδομένου ότι τα σύνολα δεδομένων τύπου spike-in αντιπροσωπεύουν μόνο τεχνητές επαναλήψεις με ελάχιστες διακυμάνσεις, οι συγκρίσεις χρησιμοποιώντας προσομοιωμένα σύνολα δεδομένων έχουν συμπληρωθεί με πιο πρακτικές συγκρίσεις σε πραγματικά σύνολα δεδομένων με πραγματικές βιολογικές επαναλήψεις[106][109][110]. Μέχρι στιγμής, δεν έχουν βρεθεί κοινά αποδεκτές βέλτιστες πρακτικές και ο τομέας συνεχίζει να εξελίσσεται ταχέως. Ωστόσο, έχουν γίνει κάποιες κοινά αποδεκτές διαπιστώσεις από πολλαπλές μελέτες σύγκρισης και με διαφορετικές ρυθμίσεις. Πρώτον, απαιτείται ειδική προσοχή σε όλες τις μεθόδους που ο αριθμός των δειγμάτων επανάληψης είναι πολύ μικρός ή όταν τα γονίδια εκφράζονται σε πολύ χαμηλά επίπεδα[97][106][108]. Όσον αφορά τα εργαλεία, το limma έχει αποδειχθεί ότι αποδίδει καλά κάτω από πολλές περιστάσεις και είναι επίσης το ταχύτερο στην εκτέλεση[98][105][106]. Το DESeq και το 35

36 edger εκτελούν παρόμοια κατάταξη στα γονίδια αλλά συχνά είναι είτε πολύ περιορισμένο στην μία περίπτωση (DeSeq) είτε πολύ παραμετροποιήσιμo στην άλλη (edger), όσον αφορά τον έλεγχο του FDR[105][108][109]. Επίσης και το SAMseq λειτουργεί καλά όσον αφορά το FDR αλλά παρουσιάζει αποδεκτή ευαισθησία όταν ο αριθμός των επαναλήψεων είναι σχετικά υψηλός, και συγκεκριμένα τουλάχιστον 10 [40][97][109]. Επίσης, τα εργαλεία NOISeq και NOISeqBIO 12 είναι πιο αποτελεσματικά στην αποφυγή ψευδών θετικών ταυτοποιήσεων (calls) αλλά με κόστος ευαισθησίας. Παρ όλα αυτά, λειτουργούν καλά με διαφορετικούς αριθμούς επαναλήψεων[32][40][111]. Τα εργαλεία Cuffdiff και Cuffdiff2 βρέθηκαν να έχουν χαμηλή απόδοση[98][105]. Αυτό πιθανότατα οφείλεται στο γεγονός ότι η ανίχνευση της διαφορικής έκφρασης σε επίπεδο μετάγραφου παραμένει δύσκολη και εμπεριέχει αβεβαιότητες όσον αφορά την ανάθεση των reads σε εναλλακτικές ισομορφές. Σε μια πρόσφατη σύγκριση, το BitSeq βρέθηκε σε ευνοϊκότερη θέση σε σχέση με άλλα πακέτα αναλύσεων επιπέδου μετάγραφου, όπως το Cuffdiff2[43]. Ουσιαστικά η πραγματική απόδοση είναι σημαντικός παράγοντας για την επιλογή του καταλληλότερου εργαλείου, άλλα πέραν αυτής και άλλα θέματα είναι σημαντικά για την επιλογή εργαλείου, όπως: η ευκολία εγκατάστασης και χρήσης, οι υπολογιστικές απαιτήσεις και η ποιότητα της τεκμηρίωσης και των οδηγιών. Τέλος, ένας επίσης σημαντικός παράγοντας κατά την επιλογή μιας μεθόδου ανάλυσης είναι ο πειραματικός σχεδιασμός. Ενώ μερικά από τα εργαλεία διαφορικής έκφρασης μπορούν να εκτελέσουν συγκρίσεις μόνο κατά ζεύγη και άλλα εργαλεία, όπως το edger, το limmavoom, το DESeq, το DESeq2 και το masigpro[112] εκτελούν πολλαπλές συγκρίσεις, περιλαμβάνοντας διαφορετικές συμμεταβλητές ή αναλύουν χρονοσειρές. Εναλλακτικές αναλύσεις ματίσματος Κατά τη χρήση της μεθόδου της RNA-seq, η ανάλυση διαφορικής έκφρασης σε επίπεδο μεταγραφής μπορεί δυνητικά να ανιχνεύσει αλλαγές στην έκφραση της μεταγραφής ισομορφών (transcript isoforms) από το ίδιο γονίδιο και για αυτό το λόγο έχουν προταθεί ειδικοί αλγόριθμοι για εναλλακτική ανάλυση επικεντρωμένοι στο μάτισμα (splicingfocused). Αυτές οι μέθοδοι διαμορφώνονται σε δύο μεγάλες κατηγορίες. Η πρώτη προσέγγιση, ενσωματώνει την εκτίμηση της έκφρασης ισομορφής με την ανίχνευση της διαφορικής έκφρασης για την ανακάλυψη των αλλαγών στην αναλογία κάθε ισομορφής εντός της συνολικής γονιδιακής έκφρασης. Μια παλιά μέθοδος, η BASIS, χρησιμοποίησε ένα ιεραρχικό Bayesian πρότυπο για να συναγάγει άμεσα διαφορικά εκφρασμένα μετάγραφα ισομορφών[113]. Στη συνέχεια μέσω του CuffDiff2 εκτιμάται πρώτα η έκφραση ισομορφών και στη συνέχεια συγκρίνονται οι διαφορές τους. Με την ενσωμάτωση των δύο αυτών βημάτων λαμβάνεται υπόψη κατά την εκτέλεση της στατιστικής ανάλυσης εύρεσης 12 Προσαρμοσμένο το NOISeq ειδικά για βιολογικές επαναλήψεις 36

37 της διαφορικής έκφρασης ισομορφής στο πρώτο κιόλας βήμα, η αβεβαιότητα[114]. Η FDM (Flow Difference Metric) μετράει τη διαφορά, χρησιμοποιώντας ευθυγραμμισμένα γραφήματα αθροιστικού μετάγραφου από χαρτογραφημένα reads εξoνίων και reads σύνδεσης για την εξαγωγή ισομορφών και την απόκλιση Jensen-Shannon[115]. Πρόσφατα, οι Shi και Jiang[116] πρότειναν μια νέα μέθοδο, την rseqdiff, η οποία χρησιμοποιεί μια δοκιμασία ιεραρχικής πιθανοτικής αναλογίας για να ανιχνεύσει ταυτόχρονα τη διαφορική γονιδιακή έκφραση χωρίς αλλαγή ματίσματος και τη διαφορική έκφραση ισομορφής. Όλες αυτές οι προσεγγίσεις ακριβής ταυτοποίησης σε επίπεδο ισομορφών, γενικά παρεμποδίζονται από τους εγγενείς περιορισμούς της αλληλούχησης κοντών reads[73]. Η αποκαλούμενη προσέγγιση exon-based παραλείπει την εκτίμηση της έκφρασης της ισομορφής και ανιχνεύει σήματα εναλλακτικού ματίσματος συγκρίνοντας τις κατανομές των reads στα εξόνια και τις συνδέσεις των γονιδίων μεταξύ των συγκρινόμενων δειγμάτων. Αυτή η προσέγγιση βασίζεται στην αρχή ότι οι διαφορές στην έκφραση της ισομορφής μπορούν να ανιχνευθούν στα σήματα των εξονίων και των junctions τους. Κάτι τέτοιο ενσωματώνεται στα πακέτα DEXseq[117] και DSGSeq της R[118], τα οποία κατά τον έλεγχο για σημαντικές διαφορές στις μετρήσεις των reads στα εξόνια (και στα junctions) των γονιδίων, υιοθετούν παρόμοιο τρόπο για την ανίχνευση spliced γονιδίων. Από την άλλη, το πακέτο rmats ανιχνεύει τη διαφορική χρήση των εξονίων κάνοντας σύγκριση των επιπέδων ένταξης εξονίων, τα οποία εξόνια ορίζονται με τα junction reads[119]. Επίσης το πακέτο rdiff ανιχνεύει τη διαφορική ισομορφική έκφραση συγκρίνοντας τις μετρήσεις ανάγνωσης σε εναλλακτικές περιοχές του γονιδίου με ή χωρίς σχολιασμένες εναλλακτικές ισομορφές[120]. Τέλος, το πακέτο DiffSplice χρησιμοποιεί διαγράμματα ευθυγράμμισης για τον εντοπισμό εναλλακτικών τμημάτων ματίσματος (alternative splicing modules- ASM) και προσδιορίζει τo διαφορικό μάτισμα χρησιμοποιώντας ASM σήματα[121]. Το πλεονέκτημα των μεθόδων εξονίου ή junction είναι η μεγαλύτερη ακρίβεια που παρέχουν στην αναγνώριση μεμονωμένων εναλλακτικών γεγονότων ματίσματος. Οι μέθοδοι βασισμένες σε εξόνιο είναι κατάλληλες όταν η μελέτη δεν εστιάζει σε ολόκληρες τις ισομορφές αλλά στην συμπερίληψη και τον αποκλεισμό συγκεκριμένων εξονίων και των λειτουργικών πρωτεϊνικών περιοχών (ή των ρυθμιστικών χαρακτηριστικών, στην περίπτωση μη μεταφρασμένης περιοχής εξονίων). Οπτικοποίηση Η οπτικοποίηση των RNA-seq δεδομένων (Εικόνα 4c) είναι παρόμοια με οποιουδήποτε άλλου τύπου δεδομένων γονιδιωματικής αλληλούχισης και μπορεί να γίνει ή σε επίπεδο reads (πχ χρησιμοποιώντας το ReadXplorer)[122] ή σε επίπεδο της επεξεργασμένης κάλυψης (read pileup), μη κανονικοποιημένη (για παράδειγμα, συνολικός αριθμός) ή κανονικοποιημένη, με τη χρήση προγραμμάτων περιήγησης γονιδιώματος (Genome Browser), όπως το πρόγραμμα περιήγησης UCSC[123], IGV (Integrative Genomics Viewer[124]. Ορισμένα εργαλεία οπτικοποίησης έχουν σχεδιαστεί ειδικά για την απεικόνιση πολλαπλών RNA-seq δειγμάτων, όπως το RNAseqViewer[125], το οποίο παρέχει ευέλικτους τρόπους για την εμφάνιση των αφθονιών των reads στα εξόνια, στα 37

38 μετάγραφα και στα junctions.. Τα ιντρόνια μπορούν να κρυφτούν για καλύτερη εμφάνιση των σημάτων στα εξόνια και οι χάρτες θερμότητας μπορούν να βοηθήσουν την οπτική σύγκριση των σημάτων σε πολλαπλά δείγματα, Εικόνα 7,8. Ωστόσο, το RNAseqViewer είναι πιο αργό από το IGV. Εικόνα 6: Απεικόνιση πολλαπλών RNA- seq δειγμάτων Εικόνα 7: Οπτικοποίηση σύγκρισης σημάτων σε πολλαπλά δείγματα 38

39 Εικόνα 8: Χάρτης θερμότητας Πηγές:[22] Μερικά από τα πακέτα λογισμικού για ανάλυση διαφορικής γονιδιακής έκφρασης (όπως το DESeq2 ή DEXseq στο Bioconductor) έχουν λειτουργίες που επιτρέπουν την οπτικοποίηση των αποτελεσμάτων, ενώ άλλα έχουν αναπτυχθεί αποκλειστικά για σκοπούς οπτικοποίησης, όπως το CummeRbund[114] ή το Sashimi, τα οποία μπορούν να χρησιμοποιηθούν για την οπτικοποίηση διαφορετικών ματισμένων (spliced) εξονίων[126]. Το πλεονέκτημα των διαγραμμάτων του Sashimi είναι ότι η απεικόνιση των σημείων (junctions) των reads είναι αισθητικά πιο ευχάριστη σε μικρό αριθμό δειγμάτων, Εικόνα 9. Στο Sashimi, η δομή και τα hive γραφήματα για τις θέσεις ματίσματος sqtl (splicing quantitative trait loci) μπορούν να ληφθούν με το SplicePlot[127]. Τα δε γραφήματα ματίσματος δημιουργούνται με το SpliceSeq[128], αλλά και το SplicingViewer[129] επισημαίνει τα σημεία και τα εναλλακτικά συμβάντα ματίσματος. Το TraV[130] είναι ένα εργαλείο οπτικοποίησης με δυνατότητες ανάλυσης δεδομένων, αλλά οι μέθοδοι ανάλυσης που προσφέρει δεν εφαρμόζονται σε μεγάλα γονιδιώματα, εξαιτίας της πολυπλοκότητας των μεταγραφωμάτων. Παρόλο που σήμερα τα εργαλεία εξελίσσονται ραγδαία κάνοντάς τα πιο σύνθετα και με αρκετά επιθυμητά χαρακτηριστικά, ουσιαστικά η αποτελεσματική οπτικοποίηση πληροφοριών πολλαπλών επιπέδων εξακολουθεί να αποτελεί μία πρόκληση. Παρ όλα αυτά, τα υπάρχοντα εργαλεία έχουν μεγάλη αξία για τη διερεύνηση αποτελεσμάτων σε μεμονωμένα γονίδια βιολογικού ενδιαφέροντος στην εκτίμηση του κατά πόσον τα αποτελέσματα των συγκεκριμένων αναλύσεων μπορούν να αντέξουν σε λεπτομερή έλεγχο ή στην αποκάλυψη πιθανών επιπλοκών που προκαλούνται από λανθασμένα ευρήματα (artifacts), όπως είναι οι: 3 biases ή οι πολύπλοκες μεταγραφικές δομές. Η απεικόνιση των αλλαγών στην κάλυψη του read για γονίδια θεωρείται πολύ σημαντική ή ενδιαφέρουσα ανάλογα με τα αποτελέσματα ανάλυσής τους για την αξιολόγηση της αξιοπιστίας των συμπερασμάτων από τους ερευνητές. 39

40 Εικόνα 9: Απεικόνιση junctions Ανακάλυψη γονιδίου σύντηξης Η ανακάλυψη των γονιδίων σύντηξης που μπορεί να προκύψει από χρωμοσωμικές ανακατατάξεις είναι αντίστοιχη με την ανακάλυψη μιας πρωτοεμφανιζόμενης ισομορφής, με τη διαφορά ότι στην πρώτη περίπτωση είναι πολύ μεγαλύτερος ο χώρος αναζήτησης, καθώς δεν ισχύει πλέον η υπόθεση ότι τα τμήματα μετάγραφου είναι συγγραμμικά σε ένα μόνο χρωμόσωμα. Τα artifacts είναι συνηθισμένα ακόμη και με τη χρήση εργαλείων τελευταίας τεχνολογίας, τα οποία απαιτούν εκ των υστέρων επεξεργασία με ευρετικά φίλτρα[131]. Τα artifacts προέρχονται κυρίως από την κακή ευθυγράμμιση των ακολουθιών των reads λόγω των πολυμορφισμών, της ομολογίας και των σφαλμάτων της αλληλούχησης. Οι οικογένειες ομόλογων και υψηλά πολυμορφικών γονιδίων όπως τα γονίδια HLA παράγουν reads που δεν μπορούν εύκολα να χαρτογραφηθούν μοναδικά στην τοποθεσία προέλευσής τους, δηλαδή στο γονιδίωμα αναφοράς. Για τα γονίδια με πολύ υψηλή έκφραση, ο μικρός αλλά μη αμελητέος ρυθμός σφάλματος της RNA-seq αλληλούχησης παράγει reads που ευθυγραμμίζονται λανθασμένα σε ομόλογες θέσεις, τότε συνιστάται το φιλτράρισμα υψηλά πολυμορφικών αλλά και ζευγαριών ομόλογων των γονιδίων[132][133]. Μια εναλλακτική πρόταση είναι το φιλτράρισμα γονιδίων με υψηλή έκφραση, ούτως ώστε να είναι απίθανο να εμπλέκονται σε συντήξεις γονιδίων, όπως το ριβοσωμικό RNA[132]. Τέλος, μια χαμηλή αναλογία χιμαιρικών προς wild-type reads, δηλαδή κοντά στο όριο σύντηξης, είναι πιθανό να υποδηλώνει ψευδή αναντιστοιχία (κακή χαρτογράφηση) των reads από ένα υψηλά εκφρασμένο γονίδιο[133]. Δεδομένης της επιτυχούς πρόβλεψης των χιμαιρικών αλληλουχιών, το επόμενο βήμα είναι η ιεράρχηση των γονιδιακών συντήξεων που έχουν βιολογική επίδραση σε ακόμα περισσότερες αναμενόμενες μορφές γονιδιωματικής παραλλαγής. Παραδείγματα αναμενόμενων παραλλαγών περιλαμβάνουν αναδιατάξεις ανοσοσφαιρίνης (IG) σε 40

41 δείγματα όγκων διαποτισμένα από κύτταρα ανοσίας, προσωρινά εκφρασμένα τρανσποζόνια (transposons) και πυρηνικό μιτοχονδριακό DNA, καθώς και reads μέσω χίμαιρων που παράγονται με συν-μεταγραφή γειτονικών γονιδίων[134]. Χρειάζεται πολύ προσοχή κατά τη διαδικασία του φιλτραρίσματος, ώστε να μην χαθούν γεγονότα μεγάλου ενδιαφέροντος. Για παράδειγμα, η αφαίρεση όλων των συντήξεων που εμπλέκουν ένα γονίδιο IG είναι πιθανό να απομακρύνει πραγματικές συντήξεις IG σε λεμφώματα και άλλες διαταραχές του αίματος. Κατά το φιλτράρισμα των συντήξεων είναι προτιμότερο και τα δύο γονίδια να προέρχονται από την περιοχή ανοσοσφαιρίνης IG. Οι προσωρινά εκφρασμένες αλληλουχίες σε γονιδιωματικά σημεία διακοπής (expressed genomic breakpoint sequences) που σχετίζονται με πραγματικές συντήξεις γονιδίου, συχνά αλληλοκαλύπτουν τα τρανσποζόνια. Αυτά θα πρέπει να φιλτραριστούν από το ίδιο ζεύγος γονιδίων αν δεν συσχετιστούν με επιπλέον συντήξεις ισόμορφων[135]. Όπου είναι δυνατόν, οι συντήξεις πρέπει να φιλτραριστούν μέσω της παρουσίας τους σε ένα σύνολο ελέγχου δεδομένων[133]. Όταν τα σύνολα δεδομένων ελέγχου δεν είναι διαθέσιμα, τα artifacts μπορούν να ταυτιστούν από την παρουσία τους σε ένα μεγάλο αριθμό μη σχετικών συνόλων δεδομένων, αποκλείοντας την πιθανότητα να αναπαριστούν πραγματικές επαναλαμβανόμενες συντήξεις[136][137]. Οι ισχυρές προβλέψεις σύντηξης αλληλουχίας, χαρακτηρίζονται από ξεχωριστές υποαλληλουχίες, που κάθε μία ευθυγραμμίζεται με υψηλή ακρίβεια σε ένα από τα συντηγμένα γονίδια. Καθώς η ακρίβεια ευθυγράμμισης είναι υψηλά συσχετισμένη με το μήκος της αλληλουχίας, όταν είναι μακρύτερη τότε αποτελεί ένδειξη ισχυρής πρόβλεψης, έχοντας μακρύτερες υπο-αλληλουχίες από κάθε γονίδιο. Μακρύτερα reads και μεγαλύτερα μεγέθη εισόδου παράγουν μακρύτερες προβλεπόμενες αλληλουχίες. Επομένως, είναι προτιμότερα PE RNA-seq δεδομένα με ακόμα μεγαλύτερο μέγεθος εισόδου παρά SE σύνολα δεδομένων ή σύνολα δεδομένων με κοντό μέγεθος εισόδου. Ένας άλλος δείκτης προβλεπτικής ικανότητας είναι το μάτισμα. Έχει βρεθεί ότι για τις περισσότερες γνωστές συντήξεις, το γονιδιωματικό σημείο διακοπής (breakpoint) βρίσκεται σε ένα ιντρόνιο κάθε γονιδίου[138] και το όριο σύντηξης συμπίπτει με μια θέση ματίσματος μέσα σε κάθε γονίδιο. Επιπλέον, οι συντήξεις ισομορφών ακολουθούν τα μοτίβα ματίσματος των wild-type γονιδίων. Έτσι, οι υψηλής ακρίβειας προβλέψεις έχουν όρια σύντηξης που συμπίπτουν με τα όρια εξονίου και τα εξόνια που ταιριάζουν με wild-type εξόνια[137]. Τα εργαλεία ανακάλυψης της σύντηξης συχνά ενσωματώνουν ορισμένες από τις προαναφερθείσες ιδέες για να ταξινομήσουν τις προβλέψεις σύντηξης[139][140], αν και στις περισσότερες μελέτες εφαρμόζονται πρόσθετα προσαρμοσμένα ευρετικά φίλτρα για να παράγουν έναν υψηλής ποιότητας κατάλογο υποψήφιων συντήξεων[136][137][141]. Μικρά RNAs Η επόμενης γενιάς αλληλούχηση αντιπροσωπεύει μια ολοένα και πιο δημοφιλή μέθοδο για την αντιμετώπιση ζητημάτων που αφορούν τους βιολογικούς ρόλους των μικρών RNAs (srnas). Τα srnas είναι συνήθως μήκους 18 με 34 νουκλεοτιδίων και περιλαμβάνουν mirnas, μικρά παρεμβαλλόμενα RNA (small interfering RNAs, sirnas) και πρόκειται για RNAs που αλληλεπιδρούν με PIWI (pirnas) και άλλες κατηγορίες ρυθμιστικών 41

42 μορίων. Οι srna-seq βιβλιοθήκες σπάνια αλληλουχίζονται τόσο βαθιά όσο οι κανονικές βιβλιοθήκες RNA-seq λόγω έλλειψης πολυπλοκότητας, με ένα τυπικό εύρος 2 με 10 εκατομμυρίων reads. Η βιοπληροφορική ανάλυση των srna-seq δεδομένων διαφέρει από τα κλασσικά RNA-seq πρωτόκολλα, Εικόνα 4c. Ο συνδεδεμένος προσαρμογέας αλληλουχιών πρώτα τριμάρεται και υπολογίζεται η προκύπτουσα κατανομή του μήκους του read. Στα ζώα συνήθως, υπάρχουν κορυφές για 22 και 23 νουκλεοτίδια, ενώ αντίστοιχα στα φυτά υπάρχουν για 21- και 24- νουκλεοτιδικά περιττών reads. Για παράδειγμα, το mirtools 2.0[142], ένα εργαλείο για την πρόβλεψη και την ταυτοποίηση των ειδών srna, χρησιμοποιεί εξ ορισμού reads μήκους βάσεων. Η τιμή κατωφλίου εξαρτάται από την εφαρμογή (λογισμικό) και για την περίπτωση των mirnas είναι συνήθως στο εύρος των νουκλεοτιδίων. Όπως και στην πρότυπη RNA-seq διαδικασία, τα srna reads πρέπει στη συνέχεια να ευθυγραμμιστούν σε ένα γονιδίωμα αναφοράς ή σε αλληλουχίες μεταγραφώματος χρησιμοποιώντας πρότυπα εργαλεία, όπως οι ευθυγραμμιστές : Bowtie2[143], STAR[51] ή Burrows-Wheeler (BWA)[144]. Ωστόσο, υπάρχουν ορισμένοι ευθυγραμμιστές (όπως ο PatMaN[145] και ο MicroRazerS[146]) που σχεδιάστηκαν για να χαρτογραφήσουν κοντές ακολουθίες με εύρος τιμών συγκεκριμένων παραμέτρων κατάλληλων για τη βέλτιστη ευθυγράμμιση κοντών reads. Η ίδια η χαρτογράφηση μπορεί να πραγματοποιηθεί με ή χωρίς αναντιστοιχίες, όπου η τελευταία χρησιμοποιείται συχνότερα. Επιπρόσθετα, τα reads που χαρτογραφούν πέραν ενός προκαθορισμένου αριθμού τοποθεσιών είναι πιθανό να αφαιρούνται καθώς υποθετικά προέρχονται από επαναλαμβανόμενα στοιχεία. Στην περίπτωση των mirnas, επιτρέπονται συνήθως 5-20 διακριτές χαρτογραφήσεις ανά γονιδίωμα. Τα srna reads υπολογίζονται απλά για να ληφθούν οι τιμές έκφρασης. Ωστόσο, οι χρήστες θα πρέπει επίσης να επαληθεύσουν ότι τα srna reads τους δεν είναι σημαντικά μολυσμένα από αλλοιωμένο (degraded) mrna, για παράδειγμα, ελέγχοντας αν μια βιβλιοθήκη mirna εμφανίζει απροσδόκητη κάλυψη από reads πάνω στο σώμα υψηλά εκφρασμένων γονιδίων, όπως το GAPDH ή το ACTB. Περαιτέρω βήματα ανάλυσης περιλαμβάνουν σύγκριση με γνωστά srnas και de novo ταυτοποίηση των srnas. Γι αυτό το σκοπό υπάρχουν εργαλεία ειδικής κατηγορίας, όπως το mirdeep[147] για τα mirnas των ζώων και το mirdeep-p[148] για των φυτών, αντίστοιχα ή το εργαλείο πρόβλεψης trans-acting sirna 13 στο UEA srna Workbench[149]. Τέλος, υπάρχουν επίσης εργαλεία όπως το mirtools 2.0[142], το 13 Small interfering RNA (sirna), είναι μια κατηγορία μορίων double-stranded RNA, με μήκος ζεύγη βάσεων, παρόμοια με τα mirna, και λειτουργούν εντός του μονοματιού RNA interference (RNAi). Επεμβαίνει στην έκφραση συγκεκριμένων γονιδίων με συμπληρωματικές αλληλουχίες νουκλεοτιδίων αποικοδομόντας το mrna μετά τη μεταγραφή, αποτρέποντας τη μετάφραση. 42

43 ShortStack[150] και το imir[151] για το συνολικό σχολιασμό των βιβλιοθηκών srna και για την αναγνώριση διαφορετικών κατηγοριών τους Λειτουργική ταυτοποίηση με RNA-seq Το τελευταίο βήμα σε μια τυπική μελέτη μεταγραφωμικής (Εικόνα 4b) είναι συνήθως ο χαρακτηρισμός των μοριακών λειτουργιών ή μονοπατιών στα οποία εμπλέκονται διαφορικά εκφρασμένα γονίδια (DEGs). Οι δύο βασικές προσεγγίσεις για το λειτουργικό χαρακτηρισμό που αναπτύχθηκαν πρώτα για την τεχνολογία μικροσυστοιχιών είναι (α) η σύγκριση μιας λίστας των DEGs σε σχέση με το υπόλοιπο του γονιδιώματος για τις λειτουργίες που υπερεκπροσωπούνται και (β) η ανάλυση εμπλουτισμού γονιδίων (GSEA), η οποία βασίζεται στην κατάταξη του μεταγραφώματος σύμφωνα με την μέτρηση της διαφορικής έκφρασης. Στην RNA-seq διαδικασία, όταν στα δεδομένα υπάρχουν αποκλίσεις όπως το μήκος του γονιδίου, περιπλέκουν τις άμεσες εφαρμογές αυτών των μεθόδων και γι αυτό τον λόγο έχουν προταθεί ειδικά εργαλεία seq. Ένα τέτοιο εργαλείο είναι το GOseq[152], το οποίο εκτιμά αποκλίσεις (όπως το μήκος γονιδίου) στα αποτελέσματα της διαφορικής έκφρασης και προσαρμόζει την παραδοσιακή υπεργεωμετρική στατιστική που χρησιμοποιείται στον λειτουργικά εμπλουτισμένο έλεγχο. Παρομοίως, το GSVA (Gene Set Variation Analysis)[153] ή το πακέτο SeqGSEA[154] συνδυάζουν το μάτισμα και εφαρμόζουν αναλύσεις εμπλουτισμού παρόμοιες με την ανάλυση GSEA. Η λειτουργική ανάλυση, για το υπό μελέτη μεταγράφωμα, απαιτεί τη διαθεσιμότητα επαρκών σχολιασμένων λειτουργικών δεδομένων. Πόροι όπως η Gene Ontology[155], ο Bioconductor[156], το DAVID[157][158] ή το Babelomics[159] περιέχουν σχολιασμένα δεδομένα για τις περισσότερες κατηγορίες μοντέλων. Ωστόσο, διαφορετικά μετάγραφα, που ανακαλύφθηκαν κατά τη διάρκεια της de novo συναρμολόγησης ή ανασυγκρότησης μεταγραφώματος, θα στερούνται τουλάχιστον κάποιας λειτουργικής πληροφορίας και συνεπώς ο σχολιασμός είναι απαραίτητος για τη λειτουργική ταυτοποίηση αυτών των αποτελεσμάτων. Τα Protein-coding μετάγραφα μπορούν να σχολιαστούν λειτουργικά χρησιμοποιώντας την ορθολογία αναζητώντας παρόμοιες αλληλουχίες σε πρωτεϊνικές βάσεις δεδομένων όπως η SwissProt[160] και σε βάσεις δεδομένων που περιέχουν διατηρημένες πρωτεϊνικές περιοχές όπως η Pfam[161] και η InterPro[162]. Η χρήση πρότυπων λεξιλογίων, όπως η Gene Ontology (GO), επιτρέπει κάποια αντικατάσταση λειτουργικών πληροφοριών στα ορθόλογα. Δημοφιλή εργαλεία όπως το Blast2GO [163] επιτρέπουν το μαζικό σχολιασμό πλήρων μεταγραφωμικών συνόλων δεδομένων αντί ποικίλων βάσεων δεδομένων και ελεγχόμενων λεξιλογίων. Συνήθως, μεταξύ 50 και 80% της ανασύνταξης των μεταγράφων από τα δεδομένα RNA-seq μπορούν να σχολιαστούν με λειτουργικούς όρους με τον παραπάνω τρόπο. Ωστόσο, τα δεδομένα RNA-seq αποκαλύπτουν επίσης ότι ένα σημαντικό κομμάτι του μεταγραφώματος στερείται της protein-coding δυνατότητας. Ο λειτουργικός σχολιασμός αυτών των μακρών μη κωδικών RNAs (long non-coding RNAs) αποτελεί μεγαλύτερη πρόκληση καθώς η διατήρησή τους συνήθως δεν είναι τόσο έντονη όσο αυτής των γονιδίων που κωδικοποιούν πρωτεΐνες (protein-coding). Η βάση δεδομένων Rfam[164] περιέχει τις πιο καλά χαρακτηρισμένες 43

44 οικογένειες RNA, όπως τα ριβοσωμικά ή μεταφορικά RNA, ενώ η mirbase[165] ή η Miranda[166] εξειδικεύονται σε mirnas. Αυτοί οι πόροι μπορούν να χρησιμοποιηθούν για παρόμοιο σχολιασμό των κοντών μη κωδικών RNA, αλλά δεν υπάρχουν ακόμη διαθέσιμες πρότυπες (standard) διαδικασίες λειτουργικού σχολιασμού για άλλους τύπους RNA όπως τα μακρά μη κωδικοποιημένα RNAs RNA-seq Vs Microarrays Η τεχνολογία αλληλούχησης RNA (RNA-Seq) επιτρέπει την ταχεία δημιουργία προφίλ και τη βαθιά διερεύνηση του μεταγραφώματος. Αυτή η προσέγγιση προσφέρει πολλά πλεονεκτήματα σε σύγκριση με άλλες τεχνολογίες όπως οι μικροσυστοιχίες[167]. Τα κύρια οφέλη της τεχνολογίας RNA-Seq έναντι των μικροσυστοιχιών προσδιορίζονται ως εξής[168]: Αντικειμενική ανίχνευση νέων μετάγραφων. Σε αντίθεση με τις συστοιχίες, η τεχνολογία RNA-Seq δεν απαιτεί ειδικούς ανιχνευτές ειδών (species) ή μεταγράφων. Μπορεί να ανιχνεύσει νέα μετάγραφα, συντήξεις γονιδίων, παραλλαγές μονονουκλεοτιδίου, indels (μικρές εισαγωγές και διαγραφές) και άλλες προηγούμενες άγνωστες αλλαγές που οι συστοιχίες δεν μπορούν να ανιχνεύσουν. Ευρύτερο δυναμικό εύρος Με την τεχνολογία υβριδισμού συστοιχιών, η μέτρηση της γονιδιακής έκφρασης περιορίζεται από το υπόβαθρο στο χαμηλό τέλος και τον κορεσμό του σήματος στο υψηλό τέλος της νουκλεοτιδικής αλυσίδας. Η τεχνολογία RNA-Seq ποσοτικοποιεί διακριτές, ψηφιακές μετρήσεις αλληλουχίας read, προσφέροντας ένα ευρύτερο δυναμικό εύρος. Αυξημένη ακρίβεια και ευαισθησία: Σε σύγκριση με τις μικροσυστοιχίες, η τεχνολογία RNA-Seq προσφέρει αυξημένη ακρίβεια και ευαισθησία, για βελτιωμένη ανίχνευση γονιδίων, μεταγράφων και διαφορικής έκφρασης. Ευκολότερη ανίχνευση σπάνιων και χαμηλής αφθονίας μεταγράφων: Το βάθος κάλυψης αλληλούχησης μπορεί εύκολα να αυξηθεί για την ανίχνευση σπάνιων μεταγράφων, μοναδικών μεταγράφων ανά κύτταρο ή ασθενώς εκφρασμένων γονιδίων. Μπορεί να είναι δυνατή η απομόνωση του RNA ταυτόχρονα από ξενιστές και παθογόνα, για ταυτόχρονη ταυτοποίηση των αλλαγών του RNA και στα δύο (αυτό ονομάζεται και "διπλό RNA-seq"[169]). H RNA-seq διαδικασία είναι πιο χρήσιμη από τις μικροσυστοιχίες για πρόσθετους σκοπούς όπως[11]: 44

45 η μέτρηση της αφθονίας των μεταγράφων η ταυτοποίηση μεταγράφων για τη βελτίωση σχολιασμού γονιδίων και η de novo μεταγραφική συναρμολόγηση. 45

46 2. Κεφάλαιο Δεύτερο: Εργαλεία Ανάλυσης δεδομένων αλληλούχησης RNA 2.1. Γενικά εργαλεία ανάλυσης δεδομένων αλληλούχησης RNA Ενώ η ανάπτυξη μεθόδων για τη βελτίωση του pipeline της RNA-seq διαδικασίας για την επεξεργασία δεδομένων και την ανάλυση βρίσκεται σε εξέλιξη, έχουν προταθεί και χρησιμοποιούνται ευρέως πρωτόκολλα για τα τυπικά βήματά της. Αρκετές διεπαφές χρηστών έχουν αναπτυχθεί για την πρόσβαση σε τέτοια βήματα ανάλυσης οι οποίες βοηθούν τους επιστήμονες χωρίς εκτενή γνώση των εργαλείων γραμμής εντολών. Έπειτα από μια συστηματική αναζήτηση και αξιολόγηση τέτοιων διεπαφών έχουν εντοπιστεί συνολικά εικοσιεννιά διεπαφές ανοικτού κώδικα και έξι από τις ευρύτερα χρησιμοποιούμενες διεπαφές αξιολογούνται λεπτομερώς παρακάτω. Κεντρικά κριτήρια αξιολόγησης είναι η ευκολία διαμόρφωσης, τεκμηρίωσης, χρηστικότητας, υπολογιστικής ζήτησης και αναφοράς (reporting). H Massively parallel RNA-sequencing (RNA-seq) έχει γίνει το μέσο για την ανάλυση μεταγραφώματος[170][171][23]. Η RNA-seq διαδικασία διευκολύνει τη διάγνωση ασθένειας και τον εντοπισμό πιθανών μοριακών στόχων για θεραπευτική παρέμβαση, επιτρέποντας τον ποσοτικό προσδιορισμό των αλλαγών στα επίπεδα έκφρασης και την ανίχνευση εναλλακτικού ματίσματος [172][173]. Αν και αυτή η μέθοδος έχει γίνει ο ακρογωνιαίος λίθος των σύγχρονων εργαστηρίων επιστήμης της ζωής, πραγματοποιείται γενικά από τους βιοπληροφορικούς[174]. Ένας από τους λόγους είναι ο τεράστιος όγκος των δεδομένων που δημιουργούνται. Για παράδειγμα, οι πλατφόρμες προσδιορισμού αλληλουχίας μπορούν να δημιουργήσουν terabyte δεδομένων σε ένα μόνο τρέξιμο αλληλούχησης ( όπου πολλά σύνολα δεδομένων αλληλουχίζονται στο πεδίο εφαρμογής μιας συγκεκριμένης εργασίας. Για την εξαγωγή χρήσιμων πληροφοριών από αυτό το τεράστιο όγκο δεδομένων, απαιτούνται υπολογιστικές δεξιότητες και πόροι[175]. Με τη συνεχή μείωση του κόστους και της ταχύτητας της αλληλούχησης καθώς και της αποδοτικότητας που ανεβαίνει εκθετικά[176], ίσως είναι πιο σημαντικό να αλλάξουν στο ελάχιστο μερικά βήματα ανάλυσης, χρησιμοποιώντας τυποποιημένα εργαλεία με εύχρηστες διεπαφές. Αυτό έχει επίσης τη δυνατότητα ενίσχυσης της επικοινωνίας μεταξύ των επιστημόνων ζωής και των βιοπληροφορικών/στατιστικολόγων, οι οποίοι είναι απαραίτητοι για την παροχή μεθοδολογικών ορθών αναλύσεων. Ακολουθεί μια επισκόπηση όλων των διεπαφών ανοιχτού κώδικα που βρέθηκαν, μια αξιολόγηση των συχνότερων χρησιμοποιούμενων διεπαφών και γενικών τεχνικών ζητημάτων που ενδέχεται να προκύψει κατά τη χρήση των διεπαφών. 46

47 Οι διεπαφές μπορούν να ταξινομηθούν σε γραμμής εντολών, τοπικές γραφικές διεπαφές χρήστη (GUI) και διαδικτυακές. Συγκεκριμένα, διαφέρουν στον αριθμό των βημάτων εργασίας τους. Μόνο 13 από τις 29 διεπαφές που βρέθηκαν επιτρέπουν μια ολοκληρωμένη ανάλυση, ενώ 20 από αυτές συμπεριλαμβάνουν τη χαρτογράφηση και τη ποσοτικοποίηση. Άλλες διεπαφές επικεντρώνονται μόνο στη ποσοτικοποίηση και την ανάλυση διαφορικής έκφρασης. Επιλεγμένες διεπαφές: RNASeqGUI Το εργαλείο RNASeqGUI[177] παρέχει μια διεπαφή σε πολλές υπάρχουσες μεθόδους για την ανίχνευση DE (Διαφορικής Έκφρασης) (edger, DESeq, DESeq2, NoiSeq[178] και BaySeq) και επιστρέφει μια γραφική σύγκριση των αντίστοιχων αποτελεσμάτων χρησιμοποιώντας διαγράμματα Venn. Επιπροσθέτως, επιτρέπει τη σαφή/απλή δημιουργία μιας ποικιλίας άλλων γραφικών απεικονίσεων (π.χ. χάρτες θερμότητας, boxplots, PCA, MDPlot και γράφημα Vulcano). Το RNASeqGUI εκτελείται σε λειτουργικά συστήματα Linux, Windows και Macintosh. Ακόμα, η ροή εργασίας αρχίζει από τα ευθυγραμμισμένα δεδομένα αλληλουχίας με την αναζήτηση των BAM αρχείων, μονών ή κατά ζεύγη άκρων, και τη διαδικασία καταμέτρησης. Για αυτόν τον τελευταίο σκοπό, χρειάζεται ένα αρχείο σχολιασμού γονιδίων (σε μορφή GTF). Όσο για τη μέτρηση των reads, είναι μια υπολογιστικά απαιτητική εργασία που εκτελείται με τη χρήση του πακέτου R GenomicRanges. Galaxy Η πλατφόρμα του Galaxy, η οποία είναι διαθέσιμη στη διεύθυνση επιτρέπει στους χρήστες να εκτελούν, να αναπαράγουν και να μοιράζονται ολοκληρωμένες αναλύσεις γονιδιώματος[179]. Παρέχεται σε δημόσιο διακομιστή ή μέσω τοπικής εγκατάστασης, η οποία είναι τεχνικά πιο δύσκολο να δημιουργηθεί. Κάθε βήμα μιας τυπικής ανάλυσης RNA-seq μπορεί να εκτελεστεί μεμονωμένα ή να συνδυαστεί σε μία ροή εργασίας. Οι ροές εργασίας του Galaxy είναι δομημένες ως ένα πρότυπο ανάλυσης ώστε ο χρήστης να μπορεί να εκτελεί επανειλημμένα σε διαφορετικά δεδομένα, καθώς και να τροποποιεί για να προσαρμόζεται σε νέα σενάρια. Επιπλέον, το Galaxy επιτρέπει την ανταλλαγή δεδομένων, ιστορικών και ροών εργασίας σε όλους τους συνεργάτες μέσω απλών συνδέσμων ιστού. Ο Galaxy παρέχει πολλά εργαλεία για QC (Ποιοτικό Έλεγχο) και φιλτράρισμα, όπως το FastQC και το FASTX ( καθώς και εργαλεία για οπτικοποίηση. Επιπλέον, το εργαλείο FASTQ Groomer επιτρέπει στο χρήστη να μετατρέπει μεταξύ διαφορετικών μορφών ποιότητας FASTQ. Ο χρήστης, για το βήμα της ευθυγράμμισης, έχει την δυνατότητα να επιλέξει μεταξύ του Bowtie2, του Tophat2 και του BWA. Το Galaxy παρέχει ακόμα τα εργαλεία Cufflinks, Cuffmerge και Cuffdiff [180] για την ποσοτικοποίηση και την ανίχνευση της DE και μπορούν συνεπώς να χρησιμοποιηθούν για το πρωτόκολλο Tuxedo. Επιπλέον, το Galaxy επιτρέπει την ταυτοποίηση εναλλακτικών ματισμάτων και γονιδίων σύντηξης. Μπορεί επίσης να χρησιμοποιηθεί για αναλύσεις όπως ChIP-seq, μεταγονιδιωματική ανάλυση και ταυτοποίηση γονιδιακών παραλλαγών. 47

48 PRADA Το PRADA (Pipeline for RNA-Sequencing Data Analysis)[181] είναι μια πλατφόρμα λογισμικού για τον προσδιορισμό της ποσοτικής έκφρασης σε ανθρώπινα ζευγαρωτά RNAseq δεδομένα και επιπλέον για την ανίχνευση υποψηφίων γονιδίων σύντηξης. Το PRADA απαιτεί ειδικά αρχεία αναφοράς, τα οποία μπορούν να ανακτηθούν από τον ιστότοπο του. Ένα αρχείο ρυθμίσεων πρέπει να επεξεργάζεται σύμφωνα με τις πειραματικές συνθήκες. Το PRADA είναι γραμμένο σε Python και λειτουργεί σε περιβάλλον γραμμής εντολών σε συστήματα Unix. Μια εντολή δημιουργεί ένα αυτόνομο shell script για την εκτέλεση ποιοτικού ελέγχου και την παραγωγή κανονικοποιημένων δεδομένων έκφρασης RPKM, ξεκινώντας από ένα αρχείο BAM ή από τα ζευγαρωτά FASTQ αρχεία με τη χρήση BWA, GATK[182], Picard, samtools[183] και RNASeQC[184]. Αυτή η εντολή μπορεί να προσαρμοστεί στις ανάγκες των χρηστών. Το PRADA επιτρέπει επίσης να δημιουργηθεί ένας από τους πέντε άλλους τύπους αυτόνομων scripts, για την ανίχνευση με ή χωρίς επιτήρηση μετάγραφων σύντηξης, παραλλαγών σύντηξης, βαθμολογιών ομολογίας και ταξινόμησης πλαισίου σύντηξης. ArrayExpressHTS Το εργαλείο ArrayExpressHTS[185] είναι μια διεπαφή βασισμένη στο λογισμικό ανοικτού κώδικα R/Bioconductor ( για ποιοτικό έλεγχο, χαρτογράφηση και ποσοτικοποίηση RNA-seq δεδομένων. Χρησιμοποιεί τα εργαλεία TopHat, Bowtie, BWA ή άλλα εργαλεία με προσαρμοσμένη (custom) ευθυγράμμιση και διαθέτει για ποσοτικοποίηση το Cufflinks και το MMSEQ[186]. Για την ανάλυση DE, προτείνονται στο εγχειρίδιο του t-test και τεστ αναλογίας πιθανοτήτων (σε σύγκριση με τη χρήση του edger ή του DESeq). Το ArrayExpressHTS εκτελεί περικοπή (trimmed) μέσω κανονικοποίησης, παρόμοια με του edger. Επιπλέον, μπορεί να χρησιμοποιηθεί τόσο σε τοπικές (local) περιπτώσεις του R είτε μέσω της ελεύθερης υπηρεσίας R Cloud[185]. Σε αντίθεση με τη λύση του R Cloud, η τοπική εγκατάσταση, αποφεύγει την εγκατάσταση εξαρτήσεων και τη διαμόρφωση των ακολουθιών αναφοράς και σχολιασμών. Η τοπική εγκατάσταση του ArrayExpressHTS λειτουργεί μόνο σε συστήματα Unix, ενώ η υπηρεσία R Cloud είναι ανεξάρτητη από την πλατφόρμα. Η διεπαφή δέχεται δεδομένα FASTQ, μονών ή κατά ζεύγη άκρων, ως αρχεία εισόδου, τα οποία μπορούν επίσης να είναι προσβάσιμα μέσω της πύλης ArrayExpress. EasyRNASeq Το EasyRNASeq[187] είναι ένα πακέτο διαθέσιμο στο Bioconductor και τρέχει σε Windows, Mac OS X και Linux. Το EasyRNASeq βασίζεται σε μία μεθοδολογία περιτιλήγματος wrapper για την επιλογή χαρακτηριστικών και την ταξινόμηση και ποσοτικοποιεί τo μετάγραφο ή την αφθονία του γονιδίου από δεδομένα ευθυγραμμισμένης αλληλουχίας μονών ή κατά ζεύγη άκρων, που παρέχονται ως ένα σύνολο BAM αρχείων. Τα δεδομένα σχολιασμού μπορούν να εισαχθούν μέσω του πακέτου biomart του Bioconductor[188][189] ή εναλλακτικά παρέχονται ως GTF/GFF αρχεία. Το EasyRNASeq επιστρέφει μια δομή που μοιάζει με μήτρα/πίνακα και περιέχει τον αριθμό των reads που ευθυγραμμίζονται σε γονίδια ή μετάγραφα (σε σειρές), μία στήλη για κάθε βιβλιοθήκη 48

49 αλληλούχησης, καθώς και ένα αντικείμενο (object) R το οποίο μπορεί να επεξεργαστεί περαιτέρω από άλλες διαδικασίες που είναι διαθέσιμες στο Bioconductor (π.χ., edger ή DESeq). Ένα επιπλέον πλεονέκτημα του easyrnaseq είναι ότι μπορεί να χρησιμοποιηθεί για αποπολυπλεξία (de-multiplexing) δειγμάτων. RobiNA Το RobiNA[190] είναι ένα γραφικό περιβάλλον χρήστη που επιτρέπει την εκτέλεση όλων των βημάτων ανάλυσης από το φιλτράρισμα ελέγχου ποιότητας μέχρι την ανίχνευση διαφορικά εκφρασμένων γονιδίων και είναι επίσης ικανό να δημιουργεί γραφικά συνοπτικά διαγράμματα και λεπτομερή πίνακα αποτελεσμάτων. Το τμήμα της ευθυγράμμισης της RobiNA χρησιμοποιεί το Bowtie και δέχεται μόνο αρχεία FASTQ μονού άκρου. Εναλλακτικά, τα αρχεία BAM ή ο πίνακας μέτρησης έχουν τη δυνατότητα να χρησιμεύσουν ως σημεία εισόδου για τη ροή εργασίας. Η διεπαφή παρέχει έξι ενότητες για τον ποιοτικό έλεγχο και ενότητες για την επεξεργασία reads πριν από τα επόμενα βήματα ανάλυσης. Ακόμα, προσφέρει τη δυνατότητα δημιουργίας RPKM κανονικοποιημένων δεδομένων έκφρασης και την επιλογή μεταξύ των πακέτων R, edger και DESeq[191] για την ανίχνευση διαφορικά εκφρασμένων γονιδίων. Το RobiNA λειτουργεί στα λειτουργικά συστήματα των Windows, Mac OS X και Linux. Το RobiNA μπορεί επίσης να χρησιμοποιηθεί για ανάλυση δεδομένων μικροσυστοιχειών. Διεπαφές ΠΕ/ Φιλτ. ΔΕ Εναλακτικά Ματίσμα Λογισμικό Linux, MAC, WINDOWS Επεκτάσιμο Downloads (ανα χρόνο) Τελευταία έκδοση URL ArrayExpress HTS Ναι / Όχι Όχι No R/cloud Ναι / Ναι / Ναι Όχι ac.uk/tools/rcl oud/ easyrnaseq Όχι / Όχι Ναι Όχι R Ναι / Ναι / Ναι Όχι ctor.org/packa ges/release/bio c/html/easyrn ASeq.html Galaxy (RNA-seq) Ναι / Ναι Ναι Ναι WBI Ναι / Ναι / Ναι Ναι xy.org PRADA Όχι / Όχι Όχι Όχι CL (Python) Ναι / Ναι / Όχι Όχι rge.net/projects /prada/ RobiNA Ναι / Ναι Ναι Όχι GUI Ναι / Ναι / Ναι gabipd.org/web /guest/robin Πίνακας 2: Χαρακτηριστικά επιλεγμένων διεπαφών ανάλυσης δεδομένων αλληλούχησης RNA 49

50 Πηγή: [192] Γραφική διεπαφή χρήστη (GUI), διεπαφή γραμμής εντολών (CLI), στατιστικό περιβάλλον R (R) Πηγή: [192] Πίνακας 3: Κριτήρια αξιολόγησης επιλεγμένων διεπαφών 50

51 Πίνακας 4: Αποτελέσματα αξιολόγησης επιλεγμένων διεπαφών Πηγή: [192] 2.2. Εργαλεία ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNAs Από τότε που η τεχνολογία small RNA-sequencing (srna-seq) έγινε διαθέσιμη, επέτρεψε την ανακάλυψη χιλιάδων νέων micrornas (mirnas) σε ανθρώπους και πολλά άλλα είδη, παρέχοντας νέα δεδομένα για αυτά τα μικρά RNA (srnas) και της μεταφραστικής σχέσης. Η ανακάλυψη του mirna δεν έχει φτάσει στις πλέον εμπεριστατωμένες μελέτες, ακόμα και για τα πιο μελετημένα μοντέλα οργανισμών. Πολλοί ερευνητές χρησιμοποιούν srnaseq σε μελέτες με διαφορετικούς στόχους στη βιοϊατρική, στη θεμελιώδη έρευνα και στις εφαρμοσμένες ζωικές επιστήμες. Διάφορα εργαλεία λογισμικού για τον εντοπισμό και το χαρακτηρισμό των mirna εφαρμόζουν διαφορετικές στρατηγικές, παρέχοντας έναν χρήσιμο οδηγό στους ερευνητές να επιλέγουν τα προγράμματα που ταιριάζουν καλύτερα στους στόχους και τα δεδομένα της μελέτης τους. Παρακάτω γίνεται μία ανασκόπηση μερικών από των τελευταίων κυκλοφορημένων εργαλείων ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNAs. Το mirdeep* είναι ένα ολοκληρωμένο εργαλείο για την ταυτοποίηση του mirna από τα δεδομένα αλληλούχησης του RNA. Οι διάφορες εκδόσεις του χρησιμοποιούνται ευρέως για την ποσοτικοποίηση γνωστών και νέων micro-rnas (mirnas) από την αλληλούχηση μικρού RNA (RNAseq). Το mirdeep*, είναι εξέλιξη του mirdeep, αλλά η ακρίβεια ανίχνευσης νέων mirnas βελτιώνεται με την εισαγωγή νέων στρατηγικών για την ταυτοποίηση των προδρόμων mirnas. Το mirdeep* διαθέτει μια φιλική προς το χρήστη γραφική διεπαφή και δέχεται ακατέργαστα (raw) δεδομένα σε FastQ και Sequence 51

52 Alignment Map (SAM) μορφή ή στο δυαδικό του ισοδύναμο (BAM). Γνωστά και νέα επίπεδα έκφρασης mirna, όπως μετριούνται από τον αριθμό των reads, εμφανίζονται σε μια διεπαφή, η οποία δείχνει κάθε RNAseq read που σχετίζεται με την pre-mirna φουρκέτα. Η δευτερογενής δομή pre-mirna και οι θέσεις των reads για κάθε προβλεπόμενο mirna παρουσιάζονται και διατηρούνται σε ένα ξεχωριστό αρχείο. Επιπλέον, τα γονίδια-στόχοι των γνωστών και νέων mirnas προβλέπονται με τη χρήση του αλγορίθμου TargetScan[193] και οι στόχοι ταξινομούνται σύμφωνα με τη βαθμολογία εμπιστοσύνης. Το mirdeep* είναι μια ενσωματωμένη αυτόνομη εφαρμογή όπου η ευθυγράμμιση αλληλουχιών, ο υπολογισμός δευτερογενούς δομής και η γραφική απεικόνιση του pre-mirna είναι καθαρά κωδικοποιημένα με Java. Ακόμα, μπορεί να εκτελεστεί χρησιμοποιώντας έναν κανονικό προσωπικό υπολογιστή με μνήμη 1,5 GB. Περαιτέρω, το mirdeep* ξεπέρασε τα υπάρχοντα εργαλεία πρόγνωσης mirna χρησιμοποιώντας τα LNCaP[194] και άλλα μικρά RNAseq σύνολα δεδομένων. Το mirdeep* διατίθεται ελεύθερα στο σύνδεσμο: Εικόνα 10: Στρατηγική ανίχνευσης mirna των εργαλειών mirdeep, mirdeep2 and mirdeep* Πηγή: [147] (a) Το Βήμα 1 περιλαμβάνει αλληλουχίες χαρτογράφησης στο γονιδίωμα για την παραγωγή ενός αρχείου SAM. Στο βήμα 2, τα συνολικά RNAseq reads αξιολογούνται για το ενδεχόμενο δευτεροταγούς δομής pre-mirna. (b) Οι δυο διαφορετικές στρατηγικές ανίχνευσης mirna (case 1 και case 2) για το εργαλείο mirdeep. (c) και (d) η τροποποιημένη στρατηγική ανίχνευσης mirna για τα εργαλεία mirdeep2 και mirdeep*. 52

53 Το miarma-seq είναι ένα ολοκληρωμένο εργαλείο για την ανάλυση mirna, mrna και circrna. Η μεγάλης κλίμακας RNAseq διαδικασία έχει ουσιαστικά αλλάξει το πεδίο της μεταγραφωμικής, καθώς επιτρέπει την απόκτηση ενός πρωτοφανή ποσού δεδομένων υψηλής ανάλυσης. Ωστόσο, η ανάλυση αυτών των δεδομένων εξακολουθεί να αποτελεί πρόκληση για την ερευνητική κοινότητα. Έχουν αναπτυχθεί πολλά εργαλεία για να ξεπεραστεί αυτό το πρόβλημα και να διευκολυνθεί η μελέτη των προφίλ έκφρασης mirna και των γονιδίων στόχων τους. Ενώ μερικά από αυτά επιτρέπουν και τα δύο είδη ανάλυσης, παρουσιάζουν επίσης ορισμένους περιορισμούς όσον αφορά τις απαιτήσεις και/ή τους περιορισμούς τους στη μεταφόρτωση δεδομένων. Οι παραπάνω περιορισμοί αποφεύγονται με τη χρήση της σουίτας miarma-seq, αφού προσφέρει την αναγνώριση των mirna, mrna και circrnas που μπορούν να εφαρμοστούν σε οποιονδήποτε αλληλουχημένο οργανισμό. Επιπρόσθετα, επιτρέπει τη διαφορική έκφραση, την πρόβλεψη mirna-mrna στόχου και/ή τη λειτουργική ανάλυση. Το pipeline της miarma-seq παρουσιάζεται ως αυτόνομο εργαλείο που είναι τόσο εύκολο στην εγκατάσταση όσο και ευέλικτο στη χρήση του. Επίσης, μπορεί να αναλύσει ένα μεγάλο αριθμό δειγμάτων χάρη στο πολυστρωματικό σχεδιασμό. Εικόνα 11: Ροή εργασίας miarma-seq pipeline Πηγή: [195] Οι κύριες ενότητες υποδεικνύονται με γκρι φόντο και τα αρχεία εξόδου υποδεικνύονται με μωβ φόντο. Η Oasis λειτουργεί ως ένα διαδικτυακό εργαλείο ανάλυσης small RNA deep sequencing δεδομένων. Αποτελεί μια διαδικτυακή εφαρμογή που επιτρέπει την ταχεία και ευέλικτη 53

54 online ανάλυση των small RNA-seq (srna-seq) δεδομένων. Είναι σχεδιασμένο για τον τελικό χρήστη ενός εργαστηρίου, παρέχοντας ένα εύκολο στη χρήση web frontend που περιλαμβάνει εκπαιδευτικά βίντεο, δεδομένα demo και βέλτιστες πρακτικές κατευθυντήριες οδηγίες βήμα προς βήμα σχετικά με τον τρόπο ανάλυσης δεδομένων srnaseq. Τα χαρακτηριστικά σημεία που το κάνουν ιδιαίτερα ελκυστικό είναι: η λειτουργικότητα ανάλυσης διαφορικής έκφρασης που επιτρέπει την πολυπαραγοντική ανάλυση των δειγμάτων, μια ενότητα ταξινόμησης για αξιόπιστη ανίχνευση βιολογικών δεικτών και η προηγμένη διεπαφή προγραμματισμού που υποστηρίζει την ολοκλήρωση της εργασίας. Και οι δύο αυτές λειτουργικότητες περιλαμβάνουν την ανάλυση των νέων mirnas, των στόχων mirna και των λειτουργικών αναλύσεων που συμπεριλαμβάνουν όρους της βάσης δεδομένων GO και όρους βιολογικών μονοματιών. Η Oasis δημιουργεί αναφορές αλληλεπιδραστικών web που μπορούν να μεταφορτωθούν (downloadable) για εύκολη απεικόνιση, εξερεύνηση και ανάλυση δεδομένων σε τοπικό σύστημα. Τέλος, η ροή εργασίας του Oasis επιτρέπει την ταχεία (επ-) ανάλυση των δεδομένων. Η Oasis υλοποιείται σε Python, R, Java, PHP, Cþþ και JavaScript. Το εργαλείο είναι ελεύθερα διαθέσιμο στη διεύθυνση Το SePIA παρέχει την επεξεργασία, την ολοκλήρωση, και την ανάλυση RNA και small RNA αλληλουχίας. Τα μεγάλης κλίμακας πειράματα αλληλούχησης είναι πολύπλοκα και απαιτούν ένα ευρύ φάσμα υπολογιστικών εργαλείων για την εξαγωγή και ερμηνεία σχετικών βιολογικών πληροφοριών. Αυτό ισχύει ιδιαίτερα σε εργασίες όπου απαιτείται ατομική επεξεργασία και ολοκληρωμένη ανάλυση τόσο των small RNA (δεδομένων) όσο και των συμπληρωματικών RNA (δεδομένων). Τέτοιες μελέτες επωφελούνται από μια υπολογιστική ροή εργασιών η οποία είναι εύκολο να εφαρμοστεί και να τυποποιήσει την επεξεργασία και την ανάλυση και των δύο τύπων αλληλουχημένων δεδομένων. Το SePIA (Sequence Processing, Integration, and Analysis), είναι μια ολοκληρωμένη ροή εργασίας small RNA και RNA. Παρέχει άμεση εκτέλεση για περισσότερα από 20 κοινά γνωστά εργαλεία RNA-seq, υπό τον έλεγχο μιας καθιερωμένης μηχανής ροής εργασίας και παρέχει επίσης δυναμική pipeline αρχιτεκτονική για τη διαχείριση, την ατομική ανάλυση και την ενσωμάτωση τόσο των small RNA όσο και των RNA δεδομένων. Το SePIA καθίσταται φορητό και εύκολο στην εκτέλεση με την εφαρμογή του Docker 14. Ακόμα, είναι απλό στο να διαμορφώσει και να οργανώσει τα αποτελέσματα σε μια σελίδα HTML. Επιπλέον, η παρεχόμενη υλοποίηση υποστηρίζει τη διαχείριση υπολογιστικών πόρων για βέλτιστη απόδοση. Το SePIA είναι μια ανοιχτού κώδικα ροή εργασίας που εισάγει μια τυποποιημένη επεξεργασία και ανάλυση small RNA και RNA δεδομένων. Ο τμηματοποιημένος σχεδιασμός του SePIA επιτρέπει τη σωστή προσαρμογή σε ένα δεδομένο πείραμα ενώ διατηρείται η συνολική δομή ροής εργασίας. Το εργαλείο είναι διαθέσιμο στο σύνδεσμο: 14 Μια πλατφόρμα λογισμικού ανοιχτού κώδικα που υλοποιεί Εικονικοποίηση (Virtualization) σε επίπεδο Λειτουργικού Συστήματος. 54

55 Το ismart είναι ένα εργαλείο για μια ολοκληρωμένη ανάλυση small RNA-Seq δεδομένων. Το ενδιαφέρον για τη διερεύνηση των βιολογικών ρόλων των μικρών μη κωδικοποιημένων RNAs (sncrnas) αυξάνεται, λόγω των πλειοτροπικών επιδράσεων αυτών των μορίων που ασκούν σε πολλά βιολογικά περιβάλλοντα. Ενώ είναι διαθέσιμες αρκετές μέθοδοι και εργαλεία για τη μελέτη των micrornas (mirnas), μόνο λίγες επικεντρώνονται σε νέες κατηγορίες sncrnas, πιο συγκεκριμένα η PIWI-interacting RNAs με RNAs (pirna). Όλοι αυτοί οι περιορισμοί ξεπεράστηκαν με το ismart (integrative Small RNA Tool-kit), ένα αυτοματοποιημένο pipeline για την ανάλυση των small RNA- Seq δεδομένων. Το ismart είναι μια συλλογή από εργαλεία βιοπληροφορικής και δικών του αλγορίθμων που διασυνδέονται μέσω ενός γραφικού περιβάλλοντος χρήστη (GUI). Εκτός από τις εκτενείς αναλύσεις για τα mirnas, περιλαμβάνει λειτουργικότητες για την ανάλυση των pirna, την πρόβλεψη νέων και την ταυτοποίηση των RNA στόχων τους. Το ismart είναι ελεύθερα διαθέσιμο στον ιστό ftp: // labmed molge-1.unisa.it (Χρήστης: ismart - Κωδικός πρόσβασης: password). Παρακάτω παρατίθεται ένας συνοπτικός πίνακας μερικών εργαλείων ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNAs. Name URL Latest release Implementatio n User interface mirna prediction Target prediction Functional analysis Differential expression mirdee p* miarm A-Seq Oasis2.0 australianpr ostatecentre.org/researc h/software/ mirdeepstar maseq.idop roteins.com / dzne.de 22/01/20 17 v1.7, 08/2017 v2.0 27/01/16 SA CLI, GUI mirdeep* TargetScan No No SA, VM CLI mirdeep2 mirgate Yes edger, NOISeq WS GUI, API mirdeep2 miranda Yes DESeq2 Sepia il.org/sepia 20/05/20 16 SA, DI CLI mirdeep2, miranalyse r Custom Yes Custom ismart ftp://labme dmolge- 1.unisa.it Πίνακας 5: Εργαλεία για την ανάλυση δεδομένων srna-seq που επιτρέπει την πρόβλεψη και τον χαρακτηρισμό του mirna Πηγή: [196] [197] 05/10/20 17 WS GUI srnabenc h Pictar, Diana, TargetScan miranda Νο DESeq2 edger NOISeq 55

56 2.3. Πρόσφατοι αλγόριθμοι ανάλυσης δεδομένων μικρών μη κωδικών μορίων Τα μη κωδικά RNAs (ncrnas) παίζουν σημαντικό ρόλο σε διάφορες κυτταρικές δραστηριότητες και ασθένειες όπως έχει προαναφερθεί. Τις υπολογιστικές μεθόδους για την πρόβλεψη ncrna θα μπορούσαμε να τις ομαδοποιήσουμε σε τέσσερις βασικές κατηγορίες: (α) homology-based methods, συγκεκριμένα είναι συγκριτικές μέθοδοι που περιλαμβάνουν εξελικτικά παρόμοιες ή ταυτόσημες (conserved) RNA αλληλουχίες και δομές, (β) de novo μεθόδους οι οποίες χρησιμοποιούν αλληλουχία RNA και χαρακτηριστικά δομής, (γ) μέθοδοι μεταγραφικής αλληλούχησης (transcriptional sequencing) και μεθόδους που βασίζονται στη συναρμολόγηση (assembling), δηλαδή, σχεδιασμένες μέθοδοι για reads μονών ή κατά ζεύγη άκρων προερχόμενα από επόμενης γενιάς αλληλούχηση RNA και (δ) ειδικές μέθοδοι ανά οικογένεια μορίων RNA, για παράδειγμα ειδικές για τα microrna και τα long μη κωδικά RNAs. Πολλές υπολογιστικές μέθοδοι έχουν αποδειχθεί ότι είναι αποτελεσματικές στην πρόβλεψη των ncrna για επιπλέον πειραματική επαλήθευση. Οι μέθοδοι μεταγραφικής αλληλούχησης (transcriptional sequencing) και συναρμολόγησης (assembling) αναλύονται σε αυτήν την ενότητα. Τελευταία, η πρόοδος της αλληλούχησης επόμενης γενιάς (NGS), πιο συγκεκριμένα με τις τεχνικές αλληλούχησης RNA (RNA-seq), έχει κάνει διαθέσιμα όλο και περισσότερα δεδομένα μεταγραφωμάτων, τα οποία χρησιμοποιούνται για να ανακαλύψουν νέα ncrnas. Μια γενική ροή εργασίας μεταγραφικής αλληλούχησης και συναρμολόγησης που βασίζεται στην πρόβλεψη ncrna περιγράφεται στην Eικόνα 12. Οι μέθοδοι αυτής της κατηγορίας ξεκινούν συνήθως από ακατέργαστα reads μονών ή κατά ζεύγη άκρων σε αντίθεση με άλλες μεθόδους όπως οι homology-based και οι de novo οι οποίες απαιτούν συγκεκριμένες αλληλουχίες RNA. Τα reads στη συνέχεια χαρτογραφούνται σε ένα γονιδίωμα αναφοράς και τα χαρτογραφημένα reads συναρμολογούνται σε μετάγραφα βασισμένα σε αλληλεπικαλυπτόμενες πληροφορίες. Μετά την αφαίρεση του RNA που κωδικοποιεί πρωτεΐνη και των γνωστών μετάγραφων ncrna, τα εναπομείναντα μετάγραφα υποβάλλονται σε περαιτέρω αξιολόγηση για το ενδεχόμενο κωδικοποίησης πρωτεΐνης και τα νέα ncrnas δηλώνονται εάν το ενδεχόμενο αυτό είναι χαμηλό. 56

57 Πηγή: [197] Εικόνα 12: Mέθοδοι μεταγραφικής αλληλούχησης και συναρμολόγησης Στην πράξη, τα RNΑ-seq δεδομένα συνήθως συνδυάζονται με άλλα χαρακτηριστικά και μεθόδους που περιλαμβάνουν tilling array[198], graph-kernel SVM[199], χαρακτηριστικά δομής και κοινά μοτίβα (motifs)[200], δεδομένα διαφορικής έκφραση γονιδίου (DGE)[201], και exon array[202] για να προβλέψει συγκεκριμένα ncrnas. Για παράδειγμα, η tilling array χρησιμοποιείται για να σαρώσει τα long και macro non-proteincoding RNAs που σχετίζονται με τα μονοπάτια cell-cycle, p53 και STAT3. Η DGE χρησιμοποιείται για να ανακαλύψει νέα polya+ μη κωδικά μετάγραφα μέσα στο ανθρώπινα γονιδίωμα. Το BlockClust, ένα εργαλείο αποτελεσματικής ομαδοποίησης και ταξινόμησης μη κωδικών RNA, προσπαθεί να ανιχνεύσει το τροποποιημένο ncrna μετά από τη μεταγραφή του με το να συνδυάσει την αλληλουχία και την πληροφορία της δευτεροταγής δομής με ένα graph-kernel SVM η πρωτότυπη ιδέα του BlockClust έγκειται σε μια νέα στρατηγική να σχηματίσει προφίλ έκφρασης σε συμπιεσμένες διακριτές δομές χρησιμοποιώντας τεχνικές fast graph-kernel. Μερικοί δημοφιλείς αλγόριθμοι αλληλούχησης και συναρμολόγησης παρουσιάζονται στον Πίνακα 5. 57

58 Οι μέθοδοι που βασίζονται στη διαδικασία RNA-seq κατέχουν ένα πλεονέκτημα έναντι των μεθόδων homology-based και των de novo. Αυτό είναι ότι μπορούν άμεσα να αλληλουχίσουν (sequence) κωδικά και μη κωδικά μετάγραφα RNA με υψηλό βαθμό ευαισθησίας και χαμηλό ποσοστό θετικού λάθους (false positive). Μπορούν ειδικότερα να εντοπίσουν νέα scripts και εναλλακτικό μάτισμα (alternative splicing). Ωστόσο, μερικές φορές είναι δύσκολο να διακρίνουμε ncrnas από RNAs που κωδικοποιούν πρωτεΐνες και έτσι άλλα χαρακτηριστικά όπως η διατήρηση της αλληλουχίας[203], η αποκρυπτογράφηση της αφηρημένης γραφικής αναπαράστασης[199], η σχεδίαση των ανιχνευτών εξονίων ή η συχνότητα k-mer[204], χρησιμοποιούνται συχνά μαζί με την ανάλυση RNAseq για την εξαγωγή των ncrnas. Name URL Latest release Implem entation User interface Strategy Preprocessing Mapping Prediction algorithm Feature BlockClust oolshe d.g2.b x.psu.e du/vie w/rnat eam/bl ockclu st workfl ow v0.1 14/02/2015 Galaxy web CLI read profile clustering NO Not used Graph-kernel SVM 1)The block group: entropy of read starts, entropy of read ends, entropy of read lengths, median of normalized read expressions and normalized read expression levels in first quantile; (2) block: number of multimapped reads, entropy of read lengths, entropy of read expressions, minimum read length and block length, and (3) block edge: contiguity and difference in median read expressions CoRAL wangl ab.pcb i.upen n.edu/ coral/ v Stand alone Web Service CLI machine learning NO Bowtie Multiclass classification random forest Read length, abundance of antisense transcription, 5 and 3ʹ positional entropy, four nucleotide frequencies transformed into a log-odds ratio relative to equal base frequencies, and MFE FlaiMapper github. com/y hoogst rate/fla imapp er 15/08/2017 Stand alone CLI read profile clustering NO Not used Peak detection on the start and end position densities followed by filtering and a reconstruction process Πίνακας 6: Λογισμικά για ανίχνευση mirna από δεδομένα srna-seq data Densities of start and end positions of aligned reads and read lengths Πηγή: [197][196] 58

59 2.4. Βάσεις δεδομένων για ακολουθίες μικρών μη-κωδικών μορίων RNA στον άνθρωπο Η πρόσφατη ανακάλυψη χιλιάδων μικρών και μεγάλων μη κωδικών RNA και οι παράλληλες τεχνικές βελτιώσεις οι οποίες δίνουν τη δυνατότητα στους επιστήμονες να μελετήσουν σε πολύ μεγάλο βάθος το μεταγράφωμα, έχει οδηγήσει σε μαζική παραγωγή δεδομένων. Αυτό το γέννημα πληροφοριών ενθαρρύνει την ανάπτυξη εύκολα προσβάσιμων πόρων για αποθήκευση, ανάκτηση και ανάλυση ακατέργαστων και επεξεργασμένων δεδομένων. Για όλες αυτές τις εργασίες διατίθενται εκατοντάδες web εργαλεία. Παρόλα αυτά, για τους χρήστες αποτελεί δυσκολία ο αυξανόμενος αριθμός και η ποικιλία των εργαλείων βιοπληροφορικής, όπου το κάθε ένα από αυτά καλύπτει συγκεκριμένο και εξειδικευμένο κλάδο, καθώς επίσης και το γεγονός ότι υπάρχουν πολλά παρεμφερή εργαλεία για τον ίδιο σκοπό χωρίς προφανή διαφοροποίηση. Για να ξεπεραστούν αυτά τα ζητήματα, και να βοηθηθούν οι επιστήμονες που μελετούν έγκαιρα την κατηγορία μικρών μη κωδικών RNAs έχουν αναπτυχθεί αντίστοιχες βάσεις δεδομένων όπου πολλές από αυτές είναι συνδεδεμένες με εργαλεία βιοπληροφορικής. Για να οργανωθούν τα διάφορα ηλεκτρονικά εργαλεία mirna, προτάθηκαν λίγες ταξινομήσεις. Έτσι έχει αναπτυχθεί η μετα-βάση δεδομένων mirna algorithmic network (mirandb)[205], η οποία παρουσιάζει μια έρευνα με πάνω από 180 Web βάσεις δεδομένων mirna. Αυτές περιλαμβάνουν την αλληλουχία mirna, την ανακάλυψη, την πρόβλεψη στόχου, την επικύρωση του στόχου, την έκφραση και τη ρύθμιση (regulation), τις λειτουργίες και τους ρόλους τους σε ασθένειες, τις αλληλεπιδράσεις στα κυτταρικά μονοπάτια και δίκτυα και την βαθιά αλληλούχιση. Το mirandb συγκεντρώνει σε ένα εργαλείο τις διάφορες λειτουργίες προηγούμενων εργαλείων και διευκολύνει την πρόσβαση στις διάφορες κατηγορίες πόρων mirna. Οι ερευνητές μπορούν εύκολα να επιλέξουν την κατηγορία πληροφοριών των mirna και τον επιθυμητό οργανισμό, σε βάσεις δεδομένων όπου παρουσιάζονται τα χαρακτηριστικά τους. Αυτή η βάση δεδομένων εισάγει μια εύχρηστη ταξινόμηση των διαθέσιμων πόρων, η οποία μπορεί να διευκολύνει την επιλογή των κατάλληλων πόρων για τα σχετικά με το mirna εργαλεία βιοπληροφορικής. Η βάση δεδομένων είναι προσβάσιμη στο Μερικές από τις τρέχουσες διαθέσιμες βάσεις δεδομένων ανθρώπινων srna[206], που είναι προσβάσιμες μέσω του Διαδικτύου και μερικά από τα μεγάλα σύνολα δεδομένων αυτών από πειράματα υψηλής αλληλούχησης που είναι διαθέσιμα σε δημοσιεύσεις μόνο ως συμπληρωματικά δεδομένα, φαίνονται στον ακόλουθο Πίνακα 6. Βασικά ζητήματα είναι η ενσωμάτωση και ο σχολιασμός των συνόλων δεδομένων srna. 59

60 Πίνακας 7: Βάσεις srna Πηγή: [206] easrnas: exon-associated small RNAs, endo-sirnas: endogenous small interfering RNAs, mirnas: micro-rnas, isomirnas, nasrnas: non-coding RNA associated small RNAs, NCRNA: non-coding RNA, pasrna: promotor-associated small RNAs, pirnas: piwi-interacting RNAs, rasrnas: repeat associated small RNAs, scarnas: Cajal body-specific RNAs, sirnas: small interfering RNAs, snrnas: small nuclear RNAs, snornas: small nucleolar RNAs, SRNA: small RNA. Εκτός αυτών, μία από τις πιο πρόσφατα ανανεωμένες και αναβαθμισμένες βάσεις δεδομένων για την ανάλυση μικρού RNA στην έρευνα του ανθρώπινου καρκίνου είναι η YM500v3[207]. Περιέχει πάνω από small RNA sequencing (smrna-seq) σύνολα δεδομένων και ολοκληρωμένα αποτελέσματα ανάλυσης για διάφορες μελέτες καρκίνου mirnome. Αυτή η βάση δεδομένων ενημερώθηκε και δημιουργήθηκε η YM500v3 ( η οποία εστιάζει όχι μόνο σε mirnas αλλά και σε άλλα 60

61 λειτουργικά small non-coding RNAs (sncrnas), όπως RNAs που αλληλεπιδρούν με PIWI (pirnas), trna-derived fragments (trfs), small nuclear RNAs (snrnas) και small nucleolar RNAs (snornas). Στην YM500v3 είναι ενσωματωμένα πάνω από σχετιζόμενα με τον καρκίνο RNA-seq και πάνω από σύνολα δεδομένων smrna-seq. Επιπλέον, υπάρχουν δύο κύριες νέες ενότητες, «Survival» και «Cancer». Η ενότητα «Survival» παρέχει τα αποτελέσματα της Survival ανάλυσης σε όλους τους τύπους καρκίνου ή σε μια ομάδα δειγμάτων που ορίζονται από το χρήστη για ένα συγκεκριμένο sncrna. Το τμήμα «Cancer» παρέχει τα αποτελέσματα αναλύσεων διαφορικής έκφρασης, αλληλεπιδράσεων μεταξύ mirna και γονιδίων και μονοπατιών σχετιζόμενων με το mirna. Ακόμα, στην ενότητα «Expression» προσφέρονται τα προφίλ έκφρασης sncrna σε διάφορους τύπους καρκίνου και δειγμάτων. Τα sncrna που σχετίζονται με τον καρκίνο έχουν δυνατότητες τόσο για εφαρμογές βιοτεχνολογίας όσο και για βασική έρευνα. 61

62 3. Κεφάλαιο Τρίτο: Κώδικας και διαδικασία εγκατάστασης βέλτιστης μεθοδολογίας ανάλυσης δεδομένων αλληλούχισης μικρών μη κωδικών μορίων RNA Εγκατάσταση 3.1. STAR Μέλημα μας ήταν η εγκατάσταση του χαρτογραφητή STAR στο λειτουργικό σύστημα στο οποίο εργαζόμαστε. Το περιβάλλον στο οποίο εργαστήκαμε είναι Linux με το λειτουργικό σύστημα Ubuntu, LTS έκδοσης. Αρχικά, για τη λήψη του πηγαίου κώδικα και των δυαδικών αρχείων του, δίνεται η δυνατότητα εύρεσής τους είτε από τη σελίδα του GitHub, η οποία περιέχει την τελευταία έκδοση είτε από την κύρια σελίδα του STAR στο GitHub Το εκτελέσιμο αρχείο του STAR αποθηκεύτηκε στον κατάλογο bin/ subdirectory του υπολογιστή μας. Έπειτα, για να κάνουμε compile το STAR τρέξαμε την εντολή make στον κατάλογο προέλευσης. Δεν πρέπει να παραλέιψουμε το γεγονός ότι το STAR συντάσσεται με τον gcc c++ compiler και εξαρτάται μόνο από τις τυπικές βιβλιοθήκες gcc. Η εγκατάσταση σωστών περιβαλλόντων gcc πραγματοποιήθηκε με το τρέξιμο των τριών τελευταίων εντολών από τις ακόλουθες εντολές εγκατάστασης: Εντολές εγκατάστασης $ sudo apt-get install zlib1g-dev $ git clone $ cd STAR $ cd source $ make STAR $ sudo apt-get update $ sudo apt-get install g++ $ sudo apt-get install make Πίνακας 8: Εντολές εγκατάστασης STAR 62

63 Βασική ροή εργασιών Η βασική ροή των εργασιών της χαρτογράφησης χωρίζεται σε δύο βήματα. Το πρώτο αφορά τη δημιουργία αρχείων γονιδιωματικών δεικτών και το δεύτερο τη χαρτογράφηση των reads στο γονιδίωμα. Για το πρώτο απαιτήθηκε η χρήση των αναφορικών ακολουθιών γονιδιώματος (αρχείο fasta) και των σχολιασμών (αρχείο GTF), το αποτέλεσμα των οποίων χρησιμοποιήθηκε για την εκτέλεση του δεύτερου βήματος. Οι γονιδιωματικοί δείκτες δημιουργήθηκαν μία φορά για κάθε συνδυασμό γονιδίου/σχολιασμού και αποθηκεύτηκαν στο δίσκο. Για το δεύτερο βήμα απαιτήθηκε το αρχείο του πρώτου βήματος καθώς και οι ακολουθίες των reads (fasta ή fastq αρχείο). Το STAR χαρτογράφησε τα reads στο γονιδίωμα και δημιούργησε διάφορα αρχεία εξόδου, όπως τις ευθυγραμμίσεις (SAM/BAM τύπου αρχεία), τα συνοπτικά στατιστικά της χαρτογράφησης, τα σημεία ματίσματος, τα μη χαρτογραφημένα reads κ.α. Πιο συγκεκριμένα, παρακάτω αναλύουμε τις βασικές επιλογές που χρησιμοποιήθηκαν για τη δημιουργία γονιδιωματικών δεικτών του πρώτου βήματος. Πρώτα ορίστηκε με την εντολή --runthreadn ο αριθμός των νημάτων λαμβάνοντας υπόψιν το διαθέσιμο αριθμό πυρήνων του διακομιστή. Ακολούθησε η εντολή --runmode genomegenerate με την οποία το STAR οδηγείται στην εκτέλεση της δημιουργίας γονιδιωματικών δεικτών. Στη συνέχεια, με την εντολή --genomedir προσδιορίστηκε το μονοπάτι του καταλόγου όπου αποθηκεύονται οι γονιδιωματικοί δείκτες. Ο κατάλογος αυτός είχε δημιουργηθεί νωρίτερα με την εντολή mkdir και έχει δικαιώματα γραφής. Έπειτα, με την εντολή -- genomefastafiles ορίστηκε το fasta αρχείο αναφορικών αλληλουχιών γονιδιώματος και με την εντολή --sjdbgtffile το μονοπάτι του GTF αρχείου με τα σχολιασμένα μετάγραφα, από το οποίο στην ουσία εξάγονται σημεία ματίσματος που βελτιώνουν την ακρίβεια της χαρτογράφησης. Τέλος, με την εντολή sjdboverhang ορίστηκε το μήκος της γονιδιωματικής αλληλουχίας γύρω από το σχολιασμένο junction που θα χρησιμοποιηθεί για την κατασκευή της βάσης δεδομένων των συνδέσεων. Στη δική μας περίπτωση το ορίσαμε με τη τιμή 99 που προκύπτει από το τύπο ReadLength-1. Εν συνεχεία, για την εκτέλεση της χαρτογράφησης του δεύτερου βήματος χρησιμοποιήθηκαν οι παρακάτω βασικές επιλογές. Η αρχική εντολή αφορά τον αριθμό των νημάτων με την εντολή --runthreadn, ορισμένη με το διαθέσιμο αριθμό πυρήνων του διακομιστή. Δεύτερη κατά σειρά είναι η εντολή --genomedir η οποία ορίζει το μονοπάτι του καταλόγου όπου οι γονιδιωματικοί δείκτες έχουν δημιουργηθεί. Η εντολή --readfilesin προσδιορίζει το όνομα του αρχείου που περιέχει τις αλληλουχίες που θα χαρτογραφηθούν μέσω του μονοπατιού του (RNA-seq FASTQ αρχεία). Επίσης, με την εντολή -- outfilenameprefix αλλάξαμε το πρόθεμα του αρχείου στο οποίο αποθηκεύονται όλα τα αρχεία εξόδου μετά την ολοκλήρωση της χαρτογράφησης. Ο κατάλογος αυτού του αρχείου έχει δημιουργηθεί νωρίτερα με την εντολή mkdir και έχει δικαιώματα γραφής. Για τον έλεγχο του μέγιστου αριθμού των πολλαπλών ευθυγραμμίσεων ενός read χρησιμοποιήθηκε η εντολή outfiltermultimapnmax με την τιμή 1. Η τελική ευθυγράμμιση που είναι αποθηκευμένη απευθείας σε δυαδική μορφή BAM, εκτός από τη μη ταξινομημένη μορφή 63

64 της αποθηκεύτηκε και στη ταξινομημένη της μορφή κατά συντεταγμένες με την εντολή -- outsamtype BAM Unsorted SortedByCoordinate. Η διαδικασία ολοκληρώθηκε με την εξαγωγή των μεταφρασμένων ευθυγραμίσεων πάνω σε συντεταγμένες μετάγραφου και με τη μέτρηση του αριθμού των reads ανά γονίδιο κατά τη χαρτογράφηση. Σημειώνουμε ότι το STAR ευθυγραμμίζει πρώτα τα reads σε ολόκληρο το γονιδίωμα και μόνο τότε ψάχνει για συμφωνία μεταξύ ευθυγραμμίσεων και μετάγραφων. Αυτή η προσέγγιση μπορεί να έχει ορισμένα πλεονεκτήματα σε σύγκριση με την ευθυγράμμιση μόνο στο μεταγράφωμα, με το να μην αναγκάζει τις ευθυγραμμίσεις σε μελετημένα μετάγραφα. Εντολές βασικής ροής εργασιών / Rep 3 / -----index----- $./STAR --runmode genomegenerate --genomedir /home/user_folder/out/ --genomefastafiles /home/user_folder/folder1/user@example.com/male.hg19.fa --sjdbgtffile /home/user_folder/folder1/user@example.com/lid46098-lid46099_exongencv10.gff -- sjdboverhang 99 --runthreadn 8 -genomesasparsed mapping----- $ mkdir alignments3 $./STAR --runthreadn 8 --genomedir /home/user_folder/out/ --readfilesin /home/user_folder/folder1/user@example.com/galaxy3.fastq --outfilenameprefix /home/user_folder/star-2.5.3a/source/alignments3/output --outfiltermultimapnmax 1 -- outsamtype BAM Unsorted SortedByCoordinate --quantmode TranscriptomeSAM GeneCounts 3.2. GALAXY Εγκατάσταση και εκτέλεση Πίνακας 9: Εντολές βασικής ροής εργασιών STAR Οι δύο βασικές απαιτήσεις για τη σωστή λειτουργικότητα της πλατφόρμας του Galaxy είναι πρώτον να χρησιμοποιείται λειτουργικό σύστημα UNIX/Linux ή Mac OSX και δεύτερον να υπάρχει εγκατεστημένη η 2.7 έκδοση της Python. Η πρώτη τηρούταν και η δεύτερη καλύφθηκε με την εγκατάσταση της σωστής έκδοσης. Οι εντολές που χρησιμοποιήθηκαν παρατίθενται παρακάτω: 64

65 Εντολές εγκατάστασης Python $ sudo apt-get install build-essential checkinstall $ sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev $ cd ~/Downloads/ $ wget $ tar -xvf Python tgz $ cd Python //μεταφορά στον φάκελο user_folder $ mv /home/myfile/downloads/python / /home/user_folder/ $ mkdir ~/galaxy-python $ ln -s /home/myfile/python / ~/galaxy-python/python $ export PATH=~/galaxy-python:$PA Πίνακας 10: Εντολές εγκατάστασης Python Για τη λήψη και εγκατάσταση του Galaxy χρησιμοποιήθηκαν οι παρακάτω εντολές: Εντολές εγκατάστασης Galaxy $ git clone $ cd ~/Downloads/ $ sudo apt-get install unzip $ unzip galaxy-dev.zip //μεταφορά στον φάκελο user_folder $ mv /home/myfile/downloads/galaxy-dev/ /home/user_folder/ $ cd galaxy-dev Πίνακας 11: Εντολές εγκατάστασης GALAXY 65

66 Για να ξεκινήσει το Galaxy να εκτελείται χρησιμοποιήθηκε η εντολή: Εκτέλεση Galaxy $ sh run.sh Πίνακας 12: Εκτέλεση Galaxy Έτσι ενεργοποιήθηκε ο εξυπηρετητής του Galaxy στο localhost και στην θύρα Αυτό σημαίνει πως το Galaxy μπορεί να είναι προσβάσιμο από ένα πρόγραμμα περιήγησης στο http: // localhost: Εικόνα 13: Εξυπηρετητής Galaxy Εικόνα 14: Κεντρική σελίδα τοπικού Galaxy Για τον έλεγχο του Galaxy μέσω της διεπαφής χρήστη (εγκατάσταση εργαλείων, διαχείριση χρηστών, δημιουργία ομάδων κ.λπ.), γίναμε διαχειριστές. Αυτό γιατί μόνο εγγεγραμμένοι χρήστες μπορούν να γίνουν διαχειριστές. Για να αποκτήσουμε δικαιώματα διαχειριστή, πρώτα προσθέσαμε το μας στο αρχείο ρυθμίσεων παραμέτρων του Galaxy ακολουθώντας τα παρακάτω βήματα: 66

67 Εκτέλεση Galaxy $ grep "admin_users" config/galaxy.ini.sample $ sed 's/admin_users = None/admin_users = user@example.com/' config/galaxy.ini.sample > config/galaxy.ini $ grep "admin_users" config/galaxy.ini Εικόνα 15: Δικαίωμα διαχειριστή Στη συνέχεια, εγκαταστήσαμε τα απαραίτητα εργαλεία μέσω του Toolshed. Πιο αναλυτικά, επιλέξαμε την επιλογή Search Tool Shed από το μενού Admin Interface. Στο παράθυρο που εμφανίζεται διαλέξαμε Search for valid tools. Εδώ εμφανίστηκε μια φόρμα στην οποία αναζητήσαμε το ID, το όνομα ή την έκδοση του εργαλείου που επιθυμούμε. Έπειτα, εμφανίστηκε μια λίστα από αποθηκευμένα σχετικά εργαλεία από την οποία επιλέξαμε αυτό που επιθυμούσαμε κάνοντάς το εγκατάσταση στο Galaxy. Στη δική μας περίπτωση τα κύρια εργαλεία τα οποία εγκαταστάθηκαν είναι ο Tophat2 και το Cufflinks. Εικόνα 16: Εγκατάσταση Εργαλείων (Galaxy) Κατόπιν ακολούθησε το στάδιο της προετοιμασίας των δεδομένων. Πιο αναλυτικά, επιλέξαμε την επιλογή Search Tool Shed από το μενού Admin Interface. Στο παράθυρο που εμφανίζεται διαλέξαμε Search for valid tools. Εδώ εμφανίστηκε μια φόρμα στην οποία αναζητήσαμε στο πεδίο Tool id, το data_manager. Στη συνέχεια, εμφανίστηκε μια λίστα από την οποία επιλέξαμε και στη συνέχεια εγκαταστήσαμε τα παρακάτω: 67

68 data_manager_bowtie2_index_builder και data_manager_fetch_genome_all_fasta. Εικόνα 17: Search Tool Shed (Galaxy) Επιλέγοντας το Local data από το μενού Admin Interface βλέπουμε το αποτέλεσμα της εγκατάστασης από όπου ορίσαμε το Reference Geonome ως hg19. Εικόνα 18: Local Data (Galaxy) Μετέπειτα, από το ίδιο μενού επιλέξαμε το Bowtie2 index και εκτελέσαμε τη διαδικασία ώστε να είναι αναγνωρίσιμο το hg19 reference genome, από τα εργαλεία που θα χρησιμοποιούσαμε. Επίσης, χειροκίνητα τροποποιήθηκαν τα αρχεία fasta_indexes.loc του κάθε εγκατεστημένου εργαλείου συμπληρώνοντας τα στοιχεία που φαίνονται στην παρακάτω εικόνα ώστε να αναγνωρίζεται το reference genome αυτόματα. 68

69 Εικόνα 19: Aρχείo fasta_indexes.loc Τα αρχεία tool_data_table_conf.xml περιέχουν το σημειωμένο κομμάτι των ακόλουθων εικόνων: Εικόνα 20: Αρχεία tool_data_table_conf.xml 69

70 Η τελευταία παρέμβαση στο Galaxy ήταν η προετοιμασία της πλατφόρμας ώστε να διαχειρίζεται εύκολα τα σύνολα δεδομένων. Αυτό πραγματοποιήθηκε με την επιλογή Data Libraries από το μενού Shared Data. Εν συνεχεία, αφού είχαμε το δικαίωμα ως χρήστες, δημιουργήσαμε έναν φάκελο στον οποίο εισάγαμε τα σύνολα δεδομένων μας. Αναλυτικότερα, όπως φαίνεται στην Εικόνα 107 επιλέξαμε το εικονίδιο Add Datasets διαλέγοντας το from User Directory από τη γραμμή εργαλείων. Από την παρακάτω φόρμα επιλέξαμε τα αρχεία που επιθυμούσαμε να εισάγουμε δηλώνοντας τον Τύπο και και το Γονιδίωμά τους. Εικόνα 21: Προετοιμασία Galaxy σύνολα δεδομένων 70

71 4. Κεφάλαιο Τέταρτο: Μεθοδολογίες ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNA 4.1. Προτεινόμενη από το Galaxy και το STAR μεθοδολογία Στην παρούσα εργασία εφαρμόστηκαν και αξιολογήθηκαν προτείνονται δύο μεθοδολογίες ανάλυσης RNA-seq σε σχέση με το κομμάτι της ανάλυσης που αφορά την ευθυγρμάμμηση των μικρών ακολουθιών που έχουν εντοπιστεί σε ένα πείραμα στο μεταγράφωμα/γονιδίωμα αναφοράς. Η πρώτη είναι αυτή που χρησιμοποιείται στην πλατφόρμα του Galaxy και η δεύτερη στο εργαλείο STAR[208]. Αρχικά, τα δεδομένα επεξεργάσθηκαν από τα web εργαλεία της πλατφόρμας του Galaxy (FASTQ Groomer, FastQC, Trimmomatic, Filter FASTQ) σύμφωνα με τη διαδικασία της χαρτογράφησης των προεπεξεργασμένων δεδομένων από το Cold Spring Harbor Lab. Πιο συγκεκριμένα, τα δεδομένα προεπεξεργάστηκαν για την απομάκρυνση πειραματικά προερχόμενων ουρών Poly-A και συνδέσμων Illumina 3' από ακατέργαστα reads. Εάν ο αριθμός των αναντιστοιχιών στην ευθυγράμμιση ήταν μικρότερος από το 20% του ευθυγραμμισμένου μήκους, το read αποκόπτεται από την πρώτη ευθυγραμμισμένη βάση. Τα reads ευθυγραμμίστηκαν στο ανθρώπινο γονιδίωμα (hg19, αρσενικού γένους) χρησιμοποιώντας την μεθοδολογία του εργαλείου Tophat. Τα χαρτογραφημένα reads απορρίφθηκαν αν έπεφταν σε μία από τις ακόλουθες κατηγορίες: 1) περιείχαν πέντε ή περισσότερα διαδοχικά νουκλεοτίδια Α 2) ήταν μήκους μικρότερου των 16 νουκλεοτιδίων 3) χαρτογραφήθηκαν σε περισσότερες από μία γονιδιωματικές θέσεις 4) αντιστοιχούσαν σε περιοχές που ακολουθούσαν ακολουθίες πολλαπλών εμφανίσεων του νουκλεοτιδίου Α. Όλη η διαδικασία προεπεξεργασίας και χαρτογράφησης πραγματοποιήθηκε και τοπικά στην πλατφόρμα του Galaxy. Παρακάτω παρουσιάζονται αναλυτικά όλα τα βήματα των προαναφερόμενων διαδικασιών. 71

72 Galaxy 1ο σύνολο δεδομένων: (RawDataRp3.fastq) Για όλα τα παρακάτω βήματα οι παράμετροι που δεν αναφέρονται έχουν τις προεπιλεγμένες τιμές των εργαλείων. Βήμα 1 ο : Quality Control Μετά την εισαγωγή του 1 ου συνόλου δεδομένων, μορφής.fastq.gz, πραγματοποιήθηκε το πρώτο βήμα της προ-επεξεργασίας, ο Ποιοτικός Έλεγχος, με τη χρήση του εργαλείου NGS: QC and manipulation FastQC. Εικόνα 22: Πρώτος Ποιοτικός Έλεγχος (rawdatarep3) Σε μερικά από τα αποτελέσματα του ελέγχου των δεδομένων βλέπουμε κάποια βασικά στατιστικά στοιχεία των δεδομένων, τη γραφική παράσταση της ποιότητας ανά βάση (Per base sequence quality) και όλες τις υπερεκφρασμένες ακολουθίες (overrepresented sequences). Πιο συγκεκριμένα, η κωδικοποίηση είναι Illumina 1.5, το συνολικό πλήθος των reads είναι , το μήκος τους είναι 101 και το ποσοστό GC περιεχομένου είναι

73 Εικόνα 23: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (rawdatarep3) Βήμα 2 ο : FASTQ format Conversion Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FASTQ Groomer, μετατράπηκαν τα raw reads, αρχείο μορφής fastq.gz, σε μορφή fastqsanger. 73

74 Βήμα 3 ο : Quality Control Εικόνα 24: Μετατροπή FASTQ μορφή (rawdatarep3) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Εικόνα 25: Δεύτερος Ποιοτικός Έλεγχος (rawdatarep3) Μετά την ολοκλήρωση της διαδικασίας φάνηκε η αλλαγή της κωδικοποίησης (Encoding) σε Sanger / Illumina 1.9. Εικόνα 26: Αποτέλεσμα δεύτερου Ποιοτικού Ελέγχου (rawdatarep3) Βήμα 4 ο : Trimming (Adapters & Bases) 74

75 Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation Trimmomatic απομακρύνθηκαν οι προσαμογείς από τα δεδομένα, οι βάσεις από τα reads με quality score μικρότερο ή ίσο από 20 και τα reads με μήκος μικρότερο του 16. Πιο αναλυτικά, στο πεδίο «Perform initial ILLUMINACLIP step (Adapter sequences to use)» δίνουμε την παράμετρο «Truseq 3». Στα πεδία «Select Trimmomatic operation to perform» και «Minimum quality required to keep a base» ορίζουμε τις παραμέτρους ως «TRAILING» και 21 αντίστοιχα. Ακόμα, προσθέσαμε τις παραμέτρους «Select Trimmomatic operation to perform» και «Minimum length of reads to be kept» με τις τιμές «MINLEN» και «16». Εικόνα 27: Trimming Adapters & Bases (rawdatarep3) 75

76 Βήμα 5 ο : Quality Control Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε πάλι Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Εικόνα 28: Τελικός Ποιοτικός Έλεγχος (rawdatarep3) Παρατηρείται ότι το μήκος των reads είναι από το διάστημα , κάτι που περιμέναμε μετά από την αφαίρεση των προσαρμογέων (adapters), των βάσεων από τα reads με ποιοτικό σκορ μικρότερο ή ίσο του 20 και των reads με μήκος μικρότερο από

77 Εικόνα 29: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (rawdatarep3) Βήμα 7 ο : Gene Model Annotation Χρησιμοποιώντας το εργαλείο Get Data UCSC Main Table Browser αποκτούμε ένα Gene Model Annotation. Στο πεδίο «assembly» επιλέγουμε την παράμετρο «hg19» και στο «output format» την παράμετρο «GTF». Στη συνέχεια πατάμε το κουμπί «get output» και στέλνουμε το αποτέλεσμα στο Galaxy. 77

78 Εικόνα 30: Απόκτηση Gene Model Annotation Χαρτογράφηση Βήμα 8 ο : Tophat Χρησιμοποιώντας το εργαλείο χαρτογράφησης Tophat από το NGS: RNA Analysis TopHat: Gapped-read mapper for RNA-seq data προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίο του reference genome επιλέγουμε «Use a built- -in genome» και «hg19». Ακόμα στο πεδίο «Library Type» επιλέχθηκε η παράμετρος «FR Unstranded» και στο «Gene Model Annotations» επιλέχθηκε «UCSC Main on Human: knowngene (genome)». 78

79 Εικόνα 31: Χαρτογράφηση Tophat (rawdatarep3) Το πλήθος των reads που εισήχθησαν στο εργαλείο του Tophat ήταν και το πλήθος των χαρτογραφημένων reads ήταν Ποιο αναλυτικά φαίνεται στην παρακάτω εικόνα: Εικόνα 32: Αποτελέσματα Χαρτογράφησης Tophat (rawdatarep3) 79

80 STAR 1ο σύνολο δεδομένων: (Galaxy3.fastq) Στη συνέχεια, το τελικό αποτελέσματα του Galaxy εισήχθησε και επεξεργάστηκε στο εργαλείο STAR-2.5.3a όπως φαίνεται με τις παρακάτω εντολές: / Rep 3 / -----index----- $./STAR --runmode genomegenerate --genomedir /home/user_folder/out/ --genomefastafiles /home/user_folder/folder1/user@example.com/male.hg19.fa --sjdbgtffile /home/user_folder/folder1/user@example.com/lid46098-lid46099_exongencv10.gff --sjdboverhang 99 --runthreadn 8 -genomesasparsed mapping----- $ mkdir alignments3 $./STAR --runthreadn 8 --genomedir /home/user_folder/out/ --readfilesin /home/user_folder/folder1/user@example.com /Galaxy3.fastq --outfilenameprefix /home/user_folder/star-2.5.3a/source/alignments3/output --outfiltermultimapnmax 1 --outsamtype BAM Unsorted SortedByCoordinate --quantmode TranscriptomeSAM GeneCounts / Rep 4 / -----mapping---- $ mkdir alignments4 $./STAR --runthreadn 8 --genomedir /home/user_folder/out/ --readfilesin /home/user_folder/folder1/user@example.com/galaxy4.fastq --outfilenameprefix /home/user_folder/star-2.5.3a/source/alignments4/output2 --outfiltermultimapnmax 1 --outsamtype BAM Unsorted SortedByCoordinate --quantmode TranscriptomeSAM GeneCounts Τα αποτελέσματα που προέκυψαν: Πίνακας 13: Εντολές STAR Το αρχείο Log.out, καταγράφει λεπτομερώς όλες τις σχετικές πληροφορίες με την εκτέλεση, βοηθώντας έτσι την αντιμετώπιση πιθανών προβλημάτων και ακολούθως τον εντοπισμό σχετικών σφαλμάτων. 80

81 Εικόνα 33: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy3) Το αρχείο Log.progress.out, το οποίο φαίνεται στην παρακάτω εικόνα, καταγράφει τα στατιστικά στοιχεία της προόδου της εργασίας, όπως τον αριθμό των επεξεργασμένων reads, το μήκος τους, το % των χαρτογραφημένων reads κτλ. Ανανεώνεται σε διαστήματα 1 λεπτού. Επίσης, είναι χρήσιμο για τον αρχικό ποιοτικό έλεγχο κατά τη διάρκεια χαρτογράφησης. 81

82 Εικόνα 34: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy3) Το αρχείο Log.final.out, περιέχει τα πλήρη στατιστικά σύνολα χαρτογράφησης αφού έχει ολοκληρωθεί, τα οποία είναι πολύ χρήσιμα για τον ποιοτικό έλεγχο και την αξιολόγηση της απόδοσης της χαρτογράφησης. Τα στατιστικά υπολογίζονται για κάθε read (single- ή paired-end) και στη συνέχεια αθροίζονται ή υπολογίζονται κατά μέσον όρο σε όλα τα reads. Το STAR αντιμετωπίζει πάντοτε τα δεδομένα "read-1" και "read-2" των δεδομένων pair-end RNA-seq 15, ως τα ends ενός pair-end read (σε αντίθεση με τα samtools flagstat / idxstats, τα οποία μετρούν κάθε ζευγάρι ξεχωριστά). Σύμφωνα με το πρότυπο κατασκευής της βιβλιοθήκης RNA-seq, τα read-1 και read-2 είναι οι αλληλουχίες των άκρων ενός κομματιού («insert») του αρχικού μορίου RNA. Από προεπιλογή, το STAR δεν επιτρέπει τις αταίριαστες/αζευγάρωτες ευθυγραμμίσεις (δηλαδή εκείνες που έχουν μόνο ένα χαρτογραφημένο read) ή τα μη αντιστοιχισμένα χαρτογραφημένα ζεύγη (όπως chimeric ευθυγραμμίσεις) και αυτές οι ευθυγραμμίσεις δεν υπολογίζονται στα συνοπτικά στατιστικά στοιχεία. Ο αριθμός των reads, το μήκος του read και όλες οι άλλες μετρικές αναφέρονται σε paired-end reads και όχι σε χωριστά read -1 και read Η paired-end RNA sequencing δίνει την δυνατότητα σε εφαρμοφές ανακάλυψης όπως αυτές της ανίχνευσης συγχωνεύσεων γονιδίων στον καρκίνο και του χαρακτηρισμού νέων ισομορφών ματίσματος. Χρησιμοποιεί τη TruSeq RNA Library Prep Kits με μια εναλακτική μέθοδο κατακερματισμού. Γενικότερα, η paired-end sequencing επιτρέπει την αλληλοκάλυψη και των δύο άκρων ενός κομματιού(fragment) και την παραγωγή υψηλής ποιότητας ευπροσάρμοστων δεδομένων αλληλουχίας. Επίσης, διευκολύνει την ανίχνευση γονιδιωματικών αναδιατάξεων και επαναλαμβανόμενων στοιχείων αλληλουχίας, καθώς και γονιδιακών συντήξεων και νέων μετάγραφων. Από τότε που τα paired-end reads είναι πιο πιθανό να ευθυγραμμιστούν με μια αναφορά, βελτιώνεται η ποιότητα ολόκληρου του συνόλου δεδομένων. 82

83 Η πιο σημαντική μετρική είναι η " Uniquely mapped reads % " ή το ποσοστό χαρτογράφησης, η οποία ορίζεται ως η αναλογία μοναδικά χαρτογραφημένων reads από όλα τα reads εισόδου. Σε μια πολύ καλή βιβλιοθήκη η αναλογία αυτή υπερβαίνει το 90%, από την άλλη σε απλά καλές βιβλιοθήκες θα πρέπει να είναι πάνω από 80%. Τέλος σε περιπτώσεις χαμηλών ποσοστών χαρτογράφησης (<50%), η αναλογία αυτή αποτελεί ένδειξη προβλήματος με την προετοιμασία της βιβλιοθήκης ή την επεξεργασία δεδομένων. Κάθε splice μετράται στους αριθμούς των συνδέσεων, που αντιστοιχούν στο άθροισμα των μετρήσεων και καταγράφεται στο SJ.out.tab. Οι τιμές σφάλματος αναντιστοιχίας/ indel υπολογίζονται ανά βάση προς το σύνολο των βάσεων ( per base basis), δηλαδή είναι ο συνολικός αριθμός αναντιστοιχιών/ indels σε όλους τους μοναδικούς χαρτογράφους διαιρούμενος με το συνολικό αριθμό των χαρτογραφημένων βάσεων. Εικόνα 35: Πλήρη αποτελέσματα στατιστικών συνόλων χαρτογράφησης (Galaxy3) 83

84 Το αρχείο SJ.out.tab, περιέχει δεδομένα σημείων ματίσματος διαχωρισμένα με tab. Οι στήλες ερμηνεύονται ως εξής: 1 η Στήλη: Το Χρωμόσωμα 2η Στήλη: Η πρώτη βάση του ιντρονίου (1-based) 3η Στήλη: Η τελευταία βάση του ιντρονίου (1-based) 4η Στήλη: Ο κλώνος (0: απροσδιόριστος, 1: +, 2: -) 5η Στήλη: Το μοτίβο εσωνίου: 0: μη κανονική. 1: GT / AG, 2: CT / AC, 3: GC / AG, 4: CT / GC, 5: AT / AC, 6: GT / AT 6η Στήλη: 0: μη σχολιασμένο, 1: σχολιασμένο (μόνο εάν χρησιμοποιείται βάση δεδομένων σημείων ματίσματος) 7η Στήλη: Ο αριθμός μοναδικής χαρτογράφησης reads διασχίζοντας το σημείο (junction) 8η Στήλη: Ο αριθμός των πολλαπλών χαρτογραφήσεων reads διασχίζοντας (crossing) το σημείο (junction) 9η Στήλη: Η μέγιστη ματισμένη (spliced) προεξοχή ευθυγράμμισης 84

85 Εικόνα 36: Αποτελέσματα SJ.out.tab (Galaxy3) Το αρχείο outputreadspergene.out.tab περιέχει τον αριθμό των reads ανά γονίδιο κατά τη χαρτογράφηση, με 4 στήλες που αντιστοιχούν σε διαφορετικές επιλογές κατάστασης των δυνατών συνδυασμών των κλώνων του DNA (++.+-,-+,--): Στήλη 1 η : Το ID του γονιδίου Στήλη 2 η : Οι μετρήσεις για άκλωνη RNA-seq Στήλη 3 η : Οι μετρήσεις για το πρώτο σκέλος του read ευθυγραμμισμένο με το RNA (επιλογή htseq-count -s yes) Στήλη 4 η : Οι μετρήσεις για το δεύτερο σκέλος του read ευθυγραμμισμένο με το RNA (η επιλογή htseq-count -s αντίστροφη) Ένα read μετράται αν επικαλύπτει ένα και μόνο ένα γονίδιο. Και τα δύο άκρα ενός pairedend read ελέγχονται για επικαλύψεις. H επιλογή μίας από τις στήλες 3 ή 4, δίνει από την άλλη στήλη (4 ή 3) τον αριθμό των αντινοηματικών reads. 85

86 Εικόνα 37: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy3) Το αρχείο output unsorted Aligned.out.bam είναι δυαδικής μορφής και καταγράφει τα τελικά αποτελέσματα των ευθυγραμμισμένων ακολουθιών. Τα paired ends μιας ευθυγράμμισης είναι πάντα γειτονικά, και οι πολλαπλές ευθυγραμμίσεις ενός read είναι επίσης γειτονικές. Αυτό το "αταξινόμητο" αρχείο μπορεί να χρησιμοποιηθεί απευθείας με downstream λογισμικό, όπως το HTseq, χωρίς να απαιτείται η ταξινόμηση των ονομάτων. Το αρχείο outputaligned.totranscriptome.out.bam καταγράφει τις ευθυγραμμίσεις που μεταφράζονται σε συντεταγμένες μετάγραφου (εκτός από τις ευθυγραμμίσεις στις γονιδιωματικές συντεταγμένες που περιέχονται στο αρχείο Aligned.*.Sam/bam). Αυτές οι μεταγραφομικές ευθυγραμμίσεις μπορούν να χρησιμοποιηθούν με διάφορα λογισμικά ποσοτικοποίησης μετάγραφου, τα οποία (όπως το RSEM ή το express) απαιτούν τα reads να είναι χαρτογραφημένα σε μεταγράφωμα. 86

87 Σημειώστε ότι, το STAR πρώτα ευθυγραμμίζει τα reads σε ολόκληρο το γονιδίωμα και μόνο τότε ψάχνει για συμφωνία μεταξύ των ευθυγραμμίσεων και των μεταγράφων. Αυτή η προσέγγιση μπορεί να έχει ορισμένα πλεονεκτήματα σε σύγκριση με την ευθυγράμμιση μόνο στο μεταγράφωμα, μέσω της μη επιβολής annotated transcripts στις ευθυγραμμίσεις. Απεικόνιση: Ανοίγοντας το αρχείο από το Galaxy με τη χρήση του IGV έχω την παρακάτω απεικόνηση: Εικόνα 38: Απεικόνιση αποτελεσμάτων STAR (Galaxy3) Η οποία μοιάζει πολύ με το αποτέλεσμα.bam αρχείου του εργαστηρίου Cold Spring Harbor: Εικόνα 39: Απεικόνιση αποτελέσματος Cold Spring Harbor Lab 87

88 Αντίστοιχα πραγματοποιήθηκαν όλα τα παραπάνω βήματα για το 2 ο σύνολο δεδομένων (Rep4). Πιο αναλυτικά, επεξεργάστηκαν τα δεδομένα από τα εργαλεία του Galaxy (FASTQ Groomer, FastQC, Trimmomatic). Galaxy 2ο σύνολο δεδομένων: (RawDataRep4.fastq) Βήμα 1 ο : Quality Control Μετά την εισαγωγή του 2 ου συνόλου δεδομένων, μορφής.fastq.gz, πραγματοποιήθηκε το πρώτο βήμα της προ-επεξεργασίας, ο Ποιοτικός Έλεγχος, με τη χρήση του εργαλείου NGS: QC and manipulation FastQC. Εικόνα 40: Πρώτος Ποιοτικός Έλεγχος (rawdatarep4) Σε μερικά από τα αποτελέσματα του ελέγχου των δεδομένων βλέπουμε κάποια βασικά στατιστικά στοιχεία των δεδομένων, τη γραφική παράσταση της ποιότητας ανά βάση (Per base sequence quality) και όλες τις υπερεκφρασμένες ακολουθίες (overrepresented sequences). Πιο συγκεκριμένα, η κωδικοποίηση είναι Illumina 1.5, το συνολικό πλήθος των reads είναι , το μήκος τους είναι 101 και το ποσοστό GC περιεχομένου είναι

89 Εικόνα 41: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (rawdatarep4) 89

90 Βήμα 2 ο : FASTQ format Conversion Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FASTQ Groomer, μετατράπηκαν τα raw reads, αρχείο μορφής fastq.gz, σε μορφή fastqsanger. Βήμα 3 ο : Quality Control Εικόνα 42: Μετατροπή FASTQ μορφή (rawdatarep4) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Εικόνα 43: Δεύτερος Ποιοτικός Έλεγχος (rawdatarep4) Μετά την ολοκλήρωση της διαδικασίας φάνηκε η αλλαγή του Encoding σε Sanger / Illumina

91 Εικόνα 44: Αποτέλεσμα δεύτερου Ποιοτικού Ελέγχου (rawdatarep4) Βήμα 4 ο : Trimming (Adapters & Bases) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation Trimmomatic απομακρύνθηκαν οι προσαρμογείς από τα δεδομένα, οι βάσεις από τα reads με quality score μικρότερο ή ίσο από 20 και τα reads με μήκος μικρότερο του 16. Πιο αναλυτικά, στο πεδίο «Perform initial ILLUMINACLIP step (Adapter sequences to use)» δίνουμε την παράμετρο «Truseq 3». Στα πεδία «Select Trimmomatic operation to perform» και «Minimum quality required to keep a base» ορίζουμε τις παραμέτρους ως «TRAILING» και 21 αντίστοιχα. Ακόμα, προσθέσαμε τις παραμέτρους «Select Trimmomatic operation to perform» και «Minimum length of reads to be kept» με τις τιμές «MINLEN» και «16». Εικόνα 45: Trimming Adapters & Bases (rawdatarep4) 91

92 Βήμα 5 ο : Quality Control Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε πάλι Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Εικόνα 46: Τελικός Ποιοτικός Έλεγχος (rawdatarep4) Παρατηρείται ότι το μήκος των reads είναι από το διάστημα , κάτι που περιμέναμε μετά από την αφαίρεση των προσαρμογέων, των βάσεων από τα reads με ποιοτικό σκορ μικρότερο ή ίσο του 20 και των reads με μήκος μικρότερο από

93 Εικόνα 47: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (rawdatarep4) Βήμα 7 ο : Gene Model Annotation Χρησιμοποιώντας το εργαλείο Get Data UCSC Main Table Browser αποκτούμε ένα Gene Model Annotation. Στο πεδίο «assembly» επιλέγουμε την παράμετρο «hg19» και στο «output format» την παράμετρο «GTF». Στην συνέχεια πατάμε το κουμπί «get output» και στέλνουμε το αποτέλεσμα στο Galaxy. 93

94 Εικόνα 48: Απόκτηση Gene Model Annotation Βήμα 8 ο : Tophat Χρησιμοποιώντας το εργαλείο χαρτογράφησης Tophat από το NGS: RNA Analysis TopHat: Gapped-read mapper for RNA-seq data προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίο του reference genome επιλέγουμε «Use a built- -in genome» και «hg19». Ακόμα στο πεδίο «Library Type» επιλέχθηκε η παράμετρος «FR Unstranded» και στο «Gene Model Annotations» επιλέχθηκε «UCSC Main on Human: knowngene (genome)». 94

95 Εικόνα 49: Χαρτογράφηση Tophat (rawdatarep4) Το πλήθος των reads που εισήχθησαν στο εργαλείο του Tophat ήταν και το πλήθος των χαρτογραφημένων reads ήταν Ποιο αναλυτικά φαίνεται στην παρακάτω εικόνα: Εικόνα 50: Αποτελέσματα Χαρτογράφησης Tophat (rawdatarep4) 95

96 Βήμα 8 ο : Cufflinks Έχοντας δημιουργήσει μια λίστα με το όνομα «Cufflinks 3+4» περιέχοντας τα αποτελέσματα της χαρτογράφησης για τα δύο σύνολα δεδομένων εκτελέσαμε το τελευταίο βήμα της ανάλυσης μας χρησιμοποιώντας το εργαλείο Cufflinks από το NGS: RNA Analysis Cufflinks: transcript assembly and FPKM (RPKM) estimates for RNA-Seq data. Το αρχείο εισόδου είναι η λίστα με τα αποτέλεσμα του Τophat των δύο συνόλων δεδομένων καθώς επίσης χρησιμοποιούνται στα πεδία «Reference annotation» και «Reference sequence data» οι παράμετροι «UCSC Main on Human: knowngene (genome)» και «hg19» αντίστοιχα, όπως φαίνεται στην παρακάτω εικόνα. Στην πρώτη εικόνα φαίνεται το αρχείο εισόδου από το αποτέλεσμα του Tophat του πρώτου συνόλου δεδομένων και στην επόμενη το δεύτερο με όλες τις προαναφερόμενες παραμέτρους. Εικόνα 51: Cufflinks (rawdatarep4) 96

97 Εικόνα 52: Cufflinks (rawdatarep3) 97

98 Από τα αποτελέσματα του Cufflinks προκύπτει η συγκέντρωση/σύνθεση μεταγράφων, εκτιμώνται οι ποσότητές τους και ελέγχονται τα RNA-Seq δείγματα για διαφορική έκφραση και ρύθμιση. Δέχεται ευθυγραμμισμένα RNA-Seq reads και συναρμολογεί τις ευθυγραμμίσεις σε ένα parsimonious σύνολο των μετάγραφων. Έπειτα υπολογίζει τις σχετικές αφθονίες αυτών των μετάγραφων με βάση τα πόσα reads υποστηρίζουν το καθένα. STAR 2ο σύνολο δεδομένων: (Galaxy4.fastq) Αντιστοίχως με το 1 ο σύνολο δεδομένων μετά την εκτέλεση του χαρτογραφητή STAR λαμβάνω για το 2 ο σύνολο τα παρακάτω αποτελέσματα: Εικόνα 53: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy4) 98

99 Εικόνα 54: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy4) 99

100 Εικόνα 55: Πλήρη αποτελέσματα στατιστικών συνόλων χαρτογράφησης (Galaxy4) 100

101 Εικόνα 56: Αποτελέσματα SJ.out.tab (Galaxy4) 101

102 Εικόνα 57: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy4) 102

103 Απεικόνιση: Εικόνα 58: Απεικόνιση αποτελεσμάτων STAR (Galaxy4) Εικόνα 59: Απεικόνιση αποτελέσματος Cold Spring Harbor Lab 103

104 Galaxy 3ο σύνολο δεδομένων: (raw_data_all.fastq) Βήμα 1 ο : Quality Control Μετά την εισαγωγή του 3 ου συνόλου δεδομένων, μορφής.fastq, πραγματοποιήθηκε ομοίως με τα άλλα δύο σύνολα δεδομένων το πρώτο βήμα της προ-επεξεργασίας, ο Ποιοτικός Έλεγχος, με την χρήση του εργαλείου NGS: QC and manipulation FastQC. Εικόνα 60: Πρώτος Ποιοτικός Έλεγχος (raw_data_all) Σε μερικά από τα αποτελέσματα του ελέγχου των δεδομένων βλέπουμε κάποια βασικά στατιστικά στοιχεία των δεδομένων, την γραφική παράσταση της ποιότητας ανά βάση (Per base sequence quality) και όλες τις υπερεκφρασμένες ακολουθίες (overrepresented sequences). Πιο συγκεκριμένα, η κωδικοποίηση είναι είναι Sanger/ Illumina 1.9, το συνολικό πλήθος των reads είναι , το μήκος τους είναι και το ποσοστό GC περιεχομένου είναι 41. Σημειώνεται όπως φαίνεται και παρακάτω ότι δεν περιέχονται στο σύνολο δεδομένων καθόλου προσαρμογείς. 104

105 Εικόνα 61: Aποτελέσματα πρώτου Ποιοτικού Ελέγχου (raw_data_all) Παρατηρείται πως δεν υπάρχουν προσαρμογείς σε αυτό το σύνολο δεδομένων. Βήμα 2 ο : FASTQ format Conversion Το αρχείο raw_data_all.fastq μορφής όπως φάνηκε και στο προηγούμενο βήμα έχει Sanger/ Illumina 1.9 κωδικοποίηση που σημαίνει πως η μετατροπή του αρχείου σε.fastqsanger 105

106 μορφή μπορεί να γίνει άμεσα από την επιλογή της επεξεργασία του αρχείου στην πλατφόρμα του Galaxy. Βήμα 3 ο : Quality Control Εικόνα 62: Μετατροπή FASTQ μορφή (raw_data_all) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Βήμα 4 ο : Trimming (Bases) Εικόνα 63: Δεύτερος Ποιοτικός Έλεγχος (raw_data_all) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation Trimmomatic απομακρύνθηκαν οι βάσεις από τα reads με quality score μικρότερο ή ίσο από 20. Πιο αναλυτικά, στα πεδία «Select Trimmomatic operation to perform» και «Minimum quality required to keep a base» επιλέξαμε τις παραμέτρους «TRAILING» και «21» αντίστοιχα. Ακόμα, προσθέσαμε τις παραμέτρους «Select Trimmomatic operation to perform» και «Minimum length of reads to be kept» με τις τιμές «MINLEN» και «16». 106

107 Βήμα 5 ο : Quality Control Εικόνα 64: Trimming Adapters & Bases (raw_data_all) Χρησιμοποιώντας το εργαλείο NGS: QC and manipulation FastQC πραγματοποιήθηκε πάλι Ποιοτικός Έλεγχος στο.fastqsanger αρχείο που προέκυψε στο προηγούμενο βήμα. Εικόνα 65: Τελικός Ποιοτικός Έλεγχος (raw_data_all) Παρατηρείται ότι το μήκος των reads είναι από το διάστημα 25-36, κάτι που περιμέναμε μετά από την αφαίρεση των βάσεων από τα reads με ποιοτικό σκορ μικρότερο ή ίσο του 20 και των reads με μήκος μικρότερο από

108 Εικόνα 66: Αποτέλεσμα τελικού Ποιοτικού Ελέγχου (raw_data_all) Βήμα 7 ο : Gene Model Annotation Χρησιμοποιώντας το εργαλείο Get Data UCSC Main Table Browser αποκτούμε ένα Gene Model Annotation. Στο πεδίο «assembly» επιλέγουμε την παράμετρο «hg19» και στο «output format» την παράμετρο «GTF». Στην συνέχεια πατάμε το κουμπί «get output» και στέλνουμε το αποτέλεσμα στο Galaxy. 108

109 Εικόνα 67: Απόκτηση Gene Model Annotation Βήμα 8 ο : Tophat Χρησιμοποιώντας το εργαλείο χαρτογράφησης Tophat από το NGS: RNA Analysis TopHat: Gapped-read mapper for RNA-seq data προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής. Αναλυτικότερα, τα αποτελέσματα του τέταρτου βήματος (Trimming) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίο του reference genome επιλέγουμε «Use a built- -in genome» και «hg19». Ακόμα στο πεδίο «Library Type» επιλέχθηκε η παράμετρος «FR Unstranded» και στο «Gene Model Annotations» επιλέχθηκε «UCSC Main on Human: knowngene (genome)». 109

110 Εικόνα 68: Χαρτογράφηση Tophat (raw_data_all) 110

111 Το πλήθος των reads που εισήχθησαν στο εργαλείο του Tophat ήταν και το πλήθος των χαρτογραφημένων reads ήταν Ποιο αναλυτικά φαίνεται στην παρακάτω εικόνα: Βήμα 8 ο : Cufflinks Εικόνα 69: Αποτελέσματα Χαρτογράφησης Tophat (raw_data_all) Το τελευταίο βήμα της ανάλυσης μας είναι η εκτέλεση του εργαλείου Cufflinks από το NGS: RNA Analysis Cufflinks: transcript assembly and FPKM (RPKM) estimates for RNA-Seq data. Το αρχείο εισόδου είναι το αποτέλεσμα του Τophat καθώς επίσης χρησιμοποιούνται στα πεδία «Reference annotation» και «Reference sequence data» οι παράμετροι «UCSC Main on Human: knowngene (genome)» και «Normalized_FASTA_dataset.fasta» αντίστοιχα, όπως φαίνεται στην παρακάτω εικόνα. Εικόνα 70: Cufflinks (raw_data_all) 111

112 STAR Στην συνέχεια, το τελικό αποτελέσματα του Galaxy εισήχθησε και επεξεργάστηκε στο εργαλείο STAR-2.5.3a όπως φαίνεται με τις παρακάτω εντολές: /merge_all / -----index-----./star --runmode genomegenerate --genomedir /home/user_folder/out_all/ --genomefastafiles /home/user_folder/folder1/user@example.com/hg19_ref_genome.fa --sjdbgtffile /home/user_folder/folder1/user@example.com/hg.gtf --sjdboverhang 35 --runthreadn 8 - genomesasparsed mapping----- $ mkdir alignments_all $./STAR --runthreadn 8 --genomedir /home/user_folder/out_all/ --readfilesin /home/user_folder/folder1/user@example.com/galaxy_all.fastq --outfilenameprefix /home/user_folder/star-2.5.3a/source/alignments_all/output --outfiltermultimapnmax 1 --outsamtype BAM Unsorted SortedByCoordinate --quantmode TranscriptomeSAM GeneCounts Πίνακας 14: Εντολές STAR 112

113 Τα αποτελέσματα που προέκυψαν: Εικόνα 71: Αποτελέσματα σχετικών πληροφοριών εκτέλεσης (Galaxy_all) Εικόνα 72: Αποτελέσματα στατιστικών στοιχείων χαρτογράφησης (Galaxy_all) 113

114 Εικόνα 73: Πλήρη αποτελέσματα στατιστικών σύνολων χαρτογράφησης (Galaxy_all) 114

115 Εικόνα 74: Αποτελέσματα SJ.out.tab (Galaxy_all) 115

116 Εικόνα 75: Αποτελέσματα εξόδου Reads ανά γονίδιο (Galaxy_all) 116

117 Απεικόνιση: Εικόνα 76: Απεικόνιση αποτελεσμάτων STAR (Galaxy_all) 4.2. Galaxy με ταίριασμα ακολουθιών πρώτα στη mirbase και έπειτα στο μεταγράφωμα mirbase(1) Βήμα 1 ο : Mapping στην mirbase 1ο σύνολο δεδομένων: (Galaxy_3.fastq) Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του τέταρτου βήματος της προεπεξεργασίας των δεδομένων (Trimmomatic) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 117

118 Βήμα 2 ο : Idxstats Εικόνα 77: Χαρτογράφηση στην mirbase (rawdatarep3) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το όνομα της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. 118

119 Εικόνα 78: Idxstats (rawdatarep3) Βήμα 3 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Αναλυτικότερα, τα αποτελέσματα του πρώτου βήματος με τα μη χαρτογραφημένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίο «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 119

120 Βήμα 4ο : htseq-count Εικόνα 79: Χαρτογράφηση στο Reference Genome (rawdatarep3) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης στο τρίτο βήμα, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. 120

121 Στο πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. Εικόνα 80: Ηtseq-count (rawdatarep3) Από την ολοκλήρωση της χαρτογράφησης στην mirbase και στη συνέχεια στο αναφορικό γονιδίωμα (reference genome) προέκυψαν τα παρακάτω δεδομένα: Εικόνα 81: Αποτελέσματα χαρτογραφήσεων (rawdatarep3) Αναλυτικότερα, στην mirbase εισήχθησαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα 235 χαρτογραφήθηκαν μία φορά και 8 πάνω από μία. Στην συνέχεια, από τα μη χαρτογραφημένα reads που εισήχθησαν στο γονιδίωμα τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία. 121

122 2ο σύνολο δεδομένων: (Galaxy_4.fastq) Όμοια με την παραπάνω διαδικασία πραγματοποιήθηκαν τα βήματα χαρτογράφησης για το δεύτερο σύνολο δεδομένων. Βήμα 1 ο : Mapping στην mirbase Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του τέταρτου βήματος της προεπεξεργασίας των δεδομένων (Trimmomatic) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 122

123 Βήμα 2 ο : Idxstats Εικόνα 82: Χαρτογράφηση στην mirbase (rawdatarep4) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το όνομα της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. Εικόνα 83: Idxstats (rawdatarep4) Βήμα 3 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Αναλυτικότερα, τα αποτελέσματα του πρώτου βήματος με τα μη χαρτογραφημένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Ακόμα στο πεδίο «Do you want to use presets?» 123

124 επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». Βήμα 4ο : htseq-count Εικόνα 84: Χαρτογράφηση στο Reference Genome (rawdatarep4) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης στο τρίτο βήμα, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. 124

125 Μετά το πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. Εικόνα 85: Ηtseq-count (rawdatarep4) Από την ολοκλήρωση της χαρτογράφησης στην mirbase και στη συνέχεια στο αναφορικό γονιδίωμα (reference genome) προέκυψαν τα παρακάτω δεδομένα: Εικόνα 86: Αποτελέσματα χαρτογραφήσεων (rawdatarep4) Αναλυτικότερα, στην mirbase εισήχθησαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα 150 χαρτογραφήθηκαν μία φορά και 8 125

126 πάνω από μία. Στη συνέχεια, από τα μη χαρτογραφημένα reads που εισήχθησαν στο γονιδίωμα τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία. Βήμα 1 ο : Mapping στην mirbase 3ο σύνολο δεδομένων: (raw_data_all.fastq) Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος της προεπεξεργασίας των δεδομένων (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 126

127 Βήμα 2 ο : Idxstats Εικόνα 87: Χαρτογράφηση στην mirbase (raw_data_all) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το όνομα της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. Εικόνα 88: Idxstats (raw_data_all) Βήμα 3 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Αναλυτικότερα, τα αποτελέσματα του πρώτου βήματος με τα μη χαρτογραφημένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 127

128 Βήμα 4ο : htseq-count Εικόνα 89: Χαρτογράφηση στο Reference Genome (raw_data_all) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης στο τρίτο βήμα, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. 128

129 Μετά το πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. Εικόνα 90: Ηtseq-count (raw_data_all) Από την ολοκλήρωση της χαρτογράφησης στην mirbase και στη συνέχεια στο αναφορικό γονιδίωμα (reference genome) προέκυψαν τα παρακάτω δεδομένα: Εικόνα 91: Αποτελέσματα χαρτογραφήσεων (raw_data_all) 129

130 Αναλυτικότερα, στην mirbase εισήχθησαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα 384 χαρτογραφήθηκαν μία φορά και τα 18 πάνω από μία. Στην συνέχεια, από τα μη χαρτογραφημένα που εισήχθησαν στο γονιδίωμα τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία Galaxy με ταίριασμα ακολουθιών πρώτα στο μεταγράφωμα και έπειτα στη mirbase mirbase(2) 1ο σύνολο δεδομένων: Βήμα 1 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Τα «single-end» προεπεξεργασμένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Στο πεδίο «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Επίσης, στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 130

131 Εικόνα 92: Χαρτογράφηση στο Reference Genome (rawdatarep3) Βήμα 2ο : htseq-count Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. 131

132 Μετά το πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. Βήμα 3 ο : Mapping στην mirbase Εικόνα 93: Ηtseq-count (rawdatarep3) Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος της προεπεξεργασίας των δεδομένων (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίο «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 132

133 Βήμα 4 ο : Idxstats Εικόνα 94: Χαρτογράφηση στην mirbase (rawdatarep3) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το αναγνωριστικό της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. 133

134 Εικόνα 95: Idxstats (rawdatarep3) Από την ολοκλήρωση της χαρτογράφησης στo αναφορικό γονιδίωμα (reference genome) και στη συνέχεια στην mirbase προέκυψαν τα παρακάτω δεδομένα: Εικόνα 96: Αποτελέσματα χαρτογραφήσεων (rawdatarep3) Αναλυτικότερα, στο γονιδίωμα εισήχθησαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία. Στη συνέχεια, από τα μη χαρτογραφημένα που εισήχθησαν δεν χαρτογραφήθηκε κανένα στη mirbase. 2ο σύνολο δεδομένων: web Ομοίως με το 1 ο σύνολο δεδομένων ακολουθήθηκαν τα ίδια βήματα και για το 2 ο σύνολο. Βήμα 1 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Τα «single-end» προεπεξεργασμένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Στο πεδίο «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Επίσης, στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 134

135 Βήμα 2ο : htseq-count Εικόνα 97: Χαρτογράφηση στο Reference Genome (rawdatarep4) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. Στο πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. 135

136 Βήμα 3 ο : Mapping στην mirbase Εικόνα 98: Ηtseq-count (rawdatarep4) Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος της προεπεξεργασίας των δεδομένων (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 136

137 Βήμα 4 ο : Idxstats Εικόνα 99: Χαρτογράφηση στη mirbase (rawdatarep4) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το αναγνωριστικό της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. 137

138 Εικόνα 100: Idxstats (rawdatarep4) Από την ολοκλήρωση της χαρτογράφησης στo αναφορικό γονιδίωμα (reference genome) και στη συνέχεια στη mirbase προέκυψαν τα παρακάτω δεδομένα: Εικόνα 101: Αποτελέσματα χαρτογραφήσεων (rawdatarep4) Αναλυτικότερα, στο γονιδίωμα εισήχθησαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία. Στη συνέχεια, από τα μη χαρτογραφημένα που εισήχθησαν δε χαρτογραφήθηκε κανένα στη mirbase. 3ο σύνολο δεδομένων: Βήμα 1 ο : Mapping στο Reference Genome Στο βήμα αυτό ο Bowtie2 χαρτογραφεί τα reads στο reference genome. Τα ευθυγραμμισμένα reads αποθηκεύονται σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε αρχεία.fastqsanger μορφής. Τα «single-end» προεπεξεργασμένα reads εισήχθησαν στο εργαλείο προς χαρτογράφηση. Στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a build-in genome index» με reference genome «hg19». Επίσης, στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 138

139 Βήμα 2ο : htseq-count Εικόνα 102: Χαρτογράφηση στο Reference Genome (raw_data_all) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης, χρησιμοποιούνται για να πραγματοποιηθεί το εργαλείο htseq-count από το NGS: RNA Analysis htseq-count - Count aligned reads in a BAM file that overlap features in a GFF file (Galaxy Version 0.6.1galaxy3). Μετά από την προσθήκη του hsa.gff3 αρχείου στο ιστορικό επιλέχτηκε στο κατάλληλο πεδίο «GFF File». Επίσης, στα πεδία «Mode», «Stranded», «Minimum 139

140 alignment quality», «Feature type» και «ID Attribute» επιλέχθηκαν οι παράμετροι «Union», «YES», «10», «mirna» και «Name» αντίστοιχα. Μετά το πέρας της εκτέλεσης δημιουργήθηκε ένας πίνακας με μετρήσεις για κάθε χαρακτηριστικό, ακολουθούμενο από τους ειδικούς μετρητές, οι οποίοι μετράνε τα reads που δεν υπολογίστηκαν για κανένα χαρακτηριστικό για διάφορους λόγους. Βήμα 3 ο : Mapping στην mirbase Εικόνα 103: Ηtseq-count (raw_data_all) Χρησιμοποιώντας το εργαλείο χαρτογράφησης Bowtie2 από το NGS: Mapping Bowtie2 - map reads against reference genome (Galaxy Version ) προέκυψαν τα ευθυγραμμισμένα reads αποθηκευμένα σε αρχεία.bam μορφής καθώς και τα μη ευθυγραμμισμένα reads σε.fastqsanger μορφή. Αναλυτικότερα, τα αποτελέσματα του πέμπτου βήματος της προεπεξεργασίας των δεδομένων (Filtering) εισήχθησαν στο εργαλείο προς χαρτογράφηση. Τα δεδομένα μας είναι «single-end» και στο πεδίου «Write unaligned reads (in fastq format) to separate file(s)» επιλέγουμε «Yes» και στο «Will you select a reference genome from your history or use a built-in index?» την παράμετρο «Use a genome from History and build index» με reference genome «human_matures_τ.fasta». Ακόμα στο πεδίο «Do you want to use presets?» επιλέχθηκε το «Very sensitive local» και στο «Save the bowtie2 mapping statistics to the history» επιλέχθηκε το «Yes». 140

141 Βήμα 4 ο : Idxstats Εικόνα 104: Χαρτογράφηση στην mirbase (raw_data_all) Τα αποτελέσματα των χαρτογραφημένων reads της χαρτογράφησης χρησιμοποιούνται για να πραγματοποιηθεί η εκτέλεση της εντολής samtools idxstats από το NGS: SAMtools IdxStats reports stats of the BAM index file (Galaxy Version 2.0.1). Με την ολοκλήρωσή της εξάγεται ένας πίνακας τεσσάρων στηλών με τα εξής στοιχεία: α) το όνομα της ακολουθίας του Reference, β) το μήκος της ακολουθίας του Reference, γ) ο αριθμός των χαρτογραφημένων reads, δ) ο αριθμός των reads που έχουν τοποθετηθεί αλλά δεν έχουν χαρτογραφηθεί. 141

142 Εικόνα 105: Idxstats (raw_data_all) Από την ολοκλήρωση της χαρτογράφησης στην mirbase και στη συνέχεια στο αναφορικό γονιδίωμα (reference genome) προέκυψαν τα παρακάτω δεδομένα: Εικόνα 106: Αποτελέσματα χαρτογραφήσεων (raw_data_all) Αναλυτικότερα, στο γονιδίωμα εισάχθηκαν unpaired reads από τα οποία τα δεν χαρτογραφήθηκαν πουθενά, τα χαρτογραφήθηκαν μία φορά και τα πάνω από μία. Στη συνέχεια, από τα μη χαρτογραφημένα που εισήχθησαν δε χαρτογραφήθηκε κανένα στη mirbase. 142

143 5. Κεφάλαιο Πέμπτο: Πειραματική αξιολόγηση διάφορων μεθοδολογιών ανάλυσης δεδομένων αλληλούχησης μικρών μη κωδικών μορίων RNA 5.1. Περιγραφή Δεδομένων Τα πρώτα δύο σύνολα δεδομένων που επεξεργάστηκαν όπως αναφέρθηκε στην προηγούμενη ενότητα λήφθηκαν από τη διαδικτιακή βάση του UCSC Genome Browser και πιο συγκεκριμένα από το Small RNA-seq from ENCODE/Cold Spring Harbor Lab όπως φαίνεται στην Εικόνα 98. Εικόνα 107: Επιλεγμένα δεδομένα εργασίας Το small RNA τμήμα του Cold Spring Harbor Lab (CSHL) απεικονίζει τα κοντά (short) συνολικά δεδομένα αλληλούχησης RNA από τους ENCODE ιστούς. Το πρωτόκολλο που έχει χρησιμοποιηθεί για τη δημιουργία αυτών των δεδομένων παρήγαγε κατευθυντικά reads από το 5' άκρο κοντών RNAs, RNAs μικρότερα από 200 νουκλεοτίδια σε μήκος. Οι βιβλιοθήκες αλληλουχήθηκαν χρησιμοποιώντας την πλατφόρμα της Illumina, GAIIx. Αυτά τα δεδομένα δημιουργήθηκαν από τα Cold Spring Harbor Laboratories ως μέρος της ENCODE Consortium. Η μελέτη ENCODE επιδιώκει να εντοπίσει και να χαρακτηρίσει όλα τα λειτουργικά στοιχεία του ανθρώπινου γονιδιώματος. Τα κύτταρα Α549 είναι αδενοκαρκινικά ανθρώπινα κυψελιδικά βασικά επιθηλιακά κύτταρα. Η κυτταρική σειρά Α549 αναπτύχθηκε για πρώτη φορά το 1972 από τους D. J. Giard et al. μέσω της απομάκρυνσης και καλλιέργειας του καρκινικού ιστού του πνεύμονα στον εκφυτευμένο όγκο ενός Καυκάσιου άνδρα 58 ετών[209][210]. Στη φύση, αυτά τα κύτταρα είναι φολιδωτά/λεπιδωτά και είναι υπεύθυνα για τη διάχυση ορισμένων ουσιών, όπως το νερό και οι ηλεκτρολύτες, κατά μήκος των κυψελίδων των πνευμόνων. Το τρίτο σύνολο δεδομένων είναι ένα προσομοιωμένο σύνολο δεδομένων που δημιουργήσαμε χρησιμοποιώντας το εργαλείο ART ( Παράξαμε ένα fastq αρχείο με reads από το sequencer GA1 - GenomeAnalyzer I μήκους 36bp. Σε αυτό το αρχείο προσθέσαμε 100 γνωστά mirnas από τη mirrbase v21 143

Γονιδιωματική. G. Patrinos

Γονιδιωματική. G. Patrinos Γονιδιωματική Η μεταγονιδιωματική εποχή... Σημαντικότερα επιτεύγματα POST GENOME ERA Ολοκλήρωση της αποκρυπτογράφησης της αλληλουχίας των γονιδιωμάτων πολλών οργανισμών. Προτύπωση μεθοδολογιών για προσδιορισμό

Διαβάστε περισσότερα

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της...

ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ. Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της... ΓΕΝΕΤΙΚΗ ΜΗΧΑΝΙΚΗ Η τεχνολογία του ανασυνδυασμένου DNA και οι εφαρμογές της... Γενετική Μηχανική o Περιλαμβάνει όλες τις τεχνικές με τις οποίες μπορούμε να επεμβαίνουμε στο γενετικό υλικό των οργανισμών.

Διαβάστε περισσότερα

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος Μεζίτη Αλεξάνδρα Τεχνικές αλληλουχισης νέας γενιάς High-throughput 1990-2003: Ανθρώπινο γονιδίωμα à ~ 3 δισ. $ 2016: 250

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους; Βιολογία Γ Ενιαίου Λυκείου / Θετική Κατεύθυνση κεφαλαιο 2ο: αντιγραφη, εκφραση και ρυθμιση τησ ΓενετικηΣ ΠληροφοριαΣ 1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; Ευκαρυωτικά κύτταρα: στον πυρήνα,

Διαβάστε περισσότερα

Κεφάλαιο 4: Ανασυνδυασμένο DNA

Κεφάλαιο 4: Ανασυνδυασμένο DNA Κεφάλαιο 4: Ανασυνδυασμένο DNA 1. Η ανάπτυξη της γενετικής μηχανικής επέτρεψε: α. την κατανόηση των μηχανισμών αντιγραφής του γενετικού υλικού β. την απομόνωση των πλασμιδίων από τα βακτήρια γ. την πραγματοποίηση

Διαβάστε περισσότερα

DNA MICROARRAYS. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

DNA MICROARRAYS. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου DNA MICROARRAYS Σελίδα 1 Μελέτη του γονιδιώματος Ποια είναι τα γονίδια και που βρίσκονται; Ποιοι μηχανισμοί ρυθμίζουν την έκφραση κάθε γονιδίου; Σε τι επίπεδα εκφράζονται τα γονίδια υπό διαφορετικές συνθήκες;

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΚΕΦΑΛΑΙΟ 2 ο 1. Με ποιο μηχανισμό αντιγράφεται το DNA σύμφωνα με τους Watson και Crick; 2. Ένα κύτταρο που περιέχει ένα μόνο χρωμόσωμα τοποθετείται σε θρεπτικό υλικό που περιέχει ραδιενεργό

Διαβάστε περισσότερα

Σύντομη Περιγραφή Συνολικής Προόδου Φυσικού Αντικειμένου από την έναρξη του έργου μέχρι τις 30/06/2015

Σύντομη Περιγραφή Συνολικής Προόδου Φυσικού Αντικειμένου από την έναρξη του έργου μέχρι τις 30/06/2015 Σύντομη Περιγραφή Συνολικής Προόδου Φυσικού Αντικειμένου από την έναρξη του έργου μέχρι τις 30/06/2015 Δ1: Συντονισμός του έργου. Προκηρύξεις και επιλογή εξωτερικών επιστημονικών συνεργατών. Ολοκλήρωση

Διαβάστε περισσότερα

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015 Βιοπληροφορική II Παντελής Μπάγκος Αναπληρωτής Καθηγητής Πανεπιστήμιο Θεσσαλίας Λαμία, 2015 Μικροσυστοιχίες Γυάλινο πλακίδιο που αποτελείται από συγκεκριμένες αλληλουχίες οι οποίες είναι ειδικές για συγκεκριμένα

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ 2.4 ΣΤΑΔΙΑ ΜΕΤΑΦΡΑΣΗΣ σ ε λ ί δ α 1 ΕΙΚΟΝΑ 4.2β ΕΡΩΤΗΣΕΙΣ 1. Να συμπληρώσετε τα κενά πλαίσια της εικόνας με την κατάλληλη λέξη ή φράση 2. Να γράψετε τον προσανατολισμό της μετακίνησης του ριβοσώματος

Διαβάστε περισσότερα

Μοριακή Bιολογία ΔIAΛEΞΕΙΣ 9 & 10

Μοριακή Bιολογία ΔIAΛEΞΕΙΣ 9 & 10 Μοριακή Bιολογία ΔIAΛEΞΕΙΣ 9 & 10 ΩΡΙΜΑΝΣΗ ΤΟΥ RNA, ΙΝΤΡΟΝΙΑ/ΕΞΟΝΙΑ & ΜΕΤΑ-ΜΕΤΑΓΡΑΦΙΚΗ ΡΥΘΜΙΣΗ Χρήστος Παναγιωτίδης, Ph.D. Καθηγητής Κυτταρικής/Μοριακής Βιολογίας Εργαστήριο Φαρμακολογίας, Τομέας Φαρμακογνωσίας/Φαρμακολογίας

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Λειτουργική γονιδιωµατική. 6ο εργαστήριο Λειτουργική γονιδιωµατική 6ο εργαστήριο Λειτουργική γονιδιωµατική Προσπαθεί να κατανοήσει τις λειτουργίες των βιολογικών µορίων, σε επίπεδο ολόκληρου του γονιδιώµατος. Γίνονται µετρήσεις για το σύνολο

Διαβάστε περισσότερα

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2. ΘΕΜΑ Α Α1. γ (το πριμόσωμα) Α2. γ (οι υποκινητές και οι μεταγραφικοί παράγοντες κάθε γονιδίου) Α3. α (μεταφέρει ένα συγκεκριμένο αμινοξύ στο ριβόσωμα) Α4. β (αποδιάταξη των δύο συμπληρωματικών αλυσίδων)

Διαβάστε περισσότερα

Βιολογία Θετικής Κατεύθυνσης. 4 ο Κεφάλαιο - Τεχνολογία του ανασυνδυασμένου DNA

Βιολογία Θετικής Κατεύθυνσης. 4 ο Κεφάλαιο - Τεχνολογία του ανασυνδυασμένου DNA Βιολογία Θετικής Κατεύθυνσης 4 ο Κεφάλαιο - Τεχνολογία του ανασυνδυασμένου DNA Τεχνολογία ανασυνδυασμένου DNA Αναπτύχθηκε λόγω της ανακάλυψης: i. Περιοριστικών ενδονουκλεασών ii. Ειδικών φορέων DNA Έδωσε

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΕΙΡΑΜΑΤΙΚΟ ΕΝΙΑΙΟ ΛΥΚΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ ZAΡΦΤΖΙΑΝ ΜΑΡΙΛΕΝΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΣΚΗΣΕΙΣ ΕΡΩΤΗΣΕΙΣ 4 ου ΚΕΦΑΛΑΙΟΥ 1.Τα παρακάτω στοιχεία να μπουν στην κατάλληλη στήλη ( ΣΥΓΚΡΙΣΗ ΓΟΝΙΔΙΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

Εφαρμογές τεχνολογιών Μοριακής Βιολογίας στην Γενετική

Εφαρμογές τεχνολογιών Μοριακής Βιολογίας στην Γενετική Εφαρμογές τεχνολογιών Μοριακής Βιολογίας στην Γενετική Πεφάνη Δάφνη 06.03.2019 Επίκουρη καθηγήτρια Εργαστήριο Βιολογίας Τεχνικές μοριακής βιολογίας Επιτρέπουν την μελέτη της δομής του DNA και της έκφρασης

Διαβάστε περισσότερα

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Η οικογενειακή ομοιότητα, οφείλεται στα κοινά γονίδια. Τα γονίδια πρέπει να εκφραστούν για να έχουν αποτέλεσμα, και η έκφραση αυτή ρυθμίζεται από πρωτεΐνες.

Διαβάστε περισσότερα

Βιολογία. Θετικής Κατεύθυνσης

Βιολογία. Θετικής Κατεύθυνσης Βιολογία Θετικής Κατεύθυνσης Κεφάλαιο 4ο ΤΕΧΝΟΛΟΓΊΑ ΤΟΥ ΑΝΑΣΥΝΔΥΑΣΜΈΝΟΥ DNA Γενετική Μηχανική 3 Είναι ο κλάδος της Βιολογίας που περιλαμβάνει τις τεχνικές με τις οποίες ο άνθρωπος επεμβαίνει στο γενετικό

Διαβάστε περισσότερα

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5 Βιολογία Κατεύθυνσης Γ Λυκείου Απαντήσεις διαγωνίσματος στο Κεφάλαιο 4 ο ΘΕΜΑ Α Α1. β Α2. β Α3. γ Α4. β Α5. β ΘΕΜΑ B B1. Ο κλώνος είναι μια ομάδα πανομοιότυπων μορίων, κυττάρων, ή οργανισμών. B2. Η υβριδοποίηση

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Γ ΛΥΚΕΙΟΥ

ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Γ ΛΥΚΕΙΟΥ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΟΜΑΔΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Γ ΛΥΚΕΙΟΥ Επιμέλεια: Βουδούρη Καλλιρρόη Ριζηνίας 69 & Λασαίας 21 τηλ.2810313170 www.kmathisi.com ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΟΝΟΜΑ:..

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

Εργαλεία Μοριακής Γενετικής

Εργαλεία Μοριακής Γενετικής Εργαλεία Μοριακής Γενετικής Αρχές Μοριακής κλωνοποίησης Τα περιοριστικά ένζυμα: αναγνωρίζουν αλληλουχίες (θέσεις περιορισμού). 2 τύποι ενζύμων: -Τύπος I = Κόβουν κοντά στη θέση περιορισμού -σπάνια χρησιμοποιούνται.

Διαβάστε περισσότερα

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος Μεζίτη Αλεξάνδρα Μέγεθος και οργάνωση γονιδιωμάτων Μελετάμε τα γονιδιώματα για να καταλάβουμε πως λειτουργεί

Διαβάστε περισσότερα

Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014

Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014 Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014 ΘΕΜΑ Α Α1. β Α2. β Α3. β Α4. β Α5. β ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ B B1. Ο όρος γονιδιακή έκφραση αναφέρεται συνήθως σε όλη τη διαδικασία με την οποία

Διαβάστε περισσότερα

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Διδακτική με έμφαση στις βιοεπιστήμες Μαρία Ευαγγελία Βασιλογιάννη Στοιχεία Μαθήματος 1. Μάθημα : Βιολογία 2. Τίτλος ενότητας: Η ροή της γενετικής

Διαβάστε περισσότερα

POLYMERASE CHAIN REACTION (PCR) ΑΛΥΣΙΔΩΤΗ ΑΝΤΙΔΡΑΣΗ ΤΗΣ ΠΟΛΥΜΕΡΑΣΗΣ

POLYMERASE CHAIN REACTION (PCR) ΑΛΥΣΙΔΩΤΗ ΑΝΤΙΔΡΑΣΗ ΤΗΣ ΠΟΛΥΜΕΡΑΣΗΣ POLYMERASE CHAIN REACTION (PCR) ΑΛΥΣΙΔΩΤΗ ΑΝΤΙΔΡΑΣΗ ΤΗΣ ΠΟΛΥΜΕΡΑΣΗΣ Kary Mullis (Nobel Χημείας, 1993) in vitro τεχνική ( molecular photocopying ) Εφαρμογή σε όλους τους τομείς της Βιολογίας Στις περισσότερες

Διαβάστε περισσότερα

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ Αρχές μοριακής παθολογίας Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ Μοριακή Παθολογία Ανερχόμενος κλάδος της Παθολογίας Επικεντρώνεται στην μελέτη και τη διάγνωση νοσημάτων Στον καθορισμό και την πιστοποίηση

Διαβάστε περισσότερα

Με τα sequence projects φτάσαμε στην εποχή που η ελάχιστη πληροφορία για να ξεκινήσει ένα πείραμα είναι ολόκληρη ακολουθία DNA του οργανισμού Το DNA

Με τα sequence projects φτάσαμε στην εποχή που η ελάχιστη πληροφορία για να ξεκινήσει ένα πείραμα είναι ολόκληρη ακολουθία DNA του οργανισμού Το DNA Microarrays Με τα sequence projects φτάσαμε στην εποχή που η ελάχιστη πληροφορία για να ξεκινήσει ένα πείραμα είναι ολόκληρη ακολουθία DNA του οργανισμού Το DNA όμως του οργανισμού είναι μια στατική πληροφορία

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ 1 ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ Οι δύο πολυνουκλεοτιδικές αλυσίδες του DNA αποτελούνται από νουκλεοτίδια τα οποία ενώνονται με φωσφοδιεστερικούς δεσμούς. Πιο συγκεκριμένα

Διαβάστε περισσότερα

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ ΤΑΞΗ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΣ: ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ Ημερομηνία: Σάββατο 13 Ιανουαρίου 2018 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς

Διαβάστε περισσότερα

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Περιεχόμενα Παρουσίασης Βιολογικό υπόβαθρο Το κεντρικό αξίωμα Σύνοψη της Βιοπληροφορικής Ερευνητικές περιοχές Πηγές πληροφοριών Τι είναι η Βιοπληροφορική Βιο Πληροφορική μοριακή

Διαβάστε περισσότερα

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ»

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ» Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ» DNA RNA: ΑΝΤΙΓΡΑΦΗ, ΜΕΤΑΓΡΑΦΗ, ΜΕΤΑΦΡΑΣΗ DNA RNA: Βασικά Χαρακτηριστικά Ρόλος Κεντικό Δόγμα της Βιολογίας:

Διαβάστε περισσότερα

ΘΕΜΑ 1 Ο ΜΑΘΗΜΑ / ΤΑΞΗ : ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΘΕΡΙΝΑ ΗΜΕΡΟΜΗΝΙΑ: 01/12/2013

ΘΕΜΑ 1 Ο ΜΑΘΗΜΑ / ΤΑΞΗ : ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΘΕΡΙΝΑ ΗΜΕΡΟΜΗΝΙΑ: 01/12/2013 ΜΑΘΗΜΑ / ΤΑΞΗ : ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΘΕΡΙΝΑ ΗΜΕΡΟΜΗΝΙΑ: 01/12/2013 ΘΕΜΑ 1 Ο Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Τα

Διαβάστε περισσότερα

Η αναγέννηση µηδενίζει το ηλικιακό ρολόι; Εκτίµηση της κυτταρικής γήρανσης σε αναγεννηµένα όργανα.

Η αναγέννηση µηδενίζει το ηλικιακό ρολόι; Εκτίµηση της κυτταρικής γήρανσης σε αναγεννηµένα όργανα. ΠΡΟΓΡΑΜΜΑ ΕΠΙΣΤΗΜΟΝΙΚΩΝ ΜΕΛΕΤΩΝ 2011 Η αναγέννηση µηδενίζει το ηλικιακό ρολόι; Εκτίµηση της κυτταρικής γήρανσης σε αναγεννηµένα όργανα. Μιχάλης Αβέρωφ (επιστ. υπεύθυνος) Ινστιτούτο Μοριακής Βιολογίας και

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΕΙΡΑΜΑΤΙΚΟ ΕΝΙΑΙΟ ΛΥΚΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ ZAΡΦΤΖΙΑΝ ΜΑΡΙΛΕΝΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΣΚΗΣΕΙΣ ΕΡΩΤΗΣΕΙΣ 4 ου ΚΕΦΑΛΑΙΟΥ 1.Τα παρακάτω στοιχεία να μπουν στην κατάλληλη στήλη ( ΣΥΓΚΡΙΣΗ ΓΟΝΙΔΙΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

σύγχρονο προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. & Group µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ

σύγχρονο προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. & Group µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ σύγχρονο Φάσµα & Group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ 210 50 51 557 210 50 56 296 25ης Μαρτίου 111 ΠΕΤΡΟΥΠΟΛΗ 210 50 20 990 210 50 27 990 25ης Μαρτίου 74 ΠΕΤΡΟΥΠΟΛΗ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ EIKONA 2.1 Ημισυντηρητικός μηχανισμός αντιγραφής του DNA 1. Να γράψετε τα ένζυμα που (α) προκαλούν ξετύλιγμα των αλυσίδων του αρχικού (μητρικού μορίου) DNA και (β) συνθέτουν τις νέες αλυσίδες του DNA.

Διαβάστε περισσότερα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α!  # $ % & ' ( ) ( ) ( * % + α ι α ! THΛ: 270727 222594 THΛ: 919113 949422 Απαντήσεις: " # $ % & ' 1=γ, 2=β, 3=γ, 4=β, 5=δ. " # $ % ( ' εδοµένα από την ανάλυση του ποσοστού των βάσεων σε µόρια DNA από διαφορετικούς οργανισµούς έδειχναν

Διαβάστε περισσότερα

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής Στόχοι του μαθήματος Στο συγκεκριμένο μάθημα θα συζητηθούν θέματα σχετικά με τις κυριότερες βάσεις δεδομένων γονιδιωματικής,

Διαβάστε περισσότερα

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ

Αρχές μοριακής παθολογίας. Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ Αρχές μοριακής παθολογίας Α. Αρμακόλας Αν. Καθηγητής Ιατρική Σχολή ΕΚΠΑ Μοριακή Παθολογία Ανερχόμενος κλάδος της Παθολογίας Επικεντρώνεται στην μελέτη και τη διάγνωση νοσημάτων Στον καθορισμό και την πιστοποίηση

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014 Απαντήσεις Θεμάτων ΘΕΜΑ Α A1. Τα πλασμίδια είναι: δ. κυκλικά δίκλωνα μόρια DNA

Διαβάστε περισσότερα

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ ΑΝΤΙΓΡΑΦΗ ΜΕΤΑΓΡΑΦΗ Γίνεται σύνθεση DNA. Γίνεται σύνθεση RNA. Εξασφαλίζεται η διαιώνιση της γενετικής

Διαβάστε περισσότερα

Θεωρία - Εφαρμογές ΓΕΝΕΤΙΚΗ ΒΕΛΤΙΩΣΗ ΦΥΤΩΝ - ΜΟΡΙΑΚΟΙ ΔΕΙΚΤΕΣ 1

Θεωρία - Εφαρμογές ΓΕΝΕΤΙΚΗ ΒΕΛΤΙΩΣΗ ΦΥΤΩΝ - ΜΟΡΙΑΚΟΙ ΔΕΙΚΤΕΣ 1 ΜΟΡΙΑΚΟΙ ΔΕΙΚΤΕΣ Θεωρία - Εφαρμογές ΓΕΝΕΤΙΚΗ ΒΕΛΤΙΩΣΗ ΦΥΤΩΝ - ΜΟΡΙΑΚΟΙ ΔΕΙΚΤΕΣ 1 ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΜΟΡΙΑΚΟΥΣ Έπιλογή με βάση: ΔΕΙΚΤΕΣ Φαινοτυπικοί δείκτες Γενετικοί δείκτες Μοριακοί δείκτες (Πρωτεϊνικοί &

Διαβάστε περισσότερα

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1 ΤΟ DNA ΚΑΙ RNA Θανος Εξαρχου Γ1 ΤΟ DNA Το δε(σ)οξυριβο(ζο)νουκλεϊ(νι)κό οξu είναι νουκλεϊκό οξύ που περιέχει τις γενετικές πληροφορίες που καθορίζουν τη βιολογική ανάπτυξη όλων των κυτταρικών μορφών ζωής

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014 Απαντήσεις Θεμάτων ΘΕΜΑ Α A1. Τα πλασμίδια είναι: δ. κυκλικά δίκλωνα μόρια DNA

Διαβάστε περισσότερα

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας

Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Μια ενημέρωση για ασθενείς και παρόχους φροντίδας Τι είναι το FoundationOne ; Το FoundationOne είναι μια εξέταση που ανιχνεύει γενωμικές μεταβολές (π.χ. μεταλλάξεις) που είναι γνωστό ότι σχετίζονται με

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2010

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2010 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2010 ΘΕΜΑ Α 1. δ 2. β 3. α 4. β 5. γ ΘΕΜΑ Β 1. Σελ. 17 σχολ. Βιβλίου: Το γενετικό υλικό ενός κυττάρου αποτελεί το γονιδίωμά του όπως είναι τα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. σύγχρονο Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ 50.51.557 50.56.296 25ης Μαρτίου 74 ΠΛ.ΠΕΤΡΟΥΠΟΛΗΣ 50.50.658 50.60.845 25ης Μαρτίου 111 ΠΕΤΡΟΥΠΟΛΗ 50.27.990

Διαβάστε περισσότερα

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών.

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών. Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών. Υψηλότερο επίπεδο-εκλεκτικό σημειωτικό περιβάλλον ή πλαίσιο-όροι ορίου-συνοριακές συνθήκες-εκλεκτικός ρυθμιστικός ρόλος-μακροσημειωτικό

Διαβάστε περισσότερα

Βιολογία. Γ ΚΥΚΛΟΣ ΠΡΟΣΟΜΟΙΩΤΙΚΩΝ ΔΙΑΓΩΝΙΣΜΑΤΩΝ ΣΥΓΧΡΟΝΟ Προτεινόμενα Θέματα Γ ΓΕΛ. Ιανουάριος προσανατολισμού ΘΕΜΑ Α

Βιολογία. Γ ΚΥΚΛΟΣ ΠΡΟΣΟΜΟΙΩΤΙΚΩΝ ΔΙΑΓΩΝΙΣΜΑΤΩΝ ΣΥΓΧΡΟΝΟ Προτεινόμενα Θέματα Γ ΓΕΛ. Ιανουάριος προσανατολισμού ΘΕΜΑ Α Βιολογία προσανατολισμού ΘΕΜΑ Α Να επιλέξετε τη σωστή απάντηση. Α1. Αν μια ασθένεια καθορίζεται από επικρατές φυλοσύνδετο γονίδιο θα εμφανίζεται: α. Σε όλους τους απογόνους εφόσον ο ένας γονέας έχει την

Διαβάστε περισσότερα

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Κεφάλαιο 2 Μεθοδολογία Ασκήσεων Α Ν Τ Ι Γ Ρ Α Φ Η 1 η Κατηγορία: Ασκήσεις στην Αντιγραφή (υπολογιστικές) Αφού αναφέρουμε τον ημισυντηρητικό τρόπο αντιγραφής φτιάχνουμε ένα απλό σχήμα

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΣΤΗΝ ΙΑΤΡΙΚΗ

ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΣΤΗΝ ΙΑΤΡΙΚΗ Καθώς η επιστημονική γνώση και κατανόηση αναπτύσσονται, ο μελλοντικός σχεδιασμός βιοτεχνολογικών προϊόντων περιορίζεται μόνο από τη φαντασία μας Βιοτεχνολογία

Διαβάστε περισσότερα

γ ρ α π τ ή ε ξ έ τ α σ η σ τ ο μ ά θ η μ α ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

γ ρ α π τ ή ε ξ έ τ α σ η σ τ ο μ ά θ η μ α ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ γ ρ α π τ ή ε ξ έ τ α σ η σ τ ο μ ά θ η μ α ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ' ΛΥΚΕΙΟΥ Τάξη: Γ Λυκείου Τμήμα: Βαθμός: Ονοματεπώνυμο: Καθηγητές: Θ Ε Μ Α A 1. Να επιλέξετε τη σωστή απάντηση: Α1. Το γονίδιο

Διαβάστε περισσότερα

Θεωρία (4 Ο Κεφάλαιο) επιμέλεια: Μιχάλης Χαλικιόπουλος καθηγητής Βιολογίας

Θεωρία (4 Ο Κεφάλαιο) επιμέλεια: Μιχάλης Χαλικιόπουλος καθηγητής Βιολογίας Θεωρία (4 Ο Κεφάλαιο) επιμέλεια: Μιχάλης Χαλικιόπουλος καθηγητής Βιολογίας 1 ΤΕΧΝΟΛΟΓΙΑ ΤΟΥ ΑΝΑΣΥΝΔΥΑΣΜΕΝΟΥ DNA 2 Θεωρία (4 Ο Κεφάλαιο) 3 ΤΕΧΝΟΛΟΓΙΑ ΤΟΥ ΑΝΑΣΥΝΔΥΑΣΜΕΝΟΥ DNA 1 2 3 ΚΛΩΝΟΠΟΙΗΣΗ 4 5 6 ορισμός:

Διαβάστε περισσότερα

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΜΕΡΟΣ ΠΡΩΤΟ - ΠΕΡΙΓΡΑΜΜΑ 5.1 ΈΝΑ ΝΟΥΚΛΕΙΝΙΚΟ ΟΞΥ ΑΠΟΤΕΛΕΙΤΑΙ ΑΠΌ ΤΕΣΣΕΡΑ ΕΙΔΗ ΒΑΣΕΩΝ, ΠΟΥ ΠΡΟΣΔΕΝΟΝΤΑΙ ΣΕ ΈΝΑ ΚΟΡΜΟ ΣΑΚΧΑΡΩΝ ΦΩΣΦΟΡΙΚΩΝ 5.2 ΈΝΑ ΖΕΥΓΟΣ

Διαβάστε περισσότερα

Κεντρικό δόγμα της βιολογίας

Κεντρικό δόγμα της βιολογίας Κεντρικό δόγμα της βιολογίας DNA RNA Πρωτεΐνη Μεταγραφή Σύνθεση (μονόκλωνου) RNA από ένα δίκλωνο μόριο DNA κυρίως με τη βοήθεια του ενζύμου RNA πολυμεράση Το προϊόν της μεταγραφής ονομάζεται πρωτογενές

Διαβάστε περισσότερα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΓΥΜΝΑΣΙΟ ΚΕΡΑΤΕΑΣ ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ Β ΤΡΙΜΗΝΟΥ Γ 4 23.1.12 ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΕΡΓΑΣΤΗΚΑΝ: ΑΛΕΞΑΝΔΡΟΣ ΔΕΛΗΜΙΧΑΛΗΣ ΑΡΤΕΜΗΣ ΑΝΑΣΤΑΣΙΑΔΗΣ 1 ΕΙΣΑΓΩΓΗ Το δεοξυριβονουκλεϊκό οξύ (Deoxyribonucleic acid -

Διαβάστε περισσότερα

Βιολογία Προσανατολισμού Γ Λυκείου. Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Βιολογία Προσανατολισμού Γ Λυκείου. Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: Βιολογία Προσανατολισμού Γ Λυκείου 04 01-2018 Νότα Λαζαράκη Αλέξανδρος Παπαγιαννακόπουλος ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: Α1. Ένζυμο που διασπά

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 11 Ιουνίου 2015 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Απαντήσεις Θεμάτων Επαναληπτικών Πανελληνίων Εξετάσεων Ημερησίων & Εσπερινών Γενικών Λυκείων ΘΕΜΑ Α Α1. β Α2. γ Α3. α Α4. γ Α5. δ ΘΕΜΑ B Β1. 1. Β 2. Γ 3. Α

Διαβάστε περισσότερα

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 16-06-2017 ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. δ Α2. δ Α3. β Α4. γ Α5. α ΘΕΜΑ Β Β1. Α. φωσφορική ομάδα (Ι) E. υδροξύλιο (II) Β. mrna

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 11 ΙΟΥΝΙΟΥ 2015 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 11 ΙΟΥΝΙΟΥ 2015 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 1 ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΕΜΠΤΗ 11 ΙΟΥΝΙΟΥ 2015 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. β Α2. γ Α3. α Α4. γ Α5. δ ΘΕΜΑ Β Β1.

Διαβάστε περισσότερα

Οργά νωση Γενετικού Υλικού

Οργά νωση Γενετικού Υλικού Βιολογία Γ Γυμνασίου: Διατήρηση και Συνέχεια της Ζωής Οργά νωση Γενετικού Υλικού Γονίδιο: Η μονάδα της κληρονομικότητας. Ουσιαστικά είναι ένα κομμάτι από το DNA που αποθηκεύει πληροφορίες για κάποιο συγκεκριμένο

Διαβάστε περισσότερα

Εξέλιξη και ανθρώπινος πολιτισμός: Η ρύθμιση του γονιδίου της λακτάσης

Εξέλιξη και ανθρώπινος πολιτισμός: Η ρύθμιση του γονιδίου της λακτάσης Εξέλιξη και ανθρώπινος πολιτισμός: Η ρύθμιση του γονιδίου της λακτάσης Η διατήρηση του ενζύμου της λακτάσης στους ενήλικες είναι ένα παράδειγμα πρόσφατης εξέλιξης στον άνθρωπο. Μας δείχνει επίσης πώς μεταλλαγές

Διαβάστε περισσότερα

ΚεφάΠαιο 4 ΤεχνοΠογία ίου ανασυνουασμένου DNA

ΚεφάΠαιο 4 ΤεχνοΠογία ίου ανασυνουασμένου DNA ΚεφάΠαιο 4 ΤεχνοΠογία ίου ανασυνουασμένου DNA 1. Γιατί οι περιοριστικές ενδονουκλεάσες και οι φορείς κλωνοποίησης είναι απαραίτητα εργαλεία για τη Γενετική Μηχανική; Οι περιοριστικές ενδονουκλεάσες είναι

Διαβάστε περισσότερα

Βιολογία Κατεύθυνσης Γ Λυκείου Διαγώνισμα στο Κεφάλαιο 4 ο

Βιολογία Κατεύθυνσης Γ Λυκείου Διαγώνισμα στο Κεφάλαιο 4 ο Βιολογία Κατεύθυνσης Γ Λυκείου Διαγώνισμα στο Κεφάλαιο 4 ο ΘΕΜΑ Α Να γράψετε τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις A1 έως A5 και δίπλα το γράμμα που αντιστοιχεί στη λέξη ή τη φράση,

Διαβάστε περισσότερα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA Περετσή Χριστίνα Πιτσικάλη Παναγιώτα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA Περετσή Χριστίνα Πιτσικάλη Παναγιώτα Εργασία στη Βιολογία ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA Περετσή Χριστίνα Πιτσικάλη Παναγιώτα ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA Η ροή της πληροφορίας για το σχηματισμό των πρωτεϊνών, προϋποθέτει τη μεταφορά της από το DNA στο RNA (ΜΕΤΑΓΡΑΦΗ).

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΘΕΜΑ 1 ο Α. Στις ερωτήσεις 1-5 να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα του το γράμμα που αντιστοιχεί στη σωστή απάντηση. 1. Το

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. δ Α2. δ Α3. β Α4. γ Α5. α ΘΕΜΑ Β Β1. Α I Β IV Γ VI

Διαβάστε περισσότερα

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B Βιολογία προσανατολισμού Α. 1. β 2. γ 3. δ 4. γ 5. δ ΘΕΜΑ Α B1. 4,1,2,6,8,3,5,7 ΘΕΜΑ B B2. Σχολικό βιβλίο σελ. 103 Η γενετική καθοδήγηση είναι.υγιών απογόνων. Σχολικό βιβλίο σελ. 103 Παρ ότι γενετική καθοδήγηση

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΤΜΗΜΑ: ΘΕΜΑ 1 Ο. 3. Το DNA των μιτοχονδρίων έχει μεγαλύτερο μήκος από αυτό των χλωροπλαστών.

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΤΜΗΜΑ: ΘΕΜΑ 1 Ο. 3. Το DNA των μιτοχονδρίων έχει μεγαλύτερο μήκος από αυτό των χλωροπλαστών. ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΤΜΗΜΑ: ΘΕΜΑ 1 Ο Α. Να γράψετε τον αριθμό της καθεμιάς από τις παρακάτω προτάσεις 1-5 και δίπλα του τη λέξη Σωστό, αν η πρόταση είναι σωστή, ή Λάθος, αν η πρόταση

Διαβάστε περισσότερα

Τηλ: Ανδρέου Δημητρίου 81 & Ακριτών 26 -ΚΑΛΟΓΡΕΖΑ

Τηλ: Ανδρέου Δημητρίου 81 & Ακριτών 26 -ΚΑΛΟΓΡΕΖΑ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ- ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ (Ιανουάριος 2014) 1 ο ΘΕΜΑ Απαντήστε στις παρακάτω ερωτήσεις πολλαπλής επιλογής. Μία απάντηση είναι η σωστή. 1. Υβριδοποίηση: Α. Είναι ιδιότητα του DNA

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ 1 ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β) ΠΑΡΑΣΚΕΥΗ 27 ΜΑΪΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ ΣΥΣΤΗΜΑ) ΒΙΟΛΟΓΙΑ

Διαβάστε περισσότερα

3. Η μέθοδος αλυσιδωτής αντίδρασης πολυμεράσης (PCR) επιτρέπει την επιλεκτική αντιγραφή μορίων DNA, χωρίς τη μεσολάβηση ζωικών κυττάρων.

3. Η μέθοδος αλυσιδωτής αντίδρασης πολυμεράσης (PCR) επιτρέπει την επιλεκτική αντιγραφή μορίων DNA, χωρίς τη μεσολάβηση ζωικών κυττάρων. ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ ΘΕΜΑ 1ο ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Σ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 3 ΙΟΥΝΙΟΥ 2003 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΤΕΣΣΕΡΙΣ (4) Α. Να γράψετε τον αριθμό της

Διαβάστε περισσότερα

Βιολογία προσανατολισμού

Βιολογία προσανατολισμού Βιολογία προσανατολισμού ΘΕΜΑ Α Στις προτάσεις από Α1-Α5 να βρείτε την σωστή απάντηση. Α1. Ένας ερευνητής απομόνωσε ένα ασυνεχές γονίδιο από το γονιδίωμα ανθρώπινων κυττάρων. Το γονίδιο συνδέθηκε με βακτηριακό

Διαβάστε περισσότερα

ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΟΠ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΘΕΡΙΝΑ ΗΜΕΡΟΜΗΝΙΑ: 15/11/2015 ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Δεοξυριβονουκλεοτίδια

Διαβάστε περισσότερα

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Στο DNA των μιτοχονδρίων περιέχονται πληροφορίες για:

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Στο DNA των μιτοχονδρίων περιέχονται πληροφορίες για: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ / Β Λ ΠΡΟΕΤΟΙΜΑΣΙΑΣ Γ Λ ΗΜΕΡΟΜΗΝΙΑ: 05/03/2017 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΝΟΤΑ ΛΑΖΑΡΑΚΗ ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1.

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Μοριακή Βιολογία. Ενότητα # (5): Ωρίμανση του RNA, ιντρόνια/εξώνια και μεταγραφική ρύθμιση. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής

Μοριακή Βιολογία. Ενότητα # (5): Ωρίμανση του RNA, ιντρόνια/εξώνια και μεταγραφική ρύθμιση. Παναγιωτίδης Χρήστος Τμήμα Φαρμακευτικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μοριακή Βιολογία Ενότητα # (5): Ωρίμανση του RNA, ιντρόνια/εξώνια και μεταγραφική ρύθμιση Παναγιωτίδης Χρήστος Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

γραπτή εξέταση στo μάθημα ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

γραπτή εξέταση στo μάθημα ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ γραπτή εξέταση στo μάθημα ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ' ΛΥΚΕΙΟΥ Τάξη: Γ Λυκείου Τμήμα: Βαθμός: Ονοματεπώνυμο: Καθηγητές: ΠΑΣΣΙΑ Α. Θ Ε Μ Α A 1. Να επιλέξετε τη σωστή απάντηση: Α1. Κάθε μεταφορικό RNA

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ. Πρόλογος. Κεφάλαιο 1: Γενετική μηχανική - Βιοτεχνολογία. Κεφάλαιο 2: Δομή και λειτουργία των νουκλεїνικών οξέων

ΠΕΡΙΕΧΟΜΕΝΑ ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ. Πρόλογος. Κεφάλαιο 1: Γενετική μηχανική - Βιοτεχνολογία. Κεφάλαιο 2: Δομή και λειτουργία των νουκλεїνικών οξέων ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ Κεφάλαιο 1: Γενετική μηχανική - Βιοτεχνολογία 1.1 Βιομηχανία 1.2 Παραγωγή Τροφίμων 1.3 Ιατρική 1.4 Φυτική Παραγωγή 1.5 Ζωική Παραγωγή 1.6 Αλιεία Υδατοκαλλιέργειες

Διαβάστε περισσότερα

1 ο #Κεφάλαιο# 1)#Πειράματα: α)$να#περιγράψεις#το#πείραμα#των#hershey#και#chase.# Υπόδειξη:#σελ#14#σχολ.

1 ο #Κεφάλαιο# 1)#Πειράματα: α)$να#περιγράψεις#το#πείραμα#των#hershey#και#chase.# Υπόδειξη:#σελ#14#σχολ. 1 ο #Κεφάλαιο# ΤΟ ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ 1)#Πειράματα: α)$να#περιγράψεις#το#πείραμα#των#hershey#και#chase.# Υπόδειξη:#σελ#14#σχολ. Παραλλαγή:#δίνονται##τα#παρακάτω#διαγράμματα#που#απεικονίζουν# τη#ραδιενέργεια#στο#εσωτερικό#των#βακτηρίων,#μετά#τη#μόλυνση#με#

Διαβάστε περισσότερα

Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ 04/11/2018 Νότα Λαζαράκη Αλέξανδρος Παπαγιαννακόπουλος ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: Α1. Σε ένα

Διαβάστε περισσότερα

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου ΘΕΜΑ Α Α1. Η αναλογία Α+G/T+C στο γενετικό υλικό ενός ιού είναι ίση με 2/3. Ο ιός μπορεί να είναι: α. ο φάγος λ. β. ο ιός της πολιομυελίτιδας. γ. φορέας κλωνοποίησης

Διαβάστε περισσότερα

Με την ανάπτυξη αυτής της τεχνολογίας το DNA που ήταν τόσο δύσκολο να µελετηθεί έγινε «παιχνίδι» στα ανθρώπινα χέρια

Με την ανάπτυξη αυτής της τεχνολογίας το DNA που ήταν τόσο δύσκολο να µελετηθεί έγινε «παιχνίδι» στα ανθρώπινα χέρια ΚΕΦΑΛΑΙΟ 4ο: Η τεχνολογία του ανασυνδυασµένου DNA έδωσε στον άνθρωπο την ικανότητα όχι µόνο να ερευνά αλλά και να τροποποιεί το γενετικό υλικό των οργανισµών ΤΕΧΝΟΛΟΓΙΑ ΤΟΥ ΑΝΑΣΥΝ ΥΑΣΜΕΝΟΥ DNA Η τεχνολογία

Διαβάστε περισσότερα

Βιολογία Προσανατολισμού Γ Λυκείου Κεφάλαιο: Κεφάλαια 1,2,4 Ονοματεπώνυμο Μαθητή: Ημερομηνία: 08/12/2018 Επιδιωκόμενος Στόχος: 75/100

Βιολογία Προσανατολισμού Γ Λυκείου Κεφάλαιο: Κεφάλαια 1,2,4 Ονοματεπώνυμο Μαθητή: Ημερομηνία: 08/12/2018 Επιδιωκόμενος Στόχος: 75/100 Μάθημα/Τάξη: Βιολογία Προσανατολισμού Γ Λυκείου Κεφάλαιο: Κεφάλαια 1,2,4 Ονοματεπώνυμο Μαθητή: Ημερομηνία: 08/12/2018 Επιδιωκόμενος Στόχος: 75/100 ΘΕΜΑ Α Να γράψετε στο τετράδιο σας τον αριθμό καθεμιάς

Διαβάστε περισσότερα

α) φυτοαιματογλουτίνη, κολχικίνη

α) φυτοαιματογλουτίνη, κολχικίνη ΔΙΑΓΩΝΙΣΜΑ ΚΕΦΑΛΑΙΟ 1ο 2ο και 4ο ΘΕΜΑ Α ΜΟΝΑΔΕΣ 25 Να απαντήσετε στις παρακάτω ερωτήσεις επιλέγοντας την λανθασμένη πρόταση ανάμεσα στις σωστές ή την σωστή ανάμεσα στις λανθασμένες. Α.Το καλαμπόκι (zeamays)

Διαβάστε περισσότερα

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα: Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία 1. Δεοξυριβονουκλεϊκό οξύ (DNA) Νουκλεϊκά οξέα: Φορέας της γενετικής πληροφορίας 2. Ριβονουκλεϊκό οξύ (RNA) Συμμετοχή στην

Διαβάστε περισσότερα

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

Δασική Γενετική Εισαγωγή: Βασικές έννοιες Δασική Γενετική Εισαγωγή: Βασικές έννοιες Χειμερινό εξάμηνο 2014-2015 Γενετική Πειραματική επιστήμη της κληρονομικότητας Προέκυψε από την ανάγκη κατανόησης της κληρονόμησης οικονομικά σημαντικών χαρακτηριστικών

Διαβάστε περισσότερα

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΔΕΥΤΕΡΑ 23 ΙΟΥΝΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΣΥΝΟΛΟ

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. Β2. Η εικόνα αντιστοιχεί σε προκαρυωτικό κύτταρο. Στους προκαρυωτικούς οργανισμούς το mrna αρχίζει να μεταφράζεται σε πρωτεΐνη πριν ακόμη

ΑΠΑΝΤΗΣΕΙΣ. Β2. Η εικόνα αντιστοιχεί σε προκαρυωτικό κύτταρο. Στους προκαρυωτικούς οργανισμούς το mrna αρχίζει να μεταφράζεται σε πρωτεΐνη πριν ακόμη ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΚΑΙ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΠΑΡΑΣΚΕΥΗ 6 ΙΟΥΝΙΟΥ 207 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α. δ Α2. δ Α3. β Α4. γ Α5.

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ ΕΞΕΤΑΣΗΣ: ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: 16 / 06 / 2017 ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ Θέμα Α Α1: δ Α2:

Διαβάστε περισσότερα

ΘΕΜΑ 1 Ο Α. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Ως φορείς κλωνοποίησης χρησιμοποιούνται:

ΘΕΜΑ 1 Ο Α. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Ως φορείς κλωνοποίησης χρησιμοποιούνται: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ / Γ ΛΥΚΕΙΟΥ ΧΕΙΜΕΡΙΝΑ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 04/03/12 ΘΕΜΑ 1 Ο Α. Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Ως φορείς κλωνοποίησης

Διαβάστε περισσότερα

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς Δοµή και ιδιότητες του DNA 09/04/2014 1 09/04/2014 2 Τόσο τα νεκρά (µε θερµική επεξεργασία) βακτήρια S όσο και τα ζωντανά βακτήρια R δεν µπορούν να θανατώσουν ποντικούς. Όµως, η ταυτόχρονη µόλυνση µε αυτά

Διαβάστε περισσότερα

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε ΚΕΦΑΛΑΙΟ 2 ον. ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΙ ΠΡΕΠΕΙ ΝΑ ΞΕΡΩ. 1. Τη δομή της δίκλωνης έλικας πάρα πολύ καλά. 2. Τους δεσμούς υδρογόνου μεταξύ των συμπληρωματικών βάσεων και την επίπτωσή

Διαβάστε περισσότερα

Το πλεονέκτημα της χρήσης του DNA των φάγων λ, ως φορέα κλωνοποίησης είναι ότι μπορούμε να ενσωματώσουμε σε αυτόν μεγαλύτερα κομμάτια DNA.

Το πλεονέκτημα της χρήσης του DNA των φάγων λ, ως φορέα κλωνοποίησης είναι ότι μπορούμε να ενσωματώσουμε σε αυτόν μεγαλύτερα κομμάτια DNA. ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ 2 ο,4 ο ΚΕΦ. ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ Θέμα Α: Α1.β, Α2.δ, Α3.β, Α4.γ, Α5.γ Θέμα Β: Β1. Οι υποκινητές και οι μεταγραφικοί παράγοντες αποτελούν τα ρυθμιστικά στοιχεία της μεταγραφής

Διαβάστε περισσότερα