Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής
Στόχοι του μαθήματος Στο συγκεκριμένο μάθημα θα συζητηθούν θέματα σχετικά με τις κυριότερες βάσεις δεδομένων γονιδιωματικής, αλληλουχιών και πλήρων γονιδιωμάτων. Στόχοι του μαθήματος είναι η εξοικείωση των φοιτητών με: α) Την πρόσβαση σε βάσεις δεδομένων γονιδιωμάτων. β) Τη χρήση των υπηρεσιών διαδικτύου (web services) για την αποκομιδή πληροφορίας σε επίπεδο αλληλουχιών DNA γ) Την αναγνώριση των διαφόρων τύπων δεδομένων γονιδιωματικής που προέρχονται από προγράμματα αλληλούχισης νέας γενιάς. δ) Την απεικόνιση δεδομένων γονιδιωματικής σε γονιδιωματικούς φυλλομετρητές (Genome Browsers) με επίκεντρο αυτόν του UCSC.
Τι είναι η Γονιδιωματική Είναι ο κλάδος της Μοριακής Βιολογίας που ασχολείται με τις γονιδιωματικές αλληλουχίες (DNA και RNA) και τη μελέτη των πλήρων γονιδιωμάτων. Από πλευράς μεθοδολογικών εργαλείων είναι το πεδίο της μοριακής βιολογίας που εκκινώντας από την γενετική χρησιμοποιεί σε μεγαλύτερο βαθμό την υποστήριξη της πληροφορικής για την επίτευξη των βασικών στόχων: - Αλληλούχιση και συγκρότηση (assembly) πλήρων γονιδιωμάτων - Σχολιασμό (annotation) πλήρων γονιδιωμάτων. Εύρεση των ακριβών θέσεων στοχείων του γονιδιώματος όπως π.χ. γονίδια, εξόνια, ρυθμιστικές αλληλουχίες - Σύγκριση αλληλουχιών σε επίπεδο οργανισμών (Συγκριτική Γονιδιωματική). Αναζήτηση παρόμοιων αλληλουχιών (π.χ. γονιδίων) μεταξύ ειδών - Ενσωμάτωση δεδομένων υψηλής ευκρίνειας (ανάλυση αλληλουχιών, μέτρηση έκφρασης γονιδίων, επιγενετικά δεδομενα) στα πλήρη γονιδιώματα
Σχολιασμένα Πλήρη Γονιδιώματα Πηγή: NCBI
Είδη δεδομένων: α) Αλληλουχίες
Είδη Δεδομένων: β) Σχολιασμός Αλληλουχιών (annotation) Σχηματική αναπαράσταση των στοιχείων του γονιδιώματος για τα οποία γνωρίζουμε τη θέση και τη λειτουργία τους σε ένα είδος χρωμοσωμικού χάρτη Αυτή είναι η ιδέα πίσω από τους γονιδιωματικούς φυλλομετρητές (genome browsers) H οργάνωση των browsers γίνεται σε τροχιές (tracks) κάθε μια εκ των οποίων περιέχει συγκεκριμένη πληροφορία που μπορεί επίσης να κωδικοποιηθεί σε αρχεία συγκεκριμένου format
Είδη δεδομένων: γ) Δεδομένα Γονιδιωματικής Smith et al. (2010) Hawkins et al. (2010) Tα δεδομένα της σύγχρονης γονιδιωματικής εμπλουτίζονται διαρκώς μέσω του συνδυασμού νέων τεχνολογιών αλληλούχισης, πειραματικών μεθοδολογιών απομόνωσης στοιχείων του γονιδιώματος και υπολογιστικής ανάλυσης. Για παράδειγμα: Πειραματική Προσέγγιση: Απομόνωση των DNA τμημάτων όπου προσδένεται μια ρυθμιστική πρωτεϊνη. Τεχνολογία: Αλληλούχιση νέας γενιάς των τμημάτων του DNA που απομονώθηκαν Υπολογιστική Ανάλυση: Εντοπισμός των θέσεων της πρόσδεσης της πρωτεϊνης μέσω συγκρίσεως των αλληλουχιών με το γονιδίωμα
Είδη δεδομένων: γ) Δεδομένα Γονιδιωματικής Θέση στην αλληλουχία Απεικόνιση δεδομένων Συντήρησης αλληλουχίας Σχολιασμός θέσεων γονιδίων και ρυθμιστικών στοιχείων Αποτελούν κωδικοποιημένες πληροφορίες πέρα από τον σχολιασμό του γονιδιώματος και προέρχονται κυρίως από πειράματα γονιδιωματικής σε μεγάλη κλίμακα (π.χ. μελέτη της έκφρασης του συνόλου των γονιδίων ενός οργανισμού, θέσεις πρόσδεσης μεταγραφικών παραγόντων σε ενα γονίδιο κλπ) Απεικόνιση σε γονιδιωματικούς browser με τη μορφή τροχιών (tracks)
Eίδη αρχείων γονιδιωματικής (format) Αλληλουχίες σε FASTA (*.fa) η FASTQ (*.fastq) >gi 578821651 ref XR_428922.1 PREDICTED: Homo sapiens RAD9 homolog A (S. pombe) (RAD9A), transcript variant X2, misc_rna GGTGTGGGGGGCGGGTGGGACTCCAGCCGGGAGCGGGTAACCCGGACTAGAGTCTCGCCCCCACTAGGCG GGATGACCGCTGGCAGATTTGTCGGCAAAGTTTCAGTTTCTTAGTCTGGCGGCTGTCATCTTCCCAGGCC GGTGTGTGAATTGAGGAAAGCTGTCCTGCGAGCTCCCAGGGGGTGACGTGCACTTAGAGAAACTCGGGGA AGGCCTGGGTGTGCGACCCCTCCTCTGCGGCAGCAGCGCCGGGGCCGACTCTGAAGGCTTCCATGGGGAA AGGAGGGTTTTTCAGCAGGTGGTGGCGGAGCGGGAGGACGATAGGGCAAGTGTGTGAGCAGAAGCAGCCA GAGGGCTGGGTCTGTGGCTGCCCCCTGACCACGTCCCTCTCCCTGCTCTTCGTGGCCCAGCTCTCCCTCC Σχολιασμός σε BED, GFF (*.bed, *.gff) (bed) chr22 1000 5000 clonea 960 + 1000 5000 0 2 567,488, 0,3512 chr22 2000 6000 cloneb 900 2000 6000 0 2 433,399, 0,3601 (gff) chr22 TeleGene enhancer 10000000 10001000 500 +. touch1 chr22 TeleGene promoter 10010000 10010100 900 +. touch1 chr22 TeleGene promoter 10020000 10025000 800. touch2 Δεδομένα γονιδιωματικής σε διάφορα άλλα format (π.χ. wig για συνεχή) variablestep chrom=chr2 300701 12.5 300702 12.5 300703 12.5 300704 12.5 300705 12.5
Βάσεις Δεδομένων Γονιδιωματικής Αλληλουχίες Nucleotide Database NCBI: http://www.ncbi.nlm.nih.gov/nuccore/
Αναζήτηση στην Nucleotide Database Advanced Search: http://www.ncbi.nlm.nih.gov/nuccore/advanced
Αποτελέσματα αναζήτησης στην Νucleotide DB Eμφανίζονται με μορφή ανάλογη των αναζητήσεων βιβλιογραφίας στην Pubmed καθώς πρόκειται για το portal του ίδιου ιδρύματος (NCBI)
Αρχεία της Nucleotide DB Tίτλος Σχολιασμός (στοιχεία αρχείου) Αλληλουχία σε φορμάτ FASTA Eπιλογή FASTA για προβολή της αλληλουχίας μόνο
Αποκομιδή αλληλουχιών από την Nucleotide
Η βάση δεδομένων Ensembl- Το σύστημα Biomart http://www.ensembl.org/downloads.html
Αναζήτηση στην Ensembl-Biomart #1 Βασίζεται στο σχήμα: 1. Δεδομένα (επιλογή) 2. Φιλτράρισμα (διαλογή χαρακτηριστικών και προϋποθέσεων που θέλουμε να πληρούνται) 3. Στοιχεία (επιλογή τρόπου παρουσίασης των δεδομένων, format) 4. Αποτελέσματα. Αποκομιδή στην οθόνη ή σε αρχείο (συμπιεσμένο ή όχι)
Ensembl-Biomart #1 Δεδομένα (Datasets) Επιλογή σετ δεδομένων. Εδώ: Γονίδια Ensembl/Ηomo sapiens
Ensembl-Biomart #2 Φιλτράρισμα (Filter) Επιλογή φίλτρου δεδομένων με βάση περιοχή στο γονιδίωμα (region), είδος γονιδίου, φαινοτύπου, λειτουργίας γονιδίων κλπ
Ensembl-Biomart #2 Φιλτράρισμα (Filter) Επιλογή φιλτραρίσματος με βάση την περιοχή στο γονιδίωμα (χρωμόσωμα και χρωμοσωμικές συντεταγμένες)
Ensembl-Biomart #2 Φιλτράρισμα (Filter) Επιλογή φιλτραρίσματος με βάση το είδος του γονιδίου (εδώ: όλα τα γονίδια που κωδικοποιούν πρωτεϊνες). Η επιλογή count μας δίνει τον αριθμό τους.
Ensembl-Biomart #3 Στοιχεία αποτελεσμάτων (Αttributes) Επιλογή στοιχείων σχολιασμού που θέλουμε να περιέχονται στα αποτελέσματα (όνομα γονιδίου, συντεταγμένες στο χρωμόσωμα, κλπ)
Ensembl-Biomart #3 Στοιχεία αποτελεσμάτων (Αttributes) Επιλογή χαρακτηριστικών αλληλουχίας που θέλουμε να εμφανιστούν στα αποτελέσματα (ολόκληρο το γονίδιο, μόνο εξόνια, μόνο ιντρόνια κλπ)
Αποτελέσματα από την Ensembl-Biomart Εμφάνιση στην οθόνη ή αποθήκευση σε αρχείο
Ολοκληρωμένες Βάσεις Δεδομένων Γονιδιωματικής Γονιδιωματικοί Φυλλομετρητές
O Γονιδιωματικός Φυλλομετρητής του UCSC http://genome.ucsc.edu Απεικόνιση δεδομένων (browser) Aποκομιδή δεδομένων (Τable Browser) Αποκομιδή δεδομένων (Download)
Χρήση του Φυλλομετρητή. Απλή Μετάβαση σε γονιδιωματική περιοχή Επιλογή γονιδιώματος και θέσεως σε συγκεκριμένο χρωμόσωμα
Απεικόνιση Δεδομένων #1 Αλληλουχία-Σχολιασμός Εμφάνιση πολλαπλών δεδομένων για μια περιοχή με τη μορφή τροχίων Δυνατότητες zoom και μετακίνησης δεξιά-αριστερά στο χρωμόσωμα Δυνατότητα αποθήκευσης της εικόνας με δεξί κλικ view image
Απεικόνιση Δεδομένων #2 Συνδυασμός Δεδομένων Eπιλογή δεδομένων προς απεικόνιση από μια σειρά από μενού που βρίσκονται κάτω από την επιφάνεια απεικόνισης Tα μενού είναι οργανωμένα με βάση τους Πίνακες του UCSC που θα δούμε αμέσως μετά
Χρήση του Φυλλομετρητή. Μετάβαση σε συγκεκριμένο γονίδιο Χρήση του πεδίου αναζήτηση του Browser ως μηχανής αναζήτησης γονιδίων
Μετάβαση σε συγκεκριμένο γονίδιο Μαρκαρισμένη η περιοχή του συγκεκριμένου γονιδίου που αναζητούσαμε για την οποία μπορούμε να δούμε διάφορα άλλα στοιχεία ανάλογα με τα tracks που θα επιλέξουμε
Απεικόνιση Δεδομένων #3 Εναλλακτικές Απεικονίσεις Ανάλογα με το είδος και την πυκνότητα των δεδομένων επιλέγουμε διαφορετικούς τρόπους απεικόνισής τους (full για πλήρη, λεπτομερή απεικόνιση, dense για πιο περιληπτική κλπ). Ανανέωση των ρυθμίσεων για το ποια tracks θα φορτώσουν και με ποια απεικόνιση γίνεται με ένα (οποιοδήποτε) κουμπί refresh
Αποκομιδή-Download Απευθείας κατέβασμα δεδομένων μπορεί να γίνει με τη χρήση του UCSC Genome Browser ως αποθηκευτηρίου δεδομένων
Αποκομιδή-Table Browser Είναι ο πιο καλά ελεγχόμενος τρόπος αποκομιδής δεδομένων μέσω της χρήσης της βάσης δεδομένων πινάκων του UCSC
Αποκομιδή-Table Browser Επιλογή είδους και έκδοσης (assembly) του πλήρους γονιδιώματος Είδος δεδομένων (group) Πίνακας δεδομένων (table) Περιοχή (region) Αποθήκευση/Format
Αποκομιδή-Table Browser Επιλογή περιοχής, format και αν το αποτέλεσμα θα αποθηκευτεί σε αρχείο, θα σταλεί σε άλλο server ή θα εμφανιστεί στην οθόνη
Αποκομιδή-Table Browser Επιλογή είδους αλληλουχίας Επιλογή στοιχείων της αλληλουχίας που επιθυμούμε.
Αποκομιδή-Table Browser Αποτελέσματα. Αποθήκευση στο κατάλληλο format
Δοκιμάστε μόνοι σας Να απεικονίσετε το GC content και την γονιδιωματική συντήρηση (conservation) για το γονίδιο του ανθρώπινου γονιδίου TNF στον UCSC Genome Browser Να βρείτε τις αλληλουχίες όλων των γονιδίων του χρωμοσώματος Χ της Drosophila Melanogaster από το BioMart Na βρείτε τις γονιδιωματικές συντεταγμένες μόνο των εξονίων των γονιδίων του χρωμοσώματος 19 του ποντικού (Mus musculus) στον UCSC Genome Browser
Δείτε περισσότερα http://www.youtube.com/watch?v=dnxim9oql8&list=plvuj9ek8_miuaofen8ox7b6huj7mk2t71 (για ένα tutorial στον UCSC Genome Browser από τον Sam Allon) http://www.youtube.com/watch?v=dxpabdpm2vs&feature=youtu.be (για ένα καλό tutorial στο BioMart)