Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη. Το επιστημονικό αυτό υλικό χρειάζεται αποθήκευση, ταξινόμηση και διαχείριση. Η βιοπληροφορική (bioinformatics) είναι μια νέα ραγδαία αναπτυσσόμενη επιστήμη που έχει ως στόχο την αντιμετώπιση της συσσώρευσης αυτών των νέων βιολογικών πληροφοριών. Ο τεράστιος αυτός όγκος και η ταχύτατη συσσώρευση των πειραματικών εργαστηριακών πληροφοριών ώθησε άμεσα στην ανάπτυξη βιοπληροφορικών μεθόδων ανάλυσης, λογισμικών εργαλείων και βάσεων αποθήκευες. Οι βιολογικές πληροφορίες αποθηκεύονται σε Βιολογικές Βάσεις Δεδομένων με ελεύθερη πρόσβαση και δυνατότητα ανάκτησης και επεξεργασίας των πληροφοριών αυτών από τους χρήστες. Η διαχείριση των Βιολογικών Βάσεων Δεδομένων (π.χ. ανάρτηση, έλεγχος των νέων δεδομένων, ταξινόμηση, συντήρηση) ανήκει σε διακρατικούς οργανισμούς πανεπιστήμια και ερευνητικά κέντρα. Στις Βάσεις Δεδομένων μπορούν να αναρτηθούν πληροφορίες που αφορούν: 1. την αλληλουχία νουκλεοτιδίων, 2. το προφίλ έκφρασης των γονιδίων, 3. την αλληλουχία και τη δομή πρωτεϊνών, 4. την τρισδιάστατη δομή μορίων και πολλές άλλες. Βάσεις Δεδομένων Νουκλεοτιδικών Αλληλουχιών (nucleotide sequence databases) Τρεις μεγάλες πρωτογενείς Βάσεις Δεδομένων Νουκλεοτιδικών Αλληλουχιών υπάρχουν διεθνώς. Η GenBank του National Center for Biotechnology Information (NCBI) (http://www.ncbi.nlm.nih.gov/genbank/ με έδρα τις Η.Π.Α.), η European Molecular Biology Laboratory (EMBL) (http://www.ebi.ac.uk/embl/ με έδρα την Ε.Ε.) και η DNA Data Bank of Japan (DDBJ) (http://www.ddbjnig.ac.jp/ με έδρα την Ιαπωνία). Στις Βάσεις αυτές οι επιστήμονες μπορούν να καταθέτουν απευθείας τις νουκλεοτιδικές αλληλουχίες που προκύπτουν από την ερευνά τους, είτε αλληλουχίες που συλλέγονται ανώνυμα από ασθενείς και από την ευρύτερη βιβλιογραφία. Μεταξύ των τριών αυτών βάσεων υπάρχει καθημερινή επικοινωνία και συγχρονισμός ως προς τις νέες πληροφορίες που κατατίθενται. 1
Εικόνα 1. Οι επιστήμονες τροφοδοτούν με τα αποτελέσματα της έρευνας τους τις Βάσεις Δεδομένων (a) οι χρήστες αντλούν πληροφορίες από τις Βάσεις Δεδομένων (b) οι πληροφορίες αυτές αποτελούν έμπνευση για νέες ερευνητικές δράσεις (c). Εικόνα 2. Γραφική παράσταση της ταχύτητας συσσώρευσης δεδομένων στη βάση αλληλουχιών GenBank από το 1982 έως το 2015. Προσαρμογή της εικόνας από τον ιστότοπο (http://www.ncbi.nlm.nih.gov). 2
Στις βάσεις αυτές ο χρήστης μπορεί να έχει πρόσβαση σε όλες τις νουκλεοτιδικές αλληλουχίες (DNA, RNA κλπ) διαφόρων οργανισμών (Homo sapiens (human), Xenopus tropicalis (tropical clawed frog) κλπ) που έχουν καταχωρηθεί εκεί (Εικόνα 3 και Εικόνα 4). Τις αλληλουχίες αυτές πλαισιώνουν πληροφορίες όπως: το όνομα του γονιδίου, το κωδικό όνομα του γονιδίου, το κωδικό νούμερο η περιγραφή του γονιδίου ο βιολογικός οργανισμός στον οποίο ανήκει η θέση του γονιδίου στο χρωμόσωμα το μέγεθος του γονιδίου, οι θέσεις εξονίων και ιντρονίων οι θέσεις ρυθμιστικών περιοχών (μοτίβα υποκινητή, ενισχυτές, αποσιωπητές, θέσεις πρόσδεσης μεταγραφικών παραγόντων) τα ενδεχόμενα εναλλακτικά μετάγραφα (mrna) τα ενδεχόμενα στοιχειά γενετική ποικιλότητας (SNPs, VNTRs, RFLPs, ενθέματα και ελλείμματα) Εικόνα 3. Ενδεικτική προβολή του περιηγητή NCBI. Αναζήτηση του γονιδίου της β-σφαιρίνης (b-globin). 3
Εικόνα 4. Ενδεικτική προβολή του περιηγητή NCBI. Αναζήτηση της αλληλουχίας του mrna του γονιδίου της β-σφαιρίνης (b-globin). Genome Data Viewer Το Genome Data Viewer του NCBI είναι ένας σύγχρονος περιηγητής γονιδιώματος που μπορεί να υποστηρίξει την εξερεύνηση και ανάλυση άνω των 580 ευκαρυωτικών γονιδιωμάτων αναφοράς (RefSeq) (https://www.ncbi.nlm.nih.gov/genome/gdv/) (Εικόνα 5 και Εικόνα 6). Περιλαμβάνει πληροφορίες από τον χάρτη του χρωμοσώματος έως και λεπτομέρειες σε επίπεδο αλληλουχίας. Ο περιηγητής αυτός δέχεται αυτοματοποιημένες ενημερώσεις ώστε να ανταποκρίνεται στον ταχύ ρυθμό του εμπλουτισμού των αλληλουχιών του γονιδιώματος, της συναρμολόγησης τους επάνω στα χρωμοσώματα και την εισαγωγή πληροφοριών που αφορούν τα τμήματα αυτά. Για την χρήση του Genome Data Viewer μπορείτε να αντλήσετε περεταίρω πληροφορίες για την χρήση του από το https://www.youtube.com/watch?v=ipsq0vfu19c. 4
Εικόνα 5. Ενδεικτική προβολή του περιηγητή Genome Data Viewer (NCBI). Εικόνα 6. Ενδεικτική προβολή του περιηγητή Genome Data Viewer (NCBI). Αναζήτηση της θέσης του γονιδίου της β-σφαιρίνης (b-globin) στο γονιδίωμα. 5
Συγκριτική Στοίχιση Αλληλουχιών-Αναζήτηση Αλληλουχιών (sequence alignment-fragment search) BLAST (http://blast.ncbi.nlm.nih.gov/blast.cgi) To BLAST είναι ένας αλγόριθμος για την σύγκριση αλληλουχιών (νουκλεοτιδίων και αμινοξέων). Συγκεκριμένα μπορεί να γίνει σύγκριση μιας αλληλουχίας νουκλεοτιδίων που εισάγει ο χρήστη με αλληλουχίες νουκλεοτιδίων που υπάρχουν σε νουκλεοτιδικές βάσεις δεδομένων (blastn), να γίνει σύγκριση αλληλουχιών αμινοξέων που εισάγει ο χρήστη με αλληλουχίες αμινοξέων σε πρωτεϊνικές βάσεις δεδομένων (blastp) και σύγκριση αλληλουχιών νουκλεοτιδίων-νουκλεοτιδίων που εισάγει ο χρήστης (Align two or more sequences). Εικόνα 6. Ενδεικτική προβολή του περιηγητή BLAST. Εικόνα 7. Συγκριτική στοίχιση των δυο αλληλουχιών (πειραματικής και πρότυπης ή αλληλουχιών διαφορετικών ειδών) που εισάγει ο χρήστης με την χρήση της επιλογής Align two or more sequences. 6