ΒΑΣΕΙΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Δρ. Μαργαρίτα Θεοδωροπούλου
Ευκαρυωτικό Κύτταρο - Οργάνωση
Οργάνωση της Πληροφορίας
Κεντρικό Δόγμα της Βιολογίας
Πρωτεΐνες Πρωτεϊνική Ακολουθία (Αλληλουχία) Τρισδιάστατη Δομή Λειτουργία
Νουκλεϊκά Οξέα
Μεταγραφή
Προκαρυωτικοί vs. Ευκαρυωτικοί Απουσία πυρήνα και μεμβρανωδών οργανιδίων Απλοειδείς οργανισμοί Απουσία ροής στο κυτταρόπλασμα Κυτταρική διαίρεση χωρίς μίτωση Απλά μαστίγια Μικρότερα ριβοσώματα Απλός κυτταροσκελετός Κυτταρικό τοίχωμα χωρίς κυτταρίνη Απουσία ιστονών Πυρήνας και μεμβρανώδη οργανίδια Διπλοειδείς οργανισμοί Ροή κυτταροπλάσματος Κυτταρική διαίρεση με μίτωση Πολύπλοκα μαστίγια Μεγαλύτερα ριβοσώματα Πολύπλοκος κυτταροσκελετός Κυτταρικό τοίχωμα με κυτταρίνη Ιστόνες
Προκαρυωτικοί vs. Ευκαρυωτικοί
Πρωτεΐνες
Πρωτεΐνες
Βιολογικές Βάσεις Δεδομένων: Γιατί; Μεγάλος όγκος δεδομένων που χρειάζεται αποθήκευση και διάθεση Διαθέσιμα βιολογικά δεδομένα στους ερευνητές Διαθέσιμα βιολογικά δεδομένα σε μορφή που να μπορούν να διαβάσουν υπολογιστές (Βιοπληροφορικούς)
Βάσεις Βιολογικών Δεδομένων Τύπος Δεδομένων Νουκλεοτιδικές αλληλουχίες Αμινοξικές αλληλουχίες Μοτίβα και πρότυπα πρωτεϊνικών ακολουθιών Τρισδιάσταδες δομές μακρομορίων Δεδομένα γονιδιακής έκφρασης Μεταβολικά μονοπάτια Τεχνική σχεδίαση (Τρόπος αποθήκευσης και διαχείρισης δεδομένων) Επίπεδα αρχεία, Απλές συλλογές αρχείων (Flatfiles) Σχεσιακές βάσεις δεδομένων (Relational database (SQL)) ή/και αντικειμενοστραφείς βάσεις δεδομένων (object-oriented databases) Διαθεσιμότητα Διαθέσιμες στο κοινό, χωρίς περιορισμούς Διαθέσιμες, αλλά με πνευματικά δικαιώματα Προσβάσιμες, αλλά χωρίς δυνατότητα αποθήκευσης Διαθέσιμες μόνο για την ακαδημαϊκή κοινότητα Εμπορικές, με πιθανότητα δωρεάν διάθεσης στην ακαδημαϊκή κοινότητα
Επίπεδα αρχεία (Flat-files) Οργανωμένες συλλογές αρχείων με καθορισμένη μορφή (format). Συγκεκριμένη μορφή για κάθε βάση. ID CYS3_YEAST STANDARD; PRT; 393 AA. AC P31373; DT 01-JUL-1993 (REL. 26, CREATED) DT 01-JUL-1993 (REL. 26, LAST SEQUENCE UPDATE) DT 01-NOV-1995 (REL. 32, LAST ANNOTATION UPDATE) DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35. OS SACCHAROMYCES CEREVISIAE (BAKER'S YEAST). OC EUKARYOTA; FUNGI; ASCOMYCOTA; HEMIASCOMYCETES; SACCHAROMYCETALES; OC SACCHAROMYCETACEAE; SACCHAROMYCES.
Σχεσιακές Βάσεις δεδομένων Τα δεδομένα είναι οργανωμένα σε πίνακες. Κάθε πίνακας περιέχει πληροφορία για ένα αυτοτελές τμήμα της καταχώρησης. Οι πίνακες με τη σειρά τους είναι οργανωμένοι σε γραμμές και οι γραμμές σε πεδία.
Βάσεις Βιολογικών Δεδομένων Πρωτοταγείς ή δευτεροταγείς (Πρωτογενείς (primary) ή Δευτερογενείς (secondary)) Πρωτοταγείς βάσεις: Βάσεις που περιλαμβάνουν την πειραματικά προσδιορισμένη πληροφορία. Πειραματικά δεδομένα που αφορούν αλληλουχίες. Βάσεις δεδομένων ακολουθιών νουκλεοτιδικών ακολουθιών Βάσεις δεδομένων ακολουθιών πρωτεϊνικών ακολουθιών Βάσεις δεδομένων τρισδιάστατων βιολογικών δομών Βάσεις δεδομένων γονιδιακής έκφρασης Βάσεις δεδομένων γενετικής ποικιλομορφίας Βάσεις δεδομένων βιβλιογραφίας Δευτεροταγείς βάσεις: Αποτελέσματα από ανάλυση δεδομένων πρωτοταγών βάσεων. Έχουν επιπλέον σχολιασμό χωρίς απαραίτητα να είναι πειραματικά προσδιορισμένος. Βάσεις δεδομένων οικογενειών (κυρίως πρωτεϊνών) Εξειδικευμένες βάσεις δεδομένων
Βάσεις Βιολογικών Δεδομένων Νουκλεοτιδικές Αλληλουχίες: GENBANK (http://www.ncbi.nlm.nih.gov/genbank/index.html) EMBL ΕΝΑ (http://www.ebi.ac.uk/ena) DDBJ (http://www.ddbj.nig.ac.jp/) Πρωτεϊνικές Ακολουθίες: UniprotKB (Uniprot Knowledgebase, http://www.uniprot.org/) Τρισδιάστατες Βιολογικές Δομές: Protein Data Bank (PDB, http://www.rcsb.org) Γονιδιακή Έκφραση: GeneExpression Omnibus (GEO, http://www.ncbi.nlm.nih.gov/geo/) Array Express (http://www.ebi.ac.uk/arrayexpress/) Stanford Microarray Database (SMD, http://smd.stanford.edu/) Γενετική Ποικιλομορφία: dbsnp (http://www.ncbi.nlm.nih.gov/snp) HapMap (http://hapmap.ncbi.nlm.nih.gov/) Βιβλιογραφία: PubMed (http://www.ncbi.nlm.nih.gov/pubmed)
2005/ 719 db 2016/1685 db
Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών EMBL, GenBank, and DDBJ are the three primary nucleotide sequence databases EMBL www.ebi.ac.uk/embl/ GenBank www.ncbi.nlm.nih.gov/genbank/ DDBJ www.ddbj.nig.ac.jp
International Nucleotide Sequence Database Collaboration http://www.insdc.org/
NIH Entrez Submissions Updates NCBI CIB Center for Information Biology GenBank EMBL DDBJ EBI Submissions Updates NIG Nat. Inst. Genet getentry Submissions Updates SRS EMBL
What is GenBank? GenBank is the NIH genetic sequence database of all publicly available DNA and derived protein sequences, with annotations describing the biological information these records contain. http://www.ncbi.nlm.nih.gov/genbank/genbankoverview.html Benson et al., 2004, Nucleic Acids Res. 32:D23-D26
LOCUS MUSNGH 1803 bp mrna ROD 29-AUG-1997 DEFINITION Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15 cell TA20 mrna, complete cds. ACCESSION D25291 NID g1850791 KEYWORDS neurite extension activity; growth arrest; TA20. SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line:ng108-15 cdna to mrna. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae. REFERENCE 1 (sites) AUTHORS Tohda,C., Nagai,S., Tohda,M. and Nomura,Y. TITLE A novel factor, TA20, involved in neuronal differentiation: cdna cloning and expression JOURNAL Neurosci. Res. 23 (1), 21-27 (1995) MEDLINE 96064354 REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda,C. TITLE Direct Submission JOURNAL Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan (E-mail:CHIHIRO@ms.toyama-mpu.ac.jp, Tel:+81-764-34-2281(ex.2841), Fax:+81-764-34-5057) COMMENT On Feb 26, 1997 this sequence version replaced gi:793764. FEATURES Location/Qualifiers source 1..1803 /organism="murinae gen. sp." /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon:39108" /cell_line="ng108-15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156..163 /note="ap-2 binding site" GC_signal 647..655 /note="sp1 binding site" TATA_signal 694..701 gene 748..1311 /gene="ta20" CDS 748..1311 /gene="ta20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="pid:d1005516" /db_xref="pid:g793765" /translation="mmklwvpsrslpnspnhyrsflshtlhirynnslfisnthlsrr KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" polya_site 1803 BASE COUNT 507 a 458 c 311 g 527 t ORIGIN 1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat // Header Title Taxonomy Citation Features (AA seq) DNA Sequence
GenBank Records http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=nm_001087007.1 Μία στήλη με ετικέτες (labels) και μια στήλη με το περιεχόμενο. Βασικές πληροφορίες: όνομα γονιδίου, accession number, ταξινομική είδους, βιβλιογραφικές αναφορές. Λίστα πληροφοριών (feautures) που αφορούν την αλληλουχία Η ίδια η αλληλουχία στο τέλος της εγγραφής, με ετικέτα ORIGIN Οι αριθμοί αφορούν τη συγκεκριμένη αλληλουχία, περιλαμβάνοντας σε ορισμένες περιπτώσεις τα κενά ή/και τη συμπληρωματική αλυσίδα Gene : αφορά ολόκληρη τη μεταγραφώμενη αλληλουχία CDS : αφορά μόνο την περιοχή της αλληλουχίας που κωδικοποιεί για πρωτεΐνη misc_feature : μπορεί να αφορά ποικιλία πραγμάτων
FASTA >gi 121066 sp P03069 GCN4_YEAST GENERAL CONTROL PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R
Example FASTA Format Geninfo αριθμός, ανατίθεται από το NCBI Δείχνει ότι η αλληλουχία προήλθε από τη βάση SWISS-PROΤ SWISS-PROT Κωδικός ταυτοποίησης Όνομασία βιομορίου >gi 121066 sp P03069 GCN4_YEAST GENERAL CONTROL PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R
https://www.ncbi.nlm.nih.gov/nuccore/u61268.1
Νουκλεοτιδική σύσταση γονιδιωματικών αλληλουχιών Θα δούμε πώς πολύ απλές προσεγγίσεις ανάλυσης του βαθμού εμφάνισης καταλοίπων μπορούν να μας δώσουν χρήσιμες πληροφορίες για την προέλευση και τη λειτουργία συγκεκριμένων αλληλουχιών αλλά και για την γενικότερη οργάνωση ολόκληρων γονιδιωμάτων. Σε δίκλωνο DNA ισχύει ότι G=C και A=T (1ος Κανόνας Ισοδυναμίας του Chargaff) Σε μονόκλωνο DNA ισχύει ότι G~C και A~T (2ος Κανόνας Ισοδυναμίας του Chargaff) Παρά δηλαδή το γεγονός πως εντός του ίδιου κλώνου δεν υπάρχει καμία απαίτηση συμπληρωματικότητας (τα νουκλεοτίδια ζευγαρώνουν μόνο σε δίκλωνο DNA), τα συμπληρωματικά νουκλεοτίδια τείνουν να εμφανίζονται με την ίδια συχνότητα.
Ποσοστό G+C νουκλεοτιδίων (GC περιεχόμενο) σε βακτηριακά γονιδιώματα Ένα βασικό χαρακτηριστικό της τιμής του GC στα βακτηριακά γονιδιώματα είναι η μεγάλη της ομοιογένεια. Αν κανείς υπολογίσει το GC% στο ένα άκρο ενός βακτηριακού γονιδιώματος, στη μέση του ή σε ένα τυχαίο τμήμα του με μήκος ικανό για μια καλή στατιστική, οι τιμές που θα προκύψουν θα είναι πολύ παραπλήσιες. Αυτό μας βοηθάει να αποδώσουμε μια χαρακτηριστική τιμή σε κάθε βακτηριακό γονιδίωμα (Muto & Osawa, 1987). Πολύ μεγάλη ποικιλομορφία της τιμής GC περιεχομένου μεταξύ διαφορετικών ειδών. Ενδεικτικά το Mycoplasma genitalium έχει GC περιεχόμενο της τάξης του 0.31 (Fraser et al., 1995), ενώ π.χ. για ένα από τα μεγαλύτερα γένη ακτινοβακτηρίων, τους Στρεπτομύκητες οι αντίστοιχες τιμές κυμαίνονται μεταξύ 0.68 και 0.72. α. Το GC περιεχόμενο είναι ιδιαίτερα σταθερό εντός των βακτηριακών γονιδιωμάτων. β. Το GC περιεχόμενο εμφανίζει εξαιρετικά μεγάλη διακύμανση μεταξύ διαφορετικών γονιδιωμάτων.
Ποσοστό G+C νουκλεοτιδίων (GC περιεχόμενο) σε βακτηριακά γονιδιώματα Οι διαφορές αυτές έχουν χρησιμοποιηθεί με σκοπό τη συστηματική κατάταξη προκαρυωτικών ειδών και διάφορες θεωρίες έχουν προταθεί για τις παρατηρούμενες συσχετίσεις μεταξυ GC περιεχομένου και μακροσκοπικών χαρακτηριστικών των διάφορων οργανισμών. Έτσι, έχει προταθεί από κάποιους πως διαφορές στα επίπεδο GC σχετίζονται με την απαιτούμενη θερμοσταθερότητα από πλευράς διαφορετικών ειδών, που ζουν σε διαφορετικά περιβάλλοντα (Hildebrand, Meyer, & Eyre-Walker, 2010). Πράγματι, θερμόφιλα είδη τείνουν να έχουν υψηλό ποσοστό GC, το οποίο με τη σειρά του, λόγω της αυξημένης χημικής σταθερότητας των ζευγών γουανίνης-κυτοσίνης αναμένεται να τους προσδίδει και μεγαλύτερη γονιδιωματική σταθερότητα.
GC περιεχόμενο σε γονιδιώματα ανώτερων ευκαρυωτικών οργανισμών Στους ευκαρυωτικούς οργανισμούς και ιδίως στα θηλαστικά οι διαφορές μεταξύ των ειδών είναι ελάχιστες, αλλά η ανομοιογένεια εμφανίζεται στο επίπεδο του ίδιου του γονιδιώματος (Bernardi, 1993). Έτσι ενώ η μέση τιμή GC για όλο το γονιδίωμα του ποντικιού είναι ~40% σε κάποιες από αυτές το GC είναι τόσο χαμηλό όσο 30%, ενώ σε κάποιες άλλες αγγίζει ή και ξεπερνάει το 65%. https://gold.jgi.doe.gov/
Γονιδιακή Οντολογία Αποτύπωση του συνόλου της βιολογικής γνώσης σχετικά με τη γονιδιακή λειτουργία με ένα σαφή και οργανωμένο τρόπο. Αποτελεί το αποτέλεσμα της δουλειάς του αντίστοιχου Consortium που συστήθηκε το 1998 με σκοπό τη δημιουργία μιας συνεκτικής, παγκόσμιας ονοματολογίας γονιδίων για όλους τους οργανισμούς (Ashburner et al., 2000). στο πλαίσιο αυτής της προσπάθειας, η βάση δεδομένων της Γονιδιακής Οντολογίας (www.geneontology.org) έχει δημιουργήσει τρεις βασικές, ανεξάρτητες μεταξύ τους, κατηγορίες (οντολογίες) που περιγράφουν τα γονίδια όλων των μελετημένων οργανισμών στη βάση: 1. Της κυτταρικής διεργασίας στην οποία συμμετέχουν οι πρωτεΐνες τους. Ποια είναι δηλαδή η λειτουργία του γονιδίου. 2. Της μοριακής λειτουργίας των πρωτεϊνικών προϊόντων τους. Με ποιον τρόπο επιτελεί μοριακά τη λειτουργία της η πρωτεΐνη που αντιστοιχεί στο γονίδιο. 3. Του κυτταρικού εντοπισμού των πρωτεϊνών τους. Σε ποιο τμήμα/οργανίδιο του κυττάρου επιτελείται αυτή η λειτουργία. Στο πλαίσιο της γονιδιακής οντολογίας, τα γονίδια αναπαρίστανται ως τμήματα-μονοπάτια στους κατευθυνόμενους ακυκλικούς γράφους που ορίζονται από την οντολογία.
Το εργαλείο για να καταθέσει κανείς ολοκληρωμένα γονιδιώματα. Εάν οι συλλογές είναι τμηματικές και περιλαμβάνουν μη τοποθετημένες ή μη χαρακτηρισμένες αλληλουχίες δεν μπορούν να κατατεθούν εδώ.
Πρόγραμμα τυφλής αλληλούχισης ολόκληρων γονιδιωμάτων-whole Genome Shotgun (WGS). Αλληλούχιση με αυτή τη μέθοδο που μας δίνει συλλογές από μη ολοκληρωμένα γονιδιώματα ή χρωμοσώματα, προκαρυωτικών και ευκαρυωτικών οργανισμών. Δεν είναι απαραίτητα σχολιασμένα.
High Throughput Genomic (HTG) Γονιδιώματα που προέρχονται από τεχνολογίες υψηλής απόδοσης. Μη ολοκληρωμένα γονιδιώματα και ακολουθίες DNA, μπορούν να είναι διαθέσιμα στην επιστημονική κοινότητα
dbest Τμήμα της GenBank που περιλαμβάνει τις ακολουθίες και άλλες πληροφορίες για τις κωδικές περιοχές του DNA. "Expressed Sequence Tags«. Τα ESTs είναι μικρές (<1000 bp) ακολουθίες mrna (cdna) και μας δίνουν μία εικόνα γονιδίων που εκφράζονται σε συγκεκριμένο ιστό, σε συγκεκριμένο αναπτυξιακό στάδιο.
Επειδή δεν μπορούμε να έχουμε καλλιέργειες για τους περισσότερους μικροοργανισμούς, υπάρχουν άλλες μέθοδοι για να κατανοήσουμε αυτούς τους οργανισμούς Η μεταγονιδιωματική (Metagenomics) είναι μια ανάλυση γονιδιωμάτων ανεξάρτητη από καλλιέργειες. Παρέχει την ικανότητα αξιολόγησης των μεταβολικών μονοπατιών χωρίς να απομονώνει αυτούς τους μικροοργανισμούς στο εργαστήριο. Ανακαλύπτονται νέοι οργανισμοί και απομονώνονται ολόκληρα γονιδιώματα.
Third Party Annotation (TPA) Μια βάση που περιλαμβάνει πειραματικά ή επαγώγιμα αποτελέσματα που υποστηρίζουν το σχολιασμό ήδη κατατεθειμένης αλληλουχίας. Οι ακολουθίες αυτές δεν είναι νέες, αλλά είναι μέρος της διαδικασίας δημοσίευσης βιολογικών πειραμάτων που περιλαμβάνουν υπάρχων σχολιασμό.
Transcriptome Shotgun Assembly (TSA) Database Είναι μια συλλογή αρχείων από ακολουθίες που έχουν συλλεχθεί υπολογιστικά. Από τα πρωταρχικά δεδομένα (ESTs), ίχνη και δεδομένα από τεχνολογίες αλληλούχισης νέας γενιάς. Οι αλληλοεπικαλυπτόμενες αλληλουχίες συνενώνονται σε μετάγραφα με υπολογιστικές μεθόδους. Τα πρωταρχικά δεδομένα έχουν υπολογιστεί πειραματικά από τον ίδιο ερευνητή. Αυτές οι εγγραφές όμως διαφέρουν από τις άλλες γιατί δεν έχουν φυσικά αντίστοιχα στα αρχεία.