ΑΛΛΕΣ ΣΗΜΑΝΤΙΚΕΣ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

ΑΛΛΕΣ ΣΗΜΑΝΤΙΚΕΣ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Δρ. Μαργαρίτα Θεοδωροπούλου

Βάσεις δεδομένων βιβλιογραφίας Παρόλο που οι βάσεις αυτές δεν είναι με την στενή έννοια «βιολογικές βάσεις δεδομένων», ιστορικά, αλλά και για λόγους που θα φανούν στην πορεία, είναι καλό να γίνεται αναφορά και σε αυτές. Οι βάσεις αυτές, έχουν σαν «καταχώρηση» τα στοιχεία μιας επιστημονικής δημοσίευσης (συγγραφέας, περιοδικό, περίληψη κ.ο.κ.). Η κυριότερη βάση του είδους, είναι η PubMed (http://www.ncbi.nlm.nih.gov/pubmed) η οποία στεγάζεται στο NCBI και περιλαμβάνει περισσότερα από 24 εκατομμύρια καταχωρήσεις επιστημονικών άρθρων από τη βιοϊατρική βιβλιογραφία (έχοντας κάλυψη της MEDLINE, άλλων περιοδικών των επιστημών της ζωής αλλά και από κάποια online βιβλία). Οι αναφορές μπορεί να περιέχουν συνδέσμους στο πλήρες κείμενο των εργασιών, είτε μέσω της PubMed Central (το υποσύνολο με τις ελεύθερα διαθέσιμα δημοσιεύσεις πλήρους κειμένου), είτε απευθείας μέσω των ιστοσελίδων των εκδοτικών οίκων. Παρόλο που τα στοιχεία της PubMed είναι δημόσια διαθέσιμα, το να έχει πρόσβαση κανείς στο πλήρες κείμενο μιας εργασίας, εξαρτάται από την πολιτική του εκδοτικού οίκου. Στην ίδια ιστοσελίδα, υπάρχουν διαθέσιμα και tutorials για τη χρήση της υπηρεσίας (http://www.nlm.nih.gov/bsd/disted/pubmed.html). Άλλες βάσεις δεδομένων, παρόμοιας φύσης, είναι το SCOPUS (http://www.scopus.com/) και το Web of Science (http://webofknowledge.com/). Οι βάσεις αυτές, παρέχουν περισσότερες πληροφορίες, με την κυριότερη να είναι οι βιβλιογραφικές αναφορές (citations) που έχει πάρει κάθε δημοσιευμένη εργασία. Αυτό επιτρέπει την αντίστροφη αναζήτηση (πχ εύρεση του ποια εργασία έχει αναφέρει μια δεδομένη εργασία), αλλά και την αξιολόγηση του συνολικού έργου (ενός συγγραφέα, ενός περιοδικού ή ενός ιδρύματος). Το βασικότερο μειονέκτημα αυτών των βάσεων είναι ότι διατίθενται από ιδιωτικούς οργανισμούς και απαιτούν συνδρομή του χρήστη είτε του ινστιτούτου του. Η πρόσβαση στη βιβλιογραφία, εκτός του ότι είναι απαραίτητη εργασία στην καθημερινότητα ενός επιστήμονα, αποτελεί επιπλέον, ένα ιδιαίτερα αναπτυσσόμενο κομμάτι της επιστήμης της πληροφορικής (text mining), το οποίο έχει βρει ιδιαίτερες εφαρμογές στη βιοπληροφορική, καθώς η ύπαρξη ενός τεράστιου όγκου δεδομένων από κείμενα (περιλήψεις εργασιών κυρίως), έχει δώσει την αφορμή για μελέτες αυτών των κειμένων με σκοπό την ανακάλυψη συσχετίσεων και την εξαγωγή βιολογικών συμπερασμάτων (Ananiadou, Kell, & Tsujii, 2006; Scherf, Epple, & Werner, 2005).

NCBI http://www.ncbi.nlm.nih.gov/ Εθνικό Κέντρο Βιολογικών Πληροφοριών (National Center for Biological Information), μέρος της Εθνικής Βιβλιοθήκης, που είναι μέλος του αμερικανικού Υπουργείου Υγείας Η βασικότερη βάση δεδομένων βιοπληροφορικής στις ΗΠΑ PubMed, βιβλιογραφικές αναφορές και περιλήψεις βιοϊατρικών άρθρων GenBank, βασική πηγή DNA αλληλουχιών dbest: ΒΔ των εκφραζόμενων αλληλουχιών (Expressed Sequence Tag database) Genome: αλληλουχίες ολόκληρων γονιδιωμάτων, σχολιασμός και σύνδεσμοι στα αντίστοιχα προτζεκτ Structure: τρισδιάστατα πρωτεϊνικά domains GEO: δεδομένα έκφρασης γονιδίων OMIM: Online Mendelian Inheritance in Man. Επιπλέον πολλά σημαντικά εργαλεία: BLAST εργαλείο για στοίχιση αλληλουχιών CDD: ΒΔ συντηρημένων domains (Conserved domains) και το αντίστοιχο εργαλείο αναζήτησης Πολλές ακόμα δυνατότητα, ειδικά εργαλεία και ΒΔ για την γενετική ανθρώπου Το Entrez είναι το σύνολο των βάσεων του NCBI, στις οποίες μπορεί να γίνει αναζήτηση μέσω ενός κοινού μηχανισμού. Ακολουθείστε τον σύνδεσμο All databases.

Η βασικότερη μηχανή αναζήτησης για επιστημονικά άρθρα βιοϊατρικού περιεχομένου Περιλαμβάνει τις περιλήψεις άρθρων βιολογίας και ιατρικής που χρονολογούνται από 1948 για πολλά από τα περιοδικά Συχνά παρέχει συνδέσμους σε ελεύθερα διαθέσιμα άρθρα, κυρίως μέσω του through PubMed Central

Βάσεις δεδομένων γονιδιακής έκφρασης GeneExpression Omnibus (GEO): Βάση δεδομένων του NCBI που παρέχει δεδομένα γονιδιακής έκφρασης, τόσο από μικροσυστοιχίες όσο και από αλληλούχιση (next generation sequenicng) (Barrett & Edgar, 2006) Είναι διαθέσιμη στην ιστοσελίδα http://www.ncbi.nlm.nih.gov/geo/, ενώ στην ίδια διεύθυνση 53 υπάρχουν διαθέσιμα και κάποια διαδικτυακά εργαλεία που επιτρέπουν απλές αναλύσεις των δεδομένων της βάσης. Τα δεδομένα υπάρχουν τόσο σε ακατέργαστη (raw) όσο και σε επεξεργασμένη μορφή (με κανονικοποιήσεις κ.ο.κ.). Η βάση περιέχει (τον Φεβρουάριο του 2015), δεδομένα από 14.031 διαφορετικές πλατφόρμες έκφρασης, προερχόμενα από 1.357.732 "δείγματα", δηλαδή άτομα (στα οποία όμως δεν περιέχονται μόνο άνθρωποι, μπορεί να υπάρχουν δεδομένα από ζώα, φυτά ή ακόμα και μικροοργανισμούς), ταξινομημένα 55.725 "σειρές" (series) και 3.848 "σύνολα δεδομένων" (datasets). Το ίδιο δείγμα μπορεί να περιέχεται σε διαφορετικές σειρές και η ίδια σειρά σε ένα ή περισσότερα σύνολα δεδομένων. Array Express: Δημόσια βάση δεδομένων μικροσυστοιχιών η οποία διατηρείται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής, ΕΒΙ, διαθέσιμη στην ιστοσελίδα http://www.ebi.ac.uk/arrayexpress/ (Brazma et al., 2003). Είναι της ίδιας λογικής με την GEO, την οποία περιέχει ως υποσύνολο βάσει της συνεργασίας των ιδρυμάτων. Στην ιστοσελίδα υπάρχουν επίσης διαθέσιμα εργαλεία για ανάλυση, οδηγίες για προγραμματιστική πρόσβαση στις υπηρεσίες και tutorials. Τον Φεβρουάριο του 2015, η βάση περιέχει δεδομένα για 57.009 πειράματα (experiments, τα οποία αντιστοιχούν στα series της GEO) και 1.689.237 μετρήσεις (assays, τα οποία περιέχουν ένα ή περισσότερα δείγματα). Stanford Microarray Database (SMD): Βάση δεδομένων που κατασκευάστηκε αρχικά για να καλύπτει τις ανάγκες διαμοιρασμού αρχείων των ερευνητών του Stanford, αλλά μετεξελίχθηκε σταδιακά σε ένα δημόσιο αποθετήριο δεδομένων για μικροσυστοιχίες, http://smd.stanford.edu/ (Demeter et al., 2007). Περιέχει μικρότερο αριθμό δεδομένων από τις υπόλοιπες βάσεις, καθώς αυτή τη στιγμή έχει δεδομένα για 84.051 πειράματα από 631 δημοσιεύσεις.

Online Mendelian Inheritance in Man http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim Περιεκτικές εγγραφές για όλες τις ανθρώπινες γενετικές διαταραχές. «Κατασκευάστηκε» από τον Dr. Victor A. McKusick στα 1960 s με τη μορφή βιβλίου βιβλίο Περιλαμβάνει πληροφορίες για περίπου 12,000 γονίδια σήμερα Τα γονίδια και οι ασθένειες που τα αφορούν συχνά αποτελούν ξεχωριστές εγγραφές Ουσιαστικά μια περιεκτική βιβλιογραφική ανασκόπηση χωρισμένη σε διάφορες ενότητες Κλινικά χαρακτηριστικά, κληρονομικότητα, κυτταρογενετική, μοριακή γενετική, ετερογένεια πληθυσμού, οργανισμοί μοντέλα, δομή γονιδίων, συσχετίσεις γονότυπου/φαινότυπου, κλπ Λίστα με όλες τις γνωστές παραλλαγές αλληλόμορφων (variant alleles) για κάθε γονίδιο στον άνθρωπο Κάντε αναζήτηση με τον όρο triose phosphate isomerase: υπάρχει μια εγγραφή για το γονίδιο και ένα σύνδρομο ανεπάρκειας Μελετήστε την cystic fibrosis : τόσο την ασθένεια όσο και το γονίδιο (CFTR)

MeSH (Medical Subject Headings) terms Οι όροι MeSH (Medical Subject Headings) είναι το λεξικό ελεγχόμενων όρων της αμερικανικής Εθνικής Βιβλιοθήκης Ιατρικής και χρησιμοποιείται για τη δημιουργία ευρετηρίου των άρθρων στο MEDLINE. Πρόκειται για ένα σύνολο όρων περιγραφικών δεικτών (descriptors) σε μια ιεραρχική δομή που σας επιτρέπει να ψάξετε σε διάφορα επίπεδα εξειδίκευσης.

Taxonomy http://www.ncbi.nlm.nih.gov/taxonomy/browser/wwwtax.cgi?mode=root Μια απλή παρουσίαση των οργανισμών και της ταξινομικής κατάταξης, για όλους τους οργανισμούς που έχουν τουλάχιστον μια εγγραφή στην GenBank Σημειώστε ότι έχουν μια αποποίησης ευθυνών: οι ταξονομικές κατατάξεις που αναφέρονται εδώ δεν είναι έγκυρες. Προσπαθούν να συμβαδίζουν με την σύγχρονη βιβλιογραφία στο πεδίο, αλλά αυτό είναι ένα ενεργό πεδίο που συμβαίνουν συνεχείς και πολλές αλλαγές. Μπορείτε να ψάξετε για ένα όνομα, π.χ. Oryza, που είναι το γένος του ρυζιού Μπορείτε επίσης να χρησιμοποιήσετε τη επιλογή «φωνητικής αναζήτησης» και να γράψετε λανθασμένα π.χ. Oriza Μπορείτε επιπλέον να περιηγηθείτε στο δέντρο Επιλέγοντας ένα ταξόν είτε θα δείτε τη συνέχεια του δέντρου από αυτό το επίπεδο και κάτω είτε θα πάρετε πληροφορίες για το συγκεκριμένο ταξόν Πληροφορίες για κάθε ταξινομικό επίπεδο (ταξόν): η πλήρης ταξινομική, συνώνυμα και άλλες πληροφορίες που αφορούν την ονοματολογία ποιον γενετικό κώδικα χρησιμοποιεί (υπάρχουν διάφορες παραλλαγές), σύνδεσμοι σε διάφορα τμήματα της GenBank δυστυχώς, λίγες περιγραφικές πληροφορίες, ψάξτε στο Google και τη Wikipedia

Άλλοι Τύποι Βιολογικών Βάσεων Βιβλιογραφία MEDLINE (http://ncbi.nlm.nih.gov/pubmed/) HighWire (http://www.highwire.org) Πολυμορφισμοί dbsnp (http://ncbi.nlm.nih.gov/snp/) HGBase (http://hgbase/interactiva/de) Μεταβολικά μονοπάτια KEGG (http://kegg.genome.ad.jp/kegg/) WIT (http://wit.mcs/anl.gov/wit2) Οργανισμοί και ονοματολογία Taxonomies (e.g.: http://ncbi.nlm.nih.gov/taxonomy/ ) Mendel (http://mbclserver.rutgers.edu/cpgn)

KEGG KEGG = Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/ Δείτε επίσης την MetaCyc, μια άλλη βάση για βιολογικά μονοπάτια http://metacyc.org/ Χρησιμοποιείται κυρίως για μεταβολικά μονοπάτια, τα οποία έχουν συλλεχθεί από τη βιβλιογραφία http://www.genome.jp/kegg/pathway.html Περιλαμβάνει επιπλέον και σύνολα γονιδίων, σε ένα ιεραρχικό σχήμα κατάταξης ATLAS: Συνολική εικόνα μεταβολικών μονοπατιών για συγκεκριμένους οργανισμούς: http://www.genome.jp/kegg/atlas/ Περιλαμβάνει σήμερα 344 αντιπροσωπευτικά μονοπάτια Πρόβλημα: εκτενής χρήση κωδικών 3 γραμμάτων για τους οργανισμούς που δεν είναι σε αλφαβητική σειρά. Π.χ. bsu = Bacillus subtilis. http://www.genome.jp/kegg/catalog/org_list.html είναι η λίστα των οργανισμών που περιλαμβάνονται στη βάση μαζί με τους αντίστοιχους κωδικούς.

KEGG KEGG Pathway database http://www.genome.jp/kegg/pathway.html Χωρισμένη στις παρακάτω κύριες κατηγορίες: Μεταβολισμός (η πιο σημαντική), Επεξεργασία γενετικής πληροφορίας (συμπεριλαμβανομένων του πρωτεϊνικού διπλώματος και εντοπισμού), Επεξεργασία περιβαλλοντικών πληροφοριών (συμπεριλαμβανόμενης της μεταφοράς μέσω μεμβρανών και της μεταγωγής σήματος), Κυτταρικές διεργασίες, Και άλλα Χωρίζονται σε υποκατηγορίες, π.χ. μεταβολισμός υδρογονανθράκων, και στη συνέχεια σε συγκεκριμένα μεταβολικά μονοπάτια, π.χ. γλυκόλυση/γλυκονεογένεση (http://www.genome.jp/kegg/pathway/map/map00010.html )

Βάσεις δεδομένων γονιδιωμάτων Αφορούν έναν οργανισμό ή μια συγκεκριμένη ομάδα οργανισμών: Colibase (E. coli και συγγενικά είδη) http://colibase.bham.ac.uk/ GDB (άνθρωπος) http://www.gdb.org/ Flybase (Drosophila) http://flybase.bio.indiana.edu/ WormBase (C. elegans) http://wormbase.org AtDB (Arabidopsis) http://www.arabidopsis.org SGD (S. cerevisiae) http://www.yeastgenome.org/ Είτε συγκεντρώνουν το σύνολο η δυνατόν των διαθέσιμων γονιδιωμάτων: GOLD Sorcerer II UCSC NCBI ENSEMBL

Γονιδιώματα Αλληλουχίες ολόκληρων γονιδιωμάτων, σχολιασμός, σύνδεσμοι για τα αντίστοιχα πρότζεκτ Αλληλουχίες ολόκληρων γονιδιωμάτων Λίστες με τα γονίδια και σύνδεσμοι στις αντίστοιχες βάσεις αλληλουχιών. Κωδικές περιοχές και RNA Εγγραφές στην GenBank για μεμονωμένα γονίδια, πρωτεΐνες ή ολόκληρο το γονιδίωμα Εργαλεία για την οπτικοποίηση του γονιδιώματος (Genome (map) viewer) Αναζήτηση μέσω BLAST για τους συγκεκριμένους οργανισμούς Δυνατότητα τοπικής αποθήκευσης των δεδομένων ολόκληρου του γονιδιώματος, των γονιδίων, κλπ. μέσω FTP

https://gold.jgi.doe.gov/

Αναζήτηση στις ΒΔ Αναζήτηση σε όλες τις ΒΔ επιστρέφει μια λίστα με όλες τις βάσεις που περιλαμβάνονται στο σύστημα αναζήτησης Entrez καθώς και πόσα hits βρέθηκαν σε κάθε μία. Συνήθως, πρώτα επιλέγεται η ΔΒ έναντι της οποίας θέλουμε να ψάξουμε: η Protein είναι μια καλή επιλογή, η Nucleotide για γονίδια που κωδικοποιούν RNA,η Genome είναι η βάση στην οποία μπορείς να βρεις ένα γονίδιο σε συσχέτιση με τα γειτονικά του γονίδια. Το Entrez αποτελεί ένα σύστημα διαχείρισης δεδομένων για την αναζήτηση και ανάκτηση πληροφοριών όλων των βάσεων δεδομένων που περιέχονται στο NCBI (National Center for Biotechnology Information) των ΗΠΑ. Το Entrez είναι ανάλογο του SRS (δεν λειτουργεί πλέον) και παρέχει στον χρήστη τη δυνατότητα αναζήτησης σε βάσεις δεδομένων νουκλεοτιδικών και πρωτεϊνικών ακολουθιών, δομές βιομορίων και γονιδιωμάτων. Επιπλέον, μέσω του ίδιου γραφικού περιβάλλοντος, παρέχει την δυνατότητα αναζήτησης στη βάση βιβλιογραφίας PUBMED καθώς και πιο πολύπλοκες αναζητήσεις ανάμεσα στα στοιχεία τους. Βασικό μειονέκτημα αποτελεί το γεγονός ότι περιορίζεται μόνο στις βάσεις δεδομένων του NCBI και ότι δεν επιτρέπει ιδιαίτερα πολύπλοκες αναζητήσεις. Παρόλα αυτά, αποτελεί για χρόνια τώρα την διεπαφή όλων των βάσεων δεδομένων του NCBI, και επιτρέπει με τον ίδιο απλό τρόπο ο χρήστης να πραγματοποιήσει αναζητήσεις σε τελείως διαφορετικές βάσεις δεδομένων

https://www.ncbi.nlm.nih.gov/gquery/ (πρώην ENTREZ) NCBI In (USA) vivo, National In Center vitro, for Biotechnology IN Information SILICO! PubMed: The biomedical literature (PubMed) Nucleotide sequence database (Genbank) Protein sequence database Structure: three-dimensional macromolecular structures Genome: complete genome assemblies PopSet: population study data sets OMIM: Online Mendelian Inheritance in Man Taxonomy: organisms in GenBank Books: online books ProbeSet: gene expression and microarray datasets 3D Domains: domains from Entrez Structure UniSTS: markers and mapping data SNP: single nucleotide polymorphisms CDD: conserved domains Journals: journals in Entrez UniGene: gene-oriented clusters of transcript sequences PMC: full-text digital archive of life sciences journal literature

Ο σέρβερ ExPASy - www.expasy.org Ο πρώτος διαδικτυακός εξυπηρετητής μοριακής βιολογίας (Αύγουστος 1993); ~500 εκατομμύρια επισκέψεις έκτοτε; «Αφοσιωμένος» στην πρωτεωμική: Βάσεις δεομένων: UniProtKB, PROSITE, Swiss-2DPAGE, κλπ., Πολλά εργαλεία για ταυτοποίηση πρωτεϊνών και ανάλυση αλληλουχιών

ExPASy software tools Εργαλεία για την εμφάνιση και τη διαχείριση βάσεων δεδομένων (NiceProt, Swiss-Shop sequence alerting system, κλπ.) Εργαλεία για ανάλυση ακολουθιών (ScanProsite, ProtParam, ProtScale, RandSeq, Translate, κλπ.) Εργαλεία πρωτεωμικής (AACompIdent, FindMod, FindPept, Aldente, PeptideMass, TagIdent, κλπ.) Εργαλεία για την ανάλυση και οπτικοποίηση τρισδιάστατων δομών (Swiss-Model, Swiss-PDBviewer)

http://www.expasy.org/tools/ Ταυτοποίηση: Aldente, TagIdent, AAcompIdent, MultiIdent Χαρακτηρισμός: FindMod, GlycoMod, FindPept - Χρήση στον σχολιασμό των δεδομένων της Swiss-Prot και TrEMBL (προεπεξεργασία, μεταμεταφραστικές τροποποιήσεις, κλπ.) - Διασύνδεση των εργαλείων και των ΒΔ Ανάλυση: PeptideMass, GlycanMass, BioGraph, PeptideCutter ProtScale, ProtParam

Οι κυριότερες δημόσια διαθέσιμες βάσεις πρωτεϊνικών ακολουθιών PIR PDB PRF Ολοκληρωμένες πηγές με αναφορές μεταξύ τους UniProtKB: Swiss-Prot + TrEMBL NCBI-nr: Swiss-Prot + GenPept + PIR + PDB + PRF + RefSeq Ξεχωρισμένες πηγές πληροφορίας UniProtKB/Swiss-Prot: manually annotated protein sequences (11,000 species) UniProtKB/TrEMBL: submitted CDS (EMBL) + automated annotation; non redundant with Swiss-Prot (127,000 species) GenPept: submitted CDS (GenBank); redundant with UniProtKB (about 130,000 species) PIR: Protein Information Resource; archive since 2003; integrated into UniProtKB PDB: Protein Databank: 3D data and associated sequences PRF: journal scan of published peptide sequences RefSeq: Reference Sequence for DNA, RNA, protein + gene prediction (4,000 species)

Ποιότητα των πληροφοριών που αφορούν πρωτεΐνες από τα διάφορα πρότζεκτ αποκωδικοποιήσης γονιδιωμάτων Πρωτεΐνες που έχουν προκύψει από τα διάφορα πρότζεκτ αποκωδικοποιήσης γονιδιωμάτων: Drosophila: πως πρέπει να είναι ένα καλά σχολιασμένο γονιδίωμα (χάρη στη FlyBase): μόνο 1.8% των γονιδίων που προβλέφθηκαν βρίσκονται σε αντίθεση με την πληροφορία που υπάρχει στην UniProtKB/Swiss-Prot Arabidopsis: ένα γονιδίωμα που έχει γίνει αρκετή δουλειά στο σχολιασμό των γονιδίων κατά την αποκωδικοποίηση, αλλά δεν έχει υπάρξει περαιτέρω σχολιασμός (που να είναι διαθέσιμος στην επιστημονική κοινότητα): 19.5% των γονιδίων που προβλέφθηκαν είναι λανθασμένα Tetraodon nigroviridis: ένας γρήγορος και «βρώμικος» αυτόματος σχολιασμός γονιδιώματος: >90% των γονιδίων που προβλέφθηκαν παράγουν λάθος πρωτεΐνες. Τα βακτήρια και τα αρχαία δεν υπόκεινται σε εναλλακτικό μάτισμα και συνεπώς η αυτοματοποιημένη εύρεση γονιδίων και πρωτεϊνών είναι πιο εύκολη, αλλά και πάλι γίνονται λάθη