ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Δρ. Μαργαρίτα Θεοδωροπούλου
Ανάπτυξη βάσεων δεδομένων πρωτεϊνικών ακολουθιών Οι βάσεις δεδομένων πρωτεϊνικών ακολουθιών, αποτελούν το δεύτερο μεγαλύτερο σε όγκο τμήμα του συνόλου των βιολογικών βάσεων δεδομένων (μετά τις ακολουθίες DNA), αλλά αποτελούν ίσως το σημαντικότερο τμήμα, καθώς οι πρωτεϊνικές ακολουθίες παρουσιάζουν μεγάλη ποικιλομορφία τόσο στη δομή όσο και στη λειτουργία. Κατά συνέπεια, μεγάλο μέρος της σύγχρονης βιοπληροφορικής ανάλυσης, αναφέρεται σε πρωτεϊνικές ακολουθίες και υπάρχει τεράστιος όγκος λειτουργικών δεδομένων που παράγονται συνεχώς πειραματικά, και τα οποία αποτελούν ή θα έπρεπε να αποτελούν μέρος της πληροφορίας που περιέχεται σε αυτές τις βάσεις. Atlas of protein sequence and structure Dayhoff (1966) η πρώτη βάση δεδομένων πρωτεϊνικών ακολουθιών (προ βιοπληροφορικής). Σήμερα είναι γνωστή ως Protein Information Resource (PIR) Protein data bank (PDB) βάση δομικών δεδομένων (1972), παραμένει η πιο συχνα χρησιμοποιούμενη βλαση για δομές βιομακρομορίων UniProt Η United Protein Databases (UniProt, 2003) είναι η κύρια βάση πρωτεϊνικών ακολουθιών και λειτουργίας και δημιουργήθηκε από τη συνένωση των SWISS-PROT, TrEMBL και PIR
Γενικές Βάσεις Δεδομένων πρωτεϊνικών ακολουθιών SWISS-PROT Μη αυτόματη επιμέλεια (Manually curated) Υψηλής ποιότητας σχολιασμός, λιγότερα δεδομένα GenPept/TREMBL Μεταφρασμένες κωδικές αλληλουχίες από την GenBank/EMBL Φτωχός σχολιασμός, πιο ενημερωμένη PIR Σχολιασμός βασισμένος σε φυλογενετικά δεδομένα Συνδυασμός και των 3 στην UniProt (http://www.uniprot.org)
Η PIR δημιουργήθηκε το 1984 από το National Biomedical Research Foundation (NBRF) ώστε να παρέχει στους ερευνητές πληροφορίες για τις πρωτεϊνικές αλληλουχίες. Από το 1965-1978, το NBRF είχε την πρώτη ολοκληρωμένη συλλογή ακολουθιών μακρομορίων (Atlas of Protein Sequence and Structure).
PIR (Protein Information Resourse) Μια πρωτοταγής βάση πρωτεϊνικών αλληλουχιών, η οποία ανάλογα με την ποιότητα των δεδομένων και την πληρότητα σχολιασμού τους (annotation), χωρίζεται σε τέσσερα τμήματα (PIR1, PIR2, PIR3, PIR4). Η PIR1 περιέχει πλήρως ταξινομημένες και σχολιασμένες εγγραφές. Η PIR2 καταχωρήσεις που βρίσκονται σε προκαταρκτικό στάδιο και δεν έχουν εξεταστεί σε βάθος. Η PIR3 περιέχει όσες δεν έχουν εξεταστεί καθόλου και η PIR4 τις υποθετικές αλληλουχίες που προκύπτουν από αυτόματη μετάφραση αλληλουχιών DNA.
http://pir.georgetown.edu) >P1;IPPG insulin precursor - pig C;Species: Sus scrofa domestica (domestic pig) C;Accession: A01583; A94572; S16492; A60835; B60835 C;Keywords: hormone; pancreas F;1-30/Domain: insulin chain B #status experimental F;1-30,64-84/Product: insulin #status experimental F;33-63/Domain: connecting peptide #status experimental F;64-84/Domain: insulin chain A #status experimental F;7-70,19-83,69-74/Disulfide bonds: #status experimental >P1;IPPG FVNQHLCGSH LVEALYLVCG ERGFFYTPKA RREAENPQAG AVELGGGLGG LQALALEGPP QKRGIVEQCC TSICSLYQLE NYCN*
SWISSPROT Το EBI και το SIB δημιούργησαν τις βάσεις δεδομένων Swiss-Prot και την TrEMBL. Η Swiss-Prot δημιουργήθηκε το 1986 από τον Amos Bairoch κατά τη διάρκεια του διδακτορικού του στο Swiss Institute of Bioinformatics και στη συνέχεια αναπτύχθηκε από τον Rolf Apweiler στο EBI. Η Swiss-Prot παρέχει αξιόπιστα και καλά σχολιασμένα δεδομένα πρωτεϊνικών αλληλουχιών (λειτουργία, μετα-μεταφραστικές τροποποιήσεις, κατηγοριοποιήσεις κλπ), με όσο το δυνατόν λιγότερο πλεονασμό και αλληλεπίδραση με άλλες βάσεις δεδομένων.
(http://www.expasy.ch/sprot) ID INS_PIG STANDARD; PRT; 108 AA. AC P01315; Q9TSJ5; DE INSULIN PRECURSOR. GN INS. OS Sus scrofa (Pig). CC -!- FUNCTION: INSULIN DECREASES BLOOD GLUCOSE CONCENTRATION. IT CC INCREASES CELL PERMEABILITY TO MONOSACCHARIDES, AMINO ACIDS AND DR EMBL; AF064555; AAC77920.1; ALT_INIT. [EMBL / GenBank / DDBJ] KW Insulin family; Hormone; Glucose metabolism; Signal; 3D-structure. FT SIGNAL 1 24 FT CHAIN 25 54 INSULIN B CHAIN. SQ SEQUENCE 108 AA; 11671 MW; CB4491B429858EBE CRC64; MALWTRLLPL LALLALWAPA PAQAFVNQHL CGSHLVEALY LVCGERGFFY TPKARREAEN PQAGAVELGG GLGGLQALAL EGPPQKRGIV EQCCTSICSL YQLENYCN //
Swiss-Prot ID CYS3_YEAST STANDARD; PRT; 393 AA. AC P31373; DT 01-JUL-1993 (REL. 26, CREATED) DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35. OS TAXONOMY OC SACCHAROMYCETACEAE; SACCHAROMYCES. RX CITATION CC -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + CC NH(3) + 2-OXOBUTANOATE. CC -!- COFACTOR: PYRIDOXAL PHOSPHATE. CC -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING CC L-CYSTEINE FROM L-METHIONINE. CC -!- SUBUNIT: HOMOTETRAMER. CC -!- SUBCELLULAR LOCATION: CYTOPLASMIC. CC -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. CC -------------------------------------------------------------------------- CC DISCLAMOR CC -------------------------------------------------------------------------- DR DATABASE cross-reference KW CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. FT INIT_MET 0 0 FT BINDING 203 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SQ SEQUENCE 393 AA; 42411 MW; 55BA2771 CRC32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN // ID CYS3_YEAST STANDARD; PRT; 393 AA. AC P31373; DT 01-JUL-1993 (REL. 26, CREATED) DT 01-JUL-1993 (REL. 26, LAST SEQUENCE UPDATE) DT 01-NOV-1995 (REL. 32, LAST ANNOTATION UPDATE) DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE). GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35. OS SACCHAROMYCES CEREVISIAE (BAKER'S YEAST). OC EUKARYOTA; FUNGI; ASCOMYCOTA; HEMIASCOMYCETES; SACCHAROMYCETALES; OC SACCHAROMYCETACEAE; SACCHAROMYCES. RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE; 92250430. [NCBI, ExPASy, Israel, Japan] RA ONO B.-I., TANAKA K., NAITO K., HEIKE C., SHINODA S., YAMAMOTO S., RA OHMORI S., OSHIMA T., TOH-E A.; RT "Cloning and characterization of the CYS3 (CYI1) gene of RT Saccharomyces cerevisiae."; RL J. BACTERIOL. 174:3339-3347(1992). RN [2] RP SEQUENCE FROM N.A., AND CHARACTERIZATION. RC STRAIN=DBY939; RX MEDLINE; 93328685. [NCBI, ExPASy, Israel, Japan] RA YAMAGATA S., D'ANDREA R.J., FUJISAKI S., ISAJI M., NAKAMURA K.; RT "Cloning and bacterial expression of the CYS3 gene encoding RT cystathionine gamma-lyase of Saccharomyces cerevisiae and the RT physicochemical and enzymatic properties of the protein."; RL J. BACTERIOL. 175:4800-4808(1993). RN [3] RP SEQUENCE FROM N.A. RC STRAIN=S288C / AB972; RX MEDLINE; 93289814. [NCBI, ExPASy, Israel, Japan] RA BARTON A.B., KABACK D.B., CLARK M.W., KENG T., OUELLETTE B.F.F., RA STORMS R.K., ZENG B., ZHONG W.W., FORTIN N., DELANEY S., BUSSEY H.; RT "Physical localization of yeast CYS3, a gene whose product resembles RT the rat gamma-cystathionase and Escherichia coli cystathionine gamma- RT synthase enzymes."; RL YEAST 9:363-369(1993). RN [4] RP SEQUENCE FROM N.A. RC STRAIN=S288C / AB972; RX MEDLINE; 93209532. [NCBI, ExPASy, Israel, Japan] RA OUELLETTE B.F.F., CLARK M.W., KENG T., STORMS R.K., ZHONG W.W., RA ZENG B., FORTIN N., DELANEY S., BARTON A.B., KABACK D.B., BUSSEY H.; RT "Sequencing of chromosome I from Saccharomyces cerevisiae: analysis RT of a 32 kb region between the LTE1 and SPO7 genes."; RL GENOME 36:32-42(1993). RN [5] RP SEQUENCE OF 1-18, AND CHARACTERIZATION. RX MEDLINE; 93289817. [NCBI, ExPASy, Israel, Japan] RA ONO B.-I., ISHII N., NAITO K., MIYOSHI S.-I., SHINODA S., YAMAMOTO S., RA OHMORI S.; RT "Cystathionine gamma-lyase of Saccharomyces cerevisiae: structural RT gene and cystathionine gamma-synthase activity."; RL YEAST 9:389-397(1993). CC -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE + CC NH(3) + 2-OXOBUTANOATE. CC -!- COFACTOR: PYRIDOXAL PHOSPHATE. CC -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZING CC L-CYSTEINE FROM L-METHIONINE. CC -!- SUBUNIT: HOMOTETRAMER. CC -!- SUBCELLULAR LOCATION: CYTOPLASMIC. CC -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY. CC -------------------------------------------------------------------------- CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See http://www.isb-sib.ch/announce/ CC or send an email to license@isb-sib.ch). CC -------------------------------------------------------------------------- DR EMBL; L05146; AAC04945.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; L04459; AAA85217.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; D14135; BAA03190.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR PIR; S31228; S31228. DR YEPD; 5280; -. DR SGD; L0000470; CYS3. [SGD / YPD] DR PFAM; PF01053; Cys_Met_Meta_PP; 1. DR PROSITE; PS00868; CYS_MET_METAB_PP; 1. DR DOMO; P31373. DR PRODOM [Domain structure / List of seq. sharing at least 1 domain] DR PROTOMAP; P31373. DR PRESAGE; P31373. DR SWISS-2DPAGE; GET REGION ON 2D PAGE. KW CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE. FT INIT_MET 0 0 FT BINDING 203 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY). SQ SEQUENCE 393 AA; 42411 MW; 55BA2771 CRC32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN //
Swiss-Prot
http://www.ebi.ac.uk/swissprot/ Swiss-Prot Υψηλή ακρίβεια, επιμέλεια με το «χέρι». Η Swiss-Prot ξεχωρίζει από όλες τις άλλες βάσεις πρωτεϊνικών αλληλουχιών: α) Σχολιασμός β) Ελαχιστοποίηση πλεονάσματος γ) Αλληλεπίδραση με άλλες βάσεις δεδομένων δ) Αρχεία τεκμηρίωσης Εγχειρίδια
Gene/protein name http://www.ebi.ac.uk/trembl/ Taxonomy Reference CDS TrEMBL EMBL Αυτόματη εξαγωγή πρωτεϊνικών ακολουθιών (CDS), όνομα γονιδίου, ταξινόμηση, βιβλιογραφικές αναφορές. Αυτόματος σχολιασμός
TrEMBL Αποτελείται από δύο τμήματα. Την SP-TrEMBL και περιέχει αλληλουχίες που είναι υπό ένταξη στην Swiss-Prot και την REM-TrEMBL που περιλαμβάνει αλληλουχίες που δεν πρόκειται να ενταχθούν στην Swiss-Prot. Περιλαμβάνει αλληλουχίες μικρότερες των 8 αμινοξικών καταλοίπων, συνθετικές αλληλουχίες, αλληλουχίες που καλύπτονται από ευρεσιτεχνίες κλπ
TrEMBL http://www.ebi.ac.uk/trembl/ Ο μεγάλος αδελφός της SWISSPROT Περιέχει όλα τα γονίδια που δεν έχουν συμπεριληφθεί στη SWISSPROT Αυτοματοποιημένος σχολιασμός αντί για προσεκτικό μη αυτοματοποιημένο σχολιασμό από ερευνητές
! Η TrEMBL δεν μεταφράζει τις ακολουθίες DNA, ούτε χρησιμοποιεί προγράμματα πρόγνωσης γονιδίων. Παρέχει μόνο το υπάρχων CDS που προτείνεται από τους ερευνητές που καταθέτουν την εγγραφή στη βάση EMBL/Genbank/DDBJ Συγκεκριμένα, το CDS που προτείνεται και η πρωτεϊνική αλληλουχία που προέρχεται από αυτή, μπορεί να έχει αποδειχθεί πειραματικά ή να προέρχεται από προγνωστικές μεθόδους. Αλλά αυτό δεν διευκρινίζεται από την εγγραφή TrEMBL Η TrEMBL δεν επικυρώνει καμία ακολουθία. Η ποιότητα των δεδομένων εξαρτάται από την πληροφορία που παρέχει ο ερευνητής που έχει καταθέσει την αρχική νουκλεοτιδική αλληλουχία.
From TrEMBL to Swiss-Prot CDS Αυτοματοποιημένη εξαγωγή της πρωτεϊνικής ακολουθίας (CDS), του ονόματος γονιδίαου και των βιβλιογραφικών αναφορών. Αυτοματοποιημένος Σχολιασμός. TrEMBL Μη αυτοματοποιημένη επιμέλεια της αλληλουχίας και βιολογικά σχετιζόμενες πληροφορίες (από τη βιβλιογραφία ή άλλες βάσεις δεδομένων κλπ.) Σχολιασμός ποικιλομορφίας στην ακολούθία (αντιπαραθέσεις, παραλλαγές, εναλλακτικό μάτισμα) EMBL Swiss-Prot
The UniProt consortium European Bioinformatics Institute European Molecular Biology Laboratory Swiss Institute of Bioinformatics Protein Information Resource
Universal Protein Knowledgebase (UniProt) Το 2003 η PIR (Protein Information Resource), μαζί με το EBI (European Bioinformatics Institute) και το SIB (Swiss Institute of Bioinformatics), παίρνοντας χρήματα από το NIH, δημιούργησαν τη UniProt. Μια παγκόσμια ενοποιημένη βάση πρωτεϊνικών ακολουθιών και λειτουργιών αποτελούμενη από τις βάσεις δεδομένων PIR-PSD, Swiss-Prot, and TrEMBL. Αυτές οι βάσεις προϋπήρχαν με διαφορετικές αλλά και αλληλεπικαλυπτόμενες πρωτεϊνικές αλληλουχίες. UniProt UniRef NREF Clustering at 100, 90, 50% Automated Annotation UniProt Knowledgebase Literature-Based Annotation Classification UniProt Archive Swiss- Prot TrEMBL PIR-PSD RefSeq GenBank/ EMBL/DDBJ EnsEMBL PDB Patent Data Other Data
UniProt http://www.uniprot.org/ Η UniProt είναι μια συνεργασία μεταξύ European Bioinformatics Institute, Swiss Institute of Bioinformatics, και Protein Information Resource (PIR). Το SIB βοήθησε με την Swiss-Prot, μια καλά σχολιασμένη βάση πρωτεϊνικών αλληλουχιών. Το EBI κατέθεσε την TrEMBL, μια μη επιμελημένη βάση νουκλεοτιδικών αλληλουχιών μεταφρασμένες σε πρωτεΐνες. Η PIR βοήθησε με τη δική της βάση πρωτεϊνικών αλληλουχιών, καθώς και με ένα σύνολο πρωτεϊνικών οικογενειών (PSD). Δημιουργήθηκε ένας κοινός ιστότοπος. Δημιουργήθηκε η UniProtKB (Uniprot Knowledge Base). Επίσης ένα σύνολο ακολουθιών σε συστάδες ομάδες (clusters), UniRef Βασικά εργαλεία: αναζήτηση κειμένου, αναζήτηση με τον αλγόριθμο BLAST Και εργαλείο πολλαπλών στοιχίσεων.
UniProt H UniProt είναι βάση με απλά αρχεία κειμένου (Flat-File database), όπως η EMBL, η GenBank και η SwissProt. Είναι μια νέα βάση πρωτεϊνικών δεδομένων, αποτέλεσμα της συνένωσης των βάσεων SWISS-PROT και PIR. Είναι μια καλά σχολιασμένη βάση πρωτεϊνικών αλληλουχιών. Τα δεδομένα της UniProt προέρχονται αρχικά από τις σχολιασμένες κωδικές αλληλουχίες της EMBL (GenBank/DDBJ) με δεδομένα νουκλεοτιδικών αλληλουχιών.
The UniProt Consortium UniProt (Universal Protein Resource): Ο πιο ολοκληρωμένος παγκοσμίως κατάλογος πρωτεϊνικών πληροφοριών Η UniProtKB παρέχει κάθε εβδομάδα ανανεωμένες εκδόσεις. Είναι διαθέσιμη σε περισσότερους από 100 servers, αλλά η κύρια πηγή είναι στο ExPASy και στο www.uniprot.org Παρέχει 3 βάσεις: -UniProtKB (Swiss-Prot + TrEMBL) -UniRef -UniParc
The Universal Protein resource components UniProt UniProtKB KnowledgeBase UniProtKB Release 9.7 consists of: UniProtKB/TrEMBL Computer annotated protein sequences 3 600 000 entries ~100 000 species UniProtKB/Swiss-Prot Manually annotated protein sequences 260 000 entries ~10 000 species produced by SIB and EBI UniRef100 UniRef 90 UniRef 50 One UniRef100 entry = All identical sequences (including fragments). One UniRef90 entry = Sequences that have at least 90% or more identity. One UniRef50 entry = Sequences that are at least 50% or more identity. Independent of species. Allows comprehensible BLAST similarity searches by providing sets of representative sequences produced by PIR UniProt Archives ~8 000 000 entries Archived raw protein sequences, found in publicly accessible databases: Swiss-Prot, TrEMBL, PIR, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, Patent Offices. Use with extreme caution: Contains pseudogenes, incorrect CDS predictions, etc produced by EBI
The Universal Protein resource components UniProt UniProtKB KnowledgeBase UniProtKB/TrEMBL Computer annotated protein sequences 92,124,243 entries 543,753 species UniProtKB/Swiss-Prot Manually annotated protein sequences 547,964 entries ~13,194 species produced by SIB and EBI UniRef100 UniRef 90 UniRef 50 One UniRef100 entry = All identical sequences (including fragments). One UniRef90 entry = Sequences that have at least 90% or more identity. One UniRef50 entry = Sequences that are at least 50% or more identity. Independent of species. Allows comprehensible BLAST similarity searches by providing sets of representative sequences produced by PIR UniProt Archives ~8 000 000 entries Archived raw protein sequences, found in publicly accessible databases: Swiss-Prot, TrEMBL, PIR, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, Patent Offices. Use with extreme caution: Contains pseudogenes, incorrect CDS predictions, etc produced by EBI
The Universal Protein resource components UniProt UniProtKB KnowledgeBase UniProtKB/TrEMBL Computer annotated protein sequences 92,124,243 entries 543,753 species UniProtKB/Swiss-Prot Manually annotated protein sequences 547,964 entries ~13,194 species produced by SIB and EBI UniRef100 UniRef 90 UniRef 50 One UniRef100 entry = All identical sequences (including fragments). One UniRef90 entry = Sequences that have at least 90% or more identity. One UniRef50 entry = Sequences that are at least 50% or more identity. Independent of species. Allows comprehensible BLAST similarity searches by providing sets of representative sequences produced by PIR UniProt Archives ~8 000 000 entries Archived raw protein sequences, found in publicly accessible databases: Swiss-Prot, TrEMBL, PIR, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, Patent Offices. Use with extreme caution: Contains pseudogenes, incorrect CDS predictions, etc produced by EBI
The Universal Protein resource components UniProt UniProtKB KnowledgeBase UniProtKB/TrEMBL Computer annotated protein sequences 92,124,243 entries 543,753 species UniProtKB/Swiss-Prot Manually annotated protein sequences 547,964 entries ~13,194 species produced by SIB and EBI UniRef100 UniRef 90 UniRef 50 One UniRef100 entry = All identical sequences (including fragments). One UniRef90 entry = Sequences that have at least 90% or more identity. One UniRef50 entry = Sequences that are at least 50% or more identity. Independent of species. Allows comprehensible BLAST similarity searches by providing sets of representative sequences produced by PIR UniProt Archives ~8,800,000 entries Archived raw protein sequences, found in publicly accessible databases: Swiss-Prot, TrEMBL, PIR, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, Patent Offices etc Use with extreme caution: Contains pseudogenes, incorrect CDS predictions, etc produced by EBI
Redundancy Πλεονασμός Επαναλαμβανόμενες εγγραφές Όμοιες ή επικαλυπτόμενες ακολουθίες από τον ίδιο ή διαφορετικό συγγραφές Αναθεώρηση του σχολιασμού Κακή-ελλιπής διαχείριση βάσεων δεδομένων
Δεν υπάρχει πλεονασμός στη UniProtKB/Swiss-Prot Όταν διαφορετικά γονίδια στο ίδιο είδος παράγουν την ίδια πρωτεϊνική ακολουθία, συνενώνονται σε μία εγγραφή στη UniProtKB/Swiss-Prot και όλα τα ονόματα γονιδίων εμφανίζονται στο πεδίο gene name. Παράδειγμα η εγγραφή της ανθρώπινης ιστόνης H3.1 (http://www.uniprot.org/uniprot/p68431). O «μη-πλεονασμός» (Non-redundancy) στη UniProtKB/Swiss-Prot υποδηλώνει ότι ταυτόσημες αλληλουχίες παρουσιάζονται σε μία μόνο εγγραφή. Παρ όλα αυτά, αν οι ταυτόσημες αλληλουχίες προέρχονται από διαφορετικά είδη, αποθηκεύονται σε διαφορετικές εγγραφές (π.χ. ubiquitin).
Non-redundant Databases Μη-ομόλογες βάσεις δεδομένων Είναι διαθέσιμη μόνο η αλληλουχία. Μπορεί να γίνει αναζήτηση μόνο με βάση την αλληλουχία. Συνδυασμός αλληλουχιών από περισσότερες της μιας βάσης δεδομένωνexamples: NR Nucleic (genbank+embl+ddbj+pdb DNA) NR Protein (SWISS-PROT+TrEMBL+GenPept+PDB protein)
Protein existence evidence Στοιχεία για εύρεση της πρωτεϊνικής αλληλουχίας Καθώς οι περισσότερες πρωτεϊνικές ακολουθίες προέρχονται από μετάφραση νουκλεοτιδικών αλληλουχιών και είναι ουσιαστικά προγνώσεις, η γραμμή PE μας πληροφορεί αν υπάρχουν δεδομένα που να αποδεικνύουν την ύπαρξη της πρωτεΐνης. Η πληροφορία Protein existence evidence έχει 5 διαφορετικούς προσδιοριστές δείκτες αξιοπιστίας: 1. Evidence at protein level 2. Evidence at transcript level 3. Inferred from homology 4. Predicted 5. Protein uncertain - Unassigned (used mostly in TrEMBL)
Righting the wrongs Sequences are rarely deposited in a mature state; as with all scientific research, DNA and protein annotation is a continual process of learning, revision and corrections. Sequencing error rates: ~1 base in 10 000 Making people aware of errors is good and great; making people aware that they re responsible also for correcting errors is even greater C. Hardley, EMBO reports, 4(9), 2003.
Σχολιασμός-Annotation Το κομβικό σημείο των προσπαθειών για τη διατήρηση και την ανάπτυξη της UniProtKB / Swiss-Prot Γίνεται όλο και πιο σημαντικό καθώς προσφέρει: μια περίληψη (συγκεντρωμένη σε μια βάση) του τι είναι γνωστό για μία πρωτεΐνη δημιουργεί πρότυπα για αυτόματο σχολιασμό για τους πολλούς οργανισμούς των οποίων οι αλληλουχίες είναι / θα είναι διαθέσιμες, αλλά των οποίων οι πρωτεΐνες δεν θα είναι χαρακτηρισμένες Παρέχει καλά σχολιασμένες εγγραφές ώστε να μπορούν να εκπαιδευτούν εργαλεία εξόρυξης δεδομένων από κείμενο
Μη αυτόματος σχολιασμός (Manually annotated) Πληροφορίες από άρθρα, εξειδικευμένες ΒΔ, βιοπληροφορικούς αλγόριθμους, εξειδικευμένους επιστήμονες, ανταλλαγή ιδεών (brainstorming) Σαφής διάκριση των δεδομένων που προέκυψαν πειραματικά από αυτά που προέκυψαν μέσω υπολογιστικών αναλύσεων Distinction between data obtained
Ανάλυση των ακολουθιών (bioinformatics tools) Πολύ σημαντικό κομμάτι στο σχολιασμό των εγγραφών είναι και η ανάλυση των αλληλουχιών με τη βοήθεια της βιοπληροφορικής.
Τι άλλο περιλαμβάνεται σε μια εγγραφή της UniProtKB/Swiss-Prot?
Παραπομπές-Εξωτερικές αναφορές Cross-references http://www.uniprot.org/docs/dbxref Η Swiss-Prot ήταν η πρώτη βάση δεδομένων με εξωτερικές αναφορές σε άλλες βάσεις δεδομένων Σήμερα έχει 126 αναφορές σε διαφορετικές βάσεις δεδομένων: DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB) Family and domain (InterPro, HAMAP, PROSITE, Pfam, etc.) genomic (OMIM, MGI, FlyBase, SGD, SubtiList, etc.) specialized db (e.g.glycosuitedb, PhosSite, MEROPS); literature (PubMed) Κάθε UniProtKB/Swiss-Prot εγγραφή μπορεί να θεωρηθεί ως ένα κομβικό σημείο για τις διαθέσιμες πληροφορίες σχετικά με την πρωτεΐνη που περιγράφει
Organism-specific databases AGD CYGD DictyBase EchoBASE EcoGene euhcvdb FlyBase GeneDB_Spombe GeneFarm Gramene H-InvDB HGNC HIV HPA LegioList Leproma ListiList MaizeGDB MGI MIM MypuList PhotoList RGD SagaList SGD StyGene SubtiList TAIR TubercuList WormBase WormPep ZFIN Genome annotation databases Ensembl GenomeReviews KEGG TIGR Sequence databases EMBL PIR UniGene 3D structure databases HSSP PDB SMR Enzyme and pathway databases BioCyc Reactome UniProtKB/Swiss-Prot explicit links PTM databases GlycoSuiteDB PhosSite Miscellaneous ArrayExpress dbsnp DIP DrugBank GO IntAct LinkHub RZPD-ProtExp Family and domain databases Gene3D HAMAP InterPro PANTHER PIRSF Pfam PRINTS ProDom PROSITE SMART TIGRFAMs 2D-gel databases ANU-2DPAGE Aarhus/Ghent-2DPAGE COMPLUYEAST-2DPAGE Cornea-2DPAGE DOSAC-COBS-2DPAGE ECO2DBASE HSC-2DPAGE OGP PHCI-2DPAGE PMMA-2DPAGE Rat-heart-2DPAGE REPRODUCTION-2DPAGE Siena-2DPAGE SWISS-2DPAGE Protein family/group databases GermOnline MEROPS PeroxiBase PptaseDB REBASE TRANSFAC
«Σιωπηλές» (Implicit) Παραπομπές-Εξωτερικές αναφορές στο νέο web server και στο ExPASy Υπάρχουν επιπλέον και παραπομπές σε 26 ΒΔ από το ExPASy στη διαδικτυακή διεπαφή (π.χ. GeneCards, ModBase, κλπ) http://www.uniprot.org/docs/dbxref Αυτές οι παραπομπές (X-refs) δεν εμφανίζονται ως γραμμές DR σε κάθε εγγραφή της Swiss-Prot (flat file), αλλά προστίθενται επιτόπου (on the fly) όταν κάποιος επισκέπτεται μια εγγραφή στο ExPASy. Αυτό μπορεί να επιτευχθεί διότι αρκετές πληροφορίες είναι παρούσες σε μια UniProtKB εγγραφή ώστε να υπάρχει πρόσβαση στις σχετικές πληροφορίες σε άλλες ΒΔ. Παράδειγμα: Όλες οι εγγραφές της Swiss-Prot/TrEMBL παραπέμπουν στην BLOCKS domain db, μέσω του Swiss-Prot/TrEMBL accession number
Ορισμός λέξεων-κλειδιών (keywords) και χρήση στη Swiss-Prot Παραπομπή στην Gene Ontology για να διευκολυνθεί περαιτέρω ανάκτηση πληροφοριών μέσω ελεγχόμενων λεξιλογίων
Σε μια εγγραφή της UniProtKB/Swiss-Prot, περιλαμβάνονται τα εξής: Όλα τα ονόματα μιας πρωτεΐνης (και των αντίστοιχων γονιδίων), Την βιολογική προέλευση αυτής με παραπομπές σε ταξινομικές ΒΔ, Μια συλλογή από βιβλιογραφικές αναφορές, Μια περίληψη του τι είναι γνωστό για την πρωτεΐνη: λειτουργία, εναλλακτικά παράγωγα, μεταμεταφραστικές τροποποιήσεις, έκφραση σε ιστούς, 3-D δομή, κλπ., Πολυάριθμες παραπομπές, Επιλεγμένες λέξεις-κλειδιά, Μια περιγραφή σημαντικών χαρακτηριστικών της πρωτεϊνικής ακολουθίας: domains, PTMs, variations, κλπ, Μια (συχνά διορθωμένη) πρωτεϊνική ακολουθία και η περιγραφή των διάφορων ισομορφών/παραλλαγών (isoforms/variants).
Οργανισμοί μοντέλα Οργανισμοί για τους οποίους θέλουμε να έχουμε όσο το δυνατόν πιο εκτενή και ολοκληρωμένη πληροφορία, Πληρότητα πληροφοριών με παραπομπές σε εξειδικευμένες ΒΔ και εξειδικευμένα αρχεία, Παραδείγματα: E.coli, B.subtilis, human, mouse, fruitfly, C.elegans, yeast, S.pombe, A.thaliana.
Ανανεώσεις - Updates Βάσεις νουκλεοτιδικών αλληλουχιών EMBL/GenBank/DDBJ Όλα τα δεδομένα που υποβάλλονται, αποθηκεύονται Οι ερευνητές που υποβάλλουν τα δεδομένα είναι υπεύθυνοι για τις υποβληθείσες αλληλουχίες και τον σχολιασμό τους Κανείς άλλος δεν μπορεί να κάνει τροποποιήσεις (συμπεριλαμβανομένων και των σχολιαστών (curators) των EMBL/GenBank/DDBJ) Βάσεις πρωτεϊνικών ακολουθιών Η UniPRotKB/Swiss-Prot ΔΕΝ είναι απλά ένα αποθετήριο δεδομένων Η Swiss-Prot επιλέγει τι εισάγεται στην ΒΔ και που τοποθετείται Η Swiss-Prot ανανεώνει το σχολιασμό και τις αλληλουχίες όταν αυτό κριθεί απαραίτητο
Example FASTA Format Geninfo αριθμός, ανατίθεται από το NCBI Δείχνει ότι η αλληλουχία προήλθε από τη βάση SWISS-PROΤ SWISS-PROT Κωδικός ταυτοποίησης Όνομασία βιομορίου >gi 121066 sp P03069 GCN4_YEAST GENERAL CONTROL PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R
File Formats GenBank/GB, genbank flatfile format NBRF format EMBL, EMBL flatfile format Swissprot GCG, single sequence format of GCG software DNAStrider, for common Mac program Pearson/Fasta, a common format used by Fasta programs and others Phylip3.2, sequential format for Phylip programs Phylip, interleaved format for Phylip programs (v3.3, v3.4) Plain/Raw, sequence data only (no name, document, numbering) MSF multi sequence format used by GCG software PAUP"s multiple sequence (NEXUS) format ASN.1 format used by NCBI
FASTA >gi 121066 sp P03069 GCN4_YEAST GENERAL CONTROL PROTEIN GCN4 MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPI IKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYEN LEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVL EDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPES SDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGE R