Βάσεις δεδομένων αλληλουχιών



Σχετικά έγγραφα
Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Βιοπληροφορική. Ενότητα 3: Βάσεις Δεδομένων (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

Introduction to Bioinformatics

Βάσεις δεδομένων χαρτογράφησης γονιδιωμάτων

ΑΛΛΕΣ ΣΗΜΑΝΤΙΚΕΣ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Βιοπληροφορική. Βιολογικές Βάσεις Δεδομένων. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 2 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Εργαστηριακές Ασκήσεις Υπολογιστικής Βιολογίας και Βιοπληροφορικής. Βασίλης Προμπονάς

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Κεφάλαιο 2 Βιολογικές Βάσεις Δεδομένων

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Εφαρμογές απεικόνισης και εξόρυξης δεδομένων. σε βιολογικές βάσεις δεδομένων ΙΩΑΝΝΗΣ Γ. ΧΑΤΖΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Βιοπληροφορική. Εισαγωγή

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Εφαρμοσμένη Βιοτεχνολογία Σημειώσεις. Νίκος Τσουκιάς Σχολή Χημικών Μηχανικών ΕΜΠ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΙΣΑΓΩΓΗ Ι. Στοιχεία Μοριακής Βιολογίας Βιολογικά Μακρομόρια ΙΙ. Επισκόπηση του πεδίου της Υπολογιστικής Βιολογίας - Βιοπληροφορικής

Τεχνολογίες συλλογής δεδοµένων υψηλής απόδοσης

Βιοπληροφορική. Ενότητα 21: Υπολογιστικός Προσδιορισμός Δομής (3/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Splice site recognition between different organisms

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Παν/μιο Θεσσαλίας Λαμία 2015

ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

ΕΡΓΑΣΤΗΡΙΟ ΒΙΟΫΛΙΚΩΝ 2 ΜΕΡΟΣ Α Α. ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 17: Δομή Πρωτεϊνών, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Department of Biological Sciences, Texas Tech University, MS 43131, Lubbock,Texas

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εισαγωγή Ακολουθίες Βιολογικών Μακροµορίων και Στοιχεία Μοριακής Εξέλιξης

Συγκριτική Γονιδιωματική

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΙΑΤΡΟΒΙΟΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Πηγές στο διαδίκτυο για συγγράµµατα µε µορφή pdf

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Γονιδιωματική. G. Patrinos

Institutional Repository - Library & Information Centre - University of Thessaly 24/09/ :13:35 EEST

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

ΠΡΟΓΡΑΜΜΑ ΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Τι προσφέρει το NCBI. Πληκτρολογούμε:

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences

Ίδρυμα Τεχνολογίας & Έρευνας (ΙΤΕ)

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Μικροβιολογία Τροφίμων Ι Εργαστήριο

Αλληλουχίες βιολογικών µακροµορίων Δοµή, λειτουργία, εξέλιξη

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 19: Υπολογιστικός Προσδιορισμός Δομής (1/3), 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Transcript:

Βάσεις δεδομένων αλληλουχιών Vasilis Promponas Bioinformatics Research Laboratory Department of Biological Sciences University of Cyprus

ΣΥΝΟΨΗ Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών Λίγη ιστορία και μια γεύση από ΒΔ GenBank, EMBL, DDBJ International Nucleotide Sequence Database Collaboration Βάσεις δεδομένων αμινοξικών αλληλουχιών Λίγη ακόμη ιστορία... Atlas of protein sequence and structure, NBRF/PSD, PIR, SwissProt UniProt Συζήτηση..

Πρωτογενείς και Δευτερογενείς ΒΔ Πρωτογενείς (primary/archival) Δίνουν το χώρο και το μηχανισμό για την κατάθεση (και την πρόσβαση) σε ΠΕΙΡΑΜΑΤΙΚΑ δεδομένα που αφορούν αλληλουχίες π.χ. προσδιόρισα την αλληλουχία ενός γονιδίου ή τμήματός του Δευτερογενείς (secondary/curated) Βασίζονται σε δεδομένα των πρωτογενών βάσεων Περιέχουν επιπλέον σχολιασμό, ο οποίος ΔΕΝ ΕΧΕΙ (απαραίτητα) πειραματική υποστήριξη

Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών Λίγη ιστορία.. GenBank EMBL DDBJ Σήμερα: http://www.insdc.org/page.php?page=home

GenBank (US) http://www.ncbi.nlm.nih.gov/genbank http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html 1979 Los Alamos Sequence Database (LANL) 1982 GenBank (NIH, NSF, DoE, DoD) 1989 1992, η GenBank περνά σταδιακά στον έλεγχο του NCBI

EMBL Databank http://www.ebi.ac.uk/embl/ European Molecular Biology Laboratory EMBL (http://www.embl.org) Ευρωπαϊκή προσπάθεια (20 κράτη-μέλη [$$] ) Βασική έρευνα στη Μοριακή Βιολογία 5 παραρτήματα: Heidelberg (DE), Hinxton (UK), Grenoble (FR), Hamburg (DE), Monterotondo (IT) 1980 Ίδρυση (EMBL-Heidelberg) 1982 Συνεργασία με GenBank 1994 EMBL-EBI (Hinxton)

DNA DataBank of Japan http://www.ddbj.nig.ac.jp/ 1984 1987 Ίδρυση (National Institute of Genetics - Mishima) 1987 Συμμετέχει στο INSDC

Τα πέτρινα χρόνια Αρχικά τα δεδομένα προέρχονταν (κυρίως) από τη βιβλιογραφία... Christian Burks, Michael J. Cinkosky, Paul Gilna, Jamie E. -D. Hayden, Yuki Abe, Edwin J. Atencio, Steve Barnhouse, David Benton, Connie A. Buenafe, Karen E. Cumella, Dan B. Davison, David B. Emmert, Mary Jo Faulkner, James W. Fickett, William M. Fischer, Mark Good, Deborah A. Horne, F. Kay Houghton, Praful M. Kelkar, Tom A. Kelley, et al. GenBank: Current status and future directions Methods in Enzymology, 1990, 183, 3-22

Τα πέτρινα χρόνια (ΙΙ)... και διανέμονταν με υπερσύγχρονα μέσα... Patricia Kahn and Graham Cameron EMBL Data Library Methods in Enzymology, 1990, 183, 23-31

International Nucleotide Sequence Database Collaboration Η κάθε ΒΔ έχει δικό της μηχανισμό κατάθεσης (submission) και αναθεώρησης (update) δεδομένων Aνάκτηση http://www.ebi.ac.uk/embl/contact/dataflow.gif GenBank NCBI Entrez EMBL SRS DDBJ getentry Κοινός μηχανισμός αμοιβαίας ενημέρωσης

Μορφές αναπαράστασης δεδομένων (database formats) Αλληλουχίες σε ψηφιακή μορφή Αναγνώσιμες από Η/Υ (machine readable) Περιεκτικές Περιγραφικές Διαφορετικά επίπεδα λεπτομέρειας ανάγκες Flatfile (text) VS binary formats

Η απλή λύση FASTA format >gi 394765 emb X70508.1 Homo sapiens mrna for insulinoma pre-proinsulin GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG AGAGAGATGGAATAAAGCCCTTGAACCAGC Τίτλος/Περιγραφή >gi 394765 emb X70508.1 Homo sapiens mrna for insulinoma pre-proinsulin Identifiers Description Αλληλουχία GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG AGAGAGATGGAATAAAGCCCTTGAACCAGC

Λεπτομερή formats Ας δούμε την προηγούμενη εγγραφή στη GenBank... http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nuccore&id=x70508 EMBL... http://www.ebi.ac.uk/cgi-bin/expasyfetch?x70508 DDBJ... http://getentry.ddbj.nig.ac.jp/search/get_entry?accnumber=x70508

Υποδιαιρέσεις / Προέλευση δεδομένων EST (Expressed Sequence Tags) STS (Sequence-Tagged Sites) GSS (Genome Survey Sequences) HTG (High-Throughput Genome Sequences) HTC (unfinished sequences from HTGs) WGS (Whole Genome Shotgun sequences) PAT (Patent sequences) CON (Constructed chromosomes, genomes, etc)

Πλεονασμός (??) Π.χ. αλληλουχίες του ίδιου γονιδίου, από διαφορετικό άτομο του ίδιου οργανισμό Ορισμένες φορές χρήσιμος (π.χ. μελέτη πολυμορφισμών πληθυσμιακών χαρακτηριστικών) Άλλες φορές πρόβλημα (π.χ. ταυτοποίηση γονιδίων) Λύσεις: Σύνολα αναφοράς Ομαδοποίηση π.χ. NCBI-RefSeq (δευτερογενής ΒΔ)

Βάσεις δεδομένων πρωτεϊνικών αλληλουχιών Λίγη ιστορία.. Atlas of protein sequence and structure (1965-1978) PIR-PSD (NBRF/MIPS/JIPID), SwissProt UniProt (EBI/SIB/PIR) UniParc (archive) UniProtKB UniRef GenPept RefSeq TREMBL

UniProt NREF50 UniProt NREF90 UniProt NREF100 Proteome sets UniProt Knowledgebase SwissProt+TrEMBL IPI UniProt Archive Peptide data INSDC VEGA PDB Patent Data WGS, RefSeq EnsEMBL FlyBase, WormBase Πηγές δεδομένων Τροποποίηση Baxevanis, Ouellette (3 rd edition) 2005.

Μορφές αναπαράστασης δεδομένων (database formats) Αλληλουχίες σε ψηφιακή μορφή Αναγνώσιμες από Η/Υ (machine readable) Περιεκτικές Περιγραφικές Διαφορετικά επίπεδα λεπτομέρειας ανάγκες Flatfile (text) VS binary formats

Η απλή λύση FASTA format >P01308 INS_HUMAN Insulin [Contains: Insulin B chain; Insulin A chain] - Homo sapiens (Human). MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAED LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN Τίτλος/Περιγραφή >P01308 INS_HUMAN Insulin [Contains: Insulin B chain; Insulin A chain] - Homo sapiens (Human). Identifiers Description Αλληλουχία MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAED LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

Λεπτομερή formats http://www.expasy.ch/uniprot/p01308

Συζήτηση... Διδακτικό υλικό: http://troodos.biol.ucy.ac.cy/brl/courses//index.html