Πανεπιστήμιο Πατρών Τμήμα Ιατρικής. Διατμηματικό Μεταπτυχιακό Πρόγραμμα Πληροφορική Επιστημών Ζωής

Σχετικά έγγραφα
Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βάσεις δεδομένων αλληλουχιών

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Introduction to Bioinformatics

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Splice site recognition between different organisms

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Σαγρή Χ.Ευθυμία. Department of Biochemistry and Biotechnology University of Thessaly

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Γενετική Πληθυσμών και Εξέλιξη 1 η άσκηση

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Γονιδιωματική. G. Patrinos

Βιοπληροφορική. Ενότητα 3: Βάσεις Δεδομένων (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΑΛΛΕΣ ΣΗΜΑΝΤΙΚΕΣ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Συγκριτική Γονιδιωματική

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βάσεις δεδομένων χαρτογράφησης γονιδιωμάτων

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

ΒΙΟ003 - Εισαγωγή στη Βιοπληροφορική 1 η Εργαστηριακή Άσκηση. Διαδικτυακές βιβλιογραφικές πηγές (Μοριακής) Βιολογίας και Βιοπληροφορικής

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Τεχνολογίες συλλογής δεδοµένων υψηλής απόδοσης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Τι προσφέρει το NCBI. Πληκτρολογούμε:

Βιοπληροφορική. Βιολογικές Βάσεις Δεδομένων. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Συγγραφή Τεχνικών Κειμένων

Μέθοδοι μελέτης εξέλιξης

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions.

Σύγκριση και κατηγοριοποίηση πρωτεϊνικών δομών

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Αναζήτηση επιστημονικών δημοσιεύσεων μέσω διαδικτύου

Περίληψη Λαμπρόπουλος

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Βιολογία Θετικής Κατεύθυνσης. 4 ο Κεφάλαιο - Τεχνολογία του ανασυνδυασμένου DNA

ΠΑΡΑΡΤΗΜΑ Γ. Οδηγίες για τη συγγραφή της μεταπτυχιακής Διπλωματικής Εργασίας (ΔΕ)

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Μεταδεδομένα στο Ψηφιακό περιβάλλον

GobiExport: Millennium Orders Γ Ρ Α Φ Ε Ι Ο Δ Ι Α Χ Ε Ι Ρ Ι Σ Η Σ Υ Λ Ι Κ Ο Υ - Τ Μ Η Μ Α Π Α Ρ Α Γ Γ Ε Λ Ι Ω Ν Ε Ν Τ Υ Π Ο Υ Υ Λ Ι Κ Ο Υ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 2 ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΒΙΟΛΟΓΙΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

LALING/PLALING :

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΝΕΕΣ MΟΡΙΑΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΤΗΝ ΤΥΠΟΠΟΙΗΣΗ ΤΩΝ ΒΑΚΤΗΡΙΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

Κεφάλαιο 2 Βιολογικές Βάσεις Δεδομένων

Δομές Δεδομένων Εργαστηριακή Άσκηση Γκόγκος Νίκος Α.Μ.: 4973 Έτος: 3 ο gkogkos@ceid.upatras.gr. Εισαγωγικά:

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Νέες τεχνολογίες εισάγονται ή χρησιµοποιούνται

Μοριακή Ανάλυση Φυτών

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ. Η γλ(άσσα πβ^γβαμματισμί^ Jaya για εφαρμογές Βιοίτληροφορικιίςκαι, Βιοιατρικής

τα Λεπτά Υμένια στις Νανοδομές και στις Νανο- & Mεγάλης κλίμακας κατασκευές.

Transcript:

Πανεπιστήμιο Πατρών Τμήμα Ιατρικής Διατμηματικό Μεταπτυχιακό Πρόγραμμα Πληροφορική Επιστημών Ζωής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΔΙΕΥΡΥΝΣΗ ΤΗΣ ΒΑΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ COGENT ΓΙΑ ΤΗΝ ΠΡΟΣΘΕΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΒΙΒΛΙΟΓΡΑΦΙΚΗΣ ΥΛΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΩΝ ΝΟΥΚΛΕΟΤΙΔΙΚΗΣ ΑΛΛΗΛΟΥΧΙΑΣ (DNA) ΔΕΣΠΟΙΝΑ ΧΡΙΣΤΟΠΟΥΛΟΥ Α.Μ. 528 Σύμβουλος Καθηγητής Ζωή Λυγερού Εξεταστική Επιτροπή Ζωή Λυγερού Θεόδωρος Παπαθεοδώρου Ιωάννης Ζαρκάδης ΠΑΤΡΑ - CAMBRIDGE, 2006

Ευχαριστίες Η παρούσα διπλωματική εργασία παρουσιάζει τμήμα της έρευνας που πραγματοποιήθηκε στο εργαστήριο της Ομάδας Υπολογιστικής Γενωμικής (Computational Genomics Group CGG) το οποίο στεγάζεται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute EBI) στην πόλη Cambridge της Αγγλίας. Το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής αποτελεί παράρτημα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (EMBL). Θέλω να ευχαριστήσω τον καθηγητή κ. Χρήστο Ουζούνη, τον διευθυντή της ομάδας CGG, για την ευκαιρία που μου έδωσε να μετέχω σε ένα από τα πρωτοπόρα ερευνητικά κέντρα παγκοσμίως. Ευχαριστώ ιδιαίτερα τον κ. Ιωάννη Ζαρκάδη, για την διαρκή υποστήριξή του. Η συμβολή του στην ολοκλήρωση της παρούσης εργασίας ήταν πολύπλευρη και καθοριστική. Δέσποινα Χριστοπούλου 1

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 2 ΠΕΡΙΕΧΟΜΕΝΑ 3 ΕΙΣΑΓΩΓΗ 5 ΚΕΦΑΛΑΙΟ 1 STATE OF THE ART 8 Εισαγωγή 8 1.1 Βάσεις Νουκλεοτιδικών Αλληλουχιών 10 1.2 Βάσεις Organism Specific 11 1.3 Βάσεις Πρωτεϊνικών Αλληλουχιών 13 1.4 Βάσεις Πρωτεϊνικών Οικογενειών και Πρωτεϊνικών Domains 16 ΚΕΦΑΛΑΙΟ 2 BACKGROUND INFORMATION 19 Εισαγωγή 19 2.1 Υλοποίηση (Implementation) 21 2.2 Σχεδιασμός 23 2.3 Εισαγωγή Δεδομένων 25 2.4 Ανανέωση (Updates) 26 ΚΕΦΑΛΑΙΟ 3 ΕΡΕΥΝΗΤΙΚΟ ΕΡΩΤΗΜΑ 28 3.1 Προσθήκη (Incorporation) Βιβλιογραφικών Πληροφοριών Στην Βάση Βιολογικών Δεδομένων COGENT 28 3.2 Προσθήκη (Incorporation) Πληροφοριών Γονιδιακής Αλληλουχίας (DNA) Στην Βάση Βιολογικών Δεδομένων COGENT 30 ΚΕΦΑΛΑΙΟ 4 ΜΕΘΟΔΟΛΟΓΙΑ 31 ΚΕΦΑΛΑIΟ 5 ΑΠΟΤΕΛΕΣΜΑΤΑ 40 ΚΕΦΑΛΑΙΟ 6 ΣΥΜΠΕΡΑΣΜΑΤΑ 48 ΠΑΡΑΡΤΗΜΑΤΑ 55 ΒΙΒΛΙΟΓΡΑΦΙΑ 66 2

ΠΙΝΑΚΕΣ 1. Ανάπτυξη Genebank 11 2. Η δομή του γονιδικού πίνακα της Cogent 27 3. Ποσοστό των γονιδίων των 234 ειδών οργανισμών της Cogent που είναι ονοματολογικά καλυμμένα 47 4. Συνολικός αριθμός κατοχυρώσεων πρωτεϊνικών αλληλουχιών (άξονας y) σε ολοκληρωμένα γονιδιώματα στην Cogent (μπλε) και στην Swissprot (κόκκινο) ως προς τον χρόνο (άξονας x) 49 5. Αναπαράσταση των αλληλουχιών ολοκληρωμένων γονιδιωμάτων ως προς τον χρόνο (άξονας x) και ως προς το μέγεθος (άξονας y, σε Mb, λογαριθμική κλίμακα) σημειωμένα με βάση την κοινωνική τους επιρροή. Γονιδιώματα από τα Αρχαιοβακτήρια (τετράγωνα),τα βακτήρια (κύκλοι), και τους Ευκαρυότες (τρίγωνα), είναι χρωματισμένα με βάση τον ακαδημαϊκό (μπλε), τον ιατρικό (ροζ), τον γεωργικό (πράσινο ανοιχτό), τον οικολογικό (πράσινο σκούρο), και τον βιομηχανικό (μαύρο) συσχετισμό τους. 52 6. Φυλογενετική κατανομή των κατοχυρώσεων γονιδιακών αλληλουχιών. Αρχαιοβακτήρια και Βακτήρια κατατάσσονται στο επίπεδο του Phylum, και οι Ευκαρυότες στο επίπεδο της πρώτης ταξονομικής διακλάδωσης με εξαίρεση τα Μετάζωα και τους Μύκητες. Οι αριθμοί στην παρένθεση παρουσιάζουν τα γονιδιώματα που είναι ολοκληρωμένα - δημοσιευμένα (κόκκινα), και σε εξέλιξη (μπλε). Το δένδρο είναι το αποτέλεσμα της κατάταξης που πραγματοποιήθηκε από την Ταξονιμική Βάση Δεδομένων του Εθνικού Κέντρου Βιοτεχνολογικής Πληροφορίας - National Center for Biotechnology Information (NCBI). Πληροφορίες σχετικά με τα υπό εξέλιξη γονιδιωματικά projects πάρθηκαν από την ιστοσελίδα της Γενωμικής Βάσης Δεδομένων ( Genomic Online Database - GOLD). 53 7. Ποσοστό της ονοματολογικής κάλυψης των γονιδίων σε 9 από τα 225 γονιδιώματα των ειδών (species) της Cogent με score ονοματολογικής κάλυψης υψηλότερο από το 30% της ονοματολογικής κάλυψης των γονιδίων του συνολικού γονιδιώματός τους. 54 3

ΕΙΣΑΓΩΓΗ «Υπάρχουν δύο είδη γνώσης: γνωρίζουμε ένα αντικείμενο οι ίδιοι, ή γνωρίζουμε που πρέπει να ψάξουμε για να βρούμε πληροφορίες για το αντικείμενο αυτό» Dr. Samuel Johnson (1709-84) Άγγλος λεξικογράφος, συγγραφέας του βιβλίου «Λεξικό της αγγλικής γλώσσας». Είναι δεδομένο πως η ανάπτυξη της γενομικής πληροφορίας έχει εμπνεύσει αυξημένο ενδιαφέρον στην επιστημονική κοινότητα γενικά, και στις ομάδες επικεντρωμένες στη σύγκριση μεγάλης κλίμακας γενετικών ακολουθιών ειδικότερα. Η συγκριτική γενομική αναλύει και συγκρίνει το γενετικό περιεχόμενο διαφορετικών ειδών οργανισμών με στόχο την ταυτοποίηση γονιδίων και την πρόβλεψη της λειτουργίας τους. Γνώση της λειτουργίας των γονιδίων, σημαίνει γνώση πρωτεϊνών, γνώση πρωτεϊνών σημαίνει γνώση φαινόμενων ζωής, επομένως είναι κατανοητή σε όλους η έλξη που ασκεί το πρωταρχικό αυτό αντικείμενο της συγκριτικής γενομικής σε όλες τις εκφάνσεις της επιστήμης της βιολογίας και που δεν είναι άλλο από τις πολυσυζητημένες βάσεις βιολογικών δεδομένων. Δεδομένο είναι επίσης το γεγονός πως η τεράστια ανάπτυξη των βιολογικών βάσεων δεδομένων έχει φέρει ένα είδος επανάστασης στην ανάλυση βιολογικών δεδομένων αυτή κάθε αυτή, και πρέπει να ομολογήσουμε πως μέχρι πρόσφατα η καινούρια «τεχνολογία» βρισκόταν σε τριβή με τις υπάρχουσες μεμονωμένες τεχνικές αναζήτησης βιολογικών πληροφοριών στον παγκόσμιο ιστό. Το θετικό του φαινόμενου της τριβής στον θώκο 4

στης επιστημονικής κοινότητας είναι η δημιουργία πρόκλησης. Η πρόκληση στον σχεδιασμό βιολογικών βάσεων δεδομένων επέφερε νέες τεχνικές, και οι νέες τεχνικές έφεραν στην επιφάνεια μια νέα γενιά βάσεων βιολογικών δεδομένων. Η νέα γενιά βάσεων βιολογικών δεδομένων : α) διαθέτει την δυνατότητα αποθήκευσης tetrabytes δεδομένων, συχνά τοπικά και proprietary, β) δίνει αποτελέσματα σε αναζητήσεις με πολύ μεγάλο και πολύπλοκο αριθμό inputs, όπως για παράδειγμα ένα ολόκληρο γονιδίωμα, και γ) είναι σε θέση να φέρει εις πέρας ιδιαιτέρως πολύπλοκες αναζητήσεις που προϋποθέτουν πρόσβαση σε περισσότερες της μιας ομάδας δεδομένων (datasets). Σήμερα υπάρχει ελεύθερη πρόσβαση μέσω του internet σε εκατοντάδες δημόσιες βιολογικές βάσεις δεδομένων. Παρόλο το γεγονός, η προσπάθεια του να εκμεταλλευτεί κάποιος τα αποθηκευμένα δεδομένα ανομοιογενών βάσεων δεδομένων, καταλήγει να αποτελεί μια διαδικασία ιδιαίτερα δύσκολη και χρονοβόρα λόγω ποικίλων αιτιάσεων. Στις αιτίες αυτές συμπεριλαμβάνονται ο χαοτικός όγκος των βιολογικών δεδομένων, ο ολοένα αυξανόμενος αριθμός βιολογικών βάσεων δεδομένων, η υπεραφθονία τύπων και μορφών δεδομένων (format), η ποικιλομορφία βιοπληροφορικών τεχνικών πρόσβασης στα δεδομένα και βέβαια η διαφορετικότητα των βάσεων βιολογικών δεδομένων. Χάρη στις διεθνής προσπάθειες ολοκλήρωσης αλληλουχιών (sequencing), οι ομάδες γονιδιακών δεδομένων έχουν αυξηθεί γεωμετρικά την τελευταία δεκαετία. Το έτος 2003 για παράδειγμα, η βάση βιολογικών δεδομένων Genbank διπλασιάστηκε σε μέγεθος μέσα σε 15 μήνες. Με τόσο γρήγορη ανάπτυξη, τα γενωμικά δεδομένα και οι συνδεόμενες με αυτά δομές έχουν αποκτήσει τεράστιο μέγεθος για να χωρέσουν στην κεντρική μνήμη ενός υπολογιστή. Το σημαντικότερο πρόβλημα που ανακύπτει έγκειται 5

στο ότι μεγάλο μέρος της πληροφορίας που αναζητείται μεσα στο τεράστιο και ολοένα αυξανόμενο σε μέγεθος ορυχείο των δεδομένων εν τέλει χάνεται. Η ανάγκη επομένως κατασκευής των κατάλληλων εργαλείων εξ όρυξης της ζητούμενης πληροφορίας από το ορυχείο αυτό είναι μονόδρομος. Η παρούσα διπλωματική εργασία επικεντρώνεται στην διεύρυνση μιας υπάρχουσας βάσης βιολογικών δεδομένων ολοκληρωμένων γονιδιωμάτων, της COGENT. Η COGENT αναπτύχθηκε το 2003 από την Ομάδα Υπολογιστικής Γενωμικής (Computational Genomics Group CGG), στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute EBI), και τελικός τεχνικός στόχος της διπλωματικής εργασίας αποτελεί η προσθήκη βιβλιογραφικών δεδομένων καθώς και νουκλεοτιδικών πληροφοριών αλληλουχίας (DNA) στην βάση COGENT. 6

ΚΕΦΑΛΑΙΟ 1 State of the Art ΕΙΣΑΓΩΓΗ Ο χώρος της Βιοπληροφορικής είναι ο χώρος των δεδομένων. Είναι ο χώρος των χαοτικών ποσοτήτων πληροφορίας νουκλεοτιδικών, αμινοξικών, πρωτεϊνικών, γονιδιακών και λοιπών βιολογικών δεδομένων, τα οποία ανακαλύπτονται με συνεχή ρυθμό από τα ανελλιπώς ασταμάτητα εργαζόμενα ερευνητικά εργαστήρια ανά τον κόσμο. Η επιτυχημένη χρήση των δεδομένων αυτών προϋποθέτει την αποθήκευσή τους με τρόπο κατάλληλο, και σε σταθερή μορφή (format). Για αυτόν τον λόγω σε αυτό το σημείο είναι σημαντικό να συζητήσουμε περιληπτικά την φύση των υπαρχουσών βάσεων βιολογικών δεδομένων και τους λόγους για τους οποίους αποτελούν πόλο έλξης και αξιόλογα εργαλεία για τους ερευνητές. Μια βάση δεδομένων δεν είναι μια απλή κατασκευή συλλογής δεδομένων. Μια βάση δεδομένων πρέπει να είναι μορφοποιημένη, κατάλληλη για αναζητήσεις, περιοδικά ανανεώσιμη, και cross referred. Ο ουσιώδης δε σκοπός μιας τέτοιας κατασκευής είναι η προσπάθεια μεταλλαγής «ανούσιων» δεδομένων σε χρήσιμες πληροφορίες οι οποίες είναι καταρχήν βολικής πρόσβασης και στη συνέχεια μπορούν να αναλυθούν με τον καλύτερα δυνατό τρόπο. Για να κάνουμε κατανοητή την χρηστική φύση μιας βάσης δεδομένων, ας αναρωτηθούμε το εξής: με ποιόν τρόπο θα μπορούσαμε να οργανώσουμε όλες τις βιολογικές αλληλουχίες με τρόπο ώστε η πρόσβασή μας στις βιολογικές πληροφορίες που παίρνουμε από αυτές τις αλληλουχίες να είναι βέλτιστη (optimal). Η απάντηση είναι πως θα πρέπει με κάποιον τρόπο να κατασκευάσουμε ένα σύστημα 7

διαχείρισης των βιολογικών αλληλουχιών δεδομένων, δηλαδή τίποτα διαφορετικό από μια βάση βιολογικών αλληλουχιών δεδομένων. Όσον αφορά στο γιατί οι βάσεις δεδομένων αποτελούν χρήσιμα εργαλεία για τους ερευνητές, οι λόγοι ποικίλουν. Καταρχήν οι βάσεις δεδομένων αναπαράγονται: από δεκάδες σε εκατοντάδες μέσα σε λίγα λεπτά. Ένας τρόπος για να δέσουμε τα δεδομένα αυτά μαζί είναι η κατασκευή μιας βάσης δεδομένων και η δημιουργία εγγράφων βασισμένα στην πληροφορία που χρειαζόμαστε. Ένας επιπλέον λόγος είναι το ότι η πρόσβαση στις βάσεις δεδομένων είναι εφικτή από μακριά (remotely), γεγονός που κάνει την πρόσβαση στα απαραίτητα δεδομένα και την ανάλυσή τους αποτελεσματική όχι μόνο από έναν συγκεκριμένο τοπικό υπολογιστή αλλά ουσιαστικά από οποιοδήποτε υπολογιστή. Τέλος το ιδιαίτερα σημαντικό χαρακτηριστικό των βάσεων δεδομένων είναι το ότι προσφέρουν βιολογική πληροφορία άρα βιολογική γνώση: ολοένα και περισσότερες επιστημονικές ανακαλύψεις τα τελευταία χρόνια βασίζονται στην ανάλυση και όρυξη δεδομένων βιολογικών βάσεων (data mining). Το εισαγωγικό τμήμα που ακολουθεί επί συγκεντρώνεται στις νουκλεοτιδικές (primary noucleotide) και πρωτεϊνικές αλληλουχίες (sequences) βάσεις δεδομένων, καθώς μια ολοκληρωμένη συζήτηση στις βάσεις βιολογικών δεδομένων ξεφεύγει από τα όρια του αντικειμένου της συγκεκριμένης εργασίας. Μια πολύ σύντομη αναφορά στις βάσεις πρωτεϊνών με αντικείμενο ανάλυσης τα domains πρωτεϊνών συμπεριλαμβάνεται ωστόσο, μιας και οι βάσεις αυτές αποτελούν πολύ σημαντικά εργαλεία στην έρευνα ενός βίο - πληροφορικάριου (bioinformatician). 8

1.1 ΒΑΣΕΙΣ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ EMBL, GenBank, and DDBJ Οι τρεις πρωταρχικές βάσεις νουκλεοτιδικών αλληλουχιών είναι οι EMBL, GenBank and DDBJ (Stoesser et al., 2002; Benson et al., 2002; Tateno et al., 2002). Και οι τρεις περιλαμβάνουν αλληλουχίες οι οποίες υποβάλλονται σε αυτές άμεσα από μεμονωμένα εργαστήρια και consortia γενωμικών αλληλουχιών. Αλληλουχίες παρμένες από την βιβλιογραφία συμπεριλαμβάνονται επίσης, και με την επί - σημείωση τους (annotation) με αριθμούς κατοχύρωσης (accession numbers) διαχειρίζονται πολύ αποτελεσματικά και από τις τρεις βάσεις. Δεδομένου του μεγέθους των βάσεων (πάνω από 29 δις νουκλεοτίδια) υποδιαιρέσεις επίσης των αρχικών βάσεων είναι διαθέσιμες. Για παράδειγμα η GenBank διαθέτει προς το παρόν 18 υποδιαιρέσεις. Η Βάση Νουκλεοτιδικών Αλληλουχιών του Ευρωπαϊκού Μοριακού Εργαστηρίου (European Molecular Laboratory - EMBL) συντηρείται από το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute -EBI) στο Cambridge, Αγγλία.. Η πρόσβαση και η αναζήτηση στην βάση EMBL πραγματοποιείται μέσω του συστήματος SRS (Etzold and Argos, 1993). Ολόκληρη η βάση είναι επίσης διαθέσιμη σαν ένα flat file. Η Βάση Νουκλεοτιδικών Αλληλουχιών GenBank συντηρείται από το Εθνικό Κέντρο Βιοτεχνολογικής Πληροφορίας (National Center for Biotechnology Information - NCBI), το οποίο είναι τμήμα του Εθνικού Ινστιτούτου Υγείας (National Institute of Health - NIH) των Ηνωμένων Πολιτειών Αμερικής (USA). Η πρόσβαση και η αναζήτηση στην βάση γίνεται μέσω του συστήματος Entrez του NCBI, ή μπορεί να γίνει downloaded σαν flat file. 9

Η Βάση DDBJ (DNA Data Bank o Japan) ξεκίνησε σαν μια συνεργασία με τις βάσεις EMBL and GenBank. Συντηρείται από το Εθνικό Γονιδιακό Ινστιτούτο της Ιαπωνίας.. Εικόνα 1: Ανάπτυξη Genebank 1.2 Organism Specific Βάσεις Δεδομένων Οι Βάσεις Πρωτοταγούς Πρωτεϊνικής Αλληλουυχίας παρέχουν αποθηκεμένες πληροφορίες γενικά για όλα τα είδη (species) οργανισμών. Για πολλά είδη οργανισμών υπάρχουν ειδικευμένες βάσεις γενωμικών δεδομένων, τα οποία έχουν επί - σημειωθεί (annotated) από ειδικευμένους επιστήμονες με διευρυμένη γνώση της βιολογίας του 10

συγκεκριμένου είδους. Τέτοιου είδους βάσεις υπάρχουν για μια ποικιλία οργανισμών τόσο από πλευράς μεθοδολογίας όσο και ποιότητας επί - σημείωσης (annotation). Η πηγή FlyBase ήταν από τα πρώτα μοντέλα βάσεων ειδικευόμενων σε συγκεκριμένα είδη (organism specific databases). Η βάση εμπεριέχει μεγάλες ποσότητες βιολογικής πληροφορίας αναφερόμενη στο ολοκληρωμένο γονιδίωμα της μύγας Drosophila melanogaster. Λεπτομερείς πληροφορίες έχουν συμπεριληφθεί σταδιακά στην βάση: γονίδια, πρωτεΐνες, γενετικά στοιχεία, βιβλιογραφικές πηγές, και εικόνες. Η βάση συνεχώς προσαρμόζεται στις αλλαγές που νέες ερευνητικές ανακαλύψεις φέρνουν στην επικαιρότητα και αναλόγως διαμορφώνεται (modified). Μετά την δημοσίευση του ολοκληρωμένου γονιδιώματος της D. melanogaster genome (Adams et al., 2000), η FlyBase αναπτύχθηκε με ακόμα πιο γρήγορο ρυθμό με αποτέλεσμα να είναι πλέον ένα ισχυρό εργαλείο στην λειτουργική ανάλυση πρωτεϊνών στο είδος της μύγας. Η γενωμική βάση δεδομένων του οργανισμού Saccharomyces, η SGD είναι μια αντίστοιχη βάση δεδομένων με κεντρικό εργαλείο μελέτης τον οργανισμό μύκητα (yeast) Saccharomyces cerevisiae και συγγενή είδη μυκήτων (Dwight et al., 2002). Η πηγή ξεκίνησε το 1994 και ομοίως ευεργετήθηκε από την δημοσίευση του ολοκληρωμένου γονιδιώματος του οργανισμού S. cerevisiae (Mewes et al., 1997). Η πηγή Ensembl (Habbard et al., 2002) αποτελεί μια κοινή προσπάθεια του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής και του Ινστιτούτου Wellcome Trust Sanger (European Bioinformatics Institute - Wellcome Trust Sanger Institute). Η βάση αποτελεί έναν ολοκληρωμένο οδηγό πλοήγησης σε γονιδιώματα, πρόβλεψη γονιδίων, επί - σημείωση (annotation) μεγάλης κλίμακας, και ανάλυση της αλληλουχίας του γονιδιώματος του ανθρώπου. Η βάση Ensembl ξεκίνησε το1999 και τα επιμέρους στοιχεία της 11

αναπτύχθηκαν πριν την ολοκλήρωση του γονιδιώματος του ανθρώπου. Σήμερα, η μορφή της Ensembl (Build 26) περιέχει πάνω από 4,489 megabases, 29,181 προβλεπόμενα γονίδια and 34,019 προβλεπόμενα μετάγραφα (transcripts). Επίσης η Ensembl περιέχει κυτταρολογικούς markers, single nucleotide polymorphisms (SNPs), οικογένειες πρωτεϊνών, domains, και μια ποικιλία πληροφοριών. Η βάση Ensembl είναι πολύ διαφορετική από άλλες πηγές σε μερικά βασικά επίπεδα. Ολόκληρο το σύστημα είναι ελεύθερο στον παγκόσμιο ιστό (Open Source), με αποτέλεσμα όλα τα δεδομένα να είναι βολικής πρόσβασης. Τέλος η Ensembl επιτρέπει την προσθήκη επί - σημειώσεων (annotations) από απομακρυσμένους υπολογιστές μέσω του κατανεμημένου συστήματος επί - σημειώσεων (annotation) που διαθέτει. (Distributed Annotation System - DAS) (Dowell et al., 2001). 1.3 ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΠΡΩΤΕΪΝΙΚΗΣ ΑΛΛΗΛΟΥΧΙΑΣ Η SwissProt Οι μεγαλύτερες βάσεις πρωτεϊνικής αλληλουχίας είναι η SwissProt και η PIR, οι οποίες είναι manually curated βάσεις. Επιστημονικοίcurators συνεργάζονται με τους επιστήμονες που υποβάλλουν σε ατομικό επίπεδο είτε σε επίπεδο ερευνητικού ινστιτούτου τις αλληλουχίες με στόχο την ακριβή επί - σημείωση της βιοχημικής λειτουργίας της υπό εξέταση πρωτεΐνης. Σύνδεσμοι βιβλιογραφικών αναφορών επιστημονικών εργασιών σχετικών με την υπό εξέταση πρωτεΐνη αποθηκεύονται επίσης. Η SwissProt (Bairoch and Apweiler, 2000) είναι το αποτέλεσμα της συνεργασίας του Ελβετικού Ινστιτούτου Βιοιπληροφορικής και του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής (Swiss Institute of Bioinformatics and the European Bioinformatics 12

Institute). Απώτερος στόχος της βάσης είναι η διατήρηση ενός υψηλού επιπέδου επί - σημειώσεων (annotations) για κάθε πρωτεΐνη. Οι επί - σημειώσεις (annotations) συμπεριλαμβάνουν: λειτουργία, domain, δομή, και μετά-μεταφραστικές διαδικασίες διαμόρφωσης της πληροφορίας (post translational modification). Ένας ακόμα σημαντικός στόχος της βάσης αποτελεί ο περιορισμός στο ελάχιστο διαθεσιμότητας (redundancy) των αλληλουχιών καθώς και το υψηλό επίπεδο ενοποίησης (integration) με άλλες βάσεις δεδομένων. Η Swissprot ξεκίνησε το1986 από τον Amos Bairoch στο τμήμα Ιατρικής Βιοχημείας στο Πανεπιστήμιο της Γενεύης ( Department of Medical Biochemistry, University of Geneva). Αποτελεί σήμερα μια από τις καλύτερες βάσεις δεδομένων στην πρωτεϊνική αλληλούχιση όσον αφορά στην ποιότητα και στο μέγεθος των επί - σημειώσεων (annotations). Η τωρινή δε μορφή της βάσης η μορφή 40 (SwissProt release 40) εμπεριέχει 101,602 curated πρωτεϊνικές αλληλουχίες. Το σύστημα TrEMBL αποτελεί το υπολογιστικό βοηθητικό σύστημα της Swissprot, το οποίο προέκυψε από την Swissprot και το οποίο περιέχει τις μεταφράσεις (translations) των νουκλεοτιδικών αλληλουχιών που διαθέτει η βάση EMBL και οι οποίες δεν έχουν ενοποιηθεί (integration) ακόμα από το βασικό κομμάτι της Swissprot. Επί - σημειώσεις (annotations) που προκύπτουν με την χρήση του TrEMBL, προκύπτουν αυτόματα και σε γενικό βαθμό δεν παρουσιάζουν τον ίδιο βαθμό ποιότητας με την ποιότητα που διαθέτουν οι κατοχυρώσεις της SwissProt. Πρόσβαση και αναζήτηση στις δυο βάσεις λαμβάνει χώρα μέσω του συστήματος SRS (Etzold and Argos, 1993). 13

Η Πηγή Πρωτεϊνικής Πληροφορίας (The Protein Information Resource - PIR) Η Πηγή Πρωτεϊνικής Πληροφορίας (The Protein Information Resource - PIR) (McGarvey et al., 2000) αποτελεί τμήμα του ΝBRF (National Biomedical Research Foundation) των Ηνωμένων Πολιτειών. Σαν βάση αποτέλεσε το προϊόν συνεργασίας του NBRF με την βάση δεδομένων JIPID (Munich Information Center for Protein Sequences Database). Η βάση δεδομένων PIR-PSD (Protein Sequence database) όπως εμφανίζεται στην σημερινή της μορφή η PIR (release 71.03 Φεβρουάριος 2002) περιέχει 283,138 κατοχυρώσεις. Η PIR ήταν η πρώτη δημόσια βάση πρωτεϊνικών αλληλουχιών και ιδρύθηκε το 1984 από την Margaret Dayhoff. Η βάση PIR είναι κατανοητή, ακριβής, με συνεχείς επί -σημειώσεις (annotated) και καλά οργανωμένη. Πρέπει όμως να αναφέρουμε πως από πλευράς επί - σημειώσεων και curation, η βάση SwissProt αποτελεί την πρωτοπόρο βάση στο είδος της. The Non-Redundant Database (NRDB) Πρέπει στο σημείο αυτό να ομολογήσουμε πως υπάρχει μεγάλος βαθμός διαθεσιμότητας (redundancy) στις βάσεις δεδομένων αλληλούχισης, όπως είναι η Swissprot και η PIR, (Holm and sander, 1998). Είναι δε γνωστό, πως κάθε φορά που αναζητούμε αλληλουχίες σε μια βάση με τεράστιο αριθμό αλληλουχιών το επιθυμητό είναι να αποκλείονται με κάποιο τρόπο οι συγγενείς αλληλουχίες προς την αλληλουχία που μας ενδιαφέρει και οι οποίες προσφέρουν μηδαμινή περαιτέρω βιολογική πληροφορία και το μόνο που προσφέρουν ουσιαστικά είναι να κάνουν μεγαλύτερο το χώρο αναζήτησης. Η βάση NRDB διαθέτει πρωτεϊνικές αλληλουχίες από τις βάσεις SwissProt, SwissNew, TrEMBL, 14

Tremblnew, GenBank, PIR, Wormpep και PDB.Η διαθεσιμότητα πολύ γειτονικών αλληλουχιών (near neighborhood redundancy) έχει αναιρεθεί από την βάση, με την ανίχνευση πολύ συγγενικών αλληλουχιών με βασικό κριτήριο την υψηλή ομοιότητα αμινοξικής σύνθεσης και subsequent sequence alignment. Στη συνέχεια η βάση NRDB90 παίρνει δυο αλληλουχίες και τις συνενώνει σε μία αντιπροσωπευτική αλληλουχία, στην περίπτωση που παρουσιάζουν άνω του 90% στα προαναφερόμενα χαρακτηριστικά. Η διαδικασία αυτή είναι ιδιαίτερα επιτυχής και αποδεικνύει πως μεγάλης κλίμακας υπολογιστική ανάλυση είναι ικανή να πραγματοποιείται όχι σε μια βάση με ολοκληρωμένες αλληλουχίες μόνο, αλλά σε μια μικρότερη μη διαθέσιμη βάση (nonredundant database), που αποκλείει μη σημαντική πληροφορία. 1.4 ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΟΙΚΟΓΕΝΕΙΩΝ ΚΑΙ ΠΡΩΤΕΪΝΙΚΩΝ DOMAINS Pfam & Interpro Μεγάλος αριθμός μεθοδολογιών έχει αναπτυχθεί με στόχο την κατάταξη πρωτεϊνικών domains και μοτίβων (motifs). Υπάρχουν πολλές βάσεις με τον ίδιο στόχο, και η ανάλυση κάθε μιας από αυτές ξεφεύγει από τα όρια της συγκεκριμένης εργασίας. Επιλεκτικά περιγράφονται παρακάτω δυο από αυτές τις βάσεις για συγκεκριμένους λόγους όπως θα γίνει κατανοητό: βάση Pfam και η βάση Interpro. Η Βάση Pfam αποτελεί την βάση ποικίλης ευθυγράμμισης πρωτεϊνικών domains (multiple alignments of protein domains) με την χρήση profiles που κατασκευάζονται βάση hidden Markov μοντέλων (Bateman et al., 2000). Η βάση είναι πολύ κατανοητή, πολύ καλά curated, πολύ χρήσιμη στον καθορισμό παρουσίας μοτίβων (motifs) και 15

domains σε πρωτεϊνικές αλληλουχίες. Οι οικογένειες domains κατασκευάζονται με το χτίσιμο μιας ευθυγράμμισης (seed alignment) συγγενών αλληλουχιών οι οποίες λαμβάνονται από βάσεις όπως η SwissProt, η Prosite και η ProDom. Ιδιαίτερη προσοχή δείχνει επίσης η βάση στο να ελέγχει για λάθη τόσο στις αλληλουχίες αυτές κάθε αυτές καθώς και στην ευθυγράμμιση (seed alignment). Ένα προφίλ HMM κατασκευάζεται από μια ολοκληρωμένη ευθυγράμμιση (seed alignment) με την χρήση του πακέτου HAMMER (Eddy, 1998). Το προφίλ στη συνέχεια χρησιμοποιείται για αναζήτηση περισσότερων μελών της οικογένειας στην βάση SwissProt και με τον τρόπο αυτό παράγεται μια ποικίλη ευθυγράμμιση αλληλουχιών (multiple sequence alignment) ολόκληρης της οικογένειας της πρωτεΐνης. Και σε αυτό το επίπεδο οι αλληλουχίες και οι ευθυγραμμίσεις (alignments) ελέγχονται με τρόπο λεπτομερή για την ανίχνευση λαθών και ασυνεπειών. Οι τελικές ευθυγραμμίσεις (alignments) αποθηκεύονται και επί - σημειώνονται από την βάση Pfam με υψηλή ποιότητα ευθυγράμμισης (high quality alignments) Η μέθοδος είναι «καθαρή» και ακριβής για την κατάταξη πρωτεϊνών σε οικογένειες αλλά είναι πολύ έντονη από πλευράς εργασίας και κουραστική. Για τον εμπλουτισμό της βάσης και την κάλυψη αλληλουχιών που είναι διαθέσιμες στην βάση SwissProt αλλά δεν είναι ακόμα τμήμα της βάσης Pfam, ένα δεύτερο πρωτόκολλο χρησιμοποιείται. Σε αυτή την περίπτωση εφαρμόζεται ο αλγόριθμος Domainer (Sonnhammer and Kahn, 1994) στα δεδομένα της SwissProt BLAST με αποτέλεσμα να ανιχνεύονται αυτόματα τα συντηρημένα μοτίβα και domains μέσα σε μια πρωτεϊνική αλληλουχία. Τα προφίλ κατασκευάζονται και εδώ με την αυτόματα παραγωγή ευθυγραμμίσεων 16

(alignments) και χρησιμοποιούνται για την ανίχνευση και άλλων μελών της οικογένειας τα οποία χτίζονται σε μια τελική ευθυγράμμιση (alignment). Τα αποτελέσματα αποθηκεύονται σε υποδιαίρεση της Pfam. Σήμερα η βάση Pfam αποτελείται από 3,360 πρωτεϊνικές οικογένειες και domains, και εξακολουθεί να αναπτύσσεται με γοργούς ρυθμούς. Πολλές ακόμα βάσεις οικογενειών πρωτεϊνών και domains υπάρχουν, προσφέροντας κατάταξη ολόκληρου μεγέθους πρωτεϊνών, μοτίβων (motifs) και domains. Μια σχετικά νέα προσπάθεια αποτελεί η βάση InerPro (Apweiler et al., 2001) η οποία συνδέει τις βασικές βάσεις οικογενειών πρωτεϊνών σε μια μοναδική πηγή η οποία είναι συνδεδεμένη με τις βάσεις SwissProt και TrEMBL. Αυτή η βάση εμπεριέχει οικογένειες πρωτεϊνών από τις Pfam, Prosite, ProDom, SMART και TIGR-Fams πηγές. 17

ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ Background Information ΕΙΣΑΓΩΓΗ Η πρωτοφανής διαθεσιμότητα πηγών βιολογικών δεδομένων, που συζητήθηκαν στο προηγούμενο κεφάλαιο, ανοίγει νέες ευκαιρίες στον τομέα της υπολογιστικής βιολογίας (computational biology). Ταυτόχρονα, αυτή η καταιγίδα δεδομένων αποτελεί πρόκληση στις μέχρι τώρα μεθόδους πρόσβασης, αναπαραγωγής και χρήσης των βιολογικών δεδομένων. Η δυνατότητα σύνδεσης των δεδομένων γενομικών αλληλουχιών με άλλες πληροφορίες όπως για παράδειγμα λειτουργικές κλάσεις, κυτταρικό δομικό προσδιορισμό, χρωμοσωμική θέση, και προφίλ έκφρασης αποτελεί από μόνη της μια διαδικασία απόκτησης καινούριας γνώσης. Μολαταύτα ο συνδυασμός των προαναφερόμενων πηγών ανάλυσης και παρουσίασης βιολογικών δεδομένων σε επίπεδο γενομικής ανάλυσης, αλλά και άλλων πηγών που δεν προαναφέρθηκαν, μπορεί να επιφέρει σύγχυση και λόγω της ποικιλομορφίας στην χρήση συντακτικών και semantic παραδοχών που εμφανίζονται με τις διαφορετικής προέλευσης καταθέσεις δεδομένων. Το αποτέλεσμα είναι λειτουργίες και εκτελέσεις που θεωρητικά πρέπει να λαμβάνουν χώρα με απλό τρόπο, απαιτούν αφιέρωση πολύτιμου χρόνου (Stein, 2002). Όπως συζητήθηκε στην εισαγωγή είναι διαθέσιμες πηγές που επιτρέπουν την πρόσβαση σε πληροφορίες γενομικής αλληλουχίας (Bernal et al., 2001). Προφανή είναι μολαταύτα η έλλειψη ενός και μόνο σημείου αναφοράς το οποίο να επιτρέπει ελαστική και άμεση πρόσβαση σε πληροφορίες ολοκληρωμένων γονιδιωμάτων σε format ομοιογενή. Οι περισσότερες από τις πηγές δεν είναι σχεδιασμένες για ανάλυση σε κλίμακα 18

γονιδιώματος (genome scale analysis), σαν να σχεδιάστηκαν γενικά για «ένα γονίδιο την φορά» (mode of browsing), με αποτέλεσμα τα ωμά δεδομένα να μην είναι καν διαθέσιμα. Η πληροφορία αυτή είναι απαραίτητη για την υπολογιστική ανάλυση μεγάλης κλίμακας γονοδιωμάτων και οφείλεται και να είναι βολικής πρόσβασης αλλά και να μπορεί να κατανεμηθεί για περαιτέρω έρευνα στον τομές της βιοπληροφορικής. Η τελευταία παρατήρηση είναι ιδιαίτερα σημαντική στις περιπτώσεις που η ανάλυση πραγματοποιείται σε ευρεία κλίμακα γονιδιωμάτων τα οποία πρέπει να είναι διαθέσιμα σε ομοιογενές και βολικής πρόσβασης format. Εν συνεχεία είναι γνωστό πως οι βάσεις βιολογικών δεδομένων εμφανίζουν τεράστια ανομοιογένεια επομένως είναι πρακτικά αδύνατον να μπορέσουμε να συνδέσουμε τα περιεχόμενά τους με αυτόματο τρόπο. Ο πρωταρχικός λόγος είναι το γεγονός πως οι ονομαστικές παραδοχές των γονιδίων δεν είναι ικανοποιητικές με αποτέλεσμα να διαφέρουν από μια πηγή στην άλλη και τα ίδια γονίδια να εμφανίζονται με διαφορετικό όνομα. Για παράδειγμα, η βάση COGs (Tatusov et al., 1997) χρησιμοποιεί ονόματα γονιδίων όπως αυτά εμφανίζονται στην EMBL (Stoesser et al., 2003) ή στην GenBank (Benson et al., 2003). Για παράδειγμα τα γονίδια AF1241 και BS gsab, εμφανίζονται στην COG0001 ομάδα (cluster). Σε αυτό το παράδειγμα το γονίδιο gsab έπρεπε να γίνει prefixed με τον όρο "BS" έτσι ώστε να αναδεικνύει το μοναδικά υπάρχον γονίδιο Bacillus subtilis gsab, μιας και το γονίδιο gsab από μόνο του δεν είναι μοναδικό. Για να χαρτογραφηθεί αυτή η COG ομάδα (cluster) στην βάση InterPro (Apweiler et al., 2000; Mulder et al., 2003), είναι απαραίτητη μια επιπλέον πληροφορία όπως ο SwissProt αριθμός πρόσβασης (identifier or accession number). Επομένως το να προσπαθήσει κάποιος να συνδέσει δυο διαφορετικές βάσεις με στόχο την επί - σημείωση (annotation) 19

πρωτεϊνικών αλληλουχιών αποτελεί ένα πολύ πολύπλοκο έργο. Τέλος ακόμα και στην περίπτωση που τα δεδομένα, τα ονόματα και οι χαρτογραφήσεις είναι διαθέσιμα, το file parsing και το format conversion αποτελούν διαδικασίες πολύπλοκες για τον βίο - πληροφορικάριο. Στην πράξη κάθε χρήστης μόνος του πρέπει να σχεδιάσει το δικό του parser ώστε να είναι σε θέση να χρησιμοποιήσει την πληροφορία αποτελεσματικά. Οι δυσκολίες αυτές φέρνουν στην επιφάνεια κατά την γνώμη πολλών, πληθώρα αποριών και ερωτηματικών για την ακρίβεια και αναπαραγωγή δεδομένων στον τομέα της υπολογιστικής βιολογίας γενικότερα. Η Ομάδα Υπολογιστικής Γενωμικής CGG στην προσπάθειά της να δώσει λύση στα ερωτηματικά αυτά προχώρησε στην κατασκευή ενός καινούριου περιβάλλοντος δεδομένων για την ακριβής αποθήκευση, αναζήτηση και ανάλυση αλληλουχιών ολοκληρωμένων γονιδιωμάτων, την βάση δεδομένων COGENT (COmplete GENome Tracking) (Janssen et al., 2003b). 2.1 ΕΦΑΡΜΟΓΗ Κάποια από τα υπάρχοντα έργα προσφέρουν ήδη τα λειτουργικά πλαίσια για την κοινή χρήση των υπό ανάπτυξη λειτουργικών (software). Για παράδειγμα, το έργο Ensembl (ensembl.org) παρέχει πλήρη πρόσβαση κατανέμοντας το λειτουργικό (Perl modules) με στόχο την αναζήτηση στην πολύπλοκη βάση δεδομένων MySQL είτε σε κάποια τοπική installation είτε σε κάποιο δικό τους server (Hubbard et al., 2002). Ο στόχος τους ήταν να παρέχουν ένα απλό και πρακτικό εργαλείο το οποίο θα αποτελούσε την βάση για την ανάπτυξη υπολογιστικών εργαλείων γονιδιακής ανάλυσης, να διευκολύνουν την sharing των δεδομένων και των αποτελεσμάτων που σχετίζονται με δημόσια διαθέσιμες 20

αλληλουχίες ολοκληρωμένων γονιδιωμάτων, και ίσως να επιτύχουν την συνεργασία μεταξύ έργων διαφορετικών ερευνητικών ομάδων προσφέροντας έτσι επιπλέον πρόοδο στον τομέα της γονιδιακής υπολογιστικής. Ένας ιδιαίτερο πλεονέκτημα της COGENT είναι η κινητικότητά της ( ολόκληρη η βάση είναι δυνατόν να γίνει download μέσω συγκεκριμένης ιστοσελίδας και να γίνει reinstall οπουδήποτε). Η COGENT είναι μια ρεαλιστική λύση γιατί είναι απλή, ιδιαίτερα ελαστική και με μικρή χωρητικότητα. Η εργασία με την βάση δεδομένων COGENT περιλαμβάνει την χρήση: 1. του κέντρου άξονα της COGENT που είναι οι αλληλουχίες των ολοκληρωμένων γονιδιωμάτων, ο οποίος άξονας καθορίζει κοινές ονομαστικές παραδοχές γονιδιωμάτων και πρωτεϊνών (ταυτοποιητές) 2. SQL πίνακες σαν την βάση για την ανταλλαγή format, καθώς και σαν ένα πιθανό περιβάλλον εργασίας Αυτές οι λίγες και απλές οδηγίες επιτρέπουν την εύκολη ανταλλαγή αποτελεσμάτων που αφορούν στις αλληλουχίες ολοκληρωμένων γονιδιωμάτων, οι οποίες είναι απαραίτητες για high-throughput υπολογισμούς. Ο δε σύνδεσμος των πινάκων επιτρέπει τον σύνδεσμο των αποτελεσμάτων διαφορετικής προέλευσης, οι διαθέσιμοι μηχανισμοί indexing των MySQL βάσεων που είναι ενσωματωμένες στο σύστημα επιφέρουν αποτελεσματικές αναζητήσεις και ανακαλύψεις δεδομένων. 21

ΣΧΕΔΙΑΣΜΟΣ Η βάση (core) της βάσης δεδομένων COGENT αποτελείται από δυο πίνακες. Ο πίνακας γονιδιώματα (genomes) περιέχει πληροφορίες σχετικές με τα γονιδιώματα (Πίνακας 2.1) Σημαντικό μέρος του σχεδιασμού της βάσης δόθηκε στην απόφαση να υπάρχει δυνατότητα χρονικής καταγραφής των αλληλουχιών των γονιδιωμάτων ώστε να είναι δυνατή η καταγραφή του πότε χρονικά δημοσιεύτηκε μια αλληλουχία στην επιστημονική βιβλιογραφία (rel order). Παράλληλα με την ταυτότητα του γονιδιώματος genome id, παράγεται ένας δεύτερος κώδικας, ο μνημονικός κώδικας του είδους του οργανισμού. Αυτός ο κωδικός χρησιμοποιείται σαν prefix στην κατασκευή μοναδικών πρωτεϊνικών ταυτοτήτων (unique protein identifiers). Αυτή η μνημονική καταγραφή γίνεται με βάση το γένος, το είδος και το strain του οργανισμού καθώς και σε έναν version αριθμό του γονιδιώματος ώστε να είναι δυνατή η ανανέωση των πληροφοριών. Παραδείγματος χάριν ο κωδικός HINF-KW2-01 αντιστοιχεί στον οργανισμό Haemophilus influenzae strain KW2, μορφή (version) 01. Ο πίνακας πρωτεΐνες (proteins) περιέχει τα δεδομένα των αμινοξικών αλληλουχιών. Οι μοναδικές πρωτεϊνικές ταυτότητες (unique protein ids) κατασκευάζονται από τον κωδικό του είδους ακολουθούμενο από μια παύλα και έναν αριθμό. Η χρήση μνημονικών ταυτοτήτων συμβάλλει στον καθαρό διαχωρισμό γονιδιωμάτων και πρωτεϊνών από ένα δεδομένο γονιδίωμα με τρόπο απλό και ασφαλή. Καθώς νέα γονιδιώματα γίνονται διαθέσιμα, προστίθενται στους πίνακες γονιδιώματα και πρωτεΐνες από τους curators της βάσης αμέσως μετά την δημοσίευσή τους. Όπου είναι δυνατόν, το download των αλληλουχιών πραγματοποιείται απευθείας από την ιστοσελίδα του εργαστηρίου που 22

ολοκλήρωσε το γονιδίωμα, σε διαφορετική περίπτωση η πηγή των αλληλουχιών είναι η GenBank. Από τη στιγμή που ένα γωνιδίωμα γίνεται δεχτό στην βάση οι πρωτεΐνες από το αρχείο της FASTA γίνονται download. Η COGENT παράγει ένα μοναδικό ονομαστικό σχήμα για όλες τις πρωτεΐνες. Το στοιχείο - κλειδί της βάσης είναι το ότι είναι σχεδιασμένη ώστε να ενώνει τις ταυτότητες των πρωτεϊνών (protein identifiers) κατά μήκος όλων των γονιδιωμάτων με τρόπο ουσιώδη. Η ακολουθία της μοναδική πρωτεϊνικής ταυτότητας ( unique protein identifier string) παράγεται αυτόματα για κάθε πρωτεΐνη. Η ταυτότητα (identifier) αυτή έχει την μορφή: 4(γράμμα)-3(γράμμα/αριθμός)-2(αριθμοί)-6(αριθμοί) Για παράδειγμα: Ο οργανισμός Haemophilus Influenzae, Strain KW2, Μορφή (Version) 01, Πεπτίδιο (Peptide) 342 είναι encoded σαν: HINF-KW2-01-000342 -> Peptide No. -> Version -> Strain -> Species Το πρώτο τμήμα της ταυτότητας (4 γράμματα) παράγεται αυτόματα από το όνομα του είδους (species) του γονιδιώματος όπως αυτό έχει εισαχθεί. Το πρώτο γράμμα του Γένους (Genus) και τα τρία γράμματα του Είδους (Species) λαμβάνονται για κάθε γονιδίωμα. Η διαδικασία αυτή ταυτοποιεί τις πρωτεΐνες για ένα δεδομένο γονιδίωμα με ουσιαστικό τρόπο για τον χρήστη. Για παράδειγμα, ο οργανισμός Haemophilus influenzae έχει κωδικό είδους τον HINF. Το δεύτερο τμήμα του ταυτοποιητή περιγράφει το strain. Η default αξία είναι 'XXX' (που σημαίνει πως δεν έχει δοθεί strain). 23

Ανάλογες τιμές εμφανίζονται σε γονιδιώματα όπως του Homo sapiens, όπου η προσθήκη ταυτοποιητών δεν έχει καμία ουσία. Όλα τα γονιδιώματα βακτηρίων και archaeal προέρχονται από αλληλουχίες καταγεγραμμένων strains κάποιου οργανισμού του είδους. Στις περιπτώσεις αυτές ο curator πρέπει να σημειώσει τον συνδυασμό 3 γραμμάτων / αριθμών για να αναπαρασταθεί κάθε strain του είδους με μοναδικό τρόπο. Για παράδειγμα ο οργανισμός Haemophilus influenzae strain KW2 έχει κωδικό είδους 'HINF-KW2. Το τρίτο τμήμα του ταυτοποιητή, ταυτοποιεί την μορφή (version) του γονιδιώματος, στοιχείο σημαντικό για γονιδιώματα που έχουν ανακατασκευαστεί και επισημανθεί (annotated) επανειλημμένα, όπως έχει συμβεί με το Ensembl Human. Το τελευταίο τμήμα του κώδικα (6 αριθμοί) χρησιμεύει για να ταυτοποιεί κάθε ξεχωριστή πρωτεΐνη κάθε γονιδιώματος. Τέλος, είναι σημαντικό να αναφέρουμε πως κάθε άλλη πληροφορία όπως η αρχική επισημείωση (annotation) και ο ταυτοποιητής από το έργο ταυτοποιητών γνιδιώματος επίσης αποθηκεύονται. ΠΡΟΣΘΗΚΗ ΔΕΔΟΜΕΝΩΝ Οι πρωτεϊνικές αλληλουχίες προστίθενται στην βάση από εάν αρχείο FASTA που ακολουθείται από ένα αρχείο Perl script. To script έχει σχεδιαστεί με τέτοιο τρόπο ώστε να κόβει από τις αλληλουχίες τους μη αμινοξικούς χαρακτήρες, αλλά και χαρακτήρες της μορφής *' και \. Ο κωδικός του ταυτοποιητή της πρωτεΐνης παράγεται τότε με τρόπο αυτόματο και ο αριθμός '-000001' εναποτίθεται στην πρώτη πρωτεΐνη που επεξεργάζεται μέχρι την τελική πρωτεΐνη. Το ανώτερο όριο είναι 999999 πρωτεΐνες, αριθμός ιδιαίτερα μεγαλύτερος από τον ορισμό πρωτεϊνών που είναι αναμενόμενο να περιέχει το οποιοδήποτε γονιδίωμα. Για παράδειγμα: 'DMEL-XXX-01-000302' είναι η 302στη 24

πρωτεΐνη στο FASTA αρχείο του γονιδιώματος της Drosophila melanogaster. Το XXX συμβολίζει πως η συγκεκριμένη αλληλουχία δεν αναφέρεται σε strain. Άλλα παραδείγματα: 'ECOL-MG1-01-000107' 'ECOL-EDL-01-000107' 'ECOL-RIM-01-000107' Οι παραπάνω ταυτοποιητές είναι οι 107στες πρωτεΐνες από τρία διαφορετικά strains του οργανισμού Escherichia coli. Τα strains που αντιπροσωπεύονται είναι τα EDL933, RIMD0509952 και MG1. Οι αρχικοί ταυτοποιητές για κάθε πρωτεΐνη αποθηκεύονται επίσης στην βάση διασφαλίζοντας το γεγονός πως οι καινούριοι ταυτοποιητές μπορούν να χαρτογραφηθούν στους αρχικούς ταυτοποιητές με τρόπο αυτόματο. Ο νέος αυτός τρόπος αναγνώρισης διασφαλίζει την ύπαρξη ενός και μόνο ταυτοποιητή για κάθε μια πρωτεΐνη που υπάρχει στην βάση COGENT και επιπρόσθετα δίνει στον χρήστη καθαρή πληροφορία σχετικά με το γονιδίωμα και το strain από το οποίο προέρχεται η υπό εξέταση πρωτεΐνη. Στην περίπτωση που το αρχείο FASTA περιέχει επί - σημειώσεις (annotations) για τις υπάρχουσες πρωτεΐνες, αποθηκεύονται και αυτές στην βάση. ΕΝΗΜΕΡΩΣΕΙΣ (UPDATES) Κάθε φορά που ένα γονιδίωμα ολοκληρώνεται και γίνεται διαθέσιμο στο ευρύ κοινό, παραλαμβάνεται μέσω ftp (file transfet protocol) από το κέντρο που ολοκλήρωσε την αλληλούχιση και προστίθεται στην βάση από τον curator. Γονιδιώματα που δεν είναι ολοκληρωμένα αλλά υπάρχει ένα προσχέδιο (draft) του υπό ολοκλήρωση γονιδιώματος όπως το ολοκληρωμένο πια Ensembl ανθρώπινο γονιδίωμα (human genome) και το 25

ολοκληρωμένο γονιδίωμα της of D. melanogaster, ενημερώνονται στην βάση κάθε φορά που υπάρχει δημόσια ανανέωση των γονιδιακών προβλέψεων των γονιδιωμάτων αυτών. Εικόνα 2: Η δομή του γονιδικού πίνακα της Cogent 26

ΚΕΦΑΛΑΙΟ 3 Ερευνητικό Ερώτημα 3.1 ΕΝΣΩΜΑΤΩΣΗ ΒΙΒΛΙΟΓΡΑΦΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΗΝ ΒΙΟΛΟΓΙΚΗ ΒΑΣΗ COGENT Οι βιολογικές βάσεις δεδομένων προσφέρουν πρόσβαση σε επίσημα γεγονότα που αφορούν σε διάφορα τμήματα της βιολογίας, όπως είναι τα γονιδιακά προϊόντα, οι πρωτεϊνικές δομές, τα μεταβολικά μονοπάτια, ασθένειες και άλλα πολλά. Εκ του αποτελέσματος οι βάσεις αυτές παρουσιάζουν αυξημένο ενδιαφέρον στους ερευνητές. Οι πληροφορίες που εμπεριέχονται στις βιολογικές βάσεις παράγονται από ερευνητικές ομάδες που δημοσιεύουν τα αποτελέσματά τους σε επιστημονικά περιοδικά. Ένα μέρος αυτής της διαδικασίας δημοσίευσης αποτελεί η προσθήκη δεδομένων σε βιολογικές βάσεις, αν και η συνήθη πορεία των δεδομένων έχει σαν εφαλτήρια αρχή την δημοσίευση και επομένως την καταγραφή της στην επίσημη βιβλιογραφία. Από αυτήν την βιβλιογραφία στη συνέχεια οι curators λαμβάνουν τα δεδομένα και τα εναποθέτουν στις υπό ενδιαφέρον βάσεις δεδομένων. Η ερευνητική βιβλιογραφία και οι επιστημονικές βάσεις δεδομένων επιτελούν δυο εντελώς διαφορετικούς ρόλους. Η βιβλιογραφία παρέχει ιδέες και νέες υποθέσεις. Ο πρωταρχικός σκοπός των επιστημονικών άρθρων είναι η αναφορά νέων αποτελεσμάτων, συνήθως προϊόντα πειραματικών πρωτοκόλλων, και η σύνδεση των νέων αυτών πληροφοριών με την υπάρχουσα γνώση στον υποκείμενο επιστημονικό 27

τομέα. Τα επιστημονικά άρθρα εκ τούτου αποτελούν τον σημαντικότερο τρόπο επικοινωνίας μεταξύ των ερευνητών. Στην σημερινή δίνη του γενομικού και μετά - γενομικού θριάμβου η δημοσίευση των ολοκληρωμένων γονιδιωμάτων των οργανισμών κάθε είδους αποτελεί ένα επιστημονικό γεγονός. Ολόκληρη η επιστημονική κοινότητα αναμένει με αγωνία να διαβάσει τις λεπτομέρειες των ολοκληρωμένων εργασιών και τα νέα απλώνονται με την ταχύτητα του φωτός χάρη στην αμεσότητα του παγκόσμιου ιστού. Ταυτόχρονα δεν θα πρέπει να αγνοούμε το γεγονός πως αυτή η βιβλιογραφία αποτελεί την βασική πηγή έρευνας και ανάλυσης των δεδομένων για τους ερευνητές του μέλλοντος, το δε περιεχόμενο των «γραμμένων» πια πληροφοριών δεν μπορεί ποτέ να σβηστεί, αλλά μόνο να ταξινομηθεί με την προσθήκη των νέων δεδομένων που οι επερχόμενες ανακαλύψεις θα επιφέρουν. Η δημοσιευμένη βιβλιογραφία των 234 ολοκληρωμένων γονιδιωμάτων που περιλαμβάνει η COGENT δεν ήταν διαθέσιμη στην βάση. Το πρώτο μέρος της μεταπτυχιακής εργασίας αποτελεί η προσθήκη της πληροφορίας αυτής στην βάση δεδομένων με τρόπο που να διευκολύνει τον ερευνητή που ενδιαφέρεται να μελετήσει με λεπτομέρεια την εργασία της ολοκλήρωσης ενός δεδομένου γονιδιώματος. Έτσι η COGENT θα είναι σε θέση να προσφέρει αυτή την επιπλέον υπηρεσία στον χρήστη της: την αυτόματη ανάκληση του δημοσιευμένου επιστημονικού άρθρου από την αντίστοιχη ερευνητική ομάδα που έφερε εις πέρας την δύσκολη εργασία της ολοκλήρωσης της αλληλούχισης του υπό ενδιαφέροντος γονιδιώματος. Και όλα αυτά με ένα απλό κλικ. 28

3.2 ΕΝΣΩΜΑΤΩΣΗ ΠΛΗΡΟΦΟΡΙΑΣ DNA ΑΛΛΗΛΟΥΧΙΑΣ ΣΤΗΝ ΒΑΣΗ COGENT Έχει ήδη αναφερθεί το γεγονός πως η βάση δεδομένων COGENT περιλαμβάνει 234 ολοκληρωμένα γονιδιώματα. Η πληροφορία αυτή είναι πολύ σημαντική για την συγκριτική γενωμική αλλά παρουσιάζει τον εξής περιορισμό: δεν περιλαμβάνει την DNA αλληλουχία τους. Υπάρχουν πηγές που παρέχουν την συγκεκριμένη πληροφορία, όπως για παράδειγμα η βάση δεδομένων GENBANK η οποία περιλαμβάνει πλήρη DNA αλληλουχία για όλα τα είδη με ολοκληρωμένα γονιδιώματα. Το πρόβλημα όμως με τα αρχεία αυτά της GENBANK είναι πως περιέχουν πολλές πληροφορίες οι οποίες τις περισσότερες φορές είναι μη επιθυμητές. Κάθε φορά που ένας ερευνητής χρειάζεται μια συγκεκριμένη πληροφορία, πρέπει να ψάξει μέσα σε ένα χαοτικό όγκο δεδομένων. Το αποτέλεσμα είναι τις περισσότερες φορές να χάνεται πολύτιμος χρόνος σε προσπάθειες εξ όρυξης της πληροφορίας που το μόνο που επιφέρουν είναι τον εκνευρισμό. Δεύτερος μέρος της μεταπτυχιακής εργασίας είναι η ενσωμάτωση της πολύ χρήσιμης πληροφορίας DNA αλληλουχιών στην βάση COGENT για την διευκόλυνση της διαδικασίας εξ όρυξης των δεδομένων από μεγάλες ομάδες δεδομένων, όπως είναι τα δεδομένα DNA αλληλουχιών. 29

ΚΕΦΑΛΑΙΟ 4 Μεθοδολογία 4.1 Η ενσωμάτωση της βιβλιογραφικής πληροφορίας στην βάση βιολογικών δεδομένων COGENT. Τα δεδομένα της βιβλιογραφικής ύλης των 234 ολοκληρωμένων γονιδιωμάτων που περιλαμβάνονται στην COGENT αναφέρονται στις δημοσιευμένες εργασίες που βγήκαν στην επιφάνεια σαν το αποτέλεσμα της ολοκλήρωσης της αλληλούχισης των γονιδιωμάτων τους. Στην συγκεκριμένη εργασία ο στόχος είναι η προσθήκη αυτών των δημοσιεύσεων στην COGENT και πηγή των άρθρων αποτέλεσε η γνωστή ιστοσελίδα Pubmed. Η Pubmed αποτελεί την online υπηρεσία στης Αμερικάνικης Εθνικής Βιβλιοθήκης της Ιατρικής (U.S. National Library of Medicine), η οποία περιλαμβάνει αυτή την στιγμή περισσότερες από 16 εκατομμύρια άρθρα δημοσιευμένα είτε από πάνω από 5000 εφημερίδες των επιστημών ζωής σε 70 χώρες του κόσμου. Είναι μια δημόσια βάση δεδομένων που σχεδιάστηκε από το Εθνικό Κέντρο Βιοτεχνολογικής Πληροφορίας (National Center for Biotechnology Information -NCBI) από την Αμερικάνικη Εθνική Βιβλιοθήκη της Ιατρικής (US National Library of Medicine) και αποτελεί τμήμα του συστήματος Entrez της NCBI. Χωρίς υπερβολή αποτελεί την πιο ολοκληρωμένη βάση δεδομένων δημοσιευμένων επιστημονικών εργασιών. Επίσης η Pubmed προσφέρει 30

συνδέσμους σε διαφορετικές ιστοσελίδες με πλήρη πρόσβαση σε ολόκληρα άρθρα καθώς και σχετικές πηγές. Η ενσωμάτωση των άρθρων από την Pubmed στην COGENT έγινε με βάση τον PMID. O PMID είναι ο μοναδικός για κάθε δημοσιευμένη εργασία κωδικός με τον οποίο η εργασία αποθηκεύεται στα αρχεία της Pubmed. Έτσι για κάθε ένα από τα άρθρα που περιλαμβάνονται στην Pubmed υπάρχει και ένας ξεχωριστός αριθμός PMID. Ομοίως για κάθε ένα από τα δημοσιευμένα άρθρα των 234 ολοκληρωμένων γονιδιωμάτων που μας ενδιαφέρουν υπάρχει ένας μοναδικός PMID. Οι 234 αυτοί PMID επιλέχθηκαν ένας - ένας από την Pubmed. Στη συνέχεια κατασκευάστηκε το αντίστοιχο αρχείο που περιλαμβάνει έναν πίνακα MySQL, στον οποίο κάθε ένα από τα 234 είδη της COGENT συνδέεται με το αντίστοιχο PMID του σχετικού άρθρου. Το αρχείο αυτό αυτόματα εμφανίζει μια καινούρια στήλη στην βάση COGENT η ονομασία της οποίας είναι PubMed UID. Στην στήλη αυτή εμφανίζονται οι PMID αριθμοί οι οποίοι με ένα απλό κλικ μας μεταφέρουν άμεσα στο αντίστοιχο άρθρο όπως αυτό εμφανίζεται στην Pubmed (Παράρτημα B). 4.2 Προσθήκη της πληροφορίας DNA αλληλουχίας στην βάση δεδομένων COGENT. Η βάση GenBank αποτελεί μια δημόσια βάση δεδομένων που εμπεριέχει τις DNA αλληλουχίες για περισσότερα από 165.000 είδη οργανισμών, όπως αυτές κατοχυρώνονται στην βάση είτε από ανά τον κόσμο ανεξάρτητες ερευνητικές ομάδες είτε από την συνεργασία ινστιτούτων μεγάλης κλίμακας ανάλυσης αλληλούχισης 31

ολοκληρωμένων γονιδιωμάτων. Και αυτή η βάση έχει σχεδιαστεί από την Αμερικάνικη Εθνική Βιβλιοθήκης της Ιατρικής (U.S. National Library of Medicine) και συγκεκριμένα από το Εθνικό Ινστιτούτο Υγείας. Τα αρχεία που περιέχει η GenBank εμπεριέχουν την πληροφορία της DNA αλληλουχίας του γονιδιώματος κάθε οργανισμού. Το πρόβλημα όμως που ανακύπτει για κάποιον που επιθυμεί την χρήση αυτών των αρχείων είναι πως εμπεριέχουν «πολύ» πληροφορία από άποψη τόσο μεγέθους όσο και ποιότητας με αποτέλεσμα να είναι υποχρεωμένος να ανακαλύψει μέσα σε όλα αυτά τα δεδομένα βιολογικής πληροφορίας την αλληλουχία που τον ενδιαφέρει. Ας σημειωθεί πως ο μέσος όρος κάθε αρχείου στην GenBank είναι 10.000 ΚΒ. Ένα μικρό δείγμα του μεγέθους των δεδομένων και της δυσκολίας εξ όρυξης της πληροφορίας με τρόπο μηχανικό ακολουθεί. Πρόκειται για το βακτήριο Acinobacter sp ADP1 και ένα λιγότερο από το 1/10 του αρχείου GenBank για την DNA αλληλουχία του οργανισμού είναι το εξής: LOCUS CR543861 3598621 bp DNA circular BCT 17-APR-2005 DEFINITION Acinetobacter sp. ADP1 complete genome. ACCESSION CR543861 VERSION CR543861.1 GI:49529273 KEYWORDS complete genome. SOURCE Acinetobacter sp. ADP1 ORGANISM Acinetobacter sp. ADP1 Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales; Moraxellaceae; Acinetobacter. REFERENCE 1 (bases 1 to 3598621) AUTHORS Barbe,V., Vallenet,D., Fonknechten,N., Kreimeyer,A., Oztas,S., Labarre,L., Cruveiller,S., Robert,C., Duprat,S., Wincker,P., Ornston,L.N., Weissenbach,J., Marliere,P., Cohen,G.N. and Medigue,C. TITLE Unique features revealed by the genome sequence of Acinetobacter sp. ADP1, a versatile and naturally transformation competent bacterium JOURNAL (er) Nucleic Acids Res. 32 (19), 5766-5779 (2004) PUBMED 15514110 REFERENCE 2 (bases 1 to 3598621) AUTHORS Barbe,V., Vallenet,D., Fonknechten,N., Kreimeyer,A., Oztas,S., Labarre,L., Cruveiller,S., Robert,C., Duprat,S., Wincker,P., Ornston,L.N., Weissenbach,J., Marliere,P., Cohen,G.N. and Medigue,C. TITLE Direct Submission JOURNAL Submitted (29-JUN-2004) Genoscope - Centre National de Sequencage : BP 191 91006 EVRY cedex - FRANCE (E-mail : seqref@genoscope.cns.fr - Web : www.genoscope.cns.fr) COMMENT Annotation data relative to COG assignations, enzymatic function prediction (PRIAM software), TMHMM and SignalP predictions, and synteny results (Syntonizer software) are available in 32

Acinetobacter database (http://www.genoscope.cns.fr/agc/mage/acinetopublic). See this web site (http://www.genoscope.cns.fr/externe/english/projets/projet_dy) for more information on the overall project. Each annotation includes a confidence level as follow: 1 : Function experimentally demonstrated in the studied organism 2a : Function of homologous gene experimentally demonstrated in an other organism 2b : Function of strongly homologous gene 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homolgy 4 : Homolgs of previously reported genes of unknown function 5 : No homology to any previously reported sequences 6 : Doubtful CDS 7 : Gene remnant Classification of gene products by their type and by their cellular role(s) was made with the MultiFun system (http://genprotec.mbl.edu/). FEATURES Location/Qualifiers source 1..3598621 /organism="acinetobacter sp. ADP1" /mol_type="genomic DNA" /strain="adp1" /db_xref="taxon:62977" gene 201..1598 /gene="dnaa" /locus_tag="aciad0001" CDS 201..1598 /gene="dnaa" /locus_tag="aciad0001" /function="dna replication (MultiFun:2.1.1)" /function="action unknown (MultiFun:3.1.2.5)" /function="nucleoproteins, basic proteins (MultiFun:2.3.7)" /function="regulon (MultiFun:3.3.2)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type f : factor" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna replication initiator protein, transcriptional regulator of replication and housekeeping genes" /protein_id="cag66986.1" /db_xref="goa:q6fg21" /db_xref="interpro:ipr001957" /db_xref="interpro:ipr003593" /db_xref="gi:49529274" /translation="mlwtdcltrlrqelsdnvfamwirplvaeettdslrlyapnpyw TRYIQEHHLELISILVEQLSEGRIRQVEILVDSRPGAILSPAEQPATTTAALSSTPVV PQRVKKEVVEPAATQSNKILNSKKRLLNPLFTFSLFVEGRSNQMAAETCRKVLTQLGA SQHNPLFLYGPTGLGKTHLMQAVGNALLQAKPNARVMYMTAESFVQDFVSSLQKGKVE EFKKNCRSLDLLLVDDIHLLAGKEASLVEFFYTFNALLDESKQIILTSDRYPKELTEL DPRLVSRFSWGLSVGVEPPDIETRIEILLKKAENSGVDLPRNCALFIAQQVVANVREL EGALNKVVAIARFKGSQIDLDVVRESLKDVLAIRARTISVENIQRVVSEYFRIPLKEL IGPKRTRIYARPRQLAMGLARELTGDSFPEIGMAFGGRDHSTVMHACEKVQSLKQEDP IFNEDYKNLLRLLQS" gene 1834..2982 /gene="dnan" /locus_tag="aciad0002" CDS 1834..2982 /gene="dnan" /locus_tag="aciad0002" /EC_number="2.7.7.7" /function="dna replication (MultiFun:2.1.1)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" 33

/codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna polymerase III, beta chain" /protein_id="cag66987.1" /db_xref="goa:q6fg20" /db_xref="interpro:ipr001001" /db_xref="gi:49529275" /translation="mrlkiakesllnvlshvvgaverrhtlnilsnvkiqanaqalti TGSDLEVELVASTTLAEGACIEAGETTVPARKLVDICKSLPSAALIDLQITEDQRCIL KSGNSRFVLGTLPAEDYPLLTTESSQGTQVQVTQRELKRLFEKTSFAMAVQDVRFYLT GTLLEIDQNQLRAVTTDGHRLALCEVQASSTAMQAVQAIVPRKAVGELQRLLSIEDDQ LSLLIGRELLNVTINIANRDKEQHPITVRFTTKLIDGKFPDYRRVIPRGGDKHVQIAH DVFKQSLQRVAILSNEKLRGVFLNFNPDVLQLRANNPEQDEAIEDIAIQYQDASLEMS FNAQYLLDVLSVLDGDDVSMSMTEANQSVLVQDAAHPDQTYVVMPMRV" gene 2998..4074 /gene="recf" /locus_tag="aciad0003" CDS 2998..4074 /gene="recf" /locus_tag="aciad0003" /function="dna recombination (MultiFun:2.1.3)" /function="dna repair (MultiFun:2.1.4)" /function="dna replication (MultiFun:2.1.1)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna replication, recombinaison and repair protein" /protein_id="cag66988.1" /db_xref="goa:q6fg19" /db_xref="interpro:ipr001238" /db_xref="interpro:ipr003395" /db_xref="interpro:ipr003439" /db_xref="gi:49529276" /translation="mqitrlniervrnlkavalsglqpfnifygangsgktsileavh LLATGRSFRTHMPKHYIQQNAQDAIIFAQSLSEKIGMQKLLSGEQLIKVNGDTVATQG QLAKLLPLQHLDPQSTDIIDHGAKPRRQLLDWLMFHVEPEFYFAWQYYSRALKQRNML LKTKRQLSLAELEPWNKMLSEYGEMLHSQRLVTVERWKDFFQQDLAQLLPDLQIELEY SPGFHSEVGLWQDLLNYHNKDVERRYTEYGPHRADLRLKTALGDADDVLSRGQKKLLM MALKLSQIAMLHASNKETVVLLDDLTAELDSNAQRRLIERLSQLGSQVFITTLDHQAV TQHLDGLSISYQLYNVDHGQVHAV" gene 4127..6595 /gene="gyrb" /locus_tag="aciad0004" CDS 4127..6595 /gene="gyrb" /locus_tag="aciad0004" /EC_number="5.99.1.3" /function="dna bending, supercoiling, inversion (MultiFun:3.1.1.1)" /function="dna replication (MultiFun:2.1.1)" /function="transcription related (MultiFun:2.2.2)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna gyrase, subunit B (type II topoisomerase)" /protein_id="cag66989.1" /db_xref="goa:q6fg18" /db_xref="interpro:ipr001241" /db_xref="interpro:ipr002288" /db_xref="interpro:ipr003594" 34

gene CDS /db_xref="interpro:ipr006171" /db_xref="interpro:ipr011557" /db_xref="interpro:ipr011558" /db_xref="gi:49529277" /translation="mssesqsaspteqtiekaydsssikvlrgldavrkrpgmyigdt DDGTGLHHMVFEVVDNAIDEALAGHCDEIIVTIHEDESVSVSDNGRGIPTDIHPEEGV SAAEVILTILHAGGKFDDNSYKVSGGLHGVGVSVVNALSSKLQLTIHRAGQIHEQEYQ HGDPQYPLKVVGETSTTGTTVRFWPSGDTFSQTIFNVDILARRLRELSFLNAGVKIVL RDERVNFEHIYAYEGGLSEFVKYINEGKNHLNDIFHFTADSDNGIAVEVALQWNDSYQ ENVRCFTNNIPQKDGGTHLAGFRAALTRGLNSYLENENILKKEKVNVSGDDAREGLTA IISVKVPDPKFSSQTKEKLVSSEVKPAVEQAMNKEFSAYLLENPQAAKSIAGKIIDAA RARDAARKAREMTRRKSALDIAGLPGKLADCQEKDPALSELYLVEGDSAGGSAKQGRN RKMQAILPLKGKILNVERARFDKMISSQEVGTLITALGCGIGREEYNPDKLRYHKIII MTDADVDGSHIRTLLLTFFFRQMPELVERGHIYIAQPPLYKLKKGKQEQYIKDNDALE TFLISNAIDDLALHISAEAPAITGEALAKVIDDYKISQKSLQRLTQRYPATLLDGLLE VEPFKADLSHDRPYVEQWAEQLGQVIAKLQPSLRPEVSLESFERESPTGETSIHCWPR ITVYVHNLPHHYLLDAGLLNSAEYARLLKNSKSWFKLLEEGAYLQKGERRIQVSNFHQ VWQQILQDSRRGMMIQRYKGLGEMNAEQLWETTMDPDNRHMLQVTIDDAIEADRMFSC LMGDDVEPRRAFIEENALNADIDA" complement(6712..6948) /locus_tag="aciad0005" complement(6712..6948) /locus_tag="aciad0005" /note="evidence 4 : Homolgs of previously reported genes of unknown function" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="conserved hypothetical protein" /protein_id="cag66990.1" /db_xref="gi:49529278" /translation="maninlqdiqhhaevigsdrqhvgtvdhldgqdkiklakndqaa QGQHHYIPTQWVQQIQGNQVVLNKTAEQVFQQWQ" gene 6969..7139 /locus_tag="aciad0006" CDS 6969..7139 /locus_tag="aciad0006" /note="evidence 5 : No homology to any previously reported sequences" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="hypothetical protein" /protein_id="cag66991.1" /db_xref="gi:49529279" /translation="miycwidcvnqsgelfwsfndllktvvivclvirlwlflgllcc ACVRLYGILIKT" gene CDS complement(7336..9270) /locus_tag="aciad0007" complement(7336..9270) /locus_tag="aciad0007" /function="abc superfamily ATP binding cytoplasmic component (MultiFun:4.3.A.1.a)" /note="evidence 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homolgy; Product type pt : putative transporter" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="putative transport protein (ABC superfamily, atp_bind)" /protein_id="cag66992.1" /db_xref="goa:q6fg15" /db_xref="interpro:ipr003439" /db_xref="interpro:ipr003593" /db_xref="gi:49529280" /translation="miqldqfsvrrggrvlfqkasmqlhpgwkigltgvngagkstlf SALLGGIESDSGSLSRPNVWTVAHMAQEIKALNMKAIDFVLSGDEEYWTIQHQLEHPE 35