Πανεπιστήμιο Πατρών Τμήμα Ιατρικής. Διατμηματικό Μεταπτυχιακό Πρόγραμμα Πληροφορική Επιστημών Ζωής

Transcript

1 Πανεπιστήμιο Πατρών Τμήμα Ιατρικής Διατμηματικό Μεταπτυχιακό Πρόγραμμα Πληροφορική Επιστημών Ζωής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΔΙΕΥΡΥΝΣΗ ΤΗΣ ΒΑΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ COGENT ΓΙΑ ΤΗΝ ΠΡΟΣΘΕΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΒΙΒΛΙΟΓΡΑΦΙΚΗΣ ΥΛΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΩΝ ΝΟΥΚΛΕΟΤΙΔΙΚΗΣ ΑΛΛΗΛΟΥΧΙΑΣ (DNA) ΔΕΣΠΟΙΝΑ ΧΡΙΣΤΟΠΟΥΛΟΥ Α.Μ. 528 Σύμβουλος Καθηγητής Ζωή Λυγερού Εξεταστική Επιτροπή Ζωή Λυγερού Θεόδωρος Παπαθεοδώρου Ιωάννης Ζαρκάδης ΠΑΤΡΑ - CAMBRIDGE, 2006

2 Ευχαριστίες Η παρούσα διπλωματική εργασία παρουσιάζει τμήμα της έρευνας που πραγματοποιήθηκε στο εργαστήριο της Ομάδας Υπολογιστικής Γενωμικής (Computational Genomics Group CGG) το οποίο στεγάζεται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute EBI) στην πόλη Cambridge της Αγγλίας. Το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής αποτελεί παράρτημα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (EMBL). Θέλω να ευχαριστήσω τον καθηγητή κ. Χρήστο Ουζούνη, τον διευθυντή της ομάδας CGG, για την ευκαιρία που μου έδωσε να μετέχω σε ένα από τα πρωτοπόρα ερευνητικά κέντρα παγκοσμίως. Ευχαριστώ ιδιαίτερα τον κ. Ιωάννη Ζαρκάδη, για την διαρκή υποστήριξή του. Η συμβολή του στην ολοκλήρωση της παρούσης εργασίας ήταν πολύπλευρη και καθοριστική. Δέσποινα Χριστοπούλου 1

3 ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 2 ΠΕΡΙΕΧΟΜΕΝΑ 3 ΕΙΣΑΓΩΓΗ 5 ΚΕΦΑΛΑΙΟ 1 STATE OF THE ART 8 Εισαγωγή Βάσεις Νουκλεοτιδικών Αλληλουχιών Βάσεις Organism Specific Βάσεις Πρωτεϊνικών Αλληλουχιών Βάσεις Πρωτεϊνικών Οικογενειών και Πρωτεϊνικών Domains 16 ΚΕΦΑΛΑΙΟ 2 BACKGROUND INFORMATION 19 Εισαγωγή Υλοποίηση (Implementation) Σχεδιασμός Εισαγωγή Δεδομένων Ανανέωση (Updates) 26 ΚΕΦΑΛΑΙΟ 3 ΕΡΕΥΝΗΤΙΚΟ ΕΡΩΤΗΜΑ Προσθήκη (Incorporation) Βιβλιογραφικών Πληροφοριών Στην Βάση Βιολογικών Δεδομένων COGENT Προσθήκη (Incorporation) Πληροφοριών Γονιδιακής Αλληλουχίας (DNA) Στην Βάση Βιολογικών Δεδομένων COGENT 30 ΚΕΦΑΛΑΙΟ 4 ΜΕΘΟΔΟΛΟΓΙΑ 31 ΚΕΦΑΛΑIΟ 5 ΑΠΟΤΕΛΕΣΜΑΤΑ 40 ΚΕΦΑΛΑΙΟ 6 ΣΥΜΠΕΡΑΣΜΑΤΑ 48 ΠΑΡΑΡΤΗΜΑΤΑ 55 ΒΙΒΛΙΟΓΡΑΦΙΑ 66 2

4 ΠΙΝΑΚΕΣ 1. Ανάπτυξη Genebank Η δομή του γονιδικού πίνακα της Cogent Ποσοστό των γονιδίων των 234 ειδών οργανισμών της Cogent που είναι ονοματολογικά καλυμμένα Συνολικός αριθμός κατοχυρώσεων πρωτεϊνικών αλληλουχιών (άξονας y) σε ολοκληρωμένα γονιδιώματα στην Cogent (μπλε) και στην Swissprot (κόκκινο) ως προς τον χρόνο (άξονας x) Αναπαράσταση των αλληλουχιών ολοκληρωμένων γονιδιωμάτων ως προς τον χρόνο (άξονας x) και ως προς το μέγεθος (άξονας y, σε Mb, λογαριθμική κλίμακα) σημειωμένα με βάση την κοινωνική τους επιρροή. Γονιδιώματα από τα Αρχαιοβακτήρια (τετράγωνα),τα βακτήρια (κύκλοι), και τους Ευκαρυότες (τρίγωνα), είναι χρωματισμένα με βάση τον ακαδημαϊκό (μπλε), τον ιατρικό (ροζ), τον γεωργικό (πράσινο ανοιχτό), τον οικολογικό (πράσινο σκούρο), και τον βιομηχανικό (μαύρο) συσχετισμό τους Φυλογενετική κατανομή των κατοχυρώσεων γονιδιακών αλληλουχιών. Αρχαιοβακτήρια και Βακτήρια κατατάσσονται στο επίπεδο του Phylum, και οι Ευκαρυότες στο επίπεδο της πρώτης ταξονομικής διακλάδωσης με εξαίρεση τα Μετάζωα και τους Μύκητες. Οι αριθμοί στην παρένθεση παρουσιάζουν τα γονιδιώματα που είναι ολοκληρωμένα - δημοσιευμένα (κόκκινα), και σε εξέλιξη (μπλε). Το δένδρο είναι το αποτέλεσμα της κατάταξης που πραγματοποιήθηκε από την Ταξονιμική Βάση Δεδομένων του Εθνικού Κέντρου Βιοτεχνολογικής Πληροφορίας - National Center for Biotechnology Information (NCBI). Πληροφορίες σχετικά με τα υπό εξέλιξη γονιδιωματικά projects πάρθηκαν από την ιστοσελίδα της Γενωμικής Βάσης Δεδομένων ( Genomic Online Database - GOLD) Ποσοστό της ονοματολογικής κάλυψης των γονιδίων σε 9 από τα 225 γονιδιώματα των ειδών (species) της Cogent με score ονοματολογικής κάλυψης υψηλότερο από το 30% της ονοματολογικής κάλυψης των γονιδίων του συνολικού γονιδιώματός τους. 54 3

5 ΕΙΣΑΓΩΓΗ «Υπάρχουν δύο είδη γνώσης: γνωρίζουμε ένα αντικείμενο οι ίδιοι, ή γνωρίζουμε που πρέπει να ψάξουμε για να βρούμε πληροφορίες για το αντικείμενο αυτό» Dr. Samuel Johnson ( ) Άγγλος λεξικογράφος, συγγραφέας του βιβλίου «Λεξικό της αγγλικής γλώσσας». Είναι δεδομένο πως η ανάπτυξη της γενομικής πληροφορίας έχει εμπνεύσει αυξημένο ενδιαφέρον στην επιστημονική κοινότητα γενικά, και στις ομάδες επικεντρωμένες στη σύγκριση μεγάλης κλίμακας γενετικών ακολουθιών ειδικότερα. Η συγκριτική γενομική αναλύει και συγκρίνει το γενετικό περιεχόμενο διαφορετικών ειδών οργανισμών με στόχο την ταυτοποίηση γονιδίων και την πρόβλεψη της λειτουργίας τους. Γνώση της λειτουργίας των γονιδίων, σημαίνει γνώση πρωτεϊνών, γνώση πρωτεϊνών σημαίνει γνώση φαινόμενων ζωής, επομένως είναι κατανοητή σε όλους η έλξη που ασκεί το πρωταρχικό αυτό αντικείμενο της συγκριτικής γενομικής σε όλες τις εκφάνσεις της επιστήμης της βιολογίας και που δεν είναι άλλο από τις πολυσυζητημένες βάσεις βιολογικών δεδομένων. Δεδομένο είναι επίσης το γεγονός πως η τεράστια ανάπτυξη των βιολογικών βάσεων δεδομένων έχει φέρει ένα είδος επανάστασης στην ανάλυση βιολογικών δεδομένων αυτή κάθε αυτή, και πρέπει να ομολογήσουμε πως μέχρι πρόσφατα η καινούρια «τεχνολογία» βρισκόταν σε τριβή με τις υπάρχουσες μεμονωμένες τεχνικές αναζήτησης βιολογικών πληροφοριών στον παγκόσμιο ιστό. Το θετικό του φαινόμενου της τριβής στον θώκο 4

6 στης επιστημονικής κοινότητας είναι η δημιουργία πρόκλησης. Η πρόκληση στον σχεδιασμό βιολογικών βάσεων δεδομένων επέφερε νέες τεχνικές, και οι νέες τεχνικές έφεραν στην επιφάνεια μια νέα γενιά βάσεων βιολογικών δεδομένων. Η νέα γενιά βάσεων βιολογικών δεδομένων : α) διαθέτει την δυνατότητα αποθήκευσης tetrabytes δεδομένων, συχνά τοπικά και proprietary, β) δίνει αποτελέσματα σε αναζητήσεις με πολύ μεγάλο και πολύπλοκο αριθμό inputs, όπως για παράδειγμα ένα ολόκληρο γονιδίωμα, και γ) είναι σε θέση να φέρει εις πέρας ιδιαιτέρως πολύπλοκες αναζητήσεις που προϋποθέτουν πρόσβαση σε περισσότερες της μιας ομάδας δεδομένων (datasets). Σήμερα υπάρχει ελεύθερη πρόσβαση μέσω του internet σε εκατοντάδες δημόσιες βιολογικές βάσεις δεδομένων. Παρόλο το γεγονός, η προσπάθεια του να εκμεταλλευτεί κάποιος τα αποθηκευμένα δεδομένα ανομοιογενών βάσεων δεδομένων, καταλήγει να αποτελεί μια διαδικασία ιδιαίτερα δύσκολη και χρονοβόρα λόγω ποικίλων αιτιάσεων. Στις αιτίες αυτές συμπεριλαμβάνονται ο χαοτικός όγκος των βιολογικών δεδομένων, ο ολοένα αυξανόμενος αριθμός βιολογικών βάσεων δεδομένων, η υπεραφθονία τύπων και μορφών δεδομένων (format), η ποικιλομορφία βιοπληροφορικών τεχνικών πρόσβασης στα δεδομένα και βέβαια η διαφορετικότητα των βάσεων βιολογικών δεδομένων. Χάρη στις διεθνής προσπάθειες ολοκλήρωσης αλληλουχιών (sequencing), οι ομάδες γονιδιακών δεδομένων έχουν αυξηθεί γεωμετρικά την τελευταία δεκαετία. Το έτος 2003 για παράδειγμα, η βάση βιολογικών δεδομένων Genbank διπλασιάστηκε σε μέγεθος μέσα σε 15 μήνες. Με τόσο γρήγορη ανάπτυξη, τα γενωμικά δεδομένα και οι συνδεόμενες με αυτά δομές έχουν αποκτήσει τεράστιο μέγεθος για να χωρέσουν στην κεντρική μνήμη ενός υπολογιστή. Το σημαντικότερο πρόβλημα που ανακύπτει έγκειται 5

7 στο ότι μεγάλο μέρος της πληροφορίας που αναζητείται μεσα στο τεράστιο και ολοένα αυξανόμενο σε μέγεθος ορυχείο των δεδομένων εν τέλει χάνεται. Η ανάγκη επομένως κατασκευής των κατάλληλων εργαλείων εξ όρυξης της ζητούμενης πληροφορίας από το ορυχείο αυτό είναι μονόδρομος. Η παρούσα διπλωματική εργασία επικεντρώνεται στην διεύρυνση μιας υπάρχουσας βάσης βιολογικών δεδομένων ολοκληρωμένων γονιδιωμάτων, της COGENT. Η COGENT αναπτύχθηκε το 2003 από την Ομάδα Υπολογιστικής Γενωμικής (Computational Genomics Group CGG), στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute EBI), και τελικός τεχνικός στόχος της διπλωματικής εργασίας αποτελεί η προσθήκη βιβλιογραφικών δεδομένων καθώς και νουκλεοτιδικών πληροφοριών αλληλουχίας (DNA) στην βάση COGENT. 6

8 ΚΕΦΑΛΑΙΟ 1 State of the Art ΕΙΣΑΓΩΓΗ Ο χώρος της Βιοπληροφορικής είναι ο χώρος των δεδομένων. Είναι ο χώρος των χαοτικών ποσοτήτων πληροφορίας νουκλεοτιδικών, αμινοξικών, πρωτεϊνικών, γονιδιακών και λοιπών βιολογικών δεδομένων, τα οποία ανακαλύπτονται με συνεχή ρυθμό από τα ανελλιπώς ασταμάτητα εργαζόμενα ερευνητικά εργαστήρια ανά τον κόσμο. Η επιτυχημένη χρήση των δεδομένων αυτών προϋποθέτει την αποθήκευσή τους με τρόπο κατάλληλο, και σε σταθερή μορφή (format). Για αυτόν τον λόγω σε αυτό το σημείο είναι σημαντικό να συζητήσουμε περιληπτικά την φύση των υπαρχουσών βάσεων βιολογικών δεδομένων και τους λόγους για τους οποίους αποτελούν πόλο έλξης και αξιόλογα εργαλεία για τους ερευνητές. Μια βάση δεδομένων δεν είναι μια απλή κατασκευή συλλογής δεδομένων. Μια βάση δεδομένων πρέπει να είναι μορφοποιημένη, κατάλληλη για αναζητήσεις, περιοδικά ανανεώσιμη, και cross referred. Ο ουσιώδης δε σκοπός μιας τέτοιας κατασκευής είναι η προσπάθεια μεταλλαγής «ανούσιων» δεδομένων σε χρήσιμες πληροφορίες οι οποίες είναι καταρχήν βολικής πρόσβασης και στη συνέχεια μπορούν να αναλυθούν με τον καλύτερα δυνατό τρόπο. Για να κάνουμε κατανοητή την χρηστική φύση μιας βάσης δεδομένων, ας αναρωτηθούμε το εξής: με ποιόν τρόπο θα μπορούσαμε να οργανώσουμε όλες τις βιολογικές αλληλουχίες με τρόπο ώστε η πρόσβασή μας στις βιολογικές πληροφορίες που παίρνουμε από αυτές τις αλληλουχίες να είναι βέλτιστη (optimal). Η απάντηση είναι πως θα πρέπει με κάποιον τρόπο να κατασκευάσουμε ένα σύστημα 7

9 διαχείρισης των βιολογικών αλληλουχιών δεδομένων, δηλαδή τίποτα διαφορετικό από μια βάση βιολογικών αλληλουχιών δεδομένων. Όσον αφορά στο γιατί οι βάσεις δεδομένων αποτελούν χρήσιμα εργαλεία για τους ερευνητές, οι λόγοι ποικίλουν. Καταρχήν οι βάσεις δεδομένων αναπαράγονται: από δεκάδες σε εκατοντάδες μέσα σε λίγα λεπτά. Ένας τρόπος για να δέσουμε τα δεδομένα αυτά μαζί είναι η κατασκευή μιας βάσης δεδομένων και η δημιουργία εγγράφων βασισμένα στην πληροφορία που χρειαζόμαστε. Ένας επιπλέον λόγος είναι το ότι η πρόσβαση στις βάσεις δεδομένων είναι εφικτή από μακριά (remotely), γεγονός που κάνει την πρόσβαση στα απαραίτητα δεδομένα και την ανάλυσή τους αποτελεσματική όχι μόνο από έναν συγκεκριμένο τοπικό υπολογιστή αλλά ουσιαστικά από οποιοδήποτε υπολογιστή. Τέλος το ιδιαίτερα σημαντικό χαρακτηριστικό των βάσεων δεδομένων είναι το ότι προσφέρουν βιολογική πληροφορία άρα βιολογική γνώση: ολοένα και περισσότερες επιστημονικές ανακαλύψεις τα τελευταία χρόνια βασίζονται στην ανάλυση και όρυξη δεδομένων βιολογικών βάσεων (data mining). Το εισαγωγικό τμήμα που ακολουθεί επί συγκεντρώνεται στις νουκλεοτιδικές (primary noucleotide) και πρωτεϊνικές αλληλουχίες (sequences) βάσεις δεδομένων, καθώς μια ολοκληρωμένη συζήτηση στις βάσεις βιολογικών δεδομένων ξεφεύγει από τα όρια του αντικειμένου της συγκεκριμένης εργασίας. Μια πολύ σύντομη αναφορά στις βάσεις πρωτεϊνών με αντικείμενο ανάλυσης τα domains πρωτεϊνών συμπεριλαμβάνεται ωστόσο, μιας και οι βάσεις αυτές αποτελούν πολύ σημαντικά εργαλεία στην έρευνα ενός βίο - πληροφορικάριου (bioinformatician). 8

10 1.1 ΒΑΣΕΙΣ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ EMBL, GenBank, and DDBJ Οι τρεις πρωταρχικές βάσεις νουκλεοτιδικών αλληλουχιών είναι οι EMBL, GenBank and DDBJ (Stoesser et al., 2002; Benson et al., 2002; Tateno et al., 2002). Και οι τρεις περιλαμβάνουν αλληλουχίες οι οποίες υποβάλλονται σε αυτές άμεσα από μεμονωμένα εργαστήρια και consortia γενωμικών αλληλουχιών. Αλληλουχίες παρμένες από την βιβλιογραφία συμπεριλαμβάνονται επίσης, και με την επί - σημείωση τους (annotation) με αριθμούς κατοχύρωσης (accession numbers) διαχειρίζονται πολύ αποτελεσματικά και από τις τρεις βάσεις. Δεδομένου του μεγέθους των βάσεων (πάνω από 29 δις νουκλεοτίδια) υποδιαιρέσεις επίσης των αρχικών βάσεων είναι διαθέσιμες. Για παράδειγμα η GenBank διαθέτει προς το παρόν 18 υποδιαιρέσεις. Η Βάση Νουκλεοτιδικών Αλληλουχιών του Ευρωπαϊκού Μοριακού Εργαστηρίου (European Molecular Laboratory - EMBL) συντηρείται από το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute -EBI) στο Cambridge, Αγγλία.. Η πρόσβαση και η αναζήτηση στην βάση EMBL πραγματοποιείται μέσω του συστήματος SRS (Etzold and Argos, 1993). Ολόκληρη η βάση είναι επίσης διαθέσιμη σαν ένα flat file. Η Βάση Νουκλεοτιδικών Αλληλουχιών GenBank συντηρείται από το Εθνικό Κέντρο Βιοτεχνολογικής Πληροφορίας (National Center for Biotechnology Information - NCBI), το οποίο είναι τμήμα του Εθνικού Ινστιτούτου Υγείας (National Institute of Health - NIH) των Ηνωμένων Πολιτειών Αμερικής (USA). Η πρόσβαση και η αναζήτηση στην βάση γίνεται μέσω του συστήματος Entrez του NCBI, ή μπορεί να γίνει downloaded σαν flat file. 9

11 Η Βάση DDBJ (DNA Data Bank o Japan) ξεκίνησε σαν μια συνεργασία με τις βάσεις EMBL and GenBank. Συντηρείται από το Εθνικό Γονιδιακό Ινστιτούτο της Ιαπωνίας.. Εικόνα 1: Ανάπτυξη Genebank 1.2 Organism Specific Βάσεις Δεδομένων Οι Βάσεις Πρωτοταγούς Πρωτεϊνικής Αλληλουυχίας παρέχουν αποθηκεμένες πληροφορίες γενικά για όλα τα είδη (species) οργανισμών. Για πολλά είδη οργανισμών υπάρχουν ειδικευμένες βάσεις γενωμικών δεδομένων, τα οποία έχουν επί - σημειωθεί (annotated) από ειδικευμένους επιστήμονες με διευρυμένη γνώση της βιολογίας του 10

12 συγκεκριμένου είδους. Τέτοιου είδους βάσεις υπάρχουν για μια ποικιλία οργανισμών τόσο από πλευράς μεθοδολογίας όσο και ποιότητας επί - σημείωσης (annotation). Η πηγή FlyBase ήταν από τα πρώτα μοντέλα βάσεων ειδικευόμενων σε συγκεκριμένα είδη (organism specific databases). Η βάση εμπεριέχει μεγάλες ποσότητες βιολογικής πληροφορίας αναφερόμενη στο ολοκληρωμένο γονιδίωμα της μύγας Drosophila melanogaster. Λεπτομερείς πληροφορίες έχουν συμπεριληφθεί σταδιακά στην βάση: γονίδια, πρωτεΐνες, γενετικά στοιχεία, βιβλιογραφικές πηγές, και εικόνες. Η βάση συνεχώς προσαρμόζεται στις αλλαγές που νέες ερευνητικές ανακαλύψεις φέρνουν στην επικαιρότητα και αναλόγως διαμορφώνεται (modified). Μετά την δημοσίευση του ολοκληρωμένου γονιδιώματος της D. melanogaster genome (Adams et al., 2000), η FlyBase αναπτύχθηκε με ακόμα πιο γρήγορο ρυθμό με αποτέλεσμα να είναι πλέον ένα ισχυρό εργαλείο στην λειτουργική ανάλυση πρωτεϊνών στο είδος της μύγας. Η γενωμική βάση δεδομένων του οργανισμού Saccharomyces, η SGD είναι μια αντίστοιχη βάση δεδομένων με κεντρικό εργαλείο μελέτης τον οργανισμό μύκητα (yeast) Saccharomyces cerevisiae και συγγενή είδη μυκήτων (Dwight et al., 2002). Η πηγή ξεκίνησε το 1994 και ομοίως ευεργετήθηκε από την δημοσίευση του ολοκληρωμένου γονιδιώματος του οργανισμού S. cerevisiae (Mewes et al., 1997). Η πηγή Ensembl (Habbard et al., 2002) αποτελεί μια κοινή προσπάθεια του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής και του Ινστιτούτου Wellcome Trust Sanger (European Bioinformatics Institute - Wellcome Trust Sanger Institute). Η βάση αποτελεί έναν ολοκληρωμένο οδηγό πλοήγησης σε γονιδιώματα, πρόβλεψη γονιδίων, επί - σημείωση (annotation) μεγάλης κλίμακας, και ανάλυση της αλληλουχίας του γονιδιώματος του ανθρώπου. Η βάση Ensembl ξεκίνησε το1999 και τα επιμέρους στοιχεία της 11

13 αναπτύχθηκαν πριν την ολοκλήρωση του γονιδιώματος του ανθρώπου. Σήμερα, η μορφή της Ensembl (Build 26) περιέχει πάνω από 4,489 megabases, 29,181 προβλεπόμενα γονίδια and 34,019 προβλεπόμενα μετάγραφα (transcripts). Επίσης η Ensembl περιέχει κυτταρολογικούς markers, single nucleotide polymorphisms (SNPs), οικογένειες πρωτεϊνών, domains, και μια ποικιλία πληροφοριών. Η βάση Ensembl είναι πολύ διαφορετική από άλλες πηγές σε μερικά βασικά επίπεδα. Ολόκληρο το σύστημα είναι ελεύθερο στον παγκόσμιο ιστό (Open Source), με αποτέλεσμα όλα τα δεδομένα να είναι βολικής πρόσβασης. Τέλος η Ensembl επιτρέπει την προσθήκη επί - σημειώσεων (annotations) από απομακρυσμένους υπολογιστές μέσω του κατανεμημένου συστήματος επί - σημειώσεων (annotation) που διαθέτει. (Distributed Annotation System - DAS) (Dowell et al., 2001). 1.3 ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΠΡΩΤΕΪΝΙΚΗΣ ΑΛΛΗΛΟΥΧΙΑΣ Η SwissProt Οι μεγαλύτερες βάσεις πρωτεϊνικής αλληλουχίας είναι η SwissProt και η PIR, οι οποίες είναι manually curated βάσεις. Επιστημονικοίcurators συνεργάζονται με τους επιστήμονες που υποβάλλουν σε ατομικό επίπεδο είτε σε επίπεδο ερευνητικού ινστιτούτου τις αλληλουχίες με στόχο την ακριβή επί - σημείωση της βιοχημικής λειτουργίας της υπό εξέταση πρωτεΐνης. Σύνδεσμοι βιβλιογραφικών αναφορών επιστημονικών εργασιών σχετικών με την υπό εξέταση πρωτεΐνη αποθηκεύονται επίσης. Η SwissProt (Bairoch and Apweiler, 2000) είναι το αποτέλεσμα της συνεργασίας του Ελβετικού Ινστιτούτου Βιοιπληροφορικής και του Ευρωπαϊκού Ινστιτούτου Βιοπληροφορικής (Swiss Institute of Bioinformatics and the European Bioinformatics 12

14 Institute). Απώτερος στόχος της βάσης είναι η διατήρηση ενός υψηλού επιπέδου επί - σημειώσεων (annotations) για κάθε πρωτεΐνη. Οι επί - σημειώσεις (annotations) συμπεριλαμβάνουν: λειτουργία, domain, δομή, και μετά-μεταφραστικές διαδικασίες διαμόρφωσης της πληροφορίας (post translational modification). Ένας ακόμα σημαντικός στόχος της βάσης αποτελεί ο περιορισμός στο ελάχιστο διαθεσιμότητας (redundancy) των αλληλουχιών καθώς και το υψηλό επίπεδο ενοποίησης (integration) με άλλες βάσεις δεδομένων. Η Swissprot ξεκίνησε το1986 από τον Amos Bairoch στο τμήμα Ιατρικής Βιοχημείας στο Πανεπιστήμιο της Γενεύης ( Department of Medical Biochemistry, University of Geneva). Αποτελεί σήμερα μια από τις καλύτερες βάσεις δεδομένων στην πρωτεϊνική αλληλούχιση όσον αφορά στην ποιότητα και στο μέγεθος των επί - σημειώσεων (annotations). Η τωρινή δε μορφή της βάσης η μορφή 40 (SwissProt release 40) εμπεριέχει 101,602 curated πρωτεϊνικές αλληλουχίες. Το σύστημα TrEMBL αποτελεί το υπολογιστικό βοηθητικό σύστημα της Swissprot, το οποίο προέκυψε από την Swissprot και το οποίο περιέχει τις μεταφράσεις (translations) των νουκλεοτιδικών αλληλουχιών που διαθέτει η βάση EMBL και οι οποίες δεν έχουν ενοποιηθεί (integration) ακόμα από το βασικό κομμάτι της Swissprot. Επί - σημειώσεις (annotations) που προκύπτουν με την χρήση του TrEMBL, προκύπτουν αυτόματα και σε γενικό βαθμό δεν παρουσιάζουν τον ίδιο βαθμό ποιότητας με την ποιότητα που διαθέτουν οι κατοχυρώσεις της SwissProt. Πρόσβαση και αναζήτηση στις δυο βάσεις λαμβάνει χώρα μέσω του συστήματος SRS (Etzold and Argos, 1993). 13

15 Η Πηγή Πρωτεϊνικής Πληροφορίας (The Protein Information Resource - PIR) Η Πηγή Πρωτεϊνικής Πληροφορίας (The Protein Information Resource - PIR) (McGarvey et al., 2000) αποτελεί τμήμα του ΝBRF (National Biomedical Research Foundation) των Ηνωμένων Πολιτειών. Σαν βάση αποτέλεσε το προϊόν συνεργασίας του NBRF με την βάση δεδομένων JIPID (Munich Information Center for Protein Sequences Database). Η βάση δεδομένων PIR-PSD (Protein Sequence database) όπως εμφανίζεται στην σημερινή της μορφή η PIR (release Φεβρουάριος 2002) περιέχει 283,138 κατοχυρώσεις. Η PIR ήταν η πρώτη δημόσια βάση πρωτεϊνικών αλληλουχιών και ιδρύθηκε το 1984 από την Margaret Dayhoff. Η βάση PIR είναι κατανοητή, ακριβής, με συνεχείς επί -σημειώσεις (annotated) και καλά οργανωμένη. Πρέπει όμως να αναφέρουμε πως από πλευράς επί - σημειώσεων και curation, η βάση SwissProt αποτελεί την πρωτοπόρο βάση στο είδος της. The Non-Redundant Database (NRDB) Πρέπει στο σημείο αυτό να ομολογήσουμε πως υπάρχει μεγάλος βαθμός διαθεσιμότητας (redundancy) στις βάσεις δεδομένων αλληλούχισης, όπως είναι η Swissprot και η PIR, (Holm and sander, 1998). Είναι δε γνωστό, πως κάθε φορά που αναζητούμε αλληλουχίες σε μια βάση με τεράστιο αριθμό αλληλουχιών το επιθυμητό είναι να αποκλείονται με κάποιο τρόπο οι συγγενείς αλληλουχίες προς την αλληλουχία που μας ενδιαφέρει και οι οποίες προσφέρουν μηδαμινή περαιτέρω βιολογική πληροφορία και το μόνο που προσφέρουν ουσιαστικά είναι να κάνουν μεγαλύτερο το χώρο αναζήτησης. Η βάση NRDB διαθέτει πρωτεϊνικές αλληλουχίες από τις βάσεις SwissProt, SwissNew, TrEMBL, 14

16 Tremblnew, GenBank, PIR, Wormpep και PDB.Η διαθεσιμότητα πολύ γειτονικών αλληλουχιών (near neighborhood redundancy) έχει αναιρεθεί από την βάση, με την ανίχνευση πολύ συγγενικών αλληλουχιών με βασικό κριτήριο την υψηλή ομοιότητα αμινοξικής σύνθεσης και subsequent sequence alignment. Στη συνέχεια η βάση NRDB90 παίρνει δυο αλληλουχίες και τις συνενώνει σε μία αντιπροσωπευτική αλληλουχία, στην περίπτωση που παρουσιάζουν άνω του 90% στα προαναφερόμενα χαρακτηριστικά. Η διαδικασία αυτή είναι ιδιαίτερα επιτυχής και αποδεικνύει πως μεγάλης κλίμακας υπολογιστική ανάλυση είναι ικανή να πραγματοποιείται όχι σε μια βάση με ολοκληρωμένες αλληλουχίες μόνο, αλλά σε μια μικρότερη μη διαθέσιμη βάση (nonredundant database), που αποκλείει μη σημαντική πληροφορία. 1.4 ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ ΟΙΚΟΓΕΝΕΙΩΝ ΚΑΙ ΠΡΩΤΕΪΝΙΚΩΝ DOMAINS Pfam & Interpro Μεγάλος αριθμός μεθοδολογιών έχει αναπτυχθεί με στόχο την κατάταξη πρωτεϊνικών domains και μοτίβων (motifs). Υπάρχουν πολλές βάσεις με τον ίδιο στόχο, και η ανάλυση κάθε μιας από αυτές ξεφεύγει από τα όρια της συγκεκριμένης εργασίας. Επιλεκτικά περιγράφονται παρακάτω δυο από αυτές τις βάσεις για συγκεκριμένους λόγους όπως θα γίνει κατανοητό: βάση Pfam και η βάση Interpro. Η Βάση Pfam αποτελεί την βάση ποικίλης ευθυγράμμισης πρωτεϊνικών domains (multiple alignments of protein domains) με την χρήση profiles που κατασκευάζονται βάση hidden Markov μοντέλων (Bateman et al., 2000). Η βάση είναι πολύ κατανοητή, πολύ καλά curated, πολύ χρήσιμη στον καθορισμό παρουσίας μοτίβων (motifs) και 15

17 domains σε πρωτεϊνικές αλληλουχίες. Οι οικογένειες domains κατασκευάζονται με το χτίσιμο μιας ευθυγράμμισης (seed alignment) συγγενών αλληλουχιών οι οποίες λαμβάνονται από βάσεις όπως η SwissProt, η Prosite και η ProDom. Ιδιαίτερη προσοχή δείχνει επίσης η βάση στο να ελέγχει για λάθη τόσο στις αλληλουχίες αυτές κάθε αυτές καθώς και στην ευθυγράμμιση (seed alignment). Ένα προφίλ HMM κατασκευάζεται από μια ολοκληρωμένη ευθυγράμμιση (seed alignment) με την χρήση του πακέτου HAMMER (Eddy, 1998). Το προφίλ στη συνέχεια χρησιμοποιείται για αναζήτηση περισσότερων μελών της οικογένειας στην βάση SwissProt και με τον τρόπο αυτό παράγεται μια ποικίλη ευθυγράμμιση αλληλουχιών (multiple sequence alignment) ολόκληρης της οικογένειας της πρωτεΐνης. Και σε αυτό το επίπεδο οι αλληλουχίες και οι ευθυγραμμίσεις (alignments) ελέγχονται με τρόπο λεπτομερή για την ανίχνευση λαθών και ασυνεπειών. Οι τελικές ευθυγραμμίσεις (alignments) αποθηκεύονται και επί - σημειώνονται από την βάση Pfam με υψηλή ποιότητα ευθυγράμμισης (high quality alignments) Η μέθοδος είναι «καθαρή» και ακριβής για την κατάταξη πρωτεϊνών σε οικογένειες αλλά είναι πολύ έντονη από πλευράς εργασίας και κουραστική. Για τον εμπλουτισμό της βάσης και την κάλυψη αλληλουχιών που είναι διαθέσιμες στην βάση SwissProt αλλά δεν είναι ακόμα τμήμα της βάσης Pfam, ένα δεύτερο πρωτόκολλο χρησιμοποιείται. Σε αυτή την περίπτωση εφαρμόζεται ο αλγόριθμος Domainer (Sonnhammer and Kahn, 1994) στα δεδομένα της SwissProt BLAST με αποτέλεσμα να ανιχνεύονται αυτόματα τα συντηρημένα μοτίβα και domains μέσα σε μια πρωτεϊνική αλληλουχία. Τα προφίλ κατασκευάζονται και εδώ με την αυτόματα παραγωγή ευθυγραμμίσεων 16

18 (alignments) και χρησιμοποιούνται για την ανίχνευση και άλλων μελών της οικογένειας τα οποία χτίζονται σε μια τελική ευθυγράμμιση (alignment). Τα αποτελέσματα αποθηκεύονται σε υποδιαίρεση της Pfam. Σήμερα η βάση Pfam αποτελείται από 3,360 πρωτεϊνικές οικογένειες και domains, και εξακολουθεί να αναπτύσσεται με γοργούς ρυθμούς. Πολλές ακόμα βάσεις οικογενειών πρωτεϊνών και domains υπάρχουν, προσφέροντας κατάταξη ολόκληρου μεγέθους πρωτεϊνών, μοτίβων (motifs) και domains. Μια σχετικά νέα προσπάθεια αποτελεί η βάση InerPro (Apweiler et al., 2001) η οποία συνδέει τις βασικές βάσεις οικογενειών πρωτεϊνών σε μια μοναδική πηγή η οποία είναι συνδεδεμένη με τις βάσεις SwissProt και TrEMBL. Αυτή η βάση εμπεριέχει οικογένειες πρωτεϊνών από τις Pfam, Prosite, ProDom, SMART και TIGR-Fams πηγές. 17

19 ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ Background Information ΕΙΣΑΓΩΓΗ Η πρωτοφανής διαθεσιμότητα πηγών βιολογικών δεδομένων, που συζητήθηκαν στο προηγούμενο κεφάλαιο, ανοίγει νέες ευκαιρίες στον τομέα της υπολογιστικής βιολογίας (computational biology). Ταυτόχρονα, αυτή η καταιγίδα δεδομένων αποτελεί πρόκληση στις μέχρι τώρα μεθόδους πρόσβασης, αναπαραγωγής και χρήσης των βιολογικών δεδομένων. Η δυνατότητα σύνδεσης των δεδομένων γενομικών αλληλουχιών με άλλες πληροφορίες όπως για παράδειγμα λειτουργικές κλάσεις, κυτταρικό δομικό προσδιορισμό, χρωμοσωμική θέση, και προφίλ έκφρασης αποτελεί από μόνη της μια διαδικασία απόκτησης καινούριας γνώσης. Μολαταύτα ο συνδυασμός των προαναφερόμενων πηγών ανάλυσης και παρουσίασης βιολογικών δεδομένων σε επίπεδο γενομικής ανάλυσης, αλλά και άλλων πηγών που δεν προαναφέρθηκαν, μπορεί να επιφέρει σύγχυση και λόγω της ποικιλομορφίας στην χρήση συντακτικών και semantic παραδοχών που εμφανίζονται με τις διαφορετικής προέλευσης καταθέσεις δεδομένων. Το αποτέλεσμα είναι λειτουργίες και εκτελέσεις που θεωρητικά πρέπει να λαμβάνουν χώρα με απλό τρόπο, απαιτούν αφιέρωση πολύτιμου χρόνου (Stein, 2002). Όπως συζητήθηκε στην εισαγωγή είναι διαθέσιμες πηγές που επιτρέπουν την πρόσβαση σε πληροφορίες γενομικής αλληλουχίας (Bernal et al., 2001). Προφανή είναι μολαταύτα η έλλειψη ενός και μόνο σημείου αναφοράς το οποίο να επιτρέπει ελαστική και άμεση πρόσβαση σε πληροφορίες ολοκληρωμένων γονιδιωμάτων σε format ομοιογενή. Οι περισσότερες από τις πηγές δεν είναι σχεδιασμένες για ανάλυση σε κλίμακα 18

20 γονιδιώματος (genome scale analysis), σαν να σχεδιάστηκαν γενικά για «ένα γονίδιο την φορά» (mode of browsing), με αποτέλεσμα τα ωμά δεδομένα να μην είναι καν διαθέσιμα. Η πληροφορία αυτή είναι απαραίτητη για την υπολογιστική ανάλυση μεγάλης κλίμακας γονοδιωμάτων και οφείλεται και να είναι βολικής πρόσβασης αλλά και να μπορεί να κατανεμηθεί για περαιτέρω έρευνα στον τομές της βιοπληροφορικής. Η τελευταία παρατήρηση είναι ιδιαίτερα σημαντική στις περιπτώσεις που η ανάλυση πραγματοποιείται σε ευρεία κλίμακα γονιδιωμάτων τα οποία πρέπει να είναι διαθέσιμα σε ομοιογενές και βολικής πρόσβασης format. Εν συνεχεία είναι γνωστό πως οι βάσεις βιολογικών δεδομένων εμφανίζουν τεράστια ανομοιογένεια επομένως είναι πρακτικά αδύνατον να μπορέσουμε να συνδέσουμε τα περιεχόμενά τους με αυτόματο τρόπο. Ο πρωταρχικός λόγος είναι το γεγονός πως οι ονομαστικές παραδοχές των γονιδίων δεν είναι ικανοποιητικές με αποτέλεσμα να διαφέρουν από μια πηγή στην άλλη και τα ίδια γονίδια να εμφανίζονται με διαφορετικό όνομα. Για παράδειγμα, η βάση COGs (Tatusov et al., 1997) χρησιμοποιεί ονόματα γονιδίων όπως αυτά εμφανίζονται στην EMBL (Stoesser et al., 2003) ή στην GenBank (Benson et al., 2003). Για παράδειγμα τα γονίδια AF1241 και BS gsab, εμφανίζονται στην COG0001 ομάδα (cluster). Σε αυτό το παράδειγμα το γονίδιο gsab έπρεπε να γίνει prefixed με τον όρο "BS" έτσι ώστε να αναδεικνύει το μοναδικά υπάρχον γονίδιο Bacillus subtilis gsab, μιας και το γονίδιο gsab από μόνο του δεν είναι μοναδικό. Για να χαρτογραφηθεί αυτή η COG ομάδα (cluster) στην βάση InterPro (Apweiler et al., 2000; Mulder et al., 2003), είναι απαραίτητη μια επιπλέον πληροφορία όπως ο SwissProt αριθμός πρόσβασης (identifier or accession number). Επομένως το να προσπαθήσει κάποιος να συνδέσει δυο διαφορετικές βάσεις με στόχο την επί - σημείωση (annotation) 19

21 πρωτεϊνικών αλληλουχιών αποτελεί ένα πολύ πολύπλοκο έργο. Τέλος ακόμα και στην περίπτωση που τα δεδομένα, τα ονόματα και οι χαρτογραφήσεις είναι διαθέσιμα, το file parsing και το format conversion αποτελούν διαδικασίες πολύπλοκες για τον βίο - πληροφορικάριο. Στην πράξη κάθε χρήστης μόνος του πρέπει να σχεδιάσει το δικό του parser ώστε να είναι σε θέση να χρησιμοποιήσει την πληροφορία αποτελεσματικά. Οι δυσκολίες αυτές φέρνουν στην επιφάνεια κατά την γνώμη πολλών, πληθώρα αποριών και ερωτηματικών για την ακρίβεια και αναπαραγωγή δεδομένων στον τομέα της υπολογιστικής βιολογίας γενικότερα. Η Ομάδα Υπολογιστικής Γενωμικής CGG στην προσπάθειά της να δώσει λύση στα ερωτηματικά αυτά προχώρησε στην κατασκευή ενός καινούριου περιβάλλοντος δεδομένων για την ακριβής αποθήκευση, αναζήτηση και ανάλυση αλληλουχιών ολοκληρωμένων γονιδιωμάτων, την βάση δεδομένων COGENT (COmplete GENome Tracking) (Janssen et al., 2003b). 2.1 ΕΦΑΡΜΟΓΗ Κάποια από τα υπάρχοντα έργα προσφέρουν ήδη τα λειτουργικά πλαίσια για την κοινή χρήση των υπό ανάπτυξη λειτουργικών (software). Για παράδειγμα, το έργο Ensembl (ensembl.org) παρέχει πλήρη πρόσβαση κατανέμοντας το λειτουργικό (Perl modules) με στόχο την αναζήτηση στην πολύπλοκη βάση δεδομένων MySQL είτε σε κάποια τοπική installation είτε σε κάποιο δικό τους server (Hubbard et al., 2002). Ο στόχος τους ήταν να παρέχουν ένα απλό και πρακτικό εργαλείο το οποίο θα αποτελούσε την βάση για την ανάπτυξη υπολογιστικών εργαλείων γονιδιακής ανάλυσης, να διευκολύνουν την sharing των δεδομένων και των αποτελεσμάτων που σχετίζονται με δημόσια διαθέσιμες 20

22 αλληλουχίες ολοκληρωμένων γονιδιωμάτων, και ίσως να επιτύχουν την συνεργασία μεταξύ έργων διαφορετικών ερευνητικών ομάδων προσφέροντας έτσι επιπλέον πρόοδο στον τομέα της γονιδιακής υπολογιστικής. Ένας ιδιαίτερο πλεονέκτημα της COGENT είναι η κινητικότητά της ( ολόκληρη η βάση είναι δυνατόν να γίνει download μέσω συγκεκριμένης ιστοσελίδας και να γίνει reinstall οπουδήποτε). Η COGENT είναι μια ρεαλιστική λύση γιατί είναι απλή, ιδιαίτερα ελαστική και με μικρή χωρητικότητα. Η εργασία με την βάση δεδομένων COGENT περιλαμβάνει την χρήση: 1. του κέντρου άξονα της COGENT που είναι οι αλληλουχίες των ολοκληρωμένων γονιδιωμάτων, ο οποίος άξονας καθορίζει κοινές ονομαστικές παραδοχές γονιδιωμάτων και πρωτεϊνών (ταυτοποιητές) 2. SQL πίνακες σαν την βάση για την ανταλλαγή format, καθώς και σαν ένα πιθανό περιβάλλον εργασίας Αυτές οι λίγες και απλές οδηγίες επιτρέπουν την εύκολη ανταλλαγή αποτελεσμάτων που αφορούν στις αλληλουχίες ολοκληρωμένων γονιδιωμάτων, οι οποίες είναι απαραίτητες για high-throughput υπολογισμούς. Ο δε σύνδεσμος των πινάκων επιτρέπει τον σύνδεσμο των αποτελεσμάτων διαφορετικής προέλευσης, οι διαθέσιμοι μηχανισμοί indexing των MySQL βάσεων που είναι ενσωματωμένες στο σύστημα επιφέρουν αποτελεσματικές αναζητήσεις και ανακαλύψεις δεδομένων. 21

23 ΣΧΕΔΙΑΣΜΟΣ Η βάση (core) της βάσης δεδομένων COGENT αποτελείται από δυο πίνακες. Ο πίνακας γονιδιώματα (genomes) περιέχει πληροφορίες σχετικές με τα γονιδιώματα (Πίνακας 2.1) Σημαντικό μέρος του σχεδιασμού της βάσης δόθηκε στην απόφαση να υπάρχει δυνατότητα χρονικής καταγραφής των αλληλουχιών των γονιδιωμάτων ώστε να είναι δυνατή η καταγραφή του πότε χρονικά δημοσιεύτηκε μια αλληλουχία στην επιστημονική βιβλιογραφία (rel order). Παράλληλα με την ταυτότητα του γονιδιώματος genome id, παράγεται ένας δεύτερος κώδικας, ο μνημονικός κώδικας του είδους του οργανισμού. Αυτός ο κωδικός χρησιμοποιείται σαν prefix στην κατασκευή μοναδικών πρωτεϊνικών ταυτοτήτων (unique protein identifiers). Αυτή η μνημονική καταγραφή γίνεται με βάση το γένος, το είδος και το strain του οργανισμού καθώς και σε έναν version αριθμό του γονιδιώματος ώστε να είναι δυνατή η ανανέωση των πληροφοριών. Παραδείγματος χάριν ο κωδικός HINF-KW2-01 αντιστοιχεί στον οργανισμό Haemophilus influenzae strain KW2, μορφή (version) 01. Ο πίνακας πρωτεΐνες (proteins) περιέχει τα δεδομένα των αμινοξικών αλληλουχιών. Οι μοναδικές πρωτεϊνικές ταυτότητες (unique protein ids) κατασκευάζονται από τον κωδικό του είδους ακολουθούμενο από μια παύλα και έναν αριθμό. Η χρήση μνημονικών ταυτοτήτων συμβάλλει στον καθαρό διαχωρισμό γονιδιωμάτων και πρωτεϊνών από ένα δεδομένο γονιδίωμα με τρόπο απλό και ασφαλή. Καθώς νέα γονιδιώματα γίνονται διαθέσιμα, προστίθενται στους πίνακες γονιδιώματα και πρωτεΐνες από τους curators της βάσης αμέσως μετά την δημοσίευσή τους. Όπου είναι δυνατόν, το download των αλληλουχιών πραγματοποιείται απευθείας από την ιστοσελίδα του εργαστηρίου που 22

24 ολοκλήρωσε το γονιδίωμα, σε διαφορετική περίπτωση η πηγή των αλληλουχιών είναι η GenBank. Από τη στιγμή που ένα γωνιδίωμα γίνεται δεχτό στην βάση οι πρωτεΐνες από το αρχείο της FASTA γίνονται download. Η COGENT παράγει ένα μοναδικό ονομαστικό σχήμα για όλες τις πρωτεΐνες. Το στοιχείο - κλειδί της βάσης είναι το ότι είναι σχεδιασμένη ώστε να ενώνει τις ταυτότητες των πρωτεϊνών (protein identifiers) κατά μήκος όλων των γονιδιωμάτων με τρόπο ουσιώδη. Η ακολουθία της μοναδική πρωτεϊνικής ταυτότητας ( unique protein identifier string) παράγεται αυτόματα για κάθε πρωτεΐνη. Η ταυτότητα (identifier) αυτή έχει την μορφή: 4(γράμμα)-3(γράμμα/αριθμός)-2(αριθμοί)-6(αριθμοί) Για παράδειγμα: Ο οργανισμός Haemophilus Influenzae, Strain KW2, Μορφή (Version) 01, Πεπτίδιο (Peptide) 342 είναι encoded σαν: HINF-KW > Peptide No. -> Version -> Strain -> Species Το πρώτο τμήμα της ταυτότητας (4 γράμματα) παράγεται αυτόματα από το όνομα του είδους (species) του γονιδιώματος όπως αυτό έχει εισαχθεί. Το πρώτο γράμμα του Γένους (Genus) και τα τρία γράμματα του Είδους (Species) λαμβάνονται για κάθε γονιδίωμα. Η διαδικασία αυτή ταυτοποιεί τις πρωτεΐνες για ένα δεδομένο γονιδίωμα με ουσιαστικό τρόπο για τον χρήστη. Για παράδειγμα, ο οργανισμός Haemophilus influenzae έχει κωδικό είδους τον HINF. Το δεύτερο τμήμα του ταυτοποιητή περιγράφει το strain. Η default αξία είναι 'XXX' (που σημαίνει πως δεν έχει δοθεί strain). 23

25 Ανάλογες τιμές εμφανίζονται σε γονιδιώματα όπως του Homo sapiens, όπου η προσθήκη ταυτοποιητών δεν έχει καμία ουσία. Όλα τα γονιδιώματα βακτηρίων και archaeal προέρχονται από αλληλουχίες καταγεγραμμένων strains κάποιου οργανισμού του είδους. Στις περιπτώσεις αυτές ο curator πρέπει να σημειώσει τον συνδυασμό 3 γραμμάτων / αριθμών για να αναπαρασταθεί κάθε strain του είδους με μοναδικό τρόπο. Για παράδειγμα ο οργανισμός Haemophilus influenzae strain KW2 έχει κωδικό είδους 'HINF-KW2. Το τρίτο τμήμα του ταυτοποιητή, ταυτοποιεί την μορφή (version) του γονιδιώματος, στοιχείο σημαντικό για γονιδιώματα που έχουν ανακατασκευαστεί και επισημανθεί (annotated) επανειλημμένα, όπως έχει συμβεί με το Ensembl Human. Το τελευταίο τμήμα του κώδικα (6 αριθμοί) χρησιμεύει για να ταυτοποιεί κάθε ξεχωριστή πρωτεΐνη κάθε γονιδιώματος. Τέλος, είναι σημαντικό να αναφέρουμε πως κάθε άλλη πληροφορία όπως η αρχική επισημείωση (annotation) και ο ταυτοποιητής από το έργο ταυτοποιητών γνιδιώματος επίσης αποθηκεύονται. ΠΡΟΣΘΗΚΗ ΔΕΔΟΜΕΝΩΝ Οι πρωτεϊνικές αλληλουχίες προστίθενται στην βάση από εάν αρχείο FASTA που ακολουθείται από ένα αρχείο Perl script. To script έχει σχεδιαστεί με τέτοιο τρόπο ώστε να κόβει από τις αλληλουχίες τους μη αμινοξικούς χαρακτήρες, αλλά και χαρακτήρες της μορφής *' και \. Ο κωδικός του ταυτοποιητή της πρωτεΐνης παράγεται τότε με τρόπο αυτόματο και ο αριθμός ' ' εναποτίθεται στην πρώτη πρωτεΐνη που επεξεργάζεται μέχρι την τελική πρωτεΐνη. Το ανώτερο όριο είναι πρωτεΐνες, αριθμός ιδιαίτερα μεγαλύτερος από τον ορισμό πρωτεϊνών που είναι αναμενόμενο να περιέχει το οποιοδήποτε γονιδίωμα. Για παράδειγμα: 'DMEL-XXX ' είναι η 302στη 24

26 πρωτεΐνη στο FASTA αρχείο του γονιδιώματος της Drosophila melanogaster. Το XXX συμβολίζει πως η συγκεκριμένη αλληλουχία δεν αναφέρεται σε strain. Άλλα παραδείγματα: 'ECOL-MG ' 'ECOL-EDL ' 'ECOL-RIM ' Οι παραπάνω ταυτοποιητές είναι οι 107στες πρωτεΐνες από τρία διαφορετικά strains του οργανισμού Escherichia coli. Τα strains που αντιπροσωπεύονται είναι τα EDL933, RIMD και MG1. Οι αρχικοί ταυτοποιητές για κάθε πρωτεΐνη αποθηκεύονται επίσης στην βάση διασφαλίζοντας το γεγονός πως οι καινούριοι ταυτοποιητές μπορούν να χαρτογραφηθούν στους αρχικούς ταυτοποιητές με τρόπο αυτόματο. Ο νέος αυτός τρόπος αναγνώρισης διασφαλίζει την ύπαρξη ενός και μόνο ταυτοποιητή για κάθε μια πρωτεΐνη που υπάρχει στην βάση COGENT και επιπρόσθετα δίνει στον χρήστη καθαρή πληροφορία σχετικά με το γονιδίωμα και το strain από το οποίο προέρχεται η υπό εξέταση πρωτεΐνη. Στην περίπτωση που το αρχείο FASTA περιέχει επί - σημειώσεις (annotations) για τις υπάρχουσες πρωτεΐνες, αποθηκεύονται και αυτές στην βάση. ΕΝΗΜΕΡΩΣΕΙΣ (UPDATES) Κάθε φορά που ένα γονιδίωμα ολοκληρώνεται και γίνεται διαθέσιμο στο ευρύ κοινό, παραλαμβάνεται μέσω ftp (file transfet protocol) από το κέντρο που ολοκλήρωσε την αλληλούχιση και προστίθεται στην βάση από τον curator. Γονιδιώματα που δεν είναι ολοκληρωμένα αλλά υπάρχει ένα προσχέδιο (draft) του υπό ολοκλήρωση γονιδιώματος όπως το ολοκληρωμένο πια Ensembl ανθρώπινο γονιδίωμα (human genome) και το 25

27 ολοκληρωμένο γονιδίωμα της of D. melanogaster, ενημερώνονται στην βάση κάθε φορά που υπάρχει δημόσια ανανέωση των γονιδιακών προβλέψεων των γονιδιωμάτων αυτών. Εικόνα 2: Η δομή του γονιδικού πίνακα της Cogent 26

28 ΚΕΦΑΛΑΙΟ 3 Ερευνητικό Ερώτημα 3.1 ΕΝΣΩΜΑΤΩΣΗ ΒΙΒΛΙΟΓΡΑΦΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΗΝ ΒΙΟΛΟΓΙΚΗ ΒΑΣΗ COGENT Οι βιολογικές βάσεις δεδομένων προσφέρουν πρόσβαση σε επίσημα γεγονότα που αφορούν σε διάφορα τμήματα της βιολογίας, όπως είναι τα γονιδιακά προϊόντα, οι πρωτεϊνικές δομές, τα μεταβολικά μονοπάτια, ασθένειες και άλλα πολλά. Εκ του αποτελέσματος οι βάσεις αυτές παρουσιάζουν αυξημένο ενδιαφέρον στους ερευνητές. Οι πληροφορίες που εμπεριέχονται στις βιολογικές βάσεις παράγονται από ερευνητικές ομάδες που δημοσιεύουν τα αποτελέσματά τους σε επιστημονικά περιοδικά. Ένα μέρος αυτής της διαδικασίας δημοσίευσης αποτελεί η προσθήκη δεδομένων σε βιολογικές βάσεις, αν και η συνήθη πορεία των δεδομένων έχει σαν εφαλτήρια αρχή την δημοσίευση και επομένως την καταγραφή της στην επίσημη βιβλιογραφία. Από αυτήν την βιβλιογραφία στη συνέχεια οι curators λαμβάνουν τα δεδομένα και τα εναποθέτουν στις υπό ενδιαφέρον βάσεις δεδομένων. Η ερευνητική βιβλιογραφία και οι επιστημονικές βάσεις δεδομένων επιτελούν δυο εντελώς διαφορετικούς ρόλους. Η βιβλιογραφία παρέχει ιδέες και νέες υποθέσεις. Ο πρωταρχικός σκοπός των επιστημονικών άρθρων είναι η αναφορά νέων αποτελεσμάτων, συνήθως προϊόντα πειραματικών πρωτοκόλλων, και η σύνδεση των νέων αυτών πληροφοριών με την υπάρχουσα γνώση στον υποκείμενο επιστημονικό 27

29 τομέα. Τα επιστημονικά άρθρα εκ τούτου αποτελούν τον σημαντικότερο τρόπο επικοινωνίας μεταξύ των ερευνητών. Στην σημερινή δίνη του γενομικού και μετά - γενομικού θριάμβου η δημοσίευση των ολοκληρωμένων γονιδιωμάτων των οργανισμών κάθε είδους αποτελεί ένα επιστημονικό γεγονός. Ολόκληρη η επιστημονική κοινότητα αναμένει με αγωνία να διαβάσει τις λεπτομέρειες των ολοκληρωμένων εργασιών και τα νέα απλώνονται με την ταχύτητα του φωτός χάρη στην αμεσότητα του παγκόσμιου ιστού. Ταυτόχρονα δεν θα πρέπει να αγνοούμε το γεγονός πως αυτή η βιβλιογραφία αποτελεί την βασική πηγή έρευνας και ανάλυσης των δεδομένων για τους ερευνητές του μέλλοντος, το δε περιεχόμενο των «γραμμένων» πια πληροφοριών δεν μπορεί ποτέ να σβηστεί, αλλά μόνο να ταξινομηθεί με την προσθήκη των νέων δεδομένων που οι επερχόμενες ανακαλύψεις θα επιφέρουν. Η δημοσιευμένη βιβλιογραφία των 234 ολοκληρωμένων γονιδιωμάτων που περιλαμβάνει η COGENT δεν ήταν διαθέσιμη στην βάση. Το πρώτο μέρος της μεταπτυχιακής εργασίας αποτελεί η προσθήκη της πληροφορίας αυτής στην βάση δεδομένων με τρόπο που να διευκολύνει τον ερευνητή που ενδιαφέρεται να μελετήσει με λεπτομέρεια την εργασία της ολοκλήρωσης ενός δεδομένου γονιδιώματος. Έτσι η COGENT θα είναι σε θέση να προσφέρει αυτή την επιπλέον υπηρεσία στον χρήστη της: την αυτόματη ανάκληση του δημοσιευμένου επιστημονικού άρθρου από την αντίστοιχη ερευνητική ομάδα που έφερε εις πέρας την δύσκολη εργασία της ολοκλήρωσης της αλληλούχισης του υπό ενδιαφέροντος γονιδιώματος. Και όλα αυτά με ένα απλό κλικ. 28

30 3.2 ΕΝΣΩΜΑΤΩΣΗ ΠΛΗΡΟΦΟΡΙΑΣ DNA ΑΛΛΗΛΟΥΧΙΑΣ ΣΤΗΝ ΒΑΣΗ COGENT Έχει ήδη αναφερθεί το γεγονός πως η βάση δεδομένων COGENT περιλαμβάνει 234 ολοκληρωμένα γονιδιώματα. Η πληροφορία αυτή είναι πολύ σημαντική για την συγκριτική γενωμική αλλά παρουσιάζει τον εξής περιορισμό: δεν περιλαμβάνει την DNA αλληλουχία τους. Υπάρχουν πηγές που παρέχουν την συγκεκριμένη πληροφορία, όπως για παράδειγμα η βάση δεδομένων GENBANK η οποία περιλαμβάνει πλήρη DNA αλληλουχία για όλα τα είδη με ολοκληρωμένα γονιδιώματα. Το πρόβλημα όμως με τα αρχεία αυτά της GENBANK είναι πως περιέχουν πολλές πληροφορίες οι οποίες τις περισσότερες φορές είναι μη επιθυμητές. Κάθε φορά που ένας ερευνητής χρειάζεται μια συγκεκριμένη πληροφορία, πρέπει να ψάξει μέσα σε ένα χαοτικό όγκο δεδομένων. Το αποτέλεσμα είναι τις περισσότερες φορές να χάνεται πολύτιμος χρόνος σε προσπάθειες εξ όρυξης της πληροφορίας που το μόνο που επιφέρουν είναι τον εκνευρισμό. Δεύτερος μέρος της μεταπτυχιακής εργασίας είναι η ενσωμάτωση της πολύ χρήσιμης πληροφορίας DNA αλληλουχιών στην βάση COGENT για την διευκόλυνση της διαδικασίας εξ όρυξης των δεδομένων από μεγάλες ομάδες δεδομένων, όπως είναι τα δεδομένα DNA αλληλουχιών. 29

31 ΚΕΦΑΛΑΙΟ 4 Μεθοδολογία 4.1 Η ενσωμάτωση της βιβλιογραφικής πληροφορίας στην βάση βιολογικών δεδομένων COGENT. Τα δεδομένα της βιβλιογραφικής ύλης των 234 ολοκληρωμένων γονιδιωμάτων που περιλαμβάνονται στην COGENT αναφέρονται στις δημοσιευμένες εργασίες που βγήκαν στην επιφάνεια σαν το αποτέλεσμα της ολοκλήρωσης της αλληλούχισης των γονιδιωμάτων τους. Στην συγκεκριμένη εργασία ο στόχος είναι η προσθήκη αυτών των δημοσιεύσεων στην COGENT και πηγή των άρθρων αποτέλεσε η γνωστή ιστοσελίδα Pubmed. Η Pubmed αποτελεί την online υπηρεσία στης Αμερικάνικης Εθνικής Βιβλιοθήκης της Ιατρικής (U.S. National Library of Medicine), η οποία περιλαμβάνει αυτή την στιγμή περισσότερες από 16 εκατομμύρια άρθρα δημοσιευμένα είτε από πάνω από 5000 εφημερίδες των επιστημών ζωής σε 70 χώρες του κόσμου. Είναι μια δημόσια βάση δεδομένων που σχεδιάστηκε από το Εθνικό Κέντρο Βιοτεχνολογικής Πληροφορίας (National Center for Biotechnology Information -NCBI) από την Αμερικάνικη Εθνική Βιβλιοθήκη της Ιατρικής (US National Library of Medicine) και αποτελεί τμήμα του συστήματος Entrez της NCBI. Χωρίς υπερβολή αποτελεί την πιο ολοκληρωμένη βάση δεδομένων δημοσιευμένων επιστημονικών εργασιών. Επίσης η Pubmed προσφέρει 30

32 συνδέσμους σε διαφορετικές ιστοσελίδες με πλήρη πρόσβαση σε ολόκληρα άρθρα καθώς και σχετικές πηγές. Η ενσωμάτωση των άρθρων από την Pubmed στην COGENT έγινε με βάση τον PMID. O PMID είναι ο μοναδικός για κάθε δημοσιευμένη εργασία κωδικός με τον οποίο η εργασία αποθηκεύεται στα αρχεία της Pubmed. Έτσι για κάθε ένα από τα άρθρα που περιλαμβάνονται στην Pubmed υπάρχει και ένας ξεχωριστός αριθμός PMID. Ομοίως για κάθε ένα από τα δημοσιευμένα άρθρα των 234 ολοκληρωμένων γονιδιωμάτων που μας ενδιαφέρουν υπάρχει ένας μοναδικός PMID. Οι 234 αυτοί PMID επιλέχθηκαν ένας - ένας από την Pubmed. Στη συνέχεια κατασκευάστηκε το αντίστοιχο αρχείο που περιλαμβάνει έναν πίνακα MySQL, στον οποίο κάθε ένα από τα 234 είδη της COGENT συνδέεται με το αντίστοιχο PMID του σχετικού άρθρου. Το αρχείο αυτό αυτόματα εμφανίζει μια καινούρια στήλη στην βάση COGENT η ονομασία της οποίας είναι PubMed UID. Στην στήλη αυτή εμφανίζονται οι PMID αριθμοί οι οποίοι με ένα απλό κλικ μας μεταφέρουν άμεσα στο αντίστοιχο άρθρο όπως αυτό εμφανίζεται στην Pubmed (Παράρτημα B). 4.2 Προσθήκη της πληροφορίας DNA αλληλουχίας στην βάση δεδομένων COGENT. Η βάση GenBank αποτελεί μια δημόσια βάση δεδομένων που εμπεριέχει τις DNA αλληλουχίες για περισσότερα από είδη οργανισμών, όπως αυτές κατοχυρώνονται στην βάση είτε από ανά τον κόσμο ανεξάρτητες ερευνητικές ομάδες είτε από την συνεργασία ινστιτούτων μεγάλης κλίμακας ανάλυσης αλληλούχισης 31

33 ολοκληρωμένων γονιδιωμάτων. Και αυτή η βάση έχει σχεδιαστεί από την Αμερικάνικη Εθνική Βιβλιοθήκης της Ιατρικής (U.S. National Library of Medicine) και συγκεκριμένα από το Εθνικό Ινστιτούτο Υγείας. Τα αρχεία που περιέχει η GenBank εμπεριέχουν την πληροφορία της DNA αλληλουχίας του γονιδιώματος κάθε οργανισμού. Το πρόβλημα όμως που ανακύπτει για κάποιον που επιθυμεί την χρήση αυτών των αρχείων είναι πως εμπεριέχουν «πολύ» πληροφορία από άποψη τόσο μεγέθους όσο και ποιότητας με αποτέλεσμα να είναι υποχρεωμένος να ανακαλύψει μέσα σε όλα αυτά τα δεδομένα βιολογικής πληροφορίας την αλληλουχία που τον ενδιαφέρει. Ας σημειωθεί πως ο μέσος όρος κάθε αρχείου στην GenBank είναι ΚΒ. Ένα μικρό δείγμα του μεγέθους των δεδομένων και της δυσκολίας εξ όρυξης της πληροφορίας με τρόπο μηχανικό ακολουθεί. Πρόκειται για το βακτήριο Acinobacter sp ADP1 και ένα λιγότερο από το 1/10 του αρχείου GenBank για την DNA αλληλουχία του οργανισμού είναι το εξής: LOCUS CR bp DNA circular BCT 17-APR-2005 DEFINITION Acinetobacter sp. ADP1 complete genome. ACCESSION CR VERSION CR GI: KEYWORDS complete genome. SOURCE Acinetobacter sp. ADP1 ORGANISM Acinetobacter sp. ADP1 Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales; Moraxellaceae; Acinetobacter. REFERENCE 1 (bases 1 to ) AUTHORS Barbe,V., Vallenet,D., Fonknechten,N., Kreimeyer,A., Oztas,S., Labarre,L., Cruveiller,S., Robert,C., Duprat,S., Wincker,P., Ornston,L.N., Weissenbach,J., Marliere,P., Cohen,G.N. and Medigue,C. TITLE Unique features revealed by the genome sequence of Acinetobacter sp. ADP1, a versatile and naturally transformation competent bacterium JOURNAL (er) Nucleic Acids Res. 32 (19), (2004) PUBMED REFERENCE 2 (bases 1 to ) AUTHORS Barbe,V., Vallenet,D., Fonknechten,N., Kreimeyer,A., Oztas,S., Labarre,L., Cruveiller,S., Robert,C., Duprat,S., Wincker,P., Ornston,L.N., Weissenbach,J., Marliere,P., Cohen,G.N. and Medigue,C. TITLE Direct Submission JOURNAL Submitted (29-JUN-2004) Genoscope - Centre National de Sequencage : BP EVRY cedex - FRANCE ( seqref@genoscope.cns.fr - Web : COMMENT Annotation data relative to COG assignations, enzymatic function prediction (PRIAM software), TMHMM and SignalP predictions, and synteny results (Syntonizer software) are available in 32

34 Acinetobacter database ( See this web site ( for more information on the overall project. Each annotation includes a confidence level as follow: 1 : Function experimentally demonstrated in the studied organism 2a : Function of homologous gene experimentally demonstrated in an other organism 2b : Function of strongly homologous gene 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homolgy 4 : Homolgs of previously reported genes of unknown function 5 : No homology to any previously reported sequences 6 : Doubtful CDS 7 : Gene remnant Classification of gene products by their type and by their cellular role(s) was made with the MultiFun system ( FEATURES Location/Qualifiers source /organism="acinetobacter sp. ADP1" /mol_type="genomic DNA" /strain="adp1" /db_xref="taxon:62977" gene /gene="dnaa" /locus_tag="aciad0001" CDS /gene="dnaa" /locus_tag="aciad0001" /function="dna replication (MultiFun:2.1.1)" /function="action unknown (MultiFun: )" /function="nucleoproteins, basic proteins (MultiFun:2.3.7)" /function="regulon (MultiFun:3.3.2)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type f : factor" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna replication initiator protein, transcriptional regulator of replication and housekeeping genes" /protein_id="cag " /db_xref="goa:q6fg21" /db_xref="interpro:ipr001957" /db_xref="interpro:ipr003593" /db_xref="gi: " /translation="mlwtdcltrlrqelsdnvfamwirplvaeettdslrlyapnpyw TRYIQEHHLELISILVEQLSEGRIRQVEILVDSRPGAILSPAEQPATTTAALSSTPVV PQRVKKEVVEPAATQSNKILNSKKRLLNPLFTFSLFVEGRSNQMAAETCRKVLTQLGA SQHNPLFLYGPTGLGKTHLMQAVGNALLQAKPNARVMYMTAESFVQDFVSSLQKGKVE EFKKNCRSLDLLLVDDIHLLAGKEASLVEFFYTFNALLDESKQIILTSDRYPKELTEL DPRLVSRFSWGLSVGVEPPDIETRIEILLKKAENSGVDLPRNCALFIAQQVVANVREL EGALNKVVAIARFKGSQIDLDVVRESLKDVLAIRARTISVENIQRVVSEYFRIPLKEL IGPKRTRIYARPRQLAMGLARELTGDSFPEIGMAFGGRDHSTVMHACEKVQSLKQEDP IFNEDYKNLLRLLQS" gene /gene="dnan" /locus_tag="aciad0002" CDS /gene="dnan" /locus_tag="aciad0002" /EC_number=" " /function="dna replication (MultiFun:2.1.1)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" 33

35 /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna polymerase III, beta chain" /protein_id="cag " /db_xref="goa:q6fg20" /db_xref="interpro:ipr001001" /db_xref="gi: " /translation="mrlkiakesllnvlshvvgaverrhtlnilsnvkiqanaqalti TGSDLEVELVASTTLAEGACIEAGETTVPARKLVDICKSLPSAALIDLQITEDQRCIL KSGNSRFVLGTLPAEDYPLLTTESSQGTQVQVTQRELKRLFEKTSFAMAVQDVRFYLT GTLLEIDQNQLRAVTTDGHRLALCEVQASSTAMQAVQAIVPRKAVGELQRLLSIEDDQ LSLLIGRELLNVTINIANRDKEQHPITVRFTTKLIDGKFPDYRRVIPRGGDKHVQIAH DVFKQSLQRVAILSNEKLRGVFLNFNPDVLQLRANNPEQDEAIEDIAIQYQDASLEMS FNAQYLLDVLSVLDGDDVSMSMTEANQSVLVQDAAHPDQTYVVMPMRV" gene /gene="recf" /locus_tag="aciad0003" CDS /gene="recf" /locus_tag="aciad0003" /function="dna recombination (MultiFun:2.1.3)" /function="dna repair (MultiFun:2.1.4)" /function="dna replication (MultiFun:2.1.1)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna replication, recombinaison and repair protein" /protein_id="cag " /db_xref="goa:q6fg19" /db_xref="interpro:ipr001238" /db_xref="interpro:ipr003395" /db_xref="interpro:ipr003439" /db_xref="gi: " /translation="mqitrlniervrnlkavalsglqpfnifygangsgktsileavh LLATGRSFRTHMPKHYIQQNAQDAIIFAQSLSEKIGMQKLLSGEQLIKVNGDTVATQG QLAKLLPLQHLDPQSTDIIDHGAKPRRQLLDWLMFHVEPEFYFAWQYYSRALKQRNML LKTKRQLSLAELEPWNKMLSEYGEMLHSQRLVTVERWKDFFQQDLAQLLPDLQIELEY SPGFHSEVGLWQDLLNYHNKDVERRYTEYGPHRADLRLKTALGDADDVLSRGQKKLLM MALKLSQIAMLHASNKETVVLLDDLTAELDSNAQRRLIERLSQLGSQVFITTLDHQAV TQHLDGLSISYQLYNVDHGQVHAV" gene /gene="gyrb" /locus_tag="aciad0004" CDS /gene="gyrb" /locus_tag="aciad0004" /EC_number=" " /function="dna bending, supercoiling, inversion (MultiFun: )" /function="dna replication (MultiFun:2.1.1)" /function="transcription related (MultiFun:2.2.2)" /note="evidence 2a : Function of homologous gene experimentally demonstrated in an other organism; Product type e : enzyme" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="dna gyrase, subunit B (type II topoisomerase)" /protein_id="cag " /db_xref="goa:q6fg18" /db_xref="interpro:ipr001241" /db_xref="interpro:ipr002288" /db_xref="interpro:ipr003594" 34

36 gene CDS /db_xref="interpro:ipr006171" /db_xref="interpro:ipr011557" /db_xref="interpro:ipr011558" /db_xref="gi: " /translation="mssesqsaspteqtiekaydsssikvlrgldavrkrpgmyigdt DDGTGLHHMVFEVVDNAIDEALAGHCDEIIVTIHEDESVSVSDNGRGIPTDIHPEEGV SAAEVILTILHAGGKFDDNSYKVSGGLHGVGVSVVNALSSKLQLTIHRAGQIHEQEYQ HGDPQYPLKVVGETSTTGTTVRFWPSGDTFSQTIFNVDILARRLRELSFLNAGVKIVL RDERVNFEHIYAYEGGLSEFVKYINEGKNHLNDIFHFTADSDNGIAVEVALQWNDSYQ ENVRCFTNNIPQKDGGTHLAGFRAALTRGLNSYLENENILKKEKVNVSGDDAREGLTA IISVKVPDPKFSSQTKEKLVSSEVKPAVEQAMNKEFSAYLLENPQAAKSIAGKIIDAA RARDAARKAREMTRRKSALDIAGLPGKLADCQEKDPALSELYLVEGDSAGGSAKQGRN RKMQAILPLKGKILNVERARFDKMISSQEVGTLITALGCGIGREEYNPDKLRYHKIII MTDADVDGSHIRTLLLTFFFRQMPELVERGHIYIAQPPLYKLKKGKQEQYIKDNDALE TFLISNAIDDLALHISAEAPAITGEALAKVIDDYKISQKSLQRLTQRYPATLLDGLLE VEPFKADLSHDRPYVEQWAEQLGQVIAKLQPSLRPEVSLESFERESPTGETSIHCWPR ITVYVHNLPHHYLLDAGLLNSAEYARLLKNSKSWFKLLEEGAYLQKGERRIQVSNFHQ VWQQILQDSRRGMMIQRYKGLGEMNAEQLWETTMDPDNRHMLQVTIDDAIEADRMFSC LMGDDVEPRRAFIEENALNADIDA" complement( ) /locus_tag="aciad0005" complement( ) /locus_tag="aciad0005" /note="evidence 4 : Homolgs of previously reported genes of unknown function" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="conserved hypothetical protein" /protein_id="cag " /db_xref="gi: " /translation="maninlqdiqhhaevigsdrqhvgtvdhldgqdkiklakndqaa QGQHHYIPTQWVQQIQGNQVVLNKTAEQVFQQWQ" gene /locus_tag="aciad0006" CDS /locus_tag="aciad0006" /note="evidence 5 : No homology to any previously reported sequences" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="hypothetical protein" /protein_id="cag " /db_xref="gi: " /translation="miycwidcvnqsgelfwsfndllktvvivclvirlwlflgllcc ACVRLYGILIKT" gene CDS complement( ) /locus_tag="aciad0007" complement( ) /locus_tag="aciad0007" /function="abc superfamily ATP binding cytoplasmic component (MultiFun:4.3.A.1.a)" /note="evidence 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homolgy; Product type pt : putative transporter" /codon_start=1 /inference="non-experimental evidence, no additional details recorded" /transl_table=11 /product="putative transport protein (ABC superfamily, atp_bind)" /protein_id="cag " /db_xref="goa:q6fg15" /db_xref="interpro:ipr003439" /db_xref="interpro:ipr003593" /db_xref="gi: " /translation="miqldqfsvrrggrvlfqkasmqlhpgwkigltgvngagkstlf SALLGGIESDSGSLSRPNVWTVAHMAQEIKALNMKAIDFVLSGDEEYWTIQHQLEHPE 35

Δείτε περισσότερα