Εργαστηριακές Ασκήσεις Υπολογιστικής Βιολογίας και Βιοπληροφορικής. Βασίλης Προμπονάς

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εργαστηριακές Ασκήσεις Υπολογιστικής Βιολογίας και Βιοπληροφορικής. Βασίλης Προμπονάς"

Transcript

1 Εργαστηριακές Ασκήσεις Υπολογιστικής Βιολογίας και Βιοπληροφορικής Βασίλης Προμπονάς Λευκωσία, 2009

2 ii

3 Περιεχόμενα Πρόλογος v I Θεωρητικό μέρος 1 1 Βάσεις δεδομένων μοριακής βιολογίας Λίγη ιστορία Στόχος Τί είναι μια βάση δεδομένων; Χαρακτηριστικά βιολογικών ΒΔ Κατηγορίες ΒΔ μοριακής βιολογίας Κατηγορίες ΒΔ: Τύποι δεδομένων Κατηγορίες ΒΔ: Μοντέλο λειτουργίας Κατηγορίες ΒΔ: Τεχνικά χαρακτηριστικά Κατηγορίες ΒΔ: Πηγή δεδομένων Κατηγορίες ΒΔ: Μέθοδος πρόσβασης Κατηγορίες ΒΔ: Άλλες παράμετροι Συστήματα ενοποίησης βιολογικών δεδομένων Βάσεις δεδομένων αλληλουχιών ΒΔ νουκλεοτιδικών αλληλουχιών EMBL GenBank DDBJ INSDC Κωδικοί καταχώρησης - accession numbers Μορφοποίηση δεδομένων νουκλεοτιδικών αλληλουχιών iii

4 iv ΠΕΡΙΕΧΟΜΕΝΑ Δευτερογενείς ΒΔ νουκλεοτιδικών αλληλουχιών ΒΔ αμινοξικών αλληλουχιών UniProt Knowledgebase - UniProtKB Δευτερογενείς ΒΔ Βάσεις δομικών δεδομένων Εισαγωγή Protein Data Bank - PDB ( Μορφοποίηση καταγραφών της PDB Ταξινόμηση πρωτεϊνικών διπλωμάτων Το σύστημα δομικής κατηγοριοποίησης SCOP Το σύστημα δομικής κατηγοριοποίησης CATH Συστήματα ενοποιημένης πρόσβασης SRS Entrez II Πρακτικό μέρος 65 5 Διαδικτυακές πηγές για τη μοριακή βιολογία Ερωτήσεις με βάση το κείμενο του φυλλαδίου Ανάκτηση δεδομένων από βιολογικές βάσεις δεδομένων NCBI - Entrez EBI - SRS Δομικές Βάσεις Δεδομένων BONUS!! Παράρτημα: Μορφοποίηση PDB 71

5 Πρόλογος Μόλις τελείωσε μια κουραστική ημέρα στο εργαστήριο! Απομονώσατε ένα άγνωστο τεμάχιο DNA από μια πηκτή (gel) και η αλληλούχισή του φαίνεται ότι προχώρησε τέλεια σύμφωνα με το πρωτόκολλο που ακολουθήσατε. Παρόλη τη σκληρή δουλειά, δε γνωρίζετε ακόμη εάν το DNA αυτό αποτελεί τμήμα ενός ήδη γνωστού γονιδίου, για την πιθανή κυτταρική λειτουργία του, για ομόλογά του σε άλλους οργανισμούς, για το προϊόν του στο κύτταρο και τα μόρια με τα οποία αλληλεπιδρά ώστε να λειτουργήσει με τον τρόπο που είναι επιθυμητό. Ακόμα χειρότερα, δε γνωρίζετε εάν η αλληλουχία που προσδιορίσατε έχει επιμολυνθεί από το φορέα κλωνοποίησης που χρησιμοποιήσατε. Σκοπός των εργαστηριακών ασκήσεων Υπολογιστικής Βιολογίας και Βιοπληροφορικής 1 που περιγράφονται αναλυτικά στα επόμενα είναι να διδαχτείτε συνοπτικά μεθοδολογίες, εργαλεία λογισμικού και διαδικτυακές πηγές που μπορούν να σας οδηγήσουν στο να απαντήσετε σε ερωτήματα όπως τα παραπάνω. Το σημαντικότερο είναι ότι θα τα χρησιμοποιήσετε κιόλας! 1 Στο φυλλάδιο αυτό περιλαμβάνονται εισαγωγικές ασκήσεις για την εξοικείωση σας με μερικές από τις πιο βασικές διαδικτυακές πηγές που σχετίζονται με τη μοριακή βιολογία και τα κυριότερα εργαλεία που μπορείτε να χρησιμοποιείτε για να ανακτήσετε δεδομένα από αυτές. Περισσότερο εξειδικευμένες ασκήσεις θα ακολουθήσουν στο εργαστηριακό μέρος του μαθήματος BIO 331-Αρχές και Μέθοδοι Βιοπληροφορικής I στο επόμενο εξάμηνο. Κάντε υπομονή λοιπόν! v

6 vi ΠΡΟΛΟΓΟΣ

7 Μέρος I Θεωρητικό μέρος 1

8

9 Κεφάλαιο 1 Βάσεις δεδομένων μοριακής βιολογίας 1.1 Λίγη ιστορία... Οι βιολογικές επιστήμες είναι αναμφισβήτητα ο επιστημονικός κλάδος που συγκεντρώνει τα βλέματα παγκοσμίως. Πέρα από το καθόλου ευκαταφρόνητο βάρος της διανοητικής διαδικασίας της κατανόησης των μηχανισμών που διέπουν τη ζωή σε όλα τα επίπεδά της (κύτταρα, ιστοί, οργανισμοί, οικοσυστήματα), καθοριστικό ρόλο για τη σημαντική θέση των βιολογικών επιστημών έχει φυσικά παίξει η συνεισφορά τους στη βελτίωση της ποιότητας της ανθρώπινης ζωής. Εκτός από τις προφανείς καθαρά ιατρικές εφαρμογές της βασικής βιολογικής έρευνας, η συσσωρευμένη γνώση των βιολογικών συστημάτων ήδη παρέχει πιθανούς τρόπους εξεύρεσης λύσεων σε καίρια προβλήματα που απασχολούν το σύγχρονο άνθρωπο: παραγωγή ενέργειας φιλικής προς το περιβάλλον, εξεύρεση νέων βελτιωμένων μεθόδων παραγωγής τροφίμων, αειφόρος διαχείριση του περιβάλλοντος κτλ. Η μεγάλη αλλαγή η οποία έχει υπεισέθλει στις βιολογικές επιστήμες τα τελευταία χρόνια και η οποία καθιστά δυνατές τις παραπάνω εφαρμογές, έχει κυρίως να κάνει με τη δυνατότητα της ποσοτικοποίησης μετρήσιμων παραμέτρων των βιολογικών συστημάτων και μάλιστα σε μεγάλη κλίμακα. Σε αντιδιαστολή με παραδοσιακές πρακτικές κατά τις οποίες, με βάση τον αναγωγισμό, η μελέτη των πολύπλοκων συστημάτων που αποτελούν αντικείμενο της βιολογικής έρευνας 3

10 4 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ πραγματοποιείται με μελέτη των συνιστωσών τους, νέες τεχνολογικές ανακαλύψεις παρέχουν τη δυνατότητα ολιστικής μελέτης των βιολογικών συστημάτων. Αυτή η αλλαγή παραγείγματος, συνοδεύεται από την εκκρηκτική αύξηση του όγκου των παραγόμενων δεδομένων, τοποθετώντας τις βιολογικές επιστήμες στην κατηγορία των επιστημονικών κλάδων πλούσιων σε πληροφορίες (informationrich). Προκειμένου να μετατρέψουμε αυτά τα δεδομένα σε πραγματικά αξιοποιήσημη γνώση, οφείλουμε να έχουμε αξιόπιστους και αποδοτικούς μηχανισμούς διαχείρισης (αποθήκευσης, ανάκλησης, ενημέρωσης) και ανάλυσης. Το πεδίο της βιολογικής έρευνας το οποίο καλύπτει αυτές τις ανάγκες είναι το πεδίο της βιοπληροφορικής. Με τη συστράτευση δυνάμεων από διαφορετικά γνωστικά πεδία (βιολογία, πληροφορική, στατιστική, φυσική, χημεία, μηχανική) η βιοπληροφορική έχει καταστήσει εφικτή τη μετάβαση στη νέα βιολογία που αναμένεται να επικρατήσει τον 21ο αιώνα. Η ιστορία των βάσεων δεδομένων (ΒΔ) στις βιολογικές επιστήμες συχνά συνδέεται με τη δουλειά της Margaret Dayhoff ( ) και των συνεργατών της (εργάζονταν στο National Biomedical Research Foundation - Protein Information Resource/ NBRF-PIR, Washington DC), οι οποίοι στις αρχές της δεκαετίας του 1960 συγκέντρωσαν όλες τις γνωστές πρωτεϊνικές αλληλουχίες που ήταν γνωστές εκείνη την εποχή. Η εργασία αυτή δημοσιεύτηκε (σε διάφορους τόμους) με την oνομασία Atlas of Protein Sequence and Structure 1 (Εικόνα 1.1). Όταν μέσα στη δεκαετία του 1970 συγκεντρώθηκε επίσης σημαντικό πλήθος νουκλεοτιδικών αλληλουχιών, συμπεριλήφθηκαν και αυτές στον Άτλαντα. Εκτός από τις αλληλουχίες καθεαυτές, για κάθε πρωτεΐνη καταχωρούνταν συνοδευτικές πληροφορίες με τη μορφή κειμένου σχετικά με τη γνώση για την εξέλιξη και τη δομή αρκετών πρωτεϊνικών οικογενειών. Σύντομα, το πλήθος των πληροφοριών κατέστη τόσο μεγάλο, ώστε η έντυπη μορφή διανομής του Άτλαντα δεν ήταν πρακτική και έτσι, η PIR ξεκίνησε τη διανομή του σε ηλεκτρονική μορφή, παρέχοντας μάλιστα πολύ απλό λογισμικό το οποίο μπορούσε να χρησιμοποιηθεί για την αναζήτηση και ανάλυση των δεδομένων. Η έλευση των ΒΔ νουκλεϊκών οξέων πραγματοποιήθηκε πολύ αργότερα, επίσημα το 1982, αρχικά από το Ευρωπαϊκό Ινστιτούτο Μοριακής Βιολογίας (European 1 Γι αυτό δεν είναι τυχαίο ότι η Dayhoff θεωρείται μεταξύ των πρωτοπόρων της βιοπληροφορικής...

11 1.1. ΛΙΓΗ ΙΣΤΟΡΙΑ... 5 Εικόνα 1.1: Η πρώτη ΒΔ βιολογικών ακολουθιών. Αναλογιστείτε πόσο χαρτί (και αποθηκευτικός χώρος) θα χρειαζόταν ώστε να είχαμε τις σύγχρονες βιολογικές ΒΔ σε αυτή τη μορφή! Molecular Biology Laboratory - EMBL) και λίγο αργότερα από τη GenBank 2. Πλέον, ο προσδιορισμός της αλληλουχίας των βάσεων νουκλεϊκών οξέων ξεκίνησε την ξέφρενη κούρσα (την οποία σε αυξημένο ρυθμό ζούμε και σήμερα) και ολοένα και μεγαλύτερο πλήθος νουκλεοτιδικών αλληλουχιών κατατίθεται καθημερινά από ερευνητικές ομάδες από όλον τον κόσμο. Βέβαια, στην πορεία, ακολούθησε η ίδρυση/ανάπτυξη ολοένα και μεγαλύτερου πλήθους ΒΔ με επίκεντρο τις βιολογικές επιστήμες. Δεν είναι τυχαίο ότι ένα από τα πολύ έγκυρα περιοδικά στο ευρύτερο πεδίο της μοριακής βιολογίας, το Nucleic Acids Research ( αφιερώνει τα τελευταία χρόνια ένα ολόκληρο ειδικό τεύχος (το οποίο εκδίδεται στη αρχή κάθε χρόνου) στο οποίο παρουσιάζονται επιλεγμένες ΒΔ σχετικές με τη μοριακή βιολογία (μόνο...). 2 Σύντομα, ακολούθησαν και οι Ιάπωνες συνάδελφοι με τη DDBJ. Ευτυχώς έγινε γρήγορα αντιληπτό ότι ο συντονισμός των προσπαθειών ήταν απαραίτητος και έτσι το 1988 οι τρεις ΒΔ άρχισαν τη συνεργασία (δείτε τα επόμενα).

12 6 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 1.2 Στόχος Στόχος αυτού του κεφαλαίου είναι να παρέχει ορισμένα βασικά στοιχεία που αφορούν ένα σημαντικό εύρος από κοινά χρησιμοποιούμενες μεθόδους, βάσεις δεδομένων και εργαλείων, τα οποία βρίσκονται διαθέσιμα για ελεύθερη χρήση στο διαδίκτυο. Πριν αρχίσει κανείς να χρησιμοποιεί αυτές τις διαδικυακές πηγές είναι απαραίτητο να γνωρίζει τα χαρακτηριστικά των ΒΔ, να κατανοεί τον τρόπο αποθήκευσης δεδομένων σε μια ΒΔ, να γνωρίζει σε βασικό επίπεδο τη χρήση των πιο κύριων συστημάτων ανάκτησης δεδομένων, να γνωρίζει τις βασικές ΒΔ μοριακής βιολογίας. Σε πιο προχωρημένο επίπεδο απαιτείται η γνώση του σχεδιασμού και υλοποίησης μιας ΒΔ της διαχείρισης μιας ΒΔ Φυσικά, πρώτα από όλα, οφείλει κανείς να γνωρίζει τι είναι γενικά μια ΒΔ. Σε αυτό το ερώτημα απαντά η αμέσως επόμενη ενότητα. 1.3 Τί είναι μια βάση δεδομένων; Υπάρχουν (τουλάχιστον) τρία διαφορετικά νοήματα που μπορεί να εκφράζει ο όρος βάση δεδομένων. Το πρώτο και πιο διαδεδομένο είναι αυτό μιας οργανωμένης συλλογής σχετιζόμενων μεταξύ τους πληροφοριών. Ο όρος επίσης μπορεί (ατυχώς 3 ) να αναφέρεται σε ένα πρόγραμμα λογισμικού το οποίο χρησιμοποιείται για την επίτευξη αυτής της παραπάνω οργάνωσης των δεδομένων και την αναζήτησή τους. Ένας τρίτος και ίσως περισσότερο ατυχής ορισμός (ο οποίος 3 Στα επόμενα θα καταλάβετε ότι αυτή η σημασία ταιριάζει καλύτερα με ένα σύστημα διαχείρισης βάσεων δεδομένων, οπότε μπορεί να θεωρηθεί ότι πρόκειται για μια ατυχή συντόμευση αυτού του όρου, αφού από τεχνική πλευρά αυτό είναι απλά το λογισμικό μέρος της υλοποίησης μιας ΒΔ.

13 1.3. ΤΙ ΕΙΝΑΙ ΜΙΑ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ; 7 δυστυχώς χρησιμοποιείται αρκετά συχνά) οριζει ως ΒΔ ένα σύνολο αρχείων που βρίσκονται αποθηκευμένα σε ένα υπολογιστικό σύστημα. Σύμφωνα με αυτόν τον ορισμό, ένας κατάλογος (folder/directory) ο οποίος περιέχει αρχεία με αλληλουχίες, θεωρείται από ορισμένους ως μια ΒΔ. Είναι ξεκάθαρο από τα παραπάνω, ότι θα κρατήσουμε τον πρώτο ορισμό, ο οποίος δίνει σε μια ΒΔ πολύ περισσότερα χαρακτηριστικά από τις πληροφορίες που περιέχει. Και αυτό επιτυγχάνεται με την οργάνωση. Τα δεδομένα αποθηκεύονται με συστηματικό τρόπο, έτσι ώστε ένα κατάλληλο σύστημα λογισμικού να έχει τη δυνατότητα να πραγματοποιεί σύνθετες πολλές φορές αναζητήσεις και να μπορεί να ανακτά τις εγγραφές εκείνες που ανταποκρίνονται στους όρους της αναζήτησης, αλλά και να αλληλεπιδρά και με άλλους τρόπους διαμορφώνοντας το περιχόμενο της ΒΔ. Κεντρικό θέμα σε μια ΒΔ είναι η ίδια η συλλογή των πληροφοριών. Τυπικά, για μια ορισμένη ΒΔ, υπάρχει μια δομική περιγραφή που καθορίζει ποια είναι τα αντικείμενα τα οποία παριστάνονται στη ΒΔ και τις μεταξύ τους σχέσεις: αυτή η περιγραφή ονομάζεται σχήμα (schema). Το σχήμα μιας ΒΔ στην ουσία καθορίζει τον τρόπο με τον οποίο επιτυγχάνεται η οργάνωση των δεδομένων. Υπάρχουν διάφοροι τρόποι με τους οποίους μπορούμε να συστηματοποιήσουμε ένα σχήμα, δηλαδή να έχουμε ένα πρότυπο (ή αλλοιώς μοντέλο) της δομής της ΒΔ: αυτά ονομάζονται μοντέλα ΒΔ (ή μοντέλα δεδομένων). Ένα πολύ απλό και συνηθισμένο μοντέλο ΒΔ είναι το σχεσιακό μοντέλο. Οι ΒΔ που ακολουθούν αυτό το πρότυπο οργανώνονται σε πεδία, εγγραφές και πίνακες. Ένα πεδίο είναι ένα απλό τεμάχιο πληροφορίας, ενώ μια εγγραφή αποτελεί ένα πλήρες σύνολο πεδίων. Αντίστοιχα, ένας πίνακας με βάση αυτό μοντέλο αποτελεί μια συλλογή (ομοειδών) εγγραφών. Ακόμα και με αυτό το σχετικά απλό μοντέλο, μπορεί να αναπαρασταθεί σχεδόν οποιαδήποτε σχέση μεταξύ οποιωνδήποτε συλλογών δεδομένων. Οι ΒΔ είναι εξαιρετικά χρήσιμα εργαλεία σε όλα τα πεδία της σύγχρονης ζωής, και κατ επέκταση και σε όλο το εύρος των βιολογικών επιστημών: στην οικολογία, τη μοριακή βιολογία, τη μικροβιολογία, τη γονιδιωματική, την αναπτυξιακή βιολογία κτλ. Μέσα από την ανάπτυξη κατάλληλλων ΒΔ παρέχονται σημαντικά εφόδια στα οποία οι επιστήμονες μπορούν να αναζητήσουν απαντήσεις σε πολλά και ποικίλα ερωτήματα.

14 8 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 1.4 Χαρακτηριστικά βιολογικών ΒΔ Τα βιολογικά δεδομένα, και κατά συνέπεια και οι αντίστοιχες ΒΔ, έχουν ορισμένα κοινά χαρακτηριστικά. Πολύπλοκοι τύποι δεδομένων: τα δεδομένα της πειραματικής μοριακής βιολογίας 4 μπορεί, για παράδειγμα, να είναι οι αλληλουχίες βιολογικών μακρομορίων (DNA, RNA, πρωτεΐνες) ή οι τρισδιάστατες δομές τους, δυαδικά αρχεία εικόνων από κύτταρα, ιστούς ή δεδομένα από πειράματα μικροσυστοιχιών, κτλ. Τα δεδομένα αυτά, είναι δυνατόν να συσχετίζονται μεταξύ τους με ποικίλους και ορισμένες φορές μη-προφανείς τρόπους. Ιεραρχική οργάνωση δεδομένων: οι βιολογικές ΒΔ συχνά περιέχουν δεδομένα τα οποία περιγράφουν τα βιολογικά συστήματα σε διαφορετικό επίπεδο, π.χ. μόρια, μοριακά μονοπάτια, κύτταρα, ιστοί, οργανισμοί, πληθυσμοί. Ετερογένεια: οι περισσότερες βιολογικές ΒΔ έχουν ετερογενή χαρακτηριστικά. Τόσο ως προς τα γενικά στοιχεία τους (μέγεθος, τρόπος υλοποίησης κλπ.) όσο και ως προς τα τεχνικά χαρακτηριστικά τους (μορφοποίηση αποθήκευσης, τρόπος πρόσβασης). Δυναμικό περιεχόμενο: δεδομένης της αλματώδους ανάπτυξης των τεχνικών απόκτησης των δεδομένων, οι βιολογικές ΒΔ απαιτείται να ενημερώνονται διαρκώς. Αυτό πρακτικά υλοποιείται τόσο με την προσθήκη νέων εγγραφών και τη διόρθωση παλαιοτέρων όσο και με την ανάγκη ενσωμάτωσης νέων τύπων δεδομένων όταν αυτά γίνονται διαθέσιμα. Ένα χαρακτηριστικό εξέχουσας σημασίας για την πρόοδο που συντελείται στις βιολογικές επιστήμες είναι η ελεύθερη προσβασιμότητα, η οποία παρέχεται συνήθως μέσω του διαδικτύου. Το πως ακριβώς έχει επιτευθεί αυτό θα το δείτε στα επόμενα. Καίριας επίσης σημασίας είναι η ποιότητα των δεδομένων, η οποία εξασφαλίζεται τόσο πιο δύσκολα όσο αυξάνει ο όγκος των δεδομένων. 4 Στο σημείο αυτό, ας ξεκαθαρίσουμε ότι όταν μιλάμε για πειραματική βιολογία αναφερόμαστε για εργαστηριακό πειραματισμό (wet lab experiments) ή έρευνα πεδίου (field research) δίχως να υπονοείται ότι η βιοπληροφορική δεν είναι πειραματική επιστήμη. Η μόνη διαφορά είναι ότι οι βιοπληροφορικοί δεν πραγματοποιούν (συνήθως) πειράματα in vivo ή in vitro αλλά in silico.

15 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Κατηγορίες ΒΔ μοριακής βιολογίας Οι ΒΔ που μας ενδιαφέρουν και υπάρχουν σήμερα μπορούν να κατηγοριοποιηθούν με βάση διάφορα χαρακτηριστικά, όπως τον τύπο δεδομένων, τον οργανισμό/ομάδα που έχει την ευθύνη για τη λειτουργία και την ενημερωσή της, τα τεχνικά της χαρακτηριστικά, την πηγή των δεδομένων, τη μέθοδο πρόσβασης, άλλες παραμέτρους Κατηγορίες ΒΔ: Τύποι δεδομένων Ο παρακάτω κατάλογος σίγουρα δεν είναι εξαντλητικός αλλά απεικονίζει σε μεγάλο βαθμό την ποικιλομορφία των βιολογικών ΒΔ ΒΔ ταξινομικής Γονιδιωματικές βάσεις δεδομένων Κατάλογοι προγραμμάτων προσδιορισμού αλληλουχίας γονιδιωμάτων ΒΔ γονιδιωμάτων σχετιζόμενων ταξινομικών ομάδων Βάσεις δεδομένων αλληλουχιών ΒΔ νουκλεοτιδικών αλληλουχιών ΒΔ αμινοξικών αλληλουχιών Δομικές ΒΔ ΒΔ πρωτεωμικής ΒΔ μικροσυστοιχιών Χημικές ΒΔ ΒΔ γονιδιακής έκφρασης

16 10 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Ενζυμικές ΒΔ ΒΔ μονοπατιών (μεταβολικών και σηματοδότησης) Βιβλιογραφικές ΒΔ Εξειδικευμένες ΒΔ Κατηγορίες ΒΔ: Μοντέλο λειτουργίας Οι οντότητες εκείνες που έχουν την ιδιοκτησία και τη δικαιοδοσία για τη συντήρηση των δεδομένων μπορεί να είναι από μεμονωμένοι ερευνητές ή μικρές ερευνητικές μονάδες, μέχρι διεθνείς συμπράξεις ερευνητικών ομάδων ή ακόμη και ολόκληρων ερευνητικών κέντρων! Κρατικοί ή άλλοι οργανισμοί (π.χ. το NCBI (U.S.A), το EBI (E.U.) ή το SIB (Ελβετία)) συχνά συντηρούν ολόκληρες συλλογές βιολογικών ΒΔ και παρέχουν πρόσβαση σε αυτές μέσω των εξυπηρετητών (servers) τους 5. NCBI ( Το Εθνικό Κέντρο για τις Βιοτεχνολογικές Πληροφορίες (National Center for Biotechnology Information - NCBI) αποτελεί οργανική μονάδα της Εθνικής Ιατρικής Βιβλιοθήκης (National Library of Medicine - NLM) των Εθνικών Ινστιτούτων Υγείας (National Institutes of Health - NIH), μιας ομοσπονδιακής υπηρεσίας των Ηνωμένων Πολιτειών της Αμερικής. Ο δικτυακός τόπος του NCBI παρέχει τη μηχανή αναζήτησης Entrez, η οποία παρέχει ενοποιημένη πρόσβαση σε μια μεγάλη ποικιλία βιολογικών ΒΔ. Αποστολή του NCBI αποτελεί η εξασφαλισμένη ελεύθερη πρόσβαση στα ολοένα αυξανόμενου όγκου δεδομένα μοριακής βιολογίας και σχετιζόμενων πεδίων. EBI ( Το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (European Bioinformatics Institute - EBI) είναι ένα ακαδημαϊκό, μη-κερδοσκοπικό ίδρυμα, και αποτελεί παράρτημα του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (European Molecular Biology Laboratory - EMBL) και οι εγκαταστάσεις του βρίσκονται 5 Να σημειωθεί ότι συχνά ιδιωτικές εταιρίες του ευρύτερου πεδίου της βιοτεχνολογίας παρέχουν εμπορικές ΒΔ (φυσικά με την απαιτούμενη οικονομική απαίτηση) είτε για να προσφέρουν τη ΒΔ μαζί με εξειδικευμένα εργαλεία ανάκτησης και ανάλυσης είτε για να προσφέρουν πρόσβαση σε ιδιόκτητα δεδομένα.

17 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 11 στο Hinxton, Cambridge, U.K. Παρέχει μεταξύ άλλων προσβαση σε διαδικτυακό λογισμικό και ΒΔ νουκλεοτιδικών και αμινοξικών αλληλουχιών, πρωτεϊνικών δομών και με τη βοήθεια του λογισμικού SRS παρέχει τη δυνατότητα εκτέλεσης επερωτήσεων (queries) σε συνδυασμούς των διαθέσιμων βάσεων δεδομένων. Το EBI έχει αναλάβει τα τελευταία χρόνια τη συντήρηση της βάσης δεδομένων νουκλεοτιδίων EMBL και η κύρια πηγή χρηματοδότησής του είναι κονδύλια που προέρχονται από τα κράτη τα οποία συμμετέχουν στο EMBL. SIB ( Το Ελβετικό Ινστιτούτο Βιοπληροφορικής (Swiss Institute of Bioinformatics - SIB) είναι ένα ακαδημαϊκό, μη-κερδοσκοπικό ίδρυμα που ιδρύθηκε το Το SIB συντονίζει τις ερευνητικές και εκπαιδευτικές δραστηριότητες που σχετίζονται με τη βιοπληροφορική σε όλη την Ελβετία και έχει στόχο να προσφέρει υπηρεσίες βιοπληροφορικής υψηλής ποιότητας στην ελβετική και τη διεθνή ερευνητική κοινότητα Κατηγορίες ΒΔ: Τεχνικά χαρακτηριστικά Για έναν επιστήμονα της πληροφορικής, το να αναπτύξει μια εξειδικευμένη βάση βιολογικών δεδομένων μπορεί να αποδειχθεί μια εξαιρετικά επίπονη και δύσκολη διαδικασία και οι λόγοι για αυτό μπορεί να ποικίλουν. Τα περισσότερα πεδία τα οποία απαιτούνται μπορεί να έχουν δυσνόητη σημασία για κάποιον χωρίς το απαιτούμενο βιολογικό υπόβαθρο 6. Επίσης είναι δυνατόν να υπάρχουν πολλοί και διαφορετικοί τύποι συσχετίσεων ανάμεσα στα διάφορα αντικείμενα. Ορισμένες φορές ο πλεονασμός 7 είναι επιθυμητός (όπως όταν για παράδειγμα μας ενδιαφέρει να έχουμε ένα πλήρη κατάλογο γονιδίων ή πρωτεϊνών από διαφορετικούς οργανισμούς), ενώ άλλες φορές ανεπιθύμητος. Εξαιρετικά σημαντικό είναι και το γεγονός του ελέγχου της ποιότητας των δεδομένων, κάτι το οποίο ορισμένες φορές είναι πολύ δύσκολο να γίνει (άλλες φορές πάλι είναι απλά αδύνατο!). Μεγάλο πλήθος βιολογικών ΒΔ είναι ελεύθερα διαθέσιμες μέσω του διαδικτύου. Αυτό προϋποθέτει ότι σχεδιάζονται με το σκεπτικό αυτό. Παρόλα αυτά, επειδή 6 Πώς είναι δυνατόν να κατασκευάσει κάποιος μια σχεσιακή ΒΔ η οποία να έχει ως εγγραφές γονίδια, εξόνια, υποκινητές κτλ. εάν δε γνωρίζει τι ακριβώς είναι οι έννοιες αυτές... 7 Πλεονασμός (redundancy) είναι η κατάσταση εκείνη στην οποία σε ένα σύνολο δεδομένων έχουμε εγγραφές οι οποίες είναι ταυτόσημες ή πολύ όμοιες στο σύνολό τους ή σε κάποιο εξεταζόμενο χαρακτηριστικό.

18 12 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ διαφορετικές ερευνητικές ομάδες από όλο τον κόσμο αναλαμβάνουν την ανάπτυξή τους, υπάρχει μεγάλη ποικιλία στα τεχνικά τους χαρακτηριστικά. Έτσι παρατηρούμε ότι η ανάπτυξή τους βασίζεται σε διαφορετικά συστήματα διαχείρισης βάσεων δεδομένων (Database Management System - DBMS), από περισσότερο εξελιγμένα συστήματα (όπως MySQL, Sybase, Oracle) μέχρι εντελώς πρωτόγονα συστήματα (όπως αρχεία λογιστικών εφαρμογών - spreadsheet, ή δομημένα αρχεία κειμένου) σε διαφορετικά λειτουργικά συστήματα. Τα βασικότερα παρουσιάζονται στα επόμενα. Αρχεία κειμένου - Flat files Οι παραδοσιακές ΒΔ ήταν χτισμένες σε απλά αρχεία κειμένου. Αυτό είναι ίσως το απλούστερο δυνατό μοντέλο 8. Στην περίπτωση αυτή όλες οι πληροφορίες - δεδομένα αποθηκεύονται σε απλά αρχεία ASCII. Κάθε γραμμή του αρχείου μπορεί να αντιστοιχεί σε ένα δεδομένο πεδίο της βάσης δεδομένων ή να περιέχει τιμές για περισσότερα από ένα πεδία χρησιμοποιώντας ένα προκαθορισμένο διαχωριστικό χαρακτήρα (field separator). Ο χαρακτήρας αυτός μπορεί να είναι ο κενός χαρακτήρας, ο στηλοθέτης (tab) και προφανώς θα πρέπει να λαμβάνεται πρόνοια για το πως θα μπορούμε να χειριστούμε το διαχωριστικό χαρακτήρα εάν χρειαστεί να εμφανίζεται στο κείμενο που αντιστοιχεί στην τιμή ενός πεδίου. Επομένως, στην απλούστερη περίπτωση, μια ΒΔ βασισμένη σε ένα αρχείο μπορεί να είναι ένας πίνακας, οι γραμμές του οποίου αντιστοιχούν στις διαφορετικές εγγραφές (records) της ΒΔ και οι στήλες του στα αντίστοιχα πεδία (fields) που περιγράφουν τις εγγραφές. Προφανώς, αυτή η δομή δεν επιτρέπει την αποτύπωση της συσχέτισης μεταξύ εγγραφών ή πεδίων, με μόνη συσχέτιση την κοινή δομή που επιβάλει ο πίνακας. Συνήθως, αναφερόμαστε στα δεδομένα αυτού του τύπου ως επίπεδα (flat) σε αντιδιαστολή με μοντέλα όπως τα σχεσιακά (relational models - δείτε τα επόμενα). Το απλούστερο παράδειγμα ΒΔ αυτού του τύπου είναι ένας απλός τηλεφωνικός κατάλογος, ή κατάλογος διευθύνσεων. Αυτό το μοντέλο ΒΔ υποστηρίζει απλά αρχεία κειμένου στα οποία αναζητούνται πληροφορίες με τη βοήθεια ειδικού (απλού επίσης) λογισμικού που εκτελεί τις επερωτήσεις (queries) προς τη ΒΔ. 8 Αυτό φυσικά έχει ως συνέπεια ότι ορισμένες φορές στο απλό αυτό μοντέλο είναι δύσκολο να μπορέσει κανείς να περιγράψει πολύπλοκες σχέσεις μεταξύ των δεδομένων.

19 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 13 Τάκης Μάκης Σάκης Σούλα Τούλα Αργύρης ΨΑΞΕ για Αργύρης Αργύρης Μάκης Σάκης Σούλα Τάκης Τούλα Εικόνα 1.2: Αναζήτηση όρου σε σειριακό αρχείο. Αριστερά: Απλό σειριακό αρχείο Σειριακή αναζήτηση. Κατά μέσο όρο απαιτούνται Ν/2 συγκρίσεις. Δεξιά: Ταξινομημένο (σειριακό) αρχείο Δυαδική αναζήτηση. Κατά μέσο όρο απαιτούνται ln(n) συγκρίσεις. Η αναζήτηση σε ένα αρχείο απλού κειμένου πρέπει αναγκαστικά να είναι σειριακή. Στη σειριακή αναζήτηση (sequential search) η εύρεση της εγγραφής στο αρχείο γίνεται ελέγχοντας μια-μια τις εγγραφές από την αρχή μέχρι το τέλος του. Αν το αρχείο έχει Ν στοιχεία θα απαιτηθούν κατά μέσο όρο N / 2 συγκρίσεις μέχρι να βρούμε το στοιχείο που αναζητούμε (Εικόνα 1.2). Η σειριακή αναζήτηση έχει σημαντικές υπολογιστικές απαιτήσεις, οι οποίες γίνονται απαγορευτικές για πρακτικές εφαρμογές. Για να ξεπεράσουμε αυτό το πρόβλημα, είναι δυνατόν να δημιουργήσουμε ευρετήρια 9 ή να διατηρούμε τα 9 Τα σειριακά αρχεία είναι ο απλούστερος τύπος οργάνωσης αρχείου. Όλες οι μέθοδοι που εφαρμόζονται σ αυτόν τον τύπο αρχείου εφαρμόζονται σχεδόν σε κάθε άλλο τύπο αρχείου. Παρά το γεγονός ότι οι μέθοδοι που εφαρμόζονται δεν είναι περίπλοκες και εξεζητημένες, είναι όμως αποτελεσματικές για τη λύση ενός προβλήματος. Τα σειριακά αρχεία οργανώνονται τοποθετώντας εγγραφές στο τέλος του αρχείου σύμφωνα με τη σειρά αύξησής τους. Έτσι η πρώτη εγγραφή του αρχείου είναι η παλαιότερη εγγραφή και η τελευταία εγγραφή είναι αυτή που προστέθηκε πρόσφατα. Λόγω του περιορισμένου αριθμού πράξεων που είναι διαθέσιμες γι αυτόν τον τύπο αρχείου δεν υπάρχει τρόπος για να ταξινομηθούν οι εγγραφές. Οι εγγραφές αυτού του τύπου μπορεί να είναι είτε σταθερού είτε μεταβλητού μήκους. Αυτό είναι ένα πλεονέκτημα των σειριακών αρχείων μια και οι μεταβλητού μήκους εγγραφές καθιστούν τη σχεδίαση αρχείου άλλου τύπου προβληματική. Έτσι, αν απαιτείται μεταβλητού μήκους εγγραφές αυτός ο τύπος αρχείου επιλέγεται. Για ταχύτερες αναζητήσεις τα σειριακά αρχεία μπορούν να συνοδεύονται από ευρετήρια ή να είναι ταξινομημένα οπότε και μπορούμε να εφαρμόσουμε δυαδική αναζήτηση. Τα ευρετήρια είναι επιπλέον αρχεία στα οποία (χοντρικά) αποθηκεύουμε δεί-

20 14 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ αρχεία ταξινομημένα (προφανώς με υπολογιστικό κόστος). Παράδειγμα: FASTA format >Sequence1 THISSEQISMYSEQ THISSEQISMYSEQ >Sequence2 THISSEQISANOTHERSEQ THISSEQISANOTHERSEQ Σε μορφή πίνακα, ισοδύναμα θα είχαμε: Sequence1 THISSEQISMYSEQTHISSEQISMYSEQ Sequence2 THISSEQISANOTHERSEQTHISSEQISANOTHERSEQ XML Η επεξεργασία των απλών αρχείων κειμένου, όπως περιγράφηκαν παραπάνω, είναι εξαιρετικά απλή. Μοναδική απαίτηση είναι η γνώση του ποια στήλη αντιστοιχεί με ποιό πεδίο της κάθε εγγραφής. Από εκεί και πέρα, κάθε εγγραφή υπόκειται ακριβώς την ίδια επεξεργασία. Παρόλα αυτά, η απλότητα αυτή περιορίζει το είδος των ΒΔ τις οποίες μπορούμε να κατασκευάσουμε και την πολυπλοκότητα των σχέσεων που θέλουμε να αναπαραστήσουμε, ιδίως στην περίπτωση των δεδομένων που σχετίζονται με τα πολύπλοκα δεδομένα γονιδιωματικής, πρωτεωμικής κτλ. Ένας κατάλληλος μηχανισμός για το σκοπό αυτό, είναι η extensible Markup Language ή XML (Επεκτάσιμη Γλώσσα Σήμανσης). H XML αποτελεί ένα πρότυπο για τη μορφοποίηση εγγράφων. Επομένως, η XML δεν είναι από μόνη της ένα σύστημα ενοποίησης δεδομένων. Παρόλα αυτά, όλο και περισσότερα εργαλεία λογισμικού που βασίζονται στην XML γίνονται διαθέσιμα, συνδυασμοί των οποίων μπορούν να χρησιμοποιηθούν ως συστήματα ενοποίησης δεδομένων. κτες προς τις διάφορες εγγραφές της ΒΔ για ταχύτερη αναζήτηση. Προφανώς, αυτή η προσέγγιση επιταχύνει τις διαδικασίες αναζήτησης με επιπλέον κόστος σε χώρο αποθήκευσης.

21 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 15 Η XML επιτρέπει το ιεραρχικό φώλιασμα ετικετών (tags) και το σύνολο αυτών των ετικετών είναι δυνατόν να οριστεί με ευέλικτο τρόπο. Επομένως, η XML μπορεί να θεωρηθεί ότι είναι ένα δυναμικό μοντέλο δεδομένων και παράλληλα να αποτελεί και χρήσιμη μορφοποίηση ανταλλαγής δεδομένων, παρέχοντας κατά αυτόν τον τρόπο δύο από τα σημαντικά συστατικά γενικευμένων λύσεων για την ενοποίηση δεδομένων στις βιολογικές επιστήμες. Κατά συνέπεια, ολοένα αυξανόμενο πλήθος εργαλείων και πηγών βιολογικών δεδομένων (όπως για παράδειγμα οι PIR, Entrez) είναι ή γίνονται συμβατά με την XML. Το έντονο ενδιαφέρον προς την ανάπτυξη γλωσσών διεξαγωγής επερωτήσεων (query langueages) για δομημένα ή μερικώς δομημένα δεδομένα έχει επίσης ως αποτέλεσμα ένα πλήθος XML query languages, όπως η XQL και η XQuery. Αυτές παρέχουν τα μέσα για τη διενέργεια επερωτήσεων προς διάφορες πηγές δεδομένων και το μετασχηματισμό των αποτελεσμάτων στις κατάλληλες μορφοποιήσεις για επόμενα στάδια ανάλυσης. Επίσης, βρίσκονται σε εξέλιξη μελέτες για τη βελτιστοποίηση επερωτήσεων και πηγών δεδομένων XML. Σήμερα, δε μπορούμε να ισχυριστούμε ότι υπάρχει ένα εύρωστο και σταθερό σύστημα ενοποίησης και αποθήκευσης βιολογικών δεδομένων βασισμένο στην XML (άλλωστε δεν υπάρχει και κάτι αντίστοιχο...). Παρόλα αυτά, έχουν αρχίσει να εμφανίζονται ΒΔ υψηλής αποδοτικότητας βασισμένες στην XML και αναμένεται ότι η ερευνητική κοινότητα που δραστηριοποιείται σε αυτά τα θέματα θα έχει σύντομα να προσφέρει νέες πιθανές αποδοτικές λύσεις. Εν κατακλείδι, μπορούμε να περιμένουμε ότι μέσα στα επόμενα χρόνια η τεχνολογία γύρω από την XML μπορεί να ωριμάσει και να δώσει γενικευμένα και εξελιγμένα συστήματα ενοποίησης δεδομένων. Σε αντίθεση με τα απλά αρχεία, ένα XML αρχείο είναι αυτο-επεξηγούμενο: κάθε ιδιότητα (attribute, αντιστοιχεί στα πεδία των απλών αρχείων) έχει εκτός από την τιμή της και το δικό της όνομα. Στο παρακάτω παράδειγμα, παρατίθεται η αντίστοιχη της πρώτης εγγραφής που χρησιμοποιήθηκε για την επεξήγηση της μορφοποίησης FASTA σε μορφή XML. Προφανώς, μπορούμε σε ένα αρχείο XML να αποθηκεύσουμε περισσότερες από μία εγγραφές. <SEQENTRY SEQNAME= Sequence1 SEQUENCE= THISSEQISMYSEQTHISSEQISMYSEQ /> Η βασική μονάδα ενός αρχείου XML ονομάζεται στοιχείο (element). Ένα στοιχείο

22 16 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ αντιστοιχεί σε μια εγγραφή μιας ΒΔ απλού αρχείου κειμένου, με τη διαφορά ότι ένα αρχείο XML επιτρέπεται να έχει περισσότερα από ένα είδη στοιχείων. Με τη λογική αυτή, ένα και μοναδικό XML αρχείο είναι δυνατόν να αναπαραστήσει την πληροφορία που θα περιείχαν περισσότερα του ενός απλά αρχεία κειμένου, και πολύ περισσότερη μάλιστα, αφού τα στοιχεία αυτά είναι δυνατόν να αναμειχθούν. Κάθε τύπος στοιχείου σημαίνεται με ένα όνομα, το οποίο ονομάζεται ετικέτα (tag). Στο παραπάνω παράδειγμα έχουμε ένα στοιχείο με ετικέτα SEQENTRY. Τα πεδία ενός XML στοιχείου ονομάζονται ιδιότητες που αντιστοιχούν στο στοιχείο αυτό. Στα απλά αρχεία η στήλη στην οποία βρίσκεται κάθε πεδίο καθορίζει εν γένει τον τύπο του πεδίου. Αντίθετα, οι ιδιότητες των στοιχείων XML μπορεί να εμφανίζονται με οποιαδήποτε σειρά, αφού ακολουθείται το μοντέλο ετικέτα - τιμή (tag-value). Επιπλέον, αν μια ιδιότητα δεν απαιτείται για κάποιο στοιχείο μπορεί ελεύθερα να παραληφθεί. Μια ιδιότητα γενικά αποτελεί ένα χαρακτηριστικό κάποιας οντότητας. Από γλωσσική σκοπιά, οι ιδιότητες αποτελούν επιθετικούς προσδιορισμούς οι οποίοι περιγράφουν οντότητες. Ένα αρχείο XML περιγράφεται με καθορισμένο τρόπο με βάση το Document Type Definition (DTD). Το DTD καθορίζει τα ονόματα ιδιοτήτων που επιτρέπονται για κάθε είδος στοιχείου. <!ATTLIST SEQENTRY SEQNAME CDATA #REQUIRED SEQUENCE CDATA #REQUIRED > Στο παραπάνω παράδειγμα ορίζουμε ότι τα στοιχεία του τύπου SEQENTRY χαρακτηρίζονται από τις ιδιότητες SEQNAME (η τιμή της αντιστοιχεί σε μια περιγραφή για την αλληλουχία) και SEQUENCE (η τιμή της οποίας είναι η ίδια η αλληλουχία). Ιδιότητες του τύπου CDATA έχουν τιμές οι οποίες αντιστοιχούν σε κείμενο (Character DATA). Όλες οι ιδιότητες οι οποίες σημαίνονται ως #REQUIRED είναι υποχρεωτικό να ορίζονται για κάθε στοιχείο 10. Μια ιδιότητα είναι δυνατόν να σημανθεί ως #IMPLIED, οπότε είναι προαιρετική. Επίσης είναι δυνατόν να σημάνουμε μια προκαθορισμένη τιμή για κάποια ιδιότητα, η οποία περικλείεται σε διπλά εισαγωγικά. Η XML έχει προφανώς δεσμευμένους τους χαρακτήρες οι οποίοι υποδηλώνουν 10 Φανταστείτε μια εγγραφή αλληλουχίας η οποία να μην περιέχει καμιά αλληλουχία!!

23 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 17 τη σήμανση. Συγκεκριμένα, ο χαρακτήρας < χρησιμοποιείται από την XML για να επισημάνει την έναρξη κάθε στοιχείου και ο συνδυασμός χαρακτήρων /> για να υποδηλώσει το πέρας του. Προφανώς, εάν θέλουμε να χρησιμοποιήσουμε κάποιον από αυτούς τους δεσμευμένους χαρακτήρες θα πρέπει να γίνει με τέτοιο τρόπο ώστε να μην υπάρχει περίπτωση να δημιουργηθει σύγχιση κατά την ανάλυση και επεξεργασία του XML αρχείου. Για το λόγο αυτό, χρησιμοποιούμε τη διαδικασία της φυγάδευσης (escaping). Στην XML για κάθε χαρακτήρα που πρέπει να φυγαδευθεί χρησιμοποιούμε μια λέξη-κλειδί αμέσως μετά τον ειδικό χαρακτήρα & (ampersand). Για παράδειγμα, ο χαρακτήρας < φυγαδεύεται με το <. Προφανώς, και ο ίδιος ο χαρακτήρας & απαιτεί τον ίδιο χειρισμό όταν αποτελεί τμήμα της τιμής κάποιας ιδιότητας, και φυγαδεύεται με &. Για την επεξεργασία αρχείων XML υπάρχουν αρκετά διαθέσιμα υπολογιστικά εργαλεία, ενώ υπάρχει και μια ειδικά σχεδιασμένη γλώσσα επερωτήσεων, η XQuery, η οποία είναι σημασιολογικά όμοια με την SQL. Σχεσιακά μοντέλα Ένα σχεσιακό μοντέλο είναι ένα δομημένο μοντέλο με προκαθορισμένο σχήμα. Ένα DBMS που υποστηρίζει αυτό το μοντέλο είναι γνωστό ως Σχεσιακό Σύστημα Διαχείρισης Βάσεων Δεδομένων (RDBMS - Relational Database Management System). Η SQL είναι μια δημοφιλής, ελεύθερα προσβάσιμη, γλώσσα επερωτήσεων με τα βασικά χαρακτηριστικά που απαιτεί το μοντέλο RDBMS. Γνωστά RDBMS είναι τα Oracle, DB2, MySQL, PostgresSQL και Sybase. Τα RDBMS διαθέτουν πίνακες με γραμμές και στήλες που αντιστοιχούν σε εγγραφές και πεδία αντίστοιχα με τα απλά αρχεία. Οι πίνακες και οι στήλες φέρουν διακριτή ονομασία. Επίσης, υπάρχει η δυνατότητα δημιουργίας μοναδικών κλειδιών (unique ή primary keys) για κάθε εγγραφή. Ένα κλειδί δεν είναι τίποτε άλλο παρά ο συνδυασμός ενός ή περισσότερων πεδίων τα οποία χρησιμοποιούνται για την ταυτοποίηση των εγγραφών και για ταχύτερη αναζήτηση. Ένα RDBMS, εκτός από τους πίνακες δεδομένων επιτρέπει και την ύπαρξη σχέσεων μεταξύ εγγραφών που βρίσκονται σε διαφορετικούς πίνακες. Στην πράξη, οι πίνακες για τους οποίους επιθυμούμε να έχουμε τέτοιου είδους σύνδεση πρέπει να διαθέτουν ένα ειδικό κοινό πεδίο, που συχνά αναφέρεται ως foreign key.

24 18 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Για κάθε ένα από τους συνδεόμενους πίνακες αυτό το πεδίο είναι ένα απλό πεδίο, απλά καθιστά δυνατή τη σύνδεση μεταξύ στοιχείων των δύο πινάκων. Αντικειμενοστραφή/Αντικειμενοστραφή σχεσιακά μοντέλα Βάσεις δεδομένων που ακολουθούν αντικειμενοστραφές (object oriented) μοντέλο ονομάζονται Object-oriented database management systems (OODBMS), ενώ υπάρχει και η σχεσιακή παραλαγή τους (Object relational database management system - ORDBMS). Στην περίπτωση αυτή οι ΒΔ βασίζονται σε κλάσεις (classes) αντικειμένων (objects) με δομημένους αλλά και αφηρημένους τύπους δεδομένων. Οι κλάσεις αντιστοιχούν σε τύπους δεδομένων και τα αντικείμενα αποτελούν στιγμιότυπα των κλάσεων. Μια κλάση είναι δυνατόν να αποτελεί υπο-κλάση μιας άλλης από την οποία μπορεί να κληρονομεί χαρακτηριστικά (inheritance), ενώ μπορεί να φέρει και δικά της χαρακτηριστικά. Υπάρχουν αρκετά παραδείγματα εφαρμογών τέτοιων ΒΔ στη μοριακή βιολογία, αφού είναι αρκετά περιγραφικές στο να δημιουργούνται οντότητες οι οποίες να αντιστοιχούν στα βιολογικά συστήματα και τις σχέσεις που αυτά έχουν μεταξύ τους. Σχεσιακό έναντι Αντικειμενοστραφούς μοντέλου RDBMS CREATE TABLE eukaryote ( id text, desc text, intronsno int, geneno int, ); CREATE TABLE prokaryote ( id text, desc text, geneno int, ); OODBMS CREATE TABLE organism (

25 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 19 Εικόνα 1.3: Επάνω:Το σχήμα μιας πραγματικής βιολογικής ΒΔ που ακολουθεί το μοντέλο RDBMS. Κάτω: Πίνακες της σχεσιακής ΒΔ. Πηγή: SBEAMS-Microarray: database software supporting genomic expression analyses for systems biology Marzolf B, et al., BMC Bioinformatics 2006, 7:286doi: /

26 20 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ id text, desc text, geneno int, ); CREATE TABLE eukaryote ( intronsno int) INHERITS (organism); Κατηγορίες ΒΔ: Πηγή δεδομένων Οι ΒΔ μοριακής βιολογίας είναι δυνατόν να ταξινομηθούν ανάλογα με την πηγή των δεδομένων τους στις ΒΔ εκείνες οι οποίες βασίζονται σε πρωτογενή πειραματικά δεδομένα (πρωτογενείς ή αρχειακές ΒΔ) και σε εκείνες οι οποίες τα δεδομένα τους αποτελούν επιλεγμένο υποσύνολο ή προϊόν ανάλυσης των πρωτογενών δεδομένων (δευτερογενείς ΒΔ). Η ταξινόμηση αυτή, ορισμένες φορές δεν είναι πολύ ξεκάθαρη αλλά μπορεί να είναι χρήσιμη, ιδίως όταν μας ενδιαφέρει η ποιότητα και η αξιοπιστία των δεδομένων στα οποία αναφερόμαστε. Συνήθως, οι δευτερογενείς βάσεις δεδομένων παρέχουν συνδέσμους προς τις αντίστοιχες εγγραφές των πρωτογενών δεδομένων, ενώ παράλληλα υπάρχουν και εξειδικευμένα συστήματα τα οποία έχουν στόχο την ενοποιημένη πρόσβαση σε δεδομένα από διαφορετικές (και ορισμένες φορές ετερογενείς) πηγές.

27 1.5. ΚΑΤΗΓΟΡΙΕΣ ΒΔ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ 21 Παραδείγματα: Πρωτογενείς (primary/archival) ΒΔ (ανά κατηγορία ανάλογα με τον τύπο των δεδομένων) Νουκλεοτιδικές αλληλουχίες: GenBank, EMBL, DDBJ Αμινοξικές αλληλουχίες: UNIPROT (SwissProt, PIR) Πρωτεϊνικές Δομές: PDB Δευτερογενείς ΒΔ Αμινοξικές αλληλουχίες: TREMBL Μοτίβα αμινοξικών αλληλουχιών/πρωτεϊνικές οικογένειες: PROSITE, PFAM Δομική κατηγοριοποίηση: SCOP, CATH Portals Ενοποιημένη πρόσβαση σε ΒΔ και εργαλεία ανάλυσης: NCBI Entrez, EBI SRS, Expasy Κατηγορίες ΒΔ: Μέθοδος πρόσβασης Οι ΒΔ μοριακής βιολογίας είναι δυνατόν να παρέχονται με διαφορετικές μεθόδους προς την ακαδημαϊκή κοινότητα. Ελεύθερα προσβάσιμες χωρίς περιορισμούς (NCBI, EBI, Uniprot) Διαθέσιμες αλλά με copyright Διαθέσιμες για ανάγνωση μόνο, απαγορεύεται η αποθήκευση μέρους ή του συνόλου των δεδομένων Ακαδημαϊκή, αλλά όχι ελεύθερα διαθέσιμη (απαιτείται εγγραφή, κτλ) Ιδιωτική, εμπορικό προϊόν με πρόσβαση επί αμοιβή Κατηγορίες ΒΔ: Άλλες παράμετροι Είναι δυνατόν να κατηγοριοποιήσουμε τις ΒΔ μοριακής βιολογίας και με βάση άλλες παραμέτρους.

28 22 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Πληρότητα: Οι εγγραφές καλύπτουν το πλήρες φάσμα μιας περιοχής εφαρμογών. Σχολιασμός: Οι εγγραφές περιέχουν μόνο πρωτογενή δεδομένα ή και επιπλέον σχόλια (π.χ. λειτουργικά) που προσθέτουν πληροφορία. Φροντίδα (curation): Ο σχολιασμός παρέχεται από ειδικούς (φροντιστές - curators). Πηγή κατάθεσης δεδομένων: (πειράματα, πατέντες, δημοσιεύσεις, πρωτογενείς ΒΔ) Μέθοδος κατάθεσης δεδομένων: αυτοματοποιημένη ή manual Τεχνολογίες πρόσβασης, δημοσίευσης και ανταλλαγής δεδομένων: FTP, HTML, CORBA, XML, etc 1.6 Συστήματα ενοποίησης βιολογικών δεδομένων Σε ένα δυναμικό και ετερογενές περιβάλλον, όπως αυτό της βιοπληροφορικής, χρησιμοποιούνται αρκετά διαφορετικά συστήματα ΒΔ και λογισμικού. Σημαντικό ποσοστό αυτών των συστημάτων έχει κατασκευαστεί από επιστήμονες με βιολογικό υπόβαθρο ενώ, συχνά, όταν πρωτοδημιουργήθηκαν αυτές οι ΒΔ το πλήθος των δεδομένων που έπρεπε να υποστηρίξουν ήταν μικρό και ήταν σημαντικό οι εγγραφές της ΒΔ να είναι εύκολες για τους διαχειριστές της να τις χειριστούν χωρίς ίσως τη βοήθεια εξειδικευμένου λογισμικού (human readable formats). Σε αυτό το γεγονός οφείλεται κατά κύριο λόγο η επικράτηση για πολλά χρόνια της χρήσης απλών αρχείων στη δημιουργία ΒΔ. Η εισαγωγή νέων τύπων δεδομένων, οδήγησε στη δημιουργία νέων ΒΔ που χρησιμοποιούσαν ποικίλες μορφοποιήσεις αρχείων κειμένου, με αποτέλεσμα να έχουμε καταλήξει να διαθέτουμε μεγάλο πλήθος ΒΔ με σχεδόν ισάριθμο πλήθος διαφορετικών μορφοποιήσεων. Επιπλέον, ο τύπος επερωτήσεων που δέχονται οι διάφορες ΒΔ δεν είναι κοινός ούτε τυποποιημένος. Αρκετά ερωτήματα τα οποία καλείται να απαντήσει καθημερινά ένας πειραματικός βιολογός είναι αδύνατον να απαντηθούν με τη χρήση μιας και μοναδικής πηγής δεδομένων. Παρόλα αυτά, ορισμένα από αυτά μπορούν να απαντηθούν με ικανοποιητικό τρόπο χρησιμοποιώντας πληροφορίες από διαφορετικές πηγές. Δυστυχώς, αν και έχουν υπάρξει πολλές προσπάθειες προς αυτήν την κα-

29 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 23 τεύθυνση τα τελευταία χρόνια, το εγχείρημα της ενοποιημένης πρόσβασης έχει αποδειχθεί πολύ δύσκολο στην πράξη. Αυτά συστήματα συχνά δεν έχουν κατασκευαστεί με κάποιο σαφές σχήμα ΒΔ, το οποίο αποτελεί ένα τυποποιημένο κατάλογο όλων των πινάκων της ΒΔ, των πεδίων που αυτά περιέχουν και το νόημα των δεικτών τους. Το πρόβλημα γίνεται περισσότερο πολύπλοκο εάν λάβουμε υπόψη το γεγονός ότι ένας βιολόγος απαιτεί ευέλικτη πρόσβαση και επερωτήσεις σε πολύ εξειδικευένους συνδυασμούς. Η απλή ανάκτηση δεδομένων δεν είναι αρκετή στη σύγχρονη βιολογική επιστήμη και κατ επέκταση στη βιοπληροφορική. Ο χειρισμός των ανακτώμενων δεδομένων από διαφορετικές (συχνά ανομοιογενείς ΒΔ) και η αναδόμηση των δεδομένων για τη διερεύνηση διαφορετικών κάθε φορά βιολογικών ή σχετικών προβλημάτων (βιοϊατρικών, περιβαλλοντικών, κτλ) αποτελεί σημαντική πρόκληση, η οποία ταλαιπωρεί και σήμερα τους βιοπληροφορικούς. Πολλά από τα υπάρχοντα συστήματα ανάκτησης βιολογικών δεδομένων δεν είναι πλήρως συμβατα με την αναγκαιότητα για την ανώδυνη και ευέλικτη ενοποίηση των δεδομένων. Τα συστήματα αυτά βασίζονται σε μεγάλο βαθμό στον άμεσο χειρισμό των δεδομένων από το χρήστη (συχνά σε χαμηλό επίπεδο). Για παράδειγμα, είναι συχνή η περίπτωση κατά την οποία ο χρήστης απαιτείται να χρησιμοποιήσει μια λέξη-κλειδί (keyword) για να εξάγει περιλήψεις των σχετικών εγγραφών, στη συνέχεια απαιτείται να επιλέξει κάθε ένα από τα αποτελέσματα ώστε να εξετάσει τα περιεχόμενα της εγγραφής ή ώστε να πραγματοποιήσει επιπλέον ενέργειες με τα δεδομένα της εγγραφής. Αυτή η διαδικασία είναι πιθανό να είναι αποδοτική μόνο για πολύ απλές εργασίες. Παρόλα αυτά, όσο αυξανεται το πλήθος ή η πολυπλοκότητα των εγγραφών (ή των ενεργειών που θέλουμε να δράσουν σε αυτές), αυτοί οι απευθείας χειρισμοί καταλήγουν αφενός να είναι μια επαναληπτική αγγαρεία αφετέρου αυξάνουν σημαντικά την πιθανότητα λαθών ή και ασυνεπειών. Επίσης, όταν τα βιολογικά ερωτήματα που προσπαθούμε να απαντήσουμε είναι αυξημένης πολυπλοκότητας και εμπλέκουν επερωτήσεις σε πολλές ΒΔ, η οργάνωση των αποτελεσμάτων που απαιτείται είναι πολύ πιθανό να ξεπερνούν την υπομονή αλλά και, κυρίως, τις δυνατότητες ενός επιστήμονα. Το να προσφέρει κανείς απλά μια βιβλιοθήκη λογισμικού η οποία παρέχει διεπαφή (interface) σε μεγάλο πλήθος ΒΔ και εργαλείων λογισμικού για την ανάλυση δεδομένων δεν είναι από μόνο του χρήσιμο εάν κατά την πρακτική εφαρμογή απαιτείται να επιδείξει ο χρήστης γνώσεις προγραμματισμού οι οποίες επεκτείνουν ουσιαστικά τη λειτουργικότητα της συγκεκριμένης βιβλιοθήκης.

30 24 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Τα βιοπληροφορικά συστήματα αποτελούν απάντηση στη παραπάνω πρόκληση και μπορούν χοντρικά να ταξινομηθούν σε σημειακές και γενικευμένες λύσεις. Μια σημειακή λύση αποτελεί ένα εξειδικευμένο σύστημα, στο οποίο οι πηγές δεδομένων που λαμβάνονται υπόψην είναι μικρές σε μέγεθος και (σχετικά) στατικές. Κατά αντιστοιχία και οι βιολογικές ερωτήσεις την απάντηση των οποίων είναι δυνατόν αυτές να εξυπηρετήσουν είναι μικρής πολυπλοκότητας και επίσης στατικές. Το αντίστοιχο λογισμικό είναι τόσο εξειδικευμένο ώστε να μπορεί να προσφέρει τις ζητούμενες απαντήσεις και τίποτε περισσότερο. Συνεπώς, οι απαιτήσεις για σχεδιασμό ΒΔ και η πρόβλεψη για επεκτασιμότητα και ευελιξία είναι ελάχιστες. Αντίθετα, μια γενικευμένη λύση δε σχεδιάζεται έχοντας υπόψην ένα συγκεκριμένο σύνολο βιολογικών ερωτημάτων ή ακόμη και τύπων ή πηγών δεδομένων. Κεντρικό ρόλο σε τέτοια συστήματα παίζει ο σχεδιασμός, με απώτερο στόχο τη επεκτασιμότητα και την ευελιξία. Μια γενικευμένη λύση αποτελεί περισσότερο μια πλατφόρμα ανάπτυξης, ρόλος της οποίας είναι να περιοριστεί ο χρόνος ανάπτυξης σημειακών λύσεων, σε αντιστοιχία με τη λειτουργία μιας σχεσιακής ΒΔ ως την πλατφόρμα εκείνη στην οποία χτίζονται εξειδικευμένες εφαρμογές διαχείρισης συγκεκριμένων δεδομένων. Ένα σύστημα βιοπληροφορικής που προορίζεται να αποτελέσει ένα γενικευμένο μηχανισμό ολοκληρωμένης πρόσβασης σε δεδομένα πρέπει να ικανοποιεί τουλάχιστον τις παρακάτω συνθήκες: 1. Δεν πρέπει να στηρίζεται στη διαθεσιμότητα συγκεκριμένων σχημάτων. Πρέπει να είναι δυνατόν να μεταγλωτίζει οποιαδήποτε επερώτηση η οποία υποβάλεται λαμβάνοντας υπόψη μόνο τη δομή της επερώτησης. Εάν απαιτείται ένα συγκεκριμένο σχήμα πριν τη μεταγλώτισση μιας επερώτησης τότε τα πράγματα δυακολεύουν, γιατί συχνά οι βιοιατρικές ΒΔ δε διαθέτουν κάποιο εύχρηστο σχήμα. 2. Πρέπει να υποστηρίζει ένα μοντέλο δεδομένων το οποίο να μεταφράζεται εύκολα από εξωτερικές ΒΔ και συστήματα λογισμικού, χωρίς να απαιτούνται δηλώσεις πολλών τύπων. Εάν αυτό δεν υπάρχει, δημιουργείται σημαντική δυσκολία στη μεταφορά εξωγενών δεδομένων προς το σύστημα αλλά και δεδομένων του συστήματος προς άλλα συστήματα, όπως και ο χειρισμός αυτών των δεδομένων. 3. Οφείλει να προστατεύει κατά το δυνατόν την εγκυρότητα υφιστάμενων

31 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 25 επερωτήσεων από μεταβολές των εξωτερικών πηγών. Για παράδειγμα, η προσθήκη ενός νέου πεδίου σε μια εξωτερική ΒΔ δε θα πρέπει να απαιτεί τροποποίηση υφιστάμενων επερωτήσεων προς αυτή τη ΒΔ οι οποίες δουλεύουν ήδη σωστά. Οι εξωτερικές πηγές δεδομένων που απασχολούν ένα βιοπληροφορικό, στη γενική περίπτωση, αναπτύσονται σε διαφορετικούς οργανισμούς ή ερευνητικές ομάδες, οι οποίοι φυσικά διατηρούν την αυτονομία τους να επεκτείνουν, να διαφοροποιήσουν ή ακόμη και να καταργήσουν τις ΒΔ τις οποίες προσφέρουν. Επομένως, αποκτά ιδιαίτερη σημασία γενικευμένων διαδικασιών ενοποίησης δεδομένων οι οποίες να διακρίνονται από ευρωστία όταν οι πηγές δεδομένων εξελίσσονται, αλλάζουν (ή ακόμη και καταργούνται!). 4. Πρέπει να διαθέτει κατάλληλη μορφοποίηση ανταλλαγής δεδομένων, η οποία να αποτελεί ένα πρωτόκολλο προτυποποίησης, το οποίο χρησιμοποιεί το σύστημα ώστε να ανταλλάσει δεδομένα με εξωτερικές πηγές. Ένα τέτοιο πρότυπο οφείλει να είναι εύκολο στη χρήση, ώστε να μην απαιτείται εκτεταμένη προγραμματιστική προσπάθεια (και ικανότητα) ώστε να αντιληφθεί ένας χρήστης την ποικιλία των δομών δεδομένων που προέρχονται από διαφορετικές ΒΔ ή εργαλεία λογισμικού. Διαφορετικά, θα απαιτείται σημαντική προσπάθεια για τη διασύνδεση του συστήματος με άλλες εξωτερικές πηγές δεομένων και εφαρμογές. Πέρα από την ικανότητα επερώτησης, ανάκτησης/συγκέντρωσης, και μετασχηματισμού των δεδομένων από (απομακρυσμένες εν γένει) ετερογενείς πηγές, σημαντική είναι επίσης η δυνατότητα τοπικής αποθήκευσης των δεδομένων. Ορισμένοι βασικοί λόγοι για τους οποίους αυτό μπορεί να είναι επιθυμητό (ή και αναγκαίο πολύ συχνά) είναι οι ακόλουθοι: Αύξηση της αποδοτικότητας Είναι ξεκάθαρο ότι δεν επιθυμούμε να έχουμε ως ανασχετικό παράγοντα την ταχύτητα της βραδύτερης εξωγενούς πηγής ή μιας πηγής η οποία συνδέεται μέσω πολύ αργού δικτύου 11 ιδιαίτερα όταν έχουμε πρόσβαση σε υπολογιστικά συστήματα υψηλής ποιότητας/απόδοσης. Η τοπική αποθήκευση (παρότι έχει και τα μειονεκτήματά της) μας παρέχει αποδοτικότητα η οποία εξαρτάται από την ποιότητα του εξοπλισμού μας και μόνο. 11 Φανταστείτε το σύστημά σας να περιμένει απάντηση σε μια επερώτηση που απεύθυνε προς μια ΒΔ που φυσικά βρίσκεται σε ένα τόπο με πολύ αργή σύνδεση στο διαδίκτυο

32 26 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ Αύξηση διαθεσιμότητας Η πρόσβασή μας στα δεδομένα είναι δυαντή οποιαδήποτε στιγμή το σύστημά μας λειτουργεί. Κατ αυτόν τον τρόπο δεν εξαρτώμαστε από προσωρινές διακοπές στην παροχή δικτύου (τόσο στην περιοχή μας όσο και στην περιοχή που βρίσκεται η εξωτερική πηγή δεδομένων) ούτε και από τη διακοπή της διαθεσιμότητας ορισμένων εξωτερικών συστημάτων, π.χ.για λόγους συντήρησης ή αναβάθμησης. 12 Ξεκαθάρισμα δεδομένων Η τοπική αποθήκευση δίνει τη δυνατότητα διενέργειας εξονυχιστικών ελέγχων για την ποιότητα των δεδομένων, οι οποίοι συχνά δεν είναι δυνατόν να πραγματοποιηθούν μέσω απομακρυσμένης πρόσβασης. Το θέμα της ποιότητας των δεδομένων που υπάρχουν κατατεθειμένα σε δημόσιες ΒΔ είναι κάτι που απασχολεί εδώ και αρκετά χρόνια την ερευνητική κοινότητα. Παρόλα αυτά, δε διαφένεται προς το παρόν να υπάρχει κάποια εφικτή συστηματική λύση. Προφανώς, η διαδικασία τοπικής αποθήκευσης δεν έρχεται χωρίς το κόστος της, αφού αλλάζει σημαντικά τις σχετικές απαιτήσεις: 1. Το σύστημα αποθήκευσης πρέπει να έχει αποδοτικό μηχανισμό επερωτήσεων. 2. Το σύστημα αποθήκευσης πρέπει να είναι δυνατόν να ενημερώνεται εύκολα. Συγκεκριμένα, πρέπει να επιτρέπονται τόσο μεμονωμένες αλλαγές εγγραφών (ενημέρωση, προσθήκη, διαγραφή) όσο και μαζικές αλλαγές. Το δεύτερο χαρακτηριστικό επιβάλει ειδικό σχεδιασμό των μηχανισμών (πιθανά αυτοματοποιημένων) που απαιτούνται ώστε το σύστημα αποθήκευσης να ενημερώνεται σε τακτά χρονικά διαστήματα και να συγχρονίζεται με τις υποκείμενες πηγές δεδομένων οι οποίες είναι δυνατόν να ανανεώνονται με διαφορετική συχνότητα η κάθε μία. 3. Με δεδομένο ότι το σύστημα αναφέρεται σε βιολογικά δεδομένα, οφείλει να μοντελοποιεί τα δεδομένα με τρόπο που να αντιστοιχεί στις βιολογικές οντότητες που αναπαριστώνται. Παρότι ένα RDBMS είναι αποδοτικό σε επε- 12 Ένας περισσότερο εξειδικευμένος τεχνικός λόγος που σχετίζεται με τη διαθεσιμότητα έχει να κάνει με την πολιτική που ακολουθούν διάφοροι οργανισμοί για να αποφεύγουν κακόβουλες επιθέσεις (denial of service attacks) προς τα υπολογιστικά τους συστήματα. Για παράδειγμα, το NCBI επιβάλλει αυστηρό όριο στο πλήθος των επερωτήσεων ή/και στον όγκο των δεδομένων στα οποία μπορεί να έχει πρόσβαση ένα συγκεκριμμένο υπολογιστικό σύστημα (ή καλύτερα ένα IP) μέσα σε μια ημέρα. Η υπέρβαση αυτού του ορίου μπορεί να συνεπάγεται μέχρι και τον κίνδυνο της απαγόρευσης πρόσβασης στο σχετικό web-site.

33 1.6. ΣΥΣΤΗΜΑΤΑ ΕΝΟΠΟΙΗΣΗΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 27 ρωτήσεις και εύκολο στην ενημέρωσή του, η διαμέριση των δεδομένων σε πίνακες οδηγεί ορισμένες φορές σε αφύσικο κατακερματισμό των δεδομένων. Για παράδειγμα, σε ένα σχεσιακό σχήμα, μια εγγραφή της SWISS-PROT θα έπρεπε να τεμαχιστεί σε 30 περίπου πίνακες, ώστε να ακολουθηθούν οι σωστές διαδικασίες κανονικοποίησης μέχρι το τρίτο επίπεδο. 13 Αυτή η αφύσικη διαμέριση των δεδομένων δημιουργεί δύο προβλήματα: (α) αυξάνει το φόρτο του προγραμματιστή που αναπτύσσει/συντηρεί τη ΒΔ και την πιθανότητα προγραμματιστικών σφαλμάτων και (β) αυξάνει σημαντικά το υπολογιστικό κόστος συγκεκριμένων επερωτήσεων. Στο παράδειγμα της SWISS- PROT, εάν θέλαμε να ανακτήσουμε μια εγγραφή στην ολότητά της θα απαιτούνταν πολλές πράξεις συζεύξεων (join) μεταξύ των διαφόρων πινάκων. Επιπλέον, είναι σημαντικό ότι όσο προσεκτικά και να σχεδιαστεί ένα σύστημα ενοποίησης ΒΔ είναι απίθανο να καλύπτει απόλυτα το σύνολο των πιθανών χρηστών του. Γι αυτό απαιτείται να υπάρχει εστίαση όσον αφορά 1. την παροχή μηχανισμών ανάγνωσης δεδομένων από πολλές πηγές 2. τον κατά το δυνατόν απλούστερο μετασχηματισμό των δεδομένων και τη δυνατότητα να περνάμε δεδομένα από τη μία εφαρμογή στην άλλη χωρίς την ανάγκη ενδιάμεσης παρέμβασης των χρηστών 3. την αποθήκευση των δεδομένων Υπάρχουν συγκεκριμένοι τύποι αναλύσεων και χειρισμών των δεδομένων οι οποίοι δεν είναι απαραίτητο να εκτελούνται από το σύστημα ενοποίησης δεδομένων, αλλά ορισμένες φορές παρέχονται επιπλέον. Τέτοια εργαλεία λογισμικού μπορεί να είναι από εξειδικευμένες εφαρμογές βιοπληροφορικής (π.χ. για στοίχιση αλληλουχιών ή πρόβλεψη λειτουργικών και δομικών χαρακτηριστικών), εφαρμογές γραφικής αναπαράστασης (ιδανικά) φιλικής προς το χρήστη, μέχρι και εργαλεία στατιστικής ανάλυσης ή μοντελοποίησης. Αυτές οι εφαρμογές, ανάλογα με τον τύπο τους, είναι δυνατόν να παρέχονται ως scripts διερμηνευόμενων γλωσσών 13 Κανονικοποίηση είναι η διαδικασία κατά την οποία μια βάση δεδομένων με έναν πίνακα διασπάται σε ένα σύνολο μικρότερων, σχετιζόμενων πινάκων, όπου καθένας από αυτούς εστιάζει σε ένα μεμονωμένο ζήτημα ή ομάδα πληροφοριών. Μια κανονικοποιημένη, σχεσιακή βάση δεδομένων έχει αρκετά πλεονεκτήματα έναντι μιας μη σχεσιακής βάσης δεδομένων. Πρώτον, η ενημέρωση πληροφοριών είναι ταχύτερη και ευκολότερη, επειδή απαιτούνται λιγότερες αλλαγές δεδομένων. Δεύτερον, αποθηκεύονται μόνο οι ελάχιστες απαιτούμενες πληροφορίες. Συνεπώς, η βάση δεδομένων είναι μικρότερη. Τέλος, μια σχεσιακή βάση δεδομένων διατηρεί τα δεδομένα συνεπή με αυτόματο τρόπο, επειδή τα δεδομένα αποθηκεύονται μία φορά.

34 28 ΚΕΦΑΛΑΙΟ 1. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΟΡΙΑΚΗΣ ΒΙΟΛΟΓΙΑΣ προγραμματισμού ή ως εκτελέσιμα προγράμματα 14. Προκειμένου να διευκολυνθεί το προγραμματιστικό έργο για την εκπλήρωση αυτών των λειτουργιών το γενικό σύστημα ενοποίησης δεδομένων πρέπει να παρέχει τα μέσα ώστε οι παραπάνω εφαρμογές να επικοινωνούν μαζί του (προγραμματιστική διεπαφή). Αυτό επιτυγχάνεται μέσω της ενσωμάτωσης ορισμένων προγραμματιστικών δυνατοτήτων ή με την παροχή ενός API (Application Programming Interface) για τις αντίστοιχες γλώσσες προγραμματισμού. Τέλος, μπορεί να έχουν ενδιαφέρον τα semantics. Αυτό αφορά την ισοδυναμία και τη συνέπεια μεταξύ τμημάτων των εγγραφών από διαφορετικές πηγές δεδομένων, όπως και τις συσχετίσεις μεταξύ τους. Η τεχνολογία ενοποίησης των δεδομένων είναι επιθυμητό να αντιλαμβάνεται ποιά τμήματα των δεδομένων διαφορετικών πηγών έχουν τη ίδια έννοια. Βέβαια, πρέπει να γίνει αντιληπτό ότι ίδιες εγγραφές μπορεί να ερμηνεύονται με διαφορετικό τρόπο, ο οποίος εξαρτάται από την περίπτωση και τις απαιτήσεις των χρηστών. Συνεπώς, αυτό το θέμα ορισμένες φορές θεωρείται μέρος του χτισίματος μιας εξειδικευμένης εφαρμογής Για περισσότερες λεπτομέρειες κάντε υπομονή για το επόμενο εξάμηνο και το μάθημα ΒΙΟ

35 Κεφάλαιο 2 Βάσεις δεδομένων αλληλουχιών 2.1 ΒΔ νουκλεοτιδικών αλληλουχιών Οι ΒΔ νουκλεοτιδικών αλληλουχιών αποτελούν κατεξοχήν χώρο φύλαξης πρωτογενών πειραματικών δεδομένων τα οποία καθιστούν ελεύθερα προσβάσιμα στο κοινό. Τα δεδομένα που περιέχουν είναι εν γένει ετερογενή όσον αφορά την προέλευσή τους (π.χ. cdnas, γονιδιωματικές αλληλουχίες), την ποιότητά τους (π.χ. πλήρεις αλληλουχίες γονιδιωμάτων, θραύσματα αλληλουχιών γονιδίων), το σχολιασμό τους (π.χ. μη-σχολιασμένες, αυτόματα σχολιασμένες, πλήρως ή μερικά σχολιασμένες). Η τεράστια πρόοδος στις τεχνικές προσδιορισμού της αλληλουχίας των βάσεων νουκλεϊκών οξέων, έχουν ξεπεράσει την ικανότητα των αντίστοιχων ερευνητικών κέντρων να σχολιάζουν και να ελέγχουν συστηματικά τις αλληλουχίες, γεγονός που παλαιότερα ήταν πολύ συνηθισμένο πριν την κατάθεση των αλληλουχιών στις ΒΔ. Αρκετά συχνά, διευρυμένες ερευνητικές ομάδες μέσα από διεθνείς συνεργασίες (και πολλές φορές σε εθελοντική βάση) συνεισφέρουν στις προσπάθειες σχολιασμού αλληλουχιών κοινού ενδιαφέροντος. Για παράδειγμα, για το σχολιασμό των γονιδιωμάτων οργανισμών μοντέλων ή και του γονιδιώματος του ανθρώπου συνεργάζονται διάφορες ερευνητικές ομάδες, οι οποίες με υπολογιστικές και πειραματικές διαδικασίες προσπαθούν να εντοπίσουν τα λειτουργικά και δομικά χαρακτηριστικά των γονιδιωμάτων και να τα συσχετίσουν με τα διάφορα τμήματα της αλληλουχίας. Οι μεθοδολογίες που χρησιμοποιούνται σε προγράμματα αυτού του τύπου, τα μοντέλα αναπαράστασης των δεδομέ- 29

36 30 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ νων, τα εργαλεία απεικόνισης, ανάκτησης, αποθήκευσης και ανάλυσης των δεδομένων είναι δυνατόν να διαφέρουν σημαντικά μεταξύ τους. Αρκετή από την ιδιαίτερα χρήσιμη γνώση που αποκτάται μέσω αυτών των των προσπαθειών δεν καταχωρείται σε εγγραφές των πρωτογενών ΒΔ αλλά σε αντίστοιχες δευτερογενείς ΒΔ EMBL ( Η βάση δεδομένων EMBL (European Molecular Biology Laboratory Nucleotide Sequence Database, γνωστή και ως EMBL-Bank) αποτελεί την κύρια πηγή δεδομένων νουκλεοτιδικών αλληλουχιών στην Ευρώπη. Δημιουργήθηκε το 1980 και από το 1982 και μετά συνεργάζεται στενά με την GenBank και αργότερα με τη DDBJ. Κύρια προέλευση των δεδομένων αλληλουχιών DNA και RNA αποτελεί η απευθείας κατάθεση (direct submission) αλληλουχιών από μεμονωμένους ερευνητές, προγράμματα προσδιορισμού γονιδιωμάτων αλλά και από καταθέσεις πατεντών από όλο τον κόσμο. Η EMBL-Bank παράγεται πλέον μέσα από τη διεθνή συνεργασία στα πλαίσια του International Nucleotide Sequence Database Collaboration (δείτε επόμενα), με τις GenBank (USA) και DDBJ (DNA Database of Japan). Επίσης, είναι μέλος του The Protein and Nucleotide Database Group (PANDA), το οποίο καθοδηγείται από κοινού από τους Dr. Rolf Apweiler (UNIPROT) και Dr. Ewan Birney (ENSEMBL) GenBank ( Η ΒΔ GenBank αποτελεί αρχειακή ΒΔ και πρωτοδημιουργήθηκε το Αρχικά φιλοξενείτο από τα Los Alamos National Laboratories στο New Mexico 1 ενώ περίπου δέκα χρόνια αργότερα, το 1992, η GenBank πέρασε στα χέρια του νεοϊδρυθέντος NCBI και η επέκτασή της ήταν ραγδαία (Εικόνα 2.1). Η πρώτη έκδοση της GenBank περιλάμβανε συνολικά αλληλουχίες μήκους 484,813 ζευγών βάσεων 2. 1 Εάν γνωρίζατε ότι το συγκεκριμένο ερευνητικό κέντρο ειδικεύεται στα υπερ-υπολογιστικά συστήματα, μπορείτε ίσως να καταλάβετε για ποιο λόγο συνέβη αυτό. 2 Σκεφτείτε ότι με βάση τις πλήρως προσδιορισμένες αλληλουχίες γονιδιωμάτων που γνωρίζουμε σήμερα, το γονιδίωμα ενός βακτηρίου μπορεί στη συνήθη των περιπτώσεων να αποτελείται από μερικές εκαντοντάδες χιλιάδες έως και λίγα εκατομύρια ζεύγη βάσεων. Ενδοσυμβιωτικά βακτήρια είναι δυνατόν να έχουν σημαντικά μειωμένο μέγεθος γονιδιώματος.

37 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 31 Εικόνα 2.1: Η ανάπτυξη της ΒΔ GenBank. Από Ο αρχικός σχεδιασμός της GenBank ήταν προσαρμοσμένος σε ένα αρχείο αλληλουχίας ανά εγγραφή, ένα μοντέλο που παρέμεινε σταθερό για χρόνια. Κάθε καταγραφή της GenBank περιέχει ένα μόριο DNA 3. Στην ουσία, οποιοδήποτε συνεχόμενο τμήμα νουκλεϊκών οξέων (DNA ή RNA) μπορεί να αλληλουχηθεί από μια ερευνητική ομάδα αποτελεί την κεντρική οντότητα πάνω στην οποία δημιουργείται μια καταγραφή της ΒΔ. 3 Κατά συνέπεια, αφού ένας οργανισμός μπορεί να περιέχει παραπάνω από ένα μόρια DNA (π.χ. χρωμοσώματα, πλασμίδια, οργανιδιακό DNA), για κάθε ένα από αυτά υπάρχουν διαφορετικές καταγραφές.

38 32 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ DDBJ ( Η DDBJ (DNA Data Bank of Japan) ξεκίνησε επίσημα να λειτουργεί το 1986 στο Εθνικό Ινστιτούτο Γενετικής της Ιαπωνίας (National Institute of Genetics - NIG). Από το ξεκίνημά της η DDBJ λειτουργεί σε συνεργασία με τις άλλες κύριες νουκλεοτιδικές ΒΔ. Επιπλέον, η DDBJ παρέχει υπολογιστικά εργαλεία για την ανάκτηση και ανάλυση δεδομένων International Nucleotide Sequence Database Collaboration - INSDC ( Η International Nucleotide Sequence Database Collaboration είναι ένας οργανισμός μέσω του οποίου συνεργάζονται οι τρεις πρωτογενείς ΒΔ νουκλεοτιδικών αλληλουχιών (GenBank, EMBL, DDBJ) ώστε να παρέχεται αδιάλειπτα στη διεθνή κοινότητα μια πλήρως ενημερωμένη συλλογή νουκλεοτιδικών αλληλουχιών. Κάθε μία από τις τρεις συνεργαζόμενες ομάδες συλλέγει καθημερινά (μέσω των μηχανισμών κατάθεσης αλληλουχιών) πλήθος νέων αλληλουχιών από ερευητικές ομάδες που βρίσκονται διασκορπισμένες σε όλο τον κόσμο. Μέσα από το INSDC όλες οι νέες (ή τροποποιημένες) εγγραφές ανταλλάσσονται μεταξύ των τριών ΒΔ σε καθημερινή βάση με αυτοματοποιημένο τρόπο. Με τον τρόπο αυτό και οι τρεις ΒΔ παραμένουν συγχρονισμένες ως προς το περιχόμενο, παρέχοντας η κάθε μία τα δικά της εργαλεία πρόσβασης και ανάκτησης στα δεδομένα νουκλεοτιδικών αλληλουχιών. Ο συγχρονισμός επιτυγχάνεται με τη χρήση κοινών αναγνωριστικών πεδίων στις εγγραφές τους (κωδικοί καταχώρησης - accession numbers). Σημαντικό στοιχείο της πολιτικής την οποία έχει υιοθετήσει η INSDC υπήρξε η σημαντική προσπάθεια που καταβλήθηκε ώστε να πραγματοποιηθεί συμφωνία μεταξύ της ερευνητικής κοινότητας και των εκδοτών επιστημονικών περιοδικών για τον τρόπο δημοσίευσης εργασιών οι οποίες αφορούν άμεσα νουκλεοτιδικές αλληλουχίες. Συγκεκριμένα, η συμφωνία αυτή προβλέπει ότι οποιοδήποτε επιστημονικό άρθρο αναφέρεται στον προσδιορισμό κάποιας νουκλεοτιδικής αλληλουχίας θα μπορεί να γίνει δεκτό για δημοσίευση μόνο υπό την προϋπόθεση ότι οι εν λόγω αλληλουχίες έχουν κατατεθεί ήδη σε μια από τις ΒΔ της INSDC και συνοδεύονται από τους σχετικούς αριθμούς καταχώρησης 4. Η πολιτική αυτή είχε 4 Φυσικά, να λάβετε υπόψη ότι τηρούνται όλοι οι κανόνες εχεμύθιας κατά την υποβολή αλλη-

39 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 33 θετικότατες συνέπειες για την πρόοδο της βιοπληροφορικής αλλά και των βιολογικών επιστημών γενικότερα, αφού οι ΒΔ της INSDC προσφέρουν ελεύθερα όλες τις αλληλουχίες στην ερευνητική κοινότητα. Η ελεύθερη και ανεμπόδιστη πρόσβαση των ενδιαφερομένων (ερευνητών ή κοινού) στο σύνολο των δεδομένων αποτελεί τον κορμό της φιλοσοφίας των ΒΔ της INSDC. Τί πρέπει να έχω υπόψη μου για τις εγγραφές των ΒΔ της INSDC; 1. Εάν δεν υποδεικνύεται κωδική περιοχή στην καταγραφή μιας νουκλεοτιδικής αλληλουχίας, δε θα υπάρξει δημιουργία καταγραφής στις αντίστοιχες ΒΔ πρωτεϊνικών αλληλουχιών. Συνεπώς, οι αναζητήσεις ομοιότητας έναντι ΒΔ πρωτεϊνικών αλληλουχιών είναι δυνατόν να χάσουν σημαντικά από βιολογικής άποψης ευρήματα. 2. Εάν η κωδική περιοχή που υποδεικνύεται σε μια καταγραφή είναι λανθσμένη, αυτή η λανθασμένη πληροφορία θα περάσει αυτόματα τόσο στις παράγωγες δευτερογενείς ΒΔ, αλλά (χειρότερα ακόμη) και στις εγγραφές της πρωτεϊνικής ΒΔ. Δυστυχώς, η χρήση αυτοματοποιημένων υπολογιστικών μεθόδων οι οποίες βασίζονται σε μέτρα ομοιότητας των αλληλουχιών για την in silico ταυτοποίηση της λειτουργίας τους είναι δυνατόν να αναπαράξουν αυτό το πρόβλημα, διαιωνίζοντάς το στις ΒΔ. Αυτό το φαινόμενο αποδεικνύεται ότι εξαπλώνεται με εκθετικό τρόπο (database explosion) και για το λόγο αυτό υπάρχουν σκεπτικιστές οι οποίοι θεωρούν ότι σύντομα μπορεί να διαθέτουμε πρακτικά άχρηστες ΒΔ. 3. Οι πληροφορίες διαφορετικών τύπων εισάγονται σε διαφορετικά πεδία της εγγραφής. Επομένως, είναι σημαντικό αυτό να γίνεται σωστά εξαρχής, ώστε τα λογισμικά που ελέγχουν συγκεκριμένα πεδία για την εξαγωγή των δεδομένων να μπορούν να τα βρούν. 4. ΣΗΜΑΝΤΙΚΟ: Εκτός από τον περιορισμένο έλεγχο των καταγραφών που πραγματοποιείται από τους ειδικούς της ΒΔ κατά τη διαδικασία καταχώρησης (π.χ. χρήση του σωστού format, μετάφραση κωδικών περιοχών) η ποιότητα και η ακρίβεια των δεδομένων κάθε καταγραφής είναι αποκλειστική ευθύνη του συγγραφέα ο οποίος πραγματοποιεί την κατάθεση και όχι του προσωπικού της ΒΔ. Επιπλέον, διορθώσεις σφαλμάτων και ενημέρωση των καταγραφών μπορεί να πραγματοποιηθούν μόνο από τον ερευνητή ο οποίος κατέθεσε τη συγκεκριμένη καταγραφή. Οι ΒΔ της INSDC διατηρούν την ανεξαρτησία τους και, συνεπώς, η κάθε μία διαθέτει το δικό της μηχανισμό κατάθεσης (submission), αναθεώρησης (update) και ανάκτησης (retrieval) δεδομένων. Σε καθημερινή βάση οι τρεις ΒΔ ανταλλάσουν μεταξύ τους δεδομένα ώστε να είναι διαρκώς συγχρονισμένες (Εικόνα 2.2) λουχιών όταν εκκρεμεί η σχετική δημοσίευση.

40 34 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Εικόνα 2.2: Ροή δεδομένων μεταξύ των ΒΔ μελών της INSDC (πηγή: Κωδικοί καταχώρησης - accession numbers Ο κωδικός καταχώρησης της GenBank είναι ένα μοναδικό κλειδί το οποίο προσδιορίζει την ταυτότητα μιας εγγραφής αλληλουχίας της ΒΔ αυτής. Οι κωδικοί καταχώρησης στις ΒΔ μέλη της INSDC είναι κοινοί, ώστε να διευκολύνεται η ανταλλαγή, αναζήτηση και συσχέτιση εγγραφών μεταξύ αυτών των ΒΔ. Συνήθως, έχουν μορφή η οποία αποτελείται από δύο χαρακτήρες (του αγγλικού αλφαβήτου) οι οποίοι ακολουθούνται από έξι αριθμητικά ψηφία 5 (π.χ. AB123456). Κωδικοί καταχώρησης εγγραφών που είχαν εισαχθεί παλαιότερα μπορεί να είναι συντομότεροι 6 (π.χ. ένα γράμμα ακολουθούμενο από πέντε αριθμούς A12345). Παρότι ένα μοναδικό κλειδί στην ιδανική περίπτωση δεν πρέπει να αλλάζει, συχνά οι κωδικοί καταχώρησης ακολουθούνται από μια τελεία και τον αριθμό έκδοσης της συγκεκριμένης εγγραφής (π.χ. AB ). Αυτό εξυπηρετεί την περίπτωση εκείνη που μια αλληλουχία (ή τα σχετικά με αυτήν πεδία) αναθεωρούνται από 5 Μπορείτε με απλές μαθηματικές πράξεις να υπολογίσετε το μέγιστο πλήθος εγγραφών οι οποίες μπορούν να καταχωρηθούν με το σύστημα αυτό; 6 Το σύστημα αυτό, όπως βλέπετε, δεν είναι και πολύ διαφορετικό από εκείνο που χρησιμοποιείται για την απόδοση αριθμών κυκλοφορίας στα τροχοφόρα οχήματα!

41 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 35 τους συγγραφείς οι οποίοι πρωτοκατέθεσαν την αλληλουχία αυτή, οπότε και για την εγγραφή δίδεται ένας νέος αριθμός έκδοσης (κατά κανόνα ο προηγούμενος αυξημένος κατά ένα) αλλά το υπόλοιπο του κωδικού καταχώρησης παραμένει το ίδιο. Με τον τρόπο αυτό είναι δυνατόν να διατηρείται το ιστορικό των εγγραφών Μορφοποίηση δεδομένων νουκλεοτιδικών αλληλουχιών Οι πρωτογενείς ΒΔ νουκλεοτιδικών αλληλουχιών παραδοσιακά βασίζονταν σε μορφοποίηση με αρχεία κειμένου ASCII. Η συσχέτιση μεταξύ της μορφοποίησης των ανεξάρτητων ΒΔ έχει παγιωθεί με τρόπο ο οποίος εξυπηρετεί τη διαρκή ανταλλαγή δεδομένων μεταξύ τους, όπως προαναφέρθηκε. Στις περισσότερες των περιπτώσεων τα πεδία των ΒΔ συνδέονται μεταξύ τους μονοσήμαντα. Παρόλα αυτά, ένας εξαιρετικά απλός τρόπος αποθήκευσης/αναπαράστασης δεδομένων αλληλουχιών είναι με τη μορφοποίηση που αρχικά ακολουθούσε το πακέτο λογισμικού FAST, και έτσι έχει επικρατήσει μέχρι σήμερα να ονομάζεται FASTA format και ο οποίος επιδεικνύεται αμέσως παρακάτω. Στην απλούστερη μορφή η μορφοποίηση FASTA αποτελείται από μια γραμμή η οποία σημαίνεται στην αρχή με το χαρακτήρα > η οποία περιέχει ένα τίτλο για την αλληλουχία. Ορισμένες ΒΔ είναι δυνατόν να δίνουν τίτλους οι οποίοι έχουν εσωτερική δομή, όπως φαίνεται στην Εικόνα 2.3. FASTA format >justatitle GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG AGAGAGATGGAATAAAGCCCTTGAACCAGC Είναι προφανές ότι η μορφοποίηση FASTA, αν και είναι πολύ βολική (και παράλληλα human readable ) δεν παρέχει εφόδια για την αποθήκευση και ανάκτηση δεδομένων επιπλέον της αλληλουχίας. Οι κύριες ΒΔ νουκλεοτιδικών αλληλουχιών έχουν δημιουργήσει δικές τους πιο πλούσιες μορφοποιήσεις, οι οποίες εξυπηρετούν περισσότερο την καταχώρηση επιπλέον λειτουργικών και άλλων πληροφοριών για τα αντίστοιχα μόρια. στα επόμενα παρουσιάζουμε τμηματικά για

42 36 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Εικόνα 2.3: Η προηγούμενη νουκλεοτιδική αλληλουχία σε FASTA format με δομημένους περιγραφικούς τίτλους. σύγκριση τις αντίστοιχες καταχωρήσεις των ΒΔ GenBank, EMBL και DDBJ 7. Τα απλά αρχεία στα οποία βασίζονται αυτές οι ΒΔ μπορούν να χωριστούν χοντρικά σε τρία τμήματα: Επικεφαλίδα Περιέχει τις βασικές πληροφορίες που σχετίζονται με την κάθε καταγραφή. Χαρακτηριστικά Αποτελούν τον κορμό του σχολιασμού κάθε καταγραφής. Αλληλουχία Η νουκλεοτιδική αλληλουχία. Το τέλος κάθε καταγραφής δηλώνεται με τους χαρακτήρες // μετά την αλληλουχία. Επικεφαλίδα - Header Η επικεφαλίδα αποτελεί το τμήμα εκείνο των καταγραφών στο οποίο οι διάφο- 7 Τις πλήρεις καταχωρήσεις μπορείτε να τις ανακτήσετε από τους αντίστοιχους διαδικτυακούς τόπους αλλά και από την ιστοσελίδα

43 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 37 ρες ΒΔ παρουσιάζουν σημαντικές ιδιομορφίες. GenBank LOCUS X bp mrna linear PRI 20-JUL-1993 DDBJ LOCUS X bp mrna linear HUM 20-JUL-1993 EMBL ID X70508; SV 1; linear; mrna; STD; HUM; 450 BP. Να παρατηρήσετε ότι η ΒΔ EMBL χρησιμοποιεί στην αρχή κάθε γραμμής ένα πρόθεμα το οποίο υποδεικνύει τον τύπο της πληροφορίας που περιέχει η συγκεκριμένη γραμμή. Στο παράδειγμά μας η γραμμή ID περιέχει το IDentification της καταγραφής. Παρατηρούμε ότι το όνομα του γενετικού τόπου (locus name - GenBank/DDBJ) ή το όνομα της καταγραφής (entry name - EMBL) είναι κοινό (X70508) και για τις τρεις ΒΔ, παρότι αυτό μπορεί να μη συμβαίνει κατά κανόνα. Αυτό το όνομα πρέπει να ξεκινά με ένα γράμμα του αγγλικού αλφαβήτου ενώ οι χαρακτήρες οι οποίοι ακολουθούν είναι αλφαριθμητικοί. Κατά σύμβαση, χρησιμοποιούνται κεφαλαίοι χαρακτήρες και το όνομα αυτό δεν περιλαμβάνει περισσότερους από 10 χαρακτήρες. Στις απαρχές των ΒΔ νουκλεοτιδικών αλληλουχιών οι φροντιστές τους προσπαθούσαν να δίνουν μνημονικά ονόματα τα οποία υποδείκνυαν τον τύπο του αντίστοιχου μορίου. Παρόλα αυτά, ο περιορισμός ότι το όνομα αυτό οφείλει να είναι μοναδικό για κάθε καταγραφή, ανάγκασε τους φροντιστές να καταφύγουν σε αυτοματοποιημένο τρόπο εκχώρησης τέτοιων ονομάτων. Πλέον, η ύπαρξή τους στις καταγραφές των ΒΔ έχει περισσότερο ιστορικό παρά πρακτικό ρόλο. Το δεύτερο στοιχείο που αναφέρεται στις εγγραφές GenBank/DDBJ (τελευταίο στην EMBL) είναι το μήκος της αλληλουχίας (450 bp), ενώ επίσης καταγράφεται ο τύπος του μορίου, που στην περίπτωσή μας είναι mrna. Τα στοιχεία PRI και HUM αντιστοιχούν στον κωδικό τομέα. Οι τομείς αποτελούν ιδεατές υποδιαιρέσεις των ΒΔ οι οποίες ταξινομούν εγγραφές με βάση τη φυλογενετική κατάταξη του οργανισμού προέλευσης. Η κάθε ΒΔ έχει διαφορετικούς τομείς όπως φαινεται στον Πίνακα 2.1. Πρόσφατα, έχουν δημιουργηθεί νέες υποδιαιρέσεις με λειτουργική βάση, κυρίως σύμφωνα με τον τρόπο με τον οποίο έχουν προσδιοριστεί οι αντίστοιχες αλληλουχίες (Πίνακας 2.2). Αυτή η ομαδοποίηση προσφέρει στους χρήστες τη δυνατότητα να υποβάλλουν επερωτήσεις μόνο στην αντίστοιχη υποδιαίρεση, και βοηθά στην ευκολότερη και σωστότερη βιολογική ερμηνεία των αποτελεσμάτων.

44 38 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Πίνακας 2.1: Τομείς των ΒΔ νουκλεοτιδικών αλληλουχιών με βάση τον οργανισμό προέλευσης. Τομέας DDBJ EMBL GenBank BCT Bacterial FUN Fungal HUM Human INV Invertebrate MAM Other mammalian ORG Organelle PHG Phage PLN Plant αʹ PRI Primate βʹ PRO Prokaryotic ROD Rodent SYN Synthetic and chimeric VRL Viral VRT Other vertebrate αʹοι DDBJ/GenBank συμπεριλαμβάνουν και τις αλληλουχίες μηκύτων (FUN). βʹη GenBank συμπεριλαμβάνει και τις ανθρώπινες αλληλουχίες (HUM). Η ημερομηνία που αναγράφεται (στο πεδίο LOCUS μόνο) αντιστοιχεί στην τελευταία ημερομηνία κατά την οποία έγινε διαθέσιμη η συγκεκριμένη καταγραφή. Εάν οποιαδήποτε από τα δεδομένα της καταγραφής αλλάξουν και καταστούν διαθέσιμες και πάλι στην κοινότητα, η ημερομηνία αυτή αλλάζει. Η ΒΔ EMBL διαθέτει ξεχωριστά πεδία - γραμμές για τις σημαντικές ημερομηνίες που σχετίζονται με κάθε καταγραφή. EMBL DT 20-JUL-1993 (Rel. 36, Created) DT 20-JUL-1993 (Rel. 36, Last updated, Version 1) Οι ημερομηνίες στις γραμμές DT (DaTe) υποδεικνύουν την ημερομηνία δημιουργίας της καταγραφής (1η γραμμή) και την ημερομηνία της τελευταίας αναθεώρησής της (2η γραμμή) 8. Επίσης, παρατίθεται ο αριθμός της αμέσως επόμενης (τετραμηνιαίας) έκδοσης της ΒΔ που ακολούθησε τη δημιουργία ή τελευταία αναθεώρηση της καταγραφής και ο αριθμός έκδοσής (version number) της. Σημαντική πληροφορία που βρίσκεται στην επικεφαλίδα των καταγραφών είναι 8 Προφανώς, για καταγραφές οι οποίες δεν έχουν υποστεί αναθεώρηση οι δυο ημερομηνίες είναι ταυτόσημες.

45 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 39 πεδία ορισμών - περιγραφών: GenBank DEFINITION Homo sapiens mrna for insulinoma pre-proinsulin. DDBJ DEFINITION Homo sapiens mrna for insulinoma pre-proinsulin. EMBL DE Homo sapiens mrna for insulinoma pre-proinsulin Στόχος τους είναι η παροχή μιας περίληψης της γνώσης για τη βιολογική οντότητα που παριστάνεται από τη συγκεκριμένη καταγραφή. Απαιτείται μεγάλη προσοχή, τόσο από τους φροντιστές των ΒΔ που δημιουργούν αυτά τα πεδία 9 όσο και από τους χρήστες που πραγματοποιούν αναζητήσεις στα πεδία αυτά. Να σημειωθεί ότι στην περίπτωση που ο ορισμός - περιγραφή ξεπερνάει σε μήκος το προκαθορισμένο μήκος της γραμμής κάθε ΒΔ, τότε χρησιμοποιούνται επιπλέον γραμμές χωρίς περιορισμό. Αυτό σημαίνει ότι μια καταγραφή της EMBL μπορεί να διαθέτει περισσότερες από μία γραμμές με το πρόθεμα DE. Παρόλα αυτά, οι περιγραφές αυτές είναι κατά το δυνατόν συνοπτικές, και περισσότερες λεπτομέρειες πρέπει να αναζητούνται στο τμήμα των καταγραφών με τα σχόλια. Οι κωδικοί καταχώρησης (accession numbers) και η έκδοση 10 κάθε καταγραφής, παρατίθενται επίσης στην επικεφαλίδα: GenBank ACCESSION X70508 VERSION X GI: DDBJ ACCESSION X70508 VERSION X EMBL AC X70508; Υπενθυμίζεται ότι ο κωδικός καταχώρησης αποτελεί το μοναδικό κλειδί για τις καταγραφές των τριών ΒΔ. Σε δημοσιεύσεις και επίσημες εργασίες είναι υποχρεωτικό να ανφερόμαστε στις καταγραφές των ΒΔ με τον κωδικό καταχώρησης 9 Παρότι αρκετά βήματα αυτής της διαδικασίας είναι αυτοματοποιημένα Να σημειωθεί ότι παλαιότερα η ΒΔ EMBL περιελάμβανε μια ξεχωριστή γραμμή SV (Sequence Version) για την καταχώρηση της έκδοσης της αλληλουχίας, και αυτό μπορεί να το βρείτε σε διδακτικό υλικό που υπάρχει στο διαδίκτυο και σε σχετικά βιβλία. Από την έκδοση 87 (Ιούνιος 2006), αυτή η πληροφορία έχει ενσωματωθεί στη γραμμή ID (δείτε παραπάνω).

46 40 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ παρά με οποιοδήποτε άλλο πεδίο της ΒΔ (π.χ. ID) 11. Η έκδοση μιας καταγραφής αυξάνεται στον επόμενο ακέραιο αριθμό αμέσως μετά από κάθε αναθεώρηση. Η GenBank διατηρεί επιπλέον το λεγόμενο geneinfo identifier (gi). Σημαντική πληροφορία που περιέχεται στην επικεφαλίδα είναι η ταξινομική του οργανισμού από τον οποίο προέρχεται η συγκεκριμένη αλληλουχία. GenBank/DDBJ SOURCE ORGANISM Homo sapiens (human) Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. EMBL OS OC OC OC Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. Το τμήμα της επικεφαλίδας κλείνει με μία τουλάχιστον βιβλιογραφική αναφορά: Οι πληροφορίες αυτές είναι πολύ σημαντικές διότι ανατρέχοντας στις βιβλιογραφικές αναφορές μπορούμε να κατανοήσουμε το λόγο και τον τρόπο με τον οποίο προέκυψε η συγκεκριμένη νουκλεοτιδική αλληλουχία. Να σημειωθεί ότι ακόμη και η διαδικασία της κατάθεσης μιας αλληλουχίας μπορεί να καταγράφεται ως βιβλιογραφική αναφορά, τόσο για να αποδίδονται τα εύσημα στους ερευνητές, όσο για να είναι δυνατή η επικοινωνία μαζί τους στην περίπτωση που υπάρχουν νέα στοιχεία που αφορούν την καταγραφή ή που επιθυμούμε να αποκτήσουμε περισσότερες πληροφορίες ή πρωτογενές πειραματικό υλικό (π.χ. κυτταρικές σειρές) που σχετίζονται με την συγκεκριμένη καταγραφή. Ορισμένες φορές η επικεφαλίδα μιας καταγραφής μπορεί να περιέχει σχόλια (COMMENT στις GenBank/DDBJ, CC στην EMBL), τα οποία περιέχουν ποικίλες πληροφορίες που αφορούν τη συγκεκριμένη καταγραφή. Επιπλέον, η ΒΔ EMBL περιέχει γραμμές τύπου DR (Database cross-reference), με τους κωδικούς καταχώρησης σχετιζόμενων εγγραφών από άλλες ΒΔ. 11 Σήμερα, οι εγγραφές των ΒΔ ακολουθούν για τους κωδικούς καταχώρησης τη μορφοποίηση 1+5 ή 1+6, δηλαδή ένα ή δύο κεφαλαία γράμματα ακολουθούμενα από 5 ή 6 αριθμητικά ψηφία αντίστοιχα. Οι περισσότερες καταγραφές έχουν ένα μόνο κωδικό καταχώρησης (πρωτεύων ή κύριος κωδικός - primary accession) ενώ ορισμένες καταγραφές (οι οποίες έχουν συνήθως υποστεί σημαντικές αναθεωρήσεις) μπορεί να έχουν επιπλέον δευτερεύοντες κωδικούς καταχώρησης (secondary accession).

47 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 41 GenBank REFERENCE 1 (bases 1 to 450) AUTHORS Chekhranova,M.K., Shuvalova,E.R., Kutin,A.M., Butnev,V.Iu., Valentsova,A.B., Il ina,e.n. and Pankov,Iu.A. TITLE [Cloning, primary structure determination and expression of preproinsulin cdna from human insulinoma in Escherichia coli] JOURNAL Mol. Biol. (Mosk.) 26 (3), (1992) PUBMED DDBJ REFERENCE 1 (bases 1 to 450) AUTHORS Chekhranova,M.K., Shubalova,E.I., Kutin,A.M., Betnev,V.Y., Valentsova,A.B., Il ina,e.n. and Pankov,Y.A. TITLE Cloning, nucleotide sequence determination and expression of human insulinoma pre-proinsulin cdna in Escherichia coli JOURNAL Mol. Biol. (Mosk.) 26(3), (1992). EMBL RN [1] RP RX PUBMED; RA Chekhranova M.K., Shubalova E.I., Kutin A.M., Betnev V.Y., Valentsova A.B., RA Il ina E.N., Pankov Y.A.; RT Cloning, primary structure determination and expression of preproinsulin RT cdna from human insulinoma in Escherichia coli ; RL Mol. Biol. (Mosk.) 26(3): (1992). Πίνακας χαρακτηριστικών - Feature table Ο πίνακας χαρακτηριστικών αποτελεί το κατεξοχήν τμήμα των καταγραφών που περιέχει σχολιασμό. Κάθε χαρακτηριστικό περιγράφεται από μια λέξη-κλειδί (feature key) (η οποία μπορεί να είναι πραγματική λέξη ή μνημονική συντομογραφία), τη θέση που εμφανίζεται στην αλληλουχία και μπορεί να περιέχει επιπλέον επεξηγηματικά πεδία (qualifiers). Οι πίνακες χαρακτηριστικών που ακολουθούν περιέχουν τέσσερις λέξεις-κλειδιά που αντιστοιχούν σε ισάριθμα χαρακτηριστικά, συγκεκριμένα source, CDS, sig_peptide, mat_peptide. Κάθε χαρακτηριστικό αποτυπώνεται σε μια συγκεκριμένη περιοχή της αλληλουχίας, π.χ. το CDS (CoDing Sequence - κωδική αλληλουχία) στην περιοχή μεταξύ των βάσεων 45 εώς 377, ενώ μπορεί να επεξηγείται σε μεγαλύτερη λεπτομέρεια με την επιπλέον χρήση qualifiers. Για παράδειγμα, η προαναφερθείσα κωδική περιοχή διαβάζεται στο 1ο πλαίσιο ανάγνωσης (/codon_start=1 12 ). 12 Αυτό ήταν αναμενόμενο για τη συγκεκριμένη εγγραφή; Σε ποιές περιπτώσεις πιστεύετε ότι μπορεί να είναι πολύ χρήσιμη αυτή η πληροφορία;

48 42 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ GenBank FEATURES Location/Qualifiers source /organism= Homo sapiens /mol_type= mrna /db_xref= taxon:9606 /clone= puex1ins12 /clone_lib= Human insulinoma cdna library CDS /codon_start=1 /product= pre-proinsulin /protein_id= CAA /db_xref= GI: /db_xref= GDB: /db_xref= GOA:P01308 /db_xref= HGNC:6081 /db_xref= InterPro:IPR /db_xref= InterPro:IPR /db_xref= PDB:1A7F... /db_xref= UniProtKB/Swiss-Prot:P01308 /translation= MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCG ERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSL YQLENYCN sig_peptide mat_peptide /product= pre-proinsulin DDBJ FEATURES Location/Qualifiers source /db_xref= H-InvDB:HIT /organism= Homo sapiens /mol_type= mrna /clone_lib= Human insulinoma cdna library /clone= puex1ins12 /db_xref= taxon:9606 sig_peptide CDS /product= pre-proinsulin /db_xref= GDB: /db_xref= GOA:P01308 /db_xref= HGNC:6081 /db_xref= InterPro:IPR /db_xref= InterPro:IPR /db_xref= PDB:1A7F... /db_xref= UniProtKB/Swiss-Prot:P01308 /protein_id= CAA /translation= MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGE RGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQ LENYCN mat_peptide /product= pre-proinsulin EMBL FH Key Location/Qualifiers FH FT source FT /organism= Homo sapiens FT /mol_type= mrna FT /clone_lib= Human insulinoma cdna library FT /clone= puex1ins12 FT /db_xref= taxon:9606 FT sig_peptide FT CDS FT /product= pre-proinsulin FT /db_xref= GDB: FT /db_xref= GOA:P01308 FT /db_xref= HGNC:6081 FT /db_xref= InterPro:IPR FT /db_xref= InterPro:IPR FT /db_xref= PDB:1A7F... FT /db_xref= UniProtKB/Swiss-Prot:P01308 FT /protein_id= CAA FT /translation= MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGE FT RGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQ FT LENYCN FT mat_peptide FT /product= pre-proinsulin

49 2.1. ΒΔ ΝΟΥΚΛΕΟΤΙΔΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 43 Χωρίς να αναφερθούμε στις επιμέρους διαφορές των μεμονωμένων ΒΔ, οι παρακάτω πίνακες χαρακτηριστικών μεταφράζονται ως εξής: Η αλληλουχία η οποία περιγράφεται και αποτελείται από 450 νουκλεοτίδια, αντιστοιχεί σε ένα mrna του είδους Homo sapiens και η περιοχή μεταξύ των βάσεων 45 και 377 κωδικοποιεί μια πολυπεπτιδική αλυσίδα (πρι-προ-ινσουλίνη). Τα περισσότερα χαρακτηριστικά φέρουν διαισθητικά ονόματα, οπότε αναμένεται ότι θα μπορείτε με λίγη εξάσκηση να κατανοείτε τις πληροφορίες που περιέχονται στον πίνακα χαρακτηριστικών Δευτερογενείς ΒΔ νουκλεοτιδικών αλληλουχιών Μέσα από τον πραγματικά τεράστιο αριθμό δευτερογενών ΒΔ νουκλεοτιδικών αλληλουχιών, στην ενότητα αυτή παρουσιάζονται ενδεικτικά επιλεγμένες μόνο ΒΔ. UniGene ( Κάθε καταγραφή της UniGene είναι ένα σύνολο από μετάγραφα τα οποία (φαίνεται να) προέρχονται από τον ίδιο γενετικό τόπο. Επιπλέον, περιέχει πληροφορίες σχετικά με ομοιότητες στο επίπεδο της αμινοξικής αλληλουχίας, τη γονιδιακή έκφραση, αντιδραστήρια και cdna κλώνους γονιδιωματικό εντοπισμό STACK ( Το πρόγραμμα STACK έχει σκοπό τη δημιουργία μιας περιεκτικής απεικόνισης της αλληλουχίας για κάθε ένα από τα γονίδια που εκφράζονται στο ανθρώπινο γονιδίωμα με βάση την εκτεταμένη επεξεργασία θραυσμάτων γονιδίων για τη δημιουργία στοιχίσεων ακριβείας, την επισήμανση της ποικιλότητας και την παροχή ενός προσεκτικά επιλεγμένου συνόλου συνενετικών (consensus) αλληλου-

50 44 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ χιών για κάθε γονίδιο. Το πρόγραμμα STACK απαρτίζεται από το STACKdbTM human gene index, μια ΒΔ εικονικών μεταγράφων για τον άνθρωπο, όπως και το stackpacktm, που περιέχει τα εργαλεία που χρησιμοποιούνται για την κατασκευή της ΒΔ. Ribosomal database project ( Το Ribosomal Database Project (RDP) παρέχει δεδομένα που σχετίζονται με τα ριβοσώματα καθώς και υπηρεσίες προς την ερευνητική κοινότητα, συμπεριλαμβανομένων online εργαλείων ανάλυσης δεδομένων καθώς και στοιχισμένων (και σχολιασμένων) αλληλουχιών 16S rrna από βακτήρια και αρχαία. HIV sequence database ( Οι ΒΔ σχετικές με τον ιό HIV περιέχουν δεδομένα γενετικών αλληλουχιών από στελέχη του ιού, ανοσολογικούς επίτοπους, μεταλλάξεις που σχετίζονται με την αντίσταση στη φαρμακευτική αγωγή, καθώς και δοκιμές εμβολίων. Ο σχετικός διαδικτυακός τόπος παρέχει πρόσβαση σε μεγάλο πλήθος εργαλείων τα οποία μπορούν να χρησιμοποιηθούν για την ανάλυση αυτών των δεδομένων. Το πρόγραμμα αυτό χρηματοδοτείται από το Division of AIDS του National Institute of Allergy and Infectious Diseases (NIAID) το οποίο αποτελεί τμήμα των Εθνικών Ινστιτούτων Υγείας των Ηνωμένων Πολιτειών (NIH). Eukaryotic promoter database ( Η ΒΔ Eukaryotic Promoter Database (EPD) είναι μια σχολιασμένη συλλογή, χωρίς πλειονασμό, ευκαρυωτικών υποκινητών της POL II για τους οποίους το σημείο έναρξης της μεταγραφής έχει προσδιοριστεί πειραματικά. Προσφέρεται πρόσβαση στις αλληλουχίες των υποκινητών με δείκτες στις αντίστοιχες θέσεις εγγραφών νουκλεοτιδικών αλληλουχιών. Τα σχόλια της ΒΔ περιλαμβάνουν περιγραφή των δεδομένων που χρησιμοποιήθηκαν για τη χαρτογράφηση του σημείου έναρξης της μεταγραφής, αναφορές σε άλλες ΒΔ καθώς και βιβλιογραφικές αναφορές. Η EPD είναι δομημένη με τέτοιο τρόπο ώστε να καθιστά δυνατή τη δυναμική εξαγωγή υποσυνόλων υποκινητών τα οποία έχουν βιολογική σημασία για συγκριτική

51 2.2. ΒΔ ΑΜΙΝΟΞΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 45 ανάλυση αλληλουχιών. REBASE ( Η ΒΔ REBASE (The Restriction Enzyme data BASE) αποτελεί συλλογή πληροφοριών σχετικά με περιοριστικά ένζυμα και τις σχετιζόμενες με αυτά πρωτεΐνες. Περιέχει δημοσιευμένες και μη αναφορές, περιοχές αναγνώρισης και κοπής (cleavage) isoschizomers, εμπορική διαθεσιμότητα, ευαισθησία στη μεθυλίωση, καθώς και δεδομένα σχετικά με την αλληλουχία και τη δομή. Περιλαμβάνονται επίσης δεδομένα σχετικά με DNA μεθυλ-τρανσφεράσες, homing ενδονουκλεάσες, nicking enzymes, specificity subunits and control proteins. Επίσης, περιέχονται πληροφορίες σχετικές με περιοριστικά ένζυμα και DNA μεθυλ-τρανσφεράσες που έχουν προβλεφθεί να υπάρχουν σε διαθέσιμες γονιδιωματικές αλληλουχίες. Το περιεχόμενο της REBASE ανανεώνεται σε καθημερινή βάση και διαρκώς επεκτείνεται. 2.2 ΒΔ αμινοξικών αλληλουχιών Οι περισσότερες από τις διαθέσιμες πληροφορίες που σχετίζονται με πρωτεΐνες στις ημέρες μας συλλέγονται σε εξειδικευμένες ΒΔ μέσω των οποίων είναι δυνατόν να έχουμε πρόσβαση μέσω του διαδικτύου. Ορισμένες από αυτές αποτελούν αρχειακές συλλογές (π.χ. TREMBL) ενώ σε άλλες περιπτώσεις δίνεται μεγαλύτερη βάση στο σχολιασμό των εγγραφών. Στη δεύτερη περίπτωση τα δεδομένα επιπλέον της αλληλουχίας που αφορούν τη λειτουργία ή τη δομή κάποιας πρωτεΐνης προέρχονται συνήθως είτε από πειραματικά δεδομένα (μέσα από βιβλιογραφικές αναφορές) είτε από προβλέψεις με βιοπληροφορικές μεθόδους UniProt Knowledgebase - UniProtKB Η UniProt Knowledgebase (UniProtKB) αποτελεί τον κεντρικό κόμβο για τη συλλογή λειτουργικών πληροφοριών σχετικών με πρωτεΐνες. Η ομάδα που αναπτύσει και συντηρεί την UniProtKB, διατείνεται ότι οι εγγραφές της περιέχουν ακριβή, συνεπή και πλούσια σχόλια.

52 46 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Τί ακριβώς είναι ο σχολιασμός από ειδικούς; Ο σχολιασμός από ειδικούς συνίσταται από την κριτική αναθεώρηση των πειραματικών ευρημάτων (μέσα από την επιστημονική βιβλιογραφία) ή υπολογιστικά δεδομένα τα οποία προβλέπονται για κάθε πρωτεΐνη (συμπεριλαμβανομένης και της αλληλουχίας της!). Τα δεδομένα αυτά αναθεωρούνται διαρκώς από μια ομάδα ειδικών βιολόγων. Η ΒΔ UniProtKB/Swiss-Prot παρέχει σχολιασμένες εγγραφές οι οποίες προέρχονται από πλήθος βιολογικών οργανισμών. Παρόλα αυτά, στο επίκεντρο της προσπάθειας του σχολιασμού βρίσκονται οι οργανισμοί μοντέλα από διάφορες ταξινομικές ομάδες με σκοπό να διασφαλίζεται η ύπαρξη σχολίων υψηλής προστιθέμενης αξίας για αντιπροσώπους πρωτεϊνικών οικογενειών (.. ίσως και επειδή υπάρχει έλλειψη ειδικών σχετικά με συσγκεκριμένα είδη/ταξινομικές ομάδες). Η οργάνωση του σχολιασμού από την ομάδα της Swiss-Prot (η οποία σημειωτέον είναι μοιρασμένη μεταξύ EBI-SIB) μπορεί να χωριστεί σε: 1. Σχολιασμός επικεντρωμένος σε οργανισμούς-μοντέλα. Συμπεριλαμβάνει: Άνθρωπος και θηλαστικά (Human Proteome Initiative - HPI) Βακτήρια, Αρχαία και πλαστίδια (High-quality Automated and Manual Annotation of microbial Proteomes - HAMAP) Φυτά (Plant Proteome Annotation Program - PPAP) Μύκητες (Fungal Proteome Annotation Program - FPAP) Ιοί Τοξίνες που παράγονται από δηλητηριώδη ζώα (Toxin Annotation Program - Tox-Prot) Drosophila, Xenopus, Zebrafish και C.elegans 2. Δια-ειδικός σχολιασμός, σχετικά με θέματα που αφορούν μεγάλο εύρος οργανισμών, όπως μεταμεταφραστικές τροποποιήσεις, δομικά δεδομένα και δεδομένα πρωτεϊνικών αλληλεπισράσεων Επιπρόσθετα των ελάχιστων απαραίτητων δεδομένων για κάθε εγγραφή της ΒΔ UniProtKB (δηλ. την αμινοξική αλληλουχία, το όνομα/περιγραφή της πρωτεΐνης, δεδομένα ταξινομίας και βιβλιογραφικές πληροφορίες) προστίθεται όσο το δυνατόν μεγαλύτερο πλήθος πληροφοριών με τη μορφή σχολίων. Αυτά περιέχουν τις επικρατέστερες βιολογικές οντολογίες, ταξινομήσεις σε οικογένειες, συνδέσμους προς άλλες ΒΔ και ενδείξεις της ποιότητας (ή της αξιοπιστίας) των σχολίων με τη μορφή της απόδοσης τεκμηρίων (όπως π.χ. πειραματικά και/ή υπολογιστικά δεδομένα). Η UniProtKB απαρτίζεται από δύο τομείς: ο ένας περιέχει καταχωρήσεις οι οποίες σχολιάζονται από ειδικούς φροντιστές της ΒΔ (manual annotation) σύμφωνα με δεδομένα και πληροφορίες που εντοπίζονται στην επιστημονική βιβλιογραφία και υπολογιστικές αναλύσεις οι οποίες αξιολογούνται από τους φροντιστές και ένα

53 2.2. ΒΔ ΑΜΙΝΟΞΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 47 δεύτερο τομέα με καταχωρήσεις οι οποίες έχουν αυτοματοποιημένο μόνο σχολιασμό και αναμένεται ο πλήρης σχολιασμός από κάποιον ειδικό. Για χάρη συνοχής (και για ιστορικούς ίσως λόγους) οι τομείς αυτοί αναφέρονται αντίστοιχα ως UniProtKB/Swiss-Prot (ελεγμένες από ειδικούς καταχωρήσεις) και UniProtKB/TrEMBL (μη ελεγμένες καταχωρήσεις με αυτόματο σχολιασμό). Οι πρωτεϊνικές αλληλουχίες που καταχωρούνται στη UniProtKB, κατά κύριο λόγο, προέρχονται από την in silico μετάφραση των κωδικών αλληλουχιών (coding sequences, CDS) οι οποίες έχουν κατατεθεί στις δημόσιες ΒΔ νουκλεοτιδικών αλληλουχιών EMBL/GenBank/DDBJ. Όλες αυτές οι αλληλουχίες, καθώς και τα σχετικά δεδομένα τα οποία κατατίθενται από τους συγγραφείς, ενσωματώνονται αυτόματα στην UniProtKB/TrEMBL. Οι δύο τομείς της UniProtKB (UniProtKB/Swiss-Prot και UniProtKB/TrEMBL) παρέχουν πρόσβαση σε όλες τις πρωτεϊνικές αλληλουχίες οι οποίες είναι ελεύθερα διαθέσιμες στην ερευνητική κοινότητα. Παρόλα αυτά, σκόπιμα η UniProtKB δεν συμπεριλαμβάνει τις ακόλουθες πρωτεϊνικές αλληλουχίες: 1. Τις περισσότερες ανοσοσφαιρίνες από σωματικά κύτταρα και τους υποδοχείς Τ-κυττάρων 2. Συνθετικές αλληλουχίες 3. Αλληλουχίες που έχουν συμπεριληφθεί σε πατέντες 4. Μικρά θραύσματα τα οποία κωδικοποιούνται από νουκλεϊκά οξέα (<8 αμινοξέα) 5. Ψευδογονίδια 6. Πρωτεΐνες που αποτελούν προϊόντα τεχνητής σύντηξης (χειμερικά μόρια) ή τμηματοποίησης γνωστών πρωτεϊνών 7. Πρωτεΐνες που δεν είναι πραγματικές Οι πρώτες πέντε κατηγορίες αναγνωρίζονται αυτόματα από το λογισμικό δημιουργίας της ΒΔ UniProtKB/TrEMBL, και έτσι οι αντίστοιχες αλληλουχίες δεν καταλήγουν ποτέ στη UniProtKB. Παρόλα αυτά, όσες διαφέυγουν από το στάδιο αυτό 13 είναι δυνατό να ανιχνευθούν από τους ειδικούς φροντιστές κατά τη φάση ει- 13 πιθανότατα λόγω ανεπαρκούς τεκμηρίωσης της αντίστοιχης καταχώρησης νουκλεοτιδικής αλληλουχίας

54 48 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ σαγωγής καταχωρήσεων και σχολιασμού στον τομέα UniProtKB/Swiss-Prot, οπότε και απομακρύνονται από τη UniProtKB. Οι πρωτεΐνες που αποτελούν προϊόντα τεχνητής σύντηξης/τμηματοποίησης (και οι μή πραγματικές πρωτεΐνες) εντοπίζονται από τους φροντιστές της ΒΔ και απομακρύνονται από τη UniProtKB/TrEMBL ή τη UniProtKB/Swiss-Prot. Όλες οι παραπάνω αλληλουχίες οι οποίες δε συμπεριλαμβάνονται στη UniProtKB καταχωρούνται στη UniParc, και οι αντίστοιχες καταγραφές διαθέτουν σχετική επισήμανση η οποία αναφέρει το συγκεκριμένο λόγο για τον οποίο δε συμπεριλήφθηκαν στην UniProtKB. Υπάρχει πλεονασμός στις αλληλουχίες της UniProtKB; Προκειμένου να υπάρχει ο ελάχιστος δυνατός πλεονασμός και για τη βελτίωση της αξιοπιστίας των καταχωρημένων αλληλουχιών όλες οι πρωτεϊνικές αλληλουχίες οι οποίες κωδικοποιούνται από το ίδιο γονίδιο συμπτύσσονται σε μια μοναδική καταγγραφή της ΒΔ UniProtKB/Swiss-Prot. Διαφορές οι οποίες εμφανίζονται μεταξύ διαφορετικών αναφορών σε πειράμματα προσδιορισμού των αντίστοιχων νουκλεοτιδικών αλληλουχιών αʹ (όπως π.χ. περιπτώσεις εναλλακτικού ματίσματος, εναλλακτικής θέσης έναρξης μετάφρασης, πολυμορφισμοί κλπ.) περιγράφονται αναλυτικά στα πεδία τύπου FT (πεδία χαρακτηριστικών - feature table). Να σημειωθεί ότι από τη στιγμή που μια καταγραφή μεταφέρεται στη UniProtKB/Swiss-Prot, διαγράφεται η αντίστοιχη καταγραφή της UniProtKB/TrEMBL. αʹθυμηθείτε ότι οι περισσότερες καταγραφές της UniProtKB προέρχονται από in silico μετάφραση κωδικών νουκλεοτιδικών αλληλουχιών... Διατηρείται αρχείο της ιστορίας των καταγραφών της UniProtKB; Το σύνολο των καταγραφών της UniProtKB φορτώνονται στο UniSave Sequence/Annotation Version Archive κατά τη διάρκεια της παραγωγής των νέων εκδόσεων της UniProtKB. Ενώ η UniProtKB περιέχει μόνο τις τρέχουσες καταγραφές των ΒΔ Swiss-Prot και TrEMBL, η UniSave προσφέρει πρόσβαση σε προηγούμενες εκδόσεις αυτών των καταγραφών. Στη διαδικτυακή διεπαφή της UniProtKB, παρέχεται πρόσβαση σε αρχειοθετημένες προηγούμενες εκδόσεις κάθε καταγραφής από ένα ειδικό υπερσύνδεσμο (History). Αλληλουχίες αναφοράς: UniProt reference clusters - UniRef Οι ΒΔ αναφοράς UniRef περιέχουν ομαδοποιημένα σύνολα αλληλουχιών της ΒΔ UniProtKB (συμπεριλαμβανομένων προϊόντων εναλλακτικού ματίσματος και ισομορφών) καθώς και επιλεγμένες καταγραφές του αρχείου UniParc με σκοπό την παροχή πλήρους κάλυψης του χώρου των αλληλουχιών (sequence space). Αυτή η κάλυψη είναι δυνατόν να επιτευχθεί σε διαφορετικά επίπεδα ανάλυσης (ή ευ-

55 2.2. ΒΔ ΑΜΙΝΟΞΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 49 κρίνειας), απομακρύνοντας τις πλεονάζουσες αλληλουχίες (όχι όμως και τις περιγραφές τους). Σε αντίθεση με τη UniParc, οι τεμαχισμένες αλληλουχίες συγχωνεύονται στη UniRef. Πιο συγκεκριμένα, η ΒΔ UniRef100 συνδυάζει καταγραφές ταυτόσημων αλληλουχιών καθώς και θραυσμάτων με 11 ή περισσότερα αμινοξικά κατάλοιπα από οποιδήποτε οργανισμό, δημιουργώντας μια ενιαία καταγραφή. Αυτή η καταγραφή, στο πεδίο της αλληλουχίας περιέχει μια αντιπροσωπευτική μόνο αλληλουχία αλλά περιέχει τους κωδικούς καταχώρισης όλων των αντίστοιχων εγγραφών, καθώς και υπερσυνδέσμους στις αντίστοιχες καταγραφές των ΒΔ UniProtKB και UniParc. Κατά αντίστοιχο τρόπο παράγονται οι βάσεις δεδομένων UniRef90 και UniRef50 με σημείο έναρξης τη UniRef100. Ειδικότερα, οι αλληλουχίες της UniRef100 ομαδοποιούνται με τη χρήση του αλγορίθμου CD-HIT (Li W., Jaroszewski L., and Godzik A., Bioinformatics, 17: , 2001) κατά τρόπο ώστε κάθε ομάδα (cluster) αποτελείται από αλληλουχίες οι οποίες έχουν τουλάχιστον 90% ή 50% ταυτόσημα αμινιξικά κατάλοιπα αντίστοιχα με τη μακρύτερη αλληλουχία της ομάδας (UniRef seed sequence). Οι ΒΔ UniRef90 και UniRef50 προσεγγιστικά είναι 40% και 65% μικρότερες σε μέγεθος, και παρέχουν αντιπροσωπευτικές αλληλουχίες για ταχύτερες αναζητήσεις ομοιοτήτων. Οι αλληλουχίες οι οποίες ανήκουν σε κάθε ομάδα κατατάσσονται ιεραρχικά ώστε να διευκολύνεται η επιλογή μιας αντιπροσωπευτικής αλληλουχίας για κάθε ομάδα. Τα κριτήρια για την κατάταξη αυτή είναι τα ακόλουθα: 1. Ποιότητα: προτιμούνται οι καταγραφές της UniProtKB/Swiss-Prot. 2. Ποιότητα σχολιασμού: καταγραφές με περιγραφή που περιέχει όρους όπως υποθετική, πιθανή κτλ, έχουν μικρότερη προτεραιότητα. 3. Οργανισμός: προτιμούνται καταγραφές από οργανισμούς-μοντέλα. 4. Μήκος: προτιμάται η μεγαλύτερη σε μήκος αλληλουχία που πληρεί τα παραπάνω κριτήρια. Αρχειοθέτηση αλληλουχιών: UniProt archive - UniParc Η ΒΔ UniParc αποτελεί μια περιεκτική, μη-πλεονάζουσα πηγή δεδομένων η οποία περιέχει τις περισσότερες από τις παγκόσμια διαθέσιμες πρωτεϊνικές αλληλουχίες. Οι πρωτεΐνες αυτές είναι δυνατόν να προέρχονται από διαφορετικές πηγές

56 50 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ ή/και να υπάρχουν σε πολλαπλά αντίγραφα μέσα στην ίδια ΒΔ. Η UniParc αποφεύγει τον πλεονασμό αποθηκεύοντας κάθε μοναδική αλληλουχία μόνο μία φορά, δίνοντας της έναν σταθερό μοναδικό κωδικό ταυτότητας (αντίστοιχο του κωδικού καταχώρησης) ο οποίος ονομάζεται Unique Protein Identifier ή για συντομία UPI. Η διαχρονική χρήση του UPI 14 καθιστά δυνατό τον εντοπισμό των αλληλουχιών που αντιστοιχούν στην ίδια πρωτεΐνη μέσα σε διαφορετικές ΒΔ. Η ΒΔ UniParc περιέχει μόνο τις πρωτεϊνικές αλληλουχίες και αναφορές στις ΒΔ από τις οποίες προέρχονται. Με τη χρήση αυτών των αναφορών είναι δυνατή η πρόσβαση σε όλες τις πληροφορίες οι οποίες είναι διαθέσιμες για τη συγκεκριμένη πρωτεΐνη. Επιπλέον, για κάθε πρωτεΐνη που καταχωρείται στη UniParc, παρακολουθούνται όλες οι αλλαγές στις αντίστοιχες ΒΔ και καταγράφονται στη UniParc παρέχοντας έτσι το ιστορικό κάθε αλληλουχίας Δευτερογενείς ΒΔ PROSITE ( Η ΒΔ PROSITE αποτελείται από εγγραφές προτύπων (patterns), μοτίβων (motifs) και συμπληρωματικών κανόνων (rules) που ορίζουν αλληλουχίες οικογενειών πρωτεϊνών καθώς και τη σχετική βιβλιογραφία. Σύμφωνα με το σχετικό ιστότοπο, αυτή η ΒΔ περιέχει εγγραφές τεκμηρίωσης οι οποίες περιγράφουν χαρακτηριστικά domains, οικογένειες και λειτουργικά σημαντικές θέσεις σε πρωτεϊνικές αλληλουχίες, καθώς και τα σχετικά patterns και μοτίβα για την αναγνώρισή τους. Οι κανόνες βρίσκονται στο υποσύστημα ProRule, που αποτελεί συλλογή κανόνων βασισμένων σε πρότυπα και μοτίβα, οι οποίοι αυξάνουν την ευαισθησία προτύπων και μοτίβων παρέχοντας επιπλέον πληροφορίες σχετικά με κρίσιμα από λειτουργική και/ή δομική άποψη αμινοξικά κατάλοιπα. PRINTS ( Η ΒΔ PRINTS αποτελεί μια συνοπτική περιγραφή πρωτεϊνικών αποτυπωμάτων (fingerprints). Ως αποτύπωμα ορίζεται ένα σύνολο συντηρημένων μοτίβων τα οποία 14 Ένας συγκεκριμένος UPI ποτέ δε διαγράφεται, αλλάζει ή εκχωρείται σε άλλη καταγραφή

57 2.2. ΒΔ ΑΜΙΝΟΞΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ 51 χρησιμοποιούνται για το χαρακτηρισμό μιας πρωτεϊνικής οικογένειας. Η διαγνωστική τους δύναμη βελτιώνεται με επαναληπτική σάρρωση ενός συνδυασμού της SWISS-PROT/TrEMBL. Κατά κανόνα τα μοτίβα δεν επικαλύπτονται μεταξύ τους, αλλά απέχουν μεταξύ τους στην αλληλουχία, παρότι είναι δυνατόν να είναι γειτονικά στην τρσδιάστατη πρωτεϊνική δομή. Τα αποτυπώματα δύναται να αναπαριστούν πρωτεϊνικά διπλώματα και λειτουργικότητες με μεγαλύτερη ευελιξία και δυναμική από τα μεμονωμένα μοτίβα, με την πλήρη δαγνωστική τους αξία να προκύπτει εξαιτίας του κοινού πλαισίου που παρέχεται από γειτονικά μοτίβα.

58 52 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Πίνακας 2.2: Τομείς των ΒΔ νουκλεοτιδικών αλληλουχιών με βάση λειτουργικά χαρακτηριστικά. Παρατίθενται οι συχνότερα χρησιμοποιούμενοι τομείς. EST Expressed Sequence Tags. Τα ESTs είναι μικρά τμήματα αλληλουχιών cdna (συνήθως βάσεις από τα άκρα τους) τα οποία μεταγράφονται υπό συγκεκριμένες συνθήκες. Ένα EST παράγεται με την (τυχαία) αλληλούχιση ενός κλωνοποιημένου mrna το οποίο αντιπροσωπεύει κάποιο γονίδιο από μια cdna βιβλιοθήκη, η οποία δημιουργείται για τη μελέτη ενός συγκεκριμένου τύπου κυττάρων, ιστού, οργάνου από οποιοδήποτε οργανισμό. Αυτές οι αλληλουχίες μπορούν να παραχθούν εύκολα (απαιτείται μόνο ένα πέρασμα αλληλούχισης) και να χρησιμοποιηθούν ώστε να ταυτοποιηθούν (με σύγκριση αλληλουχιών) τα γονίδια από τα οποία προέρχονται, άρα και να μελετηθεί η γονιδιακή έκφραση. STS Sequence-Tagged Sites. Ένα STS είναι μια μικρή αλληλουχία DNA ( βάσεις) που εμφανίζεται μία μόνο φορά σε ένα γονιδίωμα σε γνωστή θέση και η αλληλουχία της είναι επίσης γνωστή. Τα STSs μπορούν να ανιχνευθούν με εύκολο τρόπο κάνοντας PCR με τη χρήση ειδικών εκκινητών. Έχουν σημαντική χρήση τόσο ως εργαλεία στη γονιδιωματική (π.χ. για τη σωστή διάταξη τυχαίων κλώνων γονιδιωματικών θραυσμάτων και τη γονιδιωματική φυσική χαρτογράφηση) αλλά και τη μελέτη πολυμορφισμών. WGS Whole Genome Shotgun sequences. Δεδομένα από προγράμματα προσδιορισμού αλληλουχιών γονιδιωμάτων οργανισμών με τη στρατηγική Whole Genome Shotgun sequencing. Στην πράξη τα μόρια του DNA τεμαχίζονται τυχαία σε θραύσματα τα οποία επιλέγονται με βάση το μοριακό τους βάρος και κατόπιν κλωνοποιούνται στον κατάλληλο (ανάλογα με το μέγεθός τους) φορέα. Ακολούθως, προσδιορίζονται οι αλληλουχίες των κλώνων από τις δύο άκρες (end-reads) και οι αναγνώσεις αυτές ονομάζονται mate pairs. Η πληροφορία των αλληλουχιών των mate pairs, καθώς και το μέγεθος του ένθετου DNA που κλωνοποιήθηκε (η οποία αντιστοιχεί στη φυσική απόσταση των αλληλουχιών αυτών στο γονιδίωμα) αποτελεί τη βάση με την οποία ειδικό λογισμικό (assembly software) κατορθώνει να ανακατασκευάσει την αλληλουχία ολόκληρου του γονιδιώματος, υπό την προϋπόθεση ότι επιλέχθηκε αρχικά ικανοποιητικά μεγάλος αριθμός κλώνων ώστε να καλύπτεται ολόκληρο το γονιδίωμα. Προφανώς, επειδή η διαδικασία τεμαχισμού του DNA είναι τυχαία τα διαβάσματα θα έχουν μεταξύ τους επικαλύψεις οι οποίες καθοδηγούν στη συναρμολόγηση του γονιδιωματικού puzzle. Αρχικά, οι επικαλυπτόμενες αλληλουχίες ομαδοποιούνται δίνοτας συνεχείς αλληλουχίες γονιδιωματικού DNA που ονομάζονται contigs (contiguous sequences), οι οποίες συναρμολογούνται ακόλουθα σε scaffolds χάρη στην πληροφορία που δίνουν τα mate pairs. PAT Patent sequences. Αλληλουχίες DNA οι οποίες έχουν καταγραφεί σε πατέντες από τα αντίστοιχα γραφεία ευρεσιτεχνειών της Αμερικής, Ευρώπης και Ιαπωνίας.

59 Κεφάλαιο 3 Βάσεις δομικών δεδομένων 3.1 Εισαγωγή Κεντρικό θέμα της σύγχρονης μοριακής βιολογίας αποτελεί η κατανόηση της λειτουργίας των βιολογικών μορίων και κύρια των μακρομορίων, δηλαδή των νουκλεϊκών οξέων (DNA, RNA) και των πρωτεϊνών. Πέρα από τη σημαντική πληροφορία που μας παρέχει η πρωτοταγής δομή των μορίων αυτών (δηλ. της αλληλουχίας των βάσεων ή των αμινοξικών καταλοίπων αντίστοιχα) και η οποία προσδιορίζεται με ολοένα και μεγαλύτερους ρυθμούς λόγω της προόδου των μοριακών τεχνικών, τα μόρια αυτά δρουν στο κυτταρικό τους περιβάλλον έχοντας μια τρισδιάστατη δομή. Αυτή η δομή είναι που καθορίζει τελικά τον τρόπο με τον οποίο τα βιομόρια αυτά αλληλεπιδρούν μεταξύ τους αλλά και με τα άλλα συστατικά του κυττάρου (ή του περιβάλλοντός του) για να επιτευχθούν οι διάφορες βιολογικές λειτουργίες που συντηρούν το φαινόμενο της ζωής. Το κεφάλαιο αυτό παραθέτει βασικές γνώσεις για τις κύριες ΒΔ που αφορούν πειραματικά προσδιορισμένες δομές πρωτεϊνών, τους τρόπους εκείνους με τους οποίους μπορούμε να έχουμε πρόσβαση σε αυτές και τις πληροφορίες που μπορούμε να ανακτήσουμε. 53

60 54 ΚΕΦΑΛΑΙΟ 3. ΒΑΣΕΙΣ ΔΟΜΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 3.2 Protein Data Bank - PDB ( H Protein Data Bank (PDB - αποτελεί την κεντρική ΒΔ παγκοσμίως όπου κατατίθενται τρισδιάστατες δομές βιολογικών μακρομορίων. Ιδρύθηκε το 1971 στα Brookhaven National Laboratories (BNL) των ΗΠΑ και αρχικά αποτελούσε ένα απλό αρχείο των δομών που είχαν προσδιοριστεί με κρυσταλλογραφία ακτίνων- Χ. Σε αυτή την πρώτη της έκδοση, η PDB περιελάμβανε 7 δομές μακρομορίων, όπως αυτές προέκυψαν από κρυσταλλογραφικές μελέτες και ήταν διαθέσιμη στην επιστημονική κοινότητα σε μια ψηφιακή ταινία. Ο ρυθμός αύξησης των εγγραφών στη δεκαετία του 70 ήταν πολύ μικρός. Από το 1980 και μετά, λόγω της τεχνολογικής εξέλιξης σε κάθε στάδιο του προσδιορισμού δομών, ο ρυθμός προσθήκης δεδομένων στην PDB αυξήθηκε με εκθετικό ρυθμό (Εικόνα 3.1). Πλέον στην PDB περιλαμβάνονται και δομές όπως προκύπτουν με φασματοσκοπία Πυρηνικού Μαγνητικού Συντονισμού (Nuclear Magnetic Resonance - NMR) και ηλεκτρονική μικροσκοπία. Στην παρούσα φάση (Απρίλιος 2009) η PDB περιλαμβάνει δομές βιομορίων. Οι εγγραφές στην PDB εκτός από τις συντεταγμένες των ατόμων που απαρτίζουν τη δομή περιλαμβάνουν και επιπρόσθετα βοηθητικά στοιχεία, όπως βιβλιογραφικές αναφορές, λεπτομέρειες για τον πειραματικό προσδιορισμό της δομής καθώς και άλλα στοιχεία που προκύπτουν από τη συγκεκριμένη δομή. Κάθε δομή προτού διατεθεί στο κοινό υφίσταται έλεγχο για την ορθότητα της με τη χρήση ειδικού λογισμικού. Στη συνέχεια εφόσον περάσει τις δοκιμές με επιτυχία αποκτά ένα χαρακτηριστικό κωδικό και προστίθεται στη ΒΔ Μορφοποίηση καταγραφών της PDB Ο Πίνακας 3.1 περιέχει τις βασικές συντομογραφίες οι οποίες χρησιμοποιούνται για να σημάνουν τις γραμμές ενός αρχείου της ΒΔ PDB. Λεπτομερέστερη περιγραφή των συντομογραφιών αυτών καθώς και ένα υπόδειγμα αρχείου παρατίθενται στο τέλος του φυλλαδίου.

61 3.2. PROTEIN DATA BANK - PDB ( 55 (αʹ) Σύνολο εγγραφών (βʹ) Σύνολο διακριτών διπλωμάτων (folds) σύμφωνα με τη ΒΔ SCOP Εικόνα 3.1: Η ανάπτυξη της ΒΔ PDB.

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ.

Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας. 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων. Δρ. Κωνσταντίνος Χ. Βάσεις Δεδομένων και Ευφυή Πληροφοριακά Συστήματα Επιχειρηματικότητας 2 ο Μάθημα: Βασικά Θέματα Βάσεων Δεδομένων Δρ. Κωνσταντίνος Χ. Γιωτόπουλος Βασικά θέματα Βάσεων Δεδομένων Ένα Σύστημα Βάσης Δεδομένων

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Αναφορά στη χρησιμότητα των βιολογικών ΒΔ. Κατανόηση των χαρακτηριστικών, των ιδιαιτεροτήτων

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων - Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a)

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Διαχείριση Πολιτισμικών Δεδομένων Μάθημα 1 Εισαγωγή στις Βάσεις Δεδομένων Τζανέτος Πομόνης ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι οι Βάσεις

Διαβάστε περισσότερα

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας Βιοπληροφορική Βάσεις Δεδοµένων 1ο εργαστήριο Γρηγόρης Αµούτζιας Χρησιµοποιούνται για: Oργάνωση Αποθήκευση Επεξεργασία Αναζήτηση/επαναπόκτηση της βιολογικής πληροφορίας Βάσεις Δεδοµένων: Εισαγωγή Βάσεις

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΕΝΟΤΗΤΑ 1.1 ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΔΙΔΑΚΤΙΚΟI ΣΤOΧΟΙ Στο τέλος της ενότητας αυτής πρέπει να μπορείτε: να επεξηγείτε τις έννοιες «βάση δεδομένων» και «σύστημα διαχείρισης βάσεων δεδομένων» να αναλύετε

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Βάσεις Δεδομένων - Γενικά Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα. Τα περιεχόμενα

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων ΕΙΣΑΓΩΓΗ Μια βιολογική βάση δεδοµένων (ΒΒ ) χρησιµοποιείται για την οργάνωση, αποθήκευση, επεξεργασία, αναζήτηση και ανάκτηση της βιολογικής

Διαβάστε περισσότερα

Αυτοματοποιημένη χαρτογραφία

Αυτοματοποιημένη χαρτογραφία ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Αυτοματοποιημένη χαρτογραφία Ενότητα # 5: Χαρτογραφικές βάσεις δεδομένων Ιωάννης Γ. Παρασχάκης Τμήμα Αγρονόμων & Τοπογράφων Μηχανικών

Διαβάστε περισσότερα

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) Ενότητα Advanced Βάσεις Δεδομένων, Προχωρημένο Επίπεδο. Copyright 2013 ECDL Foundation Ref: SL_AM3_Syl2.

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) Ενότητα Advanced Βάσεις Δεδομένων, Προχωρημένο Επίπεδο. Copyright 2013 ECDL Foundation Ref: SL_AM3_Syl2. ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) Ενότητα Advanced Βάσεις Δεδομένων, Προχωρημένο Επίπεδο Copyright 2013 ECDL Foundation Ref: SL_AM3_Syl2.0_v1 Page 17 of 29 Βάσεις Δεδομένων, Προχωρημένο Επίπεδο Ακολουθεί η Εξεταστέα

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ) ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ) «Οι σύγχρονες τεχνικές βιο-ανάλυσης στην υγεία, τη γεωργία, το περιβάλλον και τη διατροφή» Πρόγραμμα Δια Βίου Μάθησης.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟ 230 - Εισαγωγή στην Υπολογιστική Βιολογία Φυλλάδιο Εργαστηριακών Ασκήσεων και Φροντιστηρίων Βασίλης Ι. Προμπονάς Λευκωσία 2015-2017 1η Εργαστηριακή Άσκηση

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων ΕΙΣΑΓΩΓΗ Η αναζήτηση και µελέτη της επιστηµονικής βιβλιογραφίας αποτελεί βασική προϋπόθεση για την επίλυση ερευνητικών προβληµάτων. Η βιβλιογραφική

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Σχεδίαση Βάσεων Δεδομένων

Σχεδίαση Βάσεων Δεδομένων Σχεδίαση Βάσεων Δεδομένων Βασική Χαρτογράφηση: Η Διαδικασία Μετασχηματισμού Basic Mapping: The Transformation Process 1 Copyright 2013, Oracle and/or its affiliates. All rights reserved. Στόχοι Το μάθημα

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής

Πληροφορική ΙΙ Εισαγωγή στις Βάσεις Δεδομένων. Τμήμα Λογιστικής Εισαγωγή στις Βάσεις Δεδομένων Εισαγωγή στις Βάσεις Δεδομένων Ορισμός Βάσης Δεδομένων Σύστημα Διαχείρισης Βάσης Δεδομένων ΣΔΒΔ (DBMS) Χαρακτηριστικά προσέγγισης συστημάτων αρχειοθέτησης Χαρακτηριστικά

Διαβάστε περισσότερα

Information Technology for Business

Information Technology for Business Information Technology for Business! Lecturer: N. Kyritsis, MBA, Ph.D. Candidate!! e-mail: kyritsis@ist.edu.gr Διαχείριση Επιχειρηματικών Δεδομένων - Databases Ορισμός Βάσης Δεδομένων Συλλογή συναφών αρχείων

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο Βάσεις Δεδομένων Εισαγωγή Ανάλυση Απαιτήσεων Φροντιστήριο 1 ο 16-10-2008 Εισαγωγή - Ορισμοί Βάση Δεδομένων είναι μία συλλογή από σχετιζόμενα αντικείμενα Ένα σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Βάσεις δεδομένων αλληλουχιών

Βάσεις δεδομένων αλληλουχιών Βάσεις δεδομένων αλληλουχιών Vasilis Promponas Bioinformatics Research Laboratory Department of Biological Sciences University of Cyprus ΣΥΝΟΨΗ Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών Λίγη ιστορία

Διαβάστε περισσότερα

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων Βάσεις δομικών δεδομένων βιολογικών μακρομορίων Vasilis Promponas Bioinformatics Research Laboratory Department of Biological Sciences University of Cyprus Εισαγωγή Βασικές αρχές δομής πρωτεϊνών και νουκλεϊκών

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Βιοπληροφορική Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Αναφορά στις παραλλαγές του BLAST. Εξοικείωση με τη

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων Φυλογένεση Η φυλογένεσης αφορά την ανεύρεση των συνδετικών εκείνων κρίκων που συνδέουν τα διάφορα είδη µεταξύ τους εξελικτικά, σε µονοφυλετικές

Διαβάστε περισσότερα

Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων. Κατηγορίες χρηστών ΣΔΒΔ Αρχιτεκτονική ANSI/SPARC Γλώσσες ερωτημάτων Μοντέλα δεδομένων Λειτουργίες ΣΔΒΔ

Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων. Κατηγορίες χρηστών ΣΔΒΔ Αρχιτεκτονική ANSI/SPARC Γλώσσες ερωτημάτων Μοντέλα δεδομένων Λειτουργίες ΣΔΒΔ Αρχιτεκτονική Συστημάτων Βάσεων Δεδομένων Κατηγορίες χρηστών ΣΔΒΔ Αρχιτεκτονική ANSI/SPARC Γλώσσες ερωτημάτων Μοντέλα δεδομένων Λειτουργίες ΣΔΒΔ Χρήστες ΣΔΒΔ Απλοί Χρήστες: συγκεκριμένες λειτουργίες σε

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων) Τι είναι το Wordpress: To Wordpress είναι ένα δωρεάν ανοικτού κώδικα (open source) λογισμικό (εφαρμογή), με το οποίο μπορεί κάποιος να δημιουργεί

Διαβάστε περισσότερα

Βασικά ζητήματα μιας βάσης δεδομένων

Βασικά ζητήματα μιας βάσης δεδομένων Τριαντάφυλλος Πριμηκύρης* Βασικά ζητήματα μιας βάσης δεδομένων Τι είναι μια βάση δεδομένων; Ας ξεκινήσουμε με κάτι πολύ απλό! Όλοι έχετε έναν τηλεφωνικό κατάλογο. Ο κατάλογος αυτός είναι μια χειροκίνητη

Διαβάστε περισσότερα

1.1. Βάσεις δεδομένων

1.1. Βάσεις δεδομένων 1.1 Βάσεις δεδομένων Οι στόχοι μας σε αυτό το κεφάλαιο: Να διατυπώσουμε τον ορισμό για τη βάση δεδομένων και για το σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ), καθώς και να περιγράψουμε τα συστατικά στοιχεία

Διαβάστε περισσότερα

Πληροφορική 2. Βάσεις Δεδομένων (Databases)

Πληροφορική 2. Βάσεις Δεδομένων (Databases) Πληροφορική 2 Βάσεις Δεδομένων (Databases) 1 2 Επίπεδα αρχεία (flat files) Επίπεδο αρχείο είναι ένα αρχείο που αποτελείται από ένα σταθερό, μικρό αριθμό πεδίων. Οι εγγραφές του αρχείου μπορεί να μην ακολουθούν

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Συστήματα Διαχείρισης Βάσεων Δεδομένων ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Συστήματα Διαχείρισης Βάσεων Δεδομένων 1 ΕΙΣΑΓΩΓΗ Η τεχνολογία των Βάσεων Δεδομένων (ΒΔ) (Databases - DB) και των Συστημάτων Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα

Εισαγωγή στις βάσεις δεδομένων - Η ανατομία μιας βάσης δεδομένων

Εισαγωγή στις βάσεις δεδομένων - Η ανατομία μιας βάσης δεδομένων ΕΣΔ516 Τεχνολογίες Διαδικτύου Εισαγωγή στις βάσεις δεδομένων - Η ανατομία μιας βάσης δεδομένων Περιεχόμενα - Βιβλιογραφία Ενότητας Περιεχόμενα Ορισμοί Συστατικά στοιχεία εννοιολογικής σχεδίασης Συστατικά

Διαβάστε περισσότερα

Αικατερίνη Τσούμα Ερευνήτρια Κέντρου Προγραμματισμού και Οικονομικών Ερευνών (ΚΕΠΕ)

Αικατερίνη Τσούμα Ερευνήτρια Κέντρου Προγραμματισμού και Οικονομικών Ερευνών (ΚΕΠΕ) Η ΣΥΜΒΟΛΗ ΤΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΣΤΗΝ ΑΜΕΣΗ ΙΑΧΥΣΗ ΤΗΣ ΑΝΑΓΚΑΙΑΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΓΙΑ ΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΣΥΝΘΗΚΩΝ ΚΑΙ ΤΗ ΙΕΝΕΡΓΕΙΑ ΠΡΟΒΛΕΨΕΩΝ Αικατερίνη Τσούμα Ερευνήτρια Κέντρου Προγραμματισμού

Διαβάστε περισσότερα

Σχεδίαση Βάσεων Δεδομένων

Σχεδίαση Βάσεων Δεδομένων Σχεδίαση Βάσεων Δεδομένων Δεδομένα κατά Πληροφοριών Data vs. Information 1 Copyright 2013, Oracle and/or its affiliates. All rights reserved. Δεδομένα κατά Πληροφοριών Στόχοι Το μάθημα αυτό καλύπτει τους

Διαβάστε περισσότερα

Εισαγωγή στην Πληροφορική

Εισαγωγή στην Πληροφορική Εισαγωγή στην Πληροφορική Βάσεις Δεδομένων ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι οι Βάσεις Δεδομένων; Σύστημα για αποθήκευση, μετάδοση

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΕΙΣΑΓΩΓΗ Η αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών (database similarity searching) αποτελεί µια από τις συχνότερα χρησιµοποιούµενες

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22 ΕΝΟΤΗΤΑ 5 Περιεχόμενα Λίγα λόγια από το συγγραφέα... 7 91 Βάσεις δεδομένων και Microsoft Access... 9 92 Microsoft Access... 22 93 Το σύστημα Βοήθειας του Microsoft Office... 32 94 Σχεδιασμός βάσης δεδομένων

Διαβάστε περισσότερα

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access Κεφάλαιο 2 Χειρισμός πινάκων... 27

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access Κεφάλαιο 2 Χειρισμός πινάκων... 27 Περιεχόμενα Κεφάλαιο 1 Εισαγωγή στην Access... 9 Γνωριμία με την Access... 12 Δημιουργία βάσης δεδομένων... 22 Άνοιγμα και κλείσιμο βάσης δεδομένων... 24 Ερωτήσεις ανακεφαλαίωσης... 25 Πρακτική εξάσκηση...

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση. Ευαγγελίδης Γεώργιος Τμήμα Εφαρμοσμένης Πληροφορικής Ενότητα 1: Ορισμοί βασικών εννοιών: Μια πρώτη μοντελοποίηση Ευαγγελίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες,

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι) Πρόγνωση δομής πρωτεϊνών (Μέρος Ι) Βασίλης Προμπονάς, PhD Ερευνητικό Εργαστήριο Βιοπληροφορικής Τμήμα Βιολογικών Επιστημών Νέα Παν/πολη, Γραφείο B161 Πανεπιστήμιο Κύπρου Ταχ.Κιβ. 20537 1678, Λευκωσία ΚΥΠΡΟΣ

Διαβάστε περισσότερα

Σχεδιασµός Ανάπτυξη Οντολογίας

Σχεδιασµός Ανάπτυξη Οντολογίας Σχεδιασµός Ανάπτυξη Οντολογίας ΈλεναΜάντζαρη, Γλωσσολόγος, Ms.C. ΙΑΤΡΟΛΕΞΗ: Ανάπτυξη Υποδοµής Γλωσσικής Τεχνολογίας για το Βιοϊατρικό Τοµέα Τι είναι η οντολογία; Μιαοντολογίαείναιέναλεξικόόρωνπου διατυπώνονται

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Εφαρμογές Προσομοίωσης

Εφαρμογές Προσομοίωσης Εφαρμογές Προσομοίωσης H προσομοίωση (simulation) ως τεχνική μίμησης της συμπεριφοράς ενός συστήματος από ένα άλλο σύστημα, καταλαμβάνει περίοπτη θέση στα πλαίσια των εκπαιδευτικών εφαρμογών των ΤΠΕ. Μπορούμε

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Σχεδιασμός Βάσεων Δεδομένων

Σχεδιασμός Βάσεων Δεδομένων Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Σχεδιασμός Βάσεων Δεδομένων Εργαστήριο 1 Δρ. Βασιλική Κούφη Περιεχόμενα 1. Εισαγωγή 2. Κύκλος ζωής ανάπτυξης Βάσεως Δεδομένων 3. Oracle SQL Developer Data

Διαβάστε περισσότερα

Σχεδιαστικά Προγράμματα Επίπλου

Σχεδιαστικά Προγράμματα Επίπλου Σχεδιαστικά Προγράμματα Επίπλου Καθηγήτρια ΦΕΡΦΥΡΗ ΣΩΤΗΡΙΑ Τμήμα ΣΧΕΔΙΑΣΜΟΥ & ΤΕΧΝΟΛΟΓΙΑΣ ΞΥΛΟΥ - ΕΠΙΠΛΟΥ Σχεδιαστικά Προγράμματα Επίπλου Η σχεδίαση με τον παραδοσιακό τρόπο απαιτεί αυξημένο χρόνο, ενώ

Διαβάστε περισσότερα

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Ενότητα 1: Εισαγωγικές Έννοιες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα 4o Εργαστήριο Σ.Α.Ε Ενότητα : Μελέτη και Σχεδίαση Σ.Α.Ε Με χρήση του MATLAB Aναστασία Βελώνη Τμήμα Η.Υ.Σ Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική

Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική Έννοιες Διαχείρισης Βάσεων Δεδομένων και Αρχιτεκτονική Αρχιτεκτονική ANSI-SPARC, Επίπεδα Αρχιτεκτονικής (Εξωτερικό, Εννοιολογικό, Εσωτερικό), Παραδοσιακή Προσέγγιση (Μειονεκτήματα, Παράδειγμα), Προσέγγιση

Διαβάστε περισσότερα

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος 2.5 Σύστημα αρχειοθέτησης, έγγραφα και βάσεις δεδομένων 2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος Να είναι σε θέση να διατηρήσει ένα καθιερωμένο, ηλεκτρονικό και

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 1 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Κάποιες έννοιες Επιστήμη : κάθε συστηματικό πεδίο μελέτης ή σύστημα γνώσης που έχει ως σκοπό

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΤΟΥΡΙΣΜΟΥ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΤΟ3019 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ Γ ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ

Διαβάστε περισσότερα

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΑΘΗΝΑ 2014 1 1. Τι είναι το e-learning; Το e-learning, η ηλεκτρονική μάθηση, είναι μια διαδικασία μάθησης και ταυτόχρονα μια μεθοδολογία εξ αποστάσεως εκπαίδευσης

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ. Τρίτη, 7 Φεβρουαρίου 2012

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ. Τρίτη, 7 Φεβρουαρίου 2012 ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ Τρίτη, 7 Φεβρουαρίου 2012 Για την εταιρεία ACTS : Παπαγεωργίου Κων/νος Ποτιέ 21/ Χανιά, ΤΚ 73100 AΦΜ: 065439343 Τηλ./Fax:

Διαβάστε περισσότερα

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast Ασκήσεις 1 & 2 Βάσεις Δεδομένων Εργαλεία Αναζήτησης ClustalW & Blast Μοριακή Προσομοίωση Εισαγωγή: Δομική Βάση Βιολογικών Φαινομένων Η αξιοποίηση του πλήθους των δομικών στοιχείων για την εξαγωγή βιολογικά

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Ενότητα 3: Σχεδιασμός και Διαχείριση Βάσεων Δεδομένων. Αθανάσιος Σπυριδάκος Τμήμα Διοίκησης Επιχειρήσεων

Βάσεις Δεδομένων. Ενότητα 3: Σχεδιασμός και Διαχείριση Βάσεων Δεδομένων. Αθανάσιος Σπυριδάκος Τμήμα Διοίκησης Επιχειρήσεων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Βάσεις Δεδομένων Ενότητα 3: Σχεδιασμός και Διαχείριση Βάσεων Δεδομένων Αθανάσιος Σπυριδάκος Τμήμα Διοίκησης Επιχειρήσεων Άδειες

Διαβάστε περισσότερα

01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, 151 25 Μαρούσι Αττικής Τηλ 215 55 00 880 FAX 215 55 00 883. Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων

01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, 151 25 Μαρούσι Αττικής Τηλ 215 55 00 880 FAX 215 55 00 883. Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων 01 SOLUTIONS HELLAS Ε.Π.Ε. Χελμού 20, 151 25 Μαρούσι Αττικής Τηλ 215 55 00 880 FAX 215 55 00 883 e Prtcl-01 Ηλεκτρονικό Πρωτόκολλο & Διακίνηση Εγγράφων Συνοπτική Παρουσίαση Το σύστημα e Prtcl-01 Το σύστημα

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ Ενότητα: 11Η ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ Δρ. ΠΑΝΤΕΛΗΣ ΑΓΓΕΛΙΔΗΣ Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων 2014-2015 Ευαγγελία Πιτουρά 1

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων 2014-2015 Ευαγγελία Πιτουρά 1 Εισαγωγή στα Συστήματα Βάσεων Δεδομένων Ευαγγελία Πιτουρά 1 Τι θα δούμε σήμερα I. Σύντομη εισαγωγή στις ΒΔ II. Περιγραφή σκοπού και περιεχομένου μαθήματος III. Ιστορία των ΣΔΒΔ IV. Διαδικαστικά θέματα

Διαβάστε περισσότερα

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης)

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης) ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης) Καλλονιάτης Χρήστος Επίκουρος Καθηγητής Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας, Πανεπιστήμιο Αιγαίου http://www.ct.aegean.gr/people/kalloniatis

Διαβάστε περισσότερα

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής Μεθοδική Ανάπτυξη Δικτυακής Υποδομής Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής 14-01-2006 1 Περιεχόμενα Η ανάγκη για μεθοδικό σχεδιασμό δικτύων Μία δομημένη

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Τμήμα Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0175 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 9

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Τμήμα Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0175 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 9 ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΥΤΕΧΝΙΚΗ Τμήμα Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0175 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 9 ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Επιστημονικός Προγραμματισμός

Διαβάστε περισσότερα

Διαχείριση Βάσης Δεδομένων (dbadmin)

Διαχείριση Βάσης Δεδομένων (dbadmin) Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Εμπορική Διαχείριση > Διαχείριση Βάσης Δεδομένων (dbadmin) Διαχείριση Βάσης Δεδομένων (dbadmin) Μέσα από τη διαχείριση βάσης δεδομένων

Διαβάστε περισσότερα

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Λειτουργική γονιδιωµατική. 6ο εργαστήριο Λειτουργική γονιδιωµατική 6ο εργαστήριο Λειτουργική γονιδιωµατική Προσπαθεί να κατανοήσει τις λειτουργίες των βιολογικών µορίων, σε επίπεδο ολόκληρου του γονιδιώµατος. Γίνονται µετρήσεις για το σύνολο

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Έκδοσης 2005 Π. Κεντερλής

Έκδοσης 2005 Π. Κεντερλής Σύστημα «Ηλέκτρα» Το Σύστημα «Ηλέκτρα» αποτελεί μια ολοκληρωμένη διαδικτυακή εφαρμογή διαχείρισης πληροφοριών μαθημάτων και χρηστών. Αναπτύχθηκε εξολοκλήρου από τον εργαστηριακό συνεργάτη Παναγιώτη Κεντερλή

Διαβάστε περισσότερα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. ΚΕΦΑΛΑΙΟ 9 Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ. Το 1966 αρχίζει ο σχεδιασμός του ARPANET, του πρώτου

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων

ΠΕΡΙΕΧΟΜΕΝΑ. Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων ΠΕΡΙΕΧΟΜΕΝΑ Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων Εισαγωγή Η χρήση των μεταβλητών με δείκτες στην άλγεβρα είναι ένας ιδιαίτερα

Διαβάστε περισσότερα

Εννοιολογική Ομοιογένεια

Εννοιολογική Ομοιογένεια Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης

Διαβάστε περισσότερα

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων Ενότητα 4 Επεξεργασία πινάκων 36 37 4.1 Προσθήκη πεδίων Για να εισάγετε ένα πεδίο σε ένα πίνακα που υπάρχει ήδη στη βάση δεδομένων σας, βάζετε τον κέρσορα του ποντικιού στο πεδίο πάνω από το οποίο θέλετε

Διαβάστε περισσότερα

Διαχείριση Δεδομένων

Διαχείριση Δεδομένων Διαχείριση Δεδομένων Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου 1 Εαρινό Εξάμηνο 2012-13 Περιεχόμενο σημερινής διάλεξης Βάσεις Δεδομένων Ορισμοί Παραδείγματα

Διαβάστε περισσότερα

Μονάδα Διασφάλισης Ποιότητας. ΜΟΔΙΠ Πανεπιστημίου Δυτικής Μακεδονίας. Κωδικός Πράξης ΟΠΣ: Επιχειρησιακό Πρόγραμμα:

Μονάδα Διασφάλισης Ποιότητας. ΜΟΔΙΠ Πανεπιστημίου Δυτικής Μακεδονίας. Κωδικός Πράξης ΟΠΣ: Επιχειρησιακό Πρόγραμμα: Μονάδα Διασφάλισης Ποιότητας Πανεπιστημίου Δυτικής Μακεδονίας Κωδικός Πράξης ΟΠΣ: 335662 Τίτλος Πράξης: ΜΟΔΙΠ Πανεπιστημίου Δυτικής Μακεδονίας Επιχειρησιακό Πρόγραμμα: Άξονας Προτεραιότητας: Στοιχεία επιστημονικά

Διαβάστε περισσότερα

Ολοκληρωμένη, σύγχρονη και ευέλικτη λύση ERP (Enterprise Resource Planning-Σύστημα Διαχείρισης Επιχειρησιακών Πόρων) για επιχειρήσεις, που επιθυμούν

Ολοκληρωμένη, σύγχρονη και ευέλικτη λύση ERP (Enterprise Resource Planning-Σύστημα Διαχείρισης Επιχειρησιακών Πόρων) για επιχειρήσεις, που επιθυμούν Enterprise Resource Planning Systems (ERP) για Μεσαίες ή μεγάλες επιχειρήσεις Ολοκληρωμένη, σύγχρονη και ευέλικτη λύση ERP (Enterprise Resource Planning-Σύστημα Διαχείρισης Επιχειρησιακών Πόρων) για επιχειρήσεις,

Διαβάστε περισσότερα

ΟΙ ΨΗΦΙΑΚΕΣ ΕΙΚΟΝΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ ΩΣ ΔΟΜΕΣ ΣΤΗΡΙΞΗΣ ΤΟΥ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΈΡΓΟΥ

ΟΙ ΨΗΦΙΑΚΕΣ ΕΙΚΟΝΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ ΩΣ ΔΟΜΕΣ ΣΤΗΡΙΞΗΣ ΤΟΥ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΈΡΓΟΥ 2 Ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ 351 ΟΙ ΨΗΦΙΑΚΕΣ ΕΙΚΟΝΙΚΕΣ ΚΟΙΝΟΤΗΤΕΣ ΩΣ ΔΟΜΕΣ ΣΤΗΡΙΞΗΣ ΤΟΥ ΕΚΠΑΙΔΕΥΤΙΚΟΥ ΈΡΓΟΥ Τζουμάκας Βασίλης Καθηγητής Πληροφορικής στο Παπαστράτειο Γυμνάσιο Αγρινίου vtzoum@sch.gr

Διαβάστε περισσότερα

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή 1 Πίνακας Περιεχομένων 1. Εισαγωγή... 4 1.1 Περιβάλλον Moodle...4 1.2 Χρήση ονόματος χρήστη και κωδικού...4 1.3 Δημιουργία νέου μαθήματος...4 1.3.1

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ (ΒΙΟ 003) Εισαγωγή στη Βιοπληροφορική Διδάσκων: Βασίλειος Ι. Προμπονάς, Ph.D. Λέκτορας Βιοπληροφορικής ΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣ Διαλέξεις Φροντιστήριο Τρίτη και

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις 1) Ερωτήσεις Σωστού/Λάθους (ΣΛ) Το πακέτο λογισμικού Excel της Microsoft είναι λογισμικό διαχείρισης ΒΔ (ΣΛ) Το πακέτο λογισμικού Access της Microsoft είναι λογισμικό

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Εισαγωγή στην πληροφορική

Εισαγωγή στην πληροφορική Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Εισαγωγή στην πληροφορική Ενότητα 6: Εισαγωγή στις βάσεις δεδομένων (Μέρος Α) Αγγελίδης Παντελής Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες Χρήσης

Διαβάστε περισσότερα

Δεδομένα και Πληροφορίες

Δεδομένα και Πληροφορίες Εισαγωγή Δεδομένα και Πληροφορίες, Βάση Δεδομένων, Σύστημα Διαχείρισης Βάσεων Δεδομένων (Ορισμοί, Γλώσσες & Διεπαφές, Κατηγορίες), Σύστημα Βάσης Δεδομένων, Κατάλογος Δεδομένων Μεταδεδομένα, Λειτουργική

Διαβάστε περισσότερα