ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Πανεπιστηµιακές Σηµειώσεις 2003-2004 Αικατερίνη Γ. Περδικούρη MSc., Μηχανικός Η/Υ & Πληροφορικής Αθανάσιος Κ. Τσακαλίδης Καθηγητής Τµήµατος Μηχ. Η/Υ & Πληροφορικής ΠΑΤΡΑ- ΜΑΡΤΙΟΣ 2004
Πρόλογος Τα τελευταία χρόνια οι υπολογιστές κατακτούν σηµαντική θέση σε κάθε τοµέα της ζωής µας αλλά πολύ πιο ενδιαφέρουσα και προκλητική,σε αρκετούς τοµείς διαφόρων επιστηµών. Η Βιοπληροφορική αποτελεί ένα σύγχρονο τοµέα έρευνας και ανάπτυξης τόσο για τους µοριακούς βιολόγους όσο και για τους επιστήµονες της πληροφορικής. Η συνεργασία των δύο αυτών επιστηµών χαρακτηρίζεται αρκετά υποσχόµενη και µε ιδιαίτερη σηµασία αφού έρχεται να ρίξει φως στην ερµηνεία και το ρόλο της γονιδιακής πληροφορίας και κατ επέκταση σε αρκετές διαδικασίες της ζωής που ζητούν ερµηνεία. Η πρόοδος της τεχνολογίας των υπολογιστών επιτρέπει την προσπάθεια ανάλυσης µέρους των προβληµάτων που προκύπτουν στον τοµέα της µοριακής βιολογίας. Λόγω της αύξησης της υπολογιστικής δύναµης και κυρίως της αναπτυγµένης τεχνολογίας των γραφικών, είναι δυνατή η απεικόνιση των διαµορφώσεων της δοµής των βιολογικών µορίων στην οθόνη του υπολογιστή. Ακόµα γίνονται προσπάθειες για τη δηµιουργία µεθόδων που θα µπορούν να προβλέπουν τις αλληλεπιδράσεις µεταξύ των βιολογικών µορίων αλλά και αλγοριθµικών µεθόδων για την παραγωγή µοριακών δοµών µε βάση τα ακολουθιακά δεδοµένα. Ο µεγάλος αριθµός δεδοµένων που µεταφράζονται στην επιστήµη της µοριακής βιολογίας και ειδικότερα στον τοµέα της ακολουθιοποίησης του γονιδιώµατος (δηλαδή της αλληλουχίας του DNA), αποτελεί µεγάλη πρόκληση για τους επιστήµονες του σχεδιασµού και της ανάλυσης αλγορίθµων. Συγκεκριµένα η ερµηνεία αυτών των δεδοµένων µπορεί να διευκολύνει την αναζήτηση λύσεων αρκετών προβληµάτων όπως είναι η αναγνώριση γονιδίων, ο καθορισµός της δοµής των κωδικοποιηµένων πρωτεϊνών, η ανακάλυψη των µηχανισµών µε τους οποίους οι πρωτεΐνες εκτελούν τη βιολογική λειτουργία τους, η απόκτηση γνώσης για το ρόλο των µη κωδικοποιηµένων περιοχών του DNA στη µορφολογία και έκφραση των γονιδίων. Το παρόν σύγγραµµα αποτελεί το διδακτικό υλικό του µαθήµατος «Εισαγωγή στη Βιοπληροφορική», που είναι µάθηµα ελεύθερης επιλογής στο εαρινό εξάµηνο του Τοµέα Λογικού των Υπολογιστών του τµήµατος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής, του Πανεπιστηµίου Πατρών. Τα περιεχόµενα του βιβλίου χωρίζονται σε τρία µέρη. Στο πρώτο µέρος γίνεται µια σύντοµη εισαγωγή στους Αλγορίθµους ιαχείρισης και Ανάλυσης ακολουθιών βιολογικών δεδοµένων. Στο δεύτερο µέρος παρουσιάζονται οι - 2 -
βασικές αρχές στον τοµέα του Σχεδιασµού Φαρµάκων µε τη βοήθεια ηλεκτρονικού υπολογιστή (Computer-aided Drug Design), ενώ στο 3 ο µέρος παρουσιάζεται µια επισκόπηση των σύγχρονων τεχνικών κατηγοριοποίησης και ταξινόµησης βιολογικών δεδοµένων. Τα περιεχόµενα του βιβλίου στοχεύουν να δώσουν στον αναγνώστη τις βασικές έννοιες και εφαρµογές του σύγχρονού κλάδου τις Βιοπληροφορικής. Στο τέλος κάθε κεφαλαίου υπάρχει εκτενής αναφορά βιβλιογραφικών αναφορών και πηγών που θα βοηθήσουν τον αναγνώστη να εντρυφήσει σε συγκεκριµένες περιοχές ενδιαφέροντος αλλά και να παρακολουθήσει τα σύγχρονα επιτεύγµατα. Στο 1o Παράρτηµα υπάρχει ένα γλωσσάριο όρων ενώ στο 2 ο παράρτηµα αναλύονται βασικές έννοιες της Μοριακής Βιολογίας. Ολοκληρώνοντας αυτό τον πρόλογο θα θέλαµε να εκφράσουµε τις ευχαριστίες µας σε αυτούς που άµεσα ή έµµεσα βοήθησαν στη συγγραφή αυτού του βιβλίου και όσους έκαναν χρήσιµες υποδείξεις και σχόλια. Μάρτιος 2004 Αικατερίνη Γ. Περδικούρη Αθανάσιος Κ. Τσακαλίδης - 3 -
Εισαγωγή Ο εικοστός αιώνας ολοκληρώθηκε αφήνοντας ως παρακαταθήκη του, την ωριµότητα δύο µεγάλων επιστηµονικών περιοχών, της Μοριακής Βιολογίας και της Πληροφορικής. Η Μοριακή Βιολογία συµβάλλει στην αποκωδικοποίηση του φαινοµένου της ζωής σε επίπεδο µορίων και θα µπορούσε να χαρακτηρισθεί, ως η Κοινωνιολογία των Μορίων. Ο όγκος των σηµερινών δεδοµένων που παράγονται στο χώρο της Μοριακής Βιολογίας και πρέπει να αναλυθούν και να επεξεργαστούν, καθιστά απαραίτητη τη συνεργασία, σε πολλούς τοµείς, µε την επιστήµη της Πληροφορικής. Ο επιστηµονικός χώρος της ένωσης αυτών των πεδίων ονοµάζεται διεθνώς Βιοπληροφορική (Bioinformatics). Η Βιοπληροφορική µπορεί να οριστεί ως: «...η εφαρµογή υπολογιστικών τεχνικών και µεθόδων στην προσπάθεια κατανόησης και οργάνωσης των δεδοµένων και πληροφοριών που σχετίζονται µε τα βιολογικά µακροµόρια...». (Πίνακας-1). Bioinformatics- A Definition Bio-informatics: Bioinformatics is conceptualizing biology in terms of molecules (in the sense of Physical Chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short bioinformatics is a management information system for molecular biology and has many practical applications. Η συνεργασία των επιστηµών της Βιολογίας και της Πληροφορικής βασίζεται στο γεγονός ότι η ίδια η ζωή αποτελεί µια τεχνολογία πληροφοριών. Η φυσιολογία των ζωντανών οργανισµών καθορίζεται από τα γονίδιά τους τα οποία µπορούν να θεωρηθούν ως "ψηφιακή πληροφορία". Πίνακας 1: Ορισµός της Βιοπληροφορικής από το Oxford English Dictionary H ανάλυση ακολουθιών του DNA, η µοριακή µοντελοποίηση βιολογικών µορίων, ο σχεδιασµός φαρµάκων µε τη βοήθεια ηλεκτρονικών υπολογιστών, η πρόβλεψη των πρωτεϊνικών δοµών, oι ταχύτερες µέθοδοι αποθήκευσης, διαχείρισης και ανάκτησης βιολογικών πληροφοριών είναι ορισµένοι από τους τοµείς ενδιαφέροντος στην επιστήµη της Βιοπληροφορικής [13]. Αν και στο εξωτερικό, η ανάπτυξη του τοµέα της Βιοπληροφορικής είναι σηµαντική και τα αποτελέσµατα πολύ ενδιαφέροντα, αφού ορισµένα από τα προβλήµατα που γίνεται προσπάθεια να επιλυθούν - 4 -
είναι και ο σχεδιασµός φαρµάκων, ειδικά για ασθένειες που σήµερα θεωρούνται ανίατες, όπως ο καρκίνος και το AIDS, στην Ελλάδα χαρακτηρίζεται από υποτονική παρουσία. Ταυτόχρονα το σηµερινό επίπεδο γνώσεων σε διεθνή κλίµακα είναι αρκετά υψηλό αφού η έρευνα στον τοµέα της Βιοπληροφορικής υποστηρίζεται από χρηµατοδοτούµενα από το κράτος ιδρύµατα όπως είναι το EMBL (European Molecular Biology Laboratory) της Γερµανίας, το NCBI (National Center for Biotechnology) των ΗΠΑ, κ.ά. [14]. Πριν προχωρήσουµε σε µια αναλυτική περιγραφή των σηµαντικότερων κατευθύνσεων έρευνας και εφαρµογών της Βιοπληροφορικής, θα σκιαγραφήσουµε τους σύγχρονους στόχους της Μοριακής Βιολογίας και θα παρουσιάσουµε ορισµένα ανοιχτά υπολογιστικά προβλήµατα. 1. Σύγχρονοι Στόχοι της Μοριακής Βιολογίας Οι σύγχρονοι στόχοι της επιστήµης της Μοριακής Βιολογίας επικεντρώνονται στις ακόλουθες περιοχές: Ακολουθιοποίηση και σύγκριση των γονιδιωµάτων διαφορετικών οργανισµών. Οργανισµοί οι οποίοι είναι συγγενείς έχουν κοινές πρωτεΐνες, οπότε η σύγκριση διαφορετικών γονιδιωµάτων µπορεί να δώσει σηµαντικές πληροφορίες για την εξελικτική πορεία των οργανισµών. Επίσης η σύγκριση των ακολουθιών DNA µεταξύ διαφορετικών ειδών βοηθά σηµαντικά στη µελέτη και την κατανόηση των σχέσεων µεταξύ τους [5]. Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν. Η ακολουθία του DNA παρουσιάζει ορισµένα δοµικά χαρακτηριστικά κρίσιµα για τη λειτουργία του όπως τα σηµεία πρόσδεσης στα οποία συνδέονται πρωτεΐνες ή συµπλέγµατα πρωτεϊνών. Η µελέτη αυτών των περιοχών βοηθά στην αναγνώριση των γονιδίων και στον καθορισµό των ιδιοτήτων τους. Κατανόηση της γονιδιακής έκφρασης. Κάθε γονίδιο δραστηριοποιείται µέσα στο κύτταρο µετά την παραγωγή της αντίστοιχης πρωτεΐνης. Η έκφραση των γονιδίων ποικίλλει στα διάφορα κύτταρα και σε διαφορετικές χρονικές στιγµές. Παράγοντες που επηρεάζουν τη γονιδιακή έκφραση είναι το ίδιο το περιβάλλον του κυττάρου, η λήψη βιοχηµικών σηµάτων και η παρουσία πρωτεϊνών. Η κατανόηση της γονιδιακής έκφρασης βοηθά στην κατανόηση βασικών κυτταρικών λειτουργιών όπως ο πολλαπλασιασµός, η αναπνοή και ο µεταβολισµός [1]. - 5 -
Κατανόηση Γενετικών Ασθενειών. Η µετάλλαξη των γονιδίων ευθύνεται για ένα σύνολο ασθενειών όπως ο διαβήτης, ο καρκίνος κ.ά. Η κατανόηση του τρόπου µε τον οποίο τα γονίδια επηρεάζουν τις ασθένειες και η κατανόηση των λειτουργιών των πρωτεϊνών, που τα γονίδια κωδικοποιούν, µπορεί να βοηθήσει στην ανάπτυξη θεραπείας που στοχεύει στον περιορισµό και τη βελτίωση ελαττωµατικών γονιδίων. Λαµβάνοντας υπόψιν ότι η προδιάθεση των παιδιών για ορισµένες ασθένειες είναι κωδικοποιηµένη στο γενετικό υλικό µε την κατάλληλη προληπτική ιατρική θεραπεία µπορούν έγκαιρα να αποφευχθούν οι παράγοντες που µπορούν να εκδηλώσουν τη συγκεκριµένη ασθένεια [4]. Παρατηρούµε λοιπόν ότι η Μοριακή Βιολογία ασχολείται σε µεγάλο βαθµό µε τη σύγκριση και την κατηγοριοποίηση µοριακών δοµών όπως τα γονίδια, οι ακολουθίες του DNA, και οι πρωτεΐνες. Τα δεδοµένα αυτά προέρχονται από πειραµατικά δεδοµένα και έρευνες ή από υπάρχουσες βάσεις µοριακών δεδοµένων. Η χρήση των εργαλείων της Πληροφορικής µπορεί να επιλύσει αρκετά υπολογιστικά προβλήµατα που προκύπτουν όπως: ιασύνδεση της γονιδιακής ακολουθίας. Οι σύγχρονες µέθοδοι ανάγνωσης της ακολουθίας του DNA βασίζονται στη σταδιακή ανάγνωση τµηµάτων (fragments) από το υπό µελέτη µόριο, που µπορεί να φθάνει και τις χιλιάδες βάσεις αµινοξέων. Η διαδικασία επανασύνδεσης υπόκειται σε σφάλµατα και αποτελεί µια πολύτιµη αλλά ταυτόχρονα πολύπλοκη διαδικασία. Σύγκριση ακολουθιών. Υπάρχει µια βασική αρχή η οποία θέλει τις ακολουθίες του DNA και των πρωτεϊνών που µοιάζουν να εµφανίζουν παρόµοια λειτουργία. Αυτό ισχύει και στην περίπτωση που οι ακολουθίες αυτές προέρχονται από διαφορετικά είδη. Για αυτό το λόγο το πρώτο βήµα στην αναγνώριση της δράσης µιας ακολουθίας είναι η σύγκριση της µε άλλες για να εξερευνήσουµε πιθανές οµοιότητες στη δοµή [16]. Σε αυτό το σηµείο εµπλέκονται αλγόριθµοι ανάκτησης πληροφορίας βάσει σχηµατικών οµοιοτήτων. Κατηγοριοποίηση των πρωτεϊνών. Οι πρωτεΐνες κατηγοριοποιούνται σε οικογένειες µε παρόµοια δοµή και λειτουργία. Με αυτό τον τρόπο µπορούµε να γνωρίζουµε τη συµπεριφορά και την τρισδιάστατη δοµή τους. Εξαγωγή πληροφοριών από γονιδιακές ακολουθίες. Η µελέτη γονιδιακών ακολουθιών µπορεί να βοηθήσει στην εξαγωγή χρήσιµων αποτελεσµάτων γύρω από τη συµπεριφορά και τη βιολογική δράση των γονιδίων (εµπλοκή σε συγκεκριµένες ανωµαλίες, όµοια συµπεριφορά - 6 -
σε θεραπευτικές αγωγές κ.ά) [17]. Η πολύπλοκη φύση των γονιδίων κάνει πολύ δύσκολη την όλη διαδικασία. Αναπαράσταση των κυττάρων ως µεταγραφικών δικτύων. Ένα ζωντανό κύτταρο µπορεί να χαρακτηριστεί ως µια αλληλεπίδραση διαφορετικών κυτταρικών διαδικασιών. Αυτό µπορεί να µοντελοποιηθεί ως ένα δυναµικό σύστηµα µε συγκεκριµένες εισόδους (π.χ: φάρµακα, λαµβανόµενα σήµατα από γειτονικά κύτταρα ή τον ανθρώπινο οργανισµό) και πιθανές καταστάσεις. 2. Τοµείς Έρευνας στη Βιοπληροφορική Οι στόχοι της Βιοπληροφορικής µπορούν να ταξινοµηθούν σε 3 οµάδες. Σε ένα πρώτο επίπεδο η Βιοπληροφορική επιτρέπει την αποδοτική οργάνωση των δεδοµένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενηµέρωσή τους. Σηµαντικό παράδειγµα αποτελεί η βάση δεδοµένων της δοµής τρισδιάστατων µορίων Protein Data Bank. Σε ένα δεύτερο επίπεδο η Βιοπληροφορική περιλαµβάνει τα εργαλεία που επιτρέπουν την ανάλυση των βιολογικών δεδοµένων. Για παράδειγµα έχοντας ακολουθιοποιήσει µια πρωτεΐνη, οι επιστήµονες ενδιαφέρονται να τη συγκρίνουν µε ήδη γνωστές και ταυτοποιηµένες ακολουθίες. Αυτή η διαδικασία απαιτεί τη χρήση πολύπλοκων εργαλείων όπως τα προγράµµατα FASTA και PSI-BLAST, που επιτρέπουν την ανακάλυψη και αναζήτηση κοινών τµηµάτων σε βιολογικές ακολουθίες. Τέλος σε ένα τρίτο επίπεδο η Βιοπληροφορική θέτει ως στόχο την ανάπτυξη εργαλείων που επιτρέπουν την ερµηνεία των αποτελεσµάτων βιολογικής σηµασίας. Ο πίνακας 2 παρουσιάζει µια οµαδοποίηση των τύπων των δεδοµένων που αναλύει η Βιοπληροφορική και τις αντίστοιχες εφαρµογές. Οι ακολουθίες DNA αποτελούν συµβολοσειρές (strings) πάνω σε ένα αλφάβητο 4 γραµµάτων- βάσεων. Κάθε ακολουθία µπορεί να έχει µήκος έως και 1000 βάσεις. Η βάση δεδοµένων Gen Bank, περιέχει µέχρι στιγµής 11.5 εκατοµµύρια εγγραφές. Αντίστοιχα οι ακολουθίες πρωτεϊνών αποτελούν συµβολοσειρές (strings) πάνω σε ένα αλφάβητο 20 γραµµάτων- αµινοξέων. Μέχρι στιγµής υπάρχουν 400.000 γνωστές ακολουθίες πρωτεϊνών και µια τυπική πρωτεϊνη βακτηρίου περιέχει περίπου 300 αµινοξέα. Από την άλλη πλευρά οι βάσεις δεδοµένων των δοµών των µακροµορίων αποτελούν µια πολύπλοκη δοµή πληροφοριών. Στην Protein Data Bank περιλαµβάνονται 15.000 εγγραφές που περιλαµβάνουν τις ατοµικές δοµές πρωτεϊνών, DNA και RNA που έχουν καθορισθεί από x-ray κρυσταλλογραφία και NMR. Μια τυπική εγγραφή στην PDB για µια µεσαίου µεγέθους πρωτεΐνη περιλαµβάνει - 7 -
τις xyz συντεταγµένες 2000 περίπου ατόµων. Τα τελευταία χρόνια οι επιστήµονες επικεντρώνονται και στην ανάλυση ολόκληρων γονιδιωµάτων. Το µήκος των συµβολοσειρών των γονιδιωµάτων ποικίλλουν από 1.6 εκατοµµύρια βάσεις έως 3 δισεκατοµµύρια. Η βάση δεδοµένων Entrez, περιλαµβάνει µέχρι στιγµής τα δεδοµένα 300 βακτηρίων και ευκαρυωτικών οργανισµών. Πηγή εδοµένων Μέγεθος εδοµένων Εφαρµογές Βιοπληροφορικής Ακολουθίες DNA Ακολουθίες Πρωτεϊνών οµές Μακροµορίων Γονιδιώµατα Εκφράσεις Γονιδίων Άλλα δεδοµένα 11.5 εκατ. Ακολουθίες (12.5 δις. Βάσεις) 400.000 ακολουθίες (~300 αµινοξέα για καθεµιά) 15.000 δοµές (~1000 ατοµικές συντεταγµένες η καθεµιά) 300 πλήρη γονιδιώµατα (1.6 εκατ-3 δις βάσεις το καθένα) ~20 µετρήσεις σηµείων για ~ 6000 γονίδια - Αναγνώριση intons και exons - ιαχωρισµός coding & non-coding περιοχών - Αλγόριθµοι σύγκρισης ακολουθιών - Ανακάλυψη σηµαντικών µοτίβων - Καθορισµός ευτερεύουσας δοµής - Αλγόριθµοι τρισδιάστατης προσάραξης µακροµορίων και γεωµετρικού ταιριάσµατος πρωτεϊνών - Υπολογισµοί επιφανειών και όγκων - Προσοµοιώσεις προσάραξης µακροµορίων (υπολογισµός εσωτερικών και εξωτερικών δυνάµεων, βέλτιστων στερεοδιαµορφώσεων) - Ανακάλυψη περιοδικοτήτων - Φυλογενετική Ανάλυση - Αντιστοίχηση γονιδίων σε αρρώστιες - Σύγκριση εκφράσεων γονιδίων - Αντιστοίχηση εκφράσεων γονιδίων σε ακολουθιακά, δοµικά και βιοχηµικά δεδοµένα. Βιβλιογραφία 11 εκατ. αναφορές - Ψηφιακές βιβλιοθήκες για την αυτόµατη ανάκτηση γνώσης Μεταβολικά Μονοπάτια - Text Mining Techniques για ανακάλυψη γνώσης Προσοµοίωση µονοπατιών Πίνακας 2: ιαφοροποιήσεις στο είδος και το µέγεθος βιολογικών δεδοµένων. Επίσης η έρευνα επικεντρώνεται και στις εκφράσεις γονιδίων (gene expressions). Μπορούµε να καθορίσουµε το επίπεδο έκφρασης κάθε γονιδίου σε ένα κύτταρο, σε επίπεδο ενός πλήρους γονιδιώµατος, αν και µέχρι στιγµής δεν υπάρχει κάποια κεντρική βάση δεδοµένων για αυτά τα - 8 -
δεδοµένα. Τα πειράµατα έκφρασης γονιδίων µετρούν την ποσότητα mrna που παράγεται στο κύτταρο κάτω από διαφορετικές συνθήκες περιβάλλοντος, διαφορετικά στάδια του κυτταρικού κύκλου και διαφορετικών τύπων κυττάρων σε πολυκύτταρους οργανισµούς. Άλλου τύπου δεδοµένα σε επίπεδο γονιδιωµατικής έκφρασης περιλαµβάνουν βιοχηµικές πληροφορίες σε µεταβολικά µονοπάτια (metabolic pathways), ρυθµιστικά δίικτυα (regulatory networks), δεδοµένα αλληλεπίδρασης πρωτεϊνών από υβριδικά πειράµατα και συστηµατικών µελετών σε ανεξάρτητα γονίδια. 2.1 Υλοποίηση και Σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών εδοµένων. Η ανάγκη επεξεργασίας και ανάλυσης βιολογικών δεδοµένων µας οδηγεί στην ανάπτυξη κατάλληλων εργαλείων διαχείρισης και ανάλυσης των αποθηκευµένων πληροφοριών. Η διαχείριση δεδοµένων της Μοριακής Βιολογίας παρουσιάζει αυξηµένες απαιτήσεις και το µοντέλο της παραδοσιακής σχεσιακής Βάσης εδοµένων δεν φαίνεται ικανοποιητικό αφού εισάγει πολλούς περιορισµούς στην αναπαράσταση αυτών των δεδοµένων. Στόχος είναι ο σχεδιασµός και η υλοποίηση ενός µοντέλου που να ικανοποιεί τις απαιτήσεις της έρευνας και κυρίως την αυτόµατη ανάκτηση γνώσης (automated knowledge discovery) από µεγάλο πλήθος πληροφοριών χρησιµοποιώντας τεχνικές οµαδοποίησης των δεδοµένων [7]. Πολλές είναι οι ερευνητικές περιοχές της Μοριακής Βιολογίας που βασίζονται στην αναγνώριση κοινών δοµικών χαρακτηριστικών των µορίων, όχι µόνο σε επίπεδο ακολουθίας αλλά και σε δισδιάστατο (2D) ή τρισδιάστατο (3D) επίπεδο. Στόχος των σύγχρονων βιολογικών βάσεων δεδοµένων είναι η χρήση αποδοτικών τεχνικών και µεθόδων που ανιχνεύουν την οµοιότητα µεταξύ 2D ή 3D σχηµάτων. 2.2 Ανάλυση ακολουθιών Βιολογικών εδοµένων. Ένας ενδιαφέρον κλάδος της Μοριακής Βιολογίας θέτει στο επίκεντρο του ενδιαφέροντος τη διαχείριση και ανάλυση ακολουθιών βιολογικών δεδοµένων, µε σκοπό την αναγνώριση δοµικών χαρακτηριστικών κρίσιµων για τη λειτουργία των ζωντανών οργανισµών. Κάθε µόριο του DNA, µπορεί να θεωρηθεί ως µια ακολουθία συµβόλων (συµβολοσειρά), από ένα αλφάβητο τεσσάρων χαρακτήρων/γραµµάτων: A,C,G,T. Στις ακολουθίες του DNA παρατηρούνται περιοδικές επαναλήψεις συµβολοσειρών-µοτίβα (ως µοτίβο µπορούµε να ορίσουµε ένα σύνολο χαρακτήρων που εµφανίζεται παραπάνω από µια φορά σε µια ακολουθία). Ο - 9 -
εντοπισµός τέτοιων περιοδικοτήτων µπορεί να αποκαλύψει δοµικά και λειτουργικά χαρακτηριστικά του µορίου του DNA. Μπορούµε να διακρίνουµε δυο κατηγορίες προβληµάτων όσον αφορά την ανακάλυψη επαναλαµβανόµενων µοτίβων: α) ακριβή επανάληψη µοτίβων και β) προσεγγιστική επανάληψη µοτίβων. Στην ακριβή επανάληψη µοτίβων προσπαθούµε να εντοπίσουµε τις θέσεις σε µια ακολουθία που ένα µοτίβο εµφανίζεται, αντίθετα στην προσεγγιστική επανάληψη µοτίβων επιτρέπουµε την ύπαρξη διαφορών ανάµεσα στις συγκρινόµενες ακολουθίες, που προκύπτουν από την αντικατάσταση, προσθήκη ή διαγραφή συµβόλων. Μια συχνά χρησιµοποιούµενη τεχνική για τη σύγκριση βιολογικών ακολουθιών είναι η διάταξη/ ευθυγράµµισή τους και η σύγκρισή τους ανά σύµβολο (alignment). Στην περίπτωση που µελετάµε ολόκληρες τις ακολουθίες τότε το πρόβληµα µεταφράζεται σε ολική ευθυγράµµιση (Global Alignment), ενώ στην περίπτωση που µελετάµε µόνο ένα κοµµάτι µιας ακολουθίας το πρόβληµα µεταφράζεται σε τοπική ευθυγράµµιση (Local Alignment- Smith & Waterman). Οι τεχνικές για την ανάλυση ακολουθιών εφαρµόζονται τόσο κατά το µήκος µιας ακολουθίας DNA, όσο και µεταξύ ακολουθιών διαφορετικών οργανισµών. Για αυτό το σκοπό η σύγκριση µεταξύ ακολουθιών, συχνά µετατρέπεται σε εύρεση συχνά επαναλαµβανόµενων µοτίβων σε διαφορετικές ακολουθίες (Multiple Sequence Alignment). Σε αυτή την περίπτωση προσπαθούµε να υπολογίσουµε την ευθυγράµµιση των ακολουθιών που παρουσιάζει τη µέγιστη οµοιότητα (στη σχετική βιβλιογραφία καταγράφεται ένας µεγάλος αριθµός συναρτήσεων που υπολογίζουν τη βέλτιστη ευθυγράµµιση) [3]. Κεντρικό ρόλο σε αυτές τις τεχνικές παίζει η παρουσία/ εισαγωγή κενών (gaps) µε σκοπό τη βέλτιστη διάταξη ακολουθιών µε ήδη γνωστά βιολογικά µοντέλα και µοτίβα των οποίων η λειτουργία είναι εκ των προτέρων γνωστή [15]. Η παρουσία κενών (ως ακολουθίες κενών χαρακτήρων), µεταφράζεται στην εισαγωγή/ διαγραφή ενός βιολογικού µοτίβου ως το αποτέλεσµα µιας λειτουργίας µετάλλαξης (αντιγραφή ή διαγραφή µικρών τµηµάτων του DNA). Σκοπός µας είναι να µετρήσουµε την οµοιότητα που εµφανίζουν οι δυο υπό µελέτη συµβολοσειρές µε τη βοήθεια µιας συνάρτησης επιτυχίας (score function), η οποία βαθµολογεί µε ένα ορισµένο σύνολο τιµών όλους τους πιθανούς συνδυασµούς µεταξύ δυο συµβόλων. Ως βέλτιστη διάταξη µεταξύ των 2 συµβολοσειρών λαµβάνεται αυτή που µεγιστοποιεί την τιµή της συνάρτησης. υστυχώς δεν υπάρχει µια τυπική συνάρτηση και ανάλογα µε την εφαρµογή οι επιστήµονες επιλέγουν να χρησιµοποιήσουν σε διαφορετικά προβλήµατα και διαφορετική συνάρτηση ως µετρική οµοιότητας. - 10 -
2.3 Κατηγοριοποίηση Βιολογικών εδοµένων. Μια βασική εφαρµογή στις περισσότερες ερευνητικές µεθόδους της Βιοπληροφορικής είναι η οµαδοποίηση- κατηγοριοποίηση βιολογικών δεδοµένων βάσει κοινών οµοιοτήτων. Για παράδειγµα ορισµένα τµήµατα ακολουθιών (µοτίβα) επαναλαµβάνονται σε ακολουθίες DNA. Επίσης τα γονίδια µπορούν να κατηγοριοποιηθούν βάσει της δράσης που εµφανίζουν (π.χ.: ενζυµατική δράση) ή βάσει των µεταβολικών µονοπατιών στα οποία ανήκουν (αν και κάποια γονίδια µπορούν να εµφανίζουν ποικίλες δράσεις). Προχωρώντας, διαφορετικές πρωτεΐνες συχνά εµφανίζουν όµοια τµήµατα, ενώ οι ζωντανοί οργανισµοί περιέχουν πολλαπλά αντίγραφα ενός γονιδίου µέσω του πολλαπλασιασµού, ενώ και διαφορετικά είδη έχουν τις ίδιες πρωτεΐνες που έχουν κληρονοµήσει κατά τη διαδικασία της εξέλιξης. Σε επίπεδο δοµών, αν και υπάρχουν διαφορετικές στερεοδιαµορφώσεις, αρκετές πρωτεϊνες διαθέτουν παρόµοια δοµή αν και διαφέρουν σε επίπεδο ακολουθίας. Χαρακτηριστικά µπορούµε να αναφέρουµε ότι παρόλο που οι εγγραφές στην Protein Data Bank αυξάνονται µε εκθετικό ρυθµό, η ανακάλυψη νέων διαµορφώσεων έχει µειωθεί. Η σχέση µεταξύ ζευγών πρωτεϊνών ή γονιδίων ακολουθεί τους κανόνες: ανάλογες πρωτεΐνες έχουν σχετικές διαµορφώσεις αλλά διαφορετικές ακολουθίες, ενώ οµόλογες πρωτεΐνες παρουσιάζουν οµοιότητα σε επίπεδο δοµών και ακολουθιών. Η οµάδα των οµόλογων ακολουθιών µπορούµε να διακρίνουµε τις ορθόλογες πρωτεΐνες (αυτές που ανήκουν σε διαφορετικά είδη και προέρχονται από κάποιο κοινό πρόγονο) και τις παράλογες πρωτεϊνες (αυτές που σχετίζονται µε το διπλασιασµό σε ένα γονιδίωµα). Σε βασικές γραµµές οι ορθόλογες πρωτεΐνες διατηρούν την ίδια δράση. Λαµβάνοντας υπόψη τις παραπάνω διαπιστώσεις µπορούµε να κατηγοριοποιήσουµε τις πρωτεΐνες µε βάση τις διαµορφώσεις που λαµβάνουν και να έχουµε µια απλουστευµένη παρουσίαση των περιεχοµένων ενός γονιδιώµατος. Σε αυτή τη διαδικασία βασικό στοιχείο είναι οι αλγόριθµοι που χρησιµοποιούνται για την εύρεση των δοµικών οµοιοτήτων µεταξύ µακροµορίων. Ιδιαίτερη ανάπτυξη τα τελευταία χρόνια παρουσιάζουν και οι εφαρµογές ολοκλήρωσης διαφορετικών δεδοµένων (data integration) από το χώρο της Βιολογίας. Για παράδειγµα οι τρι-διάστατες συντεταγµένες µιας πρωτεΐνης είναι περισσότερο χρήσιµες εάν συνδυάζονται µε πληροφορίες που αφορούν τη λειτουργία των πρωτεϊνών, την εµφάνισή τους σε διαφορετικά γονιδιώµατα και τις αλληλεπιδράσεις τους µε άλλα µόρια. υστυχώς η πρόσβαση σε διαφορετικού τύπου δεδοµένα δεν είναι πάντα εύκολη. Ένα σύστηµα ανάκτησης διαφορετικού τύπου δεδοµένων είναι το SRS- Sequence Retrieval System, που επιτρέπει την εύκολη επικοινωνία µεταξύ - 11 -
διαφορετικών βάσεων βιολογικών δεδοµένων. Ο χρήστης του συστήµατος µπορεί να αναζητά ακολουθίες νουκλεϊκών οξέων, πρωτεϊνών, να ανακτά τα επαναλαµβανόµενα µοτίβα και τις δοµές τους καθώς και αναφορές από τη διεθνή βιβλιογραφία. Παρόµοιες δυνατότητες προσφέρει και το σύστηµα Entrez. Σηµαντικό ερευνητικό ενδιαφέρον στην περιοχή της Βιοπληροφορικής παρουσιάζουν και οι ακόλουθες εφαρµογές. 2.4 Μοριακή Μοντελοποίηση Η Μοριακή Μοντελοποίηση, αποτελεί ένα νέο και ταυτόχρονα γοργά αναπτυσσόµενο επιστηµονικό κλάδο που συνδυάζει σε µεγάλο βαθµό τις επιστήµες της Βιολογίας και της Πληροφορικής. Η Μοριακή Μοντελοποίηση προσπαθεί να µιµηθεί τη συµπεριφορά των µοριακών συστηµάτων, βασιζόµενη σε µεγάλο βαθµό στη σχεδίαση µοντέλων µορίων µε τη βοήθεια ηλεκτρονικού υπολογιστή. Τα σύγχρονα πακέτα λογισµικού µοριακής σχεδίασης, αποτελούν χρήσιµα εργαλεία στα χέρια των ερευνητών, οι οποίοι έχουν τη δυνατότητα να συνδυάσουν τη θεωρία και το πείραµα. Το µόνο ίσως µειονέκτηµα είναι ότι δεν υπάρχει ένα γενικότερο και διευρυµένο εργαλείο µοριακής σχεδίασης. Το σύνολο των βιολογικών µορίων που µελετάµε στη µοριακή σχεδίαση ποικίλλει από µεµονωµένα µόρια και απλές ατοµικές δοµές σε πολυµερή και βιολογικά µακροµόρια όπως οι πρωτεΐνες και το DNA. Έτσι το επιλεγόµενο κάθε φορά µοντέλο πρέπει σαφώς να καλύπτει τις ιδιαιτερότητες και τα χαρακτηριστικά του προς σχεδίαση συστήµατος. Η Μοριακή Μοντελοποίηση ακολουθεί τα εξής 3 βασικά βήµατα: α) επιλογή του κατάλληλου µοντέλου που περιγράφει ικανοποιητικά τις ενδοµοριακές και εσωµοριακές συσχετίσεις του µορίου, β) υπολογισµός της ενεργειακής κατάστασης του συστήµατος και ελαχιστοποίησή της και γ) ανάλυση των παραπάνω υπολογισµών και έλεγχος της τελικής διαµόρφωσης ώστε να ικανοποιούνται όλες οι συνθήκες και περιορισµοί που ο σχεδιαστής έχει θέσει. Αν και στη Μοριακή Σχεδίαση το σύνολο των συντεταγµένων παρέχει µια χρήσιµη απεικόνιση του µορίου σε δισδιάστατο και τρισδιάστατο επίπεδο, είναι αναγκαία και η χρήση συµπληρωµατικών πληροφοριών που έχουµε στη διάθεσή µας προκειµένου να αναπαραστήσουµε και τις βιοχηµικές ιδιότητες του µορίου [6]. Σηµαντική πρόκληση σε αυτή την κατεύθυνση αποτελεί η ικανοποιητική απεικόνιση των επιφανειών των µορίων οι οποίες είναι υπεύθυνες για τη συµπεριφορά των µορίων και τις φυσικοχηµικές τους ιδιότητες. - 12 -
Οι σύγχρονες τεχνικές των µοριακών γραφικών (molecular graphics) επιτρέπουν την απεικόνιση της τρισδιάστατης αρχιτεκτονικής των µορίων στην ενεργειακά ευνοϊκότερη διαµόρφωση. Στη δοµή αυτή είναι δυνατόν να επέµβουµε αποµονώνοντας τµήµατα των µορίων, αλλάζοντας τον προσανατολισµό ορισµένων οµάδων ή ψάχνοντας για άλλες δυνατές διαµορφώσεις. Τα µοριακά αυτά µοντέλα επιτρέπουν επίσης την απεικόνιση φυσικοχηµικών χαρακτηριστικών που επηρεάζουν τις αλληλεπιδράσεις ενός µορίου µε άλλα µόρια. Είναι π.χ. δυνατόν να παρασταθούν οι ακτίνες Van der Waals των ατόµων, η µοριακή επιφάνεια ή ο µοριακός όγκος, το µοριακό ηλεκτροστατικό δυναµικό, η ηλεκτρονιακή πυκνότητα κ.ά. [10]. Η κατασκευή µοριακών µοντέλων επιτρέπει εξάλλου τη σύγκριση ανάµεσα σε διαφορετικά µόρια προσδιορίζοντας περιοχές οµοιοτήτων και διαφορών. Παράλληλα είναι δυνατή η απεικόνιση της τρισδιάστατης προσαρµογής ενός µικροµορίου (φαρµάκου) σε ένα µακροµόριο (υποδοχέα). Σε αυτή την κατεύθυνση είναι δυνατό να σχεδιαστούν στην οθόνη του ηλεκτρονικού υπολογιστή νέα µόρια τα οποία µιµούµενα το σχήµα µιας δραστικής ένωσης ή του φυσιολογικού υποστρώµατος έχουν θεωρητικά τη δυνατότητα να καταλάβουν την ενεργό θέση ενός υποδοχέα [15]. 2.5 Ανάλυση Πρωτεϊνών Όπως έχουµε ήδη αναφέρει οι πρωτεΐνες περιγράφονται πλήρως από την αµινοξεϊκή τους ακολουθία, όµως διακρίνονται και για ειδικές λειτουργίες λόγω της τρισδιάστατης δοµής τους. Αν και η δοµή µιας πρωτεΐνης αποτελεί το κλειδί για τη βιολογική της λειτουργία, για πολλές πρωτεΐνες η επίλυση της δοµής τους δεν είναι αρκετή για να καθοριστεί η λειτουργία τους. Πολλά ένζυµα εντείνουν την καταλυτική τους λειτουργία µε βάση µια µικρή περιοχή στην πρωτεϊνική επιφάνεια που ονοµάζεται ενεργός περιοχή (active site) ή ενεργό κέντρο του ενζύµου. Αυτή η περιοχή χαρακτηρίζεται από γεωµετρικά και φυσικοχηµικά χαρακτηριστικά που είναι σχεδόν συµπληρωµατικά ενός άλλου µορίου, του υποστρώµατος [3]. Έτσι το ενεργό κέντρο µιας πρωτεΐνης ενεργεί σαν υποδοχέας. Αυτή η διαδικασία πρόσδεσης υποδοχέα και υποστρώµατος καλείται προσάραξη (docking). Η προσπάθεια εντοπισµού του ενεργού κέντρου µιας πρωτεΐνης και της κατανόησης µε ακρίβεια της διαδικασίας προσάραξης αποτελεί ένα πολύ σηµαντικό βήµα στην προσπάθεια αποκρυπτογράφησης των περισσότερων µεταβολικών αντιδράσεων. Με την κατανόηση της πρωτεϊνικής λειτουργίας ο σχεδιασµός φαρµάκων µπορεί να αναπτυχθεί σηµαντικά. Εδώ πρέπει να συµπληρώσουµε ότι προκειµένου µια πρωτεΐνη να βρεθεί σε µια ενεργειακή ισορροπία (ιδανική για την προσάραξή της) περνά από ένα σύνολο στεροδιαµορφώσεων. Υπάρχουν εκατοµµύρια διαµορφώσεις οι οποίες µπορούν να διαφέρουν σηµαντικά. Εδώ ακριβώς εισάγεται ο - 13 -
ηλεκτρονικός υπολογιστής για να ελέγξει τον µεγάλο αριθµό πιθανών στεροδιαµορφώσεων και να µειώσει την υπολογιστική πολυπλοκότητα των πειραµάτων που πρέπει να πραγµατοποιηθούν. Όπως ήδη αναφέραµε προηγουµένως, προκειµένου να ενωθούν δύο βιολογικά δραστικά µόρια πρέπει να βρεθούν στην ενεργειακά ευνοϊκότερη διαµόρφωση. Αυτή η διαµόρφωση παίζει καθοριστικό ρόλο στην αλληλεπίδραση του δραστικού µέρους του υποδοχέα µιας πρωτεΐνης µε το υπόστρωµα µιας άλλης (η αλληλεπίδραση επιτυγχάνεται όταν το βιολογικά δραστικό µόριο µεταβαίνει από µία ενεργειακά ευνοϊκή διαµόρφωση στην οποία βρίσκεται, σε µία διαµόρφωση συµπληρωµατική της διαµόρφωσης του υποδοχέα). Άρα προκειµένου να εντοπίσουµε την ευνοϊκότερη διαµόρφωση απαιτείται να µελετήσουµε τις επιφάνειες επαφής µε σκοπό να εξάγουµε χρήσιµα συµπεράσµατα. Στη µελέτη αυτή οι περισσότεροι αλγόριθµοι λαµβάνουν υπόψη τους δύο βασικές αρχές, οι οποίες έχουν αναγνωριστεί ως σηµαντικές τόσο για την αναγνώριση όσο και το ταίριασµα των δραστικών µορίων. Η πρώτη αρχή είναι γνωστή και ως «αρχή της συµπληρωµατικότητας ως προς τη µορφή». Η µορφή των δραστικών µορίων, τουλάχιστον γεωµετρικά, είναι συµπληρωµατική, και αυτό γιατί έχει παρατηρηθεί µεγάλο ταίριασµα ανάµεσα στα µόρια που έρχονται σε επαφή. Η δεύτερη αρχή είναι γνωστή και ως «αρχή της συµπληρωµατικότητας ως προς την ηλεκτρονιακή διαµόρφωση». Έχει επίσης αποδειχθεί ότι υπάρχει µεγάλη χηµική συµπληρωµατικότητα (δεσµοί υδρογόνου, ηλεκτροστατικές αντιδράσεις κ.α.) ανάµεσα στα µόρια που έρχονται σε επαφή. Παρόλο που η δεύτερη αρχή είναι η πιο σηµαντική, υπάρχει η δυνατότητα αναγνώρισης πολλών µορίων ικανών να ενωθούν µόνο µε τη βοήθεια της αρχής της συµπληρωµατικότητας ως προς τη µορφή. Προκειµένου να βρούµε τα συµπληρωµατικά µόρια που ανήκουν σε δυο πρωτείνες Α, Β έχουµε να επιλύσουµε ένα πρόβληµα ταιριάσµατος σε 3 διαστάσεις (3D matching problem) [12]. 2.6 Σχεδιασµός Φαρµάκων µε τη βοήθεια ηλεκτρονικού υπολογιστή Στις µέρες µας η παράλληλη ανάπτυξη υλικού και λογισµικού στον τοµέα των υπολογιστών, σε συνδυασµό µε την ανάπτυξη του ιαδικτύου όσο και τη σχεδίαση και χρήση βάσεων δεδοµένων που περιέχουν βιολογικά δεδοµένα ανοίγει νέους ορίζοντες στο χώρο της µοριακής σχεδίασης. Ο σχεδιασµός φαρµάκων µε τη βοήθεια ηλεκτρονικού υπολογιστή αποτελεί έναν ενδιαφέροντα τοµέα της επιστήµης της Μοριακής Σχεδίασης. - 14 -
Οι υψηλής τεχνολογίας ηλεκτρονικοί υπολογιστές αποτελούν σήµερα πολύτιµο εργαλείο στο σχεδιασµό των φαρµάκων παρέχοντας πολύτιµες πληροφορίες σχετικά µε: 1) την τρισδιάστατη αρχιτεκτονική των µορίων, 2) τις φυσικοχηµικές τους ιδιότητες, 3) τη σύγκριση ενός µορίου µε άλλα µόρια, 4) τα σύµπλοκα µικροµορίων- µακροµορίων, 5) τις προβλέψεις για νέα µόρια. Παράλληλα έχουν ωριµάσει οι συνθήκες για την επιλεκτική φαρµακευτική στόχευση και σύντοµα αναµένεται η συνεισφορά της Βιοπληροφορικής και στο σχεδιασµό νέων φαρµάκων [2]. Πιο συγκεκριµένα στόχος είναι να σχεδιαστεί ένα φάρµακο χτισµένο ειδικά πάνω στο γονιδιακό υπόστρωµα του κάθε ασθενούς, δηλαδή µια εξατοµικευµένη φαρµακευτική αντιµετώπιση. Ως πρώτος στόχος των επιστηµόνων που ασχολούνται µε τη σχεδίαση φαρµάκων µε τη βοήθεια ηλεκτρονικού υπολογιστή τίθεται η αποτελεσµατική απεικόνιση των δοµών κανονικών και παθολογικών µορίων τα οποία στη συνέχεια συγκρίνονται µε παθογενή ένζυµα και ενεργούς υποδοχείς αντίστοιχα οπότε και καθορίζεται ο στόχος σχεδιασµού [8], [9]. Έτσι αν γνωρίζουµε τη δοµή µιας πρωτεΐνης και τον τρόπο που ο υποδοχέας ή η ενεργός περιοχή της δρα, µπορούµε να «χτίσουµε» και να προσοµοιώσουµε την προσάραξη τους στην οθόνη του ηλεκτρονικού υπολογιστή εξοικονοµώντας τον χρόνο και το κόστος που θα απαιτούσαν αντίστοιχες πειραµατικές δοκιµές. Παράλληλα µπορούµε να ανακαλύπτουµε νέες ενώσεις και να τις µοντελοποιούµε προκειµένου να διερευνούµε παραγόµενα συνθετικά ανάλογα και την πιθανή δραστικότητά τους [11]. Και στις δύο περιπτώσεις η µοριακή σχεδίαση είναι ουσιώδης για την κατανόηση και διερεύνηση της σχέσης δοµής - δράσης. Αυτό βέβαια δε σηµαίνει ότι καταργούµε τα in-vitro πειράµατα, γιατί αρκετές φορές τα αποτελέσµατα δεν είναι τα αναµενόµενα. Στον πίνακα 3 παρουσιάζεται µε συνοπτικό τρόπο η ανάλυση που πραγµατοποιείται σε βιολογικά δεδοµένα. Ο κάθετος άξονας παρουσιάζει τα διαδοχικά βήµατα στη διαδικασία στον ορθολογικό σχεδιασµό φαρµάκων (rational drug design): ξεκινώντας από ένα γονίδιο προσπαθούµε να ανακαλύψουµε την πρωτεΐνη που κωδικοποιεί. Έχοντας ως είσοδο την ακολουθία ενός γονιδίου, µπορούµε να καθορίσουµε την αντίστοιχη ακολουθία µιας πρωτεϊνης µε µεγάλη βεβαιότητα και στη συνέχεια µε χρήση αλγορίθµων πρόβλεψης τη δοµή που αποκτά. Γεωµετρικού υπολογισµοί µπορούν να µετρήσουν το σχήµα της επιφάνειας της πρωτεϊνης και µε µοριακές προσοµοιώσεις να καθορίσουµε τις δυνάµεις που αναπτύσσονται γύρω από το µόριό της. Τέλος χρησιµοποιώντας αλγορίθµους προσάραξης µπορούµε να αναγνωρίσουµε ή να σχεδιάσουµε προσδέµατα που ενώνονται µε την πρωτεϊνη, δηµιουργώντας φάρµακα που επιδρά στη λειτουργία της συγκεκριµένης πρωτεϊνης. - 15 -
Ορθολογικός Σχεδιασµός Φαρµάκων Εύρεση Οµολόγων Εύρεση γονιδίων Πρόβλεψη οµής Ακολουθίες Γονιδιωµάτων Ακολουθίες Πρωτεϊνών Σύγκριση ζεύγους ακολουθιών Αλγόριθµοι στοίχισης πολλαπλών ακολουθιών 1 2 3-100 100+ Εύρεση κοινών περιοδικοτήτων σε βάσεις δεδοµένων ακολουθιών οµή Πρωτεϊνών Υπολογισµός Γεωµετρίας Επιφάνεια Πρωτεϊνών Ο κάθετος άξονας παρουσιάζει την πορεία που ακολουθεί ο ορθολογικός σχεδιασµός φαρµάκων. Αντίστοιχα ο οριζόντιος άξονας παρουσιάζει τη συµβολή των υπολογιστικών τεχνικών στη διαδικασία σύγκρισης των ακολουθιών πρωτείνών και του καθορισµού της δοµής σχετικών πρωτεϊνών. Μοριακές Προσοµοιώσεις υνάµεις Πεδίου Προσάραξη µορίων Πρσάραξη προσδέµατος Πίνακας 3: Συνολική παρουσίαση των εφαρµογών ανάλυσης βιολογικών δεδοµένων. - 16 -
Ο οριζόντιος άξονας παρουσιάζει τα βήµατα στη σύγκριση των ακολουθιών διαφορετικών γονιδίων και πρωτεϊνών. Με τη βοήθεια αλγορίθµων διαχείρισης συµβολοσειρών µπορούµε να µελετήσουµε τη στοίχιση πολλαπλών πρωτεϊνών (multiple sequence alignment) καθώς και να καθορίσουµε επαναλαµβανόµενα µοτίβα (περιοδικότητες). Με αυτό τον τρόπο µπορούµε να δηµιουργήσουµε φυλογενετικά δέντρα που απεικονίζουν τα εξελικτικά µονοπάτια των πρωτεϊνών. Σε αυτό το σηµείο έχοντας ολοκληρώσει την περιγραφή των σηµαντικότερων εφαρµογών στον τοµέα της Βιοπληροφορικής θα αναφέρουµε τις τεχνικές από το χώρο της Πληροφορικής που υιοθετούνται. Σε ένα πρώτο επίπεδο η τεχνολογία των Βάσεων εδοµένων επιτρέπει την οργάνωση και αποθήκευση και ανάκτηση των βιολογικών δεδοµένων. Στην ανάλυση ακολουθιών χρησιµοποιούνται τεχνικές επεξεργασίας συµβολοσειρών (string manipulation techniques) και στην ανακάλυψη µοτίβων τεχνικές µηχανικής µάθησης και εξόρυξης δεδοµένων (data mining). H τρισδιάστατη ανάλυση της δοµής των βιολογικών µορίων συνδυάζει Ευκλείδια Γεωµετρία, Φυσικοχηµεία και γραφικές αναπαραστάσεις επιφανειών και όγκων καθώς και αλγορίθµους τρισδιάστατων συγκρίσεων. Οι µοριακές προσοµοιώσεις συνδυάζουν αρχές της Νευτώνιας και Κβαντικής Μηχανικής και ηλεκτροστατικούς υπολογισµούς. Στις περισσότερες περιπτώσεις οι υπολογιστικές τεχνικές ενσωµατώνουν και στατιστικούς ελέγχους των αποτελεσµάτων. - 17 -
Βιβλιογραφικές Αναφορές 1. R.M.Karp, The Genomics Revolution and its Challenges for Algorithmic Research, Reflections 1999. 2. I.D. Kuntz, Structure- Based Strategies for Drug Design and Discovery, Science Vol. 257, 1992. 3. B.Rost, C.Sander, Structure prediction of proteins - where are we now? Current Opinion in Biotechnology, Vol. 5, pp. 372-380,1994. 4. K.Gubernator, Evolutionary drug design, Proceedings of the second annual international conference on Computational molecular biology, New York USA, 1998. 5. J.Wooley, Trends in Computational Biology, Proceedings of the third annual international conference on Computational molecular biology, 1999. 6. A.R.Leach, Molecular Modelling: principles and applications, Essex Longman, 1998. 7. S.P.Gardner, T.P.Flores, Integrating information technology with pharmaceutical discovery and development, pharmainformatics, Elsevier Science Ltd, 1999. 8. S.M.Brocklehurst, C.H.Hardman, S.J.T.Johnston, Creating integrated computer systems for target discovery and drug discovery, pharmainformatics, Elsevier Science Ltd, 1999. 9. J.S.Mason, Computational screening: large-scale drug discovery, pharmainformatics, Elsevier Science Ltd, 1999. 10. J.Brickmann, T.E.Exner, M. Keil, R.J. Marhofer, Molecular Graphics - Trends and Perspectives, J.Mol.Model., Vol 6, pp. 328-340, 2000. 11. P.G. Mezey, Computer Aided Drug Design: Some Fundamental Aspects, J.Mol.Model.,Vol 6, pp. 150-157, 2000. 12. E.F.Meyer, S.M.Swanson, J.A.Williams, Molecular modelling and drug design, Pharmacology & Therapeutics Vol. 85, pp. 113-121, 2000. 13. T.K. Attwood, D.J. Parry-Smith, Introduction to bioinformatics, Essex Longman, 1999. 14. N.M.Luscombe, D. Greenbaum, M. Gernstein, What is Bioinformatics? A Proposed Definition and Overview of the Field, Method Inform Med, Vol. 40, pp.346-358, 2001. - 18 -
15. K. Perdikuri, A. Tsakalidis, Computer Graphics Applications on Drug Discovery and Drug Design, In the proceedings of the 3 rd Hellenic Forum on Bioactive Peptides, 11-14 April 2002, Patras, Greece. 16. C.S. Iliopoulos, C. Makris, S. Sioutas, A. Tsakalidis, K. Tsichlas, Identifying Occurences of Maximal Pairs into Multiple Strings, to appear in 13 th Annual Symposium on Combinatorial Pattern Matching, 3-5 July, 2002, Tokyo Japan. 17. S. Tsoka, Ch.A. Ouzounis, Recent Developments and Future Directions in Computational Genomics, FEBS Letters, Vol. 480, pp. 42-28, 2000. 18. T.K.Attwood, and D.J. Parry-Smith, Introduction to bioinformatics, Addison Wesley Longman, 1999. 19. S. Maulik and S.D.Patel, Molecular Biotechnology- Therapeutic Applications and Strategies, Wiley-Liss, Inc, 1997. - 19 -