ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΙΑΤΡΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧ/ΚΩΝ & ΜΗΧ/ΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠ. ΕΤΟΣ Αριθµ ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α ΜΑΘΗΜΑΤΙΚΟΣ Μ..Ε: ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΥΠΟΒΛΗΘΗΚΕ ΣΤΗ ΣΧΟΛΗ ΙΑΤΡΙΚΗΣ ΣΤΑ ΠΛΑΙΣΙΑ ΤΗΣ ΜΕΡΙΚΗΣ ΕΚΠΛΗΡΩΣΗΣ ΤΩΝ ΑΠΑΙΤΗΣΕΩΝ ΓΙΑ ΤΗΝ ΑΠΟΚΤΗΣΗ Ι ΑΚΤΟΡΙΚΟΥ ΙΠΛΩΜΑΤΟΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΠΛΗΡΟΦΟΡΙΚΗ ΘΕΣΣΑΛΟΝΙΚΗ 2008

2

3 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ: ΚΩΝΣΤΑΝΤΙΝΟΣ ΠΑΠΠΑΣ, ΚΑΘΗΓΗΤΗΣ (Επιβλέπων) ΝΙΚΟΛΑΟΣ ΜΑΓΚΛΑΒΕΡΑΣ, ΑΝ.ΚΑΘΗΓΗΤΗΣ ΜΙΧΑΗΛ ΣΤΡΙΝΤΖΗΣ, ΚΑΘΗΓΗΤΗΣ Η ΕΠΤΑΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΚΩΝΣΤΑΝΤΙΝΟΣ ΠΑΠΠΑΣ, ΚΑΘΗΓΗΤΗΣ ΝΙΚΟΛΑΟΣ ΜΑΓΚΛΑΒΕΡΑΣ, ΑΝ.ΚΑΘΗΓΗΤΗΣ ΜΙΧΑΗΛ ΣΤΡΙΝΤΖΗΣ, ΚΑΘΗΓΗΤΗΣ ΣΟΦΙΑ ΚΟΥΪ ΟΥ, ΚΑΘΗΓΗΤΡΙΑ ΠΕΡΙΚΛΗΣ ΜΗΤΚΑΣ, ΚΑΘΗΓΗΤΗΣ ΗΜΗΤΡΙΟΣ ΚΟΥΦΟΓΙΑΝΝΗΣ, ΑΝ. ΚΑΘΗΓΗΤΗΣ ΑΛΕΞΑΝ ΡΟΣ ΛΑΜΠΡΟΠΟΥΛΟΣ, ΑΝ. ΚΑΘΗΓΗΤΗΣ «Η έγκριση της ιδακτορικής ιατριβής από τα προαναφερόµενα Τµήµατα του Αριστοτέλειου Πανεπιστηµίου Θεσσαλονίκης, δεν υποδηλώνει αποδοχή των γνωµών του συγγραφέα». (Νόµος 5343/32, άρθρο και Νόµος 1268/82, άρθρο 50 8)

4 ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α Α.Π.Θ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ

5 Αφιερωµένο στους δύο σηµαντικότερους άντρες στη ζωή µου: στον ϖατέρα µου, ϖου θα θυµάµαι ϖάντα, και στο σύζυγό µου.

6

7 Ευχαριστίες Θα ήθελα να εκφράσω τις θερµές µου ευχαριστίες στον καθηγητή κ. Κωνσταντίνο Παϖϖά για την εµϖιστοσύνη ϖου µου έδειξε, καθώς και για την υϖοστήριξη του καθ όλη τη διάρκεια της εκϖόνησης της διδακτορικής διατριβής µου. Ακόµα ευχαριστώ τον Αναϖληρωτή καθηγητή κ. Νικόλαο Μαγκλαβέρα για την ϖολύτιµη βοήθεια του, τόσο ϖαρέχοντας την αϖαραίτητη υλικοτεχνική υϖοδοµή, όσο και κατευθύνοντας εύστοχα την ερευνητική µου δραστηριότητα σε εϖιστηµονικά θέµατα. Εϖίσης τον ευχαριστώ γιατί ήταν ϖάντα διαθέσιµος και ϖρόθυµος να αϖαντήσει σε αϖορίες µου. Ευχαριστώ τον καθηγητή κ. Μιχαήλ Στρίντζη για τη συνεργασία µας καθώς και για την ευκαιρία ϖου µου έδωσε ϖριν αρκετά χρόνια, και ϖου δεν θα ξεχάσω ϖοτέ, να ενταχθώ στο νέο για µένα τότε κλάδο της ϖληροφορικής. Θα ήθελα να ευχαριστήσω τους γονείς µου, τα αδέλφια µου και το σύζυγό µου Σωτήρη ϖου έδειξαν την αµέριστη συµϖαράστασή τους όλα αυτά τα χρόνια και ϖου χωρίς τη συνεχή ηθική συµϖαράστασή τους δεν θα είχα καταφέρει να ολοκληρώσω τη διατριβή αυτή. Τέλος ευχαριστώ τους φίλους µου και τους συναδέλφους µου για τη συναδελφική αλληλεγγύη καθώς και για τη διαρκή, ουσιαστική και ειλικρινή συµϖαράστασή τους. Χρύσα Ε. Κολλιδά Αϖρίλιος 2008

8

9 Περιεχόµενα Πίνακες Εικόνες Περίληψη Abstract Πρόλογος ΕΙΣΑΓΩΓΗ Ερευνητικό ϖεδίο Ερευνητικός σκοϖός ιάρθρωση της διατριβής ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΛΕΙΤΟΥΡΓΙΕΣ ΣΤΗ ΒΙΟΛΟΓΙΑ Εισαγωγή Βασικές Έννοιες Νουκλεϊκά Οξέα Πρωτεΐνες Κεντρικό δόγµα της βιολογίας Αντιγραφή, µεταγραφή και µετάφραση του DNA (DNA replication, transcription, translation) Μετάλλαξη ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Εισαγωγή Ο σκοϖός της βιοϖληροφορικής σήµερα Ερευνητικό ϖεδίο στη βιοϖληροφορική Οργάνωση δεδοµένων Μεθοδολογίες ϖου εϖιτρέϖουν την ερµηνεία αϖοτελεσµάτων βιολογικής σηµασίας Ανάλυση, συστοίχιση και κατηγοριοϖοίηση ακολουθιών βιολογικών δεδοµένων ΠΟΛΛΑΠΛΗ ΣΥΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ Εισαγωγή Είδη ϖολλαϖλής συστοίχισης ακολουθιών... 67

10 4.2.1 υναµικός ϖρογραµµατισµός και υϖολογιστική ϖολυϖλοκότητα (Dynamic programming and computational complexity) Προοδευτική κατασκευή συστοίχισης (Progressive alignment construction) Εϖαναληϖτικές µέθοδοι (Iterative methods) Κρυφά µαρκοβιανά µοντέλα (Hidden Markov models) Γενετικοί αλγόριθµοι και µέθοδος ϖροσοµοιωµένης ανόϖτησης (Genetic algorithms and simulated annealing) Εύρεση µοτίβων (Motif finding) Κρυφά µαρκοβιανά µοντέλα Εισαγωγή Μαρκοβιανές αλυσίδες (Markov Chains) Μετάβαση στα κρυφά µαρκοβιανά µοντέλα Χαρακτηριστικά κρυφού µαρκοβιανού µοντέλου Τρία βασικά ϖροβλήµατα των κρυφών µαρκοβιανών µοντέλων ΜΑΘΗΜΑΤΙΚΗ ΘΕΜΕΛΙΩΣΗ ΑΣΑΦΩΝ ΠΡΟΦΙΛ ΚΡΥΦΩΝ ΜΑΡΚΟΒΙΑΝΩΝ ΜΟΝΤΕΛΩΝ Εισαγωγή Ασαφής λογική Εισαγωγή Γενικά χαρακτηριστικά της ασαφούς λογικής Στοιχεία θεωρίας ασαφών συνόλων Ασαφή ολοκληρώµατα Σουγκένο και Τσοκέτ (Sugeno and Choquet Integrals) Ασαφή κριτήρια υϖό συνθήκη (conditional fuzzy measures) Χαρακτηριστικά ασαφούς µαρκοβιανού µοντέλου Προσδιορισµός των τριών βασικών ϖροβληµάτων του ασαφούς ΗΜΜ Μεθοδολογία υλοϖοίησης ϖολλαϖλής συστοίχισης ακολουθιών µε τη µέθοδο των ασαφών ϖροφίλ ΗΜΜ Πειραµατικά αϖοτελέσµατα Συζήτηση Συµϖεράσµατα ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΜΕΤΡΩΝ ΤΟΥ ΑΣΑΦΟΥΣ ΚΡΥΦΟΥ ΜΑΡΚΟΒΙΑΝΟΥ ΜΟΝΤΕΛΟΥ Εισαγωγή

11 6.2 Μεθοδολογία Πειραµατικά αϖοτελέσµατα Συζήτηση Συµϖεράσµατα ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ Εισαγωγή Ο αριθµός των διαφορετικών τοϖολογιών φυλογενετικών δέντρων Μέθοδοι κατασκευής φυλογενετικών δέντρων Μέθοδος Fitch and Margoliash Μέθοδος οµαδοϖοίησης χωρίς βάρη κατά ζεύγη ακολουθιών µε αριθµητική µέση τιµή (Unweighted Pair Group Method with Arithmetic Mean-UPGMA) Μέθοδος κοντινότερου γείτονα (Neigbour Joining) Μέθοδος ελάχιστης εξέλιξης (minimum evolution) Μέθοδος µέγιστης φειδωλότητας (maximum parsimony) Μέθοδος µέγιστης ϖιθανοφάνειας (maximum likelihood) Μέθοδοι ελέγχου αξιοϖιστίας φυλογενετικών δέντρων Μεθοδολογία εξαγωγής φυλογενετικού δέντρου µε χρήση ασαφών ΗΜΜ Πειραµατικά αϖοτελέσµατα Συζήτηση Συµϖεράσµατα ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ Συµϖεράσµατα Εϖιστηµονική ϖρωτοτυϖία Μελλοντικές εϖεκτάσεις ΒΙΒΛΙΟΓΡΑΦΙΑ

12

13 Πίνακες Πίνακας 2.1: Τα 20 διαφορετικά αµινοξέα Πίνακας 2.2: Ο γενετικός κώδικας Πίνακας 4.1: Πιθανότητες µετάβασης µεταξύ των καταστάσεων Πίνακας 4.2: ιάνυσµα αρχικών ϖιθανοτήτων του µαρκοβιανού µοντέλου Πίνακας 4.3: Πίνακας εξόδου για τις ορατές καταστάσεις Πίνακας 4.4: Πίνακας για την ϖρος τα εµϖρός τεχνική Πίνακας 4.5: Πίνακας για την τεχνική βιτέρµϖι Πίνακας 5.1: Σύγκριση µέσων όρων ταυτοϖοίησης ανάµεσα σε 4 µεθόδους Πίνακας 6.1: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=1 και συντελεστή a= Πίνακας 6.2: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=1 και συντελεστή a= Πίνακας 6.3: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=5 και συντελεστή a= Πίνακας 6.4: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=5 και συντελεστή a= Πίνακας 6.5: Συγκριτικός ϖίνακας µέσων όρων τιµών του συνόλου δοκιµής για τα ασαφή ϖροφίλ HMM µοντέλα f(1,30),f(1,50), f(5,40), f(5,50), καθώς και των τριών κλασικών µεθόδων συστοίχισης Πίνακας 7.1: Φυλογενετικά αϖοτελέσµατα για τις διαφορετικές µεθόδους µε την τεχνική της µέγιστης φειδωλότητας αϖλής και µε bootstrap

14 Πίνακας 7.2: Φυλογενετικά αϖοτελέσµατα για τις διαφορετικές µεθόδους µε την τεχνική της µέγιστης ϖιθανοφάνειας αϖλής και µε bootstrap

15 Εικόνες Εικόνα 2.1: Παρατήρηση R.Hooke Εικόνα 2.2: Η διϖλή έλικα του DNA και η αλυσίδα RNA Εικόνα 2.3: Η δοµή του DNA Εικόνα 2.4: Οι αντιστοιχίες µεταξύ των βάσεων base pairs (bp) και η ουρακίλη Εικόνα 2.5: Ο γενικός τύϖος του αµινοξέος Εικόνα 2.6: Τα βασικά αµινοξέα και η κατάταξή τους σε τέσσερις κατηγορίες Εικόνα 2.7: οµικά εϖίϖεδα σε µία ϖρωτεΐνη Εικόνα 2.8: Το κεντρικό δόγµα της βιολογίας Εικόνα 2.9: Η διαδικασία της αντιγραφής Εικόνα 2.10: Η διαδικασία της µεταγραφής Εικόνα 2.11: Η διαδικασία της αντιγραφής Εικόνα 3.1: Αύξηση του αριθµού των ακολουθιών νουκλεοτιδίων σε δηµόσιες βάσεις δεδοµένων αϖό το 1995 µέχρι το Εικόνα 3.2: Το φυλογενετικό δέντρο της ζωής Εικόνα 3.3: Η τρισδιάστατη ϖρωτεϊνική δοµή αϖό το κέλυφος των βακτηριδίων microcompartments Εικόνα 3.4: Παράδειγµα συστοίχισης ϖρωτεϊνών Εικόνα 4.1: Παράδειγµα ϖολλαϖλής συστοίχισης οµόλογων ϖρωτεϊνών ϖου βρίσκονται σε διαφορετικούς οργανισµούς Εικόνα 4.2: Συστοίχιση εϖτά ϖρωτεϊνών (κασϖάσες δροσόφιλλες) µε το ΜΕΜΕ Εικόνα 4.3: Πιθανές µεταβάσεις µεταξύ των καταστάσεων... 76

16 Εικόνα 4.4: Το κρυφό µαρκοβιανό µοντέλο του καιρού µε τις ορατές (νοτισµένο, σχετικά νοτισµένο, σχετικά ξηρό, ξηρό) και τις κρυφές καταστάσεις (ήλιος, σύννεφα, βροχή) Εικόνα 4.5: Παράδειγµα ΗΜΜ της ACCY ϖρωτεΐνης Εικόνα 4.6: Μοντέλο ΗΜΜ Εικόνα 5.1: Ο γραφικός υϖολογισµός του g Y Εικόνα 5.2: Μεθοδολογία ϖολλαϖλής συστοίχισης µε τη µέθοδο ασαφούς ΗΜΜ Εικόνα 5.3: MSA µε ασαφή ΗΜΜ µε τις συναινετικές ακολουθίες τους Εικόνα 5.4: MSA µε κλασικά ΗΜΜ µε τις συναινετικές ακολουθίες τους Εικόνα 6.1: Μεθοδολογία ϖολλαϖλής συστοίχισης ακολουθιών µε τη χρήση του βάρους µοντέλου µηδενικής υϖόθεσης w και του συντελεστή µοντέλου εκϖαίδευσης a Εικόνα 6.2: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης και µηδενικού µοντέλου υϖόθεσης για τις διάφορες τιµές της µεταβλητής w Εικόνα 6.3: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης µε το συντελεστή µηδενικού µοντέλου εκϖαίδευσης a όταν βάρος µηδενικού µοντέλου w= Εικόνα 6.4: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης µε το συντελεστή µηδενικού µοντέλου εκϖαίδευσης a όταν βάρος µηδενικού µοντέλου w= Εικόνα 7.1: Η τοϖολογία δέντρου για την υλοϖοίηση της µεθόδου 145 Εικόνα 7.2: Μεθοδολογία εξαγωγής φυλογενετικού δέντρου Εικόνα 7.3: Καταλληλότερα δέντρα (consensus trees) µε τη µέθοδο µέγιστης φειδωλότητας για τις τεχνικές ϖολλαϖλής συστοίχισης µε ασαφή ϖροφίλ ΗΜΜ Εικόνα 7.4: Καταλληλότερα δέντρα (consensus trees) µε τη µέθοδο µέγιστης φειδωλότητας για τις κλασικές τεχνικές ϖολλαϖλής συστοίχισης

17 Εικόνα 7.5: Καταλληλότερα δέντρα (consensus trees) µε τη µέθοδο µέγιστης ϖιθανοφάνειας για τις τεχνικές ϖολλαϖλής συστοίχισης µε ασαφή ϖροφίλ ΗΜΜ Εικόνα 7.6: Καταλληλότερα δέντρα (consensus trees) µε τη µέθοδο µέγιστης ϖιθανοφάνειας για τις κλασικές τεχνικές ϖολλαϖλής συστοίχισης

18

19 Περίληψη Η βιοϖληροφορική έχει καταστεί ένας αϖό τους σηµαντικότερους τοµείς έρευνας στις µέρες µας σε ευρωϖαϊκό και ϖαγκόσµιο εϖίϖεδο. Η φυλογενετική ανάλυση αϖοτελεί ένα σηµαντικό κλάδο στην εϖιστήµη της βιοϖληροφορικής διότι µϖορεί να χρησιµοϖοιηθεί στη µελέτη της εξελικτικής ϖορείας, καθώς και των σχέσεων µεταξύ γονιδίων και οργανισµών. Αλγόριθµοι για τη φυλογενετική ανάλυση σε µοριακό εϖίϖεδο έχουν αναϖτυχθεί αρκετοί, εκείνο όµως ϖου θεωρείται σηµαντικό και ϖου οδηγεί στην ϖαραγωγή ενός «αξιόϖιστου» φυλογενετικού δέντρου είναι ϖρωτίστως να έχει ϖραγµατοϖοιηθεί µια σωστή ϖολλαϖλή συστοίχιση των ακολουθιών. Η ϖολλαϖλή συστοίχιση ακολουθιών αϖοτελεί µία αϖό τις ϖιο διαδεδοµένες και ϖιο σηµαντικές διαδικασίες της βιοϖληροφορικής. Αυτό συµβαίνει διότι µε τη συστοίχιση και τη µελέτη των εξαγόµενων αϖοτελεσµάτων είναι δυνατόν η εύρεση ϖεριοχών ή θέσεων κοινών σε µια ακολουθία (ϖχ. αµινοξέων) να αϖοκαλύψει κρίσιµες ϖληροφορίες για τη δοµή και τη λειτουργία µιας ϖρωτεΐνης. Οι ϖολλαϖλές συστοιχίσεις ακολουθιών αϖοτελούν το ϖρώτο βήµα για την κατασκευή φυλογενετικών δέντρων και η ϖοιότητά τους κρίνεται εν ϖολλοίς αϖό τις συγκεκριµένες αυτές αρχικές συστοιχίσεις. Έτσι, για να µϖορέσει κανείς να εκτιµήσει ένα φυλογενετικό δέντρο, ϖου αϖεικονίζει την εξελικτική σχέση µεταξύ ενός συνόλου δεδοµένων (ϖχ. ϖρωτεϊνών), θα ϖρέϖει να κάνει σωστή ϖολλαϖλή συστοίχιση. Η ϖαρούσα διατριβή εισάγει µία νέα ϖροσέγγιση για τον υϖολογισµό ϖολλαϖλών συστοιχίσεων ακολουθιών ϖου σκοϖό έχει να χρησιµοϖοιηθεί στη συνέχεια στη µεθοδολογία υϖολογισµού φυλογενετικών δέντρων για να ϖαραχθούν έτσι ϖερισσότερο αξιόϖιστα φυλογενετικά δέντρα. Πιο συγκεκριµένα, θεµελιώνονται µαθηµατικά τα ασαφή κρυφά µαρκοβιανά µοντέλα για την ϖερίϖτωση βιολογικών δεδοµένων (ϖ.χ. ϖρωτεϊνών) ορίζοντας αρχικά τα χαρακτηριστικά ενός ασαφούς µοντέλου και στη συνέχεια

20 ϖροσδιορίζοντας τα τρία βασικά ϖροβλήµατα στα οϖοία το ασαφές κρυφό µαρκοβιανό µοντέλο µϖορεί να δώσει λύση. Έϖειτα, αναϖτύσσονται οι τρεις νέες ασαφείς τεχνικές: ο ασαφής εµϖρός αλγόριθµος, ο ασαφής ϖίσω αλγόριθµος και ο ασαφής αλγόριθµος Βιτέρµϖι. Στη συνέχεια ϖροτείνεται µία µεθοδολογία βελτιστοϖοίησης του νέου ασαφούς µαρκοβιανού µοντέλου ϖου σκοϖό έχει αρχικά τη µελέτη της ευρωστίας του νέου µοντέλου όταν αυτό συγκρίνεται µε ένα γενικότερο µοντέλο, και στη συνέχεια την εϖιλογή των βέλτιστων συστοιχίσεων µέσω της µεγιστοϖοίησης των ϖοιοτικών χαρακτηριστικών τους, έτσι ώστε να µϖορούν να χρησιµοϖοιηθούν στη φυλογενετική ανάλυση για την ϖαραγωγή ϖερισσότερο αξιόϖιστων φυλογενετικών δέντρων. Η αξιολόγηση, τόσο της µεθοδολογίας βελτιστοϖοίησης του νέου µοντέλου, όσο και της φυλογενετικής ανάλυσης ϖραγµατοϖοιείται µε τη σύγκρισή του µε άλλες κλασικές µεθόδους ϖαραγωγής ϖολλαϖλών συστοιχίσεων, συµϖεριλαµβανοµένης αυτής του κλασικού µαρκοβιανού µοντέλου.

21 Abstract Bioinformatics constitutes one of the most important current research areas in the European and world level. Phylogenetic analysis is a key field in bioinformatics, since it can be used in studying evolutionary relationships as well as the relations between genes and organisms. There have been developed many algorithms for phylogenetic purposes in the molecular level, but what is really important and leads to a "reliable" phylogenetic tree is to use as input the right multiple sequence alignment. Multiple sequence alignment has been acknowledged as one of the most useful processes in bioinformatics. The reason is that using the alignment and studying its results it is possible to discover regions or common character positions in a sequence (e.g. proteomic sequence) unrevealing critical information about the structure and the function of the protein. Aligning a multitude of sequences is the first step for producing phylogenetic trees, and the phylogenetic tree analysis depends a lot on these initial alignments. So, in order to estimate a phylogenetic tree that depicts the evolutionary relationship among multiple biological data (such as proteins), a right multiple sequence alignment is critical. This thesis deals with a new approach in producing multiple sequence alignments that are going to be used in the methodology of producing phylogenetic trees with greater reliability. More specifically, the fuzzy profile hidden markov model for the case of biological data (such as proteins) is mathematically founded, by initially defining the characteristic of the fuzzy model and then, determining the three basic problems that the fuzzy profile hidden markov model deals with. Afterwards, three new techniques are developed in order to handle the new model: the fuzzy forward, the fuzzy backward and the fuzzy Viterbi algorithm. Then a methodology is proposed in order to: a) study the robustness of the new model when compared with a more generic model, and b) to

22 optimize the model, through the maximization of its qualitative results, in order to produce optimal multiple sequence alignments that can be used in phylogenetic analysis for the production of more reliable phylogenetic trees. The validation of both the new model optimization procedure and the phylogenetic analysis is realized with the comparison with other classic multiple sequence alignment methods including the classic profile hidden markov model.

23 Πρόλογος Η ϖαρούσα διατριβή εκϖονήθηκε στα ϖλαίσια του ϖρογράµµατος µεταϖτυχιακών σϖουδών Ιατρικής Πληροφορικής της Ιατρικής Σχολής και των Τµηµάτων Ηλεκτρολόγων Μηχανικών - Μηχανικών Υϖολογιστών και Πληροφορικής του Αριστοτέλειου Πανεϖιστηµίου Θεσσαλονίκης. Εϖίσης η διδακτορική διατριβή χρηµατοδοτήθηκε αϖό το ϖρόγραµµα του Υϖουργείου Παιδείας (ΕΠΕΑΕΚ ΙΙ) ΗΡΑΚΛΕΙΤΟΣ: «Υϖοτροφίες Έρευνας µε Προτεραιότητα στη Βασική Έρευνα». Η Βιοϖληροφορική είναι µία νέα εϖιστήµη η οϖοία εφαρµόζει την ϖληροφορική στη µοριακή βιολογία. Ο νέος αυτός κλάδος καλύϖτει τη µελέτη διάφορων υϖολογιστικών ϖροβληµάτων ϖου ϖροκύϖτουν αϖό τον τεράστιο όγκο βιολογικών δεδοµένων ϖου βρίσκεται διαθέσιµο σήµερα στις δηµόσιες βάσεις δεδοµένων. Σκοϖός της βιοϖληροφορικής είναι να σχεδιαστούν κατάλληλα ϖρογράµµατα τα οϖοία θα δίνουν λύσεις σε τέτοια ϖροβλήµατα ή θα έχουν τη δυνατότητα να ϖροσδιορίζουν ϖοια ϖροβλήµατα δεν µϖορούν να λυθούν. Η ϖαρούσα διατριβή εϖικεντρώνεται σε δύο θεµελιώδη υϖολογιστικά ϖροβλήµατα ϖου ϖροκύϖτουν αϖό την ανάγκη της µελέτης των βιολογικών δεδοµένων. Αυτά είναι η σύγκριση ακολουθιών και η κατάλληλη ϖροσαρµογή της διαδικασίας, για τη µετέϖειτα φυλογενετική τους ανάλυση. Μια αϖό τις ευρύτατα υιοθετηµένες ϖροσεγγίσεις στη σύγκριση ακολουθιών ϖου χρησιµοϖοιούνται σήµερα είναι η συστοίχιση ακολουθιών (sequence alignments). Το ϖρόβληµα της ϖολλαϖλής συστοίχισης ακολουθιών (multiple sequence alignment- MSA) µελετάται κυρίως σε αυτήν τη διατριβή και ειδικότερα το ϖως µϖορεί αυτή να εφαρµοστεί στη φυλογενετική ανάλυση. Έτσι, για την αϖοδοτικότερη και καλύτερων ϖοιοτικών χαρακτηριστικών ϖαραγωγή αξιόϖιστων φυλογενετικών δέντρων, µελετήθηκε µια νέα ϖροσέγγιση κάνοντας χρήση ασαφών ϖροφίλ κρυφών µαρκοβιανών µοντέλων (Fuzzy Profile HMM). 23

24 Πρόλογος 24 Συγκεκριµένα η νέα µέθοδος ασχολείται µε τη συστοίχιση είτε γονιδιακών, είτε ϖρωτεϊνικών ακολουθιών. Τα ΗΜΜs είναι γνωστό ότι αϖοδίδουν εξίσου καλά µε άλλες τεχνικές όταν ϖρόκειται να χρησιµοϖοιηθούν για MSA, ϖαρόλα αυτά όµως, η στοχαστική τους φύση δεν τα βοηθά να συνεργαστούν µε την υϖάρχουσα εξάρτηση ϖου υϖάρχει µεταξύ των στοιχείων των ακολουθιών. Τα ασαφή ΗΜΜ είναι ένας νέος τύϖος των ΗΜΜ βασισµένος στη θεωρία των ασαφών συνόλων και ολοκληρωµάτων ϖου γενικεύουν κατά µια έννοια τα κλασικά στοχαστικά ΗΜΜ, µε την άµβλυνση του ϖεριορισµού της ανεξαρτησίας. Στην ϖαρούσα διατριβή το νέο µοντέλο ϖου δηµιουργήθηκε εφαρµόστηκε σε δεδοµένα οµόλογων ϖρωτεϊνών του ιού του HPV. Νέες ασαφείς τεχνικές ϖροτείνονται για το χτίσιµο του µαρκοβιανού µοντέλου και τη συστοίχιση των ακολουθιών. Σχετικά ϖειράµατα µε τα κλασικά ΗΜΜs και άλλες αρκετά γνωστές ϖροσεγγίσεις αϖεικονίζουν ότι τα ασαφή ΗΜΜ αυξάνουν την ικανότητα του µοντέλου να συστοιχίζει ακολουθίες κυρίως αϖό ϖλευράς αύξησης του ϖοσοστού ελέγχου ταυτοϖοίησης και κατ εϖέκταση του ϖοσοστού οµοιότητας, καθώς τέλος και αϖό ϖλευράς υϖολογιστικής ισχύος. Η µοντελοϖοίηση της ϖολλαϖλής συστοίχισης ακολουθιών µε τη χρήση των ϖροφίλ ασαφών ΗΜΜs αϖοδεικνύουν µια δυνατή και αϖοτελεσµατικού χρόνου λύση η οϖοία µϖορεί να χρησιµοϖοιηθεί στη συνέχεια στη φυλογενετική ανάλυση δίνοντας καλύτερα φυλογενετικά δέντρα. Εϖιϖλέον, στο ϖροτεινόµενο µοντέλο ϖαρέχεται η δυνατότητα βελτιστοϖοίησης των ϖαραµέτρων του σύµφωνα µε µια συγκεκριµένη µεθοδολογία ϖου έχει ως αϖοτέλεσµα τη µεγιστοϖοίηση των ϖοιοτικών χαρακτηριστικών της συστοίχισης.

25 1 ΕΙΣΑΓΩΓΗ 1.1 Ερευνητικό ϖεδίο Η ανακάλυψη του µοντέλου της διϖλής έλικας για το DNA το 1953 αϖό τους Watson και Crick αϖοτέλεσε τη βάση για την εντυϖωσιακή ανάϖτυξη της σύγχρονης µοριακής βιολογίας τα εϖόµενα 50 χρόνια [1]. Οι ολοένα και ϖερισσότερες ανακαλύψεις στον τρόϖο λειτουργίας του DNA και άλλων µακροµοριακών ακολουθιών (RNA, ϖρωτεΐνες) τα εϖόµενα χρόνια, έφτασαν στο αϖοκορύφωµά τους τον Αϖρίλη του 2003 µε την ανακοίνωση της εϖιτυχούς ολοκλήρωσης αϖοκωδικοϖοίησης του ανθρώϖινου γονιδιώµατος αϖό µια σειρά συνεργαζόµενων ερευνητικών κέντρων σε όλο τον κόσµο, τα οϖοία είχαν ξεκινήσει αυτό το ϖρόγραµµα (γνωστό σαν Human Genome Project) αϖό το 1991 [2]. Τα νέα δεδοµένα στο χώρο της σύγχρονης µοριακής βιολογίας δηµιούργησαν νέες αϖαιτήσεις, ϖου ήταν δύσκολο να ικανοϖοιηθούν, αν η εϖιστήµη της βιολογίας δεν ερχόταν σε συνεργασία µε µια σειρά άλλων εϖιστηµών και γνωστικών αντικειµένων. Η ϖερίϖου ϖαράλληλη χρονικά ανάϖτυξη της ϖληροφορικής τα τελευταία 50 ϖερίϖου χρόνια µε αυτήν της βιολογίας οδήγησε, σε συνεργασία µεταξύ των δυο αυτών εξαιρετικά διαχωρισµένων µέχρι ϖρότινος αντικειµένων. Η σταδιακή συστηµατοϖοίηση της συνεργασίας εϖιστηµόνων αϖό τους δυο αυτούς χώρους αϖοκρυστάλλωσε την τάση για συγχώνευση γνώσεων µε σκοϖό την εφαρµογή και εξειδίκευση λύσεων αϖό τον κλάδο της ϖληροφορικής ϖάνω σε βιολογικά ϖροβλήµατα. Ένας λόγος ϖου οι εϖιστήµονες της ϖληροφορικής έχουν ελκυστεί αϖό τη µοριακή βιολογία είναι γιατί ο τρόϖος ϖου κωδικοϖοιείται µια ϖληροφορία στο DNA, είναι κατά µια έννοια ϖαρόµοιος µε τον τρόϖο ϖου κωδικοϖοιείται στους υϖολογιστές. Όταν οι υϖολογιστές σε χαµηλό εϖίϖεδο λειτουργούν µε 0 και 1 (bits), 25

26 Κεφάλαιο1: Εισαγωγή 26 το DNA εµϖεριέχει ϖληροφορία, σε µορφή µοριακής αλυσίδας (νουκλεοτίδια), ϖου εµφανίζεται µε 4 διαφορετικούς τύϖους (αζωτούχες βάσεις). Η έρευνα στον τοµέα της βιολογίας και της βιοϊατρικής έχει σηµειώσει τεράστια ϖρόοδο. Η ανάϖτυξη της τεχνολογίας ϖεριλαµβάνει τις αυτοµατοϖοιηµένες µεθόδους για συστοίχιση ακολουθιών, τις µεθόδους για τον καθορισµό της τρισδιάστατης δοµής των ϖρωτεϊνών και τις µεθόδους για τις µετρήσεις του mrna και των ϖρωτεϊνών ϖου βρίσκονται σε αφθονία. Όλα αυτά τα δεδοµένα διαθέτουν ϖληροφορία ϖολύτιµη για να κατανοήσουµε καλύτερα τη βιολογία. Έτσι γίνεται κατανοητό ότι για να αϖοκαλυφθούν αυτές οι ϖληροφορίες χρειάζονται οι εφαρµογές λογισµικού. Οι βιολόγοι εξαρτώνται ολοένα και ϖιο ϖολύ αϖό τους υϖολογιστές για αϖοθήκευση και ανάλυση των δεδοµένων τους, είτε αυτά είναι δεδοµένα ϖου έχουν ϖαράγει οι ίδιοι στα εργαστήριά τους, είτε έχουν ϖαραχθεί κάϖου αλλού. ηµόσιες βάσεις δεδοµένων µε µεγάλο όγκο διαφορετικών και ϖολυϖοίκιλων δεδοµένων µϖορεί να αϖοτελούν σηµαντικές ϖηγές. Έτσι για να µϖορέσει κάϖοιος να τις εκµεταλλευτεί και να εξάγει ϖληροφορία αϖό αυτές χρειάζεται τη βοήθεια ειδικών ϖρογραµµάτων και εδώ έρχεται να δώσει την αϖάντηση η βιοϖληροφορική. Η βιοϖληροφορική αϖοτελεί ένα σηµαντικό κλάδο στις µέρες µας. Ένα αϖό τα ϖιο διαδεδοµένα χρησιµοϖοιούµενα εργαλεία της ϖαραµένει η αναζήτηση σε µια βάση ακολουθιών για όλες τις ακολουθίες ϖου είναι όµοιες µε αυτή ϖου µελετάται. Το ερώτηµα µϖορεί να είναι για ϖαράδειγµα αν µία νέα ακολουθία DNA ενδεχοµένως κωδικοϖοιεί κάϖοια ϖρωτεΐνη. Αν το αϖοτέλεσµα αϖό το ερώτηµα βρεθεί να είναι σηµαντικά (ϖερισσότερο του τυχαίου γεγονότος) όµοιο µε µία βάση ϖρωτεϊνικών ακολουθιών, τότε µϖορεί να υϖοθέσει κάϖοιος ότι το νέο γονίδιο κωδικοϖοιεί µια ϖρωτεΐνη οµόλογη µε αυτές ϖου βρίσκονται στη βάση ή ακόµα ότι η ακολουθία µϖορεί να κωδικοϖοιεί µια ϖρωτεΐνη µε ϖαρόµοια δοµή και λειτουργία µε εκείνες αϖό τη βάση ϖρωτεϊνών. Αλγόριθµοι για αυτού του είδους τις αναλύσεις υϖάρχουν αρκετοί. Μια άλλη ευρέως διαδεδοµένη διαδικασία είναι η συλλογή ενός συνόλου δεδοµένων συσχετισµένων µεταξύ τους, η συστοίχισή τους και στη συνέχεια η µελέτη τους για την εξαγωγή ϖληροφορίας για τις σχέσεις µεταξύ τους, καθώς και για τις κοινές λειτουργίες ή δοµές ϖου ϖιθανόν ϖαρουσιάζουν. Για ϖαράδειγµα, αν βρεθούν ϖεριοχές ή

27 Κεφάλαιο1: Εισαγωγή 27 θέσεις κοινές µέσα σε µια ακολουθία (δηλαδή ίδια αµινοξέα στη στήλη της ϖολλαϖλής συστοίχισης για όλες τις υϖό εξέταση ακολουθίες), τότε το αµινοξύ αυτό θα µϖορούσε να θεωρηθεί κρίσιµο για τη δοµή και τη λειτουργία µιας ϖρωτεΐνης. Μϖορεί εϖίσης κάϖοιος να ανακαλύψει ϖρότυϖα (patterns) µε υδρόφοβη ή υδρόφιλη ιδιότητα (αµινοξέα ϖου τους «αρέσει» ή δεν τους «αρέσει» το νερό), κάτι ϖου µϖορεί να οδηγήσει στην ύϖαρξη δευτεροταγούς δοµής του στοιχείου ϖου εξετάζεται. Οι ϖολλαϖλές συστοιχίσεις ακολουθιών (multiple sequence alignments) αϖοτελούν το ϖρώτο βήµα για τη φυλογενετική ανάλυση. Για να µϖορέσει κανείς να εκτιµήσει ένα φυλογενετικό δέντρο, ϖου αϖεικονίζει την εξελικτική σχέση µεταξύ ενός συνόλου δεδοµένων (ϖχ. ϖρωτεϊνών), θα ϖρέϖει να κάνει σωστή ϖολλαϖλή συστοίχιση. Έτσι γίνεται κατανοητό ότι, τόσο για την εύρεση της λειτουργίας ή της δοµής ενός στοιχείου (ϖχ. µιας ϖρωτεΐνης), όσο και για τη φυλογενετική ανάλυση ενός συνόλου δεδοµένων (ϖχ. ϖρωτεϊνών), είναι κρίσιµο και σηµαντικό η ϖολλαϖλή συστοίχιση των ακολουθιών να είναι όσο το δυνατόν γίνεται ακριβής [3]. Η φυλογενετική ανάλυση αϖοτελεί ένα σηµαντικό κλάδο στον τοµέα της βιολογίας και κατά συνέϖεια και της βιοϖληροφορικής διότι µϖορεί να χρησιµοϖοιηθεί στη µελέτη της εξελικτικής ϖορείας καθώς και των σχέσεων µεταξύ γονιδίων και οργανισµών, για ϖαράδειγµα, µϖορεί µε µία φυλογενετική ανάλυση να βρεθεί αν κάϖοιος ιός ανήκει σε µια ήδη γνωστή οικογένεια ιών, ή ακόµα να ϖροβλέψει µια µελλοντική µετάλλαξη. Για να ϖραγµατοϖοιηθεί µια φυλογενετική ανάλυση ανάµεσα σε διαφορετικά είδη (species) µϖορούν να χρησιµοϖοιηθούν οι µορφολογικοί τους χαρακτήρες. Η ταξινόµηση των ειδών ϖαραµένει ακόµα σε αυτή τη µορφή φυλογενετικής ανάλυσης. Όµως η µοριακή ϖληροφορία ϖου συνεχώς αυξάνει τα τελευταία χρόνια, όϖως είναι οι ακολουθίες νουκλεοτιδίων ή αµινοξέων και οι ϖολυµορφισµοί µήκους ϖεριοριστικού θραύσµατος (restriction fragment length polymorphism -RFLP), καθιστά αναγκαία την εξαγωγή φυλογενετικών σχέσεων βασισµένων σε µοριακές ϖληροφορίες. Την τελευταία εικοσαετία υϖάρχει µεγάλη διαφωνία σχετικά µε το ϖότε θα γίνεται χρήση της µορφολογικής ϖροσέγγισης ή της µοριακής, καθώς και µε το ϖοια είναι ϖροτιµότερο να εφαρµόζεται [4]. Παρόλα αυτά, η χρήση των µοριακών δεδοµένων για την εξαγωγή φυλογενετικών δέντρων έχει αρχίσει να κερδίζει το ενδιαφέρον των βιολόγων και

28 Κεφάλαιο1: Εισαγωγή 28 ϖολλές φορές χρησιµοϖοιείται σε συνδυασµό µε τη χρήση των µορφολογικών δεδοµένων για να µελετήσουν τις εξελικτικές σχέσεις µε µεγαλύτερη λεϖτοµέρεια. Για είδη ϖου έχουν εκλείψει, είναι δύσκολο ή αδύνατο να χρησιµοϖοιηθούν µοριακά δεδοµένα, όϖοτε η χρήση µορφολογικών χαρακτηριστικών αϖό µούµιες ή αϖολιθώµατα είναι ίσως ο µόνος τρόϖος για τη µελέτη των φυλογενετικών σχέσεων. Αϖό την άλλη ϖλευρά όµως υϖάρχουν ορισµένοι οργανισµοί, όϖως για ϖαράδειγµα οι ιοί, ϖου δεν αφήνουν αϖολιθώµατα. Έτσι η µόνη ϖερίϖτωση να µελετήσουµε το ϖαρελθόν τους είναι µόνο µέσω των φυλογενετικών σχέσεων µε υϖαρκτούς ιούς. Αλγόριθµοι για τη φυλογενετική ανάλυση σε µοριακό εϖίϖεδο έχουν αναϖτυχθεί αρκετοί εκείνο όµως ϖου οδηγεί σε ένα «αξιόϖιστο» φυλογενετικό δέντρο είναι ϖρωτίστως να έχει ϖραγµατοϖοιηθεί µια σωστή ϖολλαϖλή συστοίχιση ακολουθιών. 1.2 Ερευνητικός σκοϖός Σκοϖός της διδακτορικής διατριβής είναι η ανάϖτυξη νέων τεχνικών και µεθοδολογιών στη φυλογενετική ανάλυση βιολογικών δεδοµένων, ικανών να ϖαράγουν αϖοδοτικότερα φυλογενετικά µοντέλα και κατά συνέϖεια βελτιωµένα φυλογενετικά δέντρα. Όϖως έχει ήδη ϖροαναφερθεί για την κατασκευή ενός ακριβούς φυλογενετικού δέντρου η σωστή συστοίχιση θεωρείται κρίσιµη και αυτό γιατί όϖως γίνεται κατανοητό λάθη στη συστοίχιση οδηγούν σε λάθος δέντρα. Στην ϖολλαϖλή συστοίχιση ακολουθιών, όταν ϖρόκειται να χρησιµοϖοιηθεί για φυλογενετική ανάλυση, τα κενά (gaps) ϖου δηµιουργούνται φαίνεται να αϖοκτούν µεγάλη σηµασία. Έτσι, δόθηκε βαρύτητα στη µελέτη και την ανάϖτυξη τεχνικών ϖολλαϖλής συστοίχισης ϖου ανταϖοκρίνονται στις αϖαιτήσεις της φυλογενετικής ανάλυσης. Οι τεχνικές ϖου αναϖτύχθηκαν για το σκοϖό αυτό ήταν τα ασαφή κρυφά µαρκοβιανά µοντέλα στην ϖολλαϖλή συστοίχιση ακολουθιών και συγκεκριµένα αναϖτύχθηκαν οι αλγόριθµοι Fuzzy Forward, Fuzzy Backward και Fuzzy Viterbi. Οι δύο ϖρώτοι χρησιµοϖοιούνται για την αυτοµατοϖοιηµένη εκϖαίδευση του µοντέλου ϖου θα χτιστεί ώστε στη συνέχεια να ϖραγµατοϖοιηθεί συστοίχιση των ακολουθιών µε τη χρήση του τρίτου αλγόριθµου. Οι νέες αυτές τεχνικές δηµιουργήθηκαν µε αϖώτερο σκοϖό να χρησιµοϖοιηθούν στη µεθοδολογία εξαγωγής φυλογενετικών δέντρων.

29 Κεφάλαιο1: Εισαγωγή 29 Τα βήµατα της µεθοδολογίας ϖου αναϖτύχθηκε ϖεριγράφονται ϖαρακάτω και είναι: Βήµα 1: Η συλλογή αϖαραίτητων δεδοµένων, συγκεκριµένα κατασκευή µοντέλων οµόλογων ακολουθιών. Βήµα 2: Η αυτοµατοϖοιηµένη εκϖαίδευση του µοντέλου µε τη χρήση των νέων τεχνικών Fuzzy Forward και Fuzzy Backward. Βήµα 3: Η συστοίχιση ακολουθιών µε τη χρήση της νέας τεχνικής Fuzzy Viterbi. Βήµα 4: Η βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µοντέλου και η ϖαραγωγή βέλτιστων συστοιχίσεων µε τη χρήση της νέας µεθοδολογίας ϖου ϖροτείνεται. Βήµα 5: Η εξαγωγή φυλογενετικών δέντρων (µέθοδος µέγιστης ϖιθανοφάνειας και µέγιστης φειδωλότητας). Βήµα 6: Ο έλεγχος καλύτερων φυλογενετικών δέντρων µε τη µέθοδο αξιοϖιστίας bootstrap. Βήµα 7: Η σύγκριση αξιοϖιστίας των φυλογενετικών δέντρων µε φυλογενετικά δέντρα ϖου έχουν εξαχθεί αϖό ϖαραδοσιακές τεχνικές. Το βασικό ϖλεονέκτηµα των ϖροτεινόµενων τεχνικών και η ϖροστιθέµενη αξία της έρευνας είναι ότι τα ασαφή µαρκοβιανά µοντέλα αµβλύνουν τον ϖεριορισµό της ανεξαρτησίας ϖου ισχύει στα κλασικά µαρκοβιανά µοντέλα, ϖαρέχοντας ταυτόχρονα συστοιχίσεις ακολουθιών µε καλύτερα ϖοιοτικά χαρακτηριστικά. Τα αϖοτελέσµατα δείχνουν ότι ϖαράγονται ϖιο αξιόϖιστα φυλογενετικά δέντρα, µεγαλύτερης φειδωλότητας (parsimonious) η οϖοία ϖροέρχεται αϖό την άµβλυνση του ϖεριορισµού της ανεξαρτησίας των µοντέλων ϖου έχουν χρησιµοϖοιηθεί [5]. 1.3 ιάρθρωση της διατριβής Η ϖαρούσα διατριβή αϖοτελείται αϖό 8 κεφάλαια. Εϖιδίωξη της συγκεκριµένης διάρθρωσης ήταν η οµαλή εισαγωγή του αναγνώστη αϖό τις βασικές έννοιες της βιολογίας στις λίγο ειδικότερες έννοιες της βιοϖληροφορικής, οι οϖοίες στη συνέχεια δίνουν τη θέση τους στις ειδικές ϖλέον γνώσεις της ϖολλαϖλής συστοίχισης ακολουθιών. Στη συνέχεια ϖαρατίθενται η θεωρία των αϖλών κρυφών µαρκοβιανών µοντέλων και των ασαφών συνόλων, για να µϖορέσει ο αναγνώστης να κατανοήσει καλύτερα τη µαθηµατική θεµελίωση των ασαφών κρυφών µαρκοβιανών µοντέλων. Έϖειτα δίνεται αναλυτικά η νέα τεχνική ϖου αναϖτύχθηκε

30 Κεφάλαιο1: Εισαγωγή 30 και υλοϖοιήθηκε µε τη χρήση των ασαφών κρυφών µαρκοβιανών µοντέλων, καθώς και η µεθοδολογία βελτιστοϖοίησης του ασαφούς κρυφού µαρκοβιανού µοντέλου µε σκοϖό την εφαρµογή τους για ϖρώτη φορά στη φυλογενετική ανάλυση δεδοµένων. Συγκεκριµένα στο Κεφάλαιο 2, γίνεται η εισαγωγή του αναγνώστη σε βασικές έννοιες της βιολογίας, καθώς και στο κεντρικό δόγµα της. Στο κεφάλαιο αυτό γίνεται µια σύντοµη ϖεριγραφή σχετικά µε τις έννοιες των ϖρωτεϊνών και των νουκλεϊκών οξέων, ενώ ϖαράλληλα ϖεριγράφονται οι βασικότερες διαδικασίες του DNA. Στο Κεφάλαιο 3, ο αναγνώστης εισάγεται στις βασικές έννοιες της βιοϖληροφορικής, καθώς δίδονται ταυτόχρονα οι κυριότεροι σκοϖοί ϖου αναϖτύχθηκε ο νέος αυτός τοµέας. Στο Κεφάλαιο 4 αρχικά γίνεται εισαγωγή στην έννοια της ϖολλαϖλής συστοίχισης ακολουθιών, καθώς και στα είδη ϖου διακρίνονται. Στη συνέχεια ο αναγνώστης εισάγεται στην έννοια των ΗΜΜ και ακολουθεί η θεωρία τους. Παρουσιάζονται τα τρία βασικά ϖροβλήµατα ϖου αφορούν τα ΗΜΜ και ϖαρατίθενται οι αλγόριθµοι ϖου έχουν αναϖτυχθεί για την εϖίλυσή τους. Στο Κεφάλαιο 5 αρχικά εισάγεται η έννοια της ασαφούς λογικής, καθώς δίνονται οι έννοιες των ασαφών ολοκληρωµάτων Σουγκένο και Τσοκέτ. Αφού ϖλέον ο αναγνώστης έχει εξοικειωθεί µε τις δύο έννοιες, αυτή των κρυφών µαρκοβιανών µοντέλων και αυτή της ασαφούς λογικής, ένας νέος συγκερασµός εισάγεται, δίνοντας τις καινούργιες έννοιες και τη µαθηµατική θεµελίωση των ασαφών ϖροφίλ κρυφών µαρκοβιανών µοντέλων. Έϖειτα ϖαρουσιάζονται οι νέοι αλγόριθµοι για την εϖίλυση των βασικών ϖροβληµάτων των ασαφών ΗΜΜ. Αφού έχει γίνει η ϖεριγραφή της δοµή του νέου συστήµατος και έχουν αναϖτυχθεί οι νέοι αλγόριθµοι µε τη βοήθεια της ασάφειας, στη συνέχεια δίνεται η µεθοδολογία ϖου υλοϖοιήθηκε για την ϖαραγωγή νέων ϖολλαϖλών συστοιχίσεων ακολουθιών. Αρχικά γίνεται εκϖαίδευση του ασαφούς ϖροφίλ ΗΜΜ (ασαφής εµϖρός-ϖίσω τεχνική) µε ένα σύνολο δεδοµένων και στη συνέχεια ϖραγµατοϖοιείται η συστοίχιση των ακολουθιών ϖρος εξέταση (ασαφής Βιτέρµϖι τεχνική). Έϖειτα ϖαρατίθενται τα ϖειραµατικά αϖοτελέσµατα αϖό την υλοϖοίηση των νέων ασαφών ΗΜΜ καθώς έχουν συγκριθεί µε άλλες τεχνικές. Τέλος γίνεται µια συζήτηση και τα συµϖεράσµατα αϖό τη χρήση των ασαφών ϖροφίλ ΗΜΜ. Στο Κεφάλαιο 6, αρχικά δίνεται η εϖεξήγηση των ϖαραµέτρων ϖου µεταβλήθηκαν µε στόχο τη βελτιστοϖοίηση του

31 Κεφάλαιο1: Εισαγωγή 31 ασαφούς κρυφού µαρκοβιανού µοντέλου, ενώ στη συνέχεια ϖεριγράφεται η µεθοδολογία ϖου χρησιµοϖοιήθηκε για τη εξαγωγή των ϖειραµατικών αϖοτελεσµάτων. Τέλος γίνεται συζήτηση και ϖαρατίθενται τα αϖοτελέσµατα αϖό τη βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς κρυφού µαρκοβιανού µοντέλου. Στο Κεφάλαιο 7, αρχικά δίνονται οι βασικές έννοιες της φυλογενετικής ανάλυσης. Στη συνέχεια αναφέρονται οι κυριότερες µέθοδοι κατασκευής φυλογενετικών δέντρων καθώς και η µέθοδος αξιοϖιστίας των φυλογενετικών δέντρων ϖου έχουν ϖαραχθεί. Έϖειτα δίνεται η µεθοδολογία ϖου χρησιµοϖοιήθηκε µε τη χρήση των ασαφών ϖροφίλ ΗΜΜ ϖροκειµένου κατασκευαστούν φυλογενετικά δέντρα. Έϖειτα δίνονται τα ϖειραµατικά αϖοτελέσµατα των φυλογενετικών δέντρων και τέλος γίνεται συζήτηση και ϖαρατίθενται τα τελικά συµϖεράσµατα σχετικά µε την ϖαραγωγή των φυλογενετικών δέντρων ϖου κατασκευάστηκαν. Στο Κεφάλαιο 8, το οϖοίο είναι και το τελευταίο, αναφέρονται τα χρήσιµα συµϖεράσµατα, η εϖιστηµονική ϖρωτοτυϖία, καθώς και ϖροτάσεις για µελλοντικές εργασίες. Τέλος υϖάρχει η βιβλιογραφία, όϖου αναφέρονται τα εϖιστηµονικά άρθρα και τα βιβλία τα οϖοία χρησιµοϖοιήθηκαν κατά την ανάϖτυξη της ϖαρούσας διατριβής.

32 Κεφάλαιο1: Εισαγωγή 32

33 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΛΕΙΤΟΥΡΓΙΕΣ ΣΤΗ ΒΙΟΛΟΓΙΑ 2.1 Εισαγωγή Ο όρος κύτταρο (cell) ϖροέρχεται αϖό τη λατινική λέξη cellulae. Το 1663 όταν ο R.Hooke, µε ένα αυτοσχέδιο µικροσκόϖιο, εξέτασε λεϖτά κοµµάτια φελλού ϖαρατήρησε κυτταρικά τοιχώµατα (εικόνα 2.1). Η εϖίτευξή του αυτή οφείλεται στο γεγονός ότι τα κύτταρα του φελλού είναι νεκρά και χωρίς κυτταρόϖλασµα. Στη συνέχεια ο R.Hooke ζωγράφισε τα κύτταρα ϖου αναγνώρισε και εϖινόησε τη λέξη «κύτταρο» το 1665 [6]. Εικόνα 2.1: Παρατήρηση R.Hooke. Παρατήρησε ότι αυτά συνιστούσαν ένα δίκτυο µικροσκοϖικών τµηµάτων σε σχήµα κύβου και για αυτό τα ονόµασε µε αυτόν τον τρόϖο, χωρίς να γνωρίζει ότι έτσι όρισε τη βασική µονάδα ζωής στη βιολογία. Με την ανάϖτυξη της µεγεθυντικής ικανότητας των µικροσκοϖίων, οι εϖιστήµονες κατάφεραν να ϖαρατηρήσουν τον ϖυρήνα (nucleus) του κυττάρου, αλλά και τις λειτουργίες του, µε αϖοτέλεσµα τη διαµόρφωση της σύγχρονης κυτταρικής θεωρίας, η οϖοία βασίζεται σε τρεις βασικούς κανόνες: Όλοι οι οργανισµοί αϖοτελούνται αϖό ένα ή ϖερισσότερα κύτταρα. 33

34 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 34 Το κύτταρο αϖοτελεί τη βασική δοµική µονάδα όλων των οργανισµών. Όλα τα κύτταρα ϖροκύϖτουν µόνο αϖό ϖροϋϖάρχοντα κύτταρα. Η σύγχρονη βιολογία του κυττάρου ϖερικλείει τρία διακριτά αλληλοσυµϖληρούµενα εϖιστηµονικά ϖεδία: Κυτταρολογία (cytology) Βιοχηµεία (biochemistry) Γενετική (genetics). Η κυτταρολογία ασχολείται µε τη δοµή του κυττάρου και βασίζεται κυρίως στη µικροσκοϖία, ενώ η βιοχηµεία καλύϖτει τη χηµεία µιας βιολογικής δοµής και λειτουργίας. Η γενετική εϖικεντρώνεται στη διάχυση των γενετικών ϖληροφοριών, ϖου υϖάρχουν µέσα στο κύτταρο, σε συγκεκριµένες µορφές και µε την αϖοκωδικοϖοίηση αυτών µε συγκεκριµένο τρόϖο [7]. Βασικές έννοιες ϖου καθορίζουν τη ροή και την αϖοκωδικοϖοίηση των γενετικών ϖληροφοριών είναι αυτές του DNA, του γονιδίου, του χρωµοσώµατος, του RNA και της ϖρωτεΐνης. 2.2 Βασικές Έννοιες Μία αϖό τις κυριότερες ιδιοµορφίες όλων των ζωντανών οργανισµών είναι ότι ϖεριέχουν µακροµόρια (macromolecules). Τα µακροµόρια ή ϖολυµερή είναι ϖολύϖλοκες οργανικές ουσίες και αϖοτελούνται αϖό ϖολλές αϖλές ουσίες (µονοµερή) ϖου ενώνονται µεταξύ τους όϖως ενώνονται οι κρίκοι για να φτιάξουν µια αλυσίδα. Τα µακροµόρια αυτά εµϖλέκονται στη χηµική δραστηριότητα στο εσωτερικό του κυττάρου, δραστηριότητα η οϖοία όχι µόνο καταφέρνει να δηµιουργεί ϖολυϖοίκιλα µοριακά συγκροτήµατα, αλλά εϖιϖλέον καταφέρνει και να τα αναϖαράγει [8]. Τα µακροµόρια ϖου εµϖλέκονται στη «διεργασία» του κυττάρου - «διεργασία» η οϖοία ϖοικίλει ανάλογα µε το κάθε κύτταρο και τον οργανισµό στον οϖοίο ανήκει - διαχωρίζονται σε δυο µεγάλες κατηγορίες τα νουκλεϊκά οξέα και τις ϖρωτεΐνες Νουκλεϊκά Οξέα Τα νουκλεϊκά οξέα (nucleic acids) είναι µακροµόρια ϖου ϖεριέχουν τη γενετική ϖληροφορία και εξασφαλίζουν τη µεταβίβασή της. Όϖως και οι ϖρωτεΐνες, τα νουκλεϊκά οξέα είναι ϖολυµερή µόρια τα οϖοία αϖοτελούνται αϖό µια γραµµική αλληλουχία δοµικών

35 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 35 µονάδων ϖου ανήκουν σε έναν ϖεριορισµένο αριθµό µικρών µορίων αϖλής σχετικά δοµής, ϖαρόµοιας µε αυτήν των συνηθισµένων µορίων της οργανικής χηµείας. Πιο συγκεκριµένα για τα νουκλεϊκά οξέα, η συγκρότηση της γραµµικής αλληλουχίας ϖραγµατοϖοιείται µε βάση τέσσερις δοµικές µονάδες, τέσσερα διαφορετικά νουκλεοτίδια (nucleotides). Το κάθε νουκλεοτίδιο αϖοτελείται αϖό τρία αϖλούστερα µόρια, ϖου συνδέονται µεταξύ τους µε χηµικούς δεσµούς: µια αζωτούχα βάση (nitrogenous base), ένα σάκχαρο (sugar) και µια φωσφορική οµάδα (phosphate). Το µόνο αϖό τα τρία εϖιµέρους µόρια ενός νουκλεοτιδίου ϖου µεταβάλλεται είναι η αζωτούχα βάση, ενώ το σάκχαρο και η φωσφορική οµάδα ϖαραµένουν τα ίδια και για τα τέσσερα είδη δοµικών νουκλεοτιδίων. Μϖορούµε, δηλαδή, να ϖούµε ότι τα δυο τελευταία αϖοτελούν τη «σϖονδυλική στήλη» (sugar-phosphate backbone) της ϖολυνουκλεοτιδικής αλυσίδας, ϖάνω στην οϖοία έχουν ϖροσαρτηθεί οι τέσσερις διαφορετικές αζωτούχες βάσεις. Κατά συνέϖεια, µϖορούµε να θεωρήσουµε ότι η διαδοχή των νουκλεοτιδίων αντιστοιχεί ϖρακτικά στη διαδοχή των αζωτούχων βάσεων ϖου ανήκουν στα διαφορετικά νουκλεοτίδια. Οι δυο τύϖοι νουκλεϊκών οξέων ϖου υϖάρχουν είναι το DNA και το RNA (εικόνα 2.2). Το DNA (δεσοξυριβονουκλεϊκό οξύ) είναι το υϖόβαθρο και ο φορέας των γενετικών ϖληροφοριών. Οι τέσσερις αζωτούχες βάσεις ϖου µϖορούν να ϖεριγράψουν τη γραµµική αϖεριοδική ακολουθία του DNA είναι η αδενίνη (adenine), η κυτοσίνη (cytosine), η γουανίνη (guanine) και η θυµίνη (thymine), ϖου συµβολίζονται µε τα αρχικά των αντίστοιχων ονοµάτων στο λατινικό αλφάβητο: A, C, G και T. Το DNA αϖοτελείται αϖό δύο ϖολυνουκλεοτιδικές αλυσίδες όϖου η µία ϖεριελίσσεται στην άλλη και οι οϖοίες συνδέονται µεταξύ τους µε δεσµούς υδρογόνου ανάµεσα στις συµϖληρωµατικές βάσεις.

36 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 36 Εικόνα 2.2: Η διϖλή έλικα του DNA και η αλυσίδα RNA Οι συµϖληρωµατικές βάσεις στο DNA είναι η αδενίνη (Α) µε τη θυµίνη (Τ) και η γουανίνη (G) µε την κυτοσίνη (C). Με αυτόν τον τρόϖο δηµιουργείται ένα σϖειροειδές µόριο, η γνωστή διϖλή έλικα του DNA. Η κάθε έλικα του DNA έχει µια συγκεκριµένη κατεύθυνση ϖου συµβολίζεται µε βάση την αρίθµηση των ατόµων άνθρακα στο σάκχαρο, έχοντας ως σηµείο εκκίνησης το άτοµο του άνθρακα ϖου συνδέεται µε την αζωτούχα βάση. Με αυτόν τον τρόϖο η βασική ϖολυνουκλεοτιδική αλυσίδα συνδέεται µε το 3ο άτοµο άνθρακα στο εϖόµενο νουκλεοτίδιο και µε το 5ο άτοµο άνθρακα µε τη φωσφορική οµάδα. Η κατεύθυνση αυτή συµβολίζεται σαν 5 3. Η συµϖληρωµατική ϖολυνουκλεοτιδική αλυσίδα έχει αντιϖαράλληλη

37 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 37 κατεύθυνση, και συµβολίζεται σαν 3 5. Με τη λειτουργία της µεταγραφής και της µετάφρασης ϖου θα ϖεριγραφεί ϖαρακάτω, το DNA καθορίζει ϖοια ϖρωτεΐνη θα οικοδοµηθεί και ϖοιον ρόλο θα έχει αυτή µέσα σε έναν συγκεκριµένο οργανισµό (εικόνα 2.3). Εικόνα 2.3: Η δοµή του DNA Κάθε γονίδιο (gene) αντιϖροσωϖεύει και µια διαφορετική ϖληροφορία, η οϖοία υϖοδεικνύει τον τρόϖο οικοδόµησης µιας συγκεκριµένης ϖρωτεΐνης, ή σύµφωνα µε τις τελευταίες έρευνες, µιας ή ϖερισσότερων στενά συνδεδεµένων ϖολυϖεϖτιδικών αλυσίδων (polypeptide chains). Το γονίδιο αντιστοιχεί σε ένα τµήµα του DNA. Ας υϖοτεθεί στο σηµείο αυτό ότι κάθε γενετική ϖληροφορία, δηλαδή κάθε γονίδιο, τυϖώνεται σε ένα βιβλίο, σε µια γλώσσα µε τέσσερις µόνο χαρακτήρες, τους A, C, G, T. Κάθε τέτοια ϖληροφορία έχει µέσο µήκος µερικές χιλιάδες γράµµατα και καλύϖτει στο βιβλίο έκταση µιας σελίδας. Αν το σύνολο των γενετικών ϖληροφοριών ϖου δεχόµαστε είναι 4.000, τότε το σύνολο αυτό θα ϖεριέχεται σε έναν µοναδικό τόµο µε ϖερίϖου σελίδες. Αν όµως το σύνολο των γενετικών ϖληροφοριών είναι µεγαλύτερης τάξης µεγέθους αϖό αυτό, θα ήταν βοηθητικό να µην υϖάρχει µόνο ένας τόµος αλλά ϖερισσότεροι. Το ρόλο αυτόν στους εξελιγµένους οργανισµούς έχουν τα χρωµοσώµατα (chromosomes), στα οϖοία κατανέµονται οι γενετικές ϖληροφορίες. Οι εξελιγµένοι οργανισµοί θα µϖορούσε να ϖει κανείς ότι είναι οι οργανισµοί οι οϖοίοι αϖοτελούνται αϖό

38 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 38 ϖερισσότερα του ενός κύτταρα µε ϖυρήνα, οργανισµοί ϖου ονοµάζονται και ευκαρυωτικοί οργανισµοί, ενώ οι οργανισµοί οι οϖοίοι είναι µονοκύτταροι και δεν έχουν ϖυρήνα ονοµάζονται ϖροκαρυωτικοί (ϖ.χ. βακτήρια). Το σύνολο των γενετικών ϖληροφοριών ϖου κληρονοµεί ένας έµβιος οργανισµός στους αϖογόνους του ονοµάζεται γονιδίωµα (genome). Για ϖαράδειγµα, το γονιδίωµα του ανθρώϖου είναι το σύνολο των γενετικών ϖληροφοριών ϖου λαµβάνει αϖό τα 23 χρωµοσώµατα ϖου έχει. Το µέγεθος του γονιδιώµατος µετριέται συνήθως σε ζεύγη βάσεων (base pairs bp) (εικόνα 2.4). Εικόνα 2.4: Οι αντιστοιχίες µεταξύ των βάσεων base pairs (bp) και η ουρακίλη Το RNA (ριβονουκλεϊκό οξύ) είναι υϖεύθυνο για την ορθή µεταφορά της γενετικής ϖληροφορίας και την αϖοκωδικοϖοίησή της αϖό το DNA. Οι σηµαντικότερες διαφορές του RNA αϖό το DNA, όσον αφορά τη δοµή του, είναι η ύϖαρξη του σακχάρου της ριβόζης αντί της δεσοξυριβόζης στο DNA και η αντικατάσταση της βάσης της θυµίνης µε αυτήν της ουρακίλης (Τ U) (εικόνα 2.4). Παράλληλα, το RNA στις ϖερισσότερες ϖεριϖτώσεις δεν βρίσκεται σε µορφή διϖλής έλικας, αλλά έχει µόνο µια ϖολυνουκλεοτιδική αλυσίδα (εικόνα 2.1). Οι λειτουργίες ϖου εϖιτελεί το RNA εξαρτώνται αϖό την ειδική µορφή ϖου αυτό ϖαίρνει, έτσι: το αγγελιοφόρο RNA (messenger RNA - mrna) είναι υϖεύθυνο για τη µεταφορά του γενετικού κώδικα ϖου έχει αντιγραφεί αϖό το DNA

39 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 39 το ριβοσωµικό RNA (ribosome RNA - rrna) το οϖοίο εµϖλέκεται στη διαδικασία κατασκευής των ριβοσωµάτων το µεταφορικό RNA (transfer RNA - trna) ϖου εµϖλέκεται στη σύνθεση των αµινοξέων σε µια ϖρωτεϊνική αλυσίδα Πρωτεΐνες Οι ϖρωτεΐνες είναι µακροµόρια µε σαφώς καθορισµένη χηµική δοµή, ϖαρουσιάζουν µεγάλη ϖοικιλία ιδιοτήτων και σχήµατος και είναι αϖαραίτητες σε όλες σχεδόν τις βιολογικές λειτουργίες [9]. Η χηµική σύσταση των ϖρωτεϊνών είναι µάλλον αϖλή. Οι ϖρωτεΐνες είναι ϖολυµερή στα οϖοία µικρά µόρια 20 διαφορετικών ειδών, τα L-αµινοξέα, συνδέονται και σχηµατίζουν µακριές αλυσίδες χωρίς διακλαδώσεις. Τα ϖερισσότερα αµινοξέα µϖορούν να υϖάρξουν σε δύο οϖτικά ισοµερή και ονοµάζονται L και D αµινοξέα. Τα L-αµινοξέα αϖοτελούν την ϖλειοψηφία των αµινοξέων ϖου υϖάρχουν στις ϖρωτεΐνες, ενώ τα D αµινοξέα βρίσκονται σε ϖρωτεΐνες ϖου ϖαράγονται σε κάϖοιους εξωτικούς θαλάσσιους οργανισµούς όϖως στην «ϖορφύρα» [10]. Τα αµινοξέα ϖαρουσιάζουν όλα την ίδια γενική δοµή. Ένα κεντρικό άτοµο συνδέεται µε 4 διαφορετικά άτοµα ή οµάδες ατόµων: ένα άτοµο υδρογόνου, µία καρβοξυλική οµάδα, µία αµινοµάδα και µία αϖό 20 δυνατές διαφορετικές ϖλευρικές αλυσίδες διαφόρων χηµικών τύϖων (-R) (εικόνα 2.5). Εικόνα 2.5: Ο γενικός τύϖος του αµινοξέος Τα 20 διαφορετικά αµινοξέα διακρίνονται ανάλογα µε τις R- οµάδες ή τις ϖλευρικές αλυσίδες τους. Η σύνδεση των µορίων δύο αµινοξέων, µε το χαρακτηριστικό τρόϖο ϖου αϖαντάται στις

40 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 40 ϖρωτεΐνες, ϖεριλαµβάνει µία αϖλή αντίδραση συµϖύκνωσης, στην οϖοία αϖοβάλλεται ένα µόριο νερού και σχηµατίζεται ένας ϖεϖτιδικός δεσµός. Τα ϖρωτεϊνικά µόρια αϖοτελούνται αϖό µία ή ϖερισσότερες ϖολυϖεϖτιδικές αλυσίδες, κάθε µία αϖό τις οϖοίες µϖορεί να αϖοτελείται αϖό µερικές εκατοντάδες αµινοξικά κατάλοιϖα µε µία συγκεκριµένη σειρά, η οϖοία είναι γνωστή ως αµινοξική ακολουθία ή αλληλουχία (amino-acid sequence) ή ϖρωτοταγής δοµή. Μία ϖολυϖεϖτιδική αλυσίδα έχει κατεύθυνση, αφού έχει διαφορετικά άκρα, δηλαδή, το άµινο-άκρο και το καρβόξυλο-άκρο. Κατά συνθήκη, το αµινο-άκρο θεωρείται η αρχή µίας ϖολυϖεϖτιδικής αλυσίδας. Η ακολουθία των αµινοξέων σε µια ϖολυϖεϖτιδική αλυσίδα γράφεται αρχίζοντας µε το αµινοτελικό κατάλοιϖο. Μία ϖολυϖεϖτιδική αλυσίδα αϖοτελείται αϖό ένα κανονικά εϖαναλαµβανόµενο µέρος, την κύρια αλυσίδα (main chain) και ένα µεταβλητό µέρος, τις χαρακτηριστικές ϖλευρικές αλυσίδες ή οµάδες (side chains) των αµινοξικών καταλοίϖων. Η κύρια αλυσίδα ονοµάζεται ϖολλές φορές σϖονδυλική στήλη (backbone). Συµφώνα µε τα ϖαραϖάνω και δεδοµένων δοµικών στοιχείων 20 διαφορετικών ειδών, τα οϖοία µϖορούν να ληφθούν σε οϖοιουσδήϖοτε αριθµούς και να διευθετηθούν µε οϖοιαδήϖοτε σειρά σε µια γραµµική ακολουθία, είναι φανερό ότι ο αριθµός των ϖρωτεϊνικών µορίων ϖου µϖορούν να κατασκευαστούν είναι τεράστιος. Τα αµινοξέα διαφέρουν µεταξύ τους στη φύση της οµάδας R (εικόνα 2.5) και ϖαρουσιάζονται στην εικόνα 2.6. Η κατάταξη των αµινοξέων µϖορεί να γίνει µε διαφορετικούς τρόϖους. Τα αµινοξέα ϖου φαίνονται ϖαρακάτω έχουν καταταγεί µε βάση τη διαλυτότητα και την ικανότητα ιονισµού ϖου αϖοκτούν αϖό τις ϖλευρικές αλυσίδες (εικόνα 2.6).

41 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 41 Εικόνα 2.6: Τα βασικά αµινοξέα και η κατάταξή τους σε τέσσερις κατηγορίες Με τον τρόϖο αυτό έχουν διαχωριστεί 4 οµάδες αµινοξέων: Αµινοξέα µε µη ϖολική οµάδα R, δηλαδή µε ϖλευρική αλυσίδα αϖοκλειστικά αϖό υδρογονάνθρακα και µη ιονιζόµενες. Αµινοξέα µε µη ιονιζόµενες, αλλά ϖολικές οµάδες (όϖως -ΟΗ, -SΗ, -CΟΝΗ2) στην ϖλευρική αλυσίδα. Όξινα αµινοξέα, «µονοάµινο-δικαρβοξυλικά οξέα». Βασικά αµινοξέα ή «διάµινο-µονοκαρβοξυλικά» οξέα.

42 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 42 Το 1959, οι Linderstrom-Lang και Schelman υϖοστήριξαν ότι στις ϖρωτεΐνες µϖορούν να αναγνωριστούν τέσσερα εϖίϖεδα οργάνωσης [11]: η ϖρωτοταγής, η δευτεροταγής, η τριτοταγής και η τεταρτοταγής δοµή (εικόνα 2.7 ). Εικόνα 2.7: οµικά εϖίϖεδα σε µία ϖρωτεΐνη Ένας σύντοµος χαρακτηρισµός αυτών των κατηγοριών δίνεται ϖαρακάτω: Η ϖρωτοταγής δοµή αντιστοιχεί στην αµινοξική ακολουθία, στη διάταξη δηλαδή των αµινοξέων σε µία ή ϖερισσότερες ϖολυϖεϖτιδικές αλυσίδες. Η δευτεροταγής δοµή αναφέρεται στην κανονική στερεοδιάταξη τµηµάτων της ϖολυϖεϖτιδικής αλυσίδας. Η τριτοταγής δοµή ενός ϖρωτεϊνικού µορίου ή µίας υϖοµονάδας του αναφέρεται στην τρισδιάστατη δοµή ή τη στερεοδιάταξη όλων των ατόµων του. Η τεταρτοταγής δοµή µίας ϖρωτεΐνης είναι η διάταξη στο χώρο των υϖοµονάδων της, δηλαδή των ϖολυϖεϖτιδικών αλυσίδων αϖό τις οϖοίες αϖοτελείται. Ο όρος γενικότερα

43 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 43 αναφέρεται στη διάταξη στο χώρο ενός συνόλου ϖρωτεϊνικών µορίων. 2.3 Κεντρικό δόγµα της βιολογίας Το 1958 διαϖιστώθηκε ότι το µόριο του DNA χρησιµεύει σαν καλούϖι για το διϖλασιασµό του, καθώς εϖίσης και για τη δηµιουργία του mrna το οϖοίο µεταφέρει τις γενετικές ϖληροφορίες για να κατευθύνει τη σύνθεση των ϖρωτεϊνών. Η διαϖίστωση αυτή είναι γνωστή σαν κεντρικό δόγµα της Βιολογίας (εικόνα 2.8). Εικόνα 2.8: Το κεντρικό δόγµα της βιολογίας Μϖορεί κάϖοιος να ϖαρατηρήσει ότι το βέλος στο κάτω µέρος της εικόνας 2.8 ϖηγαίνει µόνο ϖρος µία κατεύθυνση (δηλαδή ο τρόϖος ϖου µεταφέρεται η γενετική ϖληροφορία). Η κύρια εξαίρεση στο κεντρικό δόγµα της Βιολογίας είναι µια διαδικασία γνωστή σαν αντίστροφη µεταγραφή, κατά την οϖοία κωδικοϖοιηµένη ϖληροφορία ϖου υϖάρχει στο RNA ορισµένων ιών µϖορεί να µεταγραφεί σε DNA. Σύµφωνα µε το κεντρικό δόγµα της Βιολογίας η σύνθεση των ϖρωτεϊνών γίνεται σε δύο στάδια: 1. ηµιουργία του αγγελιοφόρου (mrna) ϖου είναι συµϖληρωµατικό ενός τµήµατος του DNA µε µια διαδικασία ϖου ονοµάζεται µεταγραφή (transcription). 2. Το mrna κινείται ϖρος το κυτταρόϖλασµα (για τους ευκαρυωτικούς οργανισµούς) όϖου µεταφράζεται σε µια

44 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 44 συγκεκριµένη αλληλουχία αµινοξέων. Η διαδικασία αυτή ονοµάζεται µετάφραση (translation). Σε αντίθεση µε την αντιγραφή του DNA, η οϖοία συµβαίνει µια µόνο φορά κατά τον κύκλο ζωής ενός κυττάρου, η µεταγραφή και η µετάφραση είναι φαινόµενα ϖου εϖαναλαµβάνονται αδιάκοϖα. Το κεντρικό δόγµα καθορίζει ότι η αλληλουχία των νουκλεοτιδίων στο DNA καθώς και στο συµϖληρωµατικό αντίγραφο mrna ϖρέϖει µε κάϖοιο τρόϖο να κατευθύνει τη σωστή σειρά τοϖοθέτησης των αµινοξέων στην κατασκευή της ϖρωτεΐνης. Αµινοξύ Συµβολισµός τριϖλέτων Συµβολισµός Ενός Γράµµατος Αλανίνη Ala A Κυστεΐνη Cys C Ασϖαραγινικό οξύ Asp D Γλουταµινικό οξύ Glu E Φαινυλαλανίνη Phe F Γλυκίνη Gly G Ιστιδίνη His H Ισολευκίνη Ile I Λυσίνη Lys K Λευκίνη Leu L Μεθειονίνη Met M Ασϖαραγίνη Asn N Προλίνη Pro P Γλουταµίνη Gln Q Αργινίνη Arg R Σερίνη Ser S Θρεονίνη Thr T Βαλίνη Val V Τρυϖτοφάνη Trp W Τυροσίνη Tyr Y Πίνακας 2.1: Τα 20 διαφορετικά αµινοξέα Το µεγάλο ερώτηµα ήταν µε ϖοιο τρόϖο αυτή η αλληλουχία των νουκλεοτιδίων κωδικοϖοιούσε για την ϖαραγωγή των αλληλουχιών των αµινοξέων. Είναι γνωστό ότι υϖάρχουν τέσσερις διαφορετικές βάσεις και είκοσι διαφορετικά αµινοξέα (ϖίνακας 2.1).

45 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 45 Γίνεται λοιϖόν φανερό ότι η κωδική λέξη για την κωδικοϖοίηση κάθε αµινοξέος δεν θα µϖορούσε να είναι ούτε µία αλλά ούτε δύο αζωτούχες βάσεις. Εάν ήταν µία βάση ϖ.χ. Α ή Τ, µόνο τέσσερα διαφορετικά αµινοξέα θα µϖορούσαν να κωδικοϖοιηθούν. Εάν ήταν δύο βάσεις ϖ.χ. AT ή AC µόνο δεκαέξι διαφορετικά αµινοξέα θα µϖορούσαν να κωδικοϖοιηθούν (42 διαφορετικοί συνδυασµοί). Εάν όµως η κωδικοϖοίηση γινόταν µε συνδυασµό τριών αζωτούχων ενώσεων όϖως ϖ.χ. ACT, τότε θα υϖήρχαν 64 ϖιθανά αµινοξέα ϖου θα µϖορούσαν να κωδικοϖοιηθούν αϖό το συνδυασµό των 4 αζωτούχων βάσεων ανά τρεις (43 διαφορετικοί συνδυασµοί). Τα είκοσι εϖοµένως αµινοξέα, ϖου χρησιµοϖοιούνται στην κατασκευή των ϖρωτεϊνών, θα µϖορούσαν εύκολα να κωδικοϖοιηθούν µε τη χρήση ενός τέτοιου κώδικα βασισµένου σε τριϖλέτες βάσεων (triplets). Μια ϖροσεκτική εξέταση του ϖίνακα των τριϖλέτων (κωδικονίων - codons) εϖιτρέϖει να εξαχθούν τα ακόλουθα συµϖεράσµατα ϖου σχετίζονται µε το γενετικό κώδικα: 1. Ο γενετικός κώδικας είναι εκφυλισµένος (ϖλεοναστικός), δηλαδή ϖολλές τριϖλέτες µϖορούν να κωδικοϖοιήσουν το ίδιο αµινοξύ. Η λευκίνη, λόγου χάρη, κωδικοϖοιείται αϖό έξι τριϖλέτες: (UUA, UUG, CUU, CUC, CUA, CUG). 2. Ο γενετικός κώδικας έχει µία τριϖλέτα έναρξης AUG και τρεις τριϖλέτες λήξης (UUA, UAG, UGA) ϖου είναι γνωστές και σαν τριϖλέτες χωρίς νόηµα (nonsense codons). 3. Η τρίτη βάση είναι λιγότερο σηµαντική αϖ' ότι οι δύο ϖρώτες στον καθορισµό του αµινοξέος ϖου θα κωδικοϖοιηθεί. Αυτή η δυνατότητα στη θέση της τρίτης βάσης είναι γνωστή σαν "υϖόθεση ταλαντεύσεως". Ο γενετικός κώδικας ϖου ϖεριγράφηκε έχει σχεδόν ϖαγκόσµια εφαρµογή στους ζωντανούς οργανισµούς. Κάτι τέτοιο µϖορεί να καταδειχτεί στο εργαστήριο ϖαράγοντας τεχνητά ϖρωτεϊνικά ϖροϊόντα σύµφωνα µε γενετικές ϖληροφορίες αϖό διάφορα µόρια mrna εντελώς διαφορετικών ειδών, φυτών και ζώων. Αυτό αϖοδεικνύει ότι ο γενετικός κώδικας έχει τις ρίζες του στους ϖρώτους οργανισµούς ϖάνω στον ϖλανήτη και ϖαρέµεινε αναλλοίωτος στην ϖορεία των αιώνων (ϖίνακας 2.2).

46 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 46 Πίνακας 2.2: Ο γενετικός κώδικας Αντιγραφή, µεταγραφή και µετάφραση του DNA (DNA replication, transcription, translation) Μία αϖό τις ϖιο βασικές και ϖλέον χαρακτηριστικές ιδιότητες του DNA είναι η δυνατότητα αντιγραφής του. Χωρίς αυτήν τη δυνατότητα ο ϖολλαϖλασιασµός των κυττάρων στους οργανισµούς θα ϖραγµατοϖοιούνταν χωρίς το νέο κύτταρο να ϖεριέχει γενετικό υλικό, χωρίς δηλαδή να υϖάρχει η δυνατότητα για αυτό να καθορίσει τις λειτουργίες του και ϖολύ ϖερισσότερο να ϖολλαϖλασιαστεί και αυτό µε τη σειρά του. Η διαδικασία της αντιγραφής καθώς και ο έλεγχος ϖιθανών λαθών του DNA ϖραγµατοϖοιείται ϖριν ξεκινήσει η διαίρεση του κυττάρου. Η «αντιγραφή» ϖραγµατοϖοιείται µε τη διαίρεση της διϖλής έλικας του DNA (εικόνα 2.9).

47 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 47 Εικόνα 2.9: Η διαδικασία της αντιγραφής Αϖαραίτητο ενδιάµεσο στάδιο για την ϖρωτεϊνοσύνθεση είναι η δηµιουργία των διαφόρων ειδών RNA. Μεταγραφή είναι η σύνθεση ενός RNA µορίου, η ακολουθία βάσεων του οϖοίου είναι συµϖληρωµατική στην ακολουθία βάσεων του DNA. Κατά τη µεταγραφή το ένζυµο RNA-ϖολυµεράση έχει καταλυτικό ρόλο αφού χρησιµοϖοιεί το DNA σαν βάση για τη δηµιουργία του RNA. Το DNA µεταγράφεται στο RNA ϖροκειµένου να ϖαράγει το mrna, το rrna και το trna. Εικόνα 2.10: Η διαδικασία της µεταγραφής Η µεταγραφή τόσο στα ϖροκαρυωτικά, όσο και στα ευκαρυωτικά κύτταρα ϖεριλαµβάνει (εικόνα 2.10):

48 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία τη δέσµευση (binding) της RNA-ϖολυµεράσης σε συγκεκριµένες υϖοακολουθίες της ακολουθίας του DNA. Οι υϖοακολουθίες αυτές ονοµάζονται υϖοκινητές (promoters). 2. την έναρξη (initiation) της δηµιουργίας της RNA αλυσίδας. 3. την εϖιµήκυνση (elongation) της RNA αλυσίδας. τον τερµατισµό (termination) της εϖιµήκυνσης της RNA αλυσίδας, µε τη λήψη του µηνύµατος λήξης αϖό συγκεκριµένες ακολουθίες βάσεων (terminators). Η διαδικασία της µετάφρασης ϖρέϖει να γίνει µε έναν ϖολύ δοµηµένο και τακτικό τρόϖο ώστε να διασφαλιστεί η αϖοφυγή λαθών στην τελική αλληλουχία αµινοξέων ϖου θα ϖαραχθεί, δηλαδή στην ϖρωτεΐνη. Τα σηµαντικότερα γεγονότα αυτής της διαδικασίας συνοψίζονται µε τον ακόλουθο τρόϖο [12] (εικόνα 2.11): 1. Έναρξη της µετάφρασης γίνεται όταν το ϖρώτο trna, ϖου ονοµάζεται εναρκτής (initiation factor), ζευγαρώνει το κωδικόνιο του µε το αντίστοιχο κωδικόνιο του mrna. Ο συνδυασµός του mrna και του εναρκτή trna ονοµάζεται σύµϖλεγµα έναρξης. 2. Αρχίζει η εϖιµήκυνση της αλυσίδας. Ένα δεύτερο σύµϖλεγµα αµινοξέος - trna µε τον ίδιο τρόϖο όϖως αναφέρθηκε ϖροηγουµένως ζευγαρώνει το κωδικόνιο του µε το αντίστοιχο κωδικόνιο του mrna. Η διαδικασία αυτή εϖαναλαµβάνεται σε όλο το µήκος της αλυσίδας του mrna. 3. Ο τερµατισµός της αλυσίδας εϖέρχεται όταν εµφανιστεί το σήµα λήξης µε τη µορφή ενός κωδικόνιου λήξης (UAG, UAA και UGA). Κανένα trna δεν θα τοϖοθετηθεί στην ϖεριοχή, µια ϖου κανένα trna δε φέρνει αντικωδικόνιο συµϖληρωµατικό µε αυτές τις αλληλουχίες. Με αυτόν τον τρόϖο δηµιουργούνται οι ϖρωτεΐνες οι οϖοίες θα ϖαίξουν σηµαντικό ρόλο σε διάφορες λειτουργίες του οργανισµού όϖως είναι η ενζυµική κατάλυση, η µεταφορά και η αϖοθήκευση, η κίνηση, η µηχανική στήριξη, η ανοσοϖροστασία, η δηµιουργία, η νευρικών ϖαλµών µετάδοση και τέλος ο έλεγχος της ανάϖτυξης και της διαφοροϖοίησης.

49 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 49 Εικόνα 2.11: Η διαδικασία της αντιγραφής 2.4 Μετάλλαξη Μετάλλαξη (mutation) ονοµάζεται οϖοιαδήϖοτε αλλαγή στις βάσεις DNA. Τέτοιες αλλαγές µϖορεί να είναι η αντικατάσταση µιας βάσης αϖό µια άλλη καθώς εϖίσης, και η ϖροσθήκη ή η αφαίρεση µιας βάσης. Στην ϖρώτη ϖερίϖτωση αλλάζει µια τριϖλέτα στο DNA και κατά συνέϖεια αλλάζει και ένα αµινοξύ στην ϖρωτεΐνη. Αν ϖροστεθεί ή αφαιρεθεί µια βάση τότε αλλάζουν όλες οι τριϖλέτες αϖό το σηµείο αυτό και µετά, άρα αλλάζουν και όλα τα αµινοξέα. Οι αλλαγές αυτές µϖορεί να οφείλονται αϖλά σε λάθη στην αντιγραφή του DNA, σε εξωτερικούς ϖεριβαλλοντικούς ϖαράγοντες (ϖχ. ηλιακή ακτινοβολία) καθώς και σε χηµικές ουσίες. Οι µεταλλάξεις συνήθως οδηγούν σε τροϖοϖοιηµένες ϖρωτεΐνες, κάτι ϖου σε µερικές ϖεριϖτώσεις µϖορεί να αϖοβεί µοιραίο για τον οργανισµό.

50 Κεφάλαιο 2: Βασικές έννοιες και λειτουργίες στη Βιολογία 50

51 3 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ 3.1 Εισαγωγή H βιοϖληροφορική είναι ο χώρος όϖου η βιολογία, σε συνεργασία µε την ϖληροφορική, τη στατιστική και τα µαθηµατικά, εξερευνά νέους τρόϖους για την ϖροσέγγιση των βιολογικών ϖροβληµάτων, καθώς και νέο τρόϖο αντίληψης βασικών αρχών της βιολογίας. Πρόκειται για γνωστικό χώρο µε συγκεκριµένο όσο και ευρύ ϖεδίο εφαρµογών και αλληλεϖίδρασης µε τη σύγχρονη δοµική, µοριακή, ϖληθυσµιακή και ϖεριβαλλοντική βιολογία [13]. Ο κλάδος της Βιοϖληροφορικής σήµερα θεωρείται ϖαγκόσµια ένας αϖό τους ϖλέον αναϖτυσσόµενους, ενώ έχει ήδη εϖιδείξει σηµαντικά εϖιτεύγµατα. Ουσιαστικά, κατέχει κεντρική θέση στις σύγχρονες εξελίξεις των Εϖιστηµών της Ζωής, µε ϖιο χαρακτηριστικό ϖαράδειγµα τα ϖρογράµµατα αϖοκωδικοϖοίησης των γονιδιωµάτων συµϖεριλαµβανοµένου και αυτού του Human Genome Project (ϖαγκόσµια ϖροσϖάθεια χαρτογράφησης του ανθρώϖινου DNA) [2]. Οι σηµαντικές αλλαγές ϖου συντελέστηκαν τις τελευταίες δεκαετίες στο ϖεδίο της µοριακής βιολογίας (κλασικής και δοµικής), σε συνδυασµό µε την εξέλιξη της τεχνολογίας της γονιδιωµατικής, αλλά και τη µελέτη ϖολύϖλοκων βιολογικών συστηµάτων, οδήγησαν σε αύξηση των ϖληροφοριών ϖου ϖαράγονται αϖό τη βιολογική κοινότητα. Το γεγονός αυτό, κατέστησε αϖόλυτα αναγκαία τη διαχείριση, τον έλεγχο και την ανάλυση όλων αυτών των δεδοµένων µε τελικό σκοϖό την αξιοϖοίησή τους για την εξαγωγή σηµαντικών βιολογικών συµϖερασµάτων. Άµεση συνέϖεια των ανωτέρω, ήταν η ανάγκη για την ανάϖτυξη εξειδικευµένων υϖολογιστικών εργαλείων, αλλά και την ϖροσαρµογή ήδη υϖαρχόντων δοκιµασµένων συστηµάτων, για την αϖοθήκευση, οϖτικοϖοίηση και ανάλυση των δεδοµένων, δίνοντας το έναυσµα για τη µεγάλη ανάϖτυξη, ϖου ϖαρατηρείται στις µέρες µας, στο ϖεδίο της βιοϖληροφορικής. 51

52 Κεφάλαιο 3: Βιοϖληροφορική Ο σκοϖός της βιοϖληροφορικής σήµερα Ο σκοϖός της βιοϖληροφορικής σήµερα είναι να βοηθηθούν οι βιολόγοι στη συγκέντρωση και στην εϖεξεργασία γονιδιακών δεδοµένων (genomic) µε τέτοιο τρόϖο ώστε να µϖορούν µελετήσουν την ϖρωτεϊνική λειτουργία. Ένας άλλος σηµαντικός σκοϖός είναι να καταφέρουν οι ερευνητές να ϖαράγουν λεϖτοµερείς µελέτες των δοµών ορισµένων ϖρωτεϊνών για να διευκολυνθεί έτσι ο σχεδιασµός νέων φαρµάκων. Οι βασικότεροι στόχοι της βιοϖληροφορικής ϖεριλαµβάνουν: 1. την αναγνώριση της µορφής και της λειτουργίας µιας ϖρωτεΐνης δοσµένης µιας ακολουθίας αµινοξέων 2. την αναγνώριση όλων των γονιδίων και των ϖρωτεϊνών σε ένα δοσµένο γονιδίωµα 3. και τέλος ο καθορισµός συγκεκριµένης θέσης στη δοµή µιας ϖρωτεΐνης όϖου τα µόρια φαρµάκων θα µϖορούσαν να συνδεθούν. Για να εκτελέσει κανείς αυτούς τους στόχους, θα ϖρέϖει να ερευνήσει τις οµόλογες ακολουθίες για τις οϖοίες τα γονίδια έχουν καθοριστεί και οι δοµές είναι γνωστές. Η οµολογία (Homology) µεταξύ δύο ακολουθιών ϖροτείνει ότι µοιράζονται έναν κοινό ϖρόγονο. εδοµένου ότι µερικοί ϖρόγονοι µϖορεί να µην υϖάρχουν κάϖοιος ελϖίζει ότι η οµοιότητα σε εϖίϖεδο ακολουθιών ή σε δοµικό εϖίϖεδο µϖορεί να αϖοτελέσει έναν καλό δείκτη της οµολογίας. Είναι σηµαντικό να έχει κάϖοιος ϖάντα υϖόψη ότι η οµοιότητα σε ακολουθίες δεν συνεϖάγεται οµοιότητα στη δοµή και αντίστροφα. Για του λόγου το αληθές δύο αρκετά ανόµοιες ακολουθίες αµινοξέων µϖορούν να αναδιϖλωθούν σε ϖαρόµοια τρισδιάστατη (3D) δοµή. Εντούτοις, η αναζήτηση της οµοιότητας ακολουθιών είναι αϖό τις ϖιο σηµαντικές, αν όχι η σηµαντικότερη, στη βιοϖληροφορική. οσµένης µιας ακολουθίας (νουκλεοτίδιο ή αµινοξύ) συνήθως η διαδικασία ϖου ακολουθείται είναι η αναζήτηση της οµοιότητάς της στις βάσεις δεδοµένων µε άλλες γνωστές ακολουθίες. Συνήθως η αναζήτηση αϖοδίδει ϖολλές ακολουθίες µε διαβαθµίσεις ως ϖρος την οµοιότητα. Παρακάτω γίνεται αναφορά στους διάφορους αλγόριθµους ϖου χρησιµοϖοιούνται συχνά αϖό τους βιοϖληροφορικούς [14]. 3.3 Ερευνητικό ϖεδίο στη βιοϖληροφορική Οι κυριότεροι ερευνητικοί τοµείς στη βιοϖληροφορική είναι:

53 Κεφάλαιο 3: Βιοϖληροφορική η οργάνωση των δεδοµένων, ώστε να είναι δυνατή η αϖοθήκευση, ανάκτηση και ενηµέρωσή τους, µε τον καλύτερο δυνατό τρόϖο 2. η ανάϖτυξη εργαλείων ϖου να εϖιτρέϖουν την ερµηνεία αϖοτελεσµάτων βιολογικής σηµασίας 3. η ανάϖτυξη εργαλείων ϖου να εϖιτρέϖουν την ανάλυση, συστοίχιση και κατηγοριοϖοίηση ακολουθιών βιολογικών δεδοµένων. Παρακάτω γίνεται µια αναλυτικότερη ϖεριγραφή των εργαλείων ϖου έχουν αναϖτυχθεί για την κάθε µια ϖερίϖτωση χωριστά Οργάνωση δεδοµένων Η οργάνωση βιολογικών δεδοµένων κρίνεται αϖαραίτητη εξαιτίας του τεράστιου αριθµού και ολοένα αυξανόµενου ϖλήθους βιολογικών ακολουθιών ϖου ϖρέϖει να αϖοθηκεύονται. Η αϖοθήκευση ϖρέϖει να γίνεται µε τέτοιο τρόϖο ϖου να διευκολύνει την ανάκτησή και την εϖεξεργασία των ϖληροφοριών. Αρχικά ο όγκος των δεδοµένων ήταν τόσο µικρός ϖου αν κάϖοιος ενδιαφερόταν να έχει ϖρόσβαση στις εγγραφές της βάσης, εϖικοινωνούσε µε τους εϖιστηµονικούς υϖεύθυνους και εκείνοι του έστελναν µε συµβατικό ταχυδροµείο όλη τη βάση η οϖοία αρκούσε να αϖοθηκευτεί ακόµη και σε µερικές δισκέτες. Την τελευταία δωδεκαετία όµως (εικόνα 3.1), η τεχνολογική εξέλιξη βοήθησε στη διεκϖεραίωση µεγάλου όγκου ϖειραµατικής εργασίας, η οϖοία σε συνάρτηση µε το διαρκή ϖροσδιορισµό γονιδιωµάτων διαφόρων οργανισµών αύξησε τον όγκο της ϖληροφορίας σε δυσθεώρητα µεγέθη. Οι βάσεις ϖλέον όχι µόνο ϖεριέχουν ϖολλά δεδοµένα, αλλά και η διαδικασία ανανέωσής τους είναι αϖαραίτητη καθηµερινή υϖόθεση. Η συντήρηση µιας βάσης αϖαιτεί ϖλέον ένα ϖολυάριθµο εϖιστηµονικό ϖροσωϖικό, το οϖοίο ασχολείται αϖοκλειστικά µε το σχολιασµό (annotation) των νεοεισερχόµενων δεδοµένων, καθώς και µε τη διόρθωση λαθών των ήδη υϖαρχόντων.

54 Κεφάλαιο 3: Βιοϖληροφορική 54 Εικόνα 3.1: Αύξηση του αριθµού των ακολουθιών νουκλεοτιδίων σε δηµόσιες βάσεις δεδοµένων αϖό το 1995 µέχρι το 2007 Όσον αφορά την ϖρόσβαση στις βάσεις αυτές είναι ϖλέον εύκολη και ϖραγµατοϖοιείται µέσω της χρήσης του διαδικτύου. Ο χρήστης µϖορεί να εϖισκεφτεί την ιστοσελίδα ϖου διατηρείται αϖό τους υϖεύθυνους της βάσης και να κάνει αναζητήσεις αϖοθηκεύοντας στον υϖολογιστή του δεδοµένα του άµεσου ενδιαφέροντός του. Παράλληλα έχει δηµιουργηθεί και µια σειρά αϖό βάσεις ϖου αϖοσκοϖούν στην ταξινόµηση της ϖληροφορίας στο εϖίϖεδο της ακολουθίας και της δοµής, ϖροκειµένου να οργανωθεί η ϖληροφορία και να εξαχθούν συµϖεράσµατα για τη βιολογική τους σηµασία Γενικές νουκλεοτιδικές βάσεις δεδοµένων ακολουθιών Υϖάρχουν ϖαράλληλες ϖροσϖάθειες στην Ευρώϖη, στην Αµερική και στην Ιαϖωνία να ϖαραµείνουν οι δηµόσιες βάσεις δεδοµένων νουκλεοτιδίων ενηµερωµένες µε όλα τα αµινοξέα ϖου δηµοσιεύονται. Οι τρεις κυριότερες αυτές βάσεις είναι: EMBL (European Molecular Biology Laboratory), ϖου διατηρείται στο EMBL-ΕΒΙ (European Bioinformatics Institute,

55 Κεφάλαιο 3: Βιοϖληροφορική 55 Hinxton, UK), τριµηνιαίες εκδόσεις, καθηµερινή ανανέωση [15]. GENBANK, ϖου διατηρείται στο NCBI (National Center for Biotechnology Information, Bethesda, Maryland, USA), δεκαϖενθήµερες εκδόσεις, καθηµερινή ανανέωση [16]. DDBJ (DNA Data Bank of Japan), ϖου διατηρείται στο NIG/CIB (Mishima, Japan), τριµηνιαίες εκδόσεις, καθηµερινή ανανέωση [17,18]. Στη δεκαετία του 80, οι υϖεύθυνοι των τραϖεζών ϖληροφοριών ήταν εκείνοι ϖου έψαχναν στη βιβλιογραφία για καινούργιες ακολουθίες, και στη συνέχεια τις καταχωρούσαν στις βάσεις, αλλά σήµερα οι συγγραφείς είναι εκείνοι ϖου υϖοβάλλουν µέσω διαδικτύου τις νέες ακολουθίες µε εξειδικευµένα εργαλεία. Υϖάρχει εϖίσης µια συµφωνία µεταξύ των τριών αυτών βάσεων δεδοµένων και αυτή είναι να ανταλλάσσουν ϖληροφορίες µεταξύ τους κάθε φορά ϖου υϖοβάλλεται µια καινούργια ακολουθία σε µια αϖό τις τρεις. Οι βάσεις αυτές ϖεριέχουν DNA και RNA ακολουθίες αλλά έχει συµφωνηθεί όλες οι ακολουθίες να συµβολίζονται µε T (το σύµβολο της θυµίνης) αντί µε U (σύµβολο της ουρακίλης), ϖολύ συχνά εργαλεία ϖου µελετούν τις ακολουθίες DNA και RNA δεν κάνουν διαχωρισµό µεταξύ των T και U. Αλλαγµένες βάσεις αντικαθίστανται αϖό τη βάση ϖου ανήκουν (εκεί ϖου καταχωρήθηκαν για ϖρώτη φορά), αλλά ϖάντα αναφέρονται στο κείµενο ϖου συνοδεύονται Γενικές ϖρωτεϊνικές βάσεις δεδοµένων ακολουθιών Μια ϖαρόµοια ϖροσϖάθεια γίνεται και µε τις βάσεις ϖρωτεϊνικών δεδοµένων. Οι κυριότερες βάσεις ϖρωτεϊνικών δεδοµένων είναι οι ϖαρακάτω: SWISS-PROT, ϖου διατηρείται στο University of Geneva/Swiss Institute of Bioinformatics (Geneva, Switzerland), µε εβδοµαδιαία ανανέωση και µϖορεί να την έχει κάϖοιος ή να τη χρησιµοϖοιήσει ελεύθερα για ερευνητικούς σκοϖούς. PIR (Protein Information Resource), διατηρείται στο NBRF (National Biomedical Foundation, Washington DC, USA) σε συνεργασία µε το ϖανεϖιστήµιο του Τόκιο / JIPID (Japanese International Protein Information Database, Tokyo, Japan) και το MIPS (Martinsried Institute for Protein Sequences, Martinsried, Germany), τριµηνιαίες εκδόσεις [19,20].

56 Κεφάλαιο 3: Βιοϖληροφορική 56 PRF/SEQDB (Protein Resource Foundation), διατηρείται στο PRF (Osaka, Japan), δεκαϖενθήµερες εκδόσεις. PDB (Protein Data Bank), διατηρείται στο University of New Jersey, στο San Diego Supercomputer Center, στο University of California και στο National Institute of Standards and Technology. Είναι η µεγαλύτερη βάση δεδοµένων µε τρισδιάστατες δοµές βιολογικών µακροµορίων [21]. Εϖίσης υϖάρχουν βάσεις δεδοµένων ϖου δηµιουργούνται αυτόµατα και ϖεριέχουν τη µετάφραση κωδικοϖοιηµένων ακολουθιών (CDS) ϖου ϖροέρχονται αϖό τις κυριότερες ϖρωτεϊνικές βάσεις. Οι βάσεις αυτές είναι η TrEMBL, η SP-TrEMBL, η REM- TrEMBL και η GenPept. Τέλος υϖάρχει και η PROSITE βάση ϖου στην ουσία αϖοτελεί βάση ταξινόµησης σε οικογένειες ϖρωτεϊνικών ακολουθιών και αυτοτελών ϖεριοχών ακολουθιών (domains). Όϖως γίνεται κατανοητό υϖάρχουν διαφορές ως ϖρος το σκοϖό και ως ϖρος την ϖοιότητα µεταξύ των βάσεων δεδοµένων. Για ϖαράδειγµα, η SWISS-PROT θεωρείται µια αϖό τις ϖιο ϖοιοτικές βάσεις δεδοµένων µε εξαιρετική βιβλιογραφία. Η ίδια όµως βάση συστηµατικά θεωρεί ως µια εγγραφή τις διάφορες ϖαραλλαγές της ίδιας ακολουθίας σε τοϖικό εϖίϖεδο. Η PIR ϖεριέχει ϖιο ϖολλές ακολουθίες, συµϖεριλαµβανοµένου ενός αριθµού «ϖραγµατικών ακολουθιών» ολιγοϖεϖτιδίων, αλλά δεν µϖορεί να θεωρηθεί τόσο ακριβής. Οι αυτόµατες βάσεις δεδοµένων όϖως για ϖαράδειγµα η TrEMBL και η GenPept είναι ακόµα µεγαλύτερες αλλά ϖεριέχουν ϖολύ λίγη βιβλιογραφία και µερικές φορές θεµελιώδεις µεταφράσεις οι οϖοίες δεν υϖάρχουν στη φύση Μη εϖαναλαµβανόµενες βάσεις ακολουθιών Καµία αϖό τις βάσεις δεν είναι ολοκληρωµένη. Για να ϖραγµατοϖοιηθεί αυτό έχουν καταβληθεί ϖροσϖάθειες για τη δηµιουργία σύνθετων βάσεων δεδοµένων. Στην ϖροσϖάθεια αυτή ο ϖλεονασµός ϖληροφορίας αϖοφεύγεται µε τη σύγκριση των ακολουθιών, µε την εξάλειψη των διϖλοεγγραφών και των ακολουθιών ϖου διαφέρουν ελάχιστα. Αυτός ο αυστηρός κανόνας έχει σαν αϖοτέλεσµα τη δηµιουργία σχετικά µικρών, αλλά αϖοτελεσµατικών σε αναζήτηση, βάσεων δεδοµένων. Το NCBI (National Centern for Biotechnology, USA) υϖοστηρίζει σε ηµερήσια βάση µια ϖλήρως ενηµερωµένη βάση δεδοµένων νουκλεοτιδίων (συνδυασµός των Genbank, EMBL [22] και DDBJ) και ϖρωτεϊνών.

57 Κεφάλαιο 3: Βιοϖληροφορική 57 (συνδυασµός των PDB, SWISS-PROT, PIR [23,24], PRF και CDS). Αυτές οι βάσεις δεδοµένων µϖορούν να χρησιµοϖοιηθούν στο διαδίκτυο µε τη χρήση του εργαλείου ENTREZ [25]. Ένα ανάλογο εργαλείο µε το ENTREZ είναι το SRS το οϖοίο δίνει τη δυνατότητα αναζήτησης και ανάκτησης δεδοµένων αϖό ϖερισσότερες αϖό 400 βάσεις δεδοµένων. Το ENTREZ ϖεριορίζεται µόνο στις βάσεις δεδοµένων του NCBI και δεν εϖιτρέϖει ϖολύϖλοκες αναζητήσεις, σε αντίθεση µε το SRS. Πέρα αϖό το διαχωρισµό ϖου µϖορεί να γίνει µε βάση τους µηχανισµούς αϖοθήκευσης και διαχείρισης των δεδοµένων, ένας εναλλακτικός διαχωρισµός βασίζεται στον τύϖο των βιολογικών δεδοµένων (ακολουθίες, µοτίβα, δοµές) ϖου ϖεριέχουν. Έτσι κατηγοριοϖοιεί τις βιολογικές βάσεις δεδοµένων σε ϖρωτοταγείς και δευτεροταγείς. Οι ϖρωτοταγείς βάσεις ϖεριέχουν την ϖειραµατικά ϖροσδιορισµένη ϖληροφορία, για ϖαράδειγµα ακολουθίες νουκλεϊκών οξέων και ϖρωτεϊνών. Μερικές αϖό τις γνωστές ϖρωτοταγείς βάσεις δεδοµένων είναι οι EMBL, GenBank, DDBJ. Οι δευτεροταγείς βάσεις δεδοµένων ϖεριέχουν ϖληροφορίες οι οϖοίες ϖροήλθαν αϖό την ανάλυση των ϖρωτοταγών βάσεων. Με αυτόν τον τρόϖο οι δευτεροταγείς βάσεις ανακαλύϖτουν για ϖαράδειγµα κοινά µοτίβα. Στις δευτεροταγείς βάσεις κατατάσσονται οι PROSITE, SWISS-PROT [26,27], BLOCKS [28]. Παράλληλα έχουν αναϖτυχθεί σύνθετες ϖρωτοταγείς και δευτεροταγείς βάσεις Παραδείγµατα σύνθετων ϖρωτοταγών βάσεων είναι οι OWL, NRDB και σύνθετων δευτεροταγών βάσεων οι ProWeb Εξειδικευµένες βάσεις δεδοµένων Εκτός αϖό τις γενικές βάσεις δεδοµένων ϖου αναφέρθηκαν, υϖάρχουν εϖίσης ϖερισσότερες αϖό 50 εξειδικευµένες βάσεις δεδοµένων. Ενδεικτικά αναφέρονται οι εξής: HIV Database (DNA για τον ιό του HIV και του SIV), HPVSD (DNA για τον ιό του HPV στον άνθρωϖο και στα ζώα ) και IMGT (δεδοµένα ανοσολογικά) η οϖοία ϖεριέχει την IMGT/LIGM (γονίδια της ανοσοσφαιρίνης και Τ- κύτταρα), την IMGT/HLA (δεδοµένα ανθρώϖινης ιστοσυµβατότητας θέσης Α) και την NRL_3D (δεδοµένα µε γνωστές µορφές τρισδιάστατης µορφής ϖρωτεϊνών)

58 Κεφάλαιο 3: Βιοϖληροφορική Βάσεις δεδοµένων µε συστοιχισµένες ακολουθίες Εϖίσης αρκετές βάσεις µε ϖρωτεΐνες έχουν οµαδοϖοιηθεί σε οικογένειες ϖου είναι ήδη συστοιχισµένες. Οι συστοιχίσεις αυτές έχουν ϖραγµατοϖοιηθεί µε διάφορους αλγορίθµους και ϖεριλαµβάνουν συστοιχισµένες ακολουθίες µε διαφορετικά µήκη και διαφορετικό αριθµό ϖρωτεϊνών. Οι σηµαντικότερες βάσεις είναι: Blocks, Block+ [29], DOMO, PRINT, ProDom [30], HSSP, FSSP και Pfam [31] Εργαλεία διαχείρισης βιολογικών δεδοµένων Εκτός αϖό τα εργαλεία ϖου ϖροσφέρονται αϖό τις συγκεκριµένες βάσεις δεδοµένων µια σειρά άλλων υϖάρχουν σε δικτυακούς τόϖους ερευνητικών κέντρων και ϖανεϖιστηµιακών τµηµάτων. Ειδικότερα όσον αφορά τα εργαλεία αναζήτησης γονιδίων, τα κυριότερα ϖου ϖροσφέρονται µέσα αϖό δικτυακούς τόϖους είναι τα εξής: GENSCAN, NetGene, GeneID-3, GeneMark, GenLang Μεθοδολογίες ϖου εϖιτρέϖουν την ερµηνεία αϖοτελεσµάτων βιολογικής σηµασίας Η αύξηση των βιολογικών δεδοµένων τα τελευταία χρόνια δε θα µϖορούσε να ϖροσφέρει στην εϖιστηµονική κοινότητα αξιόλογες ϖληροφορίες χωρίς την ανάϖτυξη µεθοδολογιών ϖου θα εξασφάλιζαν την όσο το δυνατόν καλύτερη ερµηνεία των νέων δεδοµένων. Για αυτόν το λόγο τοµείς όϖως η φυλογενετική ανάλυση, ο καθορισµός τρισδιάστατων µορφών ϖρωτεϊνών αϖό τις ακολουθίες µακροµορίων, η εξαγωγή συµϖερασµάτων για τη ρύθµιση της λειτουργίας ενός κυττάρου ή µιας ϖρωτεΐνης, εϖικεντρώνουν σε ϖολλές ϖεριϖτώσεις το ενδιαφέρον των ερευνητών. Παρακάτω ϖαρατίθενται συνοϖτικά οι δύο σηµαντικότερες µεθοδολογίες. Η φυλογενετική ανάλυση υλοϖοιείται στις ϖερισσότερες ϖεριϖτώσεις µέσα αϖό τη δηµιουργία εξελικτικών δέντρων [32] (εικόνα 3.2).

59 Κεφάλαιο 3: Βιοϖληροφορική 59 Εικόνα 3.2: Το φυλογενετικό δέντρο της ζωής Τα δέντρα αυτά σχεδιάζονται µετά αϖό σύγκριση βιολογικών ακολουθιών ϖου ανήκουν είτε σε διαφορετικούς οργανισµούς, είτε στον ίδιο. Η οµαδοϖοίηση των βιολογικών ακολουθιών στο δέντρο γίνεται ανάλογα µε το βαθµό οµοιότητάς τους. Με αυτόν τον τρόϖο έχουµε µια σαφή µορφή αϖεικόνισης ϖάνω στο ϖώς οι βιολογικές ακολουθίες, οι οϖοίες αντιϖροσωϖεύουν και διαφορετικούς βιολογικούς οργανισµούς, µετασχηµατίστηκαν κατά τη διάρκεια της εξελικτικής διαδικασίας. Οι µέθοδοι ϖου χρησιµοϖοιούνται κυρίως για να δηµιουργηθούν φυλογενετικά δέντρα, αφού ϖρώτα οι ακολουθίες συστοιχιθούν, είναι η µέθοδος µέγιστης φειδωλότητας (maximum parsimony), η µέθοδος της ιεραρχικής οµαδοϖοίησης (hierarchical clustering) και η µέθοδος της µέγιστης ϖιθανοφάνειας (maximum likelihood). Ανάλογα µε τον τρόϖο δηµιουργίας του φυλογενετικού δέντρου, είτε βάσει της αϖόστασης οϖότε και εϖιλέγεται η ιεραρχική οµαδοϖοίηση, είτε βάσει εξελικτικού µοντέλου οϖότε και εϖιλέγεται η µέθοδος µέγιστης φειδωλότητας ή η µέθοδος µέγιστης ϖιθανοφάνειας, εϖιλέγεται η µια αϖό τις ϖαραϖάνω µεθόδους. Μία αϖό τις ϖιο γνωστές µορφές ιεραρχικής οµαδοϖοίησης είναι ο αλγόριθµος UPGMA (Unweighted Pair Group Method using arithmetic Averages). Ένα αϖό τα ϖιο γνωστά εργαλεία κατασκευής

60 Κεφάλαιο 3: Βιοϖληροφορική 60 φυλογενετικών δέντρων είναι το PHYLIP (PHYLogenetic Inference Package) το όϖοιο βρίσκεται στο διαδίκτυο [33]. Ο καθορισµός των τρισδιάστατων µορφών ϖρωτεϊνών (εικόνα 3.3) αϖό τις βιολογικές ακολουθίες αϖοτελεί ένα σηµαντικό σηµείο έρευνας. Υϖολογιστικά είναι δύσκολο να καθοριστεί η τρισδιάστατη µορφή µιας ϖρωτεΐνης αϖό µια ακολουθία RNA αφού για αυτό το λόγο αϖαιτούνται αλγόριθµοι ϖολυϖλοκότητας τρίτου βαθµού. Παράλληλα, η εξαγωγή συµϖεράσµατος για το σχήµα ϖου ϖαίρνει η τρισδιάστατη µορφή µιας ϖρωτεΐνης αϖό µια αµινοξική ακολουθία ϖαραµένει ένα άλυτο ϖρόβληµα. Μεγάλη εφαρµογή σε αυτήν την ϖερίϖτωση βρίσκουν τα HMM (Hidden Markov Models) και η µέθοδος CFG (Context Free Grammar), ϖου βασίζεται στην υϖολογιστική γλωσσολογία. Εικόνα 3.3: Η τρισδιάστατη ϖρωτεϊνική δοµή αϖό το κέλυφος των βακτηριδίων microcompartments Ανάλυση, συστοίχιση και κατηγοριοϖοίηση ακολουθιών βιολογικών δεδοµένων. Η βασική υϖόθεση για την ανάϖτυξη και εφαρµογή τεχνικών διαχείρισης βιολογικών ακολουθιών είναι ότι κάθε βιολογικό µόριο µϖορεί να ϖεριγραφεί ως µια ακολουθία συµβόλων αϖό ένα ορισµένο αλφάβητο. Συγκεκριµένα, κάθε µόριο του DNA µϖορεί να θεωρηθεί ως µια ακολουθία συµβόλων (συµβολοσειρά), αϖό ένα αλφάβητο

61 Κεφάλαιο 3: Βιοϖληροφορική 61 τεσσάρων χαρακτήρων / γραµµάτων: A, C, G, T, ενώ κάθε µόριο ϖρωτεΐνης µϖορεί να θεωρηθεί ως µια ακολουθία συµβόλων (συµβολοσειρά) αϖό ένα αλφάβητο είκοσι χαρακτήρων / γραµµάτων, των 20 αµινοξέων. Κατά την ανάλυση ακολουθιών βιολογικών δεδοµένων ενδιαφέρει είτε η ακριβής εύρεση ϖροτύϖου, είτε η ϖροσεγγιστική εύρεση ϖροτύϖου. Με αυτόν τον τρόϖο στις ακολουθίες DNA µϖορούν να ϖροσδιοριστούν ϖεριοχές ϖου βρίσκονται γονίδια, ϖεριοχές ϖου τερµατίζει ή ξεκινάει η αντιγραφή του DNA κ.ο.κ. Σε ϖρωτεϊνικές ακολουθίες µϖορεί κανείς να καθορίσει τις εξελικτικές σχέσεις και να ϖροβλέψει τη δευτεροταγή ή τριτοταγή δοµή τους. Ένα αϖό τα σηµαντικότερα ϖεδία έρευνας αϖοτελεί η συστοίχιση ακολουθιών (sequence alignment). Η µέθοδος είναι αναϖόσϖαστα δεµένη µε την εξέλιξη (κληρονοµούµενες αλλαγές ϖληροφορίας) ανεξάρτητα αϖό το εάν η εξέλιξη αϖοτελεί τµήµα του ϖροβλήµατος. Στη βιοϖληροφορική η συστοίχιση ακολουθιών είναι ένας τρόϖος να τοϖοθετηθούν βασικές ακολουθίες όϖως DNA, RNA και ϖρωτεΐνες µε τέτοιο τρόϖο έτσι ώστε να αναγνωριστούν ϖεριοχές οµοιότητας. Οι ϖεριοχές αυτές µϖορεί να είναι λειτουργικής, δοµικής ή εξελικτικής συσχέτισης µεταξύ των ακολουθιών ϖου µελετώνται. Οι συστοιχισµένες ακολουθίες αµινοξέων ή νουκλεοτιδίων αναϖαρίστανται σαν γραµµές µέσα σε έναν ϖίνακα. Κενά (gaps) µϖορεί να έχουν εισαχθεί µεταξύ ϖεριοχών στην ακολουθία έτσι ώστε ϖεριοχές µε ίδιους ή ϖαρόµοιους χαρακτήρες να συστοιχίζονται µε εϖιτυχία στις στήλες τους [34] (εικόνα 3.4). Εικόνα 3.4: Παράδειγµα συστοίχισης ϖρωτεϊνών Η συστοίχιση ακολουθιών µϖορεί να διακριθεί στην τοϖική συστοίχιση (local alignment) και στην ολική συστοίχιση (global alignment). Η τοϖική συστοίχιση εφαρµόζεται σε κοµµάτια της ακολουθίας, ενώ η ολική σε όλο το µήκος της. Η τοϖική συστοίχιση χρησιµοϖοιείται κυρίως για ακολουθίες ϖου δεν είναι όµοιες µεταξύ τους και υϖάρχει η υϖοψία ότι µϖορεί να ϖεριέχουν ϖεριοχές

62 Κεφάλαιο 3: Βιοϖληροφορική 62 συσχέτισης ή µοτίβα ακολουθιών. Η ολική συστοίχιση χρησιµοϖοιείται κυρίως όταν οι ακολουθίες είναι αρκετά όµοιες µεταξύ τους και διαθέτουν ϖερίϖου το ίδιο µήκος. Για την τοϖική ο ϖρώτος αλγόριθµος ϖου δηµιουργήθηκε είναι των Smith και Waterman (SW). Αντίστοιχα ο ϖρώτος αλγόριθµος ολικής συστοίχισης δηµιουργήθηκε αϖό τους Needleman & Wunsch (NW). Οι ευρετικοί αλγόριθµοι χρησιµοϖοιούν ϖροσεγγίσεις, οι οϖοίες εϖιτρέϖουν η αναζήτηση οµόλογων ακολουθιών να γίνεται ϖολύ ϖιο γρήγορα (οµόλογες ονοµάζονται οι ακολουθίες ϖου έχουν αϖοκλίνει αϖό µια κοινή ϖρογονική ακολουθία). Τα ϖρογράµµατα ϖου χρησιµοϖοιούνται ϖιο συχνά και βασίζονται στους ευρετικούς αλγόριθµους, είναι τα BLAST και FASTA ϖου αναζητούν ϖεριοχές τοϖικής οµοιότητας. Εκτός αϖό τα δυο αυτά ϖρογράµµατα, µια σειρά αϖό άλλες µεθόδους και αλγόριθµους βρίσκουν εφαρµογή στην ανάλυση και σύγκριση βιολογικών ακολουθιών. Πέρα αϖό την ανάλυση και σύγκριση ακολουθιών, η κατηγοριοϖοίηση αϖοτελεί ένα ευρύ ϖεδίο έρευνας στη βιοϖληροφορική. Οι τεχνικές ανάλυσης οµαδοϖοίησης (clustering) αϖοτελούν µια στατιστική διαδικασία ϖολλών µεταβλητών, η οϖοία, ξεκινώντας αϖό ένα σύνολο δεδοµένων, εϖιχειρεί να το οργανώσει σε οµάδες οι οϖοίες δεν είναι εξ αρχής γνωστές, αλλά ϖροκύϖτουν δυναµικά. Μια σειρά αϖό µεθόδους κατηγοριοϖοίησης ϖου χρησιµοϖοιούνται θα µϖορούσαν να χωριστούν στις ιεραρχικές µεθόδους (hierarchical methods), στις διαιρετικές µεθόδους (partitioning methods), στις γραφοθεωρητικές µεθόδους (graph-based methods), στα τεχνητά νευρωνικά δίκτυα (artificial neural networks), στις εξελικτικές µεθόδους (genetic algorithms) και σε µηχανές υϖοστήριξης διανύσµατος (support vector machines). Χωρίς να ϖραγµατοϖοιηθεί ανάλυση της κάθε µεθόδου, θα ϖρέϖει να σηµειωθεί ότι κάθε µέθοδος έχει σε κάϖοιες εφαρµογές καλή αϖόδοση, ενώ σε κάϖοιες άλλες δεν εµφανίζει σηµαντικά ϖοσοστά εϖιτυχίας. Ανάλογα µε το είδος των δεδοµένων ϖου εϖεξεργάζεται κανείς εϖιλέγεται τόσο η µέθοδος οµαδοϖοίησης, όσο και οι αντίστοιχοι ϖαράµετροι. Εϖοµένως, η γνώση των χαρακτηριστικών και του είδους των δεδοµένων λειτουργεί ως είσοδος στο ϖρόβληµα της κατηγοριοϖοίησης (knowledge-based clustering). Το ζήτηµα της ταξινόµησης µϖορεί να καταταχθεί στο ευρύτερο αντικείµενο της αναγνώρισης ϖροτύϖων (pattern recognition). υο αϖό τα κυριότερα ϖροβλήµατα αναγνώρισης ϖροτύϖων στη

63 Κεφάλαιο 3: Βιοϖληροφορική 63 βιοϖληροφορική είναι η αναγνώριση γονιδίων και ο καθορισµός αϖό τα συστατικά µιας ακολουθίας αµινοξέων της δευτεροταγούς δοµής της ϖρωτεΐνης ϖου θα ϖροκύψει. Υϖάρχουν αρκετοί τρόϖοι διεκϖεραίωσης του ϖροβλήµατος αναγνώρισης ϖροτύϖων σε βιολογικά µακροµόρια. Πολλά αϖό αυτά βασίζονται στη µηχανική µάθηση (machine learning) και στα ϖιθανοθεωρητικά µοντέλα όϖως εϖίσης και στα νευρωνικά δίκτυα. Όσον αφορά τα ϖιθανοθεωρητικά µοντέλα η µορφή ϖου χρησιµοϖοιείται ως εϖί το ϖλείστον είναι οι αλυσίδες Markov. Οι Αλυσίδες Markov (Markov Chains), είναι στοχαστικά µοντέλα, µε τα οϖοία µϖορούν να ϖεριγραφούν και να αναλυθούν ακολουθίες βιολογικών δεδοµένων, όϖως το DNA και οι ϖρωτεΐνες. Το ΗΜΜ µϖορεί να χρησιµοϖοιηθεί για την ϖρόγνωση σε ένα σύνολο δεδοµένων µε αϖροσδιόριστα χαρακτηριστικά (test set), αφού ϖρώτα υϖολογιστούν οι ϖαράµετροί του (ϖιθανότητες µεταβάσεις κλϖ) αϖό ένα γνωστό σύνολο δεδοµένων (training set).

64 Κεφάλαιο 3: Βιοϖληροφορική 64

65 4 ΠΟΛΛΑΠΛΗ ΣΥΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ 4.1 Εισαγωγή Η ϖολλαϖλή συστοίχιση ακολουθιών (multiple sequence alignment ή ϖιο αϖλά MSA) αϖοτελεί έναν αϖό τους σηµαντικότερους κλάδους στη βιοϖληροφορική και αυτό γιατί ϖαράγει ένα ευρύ φάσµα εφαρµογών, συµϖεριλαµβανοµένου της φυλογενετικής ανακατασκευής δέντρων, της οµαδοϖοίησης σε οικογένειες βιολογικών δεδοµένων, της αναγνώρισης των κοινών ϖεριοχών ϖρωτεϊνικών ακολουθιών (protein domains) [35], καθώς τέλος και του ϖροσδιορισµού της δευτεροταγούς και τριτοταγούς δοµής µιας ϖρωτεΐνης. Η MSA είναι η συστοίχιση τριών ή ϖερισσότερων βιολογικών ακολουθιών DNA, RNA και ϖρωτεϊνών. Κατά γενική οµολογία το σύνολο των ακολουθιών ϖου µελετώνται συσχετίζονται εξελικτικά κάτι ϖου σηµαίνει ότι µοιράζονται έναν κοινό ϖρόγονο και έχουν κοινή καταγωγή. Αϖό τα αϖοτελέσµατα της ϖολλαϖλής συσχέτισης ακολουθιών, ϖροκύϖτουν οµόλογες ακολουθίες. Στη συνέχεια οι ακολουθίες αυτές µϖορούν να αναλυθούν φυλογενετικά και να αξιολογηθούν. Η συστοίχιση αϖεικονίζει γεγονότα µετάλλαξης όϖως τη «σηµειακή» µετάλλαξη (point mutation), δηλαδή την αντικατάσταση ενός χαρακτήρα στην ακολουθία των νουκεοτιδίων ή των αµινοξέων. Όϖως φαίνεται στην εικόνα 4.1 ως «σηµειακές» µεταλλάξεις θα µϖορούσαν να θεωρηθούν οι διαφορετικοί χαρακτήρες ϖου εµφανίζονται σε µία µεµονωµένη στήλη. Οι µεταλλάξεις λόγω εισαγωγών ή διαγραφών (indels) εµφανίζονται στη συστοίχιση µε το σύµβολο «-» και στο εξής θα ονοµάζονται κενά (gaps). 65

66 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 66 Εικόνα 4.1: Παράδειγµα ϖολλαϖλής συστοίχισης οµόλογων ϖρωτεϊνών ϖου βρίσκονται σε διαφορετικούς οργανισµούς

67 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών Είδη ϖολλαϖλής συστοίχισης ακολουθιών υναµικός ϖρογραµµατισµός και υϖολογιστική ϖολυϖλοκότητα (Dynamic programming and computational complexity) Η τεχνική του δυναµικού ϖρογραµµατισµού είναι η ϖιο άµεση µέθοδος για την ϖαραγωγή µιας MSA και χρησιµοϖοιείται για να αναγνωρίσει την ϖιο κατάλληλη ολική (global) συστοίχιση. Για τις ϖρωτεΐνες αυτή η µέθοδος συνήθως εµϖλέκει δύο σύνολα ϖαραµέτρων: έναν ϖίνακα αντικατάστασης και µια ϖοινή (gap penalty) ϖου ϖροσδιορίζουν την εϖίδοση (scores) ή τις ϖιθανότητες στη συστοίχιση για την κάθε δυνατή ϖερίϖτωση ζευγαριού αµινοξέων, βασισµένη στην οµοιότητα των χηµικών ιδιοτήτων των αµινοξέων και των εξελικτικών ϖιθανοτήτων να υϖοστούν µετάλλαξη. Για την ϖερίϖτωση των νουκλεοτιδικών ακολουθιών χρησιµοϖοιείται ένας ϖίνακας αντικατάστασης, αλλά εϖειδή σε αυτήν την ϖερίϖτωση υϖάρχουν µόνο τέσσερις ϖιθανοί χαρακτήρες σε κάθε ακολουθία και τα νουκλεοτίδια δε διαφέρουν και ϖολύ στην ϖιθανότητα αντικατάστασης, οι ϖαράµετροι για τις DNA και τις RNA ακολουθίες συνήθως αϖοτελούνται αϖό µια ϖοινή, µία θετική εϖίδοση για τις ταυτίσεις χαρακτήρων (matches) και µία αρνητική εϖίδοση για τις µη-ταυτίσεις (mismatches). Για n αριθµό ακολουθιών, η µέθοδος αϖαιτεί την κατασκευή n- διάστατου ισοδύναµου ϖίνακα µε τον ϖίνακα ϖου κατασκευάζεται στην ϖερίϖτωση του δυναµικού ϖρογραµµατισµού κατά ζεύγη (pairwise). Σύµφωνα µε τα ϖαραϖάνω γίνεται κατανοητό ότι το ϖεδίο αναζήτησης (search space) αυξάνει εκθετικά όσο αυξάνει ο αριθµός των ακολουθιών και εϖίσης ο αλγόριθµος αυτός εξαρτάται και αϖό το µήκος των ακολουθιών. Για να βρεθεί η καταλληλότερη ολική συστοίχιση για n αριθµό ακολουθιών έχει δειχτεί ότι είναι ένα ϖρόβληµα NP-ϖλήρες (NP-complete) [36,37]. Ωστόσο έχουν αναϖτυχθεί µέθοδοι για την ελάττωση του ϖεδίου αναζήτησης µε τη χρήση δυναµικού ϖρογραµµατισµού κατά ζεύγη σε κάθε ζεύγος των ακολουθιών και στη συνέχεια γίνεται αναζήτηση µόνο στο ϖεδίο ϖου έχει βρεθεί κοντά στα αϖοτελέσµατα. Η διαδικασία αυτή λέγεται άθροισµα των ζευγαριών (sum of pairs) και χρησιµοϖοιείται στην MSA. Παρόλα αυτά ακόµα και αυτή η µέθοδος ϖαρουσιάζει ϖροβλήµατα όταν ϖρόκειται να χρησιµοϖοιηθούν µερικές δεκάδες ή και εκατοντάδες ακολουθίες. Η µέθοδος για MSA µε τη χρήση του

68 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 68 δυναµικού ϖρογραµµατισµού τώρα χρησιµοϖοιείται µόνο όταν χρειάζεται µια καλής ϖοιότητας συστοίχιση ενός µικρού αριθµού ακολουθιών και µόνο στην ϖερίϖτωση αξιολόγησης νέων βελτιωµένων ευρετικών τεχνικών (heuristic techniques) Προοδευτική κατασκευή συστοίχισης (Progressive alignment construction) Μία µέθοδος για ευρετική αναζήτηση συστοίχισης είναι η ϖροοδευτική τεχνική (γνωστή εϖίσης και ως ιεραρχική ή δενδροειδής µέθοδος) ϖου χτίζει µια MSA αφού ϖρώτα έχει εκτελέσει µια σειρά αϖό συστοιχίσεις κατά ζεύγη σε διαδοχικές λιγότερο συσχετισµένες ακολουθίες. Στη µέθοδο αυτή ξεκινά η συστοίχιση των δύο κοντινότερα συσχετισµένων ακολουθιών και στη συνέχεια διαδοχικά συστοιχίζεται η εϖόµενη κοντινότερη ακολουθία του συνόλου δεδοµένων στη συστοίχιση ϖου ϖαράχθηκε στο ϖροηγούµενο βήµα. Το αρχικό «κοντινότερο» (closely related) ζευγάρι καθορίζεται µε µια αϖοτελεσµατική µέθοδο οµαδοϖοίησης, όϖως για ϖαράδειγµα τη µέθοδο του κοντινότερου γείτονα, (neighbor-joining) ϖου βασίζεται σε αϖλή ευρετική αναζήτηση των ακολουθιών αϖό ένα εργαλείο όϖως το FASTA. Οι ϖροοδευτικές τεχνικές αυτόµατα κατασκευάζουν ένα φυλογενετικό δέντρο και µια συστοίχιση. Ένα αϖό τα µεγάλα µειονεκτήµατα των ϖροοδευτικών µεθόδων είναι ότι εξαρτώνται αϖό την αρχική ανάθεση τιµών συσχέτισης και την ϖοιότητα της αρχικής συστοίχισης. Οι µέθοδοι είναι ευαίσθητες στον τρόϖο ϖου γίνεται η κατανοµή των ακολουθιών µέσα στο σύνολο δεδοµένων και η αϖόδοσή τους βελτιώνεται όταν η συσχέτιση µεταξύ των ακολουθιών αλλάζει σχετικά οµαλά, ϖαρά όταν υϖάρχουν οµάδες ακολουθιών αϖοµακρυσµένες µεταξύ τους. Η αϖόδοση εϖίσης ϖέφτει σηµαντικά όταν οι ακολουθίες ϖου µελετώνται είναι αρκετά αϖοµακρυσµένες (distantly related), γιατί είναι ϖιθανότερο να υϖάρχουν ανακρίβειες στην αρχική συστοίχιση. Οι ϖερισσότερες νέες ϖροοδευτικές µέθοδοι διαφοροϖοιούν τη συνάρτηση των εϖιδόσεων χρησιµοϖοιώντας µια δευτερογενή συνάρτηση βαρών ϖου αναθέτει συντελεστές κλιµάκωσης σε συγκεκριµένα µέλη του συνόλου δεδοµένων µε µη-γραµµικό τρόϖο, ϖου στηρίζονται στη φυλογενετική τους αϖόσταση αϖό τους κοντινότερους γείτονες. Η εϖιλογή των βαρών µϖορεί να βοηθήσει στην αξιολόγηση της συσχέτισης και να µετριάσει τα αϖοτελέσµατα

69 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 69 των σχετικά φτωχών αρχικών συστοιχίσεων αϖό τα ϖρώτα βήµατα της ϖροοδευτικής διαδικασίας. Οι συστοιχίσεις µε την ϖροοδευτική µέθοδο είναι ικανές να υλοϖοιηθούν σε µια µεγάλη γκάµα ϖολλών ακολουθιών και συχνά βρίσκονται υλοϖοιηµένες στο διαδίκτυο σε διάφορους εξυϖηρετητές έτσι ώστε οι χρήστες να µϖορούν να τις χρησιµοϖοιήσουν ελεύθερα. Ένας δηµοφιλής δικτυακός τόϖος ϖου διαθέτει τη µέθοδο της ϖροοδευτικής συστοίχισης είναι η τοϖοθεσία του Clustal [38], κυρίως η έκδοση µε τα βάρη το λεγόµενο ClustalW [39] στο όϖοιο η ϖρόσβαση µϖορεί να γίνει αϖό ϖολλά µέρη όϖως το GenomeNet, το EBI και το EMBNet. Οι διαφορετικές ϖύλες ή οι εφαρµογές µϖορούν να ϖοικίλουν στο γραφικό ϖεριβάλλον και φτιάχνουν διαφορετικές ϖαραµέτρους ϖου είναι ϖροσβάσιµες αϖό το χρήστη. Το Clustal χρησιµοϖοιείται εκτενώς σαν είσοδος για φυλογενετική κατασκευή δέντρων και για την ϖρόβλεψη δοµής ϖρωτεΐνης. Μια άλλη ϖροοδευτική µέθοδος, το T-Coffee [40], είναι ϖιο αργή αϖό τη µέθοδο του Clustal και τις εϖιµέρους µεθόδους του αλλά γενικά ϖαράγει ϖιο ακριβείς συστοιχίσεις για σύνολα ακολουθιών ϖερισσότερο αϖοµακρυσµένων µεταξύ τους. Το T-Coffee υϖολογίζει τις συστοιχίσεις κατά ζεύγη συνδυάζοντας τη συστοίχιση του ζευγαριού µε συστοιχίσεις ϖου ϖροκύϖτουν αϖό τις εϖιµέρους συστοιχίσεις κάθε ακολουθίας του ζευγαριού µε µια τρίτη ακολουθία. Χρησιµοϖοιεί την έξοδο αϖό το Clustal όϖως εϖίσης και αϖό ένα άλλο ϖρόγραµµα τοϖικής συστοίχισης το LALIGN, το οϖοίο βρίσκει ϖολλαϖλές ϖεριοχές (regions) τοϖικής συστοίχισης µεταξύ των δύο ακολουθιών. Η συστοίχιση ϖου ϖροκύϖτει και το φυλογενετικό δέντρο χρησιµοϖοιείται στη συνέχεια σαν οδηγός για την ϖαραγωγή νέων και µε µεγαλύτερη ακρίβεια συντελεστών βαρών. Εϖειδή οι ϖροοδευτικές µέθοδοι είναι ευρετικές δεν εγγυώνται τη σύγκλιση στη βέλτιστη λύση, η ϖοιότητα της συστοίχισης µϖορεί δύσκολα να αϖοτιµηθεί και µϖορεί να µην είναι βιολογικής σηµασίας. Μια σχετικά νέα ηµι-ϖροοδευτική µέθοδος ϖου βελτιώνει την ϖοιότητα της συστοίχισης έχει υλοϖοιηθεί στο ϖρόγραµµα PSAlign [41] Εϖαναληϖτικές µέθοδοι (Iterative methods) Ορισµένες µέθοδοι ϖαραγωγής ϖολλαϖλών συστοιχίσεων, ϖου ελαττώνουν τα εγγενή σφάλµατα των ϖροοδευτικών συστοιχίσεων, ταξινοµούνται ως «εϖαναληϖτικές». Αυτές οι µέθοδοι λειτουργούν

70 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 70 ϖαρόµοια µε τις ϖροοδευτικές µεθόδους, µε τη διαφορά ότι ξανασυστοιχίζουν εϖανειληµµένα τις αρχικές ακολουθίες, ενώ εϖίσης ϖροσθέτουν νέες ακολουθίες στη συνολική συστοίχιση. Ο βασικός λόγος για τον οϖοίο οι ϖροοδευτικές µέθοδοι εξαρτώνται τόσο ϖολύ αϖό την ϖοιότητα της αρχικής συστοίχισης είναι το γεγονός ότι αυτές οι αρχικές συστοιχίσεις ενσωµατώνονται ϖάντα στο τελικό αϖοτέλεσµα, δηλαδή, αϖό τη στιγµή ϖου µία ακολουθία έχει συστοιχηθεί στην ϖολλαϖλή συστοίχιση στη συνέχεια δεν µελετάται ξανά. Αυτή η ϖροσέγγιση βελτιώνει την αϖοδοτικότητα, σε βάρος όµως της ακρίβειας. Αντίθετα, οι εϖαναληϖτικές µέθοδοι µϖορούν να εϖιστρέψουν σε συστοιχίσεις ζευγών ϖου έχουν υϖολογιστεί ϖροηγουµένως, ενσωµατώνοντας έτσι υϖοσύνολα του συνόλου δεδοµένων µε τέτοιο τρόϖο ώστε να βελτιστοϖοιείται µία γενικευµένη αντικειµενική συνάρτηση, όϖως ϖ.χ. η εύρεση µίας εϖίδοσης ϖου να αϖοδίδει συστοίχιση υψηλής ϖοιότητας. Πολλές ϖαραλλαγές εϖαναληϖτικών τεχνικών έχουν υλοϖοιηθεί σε εϖίϖεδο ϖακέτου λογισµικού. Εϖίσης, στη βιβλιογραφία υϖάρχουν αρκετές χρήσιµες εϖιθεωρήσεις και συγκρίσεις των µεθόδων, γενικά όµως αϖοφεύγεται η εϖιλογή κάϖοιας «βέλτιστης» τεχνικής [42]. Το ϖακέτο λογισµικού PRRN/PR χρησιµοϖοιεί έναν αλγόριθµο τύϖου αναρρίχησης λόφου (hillclimbing algorithm) για τη βελτιστοϖοίηση της εϖίδοσης της τελικής συστοίχισης, και τη διόρθωση, τόσο των βαρών συστοίχισης, όσο και των τοϖικά διαφοροϖοιούµενων ϖεριοχών (ϖεριοχές µε «κενά») της ολικής συστοίχισης [43]. Η µέθοδος αυτή αϖοδίδει καλύτερα όταν χρησιµοϖοιείται για τη βελτίωση µίας συστοίχισης ϖου ϖροηγουµένως έχει ήδη υϖολογιστεί µε έναν ϖιο γρήγορο αλγόριθµο. Η συστοίχιση συγκεκριµένων µοτίβων εϖιτυγχάνεται στη συνέχεια µε τη χρήση ενός ϖίνακα αναϖαράστασης. Μία διαφορετική ϖροσέγγιση ϖου χρησιµοϖοιεί γρήγορες τοϖικές συστοιχίσεις σαν εισόδους για µία ϖιο αργή διαδικασία ολικής συστοίχισης υλοϖοιείται στο ϖακέτο λογισµικού CHAOS/DIALIGN [44]. Μία τρίτη δηµοφιλής εϖαναληϖτική µέθοδος είναι η MUSCLE (multiple sequence alignment by log-expectation). Η µέθοδος αυτή βελτιώνει τις ϖροοδευτικές µεθόδους µε τη χρήση ενός ϖιο ακριβούς µέτρου αϖόστασης για την αϖοτίµηση της σχέσης δύο ακολουθιών [45] ϖου υϖολογίζεται µεταξύ δύο εϖαναλήψεων.

71 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών Κρυφά µαρκοβιανά µοντέλα (Hidden Markov models) Τα κρυφά µαρκοβιανά µοντέλα (HMMs) είναι ϖιθανοκρατικά µοντέλα τα οϖοία µϖορούν να αναθέσουν ϖιθανότητες σε όλους τους δυνατούς συνδυασµούς µεταξύ των κενών, των ταυτίσεων και των µη-ταυτίσεων µε σκοϖό να ϖροσδιορίζουν την καλύτερη MSA ή ένα σύνολο µε ϖιθανές MSAs. Τα HMMs µϖορούν να ϖαράγουν µια µοναδική υψηλής εϖίδοσης έξοδο, αλλά µϖορούν εϖίσης να δηµιουργήσουν ένα σύνολο µε ϖιθανές συστοιχίσεις ϖου στη συνέχεια θα αϖοτιµηθούν για τη βιολογική τους σϖουδαιότητα. Εϖειδή τα HMMs είναι ϖιθανοκρατικά, δεν ϖαράγουν την ίδια λύση κάθε φορά ϖου τρέχουν στα ίδια δεδοµένα, έτσι δεν µϖορούν να εγγυηθούν τη σύγκλιση στην καταλληλότερη συστοίχιση. Τα HMMs µϖορούν να ϖαράγουν και ολικές και τοϖικές συστοιχίσεις. Παρόλο ϖου οι µέθοδοι των HMM έχουν αναϖτυχθεί σχετικά ϖρόσφατα, ϖροσφέρουν σηµαντικές βελτιώσεις στην υϖολογιστική ταχύτητα ειδικά για τις ϖεριϖτώσεις ακολουθιών ϖου ϖεριέχουν ϖεριοχές εϖικαλυϖτόµενες [46]. Τυϖικές µέθοδοι των HMMs δουλεύουν µε την αναϖαράσταση µιας MSA σε µορφή κατευθυνόµενου ακυκλικού γράφου γνωστό ως µερικής τάξης γράφο (partial-order graph) ϖου αϖοτελείται αϖό µια σειρά µε κόµβους ϖου αναϖαριστούν ϖιθανές εισόδους στις στήλες στην MSA. Με αυτή την αναϖαράσταση, µια στήλη ϖου διατηρείται εντελώς (αυτό συµβαίνει όταν όλες οι ακολουθίες στην MSA έχουν τον ίδιο χαρακτήρα στη ίδια συγκεκριµένη θέση) κωδικοϖοιείται σαν ένας µοναδικός κόµβος µε τόσες εξωτερικές συνδέσεις όσοι είναι οι ϖιθανοί χαρακτήρες στην εϖόµενη στήλη της συστοίχισης. Σε ένα τυϖικό κρυφό µαρκοβιανό µοντέλο, οι ορατές καταστάσεις (observed states) είναι χαρακτηριστικές στήλες στη συστοίχιση και οι κρυφές καταστάσεις (hidden states) αναϖαριστούν την υϖοτιθέµενη ϖρογονική ακολουθία αϖό την οϖοία οι ακολουθίες του συνόλου δεδοµένων έχουν ϖροέλθει. Ένας αϖοτελεσµατικός αλγόριθµος αναζήτησης, ϖαραλλαγή των δυναµικού ϖρογραµµατισµού, γνωστός ως Viterbi, χρησιµοϖοιείται γενικά για την εϖιτυχή συστοίχιση της συνεχώς αυξανόµενης MSA στην εϖόµενη ακολουθία του συνόλου δεδοµένων για να ϖαράγει µια νέα MSA [47]. Αυτή διαφέρει αϖό τις µεθόδους ϖροοδευτικής συστοίχισης γιατί η συστοίχιση των ϖροηγούµενων ακολουθιών συνεχώς ενηµερώνεται µε κάθε νέα εισαγωγή ακολουθίας. Όϖως µε τις ϖροοδευτικές µεθόδους, αυτή η µέθοδος µϖορεί να εϖηρεαστεί αϖό τη σειρά µε την οϖοία οι

72 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 72 ακολουθίες του συνόλου δεδοµένων εµϖλέκονται στη συστοίχιση, ειδικά όταν οι ακολουθίες είναι αϖοµακρυσµένες µεταξύ τους (distantly related) [46]. Υϖάρχουν αρκετά ϖρογράµµατα ϖου διαθέτουν ϖαραλλαγές των HMM µεθόδων και διακρίνονται για τη δυνατότητα κλιµάκωσης και την αϖοδοτικότητά τους, ϖαρόλο ϖου η χρήση µιας τέτοιας µεθόδου είναι ϖερισσότερο ϖολύϖλοκη αϖό τη χρήση των ϖερισσοτέρων ϖροοδευτικών µεθόδων. Η ϖιο αϖλή µέθοδος ϖεριέχεται στο ϖρόγραµµα POA (Partial-Order Alignment)[48], ενώ µια ϖαρόµοια αλλά ϖιο γενικευµένη µέθοδος αναϖτύσσεται στο ϖακέτο SAM (Sequence Alignment and Modeling System) [49]. Το SAM έχει χρησιµοϖοιηθεί σαν ϖηγή συστοιχίσεων για ϖρόβλεψη δοµής ϖρωτεϊνών µε σκοϖό τη συµµετοχή στο CASP ϖείραµα, καθώς και στην ανάϖτυξη µιας βάσης δεδοµένων µε ϖρωτεΐνες ϖου ϖρόκειται να ϖροβλεφθούν, των ζυµοµυκήτων S. Cerevisiae. Οι µέθοδοι HMM µϖορούν εϖίσης να χρησιµοϖοιηθούν για αναζήτηση σε βάσεις δεδοµένων µε το ϖακέτο HMMer [50] Γενετικοί αλγόριθµοι και µέθοδος ϖροσοµοιωµένης ανόϖτησης (Genetic algorithms and simulated annealing) Οι δύο αυτοί κλασικοί αλγόριθµοι βελτιστοϖοίησης στην ϖληροφορική έχουν εµϖνευστεί, αλλά όχι αναϖαραχθεί άµεσα, αϖό φυσικές διαδικασίες. Χρησιµοϖοιούνται στη βιοϖληροφορική µε στόχο να ϖαράγουν αϖοτελεσµατικότερες και µεγαλύτερης ϖοιότητας MSAs. Τεχνικές όϖως οι γενετικοί αλγόριθµοι, έχουν χρησιµοϖοιηθεί στην ϖαραγωγή MSA σε µια ϖροσϖάθεια να ϖροσοµοιώσουν γενικά την υϖοτιθέµενη εξελικτική διαδικασία η όϖοια έχει σαν αϖοτέλεσµα την εξελικτική αϖόκλιση µεταξύ των ακολουθιών ϖου εξετάζονται. Η µέθοδος λειτουργεί µε τη διάσϖαση µιας σειράς ϖιθανών MSAs σε κοµµάτια (fragments) ϖου στη συνέχεια ξανατακτοϖοιεί εϖανειληµµένα µε την εϖιϖλέον εισαγωγή των κενών σε διάφορες θέσεις. Μια γενικά αντικειµενική συνάρτηση βελτιστοϖοιείται κατά τη διάρκεια της ϖροσοµοίωσης, µε τη µεγιστοϖοίηση της συνάρτησης «άθροισµα κατά ζεύγη» ϖου ϖαρουσιάζεται στις βασισµένες στο δυναµικό ϖρογραµµατισµό µεθόδους ϖαραγωγής MSA. Μια τεχνική ϖου χειρίζεται ακολουθίες ϖρωτεϊνών έχει υλοϖοιηθεί στο ϖρόγραµµα SAGA (Sequence Alignment by Genetic Algorithm) [51] και το αντίστοιχο για RNA ακολουθίες ονοµάζεται RAGA [52].

73 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 73 Σύµφωνα µε την τεχνική της ϖροσοµοιωµένης ανόϖτησης, µια MSA ϖου ϖαράγεται αϖό µια άλλη µέθοδο εϖαναϖροσδιορίζεται µε µια σειρά αϖό εϖανατοϖοθετήσεις σχεδιασµένες να βρουν ϖιο κατάλληλες ϖεριοχές συστοιχίσεων αϖό αυτές ϖου έχουν ήδη βρεθεί. Όϖως και στην ϖερίϖτωση των γενετικών αλγόριθµων, η µέθοδος της ϖροσοµοιωµένης ανόϖτησης µεγιστοϖοιεί µια αντικειµενική συνάρτηση, ϖχ. τη συνάρτηση αθροίσµατος κατά ζεύγη. Η ϖροσοµοιωµένη ανόϖτηση χρησιµοϖοιεί µεταφορικά έναν «ϖαράγοντα θερµοκρασίας» (temperature factor) ϖου καθορίζει το ϖοσοστό µε τον οϖοίο οι εϖανατοϖοθετήσεις ϖροχωρούν, καθώς και την ϖιθανότητα της κάθε εϖανατοϖοθέτησης. Έτσι σε µια τυϖική χρήση εναλλάσσονται ϖερίοδοι µε υψηλά ϖοσοστά εϖανατοϖοθετήσεων και χαµηλής σχετικά ϖιθανότητας (για να ερευνηθούν ϖιο αϖοµακρυσµένες µεταξύ τους ϖεριοχές µέσα στη συστοίχιση), µε ϖεριόδους χαµηλότερου ϖοσοστού εϖανατοϖοθέτησης και µεγαλύτερης ϖιθανότητας, για να εξερευνήσουν εκτενώς τοϖικά ελάχιστα κοντά στις καινούργιες ϖεριοχές. Αυτή η ϖροσέγγιση έχει υλοϖοιηθεί στο ϖρόγραµµα MSASA (Multiple Sequence Alignment by Simulated Annealing) [53] Εύρεση µοτίβων (Motif finding) Η εύρεση µοτίβων, γνωστή και ως ανάλυση ϖροφίλ (profile analysis), αϖοτελεί µια µέθοδο εντοϖισµού µοτίβων ακολουθιών σε ολικές MSAs, όϖου κατά κάϖοιο τρόϖο ϖαράγουν καλύτερες MSA και καλύτερο ϖίνακα εϖιδόσεων (scoring matrix) για την ανίχνευση στη συνέχεια εύρεσης άλλων ακολουθιών µε ϖαρόµοια µοτίβα. Έχει αναϖτυχθεί µια ϖληθώρα µεθόδων για την αϖοµόνωση των µοτίβων, όµως οι ϖερισσότερες αϖό αυτές βασίζονται στη αναγνώριση µικρών «µεγάλης οµοιότητας» ϖροτύϖων µέσα στη συστοίχιση και κατασκευάζουν ϖίνακα όµοιο µε τον ϖίνακα αντικατάστασης ϖου αϖεικονίζει τη θέση των αµινοξέων ή των νουκλεοτιδίων µέσα στο µοτίβο. Η συστοίχιση µϖορεί να καθοριστεί χρησιµοϖοιώντας αυτούς τους ϖίνακες. Στην ανάλυση ϖροφίλ, ο ϖίνακας ϖεριέχει εισόδους για κάθε ϖιθανό χαρακτήρα καθώς και για τα κενά [46]. Εναλλακτικά, στατιστικοί αλγόριθµοι εύρεσης ϖροτύϖου µϖορούν να αναγνωρίσουν µοτίβα ως ϖρόδροµους στην MSA ϖαρά ως ϖαραγόµενα αϖοτελέσµατα. Σε ϖολλές ϖεριϖτώσεις όταν το σύνολο δεδοµένων ϖεριέχει µόνο ένα µικρό αριθµό ακολουθιών ή ϖεριέχονται ακολουθίες µε µεγάλο ϖοσοστό οµοιότητας (κοντινές

74 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 74 µεταξύ τους), εισάγονται ψευδοµετρήσεις για να κανονικοϖοιηθεί η κατανοµή ϖου αϖεικονίζεται στο ϖίνακα των εϖιδόσεων. Ειδικότερα αυτό διορθώνει τις µηδενικές ϖιθανότητες µέσα στο ϖίνακα σε τιµές µικρές, αλλά µη µηδενικές. Η ανάλυση φραγµάτων (blocks analysis) αϖοτελεί µια µέθοδο αναζήτησης µοτίβων η οϖοία ϖεριορίζει τα µοτίβα σε ϖεριοχές χωρίς κενά στη συστοίχιση. Τα φράγµατα µϖορούν να δηµιουργηθούν αϖό µια MSA ή µϖορούν να εξαχθούν αϖό ακολουθίες µη συστοιχισµένες χρησιµοϖοιώντας ένα σύνολο κοινών µοτίβων ϖου έχουν ϖροηγουµένως δηµιουργηθεί αϖό γνωστές οικογένειες γονιδίων [54]. Η εϖίδοση των φραγµάτων βασίζεται γενικά στη συχνότητα εµφάνισης των χαρακτήρων ϖαρά στον υϖολογισµό ενός ϖίνακα αντικατάστασης. Ο εξυϖηρετητής BLOCKS ϖαρέχει µια µέθοδο αλληλεϖίδρασης µε το χρήστη για να εντοϖίσει τέτοια µοτίβα µέσα σε µη συστοιχισµένες ακολουθίες [55]. Οι στατιστικοί αλγόριθµοι εύρεσης ϖροτύϖου έχουν υλοϖοιηθεί µε τη χρήση του αλγόριθµου εκτίµησης-µεγιστοϖοίησης (expectationmaximization algorithm) και της συνάρτησης δειγµατοληψίας Gibbs (gibbs sampler). Ένα αϖό τα ϖιο κοινά εργαλεία εύρεσης µοτίβων είναι το MEME. Το ϖρόγραµµα αυτό χρησιµοϖοιεί αλγόριθµους όϖως της εκτίµησης-µεγιστοϖοίησης και των κρυφών µαρκοβιανών µοντέλων για να ϖαράγει µοτίβα τα οϖοία στη συνέχεια χρησιµοϖοιούνται σαν εργαλεία αναζήτησης αϖό το ϖρόγραµµα MAST [56,57]. Παρακάτω φαίνεται η συστοίχιση αϖό εϖτά κασϖάσες δροσόφυλλων (ειδικές ϖρωτεάσες) ϖου χρωµατίστηκαν µε µοτίβα ϖου αναγνωρίστηκαν αϖό το ϖρόγραµµα MEME(Multiple Em for Motif Elicitation) (εικόνα 4.2) [58]. Παρατηρείται ότι όταν οι θέσεις των µοτίβων και οι συστοιχίσεις των ακολουθιών ϖαράγονται ανεξάρτητα, µϖορούν συχνά να συσχετιστούν καλά αλλά όχι τέλεια. Εικόνα 4.2: Συστοίχιση εϖτά ϖρωτεϊνών (κασϖάσες δροσόφιλλες) µε το ΜΕΜΕ.

75 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών Κρυφά µαρκοβιανά µοντέλα Εισαγωγή Ένα κρυφό µαρκοβιανό µοντέλο (Hidden Markov Model- HMM) είναι η αναϖαράσταση µιας µαρκοβιανής διαδικασίας η οϖοία δεν είναι ορατή. Η ιδιαιτερότητα των κρυφών µαρκοβιανών µοντέλων είναι ότι οι καταστάσεις του µοντέλου δεν αντιστοιχούν σε κάϖοιο φυσικό γεγονός όϖως συµβαίνει στα αϖλά µαρκοβιανά µοντέλα. Τα HMM είναι λοιϖόν µία διϖλά στοχαστική διαδικασία ϖεριλαµβάνοντας µια διαδικασία η οϖοία δεν είναι ορατή (είναι κρυφή) και µία η οϖοία είναι, και ϖαράγει µια ακολουθία ορατών εξόδων. Κάθε κατάσταση του µοντέλου χαρακτηρίζεται αϖό δύο σύνολα ϖιθανοτήτων: την ϖιθανότητα µετάβασης και τη διακριτή κατανοµή ϖιθανότητας εξόδου η οϖοία µε δεδοµένη την κατάσταση καθορίζει τη δεσµευµένη ϖιθανότητα εκϖοµϖής κάϖοιου αϖό τα σύµβολα εξόδου (ϖου υϖάρχουν σε ένα ϖεϖερασµένο αλφάβητο, στην ϖροκειµένη ϖερίϖτωση το αλφάβητο των 20 αµινοξέων συν του κενού συµβόλου). Πριν καθοριστεί ϖλήρως το ΗΜΜ θα δοθεί ένα ϖαράδειγµα ϖώς µϖορεί να ϖεράσει κάϖοιος αϖό µια µαρκοβιανή διαδικασία σε ένα κρυφό µαρκοβιανό µοντέλο ϖροκειµένου να γίνει ϖερισσότερο κατανοητή η διαδικασία Μαρκοβιανές αλυσίδες (Markov Chains) Έστω ότι υϖάρχουν τρεις καταστάσεις του καιρού: ήλιος, σύννεφα, και βροχή. Είναι φυσικό να µην ϖεριµένει κανείς να ακολουθούν η µια κατάσταση την άλλη αιτιοκρατικά (deterministic). Παρόλα αυτά θα µϖορούσε κανείς να ελϖίζει στην κατασκευή ενός µοντέλου του συστήµατος το οϖοίο ϖαράγει ένα ϖρότυϖο καιρού (weather pattern). Ένας τρόϖος για να γίνει αυτό είναι να υϖοτεθεί ότι η τωρινή κατάσταση του µοντέλου εξαρτάται µόνο αϖό την ϖροηγούµενη κατάστασή του. Αυτό ακριβώς ονοµάζεται µαρκοβιανή υϖόθεση και αϖλοϖοιεί κατά ϖολύ τα ϖροβλήµατα. Στην ϖερίϖτωση του καιρού, η µαρκοβιανή υϖόθεση θεωρεί ότι ο σηµερινός καιρός µϖορεί ϖάντα να ϖροβλεφθεί µεµονωµένα λαµβάνοντας υϖόψη τον καιρό ϖου είχε τις τελευταίες λίγες µέρες. Η µαρκοβιανή διαδικασία είναι µια διαδικασία ϖου κινείται αϖό κατάσταση σε κατάσταση βασιζόµενη (µόνο) στις ϖροηγούµενες n καταστάσεις. Η διαδικασία τότε καλείται n-τάξης του µοντέλου, όϖου n είναι ο αριθµός των καταστάσεων ϖου εϖηρεάζουν την

76 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 76 εϖιλογή στην εϖόµενη κατάσταση. Η αϖλούστερη µορφή µαρκοβιανής αλυσίδας είναι η ϖρώτης τάξης µαρκοβιανή αλυσίδα, όϖου η εϖιλογή της τωρινής κατάστασης εξαρτάται µόνο αϖό την ϖροηγούµενη κατάσταση. Η εικόνα 4.3 δείχνει όλες τις ϖιθανές ϖρώτης τάξεως µεταβάσεις (transitions) µεταξύ των καταστάσεων του καιρού. Εικόνα 4.3: Πιθανές µεταβάσεις µεταξύ των καταστάσεων Ο ϖίνακας µεταβάσεων ϖου φαίνεται ϖαρακάτω δείχνει τις ϖιθανότητες µετάβασης µεταξύ των καταστάσεων του καιρού. Καιρός χθες Καιρός σήµερα Ήλιος Σύννεφα Βροχή Ήλιος Σύννεφα Βροχή Πίνακας 4.1: Πιθανότητες µετάβασης µεταξύ των καταστάσεων Σύµφωνα µε τον ϖίνακα 4.1 αν χθες είχε ήλιο υϖάρχει ϖιθανότητα 0.5 να έχει και σήµερα, 0.25 να έχει σύννεφα και 0.25 να έχει βροχή. Για την αρχικοϖοίηση του συστήµατος χρειάζεται να δηλωθεί ϖοιος ήταν ο καιρός (ή ϖοιος µϖορεί να ήταν) τη µέρα µετά τη δηµιουργία του µοντέλου, για αυτόν το λόγο καθορίζεται ένα διάνυσµα αρχικών ϖιθανοτήτων ϖου ονοµάζεται π διάνυσµα (ϖίνακας 4.2). Έτσι µϖορεί κανείς να γνωρίζει για ϖαράδειγµα ότι είχε ήλιο την ϖρώτη µέρα.

77 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 77 Ήλιος Σύννεφα Βροχή Πίνακας 4.2: ιάνυσµα αρχικών ϖιθανοτήτων του µαρκοβιανού µοντέλου Τώρα έχει οριστεί ϖλήρως η ϖρώτης τάξης µαρκοβιανή αλυσίδα ϖου αϖοτελείται αϖό: τις καταστάσεις: τρεις καταστάσεις (ήλιος, σύννεφα, βροχή) το διάνυσµα αρχικοϖοίησης: ϖιθανότητες συστήµατος να είναι σε καθεµία αϖό τις καταστάσεις τη χρονική στιγµή 1 τον ϖίνακα µετάβασης: ϖιθανότητες του καιρού δεδοµένου του καιρού της ϖροηγούµενης µέρας. Οϖοιοδήϖοτε σύστηµα ϖου µϖορεί να ϖεριγραφεί µε το ϖαραϖάνω τρόϖο αϖοτελεί µια µαρκοβιανή διαδικασία Μετάβαση στα κρυφά µαρκοβιανά µοντέλα Σε µερικές ϖεριϖτώσεις τα ϖρότυϖα ϖου θέλει κάϖοιος να βρει δεν µϖορούν να ϖεριγραφούν εϖαρκώς µε τη µαρκοβιανή διαδικασία. Εϖιστρέφοντας στο ϖαράδειγµα του καιρού έστω ότι ένας ερηµίτης δεν µϖορεί να έχει ϖρόσβαση αϖευθείας στις ϖαρατηρήσεις του καιρού, αλλά έχει ϖρόσβαση σε µια συστάδα αϖό φύκια! Σύµφωνα µε την ϖαράδοση οι καταστάσεις ϖου έχει ένα φύκι συνδέονται ϖιθανοκρατικά µε τις καταστάσεις του καιρού, έτσι τα φύκια και ο καιρός είναι κοντινά συσχετισµένα. Σε αυτή την ϖερίϖτωση έχουµε δύο σύνολα καταστάσεων: τις ορατές καταστάσεις (καταστάσεις του φυκιού) τις κρυφές καταστάσεις (καταστάσεις του καιρού) Σε αυτήν την ϖερίϖτωση ζητείται να σχεδιαστεί ένας νέος αλγόριθµος για τον ερηµίτη να ϖροβλέϖει τον καιρό αϖό τα φύκια και µια νέα µαρκοβιανή υϖόθεση χωρίς στη ουσία να δει ϖοτέ τον καιρό. Το διάγραµµα ϖαρακάτω δείχνει τις ορατές και τις κρυφές καταστάσεις για το ϖαράδειγµα του καιρού. Γίνεται η υϖόθεση ότι οι κρυφές καταστάσεις (ϖραγµατικός καιρός) µοντελοϖοιούνται αϖό ένα αϖλό µαρκοβιανό µοντέλο ϖρώτης τάξης και έτσι είναι όλα συνδεµένα µεταξύ τους.

78 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 78 Εικόνα 4.4: Το κρυφό µαρκοβιανό µοντέλο του καιρού µε τις ορατές (νοτισµένο, σχετικά νοτισµένο, σχετικά ξηρό, ξηρό) και τις κρυφές καταστάσεις (ήλιος, σύννεφα, βροχή) Οι συνδέσεις µεταξύ των κρυφών και των ορατών καταστάσεων εκϖροσωϖούν την ϖιθανότητα ϖαραγωγής της συγκεκριµένης ορατής κατάστασης δεδοµένου ότι η µαρκοβιανή διαδικασία είναι σε µια συγκεκριµένη κρυφή κατάσταση. Έτσι γίνεται κατανοητό ότι όλες οι ϖιθανότητες εισαγωγής µιας ορατής κατάστασης αθροίζει στο ένα. Στη συγκεκριµένη ϖερίϖτωση θα ισχύει: Pr( O i), όπου i=ήλιος, συννεφα, βροχή (1) i Εϖίσης δίνεται ο ϖίνακας: Καιρός Ξερά Σχετικά ξερά Φύκια Σχετικά νοτισµένα Νοτισµένα Ήλιος Σύννεφα Βροχή Πίνακας 4.3: Πίνακας εξόδου για τις ορατές καταστάσεις Εκτός αϖό τις ϖιθανότητες, για να καθοριστεί η µαρκοβιανή διαδικασία, χρειάζεται και ένας εϖιϖλέον ϖίνακας ϖου λέγεται ϖίνακας εξόδου (output matrix). Ο ϖίνακας αυτός ϖεριέχει τις

79 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 79 ϖιθανότητες των ορατών καταστάσεων δοσµένης µιας συγκεκριµένης κρυφής κατάστασης. Στην ϖερίϖτωση του καιρού ο ϖίνακας είναι ο ϖαραϖάνω (ϖίνακας 4.3) Τώρα µϖορεί να οριστεί ϖλήρως το ϖρώτης τάξης κρυφό µαρκοβιανό µοντέλο το οϖοίο ϖεριέχει τρία σύνολα ϖιθανοτήτων και δύο σύνολα καταστάσεων. Το µοντέλο αϖοτελείται αϖό: τις καταστάσεις: δυο συνόλων καταστάσεων (καιρού, φυκιού) το διάνυσµα αρχικοϖοίησης: ϖεριέχει τις ϖιθανότητες του κρυφού µοντέλου να είναι σε µια συγκεκριµένη κρυφή κατάσταση τη χρονική στιγµή 1. τον ϖίνακα µετάβασης: ϖεριέχει τις ϖιθανότητες µετάβασης των κρυφών καταστάσεων δεδοµένου ότι βρισκόντουσαν σε µια συγκεκριµένη κρυφή κατάσταση την ϖροηγούµενη χρονική στιγµή. τον ϖίνακα εξόδου: ϖεριέχει τις ϖιθανότητες των ορατών καταστάσεων δεδοµένου ότι η κρυφή κατάσταση είναι σε µια συγκεκριµένη κρυφή κατάσταση. Κατά συνέϖεια ένα κρυφό µαρκοβιανό µοντέλο είναι µια τυϖοϖοιηµένη µαρκοβιανή διαδικασία εµϖλουτισµένη µε ένα σύνολο ορατών καταστάσεων και µερικές ϖιθανοκρατικές σχέσεις µεταξύ των κρυφών καταστάσεων Παράδειγµα ΗΜΜ ϖρωτεΐνης Στην εικόνα 4.5 φαίνεται ένα ϖιθανό ΗΜΜ για την ϖρωτεΐνη ACCY (Το ΗΜΜ του ϖαραδείγµατος αϖοτελεί την αρχιτεκτονική του µοντέλου ϖάνω στην οϖοία εφαρµόστηκαν οι νέοι αλγόριθµοι της διατριβής). Η ϖρωτεΐνη αναϖαρίσταται σαν µια ακολουθία ϖιθανοτήτων. Οι αριθµοί στα τετράγωνα δείχνουν την ϖιθανότητα ένα αµινοξύ να βρίσκεται στη συγκεκριµένη κατάσταση, οι αριθµοί δίϖλα στα βελάκια δείχνουν ϖιθανότητες ϖου συνδέουν τις καταστάσεις µεταξύ τους. Η ϖιθανότητα της ϖρωτεΐνης ACCY είναι η ϖιθανότητα ϖου αντιστοιχεί στο µονοϖάτι ϖου φαίνεται ϖιο έντονα σκιασµένο στην εικόνα. Υϖάρχουν τρία είδη καταστάσεων ϖου αναϖαρίστανται µε τρία διαφορετικά σχήµατα. Τα τετράγωνα αϖοτελούν τις καταστάσεις ταύτισης (match states) και τα αµινοξέα ϖου εκϖέµϖονται αϖό αυτά διαµορφώνουν τη διατηρηµένη ϖρωτοταγή δοµή της ϖρωτεΐνης. Αυτά τα αµινοξέα είτε είναι τα ίδια µε αυτά των ϖρογονικών ακολουθιών, είτε είναι αϖοτέλεσµα αντικαταστάσεων. Οι ρόµβοι αϖοτελούν τις καταστάσεις εισαγωγής

80 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 80 (insert states) και εκϖέµϖουν αµινοξέα ϖου ϖροέρχονται αϖό τις εισαγωγές. Οι κύκλοι σιωϖηλές καταστάσεις γνωστές ως καταστάσεις διαγραφής (delete states). Αυτοί οι τύϖοι των HMMs ονοµάζονται ϖρωτεϊνικά ϖροφίλ HMMs (Protein Profile HMMs) και είναι αυτά ϖου θα αναλυθούν σε βάθος ϖαρακάτω. Εικόνα 4.5: Παράδειγµα ΗΜΜ της ACCY ϖρωτεΐνης Εϖίδοση ακολουθίας µε ΗΜΜ Κάθε ακολουθία µϖορεί να αναϖαρασταθεί µε ένα µονοϖάτι στο ΗΜΜ. Η ϖιθανότητα κάθε ακολουθίας ενός µοντέλου µϖορεί να υϖολογιστεί µε τον ϖολλαϖλασιασµό των ϖιθανοτήτων εκϖοµϖής και µετάβασης. Για ϖαράδειγµα στην εικόνα 4.5 η ϖιθανότητα για το µονοϖάτι της ακολουθίας ACCY συνολικά είναι (ϖροκύϖτει αν υϖολογίσω το γινόµενο όλων των ϖιθανοτήτων: ) Χαρακτηριστικά κρυφού µαρκοβιανού µοντέλου Ένα ΗΜΜ έχει τα ακόλουθα χαρακτηριστικά : Τ το µήκος της ακολουθίας Ν ο αριθµός των καταστάσεων του µοντέλου. Παρόλο ϖου οι καταστάσεις είναι κρυφές, για ϖολλές ϖρακτικές εφαρµογές υϖάρχει κάϖοια φυσική σηµασία για τις καταστάσεις ή οµάδες καταστάσεων του µοντέλου. Οι καταστάσεις συνήθως συνδέονται µε τέτοιο τρόϖο ώστε κάθε κατάσταση να µϖορεί να έχει ως εϖόµενη οϖοιαδήϖοτε αϖό τις άλλες S το σύνολο των καταστάσεων {S 1,S 2,.,S N} αϖό τη χρονική στιγµή 1 ως q t

81 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 81 q t η κατάσταση τη χρονική στιγµή t Μ ο αριθµός των ορατών συµβόλων (ϖχ. το µέγεθος του διακριτού αλφάβητου). Τα σύµβολα εξόδου αντιστοιχούν στη φυσική έξοδο του συστήµατος το οϖοίο µοντελοϖοιείται V τα σύµβολα των ορατών καταστάσεων {v 1,v 2,,v M} a ij η ϖιθανότητα µετάβασης των καταστάσεων Α αϖό την κατάσταση i στην κατάσταση j όϖου: A= {a ij}= Pr[q t+1= S j q t = S i], 1 i, j N (2) b j(k) η ϖιθανότητα των ορατών συµβόλων Β στην κατάσταση j όϖου: B=b j(k)=pr[vk όταν q t = S j], 1 j N και 1 k M (3) ϖi η κατανοµή της αρχικής κατάστασης ϖ όϖου: π= {π i} = Pr[q 1 = S i], 1 i N (4) Όταν δοθούν κατάλληλες τιµές στα Ν, Μ, Α, Β και ϖ το ΗΜΜ µϖορεί να χρησιµοϖοιηθεί σαν γεννήτρια ώστε να µας δώσει µια ακολουθία εξόδων: O = O1O 2...OT (5) όϖου κάθε έξοδος Ο t είναι ένα αϖό τα σύµβολα αϖό το V και Τ είναι το µήκος της ακολουθίας. Είναι φανερό αϖό τα ϖαραϖάνω ότι για τον ϖλήρη ϖροσδιορισµό ενός ΗΜΜ ϖρέϖει να καθοριστούν δύο ϖαράµετροι του µοντέλου (οι Ν και Μ ), να καθοριστούν τα σύµβολα εξόδου καθώς εϖίσης και τρία στατιστικά µεγέθη (Α, Β και ϖ). Για λόγους συντοµίας, όταν γίνεται αναφορά στο σύνολο ϖαραµέτρων του µοντέλου θα χρησιµοϖοιείται ο ακόλουθος συµβολισµός λ = (Α, Β, ϖ).

82 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών Τρία βασικά ϖροβλήµατα των κρυφών µαρκοβιανών µοντέλων εδοµένης της µορφής του ΗΜΜ ϖου ϖεριγράφτηκε ϖροηγουµένως, υϖάρχουν τρία βασικά ϖροβλήµατα στα οϖοία ϖρέϖει να δοθεί ικανοϖοιητική λύση ϖροτού το µοντέλο χρησιµοϖοιηθεί σε εφαρµογές [59]. Τα ϖροβλήµατα εν συντοµία είναι τα ακόλουθα : Πρόβληµα 1: Με δεδοµένη την ακολουθία εξόδων Ο = Ο 1Ο 2 Ο Τ και το µοντέλο λ=(α, Β, ϖ) ϖώς µϖορεί να υϖολογιστεί αϖοδοτικά η ϖιθανότητα Ρr(Ο λ), δηλαδή η ϖιθανότητα η συγκεκριµένη ακολουθία να έχει αναϖαραχθεί αϖό το συγκεκριµένο µοντέλο Πρόβληµα 2: Με δεδοµένη την ακολουθία εξόδων Ο = Ο 1Ο 2 Ο Τ και το µοντέλο λ=(α, Β, ϖ) ϖως µϖορεί να ϖροσδιοριστεί µία ακολουθία καταστάσεων Q = q 1q 2 q T η οϖοία είναι η βέλτιστη κατά τρόϖο ϖου να έχει κάϖοια φυσική σηµασία. (ϖχ. να εξηγεί την ακολουθία των εξόδων) Πρόβληµα 3: Με δεδοµένη την ακολουθία εξόδων Ο = Ο1Ο2 ΟΤ ϖως µϖορούν να ϖροσδιοριστούν οι βέλτιστες ϖαράµετροι του µοντέλου λ=(α, Β, ϖ) ώστε να µεγιστοϖοιείται η ϖιθανότητα Ρr (Ο λ). Στη συνέχεια δίνεται συνοϖτικά το µαθηµατικό υϖόβαθρο ϖου χρησιµοϖοιείται για τη λύση των τριών αυτών ϖροβληµάτων καθώς και η εφαρµογή τους σε ένα αϖλό ϖαράδειγµα. Πρόβληµα 1 Το ϖρόβληµα αυτό ονοµάζεται ϖρόβληµα εκτίµησης. Πρέϖει να εκτιµηθεί η ϖιθανότητα, δεδοµένης της ακολουθίας εξόδων και του µοντέλου, η συγκεκριµένη ακολουθία να ϖροήλθε αϖό το συγκεκριµένο µοντέλο. Μϖορεί εϖίσης να θεωρηθεί και ως ϖρόβληµα «εϖίδοσης» της ακολουθίας (scoring sequence), δηλαδή του ϖόσο ϖολύ «ταιριάζει» η συγκεκριµένη ακολουθία µε το µοντέλο. Η τελευταία αυτή ϖροσέγγιση είναι ιδιαιτέρως χρήσιµη όταν υϖάρχει µια δοσµένη ακολουθία και ϖολλά µοντέλα αϖό τα οϖοία µϖορεί η ακολουθία αυτή να έχει ϖροέλθει. Η λύση σε αυτό το ϖρόβληµα θα δίνει και την αϖάντηση σε ϖοιο µοντέλο «ταιριάζει» ϖερισσότερο η δοσµένη ακολουθία. Ο ϖιο ϖροφανής τρόϖος για τον υϖολογισµό της ϖιθανότητας η δεδοµένη ακολουθία να έχει ϖροέλθει αϖό το συγκεκριµένο µοντέλο

83 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 83 είναι αριθµώντας κάθε ϖιθανή ακολουθία καταστάσεων, µήκους Τ (όσο είναι και το µήκος της ακολουθίας εξόδων). Έστω µια τέτοια ακολουθία: Q = q1q 2...qT (6) όϖου q 1 είναι η αρχική κατάσταση. Η ϖιθανότητα να ϖροκύψει η δεδοµένη ακολουθία εξόδων µε ακολουθία καταστάσεων την (1),υϖοθέτοντας στατιστική ανεξαρτησία των ϖαρατηρήσεων είναι: T Pr(O Q t, ) = Pr(Q t q t, ) λ t=1 λ (7) η οϖοία γράφεται και Pr(O Q, λ ) = b q 1(O 1) b q 2(O 2 )...b qt(o T) (8) Η ϖιθανότητα να ϖροκύψει µια τέτοια ακολουθία Q είναι: Pr(Q, λ ) = p q 1 a q 1 q 2 a q 2 q 3...aqT- 1 qt (9) Η δεσµευµένη ϖιθανότητα να είναι η ακολουθία Ο, δεδοµένου ότι η ακολουθία καταστάσεων είναι η Q, είναι το γινόµενο των δύο ϖαραϖάνω όρων δηλαδή: Pr(O,Q λ) = Pr(O Q, λ) Pr(Q, λ ) (10) Η ϖιθανότητα να είναι η ακολουθία εξόδων Ο (µε δεδοµένο το µοντέλο), µϖορεί να υϖολογιστεί ως άθροισµα των ϖαραϖάνω δεσµευµένων ϖιθανοτήτων για όλες τις ϖιθανές ακολουθίες q και είναι: Pr(O λ ) = Pr(O Q, λ ) Pr(Q, λ ) = allq π (11) = q 1 b q 1(O 1) aq 1 q 2 b q 2(O 2)...aqT- 1 qtb qt(o T) q1,q 2,...,qT Εύκολα γίνεται αντιληϖτό ϖως η ϖαραϖάνω λύση µϖορεί να είναι η ϖιο ϖροφανής αλλά το υϖολογιστικό της κόστος είναι

84 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 84 τεράστιο. Ο υϖολογισµός της Ρ(Ο λ) σύµφωνα µε τη σχέση (11) ϖεριλαµβάνει 2Τ Ν Τ υϖολογισµούς ϖράγµα το οϖοίο σηµαίνει ϖως για ένα µικρό σχετικά µοντέλο µε Ν=5 και µήκος ακολουθίας Τ=100 θα χρειαστούν υϖολογισµοί. Η ανάγκη για µια ϖιο αϖοδοτική λύση είναι ϖροφανής. Η λύση αυτή είναι η εµϖρός - ϖίσω τεχνική (forward-backward) και ϖεριγράφεται στη συνέχεια. Έστω η ϖρος τα εµϖρός µεταβλητή α t(i) η οϖοία ορίζεται ως εξής: a t(i) = Pr(O 1O 2...O t, q t = S i λ ) (12) η οϖοία είναι η ϖιθανότητα να έχει ϖροκύψει, µε δεδοµένο το µοντέλο, το µέρος της ακολουθίας Ο 1Ο 2 Ο t (µέχρι τη χρονική στιγµή t) και κατάσταση τη στιγµή t την S i. Έτσι το α t(i) υϖολογίζεται εϖαγωγικά το ως εξής: Αρχικοϖοίηση - Χρονική στιγµή 1: a 1(i) = π ib i(o 1), 1 i N (13) Χρονική στιγµή t+1: (14) i=1 N a t+ 1(j) = a t(i) aij b j(o t+ 1),1 t T-1 και 1 j N Τερµατισµός: N Pr(O, λ) = a T(i) (15) i=1 Κατά τη χρονική στιγµή 1 αρχικοϖοιείται η ϖρος τα εµϖρός ϖιθανότητα ως τη δεσµευµένη ϖιθανότητα της κατάστασης S i όταν η ϖρώτη ϖαρατήρηση είναι η Ο 1. Το βήµα της χρονικής στιγµής t+1 αϖοτελεί και το κύριο µέρος της διαδικασίας. Η κατάσταση S j,τη χρονική στιγµή t+1, µϖορεί να ϖροέλθει αϖό τις N δυνατές καταστάσεις S i, µε 1 i N της χρονικής στιγµής t. Αφού η µεταβλητή α t(i) είναι η δεσµευµένη ϖιθανότητα να έχουµε ακολουθία εξόδου Ο 1Ο 2 Ο t όταν η κατάσταση τη χρονική στιγµή t είναι η S i, τότε το γινόµενο α t(i) a ij είναι η ϖιθανότητα να έχουµε ακολουθία εξόδου

85 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 85 Ο 1Ο 2 Ο t και η κατάσταση S j τη χρονική στιγµή t+1 έχει ϖροέλθει αϖό την κατάσταση S i της χρονικής στιγµής t. Αθροίζοντας αυτό το γινόµενο ϖάνω στις Ν ϖιθανές καταστάσεις S i τη χρονική στιγµή t, µε 1 i N, δίνει την ϖιθανότητα, τη χρονική στιγµή t+1, να ϖροκύψει η κατάσταση S j µε δεδοµένη τη µέχρι εκείνη τη στιγµή ακολουθία εξόδου. Αφού υϖολογιστεί το S j, το α t+1(j) υϖολογίζεται εύκολα µε ϖολλαϖλασιασµό του αθροίσµατος ϖου έχει ϖροκύψει µε την ϖιθανότητα στην κατάσταση j να έχουµε την έξοδο Ο t+1 δηλ. b j(o t+1). O ϖαραϖάνω υϖολογισµός γίνεται για όλες τις καταστάσεις j, µε 1 j N, για δεδοµένο t και εν συνεχεία εϖαναλαµβάνεται για t=1,2,,t-1. Τέλος, το τρίτο βήµα δίνει την εϖιθυµητή τιµή της Ρ(Ο λ) σαν το άθροισµα όλων των τελικών ϖρος τα εµϖρός µεταβλητών α Τ(i). Η αϖοδοτικότητα του συγκεκριµένου αλγόριθµου είναι σαφώς καλύτερη αϖό αυτή του ϖροηγούµενου. Οι υϖολογισµοί ϖου χρειάζονται είναι της τάξεως του Ν 2 Τ ϖράγµα το οϖοίο σηµαίνει ότι για µοντέλο ίδιο µε το ϖροηγούµενο (Ν=5 και Τ=100) χρειάζονται 2500 υϖολογισµοί (αντί για ). Το γεγονός ϖου αυξάνει την αϖοδοτικότητα του αλγόριθµου είναι ότι αφού υϖάρχουν µόνο Ν καταστάσεις, όλες οι δυνατές ακολουθίες θα ϖροκύϖτουν αϖό τις ίδιες Ν καταστάσεις κάθε χρονική στιγµή. Έτσι τη χρονική στιγµή t=1 υϖολογίζουµε τις τιµές α t(i) µε 1 i N. Τις χρονικές στιγµές t=2,3,,τ χρειάζεται να υϖολογιστούν µόνο οι τιµές α t(j) µε 1 j N, και ο κάθε υϖολογισµός ϖεριλαµβάνει µόνο Ν ϖροηγούµενες τιµές του α t-1(i) γιατί καθεµιά αϖό τις Ν καταστάσεις είναι η εϖόµενη κάϖοιας αϖό τις Ν, ίδιες καταστάσεις της ϖροηγούµενης χρονικής στιγµής. Με αντίστοιχο τρόϖο ορίζεται και η ϖρος τα ϖίσω διαδικασία και η ϖρος τα ϖίσω µεταβλητή β t(i). Να σηµειωθεί ότι η ϖρος τα ϖίσω διαδικασία χρησιµοϖοιείται για την εϖίλυση του ϖροβλήµατος της εκϖαίδευσης του µοντέλου και δε χρειάζεται για την εϖίλυση του ϖρώτου ϖροβλήµατος. Έτσι εϖιστρέφοντας στο ϖαράδειγµα της ϖρωτεΐνης έστω ότι ϖρέϖει να βρεθεί η ϖιθανότητα της ορατής ακολουθίας δοσµένου του ϖαρακάτω µοντέλου ΗΜΜ (εικόνα 4.6). Η τεχνική ϖρος τα εµϖρός (forward) όϖως έχει ήδη αναφερθεί υϖολογίζει την ϖιθανότητα αυτή και στην ουσία βρίσκει όλες τις ϖιθανότητες όλων των ϖιθανών ακολουθιών των κρυφών καταστάσεων και τις αθροίζει. Στην εικόνα 4.6 αρκετά µονοϖάτια υϖάρχουν για την ϖρωτεΐνη ACCY.

86 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 86 Εικόνα 4.6: Μοντέλο ΗΜΜ Ο ϖίνακας ϖου ϖροκύϖτει αϖό την εφαρµογή της τεχνικής φαίνεται ϖαρακάτω (ϖίνακας 4.4). Οι στήλες του ϖίνακα αϖοτελούν τις καταστάσεις του µοντέλου και οι γραµµές αϖοτελούν την ακολουθία. Τα στοιχεία του ϖίνακα αρχικοϖοιούνται µε την τιµή 0 και στη συνέχεια στα ϖαρακάτω βήµατα υϖολογίζονται: Βήµα 1: Η ϖιθανότητα το αµινοξύ Α να έχει ϖαραχθεί στην κατάσταση i 0 υϖολογίζεται σαν το γινόµενο.4.3=12. Βήµα 2: Η ϖιθανότητα εκϖοµϖής το C να ϖαράχθηκε στην κατάσταση m 1 (ϖολλαϖλασιασµένη µε την καλύτερη ϖιθανότητα µετάβασης στην κατάσταση m 1 αϖό την κατάσταση i 0). Εϖίσης η ϖιθανότητα εκϖοµϖής το C να ϖαράχθηκε στην κατάσταση i 1(ϖολλαϖλασιασµένη µε την καλύτερη ϖιθανότητα µετάβασης στην κατάσταση i 1 αϖό την κατάσταση i 0). (Οι ϖιθανότητες αυτές µϖαίνουν στο ϖίνακα στις θέσεις C/i 1 και C/m 1) Βήµα 3: Το άθροισµα των δύο ϖροηγούµενων ϖιθανοτήτων Βήµα 4: Ένας δείκτης µϖαίνει στην κατάσταση i 0 αϖό την κατάσταση µε τη µεγαλύτερη ϖιθανότητα δηλαδή την m 1 Τα βήµατα 2-4 εϖαναλαµβάνονται µέχρι να γεµίσει ο ϖίνακας Βήµα 5: Η ϖιθανότητα της ακολουθίας υϖολογίζεται µε το άθροισµα όλων των ϖιθανοτήτων στην τελευταία στήλη.

87 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 87 i0 i1 m1 i2 m2 i3 m3 A C C Y Πίνακας 4.4: Πίνακας για την ϖρος τα εµϖρός τεχνική Πρόβληµα 2 Εδώ ουσιαστικά ϖρέϖει να αϖοκαλυφθεί το «κρυφό» µέρος του µοντέλου (ϖχ. να βρεθεί η σωστή ακολουθία καταστάσεων). Είναι ϖροφανές ότι για όλα τα µοντέλα, ϖλην ορισµένων εκφυλισµένων καταστάσεων, δεν υϖάρχει «σωστή» ακολουθία. Αντί αυτού εϖιχειρείται η βελτιστοϖοίηση κάϖοιου κριτηρίου ώστε να δοθεί η καλύτερη δυνατή λύση. υστυχώς υϖάρχουν αρκετά κριτήρια βελτιστοϖοίησης τα οϖοία µϖορούν να χρησιµοϖοιηθούν και έτσι σε κάθε ϖερίϖτωση, αναλόγως µε την εφαρµογή και το σκοϖό ϖου έχει η «αϖοκάλυψη» της ακολουθίας των καταστάσεων, εϖιλέγεται το ϖιο κατάλληλο. Σε αυτό το ϖρόβληµα δεν µϖορεί να υϖάρξει συγκεκριµένη λύση όϖως αυτή ϖου δόθηκε στο ϖρόβληµα 1. Για ϖαράδειγµα, ένα κριτήριο βελτιστοϖοίησης είναι η εϖιλογή των καταστάσεων q t έτσι ώστε να είναι η καθεµία ξεχωριστά ϖιο ϖιθανή. Αυτό το κριτήριο µεγιστοϖοιεί τον αναµενόµενο αριθµό «σωστών» ξεχωριστών καταστάσεων. Για την εφαρµογή αυτή έστω η ακόλουθη µεταβλητή: γ t(i) = Pr(q t = S i O, λ ) (16) δηλαδή την ϖιθανότητα να βρισκόµαστε στην κατάσταση S i τη χρονική στιγµή t,δεδοµένης της ακολουθίας εξόδου Ο καθώς και του µοντέλου λ. Κάνοντας χρήση των ϖρος τα εµϖρός και ϖρος τα ϖίσω µεταβλητών η ϖαραϖάνω σχέση γράφεται: a t(i) β t(i) a t(i) β t(i) γ t(i) = = Pr(O λ) N i=1 a t(i) β t(i) (17)

88 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 88 αφού το α t(i) ϖεριλαµβάνει το µέρος της ακολουθίας µέχρι τη χρονική στιγµή t (Ο 1Ο 2 Ο t), ενώ το β t(i) ϖεριλαµβάνει την ακολουθία µέχρι το Τ (Ο t+1o t+2 O T) µε δεδοµένη την κατάσταση S i τη χρονική στιγµή t. Ο ϖαράγοντας κανονικοϖοίησης: N a t(i) β t(i) κάνει την t(i) i=1 N i=1 γ t(i) = 1 γ µετρήσιµη, έτσι ώστε: Χρησιµοϖοιώντας το γ t(i) µϖορούµε να λύσουµε το ϖρόβληµα εύρεσης της ξεχωριστά ϖιο ϖιθανής κατάστασης q t τη χρονική στιγµή t ως εξής: q t = arg max[ γ t( i)], 1 i N, 1 t T (18) Αν και η ϖαραϖάνω λύση µεγιστοϖοιεί τον αριθµό των σωστών καταστάσεων (διαλέγοντας κάθε χρονική στιγµή την ϖιο ϖιθανή κατάσταση), είναι δυνατόν να ϖαρατηρηθούν ϖροβλήµατα µε τη συνολική ακολουθία ϖου θα ϖροκύψει. Αν για ϖαράδειγµα το συγκεκριµένο ΗΜΜ έχει καταστάσεις µεταξύ των οϖοίων υϖάρχει µηδενική ϖιθανότητα µετάβασης (a ij = 0 για κάϖοια i και j ) είναι ϖιθανό η ακολουθία καταστάσεων ϖου θα ϖροκύψει ως βέλτιστη, να µην είναι καν δυνατόν να ϖροέλθει αϖό το συγκεκριµένο µοντέλο. Αυτό συµβαίνει διότι η σχέση (18) καθορίζει αϖλά την ϖιο ϖιθανή κατάσταση κάθε χρονική στιγµή χωρίς να λαµβάνει υϖόψη την ϖιθανότητα εµφάνισης ακολουθιών καταστάσεων. Μια λύση στο ϖαραϖάνω ϖρόβληµα είναι η εϖιλογή ενός διαφορετικού κριτηρίου βελτιστοϖοίησης. Για ϖαράδειγµα, θα µϖορούσε να χρησιµοϖοιηθεί ως κριτήριο ϖρος µεγιστοϖοίηση ο αριθµός των σωστών ζευγαριών καταστάσεων (q t, q t+1 ) ή των τριάδων καταστάσεων (q t, q t+1, q t+2) κτλ. Αν και αυτά τα κριτήρια µϖορεί να είναι λογικά για µια σειρά εφαρµογών το ϖιο διαδεδοµένο κριτήριο είναι της εύρεσης του βέλτιστου µονοϖατιού (ακολουθίας καταστάσεων), δηλαδή η µεγιστοϖοίηση της ϖιθανότητας Ρ(Q O, λ) ϖου ισοδυναµεί µε τη µεγιστοϖοίηση της ϖιθανότητας Ρ(Q, O λ). Η µέθοδος ϖου έχει αναϖτυχθεί για τον υϖολογισµό του βέλτιστου µονοϖατιού ονοµάζεται τεχνική του βιτέρµϖι (Viterbi) και βασίζεται σε τεχνικές γραµµικού ϖρογραµµατισµού.

89 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 89 Ορίζεται την ϖοσότητα: δ (i) = max Pr[q q...q = i,o O...O ] (19) t 1 2 t 1 2 t λ q1,q2,...,qt-1 δηλαδή δ t+1(i) είναι η µεγαλύτερη ϖιθανότητα κατά µήκος ενός αϖλού µονοϖατιού τη χρονική στιγµή t, ϖου ϖεριλαµβάνει τις ϖρώτες t ϖαρατηρήσεις και τελειώνει στην κατάσταση S i. Για τη χρονική στιγµή t+1 εϖαγωγικά ισχύει: δ (j) = [max δ (i)a ]b (O ) (20) t+ 1 t ij j t+ 1 i Στην ϖραγµατικότητα για να υϖολογιστεί το βέλτιστο µονοϖάτι ϖρέϖει να ακολουθήσει κανείς το όρισµα ϖου µεγιστοϖοιεί την ϖαραϖάνω σχέση για κάθε t και j. Αυτό εϖιτυγχάνεται µε τη χρήση ενός ακόµα ϖίνακα, του y t(j). Η τεχνική είναι η εξής: Αρχικοϖοίηση - Χρονική στιγµή 1: δ 1(i) = π ib i(o 1), 1 i N (21) y 1(i) = 0 Χρονική στιγµή t: δ (j) = max[ (i)a ] b (O), 2 t T και 1 j T (22) t δ t 1 ij j t 1 i N y (j) = argmax[ δ (i)a ], 2 t T και 1 j T (23) t t- 1 ij 1 i N Τερµατισµός: δ p* = max[ T(i)] 1 i N (24) δ q* T = argmax[ T(i)] 1 i N (25)

90 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 90 Εξαγωγή µονοϖατιού: q* T = y t+ 1(q* t+ 1), t = T-1,T- 2,...1 (26) Έτσι ϖάλι στο ϖαράδειγµα της ϖρωτεΐνης ACCY έστω ότι για συγκεκριµένο µοντέλο ΗΜΜ θέλει κάϖοιος να ϖροσδιορίζει τις κρυφές καταστάσεις ϖου µϖορεί να δηµιούργησαν αυτό το µοντέλο. Αυτό εϖιτυγχάνεται µε την τεχνική ϖου µόλις αναλύθηκε και µϖορεί κανείς να ϖαρατηρήσει ότι είναι όµοια µε την ϖρος τα εµϖρός τεχνική. Ωστόσο στο τρίτο βήµα (ϖαράδειγµα για την ϖρος τα εµϖρός τεχνική), αντί να υϖολογιστεί το άθροισµα υϖολογίζεται το µέγιστο των δύο ϖιθανοτήτων. Το ϖιο κατάλληλο µονοϖάτι µέσα στο µοντέλο µϖορεί να βρεθεί ακολουθώντας τους δείκτες. Πίνακας 4.5: Πίνακας για την τεχνική βιτέρµϖι Με το ϖου βρεθεί το µονοϖάτι η ϖιθανότητα µια ακολουθία δοσµένου του µοντέλου µϖορεί να υϖολογιστεί µε το γινόµενο όλων των ϖιθανοτήτων µέσα στο µονοϖάτι. Πρόβληµα 3 Το ϖρόβληµα αυτό αφορά τη βελτιστοϖοίηση των ϖαραµέτρων του µοντέλου ώστε να ϖεριγράφουν όσο το δυνατόν καλύτερα ϖώς ϖροέκυψε η δοσµένη ακολουθία. Η ακολουθία ϖου χρησιµοϖοιείται για την εκϖαίδευση του µοντέλου ονοµάζεται ακολουθία εκϖαίδευσης (training sequence) καθώς µε βάση αυτή γίνεται η εκµάθηση του µοντέλου (βελτιστοϖοίηση των ϖαραµέτρων του). Το ϖρόβληµα της εκϖαίδευσης του µοντέλου είναι ιδιαιτέρως σηµαντικό καθώς χρειάζεται οι ϖαράµετροι του µοντέλου να ϖροσαρµοστούν κατά

91 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 91 βέλτιστο τρόϖο στην ακολουθία εξόδων ώστε το µοντέλο να ϖεριγράφει όσο το δυνατόν καλύτερα. Με άλλα λόγια ϖρέϖει να βρεθεί µια τεχνική ϖου να ϖροσαρµόζει τις ϖαραµέτρους του µοντέλου (Α, Β, ϖ) έτσι ώστε να µεγιστοϖοιείται η ϖιθανότητα η δοσµένη ακολουθία εξόδων να έχει ϖροέλθει αϖό το µοντέλο. εν υϖάρχει κάϖοιος αναλυτικός τρόϖος εύρεσης των ϖαραµέτρων ϖου θα µεγιστοϖοιήσουν αυτή την ϖιθανότητα. Στην ϖραγµατικότητα, δοσµένης µιας ϖεϖερασµένης ακολουθίας εξόδων σαν δεδοµένα εκϖαίδευσης, δεν υϖάρχει βέλτιστος τρόϖος εκτίµησης των ϖαραµέτρων του µοντέλου. Μϖορεί ϖαρόλα αυτά να εϖιλεγεί λ=(α, Β, ϖ) έτσι ώστε η Ρ(Ο λ) να µεγιστοϖοιείται τοϖικά µε χρήση κάϖοιας εϖαναληϖτικής µεθόδου. Αυτό µϖορεί να ϖραγµατοϖοιηθεί µε τη χρήση της τεχνικής Baum- Welch ή µε χρήση τεχνικών κλίσης. Παρακάτω ϖεριγράφεται µία εϖανάληψη της τεχνικής Baum-Welch για την εϖιλογή των ϖαραµέτρων του µοντέλου. Για την ενηµέρωση της τεχνικής εϖανεκτίµησης (εϖαναληϖτική ενηµέρωση και βελτίωση) των ϖαραµέτρων του ΗΜΜ ορίζεται η ϖιθανότητα ξ t(i,j), να βρίσκεται σε κατάσταση S i τη χρονική στιγµή t και σε κατάσταση Sj τη χρονική στιγµή t+1: ξ t(i, j) = Pr[qtS i,q t+ 1 = S j O, λ ] (27) H ϖαραϖάνω ϖιθανότητα µϖορεί να οριστεί και συναρτήσει των ϖαραµέτρων α t(i) και β t(j) της εµϖρός-ϖίσω (forward-backward) τεχνικής. ξ t(i, j) = β Pr(O λ) a t(i)aijb j(o t+ 1) t+ 1(j) (28) Σηµείωση: Η µεταβλητή β t(i) = Pr(O t+ 1,O t+ 2...O T q t = S i, λ ) δίνει την ϖιθανότητα η εναϖοµείνασα ακολουθία αϖό τη χρονική στιγµή t+1 µέχρι το τέλος, δεδοµένου ότι η κατάσταση τη χρονική στιγµή t είναι S i.

92 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 92 Έτσι εϖαγωγικά µϖορεί να υϖολογιστεί β t+ 1(j) χρησιµοϖοιώντας τον τύϖο: N β t(i) = aijb j(o t+ 1) β t+ 1(j) (29) j= 1 Παραϖάνω έχει οριστεί η ϖιθανότητα γ t(i) ως η ϖιθανότητα να τη χρονική στιγµή t η κατάσταση να είναι S i, δεδοµένου µοντέλου και ακολουθίας ϖαρατηρήσεων Ο. Αν αθροιστούν για όλα τα j, οι τιµές της ξ t(i,j) τότε: ξ t(i, j) = β Pr(O λ) a t(i)aijb j(o t+ 1) t+ 1(j) (30) N γ t(i) = ξ t( i, j) j= 1 (31) Αν αθροιστεί η γ t(i) για όλες τις χρονικές στιγµές t ϖροκύϖτει ο αναµενόµενος αριθµός των φορών κατά τις οϖοίες το σύστηµα φτάνει στην κατάσταση S i στη διάρκεια του χρόνου των ϖαρατηρήσεων, ή ισοδύναµα, ο αναµενόµενος αριθµός των µεταβάσεων ϖου γίνονται αϖό την κατάσταση S i εξαιρούµενης αϖό το άθροισµα της χρονικής στιγµής κατά την οϖοία t=t. Αϖό τα ϖαραϖάνω ϖροκύϖτει ότι το άθροισµα της χρονικής στιγµής ξ t(i,j) στο χρόνο είναι ο αναµενόµενος αριθµός των µεταβάσεων αϖό την κατάσταση S i στην κατάσταση S j. Έτσι: T-1 t=1 γ t(i) = αναµενόµενος αριθµός µεταβάσεων αϖό την Si (32) T-1 ξ t(i, j) =αναµενόµενος αριθµός µεταβάσεων αϖό S i S j (33) t=1

93 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 93 Χρησιµοϖοιώντας τις ϖαραϖάνω σχέσεις έχουµε µια µέθοδο εϖανεκτίµησης των ϖαραµέτρων ΗΜΜ. Οι εξισώσεις είναι για τα Α, Β και ϖ είναι: a ij = αναµενόµενος αριθµός µεταβάσεων από την S iστην Sj (34) αναµενόµενος αριθµός µεταβάσεων από την Si b j(k) = αναµενόµενη πιθανότητα της κατάστασης Sj και ταυτόχρονη παρατήρηση του συµβόλου vk (35) αναµενόµενη πιθανότητα της Sj π i = αναµενόµενη συχνότητα στην S iτη χρονική στιγµή t=1 (36) Αν υϖοτεθεί ότι υϖάρχει το µοντέλο λ=(α, Β, ϖ) και το µοντέλο λ =(Α,Β,ϖ ), το δεύτερο είναι ϖιο ϖιθανό ότι ϖαράγει τις ακολουθίες ϖαρατηρήσεων. Η διαδικασία εϖαναλαµβάνεται µέχρι οι νέες τιµές να είναι ίδιες µε τις ϖροηγούµενες. Έτσι ϖάλι για την ϖερίϖτωση της ϖρωτεΐνης ACCY έστω ότι δεν υϖάρχει το µοντέλο και ϖρέϖει να δηµιουργηθεί ένα ΗΜΜ δοσµένου ενός συγκεκριµένου συνόλου δεδοµένων ϖρωτεϊνών ϖου λέγονται, όϖως έχει ϖροαναφερθεί, ακολουθίες εκϖαίδευσης. Είναι αϖαραίτητο να υϖολογιστούν οι κατανοµές των εκϖοµϖών των αµινοξέων σε κάθε κατάσταση και όλες οι ϖιθανότητες µετάβασης σε όλες τις καταστάσεις αϖό ένα σύνολο συσχετισµένων ακολουθιών εκϖαίδευσης. Αυτό εϖιτυγχάνεται µε την τεχνική ϖου µόλις αναλύθηκε (Baum-Welch). Η τεχνική αυτή στην ϖροκειµένη ϖερίϖτωση δηµιουργεί µια αρχική εκτίµηση των ϖαραµέτρων (κάτι το οϖοίο µϖορεί να είναι εντελώς λάθος αρχικά) και στη συνέχεια τη βελτιώνει αϖοτιµώντας την αξία της. Στη συνέχεια ϖροσϖαθεί να µειώσει τα σφάλµατα ϖου ϖροκαλούνται όταν εφαρµοστεί στα δεδοµένα. Με αυτή την έννοια εκτελεί µια µορφή ελάττωσης της κλίσης αναζητώντας την ελαχιστοϖοίηση του σφάλµατος.

94 Κεφάλαιο 4: Πολλαϖλή συστοίχιση ακολουθιών 94

95 5 ΜΑΘΗΜΑΤΙΚΗ ΘΕΜΕΛΙΩΣΗ ΑΣΑΦΩΝ ΠΡΟΦΙΛ ΚΡΥΦΩΝ ΜΑΡΚΟΒΙΑΝΩΝ ΜΟΝΤΕΛΩΝ 5.1 Εισαγωγή Η ϖολλαϖλή συστοίχιση ακολουθιών (MSA), όϖως έχει ϖροαναφερθεί αϖοτελεί µια αϖό τις σηµαντικότερες τεχνικές ϖου χρησιµοϖοιείται αϖό τα σύγχρονα συστήµατα βιοϖληροφορικής σχεδόν σε όλες τις εφαρµογές της. Περιλαµβάνει τη συνεχή συστοίχιση ενός αριθµού ακολουθιών DNA και ϖρωτεϊνών. Οι µέθοδοι και οι αλγόριθµοι ϖου χρησιµοϖοιούνται στην MSA έχει τεράστια σηµασία στη λύση σειράς βιολογικών ϖροβληµάτων. Η ϖρόβλεψη λειτουργίας των ϖρωτεϊνών εκµεταλλεύεται την MSA ϖροκειµένου να αναγνωρίζει ϖρότυϖα ϖου έχουν ϖαραµείνει κατά τη διάρκεια της εξέλιξης, καθώς εϖίσης και να αναγνωρίσει ϖεριοχές συντηρηµένες (conserved) οι οϖοίες µϖορεί να είναι δοµικής ή λειτουργικής σηµασίας. Στη φυλογενετική ανάλυση ο ρυθµός ϖροτύϖων ή αλλαγής (rates of patterns or change) στην ακολουθία δεν µϖορούν να αναλυθούν ϖαρά µόνο όταν οι ακολουθίες συστοιχιθούν [73]. Η ανάγκη για την ανάλυση της MSA οδήγησε στην ανάϖτυξη νέων µεθόδων, όϖως αυτή ϖου έχει ϖροαναφερθεί του CLUSTAL-W [39], του PSI-BLAST [74] και του HMMER[75], οι οϖοίες µϖορούν να υϖερισχύσουν των κλασικών µεθόδων της συστοίχισης ακολουθιών κατά ζεύγη [76]. Οι αρκετά γνωστές και ευρέως χρησιµοϖοιούµενες στατιστικές µέθοδοι, ϖου χαρακτηρίζουν τις φασµατικές ιδιότητες των ϖεριοχών ενός γονιδιακού ή ϖρωτεϊνικού ϖροτύϖου, είναι η ϖροσέγγιση των ΗΜΜ. Αυτή η µέθοδος έχει εφαρµοστεί σε µια σειρά ϖολλών βιολογικών ϖροβληµάτων [77-79]. Τα ΗΜΜ ϖροφίλ έχουν αϖοδειχθεί ότι ϖροσφέρουν µια δυνατή λύση για τις MSA. Η χρήση τους στη βιοϖληροφορική οδήγησε στη δηµιουργία µεγάλων βάσεων δεδοµένων ϖου ϖεριέχουν ϖροφίλ [80,81] και ϖου ϖροσφέρουν βιολογική γνώση (συστοιχίσεις, φυλογενετικές κατανοµές, οργάνωση 95

96 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 96 οικογενειών ϖρωτεϊνών (domain organization) για τη λύση σοβαρών ϖροβληµάτων όϖως είναι η ϖρωτεϊνική ταξινόµηση [82], το χτίσιµο φυλογενετικών δέντρων [83,84] και η γονιδιακή ϖρόβλεψη). Ωστόσο ένα αντικείµενο συζήτησης σχετικά µε τη χρήση των ΗΜΜ στην MSA είναι η αϖλούστευση της υϖόθεσης της στοχαστικής ανεξαρτησίας. Αυτή η ιδιότητα, ϖαρόλα αυτά, δεν είναι καθόλου σωστή όταν εξετάζονται γονιδιακές και ϖρωτεϊνικές ακολουθίες, διότι µια εν δυνάµει εξάρτηση µϖορεί να υφίσταται µεταξύ της τωρινής και της ϖροηγούµενης κατάστασης. Τα ασαφή ΗΜΜs έχουν χρησιµοϖοιηθεί στην αναγνώριση οµιλίας [85], µε σκοϖό να αµβλύνουν αυτό το ϖεριορισµό και να λύσουν ϖαρόµοια ϖροβλήµατα του µοντέλου. Η ασαφής λογική έχει χρησιµοϖοιηθεί στο ϖαρελθόν σε ϖολλές άλλες ϖεριϖτώσεις στο βιοϊατρικό τοµέα [86]. Στην ϖαρούσα διατριβή, ορίζεται ένας νέος τρόϖος αναϖαράστασης των ϖροφίλ HMM κάνοντας χρήση ασαφών ολοκληρωµάτων για διακριτά σύνολα και ασαφών τελεστών στα HMMs στη θέση της ϖιθανοκρατικής θεωρίας. Οι κλασικές ϖιθανότητες σε ένα ΗΜΜ αντικαθίστανται µε ασαφείς δυνατότητες (βαθµός σηµαντικότητας) (possibilities). Παρόλα αυτά η δοµή του ΗΜΜ ϖαραµένει αναλλοίωτη αϖό άϖοψη καταστάσεων και ϖαρατηρήσεων. Η ειδική ϖερίϖτωση του Τσοκέτ ολοκληρώµατος για διακριτά σύνολα, έτσι όϖως αναφέρεται στη συνέχεια, ενσωµατώνεται στις καταστάσεις του HMM µοντέλου. Το ϖλεονέκτηµα της χρήσης αυτών των ασαφών τελεστών είναι ότι είναι λιγότερο ϖεριοριστικοί αϖό τους κλασικούς τελεστές και αϖό τις ϖιθανότητες, λόγω του ότι αµβλύνουν το ϖεριορισµό της ανεξαρτησίας ϖου θεωρείται αϖαραίτητος για τις συναρτήσεις ϖιθανότητας στα κλασικά ΗΜΜs. Αυτός ο µετασχηµατισµός ελαττώνει εϖίσης το χρόνο υϖολογισµού στο µοντέλο. Για την εκτέλεση µιας MSA µε το νέο µοντέλο οι ήδη υϖάρχοντες ΗΜΜ αλγόριθµοι µετατρέϖονται κατάλληλα µε τη χρήση των ασαφών τελεστών ϖου χρησιµοϖοιούνται για την εκϖαίδευσή του, καθώς και για τον υϖολογισµό της εϖίδοσης των συστοιχισµένων ακολουθιών. Στις ϖαραγράφους ϖου ακολουθούν δίνονται µερικές βασικές έννοιες σχετικά µε την ασαφή λογική, για να οριστεί στη συνέχεια µαθηµατικά το νέο ϖροφίλ κρυφού µαρκοβιανού µοντέλου. Έϖειτα ϖαρατίθεται ο τρόϖος ϖου µϖορεί αυτό το νέο µοντέλο να χρησιµοϖοιηθεί στην MSA, δεδοµένου ενός συνόλου δεδοµένων αϖό ϖρωτεΐνες του ιού HPV και αντίστοιχων οµόλογών του. Και τέλος

97 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 97 ϖαρατίθενται τα αϖοτελέσµατα και διευκρινίζεται η δυναµικότητα και η εϖιρροή της νέας ϖολλαϖλής συστοίχισης ακολουθιών στη βιοϖληροφορική. 5.2 Ασαφής λογική Εισαγωγή Η θεωρία των ασαφών συνόλων θεµελιώθηκε στην ϖαρούσα της µορφή ϖερίϖου το 1965 αϖό τον Καθηγητή αυτοµάτου ελέγχου Lotfi Zadeh στο UC-Bercley [60]. Ο Zadeh διατύϖωσε το ϖρόβληµα της αβεβαιότητας και της ανακρίβειας µε την αρχή του ασυµβιβάστου: «Καθώς η ϖολυϖλοκότητα ενός συστήµατος αυξάνει, η ικανότητά µας να ϖροβαίνουµε σε ακριβείς και σηµαντικές δηλώσεις για τη συµϖεριφορά του µειώνεται µέχρι ϖου να φτάσουµε σε ένα όριο (κατώφλι) ϖέρα αϖό το οϖοίο ακρίβεια και σηµαντικότητα (ή σχετικότητα) καθίστανται σχεδόν αµοιβαίως αϖοκλειόµενα χαρακτηριστικά». Έτσι, εϖέκτεινε την κλασική (Αριστοτελική- Boolean) λογική αϖό το διακριτό σύνολο {0,1} στο συνεχές σύνολο [0,1] εισάγοντας µια οµαλή µετάβαση αϖό το «ανήκει» στο «δεν ανήκει». Στόχος του ήταν να αναϖαραστήσει τη συγκεχυµένη, αόριστη και µη ακριβή γνώση του ανθρώϖου άµεσα, χωρίς τη µεσολάβηση κάϖοιας τεχνικής ϖαράστασης, όϖως ϖ.χ. ένας ακριβής µαθηµατικός τύϖος. Ο Zadeh ανέϖτυξε τη θεωρία των ασαφών συνόλων σαν ένα τρόϖο αντιµετώϖισης ϖροβληµάτων αλληλεϖίδρασης µεταξύ ανθρώϖων και µηχανών. Ωστόσο, στη συνέχεια δηµιουργήθηκε ένας ολόκληρος κλάδος µαθηµατικών γύρω αϖό την ιδέα ότι οϖοιαδήϖοτε µαθηµατική δοµή µϖορεί να «ασαφοϖοιηθεί», δηλαδή να διατυϖωθεί µε τη βοήθεια ασαφών συνόλων. Έτσι, αναϖτύχθηκαν µαθηµατικοί κλάδοι όϖως «ασαφής τοϖολογία», «ασαφείς οµάδες» και άλλα Γενικά χαρακτηριστικά της ασαφούς λογικής Για να δοθούν ϖαρακάτω οι ιδιότητες της ασαφούς λογικής, εισήχθησαν αϖό τον Earl Cox εϖτά ϖροτάσεις ϖου τη χαρακτηρίζουν και συγχρόνως τη διαφοροϖοιούν αϖό τη θεωρία των ϖιθανοτήτων [61]. 1. Η ασαφής λογική δεν είναι ασαφής. εν είναι στην ϖραγµατικότητα ανακριβής, δε βεβηλώνει και δεν καταϖατεί

98 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 98 την κοινή λογική. Παράγει ξεκάθαρα αϖοτελέσµατα. Η «κλασική» δυαδική λογική είναι µία ειδική ϖερίϖτωσή της. 2. Η ασαφής λογική διαφέρει αϖό την ϖιθανότητα. Με την ϖιθανότητα ϖροσϖαθούµε να καθορίσουµε όλες τις δυνατές εκβάσεις κάϖοιου ϖροβλήµατος, ενώ µε την ασαφή λογική ϖροσϖαθούµε να καθορίσουµε το κατά ϖόσο είναι σωστό ένα γεγονός. Για αυτό και η ασάφεια εκφράζεται συχνά σαν αµφιβολία και όχι σαν ανακρίβεια. 3. Η σχεδίαση των ασαφών συνόλων είναι εύκολη. Τα ασαφή σύνολα αντανακλούν στην ϖραγµατικότητα τον τρόϖο ϖου σκέφτονται οι άνθρωϖοι. Συνήθως η κατά ϖροσέγγιση σκιαγράφηση της µορφής ενός ασαφούς συνόλου είναι εύκολη και γρήγορη. 4. Τα ασαφή συστήµατα είναι σταθερά και µϖορούν να ελεγχθούν για την αξιοϖιστία τους. Λόγω του ότι η ασαφής λογική έχει τη δυνατότητα να ανταϖεξέλθει µε όλους τους εµϖλεκόµενους βαθµούς ελευθερίας, είναι ϖιο εύκολο να δηµιουργήσεις ασαφή σύνολα και να κατασκευάσεις ένα ασαφές σύστηµα ϖαρά να φτιάξεις ένα συµβατικό, βασισµένο στη γνώση σύστηµα. 5. Τα ασαφή συστήµατα δεν είναι νευρωνικά δίκτυα. Ένα ασαφές σύστηµα ϖροσϖαθεί να βρει την τοµή, την ένωση και το συµϖλήρωµα των ασαφών µεταβλητών ελέγχου. 6. Η ασαφής λογική είναι κάτι ϖαραϖάνω αϖό µια διαδικασία ελέγχου. Είναι εϖιϖλέον ένας τρόϖος να αναϖαριστά και να αναλύει ϖληροφορίες ανεξάρτητα αϖό συγκεκριµένες εφαρµογές. 7. Η ασαφής λογική είναι µία ϖαραστατική και συλλογική διαδικασία ελέγχου. εν µϖορεί να λύσει όλα τα ϖροβλήµατα, αλλά µας βοηθάει να µοντελοϖοιήσουµε ακόµα και δυσεϖίλυτα ϖροβλήµατα Στοιχεία θεωρίας ασαφών συνόλων X = x, x,..., x ένα κλασικό σύνολο το οϖοίο θα Έστω { } 1 2 n οριστεί ως υϖερσύνολο αναφοράς. Στην κλασική λογική ένα A = x, x ϖου µϖορεί να υϖοσύνολο του Χ είναι το { } 1 2 αναϖαρασταθεί και σαν σύνολο διατεταγµένων ζευγών x, y x όϖου: ( A( ))

99 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 99 y A ( x) 1 αν x A = 0 αν x A (37) είναι η συνάρτηση συµµετοχής η οϖοία δέχεται ως είσοδο ένα στοιχείο του υϖερσυνόλου αναφοράς Χ και ϖαίρνει την τιµή 1 ή 0 αν το στοιχείο x ανήκει στο υϖοσύνολο A ή όχι. Στην ϖροκειµένη A= x,1, x,1, x,0,..., x,0. { n } ϖερίϖτωση ( ) ( ) ( ) ( ) Έστω ένα ασαφές σύνολο του οϖοίου η συνάρτηση συµµετοχής δεν ϖεριορίζεται µεταξύ των τιµών 0 και 1. Ως ασαφές υϖοσύνολο του X ορίζεται το σύνολο διατεταγµένων ζευγών: {( Α( )) Α( ) [ ]} A= x,µ x x X,µ x :Χ 0,1 (38) όϖου x είναι ένα στοιχείο του υϖερσυνόλου αναφοράς και µ Α( x ) η συνάρτηση συµµετοχής του στοιχείου αυτού στο υϖοσύνολο Α. Η συνάρτηση συµµετοχής µ Α( x ) συµβολίζεται ϖιο αϖλά ως Α( x ) και η τιµή της λέγεται βαθµός συµµετοχής του x στο σύνολο Α. Παρακάτω δίνονται οι βασικοί ορισµοί ενός ασαφούς συνόλου. F X, ενός υϖερσυνόλου Ασαφές δυναµοσύνολο ( ) αναφοράς Χ, είναι το σύνολο όλων των ασαφών υϖοσυνόλων του Χ. Το κλασικό υϖοσύνολο α A καλείται α-τοµή του ασαφούς υϖοσυνόλου Α όταν και µόνο όταν: { ( ) } α A = x X A x α (39) Η ισχυρή α-τοµή του ασαφούς υϖοσυνόλου Α ορίζεται ως: { ( ) } α + A = x X A x > α (40) Το σύνολο των εϖιϖέδων του ασαφούς υϖοσυνόλου Α ορίζεται ως:

100 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 100 { α για κάποιο x X} ( ) ( ) Λ Α = α Α x = (41) Η υϖοστήριξη (support) του ασαφούς υϖοσυνόλου Α ορίζεται ως 0+ A και είναι το σύνολο των στοιχείων του Α µε µη µηδενικές συναρτήσεις συµµετοχής. Το ύψος ενός ασαφούς συνόλου ορίζεται ως ο µεγαλύτερος βαθµός συµµετοχής αϖό τα στοιχεία του συνόλου: ( ) sup A( x) h A = (42) x X Εϖίσης ϖαρατίθενται οι βασικές ϖράξεις ϖου ορίζονται µεταξύ των ασαφών συνόλων: 1. Ισότητα ασαφών συνόλων. Τα υϖοσύνολα Α και Β είναι ίσα όταν: Α ( ) ( ) µ x = µ x x X όϖου Χ υϖερσύνολο αναφοράς (43) Β 2. Ασαφές υϖοσύνολο. Το Α είναι ασαφές υϖοσύνολο του Β όταν: Α ( ) ( ) µ x µ x x X όϖου Χ υϖερσύνολο αναφοράς (44) Β 3. Γνήσιο ασαφές υϖοσύνολο. Το Α είναι γνήσιο ασαφές υϖοσύνολο του Β: A B όταν: Α ( ) ( ) µ x < µ x x X όϖου Χ υϖερσύνολο αναφοράς (45) Β 4. Ασαφής διαµέριση. Μια οικογένεια ασαφών υϖοσυνόλων του m P X του Χ, τάξης Χ, θα λέγεται ασαφής διαµέριση ( ) m m( m N) και θα συµβολίζεται µε A = { A, A,...,A } όταν: 1 2 m

101 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 101 n ( ) ( ) A A, i,j N i j και 0< A x < n, i N i j m i k m k=1 m A i, i Nm της A θα λέγονται κλάσεις της Τα στοιχεία ασαφούς διαµέρισης. (46) 5. Ασαφές συµϖλήρωµα. Το συµϖλήρωµα A ενός ασαφούς συνόλου Α δίνεται αϖό τη σχέση: ( ) ( ) ( ) A x = c A x, x X (47) 6. Ασαφής τοµή. Η τοµή δύο ασαφών συνόλων Α και Β ορίζεται ως: ( Α Β)( x) t A( x ),B( x) =, t συνάρτηση (48) 7. Ασαφής ένωση. Η ένωση δύο ασαφών συνόλων Α και Β ορίζεται ως: ( Α Β)( x) σ A( x ),B( x) =, σ συνάρτηση (49) Στοιχείο ένωσης του Σουγκένο (Sugeno) Η ασαφής ένωση δύο υϖοσυνόλων δε µϖορεί να υϖολογιστεί αϖευθείας µε τη σύνθεση βασικών ϖράξεων ϖου ορίζονται στα ασαφή σύνολα για αυτό και ο Σουγκένο ϖαρουσίασε ένα νέο κριτήριο το λεγόµενο λ-ασαφές κριτήριο, το οϖοίο ικανοϖοιεί µια εϖιϖλέον ιδιότητα για όλα τα Α, Β υϖοσύνολα του Χ µε A B= : g( Α Β)( x) = g(a) + g(b) + λg(a)b(b), όταν λ>-1 (50) Για το σύνολο X = { x 1, x 2,..., x n} έστω ότι g i = g{x i}. Οι τιµές g i αναφέρονται ως συναρτήσεις ϖυκνότητας για το λ-ασαφές κριτήριο της g. Η τιµή λ µϖορεί να βρεθεί αϖό την εξίσωση: g(x) = 1, το οϖοίο είναι ισοδύναµο µε τη λύση του συστήµατος:

102 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 102 n i λ +1 = (1+λ g ) (51) i= Ασαφή ολοκληρώµατα Σουγκένο και Τσοκέτ (Sugeno and Choquet Integrals) Τα ασαφή ολοκληρώµατα γενικά είναι µη γραµµικές συναρτήσεις ϖου µϖορούν να χρησιµοϖοιηθούν για το συνδυασµό ϖολλαϖλών δεδοµένων ϖου ϖεριέχουν αµφίβολη ϖληροφορία. Ένα ιδιαίτερο χαρακτηριστικό των ασαφών ολοκληρωµάτων είναι ότι όχι µόνο χρησιµοϖοιεί ϖληροφορία σχετικά µε την αξία και τη σηµασία των δεδοµένων ϖου διατίθενται ϖρος µελέτη, αλλά χρησιµοϖοιεί και ϖληροφορία για την αξία και τη σηµασία των υϖοσυνόλων των δεδοµένων µε σκοϖό να καταλήξει σε µία λογική αριθµητική τιµή εµϖιστοσύνης για τη συγκεκριµένη υϖόθεση ή αϖόφαση ϖου µελετάται. Πρόσφατα, τα ασαφή ολοκληρώµατα έχει αϖοδειχθεί ότι είναι αρκετά χρήσιµα σε εφαρµογές αναγνώρισης ϖροτύϖων. Τα ασαφή ολοκληρώµατα Σουγκένο ορίζονται µε τη βοήθεια της ασαφούς ιδιότητας ϖου ορίστηκε ϖριν λίγο [62]. Το ολοκλήρωµα Σουγκένο συνδυάζει τα αντικειµενικά στοιχεία για µια υϖόθεση µαζί µε την ϖρογενέστερη ϖροσδοκία σϖουδαιότητας αυτών των στοιχείων στην υϖόθεση. Ο Σουγκένο χρησιµοϖοιώντας την ιδιότητα του ασαφούς συνόλου ϖου είχε ορίσει για την ένωση αρχικά όρισε το ολοκλήρωµα ϖου φαίνεται ϖαρακάτω. h : X 0,1 µια Έστω (Χ, Ω) ένας µετρήσιµος χώρος και έστω [ ] Ω-µετρήσιµη συνάρτηση. Τότε το Σουγκένο ολοκλήρωµα σε ένα A X της συνάρτησης h σε σχέση µε την ασαφή συνάρτηση ϖυκνότητας g, όϖως ορίστηκε ϖαραϖάνω, δίνεται αϖό τον τύϖο: [ ] S (h) = h(x) o g = sup min(a,g(a h )),όπουh = {x:h(x) a} (52) g a a X 0 a 1 Σε µερικές εφαρµογές (όϖως και στην ϖερίϖτωση υϖολογισµού των συναρτήσεων µετάβασης σε ένα µαρκοβιανό µοντέλο) ο χρόνος υϖολογισµού του ολοκληρώµατος S g(h) µϖορεί να µειωθεί σηµαντικά αφού το σύνολο Χ είναι ϖεϖερασµένο [63-66]. Έτσι αν

103 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 103 υϖάρχει ένα X = { x 1, x 2,..., x n} ϖεϖερασµένο σύνολο τέτοιο ώστε να ισχύει: h(x 1) h(x 2)...h(x n) (53) Τότε ορίζεται ότι: n [ ] [ ] S (h) = h(x ) g(a ) = max min(h(x ),g(a )) (54) g i i i i i i= 1 όϖου A i= {x 1, x 2,..., x i}. i i Τo g(a i) = g + g(a i 1) + λg g(a i 1), 1 i n. (55) Με αυτόν τον τρόϖο µειώνεται ο αριθµός των υϖοσυνόλων ϖου χρειάζονται για τον υϖολογισµό του ολοκληρώµατος αϖό 2 n σε n. Για ένα γενικό ασαφές ολοκλήρωµα είναι ϖιθανό να χρησιµοϖοιηθούν µέθοδοι ϖου κάνουν χρήση ϖινάκων αναζήτησης για την εξαγωγή των κατάλληλων n υϖοσυνόλων για το υϖολογισµό του ολοκληρώµατος. Για αυτό το λόγο ο υϖολογισµός ενός ασαφούς ολοκληρώµατος δεδοµένου του λ ασαφούς κριτηρίου χρειάζεται τη γνώση µόνο των ασαφών συναρτήσεων ϖυκνότητας. Έτσι ένα ασαφές ολοκλήρωµα σε ένα ασαφές σύνολο A δίνεται αϖό το ϖαρακάτω τύϖο: [ A ] S g(h) = h(x) g= h (x) h(x) g Όϖου A o o (56) X h A(x) είναι η σχετική συνάρτηση του ασαφούς συνόλου A. Ο αναγνώστης µϖορεί να ανατρέξει στα [62,63,66,67] για µια ϖιο αναλυτική ϖεριγραφή των ασαφών ολοκληρωµάτων Σουγκένο. Ο αρχικός ϖροσδιορισµός του Σουγκένο [68] για το ασαφές ολοκλήρωµα δεν αϖοτελεί σωστή εϖέκταση για το ολοκλήρωµα Lebesque µε τη έννοια ότι δεν µϖορεί να υϖολογιστεί στην ϖερίϖτωση του ασαφούς κριτηρίου για την ϖρόσθεση. Αυτό το µειονέκτηµα οδήγησε το Σουγκένο µαζί µε τον Μουροφάσι (Murofushi) σε µια νέα ϖροσέγγιση, στο ολοκλήρωµα Τσοκέτ σαν εναλλακτική ϖερίϖτωση [69]. Εϖιϖλέον ο Γκράµϖισκ (Grabisch) έδειξε ότι το ολοκλήρωµα

104 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 104 αυτό µοιράζεται ϖολλές κοινές ιδιότητες µε το ολοκλήρωµα Σουγκένο [70,71]. Έτσι σύµφωνα µε την ϖροσέγγιση αυτή έστω h η συνάρτηση ϖάνω σε ένα σύνολο Χ µε τιµές στο διάστηµα [0,1] και g η ασαφής συνάρτηση ϖυκνότητας ακριβώς έτσι όϖως ορίζεται στο ολοκλήρωµα Σουγκένο, τότε το ολοκλήρωµα Τσοκέτ C g(h) ορίζεται ως [72]: 1 Cg(h) = h(x) g= g(a a)da, όπου A a= {x : h(x) > a} X 0 o (57) Στην ϖερίϖτωση ϖου το σύνολο Χ είναι διακριτό και έτσι κανονισµένο ώστε h(x 1) h(x 2)... h(x n) (αύξουσα συνάρτηση) τότε το Τσοκέτ γίνεται: n C(h) g = g h(x) i h(x i 1) µε h(x 0) = 0 και g ={x,x i i+1,...,x},όταν j i j n j i [ ] i (58) i= 1 Αν η συνάρτηση g(a a) είναι µια συνεχής φθίνουσα συνάρτηση του a, τότε το ολοκλήρωµα ϖαίρνει τη µορφή: 1 C g(h) adg(a a) = (59) 0 και θέτοντας τους ίδιους ϖεριορισµούς µε ϖριν θεωρώντας n n εϖιϖλέον ότι di= gi g i + 1, τότε το ολοκλήρωµα Τσοκέτ για την ϖερίϖτωση ενός ϖεϖερασµένου συνόλου ορίζεται ως: n n n C g(h) = h(x i) gi g i + 1 (60) i= 1 Σε ϖερίϖτωση ϖου το g αϖοτελεί συνάρτηση ϖιθανότητας τότε n n i g g = g και το αϖοτέλεσµα είναι ένα ισορροϖηµένο άθροισµα το i i+ 1 i οϖοίο δεν εξαρτάται αϖό την ταξινόµηση των x i. Σε αυτή την ϖερίϖτωση µϖορεί να υϖολογιστεί το ολοκλήρωµα Lebesque αϖό το ολοκλήρωµα Τσοκέτ στην ϖερίϖτωση του κριτηρίου της ϖρόσθεσης.

105 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 105 Έτσι τα ολοκληρώµατα Σουγκένο και Τσοκέτ υϖολογίζονται τελικά για h(x 1) h(x 2)... h(x n) και A i= {x i, x i + 1,..., x N} ως εξής: [ ] S (h) = max min(h(x ),g(a )) g i i i n C g(h) h(x i) g(a i) g(a i 1) = i= 1 [ + ] (61) (62) Ασαφή κριτήρια υϖό συνθήκη (conditional fuzzy measures) Τα ασαφή κριτήρια υϖό συνθήκη είναι όµοια των κριτηρίων ϖιθανοτήτων υϖό συνθήκη [68]. Έστω Χ και Υ δύο σύνολα. Ένα ασαφές κριτήριο στο σύνολο Υ σε σχέση µε το Χ είναι η ασαφής συνάρτηση σ( x) ϖάνω στο Υ για κάθε x X. Μια ασαφής συνάρτηση g Y στο Y και g x στο X για B Y ορίζεται ως εξής: o (63) g Y(B) = σ Y(B x) g X( ) X Τώρα η g X αντιστοιχεί σε µια «a priori» ϖιθανότητα και η σ Y(B x) σε µια ϖιθανότητα υϖό συνθήκη. Για αυτό το λόγο, η g X µϖορεί να θεωρηθεί µια ασαφής «a priori» συνάρτηση [68]. Στην εικόνα 4.7 φαίνεται γραφικά ο υϖολογισµός του g Y.

106 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 106 Εικόνα 5.1: Ο γραφικός υϖολογισµός του g Y 5.3 Χαρακτηριστικά ασαφούς µαρκοβιανού µοντέλου Ένα ασαφές ϖροφίλ HMM έχει τα ϖαρακάτω χαρακτηριστικά: Ω ο χώρος των διανυσµάτων των ορατών συµβόλων Τ το µήκος της ακολουθίας. Αϖοτελεί το µήκος της ακολουθίας του DNA, RNA ή της ϖρωτεΐνης Ν ο αριθµός των καταστάσεων του µοντέλου. Στην ϖροκειµένη ϖερίϖτωση είναι τρία σύνολα καταστάσεων. Της ταύτισης (match), της εισαγωγής (insert) και της διαγραφής (delete) S το σύνολο των καταστάσεων {S 1,S 2,.,S N} αϖό τη χρονική στιγµή 1 ως q t. Εϖίσης το σύνολο των καταστάσεων δίνεται αϖό τον τύϖο 3*m+3, όϖου m ο αριθµός των καταστάσεων ταύτισης (match states) q t η κατάσταση τη χρονική στιγµή t Μ ο αριθµός των ορατών συµβόλων V τα σύµβολα των ορατών καταστάσεων {v 1,v 2,,v M}. Αϖοτελεί ένα διακριτό σύνολο συµβόλων ϖου ανάλογα µε την ϖερίϖτωση αν µελετώνται DNA, RNA ή ϖρωτεΐνες, είναι 4 για τις δύο ϖρώτες ϖεριϖτώσεις ή 21 για την τρίτη.

107 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 107 X={x 1,x 2,...,x Ν} οι καταστάσεις τη χρονική στιγµή t. Υ={y 1,y 2,...,y Ν} οι καταστάσεις τη χρονική στιγµή t+1 π s( ) η ασαφής συνάρτηση ϖυκνότητας στο σύνολο S, συγκεκριµένα η συνάρτηση αυτή αϖοτελεί την αρχικοϖοίηση της ασαφής συνάρτησης. i π i= π = π S({ Si}) η αρχική ασαφής συνάρτηση ϖυκνότητας. S Αϖοτελεί το βαθµό σηµαντικότητας ότι η αρχική κατάσταση είναι η S i. π = [ π i] το διάνυσµα της αρχικής συνάρτησης ϖυκνότητας. j b ( ) η ασαφής συνάρτηση ϖυκνότητας στην κατάσταση Sj εκϖοµϖής συµβόλων. j Ot b ( ) η ασαφής ϖυκνότητα εκϖοµϖής συµβόλων στην κατάσταση j. Αϖοτελεί το βαθµό σηµαντικότητας ότι το σύµβολο στην τωρινή κατάσταση είναι ένα αϖό τα O 1O 2 O T, δεδοµένης της τωρινής κατάστασης S i. B = b ( ) ο ϖίνακας των ασαφών συναρτήσεων εκϖοµϖής συµβόλων. i Ot Y ij a ( x) η ασαφής συνάρτηση υϖό συνθήκη στο Υ για κάθε x X αϖοτελεί την ασαφή συνάρτηση µετάβασης. a = σ Y({ yj} xi) η ασαφής συνάρτησης ϖυκνότητας µετάβασης των καταστάσεων A αϖό την κατάσταση i στην κατάσταση j. Αϖοτελεί το βαθµό σηµαντικότητας τη χρονική στιγµή t+1 να είναι Υ δεδοµένου ότι ήταν Χ στην ϖροηγούµενη κατάσταση. A = [a ] ο ϖίνακας των ασαφών συναρτήσεων µετάβασης αϖό την κατάσταση i στην κατάσταση j. Έτσι όϖως και στην ϖερίϖτωση του κλασικού ΗΜΜ όταν ij δοθούν κατάλληλες τιµές στα Ν, Μ, A, B και π το µοντέλο µϖορεί να χρησιµοϖοιηθεί σαν γεννήτρια ώστε να µας δώσει µια ακολουθία εξόδων:

108 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 108 O = O1O 2...OT (64) όϖου κάθε έξοδος Ο t είναι ένα αϖό τα σύµβολα αϖό το V και Τ είναι το µήκος της ακολουθίας. Για λόγους συντοµίας, όταν γίνεται αναφορά στο σύνολο ϖαραµέτρων του νέου ασαφούς κρυφού µαρκοβιανού µοντέλου θα χρησιµοϖοιείται ο ακόλουθος. συµβολισµός λ = (A, B, π ) Η αρχιτεκτονική του νέου µοντέλου είναι ίδια µε την αρχιτεκτονική ϖου αναλύθηκε στο ϖαράδειγµα του αϖλού ΗΜΜ και γραφικά είναι όϖως φαίνεται στην εικόνα 4.5. Ο καθορισµός του µοντέλου µε ασαφή ϖροσέγγιση οδηγεί σε τρεις διαφορετικές τεχνικές της λύσης των τριών βασικών ϖροβληµάτων των κρυφών µαρκοβιανών µοντέλων. Παρακάτω δίνονται οι τρεις νέες τεχνικές. 5.4 Προσδιορισµός των τριών βασικών ϖροβληµάτων του ασαφούς ΗΜΜ Ο καθορισµός του µοντέλου µε χρήση ασαφών ϖροφίλ ΗΜΜ έχει σαν αϖοτέλεσµα τη δηµιουργία διαφορετικών ϖροσεγγίσεων των τριών ϖροβληµάτων ϖου αϖασχολούν τα ΗΜΜ. Πρόβληµα 1 Συγκεκριµένα το ϖρόβληµα της εκτίµησης ενός ασαφούς ΗΜΜ µϖορεί να οριστεί χρησιµοϖοιώντας την ασαφή ϖροσέγγιση του εµϖρός αλγόριθµου (forward algorithm) [5]. Όµοια µε την κλασική ϖερίϖτωση, ο αλγόριθµος ϖεριλαµβάνει τον εϖαναληϖτικό υϖολογισµό της µεταβλητής του εµϖρός αλγόριθµου µέχρι το αϖοτέλεσµα να συγκλίνει. Έτσι έστω Ω1,t ο χώρος της ορατής ακολουθίας αϖό τη χρονική στιγµή 1 στη χρονική στιγµή t. Έστω εϖίσης ότι ΩX= Ω1,t X το καρτεσιανό γινόµενο του Ω 1,t (το Χ είναι το σύνολο των καταστάσεων τη χρονική στιγµή t). Ακόµα έστω ΩX a ΩΧ:2 [0,1] η ασαφής συνάρτηση για το χώρο ΩX (ΩΧ, 2 ), όπου E X, άρα το a ΩΧ({Ο 1,Ο 2,...,Ο t} E) µετρά το βαθµό σηµαντικότητας η ορατή ακολουθία συµβόλων ήταν η O1O 2...O t τη

109 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 109 χρονική στιγµή t. Για δοσµένη ακολουθία O1O 2...O t ορατών συµβόλων και κατάσταση x i (κατάσταση S iτη χρονική στιγµή t ) ορίζεται ότι: i a a ΩΧ({O1O 2...O t} {x i}) ΩΧ = (65) Αυτή η µεταβλητή θεωρείται η ϖρος τα εµϖρός ασαφής µεταβλητή και συµβολίζεται µε a t(i) a t(i). Στην ασαφή ϖερίϖτωση η ϖρος τα εµϖρός µεταβλητή εκϖροσωϖεί το βαθµό σηµαντικότητας να εµφανιστεί η ακολουθία εξόδου O1O 2...O t και να βρίσκεται στην κατάσταση x i τη χρονική στιγµή t. Αρχικοϖοίηση - Χρονική στιγµή 1: a 1(i) = π i b(o i 1), 1 i N (66) όϖου είναι ο ασαφής τελεστής της τοµής (min) [87]. Ο τελεστής της τοµής στην ϖιο αϖλή µορφή του είναι ο τελεστής ελαχιστοϖοίησης και εϖιστρέφει το µικρότερο αϖό τις δύο τιµές. Χρονική στιγµή t+1: j a (j) = a = a ({O O...O } {y }) t+ 1 Υ Ω Ω 1 2 t+ 1 j Υ = a Y({y i} x) a Ω X({O 1O 2...O t}, ) b j(o t+1) X o (67) (68) Η συνάρτηση µε τη βοήθεια του ολοκληρώµατος Τσοκέτ για διακριτό σύνολο όϖως έχει ϖροαναφερθεί (τύϖος 60) θα γίνει: t i j (69) i=1 N a t+ 1(j) = aijd (, ) b j(o t+ 1)

110 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 110 n n όϖου d t( i, j ) είναι η διαφορά gi g i + 1 και ο ϖολλαϖλασιασµός χρησιµοϖοιείται στη θέση του ασαφή τελεστή της τοµής. Αν εϖιϖλέον τεθεί: ρ t(i, j) = d (, ) / a t(i) t i j (70) τότε η σχέση 69 θα ϖάρει την τελική µορφή: ρ (71) i=1 N a t+ 1(j) = a ij t(i, j) a t(i) b j(o t+ 1) ο τύϖος 71 είναι ϖαρόµοιος µε τον τύϖο 60 των κλασικών ΗΜΜ µε τη διαφορά της ϖοσότητας ρ t(i, j) ϖου χρειάζεται να υϖολογιστεί έτσι όϖως ϖεριγράφεται στον τύϖο 70. Κάθε µεταβλητή της ϖοσότητας αυτής αϖοτελεί µια µη γραµµική συνάρτηση των k=1,2,..,n Τερµατισµός: a t(k) και a kj, N i=1 a T(i) Pr(O, λ) = (72) Παρόµοια µϖορεί να υϖολογιστεί και ο ασαφής ϖρος τα ϖίσω αλγόριθµος ο οϖοίος χρειάζεται για την αϖάντηση του τρίτου ϖροβλήµατος. Η µεταβλητή θα είναι: N β t(i) = aijb j(o t+ 1) β t+ 1(j) ρ t(i, j) (73) j= 1 και αντίστοιχα δίνει το βαθµό σηµαντικότητας της εναϖοµείνασας ακολουθίας αϖό τη χρονική στιγµή t+1 µέχρι το τέλος, δεδοµένου ότι η κατάσταση τη χρονική στιγµή t είναι S i. Πρόβληµα 2 Η ϖροσαρµογή του ασαφούς αλγόριθµου Βιτέρµϖι αντίστοιχα γίνεται µε την εισαγωγή της ϖοσότητας ρ t(i, j) η οϖοία αϖοτελεί τη βασική διαφορά µε τον κλασικό αλγόριθµο και αϖοτελεί όϖως

111 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 111 ϖροαναφέρθηκε µια µη γραµµική συνάρτηση των a t(k) και a kj, k=1,2,..,n [5]. Στο ϖρόβληµα 2 ϖρέϖει να µεγιστοϖοιηθεί η ϖοσότητα: Pr(O Q, ) = q 1b q 1(O 1) aq 1 q 2 b q 2(O 2 ) 2( q 1, q 2)... λ π ρ q1,q 2,...,qT...a b (O ) ρ q q qt- 1 qt qt T Τ( Τ 1, Τ) (74) η οϖοία είναι η αντίστοιχη του τύϖου 11 Έτσι ορίζεται η ϖοσότητα: δ t(i) = max q1,q2,...,qt-1 q1,q 2,...,qT π b (O ) a b (O ) ρ q q q 1 q 1 1 q 1 q 2 q 2 2 2( 1, 2)...aqT- 1 qt b qt(o T) ρτ(qτ 1, q Τ) (75) δ Έτσι η t+ 1(i) είναι ο µεγαλύτερος βαθµός σηµαντικότητας κατά µήκος ενός αϖλού µονοϖατιού τη χρονική στιγµή t, ϖου ϖεριλαµβάνει τις ϖρώτες t ϖαρατηρήσεις και τελειώνει στην κατάσταση S i όϖως ισχύει και στη σχέση 20. Για τη χρονική στιγµή t+1 εϖαγωγικά ισχύει για την ασαφή ϖερίϖτωση θα ισχύει: δ (j) = [max δ (i)a ρ + (i, j)]b (O ) (76) t+ 1 t ij t 1 j t+ 1 i Στην ϖραγµατικότητα για να υϖολογιστεί το βέλτιστο µονοϖάτι ϖρέϖει να ακολουθηθεί το όρισµα ϖου µεγιστοϖοιεί την ϖαραϖάνω σχέση για κάθε t και j όϖως ακριβώς συµβαίνει και στην ϖερίϖτωση του κλασικού µαρκοβιανού µοντέλου. Αυτό εϖιτυγχάνεται µε τη χρήση ενός ακόµα ϖίνακα, του y t(j). Η τεχνική είναι ϖαρόµοια και έχει ως εξής: Αρχικοϖοίηση - Χρονική στιγµή 1:

112 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 112 δ 1(i) = π i b(o i 1), 1 i N (77) y 1(i) = 0 Χρονική στιγµή t: δ (j) = max[ δ (i)a ρ (i, j)] b (O), 2 t T και 1 j N (78) t t 1 ij t j t 1 i N y (j) = argmax[ δ (i)a ρ (i, j)], 2 t T και 1 j N (79) t t- 1 ij t 1 i N Τερµατισµός: p* = max[ δ T(i)] 1 i N (80) q* T = argmax[ δ T(i)] 1 i N (81) Εξαγωγή µονοϖατιού: q* T = y t+ 1(q* t+ 1), t = T-1,T- 2,...1 (82) Πρόβληµα 3 Στο τελευταίο ϖρόβληµα αντίστοιχα και µε τα δύο ϖροηγούµενα ϖροβλήµατα η τεχνική η οϖοία θα µεγιστοϖοιήσει το βαθµό σηµαντικότητας η δοσµένη ακολουθία εξόδων να έχει ϖροέλθει αϖό το µοντέλο δίνοντας κατάλληλες ϖαραµέτρους στο µοντέλο. Αυτό µϖορεί να ϖραγµατοϖοιηθεί µε τη χρήση της τεχνικής ασαφούς Baum-Welch [5].

113 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 113 Για την τεχνική εϖανεκτίµησης (εϖαναληϖτική ενηµέρωση και βελτίωση) των ϖαραµέτρων του ασαφούς ΗΜΜ ορίζεται η ασαφής συνάρτηση ξ t(i, j), καθώς και η ασαφής συνάρτηση t(i) (οι οϖοίες είναι ϖαρόµοιες µε εκείνες τον κλασικών ΗΜΜ σχέσεις 28-33). Χρησιµοϖοιώντας τις σχέσεις αυτές έχουµε µια µέθοδο εϖανεκτίµησης των ϖαραµέτρων ΗΜΜ. Οι εξισώσεις είναι για τα A, B και π γ είναι: a ij = T-1 a t( i)a ij t(i, j) t+ 1(j) b j(o t+ 1) t=1 N T-1 a t( i) ρt(i,k)a ijβ t+ 1(k) b k(o t+ 1) k=1 t=1 ρ β (83) b j(k) = T a t(j) β t t=1, Ot= vk T a t(j) β t t=1 (j) (j) (84) π i = a 1(i) β 1(i) N j=1 a 1(j) β 1(j) (85) Η ϖαραϖάνω τύϖοι ισχύουν δεδοµένου ότι το ρ t(i, j) είναι µια όχι φθίνουσα µονότονη συνάρτηση του a ij και του b(o i t) [88]. 5.5 Μεθοδολογία υλοϖοίησης ϖολλαϖλής συστοίχισης ακολουθιών µε τη µέθοδο των ασαφών ϖροφίλ ΗΜΜ Έχοντας ορίσει ϖλήρως το νέο µοντέλο εφαρµόστηκε η ϖαρακάτω µεθοδολογία (εικόνα 5.2) ϖροκειµένου να εφαρµοστεί για την υλοϖοίηση της δηµιουργίας ϖολλαϖλής συστοίχισης ακολουθιών. Βήµα 1: Εύρεση οµολόγων ακολουθιών µε τη µέθοδο του PSI- BLAST.

114 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 114 Βήµα 2: Τυχαίος χωρισµός των ακολουθιών σε σύνολα εκϖαίδευσης του µοντέλου και σύνολα ελέγχου του. Βήµα 3: Εκϖαίδευση του ασαφούς µοντέλου µε το σύνολο εκϖαίδευσης και τη χρήση των µεθόδων ασαφών εµϖρός-ϖίσω µεθόδων. Βήµα 4: Πολλαϖλή συστοίχιση του συνόλου ελέγχου δεδοµένων µε τη βοήθεια του εκϖαιδευµένου µοντέλου και τη χρήση της ασαφούς Βιτέρµϖι µεθόδου. Βήµα 5: Εξαγωγή ϖολλαϖλών συστοιχίσεων του συνόλου ελέγχου µε τις µεθόδους του αϖλού ΗΜΜ (η εκϖαίδευση του µοντέλου ϖραγµατοϖοιείται µε το ίδιο σύνολο εκϖαίδευσης του ασαφούς µοντέλου), της ϖροοδευτικής συστοίχισης (CLUSTALW) και της ιεραρχικής οµαδοϖοίησης (hierachical clustering). Βήµα 6: Σύγκριση της συστοίχισης των συγκεκριµένων ακολουθιών µεταξύ όλων των µεθόδων µε την εύρεση µέσου όρου ταυτοϖοίησης και του µήκους συναινετικών ϖεριοχών, καθώς και του υϖολογιστικού χρόνου (ο χρόνος µετριέται σε σχέση µε τα αϖλά ΗΜΜ) [5]. Εικόνα 5.2: Μεθοδολογία ϖολλαϖλής συστοίχισης µε τη µέθοδο ασαφούς ΗΜΜ

115 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων Πειραµατικά αϖοτελέσµατα Προκειµένου να αξιολογηθεί η αϖόδοση των συστοιχίσεων µε τη χρήση των ασαφών ϖροφίλ ΗΜΜ εκτελέστηκαν τεστ µε την κλασική µέθοδο των ΗΜΜ [75], µε τη µέθοδο της ϖροοδευτικής συστοίχισης (ClustalW) [39], καθώς και µε τη µέθοδο ιεραρχικής οµαδοϖοίησης (hierarchical clustering) [89]. Στη µελέτη αυτή χρησιµοϖοιήθηκε η ϖρωτεΐνη Ε6 σε διάφορους τύϖους και ϖαραλλαγών του HPV. Συγκεκριµένα, χρησιµοϖοιήθηκαν 78 διαφορετικές ϖαραλλαγές της Ε6 ϖου ϖροέρχονται αϖό όλους τους γνωστούς τύϖους του HPV, καθώς εϖίσης και 30 ϖρωτεϊνικές ακολουθίες οι οϖοίες είναι οµόλογες µε την Ε6 HPV ϖρωτεΐνη και ϖροέρχονται αϖό διάφορους οργανισµούς. Το σύνολο δεδοµένων χωρίστηκε τυχαία µε αναλογία 90%-10% στο σύνολο εκϖαίδευσης του µοντέλου και στο σύνολο δεδοµένων για συστοίχιση. Ακόµα ϖιο συγκεκριµένα 97 ακολουθίες χρησιµοϖοιήθηκαν για την εκϖαίδευση του µοντέλου, ενώ 11 ακολουθίες χρησιµοϖοιήθηκαν για τη συστοίχιση µεταξύ τους. Οι ακολουθίες ϖρος συστοίχιση ϖροέκυψαν αϖό την Ε6 ϖρωτεϊνική οικογένεια και αϖό οµόλογες ϖρωτεΐνες οι οϖοίες αϖοκτήθηκαν µε τη µέθοδο του PSI-BLAST. Το κλασικό ϖροφίλ ΗΜΜ χρειάστηκε για να εκϖαιδευτεί 20 κύκλους, ενώ το ασαφές κρυφό µαρκοβιανό µοντέλο χρειάστηκε µόλις 12 κύκλους. Αυτό αυτόµατα ρίχνει το υϖολογιστικό κόστος σχεδόν στο µισό της κλασικής µεθόδου κάτι το οϖοίο είναι ϖολύ ενθαρρυντικό. Όµως τι ακριβώς γίνεται σχετικά µε την ϖοιότητα των συστοιχισµένων ακολουθιών; Κάνοντας στη συνέχεια χρήση του ασαφούς Βιτέρµϖι αλγόριθµου φάνηκε ότι έδωσαν ακολουθίες συστοιχισµένες µε ϖερισσότερες συναινετικές ϖεριοχές αϖό ότι η κλασική µέθοδος. Μέρος των συναινετικών ϖεριοχών φαίνεται στις εικόνες 5.3 και 5.4.

116 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 116 Εικόνα 5.3: MSA µε ασαφή ΗΜΜ µε τις συναινετικές ακολουθίες τους Εικόνα 5.4: MSA µε κλασικά ΗΜΜ µε τις συναινετικές ακολουθίες τους Προκειµένου να γίνει αξιολόγηση των συστοιχίσεων χρησιµοϖοιήθηκε ο µέσος όρος ταυτοϖοίησης των συστοιχίσεων µε τη µέτρηση των αριθµών των συµβόλων ζευγαριών µέσα στη συστοίχιση ϖου συστοιχήθηκαν ϖλήρως, δια του συνολικού µήκους της συστοίχισης. Στον ϖίνακα 5.1 ϖου φαίνεται ϖαρακάτω αϖεικονίζονται τα συνολικά αϖοτελέσµατα ϖου ϖεριέχουν το µέσο όρο ταυτοϖοίησης για την κάθε µέθοδο, καθώς και το µήκος συναινετικών ϖεριοχών των ϖαραγόµενων συστοιχίσεων. Το ασαφές ϖροφίλ ΗΜΜ υλοϖοιήθηκε σε Java, χρησιµοϖοιώντας το ϖακέτο BioJava.

117 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 117 Μέθοδος Μήκος Μέσος όρος ταυτοϖοίησης (%) Ασαφή ΗΜΜ Κλασικά HMM Προοδευτική συστοίχιση Ιεραρχική οµαδοϖοίηση Πίνακας 5.1: Σύγκριση µέσων όρων ταυτοϖοίησης ανάµεσα σε 4 µεθόδους 5.7 Συζήτηση Μια ϖρώτη ϖαρατήρηση σχετικά µε την υλοϖοίηση των ασαφών ϖροφίλ ΗΜΜ είναι το γεγονός ότι συγκλίνουν ϖολύ ϖιο γρήγορα σε σχέση µε τα κλασικά ΗΜΜ. Το νέο µοντέλο φαίνεται να συγκλίνει µόλις στους µισούς κύκλους σε σχέση µε το κλασικό µοντέλο. Αυτό σηµαίνει ότι εξάγει αϖοτελέσµατα ϖολύ ϖιο γρήγορα, ενώ ταυτόχρονα δε χάνει την αϖοδοτικότητά του. Το ασαφές ϖροφίλ ΗΜΜ σχετικά µε τα ϖοσοστά ταυτοϖοίησης φαίνεται να υϖερτερεί του κλασικού ΗΜΜ, αϖοδεικνύοντας έτσι ότι η άµβλυνση του ϖεριορισµού της ανεξαρτησίας αυξάνει την αϖοδοτικότητα του µοντέλου και το κάνει να είναι καλύτερης βιολογικής σηµασίας. Το ασαφές ϖροφίλ ΗΜΜ ξεϖερνά τις τρεις µεθόδους ϖολλαϖλής συστοίχισης συµϖεριλαµβανοµένης και της ϖολύ καλά εϖαληθευµένης ϖροοδευτικής τεχνικής. Η ευρετική ϖροοδευτική συστοίχιση ενδυναµώνει τα αϖοτελέσµατά της σε σχεδόν όλα τα είδη των δεδοµένων, αλλά για αρκετά µεγάλα σύνολα, όϖως αυτά ϖου χρησιµοϖοιήθηκαν, το ασαφές ϖροφίλ ΗΜΜ ϖαρουσιάζει καλύτερα αϖοτελέσµατα. Σχετικά µε το µήκος της συναινετικής ϖεριοχής ϖαρατηρείται ότι το ασαφές ΗΜΜ είναι µεγαλύτερο σε σχέση µε το κλασικό, αλλά ϖαρόλα αυτά το κλασικό ΗΜΜ φαίνεται να είναι λιγότερο ικανό να βρει µεγάλες ϖεριοχές συντήρησης, ακόµα και συγκρινόµενο µε τις άλλες δύο µεθόδους. Ωστόσο ϖρέϖει να δοθεί έµφαση στο γεγονός ότι για ϖρωτεΐνες αρκετά αϖοµακρυσµένες µεταξύ τους, όϖως αυτές του συνόλου δεδοµένων, µόνο ένας συγκεκριµένος ϖυρήνας ϖεριοχών (residues) είναι σηµαντικά συστοιχισµένος [90].

118 Κεφάλαιο 5: Μαθηµατική θεµελίωση ασαφών κρυφών µαρκοβιανών µοντέλων 118 Εν τέλει ο σκοϖός της νέας αυτής µεθόδου είναι να χρησιµοϖοιηθεί στη φυλογενετική ανάλυση. Κάθε ουσιαστική, βασισµένη σε ακολουθίες, φυλογενετική ανάλυση ξεκινά µε µια αϖοδοτική συστοίχιση. Τα ασαφή ϖροφίλ ΗΜΜs στερούνται του ϖεριορισµού της στατιστικής ανεξαρτησίας, ϖαρουσιάζοντας έτσι ακολουθίες µε κοινές ϖεριοχές, και κατ εϖέκταση ϖαράγοντας καλύτερα φυλογενετικά δέντρα. 5.8 Συµϖεράσµατα Με αυτή τη νέα ϖροσέγγιση ϖροτείνεται µια νέα γενίκευση των ϖροφίλ ΗΜΜs (profile HMMs) ϖου εκµεταλλεύεται τα ασαφή ολοκληρώµατα και τα ασαφή κριτήρια µε σκοϖό την ϖαραγωγή συστοιχίσεων µε καλύτερη χρονική αϖόκριση και µεγαλύτερα ϖοσοστά ταυτοϖοίησης. Η νέα αυτή ϖροσέγγιση χαλαρώνει το ϖεριορισµό της ανεξαρτησίας ϖου εφαρµόζεται στα κλασικά HMMs µε αϖοτέλεσµα να δηµιουργεί συστοιχίσεις µεγαλύτερης βιολογικής σηµασίας. Αρχικά ορίστηκε µαθηµατικά το νέο αυτό µοντέλο, ϖεριγράφοντας ταυτόχρονα τις αλλαγές ϖου έγιναν σε σχέση µε το κλασικό µοντέλο. Το νέο µοντέλο στη συνέχεια χρησιµοϖοιήθηκε σε σύνολα οµόλογων ϖρωτεϊνών του ιού HPV και στη συνέχεια συγκρίθηκε µε το κλασικό ϖροφίλ ΗΜΜ µοντέλο, µε την τεχνική της ϖροοδευτικής συστοίχισης, καθώς και µε τη µέθοδο της ιεραρχικής οµαδοϖοίησης. Τα αϖοτελέσµατα αϖεικονίζουν την ικανότητα της νέας αυτής τεχνικής να ϖαράγει συστοιχίσεις καλύτερες σε σχέση µε τα κλασικά ΗΜΜ, µε της ιεραρχικής οµαδοϖοίησης, καθώς και µε της ευρετικής µεθόδου της ϖροοδευτικής συστοίχισης. Έτσι ανακεφαλαιώνοντας, πριν την παρούσα µελέτη οι πολλαπλές συστοιχίσεις ακολουθιών πραγµατοποιούνταν µε αιτιοκρατικές ή στατιστικές µεθόδους. Τα προφίλ ΗΜΜ αποτελούσαν µια στατιστική µέθοδο για την πολλαπλή συστοίχιση ακολουθιών και η φυλογενετική ανάλυση πραγµατοποιούνταν έχοντας σαν είσοδο αυτά τα προφίλ. Μετά τη συγκεκριµένη µελέτη προστέθηκε στον τρόπο υπολογισµού MSA η χρήση ασαφών µεθόδων, ένα νέο ασαφές προφίλ ΗΜΜ το οποίο υπερτερεί των κλασικών σε υπολογιστικό χρόνο και σε ποσοστό µέσου όρου ταυτοποίησης. Έχοντας ορίσει πλήρως τη νέα αυτή τεχνική και εφόσον µελετηθούν οι τρόποι βελτιστοποίησης των παραµέτρων της για την απόδειξη της ευρωστίας του µοντέλου, θα µπορεί έπειτα να ενσωµατωθεί στη µεθοδολογία της φυλογενετικής ανάλυσης.

119 6 ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΜΕΤΡΩΝ ΤΟΥ ΑΣΑΦΟΥΣ ΚΡΥΦΟΥ ΜΑΡΚΟΒΙΑΝΟΥ ΜΟΝΤΕΛΟΥ 6.1 Εισαγωγή Στο κεφάλαιο αυτό ϖαρουσιάζεται µία µεθοδολογία βελτιστοϖοίησης του αϖοτελέσµατος της ϖολλαϖλής συστοίχισης µε τη χρήση του ασαφούς ϖροφίλ µαρκοβιανού µοντέλου. Η µεθοδολογία αυτή αϖοσκοϖεί στην κατασκευή του καλύτερου δυνατού µοντέλου µε την ϖροτεινόµενη µέθοδο του ασαφούς HMM, τέτοιου ώστε να είναι ικανό να συστοιχίζει ακολουθίες µε τη µέγιστη δυνατή ταυτοϖοίηση. Οι µη αιτιοκρατικές µέθοδοι υϖολογισµού της ϖολλαϖλής συστοίχισης ακολουθιών υϖολογίζουν την ϖιθανότητα, ή την ασαφή δυνατότητα στην ϖερίϖτωση του ασαφούς ϖροφίλ HMM, κάϖοιας ακολουθίας να έχει ϖαραχθεί αϖό ένα µοντέλο (ϖαράγραφος και 5.3, Πρόβληµα 1 εϖίδοση ακολουθίας). Ακόµα και στην ϖερίϖτωση της εκϖαίδευσης του µοντέλου είναι αναγκαίος ο υϖολογισµός αυτής της ϖιθανότητας και µάλιστα µε τη µορφή του αρνητικού λογαρίθµου (log-odds scoring), ϖροκειµένου να αϖοφεύγονται φαινόµενα υϖερχείλισης. Ο υϖολογισµός αυτός γίνεται ϖάντα σε σχέση µε µία αρχική µηδενική υϖόθεση. Μία τέτοια υϖόθεση είναι συνήθως ένα ϖιο αϖλό στατιστικό µοντέλο, ϖ.χ. η οµοιόµορφη κατανοµή, ϖου σκοϖό έχει την αναϖαράσταση όλων των υϖαρχόντων ακολουθιών, σε αντίθεση µε το εκϖαιδευθέν µοντέλο το οϖοίο ϖεριγράφει µόνο τις ακολουθίες του συνόλου εκϖαίδευσης. Αυτού του είδους ο υϖολογισµός οδηγεί άµεσα στην ερώτηση: ϖοιο κατώφλι του αρνητικού λογαρίθµου θα ϖρέϖει να εκτιµηθεί ότι ταιριάζει στο µοντέλο; Πιο αϖλά ϖρέϖει να εκτιµηθεί: 119

120 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 120 α) κατά ϖόσο ϖρέϖει να λαµβάνεται υϖόψη το µοντέλο µηδενικής υϖόθεσης κατά τη διάρκεια της εκϖαίδευσης, έτσι ώστε ο υϖολογισµός της ασαφούς δυνατότητας να είναι βέλτιστος. β) τι εϖιρροή θα έχει το µηδενικό µοντέλο στον υϖολογισµό της ασαφούς δυνατότητας κάθε φορά. Η µεθοδολογία ϖου ϖεριγράφεται στην εϖόµενη ϖαράγραφο εϖιτρέϖει στο χρήστη του ασαφούς ϖροφίλ HMM να βελτιστοϖοιήσει την αϖόδοση του µοντέλου στην ϖολλαϖλή συστοίχιση ακολουθιών, οδηγώντας τον στην εϖιλογή των βέλτιστων ϖαραµέτρων. Στη συνέχεια, ϖαρατίθενται τα αϖοτελέσµατα αϖό την εφαρµογή της µεθοδολογίας στο σύνολο δεδοµένων του ιού HPV, ενώ στο τέλος συζητείται η ϖοιότητα των αϖοτελεσµάτων σε σχέση µε τις κλασικές µεθόδους συστοίχισης. 6.2 Μεθοδολογία Η ϖολλαϖλή συστοίχιση ακολουθιών µϖορεί να υϖολογιστεί µε τη χρήση των αρνητικών λογαρίθµων, ενός µέτρου ϖροερχόµενου αϖό το ϖεδίο της θεωρίας ϖληροφορίας [91], ϖου χρησιµοϖοιήθηκε και στην υλοϖοίηση του κλασικού HMM στο ϖακέτο HMMER. Οι αρνητικοί λογάριθµοι στην ϖερίϖτωση του κλασικού HMM δηλώνουν το κατά ϖόσο η ϖιθανότητα ότι η ακολουθία Ο ϖαράχθηκε αϖό το µοντέλο λ είναι µεγαλύτερη αϖό την ϖιθανότητα η ακολουθία να έχει ϖαραχθεί αϖό το µοντέλο µηδενικής υϖόθεσης φ. score( O) = log z Pλ ( O) P ( O) φ (86) όϖου ο λογάριθµος µϖορεί να έχει οϖοιαδήϖοτε βάση z, συχνότερα ωστόσο χρησιµοϖοιούνται οι νεϖέριοι λογάριθµοι. Στην ϖερίϖτωση του ασαφούς κρυφού µαρκοβιανού µοντέλου ο υϖολογισµός του αρνητικού λογαρίθµου ορίζεται ως εξής: score( O) = log z Pˆ ( O ) ˆ λ P ( O) φ (87)

121 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 121 όϖου P ˆ ( O) ˆ λ είναι η ϖοσότητα ϖου εκφράζει το βαθµό σηµαντικότητας µε τον οϖοίο ϖαρατηρείται η ακολουθία Ο αϖό το ασαφές µοντέλο ˆλ. Έτσι ανάλογα, αϖό τη στιγµή ϖου ένα µοντέλο έχει εκϖαιδευτεί στο τέλος ενός κύκλου εκϖαίδευσης, τίθεται το ερώτηµα του ϖώς ϖρέϖει να χρησιµοϖοιηθεί το µοντέλο µηδενικής υϖόθεσης για τον υϖολογισµό των αρνητικών λογαρίθµων. Θεωρώντας το µοντέλο της οµοιόµορφης κατανοµής, οι ϖαράµετροι ϖου µϖορούν να εϖηρεάσουν τον υϖολογισµό του λογαριθµικού σκορ είναι δύο: ο συντελεστής µοντέλου εκϖαίδευσης a: Η ϖαράµετρος αυτή εκφράζει το ϖόσες φορές θα λαµβάνεται υϖόψη το µοντέλο µηδενικής υϖόθεσης στον υϖολογισµό του λογαριθµικού σκορ το βάρος µοντέλου µηδενικής υϖόθεσης w: Η ϖαράµετρος αυτή εκφράζει το ύψος της οµοιόµορφης κατανοµής. Στην ϖερίϖτωση χρήση άλλου τύϖου µηδενικού µοντέλου, η ϖαράµετρος αυτή µϖορεί να ϖεριγράφει τις αντίστοιχες εσωτερικές ιδιότητες της κατανοµής. Για τη βέλτιστη αξιοϖοίηση του ασαφούς ϖροφίλ HMM, ϖροτείνεται η ϖαρακάτω µεθοδολογία ϖου µελετά τη συµϖεριφορά του νέου µοντέλου στις µεταβολές των ϖαραµέτρων εισόδου του µηδενικού µοντέλου υϖόθεσης για το µοντέλο εκϖαίδευσης ϖου χρησιµοϖοιεί τους ασαφείς εµϖρός και ϖίσω αλγορίθµους. Παράλληλα, ένας δεύτερος στόχος ανάϖτυξης αυτής της µεθοδολογίας είναι η µελέτη της σταθερότητας και αϖοδοτικότητας του µοντέλου σε διαφορετικές ϖαραµέτρους. Οι διαφορετικοί συνδυασµοί των δύο ϖαραµέτρων µϖορούν να χρησιµοϖοιηθούν για τη βελτιστοϖοίηση του µοντέλου. Πιο συγκεκριµένα, µέσω της συγκεκριµένης ϖειραµατικής διαδικασίας είναι δυνατόν να ανακαλυφθεί το κατώφλι τιµών για το συντελεστή του µοντέλου µηδενικής υϖόθεσης για το οϖοίο η αϖόδοση του µοντέλου γίνεται µέγιστη. Ο συντελεστής του µηδενικού µοντέλου ουσιαστικά εκφράζει το ϖόσο λαµβάνεται υϖόψη το µηδενικό µοντέλο στον υϖολογισµό του αρνητικού λογάριθµου. Πολύ χαµηλές τιµές του συντελεστή του µηδενικού µοντέλου έχουν ως αϖοτέλεσµα τον υϖολογισµό λογαρίθµων ϖου δίνουν µεγάλη βεβαιότητα για τις ϖαραµέτρους του µοντέλου. Σαν συνέϖεια, ένα τέτοιο ασαφές µοντέλο θεωρείται ϖολύ ειδικό, αφού µϖορεί να ϖεριγράφει µε σαφήνεια µόνο τις ακολουθίες ϖου χρησιµοϖοιήθηκαν για την

122 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 122 εκϖαίδευσή του, και να τους δίνει µεγαλύτερη βεβαιότητα. Αυτό οδηγεί στην υϖερεκϖαίδευση του µοντέλου και την αδυναµία συστοίχισης εϖιϖλέον ακολουθιών σε αυτό. Αϖό την άλλη, µεγαλύτερες τιµές του συντελεστή αϖοδίδουν µεγαλύτερη βαρύτητα στο µηδενικό µοντέλο, και κατά συνέϖεια µικραίνουν τη βεβαιότητα µε την οϖοία το ασαφές µοντέλο µϖορεί να ϖροβλέψει τη συστοίχιση µίας ακολουθίας, οδηγώντας σε ένα γενικευµένο ασαφές µοντέλο ϖου χάνει τη δυνατότητα να ϖεριγράφει τη συστοίχιση οϖοιωνδήϖοτε ακολουθιών ϖου συσχετίζονται µεταξύ τους. Έτσι, η καµϖύλη της αϖόδοσης της µεθόδου σε σχέση µε το συντελεστή του µοντέλου αναµένεται να ϖαρουσιάζει µέγιστο σε κάϖοιο σηµείο. Η ϖαράµετρος w, ϖου εκφράζει την εϖιρροή του µηδενικού µοντέλου κάθε φορά ϖου αυτό λαµβάνεται υϖόψη, ουσιαστικά αναφέρεται στον αριθµό των χαρακτήρων ϖου ψευδώς θα καταµετρηθούν εϖιϖλέον κατά τον υϖολογισµό του λογαριθµικού σκορ, λόγω της ύϖαρξης του µοντέλου µηδενικής υϖόθεσης. Η ϖροσµέτρηση ϖερισσότερων τέτοιων χαρακτήρων µϖορεί να εϖιφέρει την αλλοίωση της διακριτικής ικανότητας του ασαφούς µοντέλου, ενώ αϖό την άλλη αϖαιτείται η ύϖαρξη ενός αριθµού τέτοιων χαρακτήρων, ώστε να είναι υλοϖοιήσιµη η έννοια της σύγκρισης µε το µοντέλο µηδενικής υϖόθεσης. Η µεθοδολογία ϖεριλαµβάνει τα εξής βήµατα: Βήµα 1: Χρήση διαφορετικών τιµών στα βάρη µοντέλου µηδενικής υϖόθεσης w καθώς και διαφορετικών συντελεστών a του µηδενικού µοντέλου για την εκϖαίδευση του ασαφούς µοντέλου HMM. Βήµα 2: Εκϖαίδευση του νέου ασαφούς µοντέλου µε τη χρήση των µεθόδων ασαφών εµϖρός-ϖίσω µεθόδων κάνοντας χρήση κάθε φορά των ϖαραµέτρων του µηδενικού µοντέλου για τον υϖολογισµό των σκορ στο τέλος κάθε κύκλου εκϖαίδευσης. Βήµα 3: Πολλαϖλή συστοίχιση του συνόλου ελέγχου δεδοµένων µε τη βοήθεια του εκϖαιδευµένου µοντέλου και τη χρήση της ασαφούς Βιτέρµϖι µεθόδου. Βήµα 4: Εξαγωγή ϖολλαϖλών συστοιχίσεων του συνόλου ελέγχου. Βήµα 5: Αξιολόγηση των συστοιχίσεων µε βάση το µέσο όρο ταυτοϖοίησης, το µέσο όρο οµοιότητας, και το µέσο όρο των κενών στη συστοίχιση. Βήµα 6: Εϖιλογή βέλτιστων συστοιχίσεων.

123 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 123 Στην εικόνα 6.1 φαίνεται η ϖροτεινόµενη µεθοδολογία. Εικόνα 6.1: Μεθοδολογία ϖολλαϖλής συστοίχισης ακολουθιών µε τη χρήση του βάρους µοντέλου µηδενικής υϖόθεσης w και του συντελεστή µοντέλου εκϖαίδευσης a. 6.3 Πειραµατικά αϖοτελέσµατα Προκειµένου να βελτιστοϖοιηθούν οι ϖαράµετροι του µοντέλου για την ϖαραγωγή αϖοδοτικότερων συστοιχίσεων, µεταβλήθηκαν οι δύο ϖαράµετροι του µηδενικού µοντέλου υϖόθεσης w και a, σύµφωνα µε τη µεθοδολογία της ϖαραγράφου 6.2. Το σύνολο των δεδοµένων ϖου χρησιµοϖοιήθηκαν είναι η ϖρωτεΐνη Ε6 σε

124 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 124 διάφορους τύϖους και ϖαραλλαγών του HPV. Ο τρόϖος ϖου ϖροέκυψαν οι ακολουθίες καθώς και ο διαχωρισµός τους σε σύνολο εκϖαίδευσης και σύνολο δοκιµής έγινε όϖως αναφέρεται στην ϖαράγραφο 5.5. Εϖειδή το συγκεκριµένο σύνολο δεδοµένων ϖου χρησιµοϖοιήθηκε ϖεριέχει τόσο στενά συνδεδεµένες ακολουθίες (ϖαραλλαγές της ίδιας ϖρωτεΐνης σε διαφορετικούς ιούς), όσο και ϖιο µακρινές οµόλογες ακολουθίες (αϖό άλλους οργανισµούς), τα σύνολα εκϖαίδευσης και δοκιµής θεωρούνται ως µία καλή ϖλατφόρµα εξέτασης για τους αλγόριθµους συστοίχισης. Με τη χρήση του ασαφούς µοντέλου αρχικά µεταβλήθηκαν τα βάρη w του µοντέλου µηδενικής υϖόθεσης στο εύρος τιµών {1, 3, 5, 10}, ενώ στη συνέχεια µελετήθηκε το αϖοτέλεσµα της µεταβολής του συντελεστή a του µηδενικού µοντέλου στη µέση ταυτοϖοίηση της συστοίχισης στο σύνολο δοκιµής, χρησιµοϖοιώντας το εύρος τιµών {10, 20, 30, 40, 50, 100}. Για την αρχική τιµή a=20 του συντελεστή του µηδενικού µοντέλου ϖαράχθηκαν η καµϖύλες µεταβολής της µέσης ταυτοϖοίησης της συστοίχισης σε σχέση µε το βάρος w του µηδενικού µοντέλου για το εύρος τιµών {1, 3, 5, 10}. Στο γράφηµα της εικόνας 6.2 ϖαρατίθενται τα αϖοτελέσµατα της διαδικασίας. Καµπύλη συσχέτισης µέσης ταυτοποίησης και βαρών µηδενικού µοντέλου 30 %µέσος όρος ταυτοποίησης Βάρος µηδενικού µοντέλου w Εικόνα 6.2: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης και µηδενικού µοντέλου υϖόθεσης για τις διάφορες τιµές της µεταβλητής w

125 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 125 Στη συνέχεια, για διαφορετικά βάρη w του µηδενικού µοντέλου υϖόθεσης ϖαράχθηκαν οι καµϖύλες µεταβολής του µέσου όρου ταυτοϖοίησης σε σχέση µε το εύρος τιµών του συντελεστή a του µηδενικού µοντέλου εκϖαίδευσης. Αϖό εδώ και στο εξής το ασαφές µοντέλο ϖου έχει ϖαραχθεί µε τη χρήση των ϖαραµέτρων w και a θα συµβολίζεται µε f(w, a). Οι καµϖύλες αυτές για w=1 και w=5 ϖαρατίθενται στις εικόνες 6.3 και 6.4 αντίστοιχα. Για τις δύο αυτές ϖεριϖτώσεις ο µέγιστος µέσος όρος ταυτοϖοίησης (%) του µοντέλου είναι 30,91 για την ϖρώτη ϖερίϖτωση (w=1) και 30,36 για τη δεύτερη (w=5). Μέση ταυτοποίηση της συστοίχισης για βάρος µηδενικού µοντέλου w=1 %µέσος όρος ταυτοποίησης Συντελεστής µηδενικού µοντέλου εκπαίδευσης a Εικόνα 6.3: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης µε το συντελεστή µηδενικού µοντέλου εκϖαίδευσης a όταν βάρος µηδενικού µοντέλου w=1.

126 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 126 Μέση ταυτοποίηση της συστοίχισης για βάρος µηδενικού µοντέλου w=5 %µέσος όρος ταυτοποίησης Συντελεστής µηδενικού µοντέλου εκαπίδευσης a Εικόνα 6.4: Καµϖύλη συσχέτισης µέσου όρου ταυτοϖοίησης µε το συντελεστή µηδενικού µοντέλου εκϖαίδευσης a όταν βάρος µηδενικού µοντέλου w=5. Στους ϖίνακες 6.1 και 6.2, φαίνονται αναλυτικά τα αϖοτελέσµατα των 11 ακολουθιών ϖου χρησιµοϖοιήθηκαν για βάρος µηδενικού µοντέλου w=1 και την τιµή της ϖαραµέτρου a για την οϖοία το µοντέλο είχε τη βέλτιστη αϖόδοση (a=30), σύµφωνα µε την καµϖύλη της εικόνας 6.3, καθώς και για την ϖερίϖτωση a=50. Αντίστοιχα, οι ϖίνακες 6.3 και 6.4 ϖεριλαµβάνουν τα αϖοτελέσµατα του συνόλου δοκιµών βάρος µηδενικού µοντέλου w=5 για τη βέλτιστη ϖερίϖτωση a=50, σύµφωνα µε την καµϖύλη της εικόνας 6.4, καθώς και την ϖερίϖτωση a=40. Οι ϖίνακες ϖεριλαµβάνουν, για κάθε συστοιχισµένη ακολουθία, τον αριθµό των κενών, το ϖοσοστό ταυτοϖοίησης, καθώς και το ϖοσοστό οµοιότητας. Το ϖοσοστό οµοιότητας µίας συστοιχισµένης ακολουθίας ορίζεται ως το ϖοσοστό της ϖλήρους ταυτοϖοίησης εϖαυξηµένο κατά το ϖοσοστό της οµοιότητας ϖου ϖροκύϖτει αϖό σύγκριση των χαρακτήρων στον ϖίνακα BLOSUM 62. Αν το αϖοτέλεσµα της σύγκρισης είναι θετικό σε µία θέση της συστοίχισης, τότε θεωρείται ότι υϖάρχει οµοιότητα και έτσι αυτή ϖροσµετράται στον υϖολογισµό της οµοιότητας της συστοίχισης. Πιο γενικά, η οµοιότητα ορίζεται ως ο αριθµός των χαρακτήρων οι οϖοίοι είναι ταυτόσηµοι και έχουν θετικό σκορ στον

127 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 127 ϖίνακα σύγκρισης BLOSUM 62, δια του συνολικού µήκους της συστοιχισµένης ακολουθίας. Ακολουθίες Κενά Ταυτοϖοίηση(%) Οµοιότητα(%) LRC33_BRARE VE6_HPV6B CCD93_CHICK UVRA_LISMF VE6_HPVME RNF17_HUMAN SUHW3_MOUSE VE6_HPV VE6_HPV VE6_HPV LHX1_MESAU Πίνακας 6.1: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=1 και συντελεστή a=30

128 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 128 Ακολουθίες Κενά Ταυτοϖοίηση(%) Οµοιότητα(%) LRC33_BRARE VE6_HPV6B CCD93_CHICK UVRA_LISMF VE6_HPVME RNF17_HUMAN SUHW3_MOUSE VE6_HPV VE6_HPV VE6_HPV LHX1_MESAU Πίνακας 6.2: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=1 και συντελεστή a=50

129 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 129 Ακολουθίες Κενά Ταυτοϖοίηση(%) Οµοιότητα(%) LRC33_BRARE VE6_HPV6B CCD93_CHICK UVRA_LISMF VE6_HPVME RNF17_HUMAN SUHW3_MOUSE VE6_HPV VE6_HPV VE6_HPV LHX1_MESAU Πίνακας 6.3: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=5 και συντελεστή a=40

130 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 130 Ακολουθίες Κενά Ταυτοϖοίηση(%) Οµοιότητα(%) LRC33_BRARE VE6_HPV6B CCD93_CHICK UVRA_LISMF VE6_HPVME RNF17_HUMAN SUHW3_MOUSE VE6_HPV VE6_HPV VE6_HPV LHX1_MESAU Πίνακας 6.4: Πίνακας τιµών των 11 ακολουθιών για την ϖερίϖτωση µε βάρος w=5 και συντελεστή a=50 Στο ϖίνακα 6.5 φαίνονται τα συγκριτικά αϖοτελέσµατα για τα διαφορετικά ασαφή µοντέλα ϖου ϖαράχθηκαν, καθώς και τα αϖοτελέσµατα αϖό τη µέθοδο του κλασικού µοντέλου ΗΜΜ, της ϖροοδευτικής συστοίχισης και της ιεραρχικής οµαδοϖοίησης. Αξίζει να σηµειωθεί ότι για την ϖερίϖτωση του κλασικού HMM χρησιµοϖοιήθηκε ο αλγόριθµος του ϖακέτου HMMER, ο οϖοίος εϖίσης χρησιµοϖοιεί µοντέλο µηδενικής υϖόθεσης για τον υϖολογισµό των αρνητικών λογαριθµικών σκορ, ωστόσο κάνει χρήση ενός εσωτερικού µηχανισµού αϖόδοσης βαρών ϖου δεν είναι ελέγξιµος αϖό το χρήστη. Έτσι, το κλασικό HMM µοντέλο χρησιµοϖοιήθηκε ως έχει. Τα αϖοτελέσµατα αφορούν τους µέσους όρους ταυτοϖοίησης και οµοιότητας των ακολουθιών, καθώς και τον µέσο αριθµό των κενών ϖου υϖεισέρχονται στη συστοίχιση σε κάθε αλγόριθµο.

131 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 131 Μέθοδος Κενά Μέσος όρος ταυτοϖοίησης(%) Μέσος όρος οµοιότητας(%) f(1,30) 60,64 30,91 39,64 f(1,50) 42,27 22,91 28,46 f(5,40) 50,18 27,82 37,46 f(5,50) 45,18 30,36 36,82 Κλασικά HMM Προοδευτική συστοίχιση Ιεραρχική οµαδοϖοίηση 11,45 22,09 31,36 6,91 22,18 32,73 4,45 8,45 13,72 Πίνακας 6.5: Συγκριτικός ϖίνακας µέσων όρων τιµών του συνόλου δοκιµής για τα ασαφή ϖροφίλ HMM µοντέλα f(1,30),f(1,50), f(5,40), f(5,50), καθώς και των τριών κλασικών µεθόδων συστοίχισης 6.4 Συζήτηση Η εφαρµογή της µεθοδολογίας βελτιστοϖοίησης του ασαφούς ϖροφίλ HMM γενικά εϖιβεβαιώνει την ανάγκη του ϖροσδιορισµού της. Πιο συγκεκριµένα, σε ότι αφορά την ϖαραµετροϖοίηση του βάρους του µηδενικού µοντέλου, καταλήγει κανείς στο συµϖέρασµα ότι η αύξηση του βάρους w τείνει να µειώνει τον µέσο όρο της ταυτοϖοίησης στη συστοίχιση, και κατ εϖέκταση την αϖοδοτικότητα του µοντέλου. Αυτό είναι αναµενόµενο, καθώς όσο µεγαλύτερο γίνεται το βάρος τόσο η συµµετοχή των ψευδών ϖροσµετρήσεων χαρακτήρων αυξάνεται µε αϖοτέλεσµα την αλλοίωση της διακριτικής ικανότητας του µοντέλου. Αϖό την εικόνα 6.2 ϖροκύϖτει ότι η µέγιστη αϖοδοτικότητα ϖαρατηρείται για τις τιµές w=1 και w=5. Παρόλα αυτά, ϖαρατηρείται ότι ακόµα και για τη χειρότερη τιµή βάρους w=10, ο µέσος όρος ταυτοϖοίησης (22,6%) ϖαραµένει υψηλότερος τόσο σε σχέση µε το κλασικό ΗΜΜ, όσο και σε σχέση µε τις άλλες µεθόδους συστοίχισης. Για τις βέλτιστες τιµές w=1 και w=5 οι καµϖύλες συσχέτισης του συντελεστή του µοντέλου a, ακολουθούν τη θεωρητικά ϖροβλεϖόµενη συµϖεριφορά. Έως ένα σηµείο-κατώφλι ϖαρατηρείται σε κάθε ϖερίϖτωση αύξηση της µέσης ταυτοϖοίησης του µοντέλου, καθώς το ασαφές µοντέλο γενικεύεται ώστε να ϖεριγράφει καλύτερα και τις

132 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 132 εϖιϖλέον συστοιχίσεις των ακολουθιών του συνόλου δοκιµής ϖου δεν χρησιµοϖοιήθηκαν για την εκϖαίδευση, ενώ για τιµές µεγαλύτερες αϖό εκείνο το κατώφλι η αϖόδοση του µοντέλου ϖέφτει σηµαντικά, αφού αϖό εκεί και έϖειτα το µοντέλο γενικεύεται υϖέρ του δέοντος. Για w=1 το κατώφλι ορίζεται αϖό το συντελεστή µηδενικού µοντέλου a=30, ενώ για βάρος w=5 το κατώφλι ϖαρατηρήθηκε για την τιµή του συντελεστή a=50. Αντιϖαραβάλλοντας µε τον ϖίνακα 5.1 της ϖαραγράφου 5.5, φαίνεται ότι η βελτιστοϖοίηση του µοντέλου εϖιτεύχθηκε σε µεγάλο βαθµό, αφού η µέση ταυτοϖοίηση ϖου εϖιτυγχάνει ανέβηκε κατά 6,55%. Εϖιϖλέον, στις καµϖύλες 6.2 και 6.3 φαίνεται ότι για ένα αρκετά µεγάλο εύρος τιµών του συντελεστή a, το ασαφές ϖροφίλ ΗΜΜ έχει σταθερά καλύτερη αϖόδοση αϖό τους άλλους συγκρινόµενους αλγορίθµους συστοίχισης. Στους ϖίνακες 6.1 έως 6.4 ϖαρατηρούνται κάϖοια ϖοιοτικά χαρακτηριστικά της συστοίχισης µε τη µέθοδο του ασαφούς ϖροφίλ ΗΜΜ, όϖως για ϖαράδειγµα τα κοντινά ϖοσοστά ταυτοϖοίησης και οµοιότητας των οµόλογων ακολουθιών του ιού HPV, σε αντίθεση µε τα αρκετά χαµηλότερα ϖοσοστά ταυτοϖοίησης και οµοιότητας για την ϖερίϖτωση των όµοιων ακολουθιών ϖου ϖροέρχονται αϖό άλλους οργανισµούς. Στον συγκριτικό ϖίνακα 6.5, και σε σχέση µε τον αριθµό των κενών, φαίνεται ότι τα κενά στο ασαφές µοντέλο, όϖως και στο κλασικό ΗΜΜ, είναι ϖερισσότερα, όϖως αναµενόταν και θεωρητικά. Έτσι, γίνεται ελκυστική η χρήση του ασαφούς µοντέλου στη φυλογενετική ανάλυση, όϖου τα κενά είναι ϖολύ ϖιθανό να αϖοκτούν ιδιαίτερη σηµασία. Εϖίσης, ο µέσος όρος ταυτοϖοίησης (%) για σχεδόν όλες τις ϖεριϖτώσεις του ϖροτεινόµενου ασαφούς µοντέλου είναι αϖό 22,91 έως 30,91, και ϖάντως σταθερά µεγαλύτερος αϖό τις τρεις κλασικές µεθόδους συστοίχισης, ϖου αντίστοιχα έχουν µέσους όρους 8,45 στην ϖερίϖτωση της ιεραρχικής οµαδοϖοίησης, 22,18 στην ϖροοδευτική συστοίχιση και 22,09 στα κλασικά ΗΜΜ. Η ίδια συµϖεριφορά ϖαρατηρείται και όταν εξετάζεται η µέση οµοιότητα των ακολουθιών, µε την εξαίρεση της ϖερίϖτωσης f(1,50), όϖου τα ϖοσοστά οµοιότητας αϖό τον ϖίνακα BLOSUM 62 ϖέφτουν αρκετά, αφού το µοντέλο έχει υϖερ-γενικευθεί. 6.5 Συµϖεράσµατα Μετά τη χρήση της ϖροτεινόµενης µεθοδολογίας είναι φανερό ότι ο ϖροτεινόµενος αλγόριθµος του ασαφούς ϖροφίλ ΗΜΜ είναι

133 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 133 εύρωστος σε εσωτερικές µεταβολές, ϖαρέχει υψηλές δυνατότητες βελτιστοϖοίησης και αϖοδίδει σταθερά καλύτερα σε σχέση µε την κλασική µέθοδο ϖροφίλ ΗΜΜ και τις υϖόλοιϖες καθιερωµένες αιτιοκρατικές µεθόδους ϖολλαϖλής συστοίχισης. Το νέο µοντέλο ϖαράγει ακολουθίες µε µεγαλύτερη µέση ταυτοϖοίηση των χαρακτήρων και µεγαλύτερη µέση οµοιότητα σε σύγκριση µε τις κλασικές µεθόδους. Αϖό την άλλη, ο χρήστης της µεθόδου του ασαφούς ϖροφίλ ΗΜΜ, µϖορεί να εϖωφεληθεί αϖό την ϖροτεινόµενη µεθοδολογία βελτιστοϖοίησης της συστοίχισης και να οδηγηθεί στη βελτίωση των συστοιχίσεων των ακολουθιών. Έτσι, τα βελτιστοϖοιηµένα µοντέλα ϖολλαϖλής συστοίχισης µϖορούν να χρησιµοϖοιηθούν µε µεγαλύτερη αϖοτελεσµατικότητα στη φυλογενετική ανάλυση.

134 Κεφάλαιο 6 : Βελτιστοϖοίηση των ϖαραµέτρων του ασαφούς µαρκοβιανού µοντέλου 134

135 7 ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 7.1 Εισαγωγή Η φυλογενετική ανάλυση συσχετισµένων δεδοµένων ουσιαστικά υλοϖοιείται µε σκοϖό να ανακατασκευάσει τους σωστούς γενεαλογικούς δεσµούς και για να εκτιµήσει το χρόνο αϖόκλισης µεταξύ τους αϖό την τελευταία φορά ϖου µοιράστηκαν ένα κοινό ϖρόγονο (ο χρόνος αϖόκλισης ϖροκύϖτει αϖό µήκος των κλαδιών στο δέντρο). Σε µια φυλογενετική µελέτη, τα αντικείµενα ϖου µελετώνται συνήθως αϖοκαλούνται λειτουργικές ταξινοµικές µονάδες (OTUs). Στην ϖροκειµένη ϖερίϖτωση τα δεδοµένα µϖορεί να είναι ϖρωτεΐνες ή νουκλεοτίδια (τα ϖειράµατα στην ϖαρούσα διατριβή εφαρµόστηκαν µε ϖρωτεΐνες). Οι ακολουθίες δεδοµένων ϖου υϖάρχουν στην αρχή ονοµάζονται αρχικές ακολουθίες. Ο σκοϖός της φυλογενετικής ανάλυσης είναι δοσµένου ενός αριθµού έστω n ακολουθιών να µϖορέσει κάϖοιος να εκτιµήσει τις εξελικτικές σχέσεις µεταξύ τους µέσα αϖό ένα φυλογενετικό δέντρο. Έτσι η µελέτη φυλογενετικών δέντρων ϖαρουσιάζει τις ϖαρακάτω ιδιότητες: Το δέντρο έχει n φύλλα, ένα για την κάθε ακολουθία. Το δέντρο έχει ένα σύνολο εσωτερικών κόµβων, ϖου συνδέουν τους τελικούς κόµβους και άλλους εσωτερικούς κόµβους. Το δέντρο µϖορεί να είναι µε ρίζα ή χωρίς ρίζα. Αν είναι µε ρίζα υϖάρχει ένας κόµβος ο οϖοίος αϖοτελεί τον ϖρόγονο για όλους τους υϖόλοιϖους κόµβους. Η ρίζα έχει δύο ϖαιδιά και η εξελικτική κατεύθυνση αϖοφασίζεται. Στην ϖερίϖτωση των δέντρων χωρίς ρίζα η κατεύθυνση δεν µϖορεί να αϖοφασιστεί. Οι εσωτερικοί κόµβοι ενός δέντρου µε ρίζα έχουν δύο ϖαιδιά, ενώ οι εσωτερικοί κόµβοι ενός δέντρου χωρίς ρίζα έχει τρία συνδεµένα κλαδιά. 135

136 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 136 Ένα εσωτερικός κόµβος µϖορεί (σε µερικά δέντρα) να έχει µια σαφή συσχετισµένη ακολουθία. Ένα άκρο µϖορεί να αναϖαριστά τις αλλαγές ϖου έχουν γίνει µεταξύ των κόµβων, είτε µε σαφή τρόϖο, είτε µε έναν αριθµό εκτίµησης του αριθµού των µεταλλάξεων. Εϖίσης στη φυλογενετική ανάλυση µϖορεί κανείς να ορίσει τις έννοιες των ορθόλογων και των ϖαράλογων (ortholog and paralog). ύο γονίδια µϖορεί να είναι ορθόλογα αν ϖροκύϖτουν αϖό την εξέλιξη νέων ειδών, ενώ µϖορεί να είναι ϖαράλογα αν ϖροκύϖτουν αϖό γονιδιακή αντιγραφή (gene duplication) [3]. 7.2 Ο αριθµός των διαφορετικών τοϖολογιών φυλογενετικών δέντρων Για την εϖεξήγηση της ϖολυϖλοκότητας του ϖροβλήµατος της εκτίµησης των φυλογενετικών δέντρων, το ϖρώτο ϖου ελέγχεται είναι ο αριθµός των διαφορετικών τοϖολογιών φυλογενετικών δέντρων. Ένα δέντρο χωρίς ρίζα έχει n-2 εσωτερικούς κόµβους και ένα δέντρο µε ρίζα έχει n-1. Αυτό µϖορεί να χρησιµοϖοιηθεί ϖροκειµένου να βρεθεί ο αριθµός των διαφορετικών τοϖολογιών των δέντρων. Έτσι ο αριθµός των τοϖολογιών των δέντρων χωρίς ρίζα όταν το n 3 (όϖου n αριθµός των ακολουθιών) είναι: (2n 5)! T χωρίςρίζα (n) = 2 n 3 (n 3)! (88) Αϖό τον τύϖο φαίνεται ότι ακόµα και για ένα µικρό αριθµό ακολουθιών ένας αρκετά µεγάλος αριθµός ϖιθανών τοϖολογιών δέντρων ϖρέϖει να εξεταστεί ϖροκειµένου να βρεθεί το καλύτερο δέντρο. Ο αριθµός των κλαδιών ενός δέντρου χωρίς ρίζα είναι 2n-3. Ένα δέντρο χωρίς ρίζα µϖορεί να µετατραϖεί σε δέντρο µε ρίζα αϖλά τοϖοθετώντας τη ρίζα σε µια αϖό τις άκρες. Έτσι ο αριθµός των τοϖολογιών των δέντρων µε ρίζα όταν το n 2 µϖορεί να βρεθεί ϖολλαϖλασιάζοντας τη σχέση 88 µε το 2n-3 δηλαδή: (2n 3)! T µερίζα (n) = 2 n 2 (n 2)! (89)

137 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων Μέθοδοι κατασκευής φυλογενετικών δέντρων Οι κυριότεροι µέθοδοι για την ανακατασκευή φυλογενετικών δέντρων αϖό βιολογικά δεδοµένα αρχικά µϖορεί να οµαδοϖοιηθεί σε δύο βασικές κατηγορίες εκείνες των καταστάσεων των διακριτών χαρακτήρων (discrete character states) και εκείνες των ϖινάκων αϖοστάσεων των διαφορών κατά ζεύγη ακολουθιών. Ένας ακόµα διαχωρισµός µϖορεί να γίνει ανάλογα αν η οµαδοϖοίηση των OTUs ϖου γίνεται σε βήµατα γίνεται µε την εύρεση ενός καλύτερου δέντρου ή λαµβάνει υϖόψη όλα τα ϖιθανά δέντρα. Η µέθοδος των καταστάσεων χαρακτήρων (character state) µϖορεί να χρησιµοϖοιήσει ένα οϖοιοδήϖοτε σύνολο διακριτών χαρακτήρων, όϖως µορφολογικά δεδοµένα, φυσιολογικές ιδιότητες, χάρτες ϖεριορισµού (restriction maps), ή ακολουθίες δεδοµένων. Όταν συγκρίνονται ακολουθίες, κάθε θέση στη συστοίχιση αϖοτελεί ένα χαρακτήρα και τα νουκλεοτίδια και τα αµινοξέα σε αυτή τη θέση είναι οι καταστάσεις. Όλοι οι χαρακτήρες αναλύονται χωριστά και συνήθως ανεξάρτητα µεταξύ τους. Η µέθοδος αυτή διατηρεί την αρχική κατάσταση του χαρακτήρα των δεδοµένων και έτσι µϖορεί να χρησιµοϖοιηθεί για την ανακατασκευή των καταστάσεων χαρακτήρων των ϖρογονικών κόµβων. Αϖό την άλλη µεριά η µέθοδος του ϖίνακα αϖοστάσεων ξεκινά µε τον υϖολογισµό της µέτρησης των διαφορών ϖου ϖαρατηρείται σε κάθε ζευγάρι OTUs µε σκοϖό να ϖαράγει ένα ϖίνακα αϖοστάσεων κατά ζεύγη και στη συνέχεια να εκτιµήσει τις φυλογενετικές σχέσεις των OTUs αϖό αυτόν τον ϖίνακα. Οι ϖαραϖάνω µέθοδοι φαίνεται να ταιριάζουν καλύτερα για την ανάλυση δεδοµένων ακολουθιών. Παρόλο ϖου είναι ϖιθανό να υϖολογίσει κάϖοιος αϖοστάσεις αϖευθείας αϖό συστοιχισµένες ακολουθίες κατά ζεύγη, ϖερισσότερο συνεϖή αϖοτελέσµατα ϖαράγονται όταν όλες οι ακολουθίες είναι συστοιχισµένες, δηλαδή ϖροτιµώνται οι ϖολλαϖλές συστοιχίσεις ακολουθιών [73]. Αυτός ήταν ακριβώς ο λόγος αρχικά ϖου οδήγησε την έρευνα στην ϖολλαϖλή συστοίχιση ακολουθιών. Στη δεύτερη ϖερίϖτωση διαχωρισµού είτε γίνεται ο καθορισµός ενός συγκεκριµένου αριθµού βηµάτων (ενός αλγόριθµου) ϖου οδηγεί στον ϖροσδιορισµό ενός δέντρου, είτε καθορίζεται ένα κριτήριο για τη σύγκριση εναλλακτικών φυλογενέσεων και εϖιλογής της καλύτερης (ή των ισότιµα καλύτερων). Οι καθαρά αλγοριθµικές µέθοδοι συνδυάζουν την εξαγωγή ενός δέντρου και τον ϖροσδιορισµό του ϖροτιµώµενου δέντρου σε

138 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 138 ένα βήµα. Αυτές οι τεχνικές είναι συνήθως υϖολογιστικά ταχείες εϖειδή ϖροχωρούν αϖευθείας ϖρος την τελική λύση χωρίς να χρειάζεται η αξιολόγηση ενός µεγάλου αριθµού εναλλακτικών δέντρων. Η κατηγορία ϖου χρησιµοϖοιεί τα κριτήρια αρχικά βρίσκει ένα βέλτιστο (συνήθως ϖεριγράφεται αϖό µια συνάρτηση) για την αξιολόγηση ενός δεδοµένου δέντρου. Στη συνέχεια γίνεται χρήση ενός ειδικού αλγόριθµου για τον υϖολογισµό της τιµής της συνάρτησης για κάθε δέντρο και για την εύρεση των δέντρων ϖου έχουν την καλύτερη τιµή σύµφωνα µε το κριτήριο αυτό (µέγιστη ή ελάχιστη τιµή κατά ϖερίϖτωση). Οι µέθοδοι αυτές έχουν µια καθαρότητα ϖαρόλο ϖου είναι υϖολογιστικά ϖιο αϖαιτητικές γιατί έχουν να ερευνήσουν µεταξύ διαφορετικών εναλλακτικών δέντρων και να βρουν αυτό ϖου έχει την καλύτερη τιµή. Στην ϖαρούσα µελέτη χρησιµοϖοιήθηκαν οι µέθοδοι της µέγιστης ϖιθανοφάνειας και της µέγιστης φειδωλότητας Μέθοδος Fitch and Margoliash Η συγκεκριµένη µέθοδος βασίζεται σε ϖίνακες αϖοστάσεων ϖου εξετάζουν όλα τα ϖιθανά δέντρα για το κοντινότερο µήκος των κλαδιών κάνοντας χρήση αλγόριθµου ϖου βασίζεται σε αϖοστάσεις κατά ζεύγη [92] Μέθοδος οµαδοϖοίησης χωρίς βάρη κατά ζεύγη ακολουθιών µε αριθµητική µέση τιµή (Unweighted Pair Group Method with Arithmetic Mean-UPGMA) Η µέθοδος αυτή αϖοτελεί την ϖιο ϖαλιά και ϖιο αϖλή µέθοδο ϖου χρησιµοϖοιείται για την κατασκευή φυλογενετικών δέντρων [93]. Η οµαδοϖοίηση εϖιτυγχάνεται µε την αναζήτηση της µικρότερης τιµής στο ϖίνακα αϖοστάσεων κατά ζεύγη. Η καινούργια οµάδα ακολουθιών αντικαθιστά το ζεύγος των ακολουθιών στο ϖίνακα των αϖοστάσεων. Στη συνέχεια υϖολογίζεται η αϖόσταση της νέας οµάδας µε τις υϖόλοιϖες ακολουθίες. Η διαδικασία αυτή εϖαναλαµβάνεται µέχρι να οµαδοϖοιηθούν όλες οι ακολουθίες. Στη µέθοδο αυτή η αϖόσταση των νέων οµάδων είναι ο µέσος όρος των αϖοστάσεων όλων των αρχικών ακολουθιών. Αυτό ϖροϋϖοθέτει ότι ο βαθµός εξέλιξης είναι ο ίδιος σε όλα τα κλαδιά, ϖου σηµαίνει ότι όλες οι µεταλλάξεις στις ακολουθίες γίνονται µε τον ίδιο ρυθµό. Αυτή η υϖόθεση στην ϖραγµατικότητα δεν ισχύει για αυτό και η µέθοδος

139 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 139 αυτή δίνει λάθος δέντρα αν ο ρυθµός εξέλιξης είναι διαφορετικός µέσα στα κλαδιά Μέθοδος κοντινότερου γείτονα (Neigbour Joining) Η µέθοδος αυτή [94] ανήκει στην κατηγορία µεθόδων ϖου χρησιµοϖοιεί έναν αλγόριθµο για να υϖολογίζει το βραχύτερο εξελικτικά δέντρο. Αυτό εϖιτυγχάνεται µε το να βρίσκει γειτονικά OTUs ϖου ελαχιστοϖοιούν το συνολικό µήκος του δέντρου. Συνοϖτικά η διαδικασία ακολουθεί τα ϖαρακάτω βήµατα: Ξεκινά µε ένα ακτινωτό δέντρο όϖου όλα τα OTUs ενώνονται σε έναν κεντρικό κόµβο έστω Α Στη συνέχεια σχηµατίζονται δέντρα όϖου δύο OTUs κάθε φορά ενώνονται µέσω ενός δεύτερου κόµβου Β, ο οϖοίος µε τη σειρά του ενώνεται µέσω ενός εσωτερικού κλάδου µε τον κόµβο Α. Για n OTUs σχηµατίζονται n(n-1)/2 διαφορετικά δέντρα. Για κάθε δέντρο υϖολογίζεται το άθροισµα των µηκών των κλαδιών αϖό τη σχέση: N k 2 k 12 ij (90) S = (d + d ) + d + d 2(N- 2) k=3 2 N- 2 3 i j N όϖου ij d είναι η αϖόσταση µεταξύ των OTUs i και j. Μεταξύ όλων αυτών των ζευγών γειτονικών OTUs εϖιλέγεται αυτό ϖου δίνει το βραχύτερο δέντρο. Έϖειτα το ζεύγος αυτό θεωρείται ως ένα σύνθετο OTU και κατασκευάζεται µια νέα µήτρα τροϖοϖοιηµένων γενετικών αϖοστάσεων µεταξύ αυτού του ζεύγους και των υϖόλοιϖων OTUs. Με την ίδια διαδικασία εϖιλέγεται το εϖόµενο ζεύγος γειτονικών OTUs ϖου δίνει το βραχύτερο δέντρο. Εϖανάληψη των τριών ϖροηγούµενων βηµάτων µέχρι να βρεθούν όλα τα εσωτερικά κλαδιά. Η µέθοδος αυτή είναι υϖολογιστικά ϖολύ γρήγορη για αυτό χρησιµοϖοιείται ευρύτατα. Είναι µια καθαρά αλγοριθµική τεχνική και ϖαράγει ένα µοναδικό δέντρο χωρίς να χρησιµοϖοιεί κάϖοιο κριτήριο βελτιστοϖοίησης. Η τεχνική αυτή ϖροτείνεται αϖό διάφορους [95] να χρησιµοϖοιείται για τον υϖολογισµό ενός αρχικού

140 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 140 δέντρου µε βάση το οϖοίο άλλες µέθοδοι θα ψάχνουν για το καλύτερο δέντρο, και όχι σαν µια µέθοδος ϖου θα εϖιλέγει το τελικό δέντρο Μέθοδος ελάχιστης εξέλιξης (minimum evolution) Η µέθοδος αυτή είναι όµοια µε τη µέθοδο της µέγιστης φειδωλότητας. Το καλύτερο δέντρο θεωρείται εκείνο ϖου έχει το µικρότερο συνολικό µήκος κλαδιών, δηλαδή αυτό στο οϖοίο έχει ϖαρατηρηθεί η ελάχιστη εξελικτική διαδικασία. Η διαφορά µε τη µέθοδο της φειδωλότητας είναι ότι το µήκος των κλαδιών υϖολογίζεται µε βάση τις γενετικές αϖοστάσεις και όχι µε βάση τις αλλαγές σε κάθε θέση στην ακολουθία. Έστω ένα δέντρο χωρίς ρίζα ϖου αϖοτελείται αϖό n ακολουθίες και ϖεριέχει 2n-3 κλαδιά ϖου το καθένα έχει µήκος l i. Το άθροισµα των µηκών όλων των κλάδων είναι το µήκος L του δέντρου: L 2n 3 = li (91) i= 1 Το δέντρο της ελάχιστης εξέλιξης είναι αυτό ϖου ελαχιστοϖοιεί το µήκος L. Για να βρεθεί το δέντρο αυτό κανονικά ϖρέϖει να ελεγχθούν όλες οι διαφορετικές τοϖολογίες. Αυτό όµως είναι εξαιρετικά χρονοβόρο όταν ϖρόκειται να µελετηθούν ϖολλές ακολουθίες. Για αυτό το λόγο οι Rzhetsky και Nei [96,97] ϖρότειναν την κατασκευή αρχικά του δέντρου µε τη µέθοδο του κοντινότερου γείτονα και στη συνέχεια ο έλεγχος µιας σειράς αϖό τοϖολογίες κοντινές ως ϖρος τη µέθοδο αυτή για να βρεθεί ένα δέντρο µε µικρότερο µήκος (το γνωστό ως ϖροσωρινό δέντρο ελάχιστης εξέλιξης). Ένα νέο σύνολο τοϖολογιών εξετάζεται, κοντινών σε αυτή του ϖροσωρινού δέντρου (αϖοκλείοντας όµως τοϖολογίες ϖου έχουν ϖροηγουµένως εξετασθεί) µέχρι να βρεθεί ένα δέντρο µε ακόµη µικρότερο µήκος. Αυτή η διαδικασία συνεχίζεται µέχρι να µη µϖορεί να βρεθεί ένα δέντρο µε µικρότερο µήκος και έτσι το δέντρο µε το µικρότερο µήκος θεωρείται το δέντρο ελάχιστης εξέλιξης. Η θεωρητική βάση αυτής της στρατηγικής είναι ότι το δέντρο ελάχιστης εξέλιξης είναι γενικά τοϖολογικά ίδιο ή ϖολύ κοντά στο δέντρο ϖου ϖαράχθηκε µε την τεχνική του κοντινότερου γείτονα όταν ο αριθµός n των ακολουθιών είναι σχετικά µικρός [96,97] και για αυτό το

141 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 141 δέντρο του κοντινότερου γείτονα µϖορεί να χρησιµοϖοιηθεί σαν αρχή όταν υϖάρχει µεγάλος αριθµός ακολουθιών Μέθοδος µέγιστης φειδωλότητας (maximum parsimony) Παρόλο ϖου οι ϖρώτες ευρέως διαδεδοµένες µέθοδοι για την κατασκευή φυλογενετικών δέντρων αϖοτελούσαν οι µέθοδοι των αϖοστάσεων κατά ζεύγη, η µέθοδος της µέγιστης φειδωλότητας άρχισε να αϖοτελεί την εϖικρατέστερη µέθοδο αϖό τις αρχές του Παρά τους ϖεριορισµούς ϖου έχει ϖαραµένει µια αϖό τις σηµαντικότερες και χρήσιµες τεχνικές. Η βασική ιδέα είναι αϖλή: ζητείται το δέντρο ή η συλλογή των δέντρων ϖου ελαχιστοϖοιεί το ϖλήθος των εξελικτικών αλλαγών (νουκλεοτιδικών αλλαγών όταν ϖρόκειται για αλληλουχίες DNA ή ϖρωτεϊνικών αλλαγών όταν ϖρόκειται για αµινοξέα) και αϖοτελεί το µετασχηµατισµό αϖό τη µια κατάσταση χαρακτήρων σε µια άλλη [98-100]. Ο σκοϖός της ελαχιστοϖοίησης των εξελικτικών αλλαγών συχνά υϖερασϖίζεται αϖό φιλοσοφικές αϖόψεις. Η µόνη διαφωνία υϖάρχει όταν σε δύο υϖοθέσεις ϖου εµφανίζουν ίσες εξηγήσεις για ένα φαινόµενο, ϖάντα να εϖιλέγεται η ϖιο αϖλή. Αυτή η θέση είναι γνωστή ως το «ξυράφι του Ockham» [101,102]. Χάριν αϖλότητας για τις µεθόδους της φειδωλότητας, ϖρέϖει να αϖοδειχθεί µια σχέση µεταξύ του αριθµού των αλλαγών των καταστάσεων χαρακτήρων ϖου αϖαιτούνται για την τοϖολογία του δέντρου και της ϖολυϖλοκότητας των αντίστοιχων υϖοθέσεων. Η συσχέτιση αυτή εϖιτυγχάνεται µε τον ισχυρισµό ότι κάθε βήµα αϖοτελεί µια ειδική υϖόθεση και ο αριθµός των ειδικών αυτών υϖοθέσεων ϖρέϖει να ελαχιστοϖοιείται. Το ϖρόβληµα εύρεσης του καταλληλότερου δέντρου µϖορεί να χωριστεί σε δύο υϖοκατηγορίες. Στην ϖρώτη καθορίζεται ο αριθµός των χαρακτήρων ϖου αλλάζουν ή το µήκος του δέντρου ϖου ϖροκύϖτει δοσµένου οϖοιουδήϖοτε δέντρου και στη δεύτερη αναζητούνται όλες οι ϖιθανές τοϖολογίες δέντρων ϖου ελαχιστοϖοιούν αυτό το µήκος. Η µέθοδος της µέγιστης φειδωλότητας ανήκει στις µεθόδους διακριτών χαρακτήρων. Σύµφωνα µε τη µέθοδο αυτή έστω n ο αριθµός των ακολουθιών, τότε ϖάλι το δέντρο χωρίς ρίζα ϖεριέχει n εξωτερικούς κόµβους ϖου αϖοτελούνται αϖό τις ακολουθίες ϖου µελετώνται, n-2 εσωτερικούς κόµβους ϖου αϖοτελούν τους

142 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 142 υϖοθετικούς ϖρόγονους και 2n-3 κλαδιά ϖου συνδέουν ζευγάρια κόµβων. Έστω εϖίσης τ µια συγκεκριµένη τοϖολογία δέντρου. Τότε το µήκος του δέντρου ϖάλι θα δίνεται αϖό τον τύϖο: L(τ) N = lj (92) j= 1 όϖου Ν είναι ο αριθµός των χαρακτήρων στη συστοίχιση και l j είναι το µήκος για µια συγκεκριµένη ακολουθία j. Το µήκος l j είναι το ϖλήθος των χαρακτήρων ϖου αλλάζουν δεδοµένου ενός ϖίνακα δεδοµένων i x j όϖου i ο αριθµός των ακολουθιών και j ο αριθµός των θέσεων, ενώ σε κάθε σηµείο x ij υϖάρχει µια κατάσταση του χαρακτήρα (A, C, G, T για τις νουκλεοτιδικές ακολουθίες ή ένα αϖό τα 20 αµινοξέα και το σύµβολο του κενού «-» για τις ακολουθίες αµινοξέων) [3]. Στις µεθόδους φειδωλότητας χρησιµοϖοιούνται µόνο οι ϖοικίλλουσες θέσεις (οι θέσεις ϖου διαφέρουν µεταξύ των ακολουθιών). Αϖό αυτές, οι θέσεις ϖου διαθέτουν ϖληροφορία για την εύρεση του ϖιο φειδωλού δέντρου, είναι εκείνες όϖου ένας διαφορετικός χαρακτήρας εµφανίζεται σε δύο τουλάχιστον ακολουθίες. Αυτές οι θέσεις ονοµάζονται θέσεις ϖληροφορίας (parsimony informative sites). Έτσι για δυαδικά δέντρα ισχύει ο ϖαρακάτω τύϖος για το µήκος: 2n 3 j= ca (k), b(k) (93) k= 1 l όϖου a(k) και b(k) είναι οι καταστάσεις των κόµβων σε κάθε τέλος του κλαδιού k και c xy είναι η τιµή (βάρη) ϖου σχετίζεται µε την αλλαγή αϖό την κατάσταση x στην κατάσταση y. Στην ϖιο αϖλή ϖερίϖτωση [100], η µεταβλητή αυτή ϖαίρνει την τιµή 1 αν οι χαρακτήρες x και y είναι διαφορετικοί ή 0 αν είναι ίδιοι. Γενικά µϖορεί να εϖιλεγεί άλλη συνάρτηση στο c xy µε άλλα βάρη στη συνάρτηση. Σύµφωνα µε τον τύϖο 90 για κάθε διαφορετική τοϖολογία υϖολογίζεται το συνολικό µήκος του δέντρου ϖου είναι αϖλά το άθροισµα των αλλαγών σε κάθε κλαδί. Το δέντρο µε το µικρότερο µήκος είναι το ϖιο φειδωλό και ονοµάζεται δέντρο µέγιστης φειδωλότητας (maximum parsimony sites). Συχνά δύο η ϖερισσότερα δέντρα ϖου εµφανίζουν τον ίδιο ελάχιστο αριθµό

143 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 143 αλλαγών, και έτσι δεν εξάγουν ένα µοναδικό δέντρο, ονοµάζονται εξίσου φειδωλά (equally parsimonious). Για µικρό αριθµό ακολουθιών είναι δυνατός ο υϖολογισµός του µήκους όλων των διαφορετικών τοϖολογιών ώστε να εϖιλεγεί η ϖιο φειδωλή. Αυτός ο τρόϖος αναζήτησης του ϖιο φειδωλού δέντρου ονοµάζεται ϖλήρης αναζήτηση (exhaustive search). Όµως για µεγάλο αριθµό ακολουθιών αυτός ο τύϖος αναζήτησης είναι ϖρακτικά αδύνατος καθώς ο αριθµός των διαφορετικών τοϖολογιών αυξάνει εκθετικά µε τον αριθµό των ακολουθιών. Γι αυτό το λόγο χρησιµοϖοιούνται άλλοι αλγόριθµοι αναζήτησης όϖως η µέθοδος της αναδιάταξης κλαδιών (branch-and-bound method) [103,104] και ευρετική αναζήτηση (heuristic search).υϖάρχουν διαφορετικές εκδοχές µεθόδων µέγιστης φειδωλότητας αλλά γενικά µϖορούν να διακριθούν σε δύο κατηγορίες: στις κατηγορίες χωρίς βάρη (unweighted) και στις κατηγορίες µε βάρη (weighted). Στις µεθόδους χωρίς βάρη κάθε αλλαγή θεωρείται ότι µϖορεί να συµβεί σε οϖοιαδήϖοτε κατεύθυνση µε την ίδια ή σχεδόν την ίδια ϖιθανότητα. Όµως στην ϖραγµατικότητα αυτό δεν ισχύει ϖάντα, για ϖαράδειγµα οι αλλαγές λόγω εξελικτικής σύγκλισης (convergence) ϖαρατηρούνται συχνότερα αϖό τις αλλαγές λόγω αντιστροφής (evolutionary noise). Είναι εϖοµένως λογικό να δοθούν διαφορετικά βάρη σε διαφορετικούς τύϖους αντικαταστάσεων κατά τον υϖολογισµό του µήκους ενός δέντρου. Οι µέθοδοι της φειδωλότητας ϖου ενσωµατώνουν αυτή τη λογική λέγονται τεχνικές µε βάρη (weighted). Εάν δεν υϖάρχει οµοϖλασία (οµοιότητα λόγω κοινού ϖρογόνου) στα δεδοµένα και ο αριθµός των ακολουθιών (n) ϖου εξετάζονται είναι µεγάλος, τότε η τεχνική της µέγιστης φειδωλότητας αναµένεται να δώσει τη σωστή τοϖολογία. Στην ϖαρούσα διατριβή εξετάζονται ϖεριϖτώσεις ακολουθιών ϖου είναι οµόλογες και ο αριθµός σχετικά µεγάλος έτσι αναµένεται να δώσουν σωστή τοϖολογία. Γενικά σε αρκετές ϖεριϖτώσεις υϖάρχει συνήθως οµοϖλασία και ο αριθµός των ακολουθιών είναι µικρός. Σε αυτή την ϖερίϖτωση η µέθοδος θα δώσει λανθασµένη τοϖολογία. Ακόµα αν ο εξελικτικός ρυθµός διαφέρει στις διάφορες εξελικτικές γραµµές, η µέγιστη φειδωλότητα δίνει λανθασµένη τοϖολογία ακόµα και αν το n είναι άϖειρο. Κάτω αϖό ορισµένες συνθήκες αυτό µϖορεί να συµβεί ακόµα και αν ο εξελικτικός ρυθµός είναι σταθερός. Σ αυτή την ϖερίϖτωση τα µακριά κλαδιά (ή τα κοντινά) του αληθινού δέντρου

144 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 144 τείνουν να «έλκονται» µεταξύ τους στο κατασκευασµένο δέντρο. Το φαινόµενο αυτό ονοµάζεται έλξη των µακριών κλαδιών (long branch attraction) [104] ή έλξη των κοντών κλαδιών (short-branch attraction) [94]. Παρόλα αυτά όµως, η µέθοδος ϖαραµένει µια αϖό τις ϖιο ολοκληρωµένες µεθόδους φυλογενετικής ανάλυσης γιατί είναι γρήγορη και έχει αϖοδειχθεί αρκετά αξιόϖιστη σε ϖολλές καταστάσεις [105]. Εϖίσης ένα άλλο ϖλεονέκτηµα είναι ότι δεν ϖροϋϖοθέτει κάϖοιο µαθηµατικό µοντέλο αντικατάστασης, όϖως συµβαίνει στις µεθόδους οµαδοϖοίησης γενετικών αϖοστάσεων και µέγιστης ϖιθανοφάνειας Μέθοδος µέγιστης ϖιθανοφάνειας (maximum likelihood) Η µέθοδος της µέγιστης ϖιθανοφάνειας είναι όµοια µε τη µέθοδο της µέγιστης φειδωλότητας αϖό την άϖοψη ότι εξετάζει κάθε λογική τοϖολογία δέντρου και αϖοτιµά την υϖοστήριξη κάθε µιας εξετάζοντας κάθε θέση στην ακολουθία. Ουσιαστικά η µέθοδος της µέγιστης ϖιθανοφάνειας υϖολογίζει την ϖιθανότητα ϖου αναµένεται σε κάθε ϖιθανή ακολουθία αµινοξέων ή νουκλεοτιδίων στους εσωτερικούς κόµβους και εξάγει την ϖιθανή δοµή του δέντρου αϖό αυτές τις ϖιθανότητες. Η ϖιθανότητα όλων των ϖιθανών τοϖολογιών δέντρων υϖολογίζεται µε αυτή τη διαδικασία και στη συνέχεια εϖιλέγεται σαν καλύτερο δέντρο εκείνο ϖου εµφανίζει τη µεγαλύτερη ϖιθανότητα. Η διαδικασία είναι αρκετά ϖολύϖλοκη κυρίως λόγω των διαφορετικών τοϖολογιών. Πιο αναλυτικά, η µέθοδος της µέγιστης ϖιθανοφάνειας υϖολογίζει την ϖιθανότητα να εµφανιστούν τα δεδοµένα σε σχέση µε ένα δοσµένο δέντρο και ένα συγκεκριµένο µοντέλο αλλαγής χαρακτήρων (ϖ.χ. νουκλεοτιδικής αντικατάστασης για ακολουθίες DNA ή αµινοξέων αντίστοιχα για ϖρωτεϊνική ακολουθία). Αυτό συνήθως γράφεται ως εξής L= P(D H), δηλαδή η ϖιθανότητα L να ϖαρατηρήσουµε τα δεδοµένα D για δοσµένη συγκεκριµένη εξελικτική υϖόθεση H. Ο σκοϖός της µεθόδου είναι να βρεθεί δέντρο µε τη µεγαλύτερη τιµή ϖιθανοφάνειας L. Εϖειδή η τιµή αυτή είναι συνήθως ϖολύ µικρή χρησιµοϖοιείται ο λογάριθµός της. Ο υϖολογισµός της ϖιθανότητας γίνεται για κάθε θέση χωριστά αϖό τη στιγµή ϖου θεωρούµε ότι κάθε θέση εξελίσσεται ανεξάρτητα. Για να υϖολογιστεί η ϖιθανότητα για κάϖοια συγκεκριµένη θέση, ϖρέϖει να ληφθούν

145 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 145 υϖόψη όλα τα εξελικτικά σενάρια µε βάση τα οϖοία οι χαρακτήρες των ακολουθιών των κορυφών του δέντρου θα µϖορούσαν να είχαν εξελιχθεί. Προφανώς, κάϖοια αϖό τα σενάρια είναι ϖιο ϖιθανά αϖό άλλα, αλλά κάθε σενάριο έχει κάϖοια ϖιθανότητα να ϖαράγει ένα συγκεκριµένο ϖρότυϖο ϖαρατηρούµενων χαρακτήρων. Έτσι η συνολική ϖιθανότητα για κάθε θέση είναι ίση µε το άθροισµα των ϖιθανοτήτων όλων των διαφορετικών σεναρίων. Αφού υϖολογιστούν οι ϖιθανότητες για κάθε θέση, η συνολική ϖιθανότητα δίνεται αϖό το γινόµενο των τιµών ϖιθανοφάνειας κάθε θέσης. Έτσι για ϖαράδειγµα, έστω ότι υϖάρχει η τοϖολογία του ϖαρακάτω δέντρου (εικόνας 7.1) ϖέντε ϖιθανών ακολουθιών a, b, c, d, και e. Εικόνα 7.1: Η τοϖολογία δέντρου για την υλοϖοίηση της µεθόδου Εϖίσης έστω ότι οι εσωτερικοί κόµβοι του δέντρου είναι γνωστοί x, y, z και u η ϖιθανότητα τότε οι ακολουθίες να βρίσκονται στα συγκεκριµένα κλαδιά του δέντρου είναι: P xy(t 1) P ya(t 3) P yb(t 3) P xz(t 2) P zc(t 4 + t 5) P zu(t 4) P ud(t 5) P ue(t 5) (94) Η µέθοδος της µέγιστης ϖιθανοφάνειας δεν εκτιµά την τοϖολογία δέντρου αλλά µόνο το µήκος των κλαδιών του. Αϖλά εϖιλέγεται η τοϖολογία µε τη µεγαλύτερη τιµή ϖιθανοφάνειας, υϖοθέτοντας ότι η τοϖολογία µε την καλύτερη εκτίµηση του µήκους των κλαδιών είναι και η σωστή. Η µέθοδος είναι υϖολογιστικά εξαιρετικά αϖαιτητική και για µεγάλο σχετικά αριθµό ακολουθιών είναι αδύνατη η εξέταση όλων των διαφορετικών τοϖολογιών. Έτσι

146 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 146 χρησιµοϖοιούνται διάφοροι αλγόριθµοι αναζήτησης, όϖως και στην ϖερίϖτωση της µεθόδου φειδωλότητας, οι οϖοίοι όµως δεν εγγυώνται την εύρεση του δέντρου µε τη µέγιστη τιµή ϖιθανοφάνειας. 7.4 Μέθοδοι ελέγχου αξιοϖιστίας φυλογενετικών δέντρων Όταν κατασκευάζεται ένα φυλογενετικό δέντρο είναι σηµαντικό να γνωρίζουµε την αξιοϖιστία του. Πολλές φορές, διαφορετικές φυλογενετικές µέθοδοι, ϖαράγουν διαφορετική τοϖολογία για το ίδιο σύνολο δεδοµένων. Αυτό οφείλεται στο γεγονός, ότι διαφορετικές θέσεις χαρακτήρων (νουκλεοτιδίων ή αµινοξέων) θα στηρίζουν διαφορετικές τοϖολογίες. Έτσι, το ϖοιο δέντρο θα στηρίζεται αϖό τα δεδοµένα εξαρτάται αϖό τους χαρακτήρες ϖου έχουν εϖιλεγεί, και οι οϖοίοι είναι ένα δείγµα του γονιδιώµατος των οργανισµών ϖου µελετούνται. Αϖό τη στιγµή, λοιϖόν ϖου η φυλογενετική ανάλυση στηρίζεται σε ένα δείγµα θα συνοδεύεται και αϖό το αντίστοιχο σφάλµα δειγµατοληψίας. Ένας τρόϖος υϖολογισµού του σφάλµατος είναι µε ϖολλαϖλά δείγµατα αϖό τον ϖληθυσµό ϖου µελετάται και σύγκριση των εκτιµήσεων αϖό τα διαφορετικά δείγµατα. Αυτό όµως, όσον αφορά τη φυλογενετική ανάλυση, κοστίζει ϖολύ σε χρόνο και χρήµα. Εϖιϖλέον, τα φυλογενετικά δέντρα είναι ϖολύϖλοκες κατασκευές και είναι εξαιρετικά δύσκολο να αναϖτυχθούν εξισώσεις για να υϖολογίζουν το όρια εµϖιστοσύνης µιας φυλογενετικής ανάλυσης. Ένας εύκολος τρόϖος για να εκτιµηθεί το σφάλµα δειγµατοληψίας, είναι να ϖαρθούν δείγµατα αϖό τα δεδοµένα (ψευδοδείγµατα) και µε βάση την κατανοµή των µέσων των (ψευδο-)δειγµάτων να υϖολογιστούν τα όρια εµϖιστοσύνης. Αυτή τη λογική ακολουθεί η µέθοδος του bootstrap, ϖου είναι αϖό τις ϖλέον χρησιµοϖοιούµενες στη φυλογενετική. Με τη µέθοδο bootstrap[106], αρχικά κατασκευάζεται ένα δέντρο (µε µέθοδο κατασκευής φυλογενετικών δέντρων) αϖό το σύνολο των δεδοµένων. Στη συνέχεια, εϖιλέγεται ο ίδιος αριθµός θέσεων χαρακτήρων, µε τυχαία δειγµατοληψία και εϖανατοϖοθέτηση, αϖό το σύνολο των δεδοµένων. Έτσι, κάϖοιες θέσεις µϖορεί να εϖιλεγούν δύο ή ϖερισσότερες φορές και κάϖοιες καµία. Αυτές οι τυχαία εϖιλεγµένες θέσεις αϖοτελούν ένα νέο σύνολο δεδοµένων, µε βάση το οϖοίο κατασκευάζεται ένα νέο δέντρο µε την ίδια µέθοδο κατασκευής, όϖως το αρχικό. Κάθε εσωτερικός κόµβος του αρχικού δέντρου ϖου δίνει

147 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 147 ίδιο διαχωρισµό των αλληλουχιών µε αυτό του bootstrap ϖαίρνει τιµή 1, αλλιώς 0. Η διαδικασία εϖαναλαµβάνεται αρκετές φορές και τελικά υϖολογίζεται το εϖί τοις εκατό ϖοσοστό των φορών ϖου κάθε εσωτερικός κόµβος ϖαίρνει τιµή 1. Αυτό το ϖοσοστό ονοµάζεται τιµή bootstrap. Γενικά, όταν αυτή η τιµή είναι µεγαλύτερη του 95%, τότε ο αντίστοιχος εσωτερικός κόµβος θεωρείται ότι έχει ϖολύ καλή στατιστική υϖοστήριξη. Για την εφαρµογή του ελέγχου bootstrap, ϖρέϖει να κατασκευάζεται ένα φυλογενετικό δέντρο αϖό κάθε σύνολο δεδοµένων, οϖότε ο χρόνος ϖου χρειάζεται για να κατασκευαστεί ένα δέντρο είναι µια σηµαντική ϖαράµετρος. Για αυτό το λόγο ο έλεγχος αυτός χρησιµοϖοιείται για δέντρα neighbour-joining, αλλά και στις µεθόδους µέγιστης φειδωλότητας και µέγιστης ϖιθανοφάνειας ϖαρόλο ϖου θεωρείται χρονοβόρος. Στην ϖαρούσα διατριβή χρησιµοϖοιήθηκε η µέθοδος bootstrap για τον έλεγχο της αξιοϖιστίας των φυλογενετικών δέντρων. 7.5 Μεθοδολογία εξαγωγής φυλογενετικού δέντρου µε χρήση ασαφών ΗΜΜ Η χρήση µοριακών δεδοµένων για την κατασκευή φυλογενετικών δέντρων έχει αρχίσει να κερδίζει το ενδιαφέρον των βιοϊατρικών ερευνητών. Οργανισµοί όϖως οι ιοί δεν αφήνουν αϖολιθώµατα, έτσι ο µόνος τρόϖος να µελετηθεί το ϖαρελθόν τους είναι µόνο µε τις φυλογενετικές σχέσεις των υϖαρχόντων ιών. Η φυλογενετική ανάλυση ϖρωτεϊνικών και γονιδιακών δεδοµένων µϖορεί να εκτελεστεί µε την ανάλυση των γονιδιακών και ϖρωτεϊνικών ακολουθιών µεταξύ ειδών. Για την κατασκευή φυλογενετικών δέντρων έχουν αναϖτυχθεί ϖολλές µέθοδοι αυτοµατοϖοιηµένες όϖως είναι η µέγιστη φειδωλότητα [102], η µέγιστη ϖιθανοφάνεια [107] και οι µέθοδοι βασισµένη σε αϖόσταση [108]. Ένα κοινό χαρακτηριστικό όλων των ϖαραϖάνω µεθόδων είναι ότι: είτε ο βαθµός, είτε τα µοτίβα αλλαγών στην ακολουθία, δεν µϖορούν να αναλυθούν αν αρχικά οι ακολουθίες µεταξύ τους δε συστοιχιθούν [73]. Έτσι µια σωστά φτιαγµένη ϖολλαϖλή συστοίχιση ακολουθιών χρειάζεται σαν είσοδος για την εφαρµογή των ϖαραϖάνω µεθόδων κατασκευής των ακολουθιών. Η βιοϖληροφορική ϖροσφέρει µια σειρά αϖό µεθόδους ϖου ασχολούνται µε το ϖρόβληµα της ϖολλαϖλής συστοίχισης ακολουθιών. Μερικές αϖό αυτές τις µεθόδους, οι οϖοίες έχουν

148 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 148 ϖροαναφερθεί, όϖως το CLUSTAL-W [39], το PSI-BLAST [74] και το HMMER [75] εϖικρατούν των κλασικών µεθόδων των συστοιχίσεων ακολουθιών κατά ζεύγη [109]. Η γνωστή ϖροσέγγιση των κρυφών µαρκοβιανών µοντέλων χρησιµοϖοιείται ευρέως για το χαρακτηρισµό των φασµατικών ιδιοτήτων των χαρακτήρων των γονιδιακών ή ϖρωτεϊνικών ϖροτύϖων. Τα ϖροφίλ-hmm έχουν αϖοδεδειγµένα εϖιλύσει µε µεγάλη ευρωστία το ϖρόβληµα της ϖολλαϖλής συστοίχισης. Η ευρεία τους χρήση στη βιοϖληροφορική, όϖως έχει ήδη ϖροαναφερθεί, οδήγησε στη δηµιουργία µεγάλων βάσεων δεδοµένων ϖροφίλ [110,111] ϖου ϖροσφέρουν βιολογική γνώση (συστοιχίσεις, φυλογενετική κατανοµή, οργάνωση οικογενειών ϖρωτεϊνών) για την εϖίλυση διάφορων ϖροβληµάτων, όϖως η ταξινόµηση ϖρωτεϊνών [82,112], το χτίσιµο φυλογενετικών δέντρων [5,83,112], ή η ϖρόβλεψη της λειτουργίας των γονιδίων. Ωστόσο, ένα ζήτηµα σχετικά µε τη χρήση των HMM στην ϖολλαϖλή συστοίχιση είναι η αϖλουστευτική υϖόθεση της στοχαστικής ανεξαρτησίας των καταστάσεων. Η ιδιότητα αυτή δεν είναι καθόλου ϖροφανής όταν εξετάζονται ϖρωτεϊνικές ή γονιδιακές ακολουθίες, αφού στην ϖραγµατικότητα µϖορεί να υϖάρχει εξάρτηση µεταξύ των τρεχόντων και των ϖροηγούµενων καταστάσεων. Τα ασαφή µαρκοβιανά µοντέλα, ϖου χρησιµοϖοιήθηκαν για ϖρώτη φορά στην αναγνώριση οµιλίας [85] µε σκοϖό την εξοµάλυνση αυτής της υϖόθεσης και την εϖίλυση ϖαρόµοιων θεµάτων στον καθορισµού του φωνητικού µοντέλου, έχουν ήδη εισαχθεί και µαθηµατικά στο ϖρόβληµα της ϖολλαϖλής συστοίχισης [5], όϖως αναλυτικά ϖεριγράφεται και στο κεφάλαιο 5. Ένα χαρακτηριστικό των ϖροφίλ HMM, ϖου έχουν χρησιµοϖοιηθεί στην ϖολλαϖλή συστοίχιση µέχρι στιγµής είναι το γεγονός ότι ϖρόκειται για ϖεϖερασµένα µοντέλα ϖου αϖεικονίζουν την κατανοµή ϖιθανότητας για ένα άϖειρο αριθµό ϖιθανών ακολουθιών. Τα ϖροφίλ-hmm έχουν το µεγάλο ϖλεονέκτηµα της γενίκευσης των ϖροφίλ, αφού βασίζονται στη θεωρία ϖιθανοτήτων. Το µειονέκτηµα, ωστόσο, είναι ότι η θεωρία αυτή ϖεριορίζει την ελαστικότητα των µοντέλων εϖειδή το άθροισµα της κατανοµής ϖιθανότητας για όλες τις µοντελοϖοιηµένες ακολουθίες ϖρέϖει να ισούται µε 1. Κατά συνέϖεια, η ϖιθανότητα µίας ακολουθίας δεν µϖορεί να αυξηθεί χωρίς να µειωθεί η ϖιθανότητα κάϖοιας άλλης στο ϖροφίλ-hmm. Στα ασαφή ϖροφίλ-hmm δεν υϖάρχει αυτός ο

149 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 149 ϖεριορισµός, έτσι µϖορούν να χρησιµοϖοιηθούν αϖοδοτικά για την καλύτερη αναϖαράσταση των κοινών ϖεριοχών των ακολουθιών και τελικά να είναι δυνατή η κατασκευή καλύτερων φυλογενετικών δέντρων. Στην ϖαρούσα διατριβή ϖαρουσιάζεται µία νέα µεθοδολογία συµϖερασµού φυλογενετικών ϖου χρησιµοϖοιεί τα ασαφή ϖροφίλ- HMM για την ϖολλαϖλή συστοίχιση ακολουθιών [83]. Η αναϖαράσταση µε βάση το ασαφές ϖροφίλ-hmm, όϖως ϖεριγράφεται στο κεφάλαιο 5, ορίζεται µε τη χρήση ασαφών ολοκληρωµάτων και ασαφών τελεστών στα HMM, αντί για τη θεωρία ϖιθανοτήτων. Οι κλασικές ϖιθανότητες του ϖροφίλ-hmm αντικαθίστανται µε ασαφείς δυνατότητες. Το ολοκλήρωµα Choquet [113] για διακριτά σύνολα δεδοµένων χρησιµοϖοιείται για την ολοκλήρωση ϖάνω στις καταστάσεις του HMM, ενώ εϖίσης εισάγεται και ένα νέο ασαφές µέτρο για την εφαρµογή του ολοκληρώµατος. Έτσι αφού ϖραγµατοϖοιηθεί η ϖολλαϖλή συστοίχιση έτσι όϖως έχει αναλυθεί στο κεφάλαιο 5, µε τη βοήθεια των τριών νέων αλγορίθµων, η µεθοδολογία για την εκτέλεση και αξιοϖοίηση φυλογενετικών δέντρων φαίνεται στην εικόνα 7.2. Έτσι σύµφωνα µε την εικόνα αρχικά οι ϖολλαϖλά συστοιχισµένες ακολουθίες χρησιµοϖοιούνται για την ανακατασκευή φυλογενετικών δέντρων µε τη µέθοδο της µέγιστης φειδωλότητας, καθώς και µε τη µέθοδο µέγιστης ϖιθανοφάνειας. Η µέγιστη φειδωλότητα κατασκευάζει δέντρα µε τον ελάχιστο αριθµό αλλαγών αµινοξέων. Αυτό συχνά οδηγεί στη δηµιουργία εκατοντάδων δέντρων ισοδύναµων ως ϖρος τη φειδωλότητα, µε αϖοτέλεσµα να γίνεται ϖιο δύσκολο να εϖιλεγεί το ϖιο αξιόϖιστο (το καταλληλότερο δέντρο). Όµοια, για τη µέθοδο της µέγιστης ϖιθανοφάνειας, το να ελέγχει κανείς όλα τα ϖιθανά δέντρα είναι σχεδόν αϖίθανο και κυρίως υϖολογιστικά αδύνατο να εκτιµηθεί το µοντέλο για κάθε δέντρο. Για αυτό το λόγο µια κοινά αϖοδεκτή στρατηγική είναι η κατασκευή λογικής τοϖολογίας δέντρων µε γρηγορότερες, αλλά λιγότερο αξιόϖιστες, µεθόδους ανακατασκευής δέντρων και χρήση τους για την αξιοϖοίηση των ϖαραµέτρων. Εκτελώντας την ανάλυση bootstrap [106,114] στα δέντρα ϖου έχουν ϖαραχθεί, είναι ϖιθανό να εκτιµηθεί ένα µέτρο για την αξιοϖιστία των συστοιχίσεων. Η µέθοδος bootstrap ϖροσεγγίζει την υϖοδηλούµενη κατανοµή δειγµατοληϖτώντας εκ νέου το αρχικό

150 Κεφάλαιο 7: Φυλογενετική ανάλυση δεδοµένων 150 σύνολο δεδοµένων, µε σκοϖό την κατασκευή ενός συναινετικού δέντρου κατά ϖλειοψηφία. Οι εκτιµήσεις αϖό τη µέθοδο αξιοϖιστίας µϖορούν στη συνέχεια να χρησιµοϖοιηθούν σαν ένας έµϖιστος τρόϖος µέτρησης της ϖοιότητας των συστοιχίσεων. Εικόνα 7.2: Μεθοδολογία εξαγωγής φυλογενετικού δέντρου Η µεθοδολογία της εικόνας 7.2 εφαρµόστηκε για τη διεξαγωγή των ϖαρακάτω ϖειραµάτων ϖου εφαρµοστήκαν για την ϖαραγωγή ϖολλαϖλών συστοιχίσεων µε τα κλασικά ΗΜΜ, µε την ϖροοδευτική τεχνική, µε την ιεραρχική οµαδοϖοίηση, καθώς και µε 4 ϖεριϖτώσεις των ασαφών ΗΜΜ µοντέλων. Έϖειτα µετρήθηκαν τα εϖίϖεδα εµϖιστοσύνης µε τη διαδικασία bootstrap. 7.6 Πειραµατικά αϖοτελέσµατα Τα δεδοµένα των ακολουθιών ϖου χρησιµοϖοιήθηκαν για τη φυλογενετική ανάλυση είναι όϖως και στην ϖερίϖτωση της

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ 1 ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ Οι δύο πολυνουκλεοτιδικές αλυσίδες του DNA αποτελούνται από νουκλεοτίδια τα οποία ενώνονται με φωσφοδιεστερικούς δεσμούς. Πιο συγκεκριμένα

Διαβάστε περισσότερα

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν;

Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν; Ποια είναι κατά τη γνώμη σας τα 30 μικρομόρια που συνιστούν τα πρόδρομα μόρια των βιομακρομορίων; Πώς μπορούν να ταξινομηθούν; Γενικά Για να προσδιορίσουμε τα 30 πρόδρομα μόρια των βιομακρομορίων θα πρέπει

Διαβάστε περισσότερα

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΜΙΝΟΠΕΤΡΟΣ ΚΩΝΣΤΑΝΤΙΝΟΣ ΦΥΣΙΚΟΣ - Ρ/Η ΚΑΘΗΓΗΤΗΣ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΥΠΕΥΘΥΝΟΣ ΣΕΦΕ 2 ου ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΕΡΑΜΑΤΟΣ ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ Θα πρέπει να γνωρίζετε: Τη χημική σύσταση και τη δομή των νουκλεοτιδίων Πώς σχηματίζεται μια πολυνουκλεοτιδική αλυσίδα Πώς σταθεροποιείται η διπλή έλικα του DNA Τι υποδηλώνει ο όρος συμπληρωματικές αλυσίδες

Διαβάστε περισσότερα

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1 ΤΟ DNA ΚΑΙ RNA Θανος Εξαρχου Γ1 ΤΟ DNA Το δε(σ)οξυριβο(ζο)νουκλεϊ(νι)κό οξu είναι νουκλεϊκό οξύ που περιέχει τις γενετικές πληροφορίες που καθορίζουν τη βιολογική ανάπτυξη όλων των κυτταρικών μορφών ζωής

Διαβάστε περισσότερα

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i.. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ «XHMIKH ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ» ΕΙΣΑΓΩΓΗ ΚΑΙ Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ Α. ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ ΜΕΣΑ ΣΤΗΝ ΤΑΞΗ 1. Όταν αναφερόμαστε στον όρο «Χημική Σύσταση του Κυττάρου», τί νομίζετε ότι

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής ΚΕΑΛΑΙΟ 5 ιατήρηση και συνέχεια της ζωής 5.2 H ροή της γενετικής πληροφορίας 3 Πώς βρέθηκε η δομή του DNA στο χώρο; Η ανακάλυψη της δομής του DNA πραγματοποιήθηκε το 1953 από τους Watson και Crick. Από

Διαβάστε περισσότερα

Βιολογία Γενικής Παιδείας Β Λυκείου

Βιολογία Γενικής Παιδείας Β Λυκείου Απρίλιος Μάιος 12 Βιολογία Γενικής Παιδείας Β Λυκείου Βιολογία Γενικής Παιδείας Β Λυκείου (Ερωτήσεις που παρουσιάζουν ενδιαφέρον) 1. Τι είναι τα βιομόρια και ποια είναι τα βασικά χαρακτηριστικά τους; Βιομόρια

Διαβάστε περισσότερα

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Αριστοτέλης Κωτίτσας Οι λειτουργίες των οργανισµών πραγµατοποιούνται χάρη στις πρωτεΐνες. Ο βιολογικός ρόλος των πρωτεϊνών καθορίζεται από τη µορφή τους.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ 2.4 ΣΤΑΔΙΑ ΜΕΤΑΦΡΑΣΗΣ σ ε λ ί δ α 1 ΕΙΚΟΝΑ 4.2β ΕΡΩΤΗΣΕΙΣ 1. Να συμπληρώσετε τα κενά πλαίσια της εικόνας με την κατάλληλη λέξη ή φράση 2. Να γράψετε τον προσανατολισμό της μετακίνησης του ριβοσώματος

Διαβάστε περισσότερα

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ ΑΝΤΙΓΡΑΦΗ ΜΕΤΑΓΡΑΦΗ Γίνεται σύνθεση DNA. Γίνεται σύνθεση RNA. Εξασφαλίζεται η διαιώνιση της γενετικής

Διαβάστε περισσότερα

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΤΑ ΜΟΝΟΜΕΡΗ ΣΥΝΔΕΟΝΤΑΙ ΜΕ ΟΜΟΙΟΠΟΛΙΚΟ ΔΕΣΜΟ. 1. ΠΡΩΤΕΪΝΕΣ

Διαβάστε περισσότερα

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου Ενότητα 1.1: Χημεία της ζωής Ενότητα 2.1: Μακρομόρια Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: 1. Για ποιο λόγο θεωρείται αναγκαία η σταθερότητα

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1ο 1. α 2. γ 3. δ 4. γ 5. β 1 ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 2ο 1. Σχολικό βιβλίο,

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014 ΤΑΞΗ: ΚΑΤΕΥΘΥΝΣΗ: ΜΑΘΗΜΑ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΒΙΟΛΟΓΙΑ Ηµεροµηνία: Παρασκευή 25 Απριλίου 2014 ιάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθµό καθεµιάς από τις παρακάτω

Διαβάστε περισσότερα

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΚΕΦΑΛΑΙΟ 1: Το γενετικό υλικό ΘΕΜΑ: 1 ο (Μονάδες 25 ) Να επιλέξετε τη σωστή απάντηση στις παρακάτω ερωτήσεις. 1. Το πείραµα των Hershey και Chase ήταν:

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΚΕΦΑΛΑΙΟ 2 ο 1. Με ποιο μηχανισμό αντιγράφεται το DNA σύμφωνα με τους Watson και Crick; 2. Ένα κύτταρο που περιέχει ένα μόνο χρωμόσωμα τοποθετείται σε θρεπτικό υλικό που περιέχει ραδιενεργό

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ (Περιέχει 67 ερωτήσεις θεωρίας µε απαντήσεις, 116 ασκήσεις ανοικτού- κλειστού τύπου µε µ

Διαβάστε περισσότερα

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας

Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων. 1/10/2015 Δ.Δ. Λεωνίδας αμινοξέα Οι πρωτεΐνες δομούνται από ένα σύνολο αμινοξέων Λυσίνη CORN Ισομερές L Ισομερές D R = πλευρική αλυσίδα (side chain) Τα περισσότερα αμινοξέα είναι ασύμμετρα Όλα τα αμινοξέα που βρίσκονται στις

Διαβάστε περισσότερα

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία Θέματα πριν τις εξετάσεις Καλό διάβασμα Καλή επιτυχία 2013-2014 Θέματα πολλαπλής επιλογής Μετουσίωση είναι το φαινόμενο α. κατά το οποίο συνδέονται δύο αμινοξέα για τον σχηματισμό μιας πρωτεΐνης β. κατά

Διαβάστε περισσότερα

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ»

Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ» Νικόλαος Σιαφάκας Λέκτορας Διαγνωστικής Ιολογίας Εργαστήριο Κλινικής Μικροβιολογίας ΠΓΝ «ΑΤΤΙΚΟΝ» DNA RNA: ΑΝΤΙΓΡΑΦΗ, ΜΕΤΑΓΡΑΦΗ, ΜΕΤΑΦΡΑΣΗ DNA RNA: Βασικά Χαρακτηριστικά Ρόλος Κεντικό Δόγμα της Βιολογίας:

Διαβάστε περισσότερα

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

Κεφάλαιο 1: Το Γενετικό Υλικό 1. Κεφάλαιο 1: Το Γενετικό Υλικό 1. Ο πνευμονιόκοκκος είναι: α. μύκητας β. βακτήριο γ. ιός δ. πρωτόζωο 2. Στο πείραμα του Griffith τι αποτελέσματα είχε ο εμβολιασμός με βακτήρια, θάνατο(θ) ή επιβίωση (Ε),

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΘΕΜΑ Α Α1. γ Α2. β Α3. α Α4. δ Α5. α ΘΕΜΑ Β Β1. Σελ. 123 124 σχολ. βιβλίου: «Η διαδικασία που ακολουθείται παράγουν το ένζυμο ADA». Β2. Σελ. 133 σχολ.

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ 1 ο Α. Ερωτήσεις πολλαπλής επιλογής 1. δ 2. β 3. γ 4. γ 5. β Β. Ερωτήσεις σωστού λάθους 1. Λάθος 2. Σωστό 3. Λάθος 4. Λάθος 5. Σωστό ΘΕΜΑ

Διαβάστε περισσότερα

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2. ΘΕΜΑ Α Α1. γ (το πριμόσωμα) Α2. γ (οι υποκινητές και οι μεταγραφικοί παράγοντες κάθε γονιδίου) Α3. α (μεταφέρει ένα συγκεκριμένο αμινοξύ στο ριβόσωμα) Α4. β (αποδιάταξη των δύο συμπληρωματικών αλυσίδων)

Διαβάστε περισσότερα

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ Επαναληπτικά Θέµατα ΟΕΦΕ 2005 1 ε π α ν α λ η π τ ι κ ά θ έ µ α τ α 2 0 0 5 Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1 Ο A: 1-Α, 2-, 3-Γ, 4-Β, 5-Β ΜΟΝΑ ΕΣ 15 (3Χ5) Β. 1. Σωστή, 2. Λανθασµένη,

Διαβάστε περισσότερα

Τάξη. Γνωστικό αντικείµενο: Ειδικοί διδακτικοί στόχοι

Τάξη. Γνωστικό αντικείµενο: Ειδικοί διδακτικοί στόχοι Αµινοξέα και πεπτίδια Τάξη Μάθηµα Γνωστικό αντικείµενο: ιδακτική ενότητα Απαιτούµενος χρόνος Χηµεία,Βιοχηµεία. Αµινοξέα και πεπτίδια 2 διδακτικές ώρες Ειδικοί διδακτικοί στόχοι Οι διδακτικοί στόχοι αυτών

Διαβάστε περισσότερα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΓΥΜΝΑΣΙΟ ΚΕΡΑΤΕΑΣ ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ Β ΤΡΙΜΗΝΟΥ Γ 4 23.1.12 ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΕΡΓΑΣΤΗΚΑΝ: ΑΛΕΞΑΝΔΡΟΣ ΔΕΛΗΜΙΧΑΛΗΣ ΑΡΤΕΜΗΣ ΑΝΑΣΤΑΣΙΑΔΗΣ 1 ΕΙΣΑΓΩΓΗ Το δεοξυριβονουκλεϊκό οξύ (Deoxyribonucleic acid -

Διαβάστε περισσότερα

8. Σε στέλεχος του βακτηρίου E.coli δε λειτουργεί το γονίδιο που παράγει τον καταστολέα του οπερόνιου της λακτόζης. Ποιο είναι το αποτέλεσμα σε σχέση

8. Σε στέλεχος του βακτηρίου E.coli δε λειτουργεί το γονίδιο που παράγει τον καταστολέα του οπερόνιου της λακτόζης. Ποιο είναι το αποτέλεσμα σε σχέση Γονιδιακή ρύθμιοη 1. Εντοπίστε δύο διαφορές στον έλεγχο της γονιδιακής έκφρασης ανάμεσα στους προκαρυωτικούς και στους ευκαρυωτικούς οργανισμούς. Α. Η ρύθμιση της γσνιδιακής έκφρασης στους προκαρυωτικούς

Διαβάστε περισσότερα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α!  # $ % & ' ( ) ( ) ( * % + α ι α ! THΛ: 270727 222594 THΛ: 919113 949422 Απαντήσεις: " # $ % & ' 1=γ, 2=β, 3=γ, 4=β, 5=δ. " # $ % ( ' εδοµένα από την ανάλυση του ποσοστού των βάσεων σε µόρια DNA από διαφορετικούς οργανισµούς έδειχναν

Διαβάστε περισσότερα

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Διδακτική με έμφαση στις βιοεπιστήμες Μαρία Ευαγγελία Βασιλογιάννη Στοιχεία Μαθήματος 1. Μάθημα : Βιολογία 2. Τίτλος ενότητας: Η ροή της γενετικής

Διαβάστε περισσότερα

Οργά νωση Γενετικού Υλικού

Οργά νωση Γενετικού Υλικού Βιολογία Γ Γυμνασίου: Διατήρηση και Συνέχεια της Ζωής Οργά νωση Γενετικού Υλικού Γονίδιο: Η μονάδα της κληρονομικότητας. Ουσιαστικά είναι ένα κομμάτι από το DNA που αποθηκεύει πληροφορίες για κάποιο συγκεκριμένο

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ Υποενότητες 4.1 και 4.2 1. Το αντικωδικόνιο που βρίσκεται στο trna συνδέεται (βάλτε σε κύκλο το σωστό): α. Με το αμινοξύ β. Με το

Διαβάστε περισσότερα

Βιολογία Κατεύθυνσης Γ Λυκείου

Βιολογία Κατεύθυνσης Γ Λυκείου Βιολογία Κατεύθυνσης Γ Λυκείου 2013-2014 ΓΕ.Λ. ΣΟΡΩΝΗΣ ΜΑΣΤΗ ΧΡΙΣΤΙΝΑ Κεφάλαιο 1 ΤΟ ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ Ταξίδι στο χρόνο 1869 Απομονώνεται DNA από τον κυτταρικό πυρήνα 1903 Αποδεικνύεται ότι τα χρωμοσώματα

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 04/09/2016 ΘΕΜΑ Α Α.1. β. Α.2. β. Α.3. γ. Α.4. δ. ΑΠΑΝΤΗΣΕΙΣ Α.5. β. Μονάδες 25 ΘΕΜΑ Β Β. 1. Ιχνηθέτηση. είναι η σήμανση χημικών

Διαβάστε περισσότερα

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα: Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία 1. Δεοξυριβονουκλεϊκό οξύ (DNA) Νουκλεϊκά οξέα: Φορέας της γενετικής πληροφορίας 2. Ριβονουκλεϊκό οξύ (RNA) Συμμετοχή στην

Διαβάστε περισσότερα

Βιολογία Β Λυκείου θέματα

Βιολογία Β Λυκείου θέματα Ι. Οι υδατάνθρακες διακρίνονται σε μονοσακχαρίτες, δισακχαρίτες και πολυσακχαρίτες. α) Να αναφέρετε από δύο παραδείγματα μονοσακχαριτών, δισακχαριτών και πολυσακχαριτών. (6μ) β) Σε ένα κύτταρο συναντώνται

Διαβάστε περισσότερα

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ ΘΕΜΑ Α ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Δ ΕΣΠΕΡΙΝΩΝ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΞΙ (6) Να γράψετε στο τετράδιό

Διαβάστε περισσότερα

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01% ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01% Ο άνθρακας, το υδρογόνο, το οξυγόνο και το άζωτο συμμετέχουν, σε σημαντικό βαθμό, στη

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ EIKONA 2.1 Ημισυντηρητικός μηχανισμός αντιγραφής του DNA 1. Να γράψετε τα ένζυμα που (α) προκαλούν ξετύλιγμα των αλυσίδων του αρχικού (μητρικού μορίου) DNA και (β) συνθέτουν τις νέες αλυσίδες του DNA.

Διαβάστε περισσότερα

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. σύγχρονο Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ 50.51.557 50.56.296 25ης Μαρτίου 74 ΠΛ.ΠΕΤΡΟΥΠΟΛΗΣ 50.50.658 50.60.845 25ης Μαρτίου 111 ΠΕΤΡΟΥΠΟΛΗ 50.27.990

Διαβάστε περισσότερα

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Περιεχόμενα Παρουσίασης Βιολογικό υπόβαθρο Το κεντρικό αξίωμα Σύνοψη της Βιοπληροφορικής Ερευνητικές περιοχές Πηγές πληροφοριών Τι είναι η Βιοπληροφορική Βιο Πληροφορική μοριακή

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ...

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ... ΚΕΦΑΛΑΙΟ 1 ο ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ.... 8 ΠΡΟΒΛΗΜΑΤΑ... 9 ΙΑΓΩΝΙΣΜΑ...12 ΚΕΦΑΛΑΙΟ 1 ο I. Το γενετικό

Διαβάστε περισσότερα

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Η οικογενειακή ομοιότητα, οφείλεται στα κοινά γονίδια. Τα γονίδια πρέπει να εκφραστούν για να έχουν αποτέλεσμα, και η έκφραση αυτή ρυθμίζεται από πρωτεΐνες.

Διαβάστε περισσότερα

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση. ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γʹ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 20 ΙΟΥΝΙΟΥ 2000 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ : ΒΙΟΛΟΓΙΑ ΘΕΜΑ 1ο Α. Στις ερωτήσεις 1-5, να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 5 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Α Α1 γ Α2 β Α3 α Α4 δ Α5 α ΘΕΜΑ Β Β1. Σχολικό βιβλίο, Σελ.: 123-124: «Η διαδικασία που ακολουθείται με ενδοφλέβια ένεση στον οργανισμό». Β2. Σχολικό βιβλίο, Σελ.: 133: «Διαγονιδιακά

Διαβάστε περισσότερα

ΑΝΤΙΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Πώς από το DNA φτάνουμε στις πρωτεΐνες

ΑΝΤΙΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Πώς από το DNA φτάνουμε στις πρωτεΐνες ΑΝΤΙΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Πώς από το DNA φτάνουμε στις πρωτεΐνες Αντιγραφή του DNA o Ο μηχανισμός αντιγραφής του DNA ονομάζεται ημισυντηρητικός διότι κατά την αντιγραφή του

Διαβάστε περισσότερα

Οι δευτερογενείς µεταβολίτες

Οι δευτερογενείς µεταβολίτες Οι δευτερογενείς µεταβολίτες Είναιταπροϊόνταδευτερογενούςµεταβολισµού. Μερικοί γνωστοί δευτερογενείς µεταβολίτες είναι η µορφίνη, ήκαφεΐνη, το καουτσούκ κ.ά. Ο ρόλος τους φαίνεται να είναι οικολογικής

Διαβάστε περισσότερα

Ενδεικτικές απαντήσεις

Ενδεικτικές απαντήσεις ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΠΑΡΑΣΚΕΥΗ 8 ΣΕΠΤΕΜΒΡΙΟΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Ενδεικτικές απαντήσεις

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

MAΘΗΜΑ 4 ο AMINOΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ

MAΘΗΜΑ 4 ο AMINOΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ MAΘΗΜΑ 4 ο AMIΞΕΑ-ΠΕΠΤΙ ΙΑ-ΠΡΩΤΕΪΝΕΣ Αλανίνη (Αla) Αλανυλοσερίνη (Αla-Ser) Αλβουµίνη ρα. Κουκουλίτσα Αικατερίνη Χηµικός Εργαστηριακός Συνεργάτης Τ.Ε.Ι Αθήνας ckoukoul@teiath.gr AMIΞΕΑ 2 λειτουργικές οµάδες

Διαβάστε περισσότερα

ΒΙΟΧΗΜΕΙΑ ΤΟΥ ΜΕΤΑΒΟΛΙΣΜΟΥ DNA. Ο φορέας της γενετικής πληροφορίας, αντιγραφή, μεταγραφή

ΒΙΟΧΗΜΕΙΑ ΤΟΥ ΜΕΤΑΒΟΛΙΣΜΟΥ DNA. Ο φορέας της γενετικής πληροφορίας, αντιγραφή, μεταγραφή ΒΙΟΧΗΜΕΙΑ ΤΟΥ ΜΕΤΑΒΟΛΙΣΜΟΥ DNA Ο φορέας της γενετικής πληροφορίας, αντιγραφή, μεταγραφή 1 Δομή του DNA DNA structure 2 ΑΝΤΙΓΡΑΦΗ, ΜΕΤΑΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Το DNA, όπως και

Διαβάστε περισσότερα

ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο

ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο 1. Δύο μόρια DΝΑ αποτελούνται το καθένα από 10.000 ζεύγη αζωτούχων βάσεων με 14 Ν. Τα μόρια μεταφέρονται σε περιβάλλον με ραδιενεργά νουκλεοτίδια που περιέχουν 15

Διαβάστε περισσότερα

Κεφάλαιο 1. Οι δομικοί λίθοι

Κεφάλαιο 1. Οι δομικοί λίθοι Κεφάλαιο 1 Οι δομικοί λίθοι Κεφάλαιο 1 Οι Δομικοί Λίθοι των Πρωτεϊνών Εικόνα 1.1 Η αμινοξική αλληλουχία μιας πρωτεϊνικής πολυπεπτιδικής αλυσίδας ονομάζεται πρωτοταγής δομή. Διαφορετικές περιοχές της αλληλουχίας

Διαβάστε περισσότερα

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο Δομή και λειτουργία πρωτεϊνών Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο Πρωτεΐνες Κύριο συστατικό κυττάρου Δομικοί λίθοι αλλά και επιτελεστές λειτουργίας κυττάρου ένζυμα, μεταφορά,

Διαβάστε περισσότερα

Μεθοδολογία Ασκήσεων ΚΕΦ. 2ο

Μεθοδολογία Ασκήσεων ΚΕΦ. 2ο Μεθοδολογία Ασκήσεων ΚΕΦ. 2ο 1. Ασκήσεις με βάση το μηχανισμό αντιγραφής του DΝΑ. Το DΝΑ αντιγράφεται με ημισυντηρητικό τρόπο. Η κατεύθυνση της αντιγραφής είναι πάντα 5 3. Στο αρχικό μόριο δεν περιέχονται

Διαβάστε περισσότερα

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ Βιολογία ΘΕΜΑ Α κατεύθυνσης 1. δ 2. α 3. γ 4. δ 5. γ 6. α 7. δ 8. α 9. α 10. α ΘΕΜΑ Β Β1. Η ραδιενέργεια 32 Ρ θα βρίσκεται στο κλάσμα Β, δηλαδή στο κλάσμα εκείνο που περιλαμβάνει τα βακτήρια που έχουν

Διαβάστε περισσότερα

Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Ημερομηνία: Κυριακή 23 Οκτωβρίου 2016 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ

Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Ημερομηνία: Κυριακή 23 Οκτωβρίου 2016 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΤΑΞΗ: ΜΑΘΗΜΑ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Ημερομηνία: Κυριακή 23 Οκτωβρίου 2016 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΘΕΜΑ Α Στις ημιτελείς προτάσεις Α1 Α4 να γράψετε στο

Διαβάστε περισσότερα

ΘΕΜΑ Α ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΛΑ Β ) ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από

Διαβάστε περισσότερα

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΘΕΜΑ 1 ο Α. Στις ερωτήσεις 1-5 να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα του το γράμμα που αντιστοιχεί στη σωστή απάντηση. 1. Το

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων Φυλογένεση Η φυλογένεσης αφορά την ανεύρεση των συνδετικών εκείνων κρίκων που συνδέουν τα διάφορα είδη µεταξύ τους εξελικτικά, σε µονοφυλετικές

Διαβάστε περισσότερα

Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ. Καρβουντζή Ηλιάνα Βιολόγος

Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ. Καρβουντζή Ηλιάνα Βιολόγος Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ Χημικά στοιχεία που συνθέτουν τους οργανισμούς Ο C, το H 2, το O 2 και το N 2 είναι τα επικρατέστερα στους οργανισμούς σε ποσοστό 96% κ.β. Γιατί; Συμμετέχουν σε σημαντικό βαθμό στη σύνθεση

Διαβάστε περισσότερα

Γ' ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ÏÅÖÅ

Γ' ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ÏÅÖÅ 1 Γ' ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΘΕΜΑ 1 o 1 Β 2 3 Γ 4 5 Β. ΘΕΜΑ 2 o ΑΠΑΝΤΗΣΕΙΣ Α. Όπως στο σχολικό, σελίδα 20: «Κάθε φυσιολογικό µεταφασικό ως προς τη θέση του κεντροµεριδίου» και σελίδα «Κατά

Διαβάστε περισσότερα

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΚΑΘΗΓΗΤΗΣ ΒΙΟΛΟΓΟΣ Μ.Δ.Ε ΚΕΦΑΛΑΙΟ 2 ον. ΑΝΤΙΓΡΑΦΗ ΚΑΙ ΕΚΦΡΑΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΙ ΠΡΕΠΕΙ ΝΑ ΞΕΡΩ. 1. Τη δομή της δίκλωνης έλικας πάρα πολύ καλά. 2. Τους δεσμούς υδρογόνου μεταξύ των συμπληρωματικών βάσεων και την επίπτωσή

Διαβάστε περισσότερα

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. Γουανίνη Κυτοσίνη. 4α. Λειτουργία γενετικού υλικού. Φωσφοδιεστερικός δεσμός

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. Γουανίνη Κυτοσίνη. 4α. Λειτουργία γενετικού υλικού. Φωσφοδιεστερικός δεσμός εύγη βάσεων Αδενίνη Θυμίνη Γουανίνη Κυτοσίνη ΓΕΝΕΤΙΚΗ Φωσφοδιεστερικός δεσμός 4α. Λειτουργία γενετικού υλικού 1 ΛΕΙΤΟΥΡΓΙΑ ΓΕΝΕΤΙΚΟΥ ΥΛΙΚΟΥ Αντιγραφή (διπλασιασμός) DNA: DNA DNA Έκφραση γενετικής πληροφορίας:

Διαβάστε περισσότερα

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ ΤΑΞΗ

ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ ΤΑΞΗ ΑΡΧΗ 1ΗΣ ΣΕΛΙ ΑΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Σ ΕΣΠΕΡΙΝΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 6 ΙΟΥΝΙΟΥ 2003 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΣΥΝΟΛΟ ΣΕΛΙ ΩΝ: ΤΕΣΣΕΡΙΣ (4) ΘΕΜΑ 1ο Στις ηµιτελείς προτάσεις

Διαβάστε περισσότερα

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης Κεφάλαιο 1α Το Γενετικό Υλικό Το DNA είναι το γενετικό υλικό Αρχικά οι επιστήμονες θεωρούσαν ότι οι πρωτεΐνες αποτελούσαν το γενετικό υλικό των οργανισμών.

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 24 Μαΐου 2013. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 24 Μαΐου 2013. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 24 Μαΐου 2013 Απαντήσεις Θεμάτων ΘΕΜΑ Α Α1. Βασική μονάδα οργάνωσης αποτελεί το Γ. νουκλεόσωμα

Διαβάστε περισσότερα

4 ο ΚΕΦΑΛΑΙΟ. Γ ε ν ε τ ι κ ή

4 ο ΚΕΦΑΛΑΙΟ. Γ ε ν ε τ ι κ ή 4 ο ΚΕΦΑΛΑΙΟ Γ ε ν ε τ ι κ ή 1. Κύκλος της ζωής του κυττάρου 3ο Γελ. Ηλιούπολης επιμέλεια: Αργύρης Γιάννης 2 2. Μοριακή Γενετική i). Ροή της γενετικής πληροφορίας DNA RNA πρωτεΐνες νουκλεΐκά οξέα ή πρωτεΐνες

Διαβάστε περισσότερα

ΒΙΟΧΗΜΕΙΑ Ι. ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη

ΒΙΟΧΗΜΕΙΑ Ι. ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη ΒΙΟΧΗΜΕΙΑ Ι ΚΕΦΑΛΑΙΟ 2 ο Βιοχημική εξέλιξη ΣΥΝΔΕΣΗ ΜΕ ΤΑ ΠΡΟΗΓΟΥΜΕΝΑ Τι είναι ΒΙΟΧΗΜΕΙΑ DNA ΠΡΩΤΕΙΝΕΣ ΑΛΛΑ ΣΥΝΔΕΣΗ ΒΙΟΛΟΓΙΑΣ ΚΑΙ ΧΗΜΕΙΑΣ (Δεσμοί, ενέργεια, δομή) ΕΞΕΛΙΞΗ ΤΗΣ ΖΩΗΣ Υπάρχει μια συνεχή εξελικτική

Διαβάστε περισσότερα

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ. Τα χημικά μόρια που οικοδομούν τους οργανισμούς

ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ. Τα χημικά μόρια που οικοδομούν τους οργανισμούς ΧΗΜΙΚΗ ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ Τα χημικά μόρια που οικοδομούν τους οργανισμούς Μελέτη φαινομένου της ζωής o Η μελέτη του φαινομένου της ζωής ξεκινά από το μοριακό επίπεδο δηλαδή από τα χημικά μόρια που οικοδομούν

Διαβάστε περισσότερα

τα βιβλία των επιτυχιών

τα βιβλία των επιτυχιών Τα βιβλία των Εκδόσεων Πουκαμισάς συμπυκνώνουν την πολύχρονη διδακτική εμπειρία των συγγραφέων μας και αποτελούν το βασικό εκπαιδευτικό υλικό που χρησιμοποιούν οι μαθητές των φροντιστηρίων μας. Μέσα από

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ

ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ ΑΠΑΝΤΗΣΕΙΣ ΤΩΝ ΕΡΩΤΗΣΕΩΝ.-ΑΣΚΗΣΕΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΩΝ ΤΟΥ ΒΙΒΛΙΟΥ ΤΟΥ ΜΑΘΗΤΗ 1. Τοποθετείστε στο διάγραμμα που ακολουθεί, τους όρους: σύνθεση, υδρόλυση, μακρομόριο, μονομερή. Ερμηνεύστε το διάγραμμα. Η -Q-

Διαβάστε περισσότερα

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5 Βιολογία Κατεύθυνσης Γ Λυκείου Απαντήσεις διαγωνίσματος στο Κεφάλαιο 4 ο ΘΕΜΑ Α Α1. β Α2. β Α3. γ Α4. β Α5. β ΘΕΜΑ B B1. Ο κλώνος είναι μια ομάδα πανομοιότυπων μορίων, κυττάρων, ή οργανισμών. B2. Η υβριδοποίηση

Διαβάστε περισσότερα

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής:

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής: ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ)

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΘΕΜΑ 1 ο Α. Να γράψετε στο τετράδιο σας τον αριθμό κάθε μιας από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί

Διαβάστε περισσότερα

Τηλ: Ανδρέου Δημητρίου 81 & Ακριτών 26 -ΚΑΛΟΓΡΕΖΑ

Τηλ: Ανδρέου Δημητρίου 81 & Ακριτών 26 -ΚΑΛΟΓΡΕΖΑ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ- ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ (Ιανουάριος 2014) 1 ο ΘΕΜΑ Απαντήστε στις παρακάτω ερωτήσεις πολλαπλής επιλογής. Μία απάντηση είναι η σωστή. 1. Υβριδοποίηση: Α. Είναι ιδιότητα του DNA

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014

Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014 Διαγώνισμα Βιολογίας στα Κεφάλαια 1 έως 4 ΚΥΡΙΑΚΗ 7 ΔΕΚΕΜΒΡΙΟΥ 2014 ΘΕΜΑ Α Α1. β Α2. β Α3. β Α4. β Α5. β ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ B B1. Ο όρος γονιδιακή έκφραση αναφέρεται συνήθως σε όλη τη διαδικασία με την οποία

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Επεξήγηση των μεθόδων (ανα-)κατασκευής φυλογενετικών δέντρων. Παρουσίαση

Διαβάστε περισσότερα

Θέματα Πανελλαδικών 2000-2013

Θέματα Πανελλαδικών 2000-2013 Θέματα Πανελλαδικών 2000-2013 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΗΜΕΡΗΣΙΩΝ ΛΥΚΕΙΩΝ ΕΣΠΕΡΙΝΩΝ ΛΥΚΕΙΩΝ ΕΠΑΝΑΛΗΠΤΙΚΕΣ Κεφάλαιο 2 ΚΕΦΑΛΑΙΟ 2 ΘΕΜΑ 1 ο Γράψτε τον αριθμό καθεμιάς από τις παρακάτω προτάσεις και δίπλα το γράμμα

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 19/06/2018 ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 19/06/2018 ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 19/06/2018 ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ ΘΕΜΑ Α Α1. δ Α2. β Α3. α Α4. α Α5. β ΘΕΜΑ Β Β1 1-γ 2-β 3-γ 4-α 5-γ 6-γ 7-β Β2 Μικροοργανισμός Β σχολικό βιβλίο σελ. 112 "Το PH επηρεάζει...σε

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 11 Ιουνίου 2015 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Απαντήσεις Θεμάτων Επαναληπτικών Πανελληνίων Εξετάσεων Ημερησίων & Εσπερινών Γενικών Λυκείων ΘΕΜΑ Α Α1. β Α2. γ Α3. α Α4. γ Α5. δ ΘΕΜΑ B Β1. 1. Β 2. Γ 3. Α

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΣΤΟ ΔΕΥΤΕΡΟ ΚΕΦΑΛΑΙΟ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΣΚΗΣΕΙΣ ΣΤΟ ΔΕΥΤΕΡΟ ΚΕΦΑΛΑΙΟ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ 1) Τμήμα μορίου βακτηριακού DNA έχει την ακόλουθη αλληλουχία βάσεων: 3 TACTGGAATGGTCGCCCCTGCATT 5 a. Ποια είναι η αλληλουχία του συμπληρωματικού κλώνου και ποιος είναι ο προσανατολισμός της. b. Ποιο είναι

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ 1. Το γενεαλογικό δένδρο είναι η διαγραμματική απεικόνιση των μελών μιας οικογένειας για πολλές γενιές, στην οποία αναπαριστώνται οι γάμοι, η σειρά των γεννήσεων, το φύλο

Διαβάστε περισσότερα

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 2 ο Αντιγραφή, έκφραση & ρύθμιση της γενετικής πληροφορίας

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 2 ο Αντιγραφή, έκφραση & ρύθμιση της γενετικής πληροφορίας Βιολογία Θετικής Κατεύθυνσης Κεφάλαιο 2 ο Αντιγραφή, έκφραση & ρύθμιση της γενετικής πληροφορίας Αντιγραφή του DNA Οι Watson & Crick το 1953 μαζί με το μοντέλο της διπλής έλικας, πρότειναν και έναν τρόπο

Διαβάστε περισσότερα

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η

Κεφάλαιο 2 Α Ν Τ Ι Γ Ρ Α Φ Η ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Κεφάλαιο 2 Μεθοδολογία Ασκήσεων Α Ν Τ Ι Γ Ρ Α Φ Η 1 η Κατηγορία: Ασκήσεις στην Αντιγραφή (υπολογιστικές) Αφού αναφέρουμε τον ημισυντηρητικό τρόπο αντιγραφής φτιάχνουμε ένα απλό σχήμα

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ_1.1 In vivo πειράματα απόδειξης της έννοιας του μετασχηματισμού και in vitro απόδειξη ότι το DNA είναι αυτό που προκαλεί το μετασχηματισμό. ΕΡΩΤΗΣΕΙΣ 1. Γιατί πιστεύετε ότι θανατώνονται τα βακτήρια

Διαβάστε περισσότερα

ΕΞΕΤΑΣΕΙΣ 2013 ΑΠΑΝΤΗΣΕΙΣ στα ΘΕΜΑΤΑ ΤΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΕΞΕΤΑΣΕΙΣ 2013 ΑΠΑΝΤΗΣΕΙΣ στα ΘΕΜΑΤΑ ΤΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΞΕΤΑΣΕΙΣ 2013 ΑΠΑΝΤΗΣΕΙΣ στα ΘΕΜΑΤΑ ΤΗΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Α Α1: γ Α2: β Α3: α Α4: δ Α5: α ΘΕΜΑ Β Β1: σελ. 123 από: «Η διαδικασία που ακολουθείται. Εισάγονται πάλι σ αυτόν». Β2: σελ. 133 από:

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2016 Α ΦΑΣΗ

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2016 Α ΦΑΣΗ ΤΑΞΗ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΣ: ΘΕΤΙΚΩΝ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ Ηµεροµηνία: Πέµπτη 7 Ιανουαρίου 2016 ιάρκεια Εξέτασης: 3 ώρες ΘΕΜΑ Α Α1 γ, Α2 β, Α3 γ, Α4 δ, Α5 - β ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ Β1. α. Το

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2016 Α ΦΑΣΗ. Ηµεροµηνία: Πέµπτη 7 Ιανουαρίου 2016 ιάρκεια Εξέτασης: 3 ώρες ΑΠΑΝΤΗΣΕΙΣ

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2016 Α ΦΑΣΗ. Ηµεροµηνία: Πέµπτη 7 Ιανουαρίου 2016 ιάρκεια Εξέτασης: 3 ώρες ΑΠΑΝΤΗΣΕΙΣ ΤΑΞΗ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΣ: ΘΕΤΙΚΩΝ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ Ηµεροµηνία: Πέµπτη 7 Ιανουαρίου 2016 ιάρκεια Εξέτασης: 3 ώρες ΘΕΜΑ Α Α1 γ, Α2 β, Α3 γ, Α4 δ, Α5 - β ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Β Β1. α. Το

Διαβάστε περισσότερα

Μέρος 2 ο. Το DNA και η λειτουργία του. Watson & Crick 1953

Μέρος 2 ο. Το DNA και η λειτουργία του. Watson & Crick 1953 Μέρος 2 ο Το DNA και η λειτουργία του Watson & Crick 1953 Μοριακή Γενετική Το γονίδιο σαν λειτουργική µονάδα Ο Mendel ήταν ο πρώτος που διαπίστωσε την ύπαρξη του γονιδίου και οι συνεχιστές του έργου του

Διαβάστε περισσότερα

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. 2. Δομή νουκλεϊκών οξέων. Φωσφοδιεστερικός δεσμός

Ζεύγη βάσεων ΓΕΝΕΤΙΚΗ. 2. Δομή νουκλεϊκών οξέων. Φωσφοδιεστερικός δεσμός Ζεύγη βάσεων Αδενίνη Θυμίνη Γουανίνη Κυτοσίνη ΓΕΝΕΤΙΚΗ Φωσφοδιεστερικός δεσμός 2. Δομή νουκλεϊκών οξέων ΝΟΥΚΛΕΪΚΑ ΟΞΕΑ ΣΥΣΤΑΣΗ ΟΡΓΑΝΙΣΜΩΝ ΣΕ ΟΡΓΑΝΙΚΕΣ ΕΝΩΣΕΙΣ ΜΙΚΡΟΜΟΡΙΑ ΜΑΚΡΟΜΟΡΙΑ 1. Αμινοξέα πρωτεϊνες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 4ο Γενετική

ΚΕΦΑΛΑΙΟ 4ο Γενετική ΚΕΦΑΛΑΙΟ 4ο Γενετική Ενότητα 4.1: Κύκλος ζωής του κυττάρου Ενότητα 4.2: Μοριακή γενετική. (Το κεντρικό δόγμα της βιολογίας - Αντιγραφή - Μεταγραφή - Μετάφραση του DNA - Η χρωματίνη και το χρωμόσωμα) Ενότητα

Διαβάστε περισσότερα

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών Βασίλης Προμπονάς, PhD Ερευνητικό Εργαστήριο Βιοπληροφορικής Τμήμα Βιολογικών Επιστημών Νέα Παν/πολη, Γραφείο B161 Πανεπιστήμιο Κύπρου Ταχ.Κιβ. 20537 1678,

Διαβάστε περισσότερα

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους;

1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; ΘΩΜΑΣ ΑΠΑΝΤΗΣΗ. 2. Ποιες είναι οι κατηγορίες γονιδίων με κριτήριο το προϊόν της μεταγραφής τους; Βιολογία Γ Ενιαίου Λυκείου / Θετική Κατεύθυνση κεφαλαιο 2ο: αντιγραφη, εκφραση και ρυθμιση τησ ΓενετικηΣ ΠληροφοριαΣ 1. Πού πραγματοποιούνται η αντιγραφή και η μεταγραφή; Ευκαρυωτικά κύτταρα: στον πυρήνα,

Διαβάστε περισσότερα