2 Στοίχιση ανά ζεύγη 2.1. Εισαγωγή Η πιο απλή ανάλυση που μπορεί να γίνει σε επίπεδο αλληλουχιών είναι να διερευνηθεί αν δύο αλληλουχίες «σχετίζονται» 1. Συνήθως αυτό το κάνουμε πρώτα «στοιχίζοντας» 2 τις αλληλουχίες (ή μέρη τους) και κατόπιν αποφασίζοντας αν το ταίριασμα που προέκυψε από τη στοίχιση είναι πιθανότερο να συνέβη επειδή πράγματι οι αλληλουχίες σχετίζονται ή από καθαρή τύχη. Τα σημεία κλειδιά είναι: 1. Το είδος της στοίχισης 2 που θα κάνουμε. 2. Το σύστημα βαθμολόγησης που θα χρησιμοποιούμε για τις διάφορες πιθανές στοιχίσεις. 3. Ο αλγόριθμος που θα εντοπίσει τις βέλτιστες ή έστω τις καλές στοιχίσεις. 4. Η στατιστική μέθοδος που θα αξιολογήσει τη σημασία των βαθμολογιών που έλαβαν οι στοιχίσεις. 1. Σ.τ.μ.: Ο όρος «σχετίζονται» υπονοεί ότι οι δύο αλληλουχίες είναι παρόμοιες σε βαθμό που δεν μπορεί να θεωρηθεί τυχαίο γεγονός. Κατά συνέπεια, έχουν κάποια συγγένεια πολύ πιθανό μια κοινή προγονική αλληλουχία, η οποία κατά την εξέλιξη έδωσε δύο ή περισσότερους διαφορετικούς απογόνους. 2. Σ.τ.μ.: Γενικά μιλώντας, «στοίχιση αλληλουχιών» σημαίνει να τοποθετήσουμε τις αλληλουχίες παράλληλα μεταξύ τους, με τα γράμματά τους σε αντιστοιχία ένα προς ένα. Ανάλογα με τους κανόνες που θέτουμε, επιτρέπεται: (α) οι αλληλουχίες να μην «ξεκινούν» ταυτόχρονα, (β) να εισαχθούν κενά (χάσματα, ασυνέχειες) σε διάφορα σημεία μέσα στις αλληλουχίες. Για την καταγραφή των κενών συνήθως χρησιμοποιούμε παύλες ( ). 18
2.1. Εισαγωγή 19 (α) (β) (γ) Εικόνα 2.1 Τρεις στοιχίσεις της αλληλουχίας των αμινοξέων από ένα τμήμα της αλυσίδας α της ανθρώπινης αιμοσφαιρίνης. (α) Εμφανής ομοιότητα προς την αλυσίδα β της ανθρώπινης αιμοσφαιρίνης. (β) Συζητήσιμη ομοιότητα προς μια ψυχανθοσφαιρίνη του κίτρινου λούπινου (πρωτεΐνη μεταφοράς οξυγόνου). (γ) Ψευδής (τυχαία) ομοιότητα ωστόσο με υψηλή βαθμολογία προς την πρωτεΐνη F11 G11.2 ενός νηματώδους οργανισμού, η οποία είναι ομόλογη 3 με το ένζυμο S-μεταφοράση της γλουταθειόνης. Στην Εικόνα 2.1 δίνονται τρεις στοιχίσεις (α, β και γ). Σε καθεμία έχουν στοιχιστεί δύο αλληλουχίες (γι αυτό μιλάμε για «στοίχιση ανά ζεύγη»). Και στις τρεις στοιχίσεις η μία αλληλουχία (η άνω) αντιστοιχεί σε μια περιοχή της πολυπεπτιδικής αλυσίδας α της ανθρώπινης αιμοσφαιρίνης (επίσημο όνομα στην Uni-Prot: HBA-HUMAN) 4. Η μεσαία γραμμή στην κάθε στοίχιση είναι «τεχνητή»: δείχνει το αποτέλεσμα της στοίχισης. Στις θέσεις όπου τα γράμματα μεταξύ των δύο αλληλουχιών είναι ταυτόσημα τοποθετείται στη μεσαία γραμμή αυτό το γράμμα. Έτσι δηλώνεται ότι στις συγκεκριμένες 3. Σ.τ.μ.: Στη βιολογία «ομόλογος» σημαίνει παρόμοιος (ως προς κάποιον άλλον) εξαιτίας συγγένειας, εξαιτίας κοινής προγονικής καταγωγής. Για παράδειγμα, τα φτερά των νυχτερίδων, τα πόδια των σκύλων και τα χέρια των ανθρώπων είναι ομόλογα όργανα: Θεωρούνται όλα εξελικτικές προσαρμογές των μπροστινών άκρων των θηλαστικών. 4. Σ.τ.μ.: Τα γράμματα που εμφανίζονται στις στοιχίσεις αλληλουχιών από πρωτεΐνες (όπως στη συγκεκριμένη περίπτωση) αντιστοιχούν στους «κωδικούς ενός μόνο γράμματος» των 20 διαφορετικών αμινοξέων που συναντώνται στις πρωτεΐνες. Έξι ακόμα γράμματα χρησιμοποιούνται για να δηλώσουν είτε τροποποιημένα αμινοξικά κατάλοιπα είτε ομάδες κατάλοιπων είτε ότι υπάρχει άγνοια για το κατάλοιπο (βλ. στα παραρτήματα).
20 2. Στοίχιση ανά ζεύγη θέσεις οι δύο αλληλουχίες ταυτίζονται. Όταν τα γράμματα αντιστοιχούν σε αμινοξέα με παραπλήσιες φυσικοχημικές ιδιότητες, τότε στη μεσαία γραμμή τοποθετείται το σύμβολο «+». Για τις θέσεις αυτές λέμε ότι οι αλληλουχίες είναι όμοιες (ή παρόμοιες). Όταν τα γράμματα αντιστοιχούν σε αμινοξέα με διαφορετικές ιδιότητες, τότε δεν τοποθετούμε καμία ένδειξη στη μεσαία γραμμή. (Το αν δύο αμινοξέα θα θεωρηθούν παρόμοια ή όχι εξαρτάται από τον «πίνακα αντικατάστασης» που έχουμε επιλέξει για τη στοίχιση. Υπάρχουν διάφοροι πίνακες αντικατάστασης που αποδίδουν διαφορετικούς βαθμούς ομοιότητας μεταξύ των αμινοξικών κατάλοιπων, επειδή έχουν καταστρωθεί με διαφορετικά κριτήρια. Θα μιλήσουμε γι αυτούς αργότερα). Στην πρώτη στοίχιση υπάρχουν πολλές θέσεις όπου τα αντίστοιχα κατάλοιπα ταυτίζονται, σε πολλές άλλες τα κατάλοιπα είναι «λειτουργικά συντηρημένα» 5 (δηλαδή, έχουν αρκετά παρόμοιες ιδιότητες, ώστε να θεωρούμε ότι είναι περίπου ισοδύναμα από άποψη λειτουργικότητας), όπως το ζεύγος ασπαρτικού οξέος (D) και γλουταμικού οξέος (Ε) επτά θέσεις πριν το τέλος: αμφότερα είναι αμινοξέα με χαρακτηριστικό αρνητικό φορτίο. Στη δεύτερη στοίχιση βλέπουμε επίσης αντιστοιχίες που αναμένουμε ότι έχουν βιολογική σημασία, επειδή ήδη γνωρίζουμε (από άλλες πηγές) ότι οι δύο πρωτεΐνες (κατ επέκταση και οι αλληλουχίες τους) σχετίζονται εξελικτικά: Έχουν παρόμοια τρισδιάστατη δομή και επιτελούν ίδια λειτουργία, μεταφέρουν οξυγόνο. Ωστόσο, αυτή η στοίχιση έχει μικρότερες ομοιότητες από την πρώτη και σε ορισμένα σημεία παρουσιάστηκε ανάγκη να εισαχθούν κενά στην αλληλουχία της ανθρώπινης αλυσίδας α, προκειμένου να «υπερπηδηθούν» τα «παραπανίσια» αμινοξικά κατάλοιπα της ψυχανθοσφαιρίνης και να υπάρξει ξανά ταίριασμα (αντιστοίχιση) στις μετέπειτα περιοχές τους. Η τρίτη στοίχιση μας δείχνει μια αντίστοιχη εικόνα με διάσπαρτες περιοχές ταύτισης ή συντηρημένων αλλαγών. Εδώ όμως το αποτέλεσμα είναι παραπλανητικό: Οι δύο πρωτεΐνες έχουν τελείως διαφορετική δομή και λειτουργία. Η μερική ομοιότητα που παρατηρούμε είναι τυχαία. Πώς θα διαχωρίζουμε περιπτώσεις όπως αυτές των στοιχίσεων β και γ; Αυτή ακριβώς είναι η πρόκληση για τις μεθόδους της στοίχισης ανά ζεύγη! Πρέπει δηλαδή να σκεφτούμε προσεκτικά για να ορίσουμε ένα έξυπνο σύστημα 5. Σ.τ.μ.: Στην εξελικτική βιολογία «συντηρημένο» χαρακτηρίζεται κάτι, όταν έχει μεταβληθεί ελάχιστα και διατηρεί σε υψηλό βαθμό τα αρχικά του χαρακτηριστικά.
2.2 Το μοντέλο βαθμολόγησης 21 βαθμολόγησης, ώστε να αξιολογούμε τις στοιχίσεις.το επόμενο τμήμα του βιβλίου μάς εισάγει σε θέματα βαθμολόγησης στοιχίσεων και μετά ακολουθούν τμήματα με μεθόδους εύρεσης των βέλτιστων στοιχίσεων, ανάλογα με το σύστημα βαθμολόγησης. Το κεφάλαιο θα κλείσει με μια συζήτηση για τη στατιστική σημασία των εκάστοτε ταιριασμάτων και με περισσότερες λεπτομέρειες για την παραμετροποίηση των συστημάτων βαθμολόγησης. Ακόμα και με τα παραπάνω, όμως, δεν θα είναι πάντα δυνατόν να αποφαίνεσθε για το αν μια στοίχιση που δείχνει καλή οφείλεται σε πραγματική λειτουργική ή/και εξελικτική συγγένεια των αλληλουχιών ή αν είναι τυχαία. Για παράδειγμα, στην πραγματικότητα θα ήταν τρομερά δύσκολο να δειχτεί με μεθόδους στοίχισης ανά ζεύγη σημαντική ομοιότητα ανάμεσα σε ολόκληρη την ψυχανθοσφαιρίνη του λούπινου και στην αλυσίδα α της ανθρώπινης αιμοσφαιρίνης. 2.2 Το μοντέλο βαθμολόγησης Όταν συγκρίνουμε αλληλουχίες, στην ουσία αναζητούμε ενδείξεις για το αν και πόσο διαφοροποιήθηκαν από μια κοινή προγονική αλληλουχία με τους μηχανισμούς των μεταλλαγών και της φυσικής επιλογής. Οι βασικοί μηχανισμοί των μεταλλαγών είναι: (α) οι αντικαταστάσεις, κατά τις οποίες αντικαθίστανται κατάλοιπα μιας αλληλουχίας από άλλα κατάλοιπα (με αντιστοιχία ένα προς ένα) (β) οι ενθέσεις, κατά τις οποίες εισάγονται (νέα) κατάλοιπα ανάμεσα στα προϋπάρχοντα και (γ) οι απαλοιφές, κατά τις οποίες εξαφανίζονται κάποια κατάλοιπα. Μαζί οι ενθέσεις και οι απαλοιφές αναφέρονται ως κενά ή χάσματα (gaps) 6. Η φυσική επιλογή υπεισέρχεται στην εξελικτική διαδικασία ως κριτής. Ελέγχει αν οι μεταλλαγές είναι κατάλληλες για το περιβάλλον (άρα, ευνοϊκές για τον φορέα τους) ή όχι και εμποδίζει τις δεύτερες να διαιωνιστούν. Έτσι, στις επόμενες γενιές κάποιες από τις αρχικές μεταλλαγές εμφανίζονται πιο συχνά από όσο άλλες μέσα στον πληθυσμό 7. 6. Σ.τ.μ.: Αναφέρονται ως «κενά» επειδή, όταν συμβαίνουν, πρέπει να εισαχθεί ένα κενό είτε στην πρώτη είτε στη δεύτερη αλληλουχία, προκειμένου οι δύο αλληλουχίες να ταιριάζουν στη στοίχιση κατά το υπόλοιπο μέρος τους. 7. Σ.τ.μ.: Σημειώστε ότι και η τυχαιότητα αποτελεί σημαντικό παράγοντα για το ποιες αλλαγές θα διατηρηθούν και ποιες όχι. Εξαιτίας τυχαίων γεγονότων κάποιες ευνοϊκές αλλαγές χάνονται κ.λπ.
22 2. Στοίχιση ανά ζεύγη Η συνολική βαθμολογία 8 που αποδίδουμε σε μια στοίχιση είναι το άθροισμα των επιμέρους σκορ 3 για κάθε στοιχισμένο ζεύγος κατάλοιπων συν το άθροισμα των επιμέρους σκορ για τα ξεχωριστά κενά. Με βάση την πιθανοκρατική ερμηνεία, η συνολική βαθμολογία αντιστοιχεί στον λογάριθμο του λόγου της πιθανοφάνειας οι δύο αλληλουχίες να σχετίζονται προς την πιθανοφάνεια οι δύο αλληλουχίες να μη σχετίζονται (ή, πιο απλά, στον λογάριθμο της σχετικής πιθανοφάνειας οι δύο αλληλουχίες να σχετίζονται σε σύγκριση με το να μη σχετίζονται). Άτυπα μιλώντας, αναμένουμε οι ταυτίσεις και οι συντηρημένες αντικαταστάσεις να εμφανίζονται πιο συχνά στις στοιχίσεις που έχουν γίνει βάσει κανόνων παρά αν τοποθετούσαμε τυχαία παράλληλα τις αλληλουχίες και τις συγκρίναμε. Γι αυτό οι ταυτίσεις και οι συντηρημένες αντικαταστάσεις συνεισφέρουν θετικά στη βαθμολόγηση. Από την άλλη, αναμένεται οι μη συντηρημένες διαφορές να εμφανίζονται πιο σπάνια στις στοιχίσεις που έχουν γίνει βάσει κανόνων παρά στις στοιχίσεις με τυχαία εναπόθεση των αλληλουχιών. Έτσι, οι μη συντηρημένες διαφορές συνεισφέρουν αρνητικά στη βαθμολόγηση. Βέβαια, η χρήση ενός συστήματος βαθμολόγησης με προσθετικές ιδιότητες υποκρύπτει ότι αποδεχόμαστε πως οι μεταλλαγές συμβαίνουν ως ανεξάρτητα γεγονότα σε διάφορες θέσεις των αλληλουχιών και ότι εκλαμβάνουμε τα κενά οποιουδήποτε μεγέθους ως απλές μεταλλαγές. Όλοι οι αλγόριθμοι για την εύρεση βέλτιστων στοιχίσεων σε αυτό το κεφάλαιο βασίζονται σε τέτοια συστήματα βαθμολόγησης. Η αποδοχή της ανεξαρτησίας των μεταλλαγών δείχνει να είναι δικαιολογημένη για το DNA και τις πρωτεΐνες, αν και γνωρίζουμε πως για την τελική δομή των πρωτεϊνών οι αλληλεπιδράσεις ανάμεσα στα αμινοξικά κατάλοιπα έχουν πολύ μεγάλη σημασία. Σίγουρα πάντως δεν ισχύει η ανεξαρτησία για όσα μόρια RNA έχει σημασία η τρισδιάστατη δομή. Εκεί το ζευγάρωμα μεταξύ συμπληρωματικών βάσεων προκαλεί σημαντικές εξαρτήσεις σε μεγάλες αποστάσεις επάνω στην αλληλουχία. Μπορεί φυσικά οι εξαρτήσεις αυτές να ληφθούν υπόψη στους υπολογισμούς, αλλά με το κό- 8. Σ.τ.μ.: Για την απόδοση του αγγλικού όρου «score» χρησιμοποιούμε κυρίως τους όρους «βαθμολογία» και «σκορ», με προτίμηση στον όρο «βαθμολογία» όταν πρόκειται για την τιμή με την οποία βαθμολογείται ένα ταίριασμα (στοίχιση, τμήμα στοίχισης κ.λπ.) και στον όρο «σκορ» όταν αναφερόμαστε στις τιμές που περιέχει ένας πίνακας αντικατάστασης και που αποδίδονται στα ξεχωριστά στοιχισμένα ζεύγη κατάλοιπων.
2.2 Το μοντέλο βαθμολόγησης 23 στος της αύξησης της προγραμματιστικής πολυπλοκότητας. Θα αναβάλουμε λοιπόν τη συζήτηση για τη στοίχιση των RNA μέχρι το Κεφάλαιο 10. 9 Πίνακες αντικατάστασης Όπως είπαμε, χρειαζόμαστε ένα στοιχειώδες σκορ για κάθε δυνατό ζευγάρι στοιχισμένων κατάλοιπων που μπορεί να προκύψει από τη διαδικασία της στοίχισης. Ένας βιολόγος με καλή αίσθηση των κανόνων που διέπουν τις πρωτεΐνες θα μπορούσε να προτείνει έναν πίνακα με 210 διαφορετικά σκορ για τα 210 δυνατά διαφορετικά ζεύγη κατάλοιπων. Ωστόσο είναι ακόμα πιο χρήσιμο να έχουμε μια θεωρία υπόβαθρο για το τι σημαίνουν αυτά τα σκορ. Παρακάτω θα παραγάγουμε σκορ αντικατάστασης χρησιμοποιώντας ένα πιθανοκρατικό μοντέλο. Κατ αρχάς, να συμφωνήσουμε για τον φορμαλισμό και τους συμβολισμούς: Θα αναφερόμαστε σε ένα ζεύγος αλληλουχιών x και y με μήκη 10 n και m, αντίστοιχα. Το χ i θα είναι το i-στό «γράμμα» της x (δηλαδή η i-στή θέση στην αλληλουχία) και το y j το j-στό γράμμα της y. Τα γράμματα θα προέρχονται από κάποιο αλφάβητο Α στην περίπτωση του DNA το αλφάβητο αντιστοιχεί στις τέσσερις νουκλεοτιδικές βάσεις και έχει οριστεί ως το σύνολο {A, G, C, T}, ενώ στην περίπτωση των πρωτεϊνών αντιστοιχεί στα 20 αμινοξέα που βρίσκονται στις πρωτεΐνες. Θα χρησιμοποιούμε τα μικρά γράμματα του λατινικού αλφάβητου για να δηλώνουμε «γράμματα» από τα δύο αλφάβητα (για παράδειγμα: a και b). Για αρχή θα ασχοληθούμε μόνο με στοιχίσεις αλληλουχιών ίσου μήκους, χωρίς ένθεση κενών, όπως στην πρώτη στοίχιση της Εικόνας 2.1. Σε ένα στοιχισμένο ζεύγος αλληλουχιών επιθυμούμε να αποδώσουμε ένα σκορ που θα προσφέρει ένα μέτρο της σχετικής πιθανοφάνειας οι αλληλουχίες να σχετίζονται προς την πιθανοφάνεια να μη σχετίζονται (βάσει της συγκεκριμένης στοίχισης). Αυτό το πετυχαίνουμε χρησιμοποιώντας μοντέλα που δίνουν την πιθανότητα εμφάνισης της στοίχισης για καθεμία από τις δύο περιπτώσεις και κατόπιν υπολογίζουμε τον λόγο των πιθανοτήτων. 9. Σ.τ.μ.: Στο Κεφάλαιο 6 υπάρχει επίσης συζήτηση για την επίδραση της δομής στη διατήρηση της ομοιότητας των αλληλουχιών. 10. Σ.τ.μ.: Μήκος αλληλουχίας ονομάζουμε το πλήθος των (διαδοχικών) κατάλοιπων από τα οποία αποτελείται η αλληλουχία.
24 2. Στοίχιση ανά ζεύγη Το ανεξάρτητο ή τυχαίο μοντέλο R είναι το πιο απλό. Υποθέτει ότι κάθε γράμμα a εμφανίζεται ανεξάρτητα με συχνότητα q a, και έτσι η πιθανότητα εμφάνισης των δύο αλληλουχιών προκύπτει ως γινόμενο των πιθανοτήτων της εμφάνισης κάθε κατάλοιπου της κάθε αλληλουχίας χωριστά: (2.1) Στο εναλλακτικό μοντέλο ταιριάσματος, M, τα στοιχισμένα ζεύγη των κατάλοιπων προκύπτουν με την από κοινού πιθανότητα, p ab. Η τιμή p ab μπορεί να εκληφθεί ως η πιθανότητα τα κατάλοιπα a και b να έχουν προέλθει χωριστά και ανεξάρτητα από μεταλλαγές ενός (άγνωστου) προγονικού κατάλοιπου c (χωρίς να αποκλείεται το c να είναι ίδιο με το a ή το b). Για ολόκληρη τη στοίχιση προκύπτει λοιπόν η πιθανότητα:. Ο λόγος των δύο παραπάνω πιθανοφανειών είναι γνωστός ως λόγος σχετικών πιθανοτήτων (odds ratio):. Για να δημιουργήσουμε το σύστημα της προσθετικής βαθμολόγησης λογαριθμούμε τον λόγο:. (2.2) Το S ονομάζεται λογάριθμος λό\γου σχετικών πιθανοτήτων (log-odds ratio), με. (2.3) Το s(a, b) είναι λοιπόν ο λογαριθμημένος λόγος των πιθανοφανειών το ζεύγος των κατάλοιπων (a, b) να υπάρχει ως «στοιχισμένο» ζεύγος (ζεύγος κατάλοιπων με κοινό πρόγονο) ή να υπάρχει τυχαία, ως «μη στοιχισμένο» ζεύγος (ζεύγος που εμφανίστηκε εξαιτίας της συχνότητας της παρουσίας των a και b στις αλληλουχίες).
2.2 Το μοντέλο βαθμολόγησης 25 Εικόνα 2.2 Ο πίνακας αντικατάστασης BLOSUM 50. Στις τιμές των λογαριθμημένων λόγων αλλάχτηκε η κλίμακα και έγιναν στρογγυλοποιήσεις προς τους πλησιέστερους ακέραιους, για να είναι πιο αποδοτική η χρήση τους στα προγράμματα Η/Υ (βλ. Ενότητα 2.8). Η διάταξη των αμινοξικών κατάλοιπων είναι ίδια στην οριζόντια και στην κάθετη διάσταση. Έτσι: (α) Η κύρια διαγώνιος (από πάνω αριστερά προς κάτω δεξιά) αντιστοιχεί στη «θεωρητική» αντικατάσταση ενός κατάλοιπου από ίδιο κατάλοιπο. (β) Συμμετρικά της κύριας διαγωνίου βρίσκονται ζεύγη κατάλοιπων με αντίστροφη διάταξη στις δύο αλληλουχίες. Όπως είναι αναμενόμενο, με τον τρόπο που ορίστηκε το s(a, b), οι τιμές του πίνακα για τα αντίστροφα ζεύγη είναι ίσες, δηλαδή s(a, b) = s(b, a). 11 Όπως το επιθυμούσαμε, η εξίσωση (2.2) αποτελεί ένα άθροισμα ανεξάρτητων σκορ, των σκορ s(a, b) για κάθε στοιχισμένο ζεύγος κατάλοιπων. Όλα αυτά τα σκορ μπορούν να τοποθετηθούν σε έναν πίνακα. Στην περίπτωση των 11. Σ.τ.μ.: Παρατηρήστε ότι όλα τα σκορ από ζεύγη κατάλοιπων που δεν ταυτίζονται είναι μικρότερα από τα σκορ των κατάλοιπων που ταυτίζονται (σκορ της διαγωνίου). Το ίδιο συμβαίνει στους περισσότερους πίνακες αντικατάστασης. Αυτό ανατανακλά το γεγονός ότι κάθε αμινοξύ έχει μοναδικές ιδιότητες και η αντικατάστασή του είναι δύσκολα αποδεκτή από τη φυσική επιλογή.
26 2. Στοίχιση ανά ζεύγη πρωτεϊνών θα σχηματίζαμε έναν πίνακα 20 20, με τιμές s(a i, a j ) στις θέσεις i, j του πίνακα. Τα a i και a j αντιστοιχούν στα 20 αμινοξέα (σε κάθε διάσταση του πίνακα) βάσει μιας προσυμφωνημένης σειράς. Αυτός ακριβώς είναι ο πίνακας των σκορ ή, αλλιώς, ο πίνακας αντικατάστασης. Ως παράδειγμα πίνακα αντικατάστασης που προέκυψε ουσιαστικά με τον παραπάνω τρόπο, δίνεται στην Εικόνα 2.2 ο πίνακας BLOSUM 50. Αν χρησιμοποιήσουμε τις τιμές του (τα σκορ του) για να βαθμολογήσουμε την πρώτη στοίχιση στην Εικόνα 2.1, παίρνουμε μια συνολική βαθμολογία 130. Μια άλλη σειρά (ομάδα) πινάκων αντικατάστασης που χρησιμοποιούνται συχνά είναι η σειρά PAM 12. Προς το τέλος του κεφαλαίου δίνεται λεπτομερής περιγραφή για το πώς κατασκευάστηκαν οι πίνακες BLOSUM και PAM. Μια σημαντική συνέπεια των παραπάνω είναι ότι, ακόμα και αν ένας βιολόγος συνέτασσε διαισθητικά έναν συγκεκριμένο πίνακα αντικατάστασης, ο πίνακας θα υπέκρυπτε και θα αντιστοιχούσε σε συχνότητες και πιθανότητες p ab, όπως αναφέρθηκαν στην παραπάνω θεωρία [Altchul, 1991]. Κάθε πίνακας αντικατάστασης τελικά δηλώνει (με βάση κάποιες επιλεγμένες μετρήσεις) τις πιθανότητες να «συμβούν» ζεύγη ab σε πραγματικές στοιχίσεις. Άσκηση 2.1 Τα αμινοξέα D, E και K είναι φορτισμένα, ενώ τα V, I και L είναι υδρόφοβα. Πόσο είναι το μέσο σκορ αντικατάστασης όλων των δυνατών ζευγών φορτισμένων αμινοξέων στον πίνακα BLOSUM 50; Πόσο είναι το μέσο σκορ για τα υδρόφοβα; Πόσο είναι μεταξύ όλων των δυνατών ζευγών φορτισμένου-υδρόφοβου; Προτείνετε εξηγήσεις για το αποτέλεσμα που παρατηρείτε. Οι ποινές για τα κενά Θεωρούμε ότι η ανάγκη παραγωγής κενού, προκειμένου να είναι καλή η υπόλοιπη στοίχιση, οφείλει να επισείρει ποινή στη συνολική βαθμολογία της στοίχισης. Το κόστος ενός κενού μήκους g (δηλαδή έκτασης g κατάλοιπων στην 12. Σ.τ.μ.: Οι ονομασίες είναι αρκτικόλεξα: PAM: Point Accepted Mutation Αποδεκτή Σημειακή Μετάλλαξη, BLOSUM: BLOck SUbstitution Matrix Πίνακας αντικατάστασης από συντηρημένα τμήματα (blocks) αλληλουχιών.
2.2 Το μοντέλο βαθμολόγησης 27 απέναντι αλληλουχία που δεν φέρει κενό) έχει τυποποιηθεί να υπολογίζεται είτε ως γραμμική συνάρτηση (μονώνυμο 1ου βαθμού) του g: γ(g) = gd (2.4) είτε ως αφινική 13 συνάρτηση (διώνυμο 1ου βαθμού) του g: γ(g) = d (g 1)e. (2.5) Το d ονομάζεται ποινή εκκίνησης για το κενό (ή, απλά, ποινή ανοίγματος) και το e ποινή επιμήκυνσης (ή επέκτασης) του κενού. Η ποινή επιμήκυνσης e ορίζεται συνήθως λίγο μικρότερη από όσο η ποινή εκκίνησης d, δίνοντας έτσι την ευκαιρία σε εκτενείς ενθέσεις ή απαλοιφές να λάβουν μικρότερη ποινή από όσο αν χρησιμοποιούνταν η γραμμική εξίσωση (2.4) με το ίδιο d. Αυτό είναι επιθυμητό, αφού στην πράξη έχει βρεθεί ότι τα κενά λίγων κατάλοιπων εμφανίζονται περίπου το ίδιο συχνά με τα κενά ενός μόνο κατάλοιπου 14. Οι ποινές των κενών που χρησιμοποιούνται αντιστοιχούν σε πιθανοκρατικά μοντέλα στοίχισης, αν και αυτό δεν είναι τόσο ευρέως γνωστό όσο η πιθανοκρατική βάση των πινάκων αντικατάστασης. Υποθέτουμε ότι η πιθανότητα να υπάρξει ένα κενό σε μια συγκεκριμένη θέση μιας αλληλουχίας δίνεται από το γινόμενο μιας συνάρτησης, f(g), του μήκους του κενού επί τη συνδυασμένη πιθανότητα να υπάρχουν εντεθειμένα τα συγκεκριμένα κατάλοιπα στην άλλη αλληλουχία 15 : P κενού = f (g). (2.6) q xi θέση i στοκενό 13. Σ.τ.μ.: Αφινική (affine) ή, αλλιώς, αγχίγραμμη σχέση παρουσιάζουν δύο ποσότητες, x, y, όταν y = αx+β, με α και β 0. 14. Σ.τ.μ.: Σε στενά συντηρημένες αλληλουχίες (πρωτεϊνών ή DNA) είναι σχετικά εύκολο να κάνουμε στοίχιση «με το μάτι». Σε τέτοιες στοιχίσεις έχουν παρατηρηθεί απαλοιφές και ενθέσεις με ποικιλία μηκών. Θεωρούμε ότι αυτό μαρτυρεί: (α) πως μεταξύ των δύο συγγενικών αλληλουχιών κάποια έχασε ή κάποια κέρδισε ένα ολόκληρο τμήμα με ένα μόνο εξελικτικό βήμα (μία μεταλλαγή) ή/και (β) πως, ύστερα από μια πρώτη ένθεση, οι πιθανές επόμενες, διαδοχικές ενθέσεις (που αθροίζονται στην ίδια περιοχή) είναι πιο ανεκτές λειτουργικά (και εξελικτικά) από όσο είναι η πρώτη. 15. Σ.τ.μ.: Οι τιμές q x αναφέρονται προφανώς στα κατάλοιπα της άλλης αλληλουχίας της στοίχισης, η οποία έχει κατάλοιπα στην περιοχή του χάσματος.
28 2. Στοίχιση ανά ζεύγη Το γεγονός ότι, για να πάρουμε την Ρ κενού, πολλαπλασιάζουμε τη συνάρτηση f(g) επί τους όρους q xi αντανακλά την παραδοχή μας ότι το μήκος ενός κενού στη μια αλληλουχία δεν συσχετίζεται με το ποια συγκεκριμένα κατάλοιπα περιέχονται στην άλλη αλληλουχία. Οι φυσικές τιμές για τις συχνότητες q a είναι οι ίδιες με εκείνες που χρησιμοποιήθηκαν στο τυχαίο μοντέλο, αφού και οι δύο αντιστοιχούν σε ανεξάρτητα, μη ταιριασμένα κατάλοιπα. Αν διαιρέσουμε με την πιθανότητα να υπάρχει αυτή η περιοχή προκειμένου να σχηματίσουμε τον λόγο των σχετικών πιθανοτήτων και σε συμφωνία με το τυχαίο μοντέλο, οι όροι q xi απαλείφονται και έτσι απομένει ένας μόνο όρος, εξαρτημένος από το μήκος: γ(g) = log(f(g)). Δηλαδή, οι ποινές των κενών αντιστοιχούν στη λογαριθμημένη πιθανότητα να υπάρχει κενό με τέτοιο μήκος. Από την άλλη μεριά, αν υπάρχει ένδειξη για διαφορετική κατανομή των κατάλοιπων της άλλης αλληλουχίας στις περιοχές των κενών, τότε για κάθε κατάλοιπο πρέπει να καθοριστεί ειδικό σκορ για τη συμμετοχή του σε κενά, το οποίο να ισούται με τον λογάριθμο του λόγου της συχνότητας εμφάνισης του κατάλοιπου σε κενά προς τη συχνότητα εμφάνισης του κατάλοιπου στις περιοχές χωρίς κενά. Αυτό θα συνέβαινε, για παράδειγμα, αν αποδεικνυόταν ότι στις στοιχίσεις τα πολικά αμινοξέα εμφανίζονται με μεγαλύτερες συχνότητες στα κενά από όσο εμφανίζονται γενικά μέσα στις αλληλουχίες. Κάτι τέτοιο θα μπορούσε να δικαιολογηθεί, αν υποθέσουμε ότι τα κενά αντιστοιχούν πιο συχνά στους βρόχους των πολυπεπτιδικών αλυσίδων, οι οποίοι με τη σειρά τους βρίσκονται συχνότερα στην επιφάνεια της πρωτεΐνης (άρα, τους ταιριάζει να είναι υδρόφιλοι/πολικοί) παρά θαμμένοι στον πυρήνα. Άσκησεις 2.2 Δείξτε ότι οι κατανομές πιθανοτήτων f(g) που αντιστοιχούν στις συναρτήσεις γραμμικής (2.4) και αφινικής (2.5) μορφής είναι αμφότερες γεωμετρικές κατανομές του τύπου f(g) = ke λg. 2.3 Στην πράξη, οι τυπικές τιμές που χρησιμοποιούνται για τις ποινές σφαλμάτων είναι η d = 8 για τη γραμμική μορφή και οι d = 12 και e = 2 για την αφινική μορφή, αμφότερες εκφρασμένες ως μισά bits. Για να εκφράσουμε σε μονάδες bits μια πιθανότητα, εξάγουμε τον λογάριθμό της με βάση το 2. Έτσι, με αλλαγή βάσης προς φυσικό λο-
2.3 Αλγόριθμοι στοίχισης 29 γάριθμο, οι τιμές των ποινών εκφρασμένες σε ολόκληρα bits γίνονται 16 : d' = (8 log2)/2 και d = (12 log2)/2, e = (2 log2)/2. 17 Ποιες είναι οι αντίστοιχες πιθανότητες για την ύπαρξη κενού (οσουδήποτε μήκους) και ποιες είναι οι κατανομές μηκών του κενού, με δεδομένο ότι υφίσταται κενό; 2.4 Χρησιμοποιώντας τον πίνακα BLOSUM50 της Εικόνας 2.2 και αφινικές ποινές κενού d = 12 και e = 2, υπολογίστε τις βαθμολογίες των στοιχίσεων των Εικόνων 2.1β και 2.1γ. [Ίσως γνωρίζετε ότι ο BLOSUM50 παρουσιάζει κλιμάκωση με μονάδα = ⅓ bit. Το να χρησιμοποιήσετε ποινές 12 και 2, μαζί με τα σκορ του BLOSUM50, θα οδηγήσει σε διαφορετικές πιθανότητες για την εκκίνηση και την επιμήκυνση ενός κενού, σε σχέση με αυτές που βρήκατε στην προηγούμενη άσκηση, όπου δεχόμασταν ότι οι ποινές ήταν εκφρασμένες σε μονάδες του μισού bit. Οι διάφορες τιμές ποινών για τα κενά είναι βελτιστοποιημένες για κάθε διαφορετικό πίνακα (όπως είναι άλλωστε και οι τιμές αντικατάστασης στους πίνακες), εν μέρει επειδή οι διάφοροι πίνακες χρησιμοποιούν διαφορετικό συντελεστή αναπροσαρμογής (βλ. Ενότητα 2.8) και εν μέρει επειδή κάθε πίνακας είναι φτιαγμένος να αντιστοιχεί και να εντοπίζει διαφορετικό επίπεδο εξελικτικής απόκλισης ανάμεσα στις αλληλουχίες.] 2.3 Αλγόριθμοι στοίχισης Έχοντας πλέον ένα σύστημα βαθμολόγησης, χρειαζόμαστε έναν αλγόριθμο για να βρίσκει τη βέλτιστη στοίχιση μεταξύ δύο αλληλουχιών, τη στοίχιση δηλαδή που λαμβάνει τη μέγιστη συνολική βαθμολογία. Αν και οι δύο αλληλουχίες έχουν το ίδιο μήκος n, υπάρχει μόνο ένα «πλήρες» ταίριασμα (κατάλοιπο προς κατάλοιπο) ολόκληρων των αλληλουχιών. Τα πράγματα όμως περιπλέκονται εφόσον επιτραπεί η δημιουργία κενών ή εφόσον αρχίσουμε να αναζητούμε καλά στοιχισμένα τμήματα (υποαλληλουχίες) από τις συνολικές αλληλουχίες. 16. Σ.τ.μ.: Βλ. Επίμετρο, Β 1.2. 17. Σ.τ.μ.: Ακολουθήσαμε την επιλογή του πρωτότυπου κειμένου και συμβολίζουμε τους φυσικούς λογάριθμους με log, σε όλη την έκταση του βιβλίου. Στις περιπτώσεις που πρόκειται για λογάριθμο με άλλη βάση, η βάση αναγράφεται.
30 2. Στοίχιση ανά ζεύγη Αν επιτραπεί η εισαγωγή κενών σε δύο αλληλουχίες μήκους n, μπορούν να σχηματιστούν μεταξύ τους 18 (2.7) διαφορετικές ολικές 19 στοιχίσεις. Είναι προφανές ότι τέτοιος όγκος συνδυασμών δεν μπορεί να αντιμετωπιστεί από άποψη χρόνου εκτέλεσης ενός προγράμματος Η/Υ, ακόμα για μικρές τιμές του n. Η μέθοδος για να βρεθούν οι σχετικά καλύτερες στοιχίσεις, όταν διαθέτουμε ένα προσθετικό σύστημα βαθμολόγησης όπως αυτά που προαναφέραμε, είναι ο δυναμικός προγραμματισμός. Οι αλγόριθμοι δυναμικού προγραμματισμού είναι ζωτικοί για την υπολογιστική ανάλυση αλληλουχιών. Σε όλα τα υπόλοιπα κεφάλαια του βιβλίου, εκτός από το τελευταίο όπου καλύπτονται οι μαθηματικές μέθοδοι, γίνεται χρήση αλγόριθμων δυναμικού προγραμματισμού. Οι πιο απλοί στην κατανόηση αλγόριθμοι δυναμικού προγραμματισμού για τη στοίχιση αλληλουχιών είναι οι αλγόριθμοι στοίχισης ανά ζεύγη. Ο αναγνώστης θα πρέπει να βεβαιωθεί ότι κατανοεί αυτό το κεφάλαιο, γιατί θέτει βάσεις για το σύνολο του βιβλίου. Οι αλγόριθμοι δυναμικού προγραμματισμού είναι εγγυημένο ότι βρίσκουν τη στοίχιση με τη βέλτιστη βαθμολογία ή μια ομάδα στοιχίσεων με τις καλύτερες βαθμολογίες. Στις περισσότερες περιπτώσεις έχουν αναπτυχθεί και ευριστικές μέθοδοι (heuristics) για να εκτελούν την ίδια εργασία. Καταφέρνουν να είναι ιδιαίτερα γρήγορες, όμως κάνουν πρόσθετες παραδοχές. Έτσι, σε κάποια ζεύγη αλληλουχιών χάνουν τη βέλτιστη στοίχιση. Θα συζητήσουμε με συντομία μερικές προσεγγίσεις στην ευριστική αναζήτηση παρακάτω στο κεφάλαιο. 18. Σ.τ.μ.: Εφόσον επιτραπεί στις δύο αλληλουχίες να μην έχουν ταυτόχρονη έναρξη και λήξη στη στοίχιση (δηλαδή, να εισάγονται ακριανά κενά χωρίς περιορισμό μήκους), οι δυνατοί συνδυασμοί είναι πολύ περισσότεροι. 19. Σ.τ.μ.: Ολική (global) χαρακτηρίζεται η στοίχιση κατά την οποία γίνεται προσπάθεια να στοιχιστούν κατά το δυνατόν στο σύνολό τους και οι δύο αλληλουχίες. Χαρακτηριστικά αυτής της στοίχισης είναι πως, όταν οι αλληλουχίες έχουν περίπου ίσο μήκος, και τα δύο άκρα τους ξεκινούν και καταλήγουν περίπου μαζί στη στοίχιση (δεν «περισσεύουν» μεγάλα ακριανά χάσματα). Οι δύο στοιχισμένες αλληλουχίες δίνουν λίγο πολύ την εικόνα ότι «προχωρούν» παράλληλα. Τοπική (local) χαρακτηρίζεται η στοίχιση στην οποία γίνεται προσπάθεια να εντοπιστούν τμήματα, σχετικά μικρού μεγέθους, οπουδήποτε μέσα στις δύο αλληλουχίες τα οποία ταιριάζουν μεταξύ τους σε υψηλό βαθμό. Τα προγράμματα τοπικής στοίχισης δίνουν στην έξοδό τους πολλές τέτοιες στοιχίσεις ανεξάρτητες μεταξύ τους (με πρωθύστερα, επικαλύψεις κ.λπ.).
2.3 Αλγόριθμοι στοίχισης 31 Επειδή το σύστημα βαθμολόγησης που εισαγάγαμε ακολουθεί το σχήμα της λογαρίθμησης ενός λόγου πιθανοτήτων, οι καλύτερες στοιχίσεις θα λαμβάνουν υψηλότερες βαθμολογίες. Άρα εμείς κατά την αναζήτησή μας επιθυμούμε να βρίσκουμε όλο και μεγαλύτερες βαθμολογίες, έως ότου φτάσουμε στη βέλτιστη στοίχιση. Κάποιες φορές, ωστόσο, οι βαθμολογήσεις θα αναφέρονται σε άλλες έννοιες και θα αποδίδονται με τους όρους κόστος (costs) ή απόσταση διορθώσεων (edit distances). Στις περιπτώσεις αυτές θα επιζητούμε να μειώσουμε το κόστος κατά τις διαδοχικές στοιχίσεις. Και οι δύο προσεγγίσεις έχουν χρησιμοποιηθεί στη σύγκριση των βιολογικών αλληλουχιών. Ο δυναμικός προγραμματισμός εφαρμόζεται και στις δύο περιπτώσεις, η διαφορά είναι μια απλή αλλαγή, από αναζήτηση αύξησης σε αναζήτηση μείωσης. Θα παρουσιάσουμε τέσσερις βασικούς τύπους στοίχισης. Από εκεί και πέρα, ο τύπος στοίχισης που θα προτιμάμε θα εξαρτάται από την πηγή των αλληλουχιών που καλούμαστε να στοιχίσουμε κάθε φορά. Κάθε τύπος εξυπηρετείται από έναν λίγο διαφορετικό αλγόριθμο δυναμικού προγραμματισμού. Σε αυτό το κεφάλαιο θα περιγράψουμε μόνο τη στοίχιση ανά ζεύγη. Τα κενά θα επιτρέπονται και θα λαμβάνουν ποινές με γραμμική αύξηση d για κάθε επιπλέον επιμήκυνσή τους κατά ένα κατάλοιπο. Οι αλγόριθμοι πάντως που θα παρουσιάσουμε στην αρχή θα επεκταθούν εύκολα πιο κάτω, για να εξυπηρετούν πιο περίπλοκα μοντέλα ποινών για τα κενά. Για να δείχνουμε με παραδείγματα τις διάφορες μεθόδους, θα υιοθετήσουμε δύο αμινοξικές αλληλουχίες, τις οποίες και θα στοιχίζουμε, τη HEAGAWGHEE και την PAWHEAE. Για την ώρα θα χρησιμοποιούμε τα σκορ στοίχισης του BLOSUM 50 και ποινή με κόστος d = 8 για κάθε αμινοξικό κατάλοιπο που βρίσκεται σε κενό 20. 20. Σ.τ.μ.: Παρατηρήστε ότι η τιμή του d δίνεται εδώ αρνητική, ενώ στην άσκηση 2.3 δόθηκε θετική. Θα συναντήσετε και αλλού την ίδια αναντιστοιχία, για παράδειγμα, στις προτεινόμενες προεπιλεγμένες τιμές των ποινών σε διάφορα διαδικτυακά προγράμματα στοίχισης αλληλουχιών. Αυτό που έχει σημασία είναι το εξής: Για την τελική βαθμολογία της στοίχισης τα επιμέρους σκορ από τον πίνακα αντικατάστασης πρέπει να αθροίζονται, ενώ οι απόλυτες τιμές των ποινών πρέπει να αφαιρούνται. Τα σκορ αντικατάστασης αθροίζονται το ένα μετά το άλλο στην υπό κατασκευή βαθμολογία, αφού δείχνουν πόσο καλά ταιριάζει ή δεν ταιριάζει ένα αμινοξύ με ένα άλλο αμινοξύ. Οι τιμές ποινής έχουν αρνητική συνεισφορά: Η ύπαρξη των κενών πάντοτε μειώνει αριθμητικά την υπό κατασκευή βαθμολογία. Οπότε, είτε ορίζουμε τις τιμές τους θετικές και τις αφαιρούμε από την υπό κατασκευή βαθμολογία είτε τις θεωρούμε αρνητικές και τις προσθέτουμε στην υπό κατασκευή βαθμολογία.
32 2. Στοίχιση ανά ζεύγη Εικόνα 2.3 Πίνακας που αντιστοιχεί στις δύο αλληλουχίες που θα χρησιμοποιούμε για να μελετήσουμε τους αλγόριθμους δυναμικού προγραμματισμού για στοίχιση. Η τιμή αντικατάστασης για κάθε ζευγάρι αμινοξικών κατάλοιπων λήφθηκε από τον πίνακα BLOSUM 50 (Εικόνα 2.2). Οι θετικές τιμές δείχνονται με τονισμένα γράμματα. Η Εικόνα 2.3 δίνει τον πίνακα s ij με τα σκορ αντικατάστασης s(x i, y j ) για όλα τα πιθανά ζεύγη που θα μπορούσαν να σχηματίσουν τα κατάλοιπα των δύο αλληλουχιών. Όταν στοιχίζονται ταυτόσημα ή συντηρημένα κατάλοιπα, το σκορ είναι θετικό και δίνεται τονισμένο. Γενικά μιλώντας, ο αλγόριθμος πρέπει να τείνει να φτάσει σε μια στοίχιση που να ενσωματώνει όσο γίνεται περισσότερα θετικά σκορ και όσο γίνεται λιγότερα αρνητικά. Στα τελευταία συνυπολογίζονται και οι ποινές των κενών. Άσκησεις 2.5 Αποδείξτε ότι το πλήθος των δυνατών συνδυασμών για να συγχωνεύσετε δύο ανεξάρτητες αλληλουχίες με μήκη n και m, σε μια συνολική αλληλουχία μήκους n+m, χωρίς όμως να αλλάξετε την αρχική σειρά n+ m των κατάλοιπων από την κάθε αλληλουχία, είναι ίσο με. m 2.6 Υποθέστε ότι ένας αλγόριθμος στοίχισης δεν επιτρέπει ένθεση κενού στη δεύτερη αλληλουχία μετά την ένθεση ενός κενού στην πρώτη αλληλουχία. Έτσι, μπορούν να προκύψουν στοιχίσεις όπως οι ABC/A-C 21 21. Σ.τ.μ.: Η γραφή ABC / A-C είναι ένας απλοποιημένος τρόπος αναπαράστασης της στοίχισης ABC. A C
2.3 Αλγόριθμοι στοίχισης 33 και A-CD/AB-D αλλά όχι η AB-D/A-CD 22. (Αυτή είναι μια δικλείδα ασφαλείας γιατί, αν επιτρεπόταν η ένθεση απεριόριστων κενών και στις δύο αλληλουχίες, τότε οι περιοχές με φτωχό ταίριασμα θα παρουσίαζαν πολλές δυνατές στοιχίσεις με πολλά κενά εντός τους και βαθμολογικά ισοδύναμες, χωρίς να κερδίζεται ουσιαστική πληροφορία (Για παράδειγμα, ABB--D/A--CCD, AB-B-D/A-C-CD, AB--BC/A-CC-D κ.λπ.) Φτιάξτε μια τέτοια υποθετική στοίχιση δύο αλληλουχιών, μετά επιλέξτε κατ εναλλαγή, ένα παρά ένα, τα κατάλοιπα (ή τα κενά) από τις δύο αλληλουχίες, κατόπιν αφαιρέστε τα κενά και δείξτε ότι υπάρχει αντιστοιχία των κατάλοιπων ένα προς ένα μεταξύ των δυνατών στοιχίσεων των αλληλουχιών χωρίς κενά και των δυνατών συγχωνεύσεων των αλληλουχιών που περιγράφηκαν στην προηγούμενη άσκηση. Αποδείξτε επίσης το πρώτο μέρος της εξίσωσης 2.7. 2.7 Χρησιμοποιήστε την εξίσωση του Stirling για να αποδείξετε το δεύτερο μέρος της εξίσωσης 2.7. Ολική στοίχιση: Ο αλγόριθμος Needleman-Wunsch Το πρώτο πρόβλημα από αυτά που θα καταπιαστούμε είναι η βέλτιστη ολική στοίχιση δύο αλληλουχιών, με επιτρεπτή την ένθεση κενών. Στην επιστήμη της ανάλυσης των βιολογικών αλληλουχιών ο σχετικός αλγόριθμος δυναμικού προγραμματισμού είναι ο αλγόριθμος Needleman-Wunsch [Needleman & Wunsch, 1970], εμείς όμως θα εξετάσουμε μια πιο ισχυρή εκδοχή του, την οποία εισήγαγε ο Gotoh [1982]. Η κεντρική ιδέα είναι να χτίσουμε την τελική βέλτιστη στοίχιση χρησιμοποιώντας προηγούμενες βέλτιστες στοιχίσεις από μικρότερα τμήματα των αλληλουχιών. Για αρχή φτιάχνουμε έναν πίνακα F, διαστάσεων n+1 m+1 (γραμμές στήλες), όπου n και m είναι τα μήκη των δύο αλληλουχιών, x και y. Όπως κάναμε πιο πάνω, τους δείκτες για την κάθε αλληλουχία τούς ονομάζουμε i και j, στον πίνακα όμως η αρίθμησή τους θα ξεκινάει από το 0 (π.χ.: 0, 1, 2,..., n 1, n). Έτσι, για παράδειγμα, το x 3 θα είναι το τρίτο γράμμα της αλληλουχίας και θα αντιστοιχεί στην τέταρτη στήλη του F. Κα- 22. Σ.τ.μ.: Λάβετε υπόψη ότι η (τελική) διαδικασία της στοίχισης δύο αλληλουχιών ξεκινάει από το τέλος τους (από τα δεξιά άκρα).
34 2. Στοίχιση ανά ζεύγη θώς θα συμπληρώνουμε τον πίνακα, σε κάθε κελί F(i, j) θα τοποθετείται η βέλτιστη βαθμολογία από τη στοίχιση των τμημάτων x 1... x i και y 1...y j των δύο αλληλουχιών, δηλαδή των τμημάτων από την αρχή των αλληλουχιών (πρώτο γράμμα αριστερά) ως τις θέσεις i και j, αντίστοιχα. Ο πίνακας εκτός από το πρώτο κελί θα συμπληρωθεί αναδρομικά (recursively): Η τιμή κάθε κελιού θα είναι συνάρτηση των τιμών άλλων κελιών που έχουν ήδη συμπληρωθεί. Η συνάρτηση που χρησιμοποιείται ονομάζεται «σχέση αναδρομής» (recurrence relation). Πρώτα θέτουμε F(0, 0) = 0. Έπειτα συμπληρώνουμε τα κελιά της πρώτης γραμμής και της πρώτης στήλης και μετά όλα τα υπόλοιπα κελιά από αριστερά προς τα δεξιά και από πάνω προς τα κάτω. Ας εξετάσουμε πρώτα τη βαθμολόγηση για ένα κελί F(i, j) με i > 0 και j > 0, δηλαδή για ένα κελί που βρίσκεται εκτός της πρώτης σειράς και της πρώτης στήλης. Δεδομένου ότι θα κινούμαστε από τα αριστερά προς τα δεξιά και από επάνω προς τα κάτω, τα κελιά F(i 1, j 1), F(i 1, j) και F(i, j 1) θα έχουν ήδη υπολογιστεί πριν από το F(i, j), άρα μπορούμε να υπολογίσουμε το F(i, j) βάσει εκείνων. Δηλαδή, κατά τη διαδρομή της η στοίχιση θα μπορούσε να φτάσει στο F(i, j) από καθένα από τα άλλα τρία κελιά. Ανάλογα με το κελί, θα υποδηλωνόταν διαφορετικό ταίριασμα μεταξύ των αλληλουχιών και η βαθμολογία θα μεταβαλλόταν διαφορετικά: (α) Άφιξη από το κελί F(i 1, j 1). Αυτό σημαίνει ότι στις αλληλουχίες το σύμβολο (κατάλοιπο) x i στοιχίζεται με το σύμβολο y j. Σε αυτή την περίπτωση, η βαθμολογία θα διαμορφωθεί ως εξής: F(i, j) = F(i 1, j 1) + s(x i, y j ). (β) Άφιξη από το κελί F(i 1, j). Αυτό σημαίνει ότι στις αλληλουχίες το σύμβολο x i της αλληλουχίας x στοιχίζεται με κενό το οποίο εντίθεται στην αλληλουχία y. Η βαθμολογία θα διαμορφωθεί ως εξής: F(i, j) = F(i 1, j) d. (γ) Άφιξη από το κελί F(i, j 1). Το σύμβολο y j της αλληλουχίας y στοιχίζεται με κενό που εντίθεται στην αλληλουχία x. Η βαθμολογία θα διαμορφωθεί ως εξής: F(i, j) = F(i, j 1) d 1 23. 23. Σ.τ.μ.: Σημειώστε ότι τα κενά που εντίθενται στην αλληλουχία δεν συμμετέχουν στο σύστημα αύξουσας αρίθμησης των δεικτών i και j. Έτσι, αν σε μια αλληλουχία δύο κατάλοιπα uv είναι το i-στό και το (i+1)-στό, θα συνεχίσουν να θεωρούνται το i-στό και το (i+1)-στό, ακόμα και αν εισαχθεί κενό οποιουδήποτε μήκους ανάμεσά τους κατά τη στοίχιση. Στη στοίχιση των αλληλουχιών ένα κατάλοιπο ας πούμε της αλληλουχίας y το οποίο ακολουθείται από κενό «αναφέρεται» ως στοιχισμένο με τα κατάλοιπα της αλληλουχίας x, ξεκινώντας από
2.3 Αλγόριθμοι στοίχισης 35 Τελικά, για το κελί F(i, j) επιλέγεται η μεγαλύτερη από τις τρεις βαθμολογίες. Συνολικά, δηλαδή, εφαρμόζεται η συνάρτηση: (2.8) Η τιμή s( x, y ) λαμβάνεται από τον πίνακα αντικατάστασης που έχουμε i j επιλέξει για τη στοίχιση. Η διαδικασία λοιπόν ανιχνεύει ποια είναι η διαδρομή με τη μεγαλύτερη βαθμολογία έως το τρέχον κελί (i, j), το οποίο εξετάζεται. Τα παραπάνω φαίνονται επίσης στην Εικόνα 2.4 και στην εικόνα πιο κάτω. Εικόνα 2.4 Οι τρεις τρόποι με τους οποίους μια στοίχιση μπορεί να επεκταθεί έως το κελί (i, j): Το x i στοιχίζεται με το y i, το x i στοιχίζεται με ένα κενό, το y i στοιχίζεται με ένα κενό 24. Ας δούμε τώρα τι γίνεται σε οριακές συνθήκες, δηλαδή όταν υπολογίζουμε τη βαθμολογία για τα κελιά της πρώτης γραμμής και της πρώτης στήλης. Στην πρώτη γραμμή είναι j = 0, οπότε οι τιμές F(i, j 1) και F(i 1, j 1) δεν ορίζονται. Έτσι, για την τιμή F(i, 0) πρέπει να υπάρξει ειδικός χειρισμός. Στην πραγματικότητα, τα κελιά (i, 0) αντιστοιχούν σε στοιχίσεις κατάλοιπων της το κατάλοιπο με το οποίο πραγματικά βρίσκεται ταιριασμένο έως το κατάλοιπο της x που βρίσκεται απέναντι από την τελευταία θέση του κενού. Για παράδειγμα, στη στοίχιση ABCD/U--V, το κατάλοιπο U αναφέρεται ως στοιχισμένο με τα κατάλοιπα ABC της άλλης αλληλουχίας. Αντίστοιχα, ο αλγόριθμος αθροίζει τιμές ποινής για όλα τα διαδοχικά ταιριάσματα των κατάλοιπων της αλληλουχίας x με τις κενές θέσεις της y: Έτσι υπολογίζεται η (συνολική) ποινή για ολόκληρο το μήκος του κενού. 24. Σ.τ.μ.: Ένα άλλο, πιο απλό παράδειγμα είναι το εξής: Από τη στοίχιση ABC (i-1) / ABC (i-1), τα τρία δυνατά επόμενα βήματα είναι: ABC (i-1) X i / ABC (i-1) Y j, ABC (i-1) X i / ABC (i-1) -, ABC (i-1) - / ABC (j-1) Y j.
36 2. Στοίχιση ανά ζεύγη Εικόνα 2.5 Επάνω: Ο συνολικός πίνακας του δυναμικού προγραμματισμού για τις αλληλουχίες του παραδείγματός μας. Τα βέλη αναπαριστούν τους δείκτες, οι οποίοι υποδεικνύουν την ανάστροφη πορεία της στοίχισης. Τα τονισμένα (παχιά) βέλη μαρτυρούν τη βέλτιστη διαδρομή από το τελευταίο (κάτω δεξιά) έως το πρώτο (πάνω αριστερά) κελί. (Στις «εκφυλισμένες» καταστάσεις, δηλαδή στα κελιά που προέκυψαν δύο ή τρεις ισοδύναμες βέλτιστες τιμές κατά τον υπολογισμό της βαθμολογίας, επιλέξαμε να δίνουμε ένα μόνο βέλος, για απλοποίηση του σχήματος.) Κάτω: Η αντίστοιχη ολική στοίχιση, με συνολική βαθμολογία ίση με 1. αλληλουχίας x με ένα συνεχές υποθετικό κενό εισηγμένο στην αλληλουχία y πριν το πρώτο της κατάλοιπο. Μπορούμε να πούμε λοιπόν ότι F(i, 0) = id. (Θυμηθείτε ότι χρησιμοποιούμε την ίδια ποινή κενού, d, για την έναρξη και την επιμήκυνση του κενού). Αντίστοιχα, για τα κελιά της πρώτης στήλης, (0, j), τα σκορ θα γίνουν: F(0, j) = jd. Κάθε φορά που αποφασίζουμε τη βαθμολογία για ένα κελί, (i, j), πρέπει να τοποθετούμε έναν δείκτη, ο οποίος θα δηλώνει ποιο προηγούμενο κελί χρησιμοποιήθηκε για τον υπολογισμό της τιμής F(i,j). Γραφικά, αυτό το αποδίδουμε με ένα βέλος. Για παράδειγμα, αν η συνάρτηση 2.8 έδωσε για το κελί (i, j) τη βαθμολογία F(i, j 1) d, τότε το βέλος θα ξεκινάει από το κελί (i, j) και θα καταλήγει στο «από πάνω» κελί (i, j 1). Η αλληλουχία των βελών θα μας δείχνει λοιπόν τη διαδρομή που ακολούθησε η βέλτιστη στοίχιση από το κελί πάνω αριστερά έως το κελί κάτω δεξιά (βλ. Εικόνα 2.5).
2.3 Αλγόριθμοι στοίχισης 37 Κάποιες φορές, δύο από τις τρεις δυνατές παραγόμενες βαθμολογίες θα είναι ίσες μεταξύ τους και μεγαλύτερες από την τρίτη, ή ακόμα και οι τρεις βαθμολογίες θα είναι ίσες μεταξύ τους. Σε αυτές τις περιπτώσεις πρέπει να τοποθετούμε δύο ή τρεις δείκτες, αντίστοιχα. Αυτά τα σημεία δηλώνουν ότι έχουμε δύο ή τρεις ισοδύναμα καλές στοιχίσεις (από άποψη βαθμολογίας), τουλάχιστον έως εκείνη τη θέση στοίχισης. Η τιμή στο τελευταίο κελί του πίνακα F(n, m) είναι εξ ορισμού η βέλτιστη βαθμολογία για τη στοίχιση των x 1... n και y 1...m, άρα είναι αυτό που τελικά ζητούσαμε: η βαθμολογία για τη βέλτιστη στοίχιση ολόκληρων των αλληλουχιών x και y. Για την ανασύσταση της στοίχισης πρέπει να εντοπίσουμε τη διαδρομή των βέλτιστων επιλογών (που παρήχθησαν από τη συνάρτηση 2.8) οι οποίες οδήγησαν στο κελί (n, m). Η διαδικασία ονομάζεται αναστροφή ή ιχνηλασία προς τα πίσω (traceback): Χτίζουμε τη στοίχιση των δύο αλληλουχιών αντίστροφα, ξεκινώντας από το τελευταίο κελί και ακολουθώντας τον δείκτη που αποθηκεύσαμε σε κάθε κελί. Από κάθε κελί (i, j) οδηγούμαστε σε ένα από τα κελιά (i 1, j 1), (i 1, j) ή (i, j 1), από το οποίο προήλθε η τιμή F(i, j). Σε κάθε βήμα καταγράφουμε ένα σύμβολο (ένα γράμμα/κατάλοιπο ή ένα κενό) για την κάθε αλληλουχία (προχωρώντας από τα δεξιά προς τα αριστερά των αλληλουχιών): x i και y i αν το βήμα οδηγεί προς το κελί (i 1, j 1), x i και το σύμβολο του κενού () αν το βήμα οδηγεί στο κελί (i 1, j), και το σύμβολο του κενού και y i αν το βήμα οδηγεί στο κελί (i, j 1). Το τελευταίο βήμα θα οδηγήσει στο πρώτο κελί του πίνακα, με i = j = 0. Για το βήμα αυτό δεν χρειάζεται να κάνουμε καμία καταγραφή. Παράδειγμα της διαδικασίας δίνεται στην Εικόνα 2.5. Βέβαια, η ανάστροφη πορεία που παρουσιάστηκε παραπάνω προϋποθέτει ότι από κάθε κελί ξεκινάει μόνο ένα βέλος (δείκτης), δηλαδή κατά τη βαθμολόγηση υπήρχε μία μόνο μέγιστη βαθμολογία για κάθε κελί. Στις πραγματικές στοιχίσεις αρκετές φορές παρουσιάζονται δύο ή τρεις ισότιμες μέγιστες βαθμολογίες, οπότε θα έχουν τοποθετηθεί δύο ή τρεις δείκτε, αντίστοιχα. Τότε, στην ανάστροφη πορεία παρουσιάζονται σε κάθε τέτοιο κελί δύο ή τρεις ισοδύναμες επιλογές. Μια λύση είναι να επιλεγεί αυθαίρετα ή τυχαία μία από αυτές. Συνήθως όμως προστίθενται ρουτίνες στον αλγόριθμο, ώστε να μπορεί να ανιχνεύσει και να καταγράψει όλες τις πιθανές, ισότιμες και βέλτιστες πορείες και στοιχίσεις. Το σύνολο αυτών των στοιχίσεων μπορεί να αναπαρασταθεί συνοπτικά με μια δομή γράφου των αλληλουχιών [βλ.
38 2. Στοίχιση ανά ζεύγη Altschul & Erickson, 1986 Hein, 1989a]. Θα χρησιμοποιήσουμε δομές γράφων αλληλουχιών στο Κεφάλαιο 7, όταν θα παρουσιάσουμε τον αλγόριθμο του Hein για πολλαπλές στοιχίσεις. Τελειώνοντας, ας αναφέρουμε ξανά ότι η επιτυχία του αλγόριθμου οφείλεται στο ότι η συνολική βαθμολογία φτιάχνεται ως άθροισμα ανεξάρτητων κομματιών: Η βέλτιστη βαθμολογία έως την κάθε θέση της στοίχισης προκύπτει από τη βαθμολογία της προηγούμενης θέσης συν μία μεταβολή εξαιτίας του νέου βήματος. Όμως η βαθμολογία της προηγούμενης θέσης ήταν επίσης η βέλτιστη έως εκεί κ.ο.κ. 25 Ο συμβολισμός του «μεγάλου Ο» για την πολυπλοκότητα 26 του αλγόριθμου Είναι χρήσιμο να γνωρίζουμε πόσο και πώς αυξάνεται ο υπολογιστικός χρόνος (CPU time) του Η/Υ και πόσο περισσότερη μνήμη δεσμεύεται, καθώς αυξάνεται η κλίμακα του προβλήματος που θέτουμε στον Η/Υ. Για τον παραπάνω αλγόριθμο χρειάζεται να αποθηκεύουμε (n + 1) (m + 1) αριθμούς (για τις βαθμολογίες όλων των κελιών) 27 και καθένας από τους n m από αυτούς, προκειμένου να καθοριστεί, κοστίζει ένα σταθερό ποσό υπολογισμών (τρεις προσθέσεις και τη συνάρτηση max). Λέμε λοιπόν χοντρικά ότι ο αλγόριθμος απαιτεί χρόνο Ο(nm) και μνήμη Ο(nm), με τα n και m να είναι τα μήκη των αλληλουχιών. Το «Ο(nm)» είναι παγιωμένος συμβολισμός, σημαίνει «τάξης n m» (of Order nm) και καλείται «το μεγάλο Ο» (big O) ή «το ολικό Ο». Δηλώνει ότι ο χρόνος απασχόλησης της CPU και η μνήμη που απαιτούνται κλιμακώνονται σε αναλογία προς το γινόμενο των μηκών των αλληλουχιών, n m. Επειδή συνήθως τα n και m είναι συγκρίσιμα, ο αλγόριθμος κατατάσσεται στην κατηγορία των O(n 2 ). Αλγόριθμοι με μεγάλο εκθέτη του n είναι «ασύμφοροι» για τη στοίχιση μακρών αλληλουχιών. Για 25. Σ.τ.μ.: Για να κάνετε πρακτική εκτίμηση της αποτελεσματικότητας του αλγόριθμου και της σημασίας της σχέσης της ποινής χάσματος με τα σκορ του πίνακα αντικατάστασης, στοιχίστε τις αλληλουχίες CCCA και CACC και μετά τις αλληλουχίες CCCW και CWCC χρησιμοποιώντας τον BLOSUM 50 και d = 8. Στην πρώτη περίπτωση ως βέλτιστη στοίχιση θα προκύψει η CCCA / CACC, ενώ στη δεύτερη η C-CCW / CWCC-. Αυτό δηλώνει ότι, με τις έως τώρα παρατηρήσεις, η αλανίνη (A) είναι ανεκτά παρόμοια με την κυστεΐνη (C), ενώ η τρυπτοφάνη (W) όχι. 26. Complexity στο αγγλικό κείμενο. Με τον όρο «complexity» για ένα σύστημα αναφερόμαστε είτε στο πλήθος των μερών από τα οποία αποτελείται το σύστημα (πολυπλοκότητα) είτε στο πλήθος και στη διάταξη των αλληλεξαρτήσεων/αλληλεπιδράσεων μεταξύ των μερών (περιπλοκότητα), είτε φυσικά και στα δύο. Για απλότητα, θα αποδίδουμε πάντα τον όρο ως πολυπλοκότητα. 27. Σ.τ.μ.: Στην πραγματικότητα αποθηκεύουμε περισσότερους: τους δείκτες για κάθε κελί κ.ά.
2.3 Αλγόριθμοι στοίχισης 39 τις συνηθισμένες πρωτεϊνικές αλληλουχίες στους συνηθισμένους υπολογιστές γραφείου, οι αλγόριθμοι O(n 2 ) μπορούν να εφαρμοστούν, αλλά είναι κάπως αργοί. Αλγόριθμοι του τύπου O(n 3 ) είναι πρακτικά εφαρμόσιμοι μόνο για τη στοίχιση πολύ κοντών αλληλουχιών. Άσκησεις 2.8 Βρείτε μια εναλλακτική βέλτιστη στοίχιση, με την ίδια συνολική βαθμολογία, συμπληρώνοντας όπου χρειάζεται τον πίνακα δυναμικού προγραμματισμού της Εικόνας 2.5. 2.9 Φτιάξτε τον πίνακα δυναμικού προγραμματισμού και βρείτε τη βέλτιστη στοίχιση για τις αλληλουχίες GAATTC και GATTA από DNA, βαθμολογώντας με +2 για κάθε ταίριασμα (ίδια βάση στις δύο αλληλουχίες), με 1 για κάθε ζεύγος παράταιρων βάσεων και με γραμμική ποινή κενού, d = 2. Τοπική στοίχιση: ο αλγόριθμος Smith-Waterman Ως εδώ εργαστήκαμε με την παραδοχή ότι γνωρίζαμε ποιες (δύο συγκεκριμένες) αλληλουχίες θέλαμε να στοιχίσουμε και ότι θέλαμε να πετύχουμε ένα συνολικό ταίριασμα από τη μία άκρη κάθε αλληλουχίας έως την άλλη. Πιο συνηθισμένο όμως είναι να θέλουμε να ανακαλύψουμε βέλτιστες στοιχίσεις (βέλτιστα ταιριάσματα που υπάρχουν) μεταξύ υποτμημάτων των x και y ή να θέλουμε να ανακαλύψουμε τμήματα της x που ταιριάζουν καλά με τμήματα από ένα σύνολο αλληλουχιών που βρίσκονται σε μια βάση δεδομένων. Τέτοιου τύπου αναζήτηση κάνουμε, για παράδειγμα, όταν υποπτευόμαστε ότι οι δύο πρωτεΐνες έχουν ένα πανομοιότυπο τμήμα, ενώ στο υπόλοιπό τους είναι διαφορετικές, ή όταν συγκρίνουμε εκτενείς περιοχές γονιδιωματικών DNA. (Στην τελευταία περίπτωση, μέσα στα δύο μόρια του DNA μπορεί να κρύβονται κάποια κοινά γονίδια και μάλιστα όχι με την ίδια σειρά ενώ τα υπόλοιπα να είναι διαφορετικά). Αυτή είναι συνήθως και η πιο ευαίσθητη μέθοδος για να ανιχνεύουμε ομοιότητες σε δύο πολύ διαφοροποιημένες αλληλουχίες, που έχουν όμως απώτατη κοινή καταγωγή καθ όλο το μήκος τους. Σε τέτοιες περιπτώσεις συνήθως ένα μόνο ή λίγα τμήματα των αλληλουχιών υπέστησαν τόσο μεγάλη εξελικτική πίεση ώστε να διατηρήσουν την ομοιότητά τους, τα υπόλοιπα τμήματα των αλληλουχιών είτε διαφοροποιήθηκαν
40 2. Στοίχιση ανά ζεύγη Εικόνα 2.6 Επάνω: Ο πίνακας δυναμικού προγραμματισμού τοπικής στοίχισης για τις δύο αλληλουχίες που χρησιμοποιήθηκαν ως παράδειγμα και στην προηγούμενη ενότητα. Κάτω: Η βέλτιστη τοπική στοίχιση με βαθμολογία 28. εξαιτίας άλλων εξελικτικών πιέσεων είτε συσσώρευσαν με τον καιρό τόσο πολλές τυχαίες αλλαγές ώστε δεν είναι πλέον «στοιχίσιμα». (Σημειώστε ότι το αποτέλεσμα της τυχαίας απόκλισης μπορεί να θεωρείται «θόρυβος».) Η στοίχιση, βάσει της υψηλότερης βαθμολογίας, τμημάτων των αλληλουχιών x και y καλείται βέλτιστη τοπική στοίχιση. Ο αλγόριθμος που εντοπίζει τις βέλτιστες τοπικές στοιχίσεις μοιάζει πολύ με τον αλγόριθμο που περιγράφηκε στην προηγούμενη ενότητα για την ολική στοίχιση. Υπάρχουν δύο διαφορές: 1. Για τη βαθμολογία που θα δοθεί σε κάθε κελί του πίνακα F, προσφέρεται μία ακόμα δυνατότητα στις τρεις δυνατότητες που καταγράφηκαν στην εξίσωση (2.8). Τώρα το κελί F(i, j) μπορεί να βαθμολογηθεί με 0, όταν όλες οι άλλες δυνατότητες του αποδίδουν τιμή μικρότερη από το 0: (2.9) Το να δοθεί τιμή 0 σε ένα κελί σηματοδοτεί το τέλος της τρέχουσας τοπικής στοίχισης και την έναρξη μιας νέας. Η λογική πίσω από αυτό είναι πως, αν
2.3 Αλγόριθμοι στοίχισης 41 η βέλτιστη στοίχιση μέχρι κάποιο σημείο καταλήγει να αποκτά αρνητική βαθμολογία, τότε είναι καλύτερο να ξεκινάμε μια νέα παρά να επεκτείνουμε την παλιά. Η επιλογή της τιμής 0 εφαρμόζεται και στα κελιά της πρώτης σειράς και της πρώτης στήλης. Έτσι, όλα αυτά τα κελιά λαμβάνουν τιμή 0 αντί για id και jd που λάμβαναν στην ολική στοίχιση. 2. Απόρροια του παραπάνω είναι ότι κάθε τοπική στοίχιση μπορεί να τελειώνει οπουδήποτε μέσα στον πίνακα. Επίσης, η βέλτιστη βαθμολογία δεν βρίσκεται (απαραίτητα) στο κάτω δεξιά κελί. Αναζητούμε λοιπόν τις υψηλότερες τιμές F (i, j) παντού μέσα στον πίνακα και ξεκινάμε ανάστροφες διαδρομές από καθένα από τα αντίστοιχα κελιά. Κάθε ανάστροφη διαδρομή θα τελειώνει όταν φτάσει σε κελί με τιμή 0, το οποίο και θα σηματοδοτεί την αρχή της στοίχισης των τμημάτων των δύο αλληλουχιών. Το κελί από το οποίο ξεκινάει η ανάστροφη πορεία σηματοδοτεί τη λήξη της στοίχισης των δύο τμημάτων. Ένα παράδειγμα δίνεται στην Εικόνα 2.6. Φαίνεται η βέλτιστη τοπική στοίχιση μεταξύ των δύο αλληλουχιών, των οποίων η βέλτιστη ολική στοίχιση δόθηκε στην Εικόνα 2.5. Σε αυτό το παράδειγμα η βέλτιστη τοπική στοίχιση αντιστοιχεί σε τμήμα (μόνο) της ολικής στοίχισης, αλλά αυτό δεν αποτελεί γενικό κανόνα. Για να λειτουργεί επιτυχημένα ο αλγόριθμος της τοπικής στοίχισης (σε συνδυασμό με τον επιλεγμένο πίνακα αντικατάστασης και τις ποινές κενών), πρέπει η αναμενόμενη βαθμολογία για ένα τυχαίο εξαναγκασμένο ταίριασμα δύο αλληλουχιών να είναι αρνητική. Αν δεν συμβαίνει αυτό, σημαίνει ότι ο αλγόριθμος θα επιτρέπει σε μακρά ανόμοια τμήματα αλληλουχιών να παρουσιάζονται ως στοιχισμένα με υψηλές (> 0) βαθμολογίες. Ακόμα χειρότερα, σε μια τέτοια περίπτωση η βαθμολογία θα εξαρτάται θετικά από το μήκος των αλληλουχιών. Επίσης, ο αλγόριθμος (μαζί με τον πίνακα αντικατάστασης και τις ποινές κενών), παρότι θα λειτουργεί ως «τοπικός» (δηλαδή, με βάση τη συνάρτηση 2.9), θα παράγει ολικές ή σχεδόν ολικές στοιχίσεις. Πιθανόν, μια πραγματική τοπική στοίχιση να κρυφτεί μέσα σε μια μεγαλύτερη και λανθασμένη (από άποψη τοπικότητας) στοίχιση, απλώς εξαιτίας επιπλέον σκορ που θα προσέθετε στη βαθμολογία το «παραπανίσιο» μήκος. Από την άλλη, στον πίνακα αντικατάστασης πρέπει να υπάρχουν κάποιες τιμές s(a, b) μεγαλύτερες από 0, αλλιώς ο αλγόριθμος (με βάση τη συνάρτηση 2.9) δεν θα υποδείξει καμία στοίχιση (παντού στον πίνακα F θα τοποθετεί 0). Αλλά τι ακριβώς σημαίνει η απαίτηση «η αναμενόμενη βαθμολογία για ένα
42 2. Στοίχιση ανά ζεύγη τυχαίο ταίριασμα των αλληλουχιών να είναι αρνητική»; Στην περίπτωση που δεν εισάγονται κενά, υπονοείται «η βαθμολογία που λαμβάνει μια στοίχιση αλληλουχιών με συγκεκριμένο μήκος». Και αφού τα διαδοχικά στοιχισμένα ζεύγη είναι ανεξάρτητα μεταξύ τους, αρκεί να λάβουμε υπόψη μία μόνο (αντιπροσωπευτική) στοιχισμένη θέση, για την οποία να ισχύει: (2.10) όπου q a και q b είναι οι πιθανότητες εμφάνισης των συμβόλων α και β σε μια θέση της αλληλουχίας. Αν το σκορ s(a, b) δοθεί ως λογάριθμος του λόγου των πιθανοφανειών, όπως στην Ενότητα 2.2, χρησιμοποιώντας την ίδια q a όπως στις πιθανότητες του τυχαίου μοντέλου, τότε η (2.10) ικανοποιείται πάντα, και αυτό επειδή: 2 2 Η ποσότητα Hq ( p) είναι η σχετική εντροπία της κατανομής q = q q σε σχέση προς την κατανομή p και είναι πάντα θετική, εκτός από την περίπτωση που q = p (βλ. Ενότητα 11.2). Ουσιαστικά, η Hq ( p) προσφέρει 2 2 ένα φυσικό μέτρο τού πόσο διαφορετικές είναι οι δύο κατανομές. Αποτελεί επίσης εξ ορισμού ένα μέτρο σχετικά με το πόση πληροφορία αναμένουμε από κάθε στοιχισμένο ζεύγος μέσα στη στοίχιση. Δυστυχώς, δεν μπορούμε να έχουμε μια ισοδύναμη ανάλυση για τις στοιχίσεις όπου τα κενά είναι επιτρεπτά. Δεν υπάρχει αναλυτική μέθοδος που να προβλέπει πώς διαφοροποιείται η επίδραση των ποινών των κενών μεταξύ της ολικής και της τοπικής στοίχισης. Παραμένει όμως ως ερώτημα πρακτικής σημασίας, όταν διαμορφώνουμε τα συστήματα βαθμολόγησης [δηλαδή τα σκορ αντικατάστασης s(a, b) και τις ποινές γ(g)]. Επίσης, έχουν φτιαχτεί πίνακες για τα πιο συνηθισμένα συστήματα βαθμολόγησης, που δείχνουν τη «συμπεριφορά» τους ανάλογα με την τοπική ή την ολική στοίχιση, μαζί με άλλες στατιστικές ιδιότητές τους [Altschul & Gish, 1996]. Θα επιστρέψουμε αργότερα σε αυτό το θέμα, όταν θα συζητήσουμε τη στατιστική σημαντικότητα των βαθμολογιών. Ο αλγόριθμος δυναμικού προγραμματισμού για την τοπική στοίχιση αλληλουχιών αναπτύχθηκε στις αρχές της δεκαετίας του 1980. Συχνά αναφέρεται