Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης. Στα πλαίσια αυτού του κεφαλαίου παρουσιάζουµε τους βασικούς αλγορίθµους προσεγγιστικής εύρεσης προτύπου και στοίχισης. Όπως ήδη έχουµε παρουσιάσει στην ακριβή εύρεση ενός προτύπου σε µια ακολουθία, προσπαθούµε να εντοπίσουµε τις θέσεις που το πρότυπο εµφανίζεται, χωρίς διαφοροποιήσεις. Αντίθετα στην προσεγγιστική εύρεση προτύπου επιτρέπουµε την ύπαρξη διαφοροποιήσεων στις εµφανίσεις του προτύπου, που προκύπτουν από την αντικατάσταση, προσθήκη ή διαγραφή συµβόλων. Μια συχνά χρησιµοποιούµενη τεχνική για τη σύγκριση βιολογικών ακολουθιών είναι η στοίχισή τους (alignment) και η σύγκρισή τους ανά σύµβολο. Οι τεχνικές για τη στοίχιση των ακολουθιών εφαρµόζονται τόσο κατά το µήκος µιας βιολογικής ακολουθίας, όσο και µεταξύ ακολουθιών διαφορετικών οργανισµών. Σε αυτή την περίπτωση προσπαθούµε να υπολογίσουµε τη στοίχιση των διαφορετικών ακολουθιών που παρουσιάζει τη µέγιστη οµοιότητα (Multiple Sequence Alignment). Κεντρικό ρόλο σε αυτές τις τεχνικές όπως θα δούµε παίζει η παρουσία/ εισαγωγή κενών (gaps) µε σκοπό τη βέλτιστη στοίχιση ακολουθιών µε ήδη γνωστά βιολογικά µοντέλα των οποίων η λειτουργία είναι εκ των προτέρων γνωστή. 4.1 Βασικοί Ορισµοί Πριν ξεκινήσουµε την περιγραφή των µεθόδων στοίχισης ακολουθιών, θα δώσουµε τους απαιτούµενους βασικούς ορισµούς. Ορισµός-1: Η Απόσταση Μετασχηµατισµού (Edit Distance), µεταξύ 2 ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Οι βασικές πράξεις µετασχηµατισµού είναι η ένθεση, διαγραφή και αντικατάσταση συµβόλων. Ας δούµε ένα απλό παράδειγµα. Έστω οι συµβολοσειρές S 1 : "vintner" και S 2 : "writers". Για να µετασχηµατίσουµε την S 1 σε S 2, χρειάζεται να εκτελέσουµε τις εξής βασικές πράξεις µετασχηµατισµού: α) να αντικαταστήσουµε το "v" µε το "w", β) να εισάγουµε το "r", - 1 -

γ) να διαγράψουµε το "n", 2 φορές και τέλος δ) να εισάγουµε το "s". Συνολικά απαιτούνται 5 βασικές πράξεις µετασχηµατισµού, οπότε edit-distance(s 1 ->S 2 )=5. Μπορούµε να πούµε ότι η απόσταση µετασχηµατισµού εκφράζει τη διαφορά µεταξύ των συµβόλων δύο, ενώ οι χαρακτήρες που ταιριάζουν παραµένουν αναλλοίωτοι. Ορισµός-2: Η Ακολουθία Μετασχηµατισµού (Edit Transcript), για το µετασχηµατισµό µιας συµβολοσειράς ορίζεται ως η ακολουθία των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Οι βασικές πράξεις µετασχηµατισµού αναπαρίστανται ως εξής: - ένθεση: I, - διαγραφή: D, - αντικατάσταση: R και - ταίριασµα: Μ. Για το προηγούµενο παράδειγµα των S 1 και S 2 η ακολουθία µετασχηµατισµού είναι η ακόλουθη: RIMDMDMMI. R I M D M D M M I V I N T N E R W R I T E R S Ουσιαστικά η ακολουθία µετασχηµατισµού αποτελεί µια συµβολοσειρά από το αλφάβητο Σ = {D, I, M, R}. Για δυο συµβολοσειρές, δεν υπάρχει µια µοναδική ακολουθία µετασχηµατισµού. Στόχος µας είναι να εντοπίσουµε τη βέλτιστη ακολουθία- Optimal Edit Transcript αυτή δηλαδή που αντιστοιχεί στον ελάχιστο δυνατό αριθµό πράξεων µετασχηµατισµού. Αν υποθέσουµε ότι κάθε πράξη µετασχηµατισµού στοιχίζει (έχει συγκεκριµένο κόστος-βάρος), τότε το πρόβληµα εύρεσης της βέλτιστης ακολουθίας µετασχηµατισµού, µεταφράζεται στην ελαχιστοποίηση του κόστους µετασχηµατισµού. - 2 -

Ορισµός-3: Η Ζυγισµένη Απόσταση Μετασχηµατισµού (Weighted Edit Distance), µεταξύ 2 ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Κάθε πράξη µετασχηµατισµού έχει συγκεκριµένο κόστος - βάρος και στόχος µας είναι η ελαχιστοποίησή του. Έστω ότι οι βασικές πράξεις µετασχηµατισµού έχουν τα ακόλουθα βάρη: - ένθεση ή διαγραφή: d, - αντικατάσταση: r και - ταίριασµα: m. Για το προηγούµενο παράδειγµα τo κόστος της ζυγισµένης απόστασης µετασχηµατισµού των S 1 και S 2 είναι: weighted-editdistance(s 1 ->S 2 )= 2r+3d+4m. Στην περίπτωση που το κόστος κάθε πράξης µετασχηµατισµού εξαρτάται από το χαρακτήρα που µετασχηµατίζεται (ποιος είναι ο χαρακτήρας από συγκεκριµένο αλφάβητο που θα ενθέσουµε ή θα διαγράψουµε) και όχι αποκλειστικά από το είδος της πράξης, το πρόβληµα µετασχηµατίζεται στην εύρεση της ελάχιστης Ζυγισµένης Απόστασης Μετασχηµατισµού βάσει Αλφαβήτου. Ορισµός-4: Η Ζυγισµένη Απόσταση Μετασχηµατισµού βάσει Αλφαβήτου (Weighted Edit Distance), µεταξύ 2 ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Κάθε πράξη µετασχηµατισµού έχει συγκεκριµένο κόστος - βάρος ανάλογα µε το χαρακτήρα που µετασχηµατίζουµε. Η Ζυγισµένη Απόσταση Μετασχηµατισµού βάσει Αλφαβήτου, εφαρµόζεται κυρίως στα προβλήµατα στοίχισης ακολουθιών DNA και πρωτεϊνών, όπου η αντικατάσταση κάθε χαρακτήρα (είτε από το αλφάβητο του DNA είτε των αµινοξέων) έχει συγκεκριµένο κόστος- βάρος. Οι πίνακες που κωδικοποιούν αυτές τις τιµές, ονοµάζονται πίνακες αντικατάστασης (substitutions matrix) και παραδείγµατα είναι οι πίνακες PAM και BLOSUM (Πίνακας 4.1.α). Οι πίνακες αντικατάστασης BLOSUM Blocks Substitution & PAM- Point Accepted Mutation, δηµιουργούνται ως εξής: παίρνουµε ζεύγη στοιχίσεων οµόλογων πρωτεϊνών και υπολογίζουµε τη συχνότητα αντικατάστασης όλων των χαρακτήρων, καθορίζοντας και τα αντίστοιχα βάρη. - 3 -

BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Cluster Percentage: >= 62 # Entropy = 0.6979, Expected = -0.5209 A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1 Πίνακας 4.1.α: Ο Πίνακας Αντικαταστάσεων BLOSUM 62, µε τα βάρη αντικατάστασης των αµινοξέων σε ακολουθίες πρωτεϊνών. Πιο αναλυτικά, ο πίνακας PAM δηµιουργείται βάσει ενός µοντέλου εξελικτικής απόστασης από τη στοίχιση συγγενών ακολουθιών (κατά 85% όµοιων) από 34 υπερ-οικογένειες που έχουν ταξινοµηθεί σε 71 εξελικτικά δέντρα και περιέχουν 1.572 σηµεία µετάλλαξης (διαφοροποιήσεις σε χαρακτήρες- αµινοξέα). Το κατώφλι οµοιότητας επιλέγεται ώστε να ελαχιστοποιεί το σφάλµα στοίχισης. Τα φυλογενετικά δέντρα ανακατασκευάζονται για τις ακολουθίες ώστε να προσδιοριστεί η ακολουθία πρόγονος για κάθε στοίχιση. Οι τιµές που προκύπτουν στον πίνακα Μ 1 αντιπροσωπεύουν την πιθανότητα µετάλλαξης ενός αµινοξέος µε πιθανότητα 1/100. Αν πολλαπλασιάσουµε τον πίνακα Μ 1 µε τον εαυτό του n φορές προκύπτει ο πίνακας αντικατάστασης των πρωτεϊνών που έχουν υποστεί µετάλλαξη n φορές. Ο πίνακας Μ 120 θεωρείται καλός για σχετικές πρωτεΐνες, ενώ ο πίνακας Μ 250 είναι περισσότερο κατάλληλος για πρωτεΐνες ξένες µεταξύ τους. Ο πίνακας BLOSUM δηµιουργείται µε παρόµοια φιλοσοφία. Τα δεδοµένα εισόδου προέρχονται από τη Βάση εδοµένων BLOCKS που αποτελεί ένα σύνολο στοιχισµένων ακολουθιών (χωρίς την παρουσία κενών) από οικογένειες σχετικών πρωτεϊνών. Χρησιµοποιώντας 2000 blocks στοιχισµένων ακολουθιών που χαρακτηρίζουν πάνω από 500 οικογένειες - 4 -

πρωτεϊνών, οι ακολουθίες σε κάθε block, ταξινοµούνται σε συστάδες και οι συχνότητες µεταλλάξεων (αντικατάστασης ή διαγραφής αµινοξέων) ανάµεσα σε αυτές τις συστάδες, χρησιµοποιούνται για να υπολογίσουµε την ορθότητα µιας αντικατάστασης άρα και το αντίστοιχο βάρος. Ο αριθµός που συσχετίζεται µε έναν πίνακα BLOSUM (π.χ.: BLOSUM 62, BLOSUM 80 ) προσδιορίζει το κατώφλι οµοιότητας στη δηµιουργία συστάδων. Χαµηλότερο κατώφλι, επιτρέπει µεγαλύτερη διαφοροποίηση ακολουθιών, οπότε και οι τιµές του αντίστοιχου πίνακα µας επιτρέπουν να υπολογίσουµε πιο µακρινές στοιχίσεις. 4.2 Στοίχιση Ακολουθιών (Sequence alignment) Όπως είδαµε η Απόσταση Μετασχηµατισµού εκφράζει τη διαφορά µεταξύ 2 ως προς την ακολουθία των συµβόλων τους. Σε αρκετές εφαρµογές Ανάλυσης Ακολουθιών Βιολογικών εδοµένων, δε µας ενδιαφέρει να υπολογίσουµε τη διαφορά 2, αλλά την οµοιότητά τους. Γι' αυτό χρειάζεται να ορίσουµε ένα διαφορετικό µέτρο οµοιότητας (similarity measure), το οποίο προκύπτει στοιχίζοντας 2 ακολουθίες (alignment). Η Στοίχιση Ακολουθιών- Sequence Alignment, προκύπτει τοποθετώντας τη µια ακολουθία κάτω από την άλλη έτσι ώστε οι κοινοί χαρακτήρες να τοποθετούνται στις ίδιες θέσεις. Για το προηγούµενο παράδειγµα η στοίχιση των 2 ακολουθιών έχει την ακόλουθη µορφή. Όπως παρατηρούµε µπορούµε να προσθέσουµε κενά στην αρχή, στο τέλος ή στο ενδιάµεσο των ακολουθιών ώστε να έχουν το ίδιο µήκος και οι κοινοί χαρακτήρες να εµφανίζονται στις ίδιες θέσεις. - V I N T N E R - W R I - T - E R S Πίνακας 4.2.α: Παράδειγµα Στοίχισης 2 ακολουθιών. Στη στοίχιση ακολουθιών, προσπαθούµε να υπολογίσουµε τη στοίχιση που εµφανίζει τη µέγιστη οµοιότητα µεταξύ των ακολουθιών. Κεντρικό ρόλο σε αυτή την προσπάθεια παίζει η παρουσία/ εισαγωγή κενών (gaps) µε σκοπό τη βέλτιστη στοίχιση ακολουθιών µε ήδη γνωστά βιολογικά µοντέλα και µοτίβα των οποίων η λειτουργία είναι εκ των προτέρων γνωστή (ένα επιπλέον παράδειγµα φαίνεται στο σχήµα 4.2.β). Η παρουσία κενών (ως ακολουθίες κενών χαρακτήρων), µεταφράζεται στην εισαγωγή/ διαγραφή ενός βιολογικού µοτίβου ως το αποτέλεσµα µιας λειτουργίας µετάλλαξης (αντιγραφή ή διαγραφή µικρών τµηµάτων του DNA). - 5 -

Η εισαγωγή κενών κατά τη στοίχιση ακολουθιών επηρεάζει το ποσοστό οµοιότητάς 2 ακολουθιών, η οποία υπολογίζεται µε τη βοήθεια µιας συνάρτησης επιτυχίας (score function), η οποία βαθµολογεί µε ένα ορισµένο σύνολο τιµών όλους τους πιθανούς συνδυασµούς στοίχισης µεταξύ δυο συµβόλων. Ως βέλτιστη στοίχιση µεταξύ των 2 ακολουθιών θεωρείται αυτή που µεγιστοποιεί την τιµή της συνάρτησης. υστυχώς δεν υπάρχει µια τυπική συνάρτηση και ανάλογα µε την εφαρµογή οι επιστήµονες επιλέγουν να χρησιµοποιήσουν σε διαφορετικά προβλήµατα και διαφορετική συνάρτηση ως µετρική οµοιότητας. c t t t a a c - - a - a c c - - - c a c c c a t - c Σχήµα 4.2.β: Στοίχιση δυο ακολουθιών µε την εισαγωγή 7 κενών χαρακτήρων σε 4 θέσεις, που µεταφράζεται ως µετάλλαξη της ακολουθίας του DNA στις αντίστοιχες θέσεις. Έστω Σ το αλφάβητο που χρησιµοποιείται για τις ακολουθίες S 1 και S 2 και Σ = Σ "-", το αλφάβητο που εµπεριέχει και τα κενά ως σύµβολο. Για δύο χαρακτήρες x, y Σ, ορίζουµε ως s(x,y) την τιµή στοίχισης των 2 χαρακτήρων. Η τιµή της στοίχισης (alignment) Α των ακολουθιών S 1 και S 2 αποτελεί το άθροισµα όλων των επιµέρους στοιχίσεων για το µήκος των 2 ακολουθιών. S a c g t _ a 1-1 -2 0-1 c 3-2 -1 0 g 0-4 -2 t 3-1 _ 0 1 2 3 4 5 6 7 g a g - t c t g a c c t c - Σχήµα 4.3: Για την παραπάνω διάταξη των δύο και τη συνάρτηση επιτυχίας που παρουσιάζεται στον πίνακα, η τιµή της συνάρτησης οµοιότητας είναι 0+1-2+0+3+3-1=4. Πιο αναλυτικά συγκρίνοντας ανά σύµβολο τις δυο ακολουθίες, αποδίδουµε για κάθε θέση την τιµή που ορίζει η αντικειµενική συνάρτηση στον διπλανό πίνακα. ηλαδή η ταύτιση των βάσεων g και g στις δύο ακολουθίες αντιστοιχεί στην τιµή 0, ενώ η µη ταύτιση ανάµεσα στις βάσεις g και c στη θέση 3 βαθµολογείται µε -2. Αθροίζοντας διαδοχικά τις τιµές της συνάρτησης για όλες τις θέσεις της ακολουθίας προκύπτει η τιµή 4, ως µετρική οµοιότητας των 2 ακολουθιών. - 6 -

Η στοίχιση 2 ακολουθιών (sequence alignment) διακρίνεται σε τοπική - local sequence alignment, αν αναφέρεται σε ένα τοπικό διάστηµα 2 ακολουθιών, και σε ολική - global sequence alignment, αν αναφέρεται στο συνολικό µήκος 2 ακολουθιών. Το Πρόβληµα Τοπικής Στοίχισης- Local Alignment Problem: Το πρόβληµα εύρεσης της βέλτιστης τοπικής στοίχισης -local alignment problem για δυο ακολουθίες S 1 και S 2 ορίζεται ως εξής: εντόπισε τις υποσυµβολοσειρές α και β των S 1 και S 2 αντίστοιχα των οποίων η οµοιότητα, δηλαδή η βέλτιστη τιµή της ολικής στοίχισης (optimal global alignment value), είναι η µεγαλύτερη από τις τιµές όλων των άλλων δυνατών ζευγών των υπο S 1 και S 2. Οι τεχνικές στοίχισης ακολουθιών χρησιµοποιούνται σε µεγάλο βαθµό στη σύγκριση γονιδίων που αποθηκεύονται σε βιολογικές βάσεις δεδοµένων. Οποιοδήποτε γονίδιο κλωνοποιείται και χαρτογραφείται, στη συνέχεια µεταφράζεται σε ακολουθία αµινοξέων και µελετάται για τις οµοιότητες ή διαφορές που εµφανίζει µε συγγενείς πρωτεΐνες, µέσω της ανάλυσης ακολουθιών. Η ολική στοίχιση (global alignment) σε ακολουθίες πρωτεϊνών έχει ιδιαίτερο νόηµα όταν οι δύο ακολουθίες είναι µέλη της ίδιας πρωτεϊνικής οικογένειας. Σε αρκετές όµως βιολογικές εφαρµογές, η τοπική οµοιότητα έχει πολύ µεγαλύτερη σηµασία. Συγκεκριµένα, όταν συγκρίνονται µεγάλες εκτάσεις από ανώνυµα DNA, εφόσον µόνο µερικά εσωτερικά τµήµατα από αυτές τις συµβολοσειρές µπορεί να σχετίζονται. 4.3 Η Μέθοδος του υναµικού Προγραµµατισµού Σε αυτή την παράγραφο θα παρουσιάσουµε τη µέθοδο του υναµικού Προγραµµατισµού- Dynamic Programming. Η µέθοδος του υναµικού Προγραµµατισµού αποτελεί µια αναδροµική µέθοδο, η οποία µας επιτρέπει να υπολογίσουµε την απόσταση µετασχηµατισµού µεταξύ 2 ακολουθιών και ταυτόχρονα την ακολουθία µετασχηµατισµού ή κάτω από ένα διαφορετικό πρίσµα τη στοίχιση- οµοιότητα 2 ακολουθιών. Για 2 ακολουθίες S 1 και S 2, µε µήκος S 1 =n & S 2 =m, υπολογίζουµε σταδιακά την τιµή στοίχισης για τα επιµέρους τµήµατα των ακολουθιών. Πιο αναλυτικά για κάθε i, 1 i n, και j, 1 j m, η µέθοδος του υναµικού Προγραµµατισµού αποθηκεύει σε έναν πίνακα D µεγέθους "n+1 x m+1", την απόσταση µετασχηµατισµού κάθε δυνατού προθέµατος S 1 [1 i] µε κάθε δυνατό πρόθεµα S 2 [1 j]. - 7 -

Ορισµός-5: Έστω 2 ακολουθίες S 1 και S 2, θα συµβολίζουµε ως D(i,j) την απόσταση µετασχηµατισµού µεταξύ των προθεµάτων S 1 [1..i] και S 2 [1..j], δηλαδή τον ελάχιστο αριθµό πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε τους i πρώτους χαρακτήρες της ακολουθίας S 1 στους j πρώτους χαρακτήρες της ακολουθίας S 2. Αν n και m αντίστοιχα το µήκος των S 1 και S 2, τότε η συνολική απόσταση µετασχηµατισµού των S 1 και S 2 ισούται µε την τιµή D(n,m). Aς δούµε πιο αναλυτικά πώς υπολογίζονται οι τιµές του πίνακα D µε χρήση 3 βασικών τεχνικών: α) τη σχέση αναδροµής- recurrence relation, β) τη χρήση πίνακα- tabular computation, και γ) τη σχέση οπισθοχώρησηςtraceback. Η σχέση αναδροµής- recurrence relation, καθορίζει µια αναδροµική σχέση ανάµεσα στην τιµή της θέσης του πίνακα D(i,j) και στοιχείων του πίνακα µε µικρότερες διαστάσεις από i και j (i,j >0): D(i,j)=min[D(i-1,j)+1,D(i,j-1)+1,D(i-1,j-1)+t(i,j)], όπου t(i,j)= 1, αν οι χαρακτήρες S 1 (i) και S 2 (j) είναι διαφορετικοί (mismatch), οπότε κι έχουµε αντικατάσταση του S 1 (i) µε τον S 2 (j), και µε 0 αν είναι ίδιοι (match). Επίσης ως αρχικές συνθήκες δεχόµαστε ότι: D(i,0)= i: προκειµένου οι i πρώτοι χαρακτήρες της ακολουθίας S 1 να µετασχηµατιστούν σε 0 χαρακτήρες της ακολουθίας S 2 πρέπει να διαγραφούν i χαρακτήρες, D(0,j)=j: προκειµένου οι 0 πρώτοι χαρακτήρες της ακολουθίας S 1 να µετασχηµατιστούν σε j χαρακτήρες της ακολουθίας S 2 πρέπει να ενθέσουµε j χαρακτήρες. Ας ερµηνεύσουµε όµως την παραπάνω σχέση. Όπως παρατηρούµε η τιµή D(i,j) ισούται µε την ελάχιστη από τις 4 παρακάτω τιµές: D(i,j-1)+1, στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S 1 [i] στο χαρακτήρα S 2 [j] πρέπει να ενθέσουµε το χαρακτήρα S 2 [j) στη θέση i της S 1, οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, D(i-1,j)+1, στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S 1 [i] στο χαρακτήρα S 2 [j] πρέπει να διαγράψουµε το χαρακτήρα S 2 (j), οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, - 8 -

D(i-1,j-1)+1 στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S 1 [i] στο χαρακτήρα S 2 [j] πρέπει να αντικαταστήσουµε το χαρακτήρα S 1 (i), µε το χαρακτήρα S 2 [j] οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, D(i-1,j-1) στην περίπτωση που έχουµε ταίριασµα µεταξύ των χαρακτήρων S 1 [i] και S 2 [j] οπότε δε µεταβάλλεται η απόσταση µετασχηµατισµού. Η τιµή D(i,j), είναι η µικρότερη από τις παραπάνω µιας και αναζητάµε την ελάχιστη απόσταση µετασχηµατισµού µεταξύ των δύο, δηλαδή το ελάχιστο πλήθος πράξεων µετασχηµατισµού για το µετασχηµατισµό της µιας ακολουθίας στην άλλη. Η χρήση πίνακα- tabular computation, διευκολύνει τον υπολογισµό της τιµής D(n,m), βάσει της αναδροµικής σχέσης που ήδη παρουσιάσαµε. Οι ενδιάµεσες τιµές D(i,j) σε αυτή τη διαδικασία αποθηκεύονται σε έναν πίνακα µεγέθους "n+1 x m+1". Η προσέγγιση αυτή χαρακτηρίζεται ως bottom-up. D(i,j) w r i t e r s 0 1 2 3 4 5 6 7 0 0 1 2 3 4 5 6 7 v 1 1 1 2 3 4 5 6 7 i 2 2 2 2 2 3 4 5 6 n 3 3 3 3 3 3 4 5 6 t 4 4 4 4 4 * e 5 5 r 6 6 s 7 7 Πίνακας 4.3.α: Πίνακας Υπολογισµού της απόστασης µετασχηµατισµού Στο προηγούµενο σχήµα παρουσιάζεται ο πίνακας D, για τον υπολογισµό της απόστασης µετασχηµατισµού της ακολουθίας S 1 = vintner στην ακολουθία S 2 = writers. Οι τιµές στην 1 η γραµµή και στήλη προκύπτουν από τις αρχικές συνθήκες. Οι τιµές του πίνακα υπολογίζονται και συµπληρώνονται ανά γραµµή από αριστερά προς τα δεξιά. Όπως φαίνεται και στο παράδειγµα η επόµενη τιµή προς υπολογισµό είναι η D(4,4). Πιο αναλυτικά D(4,4)= D(3,3)=3, αφού S 1 (4)=S 2 (4)=t. - 9 -

Η σχέση οπισθοχώρησης- traceback, χρησιµοποιείται αφού έχουµε υπολογίσει την απόσταση µετασχηµατισµού για να καθορίσουµε τη βέλτιστη ακολουθία µετασχηµατισµού. Γι αυτό το λόγο προσθέτουµε δείκτες προσανατολισµού στον πίνακα D, οι οποίοι δείχνουν τα κελιά από τα οποία προκύπτει η τιµή στο στοιχείο D(i,j). Πιο αναλυτικά, προσθέτουµε ένα δείκτη: από την (i,j) θέση προς την (i,j-1) αν D(i,j)= D(i,j-1)+1 (ένθεση χαρακτήρα) από την (i,j) θέση προς την (i-1,j) αν D(i,j)= D(i-1,j)+1 (διαγραφή χαρακτήρα) από την (i,j) θέση προς την (i-1,j-1) αν D(i,j)= D(i-1,j-1)+t(i,j) (αντικατάσταση χαρακτήρα ή ταίριασµα) Οι δείκτες επιτρέπουν να καθορίσουµε µε εύκολο τρόπο τη βέλτιστη ακολουθία µετασχηµατισµού, απλά ακολουθώντας οποιοδήποτε µονοπάτι από δείκτες από το στοιχείο (n,m) του πίνακα µέχρι το στοιχείο (0,0). Στο µονοπάτι που ακολουθούµε ερµηνεύουµε κάθε οριζόντιο βέλος από το στοιχείο (i,j) στο (i,j-1) ως ένθεση του χαρακτήρα S 2 (j) στην ακολουθία S 1, κάθε κάθετο βέλος από το στοιχείο (i,j) στο (i-1,j) ως διαγραφή του χαρακτήρα S 1 (i) και κάθε διαγώνιο βέλος από το στοιχείο (i,j) στο (i-1,j-1) ως ένα ταίριασµα αν S 1 (i)=s 2 (j) και ως αντικατάσταση αν S 1 (i) S 2 (j). Στον παρακάτω πλήρη πίνακα δυναµικού προγραµµατισµού έχουν συµπληρωθεί και οι δείκτες. D(i,j) w r i t e r s 0 1 2 3 4 5 6 7 0 0 1 2 3 4 5 6 7 v 1 1 1 2 3 4 5 6 7 i 2 2 2 2 2 3 4 5 6 n 3 3 3 3 3 3 4 5 6 t 4 4 4 4 4 3 4 5 6 e 5 5 5 5 5 4 4 5 6 r 6 6 6 6 6 5 4 5 6 s 7 7 7 6 7 6 5 4 5 Πίνακας 4.3.β: Πίνακας Υπολογισµού της απόστασης µετασχηµατισµού µε δείκτες. Μέσω της οπισθοχώρησης µπορούµε να ανακτήσουµε και την ακολουθία µετασχηµατισµού- edit transcript. Μία εναλλακτική ερµηνεία των δεικτών ως προς τη στοίχιση των ακολουθιών S 1 και S 2 είναι η εξής: - 10 -

κάθε οριζόντιο βέλος( ) δηλώνει την εισαγωγή ενός κενού στην ακολουθία S 1, κάθε κάθετο βέλος( ) δηλώνει την εισαγωγή ενός κενού στην ακολουθία S 2, και κάθε διαγώνιο βέλος( ) την αντικατάσταση ενός χαρακτήρα ή το ταίριασµα µεταξύ 2 χαρακτήρων. Για παράδειγµα στον πίνακα 4.3.β υπάρχουν τρία πιθανά µονοπάτια από το στοιχείο (7,7) του πίνακα στο (0,0). Τα µονοπάτια είναι ίδια από το στοιχείο (7,7) µέχρι το στοιχείο (3,3) όπου υπάρχουν δύο επιλογές, είτε να προχωρήσουµε προς τα πάνω είτε διαγώνια. Οι αντίστοιχες στοιχίσεις παρουσιάζονται στη συνέχεια. V I N T N E R - W R I T - E R S V - I N T N E R - W R I - T - E R S - V I N T N E R - W R I - T - E R S Σχήµα 4.3.1: 3 εναλλακτικές στοιχίσεις, όπως προκύπτουν από τον πίνακα υπολογισµού της απόστασης µετασχηµατισµού ακολουθώντας µε τη µέθοδο της οπισθοχώρησης τους δείκτες. Εποµένως κάθε µονοπάτι το οποίο προκύπτει ακολουθώντας τους δείκτες από το στοιχείο (n,m) µέχρι το στοιχείο (0,0) του πίνακα δυναµικού προγραµµατισµού, καθορίζει µια ακολουθία µετασχηµατισµού µε το µικρότερο πλήθος πράξεων µετασχηµατισµού. Αντίστροφα κάθε βέλτιστη ακολουθία µετασχηµατισµού καθορίζεται από ένα τέτοιο µονοπάτι. Η µέθοδος του υναµικού Προγραµµατισµού, αν και υλοποιείται εύκολα, µε τη χρήση πίνακα, παρουσιάζει ένα σηµαντικό µειονέκτηµα. - 11 -

Απαιτεί µεγάλο χώρο αποθήκευσης για τον πίνακα και αποτελεί ανοικτό πρόβληµα έρευνας η εύρεση νέων µεθόδων µείωσης του χώρου υπολογισµού. 4.3.1 υναµικός Προγραµµατισµός και Ζυγισµένη Απόσταση Μετασχηµατισµού (Weighted Edit Distance) Προκειµένου να υπολογίσουµε τη Ζυγισµένη Απόσταση Μετασχηµατισµού για 2 ακολουθίες, µπορούµε να χρησιµοποιήσουµε τη µέθοδο του υναµικού Προγραµµατισµού προσθέτοντας τα αντίστοιχα βάρη για κάθε πράξη µετασχηµατισµού. Εποµένως κάθε στοιχείο του πίνακα D, αποθηκεύει το αντίστοιχο κόστος µιας ακολουθίας µετασχηµατισµού. Για παράδειγµα το στοιχείο D(i,j), αποθηκεύει το ελάχιστο συνολικό βάρος που προκύπτει από τις πράξεις µετασχηµατισµού του προθέµατος S 1 [1..i] στο πρόθεµα S 2 [1..j]. Αν υποθέσουµε ότι κάθε πράξη ένθεσης ή διαγραφής στοιχίζει d, κάθε ταίριασµα στοιχίζει e, και κάθε αντικατάσταση στοιχίζει r, οι αναδροµικές σχέσεις υπολογισµού του πίνακα D, µετασχηµατίζονται ως εξής: D(i,j)=min[D(i-1,j)+d,D(i,j-1)+d,D(i-1,j-1)+t(i,j)], όπου t(i,j)= e, αν S 1 (i)=s 2 (j), διαφορετικά t(i,j)=r, αν S 1 (i) S 2 (j) και αρχικές συνθήκες: D(i,0)=i*d και D(0,j)=j*d. 4.3.2 υναµικός Προγραµµατισµός και Οµοιότητα Ακολουθιών Όπως είδαµε µε τη µέθοδο του υναµικού Προγραµµατισµού, µπορούµε να υπολογίσουµε την Απόσταση Μετασχηµατισµού µεταξύ 2. Σε αρκετές εφαρµογές όµως Ανάλυσης Ακολουθιών Βιολογικών εδοµένων, µας ενδιαφέρει να υπολογίσουµε την οµοιότητα 2. Σε αυτή την ενότητα θα δείξουµε πώς µπορούµε να χρησιµοποιήσουµε τη µέθοδο του υναµικού Προγραµµατισµού για να υπολογίσουµε την οµοιότητα της στοίχισης 2 ακολουθιών. Ας υποθέσουµε ότι σε έναν πίνακα V, αποθηκεύουµε την βέλτιστη στοίχιση µεταξύ 2 ακολουθιών. Κάθε στοιχείο V(i,j) αποθηκεύει την τιµή της βέλτιστης στοίχισης για τα προθέµατα S 1 [1..i] και S 2 [1..j]. Μπορούµε να ορίσουµε µια αναδροµική σχέση για τον υπολογισµό της στοίχισης 2 ακολουθιών: V(i,j)= max[v(i-1,j-1)+s(s 1 (i), S 2 (j)), V(i-1,j)+ s(s 1 (i),_), V(i,j-1)+ s(_,s 2 (j))], - 12 -

όπου s(x,y) η τιµή στοίχισης του χαρακτήρα x µε τον y βάσει ενός πίνακα αντικατάστασης, ενώ ως αρχικές συνθήκες έχουµε: V(0,j)= s(_,s 2 (k)), 1 k j και V(i,0)= s(s 1 (k),_), 1 k i. 4.4 Προσεγγιστική Εύρεση προτύπου (Approximate Pattern Matching) Έχοντας παρουσιάσει τη µέθοδο του υναµικού Προγραµµατισµού θα αναφερθούµε σε 2 βασικά προβλήµατα στο χώρο της Υπολογιστικής Βιολογίας: α) το Πρόβληµα Τοπικής Στοίχισης (επιτρέποντας κενά) - Local suffix alignment problem (with gaps) και β) το Πρόβληµα Προσεγγιστικής Εύρεσης Προτύπου µε k διαφορές- K-difference problem. 4.4.1 Το Πρόβληµα Τοπικής Στοίχισης Προτού παρουσιάσουµε το Πρόβληµα Τοπικής Στοίχισης 2 ακολουθιών, θα αναφερθούµε στο Πρόβληµα Τοπικής Στοίχισης Επιθέµατος- Local Suffix Alignment Problem. Το Πρόβληµα Τοπικής Στοίχισης Επιθέµατος- Local Suffix Alignment Problem: Το πρόβληµα της τοπικής στοίχισης επιθέµατος- local suffix alignment problem για δυο ακολουθίες S 1 και S 2 ορίζεται ως εξής: εντόπισε ένα επίθεµα α του S 1 [1..i] (µε την πιθανότητα να είναι κενό) κι ένα επίθεµα β του S 2 [1..j] (πιθανόν κενό) τέτοια ώστε το V(α,β) να έχει τη µέγιστη τιµή από όλα τα άλλα δυνατά ζεύγη επιθεµάτων των S 1 [1..i] και S 2 [1..j]. Συµβολίζουµε ως υ(i,j) τη βέλτιστη τοπική στοίχιση επιθεµάτων για τις τιµές i και,j ( i n και j m). Έχοντας ορίσει το Πρόβληµα Τοπικής Στοίχισης Επιθέµατος, µπορούµε να λύσουµε το Πρόβληµα Τοπικής Στοίχισης. Αν συµβολίσουµε µε υ* την τιµή της βέλτιστης τοπικής στοίχισης για δύο συµβολοσειρές S 1 και S 2, τότε µπορούµε να αποδείξουµε εύκολα ότι: υ*= max[υ(i,j): i n, j m]. Εποµένως αν λύσουµε το πρόβληµα τοπικής στοίχισης επιθέµατος µπορούµε να υπολογίσουµε και το πρόβληµα τοπικής στοίχισης που εκφράζει την τοπική οµοιότητα µεταξύ 2 ακολουθιών. Οι τιµές υ(i,j) υπολογίζονται από την ακόλουθη αναδροµική σχέση: - 13 -

υ(i,j)=max[0,υ(i-1,j-1)+s(s 1 (i), S 2 (j)), υ(i-1,j)+ s(s 1 (i),_), υ(i,j-1)+ s(_,s 2 (j))] µε αρχικές συνθήκες: υ(i,0)=0 και υ(0,j)=0 για όλα τα i, j εφόσον µπορούµε να επιλέξουµε ένα κενό επίθεµα. Εποµένως υπολογίζουµε τις τιµές υ(i,j) µε τη µέθοδο του υναµικού Προγραµµατισµού και επιλέγουµε ως λύση στο πρόβληµα τοπικής στοίχισης τη µέγιστή τιµή υ*(i,j). Μέχρι στιγµής για να υπολογίσουµε την τιµή στοίχισης µεταξύ 2 ακολουθιών έχουµε χρησιµοποιήσει τις βασικές πράξεις µετασχηµατισµού (ένθεση, διαγραφή ή αντικατάσταση χαρακτήρα). Σε αυτό το σηµείο θα εισάγουµε µια συµπληρωµατική πράξη, αυτή της προσθήκης κενών. Η προσθήκη κενών στη στοίχιση 2 ακολουθιών όπως και στο σχήµα 4.2.β επηρεάζει την οµοιότητα 2 ακολουθιών και έχει συγκεκριµένο κόστος- βάρος, όπως και κάθε βασική πράξη µετασχηµατισµού. Ορισµός-6: Ως κενό- gap, ορίζουµε τη µέγιστη διαδοχική σειρά από κενούς χαρακτήρες (spaces) σε µία συµβολοσειρά. Για να συµπεριλάβουµε το κόστος που η προσθήκη κενών εισάγει στη στοίχιση 2 ακολουθιών, µπορούµε σε µια απλή προσέγγιση να θεωρήσουµε ότι κάθε κενό συνεισφέρει ένα σταθερό βάρος W g, ανεξάρτητα από το µήκος του. Οπότε η τιµή µιας στοίχισης που περιέχει k κενά σύµφωνα µε την απλή προσέγγιση δίνεται από τη σχέση: l i= 1 ' ' s( S1 ( i), S 2 ( i)) kw g Στόχος µας είναι να προσδιορίσουµε τη βέλτιστη στοίχιση που µεγιστοποιεί την τιµή της παραπάνω σχέσης. Η προσθήκη κενών χρησιµοποιείται συχνά στη στοίχιση ακολουθιών βιολογικών δεδοµένων, αφού ένα κενό σε µια συµβολοσειρά S 1 απέναντι από την υπο-ακολουθία α µίας συµβολοσειρά S 2 αντιστοιχεί είτε σε διαγραφή είτε σε ένθεση της α στην S 2. Εποµένως αυτή η ένθεση ή διαγραφή µπορεί να µοντελοποιήσει ένα γεγονός µετάλλαξης. 4.4.2 Το Πρόβληµα Προσεγγιστικής Εύρεσης Προτύπου µε k διαφορές Προκειµένου να υπολογίσουµε τη στοίχιση µεταξύ 2 ακολουθιών, υπολογίζουµε τον πίνακα υναµικού Προγραµµατισµού. Ένα σχετικό πρόβληµα που επιλύεται µε τη µέθοδο του υναµικού Προγραµµατισµού αποτελεί και το πρόβληµα της Προσεγγιστικής εύρεσης ενός δοσµένου προτύπου σε µια ακολουθία. Σε αντίθεση µε την ακριβή εύρεση προτύπου - 14 -

που µελετήσαµε στο 2 ο κεφάλαιο του Α Μέρους, στην προσεγγιστική αναζήτηση ενός προτύπου δεχόµαστε εµφανίσεις του προτύπου, επιτρέποντας ένα µέγιστο αριθµό διαφορών. Οι διαφορές σε χαρακτήρες µπορούν να αντιπροσωπεύουν είτε αντικαταστάσεις χαρακτήρων ή ενθέσεις κενών. Αν k είναι ο µέγιστος επιτρεπόµενος αριθµός διαφορών τότε το πρόβληµα χαρακτηρίζεται ως Πρόβληµα Προσεγγιστικής Εύρεσης Προτύπου µε k διαφορές (k-difference inexact matching problem). Αν υποθέσουµε ότι η προσεγγιστική εύρεση ενός προτύπου αποτελεί τη βέλτιστη στοίχιση µιας συµβολοσειράς (query sequence) ως προς µια ακολουθία τότε µπορούµε να δούµε το πρόβληµα της προσεγγιστικής εύρεσης προτύπου ως πρόβληµα ολικής στοίχισης της συµβολοσειράς εισόδου όπου επιτρέπουµε k διαφορές. Οπότε και το πρόβληµα Προσεγγιστικής Εύρεσης Προτύπου µε k διαφορές (k-difference inexact matching problem) µετασχηµατίζεται σε πρόβληµα ολικής στοίχισης µε k διαφορές (k-difference global alignment problem). Πριν προχωρήσουµε θα δώσουµε τους ορισµούς των 2 παραπάνω προβληµάτων. Το Πρόβληµα Ολικής Στοίχισης µε k διαφορές- k-difference global alignment problem: Το πρόβληµα της ολικής στοίχισης µε k διαφορές για δυο ακολουθίες S 1 και S 2 ορίζεται ως εξής: εντόπισε τη βέλτιστη ολική στοίχιση των S 1 και S 2 που περιλαµβάνει το πολύ k αντικαταστάσεις χαρακτήρων ή ενθέσεις κενών. Το Πρόβληµα Προσεγγιστικής Εύρεσης Προτύπου µε k διαφορές- k- difference inexact matching problem: Το πρόβληµα της προσεγγιστικής εύρεσης προτύπου µε k διαφορές ορίζεται ως εξής: εντόπισε τις εµφανίσεις του προτύπου Ρ στην ακολουθία Χ επιτρέποντας το πολύ k αντικαταστάσεις χαρακτήρων ή ενθέσεις κενών. Το πρόβληµα της Προσεγγιστικής Εύρεσης Προτύπου σε ακολουθίας επιτρέποντας το πολύ k διαφορές, εµφανίζεται σε αρκετές εφαρµογές Μοριακής Βιολογίας όπως ο καθορισµός γονιδίων των οποίων η µετάλλαξη επηρεάζει γενετικές ασθένειες. Η βασική ιδέα βασίζεται στον προσδιορισµό του γονιδίου ή µιας περιοχής που περιέχει ένα γονίδιο, το οποίο ευθύνεται για τη συγκεκριµένη ασθένεια. Αντίγραφα αυτών των γονιδίων ή των περιοχών λαµβάνονται και τοποθετούνται διαδοχικά από υγιείς ανθρώπους και ανθρώπους που έχουν προσβληθεί από την ασθένεια. Οι ακολουθίες DNA που σχηµατίζονται συγκρίνονται για να εντοπιστούν προκαθορισµένες διαφορές µιας και πολλές γενετικές ασθένειες προκαλούνται από πολύ µικρές διαφοροποιήσεις (π.χ.: αντικαταστάσεις χαρακτήρων) σε ένα γονίδιο. - 15 -

Στις επόµενες παραγράφους θα εξετάσουµε πως επιλύεται το πρόβληµα της ολικής στοίχισης µε k διαφορές και στη συνέχεια το πρόβληµα προσεγγιστικής εύρεσης προτύπου µε k διαφορές. Στο πρόβληµα της ολικής στοίχισης µε k διαφορές προσπαθούµε να εντοπίσουµε τη βέλτιστη στοίχιση µε τον περιορισµό ότι αυτή θα περιέχει το πολύ k αντικαταστάσεις και ενθέσεις κενών (η τιµή του k είναι εκ των προτέρων γνωστή). Χρησιµοποιούµε τη µέθοδο του υναµικού Προγραµµατισµού για να υπολογίσουµε την απόσταση µετασχηµατισµού µεταξύ των 2 ακολουθιών, αλλά επικεντρώνουµε το ενδιαφέρον µας σε µια περιοχή µεγέθους k x m στον πίνακα. Όπως θα περιγράψουµε αναλυτικά η παρατήρηση αυτή αποτελεί κλειδί για τη λύση του προβλήµατος. Ας θεωρήσουµε την κεντρική διαγώνιο του πίνακα δυναµικού προγραµµατισµού για τις 2 ακολουθίες στοίχισης. Όπως έχουµε ήδη δει κάθε µονοπάτι στον πίνακα δυναµικού προγραµµατισµού προσδιορίζει και µια ολική στοίχιση που ανακτάται µέσω των δεικτών οπισθοχώρησης. Προκειµένου να ανακτήσουµε µια ολική στοίχιση µε k το πολύ διαφορές δεχόµαστε κάθε µονοπάτι το οποίο δεν περιέχει στοιχεία της µορφής (i,i+λ) ή (i,i-λ), λ> k, δηλαδή, στοιχεία που απέχουν απόσταση λ από την κεντρική διαγώνιο. Εποµένως µόνο τα µονοπάτια τα οποία δεν απέχουν ποτέ περισσότερο από k οριζόντιες θέσεις από την κύρια διαγώνιο είναι υποψήφια για την ανάκτηση µιας στοίχισης µε k το πολύ διαφορές. Κύρια διαγώνιος Σχήµα 4.4.2.α: Η κύρια διαγώνιος και µια λωρίδα µήκους k=2, σε κάθε πλευρά που προσδιορίζει το µέγιστο πλήθος επιτρεπόµενων διαφορών. - 16 -

Οπότε για να υπάρχει κάποια λύση στο πρόβληµα θα πρέπει να ισχύει η συνθήκη m-n k. Εποµένως στον πίνακα υναµικού Προγραµµατισµού, χρειάζεται να συµπληρώσουµε µόνο µία περιοχή η οποία αποτελείται από 2k+1 στοιχεία σε κάθε γραµµή µε κέντρο την κεντρική διαγώνιο. Στην περίπτωση που η παραπάνω συνθήκη δεν ισχύει δε µπορούµε να προσδιορίσουµε µια βέλτιστη ολική στοίχιση µεταξύ των 2 ακολουθιών µε k το πολύ διαφορές. Χρησιµοποιώντας παρόµοια µεθοδολογία προσπαθούµε να λύσουµε και το πρόβληµα της προσεγγιστικής εύρεσης προτύπου µε k διαφορές. Σε αυτή την περίπτωση αναζητάµε µια βέλτιστη στοίχιση του προτύπου P και της ακολουθίας εισόδου, χωρίς να προσµετράµε τα κενά που προστίθενται στα άκρα του προτύπου. Για να λύσουµε το πρόβληµα χρησιµοποιούµε µια υβριδική µέθοδο δυναµικού προγραµµατισµού µε χρήση δέντρων επιθεµάτων (suffix trees). Όπως και στο προηγούµενο πρόβληµα ορίζουµε την κεντρική διαγώνιο του πίνακα δυναµικού προγραµµατισµού. Οι διαγώνιες που βρίσκονται πάνω από την κύρια διαγώνιο αριθµούνται από 1 µέχρι m και αυτές που βρίσκονται από κάτω από -1 µέχρι n. Εφόσον τα κενά στην ακολουθία δεν υπολογίζονται, η γραµµή µηδέν του πίνακα δυναµικού προγραµµατισµού αρχικοποιείται µε όλα τα στοιχεία της µηδέν. Αυτό µας επιτρέπει να στοιχίσουµε το αριστερό άκρο της ακολουθίας µε ένα κενό χωρίς αρνητική βαθµολογίας. Ορισµός-7: Ένα d- µονοπάτι στον πίνακα δυναµικού προγραµµατισµού είναι ένα µονοπάτι το οποίο αρχίζει στη γραµµή µηδέν και καθορίζει ένα σύνολο από d αντικαταστάσεις και κενά. Ορισµός-8: Ένα d-µονοπάτι είναι µέγιστο (farthest reaching), ως προς τη διαγώνιο i, εάν τελειώνει στη διαγώνιο i και ο δείκτης της στήλης στην οποία τελειώνει είναι µεγαλύτερος ή ίσος µε τον αντίστοιχο δείκτη οποιουδήποτε άλλου µονοπατιού d που τελειώνει στην διαγώνιο i. Για να υπολογίσουµε την προσεγγιστική εύρεση µε k διαφορές, εφαρµόζουµε τα ακόλουθα βήµατα k φορές. Σε κάθε επανάληψη (d k), αναζητούµε το τέλος του µέγιστου d-µονοπατιού πάνω στη διαγώνιο i, - n<i<m. Το µέγιστο d-µονοπάτι πάνω στη διαγώνιο i υπολογίζεται από τα µέγιστα d-1 -µονοπάτια στις διαγωνίους i-1, i και i+1. - 17 -

4.5 Εφαρµογές στη Ανάλυση Ακολουθιών Βιολογικών εδοµένων Σε αυτή την παράγραφο θα αναφέρουµε στις κυριότερες εφαρµογές της Στοίχισης Ακολουθιών στην ανάλυση Ακολουθιών Βιολογικών εδοµένων. Αυτό το οποίο µας ενδιαφέρει είναι η ταυτόχρονη στοίχιση ακολουθιών Βιολογικών εδοµένων, που αποτελεί το βασικό εργαλείο στη σύγκριση και εξαγωγή οµοιοτήτων µε σηµαντική βιολογική σηµασία από ένα σύνολο ακολουθιών. Έχοντας ορίσει τη στοίχιση 2 ακολουθιών θα γενικεύσουµε το πρόβληµα ορίζοντας, την πολλαπλή στοίχιση ακολουθιών- multiple sequence alignment. Το Πρόβληµα της Πολλαπλής Στοίχισης- multiple sequence alignment problem: Μία πολλαπλή ολική στοίχιση από k>2 συµβολοσειρές S={ S 1, S 2,., S κ } είναι µία φυσική γενίκευση της στοίχισης για δύο συµβολοσειρές. Επιλέγουµε να επιτρέπεται η ένθεση κενών σε καθεµία από τις k συµβολοσειρές έτσι ώστε οι συµβολοσειρές που προκύπτουν να έχουν το ίδιο µήκος, καθορισµένο να είναι l. Ύστερα οι συµβολοσειρές διαµορφώνονται σε έναν πίνακα µε k γραµµές και l στήλες έτσι ώστε κάθε χαρακτήρας και κενό από κάθε συµβολοσειρά να είναι σε µία µοναδική στήλη. Η πολλαπλή στοίχιση ακολουθιών χρησιµοποιείται στην αναγνώριση και αναπαράσταση πρωτεϊνικών οικογενειών και υπερ-οικογενειών, στην αναπαράσταση των χαρακτηριστικών που µεταφέρονται στις ακολουθίες DNA ή στις πρωτεϊνικές ακολουθίες και στην αναπαράσταση της εξελικτικής ιστορίας (φυλογενετικά δέντρα) από ακολουθίες DNA ή πρωτεϊνών. Όνοµα Ακολουθίας Στοίχιση Ακολουθιών 1 10 20 P.falciparum M M E Q V C D V F D I Y A I C A C C K V P.vivax - M E D L S D V F D I Y A I C A C C K V P.chabaudi - M E D I S E I F D I Y A I C A C C K V P.berghei - M E D L S E T F D I Y A I C A C C K V P.vinckei - - - - - - - - - - - - A I C A C C K V L.major A D F A F P S L R A F S I V V A L D M - E.coli - - - - - - - - - M I S L I A A L A V - L.casei - - - - - - - - - - T A F L W A Q N R - H.sapiens - - - - - - M V G S L N C I V A V S Q - Πίνακας 4.5: Παράδειγµα Πολλαπλής Στοίχισης 9 Βιολογικών Ακολουθιών Η πολλαπλή στοίχιση µεταξύ ακολουθιών βιολογικών δεδοµένων (Multiple Sequence Alignment) αποτελεί συχνά χρησιµοποιούµενη τεχνική - 18 -

για τη σύγκριση και εξερεύνηση βιολογικών ακολουθιών. Για ένα σύνολο οµόλογων ακολουθιών η πολλαπλή στοίχιση χρησιµοποιείται στην πρόβλεψη της δευτερεύουσας δοµής νέων ακολουθιών και στην ανακάλυψη διαγνωστικών µοτίβων (diagnostic patterns) οικογενειών. Η πολλαπλή στοίχιση βιολογικών ακολουθιών χαρακτηρίζεται ως ολική- global alignment, στην περίπτωση που µελετάµε ολόκληρες ακολουθίες, και ως τοπική- local alignment, στην περίπτωση που µελετάµε µόνο ένα κοµµάτι από τις δοσµένες ακολουθίες. Η δηµιουργία µιας βέλτιστης στοίχισης µεταξύ βιολογικών ακολουθιών, αποτελεί ένα δύσκολο υπολογιστικό πρόβληµα στην περιοχή της Βιοπληροφορικής. Η πολλαπλή στοίχιση στοχεύει στην αποκάλυψη των σχέσεων (εξελικτικών, δοµικών και λειτουργικών) µεταξύ ακολουθιών που µπορεί να έχουν διαφοροποιηθεί για εκατοµµύρια ή και δισεκατοµµύρια χρόνια. Η λεπτοµερής αποκάλυψη αυτών των σχέσεων θα απαιτούσε τη λεπτοµερή γνώση της εξελικτικής ιστορίας και των ιδιοτήτων των ακολουθιών, η οποία είναι συνήθως ελάχιστα διαθέσιµη. Βιβλιογραφικές Αναφορές 1. D.Gusfield. Algorithms on strings, trees and sequences. Cambridge University Press, 1997. - 19 -