Κεφάλαιο 3 ο : Εισαγωγή στο δέντρο επιθεµάτων (Suffix Tree) και στις Εφαρµογές του Στα πλαίσια αυτού του κεφαλαίου παρουσιάζουµε δυο ευέλικτες δενδρικές δοµές: το έντρο Επιθεµάτων (Suffix Tree) και το Γενικευµένο έντρο Επιθεµάτων (Generlized Suffix Tree), που επιτρέπουν την αποδοτική αποθήκευση και διαχείριση συµβολοσειρών. Στο τέλος του κεφαλαίου περιγράφουµε τις βασικές εφαρµογές τους σε προβλήµατα Μοριακής Βιολογίας και ειδικότερα στην ανάλυση Ακολουθιών Βιολογικών εδοµένων µε σκοπό την αναζήτηση επαναλαµβανόµενων µοτίβων. 3.1 Το έντρο Επιθεµάτων Πριν ξεκινήσουµε την περιγραφή του έντρου Επιθεµάτων (Suffix Tree), θυµίζουµε ότι για µια συµβολοσειρά x = wv, όπου w, v Σ +, η υποσυµβολοσειρά, v, ονοµάζεται κανονικό επίθεµα του x. Εποµένως µια συµβολοσειρά S, µήκους S =m, έχει m δυνατά µη κενά επιθέµατα που είναι τα ακόλουθα: S[1 m], S[2 m],. S[m-1 m] και S[m]. Για παράδειγµα για τη συµβολοσειρά "sequence", τα δυνατά επιθέµατα είναι: sequence, equence, quence, uence, ence, nce, ce, e. Το έντρο Επιθεµάτων (Suffix Tree), αποθηκεύει όλα τα δυνατά επιθέµατα της συµβολοσειράς S, όπως φαίνεται και στο ακόλουθο σχήµα. x w b x c c 1 c x b c u c 4 b x c 3 6 5 2 Σχήµα 1: Το έντρο Επιθεµάτων για τη συµβολοσειρά S=xbx Ορισµός-1: Το έντρο Επιθεµάτων (Suffix Tree), Τ, µιας συµβολοσειρά S µεγέθους m ( S =m) ορίζεται ως η κατευθυνόµενη δενδρική δοµή µε ακριβώς m φύλλα τα οποία είναι αριθµηµένα από το 1 µέχρι το m. Κάθε εσωτερικός κόµβος,ο οποίος δεν είναι η ρίζα, έχει τουλάχιστον δύο παιδιά και κάθε πλευρά - 1 -
αντιστοιχίζεται σε µία µη-µηδενική υπο-συµβολοσειρά του S. Οι υποσυµβολοσειρές των πλευρών που εξέρχονται από τον ίδιο κόµβο δεν επιτρέπεται να έχουν κοινό τον πρώτο τους χαρακτήρα. Τέλος κύριο χαρακτηριστικό του δένδρου επιθεµάτων είναι το γεγονός ότι αν ενώσουµε τις ετικέτες µονοπατιών (pth lbels) που συναντάµε σε µια διαδροµή από τη ρίζα προς κάποιο από τα φύλλα, (έστω το φύλλο µε αριθµό i), σχηµατίζουµε το επίθεµα της συµβολοσειράς S που ξεκινά από την θέση i, δηλαδή το S[i..m]. Από τον παραπάνω ορισµό δεν εξασφαλίζεται ότι υπάρχει έντρο Επιθεµάτων για κάθε συµβολοσειρά S. Για παράδειγµα αν από την συµβολοσειρά S=xbxc που είδαµε στο προηγούµενο παράδειγµα αφαιρέσουµε το τελικό χαρακτήρα c προκύπτει η συµβολοσειρά S =xbx για την οποία το επίθεµα S[4 5]=x δεν καταλήγει σε κάποιο φύλλο αλλά σε εσωτερικό κόµβο, αφού αποτελεί ταυτόχρονα και πρόθεµα της συµβολοσειράς. Για να αποφύγουµε αυτό το πρόβληµα κάνουµε την ακόλουθη θεώρηση: σε κάθε συµβολοσειρά, S, προσθέτουµε έναν επιπλέον τελικό χαρακτήρα (τερµατικό χαρακτήρα), ο οποίος δεν ανήκει στο αλφάβητο της συµβολοσειράς, άρα δεν εµφανίζεται πουθενά αλλού στην συµβολοσειρά. Συνήθως προστίθεται ως τερµατικός χαρακτήρας (termintion symbol) ο χαρακτήρας "". Ορισµός-2: Ορίζουµε ως Ετικέτα Μονοπατιού (Pth Lbel), από τη ρίζα του δέντρου σε κάποιο κόµβο, τη συµβολοσειρά που προκύπτει από τη συνένωση των υπο-συµβολοσειρών που συναντάµε από τη ρίζα στον αντίστοιχο κόµβο. Μια απλοϊκή θεώρηση για την κατασκευή του έντρου Επιθεµάτων, για µια συµβολοσειρά S, περιλαµβάνει τα ακόλουθα βήµατα: 1. Ένθεση µιας πλευράς στο δέντρο για το επίθεµα S[1 m], 2. ιαδοχική ένθεση των επιθεµάτων S[i m], για i=2 m. Στο πρώτο βήµα ο αλγόριθµος θεωρεί ότι το δέντρο αποτελείται µόνο από τη ρίζα και εισάγει σε αυτό το επίθεµα S[1..m], (ολόκληρη δηλαδή τη συµβολοσειρά και τον τερµατικό χαρακτήρα), µε αποτέλεσµα το δέντρο Ν 1 να αποτελείται από µια πλευρά µε ετικέτα "S" και ένα φύλλο αριθµηµένο µε τον αριθµό "1". Σε κάθε επόµενο βήµα δηµιουργούµε το δέντρο N i+1, από το δέντρο N i, ως εξής: ξεκινώντας από τη ρίζα του δέντρου N i, βρίσκουµε το µέγιστο σε µήκος µονοπάτι από τη ρίζα, για το οποίο η ετικέτα µονοπατιού ταιριάζει µε κάποιο πρόθεµα του S[i+1..m], (συγκρίνοντας διαδοχικά τους χαρακτήρες). Έστω ότι στο χαρακτήρα S[k], µε k i, έχουµε µη-ταίριασµα. Σε αυτή τη θέση υπάρχουν δύο δυνατές καταστάσεις: είτε βρισκόµαστε σε κάποιο κόµβο w του δέντρου N i είτε στο µέσο κάποιας πλευράς, µεταξύ των κόµβων (u,v). Στη δεύτερη περίπτωση χωρίζουµε την πλευρά στη µέση εισάγοντας ένα νέο εσωτερικό κόµβο, έστω w, αµέσως µετά τον τελευταίο - 2 -
χαρακτήρα του δέντρου που ταίριαζε σε κάποιον χαρακτήρα στο S[i+1 m]. H νέα πλευρά (u, w), έχει ως ετικέτα µονοπατιού το τµήµα της πλευράς (u,v), που ταιριάζει στην υπο-συµβολοσειρά S[i+1 m], ενώ η πλευρά (w, v), αποκτά ως ετικέτα µονοπατιού το υπόλοιπο της πλευράς (u,v). Στη συνέχεια (το βήµα αυτό είναι κοινό και στην 1 η και στη 2 η περίπτωση), ο αλγόριθµος δηµιουργεί µια νέα πλευρά (w, i+1), η οποία εκτείνεται από τον κόµβο w, σε ένα νέο φύλλο µε αριθµό "i+1". H νέα αυτή πλευρά έχει ως ετικέτα µονοπατιού από τη ρίζα στο φύλλο "i+1", το επίθεµα S[i+1..m]. Η απλοϊκή θεώρηση κατασκευής του έντρου Επιθεµάτων στοιχίζει O(m 2 ) χρόνο, για ένα αλφάβητο πεπερασµένου µεγέθους. υο διαδοχικά βήµατα του αλγορίθµου φαίνονται στο ακόλουθο σχήµα. κοινό πρόθεµα x b x c 1 x w b x c c 1 c x b b x c c x b 4 b x c 3 2 3 2 Σχήµα 2: Κατασκευή του έντρου Επιθεµάτων µε την απλοϊκή προσέγγιση. Από το δέντρο Ν3 µεταβαίνουµε στο Ν4 εισάγοντας το επίθεµα S[4 6]=xc. Ξεκινώντας από τη ρίζα, παρατηρούµε ότι το S[4 5] αποτελεί κοινό πρόθεµα και µετά τον τελευταίο κοινό χαρακτήρα προσθέτουµε το νέο κόµβο w. Πιο αποδοτικοί αλγόριθµοι για την κατασκευή του έντρου Επιθεµάτων, έχουν προταθεί στη σχετική βιβλιογραφία, ξεκινώντας µε τον αλγόριθµο που παρουσίασε ο Weiner το 1973 [1], ο McCreight [2] τo 1976 και τέλος το 1995 ο Ukkonen [3], ο οποίος απαιτεί γραµµικό χρόνο O(n). 3.2 Το Γενικευµένο έντρο Επιθεµάτων Το Γενικευµένο έντρο Επιθεµάτων (Generlized Suffix Tree), αποτελεί ένα Γενικευµένο έντρο Επιθεµάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέµατα ενός συνόλου συµβολοσειρών S={S 1,S 2, S n }, (σχήµα 3). Ορισµός-3: Το Γενικευµένο έντρο Επιθεµάτων (Generlized Suffix Tree), GSΤ, ενός συνόλου συµβολοσειρών S ορίζεται ως η κατευθυνόµενη - 3 -
δενδρική δοµή µε ακριβώς S 1 + S 2 + S n. Κάθε µονοπάτι από την ρίζα προς κάποιο φύλλο αναπαριστά ένα επίθεµα το οποίο µπορεί να ανήκει σε µία ή παραπάνω συµβολοσειρές. Γι αυτό τον λόγο σε κάθε φύλλο σηµειώνονται οι συµβολοσειρές (ή συµβολοσειρά) στις οποίες ανήκει το αντίστοιχο επίθεµα καθώς και οι θέσεις που αρχίζει αυτό σε κάθε µία από αυτές. Για να κατασκευάσουµε το Γενικευµένο έντρο Επιθεµάτων (Generlized Suffix Tree), ενός συνόλου συµβολοσειρών {S 1,S 2,,S m }, µπορούµε να χρησιµοποιήσουµε οποιονδήποτε από τους αλγορίθµους που ήδη αναφέραµε για την κατασκευή του έντρου Επιθεµάτων, µία φορά για κάθε µία από τις συµβολοσειρές. Το µόνο που πρέπει να διευκρινιστεί είναι ότι κάθε εκτέλεση του αλγορίθµου πέραν της πρώτης δεν εισάγει τα επιθέµατα σε κάποια νέο δένδρο επιθέµατος αλλά σ αυτό που σχηµατίσθηκε από την πρώτη εκτέλεση. Επίσης ενηµερώνονται κατάλληλα οι πληροφορίες που υπάρχουν στα φύλλα. Συνολικά ο χρόνος που απαιτείται µέχρι την ολοκλήρωση της δηµιουργίας είναι γραµµικός στο άθροισµα των µηκών των συµβολοσειρών. 1,3 2,3 x b b 2,5 b x x b x 1,5 2,6 b x b b 2,2 2,4 1,1 1,4 1,2 2,1 Σχήµα 3: Το Γενικευµένο έντρο Επιθεµάτων για τις συµβολοσειρές S={xbx, bbxb} 3.3 Εφαρµογές στη Ανάλυση Ακολουθιών Βιολογικών εδοµένων Σε αυτή την παράγραφο θα αναφέρουµε Εφαρµογές του έντρου Επιθεµάτων σε προβλήµατα ανάλυσης Ακολουθιών Βιολογικών εδοµένων. - 4 -
3.3.1. Ακριβής Εύρεση Προτύπου Στο προηγούµενο κεφάλαιο, αναφερθήκαµε σε 3 βασικούς αλγορίθµους Ακριβούς Εύρεσης Προτύπου σε ακολουθίες, των οποίων η πολυπλοκότητα χρόνου είναι γραµµική ως προς το µήκος της ακολουθίας. Σε αυτή την παράγραφο θα περιγράψουµε πώς το έντρο Επιθεµάτων επιλύει µε αποδοτικό τρόπο το ίδιο πρόβληµα σε γραµµικό χρόνο ως προς το µήκος του προτύπου. Ας υποθέσουµε ότι η ακολουθία εισόδου T ( Τ = m), είναι εκ των προτέρων γνωστή και αναζητούµε το πρότυπο P, µεγέθους n. Το έντρο Επιθεµάτων επιλύει το πρόβληµα σε O(n+k) χρόνο, όπου k: το πλήθος των εµφανίσεων του P στο T. Όπως παρατηρούµε η πολυπλοκότητα είναι ανεξάρτητη από το µήκος της ακολουθίας, την οποία έχουµε αναπαραστήσει σε ένα προ-επεξεργαστικό βήµα, σε ένα έντρο Επιθεµάτων (θυµίζουµε ότι ο χρόνος κατασκευής του δέντρου επιθεµάτων είναι O( T )). Η µεθοδολογία είναι η εξής: 1. ηµιούργησε το έντρο Επιθεµάτων Τ, για την ακολουθία εισόδου Τ. 2. Στη συνέχεια ξεκινώντας από τη ρίζα, σύγκρινε έναν προς έναν τους χαρακτήρες του Ρ, ακολουθώντας το κατάλληλο µονοπάτι. Εάν εµφανιστεί κάποιο µη-ταίριασµα, τότε το πρότυπο δεν εµφανίζεται στην ακολουθία, διαφορετικά το πρότυπο εµφανίζεται και η λίστα των εµφανίσεων περιλαµβάνει όλα τα φύλλα του Τ, που βρίσκονται κάτω από τον κόµβο του τελευταίου χαρακτήρα του P. Ένα παράδειγµα φαίνεται στο ακόλουθο σχήµα. Το πρότυπο P=w, εµφανίζεται 3 φορές στα σηµεία 1,4,7.... y w x. z 1 4 7 Σχήµα 4: Αναζήτηση του pttern P=w, στο δέντρο T=wywxwxz. Στην προηγούµενη προσέγγιση, η χρήση του έντρου Επιθεµάτων, είναι αποδοτική εφόσον η ακολουθία είναι εκ των προτέρων γνωστή οπότε για - 5 -
κάθε νέο πρότυπο που αναζητούµε δε χρειάζεται κάποιο βήµα προεπεξεργασίας. Στην αντίθετη περίπτωση, όταν το πρότυπο είναι γνωστό εκ των προτέρων οι αλγόριθµοι που παρουσιάσαµε στο προηγούµενο κεφάλαιο, απαιτούν O(n) χρόνο προ-επεξεργασίας του προτύπου και Ο(m) χρόνο για την αναζήτηση. 3.3.2. Ακριβής Εύρεση Πολλαπλών Προτύπων Στο προηγούµενο κεφάλαιο, παρουσιάσαµε και τον τρόπο κατασκευής του Aho- Corsick αυτοµάτου για την αναζήτηση ενός συνόλου προτύπων P ( Ρ =n) σε µια ακολουθία T, ( T =m) σε χρόνο O(n+m+k P ), όπου k P : το πλήθος των εµφανίσεων όλων των προτύπων. Στην περίπτωση που η ακολουθία είναι εκ των προτέρων γνωστή, όπως και στην προηγούµενη εφαρµογή, µπορούµε να χρησιµοποιήσουµε το έντρο Επιθεµάτων, το οποίο επιλύει το πρόβληµα Ακριβούς Εύρεσης ενός συνόλου προτύπων σε συνολικό χρόνο O(n+m+k P ). Η µεθοδολογία που περιγράψαµε στην προηγούµενη περίπτωση για ένα πρότυπο ακολουθείται για το σύνολο των προτύπων. Ποια είναι όµως τα πλεονεκτήµατα της χρήσης του έντρου Επιθεµάτων σε σχέση µε το αυτόµατο Aho- Corsick και πότε µπορεί να χρησιµοποιηθεί η κάθε µέθοδος. Συγκρίνοντας τις 2 µεθόδους παρατηρούµε ότι η πολυπλοκότητα χρόνου, είναι η ίδια. Παρόλα αυτά στην περίπτωση που το σύνολο των προτύπων έχει µεγαλύτερο µέγεθος από την ακολουθία, n > m, το έντρο Επιθεµάτων χρησιµοποιεί λιγότερο χώρο. Σε προβλήµατα Μοριακής Βιολογίας το σύνολο των προτύπων που αναζητούµεβιβλιοθήκη δοσµένων DNA ακολουθιών-, είναι συνήθως µεγαλύτερο σε σχέση µε την ακολουθία εισόδου. Στην αντίθετη περίπτωση µπορούµε να χρησιµοποιήσουµε το αυτόµατο Aho- Corsick, αν και το έντρο Επιθεµάτων απαιτεί λιγότερο χρόνο. Οπότε σε κάθε περίπτωση υπάρχει ένας συµβιβασµός στον απαιτούµενο χώρο και χρόνο, που µας καθοδηγεί ως προς ποια λύση θα χρησιµοποιήσουµε, ανάλογα µε τα δεδοµένα εισόδου. 3.3.3. Μέγιστη Κοινή Υπο-συµβολοσειρά 2 Ακολουθιών Ένα επίσης σηµαντικό πρόβληµα στην ανάλυση ακολουθιών είναι η εύρεση της µέγιστης σε µήκος κοινής υπο-συµβολοσειράς των ακολουθιών S 1 και S 2, που ονοµάζεται "longest common substring problem" στη διεθνή βιβλιογραφία. Για παράδειγµα οι ακολουθίες S 1 =superiorclifornilives και S 2 = seliver, έχουν ως µέγιστη κοινή υπο-συµβολοσειρά τη λέξη live. Ένας αποδοτικός τρόπος επίλυσης του παραπάνω προβλήµατος είναι η κατασκευή ενός Γενικευµένου έντρου Επιθεµάτων για τις ακολουθίες S 1 και S 2,, όπου κάθε φύλλο του δέντρου αναπαριστά είτε ένα επίθεµα µιας ακολουθίας είτε ένα κοινό επίθεµα που εµφανίζεται και στις 2 ακολουθίες. Σηµειώνουµε κάθε εσωτερικό κόµβο του δέντρου u, µε "1" ή "2", αν - 6 -
εµπεριέχει στο υπόδεντρο του u, κάποιο φύλλο που αναπαριστά κάποιο επίθεµα της ακολουθίας S 1 ή S 2. Η ετικέτα µονοπατιού - pth lbel, κάθε εσωτερικού κόµβου που σηµειώνεται ταυτόχρονα µε "1" και "2", αποτελεί µια κοινή υπο-συµβολοσειρά των δυο ακολουθιών S 1 και S 2,. Εντοπίζουµε όλες τις κοινές υπο-συµβολοσειρές και η µεγαλύτερη σε µήκος, αποτελεί την απάντηση στο πρόβληµα της µέγιστης κοινής υπο-συµβολοσειράς. Η κατασκευή του Γενικευµένου έντρου Επιθεµάτων, στοιχίζει γραµµικό χρόνο ως προς το συνολικό µήκος των ακολουθιών S 1 και S 2, (Ο( S 1 + S 2 ), ενώ η διαπέραση των εσωτερικών κόµβων µε γνωστές τεχνικές γραµµικού επίσης χρόνου. Άµεση εφαρµογή της εύρεσης της µέγιστης κοινής υπο-συµβολοσειράς δυο ακολουθιών στη Βιοπληροφορική αποτελεί το DNA Contmintion Problem. DNA Contmintion Problem: Για µια δοσµένη ακολουθία DNA S 1, που έχει πρόσφατα αποµονωθεί και ταυτοποιηθεί και µια ήδη γνωστή ακολουθία S 2, (επιµέρους τµήµατα που πιθανά έχουν µολυνθεί), αναζητούµε όλες τις υποσυµβολοσειρές της S 2 που εµφανίζονται στην S 1, µε µήκος µεγαλύτερο από l. To DNA Contmintion Problem, µπορεί να λυθεί σε γραµµικό χρόνο, επεκτείνοντας τη µεθοδολογία που περιγράψαµε για την εύρεση της µέγιστης κοινής υπο-συµβολοσειράς δυο ακολουθιών. Αρχικά κατασκευάζουµε το Γενικευµένο έντρο Επιθεµάτων για τις ακολουθίες S 1 και S 2. Σηµειώνουµε κάθε εσωτερικό κόµβο του δέντρου u, που εµπεριέχει στο υπόδεντρο του, κάποιο φύλλο που αναπαριστά κάποιο επίθεµα των ακολουθιών S 1 και S 2 και σε ένα τελευταίο βήµα αναφέρουµε όλους τους κόµβους µε βάθος string-depth(u) l. Αν δεν υπάρχουν τέτοιοι κόµβοι, τότε µε µεγάλη πιαθνότητα αλλά όχι µε απόλυτη σιγουριά, η ακολουθία DNA S 1 δεν έχει µολυνθεί από τα επιµέρους τµήµατα. Μια ευρύτερη θεώρηση του DNA Contmintion Problem είναι η ακόλουθη. Ας υποθέσουµε ότι διαθέτουµε ένα σύνολο συµβολοσειρών DNA P, που έχουν µολυνθεί (DNA string contminnts), και θέλουµε να εξετάσουµε αν µια πρόσφατα ταυτοποιηµένη ακολουθία DNA S 1, είναι µολυσµένη. Για να επιλύσουµε αυτό το πρόβληµα δηµιουργούµε ένα Γενικευµένο έντρο Επιθεµάτων για το σύνολο των προτύπων Ρ και την ακολουθία S 1, και αναζητούµε τους εσωτερικούς κόµβους που έχουν ως φύλλα στα υπόδεντρά τους κοινά επιθέµατα της ακολουθίας S 1 και ενός τουλάχιστον από τις συµβολοσειρές του συνόλου Ρ. Όλοι οι κόµβοι µε βάθος µεγαλύτερο του l, εµπεριέχουν ύποπτες υπο-συµβολοσειρές. - 7 -
3.3.4. Εύρεση Κοινών Μοτίβων σε 2 ή περισσότερες Βιολογικές Ακολουθίες Η αναζήτηση κοινών µοτίβων σε 2 ή περισσότερες ακολουθίες βιολογικών δεδοµένων (DNA, RNA, ή πρωτεϊνών) παρουσιάζει αρκετό ενδιαφέρον καθώς έχει µεγάλη βιολογική σηµασία. Η µετάλλαξη ακολουθιών του DNA, κατά την εξέλιξη 2 διαφορετικών ειδών, επηρεάζει τα τµήµατα των DNA και πρωτεϊνών, που είναι λιγότερο υπεύθυνα για τη λειτουργία των ζωντανών οργανισµών. Αντίθετα τα τµήµατα που επηρεάζουν τις βασικές λειτουργίες σε µοριακό επίπεδο, εµφανίζουν υψηλή σταθερότητα και σπάνια διαφοροποιούνται λόγω κάποιας µετάλλαξης. Εποµένως η εύρεση επαναλαµβανόµενων µοτίβων σε 2 ή περισσότερες ακολουθίες στοχεύει στην ανακάλυψη αυτών των υπο-συµβολοσειρών που ευθύνονται για τα δοµικά και λειτουργικά χαρακτηριστικά των βιολογικών µορίων (καθώς αυτά παραµένουν αναλλοίωτα). Ας δούµε πώς ορίζεται στο πρόβληµα. Το Πρόβληµα της Εύρεσης κοινών µοτιβων: Για ένα σύνολο Κ ακολουθιών µε συνολικό µήκος Σ( Κ )= n, και έναν ακέραιο k, (2<k<K), ορίζουµε ως l(k), το µήκος του µέγιστου µοτίβου που εµφανίζεται σε τουλάχιστον k υπο-συµβολοσειρές. Το πρόβληµα ανάγεται στον υπολογισµό όλων των δυνατών τιµών του l(k) και λύνεται σε γραµµικό χρόνο Ο(n), ως προς το µήκος των ακολουθιών εισόδου. Ας δούµε ένα παράδειγµα. Έστω Κ={sndollr, sndlot, hndler, grnd, pntry}. Οι τιµές του l(k), φαίνονται στον ακόλουθο πίνακα, παρουσιάζοντας και τα αντίστοιχα κοινά µοτίβα. k l(k) µοτίβο 2 4 snd 3 3 nd 4 3 nd 5 2 n Το πρόβληµα µπορεί να λυθεί γενικεύοντας τη µεθοδολογία που παρουσιάσαµε για την επίλυση της µέγιστης κοινής υπο-συµβολοσειράς 2 ακολουθιών για περισσότερες ακολουθίες. 3.3.5. Εύρεση Επαναλήψεων σε Βιολογικές Ακολουθίες Σε αυτή την παράγραφο θα περιγράψουµε ορισµένα επαναληπτικά µοτίβα σε ακολουθίες Βιολογικών εδοµένων. Την εύρεση - 8 -
επαναλαµβανόµενων µοτίβων- επαναλήψεων, διαδέχεται η µελέτη της λειτουργίας που επιτελούν στην εξέλιξη των ζωντανών οργανισµών. Οι επαναλήψεις σε βιολογικές ακολουθίες κατηγοριοποιούνται στις εξής 3 βασικές κατηγορίες: α) επαναλήψεις περιορισµένου µήκους που εµφανίζονται σε τοπικό επίπεδο, και των οποίων η λειτουργία είναι γνωστή, β) επαναλήψεις περιορισµένου µήκους που εµφανίζονται σε όλο το µήκος της ακολουθίας, και των οποίων η λειτουργία δεν είναι απόλυτα γνωστή, γ) δοµηµένες επαναλήψεις µεγάλου µήκους των οποίων η λειτουργία δεν έχει προσδιοριστεί. Αρχικά θα ορίσουµε ορισµένες από τις σηµαντικότερες επαναλήψεις σε βιολογικές ακολουθίες: Ορισµός-4: Ένα παλίνδροµο- plindrome αποτελεί την επαναλαµβανόµενη εµφάνιση της υπο-συµβολοσειράς που διαβάζεται ως ίδιο και προς τις 2 κατευθύνσεις (από αριστερά προς τα δεξιά και από δεξιά προς τα αριστερά). Για παράδειγµα η συµβολοσειρά: xyyx αποτελεί ένα παλίνδροµο. Ορισµός-5: Ένα παλίνδροµο σε µια ακολουθία DNA ή RNA, ονοµάζεται συµπληρωµατικό παλίνδροµο- complemented plindrome, αν προκύπτει από την αντικατάσταση όλων των χαρακτήρων από την αρχή έως τη µέση µε τις αντίστοιχες συµπληρωµατικές βάσεις. Για το DNA οι βάσεις Α & C είναι συµπληρωµατικές των Τ & G αντίστοιχα, ενώ για το RNA οι βάσεις Α & C είναι συµπληρωµατικές των U & G αντίστοιχα. Για παράδειγµα η συµβολοσειρά: Χ= gctcgcggct αποτελεί ένα συµπληρωµατικό παλίνδροµο, αφού προκύπτει µε την αντικατάσταση των χαρακτήρων Χ[1..6] µε τις συµπληρωµατικές βάσεις που τοποθετούνται στις θέσεις Χ[7 12]. Στην πρώτη κατηγορία επαναλήψεων ανήκουν: τα συµπληρωµατικά παλίνδροµα σε ακολουθίες DNA & RNA, που ρυθµίζουν τη µετεγγραφή του DNA, τα εµφωλευµένα συµπληρωµατικά παλίνδροµα σε ακολουθίες trna, µικρού µήκους απλές επαναλήψεις στο DNA (παλινδροµικές και µη), κ.α. Στη δεύτερη κατηγορία επαναλήψεων ανήκουν: οι συνεχόµενες επαναλήψεις- tndem repets, σε ακολουθίες DNA. Για παράδειγµα η συµβολοσειρά: ttggg εµφανίζεται στις άκρες κάθε ανθρώπινου - 9 -
χρωµοσώµατος. Μεγαλύτερου µήκους συνεχόµενες επαναλήψεις είναι και τα δορυφορικά τµήµατα DNA- stellite DNA, που υποδιαιρούνται σε micro & mini stellite DNA, και εµφανίζονται στα γονιδιώµατα των θηλαστικών. Τέλος στην τρίτη κατηγορία επαναλαµβανόµενων µοτίβων ανήκουν τα: SINE-Short Interspersed Nucler Sequences και LINE-Long Interspersed Nucler Sequences. Τυπικό παράδειγµα SINE, αποτελεί η Alu fmily, η οποία επαναλαµβάνεται 300.000 φορές µέσα στο ανθρώπινο γονιδίωµα και καλύπτει σε µήκος το 5% περίπου του ανθρώπινου DNA και άλλων γονιδιωµάτων θηλαστικών. Η αναζήτηση επαναλαµβανόµενων µοτίβων, αποτελεί σηµαντικό υπολογιστικό πρόβληµα στη Βιοπληροφορική, ειδικά µετά τη χαρτογράφηση του ανθρώπινου γονιδιώµατος, αφού στοχεύει στην αναγνώριση δεικτώνmrkers, που υποδεικνύουν σηµαντικές θέσεις ή λειτουργικά τµήµατα στις βιολογικές ακολουθίες. Επίσης η αναζήτηση επαναλαµβανόµενων µοτίβων, µπορεί να στηρίζεται είτε στην ακριβή είτε στην προσεγγιστική προσέγγιση. Βιβλιογραφικές Αναφορές 1. P.Weiner. Liner pttern mtching lgorithms. Proc. of the 14 th IEEE Symp. on Switching nd Automt Theory, 1973. 2. E.M. McCreight. A spce-economicl suffix tree construction lgorithm. Journl of ACM, 1976. 3. E. Ukkonen. On-Line construction of suffix trees. Algorithmic, Ιssue 14, 1995. 4. D.Gusfield. Algorithms on strings, trees nd sequences. Cmbridge University Press, 1997. - 10 -