Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Στοίχιση αλληλουχιών

Σύνοψη Καθολική στοίχιση Μήτρες βαθμολόγησης Τοπική στοίχιση Στοίχιση με ποινές εισαγωγής κενών

Από την LCS στη στοίχιση: αλλαγές στη βαθμολόγηση Το πρόβλημα της Μεγαλύτερης Κοινής Υποαλληλουχίας (LCS) δηλαδή η απλούστερη μορφή στοίχισης αλληλουχιών επιτρέπει μόνο προσθήκες και αφαιρέσεις (όχι ασυμφωνίες). Στο πρόβλημα LCS, βαθμολογήσαμε τις συμφωνίες με 1 και τις προσθαφαιρέσεις (indels) με 0. Ας εξετάσουμε την περίπτωση στην οποία επιβάλλουμε ποινές στις προσθαφαιρέσεις και τις ασυμφωνίες με αρνητικές βαθμολογίες Απλούστερο σχήμα βαθμολόγησης: +1 : μπόνους για ταίριασμα -μ : ποινή για ασυμφωνία -σ : ποινή για προσθαφαίρεση

Απλή βαθμολόγηση Όταν επιβάλλονται ποινές μ και σ στις ασυμφωνίες και τις προσθαφαιρέσεις, αντίστοιχα, και οι ασυμφωνίες επιβραβεύονται με +1, η βαθμολογία που προκύπτει είναι: #ταιριασμάτων μ(#ασυμφωνιών) σ(#προσθαφαιρέσεων)

Το πρόβλημα της Καθολικής Στοίχισης Βρείτε την καλύτερη στοίχιση μεταξύ δύο συμβολοσειρών όταν δίνεται το σχήμα βαθμολόγησης Είσοδος: Οι συμβολοσειρές v και w και το σχήμα βαθμολόγησης Έξοδος: Η στοίχιση με τη μέγιστη βαθμολογία = -σ = 1 για ταίριασμα = -µ για ασυμφωνία s i-1,j-1 +1 αν v i = w j s i,j = max s i-1,j-1 -µ αν v i w j s i-1,j - σ s i,j-1 - σ m : ποινή ασυμφωνίας σ : ποινή προσθαφαίρεσης

Μήτρες βαθμολόγησης Για να γενικεύσουμε τη βαθμολόγηση, θεωρήστε μια μήτρα βαθμολόγησης δ με διαστάσεις (4+1) x (4+1). Στην περίπτωση της στοίχισης αμινοξικών αλληλουχιών, η μήτρα βαθμολόγησης θα είχε μέγεθος (20+1) x (20+1). Η προσθήκη του 1 γίνεται για να συμπεριληφθεί η βαθμολογία για τη σύγκριση ενός χαρακτήρα κενού ( - ). Αυτό θα απλοποιήσει τον αλγόριθμο ως εξής: s i-1,j-1 + δ (v i, w j ) s i,j = max s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j )

Μέτρηση της ομοιότητας Μετράμε το βαθμό ομοιότητας μεταξύ δύο αλληλουχιών Με βάση το ποσοστό (επί τοις εκατό) της ομοιότητας των αλληλουχιών Με βάση τη συντήρηση

Ποσοστό ομοιότητας αλληλουχιών Ο βαθμός στον οποίο δύο νουκλεοτιδικές ή αμινοξικές αλληλουχίες είναι αμετάβλητες A C C T G A G A G A C G T G G C A G ασυμφωνία 70% ομοιότητα προσθαφαίρεση

Κατασκευή μιας μήτρας βαθμολόγησης Οι μήτρες βαθμολόγησης δημιουργούνται με βάση βιολογικά στοιχεία. Μπορούμε να θεωρήσουμε ότι οι στοίχίσεις είναι δύο αλληλουχίες που διαφέρουν λόγω μεταλλάξεων. Μερικές από τις μεταλλάξεις έχουν μικρή επίδραση στη λειτουργία της πρωτεΐνης, επομένως κάποιες ποινές δ(v i, w j ) θα είναι λιγότερο αυστηρές από άλλες.

Μήτρα βαθμολόγησης: παράδειγμα A R N K A 5-2 -1-1 R - 7-1 3 N - - 7 0 K - - - 6 Παρατηρήστε ότι παρότι τα R και K είναι διαφορετικά αμινοξέα, έχουν θετική βαθμολογία. Γιατί; Είναι και τα δύο θετικά φορτισμένα αμινοξέα δεν θα αλλάξουν πολύ τη λειτουργία της πρωτεΐνης.

Συντήρηση Αλλαγές των αμινοξέων που τείνουν να συντηρήσουν τις φυσικοχημικές ιδιότητες του αρχικού καταλοίπου Πολικό σε πολικό ασπαρτάμη γλουταμινικό Μη πολικό σε μη πολικό αλανίνη βαλίνη Κατάλοιπα με παρόμοια συμπεριφορά λευκίνη ισολευκίνη

Μήτρες βαθμολόγησης Μήτρες αντικατάστασης αμινοξέων PAM BLOSUM Μήτρες αντικατάστασης DNA Το DNA είναι λιγότερο συντηρημένο από τις πρωτεϊνικές αλληλουχίες Λιγότερο αποτελεσματικές για τη σύγκριση περιοχών κωδικοποίησης σε επίπεδο νουκλεοτιδίων

PAM Point Accepted Mutation (Dayhoff κ.ά.) 1 PAM = PAM 1 = 1% μέσος όρος αμινοξικών αλλαγών Μετά από 100 PAM εξέλιξης, δεν θα έχουν αλλάξει τα κατάλοιπα σε όλες τις θέσεις Μερικά ενδέχεται να έχουν μεταλλαχθεί αρκετές φορές Μερικά μπορεί να έχουν επιστρέψει στην αρχική τους κατάσταση Μερικά ενδέχεται να μην έχουν αλλάξει καθόλου

PAM X PAM x = PAM 1 x PAM 250 = PAM 1 250 Η PAM 250 είναι μια μήτρα βαθμολόγησης που χρησιμοποιείται ευρέως: Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys... A R N D C Q E G H I L K... Ala A 13 6 9 9 5 8 9 12 6 8 6 7... Arg R 3 17 4 3 2 5 3 2 6 3 2 9 Asn N 4 4 6 7 2 5 6 4 6 3 2 5 Asp D 5 4 8 11 1 7 10 5 6 3 2 5 Cys C 2 1 1 1 52 1 1 2 2 2 1 1 Gln Q 3 5 5 6 1 10 7 3 7 2 3 5... Trp W 0 2 0 0 0 0 0 0 1 0 1 0 Tyr Y 1 1 2 1 3 1 1 1 3 2 2 1 Val V 7 4 4 4 4 4 4 4 5 4 15 10

BLOSUM Blocks Substitution Matrix Βαθμολογίες που προκύπτουν από παρατηρήσεις για τις συχνότητες των αντικαταστάσεων σε μπλοκ τοπικών στοιχίσεων σε (εξελικτικά) σχετιζόμενες πρωτεΐνες Το όνομα της μήτρας υποδεικνύει την εξελικτική απόσταση Η BLOSUM62 δημιουργήθηκε με αλληλουχίες που είχαν ομοιότητα όχι μεγαλύτερη από 62%

Η μήτρα βαθμολόγησης Blosum50

Τοπική και καθολική στοίχιση Το πρόβλημα της Καθολικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη διαδρομή μεταξύ των κορυφών (0,0) και (n,m) στο γράφημα μετασχηματισμού (edit graph). Το πρόβλημα της Τοπικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη από τις διαδρομές μεταξύ των τυχαίων κορυφών (i, j) και (i, j ) στο γράφημα μετασχηματισμού.

Τοπική και καθολική στοίχιση Το πρόβλημα της Καθολικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη διαδρομή μεταξύ των κορυφών (0,0) και (n, m) στο γράφημα μετασχηματισμού. To πρόβλημα της Τοπικής Στοίχισης προσπαθεί να βρει τη μεγαλύτερη από τις διαδρομές μεταξύ των τυχαίων κορυφών (i, j) και (i, j ) στο γράφημα μετασχηματισμού. Σε ένα γράφημα μετασχηματισμού όπου οι ακμές έχουν αρνητικές βαθμολογίες, η τοπική στοίχιση μπορεί να έχει υψηλότερη βαθμολογία από την καθολική.

Τοπική και καθολική στοίχιση (συνέχεια) Καθολική στοίχιση --T -CC-C-AGT -TATGT-CAGGGGACACG A-GCATGCAGA-GAC AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG T-CAGAT--C Τοπική στοίχιση καλύτερη στοίχιση για την εύρεση του συντηρημένου τμήματος tcccagttatgtcaggggacacgagcatgcagagac aattgccgccgtcgttttcagcagttatgtcagatc

Τοπική στοίχιση: παράδειγμα καθολική στοίχιση τοπική στοίχιση Υπολογισμός μιας «μίνι» καθολικής στοίχισης για να φτάσουμε στην τοπική

Τοπικές στοιχίσεις: γιατί; Δύο γονίδια σε διαφορετικά είδη μπορεί να εμφανίζουν ομοιότητες σε μικρές συντηρημένες περιοχές και διαφορές στις υπόλοιπες περιοχές. Παράδειγμα: Τα ομοιωτικά γονίδια (homeobox genes) έχουν μια μικρή περιοχή που ονομάζεται ομοιωτική περιοχή (homeodomain), η οποία είναι εξαιρετικά συντηρημένη μεταξύ διαφορετικών ειδών. Μια καθολική στοίχιση δεν θα έβρισκε την ομοιωτική περιοχή, επειδή θα προσπαθούσε να στοιχίσει ΟΛΟΚΛΗΡΗ την αλληλουχία

Το πρόβλημα της Τοπικής Στοίχισης Στόχος: Βρείτε την καλύτερη τοπική στοίχιση μεταξύ δύο συμβολοσειρών Είσοδος: Οι συμβολοσειρές v, w και η μήτρα βαθμολόγησης δ Έξοδος: Οι συμβολοσειρές v και w για τις οποίες η βαθμολογία στοίχισης είναι μέγιστη ανάμεσα σε όλες τις στοιχίσεις όλων των πιθανών υποσυμβολοσειρών

Το «πρόβλημα» με αυτό το πρόβλημα Μεγάλος χρόνος εκτέλεσης O(n 4 ): Στο πλέγμα μεγέθους n x n υπάρχουν ~n 2 κορυφές (i, j) που μπορούν να παίξουν το ρόλο της κορυφής προέλευσης. Για κάθε τέτοια κορυφή, ο υπολογισμός στοιχίσεων από την (i, j) στην (i, j ) απαιτεί χρόνο O(n 2 ). Αυτό μπορεί να αντιμετωπιστεί με «δωρεάν μεταφορές»

Τοπική στοίχιση: παράδειγμα καθολική στοίχιση τοπική στοίχιση Υπολογισμός μιας «μίνι» καθολικής στοίχισης για να φτάσουμε στην τοπική

Τοπική στοίχιση: παράδειγμα

Τοπική στοίχιση: χρόνος εκτέλεσης Μεγάλος χρόνος εκτέλεσης O(n 4 ): Στο πλέγμα μεγέθους n x n υπάρχουν ~n 2 κορυφές (i, j) που μπορούν να παίξουν το ρόλο της κορυφής προέλευσης. Για κάθε τέτοια κορυφή, ο υπολογισμός στοιχίσεων από την (i, j) στην (i, j ) απαιτεί χρόνο O(n 2 ). Αυτό μπορεί να αντιμετωπιστεί με «δωρεάν μεταφορές»

Τοπική στοίχιση: «δωρεάν μεταφορές» Ναιιιι, δωρεάν μεταφορά! Κορυφή (0,0) Οι διακεκομμένες ακμές αναπαριστούν τις «δωρεάν μεταφορές» από τον κόμβο (0,0) προς κάθε άλλο κόμβο.

Η σχέση επανάληψης της τοπικής στοίχισης Η μεγαλύτερη τιμή του s i,j για ολόκληρο το γράφημα μετασχηματισμού είναι η βαθμολογία της καλύτερης τοπικής στοίχισης. Η σχέση επανάληψης: 0 s i,j = max s i-1,j-1 + δ (v i, w j ) s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j ) Παρατηρήστε ότι αυτή είναι η μόνη αλλαγή σε σύγκριση με την αρχική σχέση επανάληψης μιας καθολικής στοίχισης

Η σχέση επανάληψης της τοπικής στοίχισης Η μεγαλύτερη τιμή του s i,j για ολόκληρο το γράφημα μετασχηματισμού είναι η βαθμολογία της καλύτερης τοπικής στοίχισης. Η σχέση επανάληψης: 0 s i,j = max s i-1,j-1 + δ (v i, w j ) s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j ) Δύναμη του ΜΗΔΕΝΟΣ: αυτή είναι η μόνη αλλαγή σε σύγκριση με την αρχική σχέση επανάληψης μιας καθολικής στοίχισης επειδή κάθε κορυφή έχει μόνο μία εισερχόμενη ακμή «δωρεάν μεταφοράς»

Βαθμολόγηση προσθαφαιρέσεων: απλοϊκή μέθοδος Επιβάλλεται μια σταθερή ποινή σ σε κάθε προσθαφαίρεση: -σ για 1 προσθαφαίρεση, -2σ για 2 συνεχόμενες προσθαφαιρέσεις -3σ για 3 συνεχόμενες προσθαφαιρέσεις, κλπ. Η μέθοδος μπορεί να επιβάλλει υπερβολικά αυστηρή ποινή για μια σειρά 100 συνεχόμενων προσθαφαιρέσεων

Συγγενικές ποινές κενού Στη φύση, μια σειρά k προσθαφαιρέσεων εμφανίζεται συχνά ως ένα μόνο συμβάν αντί για μια σειρά k συμβάντων που αφορούν μεμονωμένα νουκλεοτίδια: Είναι πιο πιθανό Η κανονική βαθμολόγηση θα έδινε την ίδια βαθμολογία και στις δύο στοιχίσεις Είναι λιγότερο πιθανό

Λαμβάνοντας υπόψη τα κενά Κενά συνεχόμενη ακολουθία (κενών) διαστημάτων σε μία από τις γραμμές Η βαθμολογία για ένα κενό μήκους x είναι: -(ρ + σx) όπου ρ >0 είναι η ποινή για την εισαγωγή του κενού: ποινή ανοίγματος κενού το ρ θα είναι μεγάλο σε σχέση με το σ: ποινή επέκτασης κοινού επειδή δεν θέλουμε να έχουμε πολύ μεγάλη ποινή για την επέκταση του κενού.

Συγγενικές ποινές κοινού Ποινές κενού: -ρ-σ όταν υπάρχει 1 προσθαφαίρεση -ρ-2σ όταν υπάρχουν 2 προσθαφαιρέσεις -ρ-3σ όταν υπάρχουν 3 προσθαφαιρέσεις, κλπ. -ρ- x σ (-άνοιγμα κενού - x επεκτάσεις κενού) Επιβάλλονται σχετικά μειωμένες ποινές (σε σύγκριση με την απλοϊκή βαθμολόγηση) σε ακολουθίες οριζόντιων και κάθετων ακμών

Συγγενικές ποινές κενού και γράφημα μετασχηματισμού Για να εκφράσουμε τις συγγενικές ποινές κενού, πρέπει να προσθέσουμε «μεγάλες» οριζόντιες και κάθετες ακμές στο γράφημα μετασχηματισμού. Κάθε τέτοια ακμή μήκους x πρέπει να έχει συντελεστή στάθμισης - - x *

Προσθήκη ακμών «συγγενικών ποινών» στο γράφημα μετασχηματισμού Υπάρχουν πολλές τέτοιες ακμές! Η προσθήκη τους στο γράφημα αυξάνει το χρόνο εκτέλεσης του αλγορίθμου στοίχισης κατά παράγοντα n (όπου n είναι ο αριθμός των κορυφών) Άρα, η πολυπλοκότητα αυξάνεται από O(n 2 ) σε O(n 3 )

Πλέγμα Μανχάταν με 3 επίπεδα Χαμηλότερο επίπεδο δ Κύριο επίπεδο δ ρ σ δ ρ δ δ Υψηλότερο επίπεδο σ

Συγγενικές ποινές κενού και πλέγμα Μανχάταν με 3 επίπεδα Οι τρεις σχέσεις επανάληψης για τον αλγόριθμο βαθμολόγησης δημιουργούν ένα γράφημα τριών επιπέδων. Το υψηλότερο επίπεδο δημιουργεί/επεκτείνει κενά στην αλληλουχία w. Το χαμηλότερο επίπεδο δημιουργεί/επεκτείνει κενά στην αλληλουχία v. Το μεσαίο (κύριο) επίπεδο επεκτείνει ταιριάσματα και ασυμφωνίες.

Εναλλαγή μεταξύ των 3 επιπέδων Επίπεδα: Το κύριο (μεσαίο) επίπεδο είναι για τις διαγώνιες ακμές Το χαμηλότερο επίπεδο είναι για τις οριζόντιες ακμές Το υψηλότερο επίπεδο είναι για τις κατακόρυφες ακμές Επιβάλλεται ποινή μετάβασης για τη μετακίνηση από το κύριο (μεσαίο) είτε στο υψηλότερο είτε στο χαμηλότερο επίπεδο (- - ) Υπάρχει μια ποινή επέκτασης κενού για κάθε συνέχιση σε οποιοδήποτε επίπεδο εκτός από το κύριο (- )

Το πλέγμα Μανχάταν με 3 επίπεδα

Σχέσεις επανάληψης για συγγενικές ποινές κενού s i,j = s i-1,j - σ max s i-1,j (ρ+σ) s i,j = s i,j-1 - σ max s i,j-1 (ρ+σ) s i,j = s i-1,j-1 + δ (v i, w j ) max s i,j s i,j Συνέχιση κενού στη w (αφαίρεση) Αρχή κενού στη w (αφαίρεση): από το μεσαίο επίπεδο Συνέχιση κενού στη v (προσθήκη) Αρχή κενού στη v (προσθήκη): από το μεσαίο επίπεδο Ταίριασμα ή ασυμφωνία Τέλος αφαίρεσης: από το υψηλότερο επίπεδο Τέλος προσθήκης: από το χαμηλότερο επίπεδο