ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I Σελίδα 1
Πολλαπλή στοίχιση αποκαλύπτει συντηρημένες περιοχές αντιστοίχιση καταλοίπων με κριτήρια ομοιότητας σε επίπεδο δομής εξέλιξης λειτουργίας ακολουθίας Σελίδα 2
Πολλαπλή στοίχιση Εύρεση απομακρυσμένων ομόλογων πρωτεϊνών Δημιουργία profile που περιγράφει ένα domain Φυλογενετική ανάλυση Εύρεση συντηρημένων περιοχών που αντιστοιχούν σε υποκινητές, καταλυτικά κέντρα κ.α. Μελέτη της επίδρασης SNPs στη δομή και λειτουργία Πρόβλεψη δευτεροταγούς και τριτοταγούς δομής πρωτεϊνών Σχεδιασμός εκκινητών PCR Σελίδα 3
Σελίδα 4
Βαθμολόγηση Πολλαπλής Στοίχισης Ορισμένες θέσεις είναι καλύτερα συντηρημένες από άλλες. Οι ακολουθίες δεν είναι ανεξάρτητες αλλά σχετίζονται με κάποιο φυλογενετικό δέντρο. Τα κατάλοιπα μιας στήλης έχουν προέλθει από ένα "αρχέγονο" κατάλοιπο. Η στοίχιση πρέπει να μεγιστοποιεί την πιθανότητα εύρεσης κοινού προγόνου. Απλοποιήσεις: Αγνοούμε φυλογενετικά δένδρα Στατιστικά ανεξάρτητες οι στήλες της στοίχισης? x y z w v
Βαθμολόγηση Πολλαπλής Στοίχισης στοίχιση m AC-GCGG-C m = AC-GC-GAG GCACC-GAG m j i = κατάλοιπο στη στήλη i στην ακολουθία j π.χ. m 2 4 = G c ia = παρατηρούμενος αριθμός καταλοίπων a στη στήλη i π.χ. c 1A =2, c 1C =0, c 1G =1, c 1T =0, C 1- =0 p ia = πιθανότητα του καταλοίπου a στη στήλη i Σελίδα 6
Βαθμολόγηση Πολλαπλής Στοίχισης Minimum Entropy S(m i ) = - a c ia log 2 p ia S(m i ) το score της i στήλης της στοίχισης m μέτρο της μεταβλητότητας που παρατηρείται στη στήλη i καλή στοίχιση ελαχιστοποιεί την συνολική εντροπία ι S(m i ) Σελίδα 7
Βαθμολόγηση Πολλαπλής Στοίχισης Sum-of-Pairs Score άθροισμα των scores όλων των "επαγόμενων" ανά δύο στοιχίσεων S(m) = ι S(m i ) S(m i ) = k<l s(m ik, m il ) όπου s(m ik, m il ) το score της στοίχισης των καταλοίπων στις ακολουθίες k και l, όπως προκύπτει από ένα πίνακα αντικατάστασης Σελίδα 8
Βαθμολόγηση Πολλαπλής Στοίχισης Sum-of-Pairs Score Seq1: ALLE Seq2: GLLD Seq3: WLGD Blosum50 s(l-l) = 5 s(l-g) = -4 επαγόμενες ανά δύο στοιχίσεις Seq1: ALLE Seq2: GLLD Seq1: ALLE Seq3: WLGD Seq2: GLLD Seq3: WLGD SP = SP(1) + SP(2) + SP(3) + SP(4) SP(2) = s(l-l) + s(l-l) + s(l-l) = 15 SP(3) = s(l-l) + s(l-g) + s(l-g) = -3 Σελίδα 9
Βαθμολόγηση Πολλαπλής Στοίχισης Weighted Sum-of-Pairs Score S(m i ) = k<l w kl s(m ik, m il ) Ακολουθία στήλη A στήλη B στήλη C 1.. N N..N 2.. N N..N 3.. N N..N 4.. N N..C 5.. N C..C Sum-of-pairs score: 60 24 6 Σελίδα 10
Μέθοδοι πολλαπλής στοίχισης Δυναμικός προγραμματισμός (dynamic programming) Σελίδα 11
Carillo and Lipman Σελίδα 12
Στοίχιση Άστρου δεδομένα Σελίδα 13
Στοίχιση Άστρου ζεύγος ακολουθιών προς ενσωμάτωση στοίχιση Σελίδα 14
Στοίχιση Άστρου ζεύγος ακολουθιών προς ενσωμάτωση στοίχιση Μετακίνηση ολόκληρης στήλης όταν εισέρχεται κενό Σελίδα 15
Στοίχιση Άστρου ATTGCC-ATT ATGGCC-ATT ATCCAATTTT ATCT-T-CTT ATTGCCGATT Σελίδα 16
Στοίχιση Άστρου Επιλογή μιας ακολουθίας (x c ) ως το "κέντρο" του άστρου Για κάθε μια από τις x 1,, x k με i c Στοίχιση ΔΠ "Ενσωμάτωση" στοιχίσεων με την αρχή "once a gap, always a gap". Για την επιλογή του "κέντρου" του άστρου Δοκιμή όλων και επιλογή εκείνης της ακολουθίας x c που μεγιστοποιεί: Σελίδα 17
Προοδευτική στοίχιση (progressive alignment) στοίχιση βάσει ενός δέντρου οδηγού 1 2 1 3 Score 1-2 Score 1-3 4 5 από scores σε αποστάσεις scores Score 4-5 πίνακας ομοιότητας Δένδρο οδηγός Πολλαπλή στοίχιση
Προοδευτική στοίχιση ClustalW
ClustalW στατιστικό βάρος βάσει των αποστάσεων των ακολουθιών στο δέντρο-οδηγό w = 0.055/1 + 0.219/2 + 0.061/4 + 0.015/5 + 0.062/6 = 0.194 Σελίδα 20
ClustalW 1 3 1 3 2 5 1 3 2 5 1 3 2 5 4 Σελίδα 21
ClustalW Σελίδα 22
ClustalW Ακολουθία A (βάρος a) K (στοίχιση 1) Ακολουθία B (βάρος b) I (στοίχιση 1) Ακολουθία C (βάρος c) L (στοίχιση 2) Ακολουθία D (βάρος d) V (στοίχιση 2) χωρίς στάθμιση με τη χρήση στατιστικών βαρών μέσος όρος των scores των ανά δύο στοιχίσεων των ακολουθιών της πρώτης ομάδας με εκείνες της δεύτερης Score= {score(k,l ) + score(i,l) + score(k,v) + score(i,v)}/4 Σελίδα 23
ClustalW Ακολουθία A (βάρος a) K (στοίχιση 1) Ακολουθία B (βάρος b) I (στοίχιση 1) Ακολουθία C (βάρος c) L (στοίχιση 2) Ακολουθία D (βάρος d) V (στοίχιση 2) στάθμιση με τη χρήση στατιστικών βαρών μέσος όρος των σταθμισμένων scores των ανά δύο στοιχίσεων των ακολουθιών της πρώτης ομάδας με εκείνες της δεύτερης Score= {a*c*score(k,l ) + b*c*score(i,l) + a*d*score(k,v) + b*d*score(i,v)}/4 Σελίδα 24
ClustalW Ολική στοίχιση όλων των ακολουθιών ανά δύο με δυναμικό προγραμματισμό και μετατροπή των scores ομοιότητας σε εξελικτικές αποστάσεις. Δημιουργία του δέντρου-οδηγού βάσει του πίνακα αποστάσεων με τη μέθοδο Neighbor-joining. χαμηλότερης ακρίβειας από ένα φυλογενετικό δέντρο απόδοση στατιστικών βαρών (weights) στις ακολουθίες Σελίδα 25
ClustalW Προοδευτική στοίχιση βάσει του δέντρου-οδηγού με δυναμικό προγραμματισμό στοίχιση ακολουθίας με ακολουθία ακολουθίας με στοίχιση στοίχισης με στοίχιση στάθμιση με τη χρήση των στατιστικών βαρών από το δέντρο-οδηγό Σελίδα 26
ClustalW + Χρήση διαφορετικού πίνακα αντικατάστασης ανάλογα με την απόσταση των ακολουθιών στο δέντρο-οδηγό + Προσαρμογή των ποινών για τα κενά ομοιότητα και μήκος ακολουθιών προϋπάρχοντα κενά γειτνίαση με κενά υδρόφιλα τμήματα αμινοξέα Εξαρτάται από τη σειρά των στοιχίσεων. "Once a gap, Always a gap" Σελίδα 27
T-Coffee Δημιουργία βιβλιοθήκης ανά δύο στοιχίσεων Ολική στοίχιση Τοπική στοίχιση Δομική στοίχιση Προοδευτική στοίχιση βάσει της πληροφορίας όλων των επιμέρους στοιχίσεων Καλύτερης ποιότητας στοιχίσεις Πιο αργός υπολογισμός Σελίδα 28
Επαναληπτική Στοίχιση (iterative alignment) Σελίδα 29
Μοντέλα Πολλαπλής Στοίχισης Consensus sequences Patterns and regular expressions Position Specifc Scoring Matrices (PSSMs) Generalized Profiles Hidden Markov Models (HMMs) Στοίχιση νέων ακολουθιών Αναζήτηση σε βάσεις δεδομένων Σχολιασμός νέων ακολουθιών Σελίδα 30
Από την Ακολουθία στη Λειτουργία Σελίδα 31
Συναινετική ακολουθία Majority wins Consensus sequences Σελίδα 32
Πλεονεκτήματα Consensus sequences Γρήγορη και εύκολη υλοποίηση Περιορισμοί Δεν έχουν πληροφορία σχετικά με τη μεταβλητότητα κάθε στήλης Εξαρτώνται πολύ από τις αρχικές ακολουθίες (training set) Δυαδικό αποτέλεσμα (ΝΑΙ / ΌΧΙ) Χρησιμότητα Αναζήτηση ιδιαίτερα συντηρημένων "υπογραφών" (signatures), όπως θέσεις περιορισμού (enzyme restriction sites) στο DNA Σελίδα 33
Patterns and regular expressions Μοτίβο Περιγράφει σε μία γραμμή μια ομάδα εναλλακτικών ακολουθιών Στην επιστήμη των υπολογιστών, τα μοτίβα ονομάζονται κανονικές εκφράσεις
Patterns and regular expressions Σύνταξη Prosite "x" οποιοδήποτε κατάλοιπο [ ] : επιτρεπτά κατάλοιπα π.χ. [ALT] = Ala ή Leu ή Thr { } : μη επιτρεπτά κατάλοιπα π.χ. {AM} οποιοδήποτε κατάλοιπο εκτός Ala και Met () : ποσοτικός τελεστής π.χ. x(3) = x-x-x, x(2,4) = x-x ή x-x-x ή x-x-x-x "-" διαχωρίζει γειτονικά στοιχεία "<" στο αμινοτελικό άκρο ">" στο καρβοξυτελικό άκρο
Patterns and regular expressions Σύνταξη Prosite <A-x-[ST](2)-x(0,1)-{V} Ala στο αμινοτελικό άκτο Οποιοδήποτε αμινοξύ Ser ή Thr δύο φορές Κανένα ή ένα οποιοδήποτε αμινοξύ Οποιοδήποτε αμινοξύ εκτός από Val Σελίδα 36
Patterns and regular expressions [AC]-x-V-x(4)-{ED} DEHSDVLPVLDVCSVKHVAEVFQALIYWIKAMNQQTTLDT Σε ποια (-ες) θέση(-εις) της ακολουθίας ταιριάζει; DEHSDVLPVLDVCSVKHVAEVFQALIYWIKAMNQQTTLDT [AC]-x-V-x(4)-{ED} Σελίδα 37
Patterns and regular expressions ZINC_FINGER_C2H2_1 C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H Σελίδα 38
Patterns and regular expressions Τα μοτίβα σχεδιάζονται από επιστήμονες εξάγονται αυτόματα από μη στοιχισμένες ακολουθίες με ειδικά προγράμματα Πλεονεκτήματα Η αναγνώριση μοτίβων είναι γρήγορη και υλοποιείται εύκολα. Τα μοτίβα σχεδιάζονται και κατανοούνται εύκολα. Χρησιμότητα Αναζήτηση μικρού μήκους "υπογραφών" (signatures) Σελίδα 39
Patterns and regular expressions Περιορισμοί Ανεπαρκής μοντελοποίηση κενών Ανεπαρκής πρόβλεψη, τείνουν να αναγνωρίζουν μόνο τις ακολουθίες από τις οποίες κατασκευάστηκαν (training set) Δυαδική απάντηση (ΝΑΙ/ΟΧΙ) Σελίδα 40
ACA Τ ATG TCA A ATC ACA C AGC AGA - ATC ACC G ATC Patterns and regular expressions [AT]-[CG]-[AC]-x(0,1)-A-[TG]-[GC] Είναι το ίδιο πιθανές οι ακολουθίες που προκύπτουν από το μοτίβο; T G C T A G G A C A C A T C Σελίδα 41
Patterns and regular expressions Prosite http://prosite.expasy.org/ 1308 patterns Precision = true hits / (true hits + false positives) Recall = true hits / (true hits + false negatives) Sequence logo Σελίδα 42
Position Specifc Scoring Matrix (PSSM) Πολλαπλή στοίχιση χωρίς κενά Υπολογισμός της συχνότητας εμφάνισης f i,j κάθε καταλοίπου i σε κάθε στήλη της στοίχισης j π.χ. f A,1 =0/5=0, f G,1 = 5/5=0 π.χ. f A,2 =0/5=0, f H,1 = 5/5=0 Ορισμένες συχνότητες αμινοξέων για κάποιες στήλες είναι ίσες με 0. Αποκλείονται αυτά τα αμινοξέα από τις συγκεκριμένες θέσεις. Χρήση pseudocounts Σελίδα 43
Position Specifc Scoring Matrix (PSSM) pseudocounts Πρόσθεση ενός μικρού αριθμού κατά των υπολογισμό όλων των συχνοτήτων π.χ. 1 π.χ. f A,1 = (0+1)/(5+20) = 0 = 0.04 π.χ. f G,1 = (5+1)/(5+20) = 0 = 0.24 Περισσότερο εξειδικευμένες προσεγγίσεις π.χ. Dirichlet mixtures Σελίδα 44
Position Specifc Scoring Matrix (PSSM) Κανονικοποίηση των συχνοτήτων Διαίρεση με την αναμενόμενη συχνότητα εμφάνισης q i των καταλοίπων σε μια τυχαία ακολουθία π.χ. ίδια συχνότητα για όλα τα αμινοξέα q i = 1/20 = 0.05 π.χ. βάσει των συχνοτήτων εμφάνισης στην Uniprot Υπολογισμός του score S ij του καταλοίπου i στη στήλη j S ij log 2 f q ' ij i π.χ. S A,1 = log 2 (0.04/0.05) = -0.32 π.χ. S G,1 = log 2 (0.24/0.05) = 2.26 Σελίδα 45
Position Specifc Scoring Matrix (PSSM) Στάθμιση των ακολουθιών κατά των υπολογισμό των συχνοτήτων μικρό στατιστικό βάρος για πολύ όμοιες ακολουθίες μεγάλο στατιστικό βάρος για λιγότερο όμοιες ακολουθίες Το PSSM εφαρμόζεται ως κυλιόμενο παράθυρο σε μία ακολουθία Σε κάθε θέση υπολογίζεται το score, αθροίζοντας τα επιμέρους scores. Στο τέλος αναφέρεται η θέση με το μεγαλύτερο score. Σελίδα 46
Position Specifc Scoring Matrix (PSSM) T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S T S G H E L V G G V A F P A R C A S
Position Specifc Scoring Matrix (PSSM) S T,1 + S S,2 + S G,3 + S H,4 + S E,5 S L,6 + S V,7 + S G,8 + S G,9 + S V,10 + S A,11 + S F,12 = -1-1-1-1+2-1-1-1+2-1-1-1 = -6 Σελίδα 48
Position Specifc Scoring Matrix (PSSM) S G,1 + S H,2 + S E,3 + S L,4 + S V,5 S G,6 + S G,7 + S V,8 + S A,9 + S F,10 + S P,11 + S A,12 = 6.8+6.8+6.8+2+2+6.8+2+2-1-1+2+3.8 = 39 Σελίδα 49
Position Specifc Scoring Matrix (PSSM) Κατανομή των scores του PSSM σε τυχαίες ακολουθίες Εκτίμηση ενός E-value αριθμός των τυχαίων ακολουθιών με PSSM score ίσο ή μεγαλύτερο του παρατηρηθέντος Σελίδα 50
Position Specifc Scoring Matrix (PSSM) Eξάγονται αυτόματα από μη στοιχισμένες ακολουθίες MEME http://tools.genouest.org/tools/meme/intro.html Πλεονεκτήματα γρήγορη και εύκολη υλοποίηση επιστρέφουν score Περιορισμοί απαγορεύονται τα κενά, δεν μπορούν να μοντελοποιηθούν μεγάλες περιοχές Χρησιμότητα για τη μοντελοποίηση περιοχών υψηλής μεταβλητότητας αλλά σταθερού μήκους Σελίδα 51
Position Specifc Scoring Matrix (PSSM) fingerprints συνδυασμός δύο ή περισσότερων PSSMs για την περιγραφή μιας μεγάλου μήκους περιοχής PRINTS http://www.bioinf.man.ac.uk/dbbrowser/prints/index.php Σελίδα 52
Generalized Profiles Επέκταση των PSSMs με τη χρήση ποινών για διαγραφές και προσθήκες που εξαρτώνται από τη θέση Prosite http://prosite.expasy.org/ MyHits http://myhits.isb-sib.ch/ Ιδιαίτερα ευαίσθητη αναζήτηση απομακρυσμένων ομόλογων ακολουθιών Προγράμματα για τη δημιουργία και τη βαθμονόμηση του profile Υψηλές υπολογιστικές απαιτήσεις Σελίδα 53