ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ Σελίδα 1
Μοντέλα Πολλαπλής Στοίχισης Consensus sequences Patterns and regular expressions Position Specifc Scoring Matrices (PSSMs) Generalized Profiles Hidden Markov Models (HMMs) Στοίχιση νέων ακολουθιών Αναζήτηση σε βάσεις δεδομένων Σχολιασμός νέων ακολουθιών Σελίδα 2
Από την Ακολουθία στη Λειτουργία Σελίδα 3
Hidden Markov Models (HMMs) Markov Chain Model Σύνολο καταστάσεων Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη π.χ. μία ακολουθία DNA όπου η πιθανότητα εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το προηγούμενο νουκλεοτίδιο P(x) = P(x 1 )P(x 2 x 1 ) P(x N x N-1 ) P(CGGT) = P(C) P(G C) P(G G) P(T G) Σελίδα 4
Hidden Markov Models (HMMs) Markov Chain Model transition matrix (πίνακας μεταβάσεων) Weather today Sunny Rainy Weather yesterday Sunny 0.8 0.2 Rainy 0.4 0.6 Σελίδα 5
Hidden Markov Models (HMMs) Σελίδα 6
M = (Σ, Q, θ) Hidden Markov Models (HMMs) Σ: Αλφάβητο συμβόλων = { b 1, b 2,, b M } Q: Σύνολο δυνατών καταστάσεων Q = { 1,..., K } θ: Σύνολο πιθανοτήτων Πιθανότητες Μετάβασης (Transition) από κατάσταση σε κατάσταση a ij : i j a i1 + + a ik = 1, i = 1 K Πιθανότητες Γεννήσεως (Emission) συμβόλων σε κάθε κατάσταση e i (b) = P( x i = b i = k) e i (b 1 ) + + e i (b M ) = 1, i = 1 K Σελίδα 7
Hidden Markov Models (HMMs) Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει να πάρει δύο αποφάσεις: Σε ποια κατάσταση θα μεταβεί; Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται μόνο από την τρέχουσα κατάσταση Ποιο σύμβολο του αλφάβητου θα "γεννήσει"; Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές καταστάσεις. Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η κατάσταση στην οποία βρίσκεται το HMM. Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων Σελίδα 8
Hidden Markov Models (HMMs) 1. Εκτίμηση (Evaluation) Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η πιθανότητα της ακολουθίας (forward algorithm) 2. Αποκωδικοποίηση (Decoding) Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της ακολουθίας (viterbi algorithm) 3. Εκπαίδευση (Learning) Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ (πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών (forward-backward algorithm, Baum-Welch expectation maximization) Σελίδα 9
Hidden Markov Models (HMMs) P(E I) P(E E) εξώνιο εσώνιο P(I I) P(A E) P(C E) P(G E) P(T E) P(I E) P(A I) P(C I) P(G I) P(T I) x = A A G T A G T A T C π = E E E I I I I I E E Σελίδα 10
Profile HMMs Hidden Markov Models (HMMs) δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης
Καταστάσεις: Hidden Markov Models (HMMs) Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής) Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου) Delete Overfitting Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα μικρό αριθμό ακολουθιών Pseudocounts εξομαλύνουν την παρατηρούμενη συχνότητα χαρακτήρων π.χ. Dirichlet mixture Σελίδα 12
Profile HMMs Hidden Markov Models (HMMs) στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)
Hidden Markov Models (HMMs) Προγράμματα για τη δημιουργία και χρήση HMMs HMMER http://hmmer.org/ SAM http://compbio.soe.ucsc.edu/sam.html Θεωρητικό υπόβαθρο Καλύτερη αντιμετώπιση των κενών Κατάλληλα για τη μοντελοποίηση domains Πιο ευαίσθητα για μακρινές ομολογίες Σελίδα 14
Hidden Markov Models (HMMs) Pfam http://pfam.xfam.org/ Pfam-A στοιχίσεις / HMMs από εξειδικευμένους ερευνητές Pfam-B Clan εγγραφές που προέκυψαν αυτοματοποιημένα ομαδοποίηση των εγγραφών της Pfam-A βάσει ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-hmm Εκτενής σχολιασμός Σελίδα 15
Hidden Markov Models (HMMs) SMART http://smart.embl-heidelberg.de/ normal vs genomic TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi J. Craig Venter Institute SUPERFAMILY http://supfam.cs.bris.ac.uk/superfamily/ collection of hidden Markov models, which represent structural protein domains at the SCOP superfamily level Σελίδα 16
InterPro http://www.ebi.ac.uk/interpro/about.html ολοκλήρωση ΒΔ οικογενειών και domains Σελίδα 17
InterPro CATH/Gene3D at University College, London, UK PANTHER at University of Southern California, CA, USA PIRSF at the Protein Information Resource, Georgetown University Medical Centre, Washington DC, USA Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK PRINTS at the University of Manchester, UK ProDom at PRABI Villeurbanne, France PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB), Geneva, Switzerland SMART at EMBL, Heidelberg, Germany SUPERFAMILY at the University of Bristol, UK TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US Σελίδα 18
Επιλογή Ακολουθιών προς Στοίχιση Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή στοίχιση δεν προσφέρει πληροφορίες για τη σχέση απομακρυσμένων ομόλογων αλληλουχιών. Σελίδα 19
Επιλογή Ακολουθιών προς Στοίχιση Σελίδα 20
Επιλογή Ακολουθιών προς Στοίχιση ακολουθίες με διαφορετικό αριθμό επαναλήψεων αναγνώριση των επαναλήψεων (π.χ. dotplot) διαχωρισμός της στοίχισής τους Σελίδα 21
BAliBASE http://www.lbgi.fr/balibase/ multiple alignment benchmark υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση τρισδιάστατων δομών, που έχουν ελεγχθεί από εξειδικευμένους επιστήμονες Σελίδα 22
Επιλογή μεθόδου στοίχισης Σελίδα 23
Μορφοποίηση Πολλαπλής Στοίχισης Sequence Format Conversion http://www.ebi.ac.uk/tools/sfc/ Μετατροπή από το ένα format στο άλλο FASTA (.fa ή.fasta ή.fst) >IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG PPAWAGDRSHE >IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG PPAWAGDRSHE >IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG PPPPAGDRSHE >IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG PPAYAGDRSHE Σελίδα 24
Μορφοποίηση Πολλαπλής Στοίχισης Phylip (.phy ή.phylip) 4 131 IXI_234 IXI_235 IXI_236 IXI_237 Clustal (.aln) IXI_234 IXI_235 IXI_236 IXI_237 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC *****:********* ***** *** * ***** *******:******* IXI_234 IXI_235 IXI_236 IXI_237 IXI_234 IXI_235 IXI_236 IXI_237 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG *************: * *********** **** **** *****:***** PPAWAGDRSHE PPAWAGDRSHE PPPPAGDRSHE PPAYAGDRSHE ** ******* Σελίδα 25
Multiple alignment editors Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων Jalview http://www.jalview.org/ SeaView http://doua.prabi.fr/software/seaview Δημιουργία sequence logos WebLogo http://weblogo.berkeley.edu/ Σελίδα 26
Προγράμματα Πολλαπλής Στοίχισης Clustal Omega http://www.ebi.ac.uk/tools/msa/clustalo/ T-Coffee http://tcf_dev.vital-it.ch/apps/tcoffee/index.html MAFFT http://mafft.cbrc.jp/alignment/server/ MUSCLE http://www.ebi.ac.uk/tools/msa/muscle/ Σελίδα 27
Φυλογενετική Ανάλυση μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή οργανισμών και απεικόνισή της με φυλογενετικά δέντρα έλεγχος εξελικτικών υποθέσεων επιδημιολογικές μελέτες μελέτες βιοποικιλότητας φαρμακευτική έρευνα Σελίδα 28
Φυλογενετική Ανάλυση Σελίδα 29
Δεδομένα για ανάλυση Αριθμητικά Δεδομένα Αποστάσεις Συνήθως από δεδομένα ακολουθιών Χαρακτήρες γενετικοί μορφολογικοί / δομικοί συμπεριφορά Σελίδα 30
Φυλογενετικά δέντρα Τερματικοί Κόμβοι (Φύλλα) Κλαδιά A Προγονικός Κόμβος ή ΡΙΖΑ Εσωτερικοί Κόμβοι ή Σημεία Απόκλισης (υποθετικοί πρόγονοι) B C D E Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ) Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι. Σελίδα 31
Φυλογενετικά δέντρα Με ρίζα Nr=(2n-3)!/[2 n-2 (n-2)!] n=10 => Nr =34 459 425 Χωρίς ρίζα Nu=(2n-5)!/[2 n-3 (n-3)!] n=10 => Nu=2 027 025 Δεν περιγράφουν εξελικτικό μονοπάτι Σελίδα 32
Φυλογενετικά δέντρα A B C D B C D Root Δέντρα με ρίζα A A B C D Δέντρο χωρίς ρίζα Root Σελίδα 33
Φυλογενετικά δέντρα Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια. Το δέντρο χωρίς ρίζα: A C B D d C D A B 4 c A B C D 3 e D C A B 5 b A B C D 2 a B A C D 1
Πως επιλέγεται η ρίζα; Φυλογενετικά δέντρα Στο μέσο των δύο πιο απομακρυσμένων κλαδιών Επιλογή out group out εξωομάδα group Σελίδα 35
Φυλογενετικά δέντρα Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου. Σελίδα 36
Φυλογενετικά δέντρα Το μήκος των κλαδιών Δεν έχει νόημα (κλαδόγραμμα) είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα) είναι ανάλογο του χρόνου (ultrametric tree) Σελίδα 37
Newick format Φυλογενετικά δέντρα Σελίδα 38
Φυλογενετική ανάλυση γονιδίων Εξελικτική ιστορία γονιδίων Διαφορετικός ρυθμός αλλαγής πολύ αργός (ιστόνες) πολύ γρήγορος (ανοσοσφαιρίνες) Διαφορετική εξέλιξη Οριζόντια μεταφορά Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ ανάγκη με την εξελικτική ιστορία των οργανισμών. Σελίδα 39
Φυλογενετική ανάλυση οργανισμών Δεδομένα φαινοτυπικοί χαρακτήρες ένα γονίδιο μοριακό δείκτη (π.χ. ss-rrna) μια σειρά γονιδίων πλειοψηφία των γονιδίων κάθε οργανισμού Εξελικτικά "κοντινοί" οργανισμοί ακολουθίες DNA που εξελίσσονται γρήγορα Βαθειά αποκλίνοντες οργανισμοί Πολύ καλά συντηρημένες πρωτεΐνες Σελίδα 40
Μεθοδολογίες (Ανα-)Κατασκευής Σελίδα 41
Μεθοδολογίες (Ανα-)Κατασκευής Βάσει αποστάσεων UPGMA (Unweighted pair group method with Arithmetic Mean) Neighbor joining Fitch-Margoliash Minimal Evolution Βάσει χαρακτήρων Μέγιστη φειδωλότητα (Maximum Parsimony) Μέγιστη πιθανοφάνεια (Maximum Likelihood) Σελίδα 42
Μεθοδολογία Αποστάσεων Δημιουργία πίνακα αποστάσεων πίνακας M όπου M ij είναι η απόσταση μεταξύ των ακολουθιών i και j και M ij >=0 Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των φύλλων i και j να είναι M ij A B A 0 12 0 B C D E A 7 4 2 E C 14 12 0 5 2 1 D E 14 15 12 13 6 7 0 3 0 B 3 C D
Ομαδοποίηση Μεθοδολογία Αποστάσεων αρχίζοντας από τις κοντινότερες ακολουθίες, σταδιακά ενσωματώνονται και οι πιο απομακρυσμένες UPGMA, Neighbor joining Βελτιστοποίηση σύγκριση των πιθανών τοπολογιών και επιλογή αυτής όπου οι αποστάσεις πάνω στο δένδρο ταιριάζουν καλύτερα με τα δεδομένα του πίνακα αποστάσεων Fitch-Margoliash, Minimal Evolution Σελίδα 44
Μεθοδολογία Αποστάσεων Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική απόσταση Πολλαπλές αντικαταστάσεις Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη διόρθωση της παρατηρούμενης απόστασης Σελίδα 45
Μεθοδολογία Αποστάσεων Δεν είναι δυνατή η ανακατασκευή μιας προγονικής ακολουθίας μέθοδοι βελτιστοποίησης καλύτερα αποτελέσματα μέθοδοι ομαδοποίησης πιο γρήγορες προτιμότερες όταν τα δεδομένα είναι πολλά Σελίδα 46
Μέγιστη φειδωλότητα (Maximum Parsimony) Principle of Occam s Razor When you have two competing theories that make exactly the same predictions, the simpler one is the better. Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των δεδομένων. Σελίδα 47
Μέγιστη φειδωλότητα (Maximum Parsimony) Μέθοδος Πολλαπλή στοίχιση των ακολουθιών. Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το πλήθος των εξελικτικών βημάτων που απαιτούνται για να εξηγήσει το Τ τα δεδομένα της i. "Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες αλλαγές για όλες τις θέσεις. Σελίδα 48
Μέγιστη φειδωλότητα (Maximum Parsimony) non informative sites θέσεις της πολλαπλής στοίχισης που δεν δίνουν πληροφορίες για την επιλογή του δέντρου informative sites θέσεις της πολλαπλής στοίχισης που περιέχουν τουλάχιστον δύο διαφορετικούς χαρακτήρες σε τουλάχιστον δύο ακολουθίες ο καθένας Σελίδα 49
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη φειδωλότητα (Maximum Parsimony)
Μέγιστη φειδωλότητα (Maximum Parsimony) Σελίδα 52
Μέγιστη φειδωλότητα (Maximum Parsimony) Επιτρέπει την ανακατασκευή προγονικών ακολουθιών. Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα από ένα βέλτιστα δέντρα. Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις. Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά ακολουθίες. Υψηλό υπολογιστικό κόστος Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο. Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά. Σελίδα 53
Μέγιστη πιθανοφάνεια (Maximum Likelihood) Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα. Υψηλό υπολογιστικό κόστος Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο βέλτιστο. Σελίδα 54
Μέγιστη πιθανοφάνεια (Maximum Likelihood) I A C G C G T T G G G {A,C,G,T} II A C G C G T T G G G III A C G C A A T G A A {A,C,G,T} {A,C,G,T} IV A C A C A G G G A A T T A G 4 4 4=64 δυνατοί συνδυασμοί Τ "εξελικτικά" δέντρα A Τ G Τ A T T A G P(T->T) 3 P(T->G)P(G->A)P(G->G) T T A G P(A->A) 2 P(A->T)P(T->T) 2 P(A->G) Σελίδα 55
Αξιολόγηση φυλογενετικών δέντρων Σελίδα 56
Αξιολόγηση φυλογενετικών δέντρων Επανάληψη Δειγματοληψία στηλών της πολλαπλής στοίχισης Bootstrap (με επανάθεση) Jackknife (χωρίς επανάθεση) Ανακατασκευή φυλογενετικού δέντρου Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου κόμβου στα νέα φυλογενετικά δέντρα Σελίδα 57
long branch attraction Ομοπλασία Ομοιότητα που οφείλεται σε διαφορετικά εξελικτικά γεγονότα long branch attraction Μακριά κλαδιά περισσότερες γενετικές αλλαγές μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν ταυτόσημους χαρακτήρες
Προγράμματα φυλογενετικής ανάλυσης Phylogeny.fr http://www.phylogeny.fr/ PHYLIP http://evolution.genetics.washington.edu/phylip.html AWTY http://king2.sc.fsu.edu/cebprojects/awty/awty_start.php Σελίδα 59