ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Σχετικά έγγραφα
Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 11: Πολλαπλή Στοίχιση Ακολουθιών, 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Φυλογένεση. 5o εργαστήριο

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Πολλαπλή στοίχιση Φυλογένεση

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Λίγη εξέλιξη: οµολογία

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

ΦΥΛΟΓΕΝΕΤΙΚ Α ΔΕΝΤΡΑ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 10: Κατασκευή φυλογενετικών δέντρων

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 5 η : Φυλογενετική ανάλυση 2. Ηλίας Καππάς Τμήμα Βιολογίας

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

LALING/PLALING :

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Ειδικά Θέματα Βιοπληροφορικής

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 9: Φυλογενετική ανάλυση

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 4 η : Φυλογενετική ανάλυση 1. Ηλίας Καππάς Τμήμα Βιολογίας

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Ειδικά Θέματα Βιοπληροφορικής

Μέθοδοι μελέτης εξέλιξης

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

(Μέρος 1 ο ) Εισηγητής: Ν. Πουλακάκης

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μοριακή Εξέλιξη και Φυλογένεση

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΙΑΤΡΙΚΗ»

ΕΞΕΛΙΚΤΙΚΗ ΠΑΛΑΙΟΝΤΟΛΟΓΙΑ

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βασικές αρχές φυλογένεσης

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

Κεφάλαιο 6 Φυλογενετική Ανάλυση

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Σκορπιός Χειλόποδο Διπλόποδο Ορθόπτερο Ημίπτερο Υμενόπτερο Κολεόπτερο. Φυλογενετικό δέντρο

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Περιεχόμενα. 1 Η ιστορία της εξελικτικής βιολογίας: Εξέλιξη και Γενετική 2 Η Προέλευση της Μοριακής Βιολογίας 3 Αποδείξεις για την εξέλιξη 89

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Ταξινόµιση οργανισµών

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

Σύγκριση και κατηγοριοποίηση πρωτεϊνικών δομών

BMI/CS 776 Lecture #14: Multiple Alignment - MUSCLE. Colin Dewey

Βιοπληροφορική. Παντελής Γ. Μπάγκος. Πανεπιστήμιο Θεσσαλίας

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Εφαρμοσμένη Βιοτεχνολογία Σημειώσεις. Νίκος Τσουκιάς Σχολή Χημικών Μηχανικών ΕΜΠ

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΠΑΛΑΙΟΝΤΟΛΟΓΙΑ ΣΠΟΝΔΥΛΩΤΩΝ. Μάθημα 3ο: Η ταξινόμηση των όντων Λινναία Ταξινόμηση Συστηματική

EM Baum-Welch. Step by Step the Baum-Welch Algorithm and its Application 2. HMM Baum-Welch. Baum-Welch. Baum-Welch Baum-Welch.

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Κεφάλαιο 6. Φυλογενετική Ανάλυση

ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Συγκριτική Γονιδιωματική

Τεχνικές εκτίμησης και μοντελοποίησης απόστασης οργανισμών με βάση δεδομένα σύγκρισης πρωτεϊνών

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Transcript:

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ Σελίδα 1

Μοντέλα Πολλαπλής Στοίχισης Consensus sequences Patterns and regular expressions Position Specifc Scoring Matrices (PSSMs) Generalized Profiles Hidden Markov Models (HMMs) Στοίχιση νέων ακολουθιών Αναζήτηση σε βάσεις δεδομένων Σχολιασμός νέων ακολουθιών Σελίδα 2

Από την Ακολουθία στη Λειτουργία Σελίδα 3

Hidden Markov Models (HMMs) Markov Chain Model Σύνολο καταστάσεων Πιθανότητα μετάβασης από τη μία κατάσταση στην άλλη π.χ. μία ακολουθία DNA όπου η πιθανότητα εμφάνισης ενός νουκλεοτιδίου εξαρτάται μόνο από το προηγούμενο νουκλεοτίδιο P(x) = P(x 1 )P(x 2 x 1 ) P(x N x N-1 ) P(CGGT) = P(C) P(G C) P(G G) P(T G) Σελίδα 4

Hidden Markov Models (HMMs) Markov Chain Model transition matrix (πίνακας μεταβάσεων) Weather today Sunny Rainy Weather yesterday Sunny 0.8 0.2 Rainy 0.4 0.6 Σελίδα 5

Hidden Markov Models (HMMs) Σελίδα 6

M = (Σ, Q, θ) Hidden Markov Models (HMMs) Σ: Αλφάβητο συμβόλων = { b 1, b 2,, b M } Q: Σύνολο δυνατών καταστάσεων Q = { 1,..., K } θ: Σύνολο πιθανοτήτων Πιθανότητες Μετάβασης (Transition) από κατάσταση σε κατάσταση a ij : i j a i1 + + a ik = 1, i = 1 K Πιθανότητες Γεννήσεως (Emission) συμβόλων σε κάθε κατάσταση e i (b) = P( x i = b i = k) e i (b 1 ) + + e i (b M ) = 1, i = 1 K Σελίδα 7

Hidden Markov Models (HMMs) Όταν το HMM βρίσκεται σε μία δεδομένη κατάσταση, πρέπει να πάρει δύο αποφάσεις: Σε ποια κατάσταση θα μεταβεί; Κάθε χρονική στιγμή t, η επόμενη κατάσταση εξαρτάται μόνο από την τρέχουσα κατάσταση Ποιο σύμβολο του αλφάβητου θα "γεννήσει"; Ένα σύμβολο μπορεί να "γεννηθεί" από διαφορετικές καταστάσεις. Όταν παρατηρείται ένα σύμβολο, δεν είναι γνωστή η κατάσταση στην οποία βρίσκεται το HMM. Γνωστή σειρά συμβόλων / Άγνωστη σειρά καταστάσεων Σελίδα 8

Hidden Markov Models (HMMs) 1. Εκτίμηση (Evaluation) Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η πιθανότητα της ακολουθίας (forward algorithm) 2. Αποκωδικοποίηση (Decoding) Δεδομένου ενός μοντέλου Μ και μιας ακολουθίας x, ποια είναι η πιθανότερη ακολουθία καταστάσεων για τη μοντελοποίηση της ακολουθίας (viterbi algorithm) 3. Εκπαίδευση (Learning) Πως μπορούν να προσδιορισθούν οι παράμετροι ενός μοντέλου Μ (πιθανότητες μετάβασης / γεννήσεως) από μία ομάδα ακολουθιών (forward-backward algorithm, Baum-Welch expectation maximization) Σελίδα 9

Hidden Markov Models (HMMs) P(E I) P(E E) εξώνιο εσώνιο P(I I) P(A E) P(C E) P(G E) P(T E) P(I E) P(A I) P(C I) P(G I) P(T I) x = A A G T A G T A T C π = E E E I I I I I E E Σελίδα 10

Profile HMMs Hidden Markov Models (HMMs) δημιουργία μοντέλου βάσει μιας πολλαπλής στοίχισης

Καταστάσεις: Hidden Markov Models (HMMs) Match (γέννηση καταλοίπου βάσει της αντίστοιχης κατανομής) Insert (γέννηση καταλοίπου βάσει της κατανομής υποβάθρου) Delete Overfitting Στρεβλώσεις όταν οι συχνότητες υπολογίζονται από ένα μικρό αριθμό ακολουθιών Pseudocounts εξομαλύνουν την παρατηρούμενη συχνότητα χαρακτήρων π.χ. Dirichlet mixture Σελίδα 12

Profile HMMs Hidden Markov Models (HMMs) στοίχιση ακολουθίας με το μοντέλο (viterbi algorithm)

Hidden Markov Models (HMMs) Προγράμματα για τη δημιουργία και χρήση HMMs HMMER http://hmmer.org/ SAM http://compbio.soe.ucsc.edu/sam.html Θεωρητικό υπόβαθρο Καλύτερη αντιμετώπιση των κενών Κατάλληλα για τη μοντελοποίηση domains Πιο ευαίσθητα για μακρινές ομολογίες Σελίδα 14

Hidden Markov Models (HMMs) Pfam http://pfam.xfam.org/ Pfam-A στοιχίσεις / HMMs από εξειδικευμένους ερευνητές Pfam-B Clan εγγραφές που προέκυψαν αυτοματοποιημένα ομαδοποίηση των εγγραφών της Pfam-A βάσει ομοιοτήτων σε επίπεδο ακολουθίας, δομής, profile-hmm Εκτενής σχολιασμός Σελίδα 15

Hidden Markov Models (HMMs) SMART http://smart.embl-heidelberg.de/ normal vs genomic TIGRFAMs http://www.jcvi.org/cgi-bin/tigrfams/index.cgi J. Craig Venter Institute SUPERFAMILY http://supfam.cs.bris.ac.uk/superfamily/ collection of hidden Markov models, which represent structural protein domains at the SCOP superfamily level Σελίδα 16

InterPro http://www.ebi.ac.uk/interpro/about.html ολοκλήρωση ΒΔ οικογενειών και domains Σελίδα 17

InterPro CATH/Gene3D at University College, London, UK PANTHER at University of Southern California, CA, USA PIRSF at the Protein Information Resource, Georgetown University Medical Centre, Washington DC, USA Pfam at the Wellcome Trust Sanger Institute, Hinxton, UK PRINTS at the University of Manchester, UK ProDom at PRABI Villeurbanne, France PROSITE and HAMAP at the Swiss Institute of Bioinformatics (SIB), Geneva, Switzerland SMART at EMBL, Heidelberg, Germany SUPERFAMILY at the University of Bristol, UK TIGRFAMs at the J. Craig Venter Institute, Rockville, MD, US Σελίδα 18

Επιλογή Ακολουθιών προς Στοίχιση Η χρήση πανομοιότυπων ακολουθιών στην πολλαπλή στοίχιση δεν προσφέρει πληροφορίες για τη σχέση απομακρυσμένων ομόλογων αλληλουχιών. Σελίδα 19

Επιλογή Ακολουθιών προς Στοίχιση Σελίδα 20

Επιλογή Ακολουθιών προς Στοίχιση ακολουθίες με διαφορετικό αριθμό επαναλήψεων αναγνώριση των επαναλήψεων (π.χ. dotplot) διαχωρισμός της στοίχισής τους Σελίδα 21

BAliBASE http://www.lbgi.fr/balibase/ multiple alignment benchmark υψηλής ποιότητας στοιχίσεις βασισμένες στην υπέρθεση τρισδιάστατων δομών, που έχουν ελεγχθεί από εξειδικευμένους επιστήμονες Σελίδα 22

Επιλογή μεθόδου στοίχισης Σελίδα 23

Μορφοποίηση Πολλαπλής Στοίχισης Sequence Format Conversion http://www.ebi.ac.uk/tools/sfc/ Μετατροπή από το ένα format στο άλλο FASTA (.fa ή.fasta ή.fst) >IXI_234 TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG PPAWAGDRSHE >IXI_235 TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TTSTSTRHRGRSGW----------RASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG PPAWAGDRSHE >IXI_236 TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG PPPPAGDRSHE >IXI_237 TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRRPT----CSAAPRRPQATGGYKTCSGTC TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG PPAYAGDRSHE Σελίδα 24

Μορφοποίηση Πολλαπλής Στοίχισης Phylip (.phy ή.phylip) 4 131 IXI_234 IXI_235 IXI_236 IXI_237 Clustal (.aln) IXI_234 IXI_235 IXI_236 IXI_237 TSPASIRPPA GPSSRPAMVS SRRTRPSPPG PRRPTGRPCC SAAPRRPQAT TSPASIRPPA GPSSR----- ----RPSPPG PRRPTGRPCC SAAPRRPQAT TSPASIRPPA GPSSRPAMVS SR--RPSPPP PRRPPGRPCC SAAPPRPQAT TSPASLRPPA GPSSRPAMVS SRR-RPSPPG PRRPT----C SAAPRRPQAT GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSRSAG GGWKTCSGTC TTSTSTRHRG RSGW------ ----RASRKS MRAACSRSAG GGWKTCSGTC TTSTSTRHRG RSGWSARTTT AACLRASRKS MRAACSR--G GGYKTCSGTC TTSTSTRHRG RSGYSARTTT AACLRASRKS MRAACSR--G SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E SRPNRFAPTL MSSCITSTTG PPAWAGDRSH E SRPPRFAPPL MSSCITSTTG PPPPAGDRSH E SRPNRFAPTL MSSCLTSTTG PPAYAGDRSH E TSPASIRPPAGPSSRPAMVSSRRTRPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TSPASIRPPAGPSSR---------RPSPPGPRRPTGRPCCSAAPRRPQATGGWKTCSGTC TSPASIRPPAGPSSRPAMVSSR--RPSPPPPRRPPGRPCCSAAPPRPQATGGWKTCSGTC TSPASLRPPAGPSSRPAMVSSRR-RPSPPGPRR----PTCSAAPRRPQATGGYKTCSGTC *****:********* ***** *** * ***** *******:******* IXI_234 IXI_235 IXI_236 IXI_237 IXI_234 IXI_235 IXI_236 IXI_237 TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG TTSTSTRHRGRSGWRA----------SRKSMRAACSRSAGSRPNRFAPTLMSSCITSTTG TTSTSTRHRGRSGWSARTTTAACLRASRKSMRAACSR--GSRPPRFAPPLMSSCITSTTG TTSTSTRHRGRSGYSARTTTAACLRASRKSMRAACSR--GSRPNRFAPTLMSSCLTSTTG *************: * *********** **** **** *****:***** PPAWAGDRSHE PPAWAGDRSHE PPPPAGDRSHE PPAYAGDRSHE ** ******* Σελίδα 25

Multiple alignment editors Έλεγχος και πιθανή τροποποίηση πολλαπλών στοιχίσεων Jalview http://www.jalview.org/ SeaView http://doua.prabi.fr/software/seaview Δημιουργία sequence logos WebLogo http://weblogo.berkeley.edu/ Σελίδα 26

Προγράμματα Πολλαπλής Στοίχισης Clustal Omega http://www.ebi.ac.uk/tools/msa/clustalo/ T-Coffee http://tcf_dev.vital-it.ch/apps/tcoffee/index.html MAFFT http://mafft.cbrc.jp/alignment/server/ MUSCLE http://www.ebi.ac.uk/tools/msa/muscle/ Σελίδα 27

Φυλογενετική Ανάλυση μελέτη της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή οργανισμών και απεικόνισή της με φυλογενετικά δέντρα έλεγχος εξελικτικών υποθέσεων επιδημιολογικές μελέτες μελέτες βιοποικιλότητας φαρμακευτική έρευνα Σελίδα 28

Φυλογενετική Ανάλυση Σελίδα 29

Δεδομένα για ανάλυση Αριθμητικά Δεδομένα Αποστάσεις Συνήθως από δεδομένα ακολουθιών Χαρακτήρες γενετικοί μορφολογικοί / δομικοί συμπεριφορά Σελίδα 30

Φυλογενετικά δέντρα Τερματικοί Κόμβοι (Φύλλα) Κλαδιά A Προγονικός Κόμβος ή ΡΙΖΑ Εσωτερικοί Κόμβοι ή Σημεία Απόκλισης (υποθετικοί πρόγονοι) B C D E Αναπαριστούν TAXA (ταξινομικές μονάδες όπως είδη, γονίδια, πληθυσμούς, κλπ) Η διαδρομή από τη ρίζα προς τα φύλλα περιγράφει το εξελικτικό μονοπάτι. Σελίδα 31

Φυλογενετικά δέντρα Με ρίζα Nr=(2n-3)!/[2 n-2 (n-2)!] n=10 => Nr =34 459 425 Χωρίς ρίζα Nu=(2n-5)!/[2 n-3 (n-3)!] n=10 => Nu=2 027 025 Δεν περιγράφουν εξελικτικό μονοπάτι Σελίδα 32

Φυλογενετικά δέντρα A B C D B C D Root Δέντρα με ρίζα A A B C D Δέντρο χωρίς ρίζα Root Σελίδα 33

Φυλογενετικά δέντρα Ένα δέντρο χωρίς ρίζα 4 ειδών μπορεί να μετατραπεί σε 5 διαφορετικά δέντρα με ρίζα, που αντιστοιχούν σε 5 διαφορετικά εξελικτικά μονοπάτια. Το δέντρο χωρίς ρίζα: A C B D d C D A B 4 c A B C D 3 e D C A B 5 b A B C D 2 a B A C D 1

Πως επιλέγεται η ρίζα; Φυλογενετικά δέντρα Στο μέσο των δύο πιο απομακρυσμένων κλαδιών Επιλογή out group out εξωομάδα group Σελίδα 35

Φυλογενετικά δέντρα Δεν αλλάζουν οι συσχετίσεις με την περιστροφή ενός κόμβου. Σελίδα 36

Φυλογενετικά δέντρα Το μήκος των κλαδιών Δεν έχει νόημα (κλαδόγραμμα) είναι ανάλογο της γενετικής απόκλισης (φυλόγραμμα) είναι ανάλογο του χρόνου (ultrametric tree) Σελίδα 37

Newick format Φυλογενετικά δέντρα Σελίδα 38

Φυλογενετική ανάλυση γονιδίων Εξελικτική ιστορία γονιδίων Διαφορετικός ρυθμός αλλαγής πολύ αργός (ιστόνες) πολύ γρήγορος (ανοσοσφαιρίνες) Διαφορετική εξέλιξη Οριζόντια μεταφορά Η εξελικτική ιστορία των γονιδίων δεν ταυτίζεται κατ ανάγκη με την εξελικτική ιστορία των οργανισμών. Σελίδα 39

Φυλογενετική ανάλυση οργανισμών Δεδομένα φαινοτυπικοί χαρακτήρες ένα γονίδιο μοριακό δείκτη (π.χ. ss-rrna) μια σειρά γονιδίων πλειοψηφία των γονιδίων κάθε οργανισμού Εξελικτικά "κοντινοί" οργανισμοί ακολουθίες DNA που εξελίσσονται γρήγορα Βαθειά αποκλίνοντες οργανισμοί Πολύ καλά συντηρημένες πρωτεΐνες Σελίδα 40

Μεθοδολογίες (Ανα-)Κατασκευής Σελίδα 41

Μεθοδολογίες (Ανα-)Κατασκευής Βάσει αποστάσεων UPGMA (Unweighted pair group method with Arithmetic Mean) Neighbor joining Fitch-Margoliash Minimal Evolution Βάσει χαρακτήρων Μέγιστη φειδωλότητα (Maximum Parsimony) Μέγιστη πιθανοφάνεια (Maximum Likelihood) Σελίδα 42

Μεθοδολογία Αποστάσεων Δημιουργία πίνακα αποστάσεων πίνακας M όπου M ij είναι η απόσταση μεταξύ των ακολουθιών i και j και M ij >=0 Δημιουργία ενός δένδρου όπου κάθε φύλλο του αντιστοιχεί σε ένα αντικείμενο του M, έτσι ώστε η απόσταση μεταξύ των φύλλων i και j να είναι M ij A B A 0 12 0 B C D E A 7 4 2 E C 14 12 0 5 2 1 D E 14 15 12 13 6 7 0 3 0 B 3 C D

Ομαδοποίηση Μεθοδολογία Αποστάσεων αρχίζοντας από τις κοντινότερες ακολουθίες, σταδιακά ενσωματώνονται και οι πιο απομακρυσμένες UPGMA, Neighbor joining Βελτιστοποίηση σύγκριση των πιθανών τοπολογιών και επιλογή αυτής όπου οι αποστάσεις πάνω στο δένδρο ταιριάζουν καλύτερα με τα δεδομένα του πίνακα αποστάσεων Fitch-Margoliash, Minimal Evolution Σελίδα 44

Μεθοδολογία Αποστάσεων Η παρατηρούμενη απόσταση διαφέρει από την εξελικτική απόσταση Πολλαπλές αντικαταστάσεις Κορεσμός όταν η εξελικτική απόσταση είναι πολύ μεγάλη Απαραίτητη η χρήση μοντέλων αντικατάστασης για τη διόρθωση της παρατηρούμενης απόστασης Σελίδα 45

Μεθοδολογία Αποστάσεων Δεν είναι δυνατή η ανακατασκευή μιας προγονικής ακολουθίας μέθοδοι βελτιστοποίησης καλύτερα αποτελέσματα μέθοδοι ομαδοποίησης πιο γρήγορες προτιμότερες όταν τα δεδομένα είναι πολλά Σελίδα 46

Μέγιστη φειδωλότητα (Maximum Parsimony) Principle of Occam s Razor When you have two competing theories that make exactly the same predictions, the simpler one is the better. Επιλογή του δένδρου που ελαχιστοποιεί το πλήθος των εξελικτικών βημάτων που απαιτούνται για την επεξήγηση των δεδομένων. Σελίδα 47

Μέγιστη φειδωλότητα (Maximum Parsimony) Μέθοδος Πολλαπλή στοίχιση των ακολουθιών. Για κάθε θέση/στήλη i και για κάθε δέντρο Τ μετράμε το πλήθος των εξελικτικών βημάτων που απαιτούνται για να εξηγήσει το Τ τα δεδομένα της i. "Βέλτιστο" φυλογενετικό δέντρο το Τ με τις λιγότερες αλλαγές για όλες τις θέσεις. Σελίδα 48

Μέγιστη φειδωλότητα (Maximum Parsimony) non informative sites θέσεις της πολλαπλής στοίχισης που δεν δίνουν πληροφορίες για την επιλογή του δέντρου informative sites θέσεις της πολλαπλής στοίχισης που περιέχουν τουλάχιστον δύο διαφορετικούς χαρακτήρες σε τουλάχιστον δύο ακολουθίες ο καθένας Σελίδα 49

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη φειδωλότητα (Maximum Parsimony)

Μέγιστη φειδωλότητα (Maximum Parsimony) Σελίδα 52

Μέγιστη φειδωλότητα (Maximum Parsimony) Επιτρέπει την ανακατασκευή προγονικών ακολουθιών. Δημιουργία δέντρου συναίνεσης, όταν υπάρχουν περισσότερα από ένα βέλτιστα δέντρα. Δεν λαμβάνει υπόψη τις πολλαπλές αντικαταστάσεις. Είναι προτιμότερη η χρήση της για κοντινές εξελικτικά ακολουθίες. Υψηλό υπολογιστικό κόστος Παράγει όλα τα δέντρα μέχρι να καταλήξει στο βέλτιστο. Δημιουργία αλγορίθμων που αναγνωρίζουν το καλύτερο δέντρο χωρίς να βαθμολογούν όλα τα εναλλακτικά. Σελίδα 53

Μέγιστη πιθανοφάνεια (Maximum Likelihood) Με βάση κάποιο εξελικτικό μοντέλο αναζητά το δένδρο που έχει τη μεγαλύτερη πιθανότητα να περιγράφει τα δεδομένα. Υψηλό υπολογιστικό κόστος Παράγει όλα τα δυνατά δέντρα μέχρι να καταλήξει στο βέλτιστο. Σελίδα 54

Μέγιστη πιθανοφάνεια (Maximum Likelihood) I A C G C G T T G G G {A,C,G,T} II A C G C G T T G G G III A C G C A A T G A A {A,C,G,T} {A,C,G,T} IV A C A C A G G G A A T T A G 4 4 4=64 δυνατοί συνδυασμοί Τ "εξελικτικά" δέντρα A Τ G Τ A T T A G P(T->T) 3 P(T->G)P(G->A)P(G->G) T T A G P(A->A) 2 P(A->T)P(T->T) 2 P(A->G) Σελίδα 55

Αξιολόγηση φυλογενετικών δέντρων Σελίδα 56

Αξιολόγηση φυλογενετικών δέντρων Επανάληψη Δειγματοληψία στηλών της πολλαπλής στοίχισης Bootstrap (με επανάθεση) Jackknife (χωρίς επανάθεση) Ανακατασκευή φυλογενετικού δέντρου Προσδιορισμός του ποσοστού εμφάνισης ενός συγκεκριμένου κόμβου στα νέα φυλογενετικά δέντρα Σελίδα 57

long branch attraction Ομοπλασία Ομοιότητα που οφείλεται σε διαφορετικά εξελικτικά γεγονότα long branch attraction Μακριά κλαδιά περισσότερες γενετικές αλλαγές μεγαλύτερη πιθανότητα κάποιες θέσεις να έχουν ταυτόσημους χαρακτήρες

Προγράμματα φυλογενετικής ανάλυσης Phylogeny.fr http://www.phylogeny.fr/ PHYLIP http://evolution.genetics.washington.edu/phylip.html AWTY http://king2.sc.fsu.edu/cebprojects/awty/awty_start.php Σελίδα 59