ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Σχετικά έγγραφα
Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Ειδικά Θέματα Βιοπληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΙΑΤΡΙΚΗ»

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Κεφάλαιο 8: Μαρκοβιανά Μοντέλα

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

EM Baum-Welch. Step by Step the Baum-Welch Algorithm and its Application 2. HMM Baum-Welch. Baum-Welch. Baum-Welch Baum-Welch.

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Κεφάλαιο 4. Δυναµικός Προγραµµατισµός (Dynamic Programming) Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ IΙ ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ

Θεωρία Πληροφορίας. Διάλεξη 10: Κωδικοποίηση καναλιού με συνελικτικούς κώδικες. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Αρχές Δοµικής Βιοπληροφορικής Πρωτεϊνών

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 6: Σύγκριση αλληλουχιών Part I

Θέµα 3: Dynamic Time Warping (DTW). Hidden Markov Models (HMM).

Επικοινωνία Ανθρώπου Υπολογιστή. Β2. Αναγνώριση ομιλίας

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική. Ενότητα 21: Υπολογιστικός Προσδιορισμός Δομής (3/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Μηχανική μάθηση (Machine Learning)

Πρόβλεψη δομής πρωτεϊνών

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

Τηλεπικοινωνιακά Συστήματα ΙΙ

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Διοίκηση Λειτουργιών. Διοίκηση Έργων II (Δίκτυα Έργων & Χρονοπρογραμματισμός) - 6 ο μάθημα -

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

1 + ρ ρ ρ3. iπ i = Q = λ λ i=0. n=0 tn. n! Qn, t 0

HMY 795: Αναγνώριση Προτύπων

Συγκριτική Γονιδιωματική

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

HMY 795: Αναγνώριση Προτύπων

καθ. Βασίλης Μάγκλαρης

Πανεπιστήµιο Θεσσαλίας Σχολή Τεχνολογικών Επιστηµών Τµήµα Μηχανολόγων Μηχανικών Βιοµηχανίας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Δικτυακή Αναπαράσταση Έργων (Δίκτυα ΑΟΑ και ΑΟΝ) & η Μέθοδος CPM. Λυμένες Ασκήσεις & Παραδείγματα

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Αλγόριθμοι και Πολυπλοκότητα

Εισαγωγή στους Αλγορίθμους Ενότητα 11η

FORTRAN και Αντικειμενοστραφής Προγραμματισμός

ΕΥΡΕΤΗΡΙΑΣΗ ΔΕΔΟΜΕΝΩΝ ΚΙΝΗΣΗΣ ΜΕ ΧΡΗΣΗ ΜΟΝΤΕΛΩΝ

Βιοπληροφορική. Ενότητα 19: Υπολογιστικός Προσδιορισμός Δομής (1/3), 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Επαναληπτικές μέθοδοι

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

Αξιοποίηση Αλληλεπίδρασης του Χρήστη σε Συστήματα Διερευνητικής Αναζήτησης

HMY 795: Αναγνώριση Προτύπων

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Buried Markov Model Pairwise

Κεφάλαιο 23 Παραδείγµατα Μεθόδων E-M Αλγόριθµου

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Outline. 6 Edit Distance

Ειδικά Θέματα Βιοπληροφορικής

General Models & Inapproximability Overview. Influence Maximization σε Social Networks

ΘΕΜΑ Α

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Δυναμικός Προγραμματισμός

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''

A sequence alignment algorithm using the transition quantity

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

LALING/PLALING :

Βιοπληροφορική II. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Προγραμματισμός Η/Υ. 6 η ενότητα: Συναρτήσεις. Τμήμα. Τεχνολόγων Περιβάλλοντος. ΤΕΙ Ιονίων Νήσων. Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων

Επίλυση Προβλημάτων 1

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΧΡΥΣΟΥΛΑ ΚΟΛΛΙ Α ΦΥΛΟΓΕΝΕΤΙΚΗ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ Ε ΟΜΕΝΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Transcript:

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος

Δυναμικός Προγραμματισμός Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές

Στοίχιση Ολική Τοπική Ειδικές περιπτώσεις

Δυναμικός προγραμματισμός

Δυο περιπτώσεις στοιχίσεων F( i 1, j 1) s( xi, y j), F( i, j) max F( i 1, j) d, F( i, j 1) d F( i 1, j 1) s( xi, y j), F( i 1, j) d, F( i, j) max F( i, j 1) d, 0 F(i,0)=-id, F(0,j)=-jd F(i,0)=0, F(0,j)=0

Ποινές για τα κενά (gap penalties) Απλή ποινή για τα κενά: ( g) gd Σύνθετη ποινή για τα κενά: ( g ) d ( g 1) e

Έστω δυο ακολουθίες: Παράδειγμα x AAGTTAGCAG y CAGTATCGCA Αν έχουμε για τα κενά: s( x i, d=1 y i 1, αν ) 1, αν Τότε η καλύτερη ολική στοίχιση θα είναι: A A G T T A G C A G C A G T A T C G C A - x x i i y y i i

Ολική στοίχιση A A G T T A G C A G C A G T A T C G C A -

Τοπική στοίχιση A G T T A G C A A G T A T C G C A

Άλλοι αλγόριθμοι Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή) Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερη Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου laci της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία: x TCGCGGTATGGCATGATAGCGCCCGGAA και η αλληλουχία του υποκινητή είναι y TATAAT

συνέχεια F( i 1, j 1) s( x, y ), i j F( i, j) max F( i 1, j) d, F( i, j 1) d F(i,0)=-id F(0,j)=0.

Και η ακολουθία του πιθανού υποκινητή είναι: C A T G A T

RNA secondary structure prediction

Nussinov

Διαμεμβρανικά τμήματα C IN N OUT N IN C OUT

Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ... Εκτίμηση Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας ακολουθίας συμβόλων. P(x θ) Αποκωδικοποίηση Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων. Εκπαίδευση * argmax P( x, ) Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών θ ML =argmaxp(x θ)

... και οι απαντήσεις τους Εκτίμηση Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων). Αποκωδικοποίηση Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST). Εκπαίδευση Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

Αλγόριθμος Forward

Αλγόριθμος Viterbi

Αποκωδικοποίηση forward

Εκ των υστέρων αποκωδικοποίηση P( i k x) Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση Κάνοντας χρήση των Forward και Backward:

Πλεονεκτήματα: στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες. όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ. Μειονεκτήματα: Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

Συνοπτικά ο αλγόριθμος Υπολογισμός των Α και Ε Υπολογισμός των ΕΜΠ Επανάληψη μέχρι να συγκλίνει

Ένα παράδειγμα...

συνέχεια... Πιθανότητες μεταβάσεως: 1 0 1 0 0.90 0.10 0.10 0.90 Πιθανότητες γεννήσεως : 1 0 Α Τ G C 0.70 0.10 0.10 0.10 0.25 0.25 0.25 0.25

συνέχεια... Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο: AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA 111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG 111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA 00000000000000001111111111111100000000000000000011111111111111

συνέχεια...

συνέχεια... Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν: Πιθανότητες μεταβάσεως: 1 0 1 0 0.98 0.02 0.03 0.97 Πιθανότητες γεννήσεως : 1 0 Α Τ G C 0.60 0.10 0.10 0.10 0.25 0.25 0.25 0.25

συνέχεια...

Posterior-Viterbi decoding Ορίζονται οι επιτρεπτές μεταβάσεις:

Optimal Accuracy Posterior Decoding Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι: Συνολικά:

Άλλες εφαρμογές Fold recognition Threading Domain recognition

Fold recognition

Threading Protein threading is the problem of aligning a protein sequence whose structure we want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

Domain recognition