Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Σχετικά έγγραφα
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΙΑΤΡΙΚΗ»

Ειδικά Θέματα Βιοπληροφορικής

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Μέτρα της οργάνωσης και της ποιότητας για τον Self-Organizing Hidden Markov Model Map (SOHMMM)

Κεφάλαιο 8: Μαρκοβιανά Μοντέλα

Μηχανική μάθηση (Machine Learning)

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Συγκριτική Γονιδιωματική

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

HMY 795: Αναγνώριση Προτύπων

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (2)

Τηλεπικοινωνιακά Συστήματα ΙΙ

HMY 795: Αναγνώριση Προτύπων

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

καθ. Βασίλης Μάγκλαρης

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΤΗΣ Γ' ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ. ΟΙ ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ ΑΠΟ ΤΟΝ ΚΑΘΗΓΗΤΗ κύριο ΤΡΙΓΚΑ ΓΕΩΡΓΙΟ του ΦΡΟΝΤΙΣΤΗΡΙΟΥ

Επικοινωνία Ανθρώπου Υπολογιστή. Β2. Αναγνώριση ομιλίας

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

HMY 795: Αναγνώριση Προτύπων

Ειδικά Θέματα Βιοπληροφορικής

Δικτυακή Αναπαράσταση Έργων (Δίκτυα ΑΟΑ και ΑΟΝ) & η Μέθοδος CPM. Λυμένες Ασκήσεις & Παραδείγματα

HMY 795: Αναγνώριση Προτύπων

τις αναδρομικές ακολουθίες (recursive sequences) στις οποίες ορίζαμε

Επαναληπτικές μέθοδοι

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

a n + 6a n a n 2 + 8a n 3 = 0, a 0 = 1, a 1 = 2, a 2 = 8

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

EM Baum-Welch. Step by Step the Baum-Welch Algorithm and its Application 2. HMM Baum-Welch. Baum-Welch. Baum-Welch Baum-Welch.

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 5: Κανονικές Εκφράσεις

Ασκήσεις από παλιές εξετάσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Μέθοδος μέγιστης πιθανοφάνειας

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

Ομαδοποίηση Ι (Clustering)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Θέματα Συστημάτων Πολυμέσων

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Συστήματα Markov Ένα σύστημα Markov διαγράμματος μετάβασης καταστάσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μάθημα 3 ο a. Τυχαία Μεταβλητή-Έννοιες και Ορισμοί

Θέµα 3: Dynamic Time Warping (DTW). Hidden Markov Models (HMM).

Αλγόριθμοι και Πολυπλοκότητα

Στατιστική Συμπερασματολογία

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

γ ρ α π τ ή ε ξ έ τ α σ η σ τ ο μ ά θ η μ α ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Αριθμητική Ανάλυση & Εφαρμογές

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 18 Μαίου Απαντήσεις Θεμάτων ΦΡΟΝΤΙΣΤΗΡΙΑ

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Τμήμα Φυσικής, Παν/μιο Ιωαννίνων, Ειδική Σχετικότητα, Διάλεξη 5 Οι Μετασχηματισμοί του Lorentz και η Συστολή του μήκους

FORTRAN και Αντικειμενοστραφής Προγραμματισμός

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Γραμμική Αλγεβρα ΙΙ Διάλεξη 1 Εισαγωγή Χρήστος Κουρουνιώτης Πανεπισ τήμιο Κρήτης 19/2/2014 Χ.Κουρουνιώτης (Παν.Κρήτης) Διάλεξη 1 19/2/ / 13

HMY 795: Αναγνώριση Προτύπων

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Μ.Δ.Ε. ''ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ''


ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

10. Με πόσους και ποιους τρόπους μπορεί να αναπαρασταθεί ένα πρόβλημα; 11. Περιγράψτε τα τρία στάδια αντιμετώπισης ενός προβλήματος.

ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Value at Risk (VaR) και Expected Shortfall

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

LALING/PLALING :

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

είναι πρόβλημα μεγιστοποίησης όλοι οι περιορισμοί είναι εξισώσεις με μη αρνητικούς του σταθερούς όρους όλες οι μεταβλητές είναι μη αρνητικές

Τμήμα Λογιστικής και Χρηματοοικονομικής. Θεωρία Πιθανοτήτων. Δρ. Αγγελίδης Π. Βασίλειος

Transcript:

Βιοπληροφορική Ι Παντελής Μπάγκος Αναπληρωτής Καθηγητής Πανεπιστήμιο Θεσσαλίας Λαμία, 2015 1

Διάλεξη 4 Hidden Markov Models (HMMs) 2

Μαρκοβιανά μοντέλα εξάρτησης Η πιθανότητα εμφάνισης ενός νουκλεοτιδίου είναι δεσμευμένη στο αμέσως προηγούμενό του Κατάλληλα μοντέλα για βιολογικές ακολουθίες, καθώς αντικατοπτρίζουν την έννοια της πληροφορίας που αυτές περιέχουν Παραδείγματα από τις φυσικές γλώσσες (στα αγγλικά το Q ακολουθείται με μεγαλύτερη πιθανότητα από U, παρά από κάποιο άλλο) Ο Markov εμπνεύστηκε τις ομώνυμες αλυσίδες απο ένα ποίημα του Pushkin. 3

4 Το μοντέλο Markov (Markov Model) ) ( 1 a x b x P p i i ab 1 ) ( ),..., ( 1 1 1 i x i x i i i i p x x P x x x P ) ( )...,..., ( ),..., ( ),...,, ( ) ( 1 1 2 1 1 1 1 1 x P x x x P x x x P x x x P P n n n x n n x n i i i n n n x x x P x P x P x x P x x P 2 1 1 1 2 1 1 ) ( ) ( ) ( )... ( ) ( },,, { C G A T x i x n x x,..., 1, 2 Σε μια ακολουθία DNA x θεωρούμε ότι η εμφάνιση ενός νουκλεοτιδίου εξαρτάται απο το αμέσως προηγούμενο του και η πιθανότητα αυτή ονομάζεται πιθανότητα μεταβάσεως η ολική πιθανότητα της ακολουθίας θα είναι: και επειδή:

Το Markov Model διαγραμματικά 5

Ο πίνακας μεταβάσεων Θέση i Α C G T Θέ ση i-1 A P AA P AC P ΑG P AT C P CΑ P CC P CG P CT G P GΑ P GC P GG P GT T P TΑ P TC P TG P TT 6

Maximum Likelihood Estimates x,,...,,,... P P x x x P x x x x L k k 1 1 i i1 i2 ik ik 1 x log P log P x, x,..., x log P x x, x,... x k k 1 1 i i1 i2 ik ik 1 = log P x, x,..., x log P x x, x,... x L L k k 1 1 i i1 i2 ik ik 1 Θέτουμε τη μερική παράγωγο ως προς τις παραμέτρους ιση με μηδέν ικανοποιώντας τους περιορισμούς: a s... s s k 1 0 s,..., s, s Q k m n k 1 0 s,..., s, s 1 0 n s,..., s, s k 1 0 7

Εφαρμογή- LR test Έστω ότι έχουμε δύο μοντέλα (+) και (-), στα οποία υποθέτουμε ότι ισχύουν διαφορετικοί πίνακες μεταβάσεως. Υπολογίζουμε τους Ε.Μ.Π. για τις μεταβάσεις, ως εξής: p ab c ab c ax P( x P( x ) ) i x x xi1xi S( x) log log xi1xi ab p p ab c ax Κατόπιν υπολογίζουμε τα log-odds, για κάθε νουκλεοτίδιο, και τα αθροίζουμε για ένα «παράθυρο», ή και για ολόκληρη την ακολουθία. p i1 i c i 8

Εφαρμογή στην εύρεση γονιδίων- CpG islands -0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 BITS 9

10

Ανώτερης τάξης αλυσίδες Markov Μια k τάξης αλυσίδα ορίζεται πολύ απλά: Μεγάλο πρόβλημα καθώς απαιτούνται εκθετικά αυξανόμενα αριθμός δεδομένων εκπαίδευσης [(20-1)*20 k-1 παράμετροι] Ιδιαίτερα σε περιπτώσεις πρωτεϊνών όπου έχουμε μεγάλο αλφάβητο Ανάγκη άλλων προσεγγίσεων 11

Προσεγγίσεις Ανώτερης τάξης αλυσίδες Markov Variable Length Markov chains (VLMC) Mixture Transition Distribution (MTD) Parsimonious Markov chains (PMC) 12

To Hidden Markov Model Στην περίπτωση που οι δυο περιοχές διαδέχονται η μια την άλλη, μέσα στην ίδια ακολουθία, πιο «κομψό» μαθηματικά είναι το Hidden Markov Model. Αν φανταστούμε ένα καζίνο, το οποίο χρησιμοποιεί κάθε φορά με συγκεκριμένη πιθανότητα, ένα αμερόληπτο (fair) ζάρι και ένα μεροληπτικό (loaded) ζάρι. 214526436636561666232145 --------++++++++++------ + = μεροληπτικό - = αμερόληπτο Ο παίχτης κάθε φορά γνωρίζει μόνο το αποτέλεσμα, και όχι την φύση του ζαριού. Το μοντέλο που μπορεί να περιγράψει αυτή την κατάσταση είναι το Hidden Markov Model, και ονομάζεται έτσι (κρυμμένο) γιατί πλέον δεν υπάρχει 1-1 αντιστοίχηση του αποτελέσματος, με την πραγματική κατάσταση. 13

Ο ορισμός του μοντέλου Ένα Hidden Markov Model, είναι ένα μοντέλο Μ που περιέχει 3 στοιχεία Σ, Q, θ. M Σ,Q,θ Σ, το αλφάβητο των δυνατών ενδεχομένων (π.χ. 1,2,..6 για το ζάρι, Α,T,G,C για το DNA, κλπ) Q, το σύνολο των δυνατών καταστάσεων του μοντέλου (μεροληπτικό αμερόληπτο, για το ζάρι, γονίδιο όχι γονίδιο για το DNA, κλπ) θ, το σύνολο πιθανοτήτων που διέπουν το μοντέλο και μπορεί να είναι: 1. Πιθανότητες μεταβάσεως (transitions) από κατάσταση σε κατάσταση, και 2. Πιθανότητες γεννήσεως (emissions), με τις οποίες παράγονται τα σύμβολα σε κάθε κατάσταση. Πρέπει να τονιστεί, ότι σε ένα ΗΜΜ η μαρκοβιανή ιδιότητα ισχύει για τις καταστάσεις του μοντέλου (states), και όχι για τα σύμβολα. 14

Ορισμοί Ακολουθία συμβόλων: transition probabilities: emission probabilities: begin probabilities: end probabilities: 15

Πιθανοφάνεια Η από κοινού πιθανότητα μιας ακολουθίας x και του μονοπατιού π Για να υπολογίσουμε την συνολική πιθανότητα, μιας ακολουθίας x, δεδομένου του μοντέλου, θα πρέπει να αθροίσουμε για όλες τις πιθανές αλληλουχίες καταστάσεων, δηλαδή να αθροίσουμε την συνεισφορά στη συνολική πιθανότητα όλων των πιθανών μονοπατιών π. 16

To Hidden Markov Model σχηματικά Το μεροληπτικό καζίνο 17

Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ... Εκτίμηση Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας ακολουθίας συμβόλων. P(x θ) Αποκωδικοποίηση Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων. * arg max P( x, ) Εκπαίδευση Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών θ ML =argmaxp(x θ) 18

... και οι απαντήσεις τους Εκτίμηση Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων). Αποκωδικοποίηση Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST). Εκπαίδευση Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent). 19

Αλγόριθμος Forward 20

21

22

Αλγόριθμος Viterbi 23

Αποκωδικοποίηση forward 24

Εκ των υστέρων αποκωδικοποίηση P( i k x) Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση Κάνοντας χρήση των Forward και Backward: 25

Πλεονεκτήματα: στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες. όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ. Μειονεκτήματα: Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση). 26

Αλγόριθμος Baum-Welch 27

28

29

Υπολογισμός των Expected counts 30

31

Είδαμε επίσης ότι ισχύει: Η συνάρτηση Q μεγιστοποιείται από τους ΕΜΠ (έχει τα ίδια ακρότατα με τη log-likelihood) 32

Συνοπτικά ο αλγόριθμος Υπολογισμός των Α και Ε Υπολογισμός των ΕΜΠ Επανάληψη μέχρι να συγκλίνει 33

Χαρακτηριστικά του αλγορίθμου Baum-Welch Είναι υπολογιστικά απλός Είναι σίγουρο ότι συγκλίνει Δεν χρειάζεται επιλογή παραμέτρων Αλλά επίσης: Δεν συγκλίνει πάντα στο ολικό μέγιστο Δεν είναι smooth (αν μια παράμετρος μηδενιστεί δεν αλλάζει ξανά τιμή) Δεν λειτουργεί on-line (για κάθε κατάλοιπο ξεχωριστά) 34

Gradient Descent Training 35

Υπολογισμός μερικών παραγώγων 36

Άρα για τα transitions, έχουμε: και για τα emissions: Παρατηρούμε ότι οι μερικές παράγωγοι της likelihood ως προς τις παραμέτρους του μοντέλου είναι ίδιες με αυτές της συνάρτησης Q 37

Normalization Αναγκαίο βήμα έτσι ώστε οι πιθανότητες να είναι μεταξύ 0-1 Softmax μετασχηματισμός 38

39

Ένα παράδειγμα... 40

συνέχεια... Πιθανότητες μεταβάσεως: 1 0 1 0 0.90 0.10 0.10 0.90 Πιθανότητες γεννήσεως : 1 0 Α Τ G C 0.70 0.10 0.10 0.10 0.25 0.25 0.25 0.25 41

συνέχεια... Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο: AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA 111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG 111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA 00000000000000001111111111111100000000000000000011111111111111 42

συνέχεια... Observed Sequence Viterbi Path 1 0 0 50 100 150 200 no 43

συνέχεια... Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν: Πιθανότητες μεταβάσεως: 1 0 1 0 0.98 0.02 02 0.03 03 0.97 Πιθανότητες γεννήσεως : 1 0 Α Τ G C 0.60 0.10 0.10 0.10 0.25 0.25 0.25 0.25 44

συνέχεια... Observed Sequence Posterior Probability cut 1 0 0 50 100 150 200 no 45

Splice site recognition Εύρεση της 5 -περιοχής ματίσματος Προϋποθέσεις: α) Τα εξώνια έχουν ίδιες πιθανότητες εμφάνισης βάσεων β) Τα εσώνια έχουν πολύ Α/Τ γ) Στο σημείο ματίσματος υπάρχει σχεδόν πάντα G 46

47

Labeled Sequences Αναγκαίο βήμα αν πρόκειται να κατασκευάσουμε μεγάλο μοντέλο με καταστάσεις οι οποίες ομαδοποιούνται Απαιτούνται αλλαγές στους αλγορίθμους 48

Labeled sequences 49

50

51

Maximum Likelihood για Labeled sequences 52

Conditional Maximum Likelihood Με την εισαγωγή των labels, μπορούμε να πραγματοποιήσουμε εκπαίδευση που μεγιστοποιεί την πιθανότητα: Η Πιθανοφάνεια γίνεται: 53

Conditional Maximum Likelihood Απαιτεί διπλάσιο υπολογιστικό χρόνο από ML Αποδίδει καλύτερα όταν τα labels είναι καλής ποιότητας Εκπαίδευση μόνο με Gradient descent Περισσότερο ευαίσθητος στις αρχικές τιμές των παραμέτρων 54

1-best decoding 55

Posterior-Viterbi decoding Ορίζονται οι επιτρεπτές μεταβάσεις: 56

Optimal Accuracy Posterior Decoding Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι: Συνολικά: 57

Σύγκριση ΗΜΜ-Regular Expressions Κάθε κανονική έκφραση μπορεί να αναπαρασταθεί με ένα ΗΜΜ Το αντίστροφο δεν ισχύει Παραδείγματα 58

Regular Expressions [AC]AG-GT[AG]AGT {DERK}(6)-[LIVMFWSTAG](2) [LIVMFYSTAGCQ]- [AGS]- C 59

Πλεονεκτήματα του Hidden Markov Model Άριστη μαθηματική θεμελίωση, και πιθανοθεωρητική ερμηνεία των αποτελεσμάτων. Ύπαρξη κατάλληλων αλγορίθμων για την υλοποίηση του. Μπορεί να ενσωματώσει, σχεδόν κάθε είδους πληροφορία για το βιολογικό πρόβλημα, χωρίς να αναγκαστούμε να καταφύγουμε σε ευριστικές (heuristic) μεθόδους. Αν δομηθεί το μοντέλο, η εκπαίδευση του και η εκτίμηση πάνω σε αυτό γίνεται με μια διαδικασία από την αρχή μέχρι το τέλος. 60

Εφαρμογές του Hidden Markov Model στη Βιολογία Εύρεση πιθανών γονιδίων (εσώνια εξώνια). Πρόγνωση δευτεροταγούς δομής πρωτεϊνών. Πρόγνωση διαμεμβρανικών τμημάτων πρωτεϊνών. Πρόγνωση των πεπτιδίων οδηγητών. Εύρεση ομόλογων οικογενειών ακολουθιών. και πολλά άλλα 61

62

63

64

65

66

67

Επεκτάσεις του ΗΜΜ ΗΜΜSDO Input-Output HMM (IOHMM) Factorial HMM Hierarchical HMM Partially Hidden Markov Model (PHMM) Hidden Neural Networks (HNN) και πολλά άλλα 68

69

Software http://www.dina.dk/~sestoft/bsa/match3.java http://www.cfar.umd.edu/~kanungo/software/software.html http://hmmer.wustl.edu/ 70