HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές
Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για την οποία η εκ των υστέρων (posterior) πιθανότητα p(ck x) είναι μέγιστη. Ελαχιστοποίηση ρίσκου Συνολικό ρίσκο Likelihood raxo επιλέγουμε C1 αν
Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών μεταβλητών Διαχωριστικές συναρτήσεις (discriminant funcxons) g i (x) (i=1,2, c) g i (x) > g j (x) j i Για Περίπτωση 1: Γραμμικός ταξινομητής, σύνορο κάθετο στη διάνυσμα διαφοράς μεταξύ μέσων τιμών Ισες a priori: Minimum Euclidean distance classifier Περίπτωση 2: Γραμμικός ταξινομητής Ισες a priori: Minimum Mahalanobis distance classifier
Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών μεταβλητών Περίπτωση 3: Τετραγωνικός ταξινομητής
Κατανομές πιθανότητας και αναγνώριση προτύπων Θεωρία πιθανοτήτων: κεντρικός ρόλος σε προβλήματα αναγνώρισης προτύπων Είδαμε ότι αν γνωρίζουμε τις εκ των προτέρων πιθανότητες p(c i ) και τις υπό συνθήκη πιθανότητες (πιθανοφάνειες) p(x C i ) μπορούμε να σχεδιάσουμε βέλτιστους ταξινομητές Σπάνια έχουμε αυτή την πληροφορία οπότε χρησιμοποιούμε τις παρατηρήσεις μας για εκτίμηση αυτών των συναρτήσεων πιθανότητας, τις οποίες μπορούμε στη συνέχεια να χρησιμοποιήσουμε τους στο σχεδιασμό κανόνων ταξινόμησης Για προβλήματα επιβλεπόμενης μάθησης οι a priori πιθανότητες p(c i ) είναι σχετικά απλό να προσδιοριστούν Πως μπορούμε να εκτιμήσουμε τις πιθανότητες p(x C i )?
Κατανομές πιθανότητας και αναγνώριση προτύπων Γενικά, το πρόβλημα της μοντελοποίησης της κατανομής της συνάρτησης πυκνότητας πιθανότητας (pdf) ενός τυχαίου διανύσματος x με βάση κάποιες παρατηρήσεις, δηλ. του p(x) με βάση ένα σύνολο παρατηρήσεων x 1, x 2,, x N είναι βασικό στη στατιστική και βρίσκει πολλές εφαρμογές Το πρόβλημα αυτό ονομάζεται εκτίμηση πυκνότητας (density esxmaxon) Υπάρχουν δύο γενικοί τρόποι επίλυσης του προβλήματος Υποθέτουμε ότι τα δεδομένα μας ακολουθούν συγκεκριμένη κατανομή π.χ. Ν (μ,σ 2 ) δηλ. με άλλα λόγια παραμετροποιούμε το πρόβλημα - και υπολογίζουμε τις παραμέτρους που χαρακτηρίζουν την κατανομή (parameter esxmaxon frequenxst (ML MAP) /Bayesian) αντί για την συνάρτηση p(x) Δεν υποθέτουμε συγκεκριμένη μορφή για την πυκνότητα πιθανότητας και υπολογίζουμε απευθείας τη συνάρτηση p(x) nonparametric density esxmaxon (histogram based, nearest neighbor algorithms κλπ)
Για δυαδικές τυχαίες μεταβλητές: Κατανομή Bernoulli Κατανομή Bernoulli Η κατανομή αυτή χαρακτηρίζεται πλήρως από μια παράμετρο (μ). Πως μπορούμε να την υπολογίσουμε από παρατηρήσεις? Εστω: Αν οι παρατηρήσεις είναι ανεξάρτητες η πιθανοφάνεια (likelihood) είναι: Log- likelihood
Κατανομή Bernoulli Αρα η εκτίμηση μέγιστης πιθανοφάνειας για το μ είναι: Γενικά βλέπουμε ότι το log- likelihood εξαρτάται μόνο από την ποσότητα - > επαρκής στατιστική παράμετρος (sufficient staxsxc) Προβλήματα με την εκτίμηση ML. Ας υποθέσουμε ότι το δείγμα μας είναι {1,1,1}. Η εκτίμησή μας θα είναι μ ML =1! Λύση: Χρήση a priori πιθανότητας για το μ, Μπεϋζιανή εκτίμηση
Διωνυμική κατανομή (Binomial distribuxon) Ποια είναι η πιθανότητα του αριθμού των παρατηρήσεων x=1 σε Ν παρατηρήσεις? Διωνυμική κατανομή: =
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Χρειαζόμαστε a priori κατανομή για το μ, δηλ το p(µ) Παρατηρούμε ότι η πιθανοφάνεια είναι ανάλογη των όρων µ x (1-µ) 1-x Εφόσον η εκ των υστέρων πιθανότητα είναι ανάλογη της εκ των προτέρων και της πιθανοφάνειας, δηλ. μια συνηθισμένη προσέγγιση στην Μπεϋζιανή εκτίμηση είναι η επιλογή μιας εκ των προτέρων πιθανότητας της ίδιας μορφής με την πιθανοφάνεια Οι a priori πιθανότητες αυτής της μορφής λέγονται συζυγείς (conjugate priors). Στην περίπτωσή μας, η κατανομή βήτα (beta distribuxon) πληροί αυτή την προϋπόθεση. Ορίζεται ως (για 0 µ 1): a, b: shape parameters, hyperparameters
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli a,b: hyperparameters Γ(α): gamma funcxon, αν α θετικός ακέραιος: Γ(α)=(α-1)! Aν α πραγματικός: a>1, b>1: mode (μέγιστο) στο a<1, b<1: anx- mode (ελάχιστο) στο ίδιο σημείο a=b: mode, anx- mode στο κέντρο (0.5)
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Εκ των υστέρων κατανομή για το μ: = m heads, N-m tails Στην ουσία έχουμε ενημέρωση της a priori πιθανότητας με τις m παρατηρήσεις x=1 και Ν-m παρατηρήσεις x=0
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Π.χ. αν έρθει μια παρατήρηση x=1: a=a+1, αν έρθει x=0: b=b+1 SequenXal learning (σειριακή μάθηση): συνέπεια της Μπεϋζιανής προσέγγισης και της υπόθεσης ανεξάρτητων και όμοια κατανεμημένων παρατηρήσεων (independent and idenxcally distributed i.i.d.) Οσο αυξάνει το Ν:
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Πως μπορούμε να προβλέψουμε το αποτέλεσμα της επόμενης δοκιμής (προγνωστική κατανομή - predicxve distribuxon)? Περιθωριακή κατανομή ολοκληρώνουμε ως προς μ Αρα η πρόγνωση εξαρτάται από το λόγο παρατηρήσεων x=1 προς τις παρατηρήσεις x=0. Για Ν η παραπάνω συγκλίνει στην εκτίμηση ML Συχνά οι εκτιμήσεις Bayes και ML συμφωνούν στο όριο Οσο αυξάνει ο αριθμός των παρατηρήσεων, η εκ των υστέρων κατανομή γίνεται πιο οξεία (Bayesian learning)
Πολυωνυμικές τυχαίες μεταβλητές (MulXnomial random variables) Εστω ότι έχουμε μια τ.μ. που μπορεί να λάβει μια από Κ πιθανές αμοιβαία αποκλειστικές καταστάσεις Ενας τρόπος αναπαράστασης: διάνυσμα Kx1 π.χ. {0 0 1 0 0} T Γενίκευση της Bernoulli. Αν τότε:
Εκτίμηση ML Δεδομένων των παρατηρήσεων θέλουμε να εκτιμήσουμε τις παραμέτρους µ k Πιθανοφάνεια (ανεξάρτητες παρατηρήσεις): όπου ο αριθμός των 1 στη θέση k (επαρκής στατιστική παράμετρος) Μεγιστοποίηση της πιθανοφάνειας ως προς µ k υπό τη συνθήκη : πρόβλημα βελτιστοποίησης υπό συνθήκη - Lagrange mulxpliers Θέτουμε την παράγωγο ως προς µ k ίση με μηδέν:
Πολυωνυμική κατανομή Πρέπει όμως άρα λ=-ν και (κλάσμα των παρατηρήσεων για τις οποίες x k =1 Παρόμοια με τη διωνυμική, μπορούμε να ορίσουμε την πολυωνυμική κατανομή (mulxnomial distribuxon):
Bayesian esxmaxon mulxnomial distribuxon Η συζυγής κατανομή για το (διάνυσμα) µ σε αυτή την περίπτωση είναι της μορφής: Η κανονικοποιημένη μορφή της παραπάνω είναι η κατανομή Dirichlet Οι τιμές του διανύσματος μ βρίσκονται σε ένα simplex διαστάσεων Κ- 1
Dirichlet distribuxon α = (6,2,2) α = (3,7,5) α = (6,2,6) α = (2,3,4).
Bayesian esxmaxon mulxnomial distribuxon Για να υπολογίσουμε την εκ των υστέρων κατανομή του μ η οποία είναι επίσης κατανομή Dirichlet με παραμέτρους (α k +m k ) ή ισοδύναμα (α+µ) Οπως και στην περίπτωση της διωνυμικής, οι παράμετροι α k μπορούν να ερμηνευθούν ως οι ισοδύναμες «παρατηρήσεις» x k =1 στην εκ των προτέρων κατανομή