HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές
Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών μεταβλητών Διαχωριστικές συναρτήσεις (discriminant functions) g i (x) (i=1,2, c) g ( x) = R( α x) i g ( x) = p( C x) = i i c i j= 1 p ( x C ) p ( C ) gi ( x ) = p ( x Ci ) p ( Ci ) g ( x) = ln p( x C ) + ln p( C ) i i i i p( x C ) p( C ) j g i (x) > g j (x) j i Για p ( x C i)~ N( μ i, Σ i) 2 Περίπτωση 1: Σ i = σ Ι Γραμμικός ταξινομητής, σύνορο κάθετο στη διάνυσμα διαφοράς μεταξύ μέσων τιμών Ίσες a priori: Minimum Euclidean distance classifier Περίπτωση 2: Σ i =Σ Γραμμικός ταξινομητής Ίσες a priori: Minimum Mahalanobis distance classifier i j
Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών μεταβλητών Περίπτωση 3: αυθαίρετο Τετραγωνικός ταξινομητής Σ i
Κατανομές πιθανότητας και αναγνώριση προτύπων Θεωρία πιθανοτήτων: κεντρικός ρόλος σε προβλήματα αναγνώρισης προτύπων Είδαμε ότι αν γνωρίζουμε τις εκ των προτέρων πιθανότητες p(c i ) και τις υπό συνθήκη πιθανότητες (πιθανοφάνειες) p(x C i ) μπορούμε να σχεδιάσουμε βέλτιστους ταξινομητές Σπάνια έχουμε αυτή την πληροφορία οπότε χρησιμοποιούμε τις παρατηρήσεις μας για εκτίμηση αυτών των πιθανοτήτων και χρησιμοποίησή τους στο σχεδιασμό κανόνων ταξινόμησης Για προβλήματα επιβλεπόμενης μάθησης οι a priori πιθανότητες p(ci) είναι σχετικά απλό να προσδιοριστούν Πως μπορούμε να εκτιμήσουμε τις πιθανότητες p(x C i )?
Κατανομές πιθανότητας και αναγνώριση προτύπων Γενικά, το πρόβλημα της μοντελοποίησης της κατανομής της συνάρτησης πυκνότητας πιθανότητας (pdf) ενός τυχαίου διανύσματος x με βάση κάποιες παρατηρήσεις, δηλ. το p(x) με βάση ένα σύνολο παρατηρήσεων x 1, x 2,, x N είναι βασικό στη στατιστική και βρίσκει πολλές εφαρμογές Το πρόβλημα αυτό ονομάζεται εκτίμηση πυκνότητας (density estimation) Υπάρχουν δύο γενικοί τρόποι επίλυσης του προβλήματος Υποθέτουμε ότι τα δεδομένα μας ακολουθούν συγκεκριμένη κατανομή π.χ. Ν(μ,σ 2 ) δηλ. με άλλα λόγια παραμετροποιούμε το πρόβλημα και υπολογίζουμε τις παραμέτρους που χαρακτηρίζουν την κατανομή (parameter estimation frequentist (ML MAP)/Bayesian) αντί για την συνάρτηση p(x) Δεν υποθέτουμε συγκεκριμένη μορφή για την πυκνότητα πιθανότητας και υπολογίζουμε απευθείας τη συνάρτηση p(x) nonparametric ti density estimation (histogram based, nearest neighbor algorithms κλπ)
Για δυαδικές τυχαίες μεταβλητές: Κατανομή Bernoulli Κατανομή Bernoulli Η κατανομή αυτή χαρακτηρίζεται πλήρως από μια παράμετρο (μ). Πως μπορούμε να την υπολογίσουμε από παρατηρήσεις? Έστω: Αν οι παρατηρήσεις είναι ανεξάρτητες η πιθανοφάνεια (likelihood) είναι: Log likelihood
Κατανομή Bernoulli Άρα η εκτίμηση μέγιστης πιθανοφάνειας για το μ είναι: Γενικά βλέπουμε ότι το log likelihood εξαρτάται μόνο από την ποσότητα > επαρκής στατιστική παράμετρος (sufficient i statistic) titi) Προβλήματα με την εκτίμηση ML. Ας υποθέσουμε ότι το δείγμα μας είναι {1,1,1}. Η εκτίμησή μας θα είναι μ ML =1! Λύση: Χρήση a priori πιθανότητας για το μ, Μπεϋζιανή εκτίμηση
Διωνυμική κατανομή (Binomial distribution) Ποια είναι η πιθανότητα του αριθμού των παρατηρήσεων x=1 σε Ν παρατηρήσεις? Διωνυμική κατανομή: =
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Χρειαζόμαστε a priori κατανομή για το μ, δηλ p(μ) Παρατηρούμε ότι η πιθανοφάνεια είναι ανάλογη των όρων μ x (1 μ) 1 x Εφόσον η εκ των υστέρων πιθανότητα είναι ανάλογη της εκ των προτέρων και της πιθανοφάνειας, δηλ. p ( μ D ) p ( D μ ) p ( μ ) μια συνηθισμένη προσέγγιση στην Μπεϋζιανή εκτίμηση είναι η επιλογή μιας εκ των προτέρων πιθανότητας της ίδιας μορφής με την πιθανοφάνεια Οι a priori i πιθανότητες αυτής της μορφής λέγονται συζυγείς (conjugate priors). Στην περίπτωσή μας, η κατανομή βήτα (beta distribution) πληροί αυτή την προϋπόθεση:
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli a,b: hyperparameters Γ(α): gamma function, αν α θετικός ακέραιος: Γ(α)=(α-1)! a 1 t Aν α πραγματικός: Γ ( α) = t e dt 0 Γ ( α + 1) = αγ( α)
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Εκ των υστέρων κατανομή για το μ: = m heads, N m tails Στην ουσία έχουμε ενημέρωση της a priori πιθανότητας με τις m παρατηρήσεις x=1 και Ν m παρατηρήσεις x=0
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Π.χ. αν έρθει μια παρατήρηση x=1: a=a+1, αν έρθει x=0: b=b+1 Sequential learning (σειριακή μάθηση): συνέπεια της Μπεϋζιανής προσέγγισης και της υπόθεσης ανεξάρτητων και όμοια κατανεμημένων παρατηρήσεων (independent and identically distributed i.i.d.) Όσο αυξάνει το Ν:
Μπεϋζιανή εκτίμηση της κατανομής Bernoulli Πως μπορούμε να προβλέψουμε το αποτέλεσμα της επόμενης δοκιμής (προγνωστική κατανομή predictive distribution)? Περιθωριακή κατανομή ολοκληρώνουμε ως προς μ Άρα η πρόγνωση εξαρτάται από το λόγο παρατηρήσεων x=1 προς τις παρατηρήσεις x=0. Για Ν > η παραπάνω συγκλίνει στην εκτίμηση ML Συχνά οι εκτιμήσεις Bayes και ML συμφωνούν στο όριο Όσο αυξάνει ο αριθμός των παρατηρήσεων, η εκ των υστέρων κατανομή γίνεται πιο οξεία (Bayesian learning)
Πολυωνυμικές τυχαίες μεταβλητές (Multinomial random variables) ibl Έστω ότι έχουμε μια τ.μ. που μπορεί να λάβει μια από Κ πιθανές αμοιβαία αποκλειστικές καταστάσεις Ένας τρόπος αναπαράστασης: διάνυσμα Kx1 π.χ. {0 0 1 0 0} T Γενίκευση της Bernoulli
Εκτίμηση ML Δεδομένων των παρατηρήσεων θέλουμε να εκτιμήσουμε τις παραμέτρους μk Πιθανοφάνεια (ανεξάρτητες παρατηρήσεις): όπου ο αριθμός των 1 στη θέση k (επαρκής στατιστική παράμετρος) ) Μεγιστοποίηση της πιθανοφάνειας ως προς μ k υπό τη συνθήκη : πρόβλημα βελτιστοποίησης υπό συνθήκη Lagrange multipliers Θέτουμε την παράγωγο ως προς μ k ίση με μηδέν:
Πολυωνυμική κατανομή Πρέπει όμως άρα λ= Ν και (κλάσμα των παρατηρήσεων για τις οποίες x k =1 Παρόμοια με τη διωνυμική, μπορούμε να ορίσουμε την πολυωνυμική κατανομή (multinomial distribution):
Bayesian estimation multinomial distribution Η συζυγής κατανομή για το (διάνυσμα) μ σε αυτή την περίπτωση είναι της μορφής: Η κανονικοποιημένη μορφή της παραπάνω είναι η κατανομή Dirichlet
Dirichlet distribution α = (6,2,2) α = (3,7,5) α = (6,2,6) α = (2,3,4).
Bayesian estimation multinomial distribution Για να υπολογίσουμε την εκ των υστέρων κατανομή του μ η οποία είναι επίσης κατανομή Dirichlet με παραμέτρους (α k +m k ) ή ισοδύναμα (α+μ)