HMY 795: Αναγνώριση Προτύπων



Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

3. Κατανομές πιθανότητας

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

HMY 795: Αναγνώριση Προτύπων

1 x-μ - 2 σ. e σ 2π. f(x) =

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Εφαρμοσμένη Στατιστική

HMY 799 1: Αναγνώριση Συστημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μέθοδος μέγιστης πιθανοφάνειας

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 4: Μη Παραμετρικές Τεχνικές 4.1 Εισαγωγή

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

HMY 799 1: Αναγνώριση Συστημάτων

Αναγνώριση Προτύπων. Εκτίμηση Παραμέτρων (Parameter Estimation)

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

HMY 220: Σήματα και Συστήματα Ι

Στατιστική. Εκτιμητική

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 220: Σήματα και Συστήματα Ι

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Λήψης Αποφάσεων

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Μέθοδος μέγιστης πιθανοφάνειας

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

Το μοντέλο Perceptron

HMY 799 1: Αναγνώριση Συστημάτων

Πανεπιστήμιο Ιωαννίνων Ακαδ. Έτος Τμήμα Μηχανικών Η/Υ & Πληροφορικής. Παρασκευάς Τσανταρλιώτης Α.Μ. 318

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

HMY 795: Αναγνώριση Προτύπων

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Αναγνώριση Προτύπων Ι

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΝΤΥΠΟ ΘΕΜΑΤΩΝ ΕΞΕΤΑΣΕΩΝ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

ιωνυµική Κατανοµή(Binomial)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Στατιστική Συμπερασματολογία

Ψηφιακές Τηλεπικοινωνίες

Non Linear Equations (2)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Αναγνώριση Προτύπων Ι

Δειγματοληψία στην Ερευνα. Ετος

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Πελοποννήσου

Στατιστική Συμπερασματολογία

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

!n k. Ιστογράμματα. n k. x = N = x k

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

Αριθμητικές Προσομοιώσεις του πρότυπου ISING στις Τρεις Διαστάσεις

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Στατιστική Ι-Θεωρητικές Κατανομές Ι

Τυχαιοκρατικοί Αλγόριθμοι

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7 8 Μπεϋζιανή εκτίμηση συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας

Εκτίμηση ML για την κανονική κατανομή

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή διασπορά, άγνωστη μέση τιμή μ Συζυγής a priori κατανομή: κανονική ως προς μ

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Έστω τώρα ότι η μέση τιμή μ είναι γνωστή και η διασπορά σ 2 είναι άγνωστη. Η πιθανοφάνεια σε συνάρτηση με την ακρίβεια λ=1/σ 2 είναι: Θέλουμε συζυγή εκ των προτέρων κατανομή p(λ): Gamma distribution (συνήθης κατανομή για χρόνους αναμονής) λ,, a,, b>0

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Posterior density: H κατανομή αυτή είναι με παραμέτρους: Άρα η παρατήρηση Ν σημείων αλλάζει τις παραμέτρους της εκ των προτέρων Άρα η παρατήρηση Ν σημείων αλλάζει τις παραμέτρους της εκ των προτέρων κατανομής. Μπορεί να θεωρήσει κάποιος ότι η εκ των προτέρων κατανομή αντιστοιχεί σε κάποιες «εικονικές» παρατηρήσεις, πχ για το α Ν η εκ των προτέρων κατανομή αντιστοιχεί σε 2α 0 παρατηρήσεις 0

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Τι συμβαίνει όταν οι παράμετροι μ,σ 2 (ή ισοδύναμα, λ) είναι και οι δύο άγνωστες? Conjugate prior? Gaussian gamma distribution Quadratic in μ Linear in λ Gamma distribution over λ Independent of μ Για την πολυμεταβλητή κανονική κατανομή: ανάλογη διαδικασία πχ για άγνωστο μ > p(μ): normal, για άγνωστο Λ (=Σ 1 ) > p(λ): Wishart κλπ

Μείξεις κανονικών κατανομών (Gaussian mixtures) Σε αρκετές περιπτώσεις, η κανονική κατανομή παρουσιάζει περιορισμούς Single Gaussian Mixture of two Gaussians Μείξη (mixture): Γραμμικός συνδυασμός κανονικών κατανομών α

Μείξεις κανονικών κατανομών (Gaussian mixtures) Component Mixing coefficient H p(x) πρέπει να είναι κατανομή πιθανότητας:

Μείξεις κανονικών κατανομών (Gaussian mixtures) Πως μπορούμε να υπολογίσουμε τους συντελεστές π k και τις παραμέτρους κάθε συνιστώσας? Εκτίμηση ML Λογάριθμος αθροίσματος - δεν μπορεί να βρεθεί μέγιστο αναλυτικά Λύση: Επαναληπτικές μέθοδοι ή expectation maximization (μεγιστοποίηση αναμενόμενης τιμής) στη συνέχεια

Εκτίμηση και αναγνώριση προτύπων Είδαμε ότι μπορούμε να παραμετροποιήσουμε μια κατανομή πιθανότητας p(x θ), όπου θ είναι το διάνυσμα των άγνωστων παραμέτρων μας, και να εκτιμήσουμε τις παραμέτρους με βάση τη μέθοδο ML ή τη μέθοδο Bayes Στην αναγνώριση προτύπων, ο σκοπός μας είναι ο προσδιορισμός της κατανομής των χαρακτηριστικών (features) για κάθε κλάση του προβλήματος, δηλ. p(x C i ), οπότε η ανωτέρω διαδικασία δ πραγματοποιείται για κάθε κλάση ξεχωριστά, συλλέγοντας ένα σύνολο παρατηρήσεων D i από κάθε μια και υπολογίζοντας την p(x D i )(=p(x C i,d i )) Στη συνέχεια, μπορούμε να υπολογίσουμε την εκ των υστέρων πιθανότητα για κάθε κλάση και να σχεδιάσουμε βέλτιστους ταξινομητές με βάση τον κανόνα Bayes, δηλ. επιλογή της κλάσης για την οποία μεγιστοποιείται η: p( x Ci) p( Ci) pc ( i x) = c p( x C ) p( C ) j= 1 j j

Maximum likelihood Εκτίμηση και αναγνώριση προτύπων Μεγιστοποιούμε την p(d i i θ) ως προς θ και ηζητούμενη ηκατανομή πιθανότητας είναι κατευθείαν p(x θ ML,D i ) Bayes Η εκ των προτέρων ρ γνώση μας περιέχεται στην a priori κατανομή p(θ) Το βασικό πρόβλημα είναι ο υπολογισμός της εκ των υστέρων (posterior) πιθανότητας p(θ D i ) pd ( i θ ) p ( θ ) p ( θ Di ) = pd ( θ) p( θ) dθ i Όταν υπολογιστεί η παραπάνω, η ζητούμενη κατανομή p(x D i ) δίνεται από την p( x Di) = p( x θ) p( θ Di) dθ

Μπεϋζιανή εκτίμηση Παράδειγμα: Αν η κατανομή είναι κανονική με άγνωστη μέση τιμή για κάθε κλάση, δηλ. Ν(μ i,σ i ) και υπολογίσουμε κατά Bayes τη μέση τιμή μ i τότε i i i p( x Di) = p( x μi) p( μi D) dμi Στα προηγούμενα είδαμε ότι αν p(x μ)~ν(μ Ν(μ,σ 2 ) και υποθέσουμε κανονική a priori κατανομή για το p(μ) (Ν(μ 0,σ 02 )), τότε: p 2 ( μ D)~ Ν( μ μν, σν ) Μάλιστα, τελικά προκύπτει: p D N μ σ σ 2 2 ( x i )~ ( Ν, + Ν)

Μπεϋζιανή εκτίμηση Γενικά σχόλια για επιλογή εκ των προτέρων κατανομών Ίδιας μορφής με την πιθανοφάνεια: συζυγής (conjugate) Αν δεν έχουμε πληροφορία: noninformative prior Μπορούμε να διαλέξουμε εκ των προτέρων κατανομή, η οποία δεν πληροί τις συνθήκες που ισχύουν για κατανομές πιθανότητας (μη γνήσια improper), π.χ. για μια θετική τ.μ. όπως η διασπορά μπορούμε να διαλέξουμε p(σ)=1/σ (σ>0) Translation invariant/scale invariant: Κατανομές που δεν αλλάζουν με μετατόπιση/κλιμάκωση της τ.μ. Π.χ. για p(λ)=σταθερή και λ=n 2 Η ομοιόμορφη κατανομή σε όλο το διάστημα είναι translation invariant (αναλλοίωτη ως προς μετατόπιση) αλλά μη γνήσια

Σύγκριση μεθόδων εκτίμησης Σύγκριση μεταξύ εκτίμησης ML, MAP και Bayes: ML μεγιστοποίηση p(d i θ) p(x D i )=p(x θ ML,D i ) MAP μεγιστοποίηση p(d i θ) p(θ) p(x D i )=p(x θ )p(x θ MAP,D i ) Bayes: p( θ D) = i pd ( θ) p( θ) i pd ( θ ) p ( θ ) d θ i Αν η πιθανοφάνεια παρουσιάζει μια οξεία κορυφή στο θ ML, η p(θ) δεν είναι μηδέν στο θ ML και επίσης δεν αλλάζει δραματικά στη γειτονιά του, τότε και η p(θ D i ) θα παρουσιάζει κορυφή σε αυτό το σημείο Άρα το αποτέλεσμα με βάση την p( x Di) = p( x θ) p( θ Di) dθ θα είναι αρκετά «κοντά» στο αποτέλεσμα της ML δηλ. p(x θ ML,D i ) Γενικά, όταν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση, οι μέθοδοι ML και Bayes δίνουν ισοδύναμα αποτελέσματα στο ασυμπτωτικό όριο άπειρων δεδομένων εκπαίδευσης (Ν ) Στην πράξη βέβαια δεν έχουμε αυτή την περίπτωση (άπειρα δεδομένα) όμως όταν έχουμε αρκετά δεδομένα και η a priori κατανομή είναι σχετικά «επίπεδη» παίρνουμε αρκετά παρόμοια αποτελέσματα και η εκτίμηση maximum a posteriori (MAP) είναι περίπου ίδια με την εκτίμηση ML

Σύγκριση μεθόδων εκτίμησης Υπολογιστική πολυπλοκότητα: τυπικά η εκτίμηση ML είναι αρκετά απλούστερη Η Μπεϋζιανή προσέγγιση λαμβάνει υπόψη την αβεβαιότητα όλων των πιθανών μοντέλων Αν παραμετροποιήσουμε την κατανομή πιθανότητας, τότε με την μέθοδο ML παίρνουμε απαραίτητα κατανομή της ίδιας μορφής (p(x θ ML,D i )), αλλά όχι με τη μέθοδο Bayes, λόγω του υπολογισμού με βάση την p( x Di) = p( x θ) p( θ Di) dθ Όταν η p(θ D) είναι «πλατιά» ή ασύμμετρη γύρω από τη λύση ML (θ ML ) οι δύο μέθοδοι μπορεί να δώσουν αρκετά διαφορετικά αποτελέσματα Γενικά το σφάλμα ταξινόμησης είναι τριών ειδών: Σφάλμα Bayes για επικαλυπτόμενες εκ των υστέρων πιθανότητες pc ( i x ) : το σφάλμα αυτό δεν μπορεί να εκμηδενιστεί Σφάλμα μοντέλου (model error): Αν το μοντέλο δεν περιλαμβάνει το πραγματικό μοντέλο που δημιούργησε τα δεδομένα (π.χ. κατανομή πιθανότητας) θα έχουμε σφάλμα Σφάλμα εκτίμησης (estimation error): Οι υπολογισμοί γίνονται με πεπερασμένο αριθμό δεδομένων. Το σφάλμα αυτό μπορεί να μειωθεί αυξάνοντας τον αριθμό των δεδομένων εκπαίδευσης

Μη παραμετρικές μέθοδοι Στα προηγούμενα εξετάσαμε την εκτίμηση συναρτήσεων πυκνότητας πιθανότητας υπό την προϋπόθεση ότι η μορφή της τελευταίας ήταν γνωστή πρόβλημα εκτίμησης παραμέτρων Πολλές φορές στην πράξη αυτό δεν είναι δυνατό Οι συγκεκριμένες κατανομές (πχ κανονική) δεν αναπαριστούν τα δεδομένα επαρκώς Δεδομένα με πολλαπλά μέγιστα (multimodal) πιθανή λύση: Gaussian mixtures Η εναλλακτική προσέγγιση είναι η μη παραμετρική εκτίμηση πυκνότητας Δεν υποθέτουμε συγκεκριμένη μορφή Δύο γενικές κατηγορίες Εκτίμηση των p(x Ci) Απευθείας εκτίμηση των p(ci x) και ταξινόμηση

Μη παραμετρικές μέθοδοι Μέθοδοι ιστογράμματος (histogram methods) Χωρίζουμε τα δεδομένα μας σε κάδους (bins) μεγέθους Δ i Συνήθως Δ i =Δ Δ: παράμετρος ομαλοποίησης (smoothing parameter) Απλή μέθοδος αλλά: Ασυνεχή αποτελέσματα Διαστάσεις προβλήματος! Χρειαζόμαστε Μ D κάδους

Μη παραμετρικές μέθοδοι Ιστόγραμμα: Η εκτιμώμενη πυκνότητα πιθανότητας εξαρτάται από τα γειτονικά σημεία με τρόπο που καθορίζεται από το Δ Σύμφωνα με τον ορισμό της συνάρτησης πυκνότητας πιθανότητας p(x), η πιθανότητα να βρίσκεται το x μέσα σε κάποια περιοχή R είναι: Έστω ότι έχουμε Ν συνολικά δείγματα από την κατανομή p(x). Η πιθανότητα ένα σημείο να βρίσκεται μέσα στο R είναι P, άρα ο αριθμός Κ των σημείων που βρίσκεται μέσα στο R ακολουθεί δυωνυμική κατανομή Η μέση τιμή της Bernoulli είναι Ε{Κ}=NP άρα το μέσο κλάσμα των σημείων που βρίσκονται στην περιοχή R θα είναι: E{K/N}=P, ενώ η διασπορά θα είναι Var{K/N}=P(1 P)/N P)/N

Μη παραμετρικές μέθοδοι Για μεγάλο Ν η διασπορά 0 άρα K NP Αν επιπλέον η περιοχή R είναι αρκετά μικρή μπορούμε να θεωρήσουμε ότι το p(x) είναι περίπου σταθερό και Άρα: Η σχέση αυτή μπορεί να χρησιμοποιηθεί με 2 τρόπους για την εκτίμηση του p(x) Θεωρούμε το Κ σταθερό και υπολογίζουμε το V από τα δεδομένα: αλγόριθμος Κ πλησιέστερων γειτόνων (K nearest neighbors ihb algorithm) Θεωρούμε το V σταθερό και υπολογίζουμε το Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation)

Αν ο όγκος V είναι πεπερασμένος, Μη παραμετρικές μέθοδοι όσο αυξάνουμε τον αριθμό των δειγμάτων Ν, ο λόγος η Κ/Ν συγκλίνει, αλλά η εκτίμηση για το p(x) είναι μέσος όρος ως προς το χώρο Για να πάρουμε την p(x) θα πρέπει να πάμε στο όριο V 0, αλλά τότε και το Κ 0! αν το Ν είναι πεπερασμένο K/N Επομένως δεν μπορούμε να πάρουμε απολύτως ακριβή εκτίμηση της p(x) με αυτό τον τρόπο

Εκτίμηση πυκνότητας με πυρήνες (kernel density estimation) i Έστω ότι η περιοχή R είναι κύβος D διαστάσεων Ορίζουμε τη συνάρτηση Άρα: k(u): Συνάρτηση πυρήνα (kernel lfunction) ή παράθυρο Parzen (Parzen window) και επειδή V=h D για κύβο D διαστάσεων, τελικά: Και αυτή η εκτίμηση είναι ασυνεχής

Εκτίμηση πυκνότητας με πυρήνες (kernel density estimation) i Λύση: Χρήση ομαλής συνάρτησης πυρήνα, π.χ. Γκαουσιανός πυρήνας (Gaussian kernel) Άρα η εκτίμηση είναι άθροισμα Γκαουσιανών καμπυλών με κέντρο στα σημεία εκπαίδευσης, κανονικοποιημένη από τον όρο 1/Ν και η συνεισφορά κάθε δείγματος εξαρτάται από την απόστασή του από το x Γενικά μπορούμε να χρησιμοποιήσουμε οποιαδήποτε συνάρτηση πυρήνα για την οποία ισχύει παράμετρος ομαλότητας

Εκτίμηση πυκνότητας με πυρήνες Πως επηρεάζει το μέγεθος του h? Το πλάτος και το μέτρο του παραθύρου αλλάζουν Στο όριο h 0 προσεγγίζουμε τη συνάρτηση Dirac δ(x x x n ) Για Ν, όταν h 0 προσεγγίζουμε την αληθινή κατανομή p(x)

Εκτίμηση πυκνότητας με πυρήνες Σύγκλιση της μεθόδου Parzen Έστω η εκτίμηση p Ν(x) για Ν σημεία. Η εκτίμηση αυτή είναι τυχαία μεταβλητή, άρα έχει κάποια μέση τιμή και διασπορά. Μπορεί να δειχθεί ότι η p Ν (x) συγκλίνει στην αληθινή κατανομή p(x) (mean square convergence): lim E{ p ( x)} p( x) N N = N N = lim Var{ p ( x)} 0 υπό συνθήκες οι οποίες συνήθως πληρούνται (p(x) συνεχής, Για τη μέση τιμή: N 1 1 x x { ( )} { i E pn x = E k } = N i= 1 VN hn 1 x v = k p ( v ) d v= VN hn = x v p( v) dv δ Ν ( ) δ 1 ( ) k x v x v Ν VN hn Συνέλιξη μεταξύ δ Ν και p. Στο όριο όμως δ Ν > Dirac delta και αν η p είναι συνεχής: lim E{ p ( x)} p( x) N N = κλπ.)

Εκτίμηση πυκνότητας με πυρήνες Παράδειγμα: Έστω p(x)~n(0,1) και k(u)~n(0,1) i= N 1 1 x x i p ( ) όπου N x = k h / N = h1 N N i= 1 hn hn Για Ν=1, h 1 =1: 1 1/2 2 1 = 1 = 1 1 p ( x) k( x x ) e ( x x ) N( x,1) 2π

Εκτίμηση πυκνότητας με πυρήνες

Εκτίμηση πυκνότητας με πυρήνες Παράδειγμα:Bimodal distribution (mixture of triangular and uniform)

Εκτίμηση πυκνότητας με πυρήνες Ταξινόμηση με βάση τη μέθοδο Parzen: Για στενό παράθυρο καλό σφάλμα εκπαίδευσης, όχι απαραίτητα επικύρωσης

Μη παραμετρικές μέθοδοι Kernel density: Η παράμετρος h είναι η ίδια για όλους τους πυρήνες Μεγάλο h: υπερβολικά ομαλές κατανομές σε περιοχές με μεγάλη πυκνότητα δεδομένων: Μικρό h: «Θορυβώδεις» κατανομές σε περιοχές με μικρή πυκνότητα δεδομένων Το βέλτιστο h εξαρτάται από το περιοχή του χώρου δεδομένων στην οποία βρισκόμαστε Λύση: Στην κρατάμε σταθερό το Κ και μεταβάλλουμε το V. Για κάθε σημείο x θεωρούμε μια σφαίρα με αυξανόμενο μέγεθος μέχρι να περιέχει Κ σημεία. Τότε η εκτίμηση μας δίνεται από την παραπάνω σχέση Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση παράμετρος ομαλοποίησης (smoothing parameter)

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι Η μέθοδος των Κ κοντινότερων γειτόνων μπορεί να χρησιμοποιηθεί στην αναγνώριση προτύπων για την απευθείας εκτίμηση των εκ των υστέρων πιθανοτήτων p(c i x) Έστω το σύνολο δεδομένων εκπαίδευσης για ένα πρόβλημα με C k κλάσεις, το οποίο περιέχει Ν k σημεία σε κάθε κλάση (οπότε Σ kν k=n) Για την ταξινόμηση ενός νέου σημείου x Θεωρούμε μια σφαίρα με κέντρο το x η οποία περιέχει Κ σημεία εκπαίδευσης Έστω ότι αυτή η σφαίρα έχει όγκο V και περιέχει Κ k σημεία από την κλάση C k Άρα και καθώς τελικά: Κ=1: nearest neighbor neighbor rule

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι έ ό ί ά έ ύ ά ά ό Η μέθοδος του κοντινότερου γείτονα ασυμπτωτικά έχει το πολύ διπλάσιο σφάλμα από τον βέλτιστο ταξινομητή δηλ. αυτόν που χρησιμοποιεί τις αληθινές κατανομές πιθανότητας των δεδομένων

Μη παραμετρικές μέθοδοι Πλεονεκτήματα: Γενικότητα Για αρκετά δείγματα, εγγυημένη σύγκλιση Μειονεκτήματα Ο αριθμός των δειγμάτων που απαιτείται για ικανοποιητικά αποτελέσματα μπορεί να είναι πολύ μεγαλύτερος πχ από παραμετρικές μεθόδους Αυξημένες απαιτήσεις σε υπολογιστική πολυπλοκότητα,, αποθήκευση Εκθετική αύξηση με τη διάσταση D του προβλήματος (curse of dimensionality)