HMY 795: Αναγνώριση Προτύπων

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 9-10

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Στατιστική. Εκτιμητική

Μέθοδος μέγιστης πιθανοφάνειας

3. Κατανομές πιθανότητας

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Στατιστική Συμπερασματολογία

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

HMY 795: Αναγνώριση Προτύπων

Μέθοδος μέγιστης πιθανοφάνειας

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Αναγνώριση Προτύπων Ι

Στατιστική Συμπερασματολογία

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

Κεφάλαιο 4: Μη Παραμετρικές Τεχνικές 4.1 Εισαγωγή

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εφαρμοσμένη Στατιστική

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

Στατιστική Συμπερασματολογία

HMY 220: Σήματα και Συστήματα Ι

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

HMY 220: Σήματα και Συστήματα Ι

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 799 1: Αναγνώριση Συστημάτων

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Θεωρία Λήψης Αποφάσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

HMY 799 1: Αναγνώριση Συστημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

1 x-μ - 2 σ. e σ 2π. f(x) =

3 ο Μέρος Χαρακτηριστικά τυχαίων μεταβλητών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συνεχείς τυχαίες μεταβλητές Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Ψηφιακές Τηλεπικοινωνίες

Τυχαιοκρατικοί Αλγόριθμοι

Γνωστές κατανομές συνεχών μεταβλητών (συν.) (Δ). Γάμμα κατανομή

ΕΝΤΥΠΟ ΘΕΜΑΤΩΝ ΕΞΕΤΑΣΕΩΝ

HMY 795: Αναγνώριση Προτύπων

HMY 799 1: Αναγνώριση Συστημάτων

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

Λύσεις 4ης Ομάδας Ασκήσεων

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Αναγνώριση Προτύπων Ι

Κεφάλαιο 9 Κατανομές Δειγματοληψίας

HMY 799 1: Αναγνώριση. συστημάτων. Διαλέξεις 6 7. Συνάφεια (συνέχεια) Μη παραμετρική αναγνώριση γραμμικών

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

Δειγματοληψία στην Ερευνα. Ετος

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

HMY 795: Αναγνώριση Προτύπων

Κατανομή συνάρτησης τυχαίας μεταβλητής Y=g(X) Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ13 ( 1 )

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

Αναγνώριση Προτύπων. Εκτίμηση Παραμέτρων (Parameter Estimation)

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

X = συνεχης. Είναι εμφανές ότι αναγκαία προϋπόθεση για την ύπαρξη της ροπογεννήτριας

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Γ. Ν. Π Α Π Α Δ Α Κ Η Σ Μ Α Θ Η Μ Α Τ Ι Κ Ο Σ ( M S C ) ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. ΠΡΟΓΡΑΜΜΑ: Σπουδές στις Φυσικές Επιστήμες

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7-8 Μπεϋζιανή εκτίμηση - συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας

Δυαδικές τ.μ. κατανομή Bernoulli : Εκτίμηση ML: Εκτίμηση Bayes για εκ των προτέρων κατανομή Βήτα: παίρνουμε: =

Γενίκευση Bernoulli: Εκτίμηση ML: όπου Εκτίμηση Bayes για εκ των προτέρων κατανομή Dirichlet: παίρνουμε:

Εκτίμηση ML για την κανονική κατανομή

Μπεϋζιανή εκτίμηση για την κανονική κατανομή Γνωστή διασπορά, άγνωστη μέση τιμή μ Συζυγής a priori κατανομή: κανονική ως προς μ

Μείξεις κανονικών κατανομών (Gaussian mixtures) Σε αρκετές περιπτώσεις, η κανονική κατανομή παρουσιάζει περιορισμούς Single Gaussian Mixture of two Gaussians Μείξη (mixture): Γραμμικός συνδυασμός κανονικών κατανομών

Μείξεις κανονικών κατανομών (Gaussian mixtures) Component Mixing coefficient H p(x) πρέπει να είναι κατανομή πιθανότητας: K=3

Μείξεις κανονικών κατανομών (Gaussian mixtures) Πως μπορούμε να υπολογίσουμε τους συντελεστές π k και τις παραμέτρους κάθε συνιστώσας? Εκτίμηση ML Λογάριθμος αθροίσματος - δεν μπορεί να βρεθεί μέγιστο αναλυτικά Λύση: Επαναληπτικές μέθοδοι ή expectation maximization (μεγιστοποίηση αναμενόμενης τιμής) στη συνέχεια

Εκτίμηση και αναγνώριση προτύπων Είδαμε ότι μπορούμε να παραμετροποιήσουμε μια κατανομή πιθανότητας p(x θ), όπου θ είναι το διάνυσμα των άγνωστων παραμέτρων μας, και να εκτιμήσουμε τις παραμέτρους με βάση τη μέθοδο ML ή τη μέθοδο Bayes Στην αναγνώριση προτύπων, ο σκοπός μας είναι ο προσδιορισμός της κατανομής των χαρακτηριστικών (features) για κάθε κλάση του προβλήματος, δηλ. p(x C i ), οπότε η ανωτέρω διαδικασία πραγματοποιείται για κάθε κλάση ξεχωριστά, συλλέγοντας ένα σύνολο παρατηρήσεων D i από κάθε μια και υπολογίζοντας την p(x D i ) (= p(x C i,d i )) Στη συνέχεια, μπορούμε να υπολογίσουμε την εκ των υστέρων πιθανότητα για κάθε κλάση και να σχεδιάσουμε βέλτιστους ταξινομητές με βάση τον κανόνα Bayes, δηλ. επιλογή της κλάσης για την οποία μεγιστοποιείται η: p( x Ci) p( Ci) pc ( i x) c p( x C ) p( C ) j 1 j j

Maximum likelihood Εκτίμηση και αναγνώριση προτύπων Μεγιστοποιούμε την p(d i θ) ως προς θ και η ζητούμενη κατανομή πιθανότητας είναι κατευθείαν p(x θ ML,D i ) Bayes Η εκ των προτέρων γνώση μας περιέχεται στην a priori κατανομή p(θ) Το βασικό πρόβλημα είναι ο υπολογισμός της εκ των υστέρων (posterior) πιθανότητας p(θ D i ) p( θ D) i p( D θ) p( θ) p( D θ) p( θ) dθ Όταν υπολογιστεί η παραπάνω, η ζητούμενη κατανομή p(x D i ) δίνεται από την p( x Di) p( x θ) p( θ Di) dθ i i

Μπεϋζιανή εκτίμηση Παράδειγμα: Αν η κατανομή είναι κανονική με άγνωστη μέση τιμή για κάθε κλάση, δηλ. Ν(μ i,σ 2 ) και υπολογίσουμε κατά Bayes τις μέσες τιμές μ i τότε p( x Di ) p( x i) p( i D) d i Στα προηγούμενα είδαμε ότι αν p(x μ)~ν(μ,σ 2 ) και υποθέσουμε κανονική a priori κατανομή για το p(μ) (Ν(μ 0,σ 02 )), τότε: p 2 ( D) ~ (, ) Μάλιστα, τελικά προκύπτει: p D N 2 2 ( x i) ~ (, )

Μπεϋζιανή εκτίμηση Γενικά σχόλια για επιλογή εκ των προτέρων κατανομών Ίδιας μορφής με την πιθανοφάνεια: συζυγής (conjugate) Αν δεν έχουμε πληροφορία: noninformative prior δεν επηρεάζουμε την εκ των υστέρων κατανομή σημαντικά Μπορούμε να διαλέξουμε εκ των προτέρων κατανομή, η οποία δεν πληροί τις συνθήκες που ισχύουν για κατανομές πιθανότητας (μη γνήσια - improper), π.χ. για μια θετική τ.μ. όπως η διασπορά μπορούμε να διαλέξουμε p(σ)=1/σ (σ>0), η για μια τ.μ. που μπορεί να πάρει θετικές και αρνητικές τιμές όπως η μέση τιμή μπορούμε να διαλέξουμε p(μ)=const Translation invariant/scale invariant: Κατανομές που δεν αλλάζουν με μετατόπιση/κλιμάκωση της τ.μ. η για p(λ)=const είναι αναλλοίωτη ως προς τη μετατόπιση αλλά αν π.χ. πάρουμε το μετασχηματισμό λ=n 2 δεν παίρνουμε σταθερή κατανομή. Η ομοιόμορφη κατανομή σε όλο το διάστημα είναι translation invariant (αναλλοίωτη ως προς μετατόπιση) αλλά μη γνήσια

Σύγκριση μεθόδων εκτίμησης Σύγκριση μεταξύ εκτίμησης ML, MAP και Bayes: ML μεγιστοποίηση p(d i θ) p(x D i )=p(x θ ML,D i ) MAP μεγιστοποίηση p(d i θ) p(θ) p(x D i )=p(x θ MAP,D i ) Bayes: p( θ D) i p( D θ) p( θ) i p( D θ) p( θ) dθ i Αν η πιθανοφάνεια παρουσιάζει μια οξεία κορυφή στο θ ML, η p(θ) δεν είναι μηδέν στο θ ML και επίσης δεν αλλάζει δραματικά στη γειτονιά του, τότε και η p(θ D i ) θα παρουσιάζει κορυφή σε αυτό το σημείο Άρα το αποτέλεσμα με βάση την p( x Di) p( x θ) p( θ Di) dθ θα είναι αρκετά «κοντά» στο αποτέλεσμα της ML δηλ. p(x θ ML,D i ) Γενικά, όταν η εκ των προτέρων κατανομή δεν αποκλείει την «πραγματική» λύση, οι μέθοδοι ML και Bayes δίνουν ισοδύναμα αποτελέσματα στο ασυμπτωτικό όριο άπειρων δεδομένων εκπαίδευσης (Ν ) Στην πράξη βέβαια δεν έχουμε αυτή την περίπτωση (άπειρα δεδομένα) όμως όταν έχουμε αρκετά δεδομένα και η a priori κατανομή είναι σχετικά «επίπεδη» παίρνουμε αρκετά παρόμοια αποτελέσματα και η εκτίμηση maximum a posteriori (MAP) είναι περίπου ίδια με την εκτίμηση ML

Σύγκριση μεθόδων εκτίμησης Υπολογιστική πολυπλοκότητα: τυπικά η εκτίμηση ML είναι αρκετά απλούστερη Η Μπεϋζιανή προσέγγιση λαμβάνει υπόψη την αβεβαιότητα όλων των πιθανών μοντέλων Αν παραμετροποιήσουμε την κατανομή πιθανότητας, τότε με την μέθοδο ML παίρνουμε απαραίτητα κατανομή της ίδιας μορφής (p(x θ ML,D i )), αλλά όχι με τη μέθοδο Bayes, λόγω του υπολογισμού με βάση την p( x Di) p( x θ) p( θ Di) dθ Όταν η p(θ D) είναι «πλατιά» ή ασύμμετρη γύρω από τη λύση ML (θ ML ) οι δύο μέθοδοι μπορεί να δώσουν αρκετά διαφορετικά αποτελέσματα Γενικά το σφάλμα ταξινόμησης είναι τριών ειδών: Σφάλμα Bayes για επικαλυπτόμενες εκ των υστέρων πιθανότητες pc ( i x) : το σφάλμα αυτό δεν μπορεί να εκμηδενιστεί Σφάλμα μοντέλου (model error): Αν το μοντέλο δεν περιλαμβάνει το πραγματικό μοντέλο που δημιούργησε τα δεδομένα (π.χ. κατανομή πιθανότητας) θα έχουμε σφάλμα Σφάλμα εκτίμησης (estimation error): Οι υπολογισμοί γίνονται με πεπερασμένο αριθμό δεδομένων. Το σφάλμα αυτό μπορεί να μειωθεί αυξάνοντας τον αριθμό των δεδομένων εκπαίδευσης

Παραμετρικές μέθοδοι γενικά σχόλια Οι παραμετρικές μέθοδοι δίνουν πολύ καλά αποτελέσματα όταν Έχουμε ικανό αριθμό δεδομένων Το παραμετρικό μοντέλο που υποθέτουμε είναι αληθές! Αν το παραμετρικό μοντέλο δεν είναι αληθές μπορεί να πάρουμε πολύ άσχημα αποτελέσματα. Παράδειγμα: Έστω ότι έχουμε Ν=100 δείγματα που ακολουθούν κατανομή χ 2 με 3 βαθμούς ελευθερίας, δηλ. X 1,...,X 100 ~ χ 2 3 Αν υποθέσουμε (λανθασμένα) ότι η κατανομή που ακολουθούν τα δεδομένα μας είναι κανονική, δηλ. και χρησιμοποιήσουμε εκτίμηση ML παίρνουμε άσχημα αποτελέσματα!

Μη παραμετρικές μέθοδοι Στα προηγούμενα εξετάσαμε την εκτίμηση συναρτήσεων πυκνότητας πιθανότητας υπό την προϋπόθεση ότι η μορφή της τελευταίας ήταν γνωστή πρόβλημα εκτίμησης παραμέτρων Πολλές φορές στην πράξη αυτό δεν είναι δυνατό Οι συγκεκριμένες κατανομές (πχ κανονική) δεν αναπαριστούν τα δεδομένα επαρκώς Δεδομένα με πολλαπλά μέγιστα (multimodal) πιθανή λύση: Gaussian mixtures Η εναλλακτική προσέγγιση είναι η μη παραμετρική εκτίμηση πυκνότητας Δεν υποθέτουμε συγκεκριμένη μορφή Δύο γενικές κατηγορίες μεθόδων για ταξινόμηση Εκτίμηση των p(x C i ) Απευθείας εκτίμηση των p(c i x) και ταξινόμηση

Μη παραμετρικές μέθοδοι Ας υποθέσουμε ότι θέλουμε να εκτιμήσουμε την συνάρτηση κατανομής πιθανότητας (cdf) μιας τυχαίας μεταβλητής από ένα σύνολο παρατηρήσεων όπου, άρα: O πιο απλός τρόπος εκτίμησης της PX είναι η εμπειρική συνάρτηση κατανομής πιθανότητας, η οποία προσεγγίζει την άγνωστη συνάρτηση κατανομής πιθανότητας ως το κλάσμα των παρατηρήσεων που είναι μικρότερες ή ίσες του x. Άρα: όπου η συνάρτηση Ι ορίζεται ως εξής, για

Μη παραμετρικές μέθοδοι Αν βάλουμε τις παρατηρήσεις σε αύξουσα σειρά, έστω τότε μπορούμε να γράψουμε: - Η εκτίμηση είναι βηματική συνάρτηση - Έχει ασυνέχεια στη θέση κάθε παρατήρησης - Παίρνει τιμές μεταξύ 0 και 1, όπως κάθε συνάρτηση κατανομής πιθανότητας Μπορεί να αποδειχθεί (HW2) ότι η εκτίμηση αυτή είναι αμερόληπτη και ότι η διασπορά της ισούται με

Μη παραμετρικές μέθοδοι Σύμφωνα με τον ορισμό της συνάρτησης πυκνότητας πιθανότητας (pdf): Άρα για έχουμε: Άρα μπορούμε όπως και στην περίπτωση της συνάρτησης κατανομής πιθανότητας (cdf) να εκτιμήσουμε αυτή την ποσότητα ως: Αυτή είναι η βασική ιδέα πίσω από τη μέθοδο ιστογράμματος

Μη παραμετρικές μέθοδοι Μέθοδος ιστογράμματος (histogram method) Χωρίζουμε τα δεδομένα μας σε κάδους (bins) μεγέθους Δ i Συνήθως Δ i =Δ Δ: παράμετρος ομαλοποίησης (smoothing parameter) Απλή μέθοδος αλλά: Ασυνεχή αποτελέσματα Διαστάσεις προβλήματος! Χρειαζόμαστε Μ D κάδους Η μορφή της εκτιμώμενης σ.π.π. εξαρτάται αρκετά από την επιλογή του Δ και την αρχή που θα επιλέξουμε.

Μη παραμετρικές μέθοδοι Πως μπορούμε να βελτιώσουμε κάπως την προηγούμενη εκτίμηση? Από τον ορισμό της σ.π.π. έχουμε: Επίσης: Άρα: Μπορούμε και πάλι να εκτιμήσουμε ως εξής: Ουσιαστικά, κατασκευάζουμε «κουτιά» με μήκος 2h γύρω από κάθε παρατήρηση X i και μετράμε τον αριθμό αυτών των κουτιών Δεν χρειάζεται πλέον να διαλέξουμε κάποια αρχή Ασυνεχής εκτίμηση, εξάρτηση από το h

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι Πως μπορούμε να γενικεύσουμε σε περισσότερες διαστάσεις? Σύμφωνα με τον ορισμό της συνάρτησης πυκνότητας πιθανότητας p(x), η πιθανότητα να βρίσκεται το x μέσα σε κάποια περιοχή R είναι: Έστω ότι έχουμε Ν συνολικά δείγματα από την κατανομή p(x). Η πιθανότητα ένα σημείο να βρίσκεται μέσα στο R είναι P, άρα ο αριθμός Κ των σημείων που βρίσκεται μέσα στο R ακολουθεί διωνυμική κατανομή Η μέση τιμή της διωνυμικής είναι Ε{Κ}=NP άρα το μέσο κλάσμα των σημείων που βρίσκονται στην περιοχή R θα είναι: E{K/N}=P, ενώ η διασπορά θα είναι Var{K/N}=P(1-P)/N

Μη παραμετρικές μέθοδοι Για μεγάλο Ν η διασπορά 0 άρα K NP Αν επιπλέον η περιοχή R είναι αρκετά μικρή μπορούμε να θεωρήσουμε ότι το p(x) είναι περίπου σταθερό και Άρα: Η σχέση αυτή μπορεί να χρησιμοποιηθεί με 2 τρόπους για την εκτίμηση του p(x) Θεωρούμε το Κ σταθερό και υπολογίζουμε το V από τα δεδομένα: αλγόριθμος Κ πλησιέστερων γειτόνων (K nearest neighbors algorithm) Θεωρούμε το V σταθερό και υπολογίζουμε το Κ από τα δεδομένα: Εκτίμηση πυκνότητας με πυρήνα (kernel density estimation)

Αν ο όγκος V είναι πεπερασμένος, όσο αυξάνουμε τον αριθμό των Μη παραμετρικές μέθοδοι δειγμάτων Ν, ο λόγος Κ/Ν συγκλίνει, αλλά η εκτίμηση για το p(x) είναι μέσος όρος ως προς το χώρο Για να πάρουμε την p(x) θα πρέπει να πάμε στο όριο V 0, αλλά τότε και το Κ 0! αν το Ν είναι πεπερασμένο Επομένως δεν μπορούμε να πάρουμε απολύτως ακριβή εκτίμηση της p(x) με αυτό τον τρόπο K/N

Εκτίμηση πυκνότητας με πυρήνες (kernel density estimation) Έστω ότι η περιοχή R είναι κύβος D διαστάσεων Ορίζουμε τη συνάρτηση Άρα: k(u): Συνάρτηση πυρήνα (kernel function) ή παράθυρο Parzen (Parzen window) και επειδή V=h D για κύβο D διαστάσεων, τελικά: Και αυτή η εκτίμηση είναι ασυνεχής

Εκτίμηση πυκνότητας με πυρήνες (kernel density estimation) Λύση: Χρήση ομαλής συνάρτησης πυρήνα, π.χ. Γκαουσιανός πυρήνας (Gaussian kernel) Άρα η εκτίμηση είναι άθροισμα Γκαουσιανών καμπυλών με κέντρο στα σημεία εκπαίδευσης, κανονικοποιημένη από τον όρο 1/Ν και η συνεισφορά κάθε δείγματος εξαρτάται από την απόστασή του από το x Γενικά μπορούμε να χρησιμοποιήσουμε οποιαδήποτε συνάρτηση πυρήνα για την οποία ισχύει π.χ. Biweight, triweight, triangular, Epanenchikov κλπ. Η επιλογή του h επηρεάζει περισσότερο από την επιλογή του k! h: παράμετρος ομαλότητας (smoothing parameter) ή εύρος ζώνης (bandwidth)

Εκτίμηση πυκνότητας με πυρήνες Πως επηρεάζει το μέγεθος του h? Το πλάτος και το μέτρο του παραθύρου αλλάζουν Στο όριο h 0 προσεγγίζουμε τη συνάρτηση Dirac δ(x-x n ) Για Ν, όταν h 0 προσεγγίζουμε την αληθινή κατανομή p(x)

Εκτίμηση πυκνότητας με πυρήνες Σύγκλιση της μεθόδου Parzen Έστω η εκτίμηση p Ν (x) για Ν σημεία. Η εκτίμηση αυτή είναι τυχαία μεταβλητή, άρα έχει κάποια μέση τιμή και διασπορά. Μπορεί να δειχθεί ότι η p Ν (x) συγκλίνει στην αληθινή κατανομή p(x): lim E{ p ( x)} p( x) N lim Var{ p ( x)} 0 N υπό συνθήκες οι οποίες συνήθως πληρούνται (p(x) συνεχής, Για τη μέση τιμή: N 1 1 x x i E{ pn ( x)} E{ k } N i 1 VN hn N N 1 V N x v p( v) dv ( x)* p( x) x v k p( v) dv hn N κλπ.) 1 k x v x v VN hn Συνέλιξη μεταξύ δ Ν και p. Έτσι λοιπόν η αναμενόμενη τιμή της εκτίμησης είναι μια «φιλτραρισμένη» έκδοση της αληθινής όπου το φίλτρο καθορίζεται από τη συνάρτηση πυρήνα. Στο όριο όμως δ Ν -> Dirac delta και αν η p είναι συνεχής: lim E{ p ( x)} p( x) N N

Εκτίμηση πυκνότητας με πυρήνες Παράδειγμα: Έστω p(x)~n(0,1) και k(u)~n(0,1) i N 1 1 x x i p ( ) όπου N x k h / N h N N i 1 hn h 1 N Για Ν=1, h 1 =1: 1 1/2 2 p1 ( x) k( x x1 ) e ( x x1 ) N( x1,1) 2

Εκτίμηση πυκνότητας με πυρήνες

Εκτίμηση πυκνότητας με πυρήνες Παράδειγμα: Bimodal distribution (mixture of triangular and uniform)

Εκτίμηση πυκνότητας με πυρήνες Ταξινόμηση με βάση τη μέθοδο Parzen: Για στενό παράθυρο καλό σφάλμα εκπαίδευσης, όχι απαραίτητα επικύρωσης

Μη παραμετρικές μέθοδοι Kernel density: Η παράμετρος h είναι η ίδια για όλους τους πυρήνες Μεγάλο h: υπερβολικά ομαλές κατανομές σε περιοχές με μεγάλη πυκνότητα δεδομένων: Μικρό h: «Θορυβώδεις» κατανομές σε περιοχές με μικρή πυκνότητα δεδομένων Το βέλτιστο h εξαρτάται από το περιοχή του χώρου δεδομένων στην οποία βρισκόμαστε Λύση: Στην κρατάμε σταθερό το Κ και μεταβάλλουμε το V. Για κάθε σημείο x θεωρούμε μια σφαίρα με αυξανόμενο μέγεθος μέχρι να περιέχει Κ σημεία. Τότε η εκτίμηση μας δίνεται από την παραπάνω σχέση Περιοχές με υψηλή πυκνότητα: μικρό κελί, υψηλή ανάλυση Περιοχές με χαμηλή πυκνότητα: μεγάλο κελί, χαμηλή ανάλυση K παράμετρος ομαλοποίησης (smoothing parameter) Δεν παίρνουμε έγκυρη σ.π.π. (το ολοκλήρωμα της εκτίμησης δεν ισούται με 1)

Μη παραμετρικές μέθοδοι Παράδειγμα: K=3, 5 K=5

Μη παραμετρικές μέθοδοι Η μέθοδος των Κ κοντινότερων γειτόνων μπορεί να χρησιμοποιηθεί στην αναγνώριση προτύπων για την απευθείας εκτίμηση των εκ των υστέρων πιθανοτήτων p(c i x) Έστω το σύνολο δεδομένων εκπαίδευσης για ένα πρόβλημα με C k κλάσεις, το οποίο περιέχει Ν k σημεία σε κάθε κλάση (οπότε Σ k Ν k =N) Για την ταξινόμηση ενός νέου σημείου x Θεωρούμε μια σφαίρα με κέντρο το x η οποία περιέχει Κ σημεία εκπαίδευσης Έστω ότι αυτή η σφαίρα έχει όγκο V και περιέχει Κ k σημεία από την κλάση C k Άρα και καθώς τελικά: Απλά επιλέγουμε την κλάση με το μέγιστο K k! Κ=1: nearest-neighbor rule

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι K = 3 K = 1

Μη παραμετρικές μέθοδοι

Μη παραμετρικές μέθοδοι Η μέθοδος του κοντινότερου γείτονα ασυμπτωτικά έχει το πολύ διπλάσιο σφάλμα από τον βέλτιστο ταξινομητή δηλ. αυτόν που χρησιμοποιεί τις αληθινές κατανομές πιθανότητας των δεδομένων

Μη παραμετρικές μέθοδοι Πλεονεκτήματα: Γενικότητα Για αρκετά δείγματα, εγγυημένη σύγκλιση Μειονεκτήματα Ο αριθμός των δειγμάτων που απαιτείται για ικανοποιητικά αποτελέσματα μπορεί να είναι πολύ μεγαλύτερος πχ από παραμετρικές μεθόδους Αυξημένες απαιτήσεις σε υπολογιστική πολυπλοκότητα, αποθήκευση Εκθετική αύξηση με τη διάσταση D του προβλήματος (curse of dimensionality)