Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση - Διαθέσιμα δεδομένα: XX X 2 X M. Κάθε X αντιστοιχεί στην κλάση ω. -Στο πλαίσιο αυτό, η τιμή κάθε pdf p ω που εμπλέκεται στον ταξινομητή Βayes για δεδομένο εκτιμάται βασιζόμενη άμεσα στα σημεία του X. Δύο βασικές μέθοδοι της κατηγορίας αυτής -arzen wndows -Εκτίμηση πυκνότητας με βάση του k-πλησιέστερους γείτονες k-nearest negbor densty estmaton Το πρόβλημα: - Έστω Y{,, } δεδομένο σύνολο διανυσμάτων που έχουν προκύψει από άγνωστη pdf, p. - Στόχος: Εκτίμησε την τιμή της p σε δεδομένο σημείο με βάση το σύνολο Y.

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Μερικά προκαταρτικά. η σππ p τυχαίας μεταβλητής μπορεί να προσεγγιστεί από ιστόγραμμα με μέγεθος bn, με βάση ένα σύνολο δειγμάτων. 2. Η τιμή της σππ θεωρείται σταθερή σε όλο το εύρος ενός bn. 3. Η πιθανότητα που αντιστοιχεί σε δεδομένο bn προσεγγίζεται ως k / k είναι ο αριθμός των σημείων που ανήκουν στο bn,δηλ., k /. 4. Εστιάζοντας σε συγκεκριμένο bn και λαμβάνοντας υπ όψιν ότι a -/2<<+/2 p mean * mean είναι το μέσο του bn και b Την παρατήρηση 2 πιο πάνω, έχουμε ότι η p, για κάθε μέσα στο bn ικανοποιεί προσεγγιστικά την p*. 5. Από τις παρατηρήσεις 3 και 4, συμπεραίνουμε ότι για κάθε σε δεδομένο bn έχουμε p k, mean 2 mean mean mean + 2 2

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Μερικά προκαταρκτικά 6. Αν η p είναι συνεχής, η εκτίμηση της p για οποιοδήποτε προσεγγίζει την πραγματική τιμή p, υπό τις προϋποθέσεις ότι a 0, b k and c k / 0, καθώς. Διαμερισμός σε bns χώρων μεγαλύτερης διάστασης τετράγωνα στη 2-διάστατη περίπτωση, κύβοι στην 3-διάστατη περίπτωση.

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows 6

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Παράδειγμα: Έστω τα ακόλουθα Ν6 σημεία δεδομένων μαύρες κουκκίδες, τα οποία προέρχονται από μία άγνωστη κατανομή p. Για, να εκτιμήσετε την τιμή της συν. πυκν. πιθ. για την κόκκινη κουκκίδα. ή - Κεντράρουμε υπερκύβο πλευράς σε κάθε σημείο δεδομένων - Μετράμε σε πόσους υπερκύβους ανήκει το υπό μελέτη σημείο κόκκινη κουκίδα k3 k/ 3/6 p / 2 * 0.5 - Κεντράρουμε υπερκύβο πλευράς στο υπό μελέτη σημείο κόκκινη κουκκίδα - Μετράμε πόσα σημεία δεδομένων ανήκουν στον υπερκύβο k3 k/ 3/6 p / 2 * 0.5

Ορίζουμε φ Δηλαδή, ισούται με μέσα σε υπερκύβο μοναδιαίας πλευράς με κέντρο το 0 pˆ l 2 0 διαφορετικά ϕ /όγκος*/ν* πλήθος σημείων εντός υπερκύβου πλευράς κεντραρισμένου στο. Το πρόβλημα: p συνεχής φ. ασυνεχής Παράθυρα arzen-πυρήνες-συναρτήσεις δυναμικού φ είναι ομαλή φ 0, φ d 9

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Αν φ0,i τότε Παράδειγμα: Εκτίμηση της τιμής κανονικής κατανομής Ν0, στο σημείο. Παράγουμε n σημεία από την κατανομή και εκτιμούμε την p 0,2420 για δεδομένα. 0.0 0.05 0. 0.5 0.8 n00 0.635 0.4750 0.455 0.2305 0.2464 n000 0.776 0.2428 0.2629 0.2270 0.22 n0000 0.2662 0.245 0.2437 0.2365 0.237 n00000 0.2543 0.2424 0.2403 0.2378 0.2304 n000000 0.243 0.245 0.2406 0.2394 0.2296 0

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Διασπορά Όσο μικρότερο το, τόσο μεγαλύτερη η διασπορά 0., 000 0.8, 000

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows 0., 0000 Όσο μεγαλύτερο το, τόσο καλύτερη η ακρίβεια 2

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows a αρχ. κατανομή, b 0.05, 000, c 0.05, 20000, d 0.8, 20000 3

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows - Έστω Y{,, } δεδομένο σύνολο διανυσμάτων που έχουν προκύψει από άγνωστη pdf, p. - Στόχος: Εκτίμησε την τιμή της p σε δεδομένο σημείο με βάση το σύνολο Y. - Η ιδέα: Προσέγγισε την p με μια μίξη συναρτήσεων πυρήνων κεντραρισμένων στα s του Υ, οι οποίες μειώνονται πολύ γρήγορα γύρω από αυτά. Μια συνηθισμένη συνάρτηση πυρήνων: Η Gaussan. Έτσι p l 2π 2 l ep T 2 2 όπου η τυπική απόκλιση καθορίζεται από το χρήστη. Συγκρίνετε τα arzen wndows με τη μίξη των Gaussans που συζητήθηκε προηγουμένως

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Παράδειγμα: Έστω τα ακόλουθα Ν6 σημεία δεδομένων μαύρες κουκκίδες, τα οποία προέρχονται από μία άγνωστη κατανομή p. α εκτιμήσετε την τιμή της συν. πυκν. πιθ. για την κόκκινη κουκκίδα, θεωρώντας ότι η p είναι το σταθμισμένο άθροισμα Ν κανονικών κατανομών Ν, 2,,,6. - Κεντράρουμε μία κανονική κατανομή Ν, 2 σε κάθε σημείο δεδομένων - Υπολογίζουμε την τιμή κάθε κατανομής στο υπό μελέτη σημείο κόκκινη κουκίδα - Υπολογίζουμε το μέσο όρο των παραπάνω τιμών.

Θεωρείστε ένα πρόβλημα c κλάσεων με εμπλεκόμενες κλάσεις τις ω,, ω c. Υπάρχουν διαθέσιμα σημεία από κάθε κλάση ω,,,c, με + + c. Πρόβλημα: Ταξινομείστε δεδομένο σημείο σε μία από τις παραπάνω κλάσεις, κανόντας χρήση της τεχνικής των arzen wndows. -Υπολόγισε τις συναρτήσεις διάκρισης,,,c - Καταχώρησε το στην κλάση ω q για την οποία g q ma,,c g. -Αν επιπλέον προσεγγίσουμε ω /,,,c και επανορίσουμε την g ως έχουμε: καταχώρησε το στην κλάση ω q για την οποία g q ma,,c g g q mn,,c g T l l p g 2 2 / 2 ep 2 ω ω ω π T l l p g 2 2 / 2 ep 2 ' ω ω π B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας k- - ΈστωY{,, } δεδομένο σύνολο σημείων τα οποία προέρχονται από άγνωστη pdf, p. - Στόχος: Έκτίμησε την τιμή της p σε δεδομένο σημείο, με βάση το σύνολο Y. - Η ιδέα: - Διάλεξε μια τιμή για το k. - Για δεδομένο, στο οποίο θέλουμε να εκτιμήσουμε την p, κάνε τα ακόλουθα Ανάμεσα στα σημεία του Y, προσδιόρισε τα k εγγύτερα στο σημεία Προσδιόρισε τον όγκο V της υπερσφαίρας με κέντρο το και ακτίνα ίση με την απόσταση του από το μακρύτερο από τα k παραπάνω σημεία. Προσέγγισε την p ως p k V

+ + < < p dy y p X k X n + < < V p V V k V k p B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας k-

Θεωρείστε ένα πρόβλημα c κλάσεων, με εμπλεκόμενες κλάσεις ω,, ω c. Υπάρχουν διαθέσιμα σημεία από κάθε κλάση ω,,,c, με + + c. Πρόβλημα: Ταξινόμησε δεδομένο σημείο σε μια από τις παραπάνω κλάσεις, χρησιμοποιώντας εκτιμήσεις πυκνότητας με βάση τους k-. -Προσέγγισε p ω k/ V,,,c. -Υπολόγισε τις συναρτήσεις διάκρισης,,,c - Καταχώρησε το στην κλάση ω q για την οποία g q ma,,c g. -Αν επιπλέον προσεγγίσουμε ω /,,,c και επανορίσουμε την g as έχουμε: καταχώρησε το στη κλάση ω q για την οποία g q ma,,c g V q mn,,c V V V k k p k g ω ω ω ω ' V V k k p k g ω ω B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας k-

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας k- -Ένα παράδειγμα ταξινόμησης k5 Ισοπίθανες κλάσεις Το σημείο * ταξινομείται στη μπλε κλάση αφού η επιφάνεια του κύκλου με κέντρο αυτό που περιέχει 5 σημεία από την μπλε κλάσης είναι μικρότερη από την αντίστοιχη για την μαύρη κλάση.

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των k πλησιέστερων γειτόνων k-nearest negbor classfer k- - Έστω X l {, d, R, d {,2,..., M},,... } δεδομένο σύνολο που περιέχει διανύσματα από M κλάσεις, ω,, ω M. - Στόχος: Καταχώρησε δεδομένο διάνυσμα σε μια από τις παραπάνω κλάσεις, βασιζόμενος στο σύνολο X. - Η ιδέα: - Διάλεξε μία περιττή τιμή για το k. - Για δεδομένο Προσδιόρισε τους k πλησιέστερους γείτονες του από το σύνολο X. Ανάμεσα στα k σημεία έστω k εκείνα τα οποία προέρχονται από την -στη κλάση,,,m εδώ μπορούμε να ορίσουμε g k. Καταχώρησε το στην κλάση ω q για την οποία k q ma,,m k. Ένα μειονέκτημα: Αυξημένη υπολογιστική πολυπλοκότητα O για κάθε διάνυσμα

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των k πλησιέστερων γειτόνων k-nearest negbor classfer k- Μερικά θεωρητικά αποτελέσματα Έστω B η πιθανότητα λάθους του ταξινομητή Bayes. -Για τον ταξινομητή του -πλησιέστερου γείτονα -earest negbor ή, απλά, είναι B M 2 B 2B M -Για τον ταξινομητή k-πλησιέστερων γειτόνων είναι 2 B k B + k k, k B B Συσχέτιση του ταξινομητή k με τον ταξινομητή που βασίζεται στην εκτίμηση της πυκνότητας με βάση τους k-πλησιέστερους γείτονες: Είναι ισοδύναμοι για k Γιατί;

B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των k πλησιέστερων γειτόνων k-nearest negbor classfer k- Μια γεωμετρική άποψη για τον ταξινομητή του πλησιέστερου γείτονα - classfer O ταξινομητής πλησιέστερου γείτονα διαμερίζει το χώρο R l σε περιοχές τόσες, όσες είναι και τα στοιχεία του συνόλου Χ έτσι ώστε R { d, mn d, } :, K