Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση - Διαθέσιμα δεδομένα: X=X X 2 X M. Κάθε X αντιστοιχεί στην κλάση ω. -Στο πλαίσιο αυτό, η τιμή κάθε df ω που εμπλέκεται στον ταξινομητή Βayes για δεδομένο εκτιμάται βασιζόμενη άμεσα στα σημεία του X. Δύο βασικές μέθοδοι της κατηγορίας αυτής -arzen wndows -Εκτίμηση πυκνότητας με βάση του -πλησιέστερους γείτονες -nearest negbor densty estmaton Το πρόβλημα: - Έστω Y={,, } δεδομένο σύνολο διανυσμάτων που έχουν προκύψει από άγνωστη df,. - Στόχος: Εκτίμησε την τιμή της σε δεδομένο σημείο με βάση το σύνολο Y.
Μη παραμετρική εκτίμηση Υπενθύμιση βασικών εννοιών στο συνολικά 2 ˆ ˆ ˆ, -ˆ ˆ 2 ˆ ˆ 2 ˆ Αν συνεχής, καθώς, αν 0,, 0 4
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Διαίρεση του πολυδιάστατου χώρου σε υπερκύβους 5
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows 6
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Παράδειγμα: Έστω τα ακόλουθα Ν=6 σημεία δεδομένων μαύρες κουκκίδες, τα οποία προέρχονται από μία άγνωστη κατανομή. Για =, να εκτιμήσετε την τιμή της συν. πυκν. πιθ. για την κόκκινη κουκκίδα. = ή - Κεντράρουμε υπερκύβο πλευράς σε κάθε σημείο δεδομένων - Μετράμε σε πόσους υπερκύβους ανήκει το υπό μελέτη σημείο κόκκινη κουκίδα =3 = / = 3/6 = / 2 * =0.5 - Κεντράρουμε υπερκύβο πλευράς στο υπό μελέτη σημείο κόκκινη κουκκίδα - Μετράμε πόσα σημεία δεδομένων ανήκουν στον υπερκύβο =3 = / = 3/6 = / 2 * =0.5
Ορίζουμε Δηλαδή, ισούται με μέσα σε υπερκύβο μοναδιαίας πλευράς με κέντρο το 0 ˆ l 2 0 διαφορετικά /όγκος*/ν* πλήθος σημείων εντός υπερκύβου πλευράς κεντραρισμένου στο. Το πρόβλημα: συνεχής. ασυνεχής Παράθυρα arzen-πυρήνες-συναρτήσεις δυναμικού είναι ομαλή 0, d 8
9
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Αν φ=0,i τότε Παράδειγμα: Εκτίμηση της τιμής κανονικής κατανομής Ν0, στο σημείο =. Παράγουμε n σημεία από την κατανομή και εκτιμούμε την =0,2420 για δεδομένα. =0.0 =0.05 =0. =0.5 =0.8 n=00 0.635 0.4750 0.455 0.2305 0.2464 n=000 0.776 0.2428 0.2629 0.2270 0.22 n=0000 0.2662 0.245 0.2437 0.2365 0.237 n=00000 0.2543 0.2424 0.2403 0.2378 0.2304 n=000000 0.243 0.245 0.2406 0.2394 0.2296 0
Μέση τιμή Συνεπώς αμερόληπτος unbased στο όριο ' ' ' ' ] [ ] ˆ [ l l d E E l 0, ' 0 το εύρος της 0 ' d l 0 l ' ' ' ' ] ˆ [ d E
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Διασπορά Όσο μικρότερο το, τόσο μεγαλύτερη η διασπορά =0., =000 =0.8, =000 2
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows =0., =0000 Όσο μεγαλύτερο το, τόσο καλύτερη η ακρίβεια 3
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows a αρχ. κατανομή, b =0.05, =000, c =0.05, =20000, d =0.8, =20000 4
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Αν 0 Ασυμπτωτικά απροκατάληπτος 5
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows - Έστω Y={,, } δεδομένο σύνολο διανυσμάτων που έχουν προκύψει από άγνωστη df,. - Στόχος: Εκτίμησε την τιμή της σε δεδομένο σημείο με βάση το σύνολο Y. - Η ιδέα: Προσέγγισε την με μια μίξη συναρτήσεων πυρήνων κεντραρισμένων στα s του Υ, οι οποίες μειώνονται πολύ γρήγορα γύρω από αυτά. Μια συνηθισμένη συνάρτηση πυρήνων: Η Gaussan. Έτσι l 2 2 l e T 2 2 όπου η τυπική απόκλιση καθορίζεται από το χρήστη. Συγκρίνετε τα arzen wndows με τη μίξη των Gaussans που συζητήθηκε προηγουμένως
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows Παράδειγμα: Έστω τα ακόλουθα Ν=6 σημεία δεδομένων μαύρες κουκκίδες, τα οποία προέρχονται από μία άγνωστη κατανομή. α εκτιμήσετε την τιμή της συν. πυκν. πιθ. για την κόκκινη κουκκίδα, θεωρώντας ότι η είναι το σταθμισμένο άθροισμα Ν κανονικών κατανομών Ν, 2, =,,6. = - Κεντράρουμε μία κανονική κατανομή Ν, 2 σε κάθε σημείο δεδομένων - Υπολογίζουμε την τιμή κάθε κατανομής στο υπό μελέτη σημείο κόκκινη κουκίδα - Υπολογίζουμε το μέσο όρο των παραπάνω τιμών.
Θεωρείστε ένα πρόβλημα c κλάσεων με εμπλεκόμενες κλάσεις τις ω,, ω c. Υπάρχουν διαθέσιμα σημεία από κάθε κλάση ω, =,,c, με + + c =. Πρόβλημα: Ταξινομείστε δεδομένο σημείο σε μία από τις παραπάνω κλάσεις, κανόντας χρήση της τεχνικής των arzen wndows. -Υπολόγισε τις συναρτήσεις διάκρισης, =,,c - Καταχώρησε το στην κλάση ω q για την οποία g q =ma =,,c g. -Αν επιπλέον προσεγγίσουμε ω /, =,,c και επανορίσουμε την g ως έχουμε: καταχώρησε το στην κλάση ω q για την οποία g q =ma =,,c g g q =mn =,,c g T l l g 2 2 / 2 e 2 T l l g 2 2 / 2 e 2 ' B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση arzen wndows
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας - - ΈστωY={,, } δεδομένο σύνολο σημείων τα οποία προέρχονται από άγνωστη df,. - Στόχος: Έκτίμησε την τιμή της σε δεδομένο σημείο, με βάση το σύνολο Y. - Η ιδέα: - Διάλεξε μια τιμή για το. - Για δεδομένο, στο οποίο θέλουμε να εκτιμήσουμε την, κάνε τα ακόλουθα Ανάμεσα στα σημεία του Y, προσδιόρισε τα εγγύτερα στο σημεία Προσδιόρισε τον όγκο V της υπερσφαίρας με κέντρο το και ακτίνα ίση με την απόσταση του από το μακρύτερο από τα παραπάνω σημεία. Προσέγγισε την ως V
dy y X X n V V V V B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας -
Θεωρείστε ένα πρόβλημα c κλάσεων, με εμπλεκόμενες κλάσεις ω,, ω c. Υπάρχουν διαθέσιμα σημεία από κάθε κλάση ω, =,,c, με + + c =. Πρόβλημα: Ταξινόμησε δεδομένο σημείο σε μια από τις παραπάνω κλάσεις, χρησιμοποιώντας εκτιμήσεις πυκνότητας με βάση τους -. -Προσέγγισε ω / V, =,,c. -Υπολόγισε τις συναρτήσεις διάκρισης, =,,c - Καταχώρησε το στην κλάση ω q για την οποία g q =ma =,,c g. -Αν επιπλέον προσεγγίσουμε ω /, =,,c και επανορίσουμε την g as έχουμε: καταχώρησε το στη κλάση ω q για την οποία g q =ma =,,c g V q =mn =,,c V V V g ' V V g B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας -
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση Εκτίμηση πυκνότητας - -Ένα παράδειγμα ταξινόμησης =5 Ισοπίθανες κλάσεις Το σημείο * ταξινομείται στη μπλε κλάση αφού η επιφάνεια του κύκλου με κέντρο αυτό που περιέχει 5 σημεία από την μπλε κλάσης είναι μικρότερη από την αντίστοιχη για την μαύρη κλάση.
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των πλησιέστερων γειτόνων -nearest negbor classfer - - Έστω X l {, d, R, d {,2,..., M},,... } δεδομένο σύνολο που περιέχει διανύσματα από M κλάσεις, ω,, ω M. - Στόχος: Καταχώρησε δεδομένο διάνυσμα σε μια από τις παραπάνω κλάσεις, βασιζόμενος στο σύνολο X. - Η ιδέα: - Διάλεξε μία περιττή τιμή για το. - Για δεδομένο Προσδιόρισε τους πλησιέστερους γείτονες του από το σύνολο X. Ανάμεσα στα σημεία έστω εκείνα τα οποία προέρχονται από την -στη κλάση, =,,M εδώ μπορούμε να ορίσουμε g =. Καταχώρησε το στην κλάση ω q για την οποία q =ma =,,M. Ένα μειονέκτημα: Αυξημένη υπολογιστική πολυπλοκότητα O για κάθε διάνυσμα
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των πλησιέστερων γειτόνων -nearest negbor classfer - Μερικά θεωρητικά αποτελέσματα Έστω B η πιθανότητα λάθους του ταξινομητή Bayes. -Για τον ταξινομητή του -πλησιέστερου γείτονα -earest negbor ή, απλά, είναι B M 2 B 2B M -Για τον ταξινομητή -πλησιέστερων γειτόνων είναι B B, 2 B B Συσχέτιση του ταξινομητή με τον ταξινομητή που βασίζεται στην εκτίμηση της πυκνότητας με βάση τους -πλησιέστερους γείτονες: Είναι ισοδύναμοι για = Γιατί;
B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Ο ταξινομητής των πλησιέστερων γειτόνων -nearest negbor classfer - Μια γεωμετρική άποψη για τον ταξινομητή του πλησιέστερου γείτονα - classfer O ταξινομητής πλησιέστερου γείτονα διαμερίζει το χώρο R l σε περιοχές τόσες, όσες είναι και τα στοιχεία του συνόλου Χ έτσι ώστε R : d, mn, d,