Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson

Σχεδιαζόντας ταξινομητές: Τα δεδομένα Στην πράξη η γνώση σχετικά διαδικασία γέννεσης των δεδομένων είναι πολύ σπάνια γνωστή. Το μόνο που έχουμε στη διάθεσή μας είναι ένα σύνολο δεδομένων data set. l Y {, d, R, d {,,..., m},,... D} όπου είναι η l-διάστατη αναπαράσταση του -στου από τις οντότητες διάνυσμα δεδομένων data vector d είναι η ετικέτα της κλάσης όπου ανήκει το για την ω, για την ω,. Ο βασικός στόχος ενός ταξινομητή Δοθέντος ενός καταχώρησέ το στην πιο κατάλληλη κατηγορία. Ανάλογα με τον τρόπο που σχεδιάζεται ένας ταξινομητής, έχουμε δύο κύριες κατηγορίες: Παραμετρικοί ταξινομητές Parametrc classfers Μη παραμετρικοί ταξινομητές onparametrc classfers

Στην περίπτωση αυτή: Σχεδιάζοντας ταξινομητές: Η παραμετρική περίπτωση Υποθέτουμε ότι η μορφή του παραμετρικού μοντέλου παράγει τα διανύσματα δεδομένων είναι γνωστή, ενώ οι άγνωστες παράμετροί του εκτιμώνται με βάση το διαθέσιμο σύνολο δεδομένων. Η ταξινόμηση ενός νέου διανύσματος δεδομένων βασίζεται στο μοντέλο που ορίστηκε παραπάνω. ΣΗΜ: Η ταξινόμηση του εξαρτάται έμμεσα από το διαθέσιμο σύνολο δεδομένων. Στην περίπτωση αυτή: Σχεδιάζοντας ταξινομητές: Η μη παραμετρική περίπτωση Η ταξινόμηση του εξαρτάται άμεσα από το διαθέσιμο σύνολο δεδομένων.

Σχεδιάζοντας ταξινομητές: Εκτιμώντας την απόδοσή τους Ένα σημαντικό ζήτημα: Πώς γνωρίζουμε το βαθμό αξιοπιστίας του ταξινομητή που σχεδιάστηκε; Είναι σαφές ότι, αν χρησιμοποιήσουμε όλα τα διανύσματα δεδομένων του διαθέσιμου συνόλου δεδομένων Υ, δεν μπορούμε να χρησιμοποιήσουμε τα ίδια δεδομένα για να αξιολογήσουμε αντικειμενικά την απόδοσή του, καθώς ή γνώση που περιέχεται σ αυτά έχει ήδη χρησιμοποιηθεί για το σχεδιασμό του ταξινομητή. Μια συνηθισμένη και απλή στρατηγική ταξινόμησης*: Διαίρεσε το Y σε δύο σύνολα, X και X, και στοιχείων, αντιστοίχως. * Άλλη σχετική τεχνική είναι το k- fold cross valdaton. Χρησιμοποίησε το X σύνολο εκπαίδευσης για τη σχεδίαση του ταξινομητή Χρησιμοποίησε το X σύνολο δοκιμής για την αξιολόγηση της απόδοσης του σχεδιασθέντος ταξινομητή Αν η απόδοση είναι ικανοποιητική, ο ταξινομητής χρησιμοποιείται στη συνέχεια σε πραγματικό περιβάλλον. Διαφορετικά, θα πρέπει να αναθεωρηθούν κάποια βήματα της διαδικασίας σχεδιασμού. Με βάση ποιο κριτήριο αξιολογείται η απόδοση του ταξινομητή; Συνήθως με βάση το ποσοστό των εσφαλμένα ταξινομημένων διανυσμάτων του συνόλου δοκιμής X που είναι μια εκτίμηση της πιθανότητας σφάλματος

ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί ταξινομητές Μη παραμετρικοί ταξινομητές Παραμετρικοί ταξινομητές Ταξινομ. Bayes Ευκλείδειας απόστασης Τετραγ. Ταξινομ. Γραμμικοί Ταξινομ. Mahalanobs απόστασης Ταξινομ. Bayes Ταξιν. k- πλησιέστ. γειτόνων Perceptron Γραμμικοί Ταξινομ. Ταξιν. Ελαχ. τετραγώνων Μηχανές διανυσμ. στήριξης Μη γραμ. ταξινομ. Νευρωνικά δίκτυα

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Για το σχεδιασμό ΟΛΩΝ των παραμετρικών ταξινομητών, y=f;w, υπάρχουν δύο κύριες φάσεις -> Καθορισμός του παραμετρικού μοντέλου -> Εκτίμησητων παραμέτρων Ο ταξινομητής Bayes με χρήση παραμετρικών μοντέλων Ποιες είναι οι παράμετροι που εμπλέκονται στον ταξινομητή Bayes στην περίπτωση αυτή; - Οι εκ των προτέρων πιθανότητες Pωj, j=,,m. - Οι άγνωστες παράμετροι θj των pdf των κλάσεων p ωj;θj, j=,,m. Παράδειγμα : Αν η p ωj μοντελοποιείται από μία κανονική κατανομή, Ν j, j, και οι άγνωστες παράμετροι είναι το μέσο διάνυσμα και το μητρώο συνδιασποράς τότε θj ={μj, Σj} Παράδειγμα : Αν η p ωj μοντελοποιείται από μία κανονική κατανομή, Ν j, j, και η άγνωστη παράμετρος είναι το μέσο διάνυσμα, τότε θj =μj.

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Στην πράξη - οι τιμές των παραμέτρων είναι πολύ σπάνια γνωστές. - Έτσι, χρειάζεται να τις εκτιμήσουμε. Στην πράξη έχουμε στην διάθεσή μας ένα σύνολο δεδομένων σύνολο εκπαίδευσης l X {, d, R, d {,,..., M},,... } όπου είναι το -στό διάνυσμα εκπαίδευσης tranng vector d είναι η ετικέτα της κλάσης όπου ανήκει το για την ω, για την ω,.

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Έστω X j l { R : d j,,... }, j,, M Το σύνολο που περιέχει τα διανύσματα δεδομένων της j-στης κλάσης. Εκτίμηση παραμέτρων βασίζεται στο σύνολο X: - Για κάθε Pω j : Χρησιμοποίησε την απλή προσέγγιση Pω j j /. - Για κάθε p ω j : - Υπάρχουν αρκετές μέθοδοι - Εκτίμηση μέγιστης πιθανοφάνειας Mamum Lkelhood ML estmaton, - Εκτίμησης μέγιστης εκ των υστέρων πιθανότητας Mamum a posteror MAP estmaton, - Εκτίμηση μέγιστης εντροπίας Mamum entropy ME estmaton, - Epectaton-Mamzaton EM estmaton mture models etc Στη συνέχεια περιγράφουμε τις μεθόδους ML, MAP και σύντομα την μέθοδο EM. j M

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Έστω Y={,,, } ένα σύνολο από ανεξάρτητα διανύσματα δεδομένων Έστω p μια pdf γνωστής παραμετρικής μορφής αλλά με άγνωστο το διάνυσμα παράμέτρων του θ; p=p;θ. Παραδείγματα: Αν η p;θ είναι κανονική με άγνωστο μέσο διάνυσμα μ, το θ είναι απλά το μ. Αν η p;θ είναι κανονική με άγνωστο μέσο διάνυσμα μ και άγνωστο μητρώο συνδιασποράς Σ, το θ περιέχει τις συνιστώσες τόσο του μ όσο και του Σ. Το πρόβλημα: Εκτίμησε το θ ώστε η p;θ να είναι το καλύτερο δυνατό ταίριασμα για το σύνολο δεδομένων Y.

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Έστω η συνάρτηση πιθανοφάνειας lkelhood functon του θ ως προς το Y: p Y; p,, ; p ; Στην πράξη, είναι πιο βολικό να μεγιστοποιήσουμε την συνάρτηση του λογάριθμου της πιθανοφάνειας log-lkelhood functon Lθ του θ ως προς το Y, η οποία ορίζεται ως,, ; ln p ; L ln p Y; ln p

PY;μ=3.0-9 PY;μ=3.0-9 PY;μ=6.80-5 ep ; p ep 0 ; p ep ; p PY;μ μ

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML

Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας: Μεγιστοποίησε την py;θ ή την Lθ ως προς το θ. 0 : ˆ ; ; k k k ML p p L A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ

Μια παρένθεση: Το gradent συνάρτησης Π.χ.: Το gradent της συνάρτησης f, = cos + cos 5

Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML - Ένα παράδειγμα -Έστω Y ένα σύνολο διανυσμάτων δεδομένων,, =,,. -Ποια είναι η κανονική κατανομή p;θ γνωστού μητρώου συνδιασποράς που μοντελοποιεί καλύτερα τα διανύσματα του συνόλου Υ? Λύση: -Το άγνωστο διάνυσμα παραμέτρων στην περίπτωση αυτή είναι το μέσο διάνυσμα μ, δηλ. θ=μ. -Είναι ep ; ; p p T l ln ; ln C p T T l T C p L ; ln A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ

-Θέτοντας την παράγωγο της Lμ ως προς το μ ίση με 0 έχουμε 0 T C L 0 0 0 ML A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML - Ένα παράδειγμα

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ - Έστω Ν=0 σημεία που παρήχθησαν από τη μονοδιάστατη κανονική κατανομή μηδενικής μέσης τιμής και μοναδιαίας συνδασποράς, 0,. - Ας προσποιηθούμε ότι έχουμε στη διάθεσή μας μόνο τα ακόλουθα: Τη γνώση ότι η κατανομή που παρήγαγε τα σημεία είναι κανονική με διασπορά ίση με και άγνωστο μέσο διάνυσμα μ. τα 0 σημεία. Η ML εκτίμηση του μέσου διανύσματος,, της κατανομής είναι 0.60 η πραγματική τιμή είναι 0. 0.7 ˆ Όσο περισσότερα σημεία είναι διαθέσιμα, τόσο πιο ακριβείς εκτιμήσεις θα έχουμε για το μέσο διάνυσμα. Σφάλμα εκτίμησης 0 0.60 0 00 0.077 0 000 0.038 0 0000 0.08 0 00000 0.0034 0 0.6 0.5 0.4 0.3 0. 0. 0.5.5 3 3.5 4 4.5 5

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Αν πράγματι υπάρχει θ 0 έτσι ώστε p=p;θ 0 τότε lm E[ ML ] 0 lm E ML 0 0 - Ασυμπτωτικά αμερόληπτος Asymptotcally unbased εκτιμητής: Η μέση τιμή του θ, θ ML, τείνει προς την πραγματική τιμή της άγνωστης παραμέτρου θ 0, καθώς. - Ασυμπτωτικά συνεπής Asymptotcally consstent εκτιμητής: Η διασπορά της ML εκτίμησης τείνει στο 0, καθώς.

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Άσκηση: Η τυχαία μεταβλητή ακολουθεί την κατανομή Erlang p ; ep u με u= αν >0 και 0, διαφορετικά. α Δεδομένου ενός συνόλου δειγμάτων,,, του, να δείξετε ότι η εκτίμηση ML του θ είναι ML k β Δεδομένου ότι η μέση τιμή της κατανομής ισούται με /θ ποια είναι η ML εκτίμησή της με βάση το παραπάνω σύνολο δειγμάτων; k

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Άσκηση: Η τυχαία μεταβλητή ακολουθεί την κατανομή Raylegh p ; ep με u= αν >0 και 0, διαφορετικά. α Δεδομένου ενός συνόλου δειγμάτων,,, του, να δείξετε ότι η εκτίμηση ML του θ είναι ML k β Δεδομένου ότι η μέση τιμή της κατανομής ισούται με π/4θ ποια είναι η ML εκτίμησή της με βάση το παραπάνω σύνολο δειγμάτων; k u

A ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η μέθοδος εκτίμησης μέγιστης πιθανοφάνειας ML Άσκηση: Θεωρείστε ένα πρόβλημα ταξινόμησης δύο κλάσεων, ω και ω, όπου οι εμπλεκόμενες οντότητες χαρακτηρίζονται από ένα μόνο χαρακτηριστικό. Είναι γνωστό ότι οι τιμές 0.90, 0.95,.0,.0, 0.99,.30,.5, 0.87, 0.93,.0 ανήκουν στην κατηγορία ω, ενώ οι τιμές.90,.95,.0,.0,.99,.30,.5,.87,.93,.0,.03,.9,.5,.88,.07 ανήκουν στην κατηγορία ω. Μοντελοποιώντας με κανονικές κατανομές τις pdfs των δύο κλάσεων για τις οποίες είναι γνωστές οι διασπορές σ =0.00 για την ω και σ =0.07 για την ω αλλά άγνωστες οι μέσες τιμές τους: α Εκτιμήστε τις μέσες τιμές των κατανομών β Διατυπώστε τον προσεγγιστικό κανόνα του Bayes για το πρόβλημα. γ Ταξινομείστε τα σημεία.4,.7, 0.,.5 με βάση τον παραπάνω κανόνα.