HMY 795: Αναγνώριση Προτύπων Διάλεξη 4 Διαχωριστικές συναρτήσεις Ταξινόμηση Γκαουσιανών μεταβλητών
Bayesan decson Mnmum msclassfcaton rate decson: διαλέγουμε την κατηγορίαck για την οποία η εκ των υστέρων (posteror πιθανότητα p(ck x είναι μέγιστη. Ελαχιστοποίηση ρίσκου C Lkelhood rato επιλέγουμε C αν R(α k x= λ k p(c x = p( x C λ λ p( C >. p( x C λ λ p( C
Διαχωριστικές συναρτήσεις (Dscrmnant functons Ένας από τους πιο συνηθισμένους/χρήσιμους τρόπους αναπαράστασης ενός ταξινομητή με Cκατηγορίες είναι η χρήση ενός συνόλου διαχωριστικών συναρτήσεων (dscrmnant functons g (x (=,, C σύμφωνα με τις οποίες ο ταξινομητής αναθέτει ένα διάνυσμα χαρακτηριστικών x στην κατηγορία αν: g (x> g (x,,
Διαχωριστικές συναρτήσεις (Dscrmnant functons Η επιλογή δενείναι μοναδική αν επιλέξουμε ένα σύνολο g (xτότε και κάθε άλλο σύνολο f(g (xόπου f μονοτονική αύξουσα συνάρτηση έχει το ίδιο αποτέλεσμα Σε συνάρτηση με τα προηγούμενα,για έναν ταξινομητή κατά Bayesστη γενική περίπτωση (με ρίσκο μπορούμε να διαλέξουμε τις συναρτήσεις ως: g ( x = R( α x Για την περίπτωση ελάχιστης λάθος ταξινόμησης (mnmum msclassfcaton rate decson p( x C p( C g ( x = p( C x = c p( x C p( C = ή, εντελώς ισοδύναμα: g ( x = p( x C p( C g ( x = ln p( x C + ln p( C
Διαχωριστικές συναρτήσεις (Dscrmnant functons Για πρόβλημα δύο κατηγοριών g( x = g ( x g ( x Ισοδύναμα g( x > 0 C g( x < 0 C g( x = p( C x p( C x p( x C p( C g( x = ln + ln p( x C p( C
Η πολυδιάστατη κανονική μεταβλητή για διάνυσμα Dx: Μέση τιμή μ Πίνακας συνδιασποράς Σ Ο γεωμετρικός τόπος των σημείων με σταθερή πυκνότητα πιθανότητας είναι υπερελλειψοειδές με κέντρο στο μμε κύριους άξονες των οποίων η κατεύθυνση ορίζεται από το αντίστοιχο ιδιοδιάνυσμα και το μήκος από την αντίστοιχη ιδιοτιμή του πίνακα Σ. Συγκεκριμένα αν ( x µ Τ Σ ( x µ = c ο -οστός άξονας έχει κέντρο στο μκαι δίνεται από: ± c λ e όπου λ, e η αντίστοιχη ιδιοτιμή και το αντίστοιχο ιδιοδιάνυσμα του πίνακα Σ
Για δύο μεταβλητές, αν ρ=σ /σ σ (συντελεστής συσχέτισης πάντα <: ρ=0, ανεξάρτητες μεταβλητές άξονες παράλληλοι με τους άξονες x και x ρ=, μονοδιάστατη κατανομή (γραμμή Σ=σ Ι, σφαίρα Οποιοσδήποτε γραμμικός μετασχηματισμός του x ακολουθεί επίσης κανονική κατανομή, δηλ αν x~n(μ,σ τότε για y=a T xισχύει y~n(a T μ,a T ΣA Για A =ΦΛ -/ -μετασχηματισμός σε κατανομή με μοναδιαίο πίνακα συνδιασποράς(htenng transform H ποσότητα: Τ λέγεται τετραγωνισμένη απόσταση Mahalanobs(squared Mahalanobs dstance από το x στο μ = ( x µ Σ ( x µ Οι ισοϋψείς επιφάνειες καθορίζονται από τα σημεία για τα οποία: ( x µ Τ Σ ( x µ = const r
Έστω ότι το διάνυσμα χαρακτηριστικών (feature vector ακολουθεί την πολυδιάστατη κανονική κατανομή Διαχωριστικές συναρτήσεις (mnmum error rate classfcaton: Για g ( x = ln p( x C + ln p( C p( x C ~ N( µ, Σ D g π D Σ = σ Ι Σ = σ, Σ = σ Ι g ( x = x µ ln ( + P C = σ T T T = ( x x µ x + µ µ + ln P( C σ Τ ( x = ( x µ Σ ( x µ ln( ln Σ + ln P( C Περίπτωση : Ισοδύναμα: g ( x = x+ T 0 = µ σ T 0 = µ ln ( µ + P C σ Γραμμικές διαχωριστικές συναρτήσεις ή γραμμικός ταξινομητής (lnear dscrmnant functon/ classfer
Οι επιφάνειες αποφάσεων (decson surfaces που διαχωρίζουν τις περιοχές αποφάσεων(decson regons είναι υπερεπίπεδα(hyperplanes που ορίζονται από: g όπου: T ( x = g ( x ( x x = 0 = µ µ P( C x µ µ µ µ σ 0 = ( + ln ( µ P( C µ 0 Κάθετο επίπεδοστη γραμμή που συνδέει τις μέσες τιμές μ και μ Αν όλες οι a pror πιθανότητες είναι οι ίδιες: το επίπεδο βρίσκεται στο μέσον μεταξύ των μέσων τιμών ταξινόμηση ενός δείγματος στην κατηγορία για την οποία η Ευκλείδεια απόσταση από τη μέση τιμή είναι ελάχιστη mnmum dstance classfer
Ίσες a pror πιθανότητες Mnmum dstance classfer
Διαφορετικές a pror πιθανότητες: Μετατόπιση του υπερεπιπέδουμακρύτερα από την πιο πιθανή κλάση
Περίπτωση : Ελλειψοειδή ίσου μεγέθους γύρω από διαφορετικές μέσες τιμές g Σ =Σ Τ ( x = ( x µ Σ ( x µ + ln P( C Ίσες a pror πιθανότητες: ταξινόμηση ενός οποιουδήποτε xστην κατηγορία για την Τ οποία η απόσταση Mahalanobs ( x µ είναι ελάχιστη Σ ( x µ T g ( x = x + 0 =Σ µ T 0 = µ Σ µ + ln P( C Γραμμικός ταξινομητής, αλλά το υπερεπίπεδοπου χωρίζει Rκαι Rδεν είναι κάθετο στη γραμμή μεταξύ των μέσων τιμών g T ( x = g ( x ( x x = 0 0 P( C x 0 = µ + µ µ µ =Σ µ µ ( ( ln (, ( P C Τ ( µ µ Σ ( µ µ
Περίπτωση 3: g ( x = x W x+ x+ T T 0 W = Σ =Σ µ Σ αυθαίρετο Τετραγωνικός (quadratc ταξινομητής T 0 = µ Σ µ ln Σ + ln P ( C Οι επιφάνειες αποφάσεων μπορεί να έχουν διάφορες γενικές μορφές (παραβολικές, υπερβολικές, υπερεπίπεδα κλπ - hyperquadrcs
Διαχωρισμός διακριτών χαρακτηριστικών Σε πολλά προβλήματα τα χαρακτηριστικά είναι διακριτά (ακόμη και δυαδικά. Σε αυτή την περίπτωση p( C x = c = p( x C p( C p( x C p( C Ο κανόνας Bayesδεν αλλάζει δηλ. θέλουμε είτε να μεγιστοποιήσουμε την εκ των υστέρων πιθανότητα ή να ελαχιστοποιήσουμε τη συνάρτηση ρίσκου Για δυαδικά χαρακτηριστικά, x=(x,,x D T p = P( x = C D x P( x C = p ( p = x P( x C = q ( q D = q = P( x = C x x Bernoull dstrbuton: p( x C = p ( p x p( x C = q ( q Υποθέτοντας υπό συνθήκη ανεξαρτησία: x x x
Διαχωρισμός διακριτών χαρακτηριστικών Lkelhood rato Διαχωριστική συνάρτηση x x D p( x C p p = p( x C = q q p( C p( C g( = x x ln ln p( x C + p( C D x 0 = g ( x = x + όπου: και: p ( q = ln =,..., D q ( p 0 D p P( C = ln + ln q P( C = decde C f g( x > 0 and C f g( x 0
Διαχωρισμός διακριτών χαρακτηριστικών Παράδειγμα: κλάσεις, p=0.8, q=0.5, ίσες a pror πιθανότητες D p( x C p p = p( x C = q q Διαχωριστική συνάρτηση 0 x x 0.8( 0.5 = ln =.3863 0.5( 0.8 3 0.8 P( C = + = 0.5 P( C ln ln.75 = g( x =.3863( x + x + x.75 C 3 : f g( x > 0 C f g( x 0 p( x C p( C D g( x = ln + ln = x + 0 p( x C p( C =
Διαχωρισμός διακριτών χαρακτηριστικών