HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 13-14 Γραμμικές διαχωριστικές συναρτήσεις(συνέχεια)

Επιλογή μοντέλου Δεδομένα επικύρωσης Κανονικοποίηση Bayes Model evidence(τεκμήριο): Η πιθανότητα να παρατηρήσουμε τα δεδομένα για το μοντέλο M i -μεγιστοποίηση Αυξάνεται για πιο πολύπλοκα µοντέλα Mειώνεται για πιο πολύπλοκα µοντέλα

α, β γνωστά: Μπεϋζιανή σύγκριση μοντέλων w, α,β άγνωστα προγνωστική κατανομή: Λύση: Μεγιστοποιούμετην περιθωριακή πιθανοφάνεια ως προς α,β(empirical Bayes, generalized maximum lielihood): Τελικά:

Μπεϋζιανή σύγκριση μοντέλων Lielihood est set error Prior Γραμμικοί ταξινομητές Τ g( x) = w x+ w0 Δύο κλάσεις: g(x)>0: C 1, g(x)<0: C 2 g( x) r= w x=0: w 0 r= w

Διαχωριστικές συναρτήσεις (discriminant functions) Κ>2: Ανάλυση σε επιμέρους προβλήματα με Κ=2 αμφισβητούμενες περιοχές g ( x) = wx+ w 0 (linear machine) Σύνορα αποφάσεων: υπερεπίπεδα D-1 διαστάσεων d( x, H ) j = g ( x) g ( x) w w j j Περιοχές αποφάσεων: κυρτές (convex) Λύση ελάχιστων τετραγώνων, t={0 0 1 0} Kx1 y ( x) = w x+ w 0 1 ( + WLS = X X) X = X

Fisher s linear discriminant Μείωση διαστάσεων (dimensionality reduction): Πως μπορούμε να πάρουμε μια προβολή σε 1 διάσταση που να επιτυγχάνει τον καλύτερο διαχωρισμό μεταξύ 2 κλάσεων? Τ y=w x Αν ψάχνουμε το w το οποίο μεγιστοποιεί τη διαφορά μεταξύ των μέσων τιμών των προβολών, δηλ.: Τ m2 m1 = w ( m2 m1) Θα μπορούσαμε να μεγαλώσουμε αυθαίρετα το πλάτος του w -> περιορισμός, π.χ. w =1, Lagrange multipliers: Παράγωγος ως προςw Άρα: w ( m2 m1) Η κατεύθυνσητου w έχει σημασία

Fisher s linear discriminant Πρέπει να λάβουμε υπόψη και τη διασπορά κάθε κλάσης Μπορούμε να ψάξουμε για ένα διάνυσμα ώστε οι προβαλλόμενες μέσες τιμές να έχουν μεγάλη απόσταση και ταυτόχρονα η διασπορά εντός κάθε κλάσης (within class variance) να είναι μικρή Within-class variance Συνολική διασπορά: s 12 +s 22. Fisher criterion: 1 2 Όμως: s Άρα = ( w x w m ) = 2 Τ Τ 2 x C Τ Τ = w ( x m )( x m ) w= w S w x C s + s =w S w 2 2 Τ 1 2 W όπου

Επίσης Άρα τελικά: (1) Between class-covariance: Within-class covariance: Fisher s linear discriminant ( ) 2 Τ Τ 2 m m ( w m w m ) = = 2 1 2 1 = w m m m m w= w S w Τ ( 2 1)( 2 1) Τ B

Fisher s linear discriminant w = argmax(j(w)), παραγωγίζοντας: και τελικά (το S B wπάντα στην κατ/νσητου (m 2 -m 1 )): Αριθμοί (scalars) Για να ολοκληρώσουμε τον διαχωρισμό, αρκεί να υπολογίσουμε την τιμή ενός κατωφλίου y 0 ώστε αν y(x) y 0 : C 1 και αν y(x)<y 0 : C 2 Μπορούμε να προσεγγίσουμε τις υπό συνθήκη πιθανότητες p(y C )με κανονικές κατανομές και να υπολογίσουμε το κατώφλι (Διάλεξη 4 -κεντρικό οριακό θεώρημα: η προβολή w x μπορεί να προσεγγίσει την κανονική για ικανό αριθμό δεδομένων) Η μέση τιμή και η διασπορά των p(y C ) μπορούν να εκτιμηθούν από τα δεδομένα και οι εκ των προτέρων πιθανότητες είναι γνωστές οπότε π.χ. για ίσες διασπορές το κατώφλι θα είναι 2 1 σ P( C1 ) x0 = ( µ 1+ µ 2 ) 2 ln 2 µ µ P( C ) ( ) 1 2 2

Fisher s linear discriminant Με αυτή τη διαδικασία δεν μπορούμε να επιτύχουμε τη βέλτιστη απόδοση αλλά κερδίζουμε πολλά σε πολυπλοκότητα (από D διαστάσεις σε 1 διάσταση) Σημείωση: Μπορούμε να καταλήξουμε στο ίδιο συμπέρασμα για το διάνυσμα w χρησιμοποιώντας ελάχιστα τετράγωνα και τη μεταβλητή στόχου (αντί πχ για t={0,1}) t={ν/ν 1,-Ν/Ν 2 } όπου Ν 1 και Ν 2 ο αριθμός των δειγμάτων που βρίσκονται στις κλάσεις C 1 και C 2 αντίστοιχα(4.1.5 Bishop) Γενίκευση για πολλαπλές κλάσεις C (=1,2,,K και Κ>2): Ορίζουμε D >1 χαρακτηριστικά ως εξής: y =wx (=1,2,,D ) και το διάνυσμα y={y 1,,y }ώστε y= W x όπου οι στήλες του πίνακα Wείναι τα διανύσματα {w } Μπορούμε να γενικεύσουμε τη διασπορά εντός κλάσης ως εξής: όπου και Ν ο αριθμός δειγμάτων της κλάσης C

Fisher s linear discriminant Για τη διασπορά μεταξύ κλάσεων, ορίζουμε πρώτα το «συνολικό» διάνυσμα μέσης τιμής mκαι τον «συνολικό» πίνακα συνδιακύμανσης S ως: N K Όμως: S = ( x m)( x m) = ( x m + m m)( x m + m m) = Όπου S n n n= 1 = 1 x C K K x mi x mi = 1 x C = 1 x C = ( )( ) + ( m m)( m m) K = SW + N ( m m)( m m) = SW + SB = 1 K B N ( m m)( m m) = 1 ο πίνακας συνδιακύμανσης μεταξύ κλάσεων

Fisher s linear discriminant Για τον D -διάστατο χώρο του y ορίζουμε παρομοίως: Παρόμοια με την περίπτωση δύο κλάσεων: Τ s = W S W W B W Τ s = W S W B Όπως και προηγουμένως, θα αναζητήσουμε τον πίνακα Wπου μεγιστοποιεί τη διασπορά μεταξύ κλάσεων προς τη διασπορά εντός κλάσης. Ένα πιθανό αριθμητικό μέτρο της διασποράς μεταξύ και εντός κλάσεων είναι η ορίζουσα των αντίστοιχων πινάκων συνδιασποράς, καθώς ισούται με το γινόμενο των ιδιοτιμών τους, άρα αποτελεί ένα μέτρο του όγκου του υπερελλιψοειδούς, οπότε μπορούμε να θεωρήσουμε το ακόλουθο κριτήριο: Τ s S B B J ( W) = = W W Τ s W S W W W

Fisher s linear discriminant Οι στήλες του βέλτιστου Wείναι ιδιοδιανύσματα του ακόλουθου γενικευμένου προβλήματος ιδιοτιμών: SBwi =λisww i ή του ακόλουθου τυπικού προβλήματος ιδιοτιμών 1 SWS Bwi = λiw i 1 και αντιστοιχούν στις D μεγαλύτερες ιδιοτιμές του πίνακα SWSB Μπορούμε να τις βρούμε λύνοντας την: S και κατόπιν να βρούμε τα B λisw = 0 αντίστοιχα ιδιοδιανύσματα από την ( S B λ is W) w i = 0 Παρατήρηση: Ο πίνακας S K = N ( m m)( m m) B = 1 έχει βαθμό (ran) το πολύ Κ-1, άρα θα έχει το πολύ Κ-1μη μηδενικές ιδιοτιμές. Τελικά, πάμε από έναν χώρο διαστάσεων Dσε χώρο διαστάσεων το πολύ Κ-1 (dimensionality reduction) ο οποίος είναι βέλτιστος ως προς τον διαχωρισμό των κλάσεων. Μπορούμε να χρησιμοποιήσουμε αυτά τα νέα χαρακτηριστικά (features) για να σχεδιάσουμε ταξινομητές με κάποια από τις μεθόδους που είδαμε.

Fisher s linear discriminant Πως θα μπορούσαμε να σχεδιάσουμε έναν ταξινομητή σε αυτή την περίπτωση?

Γραμμικά διαχωρίσιμα δεδομένα Έστω ότι έχουμε 2 κλάσεις και τα δεδομένα μας {x 1,,x N }είναι γραμμικά διαχωρίσιμα, δηλ. υπάρχει γραμμική διαχωριστική συνάρτηση g(x)=w x=0 η οποία έχει μηδενική (ή πολύ χαμηλή) πιθανότητα λάθους Είδαμε ότι μπορούμε να ψάξουμε για ένα διάνυσμα wγια το οποίο ισχύει: αν w x>0τότε το xανήκει στην κλάση C 1 και αν w x<0τότε ανήκει στην C 2 Αν όμως αντικαταστήσουμε τα δεδομένα εκπαίδευσης της C 2 με τα αντίθετά τους τότε μπορούμε να ψάξουμε γιατο διάνυσμα λύσης (solution vector)wώστε w x>0 για κάθε x Το διάνυσμα λύσης (αν υπάρχει) δεν είναι μοναδικό: περιοχή λύσης (solution region)

Γραμμικά διαχωρίσιμα δεδομένα Μπορούμε να εισάγουμε περιορισμούς π.χ. w x>b(b: margin) ή κάποιο wπου να μεγιστοποιεί την ελάχιστη απόσταση των δειγμάτων από το διαχωριστικό επίπεδο Διαδικασίες καθοδικής κλίσης (gradient descent procedures) - Απλή μέθοδος βελτιστοποίησης -Ορίζουμε μια κατάλληλη συνάρτηση κριτηρίου J(w) - Σκοπός η ελαχιστοποίηση της J(w) - Αρχικοποίηση w(1) και ενημέρωση με βάση την w( + 1) = w( ) n( ) J ( w) w 2 w 2 w1 w1 J ( w) J ( w) J ( w) J ( w) =... w1 w2 wm Σταθερά μάθησης (learning constant) n() μικρό αργή σύγκλιση, μεγάλο απόκλιση Η ενημέρωση σταματάει σύμφωνα με κάποιο κατώφλι, π.χ. n( ) J ( w) < θ

Γραμμικά διαχωρίσιμα δεδομένα Επιλογή του n() επέκταση δεύτερης τάξης για τη συνάρτηση κριτηρίου γύρω από το w() 1 J ( w) J ( w( )) + J ( w w( )) + ( w w( )) H( w w( )) (1) w= w( ) 2 όπου Η: Hessian 2 J H= J, Hij = wi w j w = w( ) 2 1 2 Αντικαθιστώντας w=w(+1): J ( w( + 1)) J ( w( )) n( ) J + n ( ) J H J 2 2 J η οποία ελαχιστοποιείται για n( ) = J H J Εναλλακτικά: Μέθοδος Newton -ελαχιστοποίηση της (1) ως προς w(+1) w( 1) ( ) 1 + = w H J ταχύτερη σύγκλιση, όμως χρειάζεται αντιστροφή πίνακα

Perceptron algorithm Perceptron algorithm: από τους πρώτους αλγόριθμους μηχανικής μάθησης (1962). Θα μπορούσαμε π.χ. να διαλέξουμε J(w)= αριθμός των λάθος ταξινομημένων δειγμάτων (τμηματικά σταθερή συνάρτηση όχι ιδιαίτερα καλή επιλογή). Perceptron criterion function J P ( w) = ( w x ) n M n όπου Μτο σύνολο των λάθος ταξινομημένων δειγμάτων, ή στην πιο γενική περίπτωση που έχουμε κάποιο μη γραμμικό μετ/σμό του x(generalized linear discriminant function): J P Αν όλα τα δείγματα είναι σωστά ταξινομημένα J=0. Επίσης, πάντα J(w) 0 Gradient: J P = ( x n) J P = ( ϕ ( xn)) Άρα: ( w) = ( w ϕ( x )) n M n M n w( + 1) = w( ) + n( ) xn n M n M

Single sample updates (μεμονωμένα σημεία) κυκλική ή τυχαία επιλογή Για κάθε σημείο x που ταξινομείται λάθος: w x <0 οπότε προσθέτοντας το ίδιο το x μετακινούμαστε (ή υπερβαίνουμε) το σύνορο απόφασης w x =0 Το νέο εσωτερικό γινόμενο w(+1) x είναι μεγαλύτερο κατά x 2 Perceptron algorithm

Perceptron algorithm J ( ) P w w 1 w 2 Batch processing: όλα τα λάθος ταξινομημένα δείγματα λαμβάνονται υπόψιν σε ένα βήμα. Βήμα 1-update: y 1 +y 2 +y 3, Βήμα 2 update y 2, Βήμα 3 update y 3, Βήμα 4 update y 1, Βήμα 5 update y 3

Peceptron algorithm σύγκλιση Θεωρούμε την περίπτωση μεμονωμένων δειγμάτων (single sample updates) και n()=const=1 Αν x το λάθος ταξινομημένο δείγμα που χρησιμοποιείται σε κάθε βήμα έχουμε την εξής ακολουθία για τα βάρη: w(1) = αυθαίρετο w( + 1) = w( ) + x, 1 Προφανώς ο αλγόριθμος τερματίζει μόνο αν τα δείγματα είναι γραμμικά διαχωρίσιμα. Αν ισχύει το τελευταίο, η σύγκλιση είναι εγγυημένη(απόδειξη: Duda/Hart/Stor 5.5.2).

Peceptron algorithm τροποποιήσεις Μπορούμε να τροποποιήσουμε αρκετά εύκολα τον αλγόριθμο perceptron Π.χ. για μεταβλητό n() και περιθώριο b έχουμε: w(1) = αυθαίρετο w( + 1) = w( ) + n( ) x, 1 Τ όπου w ( ) x b Και αυτός ο αλγόριθμος συγκλίνει για γραμμικά διαχωρίσιμα δείγματα όταν n( ) 0 2 n ( ) m = 1 lim m n( ) = και limm = m 2 = 1 n( ) = 1 Στην περίπτωση που έχουμε ενημέρωση σε παρτίδες (batches), έχουμε πιο «ομαλή» σύγκλιση Οι παραπάνω συνθήκες για το n()δείχνουν ότι μπορεί το nνα είναι σταθερό, να μειώνεται ανάλογα του 1/ή ακόμη και να αυξάνεται ανάλογα του. Γενικά, φαίνεται πιο λογικό να μικραίνει η τιμή του ειδικά όταν τα δεδομένα δεν είναι πλήρως γραμμικά διαχωρίσιμα m

Peceptron algorithm τροποποιήσεις Το περιθώριο bμπορεί να επιλεγεί ώστε να είναι κοντά στο n( ) x Γενικά η εγγύηση σύγκλισης δε σημαίνει ότι οι παράμετροι δεν πρέπει να επιλεγούν προσεκτικά Η συνάρτηση κριτηρίου perceptronδεν είναι η μοναδική που μπορούμε να θεωρήσουμε. Π.χ. η συνάρτηση J q = ( w) ( w x ) n M n 2 έχει συνεχή κλίση (σε αντίθεση με την συνάρτηση perceptron) αλλά είναι υπερβολικά ομαλή κοντά στο σύνορο απόφασης ώστε μπορεί να έχουμε σύγκλιση κοντά στο w=0 και επίσης (όπως και η τυπική συνάρτηση ελάχιστων τετραγώνων) επηρεάζεται περισσότερο από τα δείγματα με τη μεγαλύτερη νόρμα Έτσι, μπορεί να χρησιμοποιηθεί η συνάρτηση: 2 1 ( n b) Jr ( w) = w x M: w x 2 n b 2 n M x n 2 J r ( w) ( n b) = w x x 2 n M x n n

Peceptron algorithm τροποποιήσεις Έτσι έχουμε τον ακόλουθο αλγόριθμο (batch) w(1) = αυθαίρετο b w ( ) xn w( + 1) = w( ) + n( ) x 2 n M xn ή για μεμονωμένα δείγματα: w(1) = αυθαίρετο b w ( ) x w( + 1) = w( ) + n( ) x n=1: Μετακίνηση ακριβώς πάνω στηνεπιφάνεια n>1: Overrelaxation n<1: Underrelaxation Για 0<n<2 έχουμε σύγκλιση n x 1 x r( ) b w ( ) x = x 2 x x2

Συναρτήσεις κριτηρίου J ( w ) J ( w) P w 1 w 1 J ( ) q w w 2 J r ( w) w 2 w 1 w 1 w 2 w 2

Peceptron algorithm Error correcting procedures: Μόνο όταν έχουμε σφάλμα τα βάρη αλλάζουν Τι γίνεται για δείγματα που δεν είναι γραμμικά διαχωρίσιμα? Οι παραπάνω αλγόριθμοι δεν σταματούν ποτέ Είναι δύσκολο να ξέρουμε αν σε κάποια δεδομένη χρονική στιγμή το διάνυσμα w δίνει καλή λύση averaging n() συνεχώς μειούμενο (π.χ. n()=1/) εξαρτώμενο από την πρόσφατη απόδοση του αλγορίθμου

Minimum squared-error procedures Επιστρέφουμε στην τυποποίηση του προβλήματος ως πρόβλημα ελαχιστοποίησης τετραγωνικού σφάλματος χρησιμοποιώντας όλα τα δείγματα Είδαμε ότι αν χρησιμοποιήσουμε μεταβλητή στόχου της μορφής t={0,1} δεν παίρνουμε καλά αποτελέσματα Στις προηγούμενες διαφάνειες προσπαθήσαμε να κάνουμε τα γινόμενα w x θετικά Μπορούμε όμως να προσπαθήσουμε να κάνουμε αυτά τα γινόμενα ίσα με ένα διάνυσμα περιθωρίων (margins) b, δηλ: Xw= b όπου τα b i είναι θετικές σταθερές Η λύση ελάχιστων τετραγώνων είναι: 1 ( w LS = X X) X b

Παράδειγμα: C 1 : (1 2) (2 0) C 2 : (3 1) (2 3) Ο πίνακας Χείναι: Minimum squared-error procedures 1 1 2 1 2 0 X= 1 3 1 1 2 3 Επιλέγοντας b=(1 1 1), η λύση είναι: w Xb ( ) = = 11/ 3 4 / 3 2 / 3

Minimum squared-error procedures Μπορούμε να ελαχιστοποιήσουμε το κριτήριο 2 J s ( w) = Xw b επαναληπτικά, καθώς: J s ( w) = 2 X ( Xw b) με βάση την: w(1) = αυθαίρετο w ( + 1) = w ( ) + n ( ) X ( Xw ( ) b ) η οποία συγκλίνει για n()=1/. Εναλλακτικά μπορούμε να θεωρήσουμε τα δείγματα σε σειρά (Widrow-Hoff or LMS (least mean squares) procedure): w(1) = αυθαίρετο w( + 1) = w( ) + n( )( b( ) w ( ) x ) x Αποφεύγουμε πιθανά αριθμητικά προβλήματα, λιγότερες απαιτήσεις για αποθήκευση

Logistic regression Είδαμε γενικά ότι η χρήση του κριτηρίου ελάχιστων τετραγώνων σε προβλήματα γραμμικής ταξινόμησης δεν είναι ιδανική Μπορούμε να βρούμε εναλλακτική συνάρτηση κριτηρίου που να είναι πιο κατάλληλη για τέτοια προβλήματα? Ας υποθέσουμε ότι έχουμε ένα πρόβλημα 2 κλάσεων. Η εκ των υστέρων πιθανότητα για την κλάση C 1 είναι(κανόνας Bayes): όπου σ(α): logistic sigmoid function Για α μικρό, η σιγμοειδής προσεγγίζει μια γραμμική χαρακτηριστική Αντίστροφη συνάρτηση: logitfunction log of ratio between posteriors (ln[p(c 1 x)/p(c 2 x)])

Logistic regression Για περισσότερες από 2 κλάσεις η γενίκευση της λογιστικής συνάρτησης είναι: normalized exponential function/softmax function όπου Αν a >>a j p(c x) 1, p(c j x) 0

Logistic regression Αν θεωρήσουμε ότι η διαχωριστική συνάρτηση για το πρόβλημα 2 κλάσεων είναι μια γενικευμένη γραμμική διαχωριστική συνάρτηση, δηλ. y= g( w x+ w0 ) τότε, μπορούμε να χρησιμοποιήσουμε g=σ: σ ( w x+ w ) = p( C x) = σ ( a) P ( x C ) P ( C ) w x+ w = a= 0 0 1 ln 1 1 P ( x C 2) P( C2) Αν επιπλέον οι υπό συνθήκη κατανομές για την κάθε κλάση είναι κανονικές με ίσους πίνακες συνδιακύμανσης, δηλ. p( x C ) ~ N( µ, Σ) προκύπτει: i i w ( µ µ ) w 1 =Σ 1 2 1 1 ( ) = µ Σ µ + µ Σ µ + ln P C 2 2 ( ) 1 1 1 0 1 1 2 2 P C2 Η έξοδος λοιπόν της σιγμοειδούς συνάρτησης για το πρόβλημα 2 κλάσεων μπορεί να ερμηνευθεί ως εκ των υστέρων πιθανότητα

Logistic regression Για την περίπτωση Κ κλάσεων θα έχουμε: exp( α ) g ( w x+ w0 ) = p( C x) = exp( α j ) w x+ w = α ( x) 0 1 w =Σ µ w 1 = µ Σ µ + ln P( C ) 2 1 0 j Σημ: Τα αποτελέσματα αυτά είναι τα ίδια με αυτά της διάλεξης 4, όπου είχαμε υπολογίσει αναλυτικά τις εκ των υστέρων πιθανότητες για υπό συνθήκη κανονικές κατανομές για κάθε κλάση. Εδώ είδαμε το πρόβλημα από τη σκοπιά της εύρεσης γενικευμένης γραμμικής διαχωριστικής συνάρτησης

Logistic regression Γενικεύοντας αν έχουμε οποιονδήποτε μη γραμμικό μετασχηματισμό των χαρακτηριστικών φ(x) για το πρόβλημα 2 κλάσεων: Πως μπορούμε να βρούμε το διάνυσμα w? Καταρχάς για την παράγωγο της σιγμοειδούς ως προς α ισχύει: Για σύνολο δεδομένων {φ n,t n } όπου t n ={0,1} (n=1,2,,n)η πιθανοφάνεια για Ν ανεξάρτητες παρατηρήσεις είναι γινόμενο Bernoulli: όπου Όμως και. Ισοδύναμα μπορούμε να ελαχιστοποιήσουμε τον αρνητικό λογάριθμο της πιθανοφάνειας, δηλ.: cross-entropy error function H κλίση ως προς w προκύπτει αρκετά απλοποιημένη:

Logistic regression Η συνεισφορά κάθε σημείου n είναι ανάλογη της διαφοράς y n -t n. Μπορούμε να χρησιμοποιήσουμε αυτή την σχέση για να υπολογίσουμε επαναληπτικά τα w (gradient descent). Μπορεί να χρησιμοποιηθεί και η μέθοδος Newton (4.3.3 Bishop) Βελτίωση σε σύγκριση με τα απλά ελάχιστα τετράγωνα Παρόμοια και για πολλαπλές κλάσεις (softmax function multi-class entropy)