HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9-20 Kerel methods Kerel methods Support vector machies

Συναρτήσεις σφάλματος Συνεχής έξοδος/έξοδοι Μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο g(.) Πιθανοφάνεια Συνάρτηση σφάλματος E E y = a =y t a Ταξινόμηση 2 κλάσεις Συνάρτηση ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E a k k k k k k =y k t k N t p( t x, w) = y( x, w) { y( x, w)} = N = t { } E( w) = t l y + ( t )l( y )

Ταξινόμηση Κ κλάσεις Συναρτήσεις ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E y = a =y t aa k k k k k N K = = k= tk p( T w) y k

Εκπαίδευση νευρωνικών δικτύων -backpropagatio:. Υπολογισμός μεταβλητών δικτύου «τρέχον» w a = w x a = w z () () (2) (2) j ji i k kj j i j z = ha ( ) y = g( a ) j j k k 2. Υπολογισμός μερικών παραγώγων διάδοση σφαλμάτων προς τα πίσω E w (2) k = (2) (2) (2) kj ak wkj Ορισμός: E w (2) kj E a = δ z E δk = = y t a k j (2) k k k

2. Πρώτο στρώμα E a a = = = δ x w a w w () () E j j δ () () () j () ji j ji ji E a δj = = a a k (2) (2) k k (2) () δk () k j k aj z = δ '( ) k E E = h '( a ) () w ji a j i (2) () ak j k = h a () () j δk zj aj k δ w x (2) j k kj i k w (2) kj a = w x a = w z () () (2) (2) j ji i k kj j i j z = ha ( ) y = g( a ) j j k k 3. Ενημέρωση (sigle sample/ batch) w( k+ ) = w( k) k ( ) J ( w) Jacobia μέτρο της «ευαισθησίας» του δικτύου ως οντότητα: J ki y y a y () = = = wji = x a x a () k k j k () () i j j i j j y a = '( ) y (2) () k l () (2) k wji = w (2) () jih aj wlj (2) j l al aj j l al yk = δ '( ) (2) klσ al a l

Hessia H ij 2 E = w w ji lk : ακριβής ή προσεγγιστικός υπολογισμός Κανονικοποίηση: Αν το αρχικό δίκτυο εκπαιδευτεί με τότε αν χρησιμοποιήσουμε δεδομένα εκπαίδευσης μετ/σμένα γραμμικά ( xɶ = ax, yɶ = cy ) θα πρέπει να κανονικοποιήσουμε σύμφωνα με την: i i i i λ a /2 λ c λ λ /2 2 2 Πρακτικά ζητήματα: Τερματισμός εκπαίδευσης Traiig/Validatio/Testig Επιλογή συναρτήσεων ενεργοποίησης Κανονικοποίηση δεδομένων εκπαίδευσης Αρχικοποίηση βαρών Σταθερές μάθησης Αριθμός στρωμάτων

Αμεταβλητότητα Δημιουργία τεχνητών δεδομένων εκπαίδευσης Προεπεξεργασία Επιλογή κατάλληλης δομής ΝΝ

Μέθοδοι πυρήνων (kerel methods) Οι συναρτήσεις πυρήνα(kerel fuctios) είναι απεικονίσεις των διανυσμάτων εισόδου xστο σύνολο R,οι οποίες έχουν συγκεκριμένη μορφή και ιδιότητες και γενικεύουν σε μεγάλο βαθμό τις εφαρμογές των αλγορίθμων ταξινόμησης Σύμφωνα με τη μέθοδο μετασχηματίζουμε κατάλληλα τα διανύσματα εισόδου ώστε να επιτύχουμε πιο εύκολη/γενικεύσιμη λύση του προβλήματος ταξινόμησης Για να γίνει αυτό, πηγαίνουμε αρχικά από τον χώρο εισόδου (iput space)σε έναν μετασχηματισμένο χώρο χαρακτηριστικών (feature space)με πιθανόν υψηλότερη διάσταση με μια (μη γραμμική) απεικόνιση φ(x) Η συνάρτηση πυρήνα ορίζεται τότε ως: k( x, x') = ϕ T ( x) ϕ( x') = ϕ( x), ϕ( x') είναι με άλλα λόγια ένα εσωτερικό γινόμενο (ier product) μεταξύ των διανυσμάτων φ(x) και φ(x ) στον καινούριο χώρο χαρακτηριστικών Η πιο απλή συνάρτηση πυρήνα προκύπτει για τη μοναδιαία απεικόνιση φ(x)=x: T k ( x, x') = x x' είναι δηλ το εσωτερικό γινόμενο μεταξύ των 2 διανυσμάτων Οι συναρτήσεις πυρήνα μπορούν να ερμηνευθούν ως ένα μέτρο της ομοιότητας (similarity) μεταξύ δύο διανυσμάτων στο χώρο εισόδουκαι ήδη χρησιμοποιήσαμε κάποιες από αυτές για τη μη παραμετρική εκτίμηση κατανομών πιθανότητας (πως?)

Μέθοδοι πυρήνων (kerel methods) Παράδειγμα: Έστω ο αρχικός χώρος είναι δισδιάστατος (x,x 2 )και η απεικόνιση: 2 2 ϕ ( x) = ( x, 2 xx 2, x ) T η οποία μας πηγαίνει σε τρεις διαστάσεις. Τότε: T k( x, x') = ϕ ( x) ϕ( x') () = ( x, 2 xx, x ) ( x, 2 xx, x ) = 2 2 Τ '2 ' ' '2 2 2 2 2 = ( x x + 2 xxxx + x x ) 2 '2 ' ' 2 '2 2 2 2 2 T 2 ' ' 2 = ( x x ') = ( x x + x 2 x 2 ) Τι κερδίζουμε πηγαίνοντας σε χώρο υψηλότερης διάστασης? Η κεντρική ιδέα είναι ότι, πηγαίνοντας ενδιάμεσα σε έναν τέτοιο χώρο, τα δεδομένα μας γίνονται περισσότερο «διαχωρίσιμα» http://www.youtube.com/watch?v=3licbrzprza Αν επιπλέον επιλέξουμε κατάλληλα τη συνάρτηση πυρήνα, ώστε να αντιστοιχεί στη μορφή (), δεν είναι ανάγκη να υπολογίσουμε αναλυτικά αυτή την απεικόνιση σε υψηλότερες διαστάσεις, αλλά μόνο το εσωτερικό γινόμενο ()!

Μέθοδοι πυρήνων (kerel methods) Μπορούμε να πάμε από το χώρο εισόδου (iput space) στο χώρο χαρακτηριστικών (feature space) πιθανόν υψηλότερης διάστασης όπου όμως το πρόβλημα είναι γραμμικά διαχωρίσιμο, άρα μπορούμε να βρούμε απλούστερα σύνορα αποφάσεων (υπερεπίπεδα)

Μέθοδοι πυρήνων (kerel methods) Πως μπορούμε να χρησιμοποιήσουμε τις συναρτήσεις πυρήνα σε αλγορίθμους ταξινόμησης? Kerel trick: Αν ο αλγόριθμος ταξινόμησης εκφράζεται σε σχέση με το εσωτερικό γινόμενο x T x μπορούμε να το αντικαταστήσουμε με οποιαδήποτε συνάρτηση πυρήνα k(x,x ) Θα δούμε πως αυτό εφαρμόζεται στις διανυσματικές μηχανές υποστήριξης μπορεί όμως να εφαρμοστεί και σε άλλες μεθόδους Παράδειγμα: Perceptro algorithm. Είδαμε ότι ο αλγόριθμος λειτουργεί ως εξής: w() = αυθαίρετο w( k+ ) = w( k) + t x M T M : tw x 0 Τελικά λοιπόν η διαχωριστική συνάρτηση μπορεί να γραφτεί ως: T T g( x ) = w x = t x x = t x, x M M Σημ: Μπορούμε να θεωρήσουμε ότι π.χ. το τελευταίο στοιχείο των διανυσμάτων x, x ισούται με για να υπολογίσουμε και το κατώφλι w 0 ώστε να πάρουμε διαχωριστική T της μορφής: g( x) = w x+ w Επίσης χρησιμοποιήσαμε class labels {+,-} 0

Μέθοδοι πυρήνων (kerel methods) Πως θα μπορούσαμε να γενικεύσουμε/ βελτιώσουμε τον αλγόριθμο perceptro? Χρησιμοποιούμε μια μη γραμμική αναπαράσταση φ(x)που κάνει το πρόβλημα πιο εύκολα διαχωρίσιμο. Μπορούμε να πάρουμε την εξής τροποποίηση: w() = αυθαίρετο w( k+ ) = w( k) + tϕ( x ) M T M : t w ϕ( x ) 0 Ανάλογα με την προηγούμενη περίπτωση προκύπτει: T g( x) = tϕ ( x ) ϕ( x) = t ϕ( x ), ϕ( x) = tk( x, x) M M M Μπορούμε όμως να ανανεώσουμε κατευθείαν τη διαχωριστική συνάρτηση χωρίς να είναι αναγκαία η γνώση ή ο υπολογισμός της συνάρτησης φ! Συγκεκριμένα: w() = αυθαίρετο g( k+ ) = g( k) + tk( x, x) M : t g( x ) 0 M Kerel perceptro algorithm

Μέθοδοι πυρήνων (kerel methods) Για να είναι μια συνάρτηση k(x,x )έγκυρη συνάρτηση πυρήνα θα πρέπει να είναι συμμετρική και ο πίνακας Κ={k(x,x m )}να είναι θετικά ημιορισμένος(positive semidefiite)για κάθε πιθανό συνδυασμό διανυσμάτων στο σύνολο παρατηρήσεων. Πως μπορούμε να κατασκευάσουμε συναρτήσεις πυρήνα? Ένας τρόπος είναι να ξεκινήσουμε από κάποια (κάποιες) απλούστερη συνάρτηση k (k 2 ) και να χρησιμοποιήσουμε κάποια/κάποιες από τις παρακάτω ιδιότητες: όπου c>0, f οποιαδήποτε συνάρτηση, q πολυώνυμο με μη αρνητικούς συντελεστές, A συμμετρικός θετικά ημιορισμένος πίνακας κλπ

Μέθοδοι πυρήνων (kerel methods) Κάποιες συναρτήσεις πυρήνα που χρησιμοποιούνται συχνά είναι: M T T M Πολυωνυμικές k ( x, x ') = ( x x ') = x x ' M Ανομοιογενείς πολυωνυμικές ( T k( x, x ') = x x ' + c ) 2 Γκαουσιανές/ radial basis fuctio kerelsk ( x, x ') = exp( x x ' 2) Υπερβολική εφαπτομένη: σημείωση η συνάρτηση αυτή δεν είναι θετικά ορισμένη αλλά έχει δώσει καλά αποτελέσματα στην πράξη T k( x, x') = tah ( ax x' + b) Για να υπολογίσουμε το μετασχηματισμό δεν είναι απαραίτητη η γνώση του φ(x), παρά μόνο η γνώση της συνάρτησης πυρήνα Η συνάρτηση πυρήνα με άλλα λόγια υπολογίζει το εσωτερικό γινόμενο στο χώρο των χαρακτηριστικών φ(x)απευθείας, χωρίς γνώση ή/και υπολογισμό της απεικόνισης φ

Διανυσματικές μηχανές υποστήριξης (Support vector machies) Είδαμε ότι όταν ψάχνουμε για μια γραμμική διαχωριστική συνάρτηση για ένα πρόβλημα 2 κλάσεων, η επιλογή της διαχωριστικής επιφάνειας δεν είναι μοναδική Κλάση Κλάση 2

Support vector machies Τ Ποια είναι η καλύτερη επιλογή? Αν y( x) = w x+ b μπορούμε να υπολογίσουμε το wμε κάποιον απλό αλγόριθμο (πχ perceptro) αλλά η τελική λύση εξαρτάται από την αρχικοποίηση των w,bκαθώς και από τη σειρά με την οποία παρουσιάζουμε τα (λάθος ταξινομημένα) σημεία σε κάθε βήμα Κλάση Κλάση 2

Support vector machies Όλα τα εικονιζόμενα σύνορα ταξινομούν σωστά τα δείγματα αλλά πως μπορούμε να διαλέξουμε ένα συστηματικά? Κλάση Κλάση 2

Support vector machies Ορίζουμε το περιθώριο (margi) του ταξινομητή ως το εύρος της απόστασης του συνόρου απόφασης από τα κοντινότερα σημεία Κλάση Κλάση 2

Support vector machies Διαισθητικά, ο ταξινομητής με το μέγιστο περιθώριο είναι αυτός που ψάχνουμε και είναι η απλούστερη μορφή διανυσματικής μηχανής υποστήριξης (support vector machie- Vapik 979) Support vectors (Διανύσματα υποστήριξης): Τα διανύσματα που βρίσκονται πάνω στο σύνορο όπως θα δούμε μόνο αυτά καθορίζουν τον ταξινομητή! Κλάση Κλάση 2 Support Vectors

Support vector machies Πως μπορούμε να υπολογίσουμε τα w,b? Υπενθύμιση: Η απόσταση ενός οποιουδήποτε σημείου από το σύνορο απόφασης είναι y( x) Τ r= y( x) = w x+ b w όπου y(x)>0για την κλάση, y(x)<0για την κλ. 2 Κλάση Κωδικοποιούμε τη μεταβλητή στόχου t ως Κλάση 2 {+,-}οπότε για όλα τα σημεία εκπαίδευσης ισχύει t y ( x ) > 0 x Η απόσταση του x από το σύνορο είναι επομένως: r Τ ty( x ) t( w x+ b) = w w Η λύση που ψάχνουμε είναι αυτή που μεγιστοποιεί την απόσταση του κοντινότερου σημείου από το επίπεδο, με άλλα λόγια: Τ arg max w, b mi ( t( w x+ b) ) w

Support vector machies Σημείωση: Αν μετασχηματίσουμε w κw, b κbτότε η απόσταση δεν αλλάζει. Άρα μπορούμε να διαλέξουμε τα w, bώστε η απόσταση του κοντινότερου σημείου να είναι ίση με δηλαδή: Τ t ( w x + b) = caoical represetatio of the decisio hyperplae Ισοδύναμα, η απόσταση του σημείου αυτού από το επίπεδο απόφασης είναι w Άρα για όλα τα σημεία θα ισχύει: t ( Τ w x + b) =, 2,..., N () Active costraits: Σημεία για τα οποία ισχύει η ισότητα, iactive: όλα τα υπόλοιπα Θα έχουμε τουλάχιστον έναν ενεργό περιορισμό εξ ορισμού Το πρόβλημα βελτιστοποίησης που έχουμε να λύσουμε επομένως είναι η μεγιστοποίηση του w ή ισοδύναμα η ελαχιστοποίηση του w υπό τους περιορισμούς ανισοτήτων ()(Ν τον αριθμό) 2 Κλάση Κλάση 2 x r

Support vector machies Ξαναγράφοντας το πρόβλημα, πρέπει να βρούμε τα w,b ώστε: 2 arg mi w w 2 Quadratic programmig problem subject to t ( w Τ x + b) =,2,..., N Θέλουμε να ελαχιστοποιήσουμε μια τετραγωνική συνάρτηση υπό ένα σύνολο γραμμικών ανισοτήτων Lagrage multipliers a 0 (περιορισμός λόγω ανισοτήτων).lagragia: N 2 T L( w, b, a) = w a( t( w Τ x+ b) ), a= ( a, a2,..., an ) 2 = Ελαχιστοποίηση ως προς w, b και μεγιστοποίηση ως προς a Θα πρέπει: L( w, b, a) w L( w, b, a) b = 0 w= = 0 0= N = N = at at x (2) (3)

arg mi w 2 w 2 Support vector machies subject to t( w Τ x+ b) =,2,..., N Τα προβλήματα βελτιστοποίησης υπό περιορισμούς αυτής της μορφής ικανοποιούν τις συνθήκες Kaush-Kuh-Tucker, σύμφωνα με τις οποίες: N L( w, b, a) L( w, b, a) = 0 w= at x, = 0 0= w Τ t ( w x + b) 0 =,2,..., N a 0 Τ ( w x ) a t ( + b) =0 = b = Τι σημαίνουν οι συνθήκες αυτές για το πρόβλημά μας? N at

Support vector machies. Το διάνυσμα w είναι γραμμικός συνδυασμός των σημείων εκπαίδευσης 2. Τα σημεία x i για τα οποία a i >0λέγονταιδιανύσματα υποστήριξης (support vectors) και είναι αυτά που βρίσκονται πάνω στο περιθώριο, δηλ. ισχύει: Τ t( w x+ b) = 3. Επομένως το διάνυσμα wκαθορίζεται μόνο από αυτά τα σημεία! Για τα υπόλοιπα Τ οι περιορισμοί t( w x+ b) > ισχύουν και a i =0. Αυτό γιατί μόνο οι μη μηδενικοί πολλαπλασιαστές Lagrage αντιστοιχούν σε περιορισμούς που ικανοποιούν την ισότητα λόγω της συνθήκης: ( w Τ x ) a t ( + b) =0 =,2,..., N Αντικαθιστώντας τις συνθήκες (2),(3) στην αρχική μορφή της Lagragiaπαίρνουμε τη δυαδική αναπαράσταση(dual represetatio) του προβλήματος, στην οποία μεγιστοποιούμε την: N N N T Lɶ ( a) = a aa mtt mxmx = 2 = m= ως προς a υπό τους περιορισμούς: a 0 N = at = 0

N N N Lɶ ( a) = a aa tt = 2 = m= Support vector machies x x T m m m a N = 0 at T Σημ: Η έκφραση xmx είναι ένα εσωτερικό γινόμενο (ier product)μεταξύ των δύο διανυσμάτων και μπορεί να συμβολιστεί xm, x Προς το παρόν εμφανίζονται εσωτερικά γινόμενα μόνο μεταξύ των σημείων εκπαίδευσης. Μπορούμε όμως να κάνουμε την προσέγγιση πολύ πιο ευέλικτη χρησιμοποιώντας κάποια από τις συναρτήσεις πυρήνα (kerel fuctios) που είδαμε ώστε να μπορούμε να αναπαραστήσουμε πολύ γενικότερες υπερεπιφάνειες αποφάσεων Με βάση το kerel trick μπορούμε να αντικαταστήσουμε το εσωτερικό γινόμενο x mt x με οποιαδήποτε συνάρτηση πυρήνα k(x m,x ), οπότε καταλήγουμε στο εξής πρόβλημα βελτιστοποίησης a N N N 0 Lɶ ( a) = a aa mtt mk( x, xm) N = 2 = m= at = 0 Σημείωση: Θα μπορούσαμε να καταλήξουμε στο ίδιο αποτέλεσμα αν Τ χρησιμοποιούσαμε εξαρχής: y( x) = w ϕ( x) + b Έτσι, k( x, x') = ϕ T ( x) ϕ( x') = ϕ( x), ϕ( x') και δεν χρειάζεται να υπολογίσουμε το φ! = = 0

Support vector machies Μπορούμε να πάμε από το χώρο εισόδου (iput space) στο χώρο χαρακτηριστικών (feature space) πιθανόν υψηλότερης διάστασης όπου όμως το πρόβλημα είναι γραμμικά διαχωρίσιμο, άρα μπορούμε να βρούμε απλούστερα σύνορα αποφάσεων (υπερεπίπεδα)

Support vector machies Η συνάρτηση πυρήνα μπορεί να είναι μια από αυτές που είδαμε στα προηγούμενα, δηλ: M T Πολυωνυμικός πυρήναςk ( x, x ') = ( x x ') 2 Γκαουσιανός/radial basis k ( x, x ') = exp( x x ' 2) Tah k( x, x') = tah( ax T x' + b) Για την ταξινόμηση ενός νέου σημείου xαρκεί να υπολογίσουμε το πρόσημο της y(x), η οποία γράφεται ως: N y( x) = atk( x, x ) + b = όπου φυσικά μόνο τα διανύσματα υποστήριξης παίζουν ρόλο! Μεγάλο πλεονέκτημα της μεθόδου: όταν τελειώσει η εκπαίδευση μπορούμε να κρατήσουμε μόνο αυτά τα σημεία! Πως βρίσκουμε τις τιμές των a i? Αριθμητικές μέθοδοι τετραγωνικού προγραμματισμού (quadratic programmig) Γενικά αρκετά περίπλοκη βελτιστοποίηση βασίζεται σε gradiet ascet και οι περισσότερες μέθοδοι σπάνε το πρόβλημα σε μικρότερα προβλήματα (π.χ. Platt sequetial miimal optimizatio -στη συνάρτηση του HW5)

Support vector machies Αφού υπολογιστούν οι τιμές των a i και συνακόλουθα το w, η τιμή του κατωφλίου μπορεί να υπολογιστεί από οποιαδήποτε εκ των: Τ ty = t( w ϕ( x) + b) = t amtmk( x, xm) + b = m S που ισχύει για τα διανύσματα υποστήριξης. Συνήθως για πιο αξιόπιστα αποτελέσματα, παίρνουμε το μέσο όρο ως προς όλα τα διανύσματα υποστήριξης πολλαπλασιάζοντας την παραπάνω με t και αθροίζοντας. Τελικά: b= t amtmk(, m) N S x x S m S

Support vector machies Γενικά η μέθοδος SVM έχει αποδειχθεί ιδιαίτερα επιτυχημένη και έχει δώσει πολύ καλά αποτελέσματα σε διάφορα προβλήματα ταξινόμησης (paper στην ιστοσελίδα)

Support vector machies Στα προηγούμενα υποθέσαμε ότι τα δεδομένα μας είναι γραμμικά διαχωρίσιμα. Τι συμβαίνει αν δεν είναι? Μπορούμε να επιτρέψουμε κάποια σημεία εκπαίδευσης να είναι στο λάθος ημιεπίπεδο με ποινή η οποία αυξάνεται με την απόσταση από το σύνορο. Εισάγουμε τις μεταβλητές ξ 0(=,2,,N) όπου (Cortes & Vapik995): 0 αν το σηµείο είναι σωστά ταξινοµηµένο ξ = t y( x ) ειδάλλως Για σημεία πάνω στο σύνορο ξ = (y(x )=0) Για λάθος ταξινομημένα σημεία ξ > Σημεία με 0 ξ < βρίσκονται εντός του περιθωρίου αλλά στη σωστή πλευρά Οι περιορισμοί του προβλήματος αλλάζουν σε Τ t( w x+ b) ξ =,2,..., N soft margi costraits ή ισοδύναμα Τ ( w x + b) ξ t = Τ ( w x + b) + ξ t =

Support vector machies Tο πρόβλημα ελαχιστοποίησης γίνεται σε αυτή την περίπτωση: N 2 Cξ+ w = 2 Lagragia Lagrage multipliers: a και µ ( 0) N N N 2 L( w, b, a) = w + Cξ a( ty( x ) + ξ ) µ ξ 2 όπου y( x ) Τ = w ϕ( x ) + b KKT coditios = = =

Έχουμε: Support vector machies Αντικαθιστώντας παίρνουμε όπως και πριν τη δυαδική Lagragia: N N N L ɶ( a) = a aa mtt mk( x, xm) = 2 = m= H έκφραση είναι ακριβώς η ίδια με πριν αλλά έχουμε διαφορετικούς περιορισμούς. Επειδή a,µ 0 πρέπει επιπλέον a C. Πρέπει επομένως να ελαχιστοποιήσουμε την παραπάνω με τους περιορισμούς: Και πάλι πρόβλημα τετραγωνικού προγραμματισμού.

Σύμφωνα με τις συνθήκες: Support vector machies Κάποια σημεία ικανοποιούν a =0. Τα υπόλοιπα σημεία είναι τα διανύσματα υποστήριξης, τα οποία πρέπει να ικανοποιούν a >0και t( w Τ x+ b) = ξ Αν γι αυτά τα σημεία a <C τότε πρέπει µ >0 άρα πρέπει και ξ =0, με άλλα λόγια τα σημεία αυτά βρίσκονται πάνω στο περιθώριο Αν a =C τα σηµεία βρίσκονται εντός του περιθωρίου Ανξ είναι σωστάταξινομημένα Ανξ > είναι λάθοςταξινομημένα

Support vector machies Οι τιμές των a υπολογίζονται όπως και πριν με μεθόδους τετραγωνικού προγραμματισμού. Η τιμή του b μπορεί να προσδιοριστεί από οποιαδήποτε εκ των: t amtmk( x, xm) + b = m S για τα διανύσματα υποστήριξης για τα οποία 0<a <C. Επίσης μπορούμε να πάρουμε το μέσο όρο, οπότε: b= t amtmk(, m) N Μ Μ x x m S όπου Μτο σύνολο αυτών των σημείων.

Support vector machies multiple classes Τι γίνεται για Κ>2? Εκπαίδευση kδιαφορετικών SVMs για κάθε κλάση όπου το k-οστό μοντέλο y k (x) εκπαιδεύεται για πρόβλημα 2 κλάσεων όπου η κλάση αντιστοιχεί στην κλάση kκαι η κλάση 2 στα δεδομένα όλων των υπόλοιπων K-κλάσεων (oe versus the rest) Πρόβλημα με περιοχές που παραμένουν αμφισβητούμενες Εναλλακτικά επιλέγουμε για κάθε σημείο επικύρωσης την κλάση ως k=argmax k(y k(x)) πιθανά προβλήματα με κλίμακα των συντελεστών Ανισόρροπη κατανομή δεδομένων μεταβλητή στόχου για την κλάση 2: - /K- Εκπαίδευση K(K-)/2 SVMs 2 κλάσεων για όλα τα πιθανά ζεύγη (oe-versusoe) αμφισβητούμενες περιοχέςόπως και πριν. Η κλάση που επιλέγεται για ένα πρότυπο εκπαίδευσης είναι αυτή που παίρνει τις περισσότερες «ψήφους» Μπορεί επίσης να γράψουμε τη συνάρτηση κόστους για το πρόβλημα Κ κλάσεων, αλλά είναι υπολογιστικά πιο περίπλοκο (σημαντικά αυξημένος αριθμός SVs) και η απόδοση δεν είναι σημαντικά διαφορετική από προσεγγίσεις oe vs. the rest. Sigle-class SVMs: Μη επιβλεπόμενο πρόβλημα εύρεση περιοχών που περιέχουν προκαθορισμένο κλάσμα των δεδομένων (quatile)