HMY 795: Αναγνώριση Προτύπων

Σχετικά έγγραφα
HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Lecture Notes for Chapter 5. (cont.)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 13-14

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

HMY 795: Αναγνώριση Προτύπων

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές

Επιχειρησιακή Έρευνα I

Αριθμητική Ανάλυση και Εφαρμογές

3.7 Παραδείγματα Μεθόδου Simplex

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

HMY 795: Αναγνώριση Προτύπων

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ

Ασκήσεις μελέτης της 19 ης διάλεξης

HMY 795: Αναγνώριση Προτύπων

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Μέθοδος μέγιστης πιθανοφάνειας

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Κεφάλαιο 4 Διανυσματικοί Χώροι

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΚΑΙ ΜΕΘΟΔΟΣ SIMPLEX, διαλ. 3. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 29/4/2017

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Κεφ. 3: Παρεμβολή. 3.1 Εισαγωγή. 3.2 Πολυωνυμική παρεμβολή Παρεμβολή Lagrange Παρεμβολή Newton. 3.3 Παρεμβολή με κυβικές splines

4.3. Γραµµικοί ταξινοµητές

z = c 1 x 1 + c 2 x c n x n

Περιεχόμενα. 2.1 Εισαγωγή Προγενέστερη έρευνα Ανάπτυξη υποδειγμάτων παραποίησης Πρόλογος... 11

HMY 795: Αναγνώριση Προτύπων

Τα περισσότερα προβλήματα βελτιστοποίησης είναι με περιορισμούς, αλλά οι μέθοδοι επίλυσης χωρίς περιορισμούς έχουν γενικό ενδιαφέρον.

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΜΙΓΑΔΙΚΟ ΔΥΝΑΜΙΚΟ ΓΕΝΙΚΑ. Έστω σωμάτιο, στις τρεις διαστάσεις, που βρίσκεται υπό την επίδραση μιγαδικού δυναμικού της μορφής

Αναγνώριση Προτύπων Ι

Λυμένες ασκήσεις στροφορμής

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Αναγνώριση Προτύπων Ι

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Το μοντέλο Perceptron

ΠΡΟΒΛΗΜΑΤΑ ΔΥΟ ΔΙΑΣΤΑΣΕΩΝ

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Εφαρμοσμένα Μαθηματικά ΙΙ

Υπολογιστική Νοημοσύνη. Μάθημα 13: Αναδρομικά Δίκτυα - Recurrent Networks

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Κεφάλαιο 4 Διανυσματικοί Χώροι

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Τετραγωνικά μοντέλα. Τετραγωνικό μοντέλο συνάρτησης. Παράδειγμα τετραγωνικού μοντέλου #1. Παράδειγμα τετραγωνικού μοντέλου #1

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ΜΕΜ251 Αριθμητική Ανάλυση

Θεωρία Δυαδικότητας ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου. Επιχειρησιακή Έρευνα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Εφαρμοσμένα Μαθηματικά ΙΙ 9ο Σετ Ασκήσεων (Λύσεις) Διανυσματικοί Χώροι

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 17-18

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

Μέθοδος μέγιστης πιθανοφάνειας

max f( x,..., x ) st. : g ( x,..., x ) 0 g ( x,..., x ) 0

Ψηφιακός Έλεγχος. 6 η διάλεξη Σχεδίαση στο χώρο κατάστασης. Ψηφιακός Έλεγχος 1

Επίλυση Συστήματος Γραμμικών Διαφορικών Εξισώσεων

HMY 795: Αναγνώριση Προτύπων

Κεφ. 3: Παρεμβολή. 3.1 Εισαγωγή. 3.2 Πολυωνυμική παρεμβολή Παρεμβολή Lagrange Παρεμβολή Newton. 3.3 Παρεμβολή με κυβικές splines

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

ΚΕΦΑΛΑΙΟ 3 ΤΟ ΔΙΩΝΥΜΙΚΟ ΘΕΩΡΗΜΑ

E[ (x- ) ]= trace[(x-x)(x- ) ]

Μη γραµµικοί ταξινοµητές Νευρωνικά ίκτυα

Αναγνώριση Προτύπων Ι

(1) L{a 1 x 1 + a 2 x 2 } = a 1 L{x 1 } + a 2 L{x 2 } (2) x(t) = δ(t t ) x(t ) dt x[i] = δ[i i ] x[i ] (3) h[i, i ] x[i ] (4)

Παραδείγματα Διανυσματικοί Χώροι (3)

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

[1] είναι ταυτοτικά ίση με το μηδέν. Στην περίπτωση που το στήριγμα μιας συνάρτησης ελέγχου φ ( x)

A Τελική Εξέταση του μαθήματος «Αριθμητική Ανάλυση» Σχολή Θετικών Επιστημών, Τμήμα Μαθηματικών, Πανεπιστήμιο Αιγαίου

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

n. Έστω αποτελείται από όλους τους πίνακες που αντιμετατίθενται με ένα συγκεκριμένο μη μηδενικό nxn πίνακα Τ:

Transcript:

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 9-20 Kerel methods Kerel methods Support vector machies

Συναρτήσεις σφάλματος Συνεχής έξοδος/έξοδοι Μοναδιαία συνάρτηση ενεργοποίησης στην έξοδο g(.) Πιθανοφάνεια Συνάρτηση σφάλματος E E y = a =y t a Ταξινόμηση 2 κλάσεις Συνάρτηση ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E a k k k k k k =y k t k N t p( t x, w) = y( x, w) { y( x, w)} = N = t { } E( w) = t l y + ( t )l( y )

Ταξινόμηση Κ κλάσεις Συναρτήσεις ενεργοποίησης Πιθανοφάνεια Συνάρτηση σφάλματος E y = a =y t aa k k k k k N K = = k= tk p( T w) y k

Εκπαίδευση νευρωνικών δικτύων -backpropagatio:. Υπολογισμός μεταβλητών δικτύου «τρέχον» w a = w x a = w z () () (2) (2) j ji i k kj j i j z = ha ( ) y = g( a ) j j k k 2. Υπολογισμός μερικών παραγώγων διάδοση σφαλμάτων προς τα πίσω E w (2) k = (2) (2) (2) kj ak wkj Ορισμός: E w (2) kj E a = δ z E δk = = y t a k j (2) k k k

2. Πρώτο στρώμα E a a = = = δ x w a w w () () E j j δ () () () j () ji j ji ji E a δj = = a a k (2) (2) k k (2) () δk () k j k aj z = δ '( ) k E E = h '( a ) () w ji a j i (2) () ak j k = h a () () j δk zj aj k δ w x (2) j k kj i k w (2) kj a = w x a = w z () () (2) (2) j ji i k kj j i j z = ha ( ) y = g( a ) j j k k 3. Ενημέρωση (sigle sample/ batch) w( k+ ) = w( k) k ( ) J ( w) Jacobia μέτρο της «ευαισθησίας» του δικτύου ως οντότητα: J ki y y a y () = = = wji = x a x a () k k j k () () i j j i j j y a = '( ) y (2) () k l () (2) k wji = w (2) () jih aj wlj (2) j l al aj j l al yk = δ '( ) (2) klσ al a l

Hessia H ij 2 E = w w ji lk : ακριβής ή προσεγγιστικός υπολογισμός Κανονικοποίηση: Αν το αρχικό δίκτυο εκπαιδευτεί με τότε αν χρησιμοποιήσουμε δεδομένα εκπαίδευσης μετ/σμένα γραμμικά ( xɶ = ax, yɶ = cy ) θα πρέπει να κανονικοποιήσουμε σύμφωνα με την: i i i i λ a /2 λ c λ λ /2 2 2 Πρακτικά ζητήματα: Τερματισμός εκπαίδευσης Traiig/Validatio/Testig Επιλογή συναρτήσεων ενεργοποίησης Κανονικοποίηση δεδομένων εκπαίδευσης Αρχικοποίηση βαρών Σταθερές μάθησης Αριθμός στρωμάτων

Αμεταβλητότητα Δημιουργία τεχνητών δεδομένων εκπαίδευσης Προεπεξεργασία Επιλογή κατάλληλης δομής ΝΝ

Μέθοδοι πυρήνων (kerel methods) Οι συναρτήσεις πυρήνα(kerel fuctios) είναι απεικονίσεις των διανυσμάτων εισόδου xστο σύνολο R,οι οποίες έχουν συγκεκριμένη μορφή και ιδιότητες και γενικεύουν σε μεγάλο βαθμό τις εφαρμογές των αλγορίθμων ταξινόμησης Σύμφωνα με τη μέθοδο μετασχηματίζουμε κατάλληλα τα διανύσματα εισόδου ώστε να επιτύχουμε πιο εύκολη/γενικεύσιμη λύση του προβλήματος ταξινόμησης Για να γίνει αυτό, πηγαίνουμε αρχικά από τον χώρο εισόδου (iput space)σε έναν μετασχηματισμένο χώρο χαρακτηριστικών (feature space)με πιθανόν υψηλότερη διάσταση με μια (μη γραμμική) απεικόνιση φ(x) Η συνάρτηση πυρήνα ορίζεται τότε ως: k( x, x') = ϕ T ( x) ϕ( x') = ϕ( x), ϕ( x') είναι με άλλα λόγια ένα εσωτερικό γινόμενο (ier product) μεταξύ των διανυσμάτων φ(x) και φ(x ) στον καινούριο χώρο χαρακτηριστικών Η πιο απλή συνάρτηση πυρήνα προκύπτει για τη μοναδιαία απεικόνιση φ(x)=x: T k ( x, x') = x x' είναι δηλ το εσωτερικό γινόμενο μεταξύ των 2 διανυσμάτων Οι συναρτήσεις πυρήνα μπορούν να ερμηνευθούν ως ένα μέτρο της ομοιότητας (similarity) μεταξύ δύο διανυσμάτων στο χώρο εισόδουκαι ήδη χρησιμοποιήσαμε κάποιες από αυτές για τη μη παραμετρική εκτίμηση κατανομών πιθανότητας (πως?)

Μέθοδοι πυρήνων (kerel methods) Παράδειγμα: Έστω ο αρχικός χώρος είναι δισδιάστατος (x,x 2 )και η απεικόνιση: 2 2 ϕ ( x) = ( x, 2 xx 2, x ) T η οποία μας πηγαίνει σε τρεις διαστάσεις. Τότε: T k( x, x') = ϕ ( x) ϕ( x') () = ( x, 2 xx, x ) ( x, 2 xx, x ) = 2 2 Τ '2 ' ' '2 2 2 2 2 = ( x x + 2 xxxx + x x ) 2 '2 ' ' 2 '2 2 2 2 2 T 2 ' ' 2 = ( x x ') = ( x x + x 2 x 2 ) Τι κερδίζουμε πηγαίνοντας σε χώρο υψηλότερης διάστασης? Η κεντρική ιδέα είναι ότι, πηγαίνοντας ενδιάμεσα σε έναν τέτοιο χώρο, τα δεδομένα μας γίνονται περισσότερο «διαχωρίσιμα» http://www.youtube.com/watch?v=3licbrzprza Αν επιπλέον επιλέξουμε κατάλληλα τη συνάρτηση πυρήνα, ώστε να αντιστοιχεί στη μορφή (), δεν είναι ανάγκη να υπολογίσουμε αναλυτικά αυτή την απεικόνιση σε υψηλότερες διαστάσεις, αλλά μόνο το εσωτερικό γινόμενο ()!

Μέθοδοι πυρήνων (kerel methods) Μπορούμε να πάμε από το χώρο εισόδου (iput space) στο χώρο χαρακτηριστικών (feature space) πιθανόν υψηλότερης διάστασης όπου όμως το πρόβλημα είναι γραμμικά διαχωρίσιμο, άρα μπορούμε να βρούμε απλούστερα σύνορα αποφάσεων (υπερεπίπεδα)

Μέθοδοι πυρήνων (kerel methods) Πως μπορούμε να χρησιμοποιήσουμε τις συναρτήσεις πυρήνα σε αλγορίθμους ταξινόμησης? Kerel trick: Αν ο αλγόριθμος ταξινόμησης εκφράζεται σε σχέση με το εσωτερικό γινόμενο x T x μπορούμε να το αντικαταστήσουμε με οποιαδήποτε συνάρτηση πυρήνα k(x,x ) Θα δούμε πως αυτό εφαρμόζεται στις διανυσματικές μηχανές υποστήριξης μπορεί όμως να εφαρμοστεί και σε άλλες μεθόδους Παράδειγμα: Perceptro algorithm. Είδαμε ότι ο αλγόριθμος λειτουργεί ως εξής: w() = αυθαίρετο w( k+ ) = w( k) + t x M T M : tw x 0 Τελικά λοιπόν η διαχωριστική συνάρτηση μπορεί να γραφτεί ως: T T g( x ) = w x = t x x = t x, x M M Σημ: Μπορούμε να θεωρήσουμε ότι π.χ. το τελευταίο στοιχείο των διανυσμάτων x, x ισούται με για να υπολογίσουμε και το κατώφλι w 0 ώστε να πάρουμε διαχωριστική T της μορφής: g( x) = w x+ w Επίσης χρησιμοποιήσαμε class labels {+,-} 0

Μέθοδοι πυρήνων (kerel methods) Πως θα μπορούσαμε να γενικεύσουμε/ βελτιώσουμε τον αλγόριθμο perceptro? Χρησιμοποιούμε μια μη γραμμική αναπαράσταση φ(x)που κάνει το πρόβλημα πιο εύκολα διαχωρίσιμο. Μπορούμε να πάρουμε την εξής τροποποίηση: w() = αυθαίρετο w( k+ ) = w( k) + tϕ( x ) M T M : t w ϕ( x ) 0 Ανάλογα με την προηγούμενη περίπτωση προκύπτει: T g( x) = tϕ ( x ) ϕ( x) = t ϕ( x ), ϕ( x) = tk( x, x) M M M Μπορούμε όμως να ανανεώσουμε κατευθείαν τη διαχωριστική συνάρτηση χωρίς να είναι αναγκαία η γνώση ή ο υπολογισμός της συνάρτησης φ! Συγκεκριμένα: w() = αυθαίρετο g( k+ ) = g( k) + tk( x, x) M : t g( x ) 0 M Kerel perceptro algorithm

Μέθοδοι πυρήνων (kerel methods) Για να είναι μια συνάρτηση k(x,x )έγκυρη συνάρτηση πυρήνα θα πρέπει να είναι συμμετρική και ο πίνακας Κ={k(x,x m )}να είναι θετικά ημιορισμένος(positive semidefiite)για κάθε πιθανό συνδυασμό διανυσμάτων στο σύνολο παρατηρήσεων. Πως μπορούμε να κατασκευάσουμε συναρτήσεις πυρήνα? Ένας τρόπος είναι να ξεκινήσουμε από κάποια (κάποιες) απλούστερη συνάρτηση k (k 2 ) και να χρησιμοποιήσουμε κάποια/κάποιες από τις παρακάτω ιδιότητες: όπου c>0, f οποιαδήποτε συνάρτηση, q πολυώνυμο με μη αρνητικούς συντελεστές, A συμμετρικός θετικά ημιορισμένος πίνακας κλπ

Μέθοδοι πυρήνων (kerel methods) Κάποιες συναρτήσεις πυρήνα που χρησιμοποιούνται συχνά είναι: M T T M Πολυωνυμικές k ( x, x ') = ( x x ') = x x ' M Ανομοιογενείς πολυωνυμικές ( T k( x, x ') = x x ' + c ) 2 Γκαουσιανές/ radial basis fuctio kerelsk ( x, x ') = exp( x x ' 2) Υπερβολική εφαπτομένη: σημείωση η συνάρτηση αυτή δεν είναι θετικά ορισμένη αλλά έχει δώσει καλά αποτελέσματα στην πράξη T k( x, x') = tah ( ax x' + b) Για να υπολογίσουμε το μετασχηματισμό δεν είναι απαραίτητη η γνώση του φ(x), παρά μόνο η γνώση της συνάρτησης πυρήνα Η συνάρτηση πυρήνα με άλλα λόγια υπολογίζει το εσωτερικό γινόμενο στο χώρο των χαρακτηριστικών φ(x)απευθείας, χωρίς γνώση ή/και υπολογισμό της απεικόνισης φ

Διανυσματικές μηχανές υποστήριξης (Support vector machies) Είδαμε ότι όταν ψάχνουμε για μια γραμμική διαχωριστική συνάρτηση για ένα πρόβλημα 2 κλάσεων, η επιλογή της διαχωριστικής επιφάνειας δεν είναι μοναδική Κλάση Κλάση 2

Support vector machies Τ Ποια είναι η καλύτερη επιλογή? Αν y( x) = w x+ b μπορούμε να υπολογίσουμε το wμε κάποιον απλό αλγόριθμο (πχ perceptro) αλλά η τελική λύση εξαρτάται από την αρχικοποίηση των w,bκαθώς και από τη σειρά με την οποία παρουσιάζουμε τα (λάθος ταξινομημένα) σημεία σε κάθε βήμα Κλάση Κλάση 2

Support vector machies Όλα τα εικονιζόμενα σύνορα ταξινομούν σωστά τα δείγματα αλλά πως μπορούμε να διαλέξουμε ένα συστηματικά? Κλάση Κλάση 2

Support vector machies Ορίζουμε το περιθώριο (margi) του ταξινομητή ως το εύρος της απόστασης του συνόρου απόφασης από τα κοντινότερα σημεία Κλάση Κλάση 2

Support vector machies Διαισθητικά, ο ταξινομητής με το μέγιστο περιθώριο είναι αυτός που ψάχνουμε και είναι η απλούστερη μορφή διανυσματικής μηχανής υποστήριξης (support vector machie- Vapik 979) Support vectors (Διανύσματα υποστήριξης): Τα διανύσματα που βρίσκονται πάνω στο σύνορο όπως θα δούμε μόνο αυτά καθορίζουν τον ταξινομητή! Κλάση Κλάση 2 Support Vectors

Support vector machies Πως μπορούμε να υπολογίσουμε τα w,b? Υπενθύμιση: Η απόσταση ενός οποιουδήποτε σημείου από το σύνορο απόφασης είναι y( x) Τ r= y( x) = w x+ b w όπου y(x)>0για την κλάση, y(x)<0για την κλ. 2 Κλάση Κωδικοποιούμε τη μεταβλητή στόχου t ως Κλάση 2 {+,-}οπότε για όλα τα σημεία εκπαίδευσης ισχύει t y ( x ) > 0 x Η απόσταση του x από το σύνορο είναι επομένως: r Τ ty( x ) t( w x+ b) = w w Η λύση που ψάχνουμε είναι αυτή που μεγιστοποιεί την απόσταση του κοντινότερου σημείου από το επίπεδο, με άλλα λόγια: Τ arg max w, b mi ( t( w x+ b) ) w

Support vector machies Σημείωση: Αν μετασχηματίσουμε w κw, b κbτότε η απόσταση δεν αλλάζει. Άρα μπορούμε να διαλέξουμε τα w, bώστε η απόσταση του κοντινότερου σημείου να είναι ίση με δηλαδή: Τ t ( w x + b) = caoical represetatio of the decisio hyperplae Ισοδύναμα, η απόσταση του σημείου αυτού από το επίπεδο απόφασης είναι w Άρα για όλα τα σημεία θα ισχύει: t ( Τ w x + b) =, 2,..., N () Active costraits: Σημεία για τα οποία ισχύει η ισότητα, iactive: όλα τα υπόλοιπα Θα έχουμε τουλάχιστον έναν ενεργό περιορισμό εξ ορισμού Το πρόβλημα βελτιστοποίησης που έχουμε να λύσουμε επομένως είναι η μεγιστοποίηση του w ή ισοδύναμα η ελαχιστοποίηση του w υπό τους περιορισμούς ανισοτήτων ()(Ν τον αριθμό) 2 Κλάση Κλάση 2 x r

Support vector machies Ξαναγράφοντας το πρόβλημα, πρέπει να βρούμε τα w,b ώστε: 2 arg mi w w 2 Quadratic programmig problem subject to t ( w Τ x + b) =,2,..., N Θέλουμε να ελαχιστοποιήσουμε μια τετραγωνική συνάρτηση υπό ένα σύνολο γραμμικών ανισοτήτων Lagrage multipliers a 0 (περιορισμός λόγω ανισοτήτων).lagragia: N 2 T L( w, b, a) = w a( t( w Τ x+ b) ), a= ( a, a2,..., an ) 2 = Ελαχιστοποίηση ως προς w, b και μεγιστοποίηση ως προς a Θα πρέπει: L( w, b, a) w L( w, b, a) b = 0 w= = 0 0= N = N = at at x (2) (3)

arg mi w 2 w 2 Support vector machies subject to t( w Τ x+ b) =,2,..., N Τα προβλήματα βελτιστοποίησης υπό περιορισμούς αυτής της μορφής ικανοποιούν τις συνθήκες Kaush-Kuh-Tucker, σύμφωνα με τις οποίες: N L( w, b, a) L( w, b, a) = 0 w= at x, = 0 0= w Τ t ( w x + b) 0 =,2,..., N a 0 Τ ( w x ) a t ( + b) =0 = b = Τι σημαίνουν οι συνθήκες αυτές για το πρόβλημά μας? N at

Support vector machies. Το διάνυσμα w είναι γραμμικός συνδυασμός των σημείων εκπαίδευσης 2. Τα σημεία x i για τα οποία a i >0λέγονταιδιανύσματα υποστήριξης (support vectors) και είναι αυτά που βρίσκονται πάνω στο περιθώριο, δηλ. ισχύει: Τ t( w x+ b) = 3. Επομένως το διάνυσμα wκαθορίζεται μόνο από αυτά τα σημεία! Για τα υπόλοιπα Τ οι περιορισμοί t( w x+ b) > ισχύουν και a i =0. Αυτό γιατί μόνο οι μη μηδενικοί πολλαπλασιαστές Lagrage αντιστοιχούν σε περιορισμούς που ικανοποιούν την ισότητα λόγω της συνθήκης: ( w Τ x ) a t ( + b) =0 =,2,..., N Αντικαθιστώντας τις συνθήκες (2),(3) στην αρχική μορφή της Lagragiaπαίρνουμε τη δυαδική αναπαράσταση(dual represetatio) του προβλήματος, στην οποία μεγιστοποιούμε την: N N N T Lɶ ( a) = a aa mtt mxmx = 2 = m= ως προς a υπό τους περιορισμούς: a 0 N = at = 0

N N N Lɶ ( a) = a aa tt = 2 = m= Support vector machies x x T m m m a N = 0 at T Σημ: Η έκφραση xmx είναι ένα εσωτερικό γινόμενο (ier product)μεταξύ των δύο διανυσμάτων και μπορεί να συμβολιστεί xm, x Προς το παρόν εμφανίζονται εσωτερικά γινόμενα μόνο μεταξύ των σημείων εκπαίδευσης. Μπορούμε όμως να κάνουμε την προσέγγιση πολύ πιο ευέλικτη χρησιμοποιώντας κάποια από τις συναρτήσεις πυρήνα (kerel fuctios) που είδαμε ώστε να μπορούμε να αναπαραστήσουμε πολύ γενικότερες υπερεπιφάνειες αποφάσεων Με βάση το kerel trick μπορούμε να αντικαταστήσουμε το εσωτερικό γινόμενο x mt x με οποιαδήποτε συνάρτηση πυρήνα k(x m,x ), οπότε καταλήγουμε στο εξής πρόβλημα βελτιστοποίησης a N N N 0 Lɶ ( a) = a aa mtt mk( x, xm) N = 2 = m= at = 0 Σημείωση: Θα μπορούσαμε να καταλήξουμε στο ίδιο αποτέλεσμα αν Τ χρησιμοποιούσαμε εξαρχής: y( x) = w ϕ( x) + b Έτσι, k( x, x') = ϕ T ( x) ϕ( x') = ϕ( x), ϕ( x') και δεν χρειάζεται να υπολογίσουμε το φ! = = 0

Support vector machies Μπορούμε να πάμε από το χώρο εισόδου (iput space) στο χώρο χαρακτηριστικών (feature space) πιθανόν υψηλότερης διάστασης όπου όμως το πρόβλημα είναι γραμμικά διαχωρίσιμο, άρα μπορούμε να βρούμε απλούστερα σύνορα αποφάσεων (υπερεπίπεδα)

Support vector machies Η συνάρτηση πυρήνα μπορεί να είναι μια από αυτές που είδαμε στα προηγούμενα, δηλ: M T Πολυωνυμικός πυρήναςk ( x, x ') = ( x x ') 2 Γκαουσιανός/radial basis k ( x, x ') = exp( x x ' 2) Tah k( x, x') = tah( ax T x' + b) Για την ταξινόμηση ενός νέου σημείου xαρκεί να υπολογίσουμε το πρόσημο της y(x), η οποία γράφεται ως: N y( x) = atk( x, x ) + b = όπου φυσικά μόνο τα διανύσματα υποστήριξης παίζουν ρόλο! Μεγάλο πλεονέκτημα της μεθόδου: όταν τελειώσει η εκπαίδευση μπορούμε να κρατήσουμε μόνο αυτά τα σημεία! Πως βρίσκουμε τις τιμές των a i? Αριθμητικές μέθοδοι τετραγωνικού προγραμματισμού (quadratic programmig) Γενικά αρκετά περίπλοκη βελτιστοποίηση βασίζεται σε gradiet ascet και οι περισσότερες μέθοδοι σπάνε το πρόβλημα σε μικρότερα προβλήματα (π.χ. Platt sequetial miimal optimizatio -στη συνάρτηση του HW5)

Support vector machies Αφού υπολογιστούν οι τιμές των a i και συνακόλουθα το w, η τιμή του κατωφλίου μπορεί να υπολογιστεί από οποιαδήποτε εκ των: Τ ty = t( w ϕ( x) + b) = t amtmk( x, xm) + b = m S που ισχύει για τα διανύσματα υποστήριξης. Συνήθως για πιο αξιόπιστα αποτελέσματα, παίρνουμε το μέσο όρο ως προς όλα τα διανύσματα υποστήριξης πολλαπλασιάζοντας την παραπάνω με t και αθροίζοντας. Τελικά: b= t amtmk(, m) N S x x S m S

Support vector machies Γενικά η μέθοδος SVM έχει αποδειχθεί ιδιαίτερα επιτυχημένη και έχει δώσει πολύ καλά αποτελέσματα σε διάφορα προβλήματα ταξινόμησης (paper στην ιστοσελίδα)

Support vector machies Στα προηγούμενα υποθέσαμε ότι τα δεδομένα μας είναι γραμμικά διαχωρίσιμα. Τι συμβαίνει αν δεν είναι? Μπορούμε να επιτρέψουμε κάποια σημεία εκπαίδευσης να είναι στο λάθος ημιεπίπεδο με ποινή η οποία αυξάνεται με την απόσταση από το σύνορο. Εισάγουμε τις μεταβλητές ξ 0(=,2,,N) όπου (Cortes & Vapik995): 0 αν το σηµείο είναι σωστά ταξινοµηµένο ξ = t y( x ) ειδάλλως Για σημεία πάνω στο σύνορο ξ = (y(x )=0) Για λάθος ταξινομημένα σημεία ξ > Σημεία με 0 ξ < βρίσκονται εντός του περιθωρίου αλλά στη σωστή πλευρά Οι περιορισμοί του προβλήματος αλλάζουν σε Τ t( w x+ b) ξ =,2,..., N soft margi costraits ή ισοδύναμα Τ ( w x + b) ξ t = Τ ( w x + b) + ξ t =

Support vector machies Tο πρόβλημα ελαχιστοποίησης γίνεται σε αυτή την περίπτωση: N 2 Cξ+ w = 2 Lagragia Lagrage multipliers: a και µ ( 0) N N N 2 L( w, b, a) = w + Cξ a( ty( x ) + ξ ) µ ξ 2 όπου y( x ) Τ = w ϕ( x ) + b KKT coditios = = =

Έχουμε: Support vector machies Αντικαθιστώντας παίρνουμε όπως και πριν τη δυαδική Lagragia: N N N L ɶ( a) = a aa mtt mk( x, xm) = 2 = m= H έκφραση είναι ακριβώς η ίδια με πριν αλλά έχουμε διαφορετικούς περιορισμούς. Επειδή a,µ 0 πρέπει επιπλέον a C. Πρέπει επομένως να ελαχιστοποιήσουμε την παραπάνω με τους περιορισμούς: Και πάλι πρόβλημα τετραγωνικού προγραμματισμού.

Σύμφωνα με τις συνθήκες: Support vector machies Κάποια σημεία ικανοποιούν a =0. Τα υπόλοιπα σημεία είναι τα διανύσματα υποστήριξης, τα οποία πρέπει να ικανοποιούν a >0και t( w Τ x+ b) = ξ Αν γι αυτά τα σημεία a <C τότε πρέπει µ >0 άρα πρέπει και ξ =0, με άλλα λόγια τα σημεία αυτά βρίσκονται πάνω στο περιθώριο Αν a =C τα σηµεία βρίσκονται εντός του περιθωρίου Ανξ είναι σωστάταξινομημένα Ανξ > είναι λάθοςταξινομημένα

Support vector machies Οι τιμές των a υπολογίζονται όπως και πριν με μεθόδους τετραγωνικού προγραμματισμού. Η τιμή του b μπορεί να προσδιοριστεί από οποιαδήποτε εκ των: t amtmk( x, xm) + b = m S για τα διανύσματα υποστήριξης για τα οποία 0<a <C. Επίσης μπορούμε να πάρουμε το μέσο όρο, οπότε: b= t amtmk(, m) N Μ Μ x x m S όπου Μτο σύνολο αυτών των σημείων.

Support vector machies multiple classes Τι γίνεται για Κ>2? Εκπαίδευση kδιαφορετικών SVMs για κάθε κλάση όπου το k-οστό μοντέλο y k (x) εκπαιδεύεται για πρόβλημα 2 κλάσεων όπου η κλάση αντιστοιχεί στην κλάση kκαι η κλάση 2 στα δεδομένα όλων των υπόλοιπων K-κλάσεων (oe versus the rest) Πρόβλημα με περιοχές που παραμένουν αμφισβητούμενες Εναλλακτικά επιλέγουμε για κάθε σημείο επικύρωσης την κλάση ως k=argmax k(y k(x)) πιθανά προβλήματα με κλίμακα των συντελεστών Ανισόρροπη κατανομή δεδομένων μεταβλητή στόχου για την κλάση 2: - /K- Εκπαίδευση K(K-)/2 SVMs 2 κλάσεων για όλα τα πιθανά ζεύγη (oe-versusoe) αμφισβητούμενες περιοχέςόπως και πριν. Η κλάση που επιλέγεται για ένα πρότυπο εκπαίδευσης είναι αυτή που παίρνει τις περισσότερες «ψήφους» Μπορεί επίσης να γράψουμε τη συνάρτηση κόστους για το πρόβλημα Κ κλάσεων, αλλά είναι υπολογιστικά πιο περίπλοκο (σημαντικά αυξημένος αριθμός SVs) και η απόδοση δεν είναι σημαντικά διαφορετική από προσεγγίσεις oe vs. the rest. Sigle-class SVMs: Μη επιβλεπόμενο πρόβλημα εύρεση περιοχών που περιέχουν προκαθορισμένο κλάσμα των δεδομένων (quatile)