Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης



Σχετικά έγγραφα
Αναγνώριση Προτύπων Ι

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Η μέθοδος Simplex. Γεωργία Φουτσιτζή-Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. Τμήμα Μηχανικών Πληροφορικής ΤΕ

Το μοντέλο Perceptron

Αναγνώριση Προτύπων Ι

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Αναγνώριση Προτύπων Ι

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

z = c 1 x 1 + c 2 x c n x n

Αριθμητική Ανάλυση και Εφαρμογές

3.7 Παραδείγματα Μεθόδου Simplex

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

HMY 795: Αναγνώριση Προτύπων

Αριθμητική Ανάλυση και Εφαρμογές

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

4.3. Γραµµικοί ταξινοµητές

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αριθμητική Ανάλυση και Εφαρμογές

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Επιχειρησιακή Έρευνα I

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Εισόδημα Κατανάλωση

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ. ΜΕΡΟΣ 1ο ΑΛΓΕΒΡΑ

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

Από το Γυμνάσιο στο Λύκειο Δειγματικός χώρος Ενδεχόμενα Εύρεση δειγματικού χώρου... 46

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

HMY 795: Αναγνώριση Προτύπων

Ακέραιος Γραμμικός Προγραμματισμός

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Γ. Πειραματισμός - Βιομετρία

Υπολογιστικά & Διακριτά Μαθηματικά

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

HMY 795: Αναγνώριση Προτύπων

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ

6. Στατιστικές μέθοδοι εκπαίδευσης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών


Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ακέραιος Γραμμικός Προγραμματισμός

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Αριθμητικά Συστήματα

ΚΕΦΑΛΑΙΟ 2: ΟΡΙΖΟΥΣΕΣ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Ακέραιος Γραμμικός Προγραμματισμός

Αριθμητική Ανάλυση & Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Επίλυση Προβλημάτων 1

HMY 795: Αναγνώριση Προτύπων

Θεωρία Δυαδικότητας ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου. Επιχειρησιακή Έρευνα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Πίνακας 4.4 Διαστήματα Εμπιστοσύνης. Τιμές που Επίπεδο εμπιστοσύνης. Διάστημα εμπιστοσύνης

Διάλεξη 04: Παραδείγματα Ανάλυσης

HMY 795: Αναγνώριση Προτύπων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

E[ (x- ) ]= trace[(x-x)(x- ) ]

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης Θωμαΐδης Παναγιώτης Καρλαύτης Βασίλειος Μισάκ Επιβλέπων: Θεοχάρης Ιωάννης, Καθηγητής ΑΠΘ Θεσσαλονίκη, Ιούνιος 2011

2 ΠΕΡΙΕΧΟΜΕΝΑ Περίληψη 3 Κεφάλαιο 1 Εισαγωγή 4 Κεφάλαιο 2 Μηχανές Διανυσμάτων Στήριξης 7 2.1. Γραμμικές Μηχανές Διανυσμάτων Στήριξης 7 2.2 Μη διαχωρίσιμη μορφή των Μηχανών Διανυσμάτων Στήριξης 15 2.3 Μη γραμμικές Μηχανές Διανυσμάτων Στήριξης 17 ΚΕΦΑΛΑΙΟ 3 Επαγωγικές Μηχανές Διανυσμάτων Στήριξης 21 3.1 Εισαγωγή 21 3.2 Αλγόριθμος Δυαδικά προβλήματα 23 3.3 Προβλήματα Πολλών Κλάσεων 29 ΚΕΦΑΛΑΙΟ 4 Πειραματικά Αποτελέσματα 32 4.1 Περιγραφή του Υλοποιημένου Αλγόριθμου 32 4.2 Πειραματική διαδικασία 35 4.3 Αποτελέσματα σε προβλήματα δύο κλάσεων 37 4.4 Αποτελέσματα σε προβλήματα πολλών κλάσεων 80 ΚΕΦΑΛΑΙΟ 5 Συμπεράσματα 100 ΒΙΒΛΙΟΓΡΑΦΙΑ 103

3 ΠΕΡΙΛΗΨΗ Στην παρούσα εργασία ασχολούμαστε με την χρησιμότητα των Επαγωγικών Μηχανών Διανυσμάτων Στήριξης στην επίλυση προβλημάτων ταξινόμησης. Για την εξαγωγή συμπερασμάτων σχετικά με την λειτουργία τους, παρουσιάζουμε τα αποτελέσματα του αλγορίθμου που υλοποιήσαμε για την μέθοδο αυτή σε πληθώρα προβλημάτων, δύο και περισσοτέρων κλάσεων. Για την καλύτερη κατανόηση του θέματος, στα πρώτα κεφάλαια γίνεται η εισαγωγή στο πρόβλημα της ταξινόμησης και των Μηχανών Διανυσμάτων Στήριξης και περιγράφεται βήμα βήμα η λειτουργία του αλγορίθμου που υλοποιήθηκε και εφαρμόστηκε στα προβήματα που παρουσιάζονται στο κεφάλαιο 4. Αρχικά, στο κεφάλαιο 1 γίνεται η εισαγωγή στο πρόβλημα της ταξινόμησης και της χρησιμότητας των Μηχανών Διανυσμάτων Στήριξης για την επίλυσή του. Στο κεφάλαιο 2 παρουσιάζεται αναλυτικά η θεωρία των Μηχανών Διανυσμάτων Στήριξης, ενώ στο κεφάλαιο 3 επεκτείνεται η προηγούμενη θεωρία για την περίπτωση των Επαγωγικών Μηχανών Διανυσμάτων Στήριξης και εξηγείται η λειτουργία του αλγορίθμου που αναφέρεται στο [3] και ήταν η βάση και του αλγορίθμου που υλοποιήσαμε. Στην συνέχεια στο κεφάλαιο 4, στο πρώτο μέρος παρουσιάζεται ο αλγόριθμος που υλοποιήσαμε και η πειραματική διαδικασία που ακολουθήθηκε για την εξαγωγή των αποτελεσμάτων σε διάφορα προβλήματα ταξινόμησης. Στο δεύτερο μέρος του κεφαλαίο αυτού παρουσιάζονται αναλυτικά τα αποτελέσματα του αλγορίθμου σε 5 προβλήματα δύο κλάσεων και 4 προβλήματα πολλών κλάσεων μέσω πινάκων και γραφημάτων. Τέλος, στο κεφάλαιο 5 περιγράφονται τα συμπεράσματά μας από την υλοποίηση και χρήση των Επαγωγικών Μηχανών Διανυσμάτων Στήριξης και τα προβλήματα που αντιμετωπίσαμε.

4 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Η αναγνώριση προτύπων ή ταξινόμηση (classification) ορίζει μια κατηγορία προβλημάτων και αλγορίθμων στον γενικότερο τομέα της υπολογιστικής νοημοσύνης και της μηχανικής μάθησης. Αναφέρεται σε έναν συγκεκριμένο τύπο προβλημάτων που περιλαμβάνουν κάποια δείγματα τα οποία μπορεί να είναι στιγμιότυπα κάποιας διαδικασίας ή καταστάσεις ή περιγραφές κάποιων αντικειμένων κτλ, τα οποία είναι διαχωρισμένα σε κατηγορίες ομάδες πρότυπα που ονομάζονται κλάσεις. Ο στόχος των μεθόδων και των αλγόριθμων της αναγνώρισης προτύπων είναι να κατασκευαστεί ένα μοντέλο το οποίο θα έχει την ικανότητα, δοθέντος ενός δείγματος, να αναγνωρίζει σε ποια κλάση ανήκει. Το σημαντικότερο χαρακτηριστικό που πρέπει να έχει το μοντέλο είναι η ικανότητά του να γενικεύει. Αυτό σημαίνει ότι απαιτούμε από το μοντέλο να ταξινομεί σωστά ακόμα και δείγματα που δεν χρησιμοποιήθηκαν για την κατασκευή του. Αυτό απαιτεί φυσικά να υπάρχει κάποιας μορφής συσχέτιση ανάμεσα στα δείγματα που ανήκουν στην ίδια κλάση που θα τα διαχωρίζει από δείγματα που ανήκουν σε άλλες κλάσεις. Υπάρχουν τρεις κύριες προσεγγίσεις για την στρατηγική κατασκευής του μοντέλου. Η πρώτη προσέγγιση ονομάζεται supervised learning και χρησιμοποιεί για την κατασκευή ένα πλήθος δειγμάτων με γνωστή ετικέτα. Η δεύτερη ονομάζεται unsupervisedlearning, στην οποία επιχειρείται ο διαχωρισμός των δειγμάτων σε κλάσεις σύμφωνα με την στατιστική τους κατανομή. Η τρίτη ονομάζεται semi supervisedlearning, στην οποία επιχειρείται ένας συγκερασμός των δύο προηγούμενων μεθόδων. Στους αλγόριθμους supervised learning χρειάζεται αρχικά ένα πλήθος δειγμάτων με γνωστή την κλάση που ανήκουν (δείγματα εκπαίδευσης), από τα οποία ο αλγόριθμος εξάγει την πληροφορία που χρειάζεται ώστε να χτίσει το μοντέλο. Με βάση το μοντέλο αυτό μπορεί να γίνεται η ταξινόμηση και νέων,

5 άγνωστων από πριν δειγμάτων. Η λειτουργία ενός αλγόριθμου ταξινόμησης μπορεί να διακριθεί σε δύο φάσεις, οι οποίες μπορεί και να επικαλύπτονται. Η πρώτη λέγεται φάση της εκπαίδευσης και η δεύτερη φάση του ελέγχου. Κατά τη διαδικασία της εκπαίδευσης τα δείγματα κωδικοποιούνται ως διανύσματα για να είναι δυνατή η μαθηματική επίλυση του προβλήματος. Στη συνέχεια, τα δείγματα παρουσιάζονται στον αλγόριθμο ο οποίος κατασκευάζει μια μαθηματική περιγραφή ενός μοντέλου. Ο στόχος είναι το μοντέλο που θα δημιουργηθεί με βάση τα δεδομένα εκπαίδευσης, να κάνει ακριβείς προβλέψεις όταν δοθούν νέα, άγνωστα δείγματα στον αλγόριθμο, τα δείγματα ελέγχου (testing samples) x, και να βρεθούν οι σωστές ετικέτες y, δηλαδή να γίνει σωστή ταξινόμησή τους. Κατά την δημιουργία ενός τέτοιου αλγόριθμου, για να ελεγθεί η απόδοσή του, τα διαθέσιμα δεδομένα χωρίζονται σε δείγματα εκπαίδευσης (που αναφέρθηκαν παραπάνω) και σε δείγματα ελέγχου. Τα δείγματα ελέγχου δεν παρουσιάζονται στον αλγόριθμο κατά την δημιουργία του μοντέλου, αλλά χρησιμοποιούνται για να ελεγχθεί κατά πόσον το μοντέλο προβλέπει τις σωστές ετικέτες. Σε αυτή την εργασία πραγματευόμαστε μια κατηγορία αλγορίθμων που ονομάζονται Μηχανές Διανυσμάτων Στήριξης (Support Vector Machines) και πιο συγκεκριμένα μια επέκταση αυτών που ονομάζονται Επαγωγικές Μηχανές Διανυσμάτων Στήριξης (Transductive Support Vector Machines). Τα Support Vector Machines, ή SVMs για συντομία, αποτελούν μια οικογένεια αλγορίθμων που χρησιμοποιούνται για την επίλυση προβλημάτων ταξινόμησης και προβλημάτων προσέγγισης συνάρτησης (regression). Εδώ θα ασχοληθούμε με την πρώτη τους λειτουργία. Επίσης, στην βασική τους μορφή, ανήκουν στην κατηγορία των αλγόριθμων που εκτελούν supervised learning. Αντίθετα, η Επαγωγική Μηχανή Διανυσμάτων Στήριξης που αναπτύσσουμε σε αυτήν την εργασία ανήκει στην κατηγορία semi supervised learning. Η διαφορά των SVMs από άλλους αλγόριθμους ταξινόμησης έγκειται στο ότι βρίσκουν το βέλτιστο με στατιστική έννοια μοντέλο διαχωρισμού των κλάσεων αντί να βρουν ένα οποιοδήποτε μοντέλο. Ένα σοβαρό μειονέκτημα των supervised learning αλγορίθμων, που περιορίζει κάπως την χρησιμότητά τους σε πρακτικά προβλήματα, είναι το γεγονός

6 ότι χρειάζονται έναν ικανό αριθμό δειγμάτων για την εκπαίδευσή τους, δηλαδή για την δημιουργία του μοντέλου. Στον πραγματικό κόσμο, πολλές φορές, είναι δύσκολο να βρεθούν και να κατασκευαστούν αυτά τα δείγματα εκπαίδευσης και κυρίως να αντιστοιχηθούν σε ετικέτες αφού χρειάζεται να γίνει από τον χρήστη του συστήματος. Αντίθετα, δείγματα χωρίς ετικέτα συνήθως αφθονούν. Λόγω της δυσκολίας αυτής να βρεθούν δείγματα εκπαίδευσης, έχει αναπτυχθεί μια άλλη κατηγορία μεθόδων ταξινόμησης που ονομάζεται semi supervised learning. Οι αλγόριθμοι που ανήκουν σε αυτήν την κατηγορία χρησιμοποιούν την πληροφορία που περιέχεται στα δεδομένα με ετικέτα, αλλά επιπλέον χρησιμοποιούν και ό,τι πληροφορία μπορούν να εξάγουν από ένα πλήθος δειγμάτων χωρίς ετικέτα. Εκμεταλλεύονται δηλαδή την κατανομή αυτών των δειγμάτων για να βελτιώσουν τα μοντέλα που κατασκευάζουν. Έτσι καθίσταται δυνατό να κατασκευαστούν μοντέλα διαχωρισμού που προσεγγίζουν αυτά που θα κατασκευάζονταν αν ο αλγόριθμος γνώριζε όλες τις ετικέτες. Στην παρούσα εργασία επιχειρήσαμε την κατασκευή ενός semi supervised αλγόριθμου που χρησιμοποιεί σαν βασική μονάδα κατασκευής μοντέλων ένα SVM. Ο αλγόριθμος ονομάζεται TSVM (Transductive Support Vector Machine). Σαν βάση χρησιμοποιήσαμε τον αλγόριθμο που περιγράφεται στο [3]. Στο [3] ο αλγόριθμος χρησιμοποιείται για να λυθεί ένα πρόβλημα remote sensing με ικανοποιητικά αποτελέσματα. Στην εργασία μας υλοποιήσαμε τον αλγόριθμο και ελέγξαμε την απόδοσή του σε μια πληθώρα προβλημάτων για να ελεγθεί η ικανότητα γενίκευσής του. Κάναμε δοκιμές σε προβλήματα δύο κλάσεων, όπως επίσης και προβλήματα πολλών κλάσεων.

7 ΚΕΦΑΛΑΙΟ 2 Μηχανές Διανυσμάτων Στήριξης (Support Vector Machines) 2.1. Γραμμικές Μηχανές Διανυσμάτων Στήριξης Σε αυτήν την ενότητα παρουσιάζεται ο αλγόριθμος για την πιο απλή μορφή του προβλήματος ταξινόμησης και στις επόμενες παρουσιάζονται κατάλληλες γενικεύσεις ώστε ο αλγόριθμος να μπορεί να αντιμετωπίσει πιο σύνθετα προβλήματα. Η απλούστερη περίπτωση σε ένα πρόβλημα ταξινόμησης, όσον αφορά τον αριθμό των κλάσεων, είναι η ταξινόμηση σε δύο κλάσεις (binary classification) ενώ όσον αφορά τις ιδιότητες του μοντέλου, ο πιο απλός τρόπος διαχωρισμού είναι μέσω μιας γραμμικής εξίσωσης. Ακόμα πιο ειδικά, έστω ότι το πρόβλημα είναι διαχωρίσιμο. Υπάρχει δηλαδή κάποια γραμμική εξίσωση η οποία διαχωρίζει όλα τα δείγματα σωστά στις κλάσεις που ανήκουν. Στο σχήμα 2.1 φαίνεται ένα παράδειγμα δυαδικού προβλήματος που μπορεί να λυθεί με μια γραμμική εξίσωση και στο σχήμα 2.2 μια πιθανή λύση του. Σχήμα 2.1 Παράδειγμα ενός γραμμικού, διαχωρίσιμου προβλήματος ταξινόμησης.

8 Μαθηματικά, το πρόβλημα της ταξινόμησης μπορεί να κωδικοποιηθεί ως εξής: Δίνονται διανύσματα x i και σε κάθε διάνυσμα αντιστοιχίζεται μια ετικέτα που αντιπροσωπεύει την κλάση στην οποία ανήκει. Για παράδειγμα έστω ότι υπάρχουν δύο μόνο κλάσεις, με ετικέτες +1 και 1, τότε τα ζευγάρια (δείγμα,κλάση) θα έχουν τη μορφή: y i ( 1, 1),...( m, m) x y x y X {±1} (2.1) Έστω ότι το πρόβλημα ορίζεται σε κάποιο χώρο όπου έχει οριστεί το εσωτερικό γινόμενο, για παράδειγμα τον Ευκλείδιο. Τότε, η εξίσωση μιας γραμμικής εξίσωσης διαχωρισμού έχει την μορφή: f ( x) = ( w x) + b (2.2) η οποία ορίζει ένα επίπεδο σε αυτόν τον χώρο, όπως φαίνεται στο σχήμα 2.2. Σχήμα 2.2 Μια πιθανή λύση του προβλήματος στο σχήμα 2.1. Ο διαχωρισμός σε δύο κλάσεις γίνεται με βάση το πρόσημο της f ( x ), δηλαδή (στην περίπτωση που επιλέξαμε τις τιμές +1 και 1 για τις ετικέτες): ( w xi) + b> 0, yi = + 1 (2.3) ( w xi) + b< 0, yi = 1 (2.4)

9 ή y = sign(( w x) + b) (2.5) Η επιφάνεια που ορίζεται από την σχέση y = 0 ονομάζεται διαχωριστική επιφάνεια ή επίπεδο διαχωρισμού (separating hyperplane) και διαμερίζει τον χώρο σε δύο μέρη που αντιστοιχούν στις δύο κλάσεις. Το πρόσημο της εξίσωσης διαχωρισμού, συνάρτηση (2.5), εκφράζει σε ποιο από αυτά τα δύο μέρη βρίσκεται το δείγμα. Περιθώριο (margin): Κατά την κατασκευή ενός αλγορίθμου ταξινόμησης κάνουμε την υπόθεση ότι τα δείγματα που ανήκουν στην ίδια κλάση βρίσκονται πιο κοντά μεταξύ τους (με κάποιο μέτρο απόστασης στο χώρο που ανήκουν). Αυτό σημαίνει ότι προβλέπουμε ότι οι πιθανές θέσεις των νέων δειγμάτων, που θα παρουσιαστούν στο μοντέλο στη φάση του ελέγχου, θα δίνονται από κάποια στατιστική κατανομή που θα δίνει μεγαλύτερη πιθανότητα εμφάνισης κοντά στα υπόλοιπα δείγματα της κλάσης που ανήκουν και χαμηλότερη κοντά σε δείγματα άλλων κλάσεων. Η έννοια του περιθωρίου ορίζεται για να δοθεί ένα κριτήριο για την επιφάνεια διαχωρισμού που θα λαμβάνει υπ οψιν όσα αναφέρθηκαν παραπάνω. Ονομάζουμε d + την ελάχιστη απόσταση των δειγμάτων της κλάσης με ετικέτα y =+ 1 από την διαχωριστική επιφάνεια. Το d + δηλαδή εκφράζει την απόσταση ανάμεσα στην διαχωριστική επιφάνεια και στο δείγμα της κλάσης +1 που βρίσκεται πιο κοντά στην επιφάνεια. Αντίστοιχα προκύπτει και το d ως η ελάχιστη απόσταση ανάμεσα στην διαχωριστική επιφάνεια και την κλάση με ετικέτα y = 1. Τότε το περιθώριο ορίζεται ως το άθροισμα d + + d και είναι ένα μέτρο της εγγύτητας των δειγμάτων των δύο κλάσεων στον χώρο. Ο στόχος είναι να αυξήσουμε αυτήν την απόσταση όσο γίνεται περισσότερο ώστε να μειωθεί η πιθανότητα νέα δείγματα κάποιας κλάσης να βρεθούν στην άλλη πλευρά της διαχωριστικής επιφάνειας και να ταξινομηθούν λανθασμένα. Θέλουμε δηλαδή το περιθώριο να γίνει μέγιστο. Ο τρόπος που γίνεται αυτό θα φανεί παρακάτω.

10 Η συνθήκη διαχωρισμού που εκφράστηκε παραπάνω μπορεί να γίνει πιο αυστηρή ώστε να απαιτηθεί να ισχύουν οι σχέσεις: ( w xi) + b +1, yi = + 1 (2.6) ( w xi) + b 1, yi = 1 (2.7) (Αυτό είναι δυνατόν να επιτευχθεί με κατάλληλη επιλογή των w και b της εξίσωσης της διαχωριστικής επιφάνειας εφ όσον το πρόβλημα είναι γραμμικά διαχωρίσιμο.) Με βάση αυτές τις συνθήκες κατασκευάζεται το βέλτιστο επίπεδο διαχωρισμού. Θεωρώντας τα σημεία για τα οποία ισχύουν οι ισότητες στις παραπάνω εξισώσεις έχουμε τον ορισμό ακόμα δύο επιφανειών, εκατέρωθεν της επιφάνειας διαχωρισμού και παράλληλες με αυτήν, που δίνονται από τις εξισώσεις: ( w xi) + b=+1, yi =+ 1 (2.8) ( w xi) + b= 1, yi = 1 (2.9) Η κάθετη απόσταση της διαχωριστικής επιφάνειας από το 0 είναι b w. Ενώ η κάθετη απόσταση των επιφανειών που ορίζονται από τις παραπάνω ισότητες είναι αντίστοιχα 1 b w και 1 b, και εφ όσον (σύμφωνα με την επιλογή των w και b ) w τα σημεία των δύο κλάσεων που βρίσκονται εγγύτερα στην διαχωριστική επιφάνεια βρίσκονται ακριβώς πάνω σε αυτές τις επιφάνειες, το περιθώριο (margin) ισούται με 2 w. Παρατηρούμε από την τελευταία σχέση ότι το περιθώριο είναι αντιστρόφως ανάλογο του w. Με βάση τα παραπάνω μπορεί να οριστεί το πρόβλημα εύρεσης της βέλτιστης διαχωριστικής επιφάνειας σαν ένα πρόβλημα βελτιστοποίησης ως εξής:

11 1 2 Ελαχιστοποίησε ως προς w την: 2 w (2.10) υπό τις συνθήκες ( w xi) + b +1 για yi =+ 1, i ( w xi) + b 1 για yi = 1, i (Επιλέγεται η 1 2 2 w αντί του w για να διευκολυνθεί η επίλυση του προβλήματος.) Πολλαπλασιαστές Lagrange: Μπορούμε αρχικά να εκφράσουμε τις συνθήκες του προβλήματος βελτιστοποίησης (2.10) σαν ανισότητες με το 0 στην μία πλευρά, δηλαδή: ( w xi) + b 1 0 για yi = + 1, i (2.11) ( w xi) + b+ 1 0για yi = 1, i (2.12) ή yi(( w xi) + b) 1 0 (2.13) Τότε, από την θεωρία βελτιστοποίησης προκύπτει η Λαγκρανζιανή (Lagrangian) ως: 1 L w ay( w x + b) + a 2 l l 2 P i i i i (2.14) i= 1 i= 1 όπου a i είναι οι πολλαπλασιαστές Lagrange. Tο σχετικό πρόβλημα βελτιστοποίησης ορίζεται ως εξής: Ελαχιστοποίησε την: 1 L w ay( x w+ b) + a 2 l l 2 P i i i i (2.15) i= 1 i= 1 και ταυτόχρονα απαιτούμε να μηδενιστούν οι παράγωγοι της υπό την συνθήκη: ai 0. L P ως προς τα a i Η παραπάνω ονομάζεται κύρια μορφή του προβλήματος βελτιστοποίησης (primal form).

12 Δυαδική μορφή (dual form): Από την κύρια μορφή (2.15) μπορεί να οριστεί το λεγόμενο δυαδικό πρόβλημα. Η δυαδική μορφή είναι η εξής: Μεγιστοποίησε ως προς a i την: 1 L w ay x w b a l l 2 P i i( i + ) + i 2 i= 1 i= 1 απαιτώντας ταυτόχρονα να μηδενιστούν παράγωγοι της υπό την συνθήκη: ai 0 (2.16) L P ως προς τα w και b. Αυτός ο ορισμός του προβλήματος ονομάζεται και Wolfe dual και οι λύσεις του για τα w, b και a i είναι ίδιες με τις λύσεις που θα προέκυπταν αν είχε λυθεί το αρχικό πρόβλημα. Η απαίτηση να μηδενιστεί η παράγωγος της παρακάτω σχέσεις: L P ως προς τα w και b δίνει τις w = ayx i i i (2.17) i και ay i i= 0 (2.18) i Με αντικατάσταση των δύο τελευταίων σχέσεων στο δυαδικό πρόβλημα βελτιστοποίησης, αυτό παίρνει την εξής μορφή: Μεγιστοποίησε την: 1 LD ai aayy i j i j( xi xj) 2 (2.19) i i, j υπό την συνθήκη: ai 0 Στο δυαδικό πρόβλημα βελτιστοποίησης (2.19) φαίνεται ότι σε κάθε δείγμα εκπαίδευσης αντιστοιχίζεται ένας συντελεστής a i. Παρατηρούμε όμως ότι στο άθροισμα συνεισφέρουν μόνο δείγματα με a i > 0, ενώ για όσα ισχύει a i = 0 δεν συνεισφέρουν στο τελικό αποτέλεσμα. Τα δείγματα με a i > 0 ονομάζονται Διανύσματα Στήριξης (Support Vectors). Αυτά τα σημεία βρίσκονται εγγύτερα στην διαχωριστική επιφάνεια και είναι αυτά που καθορίζουν αποκλειστικά την μορφή της. Αυτό σημαίνει ότι τα δείγματα που δεν είναι support vectors ακόμα και αν

13 αφαιρεθούν ή αλλάξουν θέση, η διαχωριστική επιφάνεια που θα προκύψει θα είναι η ίδια. Μια τελευταία παρατήρηση είναι ότι αυτή η σχέση εξαρτάται μόνο από τα εσωτερικά γινόμενα ανάμεσα στα σημεία, κάτι που θα επιτρέψει στη συνέχεια να γενικευτεί ο αλγόριθμος για να μπορεί να χειριστεί και μη γραμμικά μοντέλα. Εύρεση της βέλτιστης επιφάνειας διαχωρισμού: Η διαδικασία κατασκευής της επιφάνειας διαχωρισμού είναι η λύση του τελευταίου προβλήματος βελτιστοποίησης (2.19) για την εύρεση των βέλτιστων συντελεστών του w. a i και η αντικατάστασή τους στη σχέση (2.17) για να προκύψει η τιμή Η τιμή του b προκύπτει από τις συνθήκες του αρχικού προβλήματος βελτιστοποίησης, δηλαδή τις: yi(( w xi) + b) 1 Στα support vectors, δηλαδή στα σημεία που βρίσκονται ακριβώς πάνω στις επιφάνειες του περιθωρίου, ισχύει η ισότητα, άρα: y (( w x ) + b) = 1 i i ( w x ) + b= i 1 y i 1 b= ( w x i ) (2.20) y i η οποία μπορεί να επιλυθεί για μια οποιαδήποτε τιμή του i που αντιστοιχεί σε support vector ή να λυθεί για πολλές τιμές του i και να υπολογιστεί ο μέσος όρος. Όσα λέχθηκαν παραπάνω αναφέρονται στην φάση της εκπαίδευσης του αλγορίθμου. Η πρόβλεψη της κλάσης ενός δείγματος γίνεται με βάση την συνάρτηση διαχωρισμού (2.5) που επαναλαμβάνεται παρακάτω: y = sgn(( w x) + b)

14 και ορίζουμε την συνάρτηση απόφασης, f ( x) = ( w x) + b (2.21) Αν αντικαταστήσουμε σε αυτήν, την τιμή που βρέθηκε για το w, έχουμε: i i i (2.22) i ( ) (, ) f x = a yk x x + b Γενικά, δεν είναι απαραίτητο να βρεθεί η ακριβής μορφή της διαχωριστικής επιφάνειας, μόνο οι συντελεστές a i. Στη συνέχεια, για την πρόβλεψη της κλάσης ενός δείγματος χρησιμοποιείται το πρόσημο της συνάρτησης απόφασης (2.22). Η συνάρτηση απόφασης (2.22) εκφράζει την βεβαιότητα με την οποία το δείγμα ανήκει στην κλάση. Στην συγκεκριμένη περίπτωση που το πρόβλημα είναι διαχωρίσιμο ισχύει: f ( x) 1 όπως όριζαν οι συνθήκες που τέθηκαν στο πρόβλημα βελτιστοποίησης. Αναλογία στη μηχανική: Για μια πιο διαισθητική αντίληψη της λειτουργίας του SVM μπορεί να κατασκευαστεί ένα πρόβλημα μηχανικής που θα έχει άμεση αναλογία με τον αλγόριθμο SVM. Έστω ότι η διαχωριστική επιφάνεια αποτελείται από ένα λεπτό φύλλο και το κάθε διάνυσμα στήριξης σπρώχνει αυτό το φύλλο με δύναμη: F i i i ^ = a y w (2.23) όπου το ^ w δηλώνει το μοναδιαίο διάνυσμα στην κατεύθυνση του w. Τότε η λύση (2.17) για το w ικανοποιεί τις συνθήκες για μηχανική ισσοροπία: Forces = a y w = 0 i i i ^ ^ ^ ^ Torques = s ( a y w) = w w = 0 i i i i για τις δυνάμεις και τις ροπές αντίστοιχα ( s i είναι τα διανύσματα στήριξης). Άρα βλέπουμε ότι αν θεωρήσουμε την αναλογία αυτή, η λύση του SVM, δηλαδή η

15 βέλτιστη διαχωριστική επιφάνεια βρίσκεται στο σημείο που θα ισορροπούσε ένα λεπτό φύλλο αν βρισκόταν υπό την επιρροή μηχανικών δυνάμεων της μορφής (2.23). Μια χρήσιμη παρατήρηση που προκύπτει είναι ότι διανύσματα με τιμή του συντελεστή a i = 0 δεν σπρώχνουν την διαχωριστική επιφάνεια, δηλαδή δεν την επηρεάζουν, όπως αναφέρθηκε και παραπάνω. Επίσης διανύσματα με την μεγαλύτερη τιμή για τον συντελεστή a σπρώχνουν περισσότερο την διαχωριστική επιφάνεια, δηλαδή είναι πιο σημαντικά στην διαμόρφωση του μοντέλου. Αυτή η αναλογία συνεχίζει να ισχύει και για την μη διαχωρισίμη μορφή, που θα παρουσιαστεί παρακάτω, αλλά και για την μη γραμμική μορφή του SVM. Ακολουθούν δύο γενικεύσεις που αποτελούν την δύναμη των SVMs και του επιτρέπουν να λύνει και γενικότερα προβλήματα από τα γραμμικά και διαχωρίσιμα. 2.2 Μη διαχωρίσιμη μορφή των Μηχανών Διανυσμάτων Στήριξης Η πρώτη γενίκευση αφορά την ικανότητα των SVMs να χειριστούν μη διαχωρίσιμα προβλήματα. Επιτρέπει επίσης να γίνει ένας συμβιβασμός ανάμεσα στην απόδοση του αλγορίθμου ως προς τον διαχωρισμό και στην ικανότητα του μοντέλου να γενικεύει καλά σε άγνωστα δείγματα. Αυτό γίνεται με την εισαγωγή κάποιων μεταβλητών που ονομάζονται μεταβλητές χαλαρότητας (slack variables) ξ i στις συνθήκες του προβλήματος βελτιστοποίησης ώστε να χαλαρώσουν οι περιορισμοί ως εξής: ( w xi) + b +1 ξ, i yi = + 1, i (2.24) ( w xi) + b 1+ξ, i yi = 1, i (2.25) ξi 0 Οι μεταβλητές ξ i εκφράζουν την θέση ενός δείγματος σε σχέση με την επιφάνεια διαχωρισμού και τα περιθώρια. Στην προηγούμενη ενότητα εκφράστηκε

16 η συνθήκη να βρίσκονται όλα τα δείγματα εκτός της περιοχής ανάμεσα στα περιθώρια. Τα ξ i είναι ένα μέτρο του βαθμού στον οποίο παραβιάζεται αυτή η συνθήκη. Σχήμα 2.3 Γεωμετρική ερμηνεία των παραμέτρων ξ i Για να ληφθούν υπ όψιν και τα ξ i στην συνάρτηση κόστους που δημιουργήθηκε παραπάνω, προστίθεται ένας επιπλέον όρος στην συνάρτηση βελτιστοποίησης (2.10) όπως φαίνεται παρακάτω: 1 2 w 2 i (2.26) i + C ξ όπου C είναι μια παράμετρος που ορίζει ο χρήστης και ορίζει πόσο βάρος θα δοθεί στα σφάλματα σε σχέση με την αύξηση του margin. Η μεταβλητή C λοιπόν εκφράζει σε ποιο βαθμό θα επιτρέπεται στα δείγματα να βρίσκονται εντός της περιοχής ανάμεσα στα όρια του περιθωρίου και πόσο βαθιά μέσα σε αυτήν την περιοχή, δηλαδή πόσο κοντά στην διαχωριστική επιφάνεια. Γενικά ισχύει ότι: μεγαλύτερο C > αυστηρότερος διαχωρισμός (λιγότερα σφάλματα λάθος ταξινομημένα δείγματα) μικρότερο C > πιο χαλαρός διαχωρισμός (περισσότερα σφάλματα λάθος ταξινομημένα δείγματα)

17 Στο δυαδικό πρόβλημα βελτιστοποίησης (2.19) οι μεταβλητές ξ i δεν εμφανίζονται στην εξίσωση της βελτιστοποίησης, εμφανίζεται όμως η παράμετρος C σαν άνω όριο στην τιμή των πολλαπλασσιαστών Lagrange a i, δηλαδή: 0 ai C Το τελικό πρόβλημα βελτιστοποίησης έχει την ίδια μορφή, εκφράζεται δηλαδή από την σχέση: 1 LD ai aayy i j i j( xi xj) 2 i i, j με τον περιορισμό 0 ai C. Αυτή η εκδοχή του αλγορίθμου ονομάζεται soft margin classifier, καθώς επιτρέπει δείγματα να βρίσκονται εντός της περιοχής ανάμεσα στην επιφάνεια διαχωρισμού και στις επιφάνειες που ορίζουν το περιθώριο (margin). Σε αντίθεση με τον hard margin classifier που ορίστηκε στην προηγούμενη ενότητα και δεν το επιτρέπει. Να σημειωθεί ότι όσο αυξάνεται η τιμή του συντελεστή C, η λειτουργία του soft margin classifier προσεγγίζει την λειτουργία του hard margin classifier. Τέλος, να αναφέρουμε ότι στον soft margin classifier η συνάρτηση απόφασης μπορεί να πάρει και τιμές μικρότερες της μονάδας. 2.3 Μη γραμμικές Μηχανές Διανυσμάτων Στήριξης Το επόμενο βήμα είναι να δοθεί στα SVMs η δυνατότητα να λειτουργήσουν και για την εύρεση μη γραμμικών επιφανειών διαχωρισμού. Αυτό γίνεται μέσω μιας τεχνικής, η οποία ονομάζεται kernel trick, και εντάσσει τα SVMs στην μεγαλύτερη κατηγορία των kernel machines. Η κύρια ιδέα πίσω από αυτήν την γενίκευση είναι η παρατήρηση ότι στο τελικό πρόβλημα βελτιστοποίησης τα δείγματα εμφανίζονται μόνο μέσω των μεταξύ τους εσωτερικών γινομένων.

18 Με απευθείας τρόπο μπορεί να αντικατασταθεί το εσωτερικό γινόμενο με κάποια άλλη συνάρτηση, δηλαδή κάποιον άλλο ορισμό της πράξης του εσωτερικού γινομένου, η οποία μπορεί να είναι μη γραμμική και θα προσδώσει αυτήν την ιδιότητα και στην διαχωριστική επιφάνεια. Οι συναρτήσεις που χρησιμοποιούνται για αυτό το σκοπό ονομάζονται συναρτήσεις πυρήνα (kernel functions). Η νέα μορφή της συνάρτησης βελτιστοποίησης φαίνεται παρακάτω: 1 L a aayyk x x 2 (2.27) D i i j i j ( i, j) i i, j που είναι όμοια με την εξίσωση (2.19) με μόνη διαφορά την προσθήκη της συνάρτησης K. Σχήμα 2.4: Γραφική απεικόνιση της χαρτογράφησης του χώρου L (αριστερά) στον χώρο H (δεξιά) Ερμηνεία της συνάρτησης K : Για μια γεωμετρική ερμηνεία του kernel trick θα πρέπει να διαχωρίσουμε ανάμεσα σε δύο γεωμετρικούς χώρους, τον αρχικό χώρο L στον οποίο βρίσκονται τα δεδομένα, και έναν άλλο χώρο H, στον οποίο έχει οριστεί η πράξη του εσωτερικού γινομένου (μεγαλύτερης συνήθως διάστασης από τον αρχικό). Η μέθοδος που ακολουθείται, για να αποκτήσει ο αλγόριθμος την ικανότητα κατασκευής μη γραμμικών επιπέδων διαχωρισμού, είναι η χαρτογράφηση των δειγμάτων του

19 προβλήματος από τον χώρο L στον χώρο H και η επίλυση του προβλήματος ταξινόμησης σε αυτόν τον χώρο με τον κλασσικό αλγόριθμο, άρα και η εύρεση ενός γραμμικού επιπέδου διαχωρισμού στον χώρο H. Το επίπεδο που θα προκύψει με την αντίστροφη χαρτογράφηση θα αντιστοιχεί σε ένα μη γραμμικό επίπεδο διαχωρισμού στον αρχικό χώρο. Αν ονομάσουμε Φ την συνάρτηση της χαρτογράφησης, τα μετασχηματισμένα δείγματα θα έχουν τη μορφή Φ ( xi). Έστω K το εσωτερικό γινόμενο στον χώρο H, τότε: K( xi, xj) = Φ( xi) Φ ( xj) (2.28) Εφ όσον όμως στο πρόβλημα τα δείγματα εμφανίζονται μόνο μέσω εσωτερικών γινομένων, δεν χρειάζεται ο απευθείας υπολογισμός της Φ αλλά μόνο ο υπολογισμός του K, υπό τη συνθήκη φυσικά να υπάρχει κάποια τέτοια συνάρτηση με αυτήν την ιδιότητα. Αυτή είναι η δύναμη του kernel trick, ότι παρέχει την διευκόλυνση να υπολογίζονται εσωτερικά γινόμενα σε χώρους πολλών, ενδεχομένως άπειρων, διαστάσεων χωρίς να απαιτείται ο απευθείας υπολογισμός της χαρτογράφησης. Για να μπορεί μια συνάρτηση να χρησιμοποιηθεί σαν συνάρτηση πυρήνα πρέπει να ισχύει μια συνθήκη που ονομάζεται Mercer s condition. Η συνθήκη έχει ως εξής: Mercer s condition: Υπάρχει χαρτογράφηση K( x, y) =Φ( x) Φ ( y) = Φ( x) Φ( y) αν και μόνο αν για κάθε gx ( ) όπου τότε K( x, y) g( x) g( y) dxdy 0 2 gx ( ) Οι συναρτήσεις που ικανοποιούν τον παραπάνω περιορισμό ονομάζονται και Mercer kernels. Έχει παρατηρηθεί ότι αρκετές φορές η χρήση συναρτήσεων πυρήνα που δεν ικανοποιούν την συνθήκη αυτή λειτουργεί ικανοποιητικά σε πολλά προβλήματα. < k k k

20 Παρακάτω φαίνονται οι κυριότερες συναρτήσεις πυρήνα που χρησιμοποιούνται: Ακτινική Συνάρτηση Βάσης (Radial Basis Function ή Gaussian kernel): 2 xi xj 2σ 2 e K( xi, xj) = (2.29) ή e γ 2 xi xj K( xi, xj) = (2.30) Πολυωνυμικός πυρήνας (Polynomial kernel): K( xi, xj) = ( xi xj+ 1) p (2.31) Σιγμοειδής πυρήνας (Hyperbolic Tangent (Sigmoid) kernel): K( xi, xj) = tanh( kxi xj δ ) (2.32) Η επιλογή της συνάρτησης πυρήνα που θα χρησιμοποιηθεί εξαρτάται από το πρόβλημα. Γενικά η συνάρτηση πυρήνα επιλέγεται μέσα από δοκιμές. Όταν δεν υπάρχει προηγούμενη πληροφορία για την στατιστική κατανομή των δεδομένων στο πρόβλημα επιλέγεται συνήθως η Ακτινική Συνάρτηση Βάσης σαν πυρήνας (2.29).

21 ΚΕΦΑΛΑΙΟ 3 Επαγωγικές Μηχανές Διανυσμάτων Στήριξης (Transductive Support Vector Machines) 3.1 Εισαγωγή Η Επαγωγική Μηχανή Διανυσμάτων Στήριξης (TSVM) είναι ένας επαναληπτικός αλγόριθμος για τον διαχωρισμό των δειγμάτων δύο κλάσεων με semi supervised εκμάθηση. Αυτό σημαίνει ότι για την κατασκευή της διαχωριστικής επιφάνειας χρησιμοποιούνται τόσο δεδομένα με γνωστές τις ετικέτες τους (labeled δεδομένα) όσο και δεδομένα χωρίς ετικέτες (unlabeled δεδομένα). Η βασική φιλοσοφία του TSVM είναι η κατασκευή ενός αρχικού μοντέλου με τα labeled δείγματα και η σταδιακή τροποποίηση αυτής της επιφάνειας με βάση τις προβλεφθείσες ετικέτες των unlabeled δειγμάτων. Έτσι, αρχικά κατασκευάζεται η διαχωριστική επιφάνεια με βάση μόνο τα labeled δεδομένα (όπως θα γινόταν και με βάση το κλασσικό SVM) και στην συνέχεια, χρησιμοποιώντας το μοντέλο αυτό εκτιμώνται οι ετικέτες των unlabeled δεδομένων και επιλέγονται αυτά τα δείγματα (patterns) που θεωρούμε ότι περιέχουν την περισσότερη πληροφορία αλλά και συνάμα έχουν ακριβέστερες προβλεφθείσες ετικέτες. Ακολούθως, τα παραπάνω επιλεχθέντα δείγματα (semi labeled δείγματα) ενσωματώνονται στο σύνολο των labeled δεδομένων και με αυτόν τον τρόπο κατασκευάζεται το νέο σύνολο για την εκπαίδευση του επόμενου μοντέλου. Η παραπάνω διαδικασία εκτελείται επαναληπτικά έως ότου εκτελεστεί ένας προκαθορισμένος αριθμός επαναλήψεων ή δεν υπάρχουν άλλα διαθέσιμα unlabeled δείγματα για εισαγωγή. Τα νέα δείγματα που αφαιρούνται από το σύνολο των unlabeled και προστίθενται στο σύνολο των labeled ονομάζονται semi labeled δείγματα καθώς έχουν μεν ετικέτα αλλά αυτή η ετικέτα δεν είναι βέβαιο ότι είναι η σωστή.

22 Η βέλτιστη διαχωριστική επιφάνεια, με την έννοια που ορίστηκε στο κεφάλαιο 2, αυτή δηλαδή που έχει την μέγιστη απόσταση και από τις δύο κλάσεις, βρίσκεται λύνοντας το παρακάτω πρόβλημα βελτιστοποίησης: ( ( 1 )) * n d * * 1 2 * * ϕ w y,..., yd = min w + C ξl + C ξu w, ξ l, ξ u 2 l= 1 u= 1 n T υπό τις συνθήκες φ( ) : 1, 0 l 1 y = l w xl + b ξl ξl > ( ) = + > d : * T * 1 *, * 0 u 1 yu w φ xu b ξ ξ u u (3.1) όπου ξ, ξ * είναι οι μεταβλητές χαλαρότητας και C, C * οι ποινές του soft margin classifier για τα δείγματα των labeled και των semi labeled δεδομένων αντίστοιχα. Οι παράμετροι ποινής εκφράζουν την βαρύτητα που δίνει ο αλγόριθμος για την σωστή ταξινόμηση των αντίστοιχων δειγμάτων, και γενικά όσο μεγαλύτερη είναι η τιμή της παραμέτρου ποινής, τόσο μεγαλύτερη η επιρροή τους στο επίπεδο διαχωρισμού. Το πλήθος των labeled δεδομένων είναι n, των unlabeled m και των semi labeled d, και ισχύει d m. Το παραπάνω σύστημα απλοποιείται στο εξής, με χρήση του θεωρήματος Lagrange (κατά αντιστοιχία με την περίπτωση του κλασσικού SVM): n d n n 1 L aa y a a k x x yyaa * * * Μεγιστοποίησε την: (,, ) = + (, ) l u l i l i l i l= 1 u= 1 2 l= 1 i= 1 n d d d * * * * * * * * * k( xl xu) ylyuaa l u k( xu xj) yuyjauaj (3.2) + 2, +, l= 1 u= 1 u= 1 j= 1 υπό τις συνθήκες 0 a C,1 l n l * * 0 u,1 a C u d n d * * ya l l ya u u l= 1 u= 1 + = 0 Κατόπιν, έχοντας λύσει το παραπάνω σύστημα και έχοντας βρει τις τιμές των πολλαπλασιαστών Lagrange a l και * a u, δύναται να βρεθεί το μοντέλο διαχωρισμού. Η συνάρτηση απόφασης στην περίπτωση του TSVM δίνεται από τη σχέση 3.3:

23 n d ( ) = (, ) * * (, * l l l + u u u) + (3.3) f x a yk x x a y k x x b l= 1 u= 1 που έχει την ίδια μορφή με την (2.22) που ισχύει για το κλασσικό SVM με την μόνη διαφορά ότι έχουν διαχωριστεί τα αθροίσματα για τα labeled και τα semi labeled δείγματα. Τέλος, με βάση την παραπάνω εξίσωση, εύκολα προκύπτει η συνάρτηση απόφασης για την κλάση στην οποία ανήκουν τα δείγματα και η οποία είναι η ακόλουθη, όπως και στον κλασσικό SVM: ( ) sgn ( ) y x = f x (3.4) όπου η f ( x ) εκφράζεται από την (3.3) και το πρόσημο της υποδηλώνει σε ποια περιοχή του χώρου βρίσκεται το δείγμα υπό εξέταση από τις δύο στις οποίες διαμερίζεται από την διαχωριστική επιφάνεια. 3.2 Αλγόριθμος Δυαδικά προβλήματα Ο αλγόριθμος για την επίλυση δυαδικών προβλημάτων (δηλαδή προβλήματα δύο κλάσεων, binary) βασίζεται στην θεωρία που περιγράφηκε στην προηγούμενη παράγραφο. Το σημαντικότερο τμήμα του αλγορίθμου αυτού είναι τα κριτήρια που θα χρησιμοποιηθούν για την επιλογή των unlabeled δειγμάτων που θα ενσωματωθούν στο σύνολο εκπαίδευσης και πόσα θα είναι αυτά. Επίσης, μια σημαντική παράμετρος είναι το πως αυτά τα νέα δείγματα θα ενσωματωθούν στο σύνολο αυτό, δηλαδή η τιμή που θα έχει η παράμετρος ποινής C * για αυτά (από θεωρητική σκοπιά, η ποινή για αυτά τα δείγματα πρέπει να είναι μικρότερη από αυτή των labeled, επειδή είναι αβέβαια και για τον λόγο αυτό πρέπει να έχουν μικρότερη επιρροή στην διαμόρφωση της διαχωριστικής επιφάνειας). Παρακάτω θα αναλυθεί ξεχωριστά κάθε κομμάτι του αλγορίθμου TSVM.