Εκμάθηση διαχωριστικών λεξιλογίων για άθροιση τοπικών χαρακτηριστικών

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ (ΕΠΥ) Εκμάθηση διαχωριστικών λεξιλογίων για άθροιση τοπικών χαρακτηριστικών Διπλωματική εργασία Καθαρόπουλος Άγγελος Αριθμός Ειδικού Μητρώου: 6934 Επιβλέπων: Αναπληρωτής Καθηγητής κ. Ντελόπουλος Αναστάσιος Θεσσαλονίκη, 15 Νοεμβρίου 2015

2

3 Aristotle University of Thessaloniki Department of Electrical and Computer Engineering Information Processing Laboratory Learning discriminative codebooks for local feature aggregation Angelos Katharopoulos Abstract This thesis proposes new methods for learning a discriminative codebook for the aggregation of local features in multimedia classification problems. In particular, we study the composition of Kernel Codebook with generalized linear models or alternatively the cost function of a Sparse Autoencoder in order to transform the codebook learning problem to a cost function minimization problem. It is shown that the proposed methods improve the classification results considerably compared to codebooks learned with K-Means and even improve upon the state of the art methods in certain datasets.

4 Περίληψη Στην προσπάθεια βελτίωσης της ταξινόμησης πολυμέσων αυτή η διπλωματική προτείνει τη χρήση νέων μεθόδων εκμάθησης ενός διαχωριστικού λεξιλογίου για την άθροιση τοπικών χαρακτηριστικών. Συγκεκριμένα προτείνει τη σύνθεση του Kernel Codebook με γραμμικούς ταξινομητές ή εναλλακτικά με τη συνάρτηση κόστους ενός Sparse Autoencoder για τη μετατροπή του προβλήματος εύρεσης λεξιλογίου σε σύνηθες πρόβλημα ελαχιστοποίησης. Δείχνεται ότι οι μέθοδοι που προτείνονται βελτιώνουν αισθητά τα λεξιλόγια που παράγονται με τον πιο διαδεδομένο αλγόριθμο ομαδοποίησης (K-Means) και σαν αποτέλεσμα το Kernel Codebook ξεπερνάει σε ακρίβεια ταξινόμησης τις μεθόδους της βιβλιογραφίας.

5 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον κ. Ντελόπουλο για την εμπιστοσύνη που μου έδειξε στην ανάθεση του θέματος και για τις συζητήσεις που με εισήγαγαν στο χώρο των πολυμέσων. Επίσης, θα ήθελα να ευχαριστήσω τον Χρήστο Δίου, επειδή ήταν πάντα διαθέσιμος για συνάντηση ακόμη και το καλοκαίρι, για τις ιδέες του και τη συμπαράστασή του. Επιπλέον θα ήθελα να ευχαριστήσω τον πτυχιούχο φίλο μου Τόλη για το template στο L A T E X αλλά και την πίεση να τελειώνω τη διπλωματική το συντομότερο δυνατόν. Τελευταίο, αλλά σημαντικότερο, θα ήθελα να ευχαριστήσω την Δέσποινα, που ήταν η βασική αιτία που κατάφερα να θυσιάσω ένα Ελληνικό καλοκαίρι διαβάζοντας και δουλεύοντας για να τελειώσει αυτή τη χρονιά η συγκεκριμένη εργασία.

6 Περιεχόμενα 1 Εισαγωγή Ταξινόμηση πολυμέσων Τοπικά χαρακτηριστικά SIFT Improved Dense Trajectories Ολικά χαρακτηριστικά Άθροιση τοπικών χαρακτηριστικών Δομή εργασίας Συναρτήσεις άθροισης τοπικών χαρακτηριστικών (ΣΑΤΧ) Bag of Words Fisher Vectors Kernel Codebook Sparse Coding Εκμάθηση παραμέτρων ΣΑΤΧ χωρίς επίβλεψη Αλγόριθμοι Ομαδοποίησης Sparse Coding Sparse Autoencoders Kernel Codebook και Sparse Autoencoder Υπολογισμός της παραγώγου Αλγόριθμος εκμάθησης παραμέτρων Αποτελέσματα σε τεχνητά δεδομένα Εκμάθηση παραμέτρων ΣΑΤΧ με επίβλεψη Σύνθεση ΣΑΤΧ με ταξινομητή Σύνθεση Kernel Codebook με γραμμικό ταξινομητή Σύνθεση με SVM Σύνθεση με Multinomial Logistic Regression Προσθήκη ποινής αραιότητας στη συνάρτηση κόστους Εκμάθηση λεξιλογίων σε συνθετικά δεδομένα Με επίβλεψη και χωρίς επίβλεψη Επίδραση των παραμέτρων στο λεξιλόγιο Πειράματα Πειραματική διάταξη Τοπικά χαρακτηριστικά SIFT Improved Dense Trajectories Ολικά χαρακτηριστικά Bag of Words Fisher Vectors Εκμάθηση ΣΑΤΧ με επίβλεψη i

7 5.1.3 Ταξινομητές Μετρικές απόδοσης Ακρίβεια ταξινόμησης Ακρίβεια κατάταξης Caltech Μέθοδος εκμάθησης παραμέτρων ΣΑΤΧ με επίβλεψη Sparse autoencoder με Kernel Codebook Σύγκριση μεθόδων και state-of-the-art Σύγκριση με K-Means Σύγκριση με Bag of Words και Fisher Vectors Συνεισφορά και μελλοντική εργασία Συνεισφορά Ακρίβεια Μέγεθος αναπαράστασης Μελλοντική εργασία ii

8 Κατάλογος σχημάτων 1.1 Επισκόπηση της ταξινόμησης πολυμέσων Υπολογισμός του SIFT descriptor από τις παραγώγους της εικόνας γύρω από ένα σημείο ενδιαφέροντος Η κβάντιση του χώρου με την συνάρτηση Bag of Words Τα προβλήματα που δημιουργούνται με την διαμέριση του χώρου από το Bag of Words που προσπαθεί να επιλύσει το KCB (σημεία που συμβολίζονται με τετράγωνο και τρίγωνο) Συνθετικό dataset για σύγκριση του sparse autoencoder με τον K-Means Σύγκριση των λεξιλογίων μεταξύ K-Means και sparse autoencoder σε ένα συνθετικό dataset Σύγκριση λεξιλογίων 20 λέξεων μεταξύ K-Means και sparse autoencoder σε συνθετικά dataset Εκμάθηση λεξιλογίων διαφορετικού μεγέθους με Autoencoder και με επίβλεψη Σύγκριση των λεξιλογίων που παράγονται για συνθετικά δεδομένα από μεθόδους με και χωρίς επίβλεψη Οι πρώτες 3 διαστάσεις του iris dataset Παράδειγμα overfitting αναφορικά με την παράμετρο C Λεξιλόγια με ποινή αραιότητας και χωρίς Λεξιλόγια για διάφορες τιμές της παραμέτρου γ τυχαίες εικόνες του Caltech Εξέλιξη της προπόνησης για εκμάθηση 50 και 1000 λέξεων στο πρώτο υποσύνολο του Caltech Η ακρίβεια ταξινόμησης με λεξιλόγιο μεθόδου με επίβλεψη για το πρώτο υποσύνολο του Caltech Εξέλιξη της προπόνησης με Sparse Autoencoder για το πρώτο υποσύνολο και α = Ακρίβεια ταξινόμησης για ως προς τις παραμέτρους γ και α για λεξιλόγιο 100 λέξεων Ακρίβεια ταξινόμησης με Kernel Codebook και διαφορετικές μεθόδους εύρεσης λεξιλογίου αναφορικά με το μέγεθος του λεξιλογίου Μέσος όρος των διαφορών των ακριβειών ταξινόμησης μεταξύ του K-Means και της μεθόδου με επίβλεψη (θετικά σημαίνει η μέθοδός μας είναι καλύτερη) Διαφορές των ακριβειών ταξινόμησης μεταξύ του K-Means και της μεθόδου με επίβλεψη για το τρίτο σύνολο δεδομένων (θετικά σημαίνει η μέθοδος μας είναι καλύτερη) Σύγκριση του Bag of Words με το Kernel Codebook χρησιμοποιώντας όλες τις μεθόδους εκμάθησης λεξιλογίου Σύγκριση της ακρίβειας ταξινόμησης όλων των ΣΑΤΧ iii

9 5.11Σύγκριση της ακρίβειας κατάταξης όλων των ΣΑΤΧ iv

10 Κατάλογος πινάκων 3.1 Συγκριτικά αποτελέσματα του KCB με sparse autoencoder σε συνθετικό dataset Συγκριτικά αποτελέσματα όλων των μεθόδων εύρεσης λεξιλογίου στο iris dataset με τις βέλτιστες παραμέτρους τους Παράμετροι για την εξαγωγή SIFT χαρακτηριστικών με την OpenCV Παράμετροι για την εξαγωγή των Improved Dense Trajectories Παράμετροι του αλγορίθμου εκμάθησης παραμέτρων ΣΑΤΧ με επίβλεψη Ακρίβεια ταξινόμησης στα 3 υποσύνολα του Caltech 101 επιλέγοντας το γ που βελτιστοποιεί την ακρίβεια ταξινόμησης του συνόλου εκτίμησης Ακρίβεια ταξινόμησης στα 3 υποσύνολα του Caltech 101 με το γ στο οποίο έγινε προπόνηση Οι τιμές των παραμέτρων του αλγορίθμου εκμάθησης λεξιλογίου με Sparse Autoencoder Ακρίβεια ταξινόμησης στα υποσύνολα του Caltech 101 με Sparse Autoencoder και Kernel Codebook v

11 Κατάλογος συμβόλων F N F F i N Fi f ij y i R Θ ( ) T Θ ( ) θ k a b σύνολο τοπικών χαρακτηριστικών από όλα τα δείγματα πλήθος τοπικών χαρακτηριστικών του συνόλου F σύνολο τοπικών χαρακτηριστικών από το δείγμα i πλήθος τοπικών χαρακτηριστικών του δείγματος i j-οστό διάνυσμα τοπικών χαρακτηριστικών από το δείγμα i κατηγορία στην οποία ανήκει το δείγμα i γενικευμένη συνάρτηση δημιουργίας ολικών χαρακτηριστικών από τοπικά με παραμέτρους Θ συνάρτηση μετασχηματισμού ενός διανύσματων τοπικών χαρακτηριστικών σε έναν άλλο χώρο η λέξη k όταν το Θ αναφέρεται σε λεξιλόγιο το Hadamard γινόμενο μεταξύ των a και b (δηλαδή το γινόμενο των στοιχείων τους) ( ) k το i-οστό στοιχείο ενός διανύσματος L P (x i, y i ) η συνάρτηση κόστους ενός ταξινομητή με παραμέτρους P για το δείγμα i p i L w,b (p i, y i ) η πρόβλεψη ενός γενικευμένου γραμμικού ταξινομητή, πάντα p i = w T x i + b η συνάρτηση κοστους ενός γενικευμένου γραμμικού ταξινομητή vi

12 Κεφάλαιο 1 Εισαγωγή Στις μέρες μας ο αριθμός εικόνων και βίντεο που παράγονται αυξάνεται εκθετικά, από συσκευές δημόσιας παρακολούθησης μέχρι τα προσωπικά βίντεο που παράγονται από τις έξυπνες φορητές συσκευές μας. Ο όγκος των δεδομένων κάνει την αυτόματη ανάλυση και κατηγοριοποίηση τους απαραίτητη. Η διαδικασία αυτόματης κατηγοριοποίησης εικόνων και βίντεο από τον υπολογιστή λέγεται ταξινόμηση πολυμέσων και είναι γενικά ένα περίπλοκο και άλυτο, μέχρι στιγμής, πρόβλημα τμήμα του οποίου θα μελετηθεί στην παρούσα διπλωματική. 1.1 Ταξινόμηση πολυμέσων Τα μοντέρνα συστήματα ταξινόμησης πολυμέσων (είτε εικόνας είτε βίντεο) αποτελούνται από κάποια σημαντικά και ανεξάρτητα τμήματα [17, 24, 9]. Αναφορικά, τα τμήματα αυτά είναι η εξαγωγή τοπικών χαρακτηριστικών διανυσμάτων από τα δεδομένα, η δημιουργία ενός χαρακτηριστικού διανύσματος από τα τοπικά και στη συνέχεια η ταξινόμηση των δεδομένων βάση του ολικού χαρακτηριστικού διανύσματος. 1.2 Τοπικά χαρακτηριστικά Τα τοπικά χαρακτηριστικά αναφέρονται σε κάποιο περιεχόμενο ή μία δομή, η οποία βρίσκεται σε ένα σημείο της εικόνας ή του βίντεο. Παραδείγματα τέτοιων δομών εί- 1

13 ΤΟΠΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Σχήμα 1.1: Επισκόπηση της ταξινόμησης πολυμέσων ναι μία γωνία, μία ακμή, ένα πλακίδιο ή ένα κυβίδιο (θεωρώντας το βίντεο ως τρισδιάστατη εικόνα). Για κάθε μία από τις παραπάνω δομές δημιουργείται ένα διάνυσμα σταθερού μήκους που περιγράφει αυτή τη δομή (το διάνυσμα αυτό λέγεται περιγραφέας ή descriptor). Τα τοπικά χαρακτηριστικά περιγράφουν το οπτικό περιεχόμενο συγκεκριμένων σημείων των εικόνων ή των βίντεο ανεξάρτητα από το υπόλοιπο περιεχόμενο. Σαν αποτέλεσμα, για παράδειγμα, όταν ένα αντικείμενο εμφανιστεί μπροστά σε άλλο φόντο η πληροφορία για την εμφάνισή του διατηρείται. Για το λόγο αυτό είναι επιθυμητό τα τοπικά χαρακτηριστικά και οι περιγραφείς τους να παραμένουν αμετάβλητα σε αλλαγές φωτεινότητας, κλίμακας, θέσης και περιστροφής. Στην παρούσα διπλωματική χρησιμοποιούνται τα καλύτερα, σύμφωνα με τη βιβλιογραφία, τοπικά χαρακτηριστικά χωρίς να γίνεται κάποια προσπάθεια βελτίωσής τους. Τα χαρακτηριστικά αυτά είναι τα SIFT για εικόνες και τα Improved Dense Trajectories για βίντεο.

14 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ SIFT Τα SIFT δημιουργήθηκαν το 1999 από τον D. Lowe [13] με σκοπό τη δημιουργία χαρακτηριστικών, που παραμένουν αμετάβλητα σε ότι αφορά την κλίμακα της εικόνας (scale invariant). Η δομή που αναζητείται και στη συνέχεια περιγράφεται από τα SIFT είναι γωνίες. Τα τοπικά αυτά χαρακτηριστικά αρχικά δημιουργήθηκαν για ασπρόμαυρες εικόνες, ενώ στη συνέχεια προτάθηκαν κάποιες επεκτάσεις που χρησιμοποιούν και την πληροφορία χρώματος [1]. Για να υπολογιστούν χαρακτηριστικά ανεξάρτητα της κλίμακας υπολογίζονται (για την ακρίβεια προσεγγίζονται σύμφωνα με την εξίσωση 1-1) αρχικά οι λαπλασσιανές της εικόνας φιλτραρισμένης από Gaussian φίλτρα διαφόρων σ. LoG σ (x, y) = 2 (I(x, y) G σ (x, y)) ( ) = 2 G σ (x, y) I(x, y) (G σ1 (x, y) G σ2 (x, y)) I(x, y) (1-1) Στη συνέχεια αναζητούνται ακρότατα στον χώρο (x, y, σ) τα οποία είναι και τα σημεία ενδιαφέροντος που θα περιγραφούν από τον descriptor των SIFT. Αφού φιλτραριστούν τα σημεία ενδιαφέροντος, ώστε να μην περιέχουν απλές ακμές ή άλλα προβληματικά σημεία, υπολογίζεται ο προσανατολισμός του σημείου χρησιμοποιώντας τις μερικές παραγώγους της εικόνας στο σημείο (x, y, σ). Για κάθε σημείο (x, y, σ) και τον αντίστοιχο προσανατολισμό του παράγεται ένας descriptor. Για την δημιουργία του descriptor υπολογίζονται αρχικά οι τιμές της παραγώγου της εικόνας σε μία περιοχή γύρω από το σημείο ενδιαφέροντος και βαρύνονται με ένα Gaussian παράθυρο. Κάθε μία τιμή παραγώγου αθροίζεται σε έναν αριθμό από ιστογράμματα προσανατολισμού τα οποία στη συνέχεια αποτελούν τον descriptor. Τα τοπικά χαρακτηριστικά, που προκύπτουν από την παραπάνω διαδικασία παραμένουν αμετάβλητα αναφορικά με την κλίμακα της εικόνας, την περιστροφή, την μεταφορά και τις αλλαγές στη φωτεινότητα Improved Dense Trajectories Όπως και στις εικόνες, η αναζήτηση για τοπικά χαρακτηριστικά σε βίντεο αρχικά εστιάστηκε στην εύρεση σημείων ενδιαφέροντος στον τρισδιάστατο χώρο που δημιουργείται

15 ΤΟΠΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ Σχήμα 1.2: Υπολογισμός του SIFT descriptor από τις παραγώγους της εικόνας γύρω από ένα σημείο ενδιαφέροντος λαμβάνοντας υπόψη την διάσταση του χρόνου [11, 20]. Εξαιτίας των πολύ διαφορετικών χαρακτηριστικών του διδιάστατου χώρου των εικόνων και του μονοδιάστατου χρόνου η έρευνα εστίασε στην παρακολούθηση διδιάστατων σημείων ενδιαφέροντος μεταξύ καρέ του βίντεο. Πειράματα με τα Dense Trajectories [22] δείχνουν ότι η παρακολούθηση πολλών σημείων σε ένα πυκνό πλέγμα κάθε εικόνας δημιουργεί χαρακτηριστικά, που περιγράφουν καλύτερα τα γεγονότα τα οποία λαμβάνουν χώρα σε ένα βίντεο. Για την δημιουργία των Dense Trajectories δειγματοληπτούνται σημεία σε ένα πυκνό πλέγμα βήματος W από πολλές διαφορετικές χωρικές κλίμακες. Τα σημεία αυτά παρακολουθούνται σε κάθε κλίμακα ξεχωριστά. Κάθε σημείο P t = (x t, y t ) στην t-οστή εικόνα του βίντεο παρακολουθείται στην επόμενη χρησιμοποιώντας ένα πυκνό πεδίο οπτικής ροής (optical flow) ω = (u t, v t ) σύμφωνα με την σχέση 1-2. P t+1 = (x t+1, y t+1 ) = (x t, y t ) + (M ω) ( xt,ȳ t ) (1-2) Στην 1-2 ( x t, ȳ t ) είναι το σημείο στρογγυλοποιημένο στα pixel της εικόνας και M είναι ένα φίλτρο εύρεσης του διαμέσου. Η τροχιά αποτελείται από τα (P t, P t+1, P t+2,... ) και περιορίζεται αυθαίρετα σε ένα μήκος L.

16 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ 5 Για κάθε τροχιά δημιουργούνται τέσσερις διαφορετικοί descriptors. Ο πιο απλός από όλους ονομάζεται Trajectory και περιγράφει την τροχιά χρησιμοποιώντας τις κανονικοποιημένες μετατοπίσεις των σημείων σύμφωνα με την σχέση 1-3. P t = P t+1 P t = (x t+1 x t, y t+1 y t ) S = ( P t,..., P L 1 ) t+l 1 j=1 P j (1-3) Οι υπόλοιποι τρεις βασίζονται στην περιγραφή του περιεχομένου της εικόνας ή της κίνησης σε ένα συγκεκριμένο όγκο γύρω από την τροχιά. Ο HOG (Histograms of Oriented Gradients) περιγράφει το περιεχόμενο με τον ίδιο τρόπο που το περιγράφει και ο SIFT, χρησιμοποιώντας δηλαδή τις τιμές της παραγώγου της εικόνας γύρω από ένα σημείο. Οι HOF (Histograms of Optical Flow) και MBH (Motion Boundary Histograms) περιγράφουν την κίνηση. Ο HOF δημιουργεί ιστογράμματα για τα διανύσματα του πεδίου optical flow όπως ο HOG για τα διανύσματα των παραγώγων. Ο descriptor MBH εκτελεί την ίδια διαδικασία με τον HOG αλλά οι παράγωγοι δεν είναι στο χωρικό σήμα της εικόνας αλλά στο χωρικό σήμα του πεδίου του optical flow αφού πρώτα έχει χωριστεί στις x και y συνιστώσες του. Στο [23] οι Wang και Schmid παρουσιάζουν μία βελτίωση των Dense Trajectories που την ονομάζουν Improved Dense Trajectories (στο εξής IDENSE). Στα IDENSE υπολογίζεται για κάθε εικόνα του βίντεο ένα σύνολο από SURF descriptors και ταιριάζεται κάθε ένας από αυτούς με κάποιον από την διαδοχική εικόνα, δημιουργώντας έτσι διανύσματα κίνησης. Πέρα από αυτά τα διανύσματα χρησιμοποιούνται και τα διανύσματα του optical flow που υπολογίζονται ούτως ή άλλως για την εξαγωγή των χαρακτηριστικών. Στη συνέχεια το σύνολο αυτών των διανυσμάτων κίνησης φιλτράρεται σύμφωνα με τα αποτελέσματα ενός ανιχνευτή ανθρώπων, καθώς θεωρείται, ότι οι άνθρωποι δεν ανήκουν στο φόντο. Τέλος, με το παραπάνω σύνολο και τον αλγόριθμο RANSAC προσεγγίζεται η κίνηση της κάμερας με τρόπο ανθεκτικό στις εξωκείμενες τιμές. Η κίνηση αυτή αφαιρείται από το πεδίο του optical flow και χρησιμοποιείται για την αφαίρεση παρόμοιων τροχιών, κάνοντας έτσι τα χαρακτηριστικά πιο χρήσιμα για την αναγνώριση συμβάντων σε βίντεο.

17 ΟΛΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ 1.3 Ολικά χαρακτηριστικά Το διάνυσμα ολικών χαρακτηριστικών είναι ένα διάνυσμα σταθερής διάστασης το οποίο αφορά και περιγράφει ολόκληρο το βίντεο / την εικόνα. Στο πρόβλημα της ανάκτησης πολυμέσων τα ολικά χαρακτηριστικά απλοποιούν τον υπολογισμό απόστασης ή ομοιότητας, ενώ το πρόβλημα της ταξινόμησης πολυμέσων μετατρέπεται σε ένα συνηθισμένο πρόβλημα ταξινόμησης ν-διάστατων διανυσμάτων στο οποίο μπορούν να χρησιμοποιηθούν πρακτικά όλοι οι υπάρχοντες ταξινομητές. Οι τρόποι εξαγωγής ολικών χαρακτηριστικών χωρίζονται σε δύο μεγάλες κατηγορίες, την εξαγωγή ολικών χαρακτηριστικών απ ευθείας από τα δεδομένα και την άθροιση των τοπικών χαρακτηριστικών. Τα συνελικτικά νευρωνικά δίκτυα [10], τα οποία χρησιμοποιούνται ευρέως τα τελευταία χρόνια, αποτελούν ένα ενδεικτικό παράδειγμα της πρώτης κατηγορίας. Η δεύτερη κατηγορία είναι το αντικείμενο μελέτης αυτής της διπλωματικής. 1.4 Άθροιση τοπικών χαρακτηριστικών Το πρόβλημα που επιδιώκει να λύσει η παρούσα διπλωματική είναι, δεδομένων συνόλων τοπικών χαρακτηριστικών F i για κάθε βίντεο / εικόνα και αντιστοίχων κατηγοριών y i, η εύρεση συνάρτησης δημιουργίας ολικών χαρακτηριστικών R Θ (F i ) και των παραμέτρων της Θ, τέτοια ώστε να βελτιστοποιείται η ταξινόμηση των δειγμάτων στις κατηγορίες y i. Όπως θα φανεί και στις επόμενες ενότητες οι προσπάθειες εύρεσης λύσης εστιάζονται κυρίως στον τρόπο εκμάθησης των παραμέτρων και όχι στη δημιουργία νέας συνάρτησης. 1.5 Δομή εργασίας Στο κεφάλαιο 2 της εργασίας παρουσιάζουμε με γενικευμένο τρόπο τις πιο διαδεδομένες συναρτήσεις άθροισης τοπικών χαρακτηριστικών στη βιβλιογραφία. Στη συνέχεια στο κεφάλαιο 3 αναλύουμε τρόπους εκμάθησης των παραμέτρων των παραπάνω συναρτήσεων και στην ενότητα 3.4 εισάγουμε μία νέα μέθοδο εκμάθησης λεξιλογίου, η οποία δεν απαιτεί πρόσβαση σε δεδομένα με αντιστοιχισμένες κατηγορίες.

18 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ 7 Στο κεφάλαιο 4 παρουσιάζουμε μια γενικευμένη μαθηματική περιγραφή για τη χρήση των κατηγοριών των δειγμάτων στη βελτίωση των παραμέτρων της συνάρτησης άθροισης τοπικών χαρακτηριστικών και στη συνέχεια εξειδικεύουμε τη συγκεκριμένη μέθοδο με συγκεκριμένους ταξινομητές και συναρτήσεις. Στο κεφάλαιο 5 αναλύουμε την πειραματική διάταξη, τις μετρικές και τα πειράματα που εκπονήθηκαν για την εξακρίβωση της ποιότητας των μεθόδων που παρουσιάσαμε. Τέλος στο κεφάλαιο 6 γίνεται μία ανασκόπηση των αποτελεσμάτων των προηγούμενων κεφαλαίων και προτάσεις για περαιτέρω βελτίωση και έρευνα των μεθόδων που προτάθηκαν.

19 Κεφάλαιο 2 Συναρτήσεις άθροισης τοπικών χαρακτηριστικών (ΣΑΤΧ) Στα πλαίσια της διπλωματικής θα αναλυθούν πολλές συναρτήσεις άθροισης τοπικών χαρακτηριστικών (στο εξής ΣΑΤΧ) και θα δημιουργηθούν νέοι τρόποι εκμάθησης των παραμέτρων τους. Όλες οι ΣΑΤΧ που θα αναλυθούν και θα χρησιμοποιηθούν θα ακολουθούν την γενικευμένη μορφή της εξίσωσης 2-1, στην οποία F i = {f i1, f i2,..., f infi }. R Θ (F i ) = 1 N Fi T N Θ (f ij ) (2-1) Fi j=1 Η συνάρτηση T Θ ( ) : R L R K προβάλλει τα τοπικά χαρακτηριστικά σε ένα χώρο, συνήθως μεγαλύτερο (K > L), ώστε ο αριθμητικός μέσος όρος αυτών των προβολών να αντιπροσωπεύει αποτελεσματικά την πληροφορία του συνόλου. Επιπλέον το πεδίο τιμών της T Θ ( ) αποτελείται συνήθως από αραιά διανύσματα (sparse) και συνεπώς ο αριθμητικός μέσος όρος είναι μία καλή αναπαράσταση της κατανομής των μετασχηματισμένων τοπικών χαρακτηριστικών. 2.1 Bag of Words Μία συνηθισμένη προσέγγιση δημιουργίας της συνάρτησης T Θ ( ) είναι ο κβαντισμός κάθε διάστασης του χώρου των τοπικών χαρακτηριστικών και η αντιπροσώπευσή τους 8

20 ΚΕΦΑΛΑΙΟ 2. ΣΥΝΑΡΤΗΣΕΙΣ ΑΘΡΟΙΣΗΣ ΤΟΠΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ (ΣΑΤΧ) 9 με μία μονάδα στο κβάντο στο οποίο είναι πιο κοντά. Η παραπάνω προσέγγιση όμως είναι αδύνατη όταν ο χώρος που πρέπει να κβαντιστεί είναι πολυδιάστατος. Ο τυπικός αριθμός διαστάσεων για τα SIFT χαρακτηριστικά είναι 128 και σαν αποτέλεσμα ακόμη και αν είχαμε απλά 2 κβάντα για κάθε διάσταση θα καταλήγαμε σε μία συνάρτηση T Θ ( ) : R 128 R Παρ όλα αυτά ο τεράστιος αυτός αριθμός διαστάσεων δεν χρειάζεται για να εκπροσωπηθεί η πληροφορία που περιέχεται στα τοπικά χαρακτηριστικά. Δεδομένου ενός λεξιλογίου, δηλαδή ενός συνόλου σημείων που θεωρούμε αντιπροσωπευτικά της πληροφορίας, μπορούμε να κωδικοποιήσουμε με τον ίδιο τρόπο τα τοπικά χαρακτηριστικά, αντιστοιχίζοντας το καθένα στο κοντινότερο κβάντο δηλαδή στο κοντινότερο σημείο του λεξιλογίου. Σχήμα 2.1: Η κβάντιση του χώρου με την συνάρτηση Bag of Words Όταν μια ΣΑΤΧ χρησιμοποιεί λεξιλόγιο τότε το Θ εκφράζει έναν πίνακα στον χώρο R K L όπου κάθε γραμμή του που συμβολίζεται με θ k είναι μία λέξη του λεξιλογίου. Σύμφωνα με τον συμβολισμό που εισήχθη στην αρχή του κεφαλαίου, το Bag Of Words [6] εκφράζεται στην εξίσωση 2-2, όπου D(a, b) η ευκλείδεια απόσταση μεταξύ των διανυσμάτων a και b. Επισημαίνεται ότι η T Θ ( ) της εξίσωσης 2-2 έχει μόνο ένα μη μηδενικό

21 FISHER VECTORS στοιχείο για κάθε f ij. { 1 if θk = arg min I Θ (f ij, θ k ) = θk1 Θ D(θ k 1, f ij ) 0 otherwise I Θ (f ij, θ 1 ) I T Θ (f ij ) = Θ (f ij, θ 2 ). I Θ (f ij, θ K ) (2-2) 2.2 Fisher Vectors Η ιδέα των Fisher Vectors [19] είναι ο χαρακτηρισμός ενός σήματος με το διάνυσμα μερικών παραγώγων (gradient vector) ενός πιθανοτικού μοντέλου, το οποίο στη συνέχεια δίνεται σε ένα ταξινομητή. Στην εξίσωση 2-3 φαίνεται η γενική έκφραση των Fisher Vector δεδομένης της συνάρτησης πυκνότητας πιθανότητας p( Θ) και των παραμέτρων της Θ. F V = Θ log p(f i Θ) (2-3) Υποθέτοντας ότι τα τοπικά χαρακτηριστικά F i είναι ανεξάρτητα μεταξύ τους και προσθέτοντας κατάλληλη κανονικοποίηση η 2-3 μπορεί να μετασχηματιστεί στη γενικευμένη μορφή της 2-1. T Θ (f ij ) = Θ log p(f ij Θ) (2-4) Για την αναπαράσταση των τοπικών χαρακτηριστικών πολυμέσων το πιθανοτικό μοντέλο που χρησιμοποιείται είναι το Gaussian Mixture Model, που προσεγγίζει την κατανομή των χαρακτηριστικών (δηλαδή η p( Θ) είναι η συνάρτηση πυκνότητας πιθανότητας ενός GMM και Θ τα βάρη, τα κέντρα και οι πίνακες συμμεταβλητότητας). Με την χρήση του GMM τα Fisher Vectors μπορούν να συγκριθούν ευθέως με τα Bag of Words. Η πληροφορία που κωδικοποιείται από τις παραγώγους των βαρών των Gaussian είναι η ίδια με ένα soft assignment Bag of Words (π.χ. Kernel Codebook [21]), ενώ από τις παραγώγους των μέσων όρων κωδικοποιείται η πληροφορία της σχετικής θέσης ενός τοπικού χαρακτηριστικού σχετικά με το κάθε κέντρο του GMM.

22 ΚΕΦΑΛΑΙΟ 2. ΣΥΝΑΡΤΗΣΕΙΣ ΑΘΡΟΙΣΗΣ ΤΟΠΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ (ΣΑΤΧ) Kernel Codebook Το Kernel Codebook [21] είναι μία επέκταση του Bag of Words, που εισάγει soft assignment στο υπάρχoν λεξιλόγιο και καλείται να βελτιώσει κάποιες αδυναμίες του. Στο Bag of Words κάθε τοπικό χαρακτηριστικό αντιστοιχίζεται στην κοντινότερη λέξη του λεξιλογίου με αποτέλεσμα η πληροφορία για την απόστασή του από τις άλλες λέξεις να χάνεται. Επιπλέον, παρότι ένα χαρακτηριστικό μπορεί να μην είναι κοντά σε καμία λέξη θα αντιστοιχηθεί στην κοντινότερη. Οι παραπάνω αδυναμίες του Bag of Words γίνονται καλύτερα κατανοητές από τα σημεία που συμβολίζονται με τετράγωνο και τρίγωνο αντίστοιχα στην εικόνα 2.2. Σχήμα 2.2: Τα προβλήματα που δημιουργούνται με την διαμέριση του χώρου από το Bag of Words που προσπαθεί να επιλύσει το KCB (σημεία που συμβολίζονται με τετράγωνο και τρίγωνο) Για την επίλυση των παραπάνω, το Kernel Codebook αντιστοιχίζει κάθε τοπικό χαρακτηριστικό σε κάθε λέξη του λεξιλογίου σύμφωνα με την τιμή ενός Kernel. Το αποτέλεσμα είναι ότι ένα τοπικό χαρακτηριστικό μπορεί να αντιστοιχίζεται σε καμία, μία ή παραπάνω λέξεις του λεξιλογίου. Το Kernel Codebook υλοποιείται στη γενικευμένη μορφή της 2-1 στην 2-5 όπου K( ) ένας Kernel. K(f ij, θ 1 ) K(f T Θ (f ij ) = ij, θ 2 ). K(f ij, θ K ) (2-5)

23 SPARSE CODING Παρατηρείται η ομοιότητα με το Bag of Words όπου η 2-5 είναι η 2-2 με την I Θ ( ) να έχει αντικατασταθεί με τον Kernel. Ένα πλεονέκτημα του Kernel Codebook έναντι του Bag of Words, το οποίο και θα αξιοποιήσουμε σε αυτή την διπλωματική, είναι ότι η συνάρτηση T Θ ( ) είναι συνεχής παραγωγίσιμη υπό την προϋπόθεση ότι ο Kernel είναι παραγωγίσιμος. Ο Kernel που χρησιμοποιείται στο [21] είναι Gaussian με ευκλείδεια απόσταση και θα εννοείται στη συνέχεια οπουδήποτε χρησιμοποιείται το Kernel Codebook. Συνεπώς η 2-5 μετασχηματίζεται στην 2-6 όπου γ = 1 2σ 2. γe γ(f ij θ 1 ) T (f ij θ 1 ) γe γ(f ij θ 2 ) T (f ij θ 2 ) T Θ (f ij ) =. γe γ(f ij θ K ) T (f ij θ K ) (2-6) 2.4 Sparse Coding Το Sparse Coding [16] είναι η διαδικασία εκμάθησης μιας υπερ-πλήρους (overcomplete) βάσης αναπαράστασης των δεδομένων που οδηγεί σε αραιές αναπαραστάσεις. Δηλαδή η εύρεση K διανυσμάτων, περισσότερων από τις διαστάσεις των τοπικών χαρακτηριστικών, τέτοια ώστε να μπορούν να γραφούν κάθε τοπικό χαρακτηριστικό ως γραμμικός συνδυασμός λίγων από τα K διανύσματα βάσης. Η εύρεση κατάλληλης βάσης θα αναλυθεί στο κεφάλαιο 3.2 αλλά έχει παρατηρηθεί ότι περιορίζοντας την αναπαράσταση ώστε να είναι αραιά και έχοντας μία υπερ-πλήρη βάση μπορούμε να αναπαραστήσουμε δομή και μοτίβα στα δεδομένα μας. Η κωδικοποίηση των τοπικών χαρακτηριστικών με Sparse Coding σύμφωνα με την γενικευμένη εξίσωση 2-1 δίνεται στην 2-7, θεωρώντας δεδομένο τον πίνακα διανυσμάτων βάσης Θ (ίδιου σχήματος με τον πίνακα παραμέτρων ενός λεξιλογίου), και λ μια παράμετρο που βαρύνει την ποινή αραιότητας. ( fij T Θ (f ij ) = arg min Θ T α 2 ) + λ α α 2 1 (2-7)

24 Κεφάλαιο 3 Εκμάθηση παραμέτρων ΣΑΤΧ χωρίς επίβλεψη Στη διπλωματική αυτή, όπως έχει προαναφερθεί, θα εστιάσουμε στην εκμάθηση παραμέτρων συναρτήσεων άθροισης τοπικών χαρακτηριστικών. Οι μέθοδοι που έχουμε στη διάθεσή μας αλλά και αυτές που δημιουργούμε χωρίζονται σε δύο βασικές κατηγορίες, τις μεθόδους με επίβλεψη και τις μεθόδους χωρίς επίβλεψη. Οι μέθοδοι χωρίς επίβλεψη είναι μέθοδοι εκμάθησης παραμέτρων, οι οποίες δεν χρησιμοποιούν τις κατηγορίες y i που γνωρίζουμε για κάθε δείγμα. Η συντριπτική πλειοψηφία μεθόδων που υπάρχουν στη βιβλιογραφία ανήκουν σε αυτή την κατηγορία, κυρίως επειδή παρουσιάζει μερικές πολύ ελκυστικές ιδιότητες σε σχέση με τις μεθόδους με επίβλεψη. Δεν απαιτεί ένα μεγάλο σύνολο δειγμάτων με αντιστοιχισμένες τις κατηγορίες και υπάρχει σημαντική πιθανότητα παράμετροι που έχουν μαθευτεί σε ένα σύνολο δεδομένων να λειτουργούν εξίσου καλά και σε ένα άλλο με διαφορετικές κατηγορίες. Το βασικό μειονέκτημα των μεθόδων αυτών είναι ότι αν μια μέθοδος με επίβλεψη έχει πρόσβαση στα ίδια δεδομένα και μπορεί να βελτιστοποιηθεί στο πρόβλημα το οποίο καλούμαστε να λύσουμε έχει συνήθως καλύτερα αποτελέσματα. 3.1 Αλγόριθμοι Ομαδοποίησης Όπως είδαμε στο κεφάλαιο 2 πολλές ΣΑΤΧ (Bag of Words, Fisher Vectors και Kernel Codebook) χρησιμοποιούν λεξιλόγιο (ένα σύνολο σημείων) ή στατιστικά του συνόλου των τοπικών χαρακτηριστικών ώστε να τα περιγράψουν βάσει αυτών. Τα σημεία αυτά 13

25 SPARSE CODING καθώς και τα στατιστικά κατά κανόνα αποκτούνται με αλγορίθμους ομαδοποίησης. Για τα Fisher Vectors, όπως έχει προαναφερθεί χρειάζεται ένα πιθανοτικό μοντέλο ώστε να μοντελοποιηθούν στατιστικά υψηλότερου επιπέδου από ότι τα κέντρα. Όπως αναφέρθηκε στο 2.2 το μοντέλο που χρησιμοποιείται είναι ένα GMM του οποίου οι παράμετροι έχουν τεθεί (μέσω Expectation-Maximization) ώστε να μεγιστοποιούν την πιθανότητα δημιουργίας των τοπικών χαρακτηριστικών από το μοντέλο. Στο Bag of Words και στο Kernel Codebook το λεξιλόγιο πρέπει να αντιπροσωπεύει τα δεδομένα και γι αυτό δημιουργείται από τα κέντρα των ομάδων που παράγει ένας αλγόριθμος ομαδοποίησης. Συνήθως χρησιμοποιείται ο K-Means [6] ο οποίος αναθέτει κέντρα κοντά στα πιο συχνά εμφανιζόμενα τοπικά χαρακτηριστικά. Όπως φαίνεται από το [2] τα πιο συχνά χαρακτηριστικά δεν είναι και τα πιο χρήσιμα για τον διαχωρισμό των πολυμέσων σε κατηγορίες. Το παραπάνω έχει οδηγήσει σε αναζήτηση νέων τρόπων εκμάθησης των λεξιλογίων, με σκοπό την βελτιστοποίηση της διαχωρισιμότητας των παραγόμενων ολικών χαρακτηριστικών, τους οποίους προσπαθούμε να επεκτείνουμε ή να βελτιώσουμε στο κεφάλαιο Sparse Coding Η εκμάθηση μιας υπερ-πλήρους βάσης, με τις ιδιότητες που περιγράψαμε στο 2.4, παραμένει δύσκολο υπολογιστικό πρόβλημα. Στο κεφάλαιο αυτό θα αναλύσουμε την συνάρτηση κόστους που πρέπει να ελαχιστοποιήσουμε αλλά δε θα αναλυθούν οι μέθοδοι ελαχιστοποίησης. Αναζητούμε σύνολο διανυσμάτων Θ R K L τέτοιο ώστε το σύνολο των τοπικών χαρακτηριστικών F = {f ij i, j N} να μπορεί να γραφεί όσο το δυνατόν πιστότερα ως γραμμικός συνδυασμός των Θ. Συνεπώς, αν a ij οι συντελεστές των γραμμικών συνδυασμών, αρκεί να ελαχιστοποιήσουμε την 3-1. J = 1 f 2 ij Θ T 2 a ij 2 f ij F (3-1) Η 3-1 όμως έχει δύο μειονεκτήματα. Πρώτον δεν αποκλείονται οι αφελείς λύσεις όπου a ij = f ij και δεύτερον δεν περιορίζονται τα a ij ώστε να είναι αραιά. Συνεπώς η 3-1 μετασχηματίζεται στην 3-2 όπου το L 1 κόστος στα a ij θα μπορούσε να είναι οποιοδήποτε

26 ΚΕΦΑΛΑΙΟ 3. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ 15 κόστος αραιότητας. J = f ij F ( 1 f 2 ij Θ T 2 a ij + λ ) aij 1 2 (3-2) Παρ όλα αυτά παρατηρούμε ότι πολλαπλασιάζοντας το Θ με μια σταθερά και διαι- ρώντας τα a ij με την ίδια σταθερά μπορούμε να μειώσουμε το aij όσο θέλουμε. Συνεπώς το πρόβλημα του Sparse Coding μετατρέπεται στην επίλυση της 3-3, όπου A = {a ij i, j N}. A, Θ = arg min A,Θ f ij F ( 1 f 2 ij Θ T 2 a ij + λ ) aij 1 2 subject to θ i 2 C i {1,..., K} (3-3) 3.3 Sparse Autoencoders Οι Sparse Autoencoders [15] είναι μια γενίκευση του Sparse Coding. Δεν παρουσιάστηκαν στο κεφάλαιο 2, γιατί ο τρόπος εκμάθησης των παραμέτρων τους είναι πολύ στενά συνδεδεμένος με τον ορισμό τους. Επίσης, είναι η βασική έμπνευση για την πρώτη μέθοδο ΣΑΤΧ που θα εισάγουμε σε αυτή την διπλωματική. Οι Sparse Autoencoders είναι νευρωνικά δίκτυα τα οποία προπονούνται στην εκμάθηση της ταυτοτικής συνάρτησης, δηλαδή μαθαίνουν να αναπαράγουν την είσοδό τους. Στη συνέχεια χρησιμοποιείται η έξοδος ενός hidden layer ως συνάρτηση μετασχηματισμού T Θ ( ). Η έξοδος του hidden layer αυτού περιορίζεται ώστε να είναι αραιή ώστε ο autoencoder να αξιοποιήσει τις ιδιότητες που ισχύουν για το Sparse Coding. Είναι χρήσιμο να παρουσιάσουμε τα νευρωνικά δίκτυα ως μοντέλα σύνθεσης συναρτήσεων για να γίνει η σύγκριση με μεθόδους που θα παρουσιάσουμε στη συνέχεια. Άρα θεωρώντας L i ( ) την συνάρτηση που υλοποιείται από το layer i, ένα νευρωνικό δίκτυο γράφεται σύμφωνα με την εξίσωση 3-4 και ένα τυπικό πλήρως συνδεδεμένο νευρωνικό δίκτυο από την 3-5. Στην 3-5 το W i είναι ο πίνακας βαρών του layer i που πολλαπλασιάζεται με την είσοδο του και στη συνέχεια προστίθεται η τιμή του bias unit. h(x) = L N (L N 1 (... L 1 (x)... )) (3-4)

27 KERNEL CODEBOOK ΚΑΙ SPARSE AUTOENCODER tanh(x 1 ) tanh(x σ(x) = 2 ). tanh(x M ) L i (x) = σ(w i x + b i ) (3-5) Για να γίνει η εκμάθηση των παραμέτρων ενός νευρωνικού, πρέπει να δημιουργηθεί μια συνάρτηση κόστους την οποία και θα ελαχιστοποιήσουμε. Μία τέτοια συνάρτηση κόστους μπορεί να είναι το τετράγωνο του σφάλματος με την οποία η εκμάθηση ενός sparse autoencoder υλοποιείται στη συνάρτηση 3-6. Το L 1 μέτρο, που είναι η ποινή αραιότητας, θα μπορούσε να είναι ένα οποιοδήποτε κόστος αραιότητας στην έξοδο του προτελευταίου layer. J = x X 1 2 x h(x) α L N 1(... L 1 (x)... ) 1 (3-6) Θεωρούμε το προτελευταίο layer ως την έξοδο του autoencoder. Οι παράμετροι Θ που θα χρησιμοποιηθούν για την υλοποίηση μιας ΣΑΤΧ, σύμφωνα με την εξίσωση 2-1, είναι τα βάρη και τα bias των layer από το 1 μέχρι το N 1. Η αντίστοιχη συνάρτηση T Θ ( ) παρουσιάζεται στην εξίσωση 3-7. T Θ (f ij ) = L N 1 (... L 1 (f ij )... ) (3-7) 3.4 Kernel Codebook και Sparse Autoencoder Η πρώτη μέθοδος εκμάθησης χαρακτηριστικών που εισάγουμε χρησιμοποιεί την θεωρία των Sparse Autoencoders ώστε να βρει τις παραμέτρους μιας ΣΑΤΧ χωρίς επίβλεψη. Θεωρούμε ως πρώτο hidden layer του νευρωνικού μας δικτύου την συνάρτηση μετασχηματισμού T Θ ( ) μιας ΣΑΤΧ και δεύτερο layer (το layer εξόδου) μια απλή γραμμική συνάρτηση. J = f ij F ( C 2 fij W T Θ (f ij ) b α TΘ (f ij ) ) ) (W 2 tr T W (3-8) Στην εξίσωση 3-8 φαίνεται η συνάρτηση κόστους που δημιουργήσαμε, με την ελαχιστο-

28 ΚΕΦΑΛΑΙΟ 3. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ 17 ποίηση της οποίας θα μάθουμε τις παραμέτρους Θ της ΣΑΤΧ. Οι δύο παράμετροι C και α βαραίνουν στη συνάρτηση το σφάλμα ανακατασκευής (reconstruction error) και την ποινή αραιότητας (sparsity) αντίστοιχα ) έναντι της μείωσης των βαρών W (που επιτυγχάνεται με τον όρο 1 2 (W tr T W ). Η μείωση των βαρών λειτουργεί αντίστοιχα με τους περιορισμούς στο μέτρο των θ i στην 3-3, αποτρέπει δηλαδή την αφελή λύση που ωθεί τα T Θ ( ) οσοδήποτε κοντά στο 0. Ο συνήθης τρόπος προπόνησης των νευρωνικών δικτύων είναι με Stochastic Gradient Descent [3] και για να τον χρησιμοποιήσουμε στη συγκεκριμένη αρχιτεκτονική που έχουμε εισάγει θα πρέπει η ΣΑΤΧ να έχει συνεχή και παραγωγίσιμη T Θ ( ). Η ΣΑΤΧ που επιλέγουμε είναι το Kernel Codebook (στο εξής και KCB) για την ομοιότητά του με το Bag of Words. Θα επιλέγαμε το Bag of Words αλλά η T Θ ( ) του δεν είναι παραγωγίσιμη ούτε συνεχής Υπολογισμός της παραγώγου Για την ελαχιστοποίηση της 3-8 θα πρέπει να υπολογιστεί η παράγωγος της J ως προς W, b και Θ. Πριν από αυτό θα υπολογίσουμε ξεχωριστά την παράγωγο της T Θ ( ) του KCB, γιατί θα την χρησιμοποιήσουμε και σε επόμενα κεφάλαια. Η παραγώγιση της 2-6 γίνεται, λοιπόν, στην 3-9 όπου το σύμβολο ( ) i δηλώνει το i-οστό στοιχείο ενός διανύσματος. θi γe γ(f ij θ i ) T (f ij θ i ) = 2γ(f ij θ i ) γe γ(f ij θ i ) T (f ij θ i ) θ1 (T Θ (f ij )) 1 2γ(f ij θ 1 ) γe γ(f ij θ 1 ) T (f ij θ 1 ) Θ T Θ (f ij ) = θ2 (T Θ (f ij )) 2. = 2γ(f ij θ 2 ) γe γ(f ij θ 2 ) T (f ij θ 2 ). θk (T Θ (f ij )) 3 2γ(f ij θ K ) γe γ(f ij θ K ) T (f ij θ K ) 2γ(f ij θ 1 ) 2γ(f = ij θ 2 ). T Θ(f ij ) 2γ(f ij θ K ) (3-9) Σε αυτό το σημείο παρατηρούμε ότι ένα θετικό στοιχείο της επιλογής του KCB ως ΣΑΤΧ είναι ότι η παράγωγος ως προς τις παραμέτρους χρειάζεται λίγους παραπάνω υπολογισμούς (περίπου τους διπλάσιους) από τον υπολογισμό των ολικών χαρακτηριστικών.

29 KERNEL CODEBOOK ΚΑΙ SPARSE AUTOENCODER Η πολυπλοκότητα υπολογισμού των ολικών χαρακτηριστικών αλλά και της παραγώγου για κάθε τοπικό χαρακτηριστικό είναι O(KL) όταν Θ R K L. Χρησιμοποιώντας την 3-9 και τον κανόνα παραγώγισης της σύνθεσης μπορούμε να υπολογίσουμε όλες τις παραγώγους της J. Για το Stochastic Gradient Descent (στο εξής και SGD) θα χρησιμοποιούμε την παράγωγο για ένα συγκεκριμένο τοπικό χαρακτηριστικό κάθε φορά, παρ όλο που στην 3-10 γράφονται οι παράγωγοι για όλο το σύνολο F. Να επισημάνουμε επίσης ότι η T Θ ( ) σε όλη την ανάλυση σε αυτό το κεφάλαιο αναφέρεται στη συνάρτηση 2-6 του KCB. W J = ( C ( f ij W T Θ (f ij ) b ) ( T Θ (f ij ) ) T ) + W f ij F b J = C ( f ij W T Θ (f ij ) b ) f ij F ( ) ( θ1 ) θ1 J (TΘ (f ij )) 1 J (T Θ (f ij )) ( ) 1 Θ J = θ2 J. = ( θ2 ) (TΘ (f ij )) 2 J (T Θ (f ij )) 2 f ij F. ( ) θk J ( θk ) (TΘ (f ij )) K J (T Θ (f ij )) K = ) ( TΘ (f ij ) J ( Θ T Θ (f ij ) ) f ij F = (α sign ( T Θ (f ij ) ) CW T ( f ij W T Θ (f ij ) b )) ( Θ T Θ (f ij ) ) f ij F 2γ(f ij θ 1 ) = 2γ(f ij θ 2 ) f ij F. 2γ(f ij θ K ) ( α sign ( T Θ (f ij ) ) CW T ( f ij W T Θ (f ij ) b )) T Θ (f ij ) (3-10) Αλγόριθμος εκμάθησης παραμέτρων Στην ενότητα αυτή θα περιγράψουμε με ψευδοκώδικα την παραλλαγή του SGD που χρησιμοποιούμε καθώς και την διαδικασία αρχικοποίησης της παραμέτρου γ του KCB και των παραμέτρων α και C. Η επιλογή του γ επηρεάζει σε πολύ σημαντικό βαθμό την συμπεριφορά του αλγορίθμου

30 ΚΕΦΑΛΑΙΟ 3. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ 19 μάθησης. Το γ, όπως έχουμε δει, ισούται με 2σ 1 2 συνεπώς μεγάλο γ συνεπάγεται πολύ μικρή διακύμανση στον Gaussian Kernel και κατ επέκταση μικρή ακτίνα γύρω από ένα θ i που δίνει μη μηδενικές τιμές. Επιπλέον η φύση των δεδομένων επηρεάζει πολύ την επιλογή του γ και γι αυτό προτείνεται κανονικοποίηση των δεδομένων πριν την χρήση τους. Στο [21] η επιλογή του γ γίνεται με cross-validation ώστε να επιλεγεί το γ που οδηγεί στα καλύτερα αποτελέσματα ταξινόμησης. Αν δεν έχουμε πρόσβαση στις κατηγορίες y i ώστε να επιλέξουμε το πιο διαχωριστικό γ μπορούμε να επιλέξουμε μια τιμή ώστε το T Θ (f ij ) να μην είναι πολύ ομοιόμορφο (για Θ τυχαία επιλεγμένα από το σύνολο των τοπικών χαρακτηριστικών F ). Διαίσθηση για το κατάλληλο εύρος τιμών των παραμέτρων α και C μπορούμε να αποκτήσουμε από τις αριθμητικές μέσες τιμές των αντίστοιχων ποινών που βαραίνουν, 1 N F f ij F fij 2 2 για το C και 1 NF f ij F TΘ (f ij ) 1 για το α. Στον αλγόριθμο 1 αναλύεται η υλοποίηση του SGD που χρησιμοποιούμε. Ο συμβολισμός J fij σημαίνει ότι η παράγωγος υπολογίζεται λαμβάνοντας υπόψη μόνο το τοπικό χαρακτηριστικό f ij Αποτελέσματα σε τεχνητά δεδομένα Σε αυτή την υποενότητα θα παρουσιάσουμε την απόδοση της μεθόδου σε διάφορα συνθετικά σύνολα δεδομένων και θα την συγκρίνουμε με αυτή του K-Means που είναι ο πιο συχνά χρησιμοποιούμενος αλγόριθμος για την δημιουργία λεξιλογίου. Σκοπός της μεθόδου είναι η βελτιστοποίηση της ταξινόμησης συνεπώς η μετρική που θα χρησιμοποιηθεί θα είναι η απλή ακρίβεια της ταξινόμησης με ένα γραμμικό SVM στα μετασχηματισμένα δεδομένα. Το πρώτο συνθετικό dataset που θα χρησιμοποιηθεί φαίνεται στο σχήμα 3.1. Έχει δύο χαρακτηριστικά και δύο κατηγορίες. Ο πίνακας 3.1 δείχνει την ακρίβεια της ταξινόμησης και το σχήμα 3.2 δείχνει το λεξιλόγιο που έχει επιλεχθεί από τις δύο μεθόδους. Το μέγεθος του λεξιλογίου είναι 6 λέξεις και οι παράμετροι της μεθόδου μας είναι γ = 0.1, C = 1.0, α = Για τον υπολογισμό της ακρίβειας το σύνολο των δεδομένων μας χωρίζεται στα 3 2 και 1 3 σύνολο προπόνησης και σύνολο εκτίμησης αντίστοιχα. Συγκρίνοντας οπτικά τα λεξιλόγια παρατηρούμε ότι τα κέντρα που επιλέγονται από τον Κ-Means έχουν κοντά τους σημεία που ανήκουν και στις δύο κατηγορίες. Αντίθετα, λόγω της ποινής αραιότητας τα κέντρα που επιλέγονται από τον Sparse Autoencoder είναι το

31 KERNEL CODEBOOK ΚΑΙ SPARSE AUTOENCODER Algorithm 1 Εκμάθηση λεξιλογίου μέσω Sparse Autoencoder και KCB 1: K το μέγεθος του λεξιλογίου Θ 2: F το σύνολο των τοπικών χαρακτηριστικών 3: C το βάρος του λάθους ανακατασκευής 4: α το βάρος της ποινής αραιότητας 5: γ η διακύμανση των Gaussian Kernel 6: η το βήμα εκμάθησης του SGD 7: m η αδράνεια του SGD 8: B το μέγεθος του mini-batch του SGD 9: Θ choose_random(f, K) Αρχικοποίηση του λεξιλογίου 10: W 0, b 0 Αρχικοποίηση των βαρών και του bias 11: g W 0, g b 0, g Θ 0 Gradient accumulators 12: v W 0, v b 0, v Θ 0 13: N f 0 Ο αριθμός των τοπικών χαρακτηριστικών που έχουμε δει 14: for epoch t do 15: for f ij F do 16: N f N f : g W g W + W J fij 18: g b g b + b J fij 19: g Θ g Θ + Θ J fij 20: if N f mod B = 0 then Κάθε B τοπικά χαρακτηριστικά 21: v W v W m η g W 22: v b v b m η g b 23: v Θ v Θ m η g Θ 24: W W + v W, b b + v b Ανανέωση των παραμέτρων 25: Θ Θ + v Θ Ανανέωση του λεξιλογίου 26: g W 0, g b 0, g Θ 0 Μηδενισμός των gradient 27: end if 28: end for 29: end for

32 ΚΕΦΑΛΑΙΟ 3. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ 21 Σχήμα 3.1: Συνθετικό dataset για σύγκριση του sparse autoencoder με τον K-Means Αλγόριθμος Accuracy SVM K-Means + BOW + SVM K-Means + KCB + SVM Sparse Autoencoder + KCB + SVM Πίνακας 3.1: Συγκριτικά αποτελέσματα του KCB με sparse autoencoder σε συνθετικό dataset ένα μακριά από το άλλο, ώστε όταν κάποιο χαρακτηριστικό είναι κοντά σε ένα κέντρο να είναι μακριά από τα υπόλοιπα και να πετυχαίνουμε έτσι αραιό μετασχηματισμό. Αυτή η συμπεριφορά γίνεται ακόμη πιο εμφανής στο σχήμα 3.3 όπου συγκρίνονται τα λεξιλόγια 20 λέξεων που παράγει ο K-Means και ο Sparse Autoencoder σε διάφορα είδη συνθετικών δεδομένων. Στα δεδομένα αυτά και ο K-Means και ο Sparse Autoencoder πετυχαίνουν ακρίβεια ταξινόμησης 1.0. Στην περίπτωση που τα δεδομένα μπορούν να περιγραφούν με λιγότερα κέντρα, ο Sparse Autoencoder, τοποθετεί τα κέντρα είτε το ένα πάνω στο άλλο (local minimum) είτε μακριά από το dataset ώστε να μειωθεί το κόστος της ποινής αραιότητας. Αυτό μας οδηγεί σε αναπαραστάσεις μικρότερων διαστάσεων από ότι αυτές του K-Means και εξίσου, αν όχι περισσότερο, πληροφοριακές. Τέλος εξ αιτίας της επιρροής των παραμέτρων στη δημιουργία του λεξιλογίου μπορούμε να επιλέξουμε τα χαρακτηριστικά του λεξιλογίου που θα δημιουργηθεί. Για παράδειγμα μειώνοντας το γ στο συνθετικό dataset με τα φεγγάρια (δεύτερη σειρά στο σχήμα 3.3)

33 KERNEL CODEBOOK ΚΑΙ SPARSE AUTOENCODER Σχήμα 3.2: Σύγκριση των λεξιλογίων μεταξύ K-Means και sparse autoencoder σε ένα συνθετικό dataset δημιουργείται λεξιλόγιο που είναι πιο μακριά από τα δεδομένα.

34 ΚΕΦΑΛΑΙΟ 3. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ 23 Σχήμα 3.3: Σύγκριση λεξιλογίων 20 λέξεων μεταξύ K-Means και sparse autoencoder σε συνθετικά dataset

35 Κεφάλαιο 4 Εκμάθηση παραμέτρων ΣΑΤΧ με επίβλεψη Μέθοδοι με επίβλεψη είναι οι μέθοδοι που εκτός από τα χαρακτηριστικά F i έχουν πρόσβαση και στις κατηγορίες y i, που επιδιώκουμε να προβλέψουμε από τα χαρακτηριστικά αυτά. Συνεπώς εκμάθηση παραμέτρων ΣΑΤΧ με επίβλεψη είναι μέθοδοι που αναζητούν Θ τέτοια ώστε τα ολικά χαρακτηριστικά R Θ (F i ) να είναι διαχωρίσιμα με αλγορίθμους ταξινόμησης. Οι τρόποι εκμάθησης παραμέτρων με επίβλεψη στη βιβλιογραφία συνοψίζονται στις εξής δύο κατηγορίες. Την δημιουργία μιας μεθόδου που ανανεώνει τις παραμέτρους διατηρώντας κάποια στατιστικά στο χώρο των κατηγοριών [12] Την σύνθεση μιας ΣΑΤΧ με έναν ταξινομητή [14] Αναφορικά με την εκμάθηση λεξιλογίου, δεν έχει χρησιμοποιηθεί, όσο γνωρίζουμε, η σύνθεση με κάποιο ταξινομητή ως μέθοδος. Αυτό συμβαίνει κυρίως επειδή η πιο συχνά χρησιμοποιούμενη ΣΑΤΧ με λεξιλόγιο (το Bag of Words) δεν είναι συνεχής συνάρτηση. Η πιο γνωστή συνάρτηση δημιουργίας ολικών χαρακτηριστικών της οποίας οι παράμετροι μαθαίνονται με επίβλεψη και μάλιστα με σύνθεση με κάποιον ταξινομητή είναι τα συνελικτικά νευρωνικά δίκτυα [10]. Στο κεφάλαιο αυτό της διπλωματικής αναπτύσσουμε μια μέθοδο της οποίας η γενίκευση μπορεί να χρησιμοποιηθεί για την εκμάθηση διαχωριστικών παραμέτρων οποιασδήποτε 24

36 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 25 παραγωγίσιμης ΣΑΤΧ. Στη συνέχεια χρησιμοποιούμε το Kernel Codebook όπως και στην ενότητα 3.4 για την εκμάθηση ενός διαχωριστικού λεξιλογίου. Θα δείξουμε, όπως αναφέραμε και στην αρχή του κεφαλαίου 3, ότι για το ίδιο πρόβλημα ο αλγόριθμος με επίβλεψη μπορεί να πετυχαίνει πολύ καλύτερα αποτελέσματα με πολύ μικρότερο λεξιλόγιο. 4.1 Σύνθεση ΣΑΤΧ με ταξινομητή Για να βρούμε παραμέτρους που βελτιστοποιούν την διαχωρισιμότητα των ολικών χαρακτηριστικών επιλέγουμε να συνθέσουμε μια ΣΑΤΧ με την συνάρτηση κόστους ενός ταξινομητή. Προφανώς η συγκεκριμένη μέθοδος μπορεί να χρησιμοποιηθεί μόνο για ταξινομητές που ορίζονται ως ένα πρόβλημα ελαχιστοποίησης ή μεγιστοποίησης μιας συνάρτησης κόστους. Τέτοιοι αλγόριθμοι ταξινόμησης είναι για παράδειγμα οι Linear Regression, SVM, Logistic Regression, νευρωνικά δίκτυα αλλά δεν είναι αλγόριθμοι όπως ο K Nearest Neighbors. Θεωρώντας λοιπόν την συνάρτηση κόστους ενός ταξινομητή L P (x i, y i ), για ένα συγκεκριμένο δείγμα i και παραμέτρους P, το πρόβλημα εύρεσης παραμέτρων του ταξινομητή γράφεται στην εξίσωση 4-1. P = arg min P N L P (x i, y i ) (4-1) Θεωρώντας επίσης, ότι έχουμε ένα σύνολο από τοπικά χαρακτηριστικά F i για κάθε δείγμα i και R Θ (F i ) τα ολικά χαρακτηριστικά που παράγονται από μια ΣΑΤΧ για τα αντίστοιχα F i τότε το πρόβλημα εύρεσης παραμέτρων του ταξινομητή αλλά και της ΣΑΤΧ, ώστε να βελτιστοποιείται η ταξινόμηση, γράφεται στην εξίσωση 4-2. i=1 P, Θ = arg min P,Θ N L P (R Θ (F i ), y i ) (4-2) Μια προσέγγιση για την λύση του προβλήματος της 4-2 είναι η αντιμετώπισή του ως ένα απλό πρόβλημα ελαχιστοποίησης. Σε αυτό το σημείο αξίζει να αναφέρουμε ότι συνήθως η σύνθεση της L P ( ) με την R Θ ( ) καθιστά την παραγόμενη συνάρτηση μη κυρτή ως προς τις παραμέτρους Θ 1. Προσεγγίζοντας όμως το πρόβλημα ως δύο ξεχωριστά προβλήματα ελαχιστοποίησης μπορούμε να εκμεταλλευτούμε την κυρτότητα (συνήθως) της L P ( ) ως i=1 1 Φυσικά η κυρτότητα της συνάρτησης εξαρτάται από την R Θ ( ) και θα πρέπει να εξετάζεται ανα περίπτωση

37 ΣΥΝΘΕΣΗ KERNEL CODEBOOK ΜΕ ΓΡΑΜΜΙΚΟ ΤΑΞΙΝΟΜΗΤΗ προς τις παραμέτρους P ή πιο γενικά τους ήδη υπάρχοντες αποδοτικούς αλγορίθμους επίλυσης του προβλήματος του ταξινομητή για να κάνουμε το πρόβλημα μας πιο εύκολο ή πιο ανθεκτικό σε κακής ποιότητας δεδομένα και αριθμητικά προβλήματα. Η παραπάνω αντιμετώπιση εκφράζεται στον αλγόριθμο 2. Algorithm 2 Εκμάθηση παραμέτρων ΣΑΤΧ επαναληπτικά με επίβλεψη 1: N το σύνολο των δειγμάτων για προπόνηση 2: y i η κατηγορία του δείγματος i 3: F i το σύνολο των τοπικών χαρακτηριστικών του δείγματος i 4: P 0 κατάλληλη αρχικοποίηση για τις παραμέτρους του ταξινομητή 5: Θ 0 κατάλληλη αρχικοποίηση για τις παραμέτρους της ΣΑΤΧ 6: for iteration t or until convergence do 7: P t arg min Pt 1 Ni=1 L Pt 1 (R Θt 1 (F i ), y i ) 8: Θ t arg min Θt 1 Ni=1 L Pt (R Θt 1 (F i ), y i ) 9: end for Τα θετικά στοιχεία του αλγορίθμου 2 σε σχέση με την απ ευθείας ελαχιστοποίηση στον κοινό χώρο των P και Θ συνοψίζονται στην γραμμή 7, η οποία υλοποιείται με τον τρόπο που ενδείκνυται για κάθε ταξινομητή. 4.2 Σύνθεση Kernel Codebook με γραμμικό ταξινομητή Στην ενότητα αυτή θα περιορίσουμε το παραπάνω γενικό πρόβλημα σε ένα πιο ειδικό ώστε να μπορέσουμε να το επιλύσουμε. Θα χρησιμοποιήσουμε γενικευμένο γραμμικό ταξινομητή και το Kernel Codebook για τους λόγους που περιγράψαμε στην ενότητα 3.4. Θεωρούμε ως γενικευμένο γραμμικό ταξινομητή έναν ταξινομητή που ορίζει την συνάρτηση κόστους του χρησιμοποιώντας τις τιμές p i = w T x i + b και y i. Το y i μπορεί να ανήκει σε διαφορετικά σύνολα τιμών ανάλογα με τον ταξινομητή, όπως θα δούμε παρακάτω στον SVM είναι στο σύνολο { 1, 1}, ενώ στη Multinomial Logistic Regression στο σύνολο {0, 1} C. Στην εξίσωση 4-3 γράφουμε την συνάρτηση κόστους ενός γενικευμένου γραμμικού ταξινομητή και στη συνέχεια στην 4-4 γράφουμε αναλυτικά την ίδια εξίσωση χρησιμοποιώντας την σύνθεση με την γενικευμένη εξίσωση ΣΑΤΧ 2-1. N N J = L w,b (x i, y i ) = Q w,b (w T x i + b, y i ) (4-3) i=1 i=1

38 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 27 J = N Q w,b (w T R Θ (F i ) + b, y i ) i=1 N = Q w,b (w T 1 N Fi T N Θ (f ij ) + b, y i ) i=1 Fi j=1 (4-4) Μπορούμε πλέον θεωρώντας γνωστή την παράγωγο της L w,b ( ) ως προς x i να υλοποιήσουμε τον αλγόριθμο 2 χρησιμοποιώντας κάποια μέθοδο κλίσης για την ελαχιστοποίηση της J ως προς Θ. Η μέθοδος κλίσης που θα επιλέξουμε θα είναι όπως και στην ενότητα 3.4 το Stochastic Gradient Descent. Στην εξίσωση 4-5 υπολογίζεται η παράγωγος της J ως προς Θ για Kernel Codebook και στη συνέχεια στον αλγόριθμο 3 υλοποιείται η μέθοδος. ( ) ( θ1 ) θ1 J (RΘ (F i )) 1 Q w,b (p i, y i ) (R Θ (F i )) ( ) 1 ( θ2 ) Θ J = θ2 J N. = (RΘ (F i )) 2 Q w,b (p i, y i ) (R Θ (F i )) 2 i=1. ( ) θk J ( θk ) (RΘ (F i )) K Q w,b (p i, y i ) (R Θ (F i )) K = N ( ) RΘ (F i ) p ( pi i Q w,b (p i, y i ) ) 1 N Fi N Fi Θ T Θ (f ij ) i=1 j=1 2γ(f ij θ 1 ) N ( = w pi Q w,b (p i, y i ) ) 1 N Fi 2γ(f ij θ 2 ) N i=1 Fi j=1. T Θ(f ij ) 2γ(f ij θ K ) (4-5) Επαναλαμβάνουμε ότι p i = w T x i + b και pi Q w,b είναι η παράγωγος της συνάρτησης κόστους του ταξινομητή ως προς τον όρο p i και η T Θ ( ) στην εξίσωση 4-5 είναι η συνάρτηση μετασχηματισμού του KCB Σύνθεση με SVM Ο πρώτος ταξινομητής με τον οποίο δοκιμάστηκε η παραπάνω μέθοδος είναι ο SVM (Support Vector Machine). Ο SVM είναι γνωστός για την ανοχή του στο overfitting και για την γρήγορη επίλυσή του στο διττό (dual) του πρόβλημα που επιτρέπει την χρήση του Kernel trick. Θα εκμεταλλευτούμε το διττό πρόβλημα με τον επαναληπτικό αλγόριθμο

39 ΣΥΝΘΕΣΗ KERNEL CODEBOOK ΜΕ ΓΡΑΜΜΙΚΟ ΤΑΞΙΝΟΜΗΤΗ Algorithm 3 Εκμάθηση διαχωριστικού λεξιλογίου με σύνθεση KCB και γενικευμένου γραμμικού ταξινομητή 1: K το μέγεθος του λεξιλογίου Θ 2: F το σύνολο των τοπικών χαρακτηριστικών 3: Y οι κατηγορίες των δειγμάτων 4: γ η διακύμανση των Gaussian Kernel 5: η το βήμα εκμάθησης του SGD 6: m η αδράνεια του SGD 7: B το μέγεθος του mini-batch του SGD 8: Θ choose_random(f, K) Αρχικοποίηση του λεξιλογίου 9: g Θ 0 Gradient accumulator 10: v Θ 0 11: N f 0 Ο αριθμός των δειγμάτων που έχουμε δεί 12: for epoch t do 13: w, b arg min w,b J Ελαχιστοποιούμε για δεδομένο Θ χρησιμοποιώντας την βέλτιστη μέθοδο για τον ταξινομητή μας 14: for F i, y i F, Y do 15: N f N f : g Θ g Θ + Θ J Fi 17: if N f mod B = 0 then Κάθε B δείγματα 18: v Θ v Θ m η g Θ 19: Θ Θ + v Θ Ανανέωση του λεξιλογίου 20: g Θ 0 Μηδενισμός του gradient 21: end if 22: end for 23: end for (τον αλγόριθμο 3), αλλά θα πρέπει να ορίσουμε τον SVM στο πρωταρχικό (primal) πρόβλημα ώστε να υπολογίσουμε την παράγωγο pi Q w,b. Το primal πρόβλημα του SVM εκφράζεται στην εξίσωση 4-6. Χρησιμοποιούμε την squared hinge loss γιατί έχει καλύτερα αποτελέσματα για την εκμάθηση των παραμέτρων στο primal πρόβλημα. Πριν αναλύσουμε την συνάρτηση κόστους πρέπει να αναφέρουμε ότι ο SVM βρίσκει ένα διαχωριστικό υπερ-επίπεδο μεταξύ των κατηγοριών μας. Το επίπεδο αυτό ορίζεται από τη σχέση w T x + b = 0. Τα x για τα οποία w T x + b 0 ανήκουν στην κατηγορία 1 ενώ τα υπόλοιπα στην 1. Συνεπάγεται λοιπόν ότι για τον SVM y i { 1, 1}. { 1 pi y l(p i, y i ) = i p i y i 1 0 otherwise N ( J = l(w T 2 x i + b, y i )) + w T w i=1 (4-6) Η συνάρτηση κόστους ανά δείγμα, της εξίσωσης 4-7, προκύπτει γράφοντας την εξίσωση 4-6 στη μορφή της 4-3 και προσθέτοντας επιπλέον μία παράμετρο που βαρύνει τον πρώτο όρο του αθροίσματος. Χρησιμοποιούμε επιπλέον και τον όρο N 1 στη συνάρτηση κόστους

40 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 29 για να είναι ένα προς ένα η αναλογία με τη συνάρτηση που ορίζεται στην εξίσωση 4-6. Q w,b = C 2 l(p i, y i ) N wt w (4-7) Για τη χρήση πλέον του SVM στη μέθοδό μας αρκεί να υπολογίσουμε την παράγωγο της συνάρτησης κόστους ως προς p i. Πριν προχωρήσουμε στην παραγώγιση πρέπει να επισημάνουμε ότι η συνάρτηση κόστους του SVM (η συνάρτηση l(p i, y i )) όπως είχε αρχικά οριστεί δεν είναι παραγωγίσιμη. Γι αυτό χρησιμοποιείται η ομαλή προσέγγισή της η l(p i, y i ) 2. pi Q w,b = { Cyi l(p i, y i ) p i y i 1 0 otherwise (4-8) Ο SVM, όπως έχουμε ήδη αναφέρει, είναι αλγόριθμος ταξινόμησης με πολλά θετικά χαρακτηριστικά που τον καθιστούν καλή πρώτη επιλογή για οποιοδήποτε πρόβλημα ταξινόμησης με επίβλεψη. Αναφορικά με την μέθοδό μας όμως, χρησιμοποιώντας SVM παρουσιάζεται ένα σημαντικό πρόβλημα που δεν είναι εύκολο να λύσουμε. Ο SVM ορίζεται κυρίως για διαχωρισμό δύο κατηγοριών και όχι περισσότερων (binary classification). Οι υλοποιήσεις του SVM για τον διαχωρισμό πολλών κατηγοριών γίνονται σχεδόν αποκλειστικά (αν εξαιρέσουμε την μέθοδο Crammer-Singer [5]) χωρίζοντας το πρόβλημα σε ξεχωριστά binary classification προβλήματα. Αυτό έχει ως αποτέλεσμα να καταλήγουμε σε ένα λεξιλόγιο για κάθε κατηγορία και να πρέπει να λύσουμε το πρόβλημα εύρεσης του λεξιλογίου τόσες φορές όσες είναι οι κατηγορίες μας Σύνθεση με Multinomial Logistic Regression Για να λύσουμε το πρόβλημα που περιγράψαμε στην προηγούμενη υποενότητα, την δημιουργία δηλαδή πολλών λεξιλογίων για την διαχωρίσιμη περιγραφή των τοπικών χαρακτηριστικών, χρησιμοποιούμε έναν ταξινομητή ο οποίος ορίζεται φυσικά και στα προβλήματα με πολλές κατηγορίες. Ο ταξινομητής αυτός είναι η Multinomial Logistic Regression, στο εξής και MLR. Η MLR είναι και αυτή γενικευμένος γραμμικός ταξινομητής και μαθαίνει ένα σύνολο από επίπεδα τα οποία χωρίζουν τις κατηγορίες μας. Η MLR έχει και πιθανοτική ερμηνεία η οποία όμως δεν θα αναλυθεί στην παρούσα διπλωματική. Στην MLR το σύνολο των πιθανών y i είναι Y = {y i {0, 1} N C yi T y i = 1} με N C ο αριθμός των κατηγοριών που επιδιώκουμε να προβλέψουμε. Ο περιορισμός yi T y i = 1

41 ΣΥΝΘΕΣΗ KERNEL CODEBOOK ΜΕ ΓΡΑΜΜΙΚΟ ΤΑΞΙΝΟΜΗΤΗ σημαίνει ότι το y i θα έχει 1 μόνο σε μια θέση η οποία δείχνει και την κατηγορία στην οποία ανήκει το δείγμα i. Στην εξίσωση 4-9 ορίζουμε την συνάρτηση κόστους στη μορφή της 4-3 και στη συνέχεια υπολογίζουμε την παράγωγο ως προς p i για να μπορεί να γίνει η χρήση του αλγορίθμου 3. Q w,b = C log P (y = y i x i ) + 1 ) (w N tr T w = C log e pt i y i y j Y ept i y + 1 ) (w j N tr T w = C log e pt i y j Cp T i y i + 1 ) (w N tr T w y j Y (4-9) pi Q w,b = pi C log e pt i y j pi Cp T i y i y j Y = C p i y j Y ept i y j ( Cy i y j Y ept i j) y (4-10) y j Y = C ept i y jy j ( Cy i y j Y ept i j) y Επισημαίνεται ότι το p i και κατά συνέπεια η pi Q w,b είναι διανύσματα στον R N C. Η κατηγορία στην MLR επιλέγεται από το p i σύμφωνα με την εξίσωση ŷ i = arg max p i. Η παράμετρος C όπως και στον SVM βαρύνει τον πρώτο όρο του αθροίσματος δηλαδή ) τον όρο που οδηγεί στην εκμάθηση του συνόλου προπόνησης. Ο όρος N (w 1 tr T w είναι όρος μείωσης των βαρών που προστατεύει από υπερπροπόνηση (overfitting). Το N 1 αντίστοιχα με την συνάρτηση κόστους του SVM επιτρέπει αυτούσια την χρήση της Q w,b στην εξίσωση 4-5. Παρ ότι η πολυπλοκότητα του υπολογισμού του pi Q w,b είναι γραμμική αναφορικά με το N C στην MLR το βασικό κόστος του υπολογισμού του Θ J είναι ο υπολογισμός του όρου Θ R Θ (F i ) οπότε η εκμάθηση ενός λεξιλογίου με ταξινομητή MLR και SVM έχουν σχεδόν την ίδια πολυπλοκότητα με την διαφορά ότι χρησιμοποιώντας τον SVM πρέπει να μάθουμε N C λεξιλόγια, ένα για κάθε κατηγορία.

42 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ Προσθήκη ποινής αραιότητας στη συνάρτηση κόστους Πριν παρουσιάσουμε την εκμάθηση των λεξιλογίων σε συνθετικά δεδομένα θα αναλύσουμε ακόμη μια προσθήκη στη μέθοδο των προηγούμενων ενοτήτων του κεφαλαίου που σκοπεύει να προσθέσει μερικά από τα θετικά χαρακτηριστικά του Sparse Autoencoder στις μεθόδους με επίβλεψη. Θα προσθέσουμε στη συνάρτηση κόστους των γενικευμένων γραμμικών ταξινομητών μία ποινή αραιότητας για τα ολικά χαρακτηριστικά R Θ (F i ) με στόχο να βρίσκουμε λεξιλόγια με το ελάχιστο δυνατό πλήθος λέξεων και ανθεκτικά στο overfitting (υπερπροπόνηση). Η συνάρτηση κόστους 4-4 γίνεται αυτή της εξίσωσης 4-11 και είναι απλό να υπολογιστεί η παράγωγος συνδυάζοντας τους υπολογισμούς των εξισώσεων 4-5 και N ) J = (Q w,b (w T R Θ (F i ) + b, y i ) + α R Θ (F i ) 1 i=1 (4-11) Θ J = N ( (w pi Q w,b ) Θ R Θ (F i ) + α sign (R Θ (F i )) Θ R Θ (F i ) ) i=1 N ( = (w pi Q w,b ) + α sign (R Θ (F i )) ) Θ R Θ (F i ) i=1 2γ(f ij θ 1 ) N ( = (w pi Q w,b ) + α sign (R Θ (F i )) ) 1 N Fi 2γ(f ij θ 1 ) N i=1 Fi j=1. T Θ(f ij ) 2γ(f ij θ K ) (4-12) Η παράμετρος α βαρύνει την ποινή αραιότητας και αυξάνοντάς την καταλήγουμε σε λεξιλόγια που παράγουν αραιότερα ολικά χαρακτηριστικά. Η προσθήκη της ποινής αραιότητας δεν αυξάνει την πολυπλοκότητα στους υπολογισμούς μας, αλλά προσθέτει ακόμη μία παράμετρο αρχικοποίησης, η τιμή της οποίας δεν είναι εύκολο να βρεθεί.

43 ΕΚΜΑΘΗΣΗ ΛΕΞΙΛΟΓΙΩΝ ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ 4.4 Εκμάθηση λεξιλογίων σε συνθετικά δεδομένα Στην ενότητα αυτή θα δοκιμάσουμε την μέθοδο εκμάθησης λεξιλογίων σε διάφορα συνθετικά δεδομένα και θα συγκρίνουμε τα λεξιλόγια που παράγονται από τον K-Means αλλά και την χωρίς επίβλεψη μέθοδο που εισάγαμε στην ενότητα Με επίβλεψη και χωρίς επίβλεψη Αρχικά επαναλαμβάνουμε την εκμάθηση λεξιλογίων στα 3 συνθετικά σύνολα της ενότητας 3.4 και συγκρίνουμε την ποιότητα των λεξιλογίων στο σχήμα 4.2. Θυμίζουμε ότι σε κάθε περίπτωση το λεξιλόγιο αποτελείται από 20 λέξεις και ότι για όλα τα λεξιλόγια τα σύνολα καταλήγουν γραμμικώς διαχωρίσιμα στο χώρο των ολικών χαρακτηριστικών. Είναι απ ευθείας εμφανής η διαφορά των λεξιλογίων που έχουν προέλθει από μέθοδο με επίβλεψη. Φαίνεται ότι οι λέξεις επιλέγονται όχι για να περιγράψουν τα σημεία αλλά για να τα διαχωρίσουν. Στην πρώτη σειρά του σχήματος 4.2 η πλειοψηφία των λέξεων επιλέγεται στο κέντρο των κύκλων καθώς αυτό αρκεί για να χωριστούν πλήρως τα σημεία. Είναι ενδιαφέρον να δείξουμε ότι όσο μεγάλο λεξιλόγιο και να μάθουμε η μέθοδος με επίβλεψη καταλήγει στο ίδιο σημείο κάτι που φαίνεται στο σχήμα 4.1. Σχήμα 4.1: Εκμάθηση λεξιλογίων διαφορετικού μεγέθους με Autoencoder και με επίβλεψη

44 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 33 Σχήμα 4.2: Σύγκριση των λεξιλογίων που παράγονται για συνθετικά δεδομένα από μεθόδους με και χωρίς επίβλεψη Επίδραση των παραμέτρων στο λεξιλόγιο Σε αυτή την υποενότητα θα προσπαθήσουμε χρησιμοποιώντας ημι-συνθετικά δεδομένα να αποκτήσουμε διαίσθηση και κατανόηση για την επίδραση των παραμέτρων στη συμπεριφορά της μεθόδου. Θα χρησιμοποιήσουμε τις 3 πρώτες διαστάσεις του iris dataset όπως φαίνεται και στο σχήμα 4.3.

45 ΕΚΜΑΘΗΣΗ ΛΕΞΙΛΟΓΙΩΝ ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ Σχήμα 4.3: Οι πρώτες 3 διαστάσεις του iris dataset Οι αποδόσεις των αλγορίθμων με τις βέλτιστες παραμέτρους για 5 κέντρα φαίνονται στον πίνακα 4.1. Το dataset όπως και τα άλλα που έχουμε χρησιμοποιήσει δεν είναι αντιπροσωπευτικό πραγματικών δεδομένων, καθώς τα τοπικά μας χαρακτηριστικά είναι ολικά. Αυτό εξηγεί και την πολύ κακή απόδοση του Bag of Words, επειδή δεν γίνεται κάποια άθροιση και τα ολικά χαρακτηριστικά καταλήγουν να είναι απλά το κοντινότερο κέντρο του K-Means. Παρ όλα αυτά παρατηρούμε βελτίωση των κέντρων του K-Means και από τη χωρίς επίβλεψη μέθοδο τον Sparse Autoencoder. Αρχικά θα μελετήσουμε την επίδραση που έχει η παράμετρος C που είναι και αυτή που βαρύνει τη λάθος πρόβλεψη του αλγορίθμου ταξινόμησης. Μεγάλο C αναμένουμε να οδηγήσει σε overfitting και λεξιλόγια τα οποία διαχωρίζουν τα σημεία του συνόλου προπόνησης, αλλά όχι του συνόλου εκτίμησης. Επειδή το iris dataset είναι πολύ εύκολο και ο αλγόριθμος δύσκολα κάνει overfit δημιουργήσαμε ένα άλλο dataset, για τη συγκεκριμένη παράμετρο μόνο, και τα αποτελέσματα προπόνησης φαίνονται στο σχήμα 4.4.

46 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 35 Αλγόριθμος Accuracy SVM 0.98 K-Means + BOW + SVM 0.88 K-Means + KCB + SVM 0.92 Sparse Autoencoder + KCB + SVM 0.98 MLR + KCB + SVM 0.98 Πίνακας 4.1: Συγκριτικά αποτελέσματα όλων των μεθόδων εύρεσης λεξιλογίου στο iris dataset με τις βέλτιστες παραμέτρους τους Είναι προφανές ότι γίνεται overfit, επειδή η ακρίβεια πρόβλεψης στο σύνολο προπόνησης αυξάνεται συνεχώς, ενώ η ακρίβεια πρόβλεψης στο σύνολο εκτίμησης μειώνεται για C = 10. Αντίθετα για C = 0.1 βλέπουμε ότι αυξάνεται η ακρίβεια και στα δύο σύνολα δεδομένων (training set και test set). Σχήμα 4.4: Παράδειγμα overfitting αναφορικά με την παράμετρο C Στο σχήμα 4.6 παρατηρούμε ότι όσο μικρότερο είναι το γ ο αλγόριθμος τοποθετεί τις λέξεις πιο μακριά από τα σημεία προσπαθώντας να περιγράψει με κάθε λέξη συγκεκριμένα υποσύνολα. Αυτό συμβαίνει επειδή θα πρέπει τα σημεία μίας κατηγορίας να έχουν μη μηδενικές (όσο το δυνατόν μεγαλύτερες) τιμές και τα σημεία της γειτονικής κατηγορίας μηδενικές (όσο το δυνατόν μικρότερες) τιμές ώστε να οριστεί η διαχωριστική επιφάνεια. Συνεπώς, όταν το γ είναι μικρό η διαχωριστική επιφάνεια που ορίζεται εί-

47 ΕΚΜΑΘΗΣΗ ΛΕΞΙΛΟΓΙΩΝ ΣΕ ΣΥΝΘΕΤΙΚΑ ΔΕΔΟΜΕΝΑ Σχήμα 4.5: Λεξιλόγια με ποινή αραιότητας και χωρίς ναι πιο ομαλή και πιθανώς πιο ανθεκτική στην υπερπροπόνηση (overfitting). Παρ όλα αυτά δεν μπορούμε να βάζουμε οσοδήποτε μικρό γ, μιας και αυτό περιορίζει τις επιλογές του αλγορίθμου για την τοποθέτηση των σημείων. Για παράδειγμα στο σχήμα 4.6 στη δεύτερη γραμμή παρατηρούμε ότι στην πρώτη στήλη έχουν τοποθετηθεί σημεία και ενδιάμεσα των μπλε και πράσινων ομάδων. Στη δεύτερη στήλη αν τοποθετούνταν ενδιάμεσα δε θα μπορούσαν να ξεχωρίσουν μεταξύ των μπλε και πράσινων. Τέλος η παράμετρος α, η ποινή αραιότητας, δημιουργεί λεξιλόγια που περιγράφουν τα δεδομένα με όσο το δυνατόν λιγότερες λέξεις τη φορά. Για να το πετύχουν αυτό μεταφέρουν τη μία λέξη μακριά από την άλλη και όπως φαίνεται στο σχήμα 4.5 μερικές λέξεις μακριά από κάθε σημείο καθιστώντας τις περιττές. Επισημαίνουμε ότι και τα δύο λεξιλόγια στο σχήμα 4.5 πετυχαίνουν ακριβώς την ίδια ακρίβεια στο σύνολο εκτίμησης (test set).

48 ΚΕΦΑΛΑΙΟ 4. ΕΚΜΑΘΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΣΑΤΧ ΜΕ ΕΠΙΒΛΕΨΗ 37 Σχήμα 4.6: Λεξιλόγια για διάφορες τιμές της παραμέτρου γ

49 Κεφάλαιο 5 Πειράματα Στο συγκεκριμένο κεφάλαιο δοκιμάζουμε τις μεθόδους που προτείναμε σε δύσκολα σύνολα πραγματικών δεδομένων και τις συγκρίνουμε με το state of the art. Εκτελούμε πειράματα για εικόνες και για βίντεο και δείχνουμε ότι οι μέθοδοί μας είναι ανταγωνιστικές, ειδικά όταν το μέγεθος του λεξιλογίου είναι μικρό. 5.1 Πειραματική διάταξη Σε αυτή την ενότητα θα αναλύσουμε όλους τους αλγορίθμους και τις μετρικές που είναι κοινές στα πειράματά μας. Θα αναφερθούν οι παράμετροι, οι βιβλιοθήκες ανοιχτού κώδικα και οι λεπτομέρειες των δικών μας υλοποιήσεων Τοπικά χαρακτηριστικά SIFT Για την εξαγωγή SIFT τοπικών χαρακτηριστικών από βίντεο αρχικά υποδειγματοληπτούμε τα καρέ του. Για κάθε καρέ που προσθέτουμε στο σύνολο των εικόνων παραλείπουμε 5. Αν το σύνολο δεδομένων μας αποτελείται από εικόνες, τότε η διαδικασία που αναλύεται στη συνέχεια εκτελείται για κάθε εικόνα. Από κάθε εικόνα του παραπάνω συνόλου εξάγουμε πλακίδια μεγέθους pixel με βήμα 5 pixel. Ξεκινώντας, δηλαδή, από το σημείο (0, 0) μετακινούμαστε στο (0, 5), (0, 10), 38

50 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 39..., (5, 0), (5, 5) κ.ο.κ.. Τα δεξιά και κάτω άκρα της εικόνας για τα οποία δεν μπορεί να δημιουργηθεί πλακίδιο, απλά παραλείπονται. Για κάθε ένα από τα πλακίδια μας εξάγουμε SIFT χαρακτηριστικά χρησιμοποιώντας την βιβλιοθήκη OpenCV [4] με τις παραμέτρους που αναγράφονται στον πίνακα 5.1. Παράμετρος Περιγραφή Τιμή nfeatures Ο αριθμός των καλύτερων χαρακτηριστικών που θα διατηρηθούν (0 σημαίνει διατηρούνται όλα) noctavelayers Ο αριθμός των layer σε κάθε οκτάβα από το [13] 3 contrastthreshold edgethreshold sigma Το όριο που χρησιμοποιείται για να αφαιρεθούν χαρακτηριστικά σε ομοιόμορφες περιοχές της εικόνας Το όριο που χρησιμοποιείται για να αφαιρεθούν χαρακτηριστικά που μοιάζουν με ακμές Η αρχική τυπική απόκλιση της Gaussian κατανομής στην πρώτη οκτάβα Πίνακας 5.1: Παράμετροι για την εξαγωγή SIFT χαρακτηριστικών με την OpenCV Improved Dense Trajectories Για την εξαγωγή των τοπικών χαρακτηριστικών Improved Dense Trajectories (IDENSE) χρησιμοποιήσαμε τον κώδικα 1 των Wang και Schmid [23] ο οποίος με την σειρά του χρησιμοποιεί τις βιβλιοθήκες OpenCV και FFMpeg. Οι παράμετροι που χρησιμοποιήθηκαν παρατίθενται στον πίνακα Ολικά χαρακτηριστικά Bag of Words Για την εύρεση του λεξιλογίου που θα χρησιμοποιηθεί στην υλοποίηση των Bag of Words αρχικά επιλέγονται τυχαία 200,000 τοπικά χαρακτηριστικά από κάθε σύνολο δεδομένων. Στη συνέχεια βρίσκονται τα κέντρα που θα αποτελέσουν το λεξιλόγιό με τον αλγόριθμο K-Means. Η υλοποίηση του K-Means γίνεται με τη βιβλιοθήκη scikit-learn [18]. Ο αλγόριθμος εκτελείται 10 φορές από διαφορετική αρχική θέση και το αποτέλεσμα είναι αυτό με το μικρότερο κόστος, δηλαδή το μικρότερο άθροισμα των τετραγώνων των διαφορών κάθε σημείου μιας ομάδας από το κέντρο της. 1

51 ΠΕΙΡΑΜΑΤΙΚΗ ΔΙΑΤΑΞΗ Παράμετρος Περιγραφή Τιμή S E Το καρέ από το οποίο θα ξεκινήσει η εξαγωγή χαρακτηριστικών Το καρέ στο οποίο θα σταματήσει η εξαγωγή χαρακτηριστικών 0 τελευταίο L Το μήκος κάθε τροχιάς σε καρέ 15 W N s t Το μέγεθος του πυκνού πλέγματος για τον υπολογισμό των τροχιών Η περιοχή γύρω από την τροχιά με βάση την οποία θα υπολογιστούν οι descriptor Ο αριθμός των κελιών για τον υπολογισμό των descriptor στους χωρικούς άξονες Ο αριθμός των κελιών για τον υπολογισμό των descriptor στον άξονα του χρόνου Πίνακας 5.2: Παράμετροι για την εξαγωγή των Improved Dense Trajectories Στη συνέχεια χρησιμοποιούμε τα κέντρα που βρίσκει ο K-Means ως λεξιλόγιο και υπολογίζουμε ολικά χαρακτηριστικά σύμφωνα με τη ΣΑΤΧ του Bag of Words στην εξίσωση Fisher Vectors Για τον υπολογισμό των Fisher Vectors ακολουθείται παρόμοια διαδικασία με αυτή για τα Bag of Words. Δειγματοληπτούνται ξανά 200,000 τυχαία τοπικά χαρακτηριστικά από κάθε σύνολο δεδομένων. Χρησιμοποιείται το scikit-learn για τον υπολογισμό ενός Gaussian Mixture Model που περιγράφει βέλτιστα αυτό το υποσύνολο των 200,000 χαρακτηριστικών. Το GMM που μαθαίνουμε έχει 256 κέντρα όπως προτείνεται από το [19]. Στη συνέχεια για τον υπολογισμό των ολικών χαρακτηριστικών δεν υπολογίζεται απλά η εξίσωση 2-3. Υπολογίζεται η προσέγγιση της διαγωνίου του Fisher Information Matrix E Fi [R Θ (F i )R Θ (F i ) T ] σύμφωνα με το [19] και χρησιμοποιείται για κανονικοποίηση. Επιπλέον γίνεται κανονικοποίηση ώστε R Θ (F i ) 2 = 1 και στη συνέχεια γίνεται κανονικοποίηση ισχύος όπου κάθε συνιστώσα x των ολικών χαρακτηριστικών αντικαθίσταται με το sign (x) x.

52 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ Εκμάθηση ΣΑΤΧ με επίβλεψη Στη μέθοδο εκμάθησης λεξιλογίου που παρουσιάσαμε, εκμεταλλευόμαστε όπως ήδη αναφέραμε, την κυρτότητα των προβλημάτων ταξινόμησης για να υλοποιήσουμε τον αλγόριθμο 2. Για την εύρεση ελαχίστου στις συναρτήσεις κόστους των SVM και MLR χρησιμοποιούμε πάλι το scikit-learn που χρησιμοποιεί το LIBLINEAR [7] για τον γραμμικό SVM και μία υλοποίηση της Quasi-Newton μεθόδου LBFGS για την Multinomial Logistic Regression. Για να αντιμετωπίσουμε το πρόβλημα ενός συνόλου δεδομένων με πολλά δείγματα σε μερικές κατηγορίες και λίγα σε άλλες (class imbalance) πολλαπλασιάζουμε την παράμετρο C των εξισώσεων 4-7 και 4-9 με μία ακόμη της οποίας η τιμή μεταβάλλεται ανάλογα με το πλήθος των δειγμάτων σε κάθε κατηγορία. Αν N i είναι το πλήθος δειγμάτων για την κατηγορία i και N C το πλήθος των κατηγοριών τότε η παράμετρος C πολλαπλασιάζεται με το C i που υπολογίζεται από την εξίσωση 5-1. C i = NC j=1 N j N C N i (5-1) Ταξινομητές Για την ταξινόμηση των ολικών χαρακτηριστικών χρησιμοποιείται γραμμικός SVM μέσω του scikit-learn. Για να μπορούμε να ταξινομήσουμε σε πολλές κατηγορίες χρησιμοποιούμε τη στρατηγική one-vs-rest στην οποία χωρίζεται το πρόβλημα σε πολλά binary classification προβλήματα και προπονείται ένας SVM για κάθε ένα πρόβλημα. Η κατηγορία που επιλέγουμε είναι αυτή της οποίας ο SVM προβλέπει την πιο θετική τιμή σύμφωνα με την εξίσωση 5-2 αν w i και b i οι παράμετροι του i SVM που προβλέπει την i κατηγορία. ( ) ĉ = arg max wi T x + b i i (5-2) Αντίστοιχα με τη χρήση των ταξινομητών για τις με επίβλεψη μεθόδους εκμάθησης λεξιλογίου, χρησιμοποιείται και στην ταξινόμηση των ολικών χαρακτηριστικών μία ακόμη παράμετρος C i που μεταβάλλει την παράμετρο C του ταξινομητή ανάλογα με την κατηγορία. Η παράμετρος αυτή υπολογίζεται από την σχέση 5-1. Για την εύρεση της βασικής παραμέτρου C χρησιμοποιούμε cross-validation με 3 folds

53 ΠΕΙΡΑΜΑΤΙΚΗ ΔΙΑΤΑΞΗ (δηλαδή χωρίζουμε το σύνολο προπόνησης σε 3 μέρη και με τα 2 προσπαθούμε να προβλέψουμε το τρίτο) για να αποφασίσουμε μεταξύ ενός προαποφασισμένου συνόλου τιμών Μετρικές απόδοσης Στα πειράματά μας χρησιμοποιούνται σχεδόν αποκλειστικά 2 μετρικές απόδοσης, η ακρίβεια της ταξινόμησης (accuracy) και η ακρίβεια κατάταξης (average precision). Για να υπολογίσουμε αυτές τις μετρικές χωρίζουμε το σύνολο δεδομένων μας σε σύνολο προπόνησης και εκτίμησης. Αυτό γίνεται επιλέγοντας τυχαία τα 2 3 των δειγμάτων κάθε κατηγορίας για προπόνηση και τα υπόλοιπα για εκτίμηση. Όλες οι τιμές εκτός αν αναφέρεται ρητά είναι υπολογισμένες στο σύνολο εκτίμησης Ακρίβεια ταξινόμησης Η ακρίβεια της ταξινόμησης είναι το ποσοστό των σωστών αποφάσεων του αλγορίθμου ταξινόμησης. Υπολογίζεται από την εξίσωση 5-3 όπου c i η κατηγορία του δείγματος i και ĉ i η πρόβλεψη της κατηγορίας. 1 N N i=1 { 1 ci = ĉ i 0 otherwise (5-3) Ακρίβεια κατάταξης Η ακρίβεια κατάταξης είναι μετρική που βαθμολογεί την κατάταξη που κάνει ο αλγόριθμος στα δείγματα σύμφωνα με την εμπιστοσύνη του ότι ανήκουν στην κατηγορία i. Ορίζεται για πρόβλημα με 2 κατηγορίες μόνο την θετική και την αρνητική. Όταν έχουμε περισσότερες κατηγορίες υπολογίζουμε την ακρίβεια κατάταξης για κάθε κατηγορία και μετά τον μέσο όρο τους. Προτού ορίσουμε μαθηματικά την ακρίβεια κατάταξης θα πρέπει να ορίσουμε τις έννοιες precision και recall. Θεωρούμε ένα πρόβλημα με δύο κατηγορίες και συμβολίζουμε τη θετική με 1 και την αρνητική με 0. Προπονούμε έναν ταξινομητή ώστε να προβλέπει την θετική κατηγορία. Ορίζουμε precision και recall σύμφωνα με την εξίσωση 5-4 όπου

54 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 43 c i η κατηγορία του δείγματος και ĉ i η πρόβλεψη. P r(k) = R(k) = R(0) = 0 { ki=1 1 ci = 1 ĉ i = 1 0 otherwise { ki=1 1 ĉi = 1 0 otherwise { ki=1 1 ci = 1 ĉ i = 1 0 otherwise { ki=1 1 ci = 1 0 otherwise R(k) = R(k) R(k 1) (5-4) Ορίζουμε την εμπιστοσύνη του ταξινομητή ότι το δείγμα i ανήκει στη θετική κατηγορία και ταξινομούμε τα δείγματα σύμφωνα με αυτή την εμπιστοσύνη. Στους γραμμικούς ταξινομητές η παραπάνω εμπιστοσύνη ορίζεται ως w T x i + b. Αφού έχουν ταξινομηθεί τα δείγματα η ακρίβεια κατάταξης ορίζεται ως το διακριτό ολοκλήρωμα της συνάρτησης του precision ως προς το recall που φαίνεται στην εξίσωση 5-5. N P r(k) R(k) (5-5) k=1 5.2 Caltech 101 Στο πρώτο πείραμα χρησιμοποιείται το σύνολο δεδομένων Caltech [8]. Το σύνολο αυτό είναι ένα σύνολο εικόνων με 101 κατηγορίες, 40 με 800 εικόνες σε κάθε κατηγορία και 8677 εικόνες συνολικά. Οι εικόνες είναι μεγέθους περίπου pixels αλλά υπάρχουν γενικά μεγάλες διακυμάνσεις όπως φαίνεται και στο σχήμα 5.1. Σχήμα 5.1: 5 τυχαίες εικόνες του Caltech 101 Η προτεινόμενη μέθοδος προπόνησης και εκτίμησης στο συγκεκριμένο σύνολο δεδομέ- 2

55 CALTECH 101 νων είναι η τυχαία επιλογή συγκεκριμένου αριθμού εικόνων (1, 3, 5, 10, 15, 20, 30) για προπόνηση και αντίστοιχα η τυχαία επιλογή σταθερού αριθμού εικόνων για εκτίμηση (20, 30). Η παραπάνω διαδικασία γίνεται πολλές φορές και υπολογίζονται διαστήματα σφάλματος για τα σύνολα εκτίμησης. Τα τελευταία χρόνια το Caltech 101 έχει αντικατασταθεί με το Caltech 256 που είναι μεγαλύτερο και δυσκολότερο, χαρακτηριστικά που δεν απαραίτητα στην εκτίμηση μεθόδων άθροισης τοπικών χαρακτηριστικών γι αυτό και επιλέχθηκε το πρώτο. Για την εκτίμηση των μεθόδων άθροισης τοπικών χαρακτηριστικών δημιουργήσαμε 3 υποσύνολα του Caltech 101 (τα οποία διαθέτουμε και online 3 ) όπου το καθένα έχει 300 εικόνες και 10 κατηγορίες τυχαία επιλεγμένες από τις 8677 και 101 αντίστοιχα. Το παραπάνω έγινε για εξοικονόμηση πόρων καθώς από 3000 περίπου εικόνες ρίχνουμε το μέγεθος του προβλήματος κατά μια τάξη. Τα σύνολα αυτά τα επεξεργαζόμαστε με την διαδικασία που περιγράφηκε στην ενότητα 5.1 για την εξαγωγή τοπικών χαρακτηριστικών SIFT και στη συνέχεια Fisher Vectors και Bag of Words Μέθοδος εκμάθησης παραμέτρων ΣΑΤΧ με επίβλεψη Στην υποενότητα αυτή θα αναλύσουμε την εφαρμογή της μεθόδου εκμάθησης παραμέτρων με επίβλεψη και τα αποτελέσματά της στα 3 υποσύνολα που περιγράψαμε στην αρχή της ενότητας. Επιλέχθηκε η παραλλαγή της γενικής μεθόδου που αναλύθηκε στην υποενότητα 4.2.2, η σύνθεση δηλαδή του Kernel Codebook με Multinomial Logistic Regression, για την εκμάθηση ενός λεξιλογίου που περιγράφει όλο το σύνολο δεδομένων μας και έτσι καθίσταται άμεση η σύγκριση με τις υπόλοιπες μεθόδους. Υπολογίσαμε για τα τρία υποσύνολα του Caltech 101 λεξιλόγια με 50, 100, 200, 300, 500, 700 και 1000 λέξεις. H παράμετρος γ επιλέγεται αυτόματα, σύμφωνα με τον αλγόριθμο 4, καθώς η αναζήτηση του γ σε ένα σύνολο από τιμές θα αύξανε σε απαγορευτικό βαθμό τον αριθμό των λεξιλογίων που θα χρειαζόταν να μάθουμε. Πρακτικά αυτό που υλοποιείται στον αλγόριθμο 4 είναι η επιλογή του γ από ένα σύνολο πιθανών τιμών τέτοια ώστε να επιτυγχάνεται η μικρότερη δυνατή αρχική τιμή της συνάρτησης κόστους που θα ελαχιστοποιήσουμε στη συνέχεια. Η ελαχιστοποίηση στη γραμμή 7 υλοποιείται πολύ γρήγορα καθώς εκμεταλλευόμαστε την κυρτότητα της L w,b ως προς w και b. Για την επιλογή του αρχικού Θ εφαρμόζουμε παρόμοια μέθοδο. Επιλέγουμε 10 φορές τυχαία τοπικά χαρακτηριστικά για να χρησιμοποιήσουμε ως λεξιλόγιο. Στη συνέχεια κρατάμε αυτά που μας ελαχιστοποιούν την 3

56 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 45 Ni=1 L w,b (w T R Θ,ˆγ (F i ) + b, y i ) ως προς w και b. Algorithm 4 Αυτόματη επιλογή της παραμέτρου γ για ένα dataset 1: Θ τυχαία επιλεγμένα τοπικά χαρακτηριστικά 2: s Το καλύτερο σκορ αρχικοποιείται στο 3: γ 0 4: for i {0.01, 0.1, 1, 10} do 5: for j από 1 μέχρι 10 με βήμα 1 do 6: ˆγ i j 7: ŝ = min w,b Ni=1 L w,b (w T R Θ,ˆγ (F i ) + b, y i ) 8: if ŝ s then 9: s ŝ 10: γ ˆγ 11: end if 12: end for 13: end for Οι υπόλοιπες παράμετροι του αλγορίθμου εκμάθησης επιλέγονται σταθερές σύμφωνα με τον πίνακα 5.3. Στη συνέχεια εκτελούνται 80 επαναλήψεις (στο εξής epochs) του αλγορίθμου 2 και επιλέγεται το λεξιλόγιο της τελευταίας επανάληψης. Με δεδομένο αυτό το λεξιλόγιο επιλέγουμε τιμή για την παράμετρο γ από το σύνολο των τιμών που ορίζει ο αλγόριθμος 4 ώστε να βελτιστοποιείται η ταξινόμηση στο σύνολο εκτίμησης. Αν το σύνολο δεδομένων μας ήταν μεγαλύτερο θα μπορούσαμε να χρησιμοποιήσουμε ένα σύνολο επιβεβαίωσης (validation set) για να επιλέξουμε το γ χωρίς να λάβουμε υπόψη μας το σύνολο εκτίμησης. Η παραπάνω διαδικασία θα γίνει και στις υπόλοιπες μεθόδους (K-Means) συνεπώς θεωρούμε ότι δεν ευνοούμε κάποια μέθοδο. Παράμετρος Περιγραφή Τιμή C Βαρύνει το σφάλμα ταξινόμησης 1.0 α Βαρύνει την ποινή αραιότητας (μηδέν σημαίνει χωρίς ποινή αραιότητας) η Το βήμα μάθησης του Stochastic Gradient Descent m B Η αδράνεια στην παραλλαγή του Stochastic Gradient Descent που χρησιμοποιείται Το μέγεθος του mini-batch του Stochastic Gradient Descent Πίνακας 5.3: Παράμετροι του αλγορίθμου εκμάθησης παραμέτρων ΣΑΤΧ με επίβλεψη Στο σχήμα 5.2 παρατηρούμε ότι 80 epochs είναι αρκετά για σύγκλιση του αλγορίθμου σε όλα τα μεγέθη του λεξιλογίου από 50 λέξεις έως Επιπλέον είναι φανερό ότι ο αλγόριθμος συμπεριφέρεται όπως είναι αναμενόμενο, δηλαδή κατά μέσο όρο με κάθε epoch μειώνει την τιμή της συνάρτησης κόστους και αυξάνει την ακρίβεια ταξινόμησης του συνόλου προπόνησης.

57 CALTECH 101 (αʹ) 50 λέξεις (βʹ) 1000 λέξεις Σχήμα 5.2: Εξέλιξη της προπόνησης για εκμάθηση 50 και 1000 λέξεων στο πρώτο υποσύνολο του Caltech 101

58 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 47 Παρατηρούμε επίσης ότι η διαδικασία μάθησης έχει μερικές ταλαντώσεις οι οποίες μπορεί να οφείλονται είτε στη στοχαστική διαδικασία του Stochastic Gradient Descent είτε να είναι ένδειξη ότι χρησιμοποιούμε μεγάλο η. Θα δείξουμε, όμως, ότι η μέθοδος είναι ανταγωνιστική παρά την πληθώρα παραμέτρων που δεν είχαμε την δυνατότητα να βελτιστοποιήσουμε, λόγω έλλειψης υπολογιστικών πόρων. Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (αʹ) Πρώτο υποσύνολο Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (βʹ) Δεύτερο υποσύνολο Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (γʹ) Τρίτο υποσύνολο Πίνακας 5.4: Ακρίβεια ταξινόμησης στα 3 υποσύνολα του Caltech 101 επιλέγοντας το γ που βελτιστοποιεί την ακρίβεια ταξινόμησης του συνόλου εκτίμησης Στους πίνακες 5.4 βλέπουμε τις καλύτερες τιμές ακρίβειας ταξινόμησης που επιτυγχάνονται στα 3 σύνολα δεδομένων μας αναφορικά με την παράμετρο γ και το μέγεθος του λεξιλογίου. Παρατηρούμε ότι το Kernel Codebook σε συνδυασμό με τη μέθοδό μας για εύρεση λεξιλογίου μπορεί να περιγράψει τα τοπικά χαρακτηριστικά με μικρό λεξιλόγιο. Οι τιμές του γ, όπως προαναφέρθηκε, επιλέχθηκαν μετά την προπόνηση ώστε να βελτιστοποιούν το σύνολο εκτίμησης. Φαίνεται όμως συγκρίνοντας τους πίνακες 5.5 και 5.4 ότι εκτός μερικών εξαιρέσεων χρησιμοποιώντας το γ που έχει επιλεγεί με τον αλγόριθμο 4 τα αποτελέσματα που προκύπτουν είναι συγκρίσιμα. Το παραπάνω συμβαίνει

59 CALTECH 101 επειδή τα λεξιλόγια αποδίδουν εξίσου καλά για όλες τις τιμές του γ όπως φαίνεται και στο σχήμα 5.3 όπου η ακρίβεια για ένα γ είναι ο μέσος όρος των ακριβειών από όλα τα μεγέθη λεξιλογίων και τα περιθώρια σφάλματος δηλώνουν μια τυπική απόκλιση. Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (αʹ) Πρώτο υποσύνολο Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (βʹ) Δεύτερο υποσύνολο Μέγεθος λεξιλογίου γ Ακρίβεια ταξινόμησης (γʹ) Τρίτο υποσύνολο Πίνακας 5.5: Ακρίβεια ταξινόμησης στα 3 υποσύνολα του Caltech 101 με το γ στο οποίο έγινε προπόνηση Sparse autoencoder με Kernel Codebook Εκτός από το Kernel Codebook με επίβλεψη προπονήθηκε και η μέθοδος της ενότητας 3.4 που χρησιμοποιεί την ίδια ΣΑΤΧ ως το πρώτο layer ενός Sparse Autoencoder. Υπολογίστηκαν λεξιλόγια, στα ίδια 3 υποσύνολα του Caltech 101, μεγέθους 100, 200, 300 και 500 λέξεων. Για την εκμάθηση των λεξιλογίων αρχικά δημιουργείται ένα σύνολο από 100,000 τυχαία επιλεγμένα τοπικά χαρακτηριστικά από κάθε ένα από τα τρία υποσύνολα. Στη συνέχεια εκτελείται ο αλγόριθμος 1 με τιμές παραμέτρων τις τιμές του πίνακα 5.6 για την ελαχιστοποίηση της συνάρτησης κόστους του Sparse Autoencoder.

60 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 49 Σχήμα 5.3: Η ακρίβεια ταξινόμησης με λεξιλόγιο μεθόδου με επίβλεψη για το πρώτο υποσύνολο του Caltech 101 Παράμετρος Περιγραφή Τιμές γ C α η m B Οι διακυμάνσεις των Kernel στο Kernel Codebook σύμφωνα με την εξίσωση 2-6 Η παράμετρος που βαρύνει το λάθος ανακατασκευής στη συνάρτηση κόστους Η παράμετρος που βαρύνει την ποινή αραιότητας στη συνάρτηση κόστους Το βήμα μάθησης του Stochastic Gradient Descent Η αδράνεια στην παραλλαγή του Stochastic Gradient Descent που χρησιμοποιείται Το μέγεθος του mini-batch του Stochastic Gradient Descent , 10 4, 10 5, Πίνακας 5.6: Οι τιμές των παραμέτρων του αλγορίθμου εκμάθησης λεξιλογίου με Sparse Autoencoder Ο αλγόριθμος 1 εκτελείται με σταθερό αριθμό επαναλήψεων 20 epochs και επιλέγεται το λεξιλόγιο της τελευταίας επανάληψης. Στην εικόνα 5.4 παρατηρείται ότι η σύγκλιση του αλγορίθμου είναι πολύ ομαλότερη σε σύγκριση με αυτής της μεθόδου με επίβλεψη. Στο γράφημα αυτό βλέπουμε το μέσο κόστος ανά τοπικό χαρακτηριστικό ενώ τα περιθώρια σφάλματος δείχνουν την τυπική απόκλιση.

61 CALTECH 101 Σχήμα 5.4: Εξέλιξη της προπόνησης με Sparse Autoencoder για το πρώτο υποσύνολο και α = 10 5 Σχήμα 5.5: Ακρίβεια ταξινόμησης για ως προς τις παραμέτρους γ και α για λεξιλόγιο 100 λέξεων

62 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 51 Για κάθε συνδυασμό μεγέθους λεξιλογίου και α μαθαίνουμε ένα λεξιλόγιο. Με την ίδια διαδικασία όπως και στη μέθοδο με επίβλεψη εξάγουμε ολικά χαρακτηριστικά για διάφορες τιμές του γ και υπολογίζουμε την ακρίβεια ταξινόμησης με αυτά τα ολικά χαρακτηριστικά. Παρατηρούμε στο σχήμα 5.5 το αποτέλεσμα που έχει η παράμετρος α στην ανθεκτικότητα του λεξιλογίου αναφορικά με την παράμετρο γ. Με μικρό α το λεξιλόγιο περιγράφει τα δεδομένα ανεξάρτητα της τιμής του γ, ενώ όσο αυξάνεται η ποινή αραιότητας το λεξιλόγιο δεν μπορεί να περιγράψει τα δεδομένα με γ μεγαλύτερο από 50 που είναι το γ προπόνησης. Σε αυτό το σημείο γεννάται το ερώτημα της χρησιμότητας της ποινής αραιότητας στη μέθοδο εκμάθησης. Από τα αποτελέσματα του σχήματος 5.5 φαίνεται ότι την πιο χρήσιμη πληροφορία την κωδικοποιεί το σφάλμα ανακατασκευής στη συνάρτηση κόστους 3-8 και όχι η ποινή αραιότητας. Στον πίνακα 5.7 βλέπουμε την ακρίβεια ταξινόμησης με τις παραμέτρους που βελτιστοποιούν την ακρίβεια του συνόλου εκτίμησης. Τα έντονα γράμματα δηλώνουν το υποσύνολο στο οποίο ένα σύνολο παραμέτρων είναι βέλτιστο. Μέγεθος λεξιλογίου γ α Υποσύνολο 1 Υποσύνολο 2 Υποσύνολο Συνολικά Πίνακας 5.7: Ακρίβεια ταξινόμησης στα υποσύνολα του Caltech 101 με Sparse Autoencoder και Kernel Codebook Σύγκριση μεθόδων και state-of-the-art Σε αυτή την ενότητα θα συγκριθούν οι παραπάνω μέθοδοι με τον αλγόριθμο K-Means, που είναι η κύρια μέθοδος εύρεσης λεξιλογίων για κάθε ΣΑΤΧ που χρησιμοποιεί λεξιλόγιο και θα δείξουμε ότι αναφορικά με το Kernel Codebook οι μέθοδοι που παρουσιάζουμε επιτυγχάνουν συστηματικά καλύτερα αποτελέσματα από τον K-Means.

63 CALTECH 101 Στη συνέχεια θα συγκρίνουμε τα αποτελέσματα της χρήσης του Kernel Codebook με άλλες γνωστές ΣΑΤΧ και θα δείξουμε ότι παραμένει ανταγωνιστικό με πολύ μικρότερου μεγέθους αναπαραστάσεις Σύγκριση με K-Means Εκτελούμε τον Κ-Means σύμφωνα με την υποενότητα και στη συνέχεια υπολογίζουμε ολικά χαρακτηριστικά με το Kernel Codebook για ένα εύρος τιμών γ και επιλέγουμε αυτά που βελτιστοποιούν την ακρίβεια στο σύνολο εκτίμησης. (αʹ) Πρώτο υποσύνολο (βʹ) Δεύτερο υποσύνολο (γʹ) Τρίτο υποσύνολο Σχήμα 5.6: Ακρίβεια ταξινόμησης με Kernel Codebook και διαφορετικές μεθόδους εύρεσης λεξιλογίου αναφορικά με το μέγεθος του λεξιλογίου Παρατηρούμε στο σχήμα 5.6 ότι οι μέθοδοι που παρουσιάσαμε είναι εμφανώς καλύτερες από τον K-Means για χρήση με Kernel Codebook. Ο K-Means επιτυγχάνει καλύτερη

64 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 53 ακρίβεια ταξινόμησης από τη μέθοδο με επίβλεψη μόνο για μερικά μεγέθη λεξιλογίου στο τρίτο υποσύνολο του Caltech 101. Παρ όλα αυτά και σε εκείνο το σύνολο ο Sparse Autoencoder πετυχαίνει μεγαλύτερη ακρίβεια με 500 λέξεις από ότι ο K-Means με Είναι επίσης φανερό ότι η ομαλή διαμέριση του χώρου μέσω του Kernel Codebook μπορεί να περιγράψει τα δεδομένα με μικρό αριθμό λέξεων κάτι που όπως θα δούμε στη συνέχεια δεν μπορεί να κάνει το Bag of Words. Σχήμα 5.7: Μέσος όρος των διαφορών των ακριβειών ταξινόμησης μεταξύ του K-Means και της μεθόδου με επίβλεψη (θετικά σημαίνει η μέθοδός μας είναι καλύτερη) Το πιο πειστικό επιχείρημα για την υπεροχή της μεθόδου από τον αλγόριθμο K-Means το βλέπουμε στο σχήμα 5.7. Στο σχήμα αυτό φαίνεται η διαφορά των ακριβειών ταξινόμησης του K-Means και της μεθόδου με επίβλεψη ως προς την παράμετρο γ και το μέγεθος του λεξιλογίου. Στην εικόνα κωδικοποιείται με χρώμα η πληροφορία των διαφορών, όπου όσο πιο θετική είναι τιμή (όσο πιο πράσινη) τόσο μεγαλύτερη είναι η ακρίβεια της μεθόδου μας από αυτή που επιτυγχάνεται με τον K-Means. Επίσης, χρησιμοποιούμε τον μέσο όρο των διαφορών για κάθε σύνολο δεδομένων. Αξίζει να σημειώσουμε ότι καμία τιμή δεν είναι αρνητική και μόλις δύο είναι 0. Ακόμη και στο τρίτο σύνολο δεδομένων που από το σχήμα 5.6 φαίνεται να είναι πιο κοντά ο K-Means παρατηρούμε στο σχήμα 5.8 ότι για ελάχιστους συνδυασμούς πετυχαίνει καλύτερα αποτελέσματα.

65 CALTECH 101 Σχήμα 5.8: Διαφορές των ακριβειών ταξινόμησης μεταξύ του K-Means και της μεθόδου με επίβλεψη για το τρίτο σύνολο δεδομένων (θετικά σημαίνει η μέθοδος μας είναι καλύτερη) Σύγκριση με Bag of Words και Fisher Vectors Στο κεφάλαιο αυτό θα συγκρίνουμε τις μεθόδους μας με τις καλύτερες στη βιβλιογραφία μεθόδους άθροισης τοπικών χαρακτηριστικών. Το Bag of Words χρησιμοποιεί λεξιλόγιο οπότε θα συγκριθεί αναφορικά με το μέγεθος του λεξιλογίου και στη συνέχεια για τη σύγκριση όλων των μεθόδων θα θεωρούμε ότι επιλέγουμε το πλήθος λέξεων που βελτιστοποιεί την ακρίβεια στο σύνολο εκτίμησης. Στο σχήμα 5.9 συγκρίνεται ο μέσος όρος των ακριβειών ταξινόμησης των μεθόδων. Τα περιθώρια σφάλματος δηλώνουν ξανά την τυπική απόκλιση. Παρατηρούμε, αυτό που αναφέρθηκε και σε προηγούμενη ενότητα, ότι το Kernel Codebook περιγράφει ένα σύνολο δεδομένων με πολύ μικρότερο πλήθος λέξεων. Παρ όλα αυτά δεν πετυχαίνει βελτίωση από το Bag of Words στα μεγάλα λεξιλόγια. Αντίθετα βλέπουμε ότι το Kernel Codebook με τα λεξιλόγια που μαθαίνονται με τις μεθόδους που παρουσιάσαμε βελτιώνει τα αποτελέσματα του Bag of Words, τουλάχιστον αναφορικά με την ακρίβεια ταξινόμησης. Στη συνέχεια συγκρίνουμε στο σχήμα 5.10 την ακρίβεια ταξινόμησης στα τρία υποσύνολα για όλες τις ΣΑΤΧ και βλέπουμε ότι η ακρίβεια ταξινόμησης των μεθόδων μας είναι ανταγωνιστική και σε ορισμένες περιπτώσεις βελτιώνει αισθητά τα αποτελέσματα των

66 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΑ 55 Σχήμα 5.9: Σύγκριση του Bag of Words με το Kernel Codebook χρησιμοποιώντας όλες τις μεθόδους εκμάθησης λεξιλογίου άλλων ΣΑΤΧ. Παρ όλα αυτά η μη αναμενόμενη χειρότερη απόδοση των Fisher Vectors σε σχέση με το Bag of Words μπορεί να σημαίνει εσφαλμένη επιλογή παραμέτρων για την εξαγωγή ολικών χαρακτηριστικών με Fisher Vectors. Σχήμα 5.10: Σύγκριση της ακρίβειας ταξινόμησης όλων των ΣΑΤΧ

Δείτε περισσότερα