Μεταπτυχιακή Διπλωματική Εργασία. Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding)

Transcript

1 Εργαστήριο Ηλεκτρονικής Τομέας Ηλεκτρονικής και Υπολογιστών Τμήμα Φυσικής Πανεπιστήμιο Πατρών Μεταπτυχιακή Διπλωματική Εργασία Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding) Τσουρούνης Δημήτριος Α.Μ. : Πάτρα, Οκτώβριος 2017

2 ii

3 Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding) Ειδική Επιστημονική Εργασία για την απόκτηση του Μεταπτυχιακού Διπλώματος Ειδίκευσης στην ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (ΔΠΜΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" ΗΕΠ) Τσουρούνης Δημήτριος Α.Μ. : Εξεταστική Επιτροπή : Οικονόμου Γεώργιος, Καθηγητής (επιβλέπων) Φωτόπουλος Σπύρος, Καθηγητής Αναστασόπουλος Βασίλειος, Καθηγητής iii

4 iv

5 v

6 vi

7 Η υλοποίηση της παρούσης εργασίας πραγματοποιήθηκε μέσω του λογισμικού MATLAB (mathworks). Για την εκτέλεση των διεργασιών χρησιμοποιήθηκαν οι εργαλειοθήκες K-SVD & OMP box [Aharon 2006], SPAMS (SPArse Modeling Software) [Mairal 2009] και VLFEAT [Vedaldi 2008] καθώς και οι βιβλιοθήκες LIBLINEAR [Fan 2008] και LibSVM [Chang 2011]. Επίσης, χρησιμοποιήθηκαν οι συναρτήσεις προ-επεξεργασίας των εικόνων που αντιστοιχούν σε κάθε βάση δεδομένων. Όλα τα υπόλοιπα αλγοριθμικά προγράμματα (κώδικες matlab) αποτελούν αποτέλεσμα προσωπικής εργασίας και σχεδιάστηκαν κατά την διάρκεια εκπόνησης της παρούσης μεταπτυχιακής εργασίας με τίτλο «Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding)». vii

8 viii

9 Περίληψη Η έννοια της αραιότητας (sparsity ή parsimony) έγκειται στην αναπαράσταση ενός φαινομένου με όσο το δυνατόν λιγότερες μεταβλητές. Στον τομέα της Μηχανική Μάθησης, η αραιή αναπαράσταση (Sparse Representation) αποτελεί μία μέθοδο μη-εποπτευόμενης μάθησης (unsupervised learning), όπου επιχειρείται η ελαχιστοποίησης του σφάλματος αναπαράστασης του σήματος με έναν περιορισμό αραιότητας. Έτσι, κάθε σήμα αναπαρίσταται σαν γραμμικός συνδυασμός ενός περιορισμένου αριθμού σημάτων ενός υπερπλήρους λεξικού, που ονομάζονται άτομα. Η επέκταση της αραιής αναπαράστασης σε μία αποδοτική πολλαπλών επιπέδων αρχιτεκτονική επιτυγχάνεται μέσα από τη σύνθεση της αρχιτεκτονικής Bag-of-Visual-words και της αρχιτεκτονικής deep Learning (βαθιά Μάθηση) για την ανάπτυξη μίας αρχιτεκτονικής μη-εποπτευόμενης μάθησης χαρακτηριστικών, που ονομάζεται Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση). Η βασική πρωτοτυπία της τοπολογίας Deep Sparse Coding είναι η μονάδα σύνδεσης που τοποθετείται μεταξύ των επιπέδων αραιής αναπαράστασης. Η μονάδα σύνδεσης συγκροτείται από μία διαδικασία τοπικής χωρικής συγκέντρωσης (local spatial pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και από μία διαδικασία ελάττωσης διάστασης (dimensionality reduction) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η τοπική χωρική συγκέντρωση εξασφαλίζει ότι τα σύνθετα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών απλούστερων χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη ενώ η μέθοδος ελάττωσης διάστασης εκτελείται λαμβάνοντας υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας έτσι ώστε να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Με αυτό τον τρόπο, η τοπολογία Deep Sparse Coding εξάγει ιεραρχικά χαρακτηριστικά από διαφορετικές βαθμίδες της όλης διαδικασίας εκμάθησης που αντιστοιχούν σε διαφορετικές χωρικές περιοχές της εικόνας. Άρα, δομούνται ιεραρχικές αναπαραστάσεις των δεδομένων και υπολογίζονται χαρακτηριστικά υψηλής τάξης (high-level) από τα βαθύτερα (υψηλότερα) επίπεδα (layers) μέσω της σύνθεσης των απλούστερων χαρακτηριστικών από τα χαμηλότερα (αρχικά) επίπεδα της τοπολογίας. Η τοπολογία Deep Sparse Coding εφαρμόζεται σε δύο σημαντικά προβλήματα υπολογιστικής όρασης, που είναι η αναγνώριση φυσικών εικόνων και η αναγνώριση χειρόγραφων υπογραφών (αναγνώριση βιομετρικών χαρακτηριστικών). Το αποτέλεσμα και στις δύο περιπτώσεις είναι ότι η χρήση πολλαπλών επιπέδων αραιής αναπαράστασης μέσω της μεθόδου Deep Sparse Coding οδηγεί στη βελτίωση της απόδοσης αναγνώρισης. ix

10 x

11 Abstract The principle of sparsity (or parsimony) consists of representing some phenomenon with as few variables as possible. In Machine Learning, Sparse Representation is an unsupervised learning method that attempts to minimize the feature reconstruction error, along with a prior regularization that encourages sparse solutions. So, every input signal is representing as a linear combination of a few element of an overcomplete dictionary, which called atoms. The combination of deep Learning and the sparse coding Bag-of-Visual-words pipeline is an unsupervised feature learning framework, namely Deep Sparse Coding, that extends sparse coding to an efficient multi-layer architecture. The main innovation of the Deep Sparse Coding framework is the connection unit between layers that connects the sparse-encoders from different layers by a sparse-to-dense module. The connection unit consists of a local spatial pooling step, which applies the pooling operation to the subsets of sparse codes from the last layer, and a dimensionality reduction step, which converts the sparse codes to dense codes for the next layer. On one hand, the local spatial pooling step ensures the higher-level features are learned from a collection of nearby lower-level features and hence cover larger scopes. On the other hand, the low-dimensional embedding process is designed to take into account the spatial affinities between neighboring image patches such that the spatial smoothness information is preserved during the dimension reduction process. The Deep Sparse Coding method is able to learn sparse representations of the images at different levels of abstraction and of different spatial scopes. The method builds feature hierarchies from bottom-level features, such that the higher-level features (from deeper layers) are compositions of lower-level features (from first layers). The Deep Sparse Coding framework is testing for image classification (natural images recognition) and handwritten signature verification (biometrics recognition). In both cases, the multi-layer framework improves performance. xi

12 xii

13 Η παρούσα εργασία, με τίτλο «Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding)», συγκροτείται σε κεφάλαια με στόχο το κάθε κεφάλαιο να είναι αυτόνομο έτσι ώστε ένας αναγνώστης με γνώση του αντικειμένου να μπορεί να μελετήσει το κάθε κεφάλαιο ανεξάρτητα χωρίς να απαιτείται να έχει διαβάσει τα προηγούμενα κεφάλαια και χωρίς να χρειάζεται να ανατρέχει στα προηγούμενα κεφάλαια κατά την διάρκεια της μελέτης ενός κεφαλαίου. Το πρώτο (1 ο ) κεφάλαιο αποτελεί μία εισαγωγή στην μηχανική μάθηση (ή εκμάθηση). Το δεύτερο (2 ο ) κεφάλαιο αναφέρεται στην αραιή αναπαράσταση και περιγράφονται αναλυτικά δύο κυρίαρχες τεχνικές επίλυσης του προβλήματος της αραιής αναπαράστασης. Το τρίτο (3 ο ) κεφάλαιο επεκτείνει την αραιή αναπαράσταση σε πολλαπλά επίπεδα μέσω της αναλυτικής περιγραφής της τοπολογίας Deep Sparse Coding (Βαθιάς Αραιής Κωδικοποίησης). Το τέταρτο (4 ο ) κεφάλαιο περιέχει τα πειραματικά αποτελέσματα από την εφαρμογή της τοπολογίας Deep Sparse Coding σε δύο σημαντικά προβλήματα της υπολογιστικής όρασης. Το πέμπτο (5 ο ) και τελευταίο κεφάλαιο περιλαμβάνει μία σύνοψη και κριτική της μεθόδου πολλαπλών επιπέδων αραιής αναπαράστασης Deep Sparse Coding καθώς και μερικές προτάσεις βελτίωσης της μεθόδου για περεταίρω έρευνα στο μέλλον. xiii

14 xiv

15 ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 : Εισαγωγή στη Μηχανική Μάθηση (ή Μηχανική Εκμάθηση) Ο ορισμός της Μηχανικής Μάθησης Η αρχιτεκτονική Bag-of-Visual-words Η αρχιτεκτονική deep Learning Κεφάλαιο 2 : Αραιή Αναπαράσταση (Sparse Representation) Εισαγωγή στο πρόβλημα της αραιής αναπαράστασης Γενική περιγραφή του προβλήματος αραιής αναπαράστασης Μαθηματική περιγραφή του προβλήματος αραιής αναπαράστασης Αλγόριθμος K-SVD Γενική περιγραφή batch αλγορίθμου εκμάθησης λεξικού Αλγόριθμοι ταιριάσματος (pursuit) για την υλοποίηση της αραιής κωδικοποίησης (Sparse Coding) με 0 -νόρμα i Αραιή κωδικοποίηση (Sparse Coding) με 0 -νόρμα ii Αλγόριθμοι Matching Pursuit και Orthogonal Matching Pursuit Αναλυτική περιγραφή αλγορίθμου εκμάθησης λεξικού i Αναλυτική περιγραφή των σταδίων της αραιής κωδικοποίησης και της ενημέρωσης του λεξικού ii Αναλυτική μαθηματική περιγραφή του σταδίου ενημέρωσης του λεξικού iii Ο αλγόριθμος K-SVD ως γενίκευση της διαδικασίας K-Means Διασαφηνίσεις της διαδικασίας εκμάθησης λεξικού Ενέργειες για βέλτιστη απόδοση του αλγορίθμου εκμάθησης λεξικού Χαρακτηριστικές ιδιότητες της μεθόδου εκμάθησης λεξικού K-SVD Πακέτο αλγορίθμων SPAMS Γενική περιγραφή online αλγορίθμου εκμάθησης λεξικού Αλγόριθμοι για την υλοποίηση της αραιής κωδικοποίησης (Sparse Coding) με 1 -νόρμα i Αραιή κωδικοποίηση (Sparse Coding) με 1 -νόρμα ii Αλγόριθμος μεθόδου ομοτοπίας (homotopy) Αναλυτική περιγραφή αλγορίθμου εκμάθησης λεξικού Υποθέσεις της διαδικασίας εκμάθησης λεξικού xv

16 2.3.5 Ενέργειες για βέλτιστη απόδοση του αλγορίθμου εκμάθησης λεξικού H 1 -νόρμα ως κριτήριο αραιότητας Κεφάλαιο 3 : Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding) Η τοπολογία Deep Sparse Coding Η αρχιτεκτονική Bag-of-Visual-words Η αρχιτεκτονική deep learning Η αρχιτεκτονική Deep Sparse Coding σαν συνδυασμός Bag-of-Visual-words και deep learning Περιγραφή της τοπολογίας Deep Sparse Coding i Εισαγωγή στην αρχιτεκτονική πολλαπλών επιπέδων Deep Sparse Coding ii Περιγραφή των σταδίων της τοπολογίας Deep Sparse Coding iii Η μονάδα σύνδεσης μεταξύ επιπέδων αραιής αναπαράστασης της τοπολογίας Deep Sparse Coding Η μέθοδος Dimensionality Reduction by Learning an Invariant Mapping Ελάττωση διάστασης Εισαγωγή στη μέθοδο Dimensionality Reduction by Learning an Invariant Mapping Εισαγωγή στη συνάρτηση contrastive loss Περιγραφή της μεθόδου Dimensionality Reduction by Learning an Invariant Mapping Υλοποίηση της μονάδας σύνδεσης της τοπολογίας Deep Sparse Coding Τοπική Χωρική Συγκέντρωση (Local Spatial Pooling) Dimensionality Reduction by Learning an Invariant Mapping i Σχηματισμός ζευγαριών και προσδιορισμός των ετικετών τους ii Υπολογισμός της συνάρτησης μετασχηματισμού iii Πραγματοποίηση της διαδικασίας ελάττωσης διάστασης iv Σύνοψη της διαδικασίας ελάττωσης διάστασης DRLIM Κεφάλαιο 4 : Πειραματικά Αποτελέσματα Εφαρμογή της τοπολογίας Deep Sparse Coding για την ταξινόμηση φυσικών εικόνων Οι βάσεις δεδομένων Caltech-101 και Caltech Τα στάδια της τοπολογίας Deep Sparse Coding xvi

17 4.1.3 Πειραματικά Αποτελέσματα Εφαρμογή της τοπολογίας Deep Sparse Coding για την ταυτοποίηση χειρόγραφων υπογραφών Η βάση δεδομένων CEDAR Τα στάδια της τοπολογίας Deep Sparse Coding Πειραματικά Αποτελέσματα Κεφάλαιο 5 : Σύνοψη και Προτάσεις για μελλοντική έρευνα Σύνοψη της μεθόδου Deep Sparse Coding Προτάσεις για μελλοντική έρευνα Αναφορές - Βιβλιογραφία xvii

18 xviii

19 Ο γενικός συμβολισμός που ακολουθείται κατά την περιγραφή των μαθηματικών εξισώσεων στην παρούσα εργασία είναι ότι τα κεφαλαία γράμματα αντιστοιχούν σε πίνακες (δηλ. ), τα μικρά γράμματα αντιστοιχούν σε διανύσματα (δηλ. ) και οι συμβολισμοί αντιστοιχούν σε αριθμούς. Οποιεσδήποτε εξαιρέσεις του παραπάνω κανόνα δηλώνονται ρητά κατά την χρήση των αντίστοιχων συμβολισμών (συνήθως οι μεταβλητές δηλώνονται με κεφαλαία ή μικρά γράμματα αλλά είναι αριθμοί και κάποιες διανυσματικές αποστάσεις μπορεί να δηλώνονται με κεφαλαία γράμματα αλλά είναι διανύσματα). Επίσης, με να ορίζεται η ευκλείδεια απόσταση ( ²-νόρμα) ενός διανύσματος και το αποτέλεσμα, φυσικά, είναι ένας αριθμός ( ). xix

20 xx

21 Κεφάλαιο 1 : Εισαγωγή στη Μηχανική Μάθηση (ή Μηχανική Εκμάθηση) 1.1 Ο ορισμός της Μηχανικής Μάθησης : Η επιστήμη των υπολογιστών (Computer Science) ασχολείται με το σχεδιασμό, την ανάπτυξη και τη διερεύνηση των θεωρητικών εννοιών και των πρακτικών μεθοδολογιών που διευκολύνουν και βοηθούν στην προδιαγραφή, ανάπτυξη, υλοποίηση και ανάλυση των υπολογιστικών συστημάτων. Η μηχανική μάθηση (ή μηχανική εκμάθηση) είναι ένας τομέας της επιστήμης των υπολογιστών (Computer Science), που εξελίχθηκε από τη μελέτη της αναγνώρισης προτύπων (Pattern Recognition) και την υπολογιστική θεωρία μάθησης (Computational Learning Theory) στην τεχνητή νοημοσύνη (Artificial Intelligent). Έτσι, η μηχανική μάθηση (Machine Learning) διερευνά την κατασκευή και τη μελέτη αλγορίθμων, που μπορούν να εκπαιδευτούν αλλά και να κάνουν προβλέψεις βασιζόμενοι σε δεδομένα ώστε να επιλύουν προβλήματα πρακτικής φύσεως. Σύμφωνα με τα λόγια του ερευνητή Arthur Samuel, ο οποίος επινόησε τον όρο τη δεκαετία του 1950, «η μηχανική μάθηση είναι το πεδίο μελέτης που δίνει στους υπολογιστές την ικανότητα να μαθαίνουν, χωρίς να έχουν ρητά προγραμματιστεί» ("gives computers the ability to learn without being explicitly programmed"). Η αναγνώριση προτύπων (Pattern Recognition) είναι ο κλάδος της μηχανικής μάθησης (Machine Learning) που επικεντρώνεται στην αναγνώριση των μοτίβων και των κανονικοτήτων που διέπουν τα δεδομένα. H θεωρία του υπολογισμού (Theory of Computation) είναι ο κλάδος που ασχολείται με το πόσο αποτελεσματικά μπορούν να επιλυθούν τα προβλήματα σε ένα υπολογιστικό μοντέλο χρησιμοποιώντας έναν αλγόριθμο και η τομή της με τη μηχανική μάθηση είναι η υπολογιστική θεωρία μάθησης (Computational Learning Theory), δηλ. η ανάλυση της υπολογιστικής πολυπλοκότητας των αλγορίθμων μηχανικής μάθησης. Η εξόρυξης δεδομένων (Data Mining) -δηλ. το στάδιο της ανάλυσης της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδομένων (KDD)- αναφέρεται στην εξεύρεση πληροφορίας ή προτύπων από μεγάλες βάσεις δεδομένων με χρήση αλγορίθμων ταξινόμησης και των αρχών της στατιστικής, της τεχνητής νοημοσύνης, της μηχανικής μάθησης και των συστημάτων βάσεων δεδομένων και ο στόχος της είναι η πληροφορία που θα εξαχθεί και τα πρότυπα που θα προκύψουν να έχουν δομή κατανοητή προς τον 1

22 άνθρωπο έτσι ώστε να τον βοηθήσουν να πάρει τις κατάλληλες αποφάσεις. Τέλος, η τεχνητή νοημοσύνη (Artificial Intelligence) αποτελεί κύριο σκοπό των παραπάνω προ-αναφερόντων πεδίων αφού ορίζεται ως η νοημοσύνη που εμφανίζεται σε μηχανές ή λογισμικό, δηλ. πρόκειται για το πεδίο μελέτης του τρόπου δημιουργίας υπολογιστών και λογισμικού που είναι ικανά να παρουσιάσουν ευφυή συμπεριφορά. Γενικά, οι όροι μηχανική μάθηση, αναγνώριση προτύπων, εξόρυξη δεδομένων, υπολογιστική στατιστική και μαθηματική βελτιστοποίηση είναι δύσκολο να διαχωριστούν, καθώς όλοι πηγάζουν από τον τομέα της επιστήμη των υπολογιστών, της τεχνητής νοημοσύνης, της μηχανικής και της στατιστικής και το πεδίο εφαρμογής τους επικαλύπτεται όλο και περισσότερο με την ενσωμάτωση των εξελίξεων και των καινούργιων ιδεών. Έτσι, η αναγνώριση προτύπων θεωρείται σχεδόν συνώνυμη έννοια με την μηχανική μάθηση, αν και η μεν πρώτη εστιάζει περισσότερο στην εξήγηση και στην απεικόνιση των προτύπων ενώ η δεύτερη στη μεγιστοποίηση των ποσοστών αναγνώρισης. Η εξόρυξη δεδομένων στοχεύει στην εξαγωγή πληροφορίας από τα δεδομένα, δηλ. μοιάζει πολύ με την μηεποπτευόμενη (unsupervised) μηχανική μάθηση. Επίσης, η υπολογιστική στατιστική και η μαθηματική βελτιστοποίηση μοιράζονται διεργασίες με τη μηχανική μάθηση αφού η υπολογιστική στατιστική εστιάζει στην πρόβλεψη μέσω της χρήσης μηχανών και η μαθηματική βελτιστοποίηση παρέχει τις μεθόδους, τη θεωρία και τις εφαρμογές της στον τομέα της μηχανικής μάθησης. Statistics Pattern Recognition Machine Learning Theory of Data Mining Computation Artificial Intelligence Computer Science Εικόνα 1.1 : Μερικοί αλληλοσυμπληρούμενοι τομείς της επιστήμης των υπολογιστών (Computer Science) 2

23 Η μηχανική μάθηση (ή εκμάθηση) είναι μια τεχνική ανάλυσης δεδομένων που οδηγεί τα υπολογιστικά συστήματα να λειτουργούν με βάση τον φυσικό τρόπο απόκτησης γνώσης των ανθρώπων και των ζώων, δηλ. τη μάθηση από την εμπειρία. Οι αλγόριθμοι μηχανικής μάθησης χρησιμοποιούν υπολογιστικές μεθόδους για να «μαθαίνουν» τις πληροφορίες από τα δεδομένα χωρίς να στηρίζονται σε μια προκαθορισμένη εξίσωση ως μοντέλο. Οι αλγόριθμοι προσαρμόζονται στα δεδομένα ώστε να βελτιώνουν την απόδοσή τους καθώς αυξάνεται ο αριθμός των διαθέσιμων δειγμάτων για εκμάθηση. Η αναγνώριση είναι μία βασική λειτουργία των έμβιων όντων, η οποία οδηγεί στον προσδιορισμό της ταυτότητας ενός αντικειμένου (όταν αυτή δεν είναι άμεσα αντιληπτή). Η ταυτότητα έχει να κάνει με μία συγκεκριμένη ιδιότητα του αντικειμένου, που το ξεχωρίζει από άλλα αντικείμενα και το εντάσσει σε μία συγκεκριμένη κατηγορία. Για την αναγνώριση των αντικειμένων είναι αναγκαία η εύρεση συγκεκριμένων χαρακτηριστικών γνωρισμάτων τους, που τα διακρίνουν από τα υπόλοιπα αντικείμενα. Η εξαγωγή χαρακτηριστικών (feature extraction) αποτελεί μία βασική διεργασία της μηχανικής μάθησης, της αναγνώρισης προτύπων και της επεξεργασία σήματος και έγκειται στον υπολογισμό των κύριων χαρακτηριστικών των δεδομένων, που τα αντικατοπτρίζουν καλύτερα, με στόχο την αναγνώρισή τους. Η εξαγωγή χαρακτηριστικών από τα δεδομένα εκκινεί από το αρχικό σύνολο των μετρούμενων προ-επεξεργασμένων δεδομένων εισόδου και σχηματίζει τα χαρακτηριστικά τους έτσι ώστε να είναι κατατοπιστικά και χωρίς περιττή πληροφορία. Οπότε, είναι σημαντικό να επιλεγούν τα γνωρίσματα εκείνα που περιέχουν την απαραίτητη πληροφορία για την αναγνώριση, ενώ παράλληλα το μέγεθός τους πρέπει να είναι διαχειρίσιμο υπολογιστικά. Η μηχανική μάθηση χρησιμοποιεί δύο ειδών τεχνικές : την εποπτευόμενη μάθηση (supervised learning) και τη μη-εποπτευόμενη μάθηση (unsupervised learning). Ένα σύστημα εποπτευόμενης μάθησης (supervised learning) τροφοδοτείται τόσο από δεδομένα εισόδου όσο και από το επιθυμητό αποτέλεσμα εξόδου, δηλ. γνωρίζοντας την σχέση μεταξύ εισόδου και εξόδου, και ο στόχος είναι να δημιουργηθεί η συνάρτηση αντιστοίχισης από την είσοδο στην έξοδο ώστε να λειτουργεί αποδοτικά σε νέα δεδομένα εισόδου. Έτσι, ένα σύστημα εποπτευόμενης μάθησης αποτελείται από δύο στάδια, την εκπαίδευση για την δημιουργία ενός μοντέλου από τα γνωστά δεδομένα εισόδου (δηλ. από δεδομένα εισόδου που είναι γνωστό το αποτέλεσμα εξόδου τους) και την εφαρμογή του μοντέλου στα άγνωστα δεδομένα εισόδου για την πρόβλεψη του αποτελέσματος. Το όνομα εποπτευόμενη μάθηση προκύπτει λόγω του ότι είναι γνωστή εκ των προτέρων η σωστή πρόβλεψη για τα δεδομένα εκμάθησης και άρα κατά την επαναληπτική διαδικασία εκμάθησης το σύστημα εποπτεύεται και διορθώνεται μέχρι να επιτύχει ένα αποδεκτό επίπεδο απόδοσης με βάση τα δεδομένα εκμάθησης, έτσι ώστε στη συνέχεια να μπορεί να χρησιμοποιηθεί αποτελεσματικά σε νέα άγνωστα δεδομένα. Ένα σύστημα μηεποπτευόμενης μάθησης (unsupervised learning) τροφοδοτείται μόνο από 3

24 δεδομένα εισόδου και όχι από το επιθυμητό αποτέλεσμα εξόδου, δηλ. δεν υπάρχει καμία γνώση της μορφής του αποτελέσματος, και ο στόχος είναι να μοντελοποιηθεί η δομή ή η κατανομή των δεδομένων ώστε να αποκαλυφθούν οι σχέσεις μεταξύ των δεδομένων. Το όνομα μη-εποπτευόμενη μάθηση προκύπτει διότι δεν υπάρχουν πλέον δεδομένα εκμάθησης με σωστές προβλέψεις και άρα το σύστημα δεν επιτηρείται αλλά αφήνεται μόνο του να ανακαλύψει κάποια εγγενή δομή ή σχέση μεταξύ των δεδομένων. Το σύστημα, σε αυτή την περίπτωση, δεν παράγει κάποιο μοντέλο για την εφαρμογή σε νέα δεδομένα αλλά η μάθηση πραγματοποιείται σε όλα τα διαθέσιμα δεδομένα. Τέλος, ένας συνδυασμός των δύο μεθόδων ταξινόμησης, είναι η ημι-εποπτευόμενη μάθηση (semi-supervised learning), η οποία χρησιμοποιεί ένα συνδυασμό επισημασμένων (δηλ. δεδομένων που φέρουν ετικέτα και άρα είναι γνωστό το αποτέλεσμα) και μη επισημασμένων δεδομένων. Εδώ, τα δεδομένα εισόδου αποτελούνται από ένα μικρό σύνολο επισημασμένων (γνωστών) δεδομένων σε συνδυασμό με μία μεγάλη ποσότητα μη επισημασμένων (άγνωστων) δεδομένων και έτσι, στο στάδιο της εκμάθησης ορίζονται αρχικά κάποιες υποθετικές προβλέψεις και στη συνέχεια προσδιορίζονται οι σωστές προβλέψεις, σύμφωνα με κάποιο κριτήριο του εκάστοτε αλγορίθμου. Τα προβλήματα που επιλύονται με την χρήση της εποπτευόμενης μάθησης (supervised learning) χωρίζονται σε δύο κατηγορίες : την παλινδρόμηση (regression) και την ταξινόμηση (classification). Στα προβλήματα παλινδρόμησης (regression) επιχειρείται η πρόβλεψη σε συνεχή αποτελέσματα εξόδου, δηλ. οι μεταβλητές εισόδου αντιστοιχίζονται σε κάποια συνεχή τιμή. Στα προβλήματα ταξινόμησης (classification) επιχειρείται η πρόβλεψη σε διακριτά αποτελέσματα εξόδου, δηλ. οι μεταβλητές εισόδου αντιστοιχίζονται σε διακριτές κατηγορίες. Ένα παράδειγμα προβλήματος παλινδρόμησης (regression) είναι η πρόβλεψη της χρηματικής αξίας ενός σπιτιού δεδομένου του μεγέθους του και άρα, η αξία του σπιτιού σαν συνάρτηση του μεγέθους του σπιτιού λαμβάνει συνεχείς τιμές. Το παράδειγμα αυτό μπορεί να μετατραπεί σε πρόβλημα ταξινόμησης (classification) όταν το σύστημα κάνει την πρόβλεψη για το αν το σπίτι θα πωληθεί σε χρηματική αξία χαμηλότερη ή υψηλότερη από την ζητούμενη αξία. Ένα δεύτερο παράδειγμα παλινδρόμησης (regression) είναι η πρόβλεψη της ηλικίας ενός ατόμου με βάση μία φωτογραφία του ενώ το αντίστοιχο παράδειγμα ταξινόμησης (classification) είναι η κατηγοριοποίηση ενός ατόμου σε μία από τις τρεις κατηγορίες παιδί, μεσήλικας και υπερήλικας με βάση μία φωτογραφία του. Επομένως, φαίνεται καθαρά ότι στα προβλήματα παλινδρόμησης (regression) το αποτέλεσμα αποτελεί μία συνάρτηση συνεχών τιμών ενώ στα προβλήματα ταξινόμησης (classification) το αποτέλεσμα λαμβάνει διακριτές τιμές. Τα προβλήματα που επιλύονται με την χρήση της μη-εποπτευόμενης μάθησης (unsupervised learning) χωρίζονται σε δύο κατηγορίες : την ομαδοποίηση ή συσταδοποίηση (clustering) και την οργάνωση (association ή non-clustering). Στα προβλήματα ομαδοποίησης (clustering) τα δεδομένα συγκεντρώνονται σε κλάσεις 4

25 με βάση κάποιο μέτρο έμφυτης ομοιότητας ή την απόσταση. Έτσι, εκτός από τις κλάσεις που καλούνται να εντοπιστούν, πρέπει να καθοριστούν και τα χαρακτηριστικά εκείνα που κάνουν τα αντικείμενα κάθε κλάσης όμοια μεταξύ τους και διαφορετικά με αυτά των υπολοίπων κλάσεων. Επομένως, διαμορφώνονται φυσικές ομαδοποιήσεις των εισερχόμενων δεδομένων. Στα προβλήματα οργάνωσης (association ή non-clustering) επιχειρείται συνήθως η ανακάλυψη συσχετίσεων μεταξύ των δεδομένων. Στην κατηγορία αυτή περιλαμβάνονται όλα εκείνα τα προβλήματα της μη-εποπτευόμενης μάθησης (unsupervised learning) που δεν οδηγούν σε ομαδοποιήσεις των δεδομένων. Άρα, αποτελούν μία ανομοιογενή κατηγορία προβλημάτων με διαφορετικά χαρακτηριστικά το κάθε ένα και με κοινό γνώρισμα την απουσία επιδίωξης ομαδοποιήσεων. Ένα παράδειγμα προβλήματος ομαδοποίησης (clustering) είναι ο διαχωρισμός ενός συνόλου λουλουδιών με βάση τις πολυτροπικές μετρήσεις του φυλλώματος των φυτών ενώ ένα παράδειγμα προβλήματος οργάνωσης (association ή non-clustering) είναι το φαινόμενο του cocktail party για τον προσδιορισμό των μεμονωμένων φωνών των ατόμων από μία μίξη ήχων που προέρχονται από την ομιλία των άλλων συνδαιτυμόνων και τη μουσική. MACHINE LEARNING SUPERVISED LEARNING UNSUPERVISED LEARNING CLASSIFICATION REGRESSION CLUSTERING NON-CLUSTERING SVM Decision Tree K-Means PCA k-nn Neural Nets Gaussian mix Sparse Coding Εικόνα 1.2 : Τεχνικές Μηχανικής Μάθησης 5

26 1.2 Η αρχιτεκτονική Bag-of-Visual-words : Η πιο κλασσική -ίσως- προσέγγιση για την αναγνώριση αντικειμένων (object recognition) στο πεδίο της Μηχανικής Μάθησης (ή Εκμάθησης) αποτελεί η αρχιτεκτονική που ονομάζεται Bag-of-Visual-words (BoV). Η αρχιτεκτονική Bag-ofVisual-words αποτελείται από μια σειρά σταδίων με σκοπό την εξαγωγή χαρακτηριστικών των δεδομένων για την επιτυχή αναγνώρισή τους. Η BoV περιλαμβάνει μία αλληλουχία διεργασιών, όπου το αποτέλεσμα της προηγούμενης διεργασίας είναι είσοδος στην επόμενη και κάθε διεργασία είναι ανεξάρτητη. Έτσι, στα δεδομένα εισόδου υπολογίζονται τοπικοί περιγραφείς, οι οποίοι χρησιμοποιούνται για την εκμάθηση μίας αναπαράστασης των δεδομένων (συνήθως την εκμάθηση ενός λεξικού και μέσω αυτού την κωδικοποίηση των δεδομένων) και στην συνέχεια υλοποιείται μία χωρική πυραμιδική συγκέντρωση στις κωδικοποιήσεις των δεδομένων για την εξαγωγή του τελικού χαρακτηριστικού διανύσματος, το οποίο θα εισαχθεί σε έναν ταξινομητή. Στην περίπτωση αναγνώρισης εικόνων, στο πρώτο στάδιο της BoV αρχικά εξάγονται κομμάτια (patches) της εικόνας -τα οποία μπορεί να είναι επικαλυπτόμενα (overlapped) ή όχιμε καθορισμένες διαστάσεις και σταθερή απόσταση μεταξύ των κέντρων δύο γειτονικών patches και στη συνέχεια, για κάθε patch της εικόνας υπολογίζεται ένας D-διαστάσεων περιγραφέας (hand-crafted descriptor). Με βάση τους περιγραφείς των εικόνων (οι οποίοι ουσιαστικά είναι διανύσματα χαρακτηριστικών) πραγματοποιείται η εκμάθηση ενός λεξικού αναπαράστασης (learning codebook), το οποίο χρησιμοποιείται για την κωδικοποίηση (coding) των δεδομένων. Έπειτα, δεδομένου των αναπαραστάσεων (δηλ. των κωδικοποιημένων δεδομένων), εφαρμόζεται μία τεχνική χωρικής πυραμιδικής συγκέντρωσης (spatial pyramid pooling) στις αναπαραστάσεις της κάθε εικόνας για να προκύψει ένα χαρακτηριστικό διάνυσμα, που θα αντιστοιχεί στην εικόνα και θα μπορεί να χρησιμοποιηθεί για διάφορα προβλήματα αναγνώρισης. Εικόνα 1.3 : Η πιο απλή προσέγγιση για την αναγνώριση αντικειμένων, όπου η αρχιτεκτονική Bag-of-Visualwords αποτελείται μόνο από το στάδιο υπολογισμού των τοπικών περιγραφέων. (Εικόνα διαθέσιμη από: Introduction tutorial on deep learning for vision at Conference on Computer Vision and Pattern Recognition (CVPR) 2014) 6

27 Το πρώτο στάδιο της αρχιτεκτονικής Bag-of-Visual-words (BoV) είναι ο σχηματισμός των χαμηλής τάξης (low-level) χαρακτηριστικών μέσω του υπολογισμού των τοπικών περιγραφέων (local descriptors). Οι τοπικοί περιγραφείς είναι hand-crafted χαρακτηριστικά, δηλ. υπολογίζονται μέσω μίας συγκεκριμένης μεθοδολογίας και δεν προκύπτουν από μία διαδικασία εκμάθησης από τα δεδομένα. Ένας αποδοτικός περιγραφέας πρέπει να έχει την δυνατότητα να διαχειρίζεται την ένταση, την περιστροφή, την κλιμάκωση και τις γειτονικές διακυμάνσεις του κάθε patch της εικόνας. Έτσι, οι πιο δημοφιλείς μέθοδοι υπολογισμού τοπικών περιγραφέων, με αποδειγμένη ικανότητα διακριτότητας, είναι οι Scale-Invariant Feature Transform (SIFT) [Lowe 2004] και Histograms of oriented Gradients (HoG) [Dalal 2005]. Ο υπολογισμός των τοπικών περιγραφέων έχει σαν αποτέλεσμα συνήθως μία καλύτερη και με περισσότερη πληροφορία αναπαράσταση των μοτίβων που υπάρχουν σε κάθε patch σε σχέση απλά με τις τιμές των raw pixels. Το δεύτερο στάδιο της αρχιτεκτονικής Bag-of-Visual-words (BoV) είναι η παραγωγή των μεσαίας τάξης (mid-level) χαρακτηριστικών μέσω της εκμάθησης αναπαραστάσεων από τα δεδομένα. Το στάδιο αυτό αποτελείται από την εκμάθηση ενός λεξικού (learning codebook) και την κωδικοποίηση (coding) των δεδομένων με τη βοήθεια του λεξικού. Η ονομασία Bag-of-Visual-words (BoV) οφείλεται σε αυτό το στάδιο της αρχιτεκτονικής και προκύπτει από το πρόβλημα ανάκτησης κειμένων (text retrieval), όπου το λεξικό (codebook) αποτελείται από λήμματα λέξεων και κάθε κείμενο ορίζεται σαν μία αναπαράσταση με βάση τη συχνότητα των λέξεων που εμπεριέχει. Έτσι, αντίστοιχα στον χώρο των εικόνων, η πρώτη εφαρμογή της αρχιτεκτονικής ήταν ο σχηματισμός ενός λεξικού με προκαθορισμένα στοιχεία και η ανάθεση του κάθε τοπικού περιγραφέα σε ένα στοιχείο του λεξικού με κριτήριο την μικρότερη διανυσματική τους απόσταση. Στη συνέχεια, η αρχιτεκτονική αναπτύχθηκε με την εκμάθηση των στοιχείων του λεξικού από τα δεδομένα και με την χρήση εναλλακτικών κωδικοποιήσεων που διατηρούν περισσότερη πληροφορία για τα δεδομένα. Γενικά, η διαδικασία κωδικοποίησης των τοπικών περιγραφέων σε μία αρχιτεκτονική Bag-of-Visual-words, υλοποιείται είτε μέσω μεθόδων αυστηρής κβάντισης που δημιουργούν το χωρικό ιστόγραμμα χρήσης των στοιχείων του λεξικού (π.χ. k-means), είτε μέσω της αναπαράστασης του σήματος εισόδου ως γραμμικού συνδυασμού ενός αριθμού στοιχείων του λεξικού (π.χ. Sparse Coding, LLC [Wang 2010]) είτε μέσω μεθόδων aggregate που καταγράφουν τις διαφορές των χαρακτηριστικών με τα στοιχεία του λεξικού, δηλ. που κάνουν χρήση των υπολοίπων των διανυσμάτων (π.χ. VLAD [Jégou 2010], VHAR [Kastaniotis 2017], Fisher Vectors ([Perronnin 2007], [Mironica 2013]), super-vectors [Zhou 2010]). Το τρίτο στάδιο της αρχιτεκτονικής Bag-of-Visual-words (BoV) είναι η χωρική πυραμιδική συγκέντρωση (spatial pyramid pooling) των αναπαραστάσεων της κάθε εικόνας για την παραγωγή ενός χαρακτηριστικού διανύσματος, που θα αντιστοιχεί στην κάθε εικόνα. Στο στάδιο αυτό δεν παράγονται υψηλότερης τάξης 7

28 χαρακτηριστικά αλλά τα μεσαίας τάξης (mid-level) χαρακτηριστικά του προηγούμενου σταδίου ενσωματώνονται μαζί σε ομάδες ώστε να προκύψει μία διανυσματικής αναπαράστασης για κάθε εικόνα, η οποία χαρακτηρίζει την κάθε εικόνα και μπορεί να χρησιμοποιηθεί για διάφορα προβλήματα αναγνώρισης. Η υλοποίηση της χωρικής πυραμιδικής συγκέντρωσης πραγματοποιείται συλλέγοντας αναπαραστάσεις από περιοχές της εικόνας και σε κάθε σύνολο αναπαραστάσεων εκτελείται μία διεργασία συγκέντρωσης (pooling operation) των διανυσμάτων των χαρακτηριστικών έτσι ώστε να ενσωματωθεί η πληροφορία από μία περιοχή σε ένα μόνο διάνυσμα χαρακτηριστικών. Το τελικό διάνυσμα χαρακτηριστικών της κάθε εικόνας δημιουργείται από την ένωση όλων των διανυσμάτων που προκύπτουν από την διεργασία συγκέντρωσης σε κάθε περιοχή της εικόνας. Συνήθως η διεργασία συγκέντρωσης είναι είτε ο υπολογισμός της μέσης τιμής των διανυσμάτων που αντιστοιχούν σε μία περιοχή της εικόνας (average pooling operation) είτε η εύρεση της μέγιστης τιμής των διανυσμάτων που έχουν προκύψει από μία περιοχή της εικόνας (max pooling operation) αλλά μπορεί να χρησιμοποιηθεί και οποιαδήποτε άλλη συνάρτηση. Με τη διαδικασία της χωρικής πυραμιδικής συγκέντρωσης εισάγεται η χωρική πληροφορία στο τελικό διάνυσμα χαρακτηριστικών, η οποία δεν υπάρχει εγγενώς στα διανύσματα κωδικοποίησης, και είναι σημαντική διότι αποκαλύπτει τοπικά χαρακτηριστικά σε μία περιοχή της εικόνας. image image image Filtering Filtering Filtering SIFT at keypoints dense Gradients dense SIFT Coding Coding Coding Vector Quantization Vector Quantization Sparse Coding Pooling Pooling Pooling whole Image (mean) Coarse grid (mean) Spatial Pyramid (max) Εικόνα 1.4 : Τα τρία στάδια (Filtering, Coding, Pooling) της αρχιτεκτονικής Bag-of-Visual-words (BoV) κατά την εξέλιξη της αρχιτεκτονικής με την αντικατάσταση της διανυσματικής κβάντισης (Vector Quantization) από την αραιή αναπαράσταση (Sparse Representation) 8

29 Η παρούσα εργασία χρησιμοποιεί την αρχιτεκτονικής Bag-of-Visual-words με το δεύτερο στάδιο να συνίσταται από την αραιή αναπαράσταση (Sparse Representation). Η έννοια της αραιότητας (sparsity ή parsimony) έγκειται στην αναπαράσταση ενός φαινομένου με όσο το δυνατόν λιγότερες μεταβλητές. Η έννοια αυτή, θεωρείται ότι προέρχεται από το έργο του Άγγλου φιλοσόφου και φραγκισκανού μοναχού του 14ου αιώνα William of Ockham ( ) και συγκεκριμένα από την «αρχή της αραιότητας» ( law of parsimony ), αν και η αρχή αυτή πρώτο-διατυπώθηκε από τους Πυθαγόρειους περίπου δύο χιλιάδες χρόνια νωρίτερα από τον Ockham, τελικά έγινε γνωστή, μερικούς αιώνες μετά το θάνατο του Ockham μελετώντας τα έργα του, ως το ξυράφι του Ockham (Ockham's razor). Ο όρος ξυράφι αναφέρεται στη διάκριση μεταξύ δύο υποθέσεων, είτε με το "ξύρισμα" περιττών υποθέσεων είτε με την περικοπή δύο παρόμοιων συμπερασμάτων. Η αρχή της αραιότητας ή ξυράφι του Ockham δεν αποτυπώνεται σε ένα μόνο απόφθεγμα του Ockham αλλά υπάρχουν πολλές αναφορές στο έργο του, όπως Pluralitas non est ponenda sine necessitate (Plurality must never be posited without necessity) και Frustra fit per plura quod potest fieri per pauciora (It is futile to do with more things that which can be done with fewer). Σε ελεύθερη απόδοση, η αρχή μπορεί να συμπυκνωθεί στην φράση «Όταν δύο θεωρίες παρέχουν εξίσου ακριβείς προβλέψεις, πάντα να επιλέγεται η απλούστερη». Βέβαια, παραλλαγές της αρχής της αραιότητας συναντώνται και σε έργα άλλων στοχαστών. Η χρήση ενός υπερπλήρους συνόλου και η ενεργοποίηση λίγων μόνο στοιχείων του συνόλου για την περιγραφή ενός φαινομένου αποτελεί κυρίαρχη ιδέα σε πολλούς τομείς έρευνας και εφαρμογής. Στον τομέα της Μηχανική Μάθησης (ή Εκμάθησης), η αραιή αναπαράσταση (Sparse Representation) αποτελεί μία μέθοδο μη-εποπτευόμενης μάθησης (unsupervised learning) με αξιοσημείωτα αποτελέσματα τόσο σε απλά προβλήματα, όπως απομάκρυνσης θορύβου, σύνθεση υφής, επεξεργασίας ήχου κ.ά. όσο και σε πιο σύνθετα, όπως προβλήματα ταξινόμησης και ομαδοποίησης. Στην επεξεργασία σήματος, η αραιή αναπαράσταση είναι η εξεύρεση της καλύτερης αναπαράστασης -με βάση το σφάλμα ανακατασκευής- ενός δεδομένου σήματος εισόδου ως γραμμικού συνδυασμού ενός περιορισμένου αριθμού σημάτων ενός λεξικού, που ονομάζονται άτομα. Τελικά, η εκμάθηση ενός λεξικού από τα δεδομένα (Dictionary Learning) και η αραιή κωδικοποίηση (Sparse Coding) μέσω αυτού του λεξικού των σημάτων αποτελεί μία πολύ αποδοτική μέθοδο για την αναγνώριση. Η αραιή αναπαράσταση έχει μία ενδιαφέρουσα σχέση με την διανυσματική κβάντιση (Vector Quantization) ή ομαδοποίηση (clustering) [Delgado 2003]. Κατά τη διανυσματική κβάντιση (μέσω του αλγορίθμου k-means) σχηματίζεται ένα σύνολο αντιπροσωπευτικών διανυσμάτων που αντιστοιχούν στα κέντρα των κλάσεων των δεδομένων (cluster centers) μέσω μίας διαδικασίας μη-εποπτευόμενης (unsupervised) μάθησης και κάθε διάνυσμα των δεδομένων αναθέτεται σε ένα από τα κέντρα των κλάσεων που είναι πιο κοντινό, δηλ. συνήθως σε αυτό που εμφανίζει 9

30 τη μικρότερη διανυσματική απόσταση. Μία διαφορετική εκδοχή της διαδικασίας της διανυσματικής κβάντισης (VQ) ονομάζεται gain-shape Vector Quantization (G/S VQ) και επιτρέπει την ανάθεση κάθε διανύσματος των δεδομένων σε ένα κέντρο αλλά με έναν συντελεστή βαρύτητας που μπορεί να είναι διαφορετικός από τη μονάδα [Gersho 1991]. Ο συνδυασμός των δύο αυτών διεργασιών οδηγεί στην αραιή αναπαράσταση (SR), κατά την οποία κάθε διάνυσμα των δεδομένων μπορεί να αναπαρασταθεί από το γραμμικό συνδυασμό των κέντρων των κλάσεων (codewords), τα οποία πλέον ονομάζονται άτομα του λεξικού. Οι συντελεστές στο σταθμισμένο άθροισμα των ατόμων για τη αναπαράσταση του κάθε σήματος μπορούν να λάβουν οποιαδήποτε τιμή. Έτσι, η gain-shape διανυσματική κβάντιση (G/S VQ) αποτελεί μία ακραία περίπτωση αραιής αναπαράστασης, όπου μόνο ένα άτομο επιτρέπεται να χρησιμοποιηθεί ενώ αν ο συντελεστής του ενός ατόμου -που θα επιλεγεί- επιβληθεί να λαμβάνει μόνο την τιμή της μονάδας τότε προκύπτει η διανυσματική κβάντιση (VQ). Επομένως, η αραιή αναπαράσταση μπορεί να θεωρηθεί σαν μία γενίκευση της διανυσματικής κβάντισης (ή ομαδοποίησης). Η αρχιτεκτονική Bag-of-Visual-words, εξαιτίας της πολύ καλής απόδοσης που επιτυγχάνει, αποτελεί μία από τις κυρίαρχες τεχνικές για την επίλυση προβλημάτων αναγνώρισης αντικειμένων (object recognition) στην υπολογιστική όραση [Law 2014]. Τα βασικά πλεονεκτήματα της μεθόδου Bag-of-Visual-words είναι ότι επωφελείται από την αποδοτικότητα των τοπικών περιγραφέων (handcrafted features) και από την ευέλικτη δομή της αρχιτεκτονικής της. Έτσι, εκμεταλλεύεται την αποτελεσματικότητα και τα χαρακτηριστικά των τοπικών περιγραφέων (ανεξαρτησία (αμεταβλητότητα) κλίμακας, περιστροφής, φωτισμού, κ.ά. και ανθεκτικότητα σε θόρυβο, μετασχηματισμούς, κ.ά.) και μέσω της ευελιξίας της μπορεί να ενσωματώνει διάφορες μεθόδους εκμάθησης για την παραγωγή των μεσαίας τάξης (mid-level) χαρακτηριστικών πολύ εύκολα. Το κύριο μειονέκτημα της μεθόδου Bag-of-Visual-words είναι ότι τα patches κωδικοποιούνται ανεξάρτητα μεταξύ τους, δηλ. αγνοώντας τη χωρική δομή των γειτονιών της εικόνας. Εικόνα 1.5 : Ο σχηματισμός των χαμηλής τάξης (low-level) χαρακτηριστικών μέσω του υπολογισμού των τοπικών περιγραφέων (local descriptors) και η παραγωγή των μεσαίας τάξης (mid-level) χαρακτηριστικών μέσω της εκμάθησης ενός λεξικού (learning codebook) για την κωδικοποίηση (coding) των δεδομένων. (Εικόνα από : R. Fergus ( [Krizhevsky 2012], [Kavukcuoglu 2010], [Zeiler 2010], [Lee 2009], [Jarrett 2009], tutorial at CVPR 2014 ( 10

31 1.3 Η αρχιτεκτονική deep Learning : Η αρχιτεκτονική deep Learning (βαθιά μάθηση) ανήκει στον τομέα της Μηχανικής Μάθησης (ή Εκμάθησης) και είναι ευρέως διαδεδομένη στις μέρες μας καθώς έχει βελτιώσει δραματικά την απόδοση των συστημάτων σε πληθώρα προβλημάτων, όπως η αναγνώριση ομιλίας, η οπτική αναγνώριση αντικειμένων, η ανίχνευση αντικειμένων, κ.ά. Οι deep Learning (βαθιάς μάθησης) τεχνικές, που γενικά ονομάζονται βαθιά τεχνητά νευρωνικά δίκτυα (large deep artificial neural networks), έχουν ως στόχο την εξαγωγή ιεραρχικών χαρακτηριστικών από τα δεδομένα και συνήθως αποτελούνται από διαδοχικές μονάδες εξαγωγής χαρακτηριστικών, όπου το αποτέλεσμα της προηγούμενης διεργασίας είναι είσοδος στην επόμενη [Bengio 2012]. Οι πρώτες υλοποιήσεις σε αυτό το πεδίο έρευνας θεωρούνται τα Convolutional Neural Networks [LeCun 1998] και τα Deep Belief Networks [Hinton 2006]. Η ιεραρχική δομή των νευρικών συστημάτων των έμβιων οργανισμών αποτέλεσε την έμπνευση για την ανάπτυξη των αρχιτεκτονικών βαθιάς (deep) μάθησης για την εκμάθησης χαρακτηριστικών μέσω πολλαπλών επιπέδων (multi-layer) μονάδων εκμάθησης. Έτσι, ο όρος deep (βαθιά) μάθηση προκύπτει από το γεγονός ότι το σύστημα για την αναγνώριση αντικειμένων αποτελείται από πολλαπλά επίπεδα και όλα αυτά τα επίπεδα μπορούν να εκπαιδευτούν. Γενικά, ο όρος deep (βαθιά) μάθηση χρησιμοποιείται για την περιγραφή μεγάλων βαθιών νευρωνικών δικτύων (large deep neural networks). Οι τεχνικές βαθιάς (deep) μάθησης δεν αποτελούν μία καινούργια ιδέα αλλά υπάρχουν από τις δεκαετίες του 1980 και του 1990 ([Rumelhart 1986], [LeCun 1989]), απλά σήμερα οι υπολογιστές είναι τόσο γρήγοροι και τα δεδομένα αρκετά ώστε να μπορούν πραγματικά να εκπαιδευτούν μεγάλα νευρωνικά δίκτυα [Ng at Extract Data Conference 2015 in a talk titled What data scientists should know about deep learning ]. Εικόνα 1.6 : Τα αίτια που οι τεχνικές deep (βαθιάς) μάθησης δεν οδήγησαν σε αποδοτικά αποτελέσματα τις προηγούμενες δεκαετίες [LeCun, Bengio, Hinton 2015]. (Ο όρος backpropagation αναφέρεται στην εκπαίδευση ενός νευρωνικού δικτύου και στην παραπάνω εικόνα χρησιμοποιείται ταυτόσημα με τον όρο deep Learning) (Εικόνα από : Hinton G. at the Royal Society on 2016 in a talk titled Deep Learning ) 11

32 Στη βαθιά (deep) αρχιτεκτονική τοποθετούνται πολλά επίπεδα (layers) από μονάδες εκμάθησης χαρακτηριστικών, το ένα μετά το άλλο, έτσι ώστε κάθε επίπεδο να χρησιμοποιεί την αναπαράσταση που παράχθηκε από το προηγούμενο επίπεδο και να παράγει μία νέα αναπαράσταση που θα τροφοδοτήσει το επόμενο επίπεδο. Με αυτό τον τρόπο, η βαθιά (deep) αρχιτεκτονική μαθαίνει τα χαρακτηριστικά απευθείας από τα δεδομένα (automatically learning features) και ευελπιστεί να ανακαλύψει ιεραρχικές αναπαραστάσεις των δεδομένων, δηλ. καθίσταται δυνατή η παραγωγή χαρακτηριστικών από κάθε επίπεδο χρησιμοποιώντας τα χαρακτηριστικά του προηγούμενου επιπέδου. Επομένως, κάθε επίπεδο της βαθιάς (deep) αρχιτεκτονικής κωδικοποιεί χαρακτηριστικά σε διαφορετική βαθμίδα της όλης διαδικασίας εκμάθησης και έτσι τα χαρακτηριστικά υψηλής τάξης (high-level) από τα βαθύτερα (υψηλότερα) επίπεδα (layers) αποτελούν σύνθεση των χαρακτηριστικών μεσαίας (mid-level) και χαμηλής (low-level) τάξης από τα χαμηλότερα (αρχικά) επίπεδα του δικτύου. Συνεπώς, σε ένα σύστημα βαθιάς (deep) μάθησης τα δεδομένα μεταχειρίζονται σε πολλαπλά επίπεδα, δηλ. αναλύονται από πολλαπλές σκοπιές και όχι μόνο από μία πλευρά όπως σε ένα απλό σύστημα ενός επιπέδου, και επιτυγχάνεται η εξαγωγή υψηλής τάξης (high-level) χαρακτηριστικών. Τελικά, η ιεραρχική προσέγγιση μέσω των πολλαπλών επιπέδων στα συστήματα βαθιάς (deep) μάθησης έχει σαν αποτέλεσμα τα συστήματα να μαθαίνουν πολύπλοκες έννοιες μέσα από την σύνθεση απλούστερων και με αυτό τον τρόπο να επιτυγχάνουν αποδοτικότερες αναπαραστάσεις των δεδομένων ανακαλύπτοντας τα ενδόμυχα χαρακτηριστικά τους. Εικόνα 1.7 : Η εκμάθηση ιεραρχικών αναπαραστάσεων μέσω των πολλαπλών επιπέδων (layers) στα συστήματα βαθιάς (deep) μάθησης για την εξαγωγή υψηλής τάξης (high-level) χαρακτηριστικών. (Εικόνα από : LeCun Y. at the Lawrence Livermore Nat. Laboratory on 2015 in a talk titled "Deep Learning") 12

33 Εικόνα 1.8 : Η τυπική διαδικασία ιεραρχικής μάθησης σε ένα βαθύ νευρωνικό δίκτυο (deep neural network) Για την επίλυση του προβλήματος της ταξινόμησης εικόνων, τα βαθύτερα (υψηλότερα) επίπεδα (layers) του νευρωνικού δικτύου ενισχύουν τις πτυχές των δεδομένων εισόδου που είναι σημαντικές για την διάκριση μεταξύ των εικόνων και καταστέλλουν τις υπόλοιπες άσχετες μεταβολές. Στο πρώτο επίπεδο εκμάθησης χαρακτηριστικών (1 st layer of representation) εισάγεται μία εικόνα (δηλ. οι τιμές των raw pixels της) και σχηματίζονται μέσω μίας διαδικασίας εκμάθησης χαρακτηριστικά χαμηλής τάξης (low-level features). Επομένως, οι αναπαραστάσεις από το πρώτο επίπεδο αντιστοιχούν γενικά στην παρουσία ή απουσία ακμών σε συγκεκριμένους προσανατολισμούς και θέσεις στην εικόνα. Στο δεύτερο επίπεδο εκμάθησης χαρακτηριστικών (2 nd layer of representation) γενικά ανιχνεύονται μοτίβα εντοπίζοντας συνδυασμούς ακμών, ανεξάρτητα από μικρές μεταβολές στις θέσεις των ακμών στην εικόνα. Επομένως, οι αναπαραστάσεις που προκύπτουν από την εκμάθηση στο δεύτερο επίπεδο αντιστοιχούν σε χαρακτηριστικά μεσαίας τάξης (mid-level features). Στο τρίτο επίπεδο εκμάθησης χαρακτηριστικών (3 rd layer of representation) συγκεντρώνονται συνδυασμοί ακμών από το προηγούμενο επίπεδο, οι οποίοι πλέον αντιστοιχούν σε τμήματα οικείων αντικειμένων. Έτσι, δημιουργούνται πιο σύνθετα χαρακτηριστικά από την ένωση απλούστερων. Στα επόμενα επίπεδα εκμάθησης χαρακτηριστικών ανιχνεύονται αντικείμενα στις εικόνες σαν συνδυασμό των τμημάτων των αντικειμένων που έχουν παραχθεί στο προηγούμενο επίπεδο. Επομένως, εξάγονται χαρακτηριστικά υψηλής τάξης (high-level features) από τα δεδομένα. Τελικά, η ιεραρχική προσέγγιση μέσω των πολλαπλών επιπέδων στα συστήματα βαθιάς (deep) μάθησης έχει σαν αποτέλεσμα τα συστήματα να μαθαίνουν πολύπλοκες έννοιες μέσα από την σύνθεση απλούστερων και με αυτό τον τρόπο να επιτυγχάνουν αποδοτικότερες αναπαραστάσεις των δεδομένων, που οδηγούν σε βέλτιστη αναγνώριση των εικόνων. Το βασικό στοιχείο της βαθιάς (deep) μάθησης είναι ότι τα επίπεδα χαρακτηριστικών δεν σχεδιάζονται από το μηχανικό (hand-crafted by human engineers) αλλά μαθαίνονται από τα δεδομένα, δηλ. σχηματίζονται μέσω μίας διαδικασίας εκμάθησης. Έτσι, η διαδικασίας προσδιορισμού των βαρών σε κάθε επίπεδο (layer) του νευρωνικού δικτύου αντιστοιχεί στο φιλτράρισμα που εκτελείται στο επίπεδο αυτό (δηλ. στα χαρακτηριστικά που θα εξαχθούν) και πραγματοποιείται μέσα από την εκμάθηση από τα δεδομένα. Με αυτό τον τρόπο, τα χαρακτηριστικά που εξάγονται από κάθε επίπεδο του δικτύου προκύπτουν απευθείας από τα δεδομένα, δηλ. είναι αποτέλεσμα απευθείας εκμάθησης (automatically learning features). (Εικόνα διαθέσιμη από: Introduction tutorial on deep learning for vision at Conference on Computer Vision and Pattern Recognition (CVPR) 2014, [Krizhevsky 2012], [Kavukcuoglu 2010], [Zeiler 2010], [Lee 2009], [Jarrett 2009]) 13

34 Η ραγδαία χρήση συστημάτων βαθιάς μάθησης στις μέρες μας οφείλεται κατά πολύ στην εξαιρετική απόδοση που επιτυγχάνουν όταν εκπαιδεύονται με εποπτευόμενη μάθηση (supervised learning) [Ng at Extract Data Conference 2015 in a talk titled What data scientists should know about deep learning ]. Έτσι, στις πιο συνηθισμένες υλοποιήσεις της βαθιάς μάθησης (π.χ. Convolutional Neural Networks, Deep Neural Networks) η εκπαίδευση του δικτύου πραγματοποιείται μέσω ενός μεγάλου συνόλου επισημασμένων δεδομένων (supervised learning), όπου εισάγονται εικόνες (raw pixels) και το αποτέλεσμα ταξινόμησης του δικτύου είναι γνωστό έτσι ώστε τα βάρη του δικτύου να προσδιοριστούν απευθείας από τα δεδομένα με στόχο να ενισχύσουν τις πτυχές των δεδομένων που είναι σημαντικές για την διάκριση μεταξύ τους και να καταστείλουν τα υπόλοιπες. Με αυτό τον τρόπο οι τιμές των βαρών επιλέγονται μέσω μίας διαδικασίας εκμάθησης ενώ το εκπαιδευμένο δίκτυο που προκύπτει μπορεί να χρησιμοποιηθεί για την εξαγωγή χαρακτηριστικών ή για την ταξινόμηση εικόνων. Γενικά, η εποπτευόμενη (supervised) εκπαίδευση ενός δικτύου βαθιάς μάθησης για την ταξινόμηση εικόνων πραγματοποιείται είτε μέσω ενός μεγάλου πλήθους επισημασμένων δεδομένων (end-to-end supervised training from scratch) είτε χρησιμοποιώντας ένα προ-εκπαιδευμένο δίκτυο (pretrained) και μέσω ενός μικρού συνόλου επισημασμένων δεδομένων οι παράμετροι του δικτύου προσαρμόζονται στα νέα δεδομένα (transfer learning that involves fine-tuning a pretrained model). Τέλος, όταν ένα δίκτυο επιθυμείται να χρησιμοποιηθεί για την εξαγωγή χαρακτηριστικών από μία εικόνα, τότε η άγνωστη εικόνα εισάγεται στο ήδη εκπαιδευμένο δίκτυο και επιλέγονται τα χαρακτηριστικά που προκύπτουν από οποιοδήποτε επίπεδο του δικτύου. Εικόνα 1.9 : Μία οπτική κατηγοριοποίηση (αξιολόγηση) διάφορων μεθόδων της μηχανικής μάθησης με βάση το αν ακολουθούν τεχνική εποπτευόμενης (supervised) ή μη-εποπτευόμενης (unsupervised) μάθησης και με το αν η αρχιτεκτονική τους είναι βαθιά (deep) ή όχι (shallow). (Εικόνα διαθέσιμη από: Introduction tutorial on deep learning for vision at Conference on Computer Vision and Pattern Recognition (CVPR) 2014) 14

35 Η βαθιά μάθηση (deep Learning), αν και ανήκει γενικά στον τομέα της μηχανικής μάθησης, εμφανίζει δύο σημαντικές διαφορές με τις κλασικές μεθόδους της μηχανικής μάθησης (machine Learning), οι οποίες κατά κάποιο τρόπο έχουν καθορίσει το χώρο του τομέα της μηχανικής μάθησης. Η πρώτη βασική διαφορά με τις κλασικές μεθόδους της μηχανικής μάθησης είναι ότι συχνά η απόδοση της βαθιάς (deep) μάθησης βελτιώνεται καθώς αυξάνεται το μέγεθος των δεδομένων εκμάθησης. Έτσι, η χρήση μεγαλύτερων (βαθύτερων) δικτύων και η εκπαίδευσή τους σε περισσότερα δεδομένα έχει σαν αποτέλεσμα η απόδοσή τους να συνεχίζει να αυξάνεται. Αυτό είναι τελείως αντίθετο με όλες τις άλλες μεθόδους της μηχανικής μάθησης, οι οποίες εμφανίζουν κορεσμό στην απόδοση ύστερα από ένα πεπερασμένο πλήθος δεδομένων εκμάθησης, δηλ. η απόδοσή τους επιτυγχάνει μία μέγιστη τιμή και στη συνέχεια διατηρείται σταθερή όσο και αν αυξάνονται τα παραδείγματα εκμάθησης. Επομένως, οι μέθοδοι βαθιάς μάθησης (deep Learning) φέρουν την ιδιότητα της κλιμάκωσης (scaling) σε σχέση με το μέγεθος του συνόλου εκμάθησης ενώ αντίθετα όλες οι υπόλοιπες μέθοδοι της μηχανικής μάθησης -που συνηθίζεται πλέον να ονομάζονται ρηχή μάθηση (shallow Learning)- συγκλίνουν ύστερα από ένα πεπερασμένο πλήθος δεδομένων εκμάθησης (reach a plateau in performance). Τελικά, η απόδοση ενός δικτύου βαθιάς μάθησης συνεχίζει να βελτιώνεται καθώς τροφοδοτείται με περισσότερα δεδομένα. Εικόνα 1.10 : Η απόδοση των μεθόδων βαθιάς μάθησης (deep Learning) συνεχίζει να βελτιώνεται καθώς τροφοδοτούνται με νέα δεδομένα εκμάθησης, κάτι που δεν συμβαίνει σε καμία άλλη μέθοδο της μηχανικής μάθησης (machine Learning). (Εικόνα από : Ng A. at Extract Data Conference 2015 in a talk titled What data scientists should know about deep learning, διαθέσιμη από : ) 15

36 Στις κλασικές μεθόδους εξαγωγής χαρακτηριστικών της μηχανικής μάθησης (π.χ. SIFT, HOG) τα χαρακτηριστικά είναι hand-crafted, δηλ. υπολογίζονται μέσω μίας συγκεκριμένης μεθοδολογίας και δεν προκύπτουν από μία διαδικασία εκμάθησης από τα δεδομένα. Αντίθετα, σε ένα σύστημα βαθιάς μάθησης (deep Learning) τα χαρακτηριστικά από όλα τα επίπεδα (layers) προκύπτουν απευθείας από τα δεδομένα, δηλ. είναι αποτέλεσμα απευθείας εκμάθησης (automatically learning features). Άρα, στις κλασικές μεθόδους της μηχανικής μάθησης επιλέγονται χειροκίνητα τα χαρακτηριστικά και ένας ταξινομητής καλείται για να αναγνωρίσει τις εικόνες ενώ στη βαθιά μάθηση η εξαγωγή χαρακτηριστικών και η μοντελοποίηση των επιπέδων (layers) πραγματοποιείται αυτόματα μέσω της εκμάθησης από τα δεδομένα. Βέβαια, η πιο συνηθισμένη προσέγγιση για την αναγνώριση αντικειμένων στο πεδίο της μηχανικής μάθησης είναι η αρχιτεκτονική Bag-of-Visual-words. Η αρχιτεκτονική Bag-of-Visual-words διαθέτει στάδιο εκμάθησης χαρακτηριστικών (εκμάθηση λεξικού και κωδικοποίηση μέσω αυτού) αλλά επίσης φέρει και στάδιο υπολογισμού τοπικών περιγραφέων, δηλ. σχηματισμού hand-crafted χαρακτηριστικών. Ακόμα και στην περίπτωση που το στάδιο υπολογισμού των τοπικών περιγραφέων αγνοηθεί, η αρχιτεκτονική Bag-of-Visual-words δεν έχει την δυνατότητα κωδικοποίησης χαρακτηριστικών σε διαφορετικές βαθμίδες της όλης διαδικασίας, δηλ. τα δεδομένα δεν αναλύονται από πολλαπλές σκοπιές, και ούτε μπορεί να επιτύχει ιεραρχική μάθηση χαρακτηριστικών για την εξαγωγή υψηλής τάξης (high-level) χαρακτηριστικών. Η προσπάθεια επέκτασης της αρχιτεκτονική Bag-of-Visual-words για την ενσωμάτωση ιεραρχικών χαρακτηριστικών από διαφορετικές βαθμίδες της όλης διαδικασίας εκμάθησης αποτελεί το θέμα της παρούσης εργασίας και περιγράφεται αναλυτικά στα επόμενα κεφάλαια. 16

37 Κεφάλαιο 2 : Αραιή Αναπαράσταση (Sparse Representation) 2.1 Εισαγωγή στο πρόβλημα της αραιής αναπαράστασης : Γενική περιγραφή του προβλήματος αραιής αναπαράστασης : Η αραιή αναπαράσταση (Sparse Representation) αποτελεί μία διαδικασία μη εποπτευόμενης μάθησης και χρησιμοποιείται ευρέως στη μηχανική μάθηση, τη νευροεπιστήμη, την επεξεργασία σημάτων και την στατιστική καθώς αποτελεί ένα ερευνητικό πεδίο με αξιοσημείωτα αποτελέσματα τόσο σε απλά προβλήματα όπως απομάκρυνσης θορύβου, σύνθεση υφής, επεξεργασίας ήχου κ.α., όσο και σε πιο σύνθετα όπως προβλήματα ταξινόμησης και ομαδοποίησης. Μία μορφή του προβλήματος της αραιής κωδικοποίησης (Sparse Coding) αφορά στην εξεύρεση της καλύτερης αναπαράστασης -με βάση το σφάλμα ανακατασκευής- ενός δεδομένου σήματος εισόδου ως γραμμικού συνδυασμού ενός περιορισμένου αριθμού σημάτων ενός λεξικού, που ονομάζονται άτομα. Εικόνα 2.2 : Αραιή αναπαράσταση σημάτων (Εικόνα από : [Olshausen 1996],[Lee 2007],[Ranzato 2007]) 17

38 Αν και άλλες τεχνικές μη εποπτευόμενης μάθησης, όπως η ανάλυση κύριων συνιστωσών (PCA) απολήγουν στην εκμάθηση ενός πλήρους συνόλου βάσεων για την αναπαράσταση των διανυσμάτων εισόδου, η αραιή κωδικοποίηση μπορεί να οδηγήσει στην εκμάθηση ενός υπερπλήρους (overcompleteness) λεξικού, δηλ. το πλήθος των ατόμων του λεξικού είναι μεγαλύτερο από την διάσταση του σήματος εισόδου. Το πλεονέκτημα της χρήσης ενός υπερπλήρους λεξικού είναι ότι τα άτομα του λεξικού μπορούν να αποκαλύψουν πιο εύκολα τις δομές και τα πρότυπα που είναι εγγενή με τα σήματα εισόδου και έτσι δύναται να καταγράψουν χαρακτηριστικά υψηλότερου επιπέδου στα δεδομένα. Επιπλέον, οι συντελεστές αραιής αναπαράστασης δεν καθορίζονται πλέον μονοσήμαντα από το διάνυσμα εισόδου αλλά και από τα άτομα του υπερπλήρους λεξικού. Έτσι, ενώ σε ένα πλήρες λεξικό τα άτομα συνήθως είναι ορθοκανονικά, σε ένα υπερπλήρες λεξικό τα άτομα έχουν μοναδιαίο μέτρο και καταλαμβάνουν τις ακτινικές διευθύνσεις που ταιριάζουν καλύτερα στο πρόβλημα. Στην αραιή κωδικοποίηση εισάγεται το πρόσθετο κριτήριο της αραιότητας (sparsity) για την επίλυση του εκφυλισμού που εισάγεται από την υπερπληρότητα. Ο όρος αραιότητα αναφέρεται στην ύπαρξη λίγων μη μηδενικών συντελεστών ή λίγων συντελεστών με τιμή όχι κοντά στο μηδέν στην αραιή αναπαράσταση. Δηλαδή το κριτήριο της αραιότητας σημαίνει ότι για δεδομένο διάνυσμα εισόδου επιδιώκουμε αναπαράσταση με λίγους από τους συντελεστές να απέχουν όσο το δυνατόν περισσότερο από το μηδέν. Η επιλογή της αραιότητας ως επιθυμητού χαρακτηριστικού της αναπαράστασης των δεδομένων εισόδου ενθαρρύνεται από την παρατήρηση ότι τα περισσότερα φυσικά ερεθίσματα, όπως οι φυσικές εικόνες, μπορούν να περιγραφούν ως η υπέρθεση ενός μικρού αριθμού στοιχείων όπως επιφάνειες (surfaces) ή ακμές (edges). Η εφαρμογή της αραιής κωδικοποίησης σε φυσικές εικόνες έχει σαν αποτέλεσμα τα άτομα του λεξικού που προκύπτουν από την διαδικασία εκμάθησης να προσομοιάζουν τα δεκτικά πεδία των νευρώνων στον οπτικό φλοιό [Olshausen 1996 & 1997]. Παρόμοια αποτελέσματα έχουν παρατηρηθεί και στη κωδικοποίηση άλλων φυσικών ερεθισμάτων, όπως η ομιλία και το βίντεο ([Lewicki 2000],[Olshausen 2002]). Με βάση τη βιβλιογραφία [Olshausen 1997] θεωρείται ότι το V1 τμήμα του εγκεφάλου -που δέχεται τα οπτικά ερεθίσματα- πραγματοποιεί μία διαδικασία ανίχνευσης ακμών με κριτήριο αραιότητας καθώς και ότι ο ακουστικός κοχλίας στο αυτί εκτελεί αραιή κωδικοποίηση στις συχνότητες για την άμεση ανταπόκριση στα ερεθίσματα [Booth 2013]. Επομένως, η χρήση ενός υπερπλήρους συνόλου και η ενεργοποίηση λίγων μόνο στοιχείων του συνόλου για ένα δεδομένο σήμα εισόδου είναι μια διαδικασία που έχει παρατηρηθεί σε βιολογικούς νευρώνες καθιστώντας έτσι την αραιή κωδικοποίηση ένα βιολογικά εμπνευσμένο μοντέλο [Olshausen 1997 & 2004]. 18

39 2.1.2 Μαθηματική περιγραφή του προβλήματος αραιής αναπαράστασης : Για ένα υπερπλήρες λεξικό D που περιέχει k άτομα-σήματα ως στήλες του, ένα σήμα μπορεί να αναπαρασταθεί σαν γραμμικός συνδυασμός μερικών ατόμων του λεξικού D. Η αναπαράσταση του σήματος μπορεί να είναι είτε ακριβής είτε προσεγγιστική, ικανοποιώντας τη σχέση, όπου η είναι η -νόρμα με. Το διάνυσμα αποτελείται από τους συντελεστές αραιής αναπαράστασης του yᵢ. Επομένως, ένα σύνολο m διανυσμάτων εισόδου είναι ένας πίνακας Υ = { y1,y2,,ym }, το λεξικό είναι D = { d1,d2,,dk } και οι συντελεστές της αραιής αναπαράστασης των m διανυσμάτων είναι A = { α1,α2,,αm }. Έτσι, η συνάρτηση κόστους της αραιής αναπαράστασης για m διανύσματα εισόδου περιγράφεται από τρία ισοδύναμα προβλήματα βελτιστοποίησης : είτε χρησιμοποιώντας την συνάρτηση κανονικοποίησης (regularization) σαν penalty (συνάρτηση ποινής) min + λ Ψ(Α) } και σε μορφή πινάκων: min { D,Α είτε χρησιμοποιώντας την συνάρτηση κανονικοποίησης (regularization) σαν περιορισμό με βάση την τιμή του μ min } και σε μορφή πινάκων: min { D,Α είτε χρησιμοποιώντας ανακατασκευής ε σαν s.t. περιορισμό Ψ(Α) μ την τιμή του σφάλματος min και σε μορφή πινάκων: min { Ψ(Α) } D,Α s.t. ε 19

40 όπου η Ψ(.) είναι μια συνάρτηση κόστους αραιότητας έτσι ώστε οι συντελεστές να μην λαμβάνουν τιμές πολύ μεγαλύτερες από το μηδέν και Frobenius norm που ορίζεται ως. είναι η Στην πράξη παίζει σημαντικό ρόλο ποια από τις τρεις παραπάνω μορφές του προβλήματος θα εκτελεστεί αλλά δεν υπάρχει γενικός κανόνας για την προτίμηση της μίας έναντι της άλλης. Άρα, το πρόβλημα βελτιστοποίησης που επιλέγεται να επιλυθεί για την επίτευξη της αραιής αναπαράστασης εξαρτάται μόνο από την φύση του προβλήματος και τον χρήστη. Όσον αφορά την πρώτη μορφή της συνάρτησης κόστους της αραιής αναπαράστασης, ο πρώτος όρος μπορεί να ερμηνευτεί σαν ο όρος ανακατασκευής για την καλή αναπαράσταση του σήματος εισόδου και ο δεύτερος όρος σαν το κριτήριο αραιότητας το οποίο αναγκάζει την αναπαράσταση να είναι αραιή. Η σταθερά λ είναι μία σταθερά κλιμάκωσης για να προσδιοριστεί η σχετική σχέση των δύο αυτών όρων στην συνάρτηση κόστους. Η ελαχιστοποίηση των παραπάνω συναρτήσεων κόστους μπορεί να επιτευχθεί αν οι συντελεστές α i πάρουν αυθαίρετα μικρές τιμές και τα άτομα d r αυθαίρετα μεγάλες τιμές, κάτι που όμως δεν είναι επιθυμητό. Για την αποφυγή του παραπάνω αποτελέσματος, τα άτομα του λεξικού περιορίζονται ώστε να έχουν ²- νόρμα μικρότερη ή ίση με μία σταθερά, που συνήθως ορίζεται η μονάδα. Έτσι, ονομάζεται C το κυρτό σύνολο των πινάκων που επαληθεύουν αυτόν τον περιορισμό : Επομένως, η συνάρτηση κόστους της αραιής αναπαράστασης με την προσθήκη του περιορισμού C λαμβάνει την μαθηματική μορφή : min k και σε μορφή πινάκων D min { + λ Ψ(Α) } C, Α k x m Άρα, η αραιή αναπαράσταση επιχειρεί την ελαχιστοποίηση του σφάλματος ανακατασκευής του σήματος εισόδου λαμβάνοντας υπόψη τον περιορισμό αραιότητας. Η σχέση μεταξύ των δύο ρυθμίζεται μέσω της τιμής της σταθεράς λ (regularization factor). 20

41 . (data min { + λ Ψ(Α) } D, Α k x m reconstruct error sparsity inducing fitting term) regularization Εικόνα 2.3 : Μαθηματικός φορμαλισμός του προβλήματος της αραιής αναπαράστασης Το πρόβλημα της αραιής αναπαράστασης εμπεριέχει δύο ζητούμενα, την κατασκευή του λεξικού και την κωδικοποίηση των σημάτων εισόδου με την χρήση του λεξικού για τον υπολογισμό των συντελεστών της αραιής αναπαράστασης. Το κοινό πρόβλημα βελτιστοποίησης όμως, δεν είναι κυρτό (jointly convex) ως προς το λεξικό D και τους συντελεστές α i μαζί αλλά είναι κυρτό ως προς κάθε μία μεταβλητή D και όταν η άλλη παραμένει σταθερή. Έτσι, μία προσέγγιση για την επίλυση αυτού του προβλήματος είναι η εναλλαγή μεταξύ των δύο μεταβλητών ελαχιστοποιώντας τη μία και διατηρώντας την άλλη σταθερή. Συνεπώς, το πρόβλημα της αραιής αναπαράστασης διαχωρίζεται σε δύο επιμέρους προβλήματα που επιλύονται διαδοχικά. Το πρώτο βήμα για την επίλυση του προβλήματος της αραιής αναπαράστασης είναι η κατασκευή του λεξικού. Το υπερπλήρες λεξικό που χρησιμοποιείται για την αραιή αναπαράσταση μπορεί να επιλεγεί ώστε να είναι ένα προκαθορισμένο (prespecified) σύνολο διανυσμάτων ή να σχεδιαστεί με τέτοιο τρόπο ώστε να προσαρμόζει το περιεχόμενό του για να ταιριάζει στο δοσμένο σύνολο σημάτων, δηλ. να προκύπτει από μία διαδικασία εκμάθησης. Η χρησιμοποίηση προκαθορισμένου λεξικού είναι ελκυστική λόγω της απλότητάς της διότι σε πολλές περιπτώσεις οδηγεί σε απλούς και γρήγορους αλγορίθμους για την περιγραφή της αραιής αναπαράστασης των σημάτων, όπως για παράδειγμα ο βραχύχρονος μετασχηματισμός Fourier (short-time FT). Βέβαια, η επιτυχία αυτών των λεξικών σε μία εφαρμογή εξαρτάται από το πόσο κατάλληλα είναι για να περιγράψουν τα ζητούμενα σήματα με αραιό τρόπο. Η άλλη κατηγορία λεξικών βασίζεται στην εκμάθηση του λεξικού από τα δεδομένα δείγματα. Στόχος είναι να βρεθεί το λεξικό το οποίο αποδίδει σαφέστερα τις αραιές αναπαραστάσεις των σημάτων εκμάθησης. Αυτού του είδους τα λεξικά επιλέγονται όταν τα σήματα που μελετώνται παρουσιάζουν κάποια κοινά χαρακτηριστικά με αποτέλεσμα το λεξικό που δημιουργείται να προσαρμόζεται σε αυτά. Θεωρείται ότι τέτοια μηπαραμετρικά λεξικά έχουν τη δυνατότητα να ξεπεράσουν τα κοινά χρησιμοποιούμενα προκαθορισμένα λεξικά, και λόγω των αυξημένων υπολογιστικών δυνατοτήτων πλέον, το υπολογιστικό κόστος μπορεί να καταστεί δευτερεύον στοιχείο λόγω της καλύτερης απόδοσης που επιτυγχάνεται όταν χρησιμοποιούνται λεξικά που προσαρμόζονται στα δεδομένα [Aharon 2006]. Η επιλογή του κατάλληλου λεξικού παίζει καθοριστικό ρόλο στην παραγόμενη αραιή 21

42 αναπαράσταση και εξαρτάται τόσο από τα ιδιαίτερα χαρακτηριστικά των σημάτων που επεξεργάζονται όσο και από την σκοπιμότητα της αναπαράστασης. Για αυτό τον λόγο έχουν προταθεί διαφορετικές προσεγγίσεις στο πρόβλημα της κατασκευής μη-παραμετρικών λεξικών, όπως λεξικά με στόχο την καλύτερη δυνατή ανακατασκευή ενός δεδομένου σήματος ([Aharon 2006],[Labusch 2009]) ή λεξικά που παράγουν μία αναπαράσταση που προσφέρει ταυτόχρονα καλή ποιότητα ανακατασκευής και διακριτότητα ως προς τα ενδογενή χαρακτηριστικά των σημάτων έτσι ώστε να είναι κατάλληλα για εφαρμογές ταξινόμησης και ομαδοποίησης σημάτων [Kokiopoulou 2008]. Η επίλυση του προβλήματος της αραιής αναπαράστασης, όπως αναφέρθηκε και παραπάνω, περιλαμβάνει τόσο την εκμάθηση του λεξικού -αν έχει επιλεγεί αυτή η κατηγορία λεξικού- όσο και την παραγόμενη αραιή αναπαράσταση των σημάτων. Η συνάρτηση κόστους αραιότητας Ψ(.) επιβάλλει τον περιορισμό αραιότητας των συντελεστών, δηλ. να μην λαμβάνουν τιμές πολύ μεγαλύτερες από το μηδέν, και λόγω του ότι μπορεί να λάβει διάφορες μορφές επαφίεται στον χρήστη η επιλογή της. Το πιο άμεσο μέτρο αραιότητας είναι η 0-νόρμα ή αλλιώς ψευδό-νόρμα λόγω του ότι απλά μετράει τα μη μηδενικά στοιχεία του διανύσματος αφού 0 = # { i 0 s.t. 0 }. Η χρήση της -νόρμας στην συνάρτηση κόστους, δηλ. ο ακριβής προσδιορισμός των αραιότερων αναπαραστάσεων, αποδεικνύεται ότι είναι ένα μη ντετερμινιστικό πολυωνυμικό χρονικό πρόβλημα (NP-hard problem) και άρα είναι δύσκολο να βελτιστοποιηθεί γενικά. Οπότε, αν επιλεγεί αυτή η μορφή της Ψ(.) αναζητούνται μόνο προσεγγιστικές λύσεις, που μπορούν να επιτευχθούν μέσω αλγορίθμων ταιριάσματος (pursuit algorithms) [Davis 1997]. Η αντικατάσταση της -νόρμας με την -νόρμα, όπου η -νόρμα ισούται με όταν είναι τα k στοιχεία του διανύσματος x, έχει σαν αποτέλεσμα η συνάρτηση κόστους να λαμβάνει μια κυρτή (convex) μορφή. Είναι γνωστό ότι η -μορφή της Ψ(.) οδηγεί σε αραιή αναπαράσταση αν και δεν υπάρχει άμεση σύνδεση μεταξύ της τιμής της σταθεράς κανονικοποίησης λ και του αντίστοιχου πλήθους μη μηδενικών συντελεστών της αραιής αναπαράστασης [Mairal 2009]. Όταν χρησιμοποιείται η νόρμα το πρόβλημα της αραιής κωδικοποίησης ονομάζεται Basis Pursuit (BP) ή Lasso ([Mairal 2009],[Chen 2001],[Tibshirani 1996]). Μία παρόμοια προσέγγιση στο πρόβλημα πραγματοποιείται μέσω του αλγορίθμου FOCUSS (Focal Underdetermined System Solver), ο οποίος αντικαθιστά την -νόρμα με την νόρμα με p 1. Για p < 1 η ομοιότητα με το μέγεθος της πραγματικής αραιότητας, δηλ. του παράγοντα περιορισμού της λύσης, είναι καλύτερη εντούτοις το όλο πρόβλημα καθίσταται μη κυρτό (non convex) με συνέπεια την δημιουργία τοπικών ελαχίστων που δυσκολεύουν την προσέγγιση της λύσης. Στον αλγόριθμο FOCUSS περιλαμβάνονται οι πολλαπλασιαστές Lagrange που χρησιμοποιούνται για την μετατροπή του περιορισμού αραιότητας σε παράγοντα ρύθμισης καθώς και μία επαναληπτική μέθοδος η οποία βασίζεται στην ιδέα των επαναλαμβανόμενων επανασταθμισμένων ελαχίστων τετραγώνων που θεωρούν την -νόρμα ως 22

43 σταθμισμένη ²-νόρμα [Gorodnitsky 1997]. Τόσο ο αλγόριθμος Basis Pursuit όσο και ο FOCUSS αναλύονται με βάση τη εκτίμηση μέγιστης εκ των υστέρων πιθανότητας MAP (Maximum A Posteriori Probability estimation). Η MAP, στην Bayesian στατιστική, είναι η εκτίμηση μίας άγνωστης ποσότητας, η οποία χρησιμοποιείται για την εύρεση της σημειακής εκτίμησης (που είναι ο υπολογισμός ενός στατιστικού στοιχείου του δείγματος ως η καλύτερη εκτίμηση μίας άγνωστης παραμέτρου) μίας μη δοθείσας ποσότητας με βάση τα εμπειρικά δεδομένα. Η MAP χρησιμοποιεί μία επαυξημένη βελτιστοποίηση που ενσωματώνει την προγενέστερη κατανομή στην ποσότητα που πρόκειται να εκτιμηθεί. Έτσι, η MAP εκτιμά τους συντελεστές α i, μεγιστοποιώντας την εκ των υστέρων πιθανότητα P(α i yᵢ,d) P(yᵢ D,α i )P(α i ). Η προγενέστερη (prior) κατανομή των μη μηδενικών συντελεστών του διανύσματος α i θεωρείται ως υπερ-γκαουσιανή (super-gaussian) κατανομή που ενθαρρύνει την αραιότητα. Εν τέλει, η επιτυχία όλων αυτών των αλγορίθμων εξαρτάται από τους περιορισμούς αραιότητας του διανύσματος συντελεστών, οι οποίοι τίθενται από τα επιθυμητά χαρακτηριστικά του λεξικού. Έτσι, όταν το πλήθος των μη μηδενικών συντελεστών είναι αρκετά μικρό σε σχέση με τη διάσταση n του λεξικού D, τότε οι αλγόριθμοι pursuit εκτιμούν μία πολύ καλή προσέγγιση της ιδανικής λύσης [Aharon 2006]. Η αραιή αναπαράσταση αποτελεί μία μη-εποπτευόμενη (unsupervised) μέθοδο μάθησης και επομένως δεν χρειάζεται επισημασμένα δεδομένα (δηλ. που φέρουν ετικέτα και άρα για κάθε διάνυσμα να είναι γνωστή η κατηγορία που ανήκει). Αυτό συμβαίνει διότι κατά την διαδικασία εκμάθησης του λεξικού αραιής αναπαράστασης μπορούν να χρησιμοποιηθούν οποιαδήποτε διανύσματα έχουν προκύψει από τα δεδομένα ως διανύσματα εκμάθησης, χωρίς να απαιτείται η γνώση της κατηγορίας που ανήκουν. Η αραιή κωδικοποίηση (Sparse Coding) δεν εμπεριέχει την έννοια της μάθησης (δηλ. η μάθηση ολοκληρώνεται με τον σχηματισμό του λεξικού) αφού οι συντελεστές αραιής αναπαράστασης υπολογίζονται με μία συγκεκριμένη διαδικασία που καθορίζεται από την μέθοδο κωδικοποίησης -που έχει επιλεγεί- και εκτελείται με βάση το γνωστό πλέον λεξικό. Συνεπώς, αν ένα σήμα κωδικοποιηθεί ξανά με την ίδια μέθοδο, τις ίδιες προδιαγραφές και το ίδιο λεξικό θα προκύπτει πάντα το ίδιο σύνολο συντελεστών. Οπότε, ούτε κατά την διαδικασία της αραιής κωδικοποίησης απαιτείται η γνώση της κατηγορίας που ανήκει το κάθε διάνυσμα που πρόκειται να κωδικοποιηθεί (δηλ. να υπολογιστούν οι συντελεστές αραιής αναπαράστασής τους). Έτσι, αφού δεν απαιτείται η γνώση των κατηγοριών που ανήκουν τα δεδομένα ούτε στο στάδιο εκμάθησης του λεξικού αραιής αναπαράστασης ούτε στο στάδιο αραιής κωδικοποίησης τότε η αραιή αναπαράσταση ορθώς θεωρείται μία μηεποπτευόμενη (unsupervised) μέθοδος. 23

44 Στα επόμενα δύο εδάφια περιγράφονται αναλυτικά δύο χαρακτηριστικές υλοποιήσεις της αραιής αναπαράστασης. Η πρώτη ονομάζεται K-SVD και προτάθηκε από τους M. Aharon, M. Elad, A. Bruckstein το 2006 και η δεύτερη ονομάζεται SPAMS (SPArse Modeling Software) και προτάθηκε από τους J. Mairal, F. Bach, J. Ponce, G. Sapiro το Το κοινό στις δύο τεχνικές είναι ότι το υπερπλήρες λεξικό παράγεται μέσω μιας διαδικασία εκμάθησης από τα δεδομένα δείγματα. Στην πρώτη περίπτωση, όμως, εκτελείται μία διαδικασία batch learning, δηλ. για την εκμάθηση του λεξικού χρησιμοποιούνται όλα τα διαθέσιμα δεδομένα μαζί ενώ στην δεύτερη περίπτωση εφαρμόζεται μία διαδικασία online learning, δηλ. τα δεδομένα γίνονται διαθέσιμα διαδοχικά (και όχι όλα μαζί) και η εκμάθηση του λεξικού πραγματοποιείται σε κάθε βήμα χρησιμοποιώντας τόσο τα νέα διαθέσιμα δεδομένα όσο και την προηγούμενη γνώση. Επίσης, στην πρώτη μέθοδο ο περιορισμός αραιότητας λαμβάνει την μορφή της 0-νόρμας ενώ στην δεύτερη μέθοδο της -νόρμας, οπότε στην πρώτη περίπτωση επιλύεται το πρόβλημα της αραιής κωδικοποίησης που αναφέρεται σαν Matching Pursuit και στην δεύτερη σαν Basis Pursuit ή Lasso. Εικόνα 2.4 : Αραιή αναπαράσταση m σημάτων σε μορφή πινάκων 24

45 2.2 Αλγόριθμος K-SVD : [Aharon 2006] Γενική περιγραφή batch αλγορίθμου εκμάθησης λεξικού : Ο αλγόριθμος K-SVD δημιουργήθηκε για τη σχεδίαση υπερπλήρων προσαρμοζόμενων λεξικών για αραιή αναπαράσταση σημάτων. Διαθέτοντας ένα γνωστό σύνολο από σήματα, αναζητείται το λεξικό εκείνο που αποδίδει την καλύτερη αναπαράσταση για κάθε σήμα του συνόλου, κάτω από αυστηρούς περιορισμούς αραιότητας. Ο K-SVD είναι μία επαναληπτική διαδικασία όπου εναλλάσσονται μία αραιή κωδικοποίηση (sparse coding) των δειγμάτων βασιζόμενη στο τρέχων λεξικό και μία διαδικασία ενημέρωσης (updating dictionary) των ατόμων του λεξικού ώστε να ταιριάζουν καλύτερα στα δεδομένα σήματα εκμάθησης. Η ενημέρωση των ατόμων του λεξικού -δηλ. των στηλών του πίνακα του λεξικούπραγματοποιείται σε συνδυασμό με την ενημέρωση των συντελεστών αραιής αναπαράστασης που σχετίζονται με αυτό το άτομο, έτσι ώστε να επιτυγχάνεται ταχύτερη σύγκλιση. Το πρόβλημα που καλείται ο αλγόριθμος K-SVD να επιλύσει είναι το πρόβλημα της αραιής αναπαράστασης (Sparse Representation), δηλ. ο σχεδιασμός του καλύτερου δυνατού λεξικού D για την αραιή αναπαράσταση των σημάτων Υ=, το οποίο περιγράφεται από τις παρακάτω σχέσεις : min D C,Α kxm { min D C,Α kxm { } s.t., με ορισμένο πλήθος }, για ορισμένη τιμή s.t. ή με Για την περιγραφή του αλγορίθμου θα επικεντρωθούμε στην επίλυση της πρώτης από τις δύο σχέσεις, δηλ. της σχέσης minimize { } s.t., kxm D C,Α η οποία αποτελεί τη συνάρτηση κόστους του προβλήματος, αν και η μεταχείριση είναι παρόμοια και για την άλλη εξίσωση. 25

46 2.2.2 Αλγόριθμοι ταιριάσματος (pursuit) για την υλοποίηση της αραιής κωδικοποίησης (Sparse Coding) με 0-νόρμα : i Αραιή κωδικοποίηση (Sparse Coding) με 0-νόρμα : Στον αλγόριθμο K-SVD υπάρχει το στάδιο της αραιής κωδικοποίησης, δηλ. της διαδικασίας υπολογισμού των συντελεστών αραιής αναπαράστασης, βασιζόμενη σε ένα δεδομένο σήμα και ένα γνωστό λεξικό D. Εάν n<k και D ένας πλήρους βαθμού πίνακας -δηλ. οι πίνακες DᵀD και DDᵀ είναι αντιστρέψιμοι- τότε υπάρχουν άπειρες λύσεις για το πρόβλημα αναπαράστασης και για αυτό το λόγο πρέπει να τεθούν περιορισμοί στη λύση του. Η λύση με το ελάχιστο πλήθος μη μηδενικών συντελεστών είναι η αραιότερη αναπαράσταση και προκύπτει από τη λύση της παρακάτω μαθηματικής έκφρασης : (P ) s.t. (P, ) s.t. ή Η διαδικασία επίλυσης των παραπάνω σχέσεων αποτελεί την αραιή κωδικοποίηση (Sparse Coding [SC]) ή αλλιώς ανάλυση ατόμου (atom decomposition) με κριτήριο αραιότητας την 0-νόρμα και επιτυγχάνεται κατά κύριο λόγο μέσω αλγορίθμων ταιριάσματος (pursuit algorithms), οι οποίοι υπολογίζουν μία προσεγγιστική λύση του προβλήματος. Ο ακριβής προσδιορισμός των αραιότερων αναπαραστάσεων αποδεικνύεται ότι είναι ένα μη ντετερμινιστικό πολυωνυμικό χρονικό πρόβλημα (NP-hard problem) και για αυτό αναζητούνται προσεγγιστικές λύσεις [Davis 1997], οι οποίες επιτυγχάνονται με αλγορίθμους είτε της κατηγορίας greedy είτε επαναληπτικούς αυστηρής κατωφλίωσης, με τους πρώτους να έχουν καλύτερα αποτελέσματα σε συνδυασμό με τον K-SVD [Aharon 2006]. Οι αλγόριθμοι αυτοί επιτελούν μια διαδικασία, όπου αναζητείται η πιο ταιριαστή προβολή των πολυδιάστατων δεδομένων στα άτομα ενός υπερπλήρους λεξικού. Η βασική ιδέα είναι η αναπαράσταση του σήματος y ως σταθμισμένο άθροισμα των ατόμων του λεξικού D, σύμφωνα με τη σχέση, όπου οι μη μηδενικοί συντελεστές του διανύσματος, κάποια από τα άτομα του λεξικού D και το μέγιστο πλήθος των μη μηδενικών συντελεστών του. Με αυτό τον τρόπο, υπολογίζεται η βέλτιστη μη γραμμική προσέγγιση ενός σήματος χτίζοντας μια σειρά αραιών προσεγγίσεων για την σταδιακή ανάκτησή του. Ο παραπάνω συνδυασμός με καθορισμένο πλήθος όρων από τον περιορισμό αραιότητας- προσεγγίζει την λύση του NP-hard προβλήματος. Το αποτέλεσμα της πρόσθεσης των ατόμων που επιλέχθηκαν πολλαπλασιασμένα επί τον ανάλογο συντελεστή είναι ιδανικά το αρχικό σήμα. Σε πολλές περιπτώσεις οι αλγόριθμοι ταιριάσματος παρέχουν εγγυήσεις ορθής ανακατασκευής της αναζητούμενης λύσης, αφού για πολλούς από αυτούς έχουν αποδειχθεί συνθήκες κάτω από τις οποίες ανακατασκευάζουν την 26

47 αραιή λύση με βεβαιότητα [Pati 1993]. Οι αλγόριθμοι ταιριάσματος ακολουθούν μία άπληστη (greedy) προσέγγιση του προβλήματος. Στην κατηγορία greedy κατατάσσονται εκείνοι οι αλγόριθμοι που για την επίλυση του προβλήματος χρησιμοποιούν μία επινοητική μέθοδο, η οποία ακολουθεί την τοπικά βέλτιστη επιλογή σε κάθε βήμα με την ελπίδα να οδηγηθεί έτσι στην γενική λύση του προβλήματος. Η μέθοδος αυτή είναι γρηγορότερη από τις κλασσικές μεθόδους και επιφέρει προσεγγιστική λύση σε προβλήματα που οι κλασσικοί τρόποι επίλυσης αδυνατούν να υπολογίσουν την ακριβή λύση (όπως σε ένα NP-hard problem). Βέβαια, σε πολλά προβλήματα δεν οδηγεί στην καλύτερη λύση που θα μπορούσε να υπολογιστεί. Εν κατακλείδι, οι αλγόριθμοι ταιριάσματος (pursuit) εκτελούν μία επαναληπτική διαδικασία για την εκτίμηση της προσεγγιστικής λύσης, εντοπίζοντας τα άτομα του λεξικού με τη μεγαλύτερη συσχέτιση με το εκτιμώμενο σήμα και αποκαλύπτοντας έτσι μία ή περισσότερες θέσεις μη μηδενικών στοιχείων του αραιού διανύσματος συντελεστών. Ο τερματισμός των αλγορίθμων ταιριάσματος πραγματοποιείται είτε μετά από έναν καθορισμένο αριθμό επαναλήψεων είτε όταν το σφάλμα της εκτιμώμενης αναπαράστασης του σήματος σε σχέση με την δεδομένη απεικόνισή του είναι μικρότερο από μία καθορισμένη τιμή, αναλόγως με το αν επιλύουν την σχέση (P ) ή την (P, ) αντίστοιχα ii Αλγόριθμοι Matching Pursuit και Orthogonal Matching Pursuit : Οι πιο απλοί αλγόριθμοι ταιριάσματος είναι o Matching Pursuit (MP) και η βελτιωμένη εκδοχή του, ο Orthogonal Matching Pursuit (OMP). Συνήθως ένας από τους δύο επιλέγεται στην εκτέλεση του K-SVD και κατά κανόνα είναι ο OMP διότι επιφέρει καλύτερα αποτελέσματα (όπως θα αναφερθεί και παρακάτω). Αυτοί έχουν απλή γεωμετρική ερμηνεία, επιλέγουν τα άτομα του λεξικού διαδοχικά και εφαρμόζοντας το εσωτερικό γινόμενο του σήματος με τα άτομα του λεξικού μαζί ενδεχομένως με τη μέθοδο των ελαχίστων τετραγώνων οδηγούνται τελικά στην προσεγγιστική λύση του προβλήματος. Πιο συγκεκριμένα, ο Matching Pursuit (ή Basic Matching Pursuit ή MP) είναι ένας coordinate descent αλγόριθμος, που για δεδομένο λεξικό D, εκτελεί την παρακάτω επαναληπτική διαδικασία για την αραιή ανάκτηση κάθε σήματος y. Αρχικά, υπολογίζει το εσωτερικό γινόμενο του διανύσματος υπολοίπου rᵗ με κάθε άτομο του D (r d = <r,d> = rᵀd) και μέσω του αποτελέσματος με την μεγαλύτερη απόλυτη τιμή εντοπίζει το άτομο που θα χρησιμοποιηθεί για την αναπαράσταση του σήματος. Ως υπόλοιπο ορίζεται το διάνυσμα rᵗ = y Dαᵗ, όπου y το δεδομένο σήμα, D το λεξικό και αᵗ η τρέχουσα προσεγγιστική αραιή λύση, ενώ, εφόσον ως αρχική λύση αᵗ ⁰ θεωρείται η μηδενική, -κατά συνέπεια- ως αρχικό διάνυσμα υπολοίπου rᵗ ⁰ θεωρείται το δεδομένο σήμα y. Η τιμή του αντίστοιχου μη μηδενικού συντελεστή είναι ίση, κάθε φορά, με την προβολή του υπολοίπου στην αντίστοιχη στήλη του D. Η διεργασία αυτή επαναλαμβάνεται μέχρι να διεκπεραιωθεί η συνθήκη τερματισμού, που είναι είτε ένας καθορισμένος αριθμός 27

48 επαναλήψεων τουλάχιστον ίσος με το πλήθος των μη μηδενικών συντελεστών είτε όταν το σφάλμα της μέτρησης, δηλ. το υπόλοιπο, γίνει μικρότερο από ένα καθορισμένο όριο. Με βάση την παραπάνω διαδικασία του MP, το εκτιμώμενο κάθε φορά αποτέλεσμα δεν είναι απαραίτητα ορθογώνιο με τα προηγούμενα άτομα που επιλέγονται και αυτό σημαίνει ότι ένα νωρίτερα επιλεγμένο άτομο μπορεί να επιλεγεί και πάλι. Το γεγονός αυτό και οι αντίστοιχες επιπλοκές του στη σύγκλιση -όπως η ταλάντωση μεταξύ ενός μικρού πλήθους ατόμων- οδήγησαν στην ανάπτυξη της βελτιωμένης εκδοχής του MP, τον αλγόριθμο OMP. Ο αλγόριθμος OMP -ή forward selection στην στατιστική- ακολουθεί την ίδια διαδικασία με τον MP αλλά με μία επιπλέον ορθογωνοποίηση, αφού ενθαρρύνει το υπόλοιπο να είναι πάντα ορθογώνιο με όλα τα προηγούμενα επιλεγμένα άτομα, κάτι το οποίο είναι ισοδύναμο με τον επανυπολογισμό όλων των τιμών των μη μηδενικών συντελεστών όταν επιλέγεται ένα νέο άτομο. Συνεπώς, κάθε επαναληπτική διαδικασία του OMP είναι υπολογιστικά πιο σύνθετη από αυτή του MP αλλά με αυτό τον τρόπο εγγυάται η σύγκλιση ύστερα από έναν ορισμένο αριθμό επαναλήψεων. Έτσι, ο OMP ανανεώνει όλους τους συντελεστές που έχουν υπολογιστεί μέχρι εκείνη την στιγμή επανα-προβάλλοντας στο υπάρχον επιλεγμένο σύνολο ατόμων, πριν από την αφαίρεση για τον υπολογισμό του υπολοίπου. Το στάδιο της επανα-προβολής για τον υπολογισμό των νέων τιμών των συντελεστών πραγματοποιείται με την χρήση ενός ψευδό-αντίστροφου πίνακα, σύμφωνα με την σχέση με Λ να ορίζεται το σύνολο των μέχρι στιγμής επιλεγμένων ατόμων, και επειδή ο πίνακας αυτός δεν είναι σταθερός εφαρμόζεται η ανάλυση Cholesky. Οπότε, σε κάθε βήμα ο αλγόριθμος OMP επιλέγει το άτομο του λεξικού που σχετίζεται περισσότερο με τα μέχρι στιγμής υπολογισμένα διανύσματα υπολοίπου (residual correlation), μέσω της διαδικασίας που περιγράφηκε στον MP, με το διαδοχικό υπολογισμό του εσωτερικού γινομένου των r και των d. Η ενημέρωση των υπολοίπων (residuals update) υλοποιείται υπολογίζοντας την ορθογώνια προβολή του εκτιμώμενου σήματος στο σύνολο των μέχρι στιγμής επιλεγμένων ατόμων. Με αυτό τον τρόπο, τα μη μηδενικά στοιχεία του διανύσματος α -που αποτελούν τους συντελεστές βαρύτητας των ατόμων στο σταθμισμένο άθροισμα αναπαράστασης- ενημερώνονται σε κάθε βήμα με τη βοήθεια της μεθόδου των ελαχίστων τετραγώνων, η οποία χρησιμοποιεί για την λύση της τα διανύσματα υπολοίπου και τα επιλεγμένα μέχρι αυτό το στάδιο άτομα του λεξικού. Σύμφωνα με αυτή τη μέθοδο, η βέλτιστη λύση προσεγγίζεται όταν το άθροισμα των τετραγώνων των υπολοίπων είναι ελάχιστο. Η μέθοδος των ελαχίστων τετραγώνων εφαρμόζεται σε προβλήματα, όπου ο αριθμός των εξισώσεων είναι μεγαλύτερος από τον αριθμό των αγνώστων (overdetermined systems). Συνοψίζοντας, η επαναληπτική διαδικασία, για τον υπολογισμό των όρων που συνθέτουν την προσεγγιστική λύση, επιλέγει τα άτομα εκείνα που ταιριάζουν καλύτερα στις εσωτερικές δομές του αρχικού σήματος. Έτσι, ο δείκτης του ατόμου που παρατηρείται η μέγιστη ορθογώνια προβολή του υπολοίπου αποτελεί θέση μη 28

49 μηδενικού στοιχείου του εκτιμώμενου αραιού διανύσματος συντελεστών α και η τιμή του στοιχείου αυτού υπολογίζεται μέσω της μεθόδου των ελαχίστων τετραγώνων. Με βάση την όλη παραπάνω διεργασία, τα διανύσματα υπολοίπου είναι, πλέον, ορθογώνια πάνω στα επιλεγμένα άτομα με συνέπεια κανένα άτομο να μην επιλέγεται δεύτερη φορά και το σύνολο των επιλεγμένων ατόμων να αυξάνεται σε κάθε βήμα. Η διεργασία αυτή επαναλαμβάνεται μέχρι να διεκπεραιωθεί η συνθήκη τερματισμού. Η συνθήκη αυτή είναι όμοια με προηγουμένως, δηλ. είτε ένας συγκεκριμένος αριθμός επαναλήψεων είτε το υπόλοιπο να γίνει μικρότερο από ένα καθορισμένο όριο. Βέβαια, είναι προτιμότερη η πρώτη διότι η αποδεδειγμένη ιδιότητα του OMP, που τον κατατάσσει στους σημαντικότερους και πιο αποτελεσματικούς αλγορίθμους pursuit, είναι ότι εξασφαλίζει την σύγκλιση στην ιδανική λύση το πολύ σε k επαναλήψεις της αλγοριθμικής διαδικασίας του, όπου k η διάσταση του λεξικού, δηλ. το πλήθος των ατόμων του D [Pati 1993]. Τελικά, οι δύο αυτοί αλγόριθμοι, MP και OMP, χαρακτηρίζονται από χαμηλή υπολογιστική πολυπλοκότητα και απλή γεωμετρική ερμηνεία. Η διαφορά τους έγκειται στην επιπλέον υπολογιστική προσθήκη του OMP, η οποία οδηγεί τελικά σε βελτιωμένη σύγκλιση. Είναι σημαντικό ότι η προσθήκη αυτή μπορεί να εφαρμοστεί αναδρομικά στον MP και έτσι να δημιουργήσει τον OMP. Ολοκληρώνοντας, σημειώνεται ότι οι δύο αυτοί αλγόριθμοι υποθέτουν ότι τα άτομα του λεξικού είναι κανονικοποιημένα με νόρμα, δηλ. το μέτρο κάθε στήλης του είναι ίσο με 1. Σε διαφορετική περίπτωση για να υπολογιστεί η προβολή του υπολοίπου σε κάθε άτομο θα πρέπει να διαιρεθεί και με το τετράγωνο του μέτρου της αντίστοιχης στήλης του λεξικού D Αναλυτική περιγραφή αλγορίθμου εκμάθησης λεξικού : i Αναλυτική περιγραφή των σταδίων της αραιής κωδικοποίησης και της ενημέρωσης του λεξικού : Η πρώτη διεργασία που πρέπει να εκτελέσει ο αλγόριθμος K-SVD είναι η αρχικοποίηση του πίνακα του λεξικού D ⁰ με ταυτόχρονη κανονικοποίηση με ²-νόρμα των στηλών του. Ο πίνακας D ⁰ μπορεί να σχεδιαστεί με δύο τρόπους. Είτε καθορίζοντας ο χρήστης μόνο το μέγεθος του λεξικού, δηλ. τον αριθμό των ατόμων του D, και ο αλγόριθμος επιλέγει ως άτομα τυχαία σήματα εκμάθησης είτε επιλέγοντας ο χρήστης συγκεκριμένα σήματα, το οποία θα αποτελέσουν τα άτομα του λεξικού. Στη συνέχεια εκτελείται η επαναληπτική διαδικασία, που περιέχει το στάδιο της αραιής κωδικοποίησης και το στάδιο της ενημέρωσης του λεξικού, μέχρι να επέλθει η σύγκλιση, που πρακτικά αντιστοιχεί στην ενεργοποίηση ενός κανόνα τερματισμού ορισμένο από τον χρήστη. Ο κανόνας αυτός συνήθως είναι ένα ορισμένο πλήθος επαναλήψεων της παραπάνω διαδικασίας. 29

50 Στο στάδιο της αραιής κωδικοποίησης (Sparse Coding) το λεξικό D θεωρείται σταθερό και γνωστό και σκοπός είναι ο προσδιορισμός των συντελεστών -οι οποίοι αποτελούν τον πίνακα A- που αποτελούν τη λύση του προβλήματος της αραιής αναπαράστασης των δειγμάτων Υ. Για την επίλυση του προβλήματος χρησιμοποιείται μία μέθοδος ποινής (penalty method), δηλ. ένας αλγόριθμος για φραγμένα προβλήματα βελτιστοποίησης (constrained optimization problems). Μέσω αυτής της μεθόδου ένα φραγμένο πρόβλημα βελτιστοποίησης αντικαθίστανται από μια σειρά χωρίς περιορισμούς προβλήματα, η επίλυση των οποίων ιδανικά συγκλίνει στην λύση του αρχικού περιορισμένου προβλήματος. Τα προβλήματα χωρίς περιορισμούς σχηματίζονται με την προσθήκη ενός όρου -που ονομάζεται συνάρτηση ποινής (penalty term)- στην συνάρτηση κόστους, ο οποίος αποτελείται από μια παράμετρο ποινής (penalty) πολλαπλασιαζόμενη με το μέγεθος της παραβίασης των περιορισμών. Το μέγεθος της παραβίασης είναι μη μηδενικό όταν παραβιάζονται οι περιορισμοί και είναι μηδέν στην περιοχή όπου οι περιορισμοί δεν παραβιάζονται. Στο πρόβλημα της αραιής κωδικοποίησης, η συνάρτηση κόστους είναι η s.t. και σαν συνάρτηση ποινής χρησιμοποιείται η. Επομένως, το αρχικό περιορισμένο πρόβλημα βελτιστοποίησης διασπάται σε m διακριτά χωρίς περιορισμούς προβλήματα της μορφής. Τα προβλήματα αυτά μπορούν να επιλυθούν με τη χρήση των αλγορίθμων pursuit, οι οποίοι εκτελούνται για κάθε σήμα ξεχωριστά. Οι αλγόριθμοι pursuit υπολογίζουν μία προσεγγιστική λύση του προβλήματος καθώς η ακριβής λύση δεν είναι δυνατή (NPhard problems), όπως έχει αναφερθεί και σε προηγούμενο εδάφιο. Οποιοσδήποτε τέτοιος αλγόριθμος μπορεί να χρησιμοποιηθεί, αφού ο K-SVD λειτουργεί αποτελεσματικά με κάθε αλγόριθμο ταιριάσματος, με την προϋπόθεση ότι ο αλγόριθμος αυτός παρέχει μία λύση με σταθερό και προκαθορισμένο αριθμό μη μηδενικών στοιχείων Τ. Εάν ο αριθμός Τ είναι αρκετά μικρός (Τ << n) οι λύσεις προσεγγίζουν πολύ καλά την ιδανική λύση του αρχικού περιορισμένου προβλήματος, η οποία βέβαια δεν μπορεί να υπολογιστεί αριθμητικά. Το δεύτερο στάδιο περιλαμβάνει τη διαδικασία ενημέρωσης (updating) του λεξικού μαζί με τους μη μηδενικούς συντελεστές. Η διαδικασία αυτή ενημερώνει κάθε φορά μόνο μία στήλη του λεξικού D μαζί με τους αντίστοιχους συντελεστές. Έτσι, διατηρώντας σταθερές όλες τις στήλες του λεξικού D εκτός από μία, την dᵦ, και διατηρώντας σταθερούς όλους τους συντελεστές του πίνακα Α εκτός από αυτούς που αντιστοιχούν στη στήλη dᵦ, δηλ. την β-στη γραμμή του πίνακα Α που συμβολίζεται ως συντελεστών, αναζητούνται η νέα στήλη d ᵦ και οι νέες τιμές των που μειώνουν περισσότερο το μέσο τετραγωνικό σφάλμα (Mean Squared Error). Υπενθυμίζεται εδώ ότι το λεξικό D και αποτελείται από k άτομα-στήλες d r με r=1,2,,k, ο πίνακας των συντελεστών A και 30

51 αποτελείται από m διανύσματα-στήλες με =1,2,,m που το κάθε ένα έχει Τ μη μηδενικά στοιχεία και αντιστοιχούν στα σήματα εκμάθησης του πίνακα Υ, ο οποίος αποτελείται από m σήματα με =1,2,,m ως διανύσματα-στήλες του. Τελικά, η καινοτομία που προτείνει ο αλγόριθμος K-SVD για το στάδιο της ενημέρωσης του λεξικού, έγκειται στο ότι καθώς αλλάζουν(ενημερώνονται) οι στήλες του D διαδοχικά, ταυτόχρονα επιτρέπεται και η αλλαγή των αντίστοιχων(σχετιζόμενων) συντελεστών. Η επιλογή των σχετιζόμενων συντελεστών για το κάθε άτομο dᵦ του λεξικού ως η β-στη γραμμή του Α προκύπτει εύκολα ερμηνεύοντας την ιδιότητα του πολλαπλασιασμού των πινάκων. Διάφορες άλλες μέθοδοι που έχουν προταθεί για το σχεδιασμό υπερπλήρων προσαρμοζόμενων λεξικών για αραιή αναπαράσταση σημάτων διατηρούν σταθερό τον πίνακα Α καθώς ενημερώνονται διαδοχικά οι στήλες του λεξικού D, και αυτή αποτελεί και την ουσιαστική διαφορά τους με τον K-SVD ii Αναλυτική μαθηματική περιγραφή του σταδίου ενημέρωσης του λεξικού : Η συνάρτηση κόστους του προβλήματος περιγράφεται από τη σχέση s.t. και για την συνάρτηση ποινής (penalty function) ισχύει. Επομένως, σύμφωνα με την παραπάνω σχέση ( dᵦ ) ο πολλαπλασιασμός DΑ έχει αναλυθεί σε άθροισμα k πινάκων βαθμού 1, από τους οποίους οι k 1 όροι θεωρούνται γνωστοί και σταθεροί και ο άλλος όρος -ο β-στός- είναι αυτός που πρόκειται να μεταβληθεί. Ο πίνακας Εᵦ = Y εκφράζει το τρέχον σφάλμα αναπαράστασης όλων των m παραδειγμάτων σημάτων αν αξιοποιηθούν όλα τα άτομα του λεξικού εκτός από το dᵦ, δηλ. αν για την αναπαράσταση του κάθε σήματος -ως γραμμικού συνδυασμού των ατόμων- ο παράγοντας dᵦ θεωρηθεί μηδενικός. Σκοπός της όλης διαδικασίας είναι η ενημέρωση του ατόμου dᵦ σε συνδυασμό με τους αντίστοιχους συντελεστές του ( ). Για την επίτευξη αυτού του σκοπού ορίζεται το σύνολο ωᵦ β=1,2,..k, με στοιχεία του τους δείκτες που αντιστοιχούν στα παραδείγματα εκμάθησης { } τα οποία χρησιμοποιούν για την αραιή αναπαράστασή τους το άτομο dᵦ του λεξικού. Ουσιαστικά, τα παραδείγματα αυτά αντιστοιχούν στα μη μηδενικά στοιχεία της γραμμής συντελεστών, δηλ. στις θέσεις όπου [ ] 0. Επομένως, ωᵦ = { 1 m, [ ] 0 }. Με τη βοήθεια του συνόλου {ωᵦ(j)}, j=1,2,, ωᵦ ορίζεται ο πίνακας Ωᵦ με άσσους στις θέσεις ( ωᵦ(j),j ) και μηδέν σε όλες τις άλλες θέσεις. Η τιμή του j αντιστοιχεί στη θέση κάθε στοιχείου-δείκτη στο σύνολο ωᵦ και η τιμή ωᵦ(j) ισούται με τον αντίστοιχο δείκτη. Καταφανώς, ο πίνακας Ωᵦ έχει μέγεθος m x ωᵦ. Η χρησιμότητα του πίνακα αυτού συνοψίζεται στην παρακάτω ιδιότητα. Ο πολλαπλασιασμός της γραμμής 31

52 συντελεστών του διανύσματος γραμμής με τον πίνακα Ωᵦ έχει σαν αποτέλεσμα την ελάττωση του μήκους απορρίπτοντας τα μηδενικά στοιχεία του. Επομένως, το διάνυσμα γραμμής = Ωᵦ αποτελείται μόνο από τους μη μηδενικούς όρους του και έχει μήκος ίσο με ωᵦ. Με τον ίδιο τρόπο, ο πίνακας = ΥΩᵦ έχει μέγεθος n x ωᵦ και αποτελείται μόνο από τα παραδείγματα-σήματα { } που χρησιμοποιούν το άτομο dᵦ του λεξικού για την αραιή αναπαράστασή τους και ο πίνακας σφαλμάτων = ΕᵦΩᵦ, μεγέθους n x ωᵦ, περιέχει μόνο τις στήλες σφάλματος οι οποίες σχετίζονται με τα παραδείγματα-σήματα { } που χρησιμοποιούν το άτομο dᵦ. Άρα, με τη χρήση του πίνακα Ωᵦ επιτυγχάνεται η εστίαση μόνο στα δεδομένα που είναι πραγματικά χρήσιμα για τη διαδικασία της ενημέρωσης, δηλ. τα δεδομένα που σχετίζονται με το προς ενημέρωση άτομο dᵦ. Εφόσον ο πίνακας Εᵦ = Y διαφέρει σε σχέση με τον πίνακα Ε = Υ μόνο στις στήλες-σφάλματος που σχετίζονται με το προς ενημέρωση άτομο dᵦ, τότε η συνάρτηση ποινής (penalty) και κατ επέκταση η συνάρτηση κόστους s.t. με είναι ισοδύναμη με τη σχέση s.t., δηλ. με τη σχέση s.t.. To περιορισμένο αυτό πρόβλημα ελαχιστοποίησης μπορεί να επιλυθεί με την εφαρμογή της μεθόδου παραγοντοποίησης ιδιαζουσών τιμών (Singular Value Decomposition [SVD]) στον πίνακα, έτσι ώστε = UΔVᵀ. Το ενημερωμένο άτομο-στήλη d ᵦ ορίζεται ως η πρώτη στήλη του πίνακα U και το νέο διάνυσμα γραμμή των συντελεστών ως η πρώτη γραμμή του πίνακα Vᵀ-δηλ. η πρώτη στήλη του V- πολλαπλασιασμένη με το στοιχείο Δ(1,1). Έτσι, μέσω αυτής της διαδικασίας ενημερώνονται ταυτόχρονα το άτομο dᵦ και οι αντίστοιχοι συντελεστές α β. Συνεπώς, τα άτομα του λεξικού παραμένουν κανονικοποιημένα και, επίσης, το πλήθος Τ των μη μηδενικών συντελεστών σε κάθε διάνυσμα, δηλ. ο περιορισμός αραιότητας, παραμένει το ίδιο ή γίνεται μικρότερο. Με τον ίδιο τρόπο ενημερώνονται όλα τα άτομα του D διαδοχικά. Η διαδικασία ενημέρωσης μίας μόνο στήλης του D τη φορά είναι ένα πρόβλημα που έχει μία απλή λύση μέσω της μεθόδου SVD αλλά η επιπλέον προσθήκη ότι επιτρέπεται και η ταυτόχρονη μεταβολή των τιμών των συντελεστών επιταχύνει τη σύγκλιση. Αυτή η προσθήκη οδηγεί σε μία μεταπήδηση από τη μέθοδο απότομης καθόδου (Gradient Descent) στη μέθοδο Gauss-Seidel (ή Liebmann method ή μέθοδος διαδοχικών μετατοπίσεων) όσον αφορά τη βελτιστοποίηση, αφού πλέον οι μεταγενέστερες ενημερώσεις της κάθε στήλης βασίζονται στους πιο σχετιζόμενους συντελεστές. Ουσιαστικά αυτή η μεταπήδηση οδηγεί σε υλοποίηση γρηγορότερης σύγκλισης. 32

53 K-SVD : ένας αλγόριθμος για τον σχεδιασμό υπερπλήρων λεξικών για αραιή αναπαράσταση σημάτων Σκοπός είναι ο σχεδιασμός του καλύτερου δυνατού λεξικού D για την αραιή αναπαράσταση των σημάτων Υ= επιλύοντας το περιορισμένο πρόβλημα βελτιστοποίησης min D C,Α { } s.t., με ορισμένο πλήθος kxm με Αρχικοποίηση του πίνακα του λεξικού D ⁰ των στηλών του. με ταυτόχρονη κανονικοποίηση με -νόρμα Επαναληπτική διαδικασία μέχρι την σύγκλιση, δηλ. την ενεργοποίηση του κανόνα τερματισμού : Στάδιο αραιής κωδικοποίησης (Sparse Coding) : Χρήση ενός αλγορίθμου pursuit για τον υπολογισμό των συντελεστών επιλύοντας προσεγγιστικά το πρόβλημα της αραιής κωδικοποίησης με την περιγράφεται από την σχέση : min { } s.t. για κάθε σήματος -νόρμα, το οποίο 0 =1,2, m k Στάδιο ενημέρωσης του λεξικού (Update Codebook) : (J-1) Κάθε άτομο του λεξικού D ενημερώνεται διαδοχικά ακολουθώντας τα επιμέρους βήματα : Προσδιορισμός του συνόλου ωᵦ των σημάτων που χρησιμοποιούν στην αραιή αναπαράσταση το άτομο dᵦ που πρόκειται να ενημερωθεί, ως ωᵦ = { 1 m, [ ] 0 }. Υπολογισμός του τρέχοντος σφάλματος αναπαράστασης Εᵦ όλων των m σημάτων αν αξιοποιηθούν όλα τα άτομα εκτός του dᵦ, δηλ. αν για την αναπαράσταση του κάθε σήματος ως γραμμικού συνδυασμού των ατόμων ο παράγοντας dᵦ θεωρηθεί μηδενικός, ως Εᵦ = Y. Περιορισμός του πίνακα σφαλμάτων Εᵦ επιλέγοντας μόνο τις στήλες σφάλματος οι οποίες σχετίζονται με τα σήματα { } που χρησιμοποιούν το άτομο dᵦ και έτσι προκύπτει ο πίνακας ο πίνακας σφαλμάτων μεγέθους n x ωᵦ. Εφαρμογή της μεθόδου παραγοντοποίησης ιδιαζουσών τιμών (Singular Value Decomposition [SVD]) στον πίνακα, έτσι ώστε = UΔVᵀ. Το ενημερωμένο άτομο-στήλη dᵦ ορίζεται ως η πρώτη στήλη του πίνακα U και το νέο διάνυσμα γραμμή των συντελεστών ως η πρώτη γραμμή του πίνακα Vᵀ-δηλ. η πρώτη στήλη του V- πολλαπλασιασμένη με το στοιχείο Δ(1,1). Θέτεται J = J + 1 Αλγόριθμος 1 : K-SVD 33

54 2.2.3.iii Ο αλγόριθμος K-SVD ως γενίκευση της διαδικασίας K-Means : Ο αλγόριθμος K-SVD θεωρείται μία γενίκευση της διαδικασίας K-Means και οφείλει το όνομά του σε αντιπαραβολή με αυτή. Ενώ o K-Means πραγματοποιεί Κ υπολογισμούς μέσης τιμής για την ενημέρωση όλων των στηλών του πίνακα αναπαραστάσεων Z (o Z αποτελείται από τα κέντρα των κλάσεων), σύμφωνα με τη σχέση z ᴶ = ᴶ, ο K-SVD διεξάγει Κ υπολογισμούς SVD για την ενημέρωση όλων των ατόμων του λεξικού D σύμφωνα με την ανάθεση του dᵦ dᵦ ᴶ ως η πρώτη στήλη του πίνακα U. Ο K-SVD προτείνει ενημέρωση των στηλών του D διαδοχικά με ταυτόχρονη αλλαγή των σχετιζόμενων μη μηδενικών συντελεστών, και κατά αυτή την έννοια αποτελεί μία άμεση γενίκευση του K-Means -λόγω του ότι και οι δύο αλγόριθμοι ακολουθούν τη διαδικασία της διαδοχικής ενημέρωσης των ατόμων-. Βέβαια μία αναμενόμενη διαφωνία που μπορεί να δημιουργηθεί σε σχέση με τη θεώρηση του K-SVD ως μία γενίκευση του K-Means, είναι ότι κατά την διαδικασία ομαδοποίησης K-Means οι μη μηδενικοί συντελεστές διατηρούνται σταθεροί κατά τη διάρκεια της ενημέρωσης της κάθε στήλης του Z ενώ κάτι τέτοιο δεν γίνεται στον K-SVD. Αυτό πράγματι αληθεύει λόγω του ότι στον K-Means τα προβλήματα ενημέρωσης των στηλών του Ζ είναι ανεξάρτητα (decoupled) από το στάδιο της αραιής κωδικοποίησης. Βέβαια, σε ένα πιο γενικό πλαίσιο αυτή η «ανεξαρτησία» δεν είναι απαραίτητο να ισχύει και άρα η άποψη ότι ο K-SVD αποτελεί μία γενίκευση του K-Means μπορεί να θεωρηθεί ρεαλιστική Διασαφηνίσεις της διαδικασίας εκμάθησης λεξικού : Στη συνέχεια ακολουθεί η επεξήγηση τριών εύλογων αποριώνπαρατηρήσεων που είναι πιθανόν να δημιουργήθηκαν κατά την περιγραφή της διαδικασίας του αλγορίθμου K-SVD. Η πρώτη αφορά την προτροπή παράληψης του σταδίου της αραιής κωδικοποίησης (SC) και εκτέλεσης μόνο του σταδίου της ενημέρωσης των ατόμων του λεξικού σε συνδυασμό με τους σχετιζόμενους συντελεστές σε μία κυκλική διεργασία, που ίσως κάποιος να πρότεινε. Σε αυτή την περίπτωση όμως, καθώς η επιρροή των συντελεστών στις αναπαραστάσεις δεν θα αλλάζει, η διεργασία αυτή θα οδηγήσει σε εγκλωβισμό του αλγορίθμου σε κάποιο τοπικό ελάχιστο με συνέπεια να μην επιφέρει την αντιπροσωπευτικότερη, σε σχέση με τα δείγματα εκμάθησης, ενημέρωση του λεξικού. Μία άλλη αναμενόμενη παρατήρηση είναι η προτροπή της εφαρμογής του SVD στο σφάλμα αναπαράστασης Εᵦ = Y αν. Με αυτό τον τρόπο δεν χρειάζεται να οριστεί το σύνολο ωᵦ και ο πίνακας Ωᵦ. Η παραπάνω προσέγγιση είναι λανθασμένη διότι το νέο διάνυσμα γραμμή αβ που θα υπολογιστεί είναι πολύ πιθανό να είναι πλήρες, δηλ. να έχει τις περισσότερες θέσεις του μη μηδενικές, και από αυτή την άποψη η ενημέρωση των ατόμων του λεξικού δεν επιβάλλει τον περιορισμό της αραιότητας. Η τρίτη παρατήρηση σχετίζεται με την χρησιμοποίηση διαφοροποιημένων λίγο εκδοχών του αλγορίθμου K-SVD για την επίτευξη καλύτερων αποτελεσμάτων. Έτσι, 34

55 μπορεί να προταθεί η εκδοχή όπου όλες οι ενημερώσεις του προηγούμενου λεξικού να γίνουν με βάση τον ίδιο πίνακα συντελεστών Α. Μέσω πειραματικών δεδομένων αποδεικνύεται ότι αυτή η εκδοχή συγκλίνει στην βασική λύση αλλά υπολογίζει μία κατώτερη λύση και ουσιαστικά χρειάζεται περισσότερες από τετραπλάσιες επαναλήψεις σε σχέση με την βασική λύση, η οποία προτείνεται από την κανονική μορφή του αλγορίθμου [Aharon 2006] Ενέργειες για βέλτιστη απόδοση του αλγορίθμου εκμάθησης λεξικού : Η ανάλυση των πειραματικών δεδομένων αποκάλυψε ότι η βελτίωση των αποτελεσμάτων είναι δυνατή εφαρμόζοντας τρεις επιπλέον απλές βελτιωτικές ενέργειες [Aharon 2006]. Μέσω αυτών, αποφεύγονται οι «παγίδες» των τοπικών ελαχίστων και επιδιώκεται η καλύτερη δυνατή προσεγγιστική λύση του προβλήματος της αραιής αναπαράστασης. Πρώτον, όταν παρατηρηθεί ότι ένα άτομο του λεξικού δεν χρησιμοποιείται για την αναπαράσταση αρκετών ατόμων και δεν συνδυάζεται με μεγάλες τιμές συντελεστών (πάντα σε σχέση με τον συνολικό αριθμό των ατόμων και τον αριθμό των δειγμάτων) τότε καλό είναι να αντικατασταθεί με τον λιγότερο εκπροσωπούμενο σήμα εκμάθησης, αφού πρώτα κανονικοποιηθεί με νόρμα, και εφόσον η αναπαράσταση έχει πραγματοποιηθεί χωρίς αυτό το άτομο. Όταν τα σήματα παραδείγματα είναι πολύ περισσότερα από τα άτομα του λεξικού, δηλ., και επίσης, τα άτομα αυτά είναι ίσης σπουδαιότητας για την αναπαράσταση τότε η παραπάνω αντικατάσταση είναι πολύ αποδοτική διότι αποφεύγονται τοπικά ελάχιστα και υπερ-προσαρμογή (overfitting). Δεύτερον, με βάση την ιδέα της απομάκρυνσης των μη δημοφιλών ατόμων του D, μπορούν να αλλαχθούν τα άτομα που είναι παρόμοια. Αυτά ανιχνεύονται ελέγχοντας την απόλυτη τιμή του εσωτερικού τους γινόμενου, ορίζοντας ένα κατώφλι όπου για μικρότερες τιμές θα θεωρούνται παρόμοια. Όταν βρεθούν δύο τέτοια άτομα, το ένα απομακρύνεται και αντικαθίσταται από το λιγότερο εκπροσωπούμενο σήμα εκμάθησης. Τρίτον, για το στάδιο της αραιής κωδικοποίησης, όπου αναζητείται η καλύτερη προσεγγιστική λύση με έναν καθορισμένο πλήθος μη μηδενικών συντελεστών, έχει παρατηρηθεί ότι -από μακροσκοπική άποψη- η χρησιμοποίηση του αλγορίθμου OMP είναι η πιο αποτελεσματική Χαρακτηριστικές ιδιότητες της μεθόδου εκμάθησης λεξικού K-SVD : Ο αλγόριθμος K-SVD χαρακτηρίζεται από τέσσερις πολύ σημαντικές ιδιότητες, οι οποίες τον κατατάσσουν σε έναν πολύ πετυχημένο αλγόριθμο εκμάθησης προσαρμοζόμενων λεξικών. Πρώτα από όλα, ο K-SVD είναι ευέλικτος (flexibility) αφού είναι ικανός να λειτουργήσει σε συνδυασμό με κάθε αλγόριθμο pursuit για την επίτευξη του 35

56 σταδίου της αραιής κωδικοποίησης. Η χρησιμότητα της ιδιότητας της ευελιξίας έγκειται στην δυνατότητα επιλογής του πιο χρήσιμου για το πρόβλημα pursuit αλγορίθμου. Έτσι, μπορεί να επιλεγεί αυτός που ανταποκρίνεται στους χρονικούς περιορισμούς του προβλήματος ή ένας που μπορεί να χρησιμοποιηθεί σε μελλοντικό στάδιο σε συνδυασμό με το λαμβανόμενο λεξικό. Οι μέθοδοι σχεδιασμού υπερπλήρων προσαρμοζόμενων λεξικών που έχουν ανεξάρτητα μεταξύ τους το στάδιο της αραιής κωδικοποίησης και το στάδιο της ενημέρωσης του λεξικού εμφανίζουν συνήθως αυτή την ιδιότητα. Ο K-SVD αποτελεί άμεση επέκταση της διαδικασίας ομαδοποίησης K-Means, όπως αναλύθηκε εκτενώς παραπάνω, και συνεπώς κατέχει την ιδιότητα της απλότητας (simplicity). Αυτό αποδεικνύεται καθώς όταν ο K-SVD υποχρεωθεί να λειτουργήσει με μόνο ένα άτομο για την αναπαράσταση κάθε σήματος, δηλ. μόνο ένα μη μηδενικό στοιχείο σε κάθε στήλη του Α, και άρα Τ =1, τότε εκπαιδεύει ένα λεξικό για το πρόβλημα της gain-shape διανυσματικής κβάντωσης (G/S VQ). Σε αυτή την περίπτωση ισχύει = ΕᵦΩᵦ = (Y )Ωᵦ = ΥΩᵦ =, διότι εφόσον ο πίνακας περιέχει μόνο τις στήλες σφάλματος οι οποίες σχετίζονται με τα παραδείγματα-σήματα { } που χρησιμοποιούν το άτομο dᵦ, και, αφού τώρα Τ =1, αυτά τα σήματα δεν μπορούν να χρησιμοποιήσουν κάποια άλλα άτομα και έτσι, Ωᵦ=0. Επίσης, οι Κ ενημερώσεις των στηλών του D γίνονται πλέον ανεξάρτητες μεταξύ τους. Αν επιπλέον επιβληθεί στον K-SVD ο μοναδικός μη μηδενικός συντελεστής για αυτό το άτομο να είναι ίσος με τη μονάδα, τότε το πρόβλημα που καλείται να λύσει είναι το πρόβλημα της διανυσματικής κβάντωσης (VQ), δηλ. της κλασσικής ομαδοποίησης. Κάτω από αυτές τις συνθήκες, το διάνυσμα αποτελείται μόνο από άσσους, δηλ. =1ᵀ, και έτσι ο K-SVD εκτιμά, μέσω του SVD, τον καλύτερο βαθμού 1 πίνακα dᵦ1ᵀ που προσεγγίζει τον πίνακα =. Άρα, η λύση είναι η μέση τιμή των στηλών του, διότι d ᵦ = (1ᵀ) = (1ᵀ)ᵀ = (1) =, κάτι που αντιστοιχεί στην λύση που προτείνει ο K-Means, και έτσι σε αυτή την περίπτωση ο K-SVD αναπαράγει ακριβώς τον K-Means. Ο K-SVD θεωρείται πολύ αποδοτικός αλγόριθμος (efficiency) αφού είναι αριθμητικά αποτελεσματικός και επιτυγχάνει γρήγορη σύγκλιση. Η σύγκλιση τουλάχιστον σε ένα τοπικό ελάχιστο εγγυάται αν το μέσο τετραγωνικό σφάλμα αναπαράστασης (MSE) ακολουθεί μονοτονική μείωση κατά τη διάρκεια της διαδικασίας του αλγορίθμου. Για να συμβαίνει αυτό, πρέπει να εξασφαλίζεται μείωση του MSE και στα δύο στάδια του K-SVD. Κατά τη διάρκεια του σταδίου της ενημέρωσης του λεξικού, η ενημέρωση κάθε ατόμου dᵦ εγγυάται όχι αύξηση του MSE, δηλ. μία μείωση του MSE ή καμία μεταβολή του, χωρίς να παραβιάζεται ο περιορισμός αραιότητας μέσω της μεθόδου SVD. Κατά το στάδιο της αραιής κωδικοποίησης επιχειρείται η καλύτερη προσέγγιση ανάκτησης των σημάτων εκμάθησης χρησιμοποιώντας το πολύ Τ μη μηδενικούς συντελεστές για την κάθε μία αναπαράσταση. Έτσι, εφόσον το λεξικό D είναι γνωστό, σε κάθε βήμα του 36

57 σταδίου της αραιής κωδικοποίησης επιδιώκεται μείωση στο συνολικό τετραγωνικό σφάλμα αναπαράστασης. Η μείωση αυτή, και κατ επέκταση η μονοτονική μείωση του MSE, εξαρτάται από την επιτυχία των αλγορίθμων pursuit που χρησιμοποιούνται στο στάδιο της αραιής κωδικοποίησης για την όσο το δυνατόν καλύτερη προσέγγιση της λύση του προβλήματος. Η επιτυχία αυτών των αλγορίθμων εξαρτάται από τους περιορισμούς αραιότητας του διανύσματος συντελεστών, που τίθενται από τα επιθυμητά χαρακτηριστικά του λεξικού. Έτσι, όταν ο αριθμός των μη μηδενικών συντελεστών Τ είναι αρκετά μικρός σε σχέση με το μέγεθος n του λεξικού D τότε οι αλγόριθμοι pursuit υπολογίζουν μία πολύ καλή προσέγγιση της ιδανικής λύσης. Κάτω από αυτές τις συνθήκες, η σύγκλιση είναι εγγυημένη. Εντούτοις, είναι δυνατόν να εξασφαλιστεί η σύγκλιση μέσω εξωτερικής παρέμβασης. Αυτό επιτυγχάνεται μέσω της σύγκρισης της καλύτερης δοσμένης λύσης με αυτήν που υπολογίζεται από την επόμενη εκτέλεση του αλγορίθμου pursuit και επιλέγοντας την καλύτερη από αυτές. Με αυτό τον τρόπο σίγουρα επέρχεται βελτίωση του αποτελέσματος. Βέβαια, με βάση τα πειραματικά δεδομένα φαίνεται ότι η σύγκλιση επιτυγχάνεται κάθε φορά χωρίς να χρειάζεται εξωτερική παρέμβαση. Στον K-SVD πραγματοποιείται η ενημέρωση των ατόμων του λεξικού σε συνδυασμό με την ταυτόχρονη μεταβολή των τιμών των συντελεστών και έτσι επιταχύνεται η σύγκλιση. Αυτό ισοδυναμεί με σε μία μεταπήδηση από τη μέθοδο της απότομης καθόδου (Gradient Descent) στη μέθοδο Gauss-Seidel (ή Liebmann method ή μέθοδος διαδοχικών μετατοπίσεων) όσον αφορά τη βελτιστοποίηση, αφού πλέον οι επόμενες ενημερώσεις του κάθε ατόμου βασίζονται στους σχετιζόμενους συντελεστές. Η παραπάνω χαρακτηριστική διεργασία του K-SVD τον ξεχωρίζει από τους υπόλοιπους αλγορίθμους που έχουν προταθεί για το σχεδιασμό υπερπλήρων προσαρμοζόμενων λεξικών για αραιή αναπαράσταση σημάτων -οι οποίοι διατηρούν σταθερό τον πίνακα A καθώς ενημερώνονται διαδοχικά οι στήλες του λεξικού D- και τον κατατάσσει στους πιο αποτελεσματικούς, με βάση βέβαια και τα πειραματικά δεδομένα [Aharon 2006]. Τέλος, ο K-SVD διαθέτει μία καλά ορισμένη συνάρτηση κόστους (welldefined objective), η οποία εκτιμά την ποιότητα της λαμβανόμενης λύσης. Αυτή είναι η s.t.. Η παραπάνω ιδιότητα είναι σημαντική διότι αν και ο αλγόριθμος μπορεί να σχεδιαστεί ώστε να βελτιώνει το μέσο τετραγωνικό σφάλμα αναπαράστασης (MSE) και το κριτήριο αραιότητας σε κάθε βήμα του, αυτός δύναται να εγκλωβιστεί σε κάποιο τοπικό ελάχιστο του προβλήματος και έτσι να οδηγηθεί σε ατέρμονες αναζητήσεις γύρω από αυτό, μη μπορώντας ουσιαστικά να επιτύχει την καλύτερη λύση. Στον K-SVD τα βήματα είναι σε συνοχή μεταξύ τους και λειτουργούν με στόχο την ελαχιστοποίηση της σαφής συνάρτησης κόστους, αποφεύγοντας σε μεγάλο βαθμό τις «παγίδες» των τοπικών ελαχίστων. 37

58 2.3 Πακέτο αλγορίθμων SPAMS : [Mairal 2009,2010 & 2014] Γενική περιγραφή online αλγορίθμου εκμάθησης λεξικού : Οι πιο πολλοί αλγόριθμοι εκμάθησης λεξικών ([Olshausen 1997], [Aharon 2006], [Lee 2007], κ.ά.) υλοποιούν επαναληπτικές διαδικασίες έχοντας πρόσβαση σε ολόκληρο το σύνολο εκμάθησης (batch type) έτσι ώστε να ελαχιστοποιήσουν μία συνάρτηση κόστους κάτω από ορισμένους περιορισμούς. Οι αλγόριθμοι αυτοί αν και είναι απλοί και γρήγοροι στην χρήση έχουν το μειονέκτημα ότι δεν μπορούν να διαχειριστούν πολύ μεγάλα σύνολα εκμάθησης ή δυναμικά δεδομένα εκμάθησης που μεταβάλλονται με τον χρόνο, όπως το βίντεο ή η ομιλία. Για να ξεπεραστεί αυτό το πρόβλημα αναπτύχθηκαν online προσεγγίσεις βασισμένες σε στοχαστικές διαδικασίες, οι οποίες διαχειρίζονται τα σήματα εκμάθησης ένα-ένα τη φορά ή συσσωρεύουν τα σήματα μαζί σε μικρά σύνολα που ονομάζονται minibatches. Η προσαρμογή του λεξικού σε διαδοχικά μικρά διαχειρίσιμα σύνολα εκμάθησης είναι πολύ σημαντική στον τομέα της επεξεργασίας εικόνας και βίντεο σε περιπτώσεις που το λεξικό είναι αδύνατον να σχηματιστεί από εκμάθηση με όλα τα δεδομένα μαζί είτε γιατί είναι τεράστιος ο όγκος τους και άρα είναι υπολογιστικά ανέφικτο είτε γιατί είναι δυναμικά δεδομένα που παράγονται σαν συνάρτηση του χρόνου. Οι αλγόριθμοι της βιβλιοθήκη SPAMS (SPArse Modeling Software) εμπίπτουν στην κατηγορία των online αλγορίθμων που βασίζονται σε στοχαστικές προσεγγίσεις διαχειριζόμενοι ένα δείγμα την φορά (ή ένα μικρό σύνολο δειγμάτων (minibatch)). Η εκμάθηση του λεξικού μέσω του SPAMS πραγματοποιείται αξιοποιώντας περαιτέρω τις επιμέρους δομές του προβλήματος για την αποτελεσματική επίλυσή του ελαχιστοποιώντας διαδοχικά μία τοπική τετραγωνική συνάρτηση surrogate του προσδοκώμενου κόστους. Σε ορισμένα προβλήματα βελτιστοποίησης (όπως αυτά που επιλύει το πακέτο SPAMS), η συνάρτηση κόστους είναι υπερβολικά πολύπλοκη για να αξιολογηθεί άμεσα σε κάθε επανάληψη και για αυτό τον λόγο χρησιμοποιείται μία surrogate συνάρτηση, δηλ. μία συνάρτηση που μιμείται τις περισσότερες ιδιότητες της πραγματικής συνάρτησης κόστους, αλλά είναι πολύ απλούστερη αναλυτικά και υπολογιστικά. Το πρόβλημα εκμάθησης λεξικού που διαχειρίζεται το πακέτο SPAMS είναι ένα πρόβλημα βελτιστοποίησης μία ομαλής μη κυρτής συνάρτησης κόστους πάνω σε ένα κυρτό σύνολο C χρησιμοποιώντας μία αρχή majorization-minimization [Mairal 2013]. Ο αλγόριθμος σχηματίζει διαδοχικά μία τετραγωνική συνάρτηση surrogate του προσδοκώμενου κόστους, την οποία ελαχιστοποιεί σε κάθε επανάληψη. Άρα, ο επαναληπτικός online αλγόριθμος επιλύει το πρόβλημα της 38

59 εκμάθησης του λεξικού ελαχιστοποιώντας σε κάθε βήμα την τετραγωνική συνάρτηση surrogate του κόστους λαμβάνοντας υπόψη τους περιορισμούς του προβλήματος. Η μέθοδος αυτή συγκλίνει σχεδόν σίγουρα σε ένα σταθερό σημείο της συνάρτησης κόστους [Mairal 2010]. Για την επίλυση του προβλήματος της αραιής κωδικοποίησης χρησιμοποιείται σαν κριτήριο αραιότητας η -νόρμα, η οποία οδηγεί σε κυρτό πρόβλημα κωδικοποίησης και έχει εμπειρικά αποδειχτεί ότι συμπεριφέρεται γενικά καλύτερα από την 0-νόρμα στην εκμάθηση του λεξικού [Lee 2007]. Η -νόρμα ορίζεται ως το άθροισμα της απόλυτης τιμής των συντελεστών για ένα σήμα και το πρόβλημα της αραιής κωδικοποίησης λαμβάνει την ονομασία Basis Pursuit (BP) ή Lasso ([Mairal 2009],[Chen 2001],[Tibshirani 1996]). Συνεπώς, το περιορισμένο πρόβλημα βελτιστοποίησης, που επιλύει ο αλγόριθμος της βιβλιοθήκης SPAMS, για τη εκμάθηση του λεξικού αραιής αναπαράστασης (ώστε να κωδικοποιηθούν τα σήματα Υ= ) περιγράφεται από τις σχέσεις : min D C,Α min D C,Α { } s.t., με περιορισμό την τιμή μ ή kxm { + λ }, με παράγοντα λ kxm και με Για την περιγραφή του αλγορίθμου θα επικεντρωθούμε στην επίλυση της δεύτερης από τις δύο σχέσεις, δηλ. της σχέσης minimize { + λ }, kxm D C,Α η οποία αποτελεί τη συνάρτηση κόστους του προβλήματος, αν και η μεταχείριση είναι παρόμοια και για την άλλη εξίσωση. 39

60 2.3.2 Αλγόριθμοι για την υλοποίηση της αραιής κωδικοποίησης (Sparse Coding) με 1-νόρμα : i Αραιή κωδικοποίηση (Sparse Coding) με 1-νόρμα : Αν και η 1-νόρμα αρχικά εμφανίστηκε στον τομέα της γεωφυσικής ([Claerbout 1973],[Taylor 1979]) έχει χρησιμοποιηθεί εκτενώς σε προβλήματα στους τομείς της μηχανικής μάθησης, της αναγνώρισης προτύπων και της στατιστικής. Όσον αφορά το πρόβλημα της αραιής αναπαράστασης, η επιλογή της 0-νόρμας ως κριτήριο αραιότητας είναι αυτή που υποδεικνύει την αραιότερη λύση εντούτοις το πρόβλημα καθίσταται ως ένα μη ντετερμινιστικό πολυωνυμικό χρονικό πρόβλημα (NP-hard problem) που επιδέχεται μόνο προσεγγιστικές λύσεις. Για αυτό τον λόγο, σε πολλές περιπτώσεις, επιχειρείται η ελαχιστοποίηση του προβλήματος με την 1νόρμα σαν περιορισμό αραιότητας, η οποία έχει αναλυτική λύση και το πρόβλημα της αραιής αναπαράστασης είναι πλέον πολυωνυμικό χρονικό. Σύμφωνα με την βιβλιογραφία [Zhang 2015],[Donoho 2006], η χρήση της 1-νόρμας οδηγεί σε αραιή λύση, η οποία είναι ισοδύναμη με αυτή που προκύπτει από την ελαχιστοποίηση του προβλήματος με την 0-νόρμα. Ως εκ τούτου, έχουν προταθεί αρκετές μέθοδοι ελαχιστοποίησης του προβλήματος αραιής αναπαράστασης με την 1-νόρμα ως κριτήριο αραιότητας με αξιοσημείωτα αποτελέσματα και ευρέως διαδεδομένες εφαρμογές. Έτσι, αντίστοιχα με το πρόβλημα αραιής κωδικοποίησης με 0-νόρμα, οι σχέσεις που περιγράφουν το πρόβλημα αραιής κωδικοποίησης με 1-νόρμα για ένα σήμα με συντελεστές και γνωστό λεξικό D είναι :, που είναι γνωστό ως Lasso ή, που είναι γνωστό ως Basis Pursuit ή, με σφάλμα αναπαράστασης Οι τρεις παραπάνω σχέσεις είναι ισοδύναμες και η επιλογή κατάλληλης μορφής προβλήματος έγκειται στον χρήστη και στην φύση του προβλήματος που επιθυμεί να επιλύσει. Τα ονόματα των παραπάνω μορφών του προβλήματος αραιής κωδικοποίησης με κριτήριο αραιότητας την 1-νόρμα δεν είναι ευδιάκριτα στην βιβλιογραφία και για αυτό τον λόγο πολλές φορές χρησιμοποιούνται αδιακρίτως εννοώντας μία από τις τρεις μορφές. Επίσης, σημειώνεται ότι δεν υπάρχει ευθεία αντιστοίχηση μεταξύ των παραμέτρων και με την αραιότητα αλλά γενικά η αύξηση του οδηγεί σε μεγαλύτερη αραιότητα (δηλ. περισσότεροι συντελεστές μηδενίζονται) αν και σε λίγες περιπτώσεις η αύξηση της τιμής του έχει σαν συνέπεια πιο πυκνή λύση (περισσότεροι μη μηδενικοί συντελεστές) και αντίστοιχα η ελάττωση του οδηγεί σε ενίσχυση της αραιότητας, αν και δεν υπάρχει τυπική σχέση μεταξύ αραιότητας και 1-νόρμας [Mairal 2014]. Οπότε, φαίνεται ξεκάθαρα 40

61 ότι η επιλογή συγκεκριμένης μορφής στο πρόβλημα βελτιστοποίησης εξαρτάται από το πόσο εύκολα μπορούν να προσδιοριστούν οι τιμές των μεταβλητών και πόσο εξυπηρετούν το υπάρχον πρόβλημα. Το παραπάνω κανονικοποιημένο 1-πρόβλημα ελαχίστων τετραγώνων ( 1regularized least-square problem) μπορεί να περιγραφεί σαν ένα κυρτό τετραγωνικό πρόβλημα (QP) με γραμμικούς περιορισμούς ισότητας. Έτσι, το τετραγωνικό αυτό πρόβλημα επιλύεται με πληθώρα μεθόδων, όπως coordinate descent μέθοδοι, επαναληπτικοί αλγόριθμοι κατωφλίου (iterative thresholding), φραγμένες μέθοδοι βελτιστοποίησης (bound optimization), συνήθεις μέθοδοι εσωτερικού σημείου (standard interior point (IPM)), μέθοδοι προβολής κλίσης (proximal gradient projection), μέθοδοι ομοτοπικής ανάλυσης (homotopy), κ.ά. Στην περίπτωση του προβλήματος της αραιής κωδικοποίησης με 0-νόρμα, η προσεγγιστική λύση επιτυγχάνεται είτε με greedy αλγορίθμους (Matching Pursuit, Orthogonal Matching Pursuit) είτε με επαναληπτικούς αυστηρής κατωφλίωσης (iterative hard-thresholding). Ενδιαφέρον παρουσιάζει το γεγονός ότι και για το πρόβλημα της αραιής κωδικοποίησης με 1-νόρμα μπορούν να ακολουθηθούν παρόμοιες τεχνικές, αν και οι σχέσεις μεταξύ της 0-προσέγγισης και της 1προσέγγισης γίνονται εμφανείς μόνο μέσω στερνής γνώσης (δηλ. διαπιστώνονται εκ των υστέρων). Έτσι, οι επαναληπτικοί αλγόριθμοι χαλαρής κατωφλίωσης (iterative soft-thresholding) θεωρούνται οι 1-αντίστοιχοι των επαναληπτικών αλγόριθμων αυστηρής κατωφλίωσης (iterative hard-thresholding), η μέθοδος coordinate descent χρησιμοποιεί παρόμοιο τρόπο με τον αλγόριθμο Matching Pursuit για την ενημέρωση των συντελεστών και η μέθοδος ομοτοπίας (homotopy) ακολουθεί παραπλήσια δομή με τον αλγόριθμο Orthogonal Matching Pursuit, αλλά και οι τρεις επιλύουν το κυρτό μη ομαλό 1-πρόβλημα και όχι το NP-hard πρόβλημα με κριτήριο την 0-νόρμα [Mairal 2014]. Η μέθοδος ομοτοπίας (homotopy) αποδεικνύεται εξαιρετικά αποτελεσματική για την επίλυση προβλημάτων αραιής αναπαράστασης μεσαίου μεγέθους [Bach 2012a] και για αυτό το λόγο ο αλγόριθμος LARS-Lasso ([Osborne 2000],[Efron 2004]), που αποτελεί μία υλοποίηση της μεθόδου ομοτοπίας, χρησιμοποιείται από το πακέτο SPAMS στο στάδιο της αραιής κωδικοποίησης. Ο αλγόριθμος LARS-Lasso έχει αποδειχτεί πειραματικά τουλάχιστον [Mairal 2010], ότι επιτυγχάνει ταχύτητα όμοια με τις μεθόδους χαλαρής κατωφλίωσης (οι οποίες επιφέρουν ικανοποιητικά αποτελέσματα όταν τα άτομα του λεξικού έχουν μικρή συσχέτιση, κάτι που, όμως, δεν συμβαίνει συχνά όταν τα λεξικά προκύπτουν μέσω μίας διαδικασίας εκμάθησης από δεδομένα) ενώ παράλληλα παρέχει μία λύση με μεγαλύτερη ακρίβεια και επίσης είναι πιο στιβαρός καθώς δεν απαιτεί ένα αυθαίρετο κριτήριο τερματισμού ii Αλγόριθμος μεθόδου ομοτοπίας (homotopy) : Η έννοια της ομοτοπίας (homotopy) προέρχεται από την τοπολογία (topology) και εφαρμόζεται κατά βάση για την επίλυση ενός μη γραμμικού συστήματος εξισώσεων. Η κύρια ιδέα της μεθόδου ομοτοπίας είναι η 41

62 βελτιστοποίηση προβλημάτων ακολουθώντας μία συνεχής παραμετροποιημένη διαδρομή (path) λύσεων μαζί με διάφορες παραμέτρους. Η μέθοδος ομοτοπίας LARS-Lasso είναι στενά συνδεδεμένη με τις συμβατικές τεχνικές αραιής αναπαράστασης, όπως ο αλγόριθμος Orthogonal Matching Pursuit (OMP), και χρησιμοποιείται για την επίλυση του προβλήματος ελαχιστοποίησης της 1 -νόρμας. Κατ αντιστοιχία με τον OMP, ο αλγόριθμος ομοτοπίας διατηρεί ένα σύνολο συντελεστών (δηλ. ένα σύνολο δεικτών των μη μηδενικών θέσεων των συντελεστών και τις τιμές τους), το οποίο στην αρχή είναι κενό και επαναληπτικά συμπληρώνεται ενημερώνοντας μία μεταβλητή την φορά. Έτσι, όμοια με τον OMP, βρίσκει το πιο συσχετισμένο άτομο σε σχέση με το υπόλοιπο και επιλέγει το μεγαλύτερο δυνατό βήμα στη διεύθυνση αυτού του ατόμου μέχρις ότου συναντήσει ένα νέο άτομο που να έχει τόση συσχέτιση με το τρέχον υπόλοιπο. Σε αυτό το σημείο διαφέρει λίγο από τον OMP διότι αντί να συνεχίζει στην διεύθυνση του νέου ατόμου, συνεχίζει στη ισογώνια διεύθυνση μεταξύ των δύο μέχρι την εύρεση ενός νέου ατόμου στο συσχετισμένο σύνολο οπότε θα συνεχίσει στην ισογώνια διεύθυνση μεταξύ των τριών και ούτω καθεξής [Efron 2004]. Επίσης, παρόμοια με τον OMP, χρησιμοποιεί την ανάλυση Cholesky για τον υπολογισμό ενός αντίστροφου πίνακα σε κάθε επανάληψη που μεταβάλλεται το ενεργό σύνολο συντελεστών. Τελικά, και οι δύο αλγόριθμοι, ο greedy προσέγγισης OMP (που χρησιμοποιείται για την επίλυση του προβλήματος της αραιής κωδικοποίησης με 0 -νόρμα) και ο ομοτοπικός LARS-Lasso αλγόριθμος (που χρησιμοποιείται για την επίλυση του προβλήματος της αραιής κωδικοποίησης με 1 -νόρμα) εμφανίζουν την ίδια πολυπλοκότητα. Βέβαια, η μέθοδος ομοτοπίας υπερέχει στην διαδοχική ενημέρωση των συντελεστών της αραιής λύσης αφού διαθέτει την δυνατότητα πρόσθεσης ή απομάκρυνσης στοιχείων από το ενεργό σύνολο των συντελεστών [Mairal 2014]. Ο αλγόριθμος ομοτοπίας εκτελείται επαναληπτικά και ακολουθεί την διαδρομή (path) λύσης ελαττώνοντας την παράμετρο λ από μία μεγάλη τιμή σε μία επιθυμητή μικρή τιμή, η οποία μπορεί να οριστεί και από τον χρήστη ως συνθήκη τερματισμού. Το σύνολο των συντελεστών της λύσης ενημερώνεται και μεταβάλλεται μόνο σε ένα κρίσιμο σημείο (critical ή transition point) της διαδρομής, εκεί όπου είτε ένα μη μηδενικό στοιχείο γίνεται μηδέν (δηλ. απομακρύνεται από το ενεργό σύνολο των συντελεστών) είτε ένα νέο μη μηδενικό στοιχείο προστίθεται στο ενεργό σύνολο συντελεστών. Έτσι, η μέθοδος ομοτοπίας επιλύει το Basis Pursuit πρόβλημα ( 1 -νόρμα σαν παράγοντα κανονικοποίησης) υπολογίζοντας το σύνολο όλων των λύσεων του προβλήματος για όλες τις τιμές της παραμέτρου κανονικοποίησης (regularization), δηλ. παράγει την διαδρομή λύσης, όπου η μοναδική (όπως θα αναφερθεί αργότερα) λύση του προβλήματος για μία συγκεκριμένη τιμή της παραμέτρου, δηλ. για. Σημειώνεται εδώ, ότι η επίλυση του Basis Pursuit προβλήματος για όλες τις τιμές του είναι στην πραγματικότητα μία ένδειξη παραμετρικού τετραγωνικού 42

63 προγραμματισμού, για τον οποίο ο αλγόριθμος, που ακολουθεί την διαδρομή, περιλαμβάνει την μέθοδο ομοτοπίας που έχει εμφανιστεί από παλιά στην βιβλιογραφία [Ritter 1962]. Καθώς η τιμή του παράγοντα μεταβάλλεται από μία μεγάλη αρχική τιμή προς μία τελική τιμή κοντά στο μηδέν, τόσο ενισχύεται η ελαχιστοποίηση του τετραγωνικού σφάλματος αναπαράστασης του σήματος σε σχέση με το κριτήριο αραιότητας στο πρόβλημα βελτιστοποίησης και έτσι η βέλτιστη λύση προσεγγίζει τη λύση με το μικρότερο σφάλμα αναπαράστασης. Η αραιή κωδικοποίηση, ούτως ή άλλως, είναι μία διαδικασία ελαχιστοποίησης του σφάλματος αναπαράστασης του σήματος με έναν περιορισμό αραιότητας. Μία βασική ιδιότητα της μεθόδου ομοτοπίας, η οποία αποδεικνύεται εύκολα [Mairal 2012], είναι ότι η διαδρομή λύσης είναι τμηματικά γραμμική, δηλ. μπορεί να περιγραφεί από ένα πεπερασμένο πλήθος γραμμικών τμημάτων. Η τμηματική γραμμικότητα της διαδρομής λύσης ανακαλύφθηκε από τον Markowitz [1952] και μετατράπηκε σε έναν αποτελεσματικό αλγόριθμο επίλυσης του προβλήματος αραιής κωδικοποίησης με 1-νόρμα από τους Osborne [2000] και Efron [2004]. Οι δύο πιο σημαντικοί παράμετροι της μεθόδου ομοτοπίας είναι το βήμα, που καθορίζει τη μετάβαση από ένα κρίσιμο σημείο στο επόμενο, και η διεύθυνση του γραμμικού τμήματος. Οι δύο αυτές παράμετροι καθορίζονται απολύτως από το σύνολο φορέα και τους συντελεστές της λύσης στο αντίστοιχο γραμμικό τμήμα. Για την παραγωγή της διαδρομής λύσης η παράμετρος ελαττώνεται διαδοχικά σύμφωνα με την σχέση από μία μεγάλη αρχική τιμή μέχρι μία μικρή τελική τιμή. Το βήμα υπολογίζεται με τέτοιο τρόπο ώστε να οδηγεί από το ένα κρίσιμο σημείο στο επόμενο (δηλ. από ένα γραμμικό τμήμα σε ένα άλλο) και έτσι να προστίθενται ή να απομακρύνονται στοιχεία από το σύνολο φορέα (support set) και οι συντελεστές της λύσης να ενημερώνονται. Επομένως, η ενημέρωση των μεταβλητών του προβλήματος πραγματοποιείται ξεχωριστά σε κάθε γραμμικό τμήμα της διαδρομής λύσης και επαναλαμβάνεται επιλέγοντας επόμενα γραμμικά τμήματα με κρίσιμα σημεία, μέσω του βήματος. Άρα, αφού σε κάθε κρίσιμο σημείο ενημερώνεται μόνο ένα στοιχείο, δηλ. ένα στοιχείο ενημερώνεται ή απομακρύνεται ή προστίθεται στο ενεργό σύνολο συντελεστών, τότε το πλήθος των βημάτων καθορίζει και τον αριθμό των μη μηδενικών συντελεστών στην αραιή αναπαράσταση. Το πρόβλημα είναι 1 κυρτό και μη ομαλό επειδή η -νόρμα δεν είναι διαφορίσιμη όταν υπάρχει ένα στοιχείο του ίσο με το μηδέν, δηλ. για κάποιο j {1,,k} [Garrigues 2008]. Άρα, υπάρχει ένα ολικό ελάχιστο του προβλήματος βελτιστοποίησης στο α αν και μόνο αν με το διάνυσμα συσχετίσεων υπολοίπου (residual correlations) 43

64 και με. Έτσι, ο αλγόριθμος ομοτοπίας LARS-Lasso ξεκινάει την εκτέλεσή του θέτοντας σαν αρχική τιμή του παράγοντα την τιμή, θεωρώντας σαν αρχικό σύνολο δεικτών των μη μηδενικών συντελεστών το σύνολο και σαν αρχική λύση τη μηδενική, δηλ., αφού το ενεργό σύνολο συντελεστών (δηλ. το σύνολο δεικτών των μη μηδενικών θέσεων των συντελεστών και οι τιμές τους) είναι στην αρχή κενό και επαναληπτικά συμπληρώνεται ενημερώνοντας μία μεταβλητή την φορά. Έπειτα, υπολογίζει τη λύση, δηλ. τη τρέχουσα διεύθυνση της διαδρομής λύσης, με βάση την σχέση:, όπου στο και το συμπληρωματικό σύνολο του. Ακολούθως, βρίσκει το μικρότερο βήμα μετάβασης j στο ώστε να ισχύει έτσι ώστε είτε να υπάρχει και άρα σε αυτή την περίπτωση ο δείκτης j να προστίθεται στο ενεργό σύνολο είτε να υπάρχει j στο ώστε να ισχύει και άρα τώρα ο δείκτης j να απομακρύνεται από το ενεργό σύνολο. Τελικά, το ζευγάρι καταγράφεται και η παράμετρος λ ελαττώνεται σύμφωνα με την σχέση ώστε η διαδικασία να επαναληφθεί για την νέα τιμή του. Επομένως, ο αλγόριθμος της μεθόδου ομοτοπίας υπολογίζει το βήμα μετάβασης για το επόμενο κρίσιμο σημείο ακολουθώντας την διαδρομή λύσης, δηλ. κινείται στην διεύθυνση του γραμμικού τμήματος μέχρις ότου συναντήσει ένα κρίσιμο σημείο. Η τιμή του προκύπτει από τη σχέση :, όπου οι διεργασίες min πραγματοποιούνται μόνο πάνω σε θετικά ορίσματα και η διεύθυνση ενημέρωσης υπολογίζεται από την σχέση. Ένα κρίσιμο σημείο είναι εκεί όπου είτε ένα μη μηδενικό στοιχείο γίνεται μηδέν (δηλ. απομακρύνεται από το ενεργό σύνολο των συντελεστών) είτε ένα νέο μη μηδενικό στοιχείο προστίθεται στο ενεργό σύνολο συντελεστών. Άρα, σε κάθε κρίσιμο σημείο ενημερώνεται μόνο ένα στοιχείο, δηλ. ένα στοιχείο απομακρύνεται ή προστίθεται στο ενεργό σύνολο συντελεστών, και για αυτό τον λόγο κάθε επανάληψη είναι πολύ αποδοτική υπολογιστικά ([Zhang 2015],[Mairal 2014]). 44

65 Η μέθοδος ομοτοπίας εξασφαλίζει την μοναδικότητα της λύσης, δηλ. την ύπαρξη μοναδικής κανονικοποιημένης διαδρομής λύσης (regularized path solution). Έτσι, δεδομένου ενός λεξικού D C, με C = { D s.t. = 1,, k, 1 } και αν με Λ σημειώνεται το σύνολο των δεικτών έτσι ώστε να ισχύει, τότε το διάνυσμα αποτελεί λύση του Basis Pursuit, δηλ. του προβλήματος βελτιστοποίησης, αν και μόνο αν ισχύει είναι εύκολα κατανοητό ότι η λύση είναι αντιστρέψιμος, δηλ. ο πίνακας ά ά ί. Συνεπώς, είναι αναγκαστικά μοναδική αν ο πίνακας είναι πλήρης τάξης. Αποδεικνύεται σχετικά εύκολα ότι ο πίνακας είναι πλήρης τάξης, δηλ. ο πίνακας είναι αντιστρέψιμος [Mairal 2012]. Οπότε, η μοναδικότητα της λύσης βασίζεται στο ότι υπάρχει μία θετική σταθερά τέτοια ώστε η μικρότερη ιδιοτιμή του πίνακα να είναι μεγαλύτερη ή ίση από αυτή τη σταθερά [Mairal 2010]. Αυτό εγγυάται την αντιστρεψιμότητα του πίνακα και άρα την μοναδικότητα της λύσης της αραιής κωδικοποίησης [Fuchs 2005]. Σημειώνεται εδώ ότι αρχικά πραγματοποιείται η απόδειξη της μοναδικότητα της λύσης της μεθόδου και έπειτα με δεδομένο αυτό αποδεικνύεται ότι η διαδρομή λύσης είναι τμηματικά γραμμική [Mairal 2012]. Ο αλγόριθμος LARS-Lasso χαρακτηρίζεται στιβαρός καθώς δεν απαιτεί κάποιο αυθαίρετο κριτήριο τερματισμού αφού ολοκληρώνει την εκτέλεσή του όταν υπολογιστεί όλη η κανονικοποιημένη διαδρομή λύσης. Βέβαια, ο χρήστης μπορεί να τον διακόψει νωρίτερα επιλέγοντας μία συνθήκη τερματισμού προσδιορίζοντας τις τιμές των μεταβλητών, αναλόγως με την μορφή του προβλήματος που χρησιμοποιεί. Έτσι, ο αλγόριθμος σταματάει την λειτουργία του όταν εντοπίσει την τιμή, που έχει προσδιοριστεί από τον χρήστη, και εξάγει την διαδρομή λύσης που έχει υπολογίσει μέχρι εκείνη την στιγμή. Άρα, ελέγχοντας το πλήθος των βημάτων καθορίζεται και ο αριθμός των μη μηδενικών συντελεστών στην αραιή αναπαράσταση. Συνοψίζοντας, ο αλγόριθμος LARS-Lasso επιλύει το πρόβλημα της αραιής κωδικοποίησης με 1 -νόρμα, δηλ. υπολογίζει το διάνυσμα των συντελεστών του σήματος για την αραιή αναπαράστασή του. Ο αλγόριθμος αυτός αποτελεί μία υλοποίηση της μεθόδου ομοτοπίας, η οποία παρέχει ολόκληρη την κανονικοποιημένη διαδρομή λύσης, δηλ. την λύση για όλες τις δυνατές τιμές του παράγοντα κανονικοποποίησης. Η τεχνική αυτή δέχεται τα σήματα διαδοχικά ώστε να υπολογίζει τους συντελεστές αραιής αναπαράστασης για κάθε ένα σήμα ξεχωριστά. Έτσι, για κάθε σήμα υπολογίζει τη διαδρομή λύσης ελαττώνοντας επαναληπτικά την τιμή του ( ) και χρησιμοποιώντας σαν warm-restart (πίνακα επανεκκίνησης) κάθε φορά την προηγούμενη υπολογισμένη λύση, δηλ. την λύση για την προηγούμενη τιμή της παραμέτρου. Η μοναδικότητα της λύσης για 45

66 μία συγκεκριμένη τιμή της παραμέτρου, δηλ. η ύπαρξη μοναδικής κανονικοποιημένης διαδρομής λύσης (regularized path solution) εξασφαλίζεται και στη συνέχεια μέσω αυτού αποδεικνύεται ότι η διαδρομή λύσης είναι τμηματικά γραμμική. Η τελευταία ιδιότητα είναι πολύ σημαντική διότι ο αλγόριθμος ακολουθεί την διεύθυνση του γραμμικού τμήματος μέχρις ότου συναντήσει ένα κρίσιμο σημείο, δηλ. εκεί όπου είτε ένα μη μηδενικό στοιχείο γίνεται μηδέν (δηλ. απομακρύνεται από το ενεργό σύνολο των συντελεστών) είτε ένα νέο μη μηδενικό στοιχείο προστίθεται στο ενεργό σύνολο συντελεστών. Έτσι, η διαδικασία οδηγείται από το ένα κρίσιμο σημείο στο επόμενο (δηλ. από ένα γραμμικό τμήμα σε ένα άλλο) έτσι ώστε σε κάθε κρίσιμο σημείο να ενημερώνεται μόνο ένα στοιχείο, δηλ. ένα στοιχείο να απομακρύνεται ή να προστίθεται στο ενεργό σύνολο συντελεστών του σήματος. Επομένως, η ενημέρωση ενός συντελεστή, πραγματοποιείται ξεχωριστά σε κάθε γραμμικό τμήμα της διαδρομής λύσης και επαναλαμβάνοντας την διαδικασία επιλέγοντας επόμενα γραμμικά τμήματα με κρίσιμα σημεία μέσω του βήματος ενημερώνονται διαδοχικά όλοι οι μη μηδενικοί συντελεστές του σήματος και άρα προκύπτει η αραιή λύση. Η πολυπλοκότητα της μεθόδου έγκειται στην αντιστροφή του πίνακα σε κάθε κρίσιμο σημείο για την ενημέρωση του ενεργού συνόλου των συντελεστών. Η αντιστροφή του πίνακα συνδιασποράς των επιλεγμένων ατόμων του λεξικού, αφού D είναι το λεξικό αραιής αναπαράστασης, πραγματοποιείται μέσω της ανάλυσης Cholesky. Τελικά, η μέθοδος ομοτοπίας LARS- Lasso αποτελεί μία εξαιρετικά αποδοτική προσέγγιση όταν η λύση είναι πολύ αραιή και το μέγεθος του προβλήματος εύλογο, αφού παρέχει μία λύση με μεγάλη ακρίβεια και η επίδοση του αλγορίθμου δεν εξαρτάται από την συσχέτιση των ατόμων του λεξικού [Mairal 2010]. 46

67 2.3.3 Αναλυτική περιγραφή αλγορίθμου εκμάθησης λεξικού : Ο αλγόριθμος για την εκμάθηση του λεξικού αραιής αναπαράστασης που υλοποιείται στο πακέτο SPAMS ανήκει στην κατηγορία των online τεχνικών και έχει δομή όπως ένας αλγόριθμος στοχαστικής κλίσης καθόδου (Stochastic Gradient Descent) πρώτης τάξης εκτός από το στάδιο της ενημέρωσης του λεξικού που χρησιμοποιεί την Block Coordinate Descent τεχνική. Η Stochastic Gradient Descent μέθοδος, γνωστή και ως incremental Gradient Descent, είναι μία στοχαστική προσέγγιση της μεθόδου βελτιστοποίησης Gradient Descent και χρησιμοποιείται για την ελαχιστοποίηση μιας συνάρτησης κόστους, η οποία περιγράφεται ως άθροισμα διαφορίσιμων συναρτήσεων, δηλ. με άλλα λόγια, η Stochastic Gradient Descent μέθοδος προσπαθεί να βρει ελάχιστα ή μέγιστα της συνάρτησης κόστους μέσω μίας επαναληπτικής διαδικασίας. Η Gradient Descent μέθοδος χρησιμοποιείται για την εύρεση ακρότατων μίας συνάρτησης ελέγχοντας το πρόσημο της πρώτης παραγώγου της συνάρτησης στο τρέχον σημείο. Έτσι, για τον εντοπισμό ενός τοπικού ελαχίστου επιλέγει βήμα ανάλογο με το αρνητικό της κλίσης (ή της κατά προσέγγιση κλίσης) της συνάρτησης στο τρέχον σημείο ενώ αν κατευθυνθεί ανάλογα με το θετικό της κλίσης τότε προσεγγίζει ένα τοπικό μέγιστο της συνάρτησης. Η βασική ιδέα της μεθόδου βασίζεται στην παρατήρηση ότι αν Ƒ(x) μία συνάρτηση που ορίζεται και είναι διαφορίσιμη σε μία γειτονιά, τότε η Ƒ(x) μειώνεται ταχύτερα εάν ακολουθηθεί η διεύθυνση της αρνητικής παραγώγου της Ƒ(x) στο. Οπότε, αν Ƒ για αρκετά μικρές τιμές του τότε Ƒ( ) Ƒ( ), αφού ο όρος Ƒ αφαιρείται από το επειδή επιθυμείται η αντίθετη κατεύθυνση από την κλίση, δηλ. προς το ελάχιστο της συνάρτησης. Επομένως, επαναλαμβάνοντας την σχέση, για την ακολουθία είναι πιθανό να προσεγγιστεί ένα τοπικό ελάχιστο της συνάρτησης. Ο όρος ɳ καθορίζει τη συμμετοχή της παραγώγου στην ενημέρωση της τιμής της μεταβλητής και ονομάζεται βήμα ή ρυθμός εκμάθησης (step or learning rate). Η Coordinate Descent τεχνική αναζητεί την βέλτιστη λύση ελέγχοντας κάθε διεύθυνση συντεταγμένων και αν σε κάποιο σημείο το κόστος δεν μειώνεται σε καμία διεύθυνση συντεταγμένων τότε έχει εκτιμήσει την βέλτιστη λύση. Ο όρος Block Coordinate Descent σημαίνει ότι η ενημέρωση πραγματοποιείται με χρήση ενός ή περισσοτέρων blocks της μεταβλητής κάθε φορά (block update) και όχι όλων των blocks μαζί (batch update). Τα οφέλη αυτής της τεχνικής συνοψίζονται στην εξαιρετικά απλή εφαρμογή της, στην απουσία ορισμού παραμέτρων και στην μεγάλη αποτελεσματικότητά της στην πράξη. Οι κλασσικές τεχνικές εκμάθησης λεξικών για αραιή αναπαράσταση σημάτων ([Olshausen 1997],[Lewicki 2000],[Aharon 2006],[Lee 2007]) θεωρούν ένα πεπερασμένο σύνολο σημάτων εκμάθησης Υ = και βελτιστοποιούν την συνάρτηση εμπειρικού (empirical) κόστους = (yᵢ,d) =, 47

68 όπου D το λεξικό με τις στήλες του να αποτελούν τα άτομα και ℒ μία συνάρτηση απωλειών (Loss function) έτσι ώστε η ℒ(yᵢ,D) να είναι μικρή αν το λεξικό D είναι αντιπροσωπευτικό για την αραιή αναπαράσταση των σημάτων yᵢ. Ωστόσο, η ελαχιστοποίηση του εμπειρικού κόστους με μεγάλη ακρίβεια συνήθως δεν έχει τόση σημασία όσο η ελαχιστοποίηση του προσδοκώμενου (expected) κόστους, που δεν είναι τίποτα άλλο παρά το κόστος όταν το πλήθος των σημάτων εκμάθησης τείνει στο άπειρο, δηλ. = Εx[ℒ(yᵢ,D)] =, όπου το αποτέλεσμα (το οποίο υποτίθεται ότι είναι πεπερασμένο) λαμβάνεται σε σχέση με την άγνωστη- κατανομή πιθανότητας των δεδομένων [Bottou 2007]. Δηλ. η προσπάθεια ακριβής ελαχιστοποίησης του εμπειρικού κόστους για ένα πεπερασμένο πλήθος σημάτων εκμάθησης ενδέχεται να οδηγήσει σε υπερπροσαρμογή (overfitting) στα δεδομένα εκμάθησης ενώ αντίθετα η ελαχιστοποίηση του προσδοκώμενου κόστους δείχνει την ποιότητα του λεξικού στη κωδικοποίηση άγνωστων δεδομένων. Έτσι, δεδομένου ενός πεπερασμένου συνόλου εκμάθησης, δεν απαιτείται η ελαχιστοποίηση του εμπειρικού κόστους με απόλυτη ακρίβεια αφού αποτελεί απλώς μία προσέγγιση του προσδοκώμενου κόστους (σημειώνεται εδώ ότι για μία διακριτή κατανομή πιθανότητας και ένα πεπερασμένο πλήθος δεδομένων το προσδοκώμενο κόστος ταυτίζεται με το εμπειρικό). Οι αλγόριθμοι Stochastic Gradient Descent, για τους οποίους ισχύει ότι ο ρυθμός σύγκλισής τους δεν είναι καλός για συμβατικά προβλήματα βελτιστοποίησης, εντούτοις έχει αποδειχτεί τόσο θεωρητικά όσο και πρακτικά, ότι σε ορισμένες περιπτώσεις είναι ταχύτεροι στην εύρεση της λύσης με χαμηλό προσδοκώμενο κόστος σε σχέση με batch τεχνικές δεύτερης τάξης [Bottou 2007]. Σε μεγάλα σύνολα εκμάθησης (που το ρίσκο υπερπροσαρμογής είναι χαμηλό), οι κλασσικές batch τεχνικές βελτιστοποίησης είναι μη εφαρμόσιμες λόγω ταχύτητας ή απαιτήσεων μνήμης και άρα η επιλογή online αλγορίθμων βασισμένων στη μέθοδο Stochastic Gradient Descent είναι μία ελκυστική εναλλακτική. Έτσι, συνηθίζεται να χρησιμοποιούνται αλγόριθμοι Stochastic Gradient Descent πρώτης τάξης με προβολές στο σύνολο περιορισμού C για την εκμάθηση λεξικών ([Aharon 2008], [Kavukcuoglu 2008]). Η ενημέρωση του λεξικού πραγματοποιείται επαναληπτικά σύμφωνα με την σχέση : Dt = Πc[ Dt δt D ℒ(yt,Dt-1) ], όπου Dt είναι η εκτίμηση του λεξικού στην επανάληψη t, δt είναι το βήμα της μεθόδου, Πc είναι η ορθογώνια προβολή στο σύνολο περιορισμού C και yt είναι τα ανεξάρτητα ισότιμα κατανεμημένα δείγματα της άγνωστης κατανομής πιθανότητας, τα οποία στην πράξη προκύπτουν από την τυχαία κυκλική επαναχρησιμοποίηση του συνόλου εκμάθησης διότι πολλές φορές είναι δύσκολο να βρεθούν. Αυτή η μέθοδος είναι ανταγωνιστική όσον αφορά την ταχύτητα σε σχέση με batch τεχνικές όταν το σύνολο εκμάθησης είναι μεγάλο και το βήμα δt = είναι σωστά επιλεγμένο. Ο αλγόριθμος εκμάθησης υπερπλήρους λεξικού για αραιή αναπαράσταση σημάτων του SPAMS, σε αντίθεση με τις κλασσικές προσεγγίσεις των αλγορίθμων Stochastic Gradient Descent πρώτης τάξης, που για την επιτυχή εκτέλεσή τους 48

69 απαιτείται σωστή επιλογή στην τιμή του βήματος ενημέρωσης (step or learning rate), δεν χρειάζεται ρύθμιση του βήματος διότι χρησιμοποιεί πληροφορίες δεύτερης τάξης της συνάρτησης κόστους. Σε προβλήματα μεγάλης κλίμακας, επιλέγονται συνήθως μέθοδοι Stochastic Gradient Descent πρώτης τάξης για την βελτιστοποίηση λόγω του εξαιρετικά αποδοτικού υπολογιστικού κόστους ανά επανάληψη. Τουναντίον, οι μέθοδοι δεύτερης τάξης, παρότι παρέχουν ταχύτερη σύγκλιση, χρησιμοποιούνται λιγότερο λόγω του υψηλού κόστους υπολογισμού των πληροφοριών δεύτερης τάξης. Σε μη περιορισμένα προβλήματα εκμάθησης όπου εγγυάται η ύπαρξη της δεύτερης παραγώγου της συνάρτησης επιδιωκόμενου κόστους, ο αλγόριθμος Stochastic Gradient Descent δεύτερης τάξης βελτιώνει την απόδοση σε σχέση με την εκδοχή της πρώτης τάξης αφού αντικαθιστά το βήμα της Stochastic Gradient Descent μεθόδου με τον αντίστροφο Εσσιανό πίνακα (Hessian). Όταν αυτός ο πίνακας μπορεί να υπολογιστεί ή να προσεγγιστεί αποτελεσματικά, η μέθοδος επιφέρει συνήθως ταχύτερη σύγκλιση και δεν απαιτείται η ρύθμιση του βήματος. Ωστόσο, δεν μπορεί να εφαρμοστεί εύκολα σε περιορισμένα προβλήματα βελτιστοποίησης και επίσης πρέπει να υπολογίζεται ο αντίστροφος Εσσιανός πίνακας σε κάθε επανάληψη. Για τους δύο αυτούς λόγους, δεν είναι δυνατόν να χρησιμοποιηθεί στο πρόβλημα εκμάθησης λεξικού, αλλά παρόλα αυτά μοιράζεται κάποιες ομοιότητες με τον προτεινόμενο αλγόριθμο του SPAMS. Έτσι, αν υποτεθεί ότι δύο σημαντικές τροποποιήσεις ισχύουν στην αρχική διατύπωση του προβλήματος, πρώτον ότι οι συντελεστές αραιής αναπαράστασης αt είναι ανεξάρτητοι από το λεξικό D, δηλ. προκύπτουν ταυτόχρονα με τα σήματα εκμάθησης και δεύτερον ότι το πρόβλημα βελτιστοποίησης δεν εξαρτάται από τον περιορισμό C και άρα ισχύει C, τότε το πρόβλημα εκμάθησης λεξικού ανάγεται σε ένα πρόβλημα εκτίμησης ελαχίστων τετραγώνων σύμφωνα με την σχέση :, το οποίο διαφέρει φυσικά από το αρχικό πρόβλημα εκμάθησης λεξικού αλλά μπορεί να ενσωματωθεί στην προτεινόμενη μέθοδο για την ενημέρωση του λεξικού αφού ισοδυναμεί με την χρήση του αναδρομικού τύπου, η οποία αντιστοιχεί σε αλγόριθμο Stochastic Gradient Descent δεύτερης τάξης [Mairal 2010], αφού η παράγωγος στο (, ) είναι ο όρος και η σειρά ( ) συγκλίνει στον Εσσιανό πίνακα της συνάρτησης κόστους. Μια τέτοια ακολουθία ενημερώσεων εκτελείται από μια γρήγορη υλοποίηση που ονομάζεται αλγόριθμος Kalman [Kushner 2003]. Συνεπώς, ο προτεινόμενος αλγόριθμος εκμάθησης λεξικού για αραιή αναπαράσταση σημάτων χρησιμοποιεί πληροφορίες δεύτερης τάξης της συνάρτησης κόστους, επιτρέποντας έτσι την βελτιστοποίηση του προβλήματος χωρίς την απαίτηση ρύθμισης του βήματος της 49

70 Stochastic Gradient Descent μεθόδου και άρα είναι ένας αλγόριθμος χωρίς ρύθμιση επιμέρους παραμέτρων (parameter free). Η ενημέρωση του λεξικού πραγματοποιείται με την Block Coordinate Descent μέθοδο, η οποία σε κάθε επανάληψή της εγγυάται την ελάττωση της τιμής της συνάρτησης κόστους υπό τον περιορισμό ότι D C, με C = { D s.t. = 1,,k, 1 }. Σε κάθε επανάληψη επιλέγεται ένα νέο άτομο (στήλη) του λεξικού και έτσι το λεξικό ενημερώνεται άτομο το άτομο επιλύοντας το πρόβλημα βελτιστοποίησης, το οποίο είναι κυρτό για σταθερές τιμές συντελεστών [Mairal 2014]. Δηλώνοντας αᵛ να είναι η v-οστη γραμμή του πίνακα συντελεστών = [ (η οποία αντιστοιχεί(σχετίζεται) με το v-οστό άτομο του m] λεξικού), d το άτομο του λεξικού D = [d,,dk] πριν την ενημέρωση, G = [g,,gk] ο πίνακας αυτοσυσχέτισης των συντελεστών (Gt = ) και Β = [b,,bk] ο πίνακας συνδιασποράς των σημάτων εκμάθησης με τους συντελεστές (Βt = ), τότε η ενημέρωση κάθε μίας στήλης του λεξικού ξεχωριστά διατηρώντας τις υπόλοιπες σταθερές διατυπώνεται σε μορφή πινάκων, για την οποία από την σχέση : μετά την ανάλυση της Frobenius νόρμας και την απομάκρυνση των σταθερών όρων ισχύει, και άρα η ενημέρωση της v-οστης στήλης του λεξικού (δηλ. του v-στου ατόμου του λεξικού) ενώ τα υπόλοιπα άτομα παραμένουν αμετάβλητα και λαμβάνοντας υπόψη τον περιορισμό C πραγματοποιείται μέσω των σχέσεων u d u με την τελευταία εξίσωση να είναι μία ορθογώνια προβολή του διανύσματος u στο σύνολο περιορισμού C, που εδώ είναι η μοναδιαία Ευκλείδεια σφαίρα (L-2 σφαίρα). Δεδομένου ότι το παραπάνω πρόβλημα βελτιστοποίησης για την εκμάθησης του λεξικού -αφού οι συντελεστές αραιής αναπαράστασης είναι σταθεροί- είναι κυρτό και επιτρέπει διαχωρίσιμους περιορισμούς στα υπό ενημέρωση blocks (που εδώ είναι οι στήλες-άτομα του λεξικού) της μεθόδου Block Coordinate Descent τότε συνεπάγεται ότι η σύγκλιση σε ένα ολικό ακρότατο είναι εγγυημένη [Bertsekas 1999]. 50

71 Θεωρώντας ότι το σύνολο εκμάθησης αποτελείται από ανεξάρτητα ισότιμα κατανεμημένα δείγματα της κατανομής δεδομένων, ένα δείγμα (ή ένα minibatch με ένα ορισμένο πλήθος δειγμάτων) επιλέγεται κάθε φορά, όπως σε έναν αλγόριθμο Stochastic Gradient Descent. Λόγω της δυσκολίας εύρεσης ανεξάρτητων ισότιμα κατανεμημένων δειγμάτων, αυτά στην πράξη προκύπτουν από την τυχαία κυκλική επαναχρησιμοποίηση του συνόλου εκμάθησης. Στην συνέχεια, εναλλάσσονται τα στάδια της αραιής κωδικοποίησης και της ενημέρωσης του λεξικού, διότι μία προσέγγιση επίλυσης του μη κυρτού προβλήματος της εκμάθησης του λεξικού αποτελεί η εναλλαγή μεταξύ των δύο μεταβλητών α και D ελαχιστοποιώντας τη μία ενώ η άλλη διατηρείται σταθερή αφού με αυτόν τον τρόπο κάθε επιμέρους διαδικασία αποτελεί ένα κυρτό πρόβλημα. Στο στάδιο της αραιής κωδικοποίησης υπολογίζονται οι συντελεστές α t χρησιμοποιώντας το λεξικό D t-1, που έχει σχηματιστεί στην προηγούμενη επανάληψη. Έπειτα, το λεξικό ενημερώνεται ελαχιστοποιώντας την τετραγωνική surrogate συνάρτηση προσδοκώμενου κόστους λαμβάνοντας υπόψη τον περιορισμό C = { D s.t. = 1,,k, 1 } και με τους συντελεστές α z για z < t, να έχουν υπολογιστεί στα προηγούμενα βήματα του αλγορίθμου. Η ενημέρωση του λεξικού επιτυγχάνεται επιλύοντας το πρόβλημα βελτιστοποίησης, με. Το κίνητρο για την παραπάνω προσέγγιση εκμάθησης λεξικού στηρίζεται σε δύο άξονες : Η τετραγωνική surrogate συνάρτηση συγκεντρώνει την προηγούμενη πληροφορία μαζί με μερικά επαρκή στατιστικά, που είναι ο πίνακας αυτοσυσχέτισης (auto-correlation) G t G t-1 + των συντελεστών και ο πίνακας συνδιασποράς (covariance) B t B t-1 + των σημάτων εκμάθησης με τους συντελεστές. Ένα βασικό σημείο της ανάλυσης σύγκλισης δείχνει ότι η τετραγωνική surrogate και η συνάρτηση κόστους συγκλίνουν σχεδόν σίγουρα στο ίδιο όριο, δηλ. η διαφορά τους συγκλίνει στον μηδέν σχεδόν σίγουρα για την τρέχουσα εκτίμηση. Συνεπώς, η συγκλίνουσα surrogate της [Mairal 2010]. λειτουργεί ως Δεδομένου ότι η είναι κοντά με την για μεγάλες τιμές του t και το ίδιο συμβαίνει και για το λεξικό D t με το D t-1 υπό κατάλληλες θεωρήσεις, τότε η ενημέρωση του λεξικού είναι πολύ αποτελεσματική όταν χρησιμοποιείται το D t-1 ως warm restart (πίνακας επανεκκίνησης) για τον υπολογισμό του D t. Έχει παρατηρηθεί εμπειρικά ότι ένα μόνο πέρασμα από τα στοιχεία του λεξικού είναι αρκετό για την επίτευξη σύγκλισης στο στάδιο της ενημέρωσης του λεξικού [Mairal 2014]. 51

72 Συνοψίζοντας, ο προτεινόμενος αλγόριθμος εκμάθησης υπερπλήρους λεξικού για την αραιή αναπαράσταση σημάτων που παρέχεται από το πακέτο SPAMS κατατάσσεται στις online τεχνικές και χρησιμοποιεί την Block Coordinate Descent μέθοδο με warm restarts για την ενημέρωση του λεξικού [Bertsekas 1999]. Κατά την εφαρμογή του, εναλλάσσονται τα στάδια της αραιής κωδικοποίησης και της ενημέρωσης του λεξικού με ταυτόχρονη εναλλαγή μεταξύ των δύο μεταβλητών α t και D t ελαχιστοποιώντας τη μία ενώ η άλλη διατηρείται σταθερή. Δεδομένου ότι ο υπολογισμός των συντελεστών α t κυριαρχεί στο κόστος κάθε επανάληψης κατά την Block Coordinate Descent διαδικασία τότε μπορεί να χρησιμοποιηθεί μια τεχνική βελτιστοποίησης δεύτερης τάξης για την ακριβή εκτίμηση του λεξικού D σε κάθε βήμα όταν το είναι σταθερό. Η χρήση πληροφοριών δεύτερης τάξης της συνάρτησης κόστους για την ενημέρωση του λεξικού έχει σαν συνέπεια ένα από τα μεγαλύτερα προτερήματα του αλγορίθμου, που είναι ότι δεν χρειάζεται ρύθμιση παραμέτρων ούτε και βήματος της Stochastic Gradient Descent μεθόδου [Mairal 2010]. Επιπλέον, κατά την διαδικασία εκτέλεσης του αλγορίθμου δεν απαιτείται η αποθήκευση όλων των διανυσμάτων yᵢ και αᵢ αλλά μόνο του πίνακα αυτοσυσχέτισης G t = και του πίνακα συνδιασποράς Β t =. Επίσης, επειδή τα διανύσματα αᵢ είναι αραιής μορφής (sparse vectors) τότε τα στοιχεία του πίνακα αυτοσυσχέτισης G t συγκεντρώνονται συνήθως στην διαγώνιο, κάτι που κάνει την Block Coordinate Descent μέθοδο πολύ αποτελεσματική. Έτσι, έχει παρατηρηθεί εμπειρικά ότι ένα μόνο πέρασμα από τα στοιχεία του λεξικού είναι αρκετό για την επίτευξη σύγκλισης στο στάδιο της ενημέρωσης του λεξικού [Mairal 2014]. Εν τέλει, ο αλγόριθμος κατασκευάζει διαδοχικά μία τετραγωνική συνάρτηση surrogate του προσδοκώμενου κόστους Ε x [L(yᵢ,D)] L την οποία ελαχιστοποιεί σε κάθε επανάληψη. Έχει αποδειχτεί ότι η τετραγωνική surrogate συνάρτηση λαμβάνοντας υπόψη τον περιορισμό C = { D s.t. = 1,,k, 1 } ελαχιστοποιείται αποτελεσματικά σε κάθε επανάληψη, κάτι που οδηγεί ασυμπτωτικά σε ένα σταθερό σημείο της συνάρτησης κόστους [Mairal 2010]., 52

73 SPAMS : ένα πακέτο αλγορίθμων που υλοποιεί τον σχεδιασμό υπερπλήρων λεξικών για αραιή αναπαράσταση σημάτων Σκοπός ο σχεδιασμός του καλύτερου δυνατού λεξικού D για την αραιή αναπαράσταση των σημάτων Υ= επιλύοντας το πρόβλημα βελτιστοποίησης min D C,Α { + λ } kxm με Απαιτούμενα δεδομένα : y p(y) : σήματα εκμάθησης και ένας αλγόριθμος να επιλέγει ένα δείγμα (ή ένα minibatch) από τα ανεξάρτητα ισότιμα κατανεμημένα δείγματα της κατανομής δεδομένων λ : παράμετρος κανονικοποίησης (regularization) D ⁰ : αρχικοποίηση λεξικού Τ : πλήθος επαναλήψεων Αρχικοποίηση των πινάκων αυτοσυσχέτισης και συνδιασποράς G0 0, Β0 0 για την εκμετάλλευση της προηγούμενης πληροφορίας Επαναληπτική διαδικασία από t μέχρι Τ : επιλογή yt από την κατανομή δεδομένων εκμάθησης p(y) Στάδιο αραιής κωδικοποίησης (Sparse Coding) : Χρήση του αλγορίθμου LARS-Lasso για τον υπολογισμό των συντελεστών αt κάθε σήματος yt 1 επιλύοντας το πρόβλημα της αραιής κωδικοποίησης με την -νόρμα που περιγράφεται από την σχέση : min { } k Gt Bt Gt-1 + Bt-1 + (ενημέρωση πίνακα αυτοσυσχέτισης) (ενημέρωση πίνακα συνδιασποράς) Στάδιο ενημέρωσης του λεξικού (Update Codebook) : Το λεξικό ενημερώνεται εκτελώντας τον Αλγόριθμο 3, ο οποίος χρησιμοποιεί την Block Coordinate Descent μέθοδο με warm restarts για την ενημέρωση του λεξικού σύμφωνα με την σχέση : min min Αλγόριθμος 2 : SPAMS 53

74 Αλγόριθμος ενημέρωσης λεξικού για την αραιή αναπαράσταση σημάτων χρησιμοποιώντας την Block Coordinate Descent μέθοδο Σκοπός είναι η ενημέρωση διαδοχικά των ατόμων του λεξικού D για την αραιή αναπαράσταση. Απαιτούμενα δεδομένα : D = [d,,dk] G = [g,,gk] Β = [b,,bk] : λεξικό εισόδου πριν την ενημέρωση (warm restart) : πίνακας αυτοσυσχέτισης : πίνακας συνδιασποράς Επαναληπτική διαδικασία ενημέρωσης του λεξικού μέχρι την σύγκλιση* Επαναληπτική διαδικασία από 1 μέχρι k για όλα τα άτομα του λεξικού Η κάθε στήλη του λεξικού ενημερώνεται βελτιστοποιώντας την σχέση min min και άρα η ενημέρωση της v-οστης στήλης του λεξικού (δηλ. του v-στου ατόμου του λεξικού) ενώ τα υπόλοιπα άτομα παραμένουν αμετάβλητα και λαμβάνοντας υπόψη τον περιορισμό πραγματοποιείται μέσω των σχέσεων : u d u με την τελευταία εξίσωση να είναι μία ορθογώνια προβολή του διανύσματος u στο σύνολο περιορισμού C, που εδώ είναι η μοναδιαία Ευκλείδεια σφαίρα (L-2 σφαίρα). * Δεδομένου ότι το παραπάνω πρόβλημα βελτιστοποίησης για την εκμάθησης του λεξικού (αφού οι συντελεστές αραιής αναπαράστασης είναι σταθεροί) είναι κυρτό και επιτρέπει διαχωρίσιμους περιορισμούς στα υπό ενημέρωση blocks (που εδώ είναι οι στήλες-άτομα του λεξικού) της μεθόδου Block Coordinate Descent τότε συνεπάγεται ότι η σύγκλιση σε ένα ολικό ακρότατο είναι εγγυημένη [Bertsekas 1999]. Στην πράξη, τα διανύσματα είναι αραιής μορφής (sparse vectors) και άρα τα στοιχεία του πίνακα αυτοσυσχέτισης G συγκεντρώνονται συνήθως στην διαγώνιο, κάτι που κάνει την Block Coordinate Descent μέθοδο πολύ αποτελεσματική. Έτσι, έχει παρατηρηθεί εμπειρικά ότι η εκτέλεση της Block Coordinate Descent μεθόδου για τον υπολογισμό του ανανεωμένου λεξικού Dt με warm restart το Dt-1 χρειάζεται ένα μόνο πέρασμα από τα στοιχεία του λεξικού για την επίτευξη σύγκλισης στο στάδιο της ενημέρωσης του λεξικού [Mairal 2014]. Αλγόριθμος 3 : Ενημέρωση λεξικού 54

75 2.3.4 Υποθέσεις της διαδικασίας εκμάθησης λεξικού : Η ανάλυση και η περιγραφή του αλγορίθμου εκμάθησης υπερπλήρους λεξικού για την αραιή αναπαράσταση σημάτων του πακέτου SPAMS στηρίζεται σε μερικές εύλογες υποθέσεις. Πρώτον, θεωρείται ότι τα δεδομένα συμβαδίζουν με μία κατανομή με συμπαγή φορέα (compact support) αφού η ύπαρξη ενός συμπαγούς φορέα για τα δεδομένα είναι φυσική σε εφαρμογές επεξεργασίας ήχου, εικόνας και βίντεο, όπου αυτός επιβάλλεται από την διαδικασία λήψης των δεδομένων. Δεύτερον, θεωρείται ότι η τετραγωνική surrogate συνάρτηση είναι γνησίως κυρτή (strictly convex) με κάτω φραγμένο Εσσιανό πίνακα. Η υπόθεση αυτή στηρίζεται στο σκεπτικό ότι η μικρότερη ιδιοτιμή ενός θετικού ημιορισμένου πίνακα Gt είναι μεγαλύτερη ή ίση από μία σταθερά και συνεπώς, ο πίνακας Gt είναι αντιστρέψιμος και η συνάρτηση, όπου είναι γνησίως κυρτή με Εσσιανό πίνακα ο ταυτοτικός πίνακας και το γινόμενο Kronecker ([Golub 1996], [Magnus 1999]). Στην πράξη, η παραπάνω υπόθεση επαληθεύεται πειραματικά μετά από λίγες επαναλήψεις του αλγορίθμου όταν η αρχικοποίηση του λεξικού είναι λογική, όπως αν το αρχικό λεξικό αποτελείται από τυχαία σήματα εκμάθησης [Mairal 2010]. Τρίτον, θεωρείται ότι ισχύει μία επαρκής συνθήκη για την εξασφάλιση μοναδικής λύσης στο πρόβλημα της αραιής κωδικοποίησης. Δεδομένου κάποιου, με να είναι ο συμπαγής φορέας της κατανομής p(y) των δεδομένων και ενός λεξικού D C, με C = { D s.t. = 1,,k, 1 }, τότε σημειώνεται με Λ το σύνολο των δεικτών έτσι ώστε να ισχύει, όπου η λύση της εξίσωσης αποτελεί λύση αν ά ά και ί μόνο. Επειδή το αν ισχύει τότε είναι προφανές ότι η λύση είναι αναγκαστικά μοναδική αν ο πίνακας είναι αντιστρέψιμος. Έτσι, η λύση λαμβάνει την μορφή, όπου το διάνυσμα που περιέχει τις τιμές του που αντιστοιχούν στο σύνολο Λ, τα άτομα του λεξικού D που αντιστοιχούν στο σύνολο Λ και ισούται με το πρόσημο του αφού. Οπότε, η μοναδικότητα της λύσης βασίζεται στο ότι υπάρχει μία θετική σταθερά τέτοια ώστε για όλα τα y στον φορέα Κ και για κάθε λεξικό D C η μικρότερη ιδιοτιμή του πίνακα να είναι μεγαλύτερη ή ίση από αυτή τη σταθερά [Mairal 2010]. Αυτό εγγυάται την αντιστρεψιμότητα του πίνακα και άρα την μοναδικότητα της λύσης της αραιής κωδικοποίησης [Fuchs 2005]. Βέβαια, είναι εύκολο να δημιουργηθεί ένα λεξικό που θα αποτυγχάνει σε αυτή την υπόθεση αλλά η ύπαρξη του αντιστρέψιμου πίνακα αποτελεί μία συνηθισμένη θεώρηση σε προβλήματα γραμμικής 55

76 παλινδρόμησης (linear regression) και σε μεθόδους αραιής κωδικοποίησης όπως ο αλγόριθμος LARS-Lasso Ενέργειες για βέλτιστη απόδοση του αλγορίθμου εκμάθησης λεξικού : Η απόδοση του αλγορίθμου εκμάθησης λεξικού του πακέτου SPAMS μπορεί να ενισχυθεί με τέσσερις απλές βελτιωτικές ενέργειες, οι οποίες μπορούν να ενσωματωθούν εύκολα στην διαδικασία εκτέλεσης του αλγορίθμου. Το σύνολο εκμάθησης μπορεί να είναι μεγάλο αλλά συνήθως έχει πεπερασμένο μέγεθος, με εξαίρεση να αποτελούν τα δυναμικά δεδομένα που παράγονται σαν συνάρτηση του χρόνου. Στην περίπτωση που είναι διαθέσιμο ένα πεπερασμένου μεγέθους σύνολο εκμάθησης τότε πολλές φορές ενδέχεται τα ίδια δεδομένα να επιλεγούν αρκετές φορές ώστε να προσομοιάζουν τα ανεξάρτητα ισότιμα κατανεμημένα δείγματα μίας κατανομής δεδομένων. Αυτό στην πράξη γίνεται από την τυχαία κυκλική επαναχρησιμοποίηση του συνόλου εκμάθησης. Η παραπάνω διαδικασία εκτελείται στον αλγόριθμο εκμάθησης λεξικού αραιής αναπαράστασης του πακέτου SPAMS και έχει αποδειχτεί πειραματικά ότι επιφέρει πολύ καλά αποτελέσματα, ενώ όταν το σύνολο εκμάθησης είναι αρκετά μικρό είναι πιθανό να επιταχύνει την σύγκλιση [Mairal 2010]. Για την ενημέρωση του λεξικού χρησιμοποιείται ο πίνακας αυτοσυσχέτισης (auto-correlation) Gt Gt-1 + των συντελεστών και ο πίνακας συνδιασποράς (covariance) Bt Bt-1 + των σημάτων εκμάθησης με τους συντελεστές, οι οποίοι περιέχουν την πληροφορία από τους προηγούμενους συντελεστές,,. Εάν ένα σήμα επαναχρησιμοποιηθεί τότε είναι φυσικό να αντικαταστήσει την «παλιά» πληροφορία που είχε προσφέρει (π.χ. την για t0<t) με την καινούργια πληροφορία (π.χ. την ) και για να πραγματοποιηθεί αυτό πρέπει οι σχέσεις να έχουν την μορφή Gt Gt-1 + και Βt Βt-1 +. Κάτι τέτοιο, που απαιτεί την αποθήκευση όλων των προηγούμενων τιμών των συντελεστών, αντιστοιχεί στην κλασσική εφαρμογή της Block Coordinate Descent μεθόδου για την βελτιστοποίηση του προβλήματος εκμάθησης λεξικού α. Όταν όμως διατίθενται μεγάλα αλλά πεπερασμένου μεγέθους σύνολα εκμάθησης, τότε η αποθήκευση όλων των συντελεστών -από όλες τις προηγούμενες επαναλήψεις στο πεπερασμένο σύνολο εκμάθησης- είναι ανέφικτη για τους online αλγορίθμους και ένας τρόπος αντιμετώπισης αποτελεί η διατήρηση μόνο της πληροφορίας των τελευταίων επαναλήψεων, δηλ. η απομάκρυνση της πληροφορίας που έχει εξαχθεί από τις «παλιότερες» επαναλήψεις. Στον αλγόριθμο του SPAMS έχει επιλεγεί η διατήρηση της πληροφορίας μόνο από τις δύο τελευταίες επαναλήψεις στο σύνολο εκμάθησης (δηλ. η διαγραφή της πληροφορίας που παράχθηκε πριν από δύο epochs, ένα epoch αντιστοιχεί στο 56

77 πέρασμα από ολόκληρο το πεπερασμένου μεγέθους σύνολο εκμάθησης). Για την επίτευξη της παραπάνω προσθήκης χρησιμοποιούνται δύο βοηθητικοί πίνακες και, οι οποίοι σχηματίζονται με την ίδια διαδικασία που σχηματίζονται και οι G t και B t. Η χρησιμότητά τους έγκειται στο ότι μετά το τέλος της πρώτης επανάληψης (epoch) οι G t και B t αντικαθίστανται από τους και, ενώ οι και μηδενίζονται. Έτσι, οι G t και B t δεν περιέχουν πλέον πληροφορία «παλαιότερη» από δύο επαναλήψεις (epochs). Σε κάθε επανάληψη, η παρούσα πληροφορία α t ενσωματώνεται στους πίνακες αυτοσυσχέτισης (auto-correlation) G t και συνδιασποράς (covariance) B t με το ίδιο βάρος που είχε η προηγούμενη πληροφορία. Μία κλασσική προσέγγιση των online τεχνικών εκμάθησης αποτελεί η υποβάθμιση -μέσω συντελεστή βαρύτηταςτης προηγούμενης πληροφορίας έτσι ώστε η νέα πληροφορία να έχει μεγαλύτερο βάρος, δηλ. μεγαλύτερη συμμετοχή στην διαδικασία ενημέρωσης της μεταβλητής. Για να επιτευχθεί αυτή η τροποποίηση αρκεί οι σχέσεις υπολογισμού των πινάκων G t και B t να λάβουν την μορφή : όπου G t β t G t-1 + και B t β t B t-1 +, και ρ μία νέα παράμετρος. Η επίπτωση της παραπάνω τροποποίησης γίνεται εμφανής στην αλλαγή που προκαλείται στην σχέση ενημέρωσης του λεξικού : Είναι προφανές ότι όταν ρ = 0 προκύπτουν οι αρχικές σχέσεις. Για μεγάλα σύνολα εκμάθησης (δηλ. περισσότερα από σήματα) η παράμετρος ρ μπορεί γενικά να επιταχύνει την σύγκλιση, αν και όπως έχει αποδειχτεί πειραματικά δεν είναι εξόχως σημαντική, ενώ σε μικρότερα σύνολα εκμάθησης δεν έχει παρατηρηθεί κάποια βελτίωση [Mairal 2010]. Η βελτίωση της ταχύτητας σύγκλισης μπορεί εύκολα να επιτευχθεί επιλέγοντας περισσότερα από ένα σήματα την φορά. Αυτή είναι και η διαφορά μεταξύ των κλασσικών online τεχνικών που χρησιμοποιούν ένα-ένα τα δείγματα από τις online τεχνικές με minibatch που συλλέγουν ένα πακέτο από δείγματα και τα μεταχειρίζονται όλα μαζί. Στην παρούσα περίπτωση που το στάδιο της αραιής κωδικοποίησης πραγματοποιείται μέσω του LARS-Lasso αλγορίθμου, η χρήση minibatch για την επιλογή των δεδομένων οδηγεί σε μείωση της πολυπλοκότητας αφού πλέον το υπολογιστικό κόστος δεν είναι γραμμικά ανάλογο με πλήθος των σημάτων. Έτσι, θεωρώντας με (t,i),, (t,m) τα σήματα ενός minibatch, δηλ. τα 57

78 σήματα που επιλέγονται σε μία επανάληψη t, οι σχέσεις υπολογισμού των πινάκων G t και B t να λαμβάνουν την μορφή : G t G t-1 + και B t B t-1 + Είναι εύκολο να αντιληφθεί κανείς ότι οι δύο παραπάνω τροποποιήσεις μπορούν να συγχωνευτούν μαζί και έτσι οι σχέσεις υπολογισμού των πινάκων G t και B t να λάβουν την μορφή : G t β t G t-1 + και B t β t B t-1 + με Η παράμετρος β λαμβάνει την τιμή, έτσι ώστε να οδηγεί το παρών πρόβλημα εκμάθησης λεξικού σε σύγκλιση. Ο προσδιορισμός του β από την παραπάνω σχέση έχει σαν συνέπεια στην αρχή (t<m) η τιμή του β να αυξάνεται με γρήγορο ρυθμό και στην συνέχεια (t M) να αυξάνεται πολύ πιο αργά πλησιάζοντας την μονάδα. Με αυτόν τον τρόπο, στην αρχή η προηγούμενη πληροφορία υποβαθμίζεται έντονα και όσο οι επαναλήψεις εκτελούνται (t αυξάνεται) τόσο η προηγούμενη πληροφορία συμμετέχει με μεγαλύτερη βαρύτητα στην ενημέρωση των πινάκων αυτοσυσχέτισης (autocorrelation) G t και συνδιασποράς (covariance) B t. Ύστερα από αρκετές επαναλήψεις ( ) το β τείνει στην μονάδα και άρα η νέα πληροφορία ενσωματώνεται με το ίδιο σχεδόν βάρος που είχε η προηγούμενη πληροφορία, αφού ο συντελεστή βαρύτητας β για την προηγούμενη πληροφορία είναι σχεδόν ίσος με την μονάδα (ενώ για την νέα πληροφορία ο συντελεστή βαρύτητας ισούται πάντα με την μονάδα αφού δεν έχει οριστεί κάποιος παραμετρικός συντελεστής στη σχέση ενημέρωσης). Μερικές φορές κάποια από τα άτομα του λεξικού χρησιμοποιούνται πολύ σπάνια ή ποτέ κατά την αραιή αναπαράσταση και αυτό συνήθως οφείλεται σε κακή αρχικοποίηση του λεξικού. Η αρχικοποίηση του λεξικού πραγματοποιείται είτε ορίζοντας ο χρήστης έναν πίνακα αρχικοποίησης είτε απλώς το αρχικό λεξικό αποτελείται από τυχαία σήματα εκμάθησης. Οι περισσότερες μέθοδοι εκμάθησης λεξικών αντιμετωπίζουν το παραπάνω πρόβλημα αντικαθιστώντας κατά την διάρκεια της βελτιστοποίησης το άτομο του λεξικού, που εμφανίζει ελάχιστη συμμέτοχη στην αραιή αναπαράσταση των δεδομένων, με ένα τυχαίο σήμα εκμάθησης. Η παραπάνω πρακτική επιλύει τις περισσότερες φορές το πρόβλημα και για αυτό το λόγο έχει επιλεγεί και στον αλγόριθμο εκμάθησης λεξικού για αραιή αναπαράσταση σημάτων του πακέτου SPAMS. 58

79 2.3.6 H 1-νόρμα ως κριτήριο αραιότητας : [Mairal 2014] Αν και η 1-νόρμα αρχικά εμφανίστηκε στον τομέα της γεωφυσικής ([Claerbout 1973],[Taylor 1979]) έγινε δημοφιλής στον πεδίο της στατιστικής με τον εκτιμητή Lasso του Tibshirani [1996]. Η σύγχρονη τάση για την επίλυση προβλημάτων αραιής αναπαράστασης υποδεικνύει τη χρήση κυρτών τεχνικών βελτιστοποίησης και για αυτό το λόγο επιχειρείται η ελαχιστοποίηση του προβλήματος αραιής αναπαράστασης με την 1-νόρμα σαν περιορισμό αραιότητας, διότι αυτό οδηγεί σε ένα κυρτό τετραγωνικό πρόβλημα με αναλυτική λύση. Η 1νόρμα χρησιμοποιείται σαν μία κυρτή εναλλακτική για τον υπολογισμό της αραιής λύσης μιας και η αραιότερη λύση προσδιορίζεται από την 0-νόρμα αλλά σε αυτή την περίπτωση το πρόβλημα είναι NP-hard και επιδέχεται μόνο προσεγγιστικές λύσεις. Το πρόβλημα, γνωστό και ως Basis Pursuit, είναι ένα κυρτό μη ομαλό τετραγωνικό πρόβλημα, αφού η 1νόρμα δεν είναι διαφορίσιμη όταν υπάρχει ένα στοιχείο του ίσο με το μηδέν, δηλ. για κάποιο j {1,,k} [Garrigues 2008]. Άρα, υπάρχει ένα ολικό ελάχιστο του προβλήματος βελτιστοποίησης στο α αν και μόνο αν με το διάνυσμα συσχετίσεων υπολοίπου (residual correlations) και με. Παρόλο που γενικά δεν υπάρχει κάποια αυστηρή σχέση μεταξύ της 1-νόρμας και της αραιότητας του διανύσματος, η ενίσχυση της αραιότητας με την χρήση της 1νόρμας μπορεί να γίνει εμφανής μέσα από διάφορες οπτικές γωνίες. Πιο έντονα αυτό παρατηρείται για μεγάλες τιμές του λ που το κριτήριο αραιότητας ( 1-νόρμα) ενισχύεται σε σχέση με τον όρο ανακατασκευής στο πρόβλημα ελαχιστοποίησης. Από αναλυτικής άποψης, η ιδιότητα της 1-νόρμας να οδηγεί σε αραιότητα μπορεί να παρατηρηθεί μέσω της μελέτης των συνθηκών βελτιστότητας του Basis Pursuit προβλήματος. Έτσι, το διάνυσμα αποτελεί λύση του προβλήματος, αν και μόνο αν ισχύει βελτιστοποίησης, κάτι που προσομοιάζει μία λύση χαλαρής κατωφλίωσης (soft-thresholding), στην οποία το πλήθος των μηδενικών στοιχείων της λύσης αυξάνεται μονοτονικά με το. Αν και στην τρέχουσα περίπτωση δεν υπάρχει τέτοια μονοτονική σχέση παρά ταύτα η αραιότητα μέσω της 1 -νόρμας ενισχύεται αναλογικά με το και όταν οι συνθήκες βελτιστότητας ικανοποιούνται μόνο για, δηλ. την αραιότερη δυνατή λύση. 59

80 Η χρήση της 1 -νόρμας ως κριτήριο αραιότητας ίσως φαίνεται καλύτερα περιγράφοντάς την υπό το πρίσμα της φυσικής και χρησιμοποιώντας την έννοια της ενέργειας. Η ενέργεια συχνά υποδηλώνει την συνάρτηση κόστους σε ένα πρόβλημα ελαχιστοποίησης. Πράγματι, είναι σύνηθες στην φυσική ένα πολύπλοκο σύστημα να σταθεροποιείται σε ένα σημείο ελάχιστης δυναμικής ενέργειας, δηλ. σε μία θέση ευσταθούς ισορροπίας. Στην περίπτωση που η δύναμη είναι διατηρητική (δηλ. η σχέση έργου-ενέργειας είναι πλήρως αντιστρεπτή) τότε ισχύει ότι η δύναμη είναι η αρνητική κλίση της συσχετισμένης με αυτήν δυναμικής ενέργειας. Για παράδειγμα, στο 1 -κανονικοποιημένο πρόβλημα σε μία διάσταση, που περιγράφεται από την σχέση με β μία θετική σταθερά, ισχύει ότι οπουδήποτε το α είναι διάφορο του μηδενός ο όρος κανονικοποίησης (regularization) είναι διαφορίσιμος με παράγωγο ίση με, δηλ. για. Οπότε, ερμηνεύοντας την συνάρτηση κόστους σαν ένα πρόβλημα ελαχιστοποίησης της ενέργειας σε μία διάσταση, η αρνητική κλίση της ενέργειας μπορεί να θεωρηθεί σαν μία δύναμη με κατεύθυνση την αρχή του άξονα συντεταγμένων και με σταθερή ένταση. Εξετάζοντας τώρα το 2 - κανονικοποιημένο πρόβλημα σε μία διάσταση, που περιγράφεται από την σχέση και είναι επίσης γνωστό και ως regularization of Tikhonov [1963] ή ridge regression regularization [Hoerl 1970], ισχύει ότι η παράγωγος της ενέργειας ισούται με, δηλ. για. Συνεπώς, η αρνητική κλίση της ενέργειας μπορεί να θεωρηθεί σαν μία δύναμη με κατεύθυνση την αρχή του άξονα συντεταγμένων και με ένταση, δηλ. γραμμικά ανάλογη με το. Έτσι, η δύναμη που αντιστοιχεί στο 2 - κανονικοποιημένο πρόβλημα μπορεί να είναι πολύ ισχυρή για μεγάλες τιμές του α και να εξαφανίζεται όταν το α πλησιάζει το μηδέν και άρα, η χρήση του τετραγωνικού όρου κανονικοποίησης στο πρόβλημα βελτιστοποίησης δεν ενισχύει την αραιότητα της λύσης. Το ίδιο συμπέρασμα προκύπτει παρατηρώντας την μορφή της λύσης σε κάθε πρόβλημα, αφού στο 1 -κανονικοποιημένο πρόβλημα σε μία διάσταση η λύση είναι μηδενική όταν ενώ αντίθετα στο 2 - κανονικοποιημένο πρόβλημα σε μία διάσταση η λύση έχει την μορφή ανεξάρτητα από την παράμετρο δεν είναι ποτέ μηδενική., δηλ. Εικόνα 2.4 : Το σχήμα αριστερά αφορά το 2 -κανονικοποιημένο πρόβλημα σε μία διάσταση όπου η παράγωγος της 2 -νόρμας μηδενίζεται όταν το α πλησιάζει το μηδέν. Το σχήμα δεξιά αφορά το 1 -κανονικοποιημένο πρόβλημα σε μία διάσταση όπου η παράγωγος της 1 -νόρμας είναι σταθερή κατά απόλυτη τιμή. 60

81 Οι παρατηρήσεις για το 1-κανονικοποιημένο πρόβλημα και το 2κανονικοποιημένο πρόβλημα σε μία διάσταση (που έγιναν στο προηγούμενο εδάφιο) γίνονται πιο εύκολα αντιληπτές μέσα από ένα φυσικό παράδειγμα με ελατήρια. Δηλ. το κάθε ένα πρόβλημα αναπαρίσταται από ένα σύστημα ελατηρίων. Είναι γνωστό ότι σε ένα φυσικό σύστημα με ιδανικά ελατήρια η δυναμική ενέργεια είναι τετραγωνικής μορφής και τα αντικείμενα έχουν μία βαρυτική ενέργεια που 1 είναι περίπου γραμμική κοντά στην επιφάνεια της Γης. Έτσι, το κανονικοποιημένο πρόβλημα αντιστοιχεί σε ένα ελατήριο κρεμασμένο από ένα σταθερό σημείο και με ένα αντικείμενο μάζας προσδεμένο στο άλλο άκρο του. Το δυναμικό αυτό σύστημα έχει ενέργεια με, να ορίζεται η ελαστική δυναμική ενέργεια του ελατηρίου με σταθερά ελατηρίου και να ορίζεται η βαρυτική ενέργεια του αντικειμένου με να είναι η βαρυτική σταθερά κοντά στην επιφάνεια της Γης. Το 2 -κανονικοποιημένο πρόβλημα αντιστοιχεί σε ένα κρεμασμένο σύστημα δύο ελατηρίων συνδεδεμένα μεταξύ τους στη σειρά, όπου το σημείο σύνδεσής τους που μπορεί να κινείται κατακόρυφα και τα άκρα του συστήματος να είναι ενωμένα με σταθερά σημεία. Η τοπολογία αυτή έχει ενέργεια, με να ορίζεται η ελαστική δυναμική ενέργεια του πάνω ελατηρίου με σταθερά ελατηρίου -ίδια με το άλλο δυναμικό σύστημα- και να ορίζεται η ελαστική δυναμική ενέργεια του κάτω ελατηρίου με σταθερά ελατηρίου. Το στοιχείο λ των παραπάνω προβλημάτων αντιστοιχεί στην μάζα του αντικειμένου στην πρώτη περίπτωση και στην σταθερά ελατηρίου στην δεύτερη περίπτωση. Εικόνα 2.5 : 1 Ένα παράδειγμα φυσικού συστήματος με ελατήρια απεικονίζει την επίδραση που έχει η -νόρμα στην 2 αραιότητα (δεξιά τοπολογία) σε αντίθεση με την επίδραση της -νόρμας (αριστερή τοπολογία). Τα κόκκινα σημεία είναι σταθερά και δεν μπορούν να μετακινηθούν ενώ το μπλε σημείο στην αριστερή τοπολογία συνδέει τα δύο ελατήρια και έχει την δυνατότητα να κινείται κατακόρυφα. Στο μπλε αντικείμενο μάζας m στην δεξιά τοπολογία ασκείται τόσο η δύναμη επαναφοράς του ελατηρίου όσο και η βαρύτητα ενώ στο αριστερό σύστημα ασκούνται μόνο δυνάμεις ελατηρίου. Όλα τα ελατήρια θεωρούνται ιδανικά με τα ελατήρια αριστερά να έχουν σταθερές ελατηρίου k1 (πάνω ελατήριο) και k2 (κάτω ελατήριο) ενώ το ελατήριο δεξιά να έχει σταθερά k1. 61

82 Τα ελατήρια μπορούν να εκταθούν και να συμπιεστούν αναλόγως την αρχική τους θέση και τελικά το κάθε σύστημα σταθεροποιείται για την τιμή του α που ελαχιστοποιεί την ενέργεια, θεωρώντας βέβαια ότι κάποιο μικρό ποσό ενέργειας θα μετατραπεί σε θερμική ενέργεια λόγω δυνάμεων τριβής. Για το σύστημα του ελατηρίου με το αντικείμενο (δεξιά στην εικόνα), που αντιστοιχεί στο πρόβλημα με την 1-νόρμα, η λύση που ελαχιστοποιεί την συνολική ενέργεια του συστήματος προκύπτει με χαλαρή κατωφλίωση από την σχέση, 0) και άρα, όταν η μάζα είναι αρκετά μεγάλη τότε το αντικείμενο αγγίζει το έδαφος και έτσι προκύπτει η μηδενική λύση, δηλ.. Αντίθετα, για το σύστημα των δύο συνδεδεμένων ελατηρίων (αριστερά στην εικόνα), που αντιστοιχεί στο πρόβλημα με την 2-νόρμα, η λύση που ελαχιστοποιεί την συνολική δυναμική του ενέργεια δίνεται από την σχέση και άρα, η λύση δεν είναι ποτέ μηδενική ανεξάρτητα από την σταθερά του κάτω ελατηρίου. Συνεπώς, μελετώντας το 1-κανονικοποιημένο πρόβλημα και το 2κανονικοποιημένο πρόβλημα με όρους φυσικής και αναλύοντάς τα με βάση την έννοια της ενέργειας προκύπτει ότι η 1-νόρμα λειτουργεί αποτελεσματικά σαν παράγοντας κανονικοποίησης (regularization) στο πρόβλημα βελτιστοποίησης αφού οδηγεί σε αραιή λύση του όταν το λ 1 λαμβάνει μεγάλες τιμές, δηλ. η -νόρμα ενισχύει την αραιότητα σε αντίθεση με την 2 -νόρμα που δεν φέρει αυτή την ιδιότητα. Η επίδραση της 1-νόρμας στην ενίσχυση της αραιότητας μπορεί επίσης να ερμηνευτεί μελετώντας την γεωμετρία της 1-σφαίρας :, σε q για κάποια τιμή q, με σκοπό αντιδιαστολή με μία -σφαίρα : να αναλυθεί η επίδραση της ευκλείδειας προβολής πάνω σε αυτή τη σφαίρα, διότι η προβολή αυτή αποτελεί τη λύση του προβλήματος της αραιής αναπαράστασης. Τα σημεία της επιφάνειας των σφαιρών πάνω στους κύριους άξονες, δηλ. τα σημεία της επιφάνειας με τεταγμένη ή τετμημένη ίση με το μηδέν, αντιστοιχούν στις αραιές λύσεις του προβλήματος. Έτσι, στην παρακάτω εικόνα που απεικονίζει το πρόβλημα στις δύο διαστάσεις για την 1-σφαίρα και την 2-σφαίρα, δύο από αυτά τα σημεία (που αντιστοιχούν σε αραιές λύσεις) αποτυπώνονται με κόκκινη και πράσινη κουκκίδα και έχουν συντεταγμένες και αντίστοιχα. Επίσης, όλα τα σημεία του χώρου διαχωρίζονται χρωματικά ανάλογα με την αντίστοιχη λύση που επιφέρουν, δηλ. τα σημεία μίας χρωματικής περιοχής προβάλλονται πάνω στο αντίστοιχου χρώματος σημείο της επιφάνειας της κάθε σφαίρας, το οποίο αποτελεί μία λύση του προβλήματος. Έτσι, όλα τα σημεία της κόκκινης περιοχής προβάλλονται πάνω στην κόκκινη κουκκίδα, που φέρει συντεταγμένες, και ομοίως όλα τα σημεία της πράσινης και της μπλε περιοχής προβάλλονται πάνω στην πράσινη κουκκίδα στη θέση και στη μπλε κουκκίδα με συντεταγμένες αντίστοιχα. 62

83 1 Εικόνα 2.6 : Απεικόνιση σε δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής στην -σφαίρα (πάνω) 2 σε αντίθεση με την επίδραση της ευκλείδειας προβολής στην -σφαίρα (κάτω). Έτσι, όσον αφορά την 1-σφαίρα, ένα μεγάλο μέρος του χώρου καλύπτεται από την κόκκινη και την πράσινη περιοχή, τα σημεία των οποίων προβάλλονται σε μία αραιή λύση αφού αντιστοιχούν σε κορυφές της 1-σφαίρας. Αντίθετα, τα σημεία που προβάλλονται στην μπλε κουκκίδα, η οποία αντιστοιχεί σε μία πυκνή λύση του προβλήματος, αποτελούν απλά μία γραμμή στον δισδιάστατο χώρο. Επομένως, παρατηρώντας την απεικόνιση στις δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής των σημείων του χώρου πάνω στην 1-σφαίρα, προκύπτει ότι η 1-νόρμα ενθαρρύνει τις αραιές λύσεις αφού ένα μεγάλο μέρος του σχήματος καλύπτεται από σημεία που προβάλλονται στις κορυφές της 1-σφαίρας. Στην άλλη περίπτωση, η 2-σφαίρα είναι ισοτροπική, δηλ. κάθε διεύθυνση του χώρου αντιμετωπίζεται ισότιμα. Άρα, η 2-νόρμα δεν οδηγεί συνήθως σε αραιή λύση αφού μία αραιή λύση προκύπτει μόνο από τα σημεία που βρίσκονται πάνω στους άξονες ενώ για κάθε άλλο σημείο του χώρου, όπως π.χ. ένα σημείο της μπλε γραμμής, προβάλλεται σε μία μη αραιή λύση. Το ίδιο αποτέλεσμα προκύπτει γενικεύοντας στις τρεις 63

84 διαστάσεις, όπου πάλι η 1-νόρμα ενθαρρύνει τις αραιές λύσεις, οι οποίες σχηματικά αντιστοιχούν στις κορυφές της τρισδιάστατης 1-σφαίρας. Εδώ είναι σημαντικό να σημειωθεί ότι η περιοχή που προβάλλεται σε κάθε σημείο στην επιφάνεια της σφαίρας, αποδεικνύεται ότι μπορεί να περιγραφεί γεωμετρικά από έναν πολυεδρικό κώνο Κ [Mairal 2014]. Ο κώνος Κ μεγαλώνει καθώς αυξάνονται τα μηδενικά στοιχεία του αραιού σήματος (υπενθυμίζεται ότι το σήμα μετά την κωδικοποίηση Εικόνα 2.7 : Απεικόνιση σε τρεις συναντάται στην επιφάνεια της κάθε σφαίρας) και διαστάσεις της επίδρασης της 1 ευκλείδειας προβολής στην -σφαίρα. άρα ο κώνος Κ αναπτύσσεται σε έναν υποχώρο Z+1 διαστάσεων, όπου Ζ είναι το πλήθος των μηδενικών στοιχείων του σήματος. Έτσι, όταν Ζ=0, δηλ. το σήμα δεν είναι αραιό -αφού όλα του τα στοιχεία είναι μη μηδενικά- τότε ο κώνος Κ εκφυλίζεται σε μία απλή γραμμή στον δισδιάστατο χώρο και για αυτόν ακριβώς τον λόγο τα σημεία με μη αραιή λύση αντιστοιχούν σε γραμμές στις δύο διαστάσεις (π.χ. μπλε περιοχή). Το συμπέρασμα που εξάγεται από την γεωμετρική ανάλυση του προβλήματος είναι ότι η ευκλείδεια προβολή σε ένα κυρτό σύνολο ενθαρρύνει λύσεις σε ιδιάζοντα σημεία όπως είναι οι ακμές ή οι γωνίες σε γεωμετρικά πολύτοπα. Δηλ. η 1-νόρμα ενθαρρύνει τις αραιές λύσεις αφού αυτές αντιστοιχούν σε ιδιάζοντα σημεία της σφαίρας (δηλ. κορυφές της σφαίρας). Βέβαια, αυτή η αρχή ισχύει και πέρα από την 1-νόρμα, όπως για παράδειγμα για την ꚙ-νόρμα, όπου ενθαρρύνονται οι λύσεις που αντιστοιχούν στις κορυφές της σφαίρας, οποίες έχουν συντεταγμένες με ίση τετμημένη με τεταγμένη και άρα, ενθαρρύνονται οι λύσεις στα σημεία που ισχύει α[1]=α[2]=μ, οι οποίες φυσικά δεν είναι αραιές. Εικόνα 2.8 : Απεικόνιση σε δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής στην ꚙ -σφαίρα. 64

85 Η επίδραση της 1 -νόρμας στην αραιότητα της λύσης μπορεί να μελετηθεί γεωμετρικά και μέσω μίας διαφορετικής προσέγγισης, που είναι περισσότερο περιγραφική και λιγότερο μαθηματική από την προηγούμενη ανάλυση, και η οποία φυσικά οδηγεί στα ίδια συμπεράσματα. Έτσι χρησιμοποιώντας για ευκολία το δισδιάστατο χώρο, όμοια με προηγουμένως, η 1 -σφαίρα αποτελεί ένα ρόμβο με άξονες που έχουν μήκος 2μ και η 2 -σφαίρα είναι ένας κύκλος με ακτίνα μ. Θεωρώντας μία ευθεία στο δισδιάστατο χώρο, η λύση του προβλήματος ελαχιστοποίησης είναι το σημείο της επιφάνειας της σφαίρας που εφάπτεται με την ευθεία. Για την εύρεση αυτής της λύσης ο ρόμβος και ο κύκλος μεγαλώνουν -αυξάνοντας την τιμή του μ ξεκινώντας από το μηδέν- μέχρις ότου η σφαίρα να εφάπτεται με την ευθεία. Για την 1 -νόρμα, ο ρόμβος μεγαλώνει και το πιο πιθανό σημείο τομής του με την ευθεία είναι μία από τις κορυφές του, οι οποίες βρίσκονται πάνω στους άξονες και άρα αποτελούν μία αραιή λύση. Στην περίπτωση που η ευθεία είναι παράλληλη με μία πλευρά του ρόμβου τότε η λύση δεν είναι αραιή ούτε και μοναδική. Η πιθανότητα αυτής της περίπτωσης καθορίζεται από το λεξικό αραιής αναπαράστασης και για αυτό η επιλογή του είναι πολύ σημαντική. Για την 2 -νόρμα, ο κύκλος μεγαλώνει αυξάνοντας την ακτίνα του μ μέχρι να συναντήσει την ευθεία. Η λύση είναι πάντα μοναδική αλλά είναι αραιή μόνο στην περίπτωση που η ευθεία είναι παράλληλη σε κάποιο άξονα. Επομένως, μέσα από αυτό το απλό παραστατικό παράδειγμα γίνεται αντιληπτό με εύκολο τρόπο ότι η 1 -νόρμας λειτουργεί αποτελεσματικά ως κριτήριο αραιότητας. Φυσικά, η ίδια λογική μπορεί να χρησιμοποιηθεί γενικεύοντας σε οποιαδήποτε q -σφαίρα. Αν και με βάση την παραπάνω ανάλυση φαίνεται περίτρανα ότι η επίδραση της 1 -νόρμας στην ενίσχυση της αραιότητας είναι πολύ σημαντική παρ όλα αυτά η 1 -νόρμα αποτελεί απλά μία κυρτή εναλλακτική της 0 -νόρμας. Τόσο στην στατιστική όσο και στην επεξεργασία σήματος, έχουν προταθεί διάφορες συναρτήσεις κανονικοποίησης που ενισχύουν την αραιότητα, όπως συνεχείς εναλλακτικές της 0 -νόρμας οι οποίες είναι μη κυρτές ([Frank 1993],[Fan 2001],[Daubechies 2010],[Gasso 2009]). Ένα παράδειγμα αποτελεί η q -νόρμα με, της οποίας η επίδραση είναι ισχυρότερη από αυτή της 1 -νόρμας όσον αφορά την αραιότητα. Σε αυτή την περίπτωση, με όρους φυσικής, η παράγωγος της ενέργειας μεγαλώνει καθώς πλησιάζει το μηδέν και άρα η αρνητική κλίση της ενέργειας μπορεί να θεωρηθεί σαν μία δύναμη με κατεύθυνση την αρχή του άξονα συντεταγμένων και με αυξανόμενη ένταση καθώς το α πλησιάζει το μηδέν. Με όρους γεωμετρίας, η q -σφαίρα με απεικονίζεται στην παρακάτω εικόνα, με τον ίδιο τρόπο που είχαν περιγραφεί στο προηγούμενο εδάφιο η 1 -σφαίρα, η 2 - σφαίρα και η -σφαίρας το δισδιάστατο χώρο. 65

86 Εικόνα 2.9 : Απεικόνιση σε δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής στην q -σφαίρα με q<1. Είναι εμφανές ότι πλέον, μεγαλύτερο μέρος του χώρου -από την περίπτωση της 1σφαίρας- καλύπτεται από την κόκκινη και την πράσινη περιοχή, τα σημεία των οποίων προβάλλονται σε μία αραιή λύση αφού αντιστοιχούν σε κορυφές της σφαίρας ενώ πάλι τα σημεία που προβάλλονται στην μπλε κουκκίδα, η οποία αντιστοιχεί σε μία πυκνή λύση του προβλήματος, αποτελούν απλά μία γραμμή στον δισδιάστατο χώρο. Το μειονέκτημα της επιλογής της q-νόρμα με σαν κριτήριο αραιότητας είναι ότι οι συναρτήσεις που προκύπτουν από μια τέτοια επιλογή δεν είναι κυρτές και άρα στα αντίστοιχα προβλήματα βελτιστοποίησης τα τοπικά ακρότατα δεν είναι σίγουρα και ολικά. Έτσι, σε αυτή την περίπτωση, είτε αναζητείται ένα τοπικό ακρότατο κοντά σε ένα καλό σημείο εκκίνησης (δηλ. χρειάζεται σωστή επιλογή του σημείου εκκίνησης) είτε χρησιμοποιείται ένας εξειδικευμένος αλγόριθμος για την εύρεση ενός ολικού ακρότατου (δηλ. απαιτείται πιο σύνθετο πρόγραμμα). Η ενίσχυση της αραιότητας με την q-νόρμα, καθώς το q μειώνεται από την μονάδα μέχρι πολύ μικρές θετικές τιμές, δηλ., είναι λογική αφού οι κορυφές στα άκρα της σφαίρας γίνονται εντονότερες και άρα ενθαρρύνονται οι αραιές λύσεις. Το όριο για είναι η 0-νόρμα, η οποία υποδεικνύει την αραιότερη λύση (δηλ. αποτελεί το πιο ορθό κριτήριο αραιότητας), αλλά το πρόβλημα πλέον επιδέχεται μόνο προσεγγιστικές λύσεις. Επίσης, διαισθητικά φαίνεται ότι οποιαδήποτε επιλογή του q μεγαλύτερη της μονάδας θα επέφερε χειρότερα αποτελέσματα, όπως έγινε και με την χρήση της 2-νόρμας. Αυτό συμβαίνει διότι οποιαδήποτε q-νόρμα με έχει την τάση να εξαφανίζει τις έντονες κορυφές της σφαίρας και άρα να μην είναι πιθανή μία αραιή λύση στο πρόβλημα. 66

87 Για την αντιμετώπιση των προβλημάτων αστάθειας που πολλές φορές παρουσιάζουν οι εκτιμητές Lasso, δηλ. οι μέθοδοι που χρησιμοποιούν την 1νόρμας σαν περιορισμό αραιότητας στο πρόβλημα της αραιής αναπαράστασης, έχει προταθεί σαν παράγοντας κανονικοποίησης (regularization) στο πρόβλημα ελαχιστοποίησης να χρησιμοποιείται το άθροισμα της 1-νόρμας και της 2-νόρμας. Έτσι, το πρόβλημα λαμβάνει την μορφή και ονομάζεται elastic-net. Ακολουθώντας την ίδια ακριβώς λογική με προηγουμένως, στην επόμενη εικόνα παρουσιάζεται η απεικόνιση στις δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής στην elastic-net σφαίρα. Εικόνα 2.10 : Απεικόνιση σε δύο διαστάσεις της επίδρασης της ευκλείδειας προβολής στην elastic-net σφαίρα Παρατηρείται ότι ο χώρος που καλύπτεται από την κόκκινη και την πράσινη περιοχή, τα σημεία των οποίων προβάλλονται σε μία αραιή λύση αφού αντιστοιχούν σε κορυφές της σφαίρας, είναι μικρότερος σε σύγκριση με την 1σφαίρα ενώ τα σημεία που προβάλλονται στην μπλε κουκκίδα, η οποία αντιστοιχεί σε μία πυκνή λύση του προβλήματος, αποτελούν απλά μία γραμμή στον δισδιάστατο χώρο. Άρα, η χρήση της μεθόδου elastic-net έχει μικρότερη επίδραση στην αραιότητα της λύσης σε σχέση με την 1-νόρμα, δηλ. είναι λιγότερο επιθετική μέθοδος, αλλά δεν εμφανίζει προβλήματα αστάθειας. (Οι εικόνες προέρχονται από : [Mairal 2015]) 67

88 68

89 Κεφάλαιο 3 : Βαθιά Αραιή Κωδικοποίηση (Deep Sparse Coding) 3.1 Η τοπολογία Deep Sparse Coding : Η αρχιτεκτονική Bag-of-Visual-words : Μία κλασσική προσέγγιση για την αναγνώριση αντικειμένων στο πεδίο της Μηχανικής Μάθησης (ή Εκμάθησης) αποτελεί η αρχιτεκτονική που ονομάζεται Bagof-Visual-words (BoV). Η αρχιτεκτονική Bag-of-Visual-words αποτελείται από μια σειρά σταδίων με σκοπό την εξαγωγή χαρακτηριστικών των δεδομένων και την επιτυχή αναγνώρισή τους. Η BoV περιλαμβάνει μία αλληλουχία διεργασιών, όπου το αποτέλεσμα της προηγούμενης διεργασίας είναι είσοδος στην επόμενη. Έτσι, στα δεδομένα εισόδου υπολογίζονται τοπικοί περιγραφείς, οι οποίοι χρησιμοποιούνται για την εκμάθηση μίας αναπαράστασης των δεδομένων (συνήθως την εκμάθηση ενός λεξικού και μέσω αυτού την κωδικοποίηση των δεδομένων) και στην συνέχεια υλοποιείται μία χωρική πυραμιδική συγκέντρωση στις κωδικοποιήσεις των δεδομένων για την εξαγωγή του τελικού χαρακτηριστικού διανύσματος, το οποίο θα εισαχθεί σε έναν ταξινομητή. Στην περίπτωση ταξινόμησης εικόνων, στο πρώτο στάδιο της BoV αρχικά εξάγονται κομμάτια (patches) της εικόνας -τα οποία μπορεί να είναι επικαλυπτόμενα (overlapped) ή όχι- με καθορισμένες διαστάσεις και σταθερή απόσταση μεταξύ των κέντρων δύο γειτονικών patches και στη συνέχεια, για κάθε patch της εικόνας υπολογίζεται ένας D-διαστάσεων περιγραφέας (handcrafted descriptor). Με βάση τους περιγραφείς των εικόνων (οι οποίοι ουσιαστικά είναι διανύσματα χαρακτηριστικών) πραγματοποιείται η εκμάθηση ενός λεξικού αναπαράστασης, το οποίο χρησιμοποιείται για την κωδικοποίηση των δεδομένων. Έπειτα, δεδομένου των αναπαραστάσεων (δηλ. των κωδικοποιημένων δεδομένων), εφαρμόζεται μία χωρική πυραμιδική συγκέντρωση (spatial pyramid pooling) των αναπαραστάσεων της κάθε εικόνας για να προκύψει ένα χαρακτηριστικό διάνυσμα, που θα αντιστοιχεί στην εικόνα. Αυτό υλοποιείται συλλέγοντας αναπαραστάσεις από ιεραρχικές γειτονιές της εικόνας και σε κάθε σύνολο αναπαραστάσεων εκτελείται μία διεργασία συγκέντρωσης (pooling operation) των διανυσμάτων των χαρακτηριστικών έτσι ώστε να ενσωματωθεί η πληροφορία από μία γειτονιά σε ένα μόνο διάνυσμα χαρακτηριστικών. Συνήθως η διεργασία συγκέντρωσης είναι είτε ο υπολογισμός της μέσης τιμής των διανυσμάτων που αντιστοιχούν σε μία γειτονιά 69

90 (περιοχή) της εικόνας (average pooling operation) είτε η εύρεση της μέγιστης τιμής των διανυσμάτων που έχουν προκύψει από μία περιοχή της εικόνας (max pooling operation) αλλά μπορεί να χρησιμοποιηθεί και οποιαδήποτε άλλη συνάρτηση. Με τη διαδικασία της χωρικής πυραμιδικής συγκέντρωσης (spatial pyramid pooling) εισάγεται η χωρική πληροφορία στο τελικό διάνυσμα χαρακτηριστικών, η οποία δεν υπάρχει εγγενώς στα διανύσματα κωδικοποίησης, και είναι σημαντική διότι αποκαλύπτει τοπικά χαρακτηριστικά σε μία γειτονιά της εικόνας. Το τελικό διάνυσμα χαρακτηριστικών της κάθε εικόνας δημιουργείται από την ένωση όλων των διανυσμάτων που προκύπτουν από την διεργασία συγκέντρωσης σε κάθε περιοχή της εικόνας. Έτσι, η σύγκριση εικόνων μέσω των αποστάσεων των χαρακτηριστικών διανυσμάτων τους περιέχει άμεσα και χωρική πληροφορία πλέον, αφού ο τρόπος υπολογισμού των γειτονιών είναι κοινός για όλες τις εικόνες της κάθε βάσης δεδομένων και άρα, κάθε τμήμα του χαρακτηριστικού διανύσματος αντιστοιχεί σε διαφορετική περιοχή των εικόνων. Επομένως, η χρήση της χωρικής πυραμιδικής συγκέντρωσης σε προβλήματα αναγνώρισης εικόνων οδηγεί σε ενίσχυση της διακριτότητας των χαρακτηριστικών διανυσμάτων που εισάγονται στον ταξινομητή. Ο ταξινομητής, αφού εκπαιδευτεί με τα χαρακτηριστικά διανύσματα των εικόνων εκμάθησης (επισημασμένες εικόνες), έπειτα πραγματοποιεί την ταξινόμηση των άγνωστων (μη επισημασμένων) εικόνων σε κάθε κατηγορία. Στην παρούσα εργασία, το δεύτερο στάδιο (στάδιο εκμάθησης λεξικού και κωδικοποίησης σημάτων) της BoV είναι η αραιή αναπαράσταση (Sparse Representation). Η αραιή αναπαράσταση αποτελεί μία μη-εποπτευόμενη (unsupervised) μέθοδο μάθησης και επομένως δεν χρειάζεται επισημασμένα δεδομένα (δηλ. που φέρουν ετικέτα και άρα για κάθε εικόνα να είναι γνωστή η κλάση που ανήκει). Αυτό συμβαίνει διότι κατά τη διαδικασία εκμάθησης του λεξικού αραιής αναπαράστασης μπορούν να χρησιμοποιηθούν οποιαδήποτε διανύσματα έχουν προκύψει από τις εικόνες της βάσης δεδομένων ως διανύσματα εκμάθησης, χωρίς να απαιτείται η γνώση της κατηγορίας που ανήκει η εικόνα από την οποία προέρχονται. Σημειώνεται εδώ ότι η αραιή κωδικοποίηση (Sparse Coding) δεν εμπεριέχει την έννοια της μάθησης (δηλ. η μάθηση ολοκληρώνεται με τον σχηματισμό του λεξικού) αφού οι συντελεστές αραιής αναπαράστασης υπολογίζονται με μία συγκεκριμένη διαδικασία που καθορίζεται από την μέθοδο κωδικοποίησης -που έχει επιλεγεί- και εκτελείται με βάση το γνωστό πλέον λεξικό. Συνεπώς, αν ένα σήμα κωδικοποιηθεί ξανά με την ίδια μέθοδο, τις ίδιες προδιαγραφές και το ίδιο λεξικό θα προκύπτει πάντα το ίδιο σύνολο συντελεστών. Φυσικά ούτε κατά τη διαδικασία της αραιής κωδικοποίησης απαιτείται η γνώση της κατηγορίας που ανήκει η εικόνα από την οποία προέρχονται τα διανύσματα που πρόκειται να κωδικοποιηθούν (δηλ. να υπολογιστούν οι συντελεστές αραιής αναπαράστασής τους). Επομένως, αφού οι ετικέτες (δηλ. η γνώση των κατηγοριών που ανήκουν οι εικόνες) των εικόνων εκμάθησης δεν χρειάζονται μέχρι και το τελικό 70

91 στάδιο του ταξινομητή (ο ταξινομητής απαιτεί τη γνώση της κατηγορίας που ανήκει η κάθε εικόνα εκμάθησης ώστε να γνωρίζει σε ποια κατηγορία ανήκει το κάθε χαρακτηριστικό διάνυσμα της κάθε εικόνας εκμάθησης και έτσι να καταφέρει να σχεδιάσει το κατάλληλο μοντέλο που θα χρησιμοποιηθεί για την ταξινόμηση των άγνωστων εικόνων σε κάθε κατηγορία) τότε η όλη διαδικασία εξαγωγής χαρακτηριστικών της τεχνικής BoV με αραιή αναπαράσταση θεωρείται μία μηεποπτευόμενη (unsupervised) μέθοδος Η αρχιτεκτονική deep learning : Μία άλλη προσέγγιση για την αναγνώριση αντικειμένων στο πεδίο της Μηχανικής Μάθησης (ή Εκμάθησης), η οποία είναι ευρέως διαδεδομένη στις μέρες μας, αποτελεί η αρχιτεκτονική που ονομάζεται deep Learning (βαθιά μάθηση). Οι deep Learning (βαθιάς μάθησης) τεχνικές έχουν ως στόχο την εξαγωγή ιεραρχικών χαρακτηριστικών από τα δεδομένα και συνήθως αποτελούνται από διαδοχικές μονάδες εξαγωγής χαρακτηριστικών, όπου το αποτέλεσμα της προηγούμενης διεργασίας είναι είσοδος στην επόμενη [Bengio 2012]. Οι πρώτες υλοποιήσεις σε αυτό το πεδίο έρευνας θεωρούνται τα Convolutional Neural Networks [LeCun 1998] και τα Deep Belief Networks [Hinton 2006]. Η ιεραρχική δομή των νευρικών συστημάτων των έμβιων οργανισμών αποτέλεσε την έμπνευση για την ανάπτυξη των αρχιτεκτονικών βαθιάς (deep) μάθησης για την εκμάθησης χαρακτηριστικών μέσω πολλαπλών επιπέδων (multi-layer) μονάδων εκμάθησης. Έτσι, στη βαθιά (deep) αρχιτεκτονική τοποθετούνται πολλά επίπεδα (layers) από μονάδες εκμάθησης χαρακτηριστικών, το ένα μετά το άλλο, έτσι ώστε κάθε επίπεδο να χρησιμοποιεί την αναπαράσταση που παράχθηκε από το προηγούμενο επίπεδο και να παράγει μία νέα αναπαράσταση που θα τροφοδοτήσει το επόμενο επίπεδο. Με αυτό τον τρόπο, η βαθιά (deep) αρχιτεκτονική ευελπιστεί να ανακαλύψει ιεραρχικές αναπαραστάσεις των δεδομένων, δηλ. καθίσταται δυνατή η παραγωγή χαρακτηριστικών από κάθε επίπεδο χρησιμοποιώντας τα χαρακτηριστικά του προηγούμενου επιπέδου. Επομένως, κάθε επίπεδο της βαθιάς (deep) αρχιτεκτονικής κωδικοποιεί χαρακτηριστικά σε διαφορετική βαθμίδα της όλης διαδικασίας εκμάθησης και έτσι τα χαρακτηριστικά υψηλής τάξης (high-level) από τα βαθύτερα (υψηλότερα) επίπεδα (layers) αποτελούν σύνθεση των χαρακτηριστικών μεσαίας (mid-level) και χαμηλής (low-level) τάξης από τα χαμηλότερα (αρχικά) επίπεδα της τοπολογίας. Επίσης, σε ένα σύστημα βαθιάς (deep) μάθησης τα δεδομένα μεταχειρίζονται σε πολλαπλά επίπεδα, δηλ. αναλύονται από πολλαπλές σκοπιές και όχι μόνο από μία πλευρά όπως σε ένα απλό σύστημα ενός επιπέδου. Τελικά, η ιεραρχική προσέγγιση μέσω των πολλαπλών επιπέδων στα συστήματα βαθιάς (deep) μάθησης έχει σαν αποτέλεσμα τα συστήματα να μαθαίνουν πολύπλοκες έννοιες μέσα από την σύνθεση απλούστερων και με αυτό τον τρόπο να επιτυγχάνουν αποδοτικότερες αναπαραστάσεις των δεδομένων ανακαλύπτοντας τα ενδόμυχα χαρακτηριστικά τους. 71

92 3.1.3 Η αρχιτεκτονική Deep Sparse Coding σαν συνδυασμός Bag-ofVisual-words και deep learning : Ο συνδυασμός της αρχιτεκτονικής Bag-of-Visual-words, που έχει αποδειχτεί πολύ καλή επιλογή για προβλήματα ταξινόμησης εικόνων σε διάφορες βάσεις δεδομένων [Chatfield 2011], και της αρχιτεκτονικής deep Learning, που πλέον χρησιμοποιείται ευρέως σε διάφορες εφαρμογές λόγω της εξαιρετικής της απόδοσης σε προβλήματα αναγνώρισης εικόνων [Bengio 2012], αποτελεί μία ενδιαφέρουσα και ελπιδοφόρα προσέγγιση για τον σχεδιασμό ενός συστήματος για την οπτική αναγνώριση αντικειμένων. Έτσι, στην παρούσα εργασία, η σύνθεση της αρχιτεκτονικής Bag-of-Visual-words και της αρχιτεκτονικής deep Learning οδηγεί στην ανάπτυξη μίας αρχιτεκτονικής μη-εποπτευόμενης μάθησης χαρακτηριστικών, που ονομάζεται Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση) [He 2014]. Η τοπολογία Deep Sparse Coding επεκτείνει την αραιή αναπαράσταση των εικόνων σε πολλαπλά επίπεδα έτσι ώστε να μπορεί να ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που εξάγει από τα δεδομένα. Η βασική καινοτομία της τοπολογίας Deep Sparse Coding είναι ότι τα πολλαπλά επίπεδα αραιής αναπαράστασης συνδέονται μεταξύ τους μέσω μίας μονάδας, που συγκροτείται από μία συνάρτηση μη-γραμμικής συγκέντρωσης (pooling) και μία διαδικασία ελάττωσης διάστασης. Σε αντίθεση με την τοπολογία αραιής αναπαράστασης ενός επιπέδου, που από τα patches της εικόνας υπολογίζονται τοπικοί περιγραφείς και στη συνέχεια κωδικοποιούνται, η τοπολογία Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση) εξάγει ιεραρχικά χαρακτηριστικά από πολλαπλά επίπεδα και άρα μεταβαίνοντας από το ένα επίπεδο στο επόμενο ενσωματώνει πληροφορίες των δεδομένων από διαφορετικές χωρικές περιοχές της εικόνας. Έτσι, οι αραιές αναπαραστάσεις σε κάθε επίπεδο διατηρούν την χωρική ομαλότητα μεταξύ των patches της εικόνας και οι αραιές αναπαραστάσεις από διαφορετικά επίπεδα αντιστοιχούν σε διαφορετικές χωρικές περιοχές της εικόνας, που έχουν προκύψει από την διαδοχή των πληροφοριών στα επίπεδα της τοπολογίας. Με αυτό τον τρόπο, το σύστημα αναπτύσσει ένα είδος ιεραρχικής μάθησης από το ένα επίπεδο στο επόμενο, όπου τα υψηλής τάξης χαρακτηριστικά αποτελούν σύνθεση απλούστερων χαρακτηριστικών χαμηλότερης τάξης. Συνεπώς, η μέθοδος Βαθιάς Αραιής Κωδικοποίησης επιτυγχάνει πιο σύνθετες αναπαραστάσεις των δεδομένων, δηλ. ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που εξάγει, και έτσι έχει καλύτερη απόδοση σε προβλήματα αναγνώρισης αντικειμένων [He 2014]. Επίσης, σε αντίθεση με τις τεχνικές deep Learning, που η διαδικασία εκμάθησης των χαρακτηριστικών γίνεται αυτόματα μέσα από την διαδοχή των επιπέδων (layers) της τοπολογίας τροφοδοτώντας απλά τις εικόνες (raw pixels) στην είσοδο της τοπολογίας, η μέθοδος Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση) επωφελείται λόγω του σταδίου υπολογισμού των τοπικών περιγραφέων 72

93 (automatically learning features σε deep Learning έναντι hand-crafted features σε BoV). Στις περισσότερες περιπτώσεις οι λύσεις που βασίζονται στη βαθιά μάθηση στερούν σε μαθηματική κομψότητα και για αυτό το λόγο έχουν μικρή προσφορά στην ερμηνεία της λύσης που βρέθηκε ή στην κατανόηση των υποβοσκόντων φαινομένων, σε αντιδιαστολή με τις μεθόδους υπολογισμού τοπικών περιγραφέων και τις διεργασίες κωδικοποίησης που για την εύρεση της λύσης ενός προβλήματος βελτιστοποίησης κατά κανόνα στηρίζονται σε αποδεδειγμένες μαθηματικές θεωρίες με σαφή δομή [Ellad 2017]. Τέλος, σε αντίθεση με κάποιες τεχνικές deep Learning, όπως τα Convolutional Neural Networks [LeCun 1998], που για την εκμάθηση των βαρών των συντελεστών σε κάθε επίπεδο απαιτείται μία εποπτευόμενη απ άκρη σ άκρη (supervised end-to-end training) εκπαίδευση του δικτύου, η τοπολογία Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση) εκπαιδεύεται ανά επίπεδο με μηεποπτευόμενη μέθοδο (unsupervised layer-wise training). Αυτό επιτυγχάνεται διότι τόσο κάθε επίπεδο αραιής αναπαράστασης όσο και οι μονάδες σύνδεσης των επιπέδων μεταξύ τους μπορούν να διατυπωθούν σαν ρητά ανεξάρτητα προβλήματα βελτιστοποίησης. Έτσι, κάθε επίπεδο της τοπολογίας αντιστοιχεί σε ένα ανεξάρτητο πρόβλημα αραιής αναπαράστασης, δηλ. σε κάθε επίπεδο το λεξικό αραιής αναπαράστασης προκύπτει από μια διαδικασία εκμάθησης με βάση τα δεδομένα εισόδου στο συγκεκριμένο επίπεδο και οι συντελεστές αραιής αναπαράστασης -που προκύπτουν από τη διαδικασία κωδικοποίησης- αποτελούν την έξοδο αυτού του επιπέδου. Με αυτό τον τρόπο η εκμάθηση λεξικού και η αραιή κωδικοποίηση σε κάθε επίπεδο είναι ανεξάρτητη και δεν επηρεάζεται από τα υπόλοιπα επίπεδα αραιής αναπαράστασης της τοπολογίας. Επίσης, τόσο οι παράμετροι που ρυθμίζουν την αραιή αναπαράσταση όσο και οι παράμετροι που ρυθμίζουν τις μονάδες σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης στην τοπολογία Deep Sparse Coding καθορίζονται ξεχωριστά σε κάθε θέση της τοπολογίας με κριτήριο την καλύτερη απόδοση του συστήματος (greedy layer-wise parameters selection). Επομένως, η αρχιτεκτονική Deep Sparse Coding αποτελεί μία μέθοδο μηεποπτευόμενης μάθησης χαρακτηριστικών που μπορεί να εκπαιδευτεί με άπληστο τρόπο (greedy) με ένα επίπεδο (layer) τη φορά, και όχι να βελτιστοποιηθούν όλα τα επίπεδα αραιής αναπαράστασης μαζί, κάτι που είναι δύσκολο και πολύ δαπανηρό υπολογιστικά (ειδικά αν είναι αρκετά βαθιά η τοπολογία Deep Sparse Coding). Άρα, προσθέτοντας ένα επίπεδο αραιής αναπαράστασης στην τοπολογία (δηλ. κάνοντάς την πιο βαθιά κατά ένα επίπεδο), αυτό τροφοδοτείται από τα δεδομένα που έχουν υπολογιστεί μέχρι τότε και βελτιστοποιείται μεμονωμένα και ανεξάρτητα χωρίς να μεταβληθούν τα προηγούμενα επίπεδα. Με αυτό τον τρόπο η τοπολογία είναι ευέλικτη και απλή υπολογιστικά, αφού το μόνο επιπρόσθετο κόστος για την προσθήκη ενός επιπλέον επιπέδου είναι το υπολογιστικό κόστος για την εκτέλεση της μονάδας σύνδεσης και φυσικά το κόστος της διαδικασίας αραιής αναπαράστασης. 73

94 3.1.4 Περιγραφή της τοπολογίας Deep Sparse Coding : i Εισαγωγή στην αρχιτεκτονική πολλαπλών επιπέδων Deep Sparse Coding : Ο σχεδιασμός μιας βαθιάς (deep) αρχιτεκτονικής βασισμένης στην αραιή κωδικοποίηση (sparse coding), δηλ. μίας αρχιτεκτονικής πολλαπλών επιπέδων αραιής αναπαράστασης, πρέπει να λάβει υπόψη δύο ζητήματα ώστε να καταστεί δυνατό το σύστημα να ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που εξάγει από τα δεδομένα και έτσι να έχει καλή απόδοση στην αναγνώριση αντικειμένων. Στο επόμενο εδάφιο επιχειρείται η τεκμηρίωση γιατί η διαδοχική τοποθέτηση μονάδων αραιής αναπαράστασης, η μία μετά την άλλη χωρίς κάποια μονάδα σύνδεσης μεταξύ τους, είναι αναποτελεσματική και δεν οδηγεί σε καλά αποτελέσματα. Πρώτον, για την ενσωμάτωση ιεραρχικών πληροφοριών στα χαρακτηριστικά των δεδομένων πρέπει τα χαρακτηριστικά ανώτερης τάξης ενός υψηλότερου (βαθύτερου) επιπέδου να αποτελούν σύνθεση των απλούστερων χαρακτηριστικών χαμηλότερου επιπέδου. Ένα από τα κύρια μειονεκτήματα της ενός επιπέδου αρχιτεκτονικής BoV με αραιή αναπαράσταση είναι ότι τα patches κωδικοποιούνται ανεξάρτητα μεταξύ τους, δηλ. αγνοώντας τη χωρική δομή των γειτονιών της εικόνας. Άρα, σε μία τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης είναι σημαντικό να χρησιμοποιηθεί η χωρική πληροφορία των patches της εικόνας για την επίτευξη της ιεραρχικής μάθησης από το ένα επίπεδο αραιής αναπαράστασης στο επόμενο, έτσι ώστε τα πιο σύνθετα χαρακτηριστικά (που σχηματίζονται στα υψηλότερα (βαθύτερα) επίπεδα της τοπολογίας) να προκύπτουν σαν συνδυασμός απλούστερων χαρακτηριστικών (που υπολογίζονται στα χαμηλότερα επίπεδα) [He 2014]. Επομένως, είναι δύσκολο να επιτευχθεί η εκμάθηση χρήσιμων ιεραρχικών χαρακτηριστικών απλώς τοποθετώντας μονάδες αραιής αναπαράστασης την μία μετά την άλλη (χωρίς κάποια μονάδα σύνδεσης μεταξύ τους). Επίσης, η ιδέα χρησιμοποίησης διαδοχικών μονάδων αραιής αναπαράστασης, έτσι ώστε η έξοδος της προηγούμενης να αποτελεί κατευθείαν είσοδο στην επόμενη, δεν είναι αποτελεσματική διότι παραβιάζεται η βασική υπόθεση της αραιής αναπαράστασης που ορίζει ότι τα δεδομένα που πρόκειται να κωδικοποιηθούν πρέπει να έχουν μία πυκνή αναπαράσταση, δηλ. να μην είναι αραιά διανύσματα [Gwon 2016]. Δεύτερον, η αραιή κωδικοποίηση δεν διαθέτει το χαρακτηριστικό της ομαλότητας (smoothness), πράγμα που σημαίνει ότι μία μικρή μεταβολή στο διάνυσμα που πρόκειται να κωδικοποιηθεί ενδέχεται να οδηγήσει σε πολύ διαφορετική αραιή αναπαράσταση, δηλ. μια μικρή μετατόπιση στον αρχικό χώρο χαμηλής διάστασης μπορεί να επιφέρει μεγάλη μεταβολή στον υψηλής διάστασης χώρο των αραιών σημάτων ([Wang 2010],[Gao 2010]). Στην περίπτωση που το λεξικό αραιής αναπαράστασης προκύπτει μέσω μιας διαδικασίας εκμάθησης από 74

95 τα δεδομένα, τα άτομα του λεξικού καταλαμβάνοντας τις ακτινικές διευθύνσεις που ταιριάζουν καλύτερα στα δεδομένα και συνήθως (τα άτομα) έχουν μεγάλη συσχέτιση μεταξύ τους. Το χαρακτηριστικό της υπερπληρότητας του λεξικού σε συνδυασμό με την μεγάλη συσχέτιση των ατόμων έχει σαν συνέπεια παρόμοια σήματα να φέρουν διαφορετικούς συντελεστές μετά την αραιή κωδικοποίηση, διότι επιλέγονται τα άτομα που ταιριάζουν καλύτερα στο κάθε σήμα ώστε να εκπληρώνεται το κριτήριο αραιότητας και το μικρό σφάλμα ανακατασκευής. Έτσι, για παράδειγμα αν δύο patches με μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, και άρα που κατά πάσα πιθανότητα αντιστοιχούν στο ίδιο αντικείμενο στην εικόνα, έχουν παρόμοιους τοπικούς περιγραφείς τότε οι αντίστοιχες αραιές αναπαραστάσεις τους δύναται να είναι πολύ διαφορετικές. Επομένως, αν εφαρμοστεί μία άλλη διαδικασία αραιής κωδικοποίησης σε αυτές τις δύο αραιές αναπαραστάσεις (των αλληλεπικαλυπτόμενων patches) τότε θα χαθεί οποιαδήποτε συνάφεια υπήρχε μεταξύ τους στο στάδιο υπολογισμού των τοπικών περιγραφέων. Άρα, η τοποθέτηση μονάδων αραιής αναπαράστασης διαδοχικά την μία μετά την άλλη (χωρίς κάποια μονάδα σύνδεσης μεταξύ τους) το μόνο που επιφέρει είναι η διαστατικότητα των χαρακτηριστικών διανυσμάτων να αυξάνεται χωρίς όμως να προστίθενται νέες πληροφορίες στο διάνυσμα, δηλ. χωρίς να ενισχύεται η διακριτότητα του διανύσματος. Για την αντιμετώπιση του προβλήματος της μη-ομαλότητας της αραιής κωδικοποίησης έχουν προταθεί διάφορες μέθοδοι, όπως Locality-constrained Linear Coding (LLC) [Wang 2010], Laplacian Sparse Coding [Gao 2010] και smooth Sparse Coding [Balasubramanian 2013], οι οποίες επιχειρούν να ενσωματώνουν το πρόβλημα της μη-ομαλότητας στο στάδιο της κωδικοποίησης, δηλ. επιβάλλουν επιπλέον περιορισμούς ομαλότητας στο πρόβλημα βελτιστοποίησης της αραιής αναπαράστασης. Έτσι, οι τρεις αυτές μέθοδοι εστιάζουν στην βελτίωση του σταδίου της κωδικοποίησης της BoV αρχιτεκτονικής για την ενσωμάτωση του χαρακτηριστικού της ομαλότητας στην αναπαράσταση και για αυτό το λόγο δεν γίνεται να επεκταθούν σε μία πολλαπλών επιπέδων τοπολογία, η οποία μπορεί να επιτύχει ιεραρχική εκμάθηση χαρακτηριστικών από τα δεδομένα. Η πολλαπλών επιπέδων αρχιτεκτονική αραιής αναπαράστασης έχει προταθεί κυρίως μέσα από δύο εργασίες, όπου η σύνδεση των επιπέδων αραιής αναπαράστασης πραγματοποιείται μέσω μίας μη-γραμμικής διεργασίας συγκέντρωσης (non-linear pooling operation), που λειτουργεί σαν τη μη-γραμμική ενεργοποίηση στα νευρωνικά δίκτυα [Lippman 1987]. Η πρώτη τοπολογία ονομάζεται Hierarchical Sparse Coding [Yu 2011] και διαθέτει δύο επίπεδα αραιής αναπαράστασης, τα οποία βελτιστοποιούνται μαζί, δηλ. το πρόβλημα εκμάθησης του κάθε λεξικού δεν είναι ανεξάρτητο από το άλλο αλλά και τα δύο ενσωματώνονται σε ένα πρόβλημα ελαχιστοποίησης. Έτσι, τα δύο λεξικά αραιής αναπαράστασης σχηματίζονται ταυτόχρονα μέσα από μια διαδικασία εκμάθησης. Το πρώτο επίπεδο κωδικοποιεί μεμονωμένα patches της εικόνας και το δεύτερο 75

96 επίπεδο κωδικοποιεί μαζί τα patches που ανήκουν σε μία ομάδα (μία περιοχή της εικόνας). Άρα, επειδή τα μεμονωμένα patches της ίδιας ομάδας κωδικοποιούνται από κοινού, το πρώτο επίπεδο οδηγεί σε μία πιο αμετάβλητη αραιή αναπαράσταση σε σχέση με την τυπική αραιή αναπαράσταση και το δεύτερο επίπεδο, όπου τα άτομα του δεύτερου λεξικού μοντελοποιούν άμεσα τη στατιστική εξάρτηση των ατόμων του πρώτου λεξικού, επιτυγχάνει την κωδικοποίηση πολύπλοκων οπτικών μοτίβων. Τελικά, το σύνθετο πρόβλημα βελτιστοποίησης των δύο λεξικών είναι κυρτό και για τα δύο επίπεδα μαζί και επιλύεται με σχετικά μικρό υπολογιστικό κόστος. Το βασικό πρόβλημα αυτής της μεθόδου είναι η πολύ δύσκολη επέκταση της τοπολογίας σε περισσότερα από δύο επίπεδα, διότι το πρόβλημα βελτιστοποίησης για την εκμάθηση όλων των λεξικών -από όλα τα επίπεδα- μαζί γίνεται δύσκολο και πολύ δαπανηρό υπολογιστικά να επιλυθεί. Επίσης, αυξάνεται δραματικά η διασταστικότητα των αραιών αναπαραστάσεων, κάτι που δυσκολεύει την ταξινόμηση λόγω του φαινομένου της διασταστικότητας (curse of dimensionality), αφού όσο αυξάνονται τα επίπεδα τόσο μεγαλύτερη είναι η διάσταση (πλήθος ατόμων) του λεξικού που χρειάζεται ένα βαθύτερο επίπεδο για να κωδικοποιήσει τα δεδομένα από το προηγούμενο επίπεδο. Έτσι, η διάσταση των διανυσμάτων μεγαλώνει έντονα σε κάθε επίπεδο κωδικοποίησης αφού η μονάδα σύνδεσης εκτελεί μη-γραμμική συγκέντρωση (pooling) σε ομάδες διανυσμάτων και άρα δεν μεταβάλλει την διάσταση των διανυσμάτων που τροφοδοτούν το επόμενο επίπεδο αραιής αναπαράστασης. Η δεύτερη τοπολογία ονομάζεται Deep Sparsecoded Network (DSN) [Gwon 2016] και διαθέτει δύο επίπεδα αραιής αναπαράστασης, τα οποία είναι ανεξάρτητα μεταξύ τους και συνδέονται μέσω μίας μονάδας συγκέντρωσης (pooling), ενώ χρησιμοποιείται και μία διαδικασία backpropagation για την ρύθμιση (finetune) των παραμέτρων της τοπολογίας πέρα από την άπληστη ανά επίπεδο εκπαίδευση (greedy layer-wise training). Η χρήση της backpropagation διαδικασίας (εμπνευσμένης από τις αρχιτεκτονικές βαθιάς μάθησης) λειτουργεί σαν μία «διόρθωση» στην ήδη εκτελεσμένη αραιή αναπαράσταση (δηλ. εκμάθηση λεξικού και κωδικοποίηση) σε κάθε επίπεδο ξεχωριστά και έχει σαν αποτέλεσμα να συνδυάζεται η μη-εποπτευόμενη ανά επίπεδο εκπαίδευση με την εποπτευόμενη απ άκρη σ άκρη εκπαίδευση. Με αυτό τον τρόπο, τα χαρακτηριστικά διανύσματα που προκύπτουν από κάθε επίπεδο αραιής κωδικοποίησης διαθέτουν καλύτερη διακρισιμότητα ώστε να είναι κατάλληλα για προβλήματα ταξινόμησης. Βέβαια, και σε αυτή την μέθοδο, το πρόβλημα είναι η πολύ δύσκολη επέκταση της τοπολογίας σε περισσότερα από δύο επίπεδα, τόσο εξαιτίας της συγκεκριμένης απλοϊκής διαδικασίας backpropagation -που θα γίνει υπερβολικά πολύπλοκη και ίσως και μη αποδοτική για πολλά επίπεδα- όσο και λόγω της ραγδαίας αύξησης της διασταστικότητας των αραιών αναπαραστάσεων όσο προστίθενται περισσότερα επίπεδα. Τελικά, οι δύο αυτές μέθοδοι μοιράζονται πολλά κοινά σημεία και για αυτό το λόγο επιλέχθηκε να περιγραφούν μαζί, αν και η μέθοδος Hierarchical Sparse Coding [Yu 2011] 76

97 υλοποιήθηκε πριν την εμφάνιση της μεθόδου Deep Sparse Coding [He 2014] (που απασχολεί την παρούσα εργασία) ενώ η μέθοδος Deep Sparse-coded Network (DSN) [Gwon 2016] παρουσιάστηκε λίγο αργότερα. Η μέθοδος Deep Sparse Coding (DSC) αποτελεί μία τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης, στην οποία τα επίπεδα αραιής αναπαράστασης συνδέονται μεταξύ τους μέσω μονάδων που μετατρέπουν τις αραιές κωδικοποιήσεις, οι οποίες έχουν προκύψει από το προηγούμενο επίπεδο, σε πυκνές αναπαραστάσεις, οι οποίες θα τροφοδοτήσουν το επόμενο επίπεδο. Η μονάδα σύνδεσης επιπέδων αραιής αναπαράστασης συγκροτείται από μία μη-γραμμική συγκέντρωση (pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και μία διαδικασία ελάττωσης διάστασης για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η διαδικασία ελάττωσης διάστασης πραγματοποιείται λαμβάνοντας υπόψη τη χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας. Έτσι, η μέθοδος Deep Sparse Coding διαφέρει από τις προηγούμενες ενός επιπέδου μεθόδους (Localityconstrained Linear Coding (LLC) [Wang 2010], Laplacian Sparse Coding [Gao 2010] και smooth Sparse Coding [Balasubramanian 2013]), που στηρίζονται στην διατήρησης της ομαλότητας της αραιής αναπαράστασης, διότι αποτελεί μία τοπολογία με πολλαπλά επίπεδα αραιής αναπαράστασης, που συνδέονται μεταξύ τους μέσω μονάδων ελάττωσης διάστασης, η οποίες υλοποιούνται με βάση τη διατήρηση της χωρικής πληροφορίας ομαλότητας των αναπαραστάσεων. Επίσης, η μέθοδος Deep Sparse Coding διαφέρει από τις προηγούμενα αναφερθείσες δύο επιπέδων μεθόδους (Hierarchical Sparse Coding [Yu 2011], Deep Sparse-coded Network (DSN) [Gwon 2016]) διότι μπορεί εύκολα να επεκταθεί σε περισσότερα από δύο επίπεδα αραιής αναπαράστασης λόγω της διαδικασίας ελάττωσης διάστασης που πραγματοποιείται μεταξύ των επιπέδων. Άρα, η Deep Sparse Coding είναι μία αρχιτεκτονική πολλαπλών επιπέδων που διατηρεί τη χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας και επιτυγχάνει αποδοτική ιεραρχική εκμάθηση χαρακτηριστικών από τα δεδομένα μέσω της βαθιάς τοπολογίας της. 77

98 3.1.4.ii Περιγραφή των σταδίων της τοπολογίας Deep Sparse Coding : Η αρχιτεκτονική Deep Sparse Coding (DSC) αποτελεί μία τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης, στην οποία τα επίπεδα αραιής αναπαράστασης συνδέονται μεταξύ τους μέσω μονάδων που μετατρέπουν τις αραιές κωδικοποιήσεις, οι οποίες έχουν προκύψει από το προηγούμενο επίπεδο, σε πυκνές αναπαραστάσεις, οι οποίες θα τροφοδοτήσουν το επόμενο επίπεδο. Στην παρακάτω εικόνα (Εικόνα 3.1) αποτυπώνεται μία τοπολογία Deep Sparse Coding (DSC) τριών επιπέδων αραιής αναπαράστασης, όπου τα επίπεδα αραιής αναπαράστασης (SR) συνδέονται μεταξύ τους με μία μονάδα σύνδεσης που συγκροτείται από μία τοπική χωρική συγκέντρωση (LSP) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και μία διαδικασία ελάττωσης διάστασης (DR) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Σε κάθε επίπεδο αραιής αναπαράστασης, εκτός από την διάδοση των αραιών αναπαραστάσεων στην επόμενη μονάδα σύνδεσης για την συνέχιση της διαδικασίας της βαθιάς μάθησης, εκτελείται και μία διαδικασία χωρικής πυραμιδικής συγκέντρωσης (SPM) στις αραιές αναπαραστάσεις της κάθε εικόνας ώστε να εξάγεται ένα χαρακτηριστικό διάνυσμα από κάθε επίπεδο για κάθε εικόνα. Τελικά, όλα τα χαρακτηριστικά διανύσματα της κάθε εικόνας από όλα τα επίπεδα ενώνονται σειριακά μαζί σε ένα διάνυσμα ώστε να εισαχθεί στον ταξινομητή (π.χ. SVM). 78

99 Deep Sparse Coding ( DSC ) image Local Descriptors (e.g. SIFT) SR SPM LSP DR SR SPM SVM LSP DR SR SPM SIFT : Scale Invariant Feature Transform SR : Sparse Representation (Dictionary Learning & Sparse Coding) LSP : Local Spatial Pooling DR : Dimensionality Reduction (by Dimensionality Reduction Learning an Invariant Mapping (DRLIM) SPM : Spatial Pyramid Matching (a Spatial Pyramid Pooling method) SVM : Support Vector Machine (Classifier) Εικόνα 3.1 : Τοπολογία Deep Sparse Coding 3 επιπέδων αραιής αναπαράστασης 79

100 Η Deep Sparse Coding τοπολογία ακολουθεί μία πορεία όπου από τα patches της εικόνας (image) υπολογίζονται τοπικοί περιγραφείς (Local Descriptors) και στη συνέχεια κωδικοποιούνται για την απόκτηση των αραιών αναπαραστάσεων (SR) σε ένα υψηλής διάστασης χώρο, όπου υλοποιείται μία χωρική πυραμιδική συγκέντρωση (SPM) των αναπαραστάσεων για την εξαγωγή ενός τελικού χαρακτηριστικού διανύσματος, το οποίο θα εισαχθεί στον ταξινομητή (SVM). Μέχρι εδώ είναι μία χαρακτηριστική υλοποίηση της BoV αρχιτεκτονικής. Για την επέκταση της αρχιτεκτονικής σε πολλαπλά επίπεδα βαθιάς μάθησης χρησιμοποιείται η μονάδα σύνδεσης, η οποία αποτελείται από μια διαδικασία τοπικής χωρικής συγκέντρωσης (LSP) και μία διαδικασία ελάττωσης διάστασης (DR). Έτσι, οι αραιές αναπαραστάσεις συλλέγονται από τοπικές περιοχές της εικόνας και σε κάθε σύνολο αναπαραστάσεων εκτελείται μία διεργασία συγκέντρωσης (pooling operation) των αραιών διανυσμάτων έτσι ώστε να ενσωματωθεί η πληροφορία από μία γειτονιά σε ένα μόνο διάνυσμα για κάθε περιοχή. Συνήθως η διεργασία συγκέντρωσης (LSP) είναι είτε ο υπολογισμός της μέσης τιμής των διανυσμάτων που αντιστοιχούν σε μία γειτονιά (περιοχή) της εικόνας (average pooling operation) είτε η εύρεση της μέγιστης τιμής των διανυσμάτων που έχουν προκύψει από μία περιοχή της εικόνας (max pooling operation) αλλά μπορεί να χρησιμοποιηθεί και οποιαδήποτε άλλη συνάρτηση. Με τη διαδικασία της τοπικής χωρικής συγκέντρωσης (local spatial pooling) εισάγεται η χωρική πληροφορία από μία γειτονιά της εικόνας έτσι ώστε να καλύπτονται διαδοχικά όλο και μεγαλύτερες περιοχές της εικόνας. Έπειτα, οι αραιές αναπαραστάσεις -οι οποίες ανήκουν στον υψηλής διάστασης χώρο αφού η διασταστικότητα διατηρείται σταθερή κατά τη διαδικασία της τοπικής χωρικής συγκέντρωσης- μετατρέπονται σε πυκνές αναπαραστάσεις μέσω της διαδικασίας ελάττωσης διάστασης (DR), η οποία πραγματοποιείται λαμβάνοντας υπόψη τη χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας. Κατόπιν, οι πυκνές αναπαραστάσεις κωδικοποιούνται από το επόμενο επίπεδο αραιής αναπαράστασης ώστε να προκύψουν νέες αραιές αναπαραστάσεις (SR) και η όλη διαδικασία να επαναληφθεί ξανά για την μετάβαση στο επόμενο επίπεδο. Σε κάθε επίπεδο αραιής αναπαράστασης, εκτός από την διάδοση των αραιών αναπαραστάσεων στην επόμενη μονάδα σύνδεσης για την συνέχιση της διαδικασίας της βαθιάς μάθησης, εκτελείται και μία χωρική πυραμιδική συγκέντρωση (SPM) στις αραιές αναπαραστάσεις της κάθε εικόνας -ξεχωριστά από την βαθιά διαδικασία μάθησης- έτσι ώστε να εξάγεται ένα χαρακτηριστικό διάνυσμα από κάθε επίπεδο για κάθε εικόνα. Μέσω της παραπάνω διαδικασίας (SPM), το χαρακτηριστικό διάνυσμα περιέχει άμεσα χωρική πληροφορία της εικόνας αφού κάθε τμήμα του χαρακτηριστικού διανύσματος αντιστοιχεί σε διαφορετική περιοχή της εικόνας, κάτι πολύ σημαντικό για την σύγκριση χαρακτηριστικών διανυσμάτων μέσω των αποστάσεών τους. Τα χαρακτηριστικά διανύσματα της κάθε εικόνας από όλα τα επίπεδα ενώνονται μαζί το ένα μετά το άλλο ώστε να δημιουργήσουν το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνα, 80

101 το οποίο ενσωματώνει πληροφορίες ιεραρχικής μάθησης αφού από κάθε επίπεδο προκύπτει ένα χαρακτηριστικό διάνυσμα που περιέχει πληροφορίες μίας ευρύτερης περιοχής της εικόνας και αποτελεί σύνθεση των χαρακτηριστικών από προηγούμενα επίπεδα. Το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνας σχηματίζεται σταδιακά μέσα από την βαθιά τοπολογία και μπορεί να χρησιμοποιηθεί για διάφορα προβλήματα, όπως η ταξινόμηση εικόνων. Κατά την εκτέλεση της μεθόδου Deep Sparse Coding, η διαστατικότητα των διανυσμάτων αυξάνεται από τις μονάδες αραιής αναπαράστασης και ελαττώνεται από τις μονάδες σύνδεσης (μέσω της διαδικασία ελάττωσης διάστασης) και αυτή η διαδικασία επαναλαμβάνεται όσο βαθύτερο είναι το δίκτυο, δηλ. όσο προστίθεται επίπεδα. Άρα, η τοπολογία Deep Sparse Coding ακολουθεί τη μορφή ακορντεόν εναλλάσσοντας μία διαδικασία αύξησης της διαστατικότητας των διανυσμάτων (αραιή αναπαράσταση) με μία διαδικασία ελάττωσης της διαστατικότητας των διανυσμάτων (ελάττωση διάστασης στη μονάδα σύνδεσης). Έτσι, τα αρχικά διανύσματα (τοπικοί περιγραφείς) ενός χαμηλής διάστασης χώρου κωδικοποιούνται και μετασχηματίζονται σε αραιά διανύσματα ενός υψηλής διάστασης χώρου (από το πρώτο επίπεδο αραιής αναπαράστασης) και στην συνέχεια ξανά-μετατρέπονται σε πυκνά διανύσματα ενός χαμηλής διάστασης χώρου (από την πρώτη μονάδα σύνδεσης) -με κριτήριο την διατήρησης της χωρικής ομαλότητας- ώστε να ξανά-κωδικοποιηθούν και να οδηγηθούν πάλι σε έναν υψηλής διάστασης χώρο (στο επόμενο επίπεδο) και με αυτό τον τρόπο να επαναλαμβάνεται η διαδικασία εκτέλεσης μίας μονάδας σύνδεσης και μίας μονάδας αραιής αναπαράστασης. Βασικά στοιχεία ώστε να έχει νόημα η παραπάνω διαδικασία είναι η τοπική χωρική συγκέντρωση (LSP) των αραιών διανυσμάτων, πριν τη διαδικασία ελάττωσης διάστασης (DR), έτσι ώστε κάθε φορά να καλύπτονται μεγαλύτερες περιοχές της εικόνας και άρα η επόμενη κωδικοποίηση να περιέχει την πληροφορία από μία ευρύτερη γειτονιά της εικόνας, καθώς και η διαδικασία ελάττωσης διάστασης που πραγματοποιείται λαμβάνοντας υπόψη τη χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας. Τελικά, με όλη την παραπάνω διαδικασία το σύστημα καταφέρνει να ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που εξάγει, δηλ. επιτυγχάνει αποδοτική ιεραρχική εκμάθηση χαρακτηριστικών από τα δεδομένα iii Η μονάδα σύνδεσης μεταξύ επιπέδων αραιής αναπαράστασης της τοπολογίας Deep Sparse Coding : Η βασική πρωτοτυπία της τοπολογίας Deep Sparse Coding είναι η μονάδα σύνδεσης που τοποθετείται μεταξύ των επιπέδων αραιής αναπαράστασης ώστε να καθιστά αποδοτική την αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης. Η μονάδα σύνδεσης συγκροτείται από μία διαδικασία τοπικής χωρικής συγκέντρωσης (local spatial pooling) των αραιών αναπαραστάσεων που 81

102 έχουν υπολογιστεί στο προηγούμενο επίπεδο και από μία διαδικασία ελάττωσης διάστασης (dimensionality reduction) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η τοπική χωρική συγκέντρωση (Local Spatial Pooling) εξασφαλίζει ότι τα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας. Έτσι, γειτονικά διανύσματα συγκεντρώνονται μαζί ώστε να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα. Το μέγεθος της περιοχής της εικόνας, που αντιστοιχεί στα διανύσματα που συγκεντρώνονται μαζί, καθορίζεται από τις παραμέτρους της διαδικασίας τοπικής χωρικής συγκέντρωσης. Επίσης, η εκτέλεση της τοπικής χωρικής συγκέντρωσης πριν από κάθε επίπεδο αραιής αναπαράστασης έχει σαν αποτέλεσμα όσο βαθύτερο είναι το επίπεδο τόσο μεγαλύτερες να είναι οι περιοχές της εικόνας που καλύπτονται από τα διανύσματα που συγκεντρώνονται μαζί. Άρα, η επόμενη κωδικοποίηση να περιέχει την πληροφορία από όλο και ευρύτερη γειτονιά της εικόνας και με αυτό τον τρόπο να επιτυγχάνεται ιεραρχική εκμάθηση, δηλ. ενσωμάτωση των ιεραρχικών πληροφοριών στα διανύσματα του κάθε επιπέδου. Η ελάττωση διάστασης πραγματοποιείται μέσω της μεθόδου Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) [Hadsell 2006], η οποία έχει σχεδιαστεί έτσι ώστε να λαμβάνει υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και με αυτό τον τρόπο να μην χάνεται η χωρική πληροφορία ομαλότητας των αναπαραστάσεων κατά την διάρκεια της διαδικασίας ελάττωσης διάστασης. Τελικά, μέσω του συνδυασμού της τοπικής χωρικής συγκέντρωσης και της ελάττωσης διάστασης στην μονάδα σύνδεσης, συμπληρώνεται το κενό μεταξύ διαδοχικών αραιών αναπαραστάσεων έτσι ώστε να καθίσταται δυνατή η εκμετάλλευση της διακριτότητας των υψηλής διάστασης αραιών αναπαραστάσεων μέσω μίας αρχιτεκτονικής πολλαπλών επιπέδων, η οποία μπορεί να ενσωματώσει ιεραρχικές πληροφορίες στα χαρακτηριστικά διανύσματα που εξάγει. Άρα, η μονάδα σύνδεσης αντιμετωπίζει αποτελεσματικά τα δύο ζητήματα που περιόριζαν την αραιή κωδικοποίηση σε ένα επίπεδο, δηλ. χρησιμοποιεί την χωρική πληροφορία των patches της εικόνας κατά τη διαδικασία ελάττωσης διάστασης έτσι ώστε οι αναπαραστάσεις που αντιστοιχούν σε γειτονικά patches στο χώρο των pixels της εικόνας να είναι κοντινές υπό όρους ευκλείδειας απόστασης στο νέο χώρο χαμηλής διάστασης, ακόμα και αν οι αραιές αναπαραστάσεις γειτονικών patches διαφέρουν αρκετά μεταξύ τους. 82

103 3.2 Η μέθοδος Dimensionality Reduction by Learning an Invariant Mapping : Ελάττωση διάστασης : Η ευρεία χρήση πολύπλοκων υψηλής διάστασης δεδομένων σε διάφορους τομείς, όπως η επεξεργασία σημάτων, η αστρονομία, η γεωφυσική, η βιολογία και άλλα πεδία επιστήμης και τεχνολογίας, δημιούργησε την ανάγκη ανάπτυξης τεχνικών για την ανάλυση, την εξαγωγή χαρακτηριστικών, την ελάττωση διάστασης και την οπτικοποίηση αυτών των δεδομένων. Η ελάττωση διάστασης (Dimensionality Reduction) αποτελεί μία κλασσική τεχνική της Μηχανικής Μάθησης (ή Εκμάθησης), όπου σκοπός της είναι ο μετασχηματισμός των υψηλής διάστασης δεδομένων εισόδου σε έναν χαμηλότερης διάστασης χώρο έτσι ώστε παρόμοιες αναπαραστάσεις στον υψηλής διάστασης χώρο να αντιστοιχούν σε κοντινά σημεία στον χαμηλότερης διάστασης χώρο (manifold). Οι περισσότερες τεχνικές ελάττωσης διάστασης έχουν δύο μειονεκτήματα, πρώτον, εξαρτώνται συνήθως από μία σημαντική και μετρήσιμη μετρική απόστασης στον χώρο υψηλής διάστασης ώστε να καθοριστούν οι σχέσεις μεταξύ των -υψηλής διάστασης- δεδομένων στον αρχικό χώρο και δεύτερον, δεν μπορούν να μετασχηματίσουν νέα δείγματα των οποίων οι σχέσεις με τα δεδομένα εκμάθησης είναι άγνωστες, δηλ. δεν υπολογίζουν μία συνάρτηση που θα εκτελεί τη διαδικασία ελάττωσης διάστασης για κάθε νέο άγνωστο (ως προς την σχέση γειτνίασης με τα υπόλοιπα δείγματα) δείγμα του υψηλής διάστασης χώρου σε μία αναπαράσταση χαμηλότερης διασταστικότητας. Οι πιο συνηθισμένες τεχνικές ελάττωσης διάστασης είναι η PCA (Principal Component Analysis) [Jollife 1986], η MDS (Multi-Dimensional Scaling) [Cox 1994] και η NMF (Non-Negative Matrix Factorization) [Paatero 1994],[Lee 1999,2001]. Οι δύο πρώτες τεχνικές (στην κλασσική τους μορφή) αποτελούν γραμμικές υλοποιήσεις, με την PCA να προβάλλει τα δεδομένα εισόδου σε έναν χαμηλότερης διάστασης υποχώρο που μεγιστοποιεί την διασπορά των δεδομένων και την MDS να υπολογίζει την προβολή των δεδομένων που διατηρεί καλύτερα τις γειτνιάσεις των δεδομένων εισόδου. Έτσι, η PCA προβάλει τα δεδομένα στις διευθύνσεις όπου αυτά εμφανίζουν τη μεγαλύτερη μεταβολή και άρα η βασική της ιδέα είναι να ελαττώσει τη διάσταση των δεδομένων αλλά ταυτόχρονα να διατηρήσει όσο το δυνατό περισσότερη μεταβολή στα δεδομένα ενώ η MDS απεικονίζει τα δεδομένα σε ένα χώρο χαμηλών διαστάσεων με κριτήριο οι γειτνιάσεις των δεδομένων να διατηρούνται με τον καλύτερο δυνατό τρόπο. Στην NMF διεργασία, ένας πίνακας παραγοντοποιείται σε δύο -συνήθως- άλλους πίνακες με τον περιορισμό οι τρεις πίνακες να μην έχουν αρνητικά στοιχεία, δηλ. τα δεδομένα χαμηλότερης διάστασης (που θα είναι θετικά ή μηδέν) παράγονται από τον πολλαπλασιασμό των δεδομένων υψηλής διάστασης (που πρέπει να είναι θετικά ή μηδενικά) με έναν πίνακα μη αρνητικών βαρών, ο οποίος προκύπτει μέσω μίας διαδικασίας 83

104 εκμάθησης ελαχιστοποιώντας μία συνάρτηση κόστους που ταιριάζει στο εκάστοτε πρόβλημα. Η ιδιότητα της μη αρνητικότητας καθιστά ευκολότερη την διαχείριση των πινάκων που προκύπτουν και επιπρόσθετα, σε πολλές εφαρμογές η μη αρνητικότητα είναι εγγενής στα δεδομένα που μεταχειρίζονται. Αν και οι τρεις παραπάνω τεχνικές είναι μη-εποπτευόμενης μάθησης που μαθαίνουν να μετασχηματίζουν τα δεδομένα έτσι ώστε να διατηρούνται οι σχέσεις γειτνίασης στον αρχικό χώρο, δεν ενδείκνυται η χρησιμοποίησή τους στις μονάδες σύνδεσης της τοπολογίας Deep Sparse Coding (DSC) διότι δεν διατηρούν τη χωρική ομαλότητα των patches της εικόνας κατά τη διαδικασία εκμάθησης των αναπαραστάσεων του χαμηλότερης διάστασης χώρου. Επιπλέον, η NMF απαιτεί μη μηδενικά ορίσματα εισόδου (κάτι που δεν είναι αναγκαίο να ισχύει στις αραιές αναπαραστάσεις) ενώ οι PCA και MDS χρειάζονται να γνωρίζουν την κατανομή των δεδομένων για την εκτέλεση της διαδικασίας ελάττωσης διάστασης και άρα δεν μπορούν να διαχειριστούν νέα άγνωστα δείγματα (αν και έχουν αναπτυχθεί μη-γραμμικές παραλλαγές των παραπάνω τεχνικών που ξεπερνούν αυτό το πρόβλημα χρησιμοποιώντας kernel tricks αλλά και πάλι η επιλογή συγκεκριμένου kernel είναι εξόχως σημαντική για την αποτελεσματικότητα της μεθόδου [Schöelkopf 1998]). Κάποιες διαδεδομένες μη-γραμμικές τεχνικές ελάττωσης διάστασης είναι οι ISOMAP [Tenenbaum 2000], Local Linear Embedding (LLE) [Roweis 2000], Laplacian Eigenmaps [Belkin 2001] και Hessian Local Linear Embedding [Donoho 2003], οι οποίες έχουν παρόμοια δομή εκτέλεσης, που περιγράφεται από τρία βήματα. Αρχικά προσδιορίζουν μία λίστα γειτόνων για κάθε δείγμα, έπειτα υπολογίζουν τον πίνακα gram (όπου ο πίνακας gram ή gramian ενός συνόλου διανυσμάτων σε έναν χώρο εσωτερικού γινομένου είναι ο ερμητιανός πίνακας των εσωτερικών γινομένων) χρησιμοποιώντας τις πληροφορίες γειτνίασης και τέλος, επιλύουν το πρόβλημα ιδιοτιμών του πίνακα gram. Οι παραπάνω μέθοδοι διαφέρουν κατά βάση στον τρόπο υπολογισμού του πίνακα gram. Η μέθοδος Local Linear Embedding (LLE) συνδυάζει γραμμικά τα διανύσματα εισόδου που θεωρούνται γειτονικά αλλά η εφαρμοσιμότητά της σε προβλήματα εικόνων είναι περιορισμένη διότι έχει νόημα μόνο αν οι εικόνες είναι παρόμοιες και με ίδια διάταξη. Οι τεχνικές Laplacian Eigenmaps και Hessian Local Linear Embedding δεν χρησιμοποιούν μία μετρήσιμη μετρική απόστασης στον αρχικό χώρο υψηλής διάστασης αλλά οι σχέσεις μεταξύ των δεδομένων στον αρχικό χώρο καθορίζονται από τη γειτνίαση των δειγμάτων, δηλ. δεν καθορίζονται από μία μετρική απόστασης στον αρχικό χώρο. Το βασικό μειονέκτημα των παραπάνω τεσσάρων τεχνικών είναι ότι δεν υπολογίζουν μία συνάρτηση που θα μετασχηματίζει νέα δείγματα χωρίς να γνωρίζει τις σχέσεις γειτνίασής τους με τα δεδομένα εκμάθησης και χωρίς να χρειάζεται να επαναλάβει όλη τη διαδικασία. Βέβαια, έχουν προταθεί παραλλαγές για την επέκταση των παραπάνω τεχνικών ώστε να επιτρέπουν την ενσωμάτωση νέων άγνωστων δειγμάτων μέσω μίας συνάρτησης kernel, η οποία χρησιμοποιείται για να σχηματιστεί ο πίνακας γειτνίασης των νέων διανυσμάτων αλλά βασίζεται σε μία 84

105 μετρική απόστασης στον χώρο υψηλής διάστασης. Επίσης, οι παραπάνω τέσσερις τεχνικές τείνουν να ομαδοποιούν τα σημεία στον χαμηλότερης διάστασης χώρο αρκετά πυκνά ώστε να θεωρούνται εκφυλισμένες λύσεις, κάτι που δεν είναι πάντα επιθυμητό διότι μερικές φορές χρειάζεται ο υποχώρος (manifold) να καλύπτεται ομοιόμορφα από τα σημεία Εισαγωγή στη μέθοδο Dimensionality Reduction by Learning an Invariant Mapping : Η μέθοδος Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) διαφέρει από όλες τις προαναφερθείσες τεχνικές ελάττωσης διάστασης διότι υπολογίζει, μέσω μίας διαδικασίας εκμάθησης, μία συνάρτηση που μπορεί να μετασχηματίζει (από έναν υψηλής διάστασης χώρο σε έναν χαμηλότερης διάστασης) νέα άγνωστα δείγματα, χωρίς να χρειάζεται τις σχέσεις γειτνίασής τους με τα δεδομένα εκμάθησης, και που δεν περιορίζεται από μία μετρική απόστασης στον αρχικό χώρο (υψηλής διάστασης χώρος). Το πρόβλημα που καλείται να λύσει η μέθοδος DRLIM είναι ο υπολογισμός της συνάρτησης που θα μετασχηματίζει τα υψηλής διάστασης δείγματα σε έναν χαμηλότερης διάστασης χώρο, δεδομένου των σχέσεων γειτνίασης μεταξύ των δειγμάτων εκμάθησης στον αρχικό χώρο. Οι σχέσεις γειτνίασης χρησιμοποιούνται μαζί με τα υψηλής διάστασης δείγματα εκμάθησης κατά τη διαδικασίας εκμάθησης της συνάρτησης μετασχηματισμού και προκύπτουν από πληροφορίες που δεν είναι διαθέσιμες στα άγνωστα δεδομένα (test δείγματα), όπως είναι η προηγούμενη γνώση (prior knowledge) ή η επισήμανση από τον χρήστη (manual labeling), και οι οποίες είναι ανεξάρτητες από κάθε απόσταση μέτρησης στον αρχικό χώρο. Έτσι, ένα παράδειγμα προηγούμενης γνώσης αποτελεί η σχετική θέση στην εικόνα του κάθε patch από το οποίο έχει προέρθει το διάνυσμα χαρακτηριστικών υψηλής διάστασης. Επομένως, η τεχνική Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) υπολογίζει μία συνάρτηση μετασχηματισμού, μέσω μίας διαδικασίας εκμάθησης από τα δεδομένα -που ανήκουν στον υψηλής διάστασης χώρο- και τις σχέσεις γειτνίασης μεταξύ τους, και στη συνέχεια χρησιμοποιώντας την μπορεί να μετασχηματίζει κάθε νέο άγνωστο δείγμα. Έτσι, η μέθοδος DRLIM συνοψίζεται σε δύο άξονες, που είναι η αποφυγή χρήσης μετρικής απόστασης για τον προσδιορισμό της γειτνίασης των δεδομένων εκμάθησης και η δυνατότητα να μετασχηματίζει νέα άγνωστα δείγματα. Λίγο πιο αναλυτικά : Για την εκτέλεση της μεθόδου DRLIM χρειάζονται τα δεδομένα εκμάθησης του υψηλής διάστασης χώρου και η γνώση των σχέσεων γειτνίασης μεταξύ τους. Οι σχέσεις γειτνίασης προκύπτουν από πληροφορίες που δεν είναι διαθέσιμες στα άγνωστα δεδομένα, όπως είναι η προηγούμενη γνώση 85

106 (prior knowledge) ή η επισήμανση από τον χρήστη (manual labeling), και δεν πρέπει να προκύπτουν από μετρικές αποστάσεων. Αυτό γίνεται διότι η συνάρτηση μετασχηματισμού (ή αντιστοίχησης από τον υψηλής διάστασης χώρο στον χαμηλότερης διάστασης χώρο) δεν πρέπει να περιορίζεται από την εφαρμογή απλών αποστάσεων μέτρησης στον υψηλής διάστασης χώρο εισόδου έτσι ώστε η μέθοδος να είναι αμετάβλητη σε πολύπλοκους μηγραμμικούς μετασχηματισμούς των δεδομένων εισόδου (όπως γεωμετρικές παραμορφώσεις ή μεταβολή φωτεινότητας) [Hadsell 2006]. Αντίθετα, στον προκύπτον χώρο χαμηλής διάστασης καλό είναι να επιλέγονται απλές μετρικές αποστάσεων (όπως η ευκλείδεια απόστασης) για τον έλεγχο της εγγύτητας των σημείων έτσι ώστε οι σχέσεις γειτνίασης που υπήρχαν στον αρχικό χώρο υψηλής διάστασης να προσεγγίζονται από απλές αποστάσεις μέτρησης στον χαμηλότερης διάστασης χώρο. Άρα, στον υψηλής διάστασης αρχικό χώρο δεν πρέπει να χρησιμοποιούνται μετρικές απόστασης για τον προσδιορισμό της γειτνίασης των δεδομένων εκμάθησης ενώ στον προκύπτον χώρο χαμηλής διάστασης πρέπει να χρησιμοποιούνται απλές μετρικές απόστασης, όπως είναι η ευκλείδεια απόσταση, έτσι ώστε τελικά να είναι αποτελεσματική η εκτέλεση της μεθόδου [Hadsell 2006]. Η μέθοδος DRLIM, αφού υπολογίσει την συνάρτηση μετασχηματισμού (ή αντιστοίχησης από τον υψηλής διάστασης χώρο στον χαμηλότερης διάστασης χώρο) μέσω μίας διαδικασίας εκμάθησης (χρησιμοποιώντας τα δεδομένα εκμάθησης του υψηλής διάστασης χώρου και τις σχέσεις γειτνίασης μεταξύ τους), είναι ικανή να μετασχηματίζει νέα δείγματα, που έχουν άγνωστες σχέσεις γειτνίασης, δηλ. δείγματα που δεν συναντήθηκαν στο στάδιο της εκμάθησης και για τα οποία δεν απαιτείται η προηγούμενη γνώση (έτσι και αλλιώς η προηγούμενη γνώση -που είναι η πληροφορία γειτνίασης- χρησιμοποιείται μόνο στο στάδιο της εκμάθησης της συνάρτησης μετασχηματισμού). Η αντιστοίχηση των δεδομένων, που πραγματοποιείται από την συνάρτηση μετασχηματισμού, είναι κατά κάποιο τρόπο ομαλή (smooth) και συνεκτική (coherent) στον προκύπτον χώρο χαμηλής διάστασης [Hadsell 2006] Εισαγωγή στη συνάρτηση contrastive loss : Η μέθοδος DRLIM υπολογίζει την συνάρτηση μετασχηματισμού (ή αντιστοίχησης από τον υψηλής διάστασης χώρο στον χαμηλότερης διάστασης χώρο) μέσω μίας διαδικασίας εκμάθησης χρησιμοποιώντας τα δεδομένα εκμάθησης του υψηλής διάστασης χώρου και τις σχέσεις γειτνίασης μεταξύ τους. Μία αντιστοίχηση από τον υψηλής στον χαμηλής διάστασης χώρο θεωρείται 86

107 επιτυχημένη όταν παρόμοια διανύσματα του αρχικού χώρου αποτελούν κοντινά σημεία στον προκύπτον χώρο και ανόμοια διανύσματα του αρχικού χώρου αποτελούν μακρινά σημεία στον προκύπτον χώρο. Η συνάρτηση απωλειών (loss function) της μεθόδου DRLIM, της οποίας η ελαχιστοποίηση οδηγεί στον υπολογισμό της συνάρτησης μετασχηματισμού, διαφέρει σε σχέση με τα κλασσικά συστήματα εκμάθησης όπου η συνάρτηση απωλειών είναι ένα άθροισμα με βάση τα δείγματα αφού στην περίπτωση της μεθόδου DRLIM η συνάρτηση απωλειών συγκροτείται σαν ένα άθροισμα με βάση ζευγάρια δειγμάτων. Έτσι, η συνάρτηση απωλειών της μεθόδου DRLIM ονομάζεται contrastive loss [Hadsell 2006] και χρησιμοποιείται για την εκμάθηση της συνάρτησης μετασχηματισμού έτσι ώστε οι γείτονες (neighbors) να έλκονται μαζί και οι μη-γείτονες (non-neighbors) να απομακρύνονται μεταξύ τους. Επομένως, το ζητούμενο είναι ο υπολογισμός της συνάρτησης μετασχηματισμού των υψηλής διάστασης διανυσμάτων σε έναν χώρο χαμηλότερης διάστασης (manifold) με τέτοιο τρόπο ώστε η ευκλείδεια απόσταση (μία απλή μετρική απόστασης) στον χαμηλής διάστασης χώρο να προσεγγίζει την «σημασιολογική» ( semantic ) ομοιότητα των διανυσμάτων εισόδου, όπως αυτή παρέχεται από τις σχέσεις γειτνίασης Περιγραφή της μεθόδου Dimensionality Reduction by Learning an Invariant Mapping : Η μέθοδος ελάττωσης διάστασης DRLIM βασίζεται τόσο σε ένα σύνολο ζευγαριών από δείγματα εκμάθησης όσο και σε ένα σύνολο διττών ετικετών των ζευγαριών εκμάθησης για τον υπολογισμό της συνάρτησης μετασχηματισμού. Οι διττές ετικέτες λαμβάνουν τις τιμές μηδέν ή ένα (0 ή 1) ανάλογα με το αν το ζευγάρι δειγμάτων εκμάθησης αποτελείται από όμοια ή ανόμοια δείγματα. Έτσι, η ετικέτα (label) λαμβάνει την τιμή 0 (μηδέν) όταν το ζευγάρι των δειγμάτων εκμάθησης σχηματίζεται από δύο όμοια δείγματα εκμάθησης και λαμβάνει την τιμή 1 (ένα) όταν το ζευγάρι των δειγμάτων εκμάθησης σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης, δηλ. η ομοιότητα των δειγμάτων εκμάθησης υποδεικνύεται από τις διττές ετικέτες. Οι σχέσεις γειτνίασης καθορίζουν την τιμή των διττών ετικετών και προκύπτουν από την προηγούμενη γνώση (prior knowledge) ή την επισήμανση από τον χρήστη (manual labeling) έτσι ώστε συνήθως να παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης. Στην τοπολογίας Deep Sparse Coding (DSC) είναι σημαντικό, κατά τη διαδικασία ελάττωσης διάστασης, να διατηρείται η χωρική ομαλότητα γειτονικών patches της εικόνας. Έτσι, για δύο patches της εικόνας που έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, υπάρχει η προηγούμενη γνώση (prior knowledge) ότι κατά πάσα πιθανότητα αντιστοιχούν στο ίδιο αντικείμενο στην εικόνα ακόμα και αν οι 87

108 αναπαραστάσεις τους διαφέρουν υπό όρους απόστασης διανυσμάτων (δηλ. αν η σύγκριση των δύο patches γίνει θεωρώντας τα διανύσματα και άρα υπολογίζοντας την διανυσματική απόστασή τους). Επομένως, η προηγούμενη γνώση (prior knowledge) που επιθυμείται να εισαχθεί στο σύστημα είναι ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα. Αυτό σημαίνει ότι οι κωδικοποιήσεις που θα προκύψουν από patches με κοντινές χωρικές συντεταγμένες στην εικόνα θα θεωρούνται όμοιες -και άρα θα λάβουν ετικέτα με τιμή 0 κατά την εκτέλεση της DRLIM για τον σχηματισμό των ζευγαριών- ανεξάρτητα από την διανυσματική τους απόσταση (η οποία μπορεί να υπολογιστεί με κάποια μετρική), αφού θα έχουν προέλθει από patches που έχουν λογιστεί ότι περιγράφουν το ίδιο αντικείμενο στην εικόνα. Σημειώνοντας το σύνολο των δειγμάτων εκμάθησης με και το σύνολο των διττών ετικετών των ζευγαριών με, όπου είναι το σύνολο των δεικτών των ζευγαριών έτσι ώστε αν είναι διαθέσιμη η ετικέτα του ζευγαριού,, δηλ. αν σχηματίζεται ένα ζευγάρι εκμάθησης και άρα είναι γνωστή η σχέση γειτνίασης των δειγμάτων που το αποτελούν. Η ετικέτα (label) χαρακτηρίζει το ζευγάρι με βάση τη σχέση γειτνίασης των δειγμάτων εκμάθησης που το αποτελούν, η οποία προκύπτει χρησιμοποιώντας την προηγούμενη γνώση (prior knowledge). Έτσι, η ετικέτα λαμβάνει την τιμή μηδέν ( ) όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο όμοια δείγματα εκμάθησης ή την τιμή ένα ( ) όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης. Η συνάρτηση μετασχηματισμού από τον υψηλής διάστασης χώρο στον χαμηλότερης διάστασης χώρο της μεθόδου DRLIM σημειώνεται με και εκτελεί τον μετασχηματισμό : Επίσης, επιλέγοντας μία απλή μετρική απόστασης στον προκύπτον χώρο χαμηλής διάστασης -όπως είναι η ευκλείδεια απόσταση- τότε η απόσταση δύο αναπαραστάσεων στον προκύπτον χώρο χαμηλής διάστασης, που έχουν προέλθει από δύο δείγματα και ενός ζευγαριού, του αρχικού υψηλής διάστασης χώρου, ορίζεται ως :, με να ορίζεται η ευκλείδεια απόσταση ( ²-νόρμα) Η DRLIM υπολογίζει την συνάρτηση μετασχηματισμού έτσι ώστε όμοια δείγματα (γείτονες) του αρχικού χώρου να έλκονται μαζί στον χώρο χαμηλής διάστασης και ανόμοια δείγματα (μη-γείτονες) του αρχικού χώρου να απομακρύνονται μεταξύ τους στον χώρο χαμηλής διάστασης, δηλ. η συνάρτηση μετασχηματισμού 88

109 υπολογίζεται ελαχιστοποιώντας τη συνάρτηση απωλειών που ονομάζεται contrastive loss [Hadsell 2006] και περιγράφεται από την σχέση : Η συνάρτηση contrastive loss αποτελείται από δύο όρους, την επιμέρους συνάρτηση απωλειών που αφορά τα ζευγάρια με όμοια δείγματα ( ) και την επιμέρους συνάρτηση απωλειών που αφορά τα ζευγάρια με ανόμοια δείγματα ( ). Οι και έχουν οριστεί με τέτοιο τρόπο ώστε κατά την ελαχιστοποίηση της συνάρτησης contrastive loss η ευκλείδεια απόσταση στον προκύπτον χαμηλής διάστασης χώρο να μειώνεται για τα όμοια δείγματα και να αυξάνεται για τα ανόμοια δείγματα. Το σύνολο των διαθέσιμων ζευγαριών, για καθορισμένο πλήθος δειγμάτων εκμάθησης m, μπορεί να αποτελείται το πολύ από m² ξεχωριστά ζευγάρια. Η επιμέρους συνάρτησης απωλειών εμπεριέχει μία άλλη συνάρτηση απωλειών, που ονομάζεται στην στατιστική hinge loss και έχει γενική μορφή, όπου είναι η παράμετρός της. Στην συνάρτηση contrastive loss, η παράμετρος β αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους, δηλ. καθορίζει μία σφαίρα ακτίνας στον χαμηλής διάστασης χώρο όπου τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους μόνο αν η απόστασή τους στον προκύπτον χαμηλής διάστασης χώρο βρίσκεται μέσα στην σφαίρα. Έτσι, τα ανόμοια δείγματα του αρχικού υψηλής διάστασης χώρου, τα οποία στον χαμηλότερης διάστασης χώρο έχουν ευκλείδεια απόσταση μεταξύ τους μικρότερη από, συνεισφέρουν στην συνάρτηση κόστους αφού επηρεάζουν την συνάρτηση μετασχηματισμού έτσι ώστε να μάθει να απομακρύνει τέτοια δείγματα στον χαμηλής διάστασης χώρο. Αντίθετα, ανόμοια δείγματα του αρχικού υψηλής διάστασης χώρου, τα οποία στον χαμηλότερης διάστασης χώρο έχουν ευκλείδεια απόσταση μεταξύ τους μεγαλύτερη από, δεν συνεισφέρουν στην συνάρτηση κόστους διότι θεωρούνται ήδη μακρινά σημεία στον προκύπτον χώρο και άρα η συνάρτηση μετασχηματισμού έχει μάθει να τα απομακρύνει μεταξύ τους, δηλ. δεν έχει λόγο να μεταβληθεί για να ενσωματώσει κάποια επιπλέον πληροφορία από αυτά τα δείγματα. Το όριο (που σχετίζεται με τα ζευγάρια με ανόμοια δείγματα) είναι κρίσιμης σημασίας για την απόδοση της μεθόδου DRLIM, διότι η ελαχιστοποίηση μόνο της ευκλείδειας απόσταση από τα όμοια δείγματα (δηλ. μόνο 89

110 της ) οδηγεί συνήθως σε μία ασταθή λύση, δεδομένου ότι η ευκλείδεια απόσταση και η συνάρτηση κόστους L μπορούν να γίνουν μηδέν απλά θέτοντας μία σταθερή τιμή στην συνάρτηση μετασχηματισμού χαρακτηρισμός των ζευγαριών με όμοια δείγματα με ετικέτα ζευγαριών με ανόμοια δείγματα με ετικέτα. Τέλος, ο και των και όχι το αντίστροφο επιλέγεται διότι έχει παρατηρηθεί πειραματικά [He 2014] ότι ο αντίστροφος προσδιορισμός ετικετών υποβαθμίζει την απόδοση της μεθόδου DRLIM. Συνοψίζοντας, η DRLIM πραγματοποιεί την εκμάθηση της συνάρτησης μετασχηματισμού ελαχιστοποιώντας την συνάρτηση contrastive loss, η οποία για όμοια δείγματα (γείτονες) στον αρχικό χώρο έλκει μαζί τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης και για ανόμοια δείγματα (μη-γείτονες) στον αρχικό χώρο απομακρύνει μεταξύ τους τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης. Η συνάρτηση contrastive loss λειτουργεί με ζευγάρια δειγμάτων εκμάθησης μαζί με μία ετικέτα (0 ή 1), η οποία αντιστοιχεί στις σχέσεις γειτνίασης (δηλ. στην ομοιότητα) μεταξύ των δειγμάτων των ζευγαριών. Ο σχηματισμός των ζευγαριών εκμάθησης και ο προσδιορισμός των ετικετών που τα χαρακτηρίζουν πραγματοποιείται χρησιμοποιώντας την προηγούμενη γνώση. Η παράμετρος β αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους και είναι σημαντική διότι η συγκρότηση της συνάρτησης contrastive loss από δύο επιμέρους συναρτήσεις για όμοια και ανόμοια ζευγάρια έχει σαν συνέπεια το σύστημα να αποφεύγει ασταθείς λύσεις [Hadsell 2006]. Εντέλει, η DRLIM υπολογίζει την συνάρτηση μετασχηματισμού μέσω μίας διαδικασίας εκμάθησης χρησιμοποιώντας ένα σύνολο ζευγαριών -τα οποία σχηματίζονται από τα δείγματα εκμάθησης- μαζί με μία διττή ετικέτα που χαρακτηρίζει αν το κάθε ζευγάρι αποτελείται από όμοια ή ανόμοια δείγματα, δηλ. υποδεικνύει τις σχέσεις γειτνίασης μεταξύ των δειγμάτων του κάθε ζευγαριού, οι οποίες προκύπτουν από την προηγούμενη γνώση. Επομένως, παρέχει την δυνατότητα ενσωμάτωσης της προηγούμενης γνώσης στη διαδικασία ελάττωσης διάστασης, αφού οι ετικέτες των ζευγαριών εκμάθησης προσδιορίζονται με βάση την προηγούμενη γνώση. Οπότε, εφόσον η προηγούμενη γνώση συνοψίζεται στην ιδέα ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα, τότε η DRLIM επιτυγχάνει τη διατήρηση της χωρικής ομαλότητας των γειτονικών patches της εικόνας κατά τη διαδικασία ελάττωσης διάστασης. Τέλος, ο προσδιορισμός της γειτνίασης των δεδομένων εκμάθησης μέσω της προηγούμενης γνώσης και όχι χρησιμοποιώντας μία μετρική απόστασης στον αρχικό υψηλής διάστασης χώρο έχει σαν αποτέλεσμα η μέθοδος DRLIM να είναι αμετάβλητη σε πολύπλοκους μετασχηματισμούς των δεδομένων εισόδου [Hadsell 2006] ενώ ο υπολογισμός μίας συνάρτησης μετασχηματισμού επιτρέπει στην μέθοδο να μετασχηματίζει νέα άγνωστα δείγματα. 90

111 3.3 Υλοποίηση της μονάδας σύνδεσης της τοπολογίας Deep Sparse Coding : Η μέθοδος Deep Sparse Coding (DSC) αποτελεί μία τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης, στην οποία τα επίπεδα αραιής αναπαράστασης συνδέονται μεταξύ τους μέσω μονάδων που μετατρέπουν τις αραιές κωδικοποιήσεις, οι οποίες έχουν προκύψει από το προηγούμενο επίπεδο, σε πυκνές αναπαραστάσεις, οι οποίες θα τροφοδοτήσουν το επόμενο επίπεδο. Η μονάδα σύνδεσης των επιπέδων αραιής αναπαράστασης συγκροτείται από μία τοπική χωρική συγκέντρωση (pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και μία διαδικασία ελάττωσης διάστασης για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η διαδικασία τοπικής χωρικής συγκέντρωση (pooling) εξασφαλίζει ότι τα χαρακτηριστικά υψηλότερου επιπέδου (σύνθετα χαρακτηριστικά υψηλής τάξης) προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου (απλούστερα χαρακτηριστικά χαμηλής ή μεσαίας τάξης) και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας ενώ η διαδικασία ελάττωσης διάστασης πραγματοποιείται λαμβάνοντας υπόψη την χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας. Άρα, η Deep Sparse Coding είναι μία αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης που επιτυγχάνει αποδοτική ιεραρχική εκμάθηση χαρακτηριστικών από τα δεδομένα μέσω της βαθιάς τοπολογίας της ενώ ταυτόχρονα διατηρεί την χωρική ομαλότητα μεταξύ των patches της εικόνας. Η βασική πρωτοτυπία της τοπολογίας Deep Sparse Coding είναι η μονάδα σύνδεσης που τοποθετείται μεταξύ των επιπέδων αραιής αναπαράστασης ώστε να καθιστά αποδοτική την αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης. Οπότε, η μονάδα σύνδεσης οδηγεί σε προοδευτική κωδικοποίηση που αντιστοιχεί σε όλο και μεγαλύτερες περιοχές της εικόνας και χρησιμοποιεί την χωρική πληροφορία των patches της εικόνας κατά τη διαδικασία ελάττωσης διάστασης έτσι ώστε οι αναπαραστάσεις που αντιστοιχούν σε γειτονικά patches στο χώρο των pixels της εικόνας να είναι κοντινές υπό όρους ευκλείδειας απόστασης στο νέο χώρο χαμηλής διάστασης, ακόμα και αν οι αραιές αναπαραστάσεις γειτονικών patches διαφέρουν αρκετά μεταξύ τους. 91

112 3.3.1 Τοπική Χωρική Συγκέντρωση (Local Spatial Pooling) : Η τοπική χωρική συγκέντρωση (Local Spatial Pooling) αποτελεί την πρώτη διεργασία της μονάδας σύνδεσης. Έτσι, στα διανύσματα αραιής αναπαράστασης που έχουν υπολογιστεί στο προηγούμενο επίπεδο της τοπολογίας Deep Sparse Coding εκτελείται η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε ομάδες γειτονικών διανυσμάτων για να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα για κάθε ομάδα και στην συνέχεια, στα διανύσματα που προκύπτουν, πραγματοποιείται η διαδικασία ελάττωσης διάστασης για να υπολογιστούν οι πυκνές αναπαραστάσεις που θα τροφοδοτήσουν το επόμενο επίπεδο αραιής αναπαράστασης της τοπολογίας. Με αυτό τον τρόπο, η τοπική χωρική συγκέντρωση (Local Spatial Pooling) εξασφαλίζει ότι τα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη. Η τοπική χωρική συγκέντρωση (Local Spatial Pooling) λειτουργεί σαν τη μηγραμμική ενεργοποίηση στα νευρωνικά δίκτυα [Lippman 1987] και άρα η διαδικασία συγκέντρωσης (pooling) δεν μεταβάλλει την διάσταση των διανυσμάτων αραιής αναπαράστασης μίας εικόνας αλλά απλά μπορεί να ελαττώσει το πλήθος των διανυσμάτων αραιής αναπαράστασης μίας εικόνας που θα διαδοθούν στην τοπολογία. Η διάσταση των διανυσμάτων παραμένει σταθερή και είναι ίση με τα άτομα του λεξικού του προηγούμενου επιπέδου αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης. Το πλήθος των διανυσμάτων ενδέχεται να είναι διαφορετικό από το πλήθος των διανυσμάτων αραιής αναπαράστασης του προηγούμενου επιπέδου διότι εξαρτάται από το πλήθος των ομάδων γειτονικών διανυσμάτων που θα δημιουργηθούν αφού σε κάθε ομάδα διανυσμάτων εκτελείται η διαδικασία συγκέντρωσης (pooling) και έτσι η πληροφορία της ομάδας ενσωματώνεται σε ένα διάνυσμα. Τα διανύσματα μίας ομάδας, δηλ. τα διανύσματα που συγκεντρώνονται (pooling) μαζί, αντιστοιχούν σε μία περιοχή στον χώρο των pixels της εικόνας (που αναφέρεται σαν Field of View). Έτσι, η χωρική περιοχή που αντιστοιχεί σε κάθε ομάδα διανυσμάτων καθορίζεται έμμεσα από τις παραμέτρους της διαδικασίας της τοπικής χωρικής συγκέντρωσης, οι οποίες προσδιορίζουν τον αριθμό των διανυσμάτων μίας ομάδας, το συνολικό πλήθος των ομάδων σε μία εικόνα και την μορφή της συνάρτησης που εκτελεί την συγκέντρωση (pooling). Η πρώτη παράμετρος αφορά το πλήθος των διανυσμάτων που θα αποτελούν μία ομάδα και ορίζεται ως οι πλευρές ενός ορθογωνίου, το οποίο εμπεριέχει τα γειτονικά διανύσματα που αποτελούν την κάθε ομάδας. Έτσι, οι πλευρές του ορθογωνίου καθορίζουν πόσα γειτονικά διανύσματα στην κατακόρυφη και πόσα στην οριζόντια 92

113 χωρική διάσταση της εικόνας θα συγκροτούν την κάθε ομάδα διανυσμάτων. Άρα, η πρώτη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το πλήθος των αραιών διανυσμάτων σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των διανυσμάτων κάθε ομάδας. Η δεύτερη παράμετρος αφορά το πλήθος των ομάδων που δημιουργούνται σε μία εικόνα και ορίζεται ως μία παράμετρος υποδειγματοληψίας (subsampling) που καθορίζει πόσα διανύσματα θα παραλείπονται σε κάθε διάσταση μέχρι να ξεκινήσει η επιλογή των διανυσμάτων της επόμενης ομάδας. Άρα, η δεύτερη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το βήμα υποδειγματοληψίας σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των ομάδων μίας εικόνας, δηλ. το πλήθος των διανυσμάτων από κάθε εικόνα που θα διαδοθούν στην τοπολογία. Τέλος, για να πραγματοποιηθεί η διαδικασία της συγκέντρωσης (pooling) σε μία ομάδα διανυσμάτων πρέπει να επιλεγεί η συνάρτηση που θα εκτελεί την συγκέντρωση (pooling). Έτσι, η συνάρτηση συνήθως επιλέγεται να είναι είτε ο υπολογισμός της μέσης τιμής των διανυσμάτων κάθε ομάδας (average pooling operation) είτε η εύρεση της μέγιστης τιμής των διανυσμάτων κάθε ομάδας (max pooling operation) αλλά μπορεί να χρησιμοποιηθεί και οποιαδήποτε άλλη συνάρτηση. Pooling Spatial dimensions Sparse Code dimension Spatial dimensions Sparse Code dimension Εικόνα 3.2 : Στην παραπάνω εικόνα απεικονίζεται ένα παράδειγμα τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) όπου επιλέγονται τέσσερα διανύσματα οριζόντια και τέσσερα κατακόρυφα για τον σχηματισμό της κάθε ομάδας (ορθογώνιο με πλευρές τέσσερα διανύσματα οριζόντια και τέσσερα κατακόρυφα) και το βήμα υποδειγματοληψίας (subsampling) είναι δύο στην οριζόντια διάσταση και δύο στη κατακόρυφη. Επίσης, κατά τη διαδικασία LSP έχει γίνει padding με μηδενικά διανύσματα (λευκά διανύσματα) για να μπορέσουν να σχηματιστούν όλες οι ομάδες. Επομένως, σε ένα σύνολο 42 διανυσμάτων η LSP διαδικασία με τις παραπάνω παραμέτρους (και αφού έχει κάνει padding αν χρειάζεται) έχει σαν συνέπεια τη δημιουργία 12 ομάδων με 16 διανύσματα ανά ομάδα, δηλ. παράγονται 12 pooled διανύσματα (πράσινα δεξιά). Η παραπάνω επιλογή παραμέτρων οδηγεί σε 12 pooled διανύσματα, τα οποία έχουν διπλάσια χωρική απόσταση (υπό όρους pixels) μεταξύ τους σε σχέση με την χωρική απόσταση των 42 αρχικών διανυσμάτων μεταξύ τους, αφού το κέντρο της κάθε ομάδας αντιστοιχεί στην χωρική θέση του κάθε pooled διανύσματος που προκύπτει από την κάθε ομάδα. Άρα, με βάση τις παραπάνω παραμέτρους, τα pooled διανύσματα που προκύπτουν έχουν διπλάσια χωρική απόσταση (υπό όρους pixels) μεταξύ τους σε σχέση με την χωρική απόσταση των αρχικών διανυσμάτων μεταξύ τους και το πλήθος των pooled διανυσμάτων είναι περίπου το 1/4 από το πλήθος των αρχικών διανυσμάτων. 93

114 Εφόσον η εκτέλεση της τοπικής χωρικής συγκέντρωσης πριν από κάθε επίπεδο αραιής αναπαράστασης έχει σαν αποτέλεσμα όσο βαθύτερο είναι το επίπεδο τόσο μεγαλύτερες να είναι οι περιοχές της εικόνας που καλύπτονται από τα διανύσματα που συγκεντρώνονται μαζί τότε η επόμενη κωδικοποίηση περιέχει την πληροφορία από όλο και ευρύτερη γειτονιά της εικόνας. Η ενσωμάτωση της πληροφορίας από μία ευρύτερη περιοχή της εικόνας στα διανύσματα του υψηλής διάστασης χώρου, που προκύπτουν μέσω της διαδικασία συγκέντρωσης (pooling) σε ομάδες γειτονικών διανυσμάτων αραιής αναπαράστασης, σε συνδυασμό με τη διαδικασία ελάττωσης διάστασης, που πραγματοποιείται διατηρώντας τη χωρική πληροφορία ομαλότητας, έχει σαν αποτέλεσμα την ιεραρχική εκμάθηση από το ένα επίπεδο στο επόμενο. Εικόνα 3.3 : Η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε μία ομάδα γειτονικών αραιών διανυσμάτων χρησιμοποιώντας τη συνάρτηση εύρεσης μέγιστης τιμής (max pooling operation). Η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) εφαρμόζεται σε ομάδες γειτονικών αραιών διανυσμάτων για να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα για κάθε ομάδα. Συνεπώς, προκύπτει ένα νέο σύνολο διανυσμάτων (pooled vectors). Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει, δηλ. έχουν διάσταση όσα και τα άτομα του λεξικού του προηγούμενου επιπέδου αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης, δηλ. δεν μεταβάλλεται η διάσταση των διανυσμάτων κατά τη διαδικασία συγκέντρωσης (pooling) Dimensionality Reduction by Learning an Invariant Mapping : Η μέθοδος ελάττωσης διάστασης DRLIM πραγματοποιεί την εκμάθηση της συνάρτησης μετασχηματισμού (η οποία μετασχηματίζει τα υψηλής διάστασης δείγματα σε σημεία ενός χαμηλότερης διάστασης χώρου) ελαχιστοποιώντας την συνάρτηση contrastive loss, η οποία για όμοια δείγματα (γείτονες) στον αρχικό χώρο έλκει μαζί τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης και για ανόμοια δείγματα (μη-γείτονες) στον αρχικό χώρο απομακρύνει μεταξύ τους τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης. Η συνάρτηση contrastive loss λειτουργεί με ζευγάρια δειγμάτων εκμάθησης μαζί με μία ετικέτα (0 ή 1) που αντιστοιχεί στις σχέσεις γειτνίασης (δηλ. στην ομοιότητα) μεταξύ των δειγμάτων 94

115 των ζευγαριών. Οι σχέσεις γειτνίασης των δειγμάτων που αποτελούν το κάθε ζευγάρι παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης και φυσικά δεν είναι διαθέσιμες στα άγνωστα δεδομένα. Έτσι, οι σχέσεις γειτνίασης προκύπτουν από την προηγούμενη γνώση (prior knowledge). Επομένως, η DRLIM παρέχει την δυνατότητα ενσωμάτωσης της προηγούμενης γνώσης στη διαδικασία ελάττωσης διάστασης, αφού οι ετικέτες των ζευγαριών εκμάθησης προσδιορίζονται με βάση την προηγούμενη γνώση. Οπότε, εφόσον η προηγούμενη γνώση συνοψίζεται στην ιδέα ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα, τότε η DRLIM επιτυγχάνει τη διατήρηση της χωρικής ομαλότητας των patches της εικόνας κατά τη διαδικασία ελάττωσης διάστασης. Η μέθοδος DRLIM μπορεί να διαχωριστεί σε τρία στάδια. Το πρώτο στάδιο είναι ο προσδιορισμός των ζευγαριών εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν. Το δεύτερο στάδιο είναι η επίλυση του προβλήματος ελαχιστοποίησης της συνάρτησης contrastive loss για να υπολογιστεί η συνάρτηση μετασχηματισμού, δεδομένου των ζευγαριών εκμάθησης και των ετικετών τους. Το τρίτο και τελευταίο στάδιο είναι η πραγματοποίηση της ελάττωσης διάστασης εφαρμόζοντας την συνάρτηση μετασχηματισμού, η οποία είναι ήδη υπολογισμένη, στα δεδομένα i Σχηματισμός ζευγαριών και προσδιορισμός των ετικετών τους : Τα ζευγάρια εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν χρησιμοποιούνται για την ελαχιστοποίηση της συνάρτησης contrastive loss ώστε να υπολογιστεί η συνάρτηση μετασχηματισμού. Οι σχέσεις γειτνίασης (δηλ. η ομοιότητα) μεταξύ των δύο δειγμάτων του κάθε ζευγαριού καθορίζει την τιμή της ετικέτας (label) που θα έχει το ζευγάρι. Όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο όμοια δείγματα εκμάθησης τότε η ετικέτα λαμβάνει την τιμή μηδέν ( ) ενώ όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης τότε λαμβάνει την τιμή ένα ( ). Οι σχέσεις γειτνίασης προκύπτουν από την προηγούμενη γνώση (prior knowledge), δηλ. παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης. Για δύο patches της εικόνας που έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, υπάρχει η προηγούμενη γνώση (prior knowledge) ότι κατά πάσα πιθανότητα αντιστοιχούν στο ίδιο αντικείμενο στην εικόνα ακόμα και αν οι αναπαραστάσεις τους είναι διαφορετικές υπό όρους απόστασης διανυσμάτων (δηλ. αν η σύγκριση των δύο patches γίνει θεωρώντας τα διανύσματα και άρα υπολογίζοντας την διανυσματική απόστασή τους). Επομένως, η προηγούμενη γνώση (prior knowledge) που επιθυμείται να εισαχθεί στο σύστημα είναι ότι αν ένα patch μίας εικόνας 95

116 μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα. Για τον σχηματισμό των ζευγαριών από τα δείγματα εκμάθησης χρησιμοποιείται η χωρική απόσταση των δειγμάτων (υπό όρους pixels), η οποία υπολογίζεται με βάση τις συντεταγμένες των κέντρων των patches της εικόνας. Το κάθε διάνυσμα εκμάθησης έχει προκύψει από τη διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling (LSP)) σε γειτονικά διανύσματα και αντιστοιχεί σε μία περιοχή στον χώρο των pixels της εικόνας (Field of View), η οποία προσδιορίζεται με βάση τα patches από τα οποία έχουν προέλθει τα διανύσματα που συγκεντρώνονται (pooling) μαζί σε κάθε ομάδα. Οπότε, κάθε διάνυσμα εκμάθησης έχει μία χωρική θέση στην εικόνα, η οποία προκύπτει ως το κέντρο του Field Of View του συγκεκριμένου διανύσματος. Έτσι, για δύο διανύσματα εκμάθησης μπορεί να υπολογιστεί η χωρική τους απόσταση σε μονάδες pixels, αφού αποτελεί την απόσταση των χωρικών τους θέσεων στην εικόνα. Η χωρική απόσταση μεταξύ δύο δειγμάτων εκμάθησης χρησιμοποιείται τόσο για τον έλεγχο αν αυτά τα δύο δείγματα θα σχηματίσουν ένα ζευγάρι όσο και για τον προσδιορισμό της ετικέτας του ζευγαριού αν αυτό δημιουργηθεί. Αυτό συμπυκνώνεται στην παρακάτω σχέση :, όπου η ετικέτα του ζευγαριού, με με για όμοια δείγματα ή για ανόμοια δείγματα, η χωρική απόσταση σε μονάδες pixels των δειγμάτων και μεταξύ τους, δηλ. η απόσταση των χωρικών τους θέσεων στην εικόνα, η μέγιστη χωρική απόσταση δύο δειγμάτων μεταξύ τους ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι και το όριο (χωρική απόσταση) αν τα δύο δείγματα του ζευγαριού θα θεωρούνται όμοια ή ανόμοια. Φυσικά όλες οι χωρικές αποστάσεις έχουν σαν μονάδα μέτρησης το pixel, αφού αντιστοιχούν σε αποστάσεις στον χώρο των pixels της εικόνας. Επίσης, στις ανισότητες ενσωματώνεται και η ισότητα κατά το δοκούν από τον χρήστη. Τελικά, η διαδικασία σχηματισμού των ζευγαριών και προσδιορισμού των ετικετών τους καθορίζεται από την προηγούμενη γνώση μέσω της χωρικής απόστασης των δειγμάτων εκμάθησης. Με αυτό τον τρόπο οι σχέσεις γειτνίασης παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης ενώ ταυτόχρονα δεν προκύπτουν από μία μετρική διανυσματικής απόστασης μεταξύ των δειγμάτων. Έτσι, οι παράμετροι που διέπουν τη διαδικασία σχηματισμού των ζευγαριών και προσδιορισμού των ετικετών τους είναι η μέγιστη χωρική απόσταση και το όριο για όμοια ή ανόμοια δείγματα. Η παράμετρος αντιστοιχεί στην προηγούμενη γνώση (prior knowledge) αφού περιορίζει τον σχηματισμό ζευγαριών μόνο από κοντινά (υπό όρους χωρικής απόστασης) δείγματα. Ο συνδυασμός μακρινών 96

117 δειγμάτων, δηλ. δειγμάτων που έχουν προκύψει από απομακρυσμένες περιοχές της εικόνας και τα οποία κατά πάσα πιθανότητα θα είναι πολύ ανόμοια μεταξύ τους αφού -μάλλον- θα περιγράφουν διαφορετικά αντικείμενα της εικόνας, για τον σχηματισμό ζευγαριών δεν συμβάλλει στη διαδικασία εκμάθησης της συνάρτησης μετασχηματισμού αφού η εκμάθηση της συνάρτησης μετασχηματισμού πρέπει να επικεντρώνεται στα πιο δύσκολα ζευγάρια. Για τον ίδιο λόγο δεν χρησιμοποιούνται και ζευγάρια με ακριβώς ίδια δείγματα (για αυτό και ). Η παράμετρος αφορά την τιμή της ετικέτας του κάθε ζευγαριού (που επιτρέπεται από τη παράμετρο να σχηματιστεί από τα δείγματα εκμάθησης) αφού αποτελεί το όριο για την επιλογή όμοιων ή ανόμοιων ζευγαριών. Η επιλογή της τιμής της παραμέτρου είναι σημαντική διότι πρέπει τα ζευγάρια με όμοια δείγματα όντως να αποτελούνται από διανύσματα που έχουν προέλθει από patches που περιγράφουν το ίδιο αντικείμενο στην εικόνα ώστε να διαθέτουν πραγματική ομοιότητα ενώ αντίθετα τα ανόμοια ζευγάρια πρέπει να προκύπτουν από δείγματα που θα είναι μεν διαφορετικά αλλά δεν θα είναι και πολύ μακρινά ώστε να περιγράφουν εντελώς άλλες περιοχές στην εικόνα. Με αυτό τον τρόπο, η εκμάθηση της συνάρτησης μετασχηματισμού επικεντρώνεται στα πιο δύσκολα ζευγάρια ώστε να είναι αποδοτική όταν εφαρμόζεται για την ελάττωση διάστασης σε άγνωστα δεδομένα. Επομένως, εφόσον οι σχέσεις γειτνίασης των δειγμάτων προκύπτουν από την προηγούμενη γνώση (μέσω του ελέγχου της χωρικής απόστασης των δειγμάτων), η διαδικασία σχηματισμού των ζευγαριών και προσδιορισμού των ετικετών τους καθορίζεται από την προηγούμενη γνώση μεν αλλά η ακριβής αποτύπωση της προηγούμενης γνώσης στις παραμέτρους της διαδικασίας επαφίεται στον χρήστη ii Υπολογισμός της συνάρτησης μετασχηματισμού : Η μέθοδος ελάττωσης διάστασης DRLIM υπολογίζει τη συνάρτηση μετασχηματισμού (η οποία μετασχηματίζει τα υψηλής διάστασης δείγματα σε σημεία ενός χαμηλότερης διάστασης χώρου) επιλύοντας το πρόβλημα ελαχιστοποίησης της συνάρτησης contrastive loss, το οποίο ορίζεται χρησιμοποιώντας τα ζευγάρια εκμάθησης μαζί με τις ετικέτες τους. Η αντιστοίχηση (mapping) από τον υψηλής διάστασης χώρο στον χαμηλής διάστασης χώρο μπορεί να είναι γραμμική ή μη γραμμική. Στην εργασία που εισήγαγε την έννοια της συνάρτησης contrastive loss [Hadsell 2006], επιλέγεται o μετασχηματισμός να είναι μη γραμμικός και προκύπτει από μία σιαμαία αρχιτεκτονική (siamese) νευρωνικών δικτύων ([Lang 1988],[Bromley 1993]). Η σιαμαία (siamese) αρχιτεκτονική αποτελείται από δύο ίδια (identical) νευρωνικά δίκτυα, που μοιράζονται τα ίδια βάρη έτσι ώστε η ενημέρωση να γίνεται με τον ίδιο τρόπο και στα δύο δίκτυα, και από μία μονάδα κόστους. Το κάθε ένα από τα δύο ίδια δίκτυα (αφού έχουν την ίδια διάταξη με τις ίδιες παραμέτρους και τα ίδια 97

118 βάρη) που συγκροτούν τη σιαμαία αρχιτεκτονική συνήθως επιλέγεται να είναι ένα δύο πλήρως συνδεδεμένων επιπέδων νευρωνικό δίκτυο (two-layer Fully Connected Neural Network) ή ένα συνελικτικό νευρωνικό δίκτυο (Convolutional Neural Network) [Hadsell 2006]. Στο τέλος της σιαμαίας αρχιτεκτονικής τοποθετείται μία μονάδα απωλειών (loss module), η οποία χρησιμοποιεί τη συνάρτηση contrastive loss. Η είσοδος του συστήματος είναι δύο εικόνες μαζί με μία διττή ετικέτα που χαρακτηρίζει την σχέση των δύο εικόνων μεταξύ τους. Οι εικόνες διαδίδονται στα δύο δίκτυα και τα αποτελέσματα που παράγονται από την έξοδο των δύο δικτύων εισάγονται στην μονάδα κόστους (cost module), η οποία υπολογίζεται την ευκλείδεια απόσταση μεταξύ των αποτελεσμάτων. Στην συνέχεια, η μονάδα απωλειών (loss module) συνδυάζει την ευκλείδεια απόσταση και την ετικέτα για να υπολογίσει τη συνάρτηση contrastive loss. Τελικά, η αρχιτεκτονική εκπαιδεύεται με εποπτευόμενη (supervised) μέθοδο ελαχιστοποιώντας την συνάρτηση contrastive loss ως προς τα βάρη των δικτύων. Οπότε, η συνάρτηση μετασχηματισμού είναι το νευρωνικό δίκτυο που προκύπτει (ένα από τα δύο ίδια δίκτυα της αρχιτεκτονικής) μετά την εκπαίδευση, όπου η είσοδός του είναι μία εικόνα και το αποτέλεσμα είναι η αναπαράσταση της εικόνας σε έναν χαμηλότερης διάστασης χώρο. Στην παρούσα εργασία, ο σκοπός είναι η συνάρτηση μετασχηματισμού να πραγματοποιεί την ελάττωση διάστασης σε διανύσματα. Έτσι, η συνάρτηση μετασχηματισμού υπολογίζεται μέσω μιας διαδικασίας εκμάθησης χρησιμοποιώντας τα ζευγάρια εκμάθησης, που έχουν προκύψει από ένα σύνολο διανυσμάτων εκμάθησης, μαζί με τις διττές ετικέτες τους, που υποδεικνύουν την σχέση μεταξύ των διανυσμάτων που σχηματίζουν το κάθε ζευγάρι. Σε αυτή την περίπτωση επιλέγεται ο μετασχηματισμός να είναι γραμμικός και ορίζεται από τον πίνακα μετασχηματισμού έτσι ώστε : όπου ο πίνακας μετασχηματισμού, ένα διάνυσμα του υψηλής διάστασης χώρου και το αντίστοιχο διάνυσμα του χαμηλής διάστασης χώρου Εφόσον ο μετασχηματισμός από τον υψηλής διάστασης χώρο στον χαμηλότερης διάστασης χώρο πραγματοποιείται μέσω του πολλαπλασιασμού του πίνακα μετασχηματισμού με το διάνυσμα του υψηλής διάστασης χώρου τότε η συνάρτηση contrastive loss για ένα ζευγάρι διανυσμάτων, με ετικέτα λαμβάνει την μορφή :, 98

119 και ένα σύνολο Έτσι, για ένα σύνολο δειγμάτων εκμάθησης ετικετών των ζευγαριών, όπου είναι το σύνολο των δεικτών των ζευγαριών έτσι ώστε όταν σχηματίζεται το ζευγάρι, με ετικέτα, η οποία έχει τιμή μηδέν ( ) όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο όμοια δείγματα εκμάθησης ή τιμή ένα ( ) όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης, τότε το πρόβλημα βελτιστοποίησης για τον υπολογισμό του πίνακα μετασχηματισμού περιγράφεται από την σχέση : Επομένως, το ζητούμενο είναι ο υπολογισμός του πίνακα μετασχηματισμού ελαχιστοποιώντας την συνάρτηση contrastive loss με τον περιορισμό οι στήλες του πίνακα να έχουν ²-νόρμα μικρότερη ή ίση από την μονάδα. Οπότε, ορίζοντας ως το σύνολο των πινάκων που επαληθεύουν τον περιορισμό, το πρόβλημα βελτιστοποίησης λαμβάνει την μορφή : Το παραπάνω πρόβλημα βελτιστοποίησης ορίζεται με την βοήθεια της συνάρτησης contrastive loss και επιλέγεται να επιλυθεί με μία στοχαστική προσέγγιση της μεθόδου βελτιστοποίησης Gradient Descent. Η μέθοδος Gradient Descent (ή Steepest Descent) χρησιμοποιείται για την εύρεση ακρότατων μίας συνάρτησης ελέγχοντας το πρόσημο της πρώτης παραγώγου της συνάρτησης, δηλ. αποτελεί έναν πρώτης τάξης επαναληπτικό αλγόριθμο βελτιστοποίησης. Έτσι, η μέθοδος βελτιστοποίησης για τον εντοπισμό ενός τοπικού ελαχίστου επιλέγει βήμα ανάλογο με το αρνητικό της κλίσης (ή της κατά προσέγγιση κλίσης) της συνάρτησης στο τρέχον σημείο (Gradient Descent) ενώ αν κατευθυνθεί ανάλογα με το θετικό της κλίσης τότε προσεγγίζει ένα τοπικό μέγιστο της συνάρτησης (Gradient Ascent). Η βασική ιδέα της μεθόδου βασίζεται στην παρατήρηση ότι αν η Ƒ(x) είναι μία συνάρτηση που ορίζεται και είναι διαφορίσιμη σε μία γειτονιά z, τότε η Ƒ(x) 99

120 μειώνεται ταχύτερα εάν ακολουθηθεί η διεύθυνση της αρνητικής παραγώγου της Ƒ(x) στο z. Οπότε, αν Ƒ τότε για αρκετά μικρές τιμές του ισχύει Ƒ( ) Ƒ( ), αφού ο όρος Ƒ αφαιρείται από το z επειδή επιθυμείται η αντίθετη κατεύθυνση από την κλίση, δηλ. προς το ελάχιστο της συνάρτησης. Έτσι, επαναλαμβάνοντας την σχέση, για την ακολουθία ισχύει και άρα είναι πιθανό να προσεγγιστεί ένα τοπικό ελάχιστο της συνάρτησης. Με συγκεκριμένες υποθέσεις για την συνάρτηση Ƒ(x) και σωστές επιλογές στην τιμή της παραμέτρου, η σύγκλιση σε ένα τοπικό ελάχιστο μπορεί να εγγυηθεί. Ο όρος καθορίζει τη συμμετοχή Εικόνα 3.4 : Το παραπάνω δισδιάστατο σχήμα απεικονίζει μία τρισδιάστατη συνάρτηση μίας επιφάνειας αντεστραμμένης καμπάνας, όπου οι ελλείψεις (μπλε περιγράμματα) αντιστοιχούν σε σημεία με ίδια τιμή. Τα κόκκινα βέλη δείχνουν την κατεύθυνση της αρνητικής κλίσης για το σημείο της επιφάνειας που εκκινούν. Η αρνητική κλίση σε ένα σημείο είναι κάθετη στην έλλειψη που διέρχεται από αυτό το σημείο. Έτσι, η κλίση καθόδου οδηγεί στο χαμηλότερο σημείο της επιφάνειας, δηλ. σε ένα σημείο ελαχίστου της συνάρτησης. Εικόνα διαθέσιμη από : ( της παραγώγου στην ενημέρωση της τιμής της μεταβλητής και ονομάζεται βήμα ή ρυθμός εκμάθησης (step or learning rate ). Η επιλογή του κατάλληλου ρυθμού εκμάθησης και η αλλαγή της τιμής του ρυθμού εκμάθησης κατά την εξέλιξη της διαδικασίας είναι μία αρκετά δύσκολη υπόθεση. Μια τυπική τεχνική που λειτουργεί καλά στην πράξη είναι η χρήση ενός σταθερού ρυθμού εκμάθησης στα πρώτα epochs (το πέρασμα από ολόκληρο το πεπερασμένου μεγέθους σύνολο εκμάθησης) μέχρι την επίτευξη σταθερής σύγκλισης και στη συνέχεια η τιμή του ρυθμού εκμάθησης να μειώνεται καθώς η σύγκλιση επιβραδύνεται. Μια ακόμα καλύτερη προσέγγιση είναι η χρησιμοποίηση ενός υποσυνόλου των δεδομένων (hold-out validation set) για τον έλεγχο της συνάρτησης απωλειών μετά από κάποια epochs έτσι ώστε ο ρυθμός εκμάθησης να μεταβάλλεται με τέτοιο τρόπο ώστε να οδηγεί σε μείωση την συνάρτηση απωλειών και με αυτό τον τρόπο να επιτυγχάνεται καλή σύγκλιση σε ένα τοπικό ελάχιστο. Μια άλλη συνηθισμένη τακτική για την προοδευτική μείωση του ρυθμού εκμάθησης είναι να ακολουθεί την σχέση κάθε επανάληψη t, όπου τα α και b επιλέγονται σε συνάρτηση με τα διαθέσιμα δεδομένα (data set-dependent way). Τέλος, οι πιο εξελιγμένες μέθοδοι περιλαμβάνουν τη χρήση μίας επαναλαμβανόμενης γραμμικής σάρωσης (backtracking line search) για την εύρεση της καλύτερης τιμής ενημέρωσης του ρυθμού εκμάθησης κατά την διάρκεια της εκτέλεσης της Gradient Descent. σε 100

121 Έτσι, η μέθοδος Gradient Descent μπορεί να χρησιμοποιηθεί για την επίλυση του προβλήματος βελτιστοποίησης ώστε να υπολογιστεί ο πίνακας ενημέρωσης επαναλαμβάνοντας την αναδρομική σχέση Μία συνηθισμένη βελτιωτική επέκταση για την αποφυγή ταλαντώσεων (οι οποίες έχουν σαν συνέπεια την αργή ή και αδύνατη σύγκλιση σε ένα ελάχιστο) κατά την επαναληπτική διαδικασία υπολογισμού του πίνακα είναι η χρήση του momentum έτσι ώστε σε κάθε επανάληψη η επόμενη ενημέρωση της μεταβλητής να καθορίζεται από τον γραμμικό συνδυασμό της κλίσης και της προηγούμενης ενημέρωσης. Άρα, η αναδρομική σχέση με momentum λαμβάνει την μορφή όπου είναι η διαφορά ανάμεσα σε δύο διαδοχικές ενημερώσεις του και είναι ο συντελεστής βαρύτητας momentum που καθορίζει την σημασία της προηγούμενης ενημέρωσης στην τρέχουσα ενημέρωση της ζητούμενης μεταβλητής. Συχνά στην πράξη ο υπολογισμός της κλίσης για ολόκληρο το σύνολο εκμάθησης μπορεί να αποδειχτεί μία πολύ αργή διεργασία και μερικές φορές ανέφικτη είτε γιατί είναι τεράστιος ο όγκος των δεδομένων και άρα είναι υπολογιστικά δυσλειτουργικό είτε γιατί είναι δυναμικά δεδομένα που παράγονται σαν συνάρτηση του χρόνου. Επίσης, οι μέθοδοι βελτιστοποίησης batch type, δηλ. που υλοποιούνται έχοντας πρόσβαση σε ολόκληρο το σύνολο εκμάθησης, δεν παρέχουν έναν εύκολο τρόπο για την ενσωμάτωση νέων δεδομένων, όπως αντίθετα επιτυγχάνουν οι online προσεγγίσεις, οι οποίες βασίζονται σε στοχαστικές διαδικασίες και διαχειρίζονται τα δείγματα εκμάθησης ένα-ένα τη φορά ή συσσωρεύουν δείγματα μαζί σε μικρά σύνολα που ονομάζονται minibatches. Έτσι, εκτός από την batch Gradient Descent μέθοδο που χρησιμοποιεί όλα τα δείγματα εκμάθησης σε κάθε επανάληψη (δηλ. για κάθε ενημέρωση της ζητούμενης μεταβλητής) υπάρχει και η online εκδοχή που ονομάζεται Stochastic Gradient Descent και χρησιμοποιεί ένα δείγμα σε κάθε επανάληψη. Επίσης, για την επιτάχυνση της σύγκλισης έχει αναπτυχθεί και μία ενδιάμεση εναλλακτική στις δύο παραπάνω εκδοχές η οποία χρησιμοποιεί διαδοχικά μικρά διαχειρίσιμα σύνολα δειγμάτων σε κάθε επανάληψη και ονομάζεται minibatch Gradient Descent ή 101

122 Stochastic Gradient Descent with minibatch. Στις στοχαστικές προσεγγίσεις ένα σημαντικό σημείο που πρέπει να σημειωθεί είναι η σειρά με την οποία παρουσιάζονται τα δεδομένα στον αλγόριθμο. Εάν τα δεδομένα εμφανίζονται με κάποια σειρά, αυτό μπορεί να επιφέρει bias (υπο-προσαρμογή) κατά τον υπολογισμό της κλίσης και να οδηγήσει σε κακή σύγκλιση. Οπότε, για να αποφευχθεί αυτό μια καλή τακτική είναι να ανακατεύονται τυχαία (shuffle) τα δεδομένα πριν από κάθε epoch. Η μέθοδος ελάττωσης διάστασης DRLIM υπολογίζει τον πίνακα μετασχηματισμού (από τον υψηλής διάστασης (k) χώρο στον χαμηλότερης διάστασης (ɳ) χώρο) χρησιμοποιώντας τα ζευγάρια εκμάθησης, με από όλες τις εικόνες εκμάθησης μαζί με τις ετικέτες τους ώστε να επιλύσει το πρόβλημα ελαχιστοποίησης της συνάρτησης contrastive loss, το οποίο για περιγράφεται από την σχέση : Στην τοπολογία Deep Sparse Coding, το παραπάνω πρόβλημα βελτιστοποίησης επιλέγεται να επιλυθεί με την μέθοδο minibatch Gradient Descent (ή Stochastic Gradient Descent with minibatch) σύμφωνα με την επαναληπτική σχέση για την ενημέρωση του πίνακα : όπου σε κάθε επανάληψη για την ενημέρωση του πίνακα μετασχηματισμού επιλέγεται τυχαία ένα υποσύνολο ζευγαριών από όλα τα διαθέσιμα ζευγάρια, δηλ., ενώ είναι το βήμα ή ρυθμός εκμάθησης της μεθόδου SGD-minibatch. Η κλίση για ένα ζευγάρι, υπολογίζεται από την σχέση : όπου 102

123 και σε κλειστή μορφή χρησιμοποιώντας την διμελής δείκτρια συνάρτηση (binary indicator factor) είναι : όπου η ευκλείδεια απόσταση των διανυσμάτων του κάθε ζευγαριού στον προκύπτον χαμηλής διάστασης χώρο (δηλ. η ²-νόρμα του διανύσματος ) και είναι η παράμετρος της συνάρτησης contrastive loss που αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους, δηλ. καθορίζει μία σφαίρα ακτίνας β στον χαμηλής διάστασης χώρο όπου τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους μόνο αν η απόστασή τους στον προκύπτον χαμηλής διάστασης χώρο βρίσκεται μέσα στην σφαίρα. Οι παράμετροι που διέπουν τη διαδικασία υπολογισμού του πίνακα μετασχηματισμού είναι οι παράμετροι που ρυθμίζουν την μέθοδο βελτιστοποίησης Stochastic Gradient Descent με minibatch και οι παράμετροι που σχετίζονται με τον ορισμό της συνάρτησης contrastive loss. Έτσι, στη μέθοδος Stochastic Gradient Descent με minibatch επιλέγεται το βήμα (ή ρυθμός εκμάθησης), που καθορίζει τη συμμετοχή της παραγώγου στην ενημέρωση της τιμής της μεταβλητής, ο συντελεστής βαρύτητας momentum, που καθορίζει την σημασία της προηγούμενης ενημέρωσης στην τρέχουσα ενημέρωση της ζητούμενης μεταβλητής (αν και στην παρούσα υλοποίηση δεν χρησιμοποιήθηκε momentum γιατί δεν θεωρήθηκε απαραίτητο για την επίτευξη σύγκλισης [He 2014] παρά ταύτα θα ήταν πολύ εύκολο να ενσωματωθεί στην σχέση ενημέρωσης) και το πλήθος των ζευγαριών, που θα χρησιμοποιούνται σε κάθε επανάληψη για τον υπολογισμό της κλίσης και άρα την ενημέρωση του πίνακα. Όσον αφορά τη συνάρτηση contrastive loss, πρέπει να επιλεγεί μία μετρική απόστασης στον προκύπτον χώρο χαμηλής διάστασης έτσι ώστε να υπολογίζονται οι διανυσματικές αποστάσεις των αναπαραστάσεων σε αυτό το χώρο. Αυτό είναι αναγκαίο ώστε κατά τη διαδικασία ελάττωσης διάστασης οι σχέσεις γειτνίασης που υπήρχαν στον αρχικό χώρο υψηλής διάστασης να προσεγγίζονται από απλές αποστάσεις μέτρησης στον χαμηλότερης διάστασης χώρο. Η πιο απλή μετρική απόστασης είναι η ευκλείδεια απόσταση και αυτή συναντάται και στην βιβλιογραφία κατά την χρήση της συνάρτησης contrastive loss ([Hadsell 2006],[He 2014]). Οπότε, στον προκύπτον χώρο χαμηλής διάστασης επιλέγεται η ευκλείδεια απόσταση για την σύγκριση των διανυσμάτων (αν και κάποιος θα μπορούσε να χρησιμοποιήσει μία άλλη μετρική απόστασης που θα θεωρούσε ότι ταιριάζει καλύτερα στα δεδομένα που θέλει να διαχειριστεί). Άρα, η απόσταση δύο αναπαραστάσεων, ( ) στον προκύπτον χώρο χαμηλής 103

124 διάστασης, που έχουν προέλθει από δύο δείγματα υψηλής διάστασης χώρου, ορίζεται ως η, ( ) του αρχικού ευκλείδεια απόσταση. Άλλη μία παράμετρος της συνάρτησης contrastive loss (εκτός από την μετρική απόστασης) είναι η τιμή του, το οποίο αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους. Η παράμετρος εξαρτάται έμμεσα από την επιλογή μετρικής απόστασης στον χώρο χαμηλής διάστασης αφού προσδιορίζει μία σφαίρα ακτίνας β στον χώρο χαμηλής διάστασης, όπου τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους μόνο αν η απόστασή τους στον προκύπτον χαμηλής διάστασης χώρο βρίσκεται μέσα στην σφαίρα, δηλ. η ευκλείδεια απόσταση συγκρίνεται με το όριο iii Πραγματοποίηση της διαδικασίας ελάττωσης διάστασης : Εφόσον η συνάρτηση μετασχηματισμού έχει υπολογιστεί, το τελευταίο στάδιο είναι η εφαρμογή της συνάρτησης μετασχηματισμού σε κάθε δείγμα για την πραγματοποίηση της ελάττωσης διάστασης των δεδομένων. Η συνάρτηση μετασχηματισμού αντιστοιχεί στον πίνακα μετασχηματισμού, ο οποίος πολλαπλασιάζεται με κάθε διάνυσμα του υψηλής διάστασης χώρου ώστε να το μετασχηματίσει σε ένα διάνυσμα του χαμηλότερης διάστασης χώρου. Ο πίνακας μετασχηματισμού υπολογίζεται με τη βοήθεια της μεθόδου Stochastic Gradient Descent with minibatch ελαχιστοποιώντας την συνάρτηση contrastive loss. Τα ζευγάρια και οι ετικέτες που χρειάζονται για τον σχηματισμό της συνάρτησης contrastive loss προσδιορίζονται με βάση τις χωρικές αποστάσεις (σε μονάδες pixels) των διανυσμάτων, δηλ. τις αποστάσεις των χωρικών θέσεων (κέντρο Field of View) των διανυσμάτων στην εικόνα. Κατά συνέπεια, ο πίνακας μετασχηματισμού έχει σχεδιαστεί έτσι ώστε να λαμβάνει υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και με αυτόν τον τρόπο να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Στα διανύσματα αραιής αναπαράστασης που έχουν υπολογιστεί στο προηγούμενο επίπεδο της τοπολογίας Deep Sparse Coding εκτελείται η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε ομάδες γειτονικών διανυσμάτων για να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα για κάθε ομάδα. Συνεπώς, προκύπτει ένα νέο σύνολο διανυσμάτων (pooled vectors). Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει, δηλ. έχουν διάσταση όσα και τα άτομα του λεξικού του προηγούμενου επιπέδου (αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης, δηλ. δεν μεταβάλλεται η διάσταση των διανυσμάτων κατά τη 104

125 διαδικασία συγκέντρωσης (pooling)). Το πλήθος των pooled διανυσμάτων ενδέχεται να είναι διαφορετικό από το πλήθος των διανυσμάτων αραιής αναπαράστασης του προηγούμενου επιπέδου διότι εξαρτάται από το πλήθος των ομάδων γειτονικών διανυσμάτων που θα δημιουργηθούν, δηλ. καθορίζεται από την παράμετρο υποδειγματοληψίας (subsampling) της διαδικασίας της τοπικής χωρικής συγκέντρωσης. Η τοπική χωρική συγκέντρωση εξασφαλίζει ότι τα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη. Στη συνέχεια, στο νέο σύνολο των pooled διανυσμάτων πραγματοποιείται η διαδικασία ελάττωσης διάστασης για να υπολογιστούν οι πυκνές αναπαραστάσεις που θα τροφοδοτήσουν το επόμενο επίπεδο αραιής αναπαράστασης της τοπολογίας. Έτσι, τα pooled διανύσματα σε συνδυασμό με τη χωρική θέση τους (κέντρο Field of View) στην εικόνα χρησιμοποιούνται από τη διαδικασία DRLIM ώστε να σχηματιστούν τα ζευγάρια εκμάθησης μαζί με τις ετικέτες (0 ή 1) που τα χαρακτηρίζουν. Τα ζευγάρια και οι ετικέτες τους είναι απαραίτητα για τον υπολογισμό της συνάρτησης contrastive loss, η οποία συνθέτει το πρόβλημα ελαχιστοποίησης που επιλύεται με τη βοήθεια της μεθόδου Stochastic Gradient Descent with minibatch ώστε να προκύψει ο πίνακας μετασχηματισμού. Ο πίνακας μετασχηματισμού πολλαπλασιάζεται με κάθε pooled διάνυσμα του υψηλής διάστασης χώρου (k-διάστασης) ώστε να προκύψει το κάθε ένα διάνυσμα του χαμηλής διάστασης χώρου (ɳ-διάστασης) με ɳ k, δηλ. για κάθε pooled διάνυσμα του υψηλής διάστασης χώρου υπολογίζεται το αντίστοιχο διάνυσμα του χαμηλής διάστασης χώρου. Εν τέλει, η διαδικασία ελάττωσης διάστασης DRLIM μεταχειρίζεται τα pooled διανύσματα που προκύπτουν από τη διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) και έτσι το πλήθος των πυκνών αναπαραστάσεων που θα τροφοδοτήσουν το επόμενο επίπεδο αραιής αναπαράστασης της τοπολογίας καθορίζεται από την παράμετρο υποδειγματοληψίας (subsampling) της διαδικασίας της τοπικής χωρικής συγκέντρωσης. Επομένως, φαίνεται ξεκάθαρα η ανεξαρτησία και η συμβολή της μονάδας σύνδεσης στην τοπολογία Deep Sparse Coding έτσι ώστε να είναι αποδοτική μία αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης iv Σύνοψη της διαδικασίας ελάττωσης διάστασης DRLIM : Οι δύο δυσκολίες που συναντώνται στην ανάπτυξη μίας αποδοτικής αρχιτεκτονικής πολλαπλών επιπέδων αραιής αναπαράστασης είναι η αξιοποίηση της χωρικής πληροφορίας των patches της εικόνας κατά την διαδοχή των επιπέδων, έτσι ώστε τα πιο σύνθετα χαρακτηριστικά (που σχηματίζονται στα ανώτερα (βαθύτερα) επίπεδα της τοπολογίας) να προκύπτουν σαν συνδυασμός 105

126 απλούστερων χαρακτηριστικών (που υπολογίζονται στα κατώτερα επίπεδα), και η διαχείριση της ιδιότητας της μη-ομαλότητας της αραιής κωδικοποίησης, πράγμα που σημαίνει ότι μία μικρή μεταβολή στο διάνυσμα που πρόκειται να κωδικοποιηθεί ενδέχεται να οδηγήσει σε πολύ διαφορετική αραιή αναπαράσταση. Τα δύο παραπάνω ζητήματα, που περιόριζαν την αρχιτεκτονική αραιής αναπαράστασης σε ένα επίπεδο, αντιμετωπίζονται αποτελεσματικά από την μονάδα σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης στην τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης Deep Sparse Coding. Η μονάδα σύνδεσης συγκροτείται από μία διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και από μία διαδικασία ελάττωσης διάστασης (Dimensionality Reduction) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η τοπική χωρική συγκέντρωση εξασφαλίζει ότι τα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη. Η μέθοδος ελάττωσης διάστασης DRLIM πραγματοποιεί την εκμάθηση της συνάρτησης μετασχηματισμού ελαχιστοποιώντας την συνάρτηση contrastive loss με τη βοήθεια της μεθόδου Stochastic Gradient Descent with minibatch. Τα απαραίτητα ζευγάρια εκμάθησης μαζί με τις ετικέτες (0 ή 1) που τα χαρακτηρίζουν δημιουργούνται χρησιμοποιώντας την χωρική απόσταση των δειγμάτων σαν προηγούμενη γνώση (prior knowledge) για τον προσδιορισμό των σχέσεων γειτνίασης μεταξύ των δύο δειγμάτων του κάθε ζευγαριού. Άρα, η DRLIM παρέχει την δυνατότητα ενσωμάτωσης της προηγούμενης γνώσης στη διαδικασία ελάττωσης διάστασης. Έτσι, εφόσον η προηγούμενη γνώση συνοψίζεται στην ιδέα ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα, αυτό έχει σαν συνέπεια η DRLIM να εκτελείται λαμβάνοντας υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και έτσι να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Επομένως, η ενσωμάτωση της πληροφορίας από μία ευρύτερη περιοχή της εικόνας στα διανύσματα του υψηλής διάστασης χώρου, που προκύπτουν μέσω της διαδικασία συγκέντρωσης (pooling) σε ομάδες γειτονικών διανυσμάτων αραιής αναπαράστασης, σε συνδυασμό με τη διαδικασία ελάττωσης διάστασης, που πραγματοποιείται διατηρώντας τη χωρική πληροφορία ομαλότητας, έχει σαν αποτέλεσμα την ιεραρχική εκμάθηση από το ένα επίπεδο στο επόμενο, δηλ. το σύστημα ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που παράγει και έτσι επιτυγχάνει καλή απόδοση σε προβλήματα αναγνώρισης αντικειμένων [He 2014]. 106

127 Κεφάλαιο 4 : Πειραματικά Αποτελέσματα Η αραιή αναπαράσταση αποτελεί μία μέθοδο μη εποπτευόμενης μάθησης (unsupervised learning) του τομέα της Μηχανική Μάθησης (ή Εκμάθησης) με αξιοσημείωτα αποτελέσματα τόσο σε απλά προβλήματα, όπως απομάκρυνσης θορύβου, σύνθεση υφής, επεξεργασίας ήχου κ.ά. όσο και σε πιο σύνθετα, όπως προβλήματα ταξινόμησης και ομαδοποίησης. Η αραιή αναπαράσταση βασίζεται σε δύο χαρακτηριστικά, που είναι η υπερπληρότητα του λεξικού και η αραιότητα της αναπαράστασης. Το πλεονέκτημα της χρήσης ενός υπερπλήρους λεξικού είναι ότι τα άτομα του λεξικού μπορούν να αποκαλύψουν πιο εύκολα τις δομές και τα πρότυπα που είναι εγγενή με τα σήματα εισόδου και έτσι δύναται να καταγράψουν χαρακτηριστικά υψηλότερου επιπέδου στα δεδομένα, ενώ το κριτήριο της αραιότητας χρησιμοποιείται για την επίλυση του εκφυλισμού που εισάγεται από την υπερπληρότητα. Η χρήση ενός υπερπλήρους συνόλου και η ενεργοποίηση λίγων μόνο στοιχείων του συνόλου για ένα δεδομένο σήμα εισόδου είναι μια διαδικασία που έχει παρατηρηθεί σε βιολογικούς νευρώνες και ενθαρρύνεται από την παρατήρηση ότι τα περισσότερα φυσικά ερεθίσματα μπορούν να περιγραφούν ως υπέρθεση ενός μικρού αριθμού στοιχείων. Τελικά, η αραιή κωδικοποίηση επιτυγχάνει να καταγράψει σύνθετες και υποβόσκοντες πληροφορίες του σήματος στα χαρακτηριστικά διανύσματα που παράγει με συνέπεια αυτά να μπορούν να χρησιμοποιηθούν σε διάφορα προβλήματα. Η επέκταση της αραιής αναπαράστασης σε μία πολλαπλών επιπέδων αρχιτεκτονική θα έχει σαν συνέπεια την ενσωμάτωση ιεραρχικών πληροφοριών στα χαρακτηριστικά που εξάγει. Αυτό επιτυγχάνεται μέσα από τη σύνθεση της αρχιτεκτονικής Bag-of-Visual-words και της αρχιτεκτονικής deep Learning για την ανάπτυξη μίας αρχιτεκτονικής μη-εποπτευόμενης μάθησης χαρακτηριστικών, που ονομάζεται Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση). Οι δύο δυσκολίες που συναντώνται στην ανάπτυξη μίας αποδοτικής αρχιτεκτονικής πολλαπλών επιπέδων αραιής αναπαράστασης είναι η αξιοποίηση της χωρικής πληροφορίας των patches της εικόνας κατά την διαδοχή των επιπέδων, έτσι ώστε τα πιο σύνθετα χαρακτηριστικά (που σχηματίζονται στα ανώτερα (βαθύτερα) επίπεδα της τοπολογίας) να προκύπτουν σαν συνδυασμός απλούστερων χαρακτηριστικών (που υπολογίζονται στα κατώτερα επίπεδα), και η διαχείριση της ιδιότητας της μη-ομαλότητας της αραιής κωδικοποίησης, πράγμα που σημαίνει ότι μία μικρή μεταβολή στο διάνυσμα που πρόκειται να κωδικοποιηθεί ενδέχεται να οδηγήσει σε πολύ διαφορετική αραιή αναπαράσταση. Τα δύο παραπάνω ζητήματα, που περιόριζαν την αρχιτεκτονική αραιής 107

128 αναπαράστασης σε ένα επίπεδο, αντιμετωπίζονται αποτελεσματικά από την μονάδα σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης στην τοπολογία πολλαπλών επιπέδων αραιής αναπαράστασης Deep Sparse Coding. Η μονάδα σύνδεσης συγκροτείται από μία διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) των αραιών αναπαραστάσεων που έχουν υπολογιστεί στο προηγούμενο επίπεδο και από μία διαδικασία ελάττωσης διάστασης (Dimensionality Reduction) για την παραγωγή των πυκνών αναπαραστάσεων που θα διαδοθούν στο επόμενο επίπεδο. Η τοπική χωρική συγκέντρωση εξασφαλίζει ότι τα πιο σύνθετα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση γειτονικών απλούστερων χαρακτηριστικών χαμηλότερου επιπέδου και ως εκ τούτου ότι καλύπτονται μεγαλύτερες περιοχές της εικόνας καθώς η τοπολογία γίνεται βαθύτερη ενώ η μέθοδος ελάττωσης διάστασης εκτελείται λαμβάνοντας υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας έτσι ώστε να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Κατά την εκτέλεση της μεθόδου Deep Sparse Coding, η διαστατικότητα των διανυσμάτων αυξάνεται από τις μονάδες αραιής αναπαράστασης και ελαττώνεται από τις μονάδες σύνδεσης (μέσω της διαδικασία ελάττωσης διάστασης) και αυτή η διαδικασία επαναλαμβάνεται όσο βαθύτερη είναι η τοπολογία, δηλ. όσο προστίθεται επίπεδα. Άρα, η τοπολογία Deep Sparse Coding ακολουθεί τη μορφή ακορντεόν εναλλάσσοντας μία διαδικασία αύξησης της διαστατικότητας των διανυσμάτων (αραιή αναπαράσταση) με μία διαδικασία ελάττωσης της διαστατικότητας των διανυσμάτων (ελάττωση διάστασης στη μονάδα σύνδεσης). Η εκτέλεση της τοπικής χωρικής συγκέντρωσης πριν από κάθε επίπεδο αραιής αναπαράστασης έχει σαν αποτέλεσμα όσο βαθύτερο είναι το επίπεδο τόσο μεγαλύτερες να είναι οι περιοχές της εικόνας που καλύπτονται από τα διανύσματα που συγκεντρώνονται μαζί και άρα, η επόμενη κωδικοποίηση να περιέχει την πληροφορία από όλο και ευρύτερη γειτονιά της εικόνας. Έτσι, τα πιο σύνθετα χαρακτηριστικά δημιουργούνται στα βαθύτερα επίπεδα από την σύνθεση απλούστερων χαρακτηριστικών από τα προηγούμενα επίπεδα. Η διαδικασία ελάττωσης διάστασης εκτελείται λαμβάνοντας υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και έτσι διατηρείται η χωρική πληροφορία ομαλότητας. Οπότε, οι αραιές αναπαραστάσεις σε κάθε επίπεδο διατηρούν την χωρική ομαλότητα μεταξύ των patches της εικόνας και οι αραιές αναπαραστάσεις από διαφορετικά επίπεδα αντιστοιχούν σε διαφορετικές χωρικές περιοχές της εικόνας, που έχουν προκύψει από την διαδοχή των πληροφοριών στα επίπεδα της τοπολογίας. Άρα, η ενσωμάτωση της πληροφορίας από μία ευρύτερη περιοχή της εικόνας στα διανύσματα του υψηλής διάστασης χώρου -που προκύπτει μέσω της διαδικασία συγκέντρωσης (pooling) σε ομάδες γειτονικών διανυσμάτων αραιής αναπαράστασης- σε συνδυασμό με τη διαδικασία ελάττωσης διάστασης -που πραγματοποιείται διατηρώντας τη χωρική πληροφορία ομαλότητας- έχει σαν 108

129 αποτέλεσμα την ιεραρχική εκμάθηση από το ένα επίπεδο της τοπολογίας στο επόμενο. Συνεπώς, η τοπολογία Deep Sparse Coding αποτελεί μία αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης που διατηρεί τη χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας και ταυτόχρονα ενσωματώνει προοδευτικά ιεραρχικές πληροφορίες στα χαρακτηριστικά που παράγει μέσω της βαθιάς τοπολογίας της. Η τοπολογία Deep Sparse Coding εκπαιδεύεται ανά επίπεδο με μηεποπτευόμενη μέθοδο (unsupervised layer-wise training). Αυτό επιτυγχάνεται διότι τόσο κάθε επίπεδο αραιής αναπαράστασης όσο και οι μονάδες σύνδεσης μεταξύ των επιπέδων μπορούν να διατυπωθούν σαν ρητά ανεξάρτητα προβλήματα βελτιστοποίησης. Έτσι, κάθε επίπεδο της τοπολογίας αντιστοιχεί σε ένα ανεξάρτητο πρόβλημα αραιής αναπαράστασης, δηλ. σε κάθε επίπεδο το λεξικό αραιής αναπαράστασης προκύπτει από μια διαδικασία εκμάθησης με βάση τα δεδομένα εισόδου στο συγκεκριμένο επίπεδο και οι συντελεστές αραιής αναπαράστασης -που προκύπτουν από τη διαδικασία κωδικοποίησης- αποτελούν την έξοδο αυτού του επιπέδου. Με αυτό τον τρόπο η εκμάθηση λεξικού και η αραιή κωδικοποίηση σε κάθε επίπεδο είναι ανεξάρτητη και δεν επηρεάζεται από τα υπόλοιπα επίπεδα αραιής αναπαράστασης της τοπολογίας. Επίσης, σε κάθε μονάδα σύνδεσης της τοπολογίας εισάγονται οι αραιές αναπαραστάσεις του προηγούμενου επιπέδου, πραγματοποιείται η διαδικασία τοπικής χωρικής συγκέντρωσης και η ελάττωση διάστασης από την μέθοδο DRLIM ώστε τελικά, οι πυκνές αναπαραστάσεις χαμηλής διάστασης να τροφοδοτούν το επόμενο επίπεδο αραιής αναπαράστασης της τοπολογίας. Επομένως, οι παράμετροι που ρυθμίζουν την αραιή αναπαράσταση και οι παράμετροι που ρυθμίζουν τις μονάδες σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης στην τοπολογία Deep Sparse Coding καθορίζονται ξεχωριστά σε κάθε θέση της τοπολογίας με κριτήριο την καλύτερη απόδοση του συστήματος (greedy layer-wise parameters selection). Συνεπώς, η αρχιτεκτονική Deep Sparse Coding αποτελεί μία μέθοδο μη-εποπτευόμενης μάθησης χαρακτηριστικών που μπορεί να εκπαιδευτεί με άπληστο τρόπο (greedy) με ένα επίπεδο (layer) τη φορά, και όχι να βελτιστοποιηθούν όλα τα επίπεδα αραιής αναπαράστασης μαζί. Η τοπολογία Deep Sparse Coding εφαρμόζεται σε δύο προβλήματα υπολογιστικής όρασης (computer vision). Το πρώτο είναι η αναγνώριση φυσικών εικόνων και το δεύτερο είναι η αναγνώριση βιομετρικών χαρακτηριστικών και συγκεκριμένα η αναγνώριση χειρόγραφων υπογραφών. 109

130 4.1 Εφαρμογή της τοπολογίας Deep Sparse Coding για την ταξινόμηση φυσικών εικόνων : Οι βάσεις δεδομένων Caltech-101 και Caltech-256 : Η οπτική αναγνώριση αντικειμένων αποτελεί πρωταρχικό θέμα στην υπολογιστική όραση και στη μηχανική μάθηση, με την κυρίαρχη προσέγγιση στην αναγνώριση αντικειμένων να είναι η εκμάθηση αναπαραστάσεων (χαρακτηριστικών) από τα δεδομένα (π.χ. εικόνα, βίντεο). Έτσι, το ζητούμενο είναι ο σχεδιασμός μίας αποτελεσματικής αρχιτεκτονικής, που θα μπορεί να αποκαλύπτει τα σημαντικά και υποβόσκοντα χαρακτηριστικά των δεδομένων. Στην παρούσα εργασία, συνδυάζεται η αρχιτεκτονική Bag-of-Visual-words με αραιή αναπαράσταση με την αρχιτεκτονική deep Learning για την ανάπτυξη μίας αρχιτεκτονικής μηεποπτευόμενης μάθησης χαρακτηριστικών, που ονομάζεται Deep Sparse Coding (Βαθιά Αραιή Κωδικοποίηση) και η οποία αποτελείται από πολλαπλά επίπεδα αραιής αναπαράστασης ώστε να ενσωματώνει ιεραρχικές πληροφορίες στα χαρακτηριστικά που εξάγει. Οι βάσεις δεδομένων που θα χρησιμοποιηθούν για την μελέτη της τοπολογίας Deep Sparse Coding στην ταξινόμηση φυσικών εικόνων είναι η Caltech-101 και η Caltech-256 (Fei-Fei 2004], [Griffin 2006]). Η Caltech-101 αποτελείται από 9144 εικόνες από 101 κατηγορίες (όπως ζώα, οχήματα, λουλούδια, κ.ά.). Το πλήθος των εικόνων σε κάθε κατηγορία ποικίλει από 31 έως 800. Οι περισσότερες εικόνες είναι μέτριας ανάλυσης (medium resolution) με περίπου 300 x 300 pixels. Βέβαια, στις περισσότερες εικόνες τα αντικείμενα είναι κεντραρισμένα ώστε να καταλαμβάνουν το μεγαλύτερο μέρος της εικόνας ενώ ορισμένες κατηγορίες (π.χ. μιναρές) επηρεάζονται από corner artifacts που προκύπτουν από την τεχνητή περιστροφή της εικόνας. Τα artifacts αυτά, αν και είναι σημασιολογικά άσχετα μεταξύ τους, μπορούν να οδηγήσουν σε παραπλανητικά υψηλά ποσοστά αναγνώρισης στις συγκεκριμένες κατηγορίες. Η Caltech-256 είναι η βελτιωμένη εκδοχή της Caltech-101, η οποία δεν έχει όλες τις εικόνες κεντραρισμένες, δεν έχει artifacts και είναι μεγαλύτερη. Η Caltech-256 αποτελείται από εικόνες από 256 κατηγορίες. Το πλήθος των εικόνων σε κάθε κατηγορία ποικίλει από 80 έως 800. Οι περισσότερες εικόνες είναι μέτριας ανάλυσης (medium resolution) με περίπου 300 x 300 pixels. Έτσι, η Caltech-256 έχει μεγαλύτερη intra-class variability και μεγαλύτερη object location variability σε σχέση με την Caltech-101. Με βάση τη χρήση της Caltech-101 από διάφορους συντάκτες για τον έλεγχο της απόδοσης διάφορων μεθόδων αναγνώρισης έχουν προκύψει δυο γενικά συμπεράσματα: πρώτον, η απόδοση ταξινόμησης αυξάνεται όσο περισσότερες εικόνες εκμάθησης χρησιμοποιούνται (training εικόνες) και δεύτερον, η απόδοση αυξάνεται όταν χρησιμοποιούνται όλες οι εικόνες δοκιμής (test εικόνες) από κάθε 110

131 κατηγορία. (διαθέσιμο από : Ο προσδιορισμός με σαφή τρόπο του πλήθους των εικόνων εκμάθησης και δοκιμής που επιλέγονται σε κάθε βάση δεδομένων είναι αναγκαίος ώστε να μπορούν να συγκριθούν οι διάφορες μέθοδοι μεταξύ τους με όμοια κριτήρια (setup). Έτσι, στην παρούσα εργασία για τον έλεγχο της τοπολογίας Deep Sparse Coding στην ταξινόμηση φυσικών εικόνων ακολουθείται το κυρίαρχο πρότυπο με 30 εικόνες ανά κατηγορία (class) για εκμάθηση (training) για την Caltech-101 και 60 εικόνες ανά κατηγορία (class) για εκμάθηση (training) για την Caltech-256 ενώ οι υπόλοιπες εικόνες κάθε κατηγορίας (class) χρησιμοποιούνται για δοκιμή (test) ([Fei-Fei 2004],[Grauman 2005],[Zhang 2005],[Griffin 2006]). Βέβαια, επειδή όλες οι κατηγορίες δεν έχουν το ίδιο πλήθος εικόνων, για την Caltech-101 οι εικόνες δοκιμής κυμαίνονται από 1 έως 770 ανά κατηγορία ενώ για την Caltech-256 οι εικόνες δοκιμή κυμαίνονται από 50 έως 770 ανά κατηγορία. Έτσι, για λόγους αποτελεσματικότητας, επιλέγονται τυχαία μέχρι 50 εικόνες ανά κατηγορία να χρησιμοποιούνται για δοκιμή ([Lazebnik 2006],[Boureau 2010,2011]). Για την ρύθμιση των παραμέτρων του συστήματος (hyperparametes του ταξινομητή, αραιότητα συντελεστών, κ.ά.) έχει προβλεφθεί στους αλγορίθμους να διαλέγει ο χρήστης αν η απόδοση του συστήματος -για την επιλογή των τιμών των παραμέτρων- θα ελέγχεται μέσω ενός συνόλου validation εικόνων, το οποίο συγκροτείται διαλέγοντας τυχαία μία εικόνα δοκιμής από κάθε κατηγορία, είτε μέσω cross-validation στο σύνολο των εικόνων εκμάθησης. Τέλος, η απόδοση της μεθόδου σε κάθε βάση δεδομένων προκύπτει υπολογίζοντας τη μέση ακρίβεια ταξινόμησης σε όλες τις κατηγορίες (average per class recognition accuracy), δηλ. βρίσκοντας την ακρίβεια ταξινόμησης σε κάθε κατηγορία και υπολογίζοντας την μέση τιμή για όλες τις κατηγορίες. Εικόνα 4.1 : Εικόνες από τις βάσεις δεδομένων Caltech-101 και Caltech

132 4.1.2 Τα στάδια της τοπολογίας Deep Sparse Coding : Για την ταξινόμηση φυσικών εικόνων χρησιμοποιείται η τοπολογία Deep Sparse Coding 3 επιπέδων (3 layers), η οποία αποτελείται από 3 επίπεδα αραιής αναπαράστασης και 2 μονάδες σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης έτσι ώστε να συνθέτεται η αρχιτεκτονική Bag-of-Visual-words με την πολλαπλών επιπέδων αραιή αναπαράσταση. Σημειώνεται εδώ ότι η εξαγωγή χαρακτηριστικών από την τοπολογία Deep Sparse Coding πραγματοποιείται με μη-εποπτευόμενη μάθηση, δηλ. η εκμάθηση των λεξικών και της συνάρτησης μετασχηματισμού που απαιτούνται κατά την εκτέλεση της τοπολογίας γίνεται σε επίπεδο διανυσμάτων και δεν απαιτείται η γνώση της κατηγορίας της εικόνας από την οποία προέρχεται το κάθε διάνυσμα. Ο ταξινομητής είναι η μονάδα που απαιτεί τη γνώση της κατηγορίας που ανήκει η κάθε εικόνα εκμάθησης ώστε να γνωρίζει σε ποια κατηγορία ανήκει το κάθε χαρακτηριστικό διάνυσμα (που έχει παραχθεί από την τοπολογία) της κάθε εικόνας εκμάθησης και έτσι να καταφέρει να σχεδιάσει το κατάλληλο μοντέλο που θα χρησιμοποιηθεί για την ταξινόμηση των άγνωστων εικόνων σε κάθε κατηγορία. Άρα, όλες οι διαδικασίες εκμάθησης για την εξαγωγή χαρακτηριστικών (δηλ. η εκτέλεση όλης της τοπολογίας εκτός από τον ταξινομητή) μπορούν να πραγματοποιηθούν επιλέγοντας τυχαία διανύσματα από όλες τις εικόνες της βάσης δεδομένων. Στην παρούσα υλοποίηση όμως, επιλέγεται τα λεξικά και η συναρτήσεις μετασχηματισμού για την ελάττωση διάστασης να υπολογίζονται χρησιμοποιώντας μόνο τα διανύσματα των εικόνων εκμάθησης, αν και η γνώση της κατηγορίας της εικόνας από την οποία προέρχεται το κάθε διάνυσμα δεν χρησιμοποιείται κατά τις διαδικασίες εκμάθησης. Απλά με αυτή τη -συνηθισμένηπροσέγγιση, διατηρείται η ιδιότητα της μη-εποπτευόμενης μάθησης της τοπολογίας και ταυτόχρονα υπάρχει μία καλύτερη εποπτεία των δεδομένων. Έτσι και αλλιώς, η εστίαση στο στάδιο της κωδικοποίησης έναντι του σταδίου της εκμάθησης είναι πιο κρίσιμης σημασίας, αφού έχει παρατηρηθεί ότι ακόμα και με πολύ απλή εκμάθηση λεξικού είναι δυνατόν να επιτευχθεί υψηλή απόδοση σε διάφορες βάσεις δεδομένων [Coates 2011]. 112

133 image Local Descriptors (e.g. SIFT) Deep Sparse Coding ( DSC ) Concatenate SIFTs NMF SR SPM LSP DR SR SPM SVM LSP DR SR SPM SIFT : Scale Invariant Feature Transform NMF : Non-negative Matrix Factorization (used as Dimensionality Reduction) SR : Sparse Representation (Dictionary Learning & Sparse Coding) LSP : Local Spatial Pooling DR : Dimensionality Reduction (by Dimensionality Reduction Learning an Invariant Mapping (DRLIM) SPM : Spatial Pyramid Matching (a Spatial Pyramid Pooling method) SVM : Support Vector Machine (Classifier) Εικόνα 4.2 : Η τοπολογία Deep Sparse Coding για αναγνώριση φυσικών εικόνων 113

134 Στην συνέχεια ακολουθούν τα στάδια της τοπολογίας Deep Sparse Coding 3 επιπέδων (DSC 3 layers), όπου το κάθε ένα στάδιο περιγράφεται συνοπτικά και αναφέρονται οι παράμετροι που ρυθμίζουν την διεργασία που εκτελείται σε αυτό. Προ-επεξεργασία εικόνων (preprocessing) Στο στάδιο της προ-επεξεργασίας των εικόνων εκτελούνται οι διεργασίες που έχουν ακολουθηθεί σε παρόμοια προβλήματα που μεταχειρίζονται τις παραπάνω αναφερθείσες βάσεις δεδομένων ([Lazebnik 2006],[Yang 2009]). Έτσι, πρώτα από όλα, οι εικόνες μετατρέπονται σε εικόνες κλίμακας του γκρι. Άρα, αν οι εικόνες διαθέτουν χρώμα (rgb images) μετατρέπονται σε εικόνες κλίμακας του γκρι (grayscale images) ενώ αν είναι ασπρόμαυρες (binary) παραμένουν ως έχουν. Στην συνέχεια, οι εικόνες (grayscale ή binary) μετασχηματίζονται ώστε το μέγιστο πλάτος ή ύψος τους να μην υπερβαίνει τα 300 pixels. Εξαγωγή κομματιών εικόνας (image patches) Τα patches της κάθε εικόνας έχουν μέγεθος 16 x 16 pixels και χωρική απόσταση μεταξύ τους 4 pixels. Δηλ. η απόσταση μεταξύ των κέντρων δύο διαδοχικών patches είναι 4 pixels (spatial stride : 4 pixels). Έχει παρατηρηθεί πειραματικά ότι όσο μεγαλύτερη είναι η πυκνότητα δειγματοληψίας των patches (δηλ. όσο μικρότερη είναι η χωρική απόσταση των διαδοχικών patches) τόσο καλύτερη είναι η απόδοση του συστήματος [Law 2014]. Επίσης, σημειώνεται εδώ, ότι οι τοπικοί περιγραφείς που θα υπολογιστούν στο επόμενο στάδιο είναι μίας κλίμακας (monoscale features), δηλ. δεν προκύπτουν από patches πολλαπλών μεγεθών (multiscale features). Υπολογισμός τοπικών περιγραφέων SIFT (Scale Invariant Feature Transform) Ο σκοπός είναι από κάθε patch να προκύπτει ένας τοπικός περιγραφές SIFT (Scale Invariant Feature Transform) [Lowe 1999]. Για να πραγματοποιηθεί αυτό χρησιμοποιείται μία πυκνή εκδοχή του SIFT (dense SIFT), η οποία δεν ανιχνεύει ακρότατα ώστε να εντοπίσει σημεία ενδιαφέροντος (key points) αλλά απλά υπολογίζει τον περιγραφέα SIFT σε κάθε patch (δηλ. θεωρεί το κέντρο του κάθε patch σαν σημείο ενδιαφέροντος). Επομένως, η πυκνή εκδοχή του SIFT λειτουργεί σε ένα πυκνό πλέγμα σημείων της εικόνας (δηλ. στα κέντρα των patches της εικόνας) με σταθερή κλίμακα (scale) και προσανατολισμό (orientation). Ο υπολογισμός των SIFT περιγραφέων 128 διαστάσεων από τα patches έχει σαν αποτέλεσμα μία καλύτερη και με περισσότερη πληροφορία αναπαράσταση των 114

135 μοτίβων που υπάρχουν σε κάθε patch σε σχέση απλά με τις τιμές των raw pixels. Ένα επιπλέον κριτήριο, που επιθυμείται να εισαχθεί στο σύστημα, είναι η αποφυγή διάδοσης περιγραφέων χαμηλής αντίθεσης στα επόμενα στάδια διότι επιφέρουν μεγάλο θόρυβο. Έτσι, οι περιγραφείς SIFT χαμηλής αντίθεσης ανιχνεύονται μετρώντας το μέσο όρο της κλίσης (σε κάθε περιγραφέα) και μηδενίζονται όταν ο μέσος όρος τους είναι κάτω από ένα συγκεκριμένο όριο. O υπολογισμός των τοπικών περιγραφέων SIFT πραγματοποιείται μέσω της συνάρτησης vl_phow, που περιλαμβάνεται στην εργαλειοθήκη VLFEAT της έκδοσης [Vedaldi 2008]. Η συνάρτηση vl_phow εφαρμόζεται απευθείας στην εικόνα, δηλ. εκτελεί και την εξαγωγή των patches αφού για κάθε patch υπολογίζει έναν 128 διαστάσεων SIFT περιγραφέα. Οπότε, οι παράμετροι που την ρυθμίζουν συμπεριλαμβάνουν και τις παραμέτρους εξαγωγής των patches. Έτσι, στη συνάρτηση vl_phow επιλέγεται το μέγεθος του κάθε patch να είναι 16 x 16 pixels και η χωρική απόσταση μεταξύ των κέντρων δύο διαδοχικών patches να είναι 4 pixels ενώ επιλέγεται να εξάγονται μίας κλίμακας patches (monoscale), διότι η συνάρτηση επιτρέπει και την εξαγωγή patches πολλαπλών μεγεθών (multiscale). Οι υπόλοιπες παράμετροι της συνάρτησης vl_phow διατηρούνται στις προεπιλεγμένες τιμές. Εικόνα 4.3 : Η παραπάνω εικόνα δείχνει στην γεωμετρία της πυκνής εκδοχής του SIFT περιγραφέα (dense SIFT descriptor geometry). Τα σημεία ενδιαφέροντος (key points) ανήκουν σε ένα πυκνό πλέγμα (dense grid) στην εικόνα αφού αντιστοιχούν στο κέντρο του κάθε patch. Έτσι, τα κέντρα των patches βρίσκονται στις ακέραιες συντεταγμένες εντός των ορίων της εικόνας και η απόστασή τους καθορίζεται από την παράμετρο sampling step, η οποία ορίζεται ως η απόσταση μεταξύ των κέντρων δύο διαδοχικών patches. Για τον υπολογισμό του περιγραφέα SIFT, σε κάθε σημείο ενδιαφέροντος προσδιορίζεται ένα παράθυρο με 4x4 κελιά (cells) γύρω του, όπου σε κάθε κελί υπολογίζεται το ιστόγραμμα των gradients (orientation histogram) με 8 προσανατολισμούς. Άρα, [8 προσανατολισμοί] x [(4x4) κελιά] = 128 διαστάσεις του SIFT περιγραφέα. Η παράμετρος bin size είναι η πλευρά σε pixels του καθενός από τα 16 τετράγωνα κελιά (cells) γύρω από το κάθε σημείο ενδιαφέροντος. Οπότε, η παράμετρος bin size καθορίζει το παράθυρο γύρω από το σημείο ενδιαφέροντος, δηλ. καθορίζει το μέγεθος του patch. Συνεπώς, όταν επιθυμείται το μέγεθος του patch να είναι 16 x 16 pixels και η απόσταση μεταξύ των κέντρων δύο διαδοχικών patches να είναι 4 pixels τότε η παράμετρος bin size ορίζεται στην τιμή 4 (αφού 4x4=16 η κάθε πλευρά του παραθύρου γύρω από το κάθε σημείο ενδιαφέροντος και άρα και η πλευρά του patch) και η παράμετρος sampling step ορίζεται στην τιμή 4 (αφού η απόσταση μεταξύ διαδοχικών patches είναι 4 pixels). (Εικόνα διαθέσιμη από : 115

136 Ένωση γειτονικών περιγραφέων SIFT (concatenating nearby SIFT descriptors) Στην αρχιτεκτονική Bag-of-Visual-words τα χαμηλής τάξης χαρακτηριστικά (π.χ. SIFT) συνήθως κωδικοποιούνται ανεξάρτητα μεταξύ τους, σε αντίθεση με τα συνελικτικά νευρωνικά δίκτυα (CNN) που γειτονικά χαμηλής τάξης χαρακτηριστικά κωδικοποιούνται μαζί. Ένας απλός τρόπος οι γειτονικοί τοπικοί περιγραφείς SIFT να κωδικοποιούνται μαζί είναι η σειριακή ένωσή τους. Έτσι, οι γειτονικοί -χωρικάπεριγραφείς SIFT ενώνονται σειριακά μαζί ώστε η πληροφορία από μία περιοχή της εικόνας να κωδικοποιείται μαζί [Boureau 2010]. Η παραπάνω διαδικασία μοιάζει με την τοπική χωρική συγκέντρωση (Local Spatial Pooling) με την διαφορά ότι στους γειτονικού SIFT περιγραφείς που δημιουργούν μία ομάδα δεν εκτελείται μία διαδικασία συγκέντρωσης (pooling) αλλά απλά ενώνονται σειριακά μαζί δημιουργώντας ένα macrofeature διάνυσμα. Οι παράμετροι που καθορίζουν την διαδικασία ένωσης γειτονικών περιγραφέων SIFT αφορούν τον αριθμό των περιγραφέων που ενώνονται μαζί σε ένα macrofeature διάνυσμα και το συνολικό πλήθος των macrofeatures διανυσμάτων σε μία εικόνα. Η πρώτη παράμετρος αφορά το πλήθος των περιγραφέων SIFT που θα ενωθούν μαζί και ορίζεται ως οι πλευρές ενός ορθογωνίου, το οποίο εμπεριέχει τους γειτονικούς περιγραφείς SIFT που θα ενωθούν μαζί. Έτσι, οι πλευρές του ορθογωνίου καθορίζουν πόσοι γειτονικοί περιγραφείς στην κατακόρυφη και πόσοι στην οριζόντια χωρική διάσταση της εικόνας θα ενωθούν μαζί. Άρα, η πρώτη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το πλήθος των περιγραφέων SIFT σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των περιγραφέων SIFT που θα ενωθούν μαζί. Η δεύτερη παράμετρος αφορά το πλήθος των macrofeatures διανυσμάτων που δημιουργούνται σε μία εικόνα και ορίζεται ως το βήμα υποδειγματοληψίας (subsampling) που καθορίζει πόσοι περιγραφείς SIFT θα παραλείπονται σε κάθε διάσταση μέχρι να ξεκινήσει η επιλογή των περιγραφέων SIFT για το επόμενο macrofeature διάνυσμα. Άρα, η δεύτερη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το βήμα υποδειγματοληψίας (spatial stride) σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των macrofeatures διανυσμάτων μίας εικόνας, δηλ. το πλήθος των macrofeatures διανυσμάτων της εικόνας που θα διαδοθούν στην τοπολογία. Στην παρούσα υλοποίηση της τοπολογίας Deep Sparse Coding επιλέγονται για τον σχηματισμό του κάθε macrofeature διανύσματος 2 περιγραφείς SIFT οριζόντια και 2 κατακόρυφα, δηλ. 4 γειτονικοί περιγραφείς SIFT ενώνονται σειριακά μαζί και δημιουργούν ένα macrofeature διάνυσμα 4 128=512 διαστάσεων ενώ το βήμα υποδειγματοληψίας ορίζεται στη 1 και στις δύο διαστάσεις. Η επιλογή αυτή είναι η πιο απλή, διατηρεί το πλήθος των διανυσμάτων που θα διαδοθούν στην τοπολογία και προτείνεται στην βιβλιογραφία [Boureau 2010]. Επιπρόσθετα, σημειώνεται ότι πραγματοποιείται padding με μηδενικούς περιγραφείς στα άκρα της εικόνας αν χρειάζεται, για την 116

137 δημιουργία όλων των macrofeatures διανυσμάτων. Τελικά, για πλευρές ορθογωνίου 2 και 2 (δηλ. ένωση 4 γειτονικών περιγραφέων SIFT) και βήματος υποδειγματοληψίας 1 ισχύει ότι τα macrofeatures διανύσματα που τροφοδοτούν το επόμενο επίπεδο ισούται με τους περιγραφείς SIFT που είναι είσοδος στο παρών επίπεδο. Concatenating Spatial dimensions SIFT dimension Spatial dimensions macrofeature dimension Εικόνα 4.4 : Η παραπάνω εικόνα αποτυπώνει την διαδικασία ένωσης γειτονικών περιγραφέων SIFT (concatenating nearby SIFT descriptors). Κατά την εκτέλεση της ένωσης γειτονικών περιγραφέων SIFT πραγματοποιείται padding με μηδενικούς περιγραφείς στα άκρα της εικόνας αν χρειάζεται, για την δημιουργία όλων των macrofeatures διανυσμάτων. Για τον σχηματισμό του κάθε macrofeature διανύσματος επιλέγονται 2 περιγραφείς SIFT οριζόντια και 2 κατακόρυφα, δηλ. 4 γειτονικοί περιγραφείς SIFT ενώνονται σειριακά μαζί και δημιουργούν ένα macrofeature διάνυσμα 4x128=512 διαστάσεων. Το βήμα υποδειγματοληψίας ορίζεται στη 1 και στις δύο διαστάσεις. Έτσι, για τις παραπάνω τιμές παραμέτρων, δηλ. πλευρές ορθογωνίου 2 και 2 (δηλ. ένωση 4 γειτονικών περιγραφέων SIFT) και βήματος υποδειγματοληψίας 1, ισχύει ότι τα macrofeatures διανύσματα που τροφοδοτούν το επόμενο επίπεδο ισούται με τους περιγραφείς SIFT που είναι είσοδος στο παρών επίπεδο. Διαδικασία ελάττωσης διάστασης NMF (Non-negative Matrix Factorization) Μετά την διαδικασία ένωσης γειτονικών περιγραφέων SIFT, τα διανύσματα που σχηματίζονται είναι 512 διαστάσεων. Η αραιή κωδικοποίηση αυτών των διανυσμάτων -που ονομάστηκαν macrofeatures διανύσματα [Boureau 2010]- απαιτεί ένα λεξικό πολύ μεγάλων διαστάσεων, δηλ. πολλαπλάσιο των 512 διαστάσεων. Έτσι, μία συνηθισμένη τακτική στην αρχιτεκτονική Bag-of-Visual-words είναι η ελάττωση διάστασης των τοπικών περιγραφέων πριν από το στάδιο της κωδικοποίησης. Στις περισσότερες περιπτώσεις μετά τον υπολογισμό των SIFT περιγραφέων χρησιμοποιείται η μέθοδος ελάττωσης διάστασης PCA (Principal Component Analysis) [Ke 2004]. Στην παρούσα υλοποίηση όμως, επιλέγεται η διαδικασία ελάττωσης διάστασης των macrofeatures διανυσμάτων να πραγματοποιηθεί από μία διαδικασία κωδικοποίησης, όπως είναι η NMF (Non- Negative Matrix Factorization) [Paatero 1994],[Lee 1999,2001]. Τα macrofeatures 117

138 διανύσματα, που προκύπτουν από την ένωση SIFT περιγραφέων, αποτελούνται από διαδοχικά ιστογράμματα (orientation histograms) και άρα έχουν μία μη αρνητική κβαντισμένη μορφή. Η διαδικασία NMF, μέσω της ιδιότητας της μη αρνητικότητας που διαθέτει, καταφέρνει να «ξεδιπλώσει» την κβαντισμένη δομή των macrofeatures διανυσμάτων σε μία συνεχή αναπαράσταση χαμηλότερης διάστασης. Έτσι, σε αντίθεση με την PCA, η NMF παρέχει μία μη αρνητική και πιο συμπαγή αναπαράσταση των SIFT διανυσμάτων στον νέο χώρο χαμηλότερης διάστασης [Kastaniotis 2017]. Επίσης, η NMF αποτελεί μία διαδικασία κωδικοποίησης (δηλ. υπολογίζει ένα λεξικό και στην συνέχεια κωδικοποιεί τα διανύσματα χρησιμοποιώντας το λεξικό) που παρέχει μία μη αρνητική λύση που ενισχύει την αραιότητα [Hoyer 2004]. Οπότε, η διαδικασία ελάττωσης διάστασης NMF για την μετάβαση από τις 512 διαστάσεις στις 64 διαστάσεις, όταν το σύνολο των macrofeatures διανυσμάτων σημειώνεται με, η χαμηλότερης διάστασης αναπαράσταση ορίζεται από το σύνολο διανυσμάτων και το λεξικό είναι, περιγράφεται από το πρόβλημα βελτιστοποίησης : με τον περιορισμό Άρα, επιλύοντας το παραπάνω πρόβλημα ελαχιστοποίησης υπολογίζονται οι αναπαραστάσεις των 64 διαστάσεων, δηλ. επιτυγχάνεται ο μετασχηματισμός των macrofeatures διανυσμάτων 512 διαστάσεων σε αναπαραστάσεις 64 διαστάσεων μέσω της διαδικασίας ελάττωσης διάστασης NMF, όπου το λεξικό και τα διανύσματα είναι μη αρνητικές ποσότητες (ενώ φυσικά και τα macrofeatures διανύσματα είναι μη αρνητικές ποσότητες αφού προκύπτουν από την ένωση γειτονικών περιγραφέων SIFT). Η μετάβαση από τις 512 διαστάσεις στις 64 διαστάσεις, και όχι σε κάποια άλλη διάσταση (χαμηλότερη ή υψηλότερη από τις 64), αποτελεί μία προσωπική επιλογή διότι θεωρήθηκε λογική τιμή. Το πρόβλημα βελτιστοποίησης της NMF μοιάζει λίγο με το πρόβλημα της αραιής αναπαράστασης απλά στην περίπτωση της NMF ελαχιστοποιείται το σφάλμα αναπαράστασης χωρίς κάποιο κριτήριο αραιότητας. Η επίλυση του προβλήματος ελαχιστοποίησης για την NMF πραγματοποιείται μέσω της εργαλειοθήκης SPAMS (SPArse Modeling Software), δηλ. μέσω μίας online διεργασίας που διαχειρίζεται ένα δείγμα ή ένα μικρό σύνολο δειγμάτων (minibatch) την φορά. Στις στοχαστικές διαδικασίες είναι πολύ σημαντική η σειρά που εμφανίζονται τα δεδομένα, δηλ. ο τρόπος που σχηματίζονται τα minibatches (τα οποία καλό είναι να αποτελούνται από τυχαία δείγματα των δεδομένων), διότι το λεξικό αρχικοποιείται και στη συνέχεια ενημερώνεται χρησιμοποιώντας ένα minibatch από διανύσματα κάθε φορά. Για να αποφευχθεί τα διανύσματα των εικόνων να εμφανίζονται με κάποια σειρά στα 118

139 minibatches ακολουθείται η εξής διαδικασία. Από το σύνολο των εικόνων εκμάθησης επιλέγεται ένας αριθμός εικόνων από κάθε κατηγορία ώστε να δημιουργήσουν μία ομάδα. Με αυτό τον τρόπο σχηματίζονται ομάδες με διαφορετικές εικόνες εκμάθησης και με αντιπροσώπευση από όλες τις κατηγορίες. Οι ομάδες επιλέγονται διαδοχικά έτσι ώστε σε κάθε μία ομάδα να σχηματίζονται τυχαία τα minibatches -από τα macrofeatures διανύσματα των εικόνων της ομάδαςπου θα ενημερώνουν το λεξικό σε κάθε επανάληψη. Δηλ. το λεξικό ενημερώνεται από διαφορετικά macrofeatures διανύσματα σε κάθε επανάληψη μέχρι να χρησιμοποιηθούν όλες οι ομάδες (ένα epoch). Αν χρειάζονται περισσότερα epochs για την εκμάθηση του λεξικού, η διαδικασία επαναλαμβάνεται αφού πρώτα ανακατευτούν τυχαία οι εικόνες εκμάθησης κάθε κατηγορίας. Για την εκτέλεση της NMF διαδικασίας επιλέγονται 3 εικόνες εκμάθησης ανά κατηγορία για την Caltech- 101 και 1 εικόνα εκμάθησης ανά κατηγορία για την Caltech-256 για την δημιουργία των ομάδων (δηλ. ομάδες 3 101=303 εικόνων για την Caltech-101 και 1 256=256 εικόνων για την Caltech-256) ενώ το μέγεθος του κάθε minibatch ορίζεται στα 1024 διανύσματα. Τελικά, η διαδικασία εκτελείται για ένα epoch και προκύπτει το λεξικό με θετικά άτομα, που θα χρησιμοποιηθεί για την κωδικοποίηση των macrofeatures διανυσμάτων. Η κωδικοποίηση πραγματοποιείται από την μέθοδο ομοτοπίας LARS-Lasso, όπου η παράμετρος ορίζεται στην τιμή 0 (μηδέν) ώστε να προκύψει η πιο πυκνή δυνατή λύση. Η λύση βέβαια έχει χαρακτηριστικά αραιότητας αν και όχι πολύ έντονα λόγω της μετάβασης σε μικρότερη διάσταση και λόγω του ότι ο αλγόριθμος LARS-Lasso ρυθμίζεται ώστε να υπολογίσει την πιο πυκνή δυνατή λύση. Έτσι, ο αλγόριθμος LARS-Lasso επιλύει το πρόβλημα της κωδικοποίησης με 1 -νόρμα (η οποία ενθαρρύνει την αραιότητα) και παράγει την διαδρομή λύσης ελαττώνοντας την παράμετρο λ από μία μεγάλη τιμή μέχρι την τιμή μηδέν (που έχει οριστεί εδώ). Υπενθυμίζεται ότι για την παραγωγή της διαδρομής λύσης, η παράμετρος ελαττώνεται διαδοχικά σύμφωνα με την σχέση από μία μεγάλη αρχική τιμή μέχρι μία μικρή τελική τιμή. Το βήμα υπολογίζεται με τέτοιο τρόπο ώστε να οδηγεί από το ένα κρίσιμο σημείο στο επόμενο (δηλ. από ένα γραμμικό τμήμα της διαδρομής λύσης σε ένα άλλο) και έτσι να προστίθενται ή να απομακρύνονται στοιχεία από το σύνολο φορέα (support set) και οι συντελεστές της λύσης να ενημερώνονται. Επομένως, η ενημέρωση των μεταβλητών του προβλήματος πραγματοποιείται ξεχωριστά σε κάθε γραμμικό τμήμα της διαδρομής λύσης και επαναλαμβάνεται επιλέγοντας επόμενα γραμμικά τμήματα με κρίσιμα σημεία, μέσω του βήματος. Άρα, αφού σε κάθε κρίσιμο σημείο ενημερώνεται μόνο ένα στοιχείο, δηλ. ένα στοιχείο απομακρύνεται ή προστίθεται στο ενεργό σύνολο συντελεστών, τότε το πλήθος των βημάτων καθορίζει και τον αριθμό των μη μηδενικών συντελεστών στην αναπαράσταση. 119

140 Αραιή αναπαράσταση (Sparse Representation) [1ο επίπεδο] Τα διανύσματα που υπολογίστηκαν από την διαδικασία NMF είναι 64 διαστάσεων με μη αρνητικές τιμές. Τα διανύσματα αυτά αποτελούν τα δεδομένα εισόδου στο στάδιο της αραιής αναπαράστασης, το οποίο θα τροφοδοτήσει το επόμενο στάδιο με τους αραιούς συντελεστές. Άρα, από ένα σύνολο διανυσμάτων εισόδου υπολογίζεται μέσω μιας διαδικασίας εκμάθησης το λεξικό αραιής αναπαράστασης και στην συνέχεια όλα τα διανύσματα εισόδου κωδικοποιούνται με βάση το λεξικό για να προκύψει η αραιή αναπαράστασή τους. Το πρόβλημα βελτιστοποίησης της αραιής αναπαράστασης περιγράφεται από την σχέση : με τον περιορισμό Για την επίλυση του προβλήματος της αραιής αναπαράστασης χρησιμοποιείται σαν κριτήριο αραιότητας η -νόρμα, η οποία οδηγεί σε κυρτό πρόβλημα κωδικοποίησης και έχει εμπειρικά αποδειχτεί ότι συμπεριφέρεται γενικά καλύτερα από την 0-νόρμα στην εκμάθηση του λεξικού [Lee 2007]. Η -νόρμα ορίζεται ως το άθροισμα της απόλυτης τιμής των συντελεστών για ένα σήμα και το πρόβλημα της αραιής κωδικοποίησης λαμβάνει την ονομασία Basis Pursuit (BP) ή Lasso ([Mairal 2009],[Chen 2001],[Tibshirani 1996]). Η επίλυση του προβλήματος ελαχιστοποίησης για την αραιή αναπαράσταση πραγματοποιείται μέσω της εργαλειοθήκης SPAMS (SPArse Modeling Software), δηλ. μέσω μίας online διεργασίας που διαχειρίζεται ένα δείγμα ή ένα μικρό σύνολο δειγμάτων (minibatch) την φορά. Η ενημέρωση του λεξικού, κατά τη διάρκεια μίας στοχαστικής διαδικασίας εκμάθησης, πραγματοποιείται από τα διανύσματα ενός minibatch κάθε φορά. Επομένως, ο τρόπος σχηματισμού των minibatches είναι σημαντικός παράγοντας για την αποδοτική εκμάθηση του λεξικού. Η διαδικασία που ακολουθείται είναι όμοια με αυτή που περιγράφεται στο προηγούμενο στάδιο για την κατασκευή του λεξικού κατά την εκτέλεση της NMF διεργασίας αλλά με τα διανύσματα 64 διαστάσεων που αποτελούν είσοδο στο στάδιο της αραιής αναπαράστασης. Άρα, δημιουργούνται ομάδες διανυσμάτων (που προέρχονται από εικόνες εκμάθησης από όλες τις κατηγορίες) με στόχο την όσο το δυνατόν μεγαλύτερη ποικιλία (variability) διανυσμάτων ώστε τα minibatches που δημιουργούνται σε κάθε ομάδα να είναι όσο γίνεται πιο αντιπροσωπευτικά του συνόλου εκμάθησης. Έτσι, το λεξικό ενημερώνεται από διαφορετικά διανύσματα σε κάθε επανάληψη μέχρι να χρησιμοποιηθούν όλες οι ομάδες (ένα epoch), ενώ αν χρειάζονται περισσότερα epochs για την εκμάθηση του λεξικού τότε η διαδικασία επαναλαμβάνεται αφού δημιουργηθούν νέες διαφορετικές ομάδες (επιλέγοντας διαφορετικές εικόνες από το σύνολο εκμάθησης από κάθε κατηγορία για τις νέες ομάδες πριν από κάθε 120

141 epoch). Για την δημιουργία των ομάδων κατά την εκμάθηση του λεξικού επιλέγονται 5 εικόνες εκμάθησης ανά κατηγορία για την Caltech-101 και 2 εικόνες εκμάθησης ανά κατηγορία για την Caltech-256 (δηλ. ομάδες 5 101=505 εικόνων για την Caltech-101 και 2 256=512 εικόνων για την Caltech-256) ενώ το μέγεθος του κάθε minibatch ορίζεται στα 1024 διανύσματα. Το μέγεθος του λεξικού, δηλ. το πλήθος των ατόμων του, ορίζεται στα 1024 άτομα ( ), το οποίο προέκυψε μετά από δοκιμές στο σύνολο των validation εικόνων. Έχει παρατηρηθεί πειραματικά ότι στα χαρακτηριστικά μεσαίας τάξης (mid-level features) η κρισιμότερη παράμετρος για την καλή απόδοση είναι το μέγεθος του λεξικού ([Law 2014],[Chatfield 2011]). Έτσι, η απόδοση βελτιώνεται καθώς αυξάνεται το μέγεθος του λεξικού, κάτι λογικό αφού όσο μεγαλώνει το πλήθος των ατόμων του (μέχρι κάποιο όριο που ο χώρος του λεξικού θα είναι ήδη πολύ μεγάλος σε σχέση με το περιορισμένο σύνολο δεδομένων εκμάθησης) τόσο καλύτερη διακρισιμότητα αποκτούν τα διανύσματα που κωδικοποιούνται μέσω του λεξικού. Επίσης, θέτεται ένας επιπλέον περιορισμός για τους συντελεστές αραιής αναπαράστασης που είναι να έχουν τιμή μη αρνητική, δηλ. οι μη μηδενικοί συντελεστές να είναι θετικοί ( ). Αυτό συμβαίνει διότι στα επόμενα στάδια της τοπολογίας, και συγκεκριμένα κατά την εκτέλεση της τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) και της χωρικής πυραμιδικής συγκέντρωσης (Spatial Pyramid Pooling), επιλέγεται η συνάρτηση που θα εκτελεί την συγκέντρωση (pooling) να είναι η εύρεση της μέγιστης τιμής των διανυσμάτων που συγκεντρώνονται μαζί (max pooling operation). Έτσι, αν οι συντελεστές είχαν οποιοδήποτε πρόσημο, κατά την διαδικασία max pooling έπρεπε είτε να βρεθεί η μέγιστη απόλυτη τιμή [Yang 2009] είτε αφού βρεθεί η μέγιστη απόλυτη τιμή στη συνέχεια να χρησιμοποιηθεί και το αντίστοιχο πρόσημο. Αυτές οι δύο παραλλαγές δοκιμάστηκαν αλλά δεν επέφεραν καλύτερα αποτελέσματα ταξινόμησης και για αυτό επιλέχθηκε οι συντελεστές να έχουν τις μη μηδενικές τιμές τους θετικές. Ο περιορισμός της μη αρνητικότητας των συντελεστών είναι αναγκαίο να οριστεί στη διαδικασία σχηματισμού του λεξικού γιατί κατά την εκμάθηση του λεξικού εναλλάσσονται τα στάδια της αραιής κωδικοποίησης και της ενημέρωσης του λεξικού. Αυτό συμβαίνει διότι μία προσέγγιση επίλυσης του μη κυρτού προβλήματος της εκμάθησης του λεξικού αποτελεί η εναλλαγή μεταξύ των δύο μεταβλητών α και D ελαχιστοποιώντας τη μία ενώ η άλλη διατηρείται σταθερή, αφού με αυτόν τον τρόπο κάθε επιμέρους διαδικασία αποτελεί ένα κυρτό πρόβλημα. Έτσι, εφόσον ο περιορισμός της μη αρνητικότητας των συντελεστών είναι γνωστός κατά την διαδικασία εκμάθησης του λεξικού, το λεξικό σχηματίζεται ώστε να ενθαρρύνει την αραιή αναπαράσταση με θετικούς συντελεστές. Τελικά η διαδικασία εκμάθησης εκτελείται για ένα epoch και προκύπτει το λεξικό, που χρησιμοποιείται για την κωδικοποίηση των διανυσμάτων. Η κωδικοποίηση όλων των διανυσμάτων όλων των εικόνων πραγματοποιείται από την μέθοδο ομοτοπίας LARS-Lasso, όπου οι συντελεστές 121

142 περιορίζονται να λαμβάνουν μόνο μη αρνητικές τιμές, το μέγιστο πλήθος βημάτων του αλγορίθμου επιλέγεται να είναι 25 και η παράμετρος ορίζεται στην τιμή Άρα, ο αλγόριθμος τερματίζεται μετά από 25 βήματα ή αν η τιμή του λάβει την τιμή Η επιλογές αυτές έγιναν ελέγχοντας την απόδοση ταξινόμησης χρησιμοποιώντας το σύνολο των validation εικόνων. Ο αλγόριθμος LARS-Lasso επιλύει το πρόβλημα της κωδικοποίησης με 1-νόρμα για την παραγωγή της διαδρομής λύσης ελαττώνοντας διαδοχικά την παράμετρος σύμφωνα με την σχέση. Σε κάθε κρίσιμο σημείο (δηλ. σε κάθε βήμα της ομοτοπικής μεθόδου) μεταβάλλεται μόνο ένα στοιχείο του συνόλου των μη μηδενικών συντελεστών αραιής αναπαράστασης, δηλ. ένας συντελεστής είτε ενημερώνεται είτε απομακρύνεται είτε προστίθεται στο ενεργό σύνολο. Συνεπώς, κάθε αραιή αναπαράσταση έχει το πολύ 25 μη μηδενικούς θετικούς συντελεστές και η μέγιστη τιμή προκύπτει είτε γιατί ο αλγόριθμος τερματίστηκε πριν την συμπλήρωση 25 βημάτων λόγω του ότι το έλαβε την τιμή 0.15 είτε γιατί ακόμα και να εκτελέστηκαν 25 βήματα κάποιος συντελεστής μπορεί να ενημερώθηκε παραπάνω από μία φορά. Τοπική χωρική συγκέντρωση (Local Spatial Pooling) [1η μονάδα σύνδεσης] Η τοπική χωρική συγκέντρωση (Local Spatial Pooling) αποτελεί την πρώτη διεργασία της μονάδας σύνδεσης. Έτσι, στα διανύσματα αραιής αναπαράστασης που έχουν υπολογιστεί στο προηγούμενο επίπεδο της τοπολογίας Deep Sparse Coding εκτελείται η τοπική χωρική συγκέντρωση (Local Spatial Pooling) σε ομάδες γειτονικών διανυσμάτων για να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα για κάθε ομάδα. Η διαδικασία συγκέντρωσης (pooling) δεν μεταβάλλει την διάσταση των διανυσμάτων αραιής αναπαράστασης μίας εικόνας αλλά απλά μπορεί να ελαττώσει το πλήθος των αραιών διανυσμάτων μίας εικόνας που θα διαδοθούν στην τοπολογία. Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει, δηλ. έχουν διάσταση όσα και τα άτομα του λεξικού του προηγούμενου επιπέδου, αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης. Το πλήθος των pooled διανυσμάτων ενδέχεται να είναι διαφορετικό από το πλήθος των διανυσμάτων αραιής αναπαράστασης του προηγούμενου επιπέδου διότι εξαρτάται από το πλήθος των ομάδων γειτονικών διανυσμάτων που δημιουργούνται σε κάθε εικόνα. Οι παράμετροι της τοπικής χωρικής συγκέντρωσης είναι το πλήθος των διανυσμάτων που αποτελούν μία ομάδα, το βήμα υποδειγματοληψίας (spatial stride) και η μορφή της συνάρτησης που εκτελεί την συγκέντρωση (pooling). Το πλήθος των διανυσμάτων που θα αποτελούν μία ομάδα ορίζεται ως οι πλευρές ενός 122

143 ορθογωνίου, το οποίο εμπεριέχει τα γειτονικά διανύσματα που συγκροτούν την κάθε ομάδας. Έτσι, οι πλευρές του ορθογωνίου καθορίζουν πόσα γειτονικά διανύσματα στην κατακόρυφη και πόσα στην οριζόντια χωρική διάσταση της εικόνας θα σχηματίζουν την κάθε ομάδα διανυσμάτων. Άρα, η πρώτη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το πλήθος των αραιών διανυσμάτων σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των διανυσμάτων κάθε ομάδας. Η δεύτερη παράμετρος αφορά το πλήθος των ομάδων που δημιουργούνται σε μία εικόνα και ορίζεται ως το βήμα υποδειγματοληψίας (subsampling), που ορίζει πόσα διανύσματα θα παραλείπονται σε κάθε διάσταση μέχρι να ξεκινήσει η επιλογή των διανυσμάτων της επόμενης ομάδας. Άρα, η δεύτερη παράμετρος καθορίζεται από δύο μεταβλητές που ορίζουν το βήμα υποδειγματοληψίας σε κάθε διάσταση και τελικά προσδιορίζουν τον συνολικό αριθμό των ομάδων μίας εικόνας, δηλ. το πλήθος των pooled διανυσμάτων της εικόνας που θα διαδοθούν στην τοπολογία. Η τρίτη παράμετρος είναι η μορφή της συνάρτησης που πραγματοποιεί τη συγκέντρωση (pooling) σε κάθε μία ομάδα διανυσμάτων. Οι ομάδες γειτονικών αραιών διανυσμάτων επιλέγεται να συγκροτούνται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Με αυτό τον τρόπο επιχειρείται τα διανύσματα που συγκεντρώνονται (pooling) μαζί σε κάθε ομάδα να φέρουν συναφή πληροφορία αφού θα αντιστοιχούν σε κοινά μοτίβα στην εικόνα. Για να προσδιοριστούν ποιά αραιά διανύσματα προέκυψαν από patches που είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας πρέπει να βρεθεί το Field of View (δηλ. η χωρική περιοχή στον χώρο των pixels της εικόνας) των αραιών διανυσμάτων στην εικόνα. Το κάθε patch έχει διάσταση 16 x 16 pixels και η χωρική απόσταση διαδοχικών patches είναι 4 pixels. Από κάθε patch υπολογίζεται ένας τοπικός περιγραφέας και άρα το Field of View του κάθε περιγραφέα SIFT είναι 16 x 16 pixels ενώ η χωρική απόσταση διαδοχικών περιγραφέων SIFT είναι 4 pixels. Κατά τη διαδικασία ένωσης γειτονικών περιγραφέων SIFT για τον σχηματισμό των macrofeatures διανυσμάτων ενώνονται σειριακά μαζί 4 (2 x 2) γειτονικοί περιγραφείς SIFT και άρα το Field of View του κάθε macrofeature διανύσματος γίνεται 20 x 20 pixels. Επίσης, εφόσον το βήμα υποδειγματοληψίας καθορίζει την χωρική απόσταση των macrofeatures διανυσμάτων μεταξύ τους και το βήμα έχει οριστεί στη μονάδα κατά τη διαδικασία ένωσης γειτονικών περιγραφέων SIFT, τότε η χωρική απόσταση διαδοχικών macrofeatures διανυσμάτων ισούται με την χωρική απόσταση διαδοχικών περιγραφέων SIFT, δηλ. είναι 4 pixels. Στα macrofeatures διάνυσμα εφαρμόζεται η διαδικασία κωδικοποίησης NMF και ελαττώνεται η διάστασή τους ώστε να προκύψουν τα διανύσματα που εισάγονται στην μονάδα αραιής αναπαράστασης. Στη συνέχεια, εκτελείται η αραιή κωδικοποίηση στα διανύσματα, που έχουν προέλθει από την NMF 123

144 διαδικασία, και εξάγονται οι αραιές αναπαραστάσεις. Το Field of View και η χωρική απόσταση μεταξύ διαδοχικών διανυσμάτων δεν μεταβάλλεται κατά τη διαδικασία ελάττωσης διάστασης NMF και κατά την διαδικασία αραιής αναπαράστασης αφού δεν εφαρμόζεται κάποια διαδικασία συγκέντρωσης (pooling). Έτσι, το Field of View των αραιών διανυσμάτων είναι ίδιο με αυτό των macrofeatures διανυσμάτων, δηλ. είναι 20 x 20 pixels, και η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι ίδια με την χωρική απόσταση διαδοχικών macrofeatures διανυσμάτων, δηλ. ισούται με 4 pixels. Επομένως, εφόσον κάθε αραιό διάνυσμα έχει Field of View 20 x 20 pixels και η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 4 pixels, τότε σε κάθε ομάδα 5 x 5 γειτονικών αραιών διανυσμάτων υπάρχει αλληλοεπικάλυψη των Fields of View των διανυσμάτων. Άρα, τα 25 γειτονικά αραιά διανύσματα είναι «επικαλυπτόμενα» μεταξύ τους στον χώρο των pixels της εικόνας, δηλ. έχουν επικαλυπτόμενα Fields of View (αφού το 1 ο διάνυσμα με το 5 ο στη σειρά είναι επικαλυπτόμενα ενώ το 1 ο με το 6 ο δεν είναι διότι έχουν χωρική απόσταση 20 pixels). Συνεπώς, η κάθε ομάδα γειτονικών αραιών διανυσμάτων, που προέκυψαν από patches που είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας, αποτελείται από 5 x 5 (25) γειτονικά αραιά διανύσματα. Με βάση την παραπάνω ανάλυση, επιλέγονται 5 διανύσματα οριζόντια και 5 κατακόρυφα για τον σχηματισμό της κάθε ομάδας (ορθογώνιο με πλευρές 5 διανύσματα οριζόντια και 5 κατακόρυφα), δηλ. 25 αραιά διανύσματα ανά ομάδα. Άρα, εφόσον το Field of View των αραιών διανυσμάτων είναι 20 x 20 pixels και η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 4 pixels τότε το Field of View των pooled διανυσμάτων (5 x 5 γειτονικά αραιά διανύσματα) είναι 36 x 36 pixels. Το βήμα υποδειγματοληψίας (subsampling) ορίζεται έτσι ώστε το διαδοχικά pooled διανύσματα να είναι σχετικά συναφή μεταξύ τους, δηλ. τα Fields of View των διαδοχικών pooled διανυσμάτων να έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας. Έτσι, το βήμα υποδειγματοληψίας (spatial stride) ορίζεται στην τιμή 2 στην οριζόντια διάσταση και 2 στη κατακόρυφη. Το βήμα υποδειγματοληψίας καθορίζει το πλήθος των pooled διανυσμάτων που θα διαδοθούν στην τοπολογία και την χωρική απόσταση (υπό όρους pixels στην εικόνα) των pooled διανυσμάτων μεταξύ τους. Άρα, η επιλογή της τιμής δύο στο βήμα υποδειγματοληψίας έχει σαν αποτέλεσμα η χωρική απόσταση διαδοχικών pooled διανυσμάτων μεταξύ τους να είναι διπλάσια σε σχέση με την χωρική απόσταση των διαδοχικών αραιών διανυσμάτων μεταξύ τους. Επομένως, εφόσον η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 4 pixels, τότε η χωρική απόσταση διαδοχικών pooled διανυσμάτων είναι 8 pixels. Επίσης, το πλήθος των pooled διανυσμάτων είναι περίπου το ¼ των αραιών διανυσμάτων που εισήχθησαν στην μονάδα σύνδεσης. Συνεπώς, το επόμενο στάδιο (αλλά και το επόμενο επίπεδο της τοπολογίας) θα διαχειρίζεται περίπου υπο-τετραπλάσια διανύσματα σε σχέση με τα αρχικά διανύσματα της τοπολογίας. Σημειώνεται εδώ, ότι κατά την εκτέλεση της διαδικασία τοπικής χωρικής συγκέντρωσης 124

145 πραγματοποιείται padding με μηδενικά διανύσματα στα άκρα της εικόνας για να μπορέσουν να σχηματιστούν όλες οι διαθέσιμες ομάδες. Τέλος, η συνάρτηση που εκτελεί τη συγκέντρωση (pooling) σε κάθε μία ομάδα διανυσμάτων επιλέγεται να είναι η εύρεση της μέγιστης τιμής των διανυσμάτων που συγκεντρώνονται μαζί (max pooling operation). Η επιλογή εύρεσης της μέγιστης τιμής (max pooling) των αραιών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα έγινε με το σκεπτικό ότι ταιριάζει καλύτερα στις αραιές αναπαραστάσεις φυσικών εικόνων ([Boureau 2010], [Yang 2009], [Wang 2010], [He 2014]). Εικόνα 4.5 : Η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) εφαρμόζεται σε μία ομάδα γειτονικών αραιών διανυσμάτων χρησιμοποιώντας τη συνάρτηση εύρεσης μέγιστης τιμής (max pooling operation). Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης, δηλ. δεν μεταβάλλεται η διάσταση των διανυσμάτων κατά τη διαδικασία συγκέντρωσης (pooling). Pooling Spatial dimensions Sparse Code dimension Spatial dimensions Sparse Code dimension Εικόνα 4.6 : Στην παραπάνω εικόνα αποτυπώνεται η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε ένα σύνολο αραιών διανυσμάτων (πράσινα αριστερά). Η κάθε ομάδα διανυσμάτων επιλέγεται να συγκροτείται από 5 διανύσματα οριζόντια και 5 κατακόρυφα (ορθογώνιο με πλευρές 5 διανύσματα οριζόντια και 5 κατακόρυφα) ενώ το βήμα υποδειγματοληψίας (subsampling) ορίζεται στην τιμή 2 στην οριζόντια διάσταση και στην τιμή 2 στη κατακόρυφη. Κατά τη διαδικασία LSP έχει γίνει padding με μηδενικά διανύσματα (λευκά αριστερά) για να μπορέσουν να σχηματιστούν όλες οι ομάδες. Παρατηρώντας το παράδειγμα της παραπάνω εικόνας, προκύπτει ότι σε ένα σύνολο 42 διανυσμάτων (πράσινα αριστερά) η LSP διαδικασία με τις παραπάνω παραμέτρους (και αφού έχει γίνει padding αν χρειάζεται) έχει σαν συνέπεια τη δημιουργία 12 ομάδων με 25 διανύσματα ανά ομάδα, δηλ. παράγονται 12 pooled διανύσματα (πράσινα δεξιά). Η επιλογή του βήματος υποδειγματοληψίας στην τιμή 2 οδηγεί σε 12 pooled διανύσματα, τα οποία έχουν διπλάσια χωρική απόσταση (υπό όρους pixels) μεταξύ τους σε σχέση με την χωρική απόσταση των 42 αρχικών διανυσμάτων μεταξύ τους, αφού το κέντρο της κάθε ομάδας των 25 (5 x 5) γειτονικών διανυσμάτων αντιστοιχεί στην χωρική θέση του κάθε pooled διανύσματος που προκύπτει από την ομάδα. Επίσης, η επιλογή του βήματος υποδειγματοληψίας στην τιμή 2 έχει σαν συνέπεια από ένα σύνολο 42 αραιών διανυσμάτων να σχηματίζονται 12 pooled διανύσματα, δηλ. περίπου το ¼ των αρχικών αραιών διανυσμάτων. Άρα, παρατηρείται και πρακτικά ότι το βήμα υποδειγματοληψίας καθορίζει την χωρική απόσταση (υπό όρους pixels στην εικόνα) των pooled διανυσμάτων μεταξύ τους και το πλήθος των pooled διανυσμάτων που θα διαδοθούν στην τοπολογία. Έτσι, όταν επιλέγεται η τιμή 2 στο βήμα υποδειγματοληψίας έχει σαν αποτέλεσμα η χωρική απόσταση διαδοχικών pooled διανυσμάτων μεταξύ τους να είναι διπλάσια σε σχέση με την χωρική απόσταση των διαδοχικών αραιών διανυσμάτων μεταξύ τους και το πλήθος των pooled διανυσμάτων να είναι περίπου το ¼ των αραιών διανυσμάτων. 125

146 Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) Το πρόβλημα που καλείται να λύσει η μέθοδος DRLIM είναι ο υπολογισμός της συνάρτησης που θα μετασχηματίζει τα υψηλής διάστασης δείγματα σε έναν χαμηλότερης διάστασης χώρο, δεδομένου των σχέσεων γειτνίασης μεταξύ των δειγμάτων εκμάθησης στον αρχικό χώρο. Η μέθοδος DRLIM στηρίζεται σε δύο άξονες, που είναι η αποφυγή χρήσης μετρικής απόστασης για τον προσδιορισμό της γειτνίασης των δεδομένων εκμάθησης και η δυνατότητα να μετασχηματίζει νέα άγνωστα δείγματα. Η DRLIM υπολογίζει τον γραμμικό μετασχηματισμού, που ορίζεται από τον πίνακα, έτσι ώστε για όμοια δείγματα (γείτονες) του αρχικού χώρου να έλκονται μαζί τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης και για ανόμοια δείγματα (μη-γείτονες) του αρχικού χώρου να απομακρύνονται μεταξύ τους τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης, δηλ. ο πίνακας μετασχηματισμού υπολογίζεται ελαχιστοποιώντας τη συνάρτηση απωλειών που ονομάζεται contrastive loss [Hadsell 2006]. Η συνάρτηση contrastive loss λειτουργεί με ζευγάρια δειγμάτων εκμάθησης μαζί με μία ετικέτα (0 ή 1), η οποία αντιστοιχεί στις σχέσεις γειτνίασης (δηλ. στην ομοιότητα) μεταξύ των δειγμάτων των ζευγαριών. Ο σχηματισμός των ζευγαριών εκμάθησης και ο προσδιορισμός των ετικετών που τα χαρακτηρίζουν πραγματοποιείται χρησιμοποιώντας την προηγούμενη γνώση (prior knowledge). Συνεπώς, το πρόβλημα βελτιστοποίησης -για τον υπολογισμό του πίνακα μετασχηματισμού ελαχιστοποιώντας την συνάρτηση contrastive loss- περιγράφεται από την σχέση : όπου, είναι το σύνολο των pooled διανυσμάτων, είναι το σύνολο των δεικτών όλων των ζευγαριών με ετικέτα ( ) 0 ή 1 που έχουν προκύψει από όλες τις εικόνες εκμάθησης της βάσης δεδομένων και είναι η παράμετρος της συνάρτησης contrastive loss. Η εκτέλεση της μεθόδου DRLIM μπορεί να διαχωριστεί σε τρία στάδια. Το πρώτο στάδιο είναι ο προσδιορισμός των ζευγαριών εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν. Το δεύτερο στάδιο είναι η επίλυση του προβλήματος ελαχιστοποίησης της συνάρτησης contrastive loss για να υπολογιστεί η συνάρτηση μετασχηματισμού (πίνακας μετασχηματισμού), δεδομένου των ζευγαριών εκμάθησης και των ετικετών τους. Το τρίτο και τελευταίο στάδιο είναι η πραγματοποίηση της ελάττωσης διάστασης εφαρμόζοντας την συνάρτηση μετασχηματισμού, η οποία είναι ήδη υπολογισμένη, στα δεδομένα. 126

147 I) Σχηματισμός ζευγαριών και προσδιορισμός των ετικετών τους Τα ζευγάρια εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν χρησιμοποιούνται για την ελαχιστοποίηση της συνάρτησης contrastive loss ώστε να υπολογιστεί η συνάρτηση μετασχηματισμού. Οι σχέσεις γειτνίασης (δηλ. η ομοιότητα) μεταξύ των δύο δειγμάτων του κάθε ζευγαριού καθορίζει την τιμή της ετικέτας (label) που θα έχει το ζευγάρι. Όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο όμοια δείγματα εκμάθησης τότε η ετικέτα λαμβάνει την τιμή μηδέν ( ) ενώ όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης τότε λαμβάνει την τιμή ένα ( ). Οι σχέσεις γειτνίασης προκύπτουν από την προηγούμενη γνώση (prior knowledge), δηλ. παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης (δηλ. δεν προκύπτουν από μία μετρική διανυσματικής απόστασης μεταξύ των δειγμάτων). Για δύο patches της εικόνας που έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, υπάρχει η προηγούμενη γνώση (prior knowledge) ότι κατά πάσα πιθανότητα αντιστοιχούν στο ίδιο αντικείμενο στην εικόνα ακόμα και αν οι αναπαραστάσεις τους είναι διαφορετικές υπό όρους απόστασης διανυσμάτων (δηλ. αν η σύγκριση των δύο patches γίνει θεωρώντας τα διανύσματα και άρα υπολογίζοντας την διανυσματική απόστασή τους). Επομένως, η προηγούμενη γνώση (prior knowledge) που επιθυμείται να εισαχθεί στο σύστημα είναι ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα. Για τον σχηματισμό των ζευγαριών από τα δείγματα εκμάθησης χρησιμοποιείται η χωρική απόσταση των δειγμάτων (υπό όρους pixels), η οποία υπολογίζεται με βάση τις συντεταγμένες των κέντρων των Fields of View των pooled διανυσμάτων (που έχουν προκύψει από το προηγούμενο στάδιο της τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling)). Η χωρική απόσταση μεταξύ δύο δειγμάτων εκμάθησης χρησιμοποιείται τόσο για τον έλεγχο αν αυτά τα δύο δείγματα θα σχηματίσουν ένα ζευγάρι όσο και για τον προσδιορισμό της ετικέτας του ζευγαριού αν αυτό δημιουργηθεί. Αυτό συμπυκνώνεται στην παρακάτω σχέση :, όπου η ετικέτα του ζευγαριού, με με για όμοια δείγματα ή για ανόμοια δείγματα, η χωρική απόσταση σε μονάδες pixels των δειγμάτων και μεταξύ τους, δηλ. η απόσταση των χωρικών τους θέσεων στην εικόνα, η μέγιστη χωρική απόσταση δύο δειγμάτων μεταξύ τους ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι και το όριο (χωρική απόσταση) αν τα δύο δείγματα του ζευγαριού θα θεωρούνται όμοια ή ανόμοια. Άρα, η προηγούμενη γνώση (prior knowledge), που προσδιορίζει την σχέση 127

148 γειτνίασης μεταξύ των διανυσμάτων εκμάθησης, αντιστοιχεί στη χωρική απόσταση μεταξύ των διανυσμάτων εκμάθησης. Δηλ. μέσω της χωρικής απόστασης καθορίζεται ποιά διανύσματα θα σχηματίσουν ένα ζευγάρι και τί ετικέτα θα φέρει το ζευγάρι που θα δημιουργηθεί. Στην παρούσα εργασία ορίζεται ο σχηματισμός των ζευγαριών εκμάθησης να γίνεται έτσι ώστε το κάθε ζευγάρι να αποτελείται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Δηλ. δημιουργούνται ζευγάρια έτσι ώστε να υπάρχει πάντα αλληλοεπικάλυψη στα Fields of View (χωρική περιοχή στον χώρο των pixels της εικόνας) των δύο διανυσμάτων που αποτελούν το ζευγάρι. Υπενθυμίζεται εδώ ότι τα διανύσματα που δημιουργούν τα ζευγάρια έχουν προκύψει από την προηγούμενη διαδικασία τοπικής χωρικής συγκέντρωσης (5 x 5 γειτονικά αραιά διανύσματα), δηλ. είναι τα pooled διανύσματα. Έτσι, τα διανύσματα έχουν Field of View 36 x 36 pixels και χωρική απόσταση μεταξύ διαδοχικών διανυσμάτων είναι 8 pixels. Επομένως, η παράμετρος ορίζει μία γειτονιά, που συγκροτείται από ένα σύνολο διανυσμάτων, γύρω από κάθε ένα διάνυσμα της εικόνας έτσι ώστε το διάνυσμα να έχει πάντα επικάλυψη στον χώρο των pixels της εικόνας με το κάθε διάνυσμα της γειτονιάς (δηλ. έτσι ώστε το Field of View του να είναι πάντα αλληλεπικαλυπτόμενο με το Field of View του κάθε ). Με άλλα λόγια, γύρω από κάθε διάνυσμα σχηματίζεται η γειτονιά του, που αποτελείται από τα διανύσματα που έχουν επικάλυψη με το διάνυσμα. Άρα, από κάθε γειτονιά σχηματίζονται τα ζευγάρια,, όπου το είναι το διάνυσμα που γύρω του δημιουργείται η γειτονιά και είναι τα διανύσματα που αποτελούν την γειτονιά. Το πλήθος των ζευγαριών, που προκύπτουν από κάθε γειτονιά εξαρτάται από το μέγεθος της γειτονιάς, δηλ. από πλήθος των διανυσμάτων που την αποτελούν. Ο σχηματισμός ενός ζευγαριού επιτρέπεται μόνα αν τα διανύσματα που το αποτελούν έχουν αλληλεπικαλυπτόμενα Fields of View. Έτσι, εφόσον τα διανύσματα έχουν Field of View 36 x 36 pixels και χωρική απόσταση μεταξύ διαδοχικών διανυσμάτων είναι 8 pixels, τότε για να έχει ένα διάνυσμα επικάλυψη με το διάνυσμα πρέπει η χωρική απόσταση μεταξύ τους να είναι μικρότερη από 40 pixels. Οπότε, η παράμετρος λαμβάνει την τιμή 40 αφού ορίζει τη μέγιστη χωρική απόσταση μεταξύ δύο διανυσμάτων ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι. Η ετικέτα του κάθε ζευγαριού, λαμβάνει την τιμή όταν τα Fields of View των δύο διανυσμάτων και έχουν μεγάλο ποσοστό επικάλυψης (mostly overlapped) και την τιμή όταν τα Fields of View των δύο διανυσμάτων και έχουν μικρή επικάλυψη (partially overlapped). Η παράμετρος που προσδιορίζει αν τα δύο δείγματα του ζευγαριού θα θεωρούνται όμοια ή ανόμοια, δηλ. ποιό ποσοστό επικάλυψης των Fields of View θεωρείται μεγάλο και ποιό μικρό, είναι η χωρική απόσταση. Η παράμετρος επιλέγεται να λάβει την 128

149 τιμή 8 pixels έτσι ώστε το διάνυσμα να σχηματίζει όμοια ζευγάρια μόνο με τα πιο κοντινά διανύσματα της γειτονιάς του ενώ με τα υπόλοιπα διανύσματα της γειτονιάς του να σχηματίζει ανόμοια ζευγάρια. Τελικά, ο ορισμός της τιμής της παραμέτρου έγινε έτσι ώστε ο σχηματισμός ενός ζευγαριού να επιτρέπεται μόνα αν τα διανύσματα που το αποτελούν έχουν αλληλεπικαλυπτόμενα Fields of View και ο ορισμός της τιμής της παραμέτρου έγινε έτσι ώστε το κάθε διάνυσμα να σχηματίζει όμοια ζευγάρια μόνο με τα πιο κοντινά διανύσματα της γειτονιάς του. Με αυτή την διαδικασία δημιουργίας όμοιων και ανόμοιων ζευγαριών για το κάθε διάνυσμα σε κάθε εικόνας εκμάθησης επιτυγχάνεται η διαδικασία εκμάθησης της συνάρτησης μετασχηματισμού να επικεντρώνεται στα πιο δύσκολα ζευγάρια. II) Υπολογισμός του πίνακα μετασχηματισμού Το πρόβλημα βελτιστοποίησης για τον υπολογισμό του πίνακα μετασχηματισμού ορίζεται με την βοήθεια της συνάρτησης contrastive loss και περιγράφεται από την σχέση : όπου και είναι το σύνολο των δεικτών όλων των ζευγαριών με ετικέτα 0 ή 1 που έχουν προκύψει από όλες τις εικόνες εκμάθησης της βάσης δεδομένων. Το πρόβλημα ελαχιστοποίησης επιλύεται με τη βοήθεια μίας στοχαστικής προσέγγισης της μεθόδου βελτιστοποίησης Gradient Descent, η οποία χρησιμοποιεί διαδοχικά μικρά διαχειρίσιμα σύνολα δειγμάτων (minibatches) σε κάθε επανάληψη και ονομάζεται minibatch Gradient Descent ή Stochastic Gradient Descent with minibatch. Η μέθοδος Stochastic Gradient Descent with minibatch προσπαθεί να βρει ένα ελάχιστο της συνάρτησης contrastive loss μέσω μίας επαναληπτικής διαδικασίας ώστε να υπολογίσει τον πίνακα μετασχηματισμού. Το πρώτο βήμα για τον υπολογισμό του πίνακα μετασχηματισμού είναι η τυχαία αρχικοποίηση του, δηλ. σαν μία γκαουσιανή κατανομή με μέση τιμή μηδέν και διασπορά ίση με την μονάδα, και ο νορμαλισμός των στηλών του με την ²-νόρμα. Στην συνέχεια, ο πίνακας μετασχηματισμού ενημερώνεται επαναληπτικά χρησιμοποιώντας τα ζευγάρια των διανυσμάτων μαζί με τις ετικέτες που τα χαρακτηρίζουν. Η διαδικασία ολοκληρώνεται μετά από ένα πλήθος epochs ώστε ο αλγόριθμος βελτιστοποίησης να έχει συγκλίνει σε ένα ελάχιστο της συνάρτησης 129

150 απωλειών. Έτσι, σε κάθε επανάληψη της μεθόδου Stochastic Gradient Descent with minibatch επιλέγεται τυχαία ένα υποσύνολο ζευγαριών από όλα τα διαθέσιμα ζευγάρια, δηλ. και ενημερώνεται ο πίνακας μετασχηματισμού σύμφωνα με τη σχέση : όπου είναι το πλήθος των ζευγαριών του minibatch, είναι το βήμα ή ρυθμός εκμάθησης της μεθόδου SGD-minibatch και η κλίση για ένα ζευγάρι, υπολογίζεται από την σχέση : όπου με (ευκλείδεια απόσταση) και είναι η παράμετρος της συνάρτησης contrastive loss που αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους. Συνεπώς, σε κάθε επανάληψη η κλίση υπολογίζεται φορές -για τα ζευγάρια του minibatch- ώστε να αθροιστούν οι τιμές που έχουν προκύψει και να εφαρμοστεί η σχέση ενημέρωσης της μεθόδου Stochastic Gradient Descent with minibatch. Πριν όμως τον υπολογισμό της κλίσης, τα διανύσματα του κάθε ζευγαριού διαιρούνται με την ²-νόρμα τους για να αποκτήσουν μοναδιαίο μέτρο και έτσι να υπάρχει καλύτερη εποπτεία στις τιμές των διανυσματικών αποστάσεων που υπολογίζονται για να προκύψει η τιμή της κλίσης για κάθε ζευγάρι, δηλ. για την διανυσματική απόσταση στον υψηλής διάστασης χώρο και για την διανυσματική απόσταση στον χαμηλής διάστασης χώρο. Τέλος, μετά από κάθε ενημέρωση του πίνακα μετασχηματισμού, η κάθε στήλη του πίνακα διαιρείται με την ²-νόρμα της για να τηρείται ο περιορισμός. Στις στοχαστικές διαδικασίες είναι πολύ σημαντική η σειρά που εμφανίζονται τα δεδομένα, δηλ. ο τρόπος που σχηματίζονται τα minibatches, διότι ο πίνακας αρχικοποιείται και στη συνέχεια ενημερώνεται χρησιμοποιώντας ένα minibatch από ζευγάρια κάθε φορά. Η αποθήκευση όλων των ζευγαριών εκμάθησης μαζί δεν είναι εφικτή τεχνικά (λόγω του ότι απαιτεί τεράστια μνήμη και λογισμικό ικανό να διαχειριστεί το εξαιρετικά μεγάλο πλήθος ζευγαριών) και έτσι δομούνται ομάδες ζευγαριών εκμάθησης για τη δημιουργία των minibatches σε κάθε ομάδα. Η κάθε ομάδα αποτελείται από τα ζευγάρια ενός αριθμού εικόνων εκμάθησης από κάθε κατηγορία της βάσης δεδομένων (και όχι από όλες τις εικόνες εκμάθησης κάθε 130

151 κατηγορίας ώστε να είναι διαχειρίσιμο το πλήθος των ζευγαριών κάθε ομάδας). Με αυτό τον τρόπο, κάθε ομάδα περιέχει αρκετά μεγάλη ποικιλία (variability) ζευγαριών, αφού διαθέτει ζευγάρια από όλες τις κατηγορίες των εικόνων, και άρα επιτυγχάνεται η όσο το δυνατόν μεγαλύτερη τυχαιότητα στη σειρά που χρησιμοποιούνται τα δεδομένα από τον αλγόριθμο Stochastic Gradient Descent with minibatch. Έτσι, κατά την εκτέλεση της μεθόδου βελτιστοποίησης, οι ομάδες επιλέγονται διαδοχικά μέχρι να χρησιμοποιηθούν όλες (ένα epoch) και αν χρειάζονται περισσότερα epochs για την εύρεση του ελαχίστου της συνάρτησης απωλειών τότε η διαδικασία επαναλαμβάνεται αφού πρώτα ανακατευτούν τα δεδομένα (ώστε οι νέες ομάδες να αποτελούνται από διαφορετικά ζευγάρια και άρα τα minibatches να συγκροτούνται από διαφορετικά ζευγάρια). Για την δημιουργία των ομάδων επιλέγονται 6 εικόνες εκμάθησης ανά κατηγορία για την Caltech-101 και 2 εικόνες εκμάθησης ανά κατηγορία για την Caltech-256 (δηλ. ομάδες 6 101=606 εικόνων για την Caltech-101 και 2 256=512 εικόνων για την Caltech-256) ενώ από κάθε εικόνα δημιουργούνται μερικές δεκάδες χιλιάδες ζευγάρια. Από τα ζευγάρια της κάθε ομάδας δημιουργούνται τα minibatches για την ενημέρωση του πίνακα μετασχηματισμού σε κάθε επανάληψη. Για να είναι αποδοτική η κάθε ενημέρωση, δηλ. ο πίνακας μετασχηματισμού να μπορεί να επιτύχει τη έλξη των όμοιων διανυσμάτων και την απομάκρυνση των ανόμοιων διανυσμάτων στον χώρο χαμηλής διάστασης, επιλέγεται το κάθε minibatch να συγκροτείται με ίσο πλήθος όμοιων και ανόμοιων ζευγαριών (τα οποία συλλέγονται τυχαία από τα ζευγάρια της ομάδας). Με αυτό τον τρόπο, σε κάθε επανάληψη ενημερώνεται με ισότιμο τρόπο o πίνακας μετασχηματισμού για τις δύο λειτουργίες που μαθαίνει να εκτελεί. Οι παράμετροι που διέπουν τη διαδικασία υπολογισμού του πίνακα μετασχηματισμού είναι οι παράμετροι που ρυθμίζουν την μέθοδο βελτιστοποίησης Stochastic Gradient Descent with minibatch και οι παράμετροι που σχετίζονται με τον ορισμό της συνάρτησης contrastive loss. Έτσι, στη μέθοδος Stochastic Gradient Descent με minibatch επιλέγεται το βήμα (ή ρυθμός εκμάθησης) που καθορίζει τη συμμετοχή της παραγώγου στην ενημέρωση της τιμής της μεταβλητής, και το μέγεθος του minibatch, δηλ. το πλήθος των ζευγαριών που χρησιμοποιούνται σε κάθε επανάληψη για τον υπολογισμό της κλίσης και άρα την ενημέρωση του πίνακα. Η παράμετρος που σχετίζεται με τον ορισμό της συνάρτησης contrastive loss είναι το μέγεθος, το οποίο αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους. Η παράμετρος προσδιορίζει μία σφαίρα ακτίνας στον χώρο χαμηλής διάστασης, όπου τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους μόνο αν η ευκλείδεια απόστασή τους στον προκύπτον χαμηλής διάστασης χώρο βρίσκεται μέσα στην σφαίρα, διότι αυτά τα ανόμοια δείγματα πρέπει να μάθει η συνάρτηση μετασχηματισμού να απομακρύνει στον χαμηλής διάστασης χώρο (αφού όσα ανόμοια δείγματα έχουν ευκλείδεια απόσταση μεταξύ τους μεγαλύτερη από στον 131

152 χαμηλής διάστασης χώρο η συνάρτηση μετασχηματισμού έχει ήδη μάθει να τα απομακρύνει μεταξύ τους). Οι τιμές των παραμέτρων που ρυθμίζουν την μέθοδο Stochastic Gradient Descent επιλέχθηκαν μέσω δοκιμών χρησιμοποιώντας τα ζευγάρια εκμάθησης και ελέγχοντας κατά την εκτέλεση της μεθόδου Stochastic Gradient Descent with minibatch πως μεταβάλλεται η συνάρτηση απωλειών (contrastive loss). Οπότε, ο ρυθμός εκμάθησης επιλέχθηκε να έχει σταθερή τιμή 0.01 και το μέγεθος του minibatch ορίστηκε στα 256 ζευγάρια, όπου τα 128 είναι ζευγάρια με όμοια δείγματα (δηλ. ) και τα άλλα 128 είναι ζευγάρια με ανόμοια δείγματα (δηλ. ), διότι με αυτές τις τιμές η μέθοδος Stochastic Gradient Descent ενημερώνει τον πίνακας με τρόπο που να οδηγεί σε ελάττωση των τιμών της contrastive loss, δηλ. ο αλγόριθμος κινείται προς την κατεύθυνση ενός ελαχίστου της συνάρτησης contrastive loss και άρα οδηγείται σε σύγκλιση. Η εφαρμογή του νορμαλισμού με την ²-νόρμα στα διανύσματα του υψηλής διάστασης χώρου πριν το υπολογισμό της κλίσης για κάθε ζευγάρι του minibatch έχει σαν αποτέλεσμα οι τιμές που το επηρεάζει την διαδικασία ελάττωσης διάστασης (αφού για πολύ μικρές τιμές του μηδενίζεται η επιμέρους συνάρτηση απωλειών που αφορά τα ανόμοια δείγματα και για πολύ μεγάλες τιμές του δεν μεταβάλλεται η διαδικασία εκμάθηση του πίνακα μετασχηματισμού) να κυμαίνονται σε μικρό εύρος τιμών και άρα να είναι υπολογιστικά εφικτό με δοκιμές να βρεθεί η τιμή που οδηγεί στη πιο αποδοτική ελάττωση διάστασης. Τελικά, ύστερα από δοκιμές (grid search) το όριο έλαβε την τιμή 3. Σε κάθε επανάληψη της μεθόδου Stochastic Gradient Descent with minibatch ενημερώνεται ο πίνακας χρησιμοποιώντας ένα minibatch από 256 ζευγάρια. Μία ακόμα παράμετρος, που δεν επηρεάζει την διαδικασία ενημέρωσης του πίνακα μετασχηματισμού αλλά καθορίζει την απεικόνιση της συνάρτησης contrastive loss, είναι μετά από πόσες επαναλήψεις (minibatches) θα σημειώνεται ένα σημείο στο διάγραμμα της συνάρτησης contrastive loss. Αυτό που επιλέχθηκε είναι ανά 50 minibatches (δηλ. ανά =12800 ζευγάρια και άρα τιμές της συνάρτησης contrastive loss, αφού για κάθε ζευγάρι υπολογίζεται μία τιμή της συνάρτησης contrastive loss) να υπολογίζεται ο μέσος όρος των τιμών της συνάρτησης contrastive loss και να σημειώνεται αυτό σαν ένα σημείο στο διάγραμμα της contrastive loss. Άρα, ανά 50 ενημερώσεις του πίνακα σημειώνεται ένα σημείο της συνάρτησης contrastive loss στο διάγραμμα (το οποίο είναι ο μέσος όρος των τιμών της συνάρτησης contrastive loss ύστερα από 50 επαναλήψεις, δηλ τιμές της συνάρτησης) και έτσι το διάγραμμα συμπληρώνεται ταυτόχρονα με την εκτέλεση της Stochastic Gradient Descent. Με αυτό τον τρόπο ελέγχεται αν η μέθοδος Stochastic Gradient Descent οδηγείται σε σύγκλιση, δηλ. αν κινείται προς την κατεύθυνση ενός ελαχίστου της συνάρτησης contrastive loss, ή με άλλα λόγια, αν η διαδικασία εκμάθησης του πίνακα μέσω της ενημέρωσης του από τη μέθοδος Stochastic Gradient Descent οδηγεί σε ελάττωση των τιμών της συνάρτησης contrastive loss. 132

153 Η διαδικασία ελάττωσης διάστασης μετασχηματίζει τα διανύσματα του υψηλής διάστασης χώρου (k-διάστασης) σε διανύσματα του χαμηλότερης διάστασης χώρου (ɳ-διάστασης), δηλ. ɳ k. Τα διανύσματα του υψηλής διάστασης χώρου έχουν προκύψει από την διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε ομάδες γειτονικών αραιών διανυσμάτων και άρα είναι 1024 διαστάσεων (αφού το λεξικό αραιής αναπαράστασης του πρώτου επιπέδου αποτελείται από 1024 άτομα). Τα διανύσματα του χαμηλής διάστασης χώρου επιλέγεται να έχουν διάσταση όση και τα διανύσματα που εφαρμόστηκε η αραιή αναπαράσταση, δηλ. ίδια διάσταση με τα διανύσματα που προέκυψαν από την διαδικασία κωδικοποίησης NMF. Άρα, τα διανύσματα στον προκύπτον χαμηλής διάστασης χώρο είναι 64 διαστάσεων. Με αυτό τον τρόπο, υπάρχει μια συμμετρία κατά την εκτέλεση της μορφής ακορντεόν της τοπολογίας Deep Sparse Coding, όπου εναλλάσσονται μία διαδικασία αύξησης της διαστατικότητας των διανυσμάτων που δημιουργεί διανύσματα 1024 διαστάσεων (αραιή αναπαράσταση) με μία διαδικασία ελάττωσης της διαστατικότητας των διανυσμάτων που οδηγεί σε διανύσματα 64 διαστάσεων (ελάττωση διάστασης στη μονάδα σύνδεσης), αν και αυτή η συμμετρία δεν είναι απαραίτητη. Τελικά, ισχύει k=1024 και ɳ=64 ώστε ο πίνακας να μετασχηματίζει τα διανύσματα 1024 διαστάσεων σε διανύσματα 64 διαστάσεων. Ο γεωμετρικός χώρος που ορίζεται η συνάρτηση απωλειών (contrastive loss) είναι ο χώρος (ɳ k) διαστάσεων. Επομένως, στον χώρο των (ɳ k) = ( ) = διαστάσεων εκτελείται η μέθοδος Stochastic Gradient Descent with minibatch για την εύρεση του ελαχίστου της συνάρτησης contrastive loss ώστε να προκύψει o πίνακας μετασχηματισμού. Για την εκτέλεση της Stochastic Gradient Descent with minibatch χρησιμοποιήθηκε μία φορά το σύνολο εκμάθησης (1 epoch) αφού ο αλγόριθμος σύγκλινε ύστερα από ένα epoch. Μάλιστα λόγω της δημιουργίας των minibatches από ίσο πλήθος όμοιων και ανόμοιων ζευγαριών και εφόσον τα όμοια ζευγάρια είναι πολύ λιγότερα από τα ανόμοια ζευγάρια (εξαιτίας της επιλογής της τιμής της παραμέτρου κατά την δημιουργία των ζευγαριών) τελικά δεν χρησιμοποιούνται ούτε καν όλα τα ανόμοια ζευγάρια μετά από ένα epoch. 133

154 Εικόνα 4.7 : Η τιμή της συνάρτησης contrastive loss ελαττώνεται καθώς ο πίνακας ενημερώνεται από την μέθοδο βελτιστοποίησης Stochastic Gradient Descent with minibatch μέσω της σχέσης, όπου. Το μέγεθος του minibatch ορίστηκε στα 256 ζευγάρια, όπου τα 128 είναι ζευγάρια με όμοια δείγματα (δηλ. ) και τα άλλα 128 είναι ζευγάρια με ανόμοια δείγματα (δηλ. ), και έχουν προέλθει τυχαία από το σύνολο ζευγαριών της κάθε ομάδας. Η κάθε ομάδα αποτελείται από μερικές δεκάδες εκατομμύρια ζευγάρια αφού από κάθε εικόνα δημιουργούνται μερικές δεκάδες χιλιάδες ζευγάρια και η ομάδα αποτελείται από εικόνες από όλες τις κατηγορίες. Το πλήθος των minibatches που δημιουργούνται σε κάθε ομάδα, δηλ. πόσες ενημερώσεις του πίνακα θα εκτελεστούν σε κάθε ομάδα, εξαρτάται από το πλήθος των όμοιων ζευγαριών (που είναι πολύ λιγότερα από τα ανόμοια ζευγάρια εξαιτίας της επιλογής της τιμής της παραμέτρου κατά την δημιουργία των ζευγαριών). Κάθε σημείο στο διάγραμμα είναι ο μέσος όρος των τιμών της συνάρτησης contrastive loss ύστερα από 50 επαναλήψεις (50 ενημερώσεις του πίνακα ) της μεθόδου Stochastic Gradient Descent with minibatch, δηλ. ύστερα από 50 minibatches, οπότε =12800 ζευγάρια, και συνεπώς από τιμές της συνάρτησης contrastive loss (αφού για κάθε ζευγάρι υπολογίζεται μία τιμή της συνάρτησης contrastive loss). Άρα, κάθε σημείο στο διάγραμμα αντιστοιχεί σε 50 επαναλήψεις, δηλ. είναι ο μέσος όρος από τιμές της συνάρτησης contrastive loss. Το διάγραμμα της συνάρτησης contrastive loss παράγεται ταυτόχρονα με την εκτέλεση της μεθόδου Stochastic Gradient Descent with minibatch έτσι ώστε να ελέγχεται αν η μέθοδος συγκλίνει και αν όχι να αλλάξουν οι παράμετροι που την ρυθμίζουν ή να τροφοδοτηθεί με δεδομένα (νέα epochs). 134

155 III) Πραγματοποίηση της διαδικασίας ελάττωσης διάστασης Ο πίνακας μετασχηματισμού υπολογίζεται με τη βοήθεια της μεθόδου Stochastic Gradient Descent with minibatch ελαχιστοποιώντας την συνάρτηση contrastive loss. Τα ζευγάρια και οι ετικέτες που χρειάζονται για τον σχηματισμό της συνάρτησης contrastive loss προσδιορίζονται με βάση τις χωρικές αποστάσεις (σε μονάδες pixels) των διανυσμάτων, δηλ. τις αποστάσεις των χωρικών θέσεων (κέντρο Field of View) των διανυσμάτων στην εικόνα. Κατά συνέπεια, ο πίνακας μετασχηματισμού έχει σχεδιαστεί έτσι ώστε να λαμβάνει υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και με αυτόν τον τρόπο να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Η πραγματοποίηση της ελάττωσης διάστασης των δεδομένων υλοποιείται εφαρμόζοντας τη συνάρτηση μετασχηματισμού σε κάθε διάνυσμα του υψηλής διάστασης χώρου. (δηλ. σε κάθε pooled διάνυσμα). Εφόσον η συνάρτηση μετασχηματισμού αντιστοιχεί στον πίνακα μετασχηματισμού, τότε ο πίνακας πολλαπλασιάζεται με κάθε διάνυσμα του υψηλής διάστασης χώρου ώστε να το μετασχηματίσει σε ένα διάνυσμα του χαμηλότερης διάστασης χώρου, δηλ. για κάθε διάνυσμα του υψηλής διάστασης χώρου υπολογίζεται το αντίστοιχο διάνυσμα του χαμηλής διάστασης χώρου. Αραιή αναπαράσταση (Sparse Representation) [2ο επίπεδο] Στη διαδικασία ελάττωσης διάστασης επιλέχθηκε τα διανύσματα που προκύπτουν να είναι 64 διαστάσεων. Τα διανύσματα αυτά αποτελούν είσοδο στο στάδιο της αραιής αναπαράστασης του 2ου επιπέδου (2nd layer) της τοπολογίας. Η διαδικασία που ακολουθείται είναι ακριβώς ίδια με αυτή στο στάδιο της αραιής αναπαράστασης του 1ου επιπέδου (1st layer) με τις ίδιες επιλογές παραμέτρων. Η μόνη διαφορά είναι ότι αυτό το στάδιο διαχειρίζεται μικρότερο πλήθος διανυσμάτων αφού, λόγω της επιλογής στο βήμα υποδειγματοληψίας (stride) στη διαδικασία τοπικής χωρικής συγκέντρωσης της 1ης μονάδας σύνδεσης, έχει μειωθεί το πλήθος των διανυσμάτων που συνεχίζουν να διαδίδονται στην τοπολογία. Άρα, από ένα σύνολο διανυσμάτων εισόδου υπολογίζεται μέσω μιας διαδικασίας εκμάθησης το λεξικό αραιής αναπαράστασης και στην συνέχεια όλα τα διανύσματα εισόδου κωδικοποιούνται με βάση το λεξικό για να προκύψει η αραιή αναπαράστασή τους, όπου ισχύει ο (όπως και στο 1 επίπεδο) ο επιπλέον περιορισμός για τους συντελεστές αραιής αναπαράστασης να έχουν τιμή μη αρνητική, δηλ. οι μη μηδενικοί συντελεστές να είναι θετικοί (λόγω των LSP και SPM με max pooling). Το πρόβλημα βελτιστοποίησης της αραιής αναπαράστασης περιγράφεται από την σχέση : 135

156 με τον περιορισμό Το πρόβλημα της αραιής αναπαράστασης έχει σαν κριτήριο αραιότητας την -νόρμα (Basis Pursuit ή Lasso) και επιλύεται μέσω της εργαλειοθήκης SPAMS (SPArse Modeling Software) ενώ η αραιή κωδικοποίηση πραγματοποιείται από την μέθοδο ομοτοπίας LARS-Lasso. Οι τιμές των παραμέτρων είναι ίδιες με το στάδιο της αραιής αναπαράστασης του 1ου επιπέδου (1st layer) αφού μετά από δοκιμές, χρησιμοποιώντας το σύνολο των validation εικόνων, παρατηρήθηκε ότι χωρίς μεταβολή των τιμών των παραμέτρων επιτυγχάνεται η καλύτερη απόδοση, δηλ. για λεξικό 1024 ατόμων και μέγιστο πλήθος μη μηδενικών συντελεστών σε κάθε αραιή αναπαράσταση ίσο με 25. Άρα, η διαδικασία αραιής αναπαράστασης επαναλαμβάνεται (όπως στο 1ο επίπεδο) με τα νέα διανύσματα εισόδου. Τοπική χωρική συγκέντρωση (Local Spatial Pooling) [2η μονάδα σύνδεσης] Όμοια με την 1η μονάδα σύνδεσης, στα διανύσματα αραιής αναπαράστασης που έχουν υπολογιστεί στο προηγούμενο επίπεδο της τοπολογίας Deep Sparse Coding εκτελείται η τοπική χωρική συγκέντρωση (Local Spatial Pooling) σε ομάδες γειτονικών διανυσμάτων. Οι ομάδες γειτονικών αραιών διανυσμάτων επιλέγεται να συγκροτούνται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Με αυτό τον τρόπο επιχειρείται τα διανύσματα που συγκεντρώνονται (pooling) μαζί σε κάθε ομάδα να φέρουν συναφή πληροφορία αφού θα αντιστοιχούν σε κοινά μοτίβα στην εικόνα. Για να προσδιοριστούν ποιά αραιά διανύσματα προέκυψαν από patches που είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας πρέπει να βρεθεί το Field of View (δηλ. η χωρική περιοχή στον χώρο των pixels της εικόνας) των αραιών διανυσμάτων στην εικόνα. Τα διανύσματα που προέκυψαν από την διαδικασία της τοπικής χωρικής συγκέντρωσης (Local Spatial Poling) στην 1η μονάδα σύνδεσης έχουν Field of View 36 x 36 pixels και η χωρική απόσταση μεταξύ διαδοχικών διανυσμάτων είναι 8 pixels (σύμφωνα με την ανάλυση που είχε γίνει στο εδάφιο που περιγραφόταν η τοπική χωρική συγκέντρωση (Local Spatial Poling) στην 1η μονάδα σύνδεσης). Το Field of View και η χωρική απόσταση μεταξύ διαδοχικών διανυσμάτων δεν μεταβάλλεται κατά τη διαδικασία ελάττωσης DRLIM και κατά την διαδικασία αραιής αναπαράστασης αφού δεν εφαρμόζεται κάποια διαδικασία συγκέντρωσης (pooling) σε αυτές τις δύο διεργασίες. Έτσι, το Field of View και η 136

157 χωρική απόσταση μεταξύ διαδοχικών αραιών διανυσμάτων είναι ίδιο με αυτό των διανυσμάτων που προέκυψαν από την διαδικασία της τοπικής χωρικής συγκέντρωσης (Local Spatial Poling) στην 1 η μονάδα σύνδεσης. Επομένως, εφόσον κάθε αραιό διάνυσμα του 2 ου επιπέδου (2 nd layer) έχει Field of View 36 x 36 pixels και η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 8 pixels, τότε σε κάθε ομάδα 5 x 5 γειτονικών αραιών διανυσμάτων υπάρχει αλληλοεπικάλυψη των Fields of View των διανυσμάτων. Άρα, τα 25 γειτονικά αραιά διανύσματα είναι «επικαλυπτόμενα» στον χώρο των pixels της εικόνας, δηλ. έχουν επικαλυπτόμενα Fields of View. Συνεπώς, η κάθε ομάδα γειτονικών αραιών διανυσμάτων, που προέκυψαν από patches που είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας, αποτελείται από 5 x 5 (25) γειτονικά αραιά διανύσματα. Άρα, επιλέγονται 5 διανύσματα οριζόντια και 5 κατακόρυφα για τον σχηματισμό της κάθε ομάδας (ορθογώνιο με πλευρές 5 διανύσματα οριζόντια και 5 κατακόρυφα). Οπότε, εφόσον το Field of View των αραιών διανυσμάτων είναι 36 x 36 pixels και η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 8 pixels τότε το Field of View των pooled διανυσμάτων (5 x 5 γειτονικά αραιά διανύσματα) της 2 ης μονάδας σύνδεσης είναι 68 x 68 pixels. Το βήμα υποδειγματοληψίας (spatial stride) ορίζεται στην τιμή 2 στην οριζόντια διάσταση και 2 στη κατακόρυφη. Το βήμα υποδειγματοληψίας καθορίζει το πλήθος των pooled διανυσμάτων που θα διαδοθούν στην τοπολογία και την χωρική απόσταση (υπό όρους pixels στην εικόνα) των pooled διανυσμάτων μεταξύ τους. Άρα, η επιλογή της τιμής δύο στο βήμα υποδειγματοληψίας έχει σαν αποτέλεσμα η χωρική απόσταση διαδοχικών pooled διανυσμάτων μεταξύ τους να είναι διπλάσια σε σχέση με την χωρική απόσταση των διαδοχικών αραιών διανυσμάτων μεταξύ τους. Έτσι, εφόσον η χωρική απόσταση διαδοχικών αραιών διανυσμάτων είναι 8 pixels, τότε η χωρική απόσταση διαδοχικών pooled διανυσμάτων της 2 ης μονάδας σύνδεσης είναι 16 pixels. Επίσης, το πλήθος των pooled διανυσμάτων της 2 ης μονάδας σύνδεσης είναι περίπου το ¼ των αραιών διανυσμάτων που εισήχθησαν στη 2 η μονάδα σύνδεσης. Συνεπώς, το επόμενο στάδιο (αλλά και το επόμενο επίπεδο της τοπολογίας) θα διαχειρίζεται περίπου υπο-δεκαεξαπλάσια διανύσματα σε σχέση με τα αρχικά διανύσματα της τοπολογίας, αφού περίπου το ¼ των αρχικών διανυσμάτων συνέχισε να διαδίδεται μετά την 1 η μονάδα σύνδεσης και από αυτά περίπου το ¼ συνέχισε να διαδίδεται μετά την 2 η μονάδα σύνδεσης, δηλ. περίπου το 1/16 των αρχικών διανυσμάτων. Τελικά, στην διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Poling) στην 2 η μονάδα σύνδεσης οι τιμές των παραμέτρων (πλήθος διανυσμάτων που θα δημιουργήσουν την κάθε ομάδα και βήμα υποδειγματοληψίας) είναι ακριβώς ίδιες με τις τιμές στην 1 η μονάδα σύνδεσης. Άρα, η διαδικασία τοπικής χωρικής συγκέντρωσης επαναλαμβάνεται (όπως στην 1 η μονάδα σύνδεσης) με τα νέα διανύσματα εισόδου. 137

158 Spatial dimensions 1) 2) 3) 4) 5) 6) 7) Εικόνα 4.8 : Οι παραπάνω εικόνες αποτυπώνουν κάποια διανύσματα από μία εικόνα στο χώρο της εικόνας. Τα πράσινα σημεία αντιστοιχούν στα αραιά διανύσματα του 1 ου επιπέδου αραιής αναπαράστασης. [υπο-εικόνες 1),2),4),5)] Τα μπλε σημεία αντιστοιχούν στα pooled διανύσματα της 1 ης μονάδας σύνδεσης, άρα και στα αραιά διανύσματα του 2 ου επιπέδου αραιής αναπαράστασης. [υπο-εικόνες 2),3),4),6)] Τα κόκκινα σημεία αντιστοιχούν στα pooled διανύσματα της 2 ης μονάδας σύνδεσης, άρα και στα αραιά διανύσματα του 3 ου επιπέδου αραιής αναπαράστασης. [υπο-εικόνες 3),4),7)] Η διαδικασία Local Spatial Pooling (LSP) γίνεται σε 5x5 γειτονικά αραιά διανύσματα και με βήμα υποδειγματοληψίας 2 και στις δύο μονάδες σύνδεσης. Μέσω της παραπάνω απεικόνισης φαίνεται ξεκάθαρα ότι η χωρική απόσταση διαδοχικών pooled διανυσμάτων διπλασιάζεται και ότι το πλήθος των διανυσμάτων περίπου υπο-τετραπλασιάζεται μετά από μία διαδικασία LSP με βήμα υποδειγματοληψίας (stride) ίσο με

159 Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) Για την εκτέλεση της μεθόδου DRLIM, το πρώτο στάδιο είναι ο σχηματισμός των ζευγαριών εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν, το δεύτερο στάδιο είναι η επίλυση του προβλήματος ελαχιστοποίησης της συνάρτησης contrastive loss για να υπολογιστεί η συνάρτηση μετασχηματισμού (πίνακας μετασχηματισμού) και το τρίτο και τελευταίο στάδιο είναι η εφαρμογή της συνάρτησης μετασχηματισμού για την πραγματοποίηση της ελάττωσης διάστασης. Ο σχηματισμός των ζευγαριών εκμάθησης να γίνεται έτσι ώστε το κάθε ζευγάρι να αποτελείται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Δηλ. δημιουργούνται ζευγάρια έτσι ώστε να υπάρχει πάντα αλληλοεπικάλυψη στα Fields of View (χωρική περιοχή στον χώρο των pixels της εικόνας) των δύο διανυσμάτων που αποτελούν το ζευγάρι. Αυτό επιτυγχάνεται βρίσκοντας την χωρική απόσταση μεταξύ των διανυσμάτων δηλ. ελέγχοντας τα Fields of View των διανυσμάτων). Εφόσον το Field of View των pooled διανυσμάτων (5 x 5 γειτονικά αραιά διανύσματα) της 2ης μονάδας σύνδεσης είναι 68 x 68 pixels και η χωρική απόσταση διαδοχικών pooled διανυσμάτων της 2ης μονάδας σύνδεσης είναι 16 pixels, τότε για να έχουν δύο διανύσματα αλληλοεπικάλυψη η χωρική απόσταση μεταξύ τους να είναι μικρότερη από 80 pixels. Οπότε, η παράμετρος λαμβάνει την τιμή 80 αφού ορίζει τη μέγιστη χωρική απόσταση μεταξύ δύο διανυσμάτων ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι. Η παράμετρος επιλέγεται να λάβει την τιμή 16 pixels έτσι ώστε να σχηματίζονται όμοια ζευγάρια μόνο με τα πιο κοντινά διανύσματα. Η μέθοδος Stochastic Gradient Descent with minibatch ελαχιστοποιεί τη συνάρτηση contrastive loss μέσω μίας επαναληπτικής διαδικασίας ώστε να υπολογίσει τον πίνακα μετασχηματισμού. Η διαδικασία είναι ακριβώς ίδια με αυτή που ακολουθήθηκε στην 1η μονάδα σύνδεσης, με τις ίδιες τιμές παραμέτρων (βήμα, μέγεθος minibatch,όριο ). Ο πίνακας υπολογίζεται ώστε να μετασχηματίζει τα διανύσματα 1024 διαστάσεων σε διανύσματα 64 διαστάσεων. Για την εκτέλεση της Stochastic Gradient Descent with minibatch χρησιμοποιήθηκε αρκετές φορές το σύνολο εκμάθησης (αρκετά epochs) λόγω του ότι το πλήθος των ζευγαριών που δημιουργούνται είναι πολύ μικρότερο από το πλήθος των ζευγαριών στην 1η μονάδα σύνδεσης. Επίσης, κάθε ομάδα ζευγαριών εκμάθησης αποτελείται από περισσότερες εικόνες εκμάθησης από κάθε κατηγορία εφόσον σχηματίζονται πολύ λιγότερα ζευγάρια ανά εικόνα. Αυτό συμβαίνει διότι μετά την διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Poling) στην 2η μονάδα σύνδεσης τα διανύσματα που συνεχίζουν στην τοπολογία είναι περίπου το 1/16 των αρχικών διανυσμάτων και άρα λογικό είναι να σχηματίζονται και πολύ λιγότερα ζευγάρια σε σχέση με την 1η μονάδα σύνδεσης, όπου συνέχιζαν στην τοπολογία διανύσματα που ήταν περίπου το 1/4 των αρχικών διανυσμάτων. 139

160 Εικόνα 4.9 : Η τιμή της συνάρτησης contrastive loss ελαττώνεται καθώς ο πίνακας ενημερώνεται από την μέθοδο βελτιστοποίησης Stochastic Gradient Descent with minibatch μέσω της σχέσης, όπου. Το μέγεθος του minibatch ορίστηκε στα 256 ζευγάρια, όπου τα 128 είναι ζευγάρια με όμοια δείγματα (δηλ. ) και τα άλλα 128 είναι ζευγάρια με ανόμοια δείγματα (δηλ. ), και έχουν προέλθει τυχαία από το σύνολο ζευγαριών της κάθε ομάδας. Η κάθε ομάδα αποτελείται από μερικές δεκάδες εκατομμύρια ζευγάρια αφού από κάθε εικόνα δημιουργούνται μερικές δεκάδες χιλιάδες ζευγάρια και η ομάδα αποτελείται από εικόνες από όλες τις κατηγορίες. Το πλήθος των minibatches που δημιουργούνται σε κάθε ομάδα, δηλ. πόσες ενημερώσεις του πίνακα θα εκτελεστούν από κάθε ομάδα, εξαρτάται από το πλήθος των όμοιων ζευγαριών (που είναι πολύ λιγότερα από τα ανόμοια ζευγάρια εξαιτίας της επιλογής της τιμής της παραμέτρου κατά την δημιουργία των ζευγαριών). Κάθε σημείο στο διάγραμμα είναι ο μέσος όρος των τιμών της συνάρτησης contrastive loss ύστερα από 50 επαναλήψεις (50 ενημερώσεις του πίνακα ) της μεθόδου Stochastic Gradient Descent with minibatch, δηλ. ύστερα από 50 minibatches, οπότε =12800 ζευγάρια, και συνεπώς από τιμές της συνάρτησης contrastive loss (αφού για κάθε ζευγάρι υπολογίζεται μία τιμή της συνάρτησης contrastive loss). Άρα, κάθε σημείο στο διάγραμμα αντιστοιχεί σε 50 επαναλήψεις, δηλ. είναι ο μέσος όρος από τιμές της συνάρτησης contrastive loss. Το διάγραμμα της συνάρτησης contrastive loss παράγεται ταυτόχρονα με την εκτέλεση της μεθόδου Stochastic Gradient Descent with minibatch έτσι ώστε να ελέγχεται αν η μέθοδος συγκλίνει και αν όχι να αλλάξουν οι παράμετροι που την ρυθμίζουν ή να τροφοδοτηθεί με δεδομένα (νέα epochs). 140

161 Η πραγματοποίηση της ελάττωσης διάστασης των δεδομένων υλοποιείται πολλαπλασιάζοντας τον πίνακα -που υπολογίστηκε μέσω της μεθόδου Stochastic Gradient Descent with minibatch- με κάθε διάνυσμα του υψηλής διάστασης χώρου (1024 διαστάσεις) ώστε να το μετασχηματίσει σε ένα διάνυσμα του χαμηλότερης διάστασης χώρου (64 διαστάσεις). Άρα, η διαδικασία ελάττωσης διάστασης DRLIM επαναλαμβάνεται (όπως στην 1 η μονάδα σύνδεσης) με τα νέα διανύσματα εισόδου. Αραιή αναπαράσταση (Sparse Representation) [3 ο επίπεδο] Στη διαδικασία ελάττωσης διάστασης στην 2 η μονάδα σύνδεσης επιλέχθηκε τα διανύσματα που προκύπτουν να είναι 64 διαστάσεων. Τα διανύσματα που προκύπτουν από τη 2 η μονάδα σύνδεσης αποτελούν είσοδο στο στάδιο της αραιής αναπαράστασης του 3 ου επιπέδου (3 rd layer) της τοπολογίας. Η διαδικασία που ακολουθείται είναι ακριβώς ίδια με αυτή στο στάδιο της αραιής αναπαράστασης του 1 ου επιπέδου (1 st layer) με τις ίδιες επιλογές παραμέτρων. Η μόνη διαφορά είναι ότι αυτό το στάδιο διαχειρίζεται μικρότερο πλήθος διανυσμάτων αφού, λόγω της επιλογής στο βήμα υποδειγματοληψίας (stride) στη διαδικασία τοπικής χωρικής συγκέντρωσης της 2 ης μονάδας σύνδεσης, έχει μειωθεί το πλήθος των διανυσμάτων που συνεχίζουν να διαδίδονται στην τοπολογία (έχουν πλήθος περίπου το 1/16 των αρχικών διανυσμάτων). Η εκμάθηση του λεξικού πραγματοποιείται μέσω της εργαλειοθήκης SPAMS (SPArse Modeling Software) ενώ η αραιή κωδικοποίηση με κριτήριο αραιότητας την -νόρμα (Basis Pursuit ή Lasso) πραγματοποιείται από την μέθοδο ομοτοπίας LARS-Lasso. Οι τιμές των παραμέτρων είναι ίδιες με τα στάδια της αραιής αναπαράστασης του 1 ου και 2 ου επιπέδου (1 st,2 nd layer) αφού μετά από δοκιμές, χρησιμοποιώντας το σύνολο των validation εικόνων, παρατηρήθηκε ότι χωρίς αλλαγή των τιμών των παραμέτρων επιτυγχάνεται η καλύτερη απόδοση. Άρα, η διαδικασία αραιής αναπαράστασης επαναλαμβάνεται (όπως στο 1 ο επίπεδο) με τα νέα διανύσματα εισόδου. Συνεπώς, τα καλύτερα αποτελέσματα επιτυγχάνονται όταν δεν μεταβάλλονται οι παράμετροι αραιής κωδικοποίησης καθώς εκτελούνται βαθύτερα επίπεδα της τοπολογίας. Έτσι, αν και δοκιμάστηκαν διάφορες αλλαγές στο στάδιο της κωδικοποίησης στο 2 ο και στο 3 ο επίπεδο αραιής αναπαράστασης, όπως η τιμή του παράγοντα και το πλήθος των βημάτων της ομοτοπικής μεθόδου, δεν οδήγησαν σε καλύτερα αποτελέσματα και μάλιστα σε πολλές περιπτώσεις υποβαθμίστηκε η απόδοση. 141

162 Η ιδιότητα της ανά επίπεδο εκπαίδευσης (layer-wise) της τοπολογίας Deep Sparse Coding φαίνεται ξεκάθαρα μέσω της περιγραφής των σταδίων της τοπολογίας, αφού αποδεικνύεται ότι τόσο κάθε επίπεδο αραιής αναπαράστασης όσο και οι μονάδες σύνδεσης των επιπέδων μεταξύ τους μπορούν να διατυπωθούν σαν ρητά ανεξάρτητα προβλήματα βελτιστοποίησης. Δηλ. κάθε στάδιο της τοπολογίας τροφοδοτείται από το αποτέλεσμα του προηγούμενου σταδίου και εκτελείται χωρίς να επηρεάζεται από τα υπόλοιπα στάδια της τοπολογίας ώστε να υπολογίσει τα δεδομένα που θα διαδοθούν στο επόμενο στάδιο. Οι πληροφορίες που χρειάζεται η μονάδα σύνδεσης για να δημιουργήσει τις ομάδες γειτονικών αραιών διανυσμάτων (Local Spatial Pooling) και για να σχηματίσει τα ζευγάρια εκμάθησης της μεθόδου DRLIM, δηλ. η γνώση των Fields of View των διανυσμάτων και η χωρική απόσταση (υπό όρους pixels) μεταξύ των διανυσμάτων στον χώρο των pixels εικόνας (spatial image domain), δεν επηρεάζουν την ανεξαρτησία μεταξύ των σταδίων της τοπολογίας. Αυτό συμβαίνει διότι τόσο οι παράμετροι που ρυθμίζουν την αραιή αναπαράσταση όσο και οι παράμετροι που ρυθμίζουν τις μονάδες σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης στην τοπολογία Deep Sparse Coding καθορίζονται ξεχωριστά σε κάθε στάδιο της τοπολογίας με κριτήριο την καλύτερη απόδοση του συστήματος (greedy layer-wise parameters selection). Επομένως, η αρχιτεκτονική Deep Sparse Coding αποτελεί μία μέθοδο μηεποπτευόμενης μάθησης χαρακτηριστικών που μπορεί να εκπαιδευτεί με άπληστο τρόπο (greedy) με ένα επίπεδο (layer) τη φορά, και όχι να βελτιστοποιηθούν όλα τα επίπεδα αραιής αναπαράστασης μαζί. Άρα, προσθέτοντας ένα επίπεδο αραιής αναπαράστασης στην τοπολογία (δηλ. κάνοντάς την πιο βαθιά κατά ένα επίπεδο), αυτό τροφοδοτείται από τα δεδομένα που έχουν υπολογιστεί μέχρι τότε και βελτιστοποιείται μεμονωμένα και ανεξάρτητα χωρίς να μεταβληθούν τα προηγούμενα επίπεδα. Με αυτό τον τρόπο η τοπολογία είναι ευέλικτη, αφού το μόνο επιπρόσθετο κόστος για την προσθήκη ενός επιπλέον επιπέδου (layer) είναι το υπολογιστικό κόστος για την εκτέλεση της μονάδας σύνδεσης και φυσικά το κόστος της διαδικασίας αραιής αναπαράστασης. Αφού εκτελεστούν τα στάδια: υπολογισμού τοπικών περιγραφέων SIFT, ένωσης γειτονικών περιγραφέων SIFT, ελάττωσης διάστασης μέσω της κωδικοποίησης NMF και αραιής αναπαράστασης, η τοπολογία γίνεται βαθύτερη απλά εναλλάσσοντας μία μονάδα σύνδεσης, που αποτελείται από την τοπική χωρική συγκέντρωση και την ελάττωση διάστασης μέσω της DRLIM, και μία μονάδα αραιής αναπαράστασης. Έτσι, πραγματοποιούνται επαναληπτικά οι διαδικασίες της τοπικής χωρικής συγκέντρωσης, της ελάττωσης διάστασης μέσω της DRLIM και της αραιής αναπαράστασης. Άρα, η τοπολογία Deep Sparse Coding ακολουθεί τη μορφή ακορντεόν εναλλάσσοντας μία διαδικασία αύξησης της διαστατικότητας των διανυσμάτων (αραιή αναπαράσταση) με μία διαδικασία ελάττωσης της διαστατικότητας των διανυσμάτων (ελάττωση διάστασης DRLIM) με ταυτόχρονη κάλυψη μεγαλύτερων περιοχών της εικόνας (LSP στη μονάδα σύνδεσης). 142

163 Χωρική πυραμιδική συγκέντρωση (μέσω της τεχνικής Spatial Pyramid Matching) Σε κάθε επίπεδο (layer) αραιής αναπαράστασης, εκτός από την διάδοση των αραιών αναπαραστάσεων στην επόμενη μονάδα σύνδεσης για την συνέχιση της διαδικασίας της βαθιάς μάθησης, εκτελείται και μία χωρική πυραμιδική συγκέντρωση (Spatial Pyramid Pooling) στις αραιές αναπαραστάσεις της κάθε εικόνας ώστε να εξάγεται ένα χαρακτηριστικό διάνυσμα από κάθε επίπεδο για κάθε εικόνα. Τελικά, όλα τα χαρακτηριστικά διανύσματα της κάθε εικόνας από όλα τα επίπεδα (ή μέχρι κάποιο επιθυμητό επίπεδο) ενώνονται σειριακά μαζί σε ένα διάνυσμα ώστε αυτό να χρησιμοποιηθεί στον ταξινομητή (SVM). Η τεχνική χωρικής πυραμιδικής συγκέντρωσης που χρησιμοποιείται στην παρούσα υλοποίηση ονομάζεται χωρική πυραμιδική αντιστοίχιση (Spatial Pyramid Matching) [Lazebnik 2006]. Η τεχνική αυτή αποτελείται από τρεις φάσεις (levels), όπου σε κάθε φάση η εικόνα χωρίζεται σε περιοχές και σε κάθε περιοχή εφαρμόζεται η διεργασία συγκέντρωσης, δηλ. από κάθε μία περιοχή (pooling region) προκύπτει ένα διάνυσμα έτσι ώστε να ενσωματωθεί η πληροφορία από μία περιοχή σε ένα μόνο διάνυσμα χαρακτηριστικών. Στην πρώτη φάση, η περιοχή της εικόνας που εκτελείται η διεργασία συγκέντρωσης (pooling region) είναι ολόκληρη η εικόνα. Στη δεύτερη φάση, η εικόνα χωρίζεται σε τέταρτα (4 τεταρτημόρια) και σε κάθε μία από τις 4 περιοχές εφαρμόζεται η διεργασία συγκέντρωσης. Στην τρίτη φάση, η εικόνα χωρίζεται σε 16 περιοχές, δηλ. κάθε μία περιοχή της δεύτερης φάσης χωρίζεται σε τέταρτα και άρα από όλη την εικόνα προκύπτουν 16 περιοχές, και σε κάθε μία από τις 16 περιοχές πραγματοποιείται η διεργασία συγκέντρωσης. Συνεπώς, οι περιοχές της εικόνας που εκτελείται η διεργασία συγκέντρωσης σχηματίζονται ιεραρχικά και είναι επικαλυπτόμενες από τη μία φάση της SPM στην άλλη. Άρα, και από τις τρεις φάσεις της SPM προκύπτουν 21 επικαλυπτόμενες περιοχές για την εικόνα (1+4+16=21). Οι 21 περιοχές ορίζονται στον χώρο των pixels της εικόνας και άρα για τα διανύσματα που έχουν υπολογιστεί σε κάθε επίπεδο αραιής αναπαράστασης της τοπολογίας βρίσκεται το Field of View τους στην εικόνα και χωρίζονται σε 21 αλληλοσυμπληρούμενες ομάδες διανυσμάτων (αφού το κάθε διάνυσμα συμμετέχει και στις τρεις φάσεις και άρα σίγουρα σε τρεις ομάδες). Βέβαια, γνωρίζοντας το πλήθος των αραιών διανυσμάτων που έχουν προκύψει οριζόντια και κατακόρυφα από κάθε εικόνα, η δημιουργία των ομάδων γίνεται πιο εύκολη αλγοριθμικά χωρίς να χρειάζεται η εύρεση του Field of View των διανυσμάτων. Εφόσον έχουν δημιουργηθεί οι 21 ομάδες αραιών διανυσμάτων (που αντιστοιχούν στις 21 περιοχές από τις τρεις φάσεις της χωρικής πυραμιδικής αντιστοίχισης), σε κάθε μία ομάδα διανυσμάτων εκτελείται η διεργασία συγκέντρωσης που είναι η συνάρτηση εύρεσης της μέγιστης τιμής των διανυσμάτων που συγκεντρώνονται μαζί (max pooling operation). Η επιλογή εύρεσης της μέγιστης τιμής (max pooling) των αραιών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα έγινε με το σκεπτικό ότι ταιριάζει καλύτερα στις αραιές αναπαραστάσεις 143

164 φυσικών εικόνων και κυρίως όταν χρησιμοποιείται ένας γραμμικός ταξινομητής ([Boureau 2010],[Yang 2009],[Wang 2010]). Τελικά, τα 21 διανύσματα που προκύπτουν μετά την διεργασία εύρεσης της μέγιστης τιμής (max pooling) ενώνονται σειριακά μαζί και σχηματίζουν ένα διάνυσμα χαρακτηριστικών που αντιστοιχεί στην κάθε εικόνα για το συγκεκριμένο επίπεδο αραιής αναπαράστασης της τοπολογίας. Έτσι, με τη διαδικασία της χωρικής πυραμιδικής αντιστοίχισης (Spatial Pyramid Matching), εισάγεται η χωρική πληροφορία στο διάνυσμα χαρακτηριστικών, η οποία δεν υπάρχει εγγενώς στα διανύσματα κωδικοποίησης, και είναι σημαντική διότι αποκαλύπτει τοπικά χαρακτηριστικά σε μία περιοχή (γειτονιά) της εικόνας. Άρα, η σύγκριση εικόνων μέσω των αποστάσεων των χαρακτηριστικών διανυσμάτων τους περιέχει άμεσα και χωρική πληροφορία πλέον, αφού ο τρόπος υπολογισμού των γειτονιών είναι κοινός για όλες τις εικόνες της κάθε βάσης δεδομένων και άρα, κάθε τμήμα του χαρακτηριστικού διανύσματος αντιστοιχεί σε διαφορετική περιοχή των εικόνων. Στη συνέχεια, και καθώς εκτελούνται τα υπόλοιπα επίπεδα της τοπολογίας, τα χαρακτηριστικά διανύσματα της κάθε εικόνας από όλα τα επίπεδα αραιής αναπαράστασης ενώνονται μαζί το ένα μετά το άλλο ώστε να δημιουργήσουν το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνας, το οποίο ενσωματώνει πληροφορίες ιεραρχικής μάθησης αφού από κάθε επίπεδο προκύπτει ένα χαρακτηριστικό διάνυσμα που περιέχει πληροφορίες μίας ευρύτερης περιοχής της εικόνας και αποτελεί σύνθεση των χαρακτηριστικών από προηγούμενα επίπεδα. Φυσικά, επειδή η τοπολογία Deep Sparse Coding είχε την ιδιότητα της ανά επίπεδο εκπαίδευσης (layer-wise), μπορούν να χρησιμοποιηθούν στον ταξινομητή μόνο τα χαρακτηριστικά διανύσματα που έχουν σχηματιστεί μέχρι ένα συγκεκριμένο επίπεδο χωρίς να απαιτείται να εκτελεστεί ολόκληρη η τοπολογία. Έτσι, το τελικό διάνυσμα χαρακτηριστικών σχηματίζεται σταδιακά μέσα από την βαθιά τοπολογία Deep Sparse Coding. Επομένως, το μεγαλύτερο τελικό διάνυσμα που σχηματίζεται για κάθε εικόνα έχει διαστάσεις : {αριθμός περιοχών (ομάδων) που σχηματίζονται σε κάθε εικόνα από την SPM} x {μέγεθος λεξικού αραιής αναπαράστασης σε κάθε επίπεδο} x {πλήθος επιπέδων αραιής αναπαράστασης στην τοπολογία}, δηλ. διαστάσεις. Στα διανύσματα χαρακτηριστικών που δημιουργούνται μέσω της τεχνικής SPM συνηθίζεται να πραγματοποιείται μία διαδικασία νορμαλισμού [Law 2014]. Όσον αφορά τον τύπο του νορμαλισμού που θα επιλεγεί υπάρχουν δύο κυρίαρχες προσεγγίσεις. Στη πρώτη προσέγγιση τα διανύσματα προβάλλονται στην 2 -σφαίρα έτσι ώστε να διευκολύνεται η εκτέλεση ενός γραμμικού ταξινομητή [Vevaldi 2011]. Στην δεύτερη προσέγγιση θεωρείται ότι ο 2 -νορμαλισμός υποβαθμίζει την απόδοση διότι καταστρέφει την πληροφορία του διανύσματος, όποτε σε αυτή την περίπτωση είτε επιλέγεται να μην εφαρμοστεί κανένας νορμαλισμός είτε επιλέγεται μία μέση λύση που είναι η εφαρμογή της 1.5 -νόρμας [Boureau 2011]. Στην παρούσα εργασία δοκιμάστηκαν διάφορες εκδοχές νορμαλισμού (επιλογή νόρμας, 144

165 νορμαλισμός σε κάθε περιοχή της SPM, νορμαλισμός σε κάθε φάση της SPM, νορμαλισμός σε ολόκληρο το διάνυσμα της SPM) και τελικά επιλέχθηκε με βάση την καλύτερη απόδοση ο νορμαλισμός ολόκληρου του διανύσματος της SPM που προκύπτει σε κάθε επίπεδο αραιής αναπαράστασης με 2-νόρμα. Εικόνα 4.10 : Χωρική Πυραμιδική Συγκέντρωση (Spatial Pyramid Pooling) με την χρήση της τεχνική της Χωρικής Πυραμιδικής Αντιστοίχισης (Spatial Pyramid Matching). Η τεχνική Spatial Pyramid Matching (SPM) εφαρμόζεται στα αραιά διανύσματα της κάθε εικόνας σε κάθε μονάδα αραιής αναπαράστασης της τοπολογίας. Η τεχνική Spatial Pyramid Matching αποτελείται από τρεις φάσεις, όπου σε κάθε φάση η εικόνα χωρίζεται σε περιοχές και σε κάθε περιοχή εφαρμόζεται η διεργασία συγκέντρωσης, η οποία είναι η εύρεσης της μέγιστης τιμής (max pooling). Στην πρώτη φάση, η περιοχή της εικόνας που εκτελείται η διεργασία συγκέντρωσης είναι ολόκληρη η εικόνα. Στη δεύτερη φάση, η εικόνα χωρίζεται σε τέταρτα (4 τεταρτημόρια) και σε κάθε μία από τις 4 περιοχές εφαρμόζεται η διεργασία συγκέντρωσης. Στην τρίτη φάση, η εικόνα χωρίζεται σε 16 περιοχές, δηλ. κάθε μία περιοχή της δεύτερης φάσης χωρίζεται σε τέταρτα και άρα από όλη την εικόνα προκύπτουν 16 περιοχές, και σε κάθε μία από τις 16 περιοχές πραγματοποιείται η διεργασία συγκέντρωσης. Άρα, και από τις τρεις φάσεις της SPM προκύπτουν 21 επικαλυπτόμενες περιοχές για την εικόνα (1+4+16=21). Τελικά, τα 21 διανύσματα που προκύπτουν ενώνονται σειριακά μαζί και σχηματίζουν ένα διάνυσμα χαρακτηριστικών, που αντιστοιχεί στην κάθε εικόνα για το συγκεκριμένο επίπεδο αραιής αναπαράστασης της τοπολογίας και έχει διαστάσεις 21x1024= Στην συνέχεια και καθώς εκτελούνται τα υπόλοιπα επίπεδα της τοπολογίας, τα χαρακτηριστικά διανύσματα της κάθε εικόνας από όλα τα επίπεδα ενώνονται μαζί το ένα μετά το άλλο ώστε να δημιουργήσουν το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνας, το οποίο έχει μέγεθος (21)x(1024)x(πλήθος επιπέδων αραιής αναπαράστασης στην τοπολογία). Όσον αφορά τον νορμαλισμό των διανυσμάτων που σχηματίζονται, επιλέγεται ο νορμαλισμός ολόκληρου του διανύσματος της SPM που προκύπτει σε κάθε επίπεδο αραιής 2 αναπαράστασης με -νόρμα. Για να έχουν ίδιο αριθμό διανυσμάτων όλες οι ομάδες κάθε φάσης της SPM (δηλ. οι 4 ομάδες της ης ης 2 φάσης μεταξύ τους και οι 16 ομάδες της 3 φάσης μεταξύ τους) καθορίζεται στους αλγορίθμους τα διανύσματα που βρίσκονται στα σύνορα των ομάδων, αν χρειάζεται να χρησιμοποιούνται σε περισσότερες από μία ομάδες κάθε φάσης. Στις κάτω τρεις εικόνες, όταν η κόκκινη διαχωριστική γραμμή των ομάδων σημειώνεται πάνω στα διανύσματα (και όχι μεταξύ των διανυσμάτων) σημαίνει ότι υπάρχει «αλληλοεπιλογή» αυτών των διανυσμάτων, δηλ. αυτά τα διανύσματα χρησιμοποιούνται και στις δύο ομάδες (περιοχές) που διαχωρίζουν μεταξύ τους έτσι ώστε να αποκτούν και οι δύο ομάδες ίδιο πλήθος διανυσμάτων. 145

166 Ταξινομητής SVM (Support Vector Machine) Το έργο ενός ταξινομητή είναι να χωρίσει το χώρο των χαρακτηριστικών σε συγκεκριμένες περιοχές απόφασης ή απλά σε κατηγορίες (κλάσεις), οι οποίες χωρίζονται με σαφή όρια απόφασης. Ο ταξινομητής αντιπροσωπεύεται με ένα σύνολο διακριτών συναρτήσεων, που αντιστοιχούν στο κόστος ταξινόμησης. Η εμπειρία του τελευταίου τετάρτου του 20 ου αιώνα κατέληξε στο συμπέρασμα ότι οι πιο αποτελεσματικές μέθοδοι για την ανάπτυξη ταξινομητών Εικόνα 4.11 : παράδειγμα classification σε 5 κατηγορίες περιλαμβάνουν την εκμάθηση από δείγματα. Η διαδικασία της χρήσης δεδομένων για τον καθορισμό του μοντέλου κατηγοριοποίησης-ομαδοποίησης του ταξινομητή είναι γνωστή ως εκπαίδευση του ταξινομητή. Αυτή οφείλει να υλοποιηθεί με τέτοιο τρόπο, ώστε το σύστημα να μπορεί να συμπεριφέρεται σωστά σε νέα δεδομένα με όσο το δυνατόν μεγαλύτερη ακρίβεια. Ο σχεδιασμός του μοντέλου με τη βοήθεια δειγμάτων εκμάθησης χαρακτηρίζεται από τρεις καταστάσεις. Στην πρώτη περίπτωση, το μοντέλο ταξινόμησης δεν έχει καλή εφαρμογή (under-fitting) στα δείγματα εκμάθησης και συνεπώς δεν θα παρουσιάζει ακριβή συμπεριφορά σε νέα δεδομένα. Στην δεύτερη περίπτωση, ο ταξινομητής διαχωρίζει αρκετά καλά τα δείγματα εκμάθησης (fitting), δηλ. με ικανοποιητική ακρίβεια αλλά όχι πλήρως. Στην τρίτη περίπτωση, το μοντέλο του ταξινομητή επιτυγχάνει απόλυτη ακρίβεια (over-fitting) στην κατηγοριοποίηση των δειγμάτων εκμάθησης. Αξιολογώντας εν τάχει τον ταξινομητή, ενδεχομένως να θεωρηθεί ότι καλύτερα αποτελέσματα επιφέρει η υπερπροσαρμογή στα δείγματα εκμάθησης, κάτι όμως που, με μία δεύτερη σκέψη, αποδεικνύεται λανθασμένη επιλογή. Η υπερπροσαρμογή έχει σαν συνέπεια ο ταξινομητής να χάνει τη γενικότητά του -αφού αναλώνεται αποκλειστικά στο διαχωρισμό των δειγμάτων εκμάθησης- και τα νέα παραδείγματα, που είναι σίγουρα διαφορετικά από τα δείγματα εκμάθησης και ίσως περιέχουν και θόρυβο, έχουν μεγάλη πιθανότητα να τοποθετηθούν σε λάθος κλάση. Βέβαια, εν τέλη, η φύση του προβλήματος είναι αυτή που καθορίζει τον χαρακτήρα του μοντέλου ταξινόμησης. Εικόνα 4.12 : Καταστάσεις μοντέλου κατηγοριοποίησης-ομαδοποίησης μετά από εκπαίδευση του ταξινομητή (Εικόνα διαθέσιμη από : 146

167 Σε γενικές γραμμές, η εκπαίδευση του ταξινομητή ακολουθεί δύο πρότυπα: την εποπτευόμενη (supervised) μάθηση και την μη-εποπτευόμενη (unsupervised) μάθηση. Η πρώτη, περιλαμβάνει την μάθηση μέσα από δείγματα τόσο των εισόδων όσο και των εξόδων του συστήματος, δηλ. προϋποθέτει, εκτός από το σύνολο δεδομένων εκμάθησης, και την επιθυμητή κατηγοριοποίηση του κάθε στοιχείου. Στη δεύτερη, παρέχονται μόνο δεδομένα εισόδου και όχι εξόδου του συστήματος, δηλ. ο ταξινομητής διαμορφώνει φυσικές ομαδοποιήσεις των εισερχόμενων δειγμάτων. Έτσι, η χρησιμοποίηση ενός ταξινομητή εποπτευόμενης μάθησης σε μία πειραματική διαδικασία απαιτεί τη διαμέριση των δεδομένων σε ένα σύνολο δειγμάτων εκμάθησης (training data), που χρησιμεύει για την εκπαίδευση του συστήματος, και σε ένα δεύτερο σύνολο δειγμάτων δοκιμής (test data), με το οποίο θα εκτελεστεί το πείραμα και θα ελεγχθούν τα αποτελέσματα ενώ αντίθετα, ένας ταξινομητής μη-εποπτευόμενης μάθησης δρα απευθείας στα υπό μελέτη δεδομένα. Ο ταξινομητής SVM είναι μία μέθοδος εποπτευόμενης μάθησης (supervised learning) συνδυασμένη με αλγορίθμους εκμάθησης (learning algorithms). Μια τυπική χρήση του SVM περιλαμβάνει δύο στάδια: πρώτα, την εκπαίδευση μέσω ενός συνόλου δεδομένων αναφοράς (εκμάθησης) για να προκύψει ένα μοντέλο κατηγοριοποίησης αποτελούμενο από τα υποστηρικτικά σημεία (supporting points), και έπειτα, χρησιμοποιώντας το μοντέλο αυτό επιτυγχάνεται η πρόβλεψη ταξινόμησης ενός συνόλου δεδομένων δοκιμής. Έτσι, πιο αναλυτικά, δοθέντος ενός συνόλου δειγμάτων εκμάθησης, τα οποία ανήκουν σε δύο κατηγορίες, ο SVM κατασκευάζει ένα μοντέλο που αναθέτει τα νέα δείγματα στη μία ή στην άλλη κατηγορία, επιτελώντας τη λειτουργία ενός μη-πιθανολογικού δυαδικού ταξινομητή. Επομένως, το μοντέλο κατηγοριοποίησης είναι μία αναπαράσταση των υποστηρικτικών δειγμάτων ως σημεία στο χώρο, που χαρτογραφούνται έτσι ώστε τα δείγματα των επιμέρους κατηγοριών να χωρίζονται από ένα σαφές υπερεπίπεδο, το οποίο να είναι όσο το δυνατόν ευρύτερο και αντιπροσωπευτικότερο των δειγμάτων εκμάθησης. Συνεπώς, τα νέα δείγματα χαρτογραφούνται στον ίδιο χώρο και αναλόγως σε ποια πλευρά του υπερεπιπέδου τοποθετήθηκαν, προβλέπεται η κατηγορία που ανήκουν. Συμπερασματικά, η βασική διεργασία που επιτελεί ο SVM είναι η χάραξη του υπερεπιπέδου διαχωρισμού των υποστηρικτικών σημείων εκμάθησης. Όταν τα δεδομένα είναι εύκολα διαχωρίσιμα ή πολύ μεγάλης διάστασης, τότε ο ταξινομητής SVM λειτουργεί σαν μια απλή γραμμική συνάρτηση απόφασης (linear SVM), δηλ. χαράσσει το υπερεπίπεδο στον χώρο που ανήκουν τα δεδομένα. Σε αντίθετη περίπτωση, ο αλγόριθμος SVM συμπεριφέρεται σαν μη γραμμικός ταξινομητής (non-linear SVM) και έτσι τα δεδομένα χαρτογραφούνται με την βοήθεια kernels σε έναν χώρο περισσότερων διαστάσεων και εκεί χαράσσεται το υπερεπίπεδο, το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο κλάσεων. Η μη γραμμική προσέγγιση στηρίζεται στη την λογική ότι σε έναν υψηλότερης διάστασης χώρο τα σημεία θα διαχωρίζονται καλύτερα και πιο εύκολα μεταξύ τους και άρα θα είναι πιο 147

168 αποδοτική η ταξινόμηση [Hearst 1998]. Για την ταξινόμηση φυσικών εικόνων χρησιμοποιείται ο γραμμικός ταξινομητής SVM από την βιβλιοθήκη LIBLINEAR με την επιλογή one-vs-all για την ταξινόμηση δεδομένων πολλαπλών κατηγοριών (multiclass) [Fan 2008]. Η επιλογή ενός γραμμικού ταξινομητή, δηλ. της πιο απλής εκδοχής του SVM, έγινε επειδή η διάσταση των χαρακτηριστικών διανυσμάτων για κάθε εικόνα είναι πολύ μεγάλη και άρα η χρήση kernel για την χαρτογράφηση (mapping) των διανυσμάτων σε έναν χώρο υψηλότερης διάστασης δεν ενισχύει την απόδοση, αφού ήδη τα δεδομένα ανήκουν σε έναν πολύ μεγάλης διάστασης χώρο. Υπενθυμίζεται εδώ ότι για λεξικό αραιής αναπαράστασης 1024 ατόμων και ακολουθώντας την τεχνική της χωρικής πυραμιδικής συγκέντρωσης (SPM) που χωρίζει την εικόνα σε 21 επικαλυπτόμενες περιοχές, το χαρακτηριστικό διάνυσμα για κάθε εικόνα που προκύπτει από κάθε επίπεδο αραιής αναπαράστασης της τοπολογίας είναι ένα διάνυσμα =21504 διαστάσεων. Η προσέγγιση one-vs-all (ή one-vs-rest) σημαίνει ότι η εκπαίδευση πραγματοποιείται με έναν διττό ταξινομητή ανά κατηγορία, ο οποίος διαχωρίζει τα δείγματα αυτής της κατηγορίας από τα δείγματα όλων των άλλων κατηγοριών μαζί. Η προσέγγιση one-vs-all απαιτεί ο ταξινομητής κάθε κατηγορίας, εκτός από την κατάταξη της κάθε εικόνας στην κατηγορία που ανήκει, να υπολογίζει και την πιθανότητα της κάθε κατάταξης διότι αλλιώς μία εικόνα μπορεί να ταξινομηθεί σε περισσότερες από μία κατηγορίες. Οι παράμετροι που ρυθμίζουν τον γραμμικό ταξινομητή LIBLINEAR SVM είναι η μορφή της συνάρτηση κόστους (L1- SVM,L2-SVM) που θα χρησιμοποιηθεί (-s) και ο παράγοντας κανονικοποίησης (-c). Οι τιμές αυτών των παραμέτρων προσδιορίζονται μέσω γραμμικής σάρωσης (grid search) χρησιμοποιώντας το σύνολο των validation εικόνων για τον έλεγχο της απόδοσης. Ο ταξινομητής εκπαιδεύεται από τα χαρακτηριστικά διανύσματα των εικόνων εκμάθησης και στη συνέχεια εφαρμόζεται στις άγνωστες εικόνες κάθε κατηγορίας και συγκεκριμένα επιλέγοντας τυχαία μέχρι 50 εικόνες δοκιμής (test) ανά κατηγορία ([Lazebnik 2006],[Boureau 2010,2011]), ώστε να κατατάξει κάθε μία εικόνα σε μία κατηγορία από τις κατηγορίες που έχει εκπαιδευτεί. Η απόδοση της μεθόδου προκύπτει υπολογίζοντας τη μέση ακρίβεια ταξινόμησης σε όλες τις κατηγορίες (average per class recognition accuracy), δηλ. βρίσκοντας την ακρίβεια ταξινόμησης σε κάθε κατηγορία και υπολογίζοντας το μέσο όρο για όλες τις κατηγορίες. 148

169 4.1.3 Πειραματικά Αποτελέσματα : Έλεγχος του προσήμου των συντελεστών αραιής αναπαρ στασης και της τεχνικής χωρικής πυραμιδικής αντιστο χισης Η τεχνική χωρικής πυραμιδικής αντιστοίχισης (Spatial Pyramid Matching) [Lazebnik 2006] αποτελείται από τρεις φάσεις (levels), όπου σε κάθε φάση η εικόνα χωρίζεται σε περιοχές και σε κάθε περιοχή εφαρμόζεται η διεργασία συγκέντρωσης, δηλ. από κάθε μία περιοχή (pooling region) προκύπτει ένα διάνυσμα έτσι ώστε να ενσωματωθεί η πληροφορία από μία περιοχή σε ένα μόνο διάνυσμα χαρακτηριστικών. Από τις τρεις φάσεις της SPM προκύπτουν 21 επικαλυπτόμενες περιοχές για την εικόνα (1+4+16=21). Έτσι, εφόσον έχουν δημιουργηθεί οι 21 ομάδες αραιών διανυσμάτων (που αντιστοιχούν στις 21 περιοχές από τις τρεις φάσεις της χωρικής πυραμιδικής αντιστοίχισης), σε κάθε μία ομάδα διανυσμάτων εκτελείται η διεργασία συγκέντρωσης. Η συνάρτηση που εφαρμόζεται σε κάθε μία από τις 21 ομάδες αραιών διανυσμάτων είναι η εύρεσης της μέγιστης τιμής των διανυσμάτων που συγκεντρώνονται μαζί (max pooling operation). Η επιλογή εύρεσης της μέγιστης τιμή των αραιών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα έγινε με το σκεπτικό ότι ταιριάζει καλύτερα στις αραιές αναπαραστάσεις φυσικών εικόνων και κυρίως όταν χρησιμοποιείται ένας γραμμικός ταξινομητής ([Boureau 2010],[Yang 2009],[Wang 2010]). Η αλλαγή της συνάρτησης που εφαρμόζεται σε κάθε μία ομάδα αραιών διανυσμάτων (π.χ. εύρεση μέσου όρου) δεν πραγματοποιήθηκε στην παρούσα εργασία διότι έχει ελεγχθεί από άλλες εργασίες ([Boureau 2010], [Yang 2009]) και φαίνεται ότι στις αραιές αναπαραστάσεις φυσικών εικόνων ταιριάζει καλύτερα η διαδικασία max pooling. Η ακριβής μορφή της συνάρτησης εύρεσης της μέγιστης τιμής εξαρτάται από το πρόσημο των συντελεστών των αραιών διανυσμάτων. Αν οι συντελεστές των αραιών διανυσμάτων έχουν οποιοδήποτε πρόσημο (όπως είναι η συνηθισμένη εκδοχή για την αραιή κωδικοποίηση) τότε κατά την διαδικασία max pooling πρέπει είτε να βρεθεί η μέγιστη απόλυτη τιμή [Yang 2009] είτε αφού βρεθεί η μέγιστη απόλυτη τιμή στη συνέχεια να χρησιμοποιηθεί και το αντίστοιχο πρόσημο. Η επιλογή του περιορισμού του προσήμου στους συντελεστές αραιής κωδικοποίησης, και κατά συνέπεια η μορφή της συνάρτησης εύρεσης της μέγιστης τιμής, έγινε ελέγχοντας την απόδοση του συστήματος χρησιμοποιώντας μόνο το αποτέλεσμα από το 1ο επίπεδο αραιής αναπαράστασης της τοπολογίας. Έτσι, εκτελούνται τα αρχικά στάδια και στο 1ο επίπεδο αραιής αναπαράστασης της τοπολογίας εφαρμόζονται οι κατάλληλοι περιορισμοί που οδηγούν σε μη αρνητικούς ή όχι συντελεστές. Στη συνέχεια εφαρμόζεται η αντίστοιχη παραλλαγή της τεχνικής χωρικής πυραμιδικής αντιστοίχισης (SPM) για την εξαγωγή ενός χαρακτηριστικού διανύσματος για κάθε εικόνα. Τα χαρακτηριστικά διανύσματα εισάγονται στον 149

170 γραμμικό ταξινομητή SVM και ελέγχεται η μέση ακρίβεια ταξινόμησης του συστήματος. Επομένως, εκτελείται μία αρχιτεκτονική Bag-of-Visual-words με αραιή αναπαράσταση για κάθε παραλλαγή και ελέγχεται η απόδοση. Το συμπέρασμα που προκύπτει είναι ότι η αποδοτικότερη αναπαράσταση των φυσικών εικόνων πραγματοποιείται με μη αρνητικούς συντελεστές αραιής κωδικοποίησης, δηλ. οι μη μηδενικοί συντελεστές να είναι θετικοί. Οπότε, επιλέγεται η εύρεση της μέγιστης τιμής των μη αρνητικών αραιών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα (max pooling operation) στην τεχνική χωρικής πυραμιδικής αντιστοίχισης (Spatial Pyramid Matching). Το συμπέρασμα αυτό χρησιμοποιείται για την επέκταση στην αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης, αφού η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) της μονάδας σύνδεσης επιλέγεται να εκτελείται εφαρμόζοντας τη συνάρτηση εύρεσης της μέγιστης τιμής των γειτονικών μη αρνητικών αραιών διανυσμάτων που συγκεντρώνονται μαζί (max pooling operation). Έλεγχος των παραμέτρων της διαδικασ α τοπικής χωρικής συγκέντρωσης Οι παράμετροι που ρυθμίζουν τη διαδικασία της τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) είναι το πλήθος των διανυσμάτων που αποτελούν μία ομάδα, το βήμα υποδειγματοληψίας (spatial stride) και η μορφή της συνάρτησης που εκτελεί την συγκέντρωση (pooling). Η συνάρτηση που εκτελεί τη συγκέντρωση (pooling) σε κάθε μία ομάδα γειτονικών μη αρνητικών αραιών διανυσμάτων επιλέγεται, με βάση την προηγούμενη ανάλυση και δοκιμή, να είναι η εύρεση της μέγιστης τιμής των γειτονικών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα. Όσον αφορά το μέγεθος της κάθε ομάδας, δηλ. το πλήθος των αραιών διανυσμάτων που αποτελούν μία ομάδα, θεωρήθηκε ότι οι ομάδες γειτονικών αραιών διανυσμάτων πρέπει να συγκροτούνται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας έτσι ώστε τα διανύσματα που συγκεντρώνονται (pooling) μαζί σε κάθε ομάδα να φέρουν συναφή πληροφορία -αφού θα αντιστοιχούν σε κοινά μοτίβα στην εικόνακαι άρα η κοινή πληροφορία από μία περιοχή της εικόνας να κωδικοποιείται μαζί στο επόμενο στάδιο. Βέβαια, για να αποδειχτεί αυτή η πρόταση αλλά και για να καλυφθούν οι περιπτώσεις σχηματισμού μικρότερων ομάδων (οι οποίες αποτελούνται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας) ελέγχθηκαν διαφορετικές τιμές παραμέτρων που αφορούν το μέγεθος των ομάδων και το βήμα υποδειγματοληψίας. Οι τιμές παραμέτρων που δοκιμάζονται είναι ομάδες από 2 x 2 γειτονικά αραιά διανύσματα (δηλ. 4 διανύσματα ανά ομάδα) με βήμα υποδειγματοληψίας 1, ομάδες από 4 x 4 γειτονικά αραιά διανύσματα (δηλ

171 διανύσματα ανά ομάδα) με βήμα υποδειγματοληψίας 2 και ομάδες από 5 x 5 γειτονικά αραιά διανύσματα (δηλ. 25 διανύσματα ανά ομάδα) με βήμα υποδειγματοληψίας 2. Η πρώτη ( ) επιλογή (ομάδες από 2 x 2 διανύσματα με βήμα 1) είναι η πιο απλή, διατηρεί το πλήθος των διανυσμάτων που θα διαδοθούν στην τοπολογία εφόσον πραγματοποιείται padding με μηδενικούς περιγραφείς στα άκρα της εικόνας και γίνεται με το πιο αργό τρόπο η κάλυψη των περιοχών της εικόνας που αντιστοιχούν σε κάθε pooled διάνυσμα. Η δεύτερη ( ) επιλογή (ομάδες από 4 x 4 διανύσματα με βήμα 2) ακολουθείται στην εργασία που παρουσιάστηκε η μέθοδος Deep Sparse Coding [He 2014]. Η τρίτη ( ) επιλογή (ομάδες από 5 x 5 διανύσματα με βήμα 2) έγινε με το σκεπτικό κάθε ομάδα να αποτελείται από όλα τα αραιά διανύσματα που αντιστοιχούν σε patches επικαλυπτόμενα μεταξύ τους, δηλ. δημιουργία ομάδων με τον μέγιστο πλήθος διανυσμάτων που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Για τον έλεγχο της απόδοσης του συστήματος χρησιμοποιήθηκαν τα αποτελέσματα από το 1 ο και το 2 ο επίπεδο αραιής αναπαράστασης της τοπολογίας -ώστε ο έλεγχος να επικεντρωθεί μόνο στην 1 η μονάδα σύνδεσης- για την (.) και την ( ) επιλογή παραμέτρων ενώ το βάθος της τοπολογίας ήταν μεγαλύτερο για την ( ) επιλογή παραμέτρων. Όλες οι τοπολογίες δοκιμάστηκαν στη βάση δεδομένων Caltech-101. Οι διαφορές μεταξύ των τριών επιλογών στην μέση ακρίβεια ταξινόμησης σε όλες τις κατηγορίες (average per class recognition accuracy) ήταν μικρές ( ) αλλά η πιο αποδοτική ήταν η ( ) επιλογή (ομάδες από 5 x 5 διανύσματα με βήμα 2). Η ( ) επιλογή (ομάδες από 2 x 2 διανύσματα με βήμα 1) είχε παρόμοια αποτελέσματα με τη ( ) επιλογή (ομάδες από 4 x 4 διανύσματα με βήμα 2) μόνο όταν τα pooled διανύσματα που προέκυψαν από την ( ) επιλογή παραμέτρων έχουν το ίδιο Field of View με τα pooled διανύσματα που προέκυψαν από τη ( ) επιλογή παραμέτρων. Αυτό σημαίνει ότι για το ίδιο αποτέλεσμα η τοπολογία για την ( ) επιλογή παραμέτρων πρέπει να είναι πιο βαθιά. Έτσι, η τοπολογία είναι πιο βαθιά κατά δύο επίπεδα (layers) χρησιμοποιώντας την ( ) επιλογή παραμέτρων από ότι χρησιμοποιώντας τη ( ) επιλογή παραμέτρων, δηλ. έχουν εκτελεστεί άλλες 2 φορές οι μονάδες σύνδεσης και οι μονάδες αραιής αναπαράστασης. Άρα, η τοπολογία με την ( ) επιλογή παραμέτρων (ομάδες από 2 x 2 διανύσματα με βήμα 1) αποτελείται από 4 επίπεδα αραιής αναπαράστασης και 3 μονάδες σύνδεσης ενώ η τοπολογία με τη ( ) επιλογή παραμέτρων (ομάδες από 4 x 4 διανύσματα με βήμα 2) αποτελείται από 2 επίπεδα αραιής αναπαράστασης και 1 μονάδα σύνδεσης. Συνεπώς, η τοπολογία με την ( ) επιλογή παραμέτρων έχει μεγαλύτερο υπολογιστικό κόστος αλλά χωρίς να επιτυγχάνει καλύτερη απόδοση. Σημειώνεται εδώ ότι στον ταξινομητή εισήχθησαν τα χαρακτηριστικά διανύσματα που προέκυψαν από το 1 ο και το 4 ο επίπεδο αραιής αναπαράστασης για την ( ) επιλογή παραμέτρων και τα χαρακτηριστικά διανύσματα που προέκυψαν από το 1 ο και το 2 ο επίπεδο αραιής αναπαράστασης για τη ( ) επιλογή παραμέτρων, ώστε το χαρακτηριστικό διάνυσμα να έχει ίδιες διαστάσεις στις δύο τοπολογίες. Για να ελεγχθεί τι γίνεται όταν τα 151

172 pooled διανύσματα που προέκυψαν από την ( ) επιλογή παραμέτρων έχουν το ίδιο Field of View με τα pooled διανύσματα που προέκυψαν από τη ( ) επιλογή παραμέτρων, τότε η τοπολογία με την ( ) επιλογή παραμέτρων έγινε πιο βαθιά κατά ένα ακόμα επίπεδο, δηλ. προστέθηκαν ακόμα μία μονάδα σύνδεσης και ένα επίπεδο αραιής αναπαράστασης. Έτσι, στον ταξινομητή εισάγονται τα χαρακτηριστικά διανύσματα που προέκυψαν από το 1 ο και το 5 ο επίπεδο αραιής αναπαράστασης για την ( ) επιλογή παραμέτρων (ομάδες από 2 x 2 διανύσματα με βήμα 1) και τα χαρακτηριστικά διανύσματα που προέκυψαν από το 1 ο και το 2 ο επίπεδο αραιής αναπαράστασης για τη ( ) επιλογή παραμέτρων (ομάδες από 5 x 5 διανύσματα με βήμα 2) ώστε το χαρακτηριστικό διάνυσμα να έχει ίδιες διαστάσεις στις δύο τοπολογίες (γιατί αν χρησιμοποιούνταν και τα πέντε επίπεδα αραιής αναπαράστασης τότε η τεράστια διάσταση του χαρακτηριστικού διανύσματος θα δυσκόλευε υπερβολικά τον SVM). Τελικά, η πιο βαθιά κατά ένα ακόμα επίπεδο τοπολογία δεν οδήγησε σε αύξηση της απόδοσης αφού η ακρίβεια ταξινόμησής της έμεινε αμετάβλητη. Έλεγχος παραμέτρων στη διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) ( ) πρώτη επιλογή παραμέτρων (ομάδες από 2 x 2 διανύσματα με βήμα 1) [4 επίπεδα αραιής αναπαράστασης και 3 μονάδες σύνδεσης] ( ) πρώτη επιλογή παραμέτρων (ομάδες από 2 x 2 διανύσματα με βήμα 1) [5 επίπεδα αραιής αναπαράστασης και 4 μονάδες σύνδεσης] ( ) δεύτερη επιλογή παραμέτρων (ομάδες από 4 x 4 διανύσματα με βήμα 2) [2 επίπεδα αραιής αναπαράστασης και 1 μονάδες σύνδεσης] ( ) τρίτη επιλογή παραμέτρων (ομάδες από 5 x 5 διανύσματα με βήμα 2) [2 επίπεδα αραιής αναπαράστασης και 1 μονάδες σύνδεσης] Μέση ακρίβεια ταξινόμησης σε όλες τις κατηγορίες 76.6 % 76.6 % 76.8 % 77.8 % Πίνακας 4.1 : Έλεγχος του πλήθους των διανυσμάτων που αποτελούν μία ομάδα και του βήματος υποδειγματοληψίας της διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) μετρώντας τη μέση ακρίβεια ταξινόμησης (average per class recognition accuracy). Το βήμα υποδειγματοληψίας (subsampling) καθορίζει το πλήθος των pooled διανυσμάτων που θα διαδοθούν στην τοπολογία και την χωρική απόσταση (υπό όρους pixels στην εικόνα) των pooled διανυσμάτων μεταξύ τους. Έτσι, το βήμα υποδειγματοληψίας ορίζεται ώστε τα διαδοχικά pooled διανύσματα να είναι σχετικά συναφή μεταξύ τους, δηλ. τα Fields of View των διαδοχικών pooled διανυσμάτων να έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, και επίσης, το πλήθος των διανυσμάτων που θα συνεχίζουν στην τοπολογία να μην μειώνεται πάρα πολύ διότι αλλιώς δεν θα υπάρχει πληροφορία στην επόμενη κωδικοποίηση. Το βήμα υποδειγματοληψίας (subsampling) δεν ελέγχτηκε στη ( ) 152

173 επιλογή παραμέτρων (ομάδες από 5 x 5 διανύσματα με βήμα 2) διότι η επιλογή του βήματος υποδειγματοληψίας (spatial stride) στην τιμή 2 θεωρήθηκε καλή επιλογή αφού έχει σαν συνέπεια η χωρική απόσταση διαδοχικών pooled διανυσμάτων μεταξύ τους να είναι διπλάσια σε σχέση με την χωρική απόσταση των διαδοχικών αραιών διανυσμάτων που εισήχθησαν στην μονάδα σύνδεσης και το πλήθος των pooled διανυσμάτων να είναι περίπου το ¼ των αραιών διανυσμάτων που εισήχθησαν στην μονάδα σύνδεσης. Άρα, τα Fields of View διαδοχικών pooled διανυσμάτων έχουν μεγάλη αλληλοεπικάλυψη και στην τοπολογία συνεχίζει να διαδίδεται ένα σημαντικό πλήθος διανυσμάτων. Έλεγχος του β θους της τοπολογ ας Deep Sparse Coding Η απόδοση της μεθόδου προκύπτει υπολογίζοντας τη μέση ακρίβεια ταξινόμησης σε όλες τις κατηγορίες (average per class recognition accuracy), δηλ. βρίσκοντας την ακρίβεια ταξινόμησης σε κάθε κατηγορία και υπολογίζοντας το μέσο όρο για όλες τις κατηγορίες. Οι τιμές των παραμέτρων που ρυθμίζουν την τοπολογία Deep Sparse Coding (Βαθιά Αραιή Αναπαράσταση) έχουν αναφερθεί στο προηγούμενο εδάφιο, στο οποίο περιγράφονται τα στάδια της τοπολογίας Deep Sparse Coding ένα προς ένα. Στον παρακάτων πίνακα σημειώνεται η μέση ακρίβεια ταξινόμησης της τοπολογίας Deep Sparse Coding στη βάση δεδομένων Caltech-101. average per class recognition accuracy Caltech-101 Sparse Coding 1 layer (BoV) 74.8 % Deep Sparse Coding 2 layers 77.8 % Deep Sparse Coding 3 layers 77.0 % Deep Sparse Coding 4 layers 76.4 % Πίνακας 4.2 : Έλεγχος της απόδοσης της τοπολογίας Deep Sparse Coding καθώς προστίθενται επίπεδα αραιής αναπαράστασης, δηλ. καθώς η τοπολογία γίνεται βαθύτερη. Οι παράμετροι που ρυθμίζουν την τοπολογία περιγράφονται αναλυτικά στο προηγούμενο εδάφιο που αναφέρεται στα στάδια της τοπολογίας. 153

174 Η τοπολογία Deep Sparse Coding είχε την ιδιότητα της ανά επίπεδο εκπαίδευσης (layer-wise training) και έτσι μπορούν να χρησιμοποιηθούν στον ταξινομητή μόνο τα χαρακτηριστικά διανύσματα που έχουν σχηματιστεί μέχρι ένα συγκεκριμένο επίπεδο αραιής αναπαράστασης χωρίς να απαιτείται να εκτελεστεί ολόκληρη η τοπολογία (δηλ. τα επόμενα στάδια). Άρα, το τελικό διάνυσμα χαρακτηριστικών για κάθε εικόνα σχηματίζεται σταδιακά μέσα από την βαθιά τοπολογία Deep Sparse Coding και οι διαστάσεις του αυξάνονται καθώς προστίθενται επίπεδα αφού οι διαστάσεις του εξαρτώνται από την διαδικασία χωρικής πυραμιδικής συγκέντρωσης που θα χρησιμοποιηθεί, από το μέγεθος του λεξικού αραιής αναπαράστασης και από το πλήθος των επιπέδων της τοπολογίας. Έτσι, οι διαστάσεις του διανύσματος που εισάγεται στον ταξινομητή SVM είναι: {αριθμός περιοχών που σχηματίζονται σε κάθε εικόνα από την SPM} x {μέγεθος λεξικού αραιής αναπαράστασης σε κάθε επίπεδο} x {πλήθος επιπέδων αραιής αναπαράστασης στην τοπολογία}, δηλ.. Ο έλεγχος της απόδοση της τοπολογίας Deep Sparse Coding οδηγεί σε δύο παρατηρήσεις. Η πρώτη παρατήρηση είναι ότι η σημαντικότερη πληροφορία παράγεται στο πρώτο επίπεδο αραιής αναπαράστασης, δηλ. στην αρχιτεκτονική Bag-of-Visual-words (BoV). Η πληροφορία από το πρώτο επίπεδο οδηγεί σε ένα πολύ καλό αποτέλεσμα ταξινόμησης και στη συνέχεια μέσω των πολλαπλών επιπέδων αραιής αναπαράστασης ενισχύεται λίγο ακόμα η απόδοση του συστήματος. Έτσι, το σύστημα αναπτύσσει ένα είδος ιεραρχικής μάθησης από το ένα επίπεδο στο επόμενο, όπου τα ανώτερης τάξης χαρακτηριστικά αποτελούν σύνθεση απλούστερων χαρακτηριστικών και το έτσι το σύστημα ενσωματώνει πληροφορίες από μία ευρύτερη περιοχή της εικόνας. Εδώ είναι σημαντικό να επισημανθεί ότι η ιεραρχική μάθηση, και κατά συνέπεια η καλύτερη απόδοση στην αναγνώριση εικόνων, πραγματοποιείται λόγω της μονάδας σύνδεσης, η οποία τοποθετείται μεταξύ των επιπέδων αραιής αναπαράστασης ώστε να καθιστά αποδοτική την αρχιτεκτονική πολλαπλών επιπέδων αραιής αναπαράστασης. Η μονάδα σύνδεσης εξασφαλίζει ότι τα σύνθετα χαρακτηριστικά υψηλότερου επιπέδου προκύπτουν σαν αποτέλεσμα εκμάθησης από τη σύνθεση απλούστερων γειτονικών χαρακτηριστικών χαμηλότερου επιπέδου και ότι η διαδικασία image Local Descriptors Concatenate NMF SR LSP DR SR LSP DR SR Deep Sparse Coding ( DSC ) SPM SPM SPM SVM Εικόνα 4.13 : Η τοπολογία Deep Sparse Coding 3 επιπέδων αραιής αναπαράστασης 154

175 ελάττωσης διάστασης πραγματοποιείται λαμβάνοντας υπόψη την χωρική πληροφορία ομαλότητας των γειτονικών patches της εικόνας. Σε δοκιμές που έγιναν με έναν τυχαίο πίνακα μετασχηματισμού για την ελάττωση διάστασης, ο οποίος αν και δεν μαθαίνει να διατηρεί την χωρική ομαλότητα μεταξύ των patches της εικόνας είναι κοινός για όλα τα δεδομένα, παρατηρήθηκε ότι η απόδοση δεν αυξάνεται από το πρώτο επίπεδο στο δεύτερο αλλά αντίθετα υποβαθμίζεται λίγο, δηλ. από τα 74.8% στο 1 ο επίπεδο μειώνεται στο 73.6% χρησιμοποιώντας το 1 ο επίπεδο και το 2 ο επίπεδο που έχει προκύψει με τη χρήση ενός τυχαίου πίνακα μετασχηματισμού για την ελάττωση διάστασης. Συνεπώς, δεν μπορεί να επιτευχθεί ιεραρχική μάθηση αν δεν λειτουργήσει αποδοτικά η μονάδα σύνδεσης. Τελικά, ακόμα και αυτή η μικρή ενίσχυση στην απόδοση του συστήματος μέσω των πολλαπλών επιπέδων αραιής αναπαράστασης επιτυγχάνεται λόγω της σωστά δομημένης μονάδας σύνδεσης μεταξύ των επιπέδων αραιής αναπαράστασης. Η δεύτερη παρατήρηση αφορά την υποβάθμιση της απόδοσης της τοπολογίας προσθέτοντας το 3 ο και το 4 ο επίπεδο αραιής αναπαράστασης. Αυτό οφείλεται στην τεράστια διάσταση του χαρακτηριστικού διανύσματος, που προκύπτει και όλα τα επίπεδα, σε σχέση με το περιορισμένο σύνολο εκμάθησης. Έτσι, οποιοσδήποτε νορμαλισμός και να επιχειρήθηκε για να διευκολυνθεί ο ταξινομητής SVM (π.χ. νορμαλισμό με 2 -νόρμα στο διάνυσμα που έχει σχηματιστεί από την ένωση από όλα τα επίπεδα) δεν βελτίωσε την απόδοση. Όσον αφορά την βάση δεδομένων Caltech-256, λόγω της επίσπευσης παράδοσης της παρούσης εργασίας και ενός μικρού τεχνικού προβλήματος, δεν κατέστη δυνατή η ολοκλήρωση των πειραμάτων και για να μην παρουσιαστούν ελλιπή αποτελέσματα θεωρήθηκε σωστό να μην αναφερθούν στην παρούσα έκδοση αλλά να συμπεριληφθούν στην εργασία όταν ολοκληρωθεί η πειραματική διαδικασία. Με τα μέχρι τώρα αποτελέσματα, προκύπτουν τα ίδια συμπεράσματα με την εφαρμογή της τοπολογίας Deep Sparse Coding στη βάση Caltech-101 και η ακρίβεια ταξινόμησης είναι παρόμοια με αυτή που αναφέρεται στη σχετική βιβλιογραφία [He 2014]. 155

176 4.2 Εφαρμογή της τοπολογίας Deep Sparse Coding για την ταυτοποίηση χειρόγραφων υπογραφών : Η βάση δεδομένων CEDAR : Η εξειδικευμένη επιστήμη που το αντικείμενο της έρευνάς της είναι η ανάλυση των βιολογικών στοιχείων, μέσω δικών της στατιστικών και μαθηματικών μεθόδων, ονομάζεται βιομετρία (biometry ή biometrics). Η βιομετρία αναλύει, με δική της μεθοδολογία, τα βιομετρικά χαρακτηριστικά των έμβιων ζωικών ειδών και ειδικότερα του ανθρώπου. Έτσι, υπό τη γενικότερη έννοια αποτελεί κλάδο της βιολογίας, ενώ υπό την ειδικότερη -επί της φυσικής ανθρωπολογίας- επιμέρους κλάδο, που ονομάζεται ανθρωπομετρία και διαιρείται σε σωματομετρία, σωματοσκοπία και μορφολογία. Κύριος στόχος της βιομετρίας είναι η ανάπτυξη τεχνικών που να πιστοποιούν την ταυτότητα των προσώπων και η εξέλιξή της βασίζεται στο γεγονός ότι οι παραδοσιακοί τρόποι ελέγχου ταυτότητας δεν είναι εξίσου αξιόπιστοι. Η βιομετρική αναγνώριση μελετά τις μεθόδους που χρησιμοποιούνται για την αναγνώριση ανθρώπων με βάση τα χαρακτηριστικά που εξάγονται είτε από την ανθρώπινη φυσιολογία (physiological) είτε από την ανθρώπινη συμπεριφορά (behavioral) και αναπτύσσεται μέσω της επιστήμης των υπολογιστών, με τον όρο βιομετρία ταυτότητας (biometrics ή realistic authentication), ως μία μορφή αναγνώρισης και ελέγχου πρόσβασης. Η εξέταση και η σύγκριση χειρογράφων θεωρείται μία από τις πιο συχνά χρησιμοποιούμενες βιομετρικές μεθόδους για τον προσδιορισμό της ταυτότητας ενός προσώπου, είτε ως ένα ενιαίο χαρακτηριστικό είτε ως μέρος πολυτροπικών συστημάτων (δηλ. συστημάτων αναγνώρισης που μεταχειρίζονται περισσότερα από ένα βιομετρικά χαρακτηριστικά). Η υπογραφή έχει γίνει αποδεκτή ως μία προσωπική σφραγίδα σε πολλές μορφές αιτήσεων ώστε να ταυτοποιείται η παρουσία του συντάκτη. Η χορήγηση υπογραφής είναι μία διαδικασία που έχει πραγματοποιηθεί, τουλάχιστον σε κάποιο σημείο, από την πλειονότητα του πληθυσμού. Οι υπογραφές ενός ατόμου χαρακτηρίζονται από φυσικές παραλλαγές, οι οποίες προκύπτουν από την ενδόμυχη ιδιαίτερη μεταβλητότητα του υπογράφοντος (inter-writer variability) [Tselios 2012]. Η ιδιότητα αυτή σχετίζεται με ένα μίγμα χαρακτηριστικών γνωρισμάτων -όπως εξωτερικές συνθήκες και βιωματικές επιρροές- του κάθε ανθρώπου και πρέπει να λαμβάνεται υπόψη κατά τη κατασκευή συστημάτων αναγνώρισης υπογραφών, τα οποία δομούνται με βάση τις αρχές της επεξεργασίας σήματος και της αναγνώρισης προτύπων. Το στυλ γραφής ενός ανθρώπου είναι το αποτέλεσμα δύο κύριων παραμέτρων επιρροής. Η πρώτη είναι η διδακτική μέθοδος, η οποία συνήθως βασίζεται στην μιμητική προσέγγιση και παρέχει τις βασικές ιδιότητες και τρόπους γραφής με μηχανική επανάληψη βασικών γραφικών προτύπων, όπως γράμματα, λέξεις και φράσεις και η δεύτερη είναι ο χρόνος, καθώς τα άτομα περνούν από την παιδική ηλικία μέχρι 156

177 την ενηλικίωση ώστε να αναπτύξουν τη δική τους μορφή γραφής. Το αποτέλεσμα είναι η δημιουργία αυθόρμητου προσωπικού τρόπου γραφής, που απαιτεί μεγάλη ποσότητα ενέργειας και χρόνου για να αλλάξει, και φυσικά, χαρακτηρίζει το άτομο. Από πολλούς ερευνητές ([Nanavati 2002],[Jain 1999],[Zhang 2000]) η αναγνώριση υπογραφής αποτελεί την πιο σημαντική εφαρμογή στο χώρο των βιομετρικών χαρακτηριστικών συμπεριφοράς. Ανάλογα με τον τρόπο καταγραφής των δεδομένων, οι τεχνικές αναγνώρισης υπογραφής μπορούν να διαιρεθούν σε δύο κατηγορίες: τις στατικές (ή off-line) υπογραφές, οι οποίες συλλέγονται με ψηφιοποίηση εγγράφων -από έναν σαρωτή ή άλλες ψηφιακές πηγές εισόδου- και αντιστοιχούν σε μία εικόνα της χειρόγραφης υπογραφής στο χαρτί και τις δυναμικές (ή on-line) υπογραφές, οι οποίες καταγράφονται με τη χρήση κατάλληλων συσκευών ψηφιοποίησης, που αποτελούνται από μία γραφίδα σε συνδυασμό με μία ειδική επιφάνεια γραφής. Στη στατική προσέγγιση αναγνώρισης υπογραφής, ο υπογράφων έχει σχηματίσει την υπογραφή του σε παρελθόντα χρόνο και έτσι, αναλύεται η μορφολογία της. Τα στατικά χαρακτηριστικά της υπογραφής στοχεύουν στην κωδικοποίηση της συνολικής διαδικασίας σχηματισμού της υπογραφής και συνήθως αποτελούνται από στατιστικές ροπές της καμπυλότητάς της. Στη δυναμική προσέγγιση αναγνώρισης, τα πρωτογενή δεδομένα αποτελούν χρονοσειρές παραμέτρων που δειγματοληπτούνται σε σταθερά χρονικά διαστήματα ώστε να αποτυπώνουν τη χρονική εξέλιξη των παραμέτρων και να παρέχουν πληροφορίες για την ταχύτητα εγγραφής, τα σημεία πίεσης, την κλίση της γραφίδας, την επιτάχυνση, το χρόνο σύνταξης της υπογραφής, κ.ά. παράλληλα με τα στατικά χαρακτηριστικά. Γενικά, η ανάλυση δυναμικών υπογραφών οδηγεί σε μεγαλύτερη ακρίβεια αναγνώρισης, επειδή τα δυναμικά χαρακτηριστικά είναι πολύ δύσκολο να απομιμηθούν, αλλά το σύστημα απαιτεί σύνθετο λογισμικό. Αντίθετα, η αξιοποίηση στατικών υπογραφών παρέχει ένα περιορισμένο σύνολο χαρακτηριστικών και έτσι τα συστήματα αναγνώρισης πρέπει να σχεδιαστούν πολύ προσεκτικά για να επιτευχθεί η επιθυμητή ακρίβεια. Με κριτήριο το είδος της απόφασης που καλείται να λάβει ένα σύστημα αναγνώρισης υπογραφών, οι εφαρμογές μπορούν να διαχωριστούν σε δύο βασικά προβλήματα, την ταυτοποίηση υπογραφής (verification ή authentication) και την εξακρίβωση υπογραφής (identification) [Fotak 2011]. Στο πρόβλημα της ταυτοποίησης (verification) υπογραφής ένα σύστημα λαμβάνει σαν είσοδο μία υπογραφή και έναν ισχυρισμό για την ταυτότητα του υπογράφοντος, και με βάση τις υπογραφές αναφοράς του χρήστη καλείται να λάβει απόφαση για το εάν ο ισχυρισμός αληθεύει ή όχι. Ουσιαστικά, το σύστημα απαντάει στην ερώτηση είναι ο χρήστης πραγματικά αυτός που λέει ότι είναι, και για αυτό συχνά αναφέρεται και ως ένα προς ένα σύγκριση. Τα συστήματα ταυτοποίησης χρησιμοποιούνται σε εφαρμογές ασφαλείας (κυρίως με δυναμικές υπογραφές, όπου η χρήση του ειδικού εξοπλισμού ψηφιοποίησης της υπογραφής είναι εύκολη και ο υπογράφων πάντα 157

178 παρών) και σε δικαστικές υποθέσεις (κατεξοχήν με στατικές υπογραφές, όπου απαιτείται η επικύρωση της ταυτότητας του υπογράφοντος σε σημαντικά έγγραφα). Στο πρόβλημα της εξακρίβωσης (identification) υπογραφής ένα σύστημα λαμβάνει σαν είσοδο μία υπογραφή και καλείται να αποφασίζει την ταυτότητα του χρήστη, αξιοποιώντας τις υπογραφές αναφοράς και άλλων χρηστών που βρίσκονται στη βάση δεδομένων του συστήματος. Βασικά, το σύστημα ανταποκρίνεται στο ερώτημα ποιός είναι ο συντάκτης της υπογραφής, και για αυτό είναι γνωστή και ως ένα προς όλα σύγκριση. Στο πρόβλημα της εξακρίβωσης εμπεριέχεται συχνά και το πρόβλημα της επικύρωσης, το οποίο συνίσταται στη λήψη απόφασης για το εάν η εξεταζόμενη υπογραφή ανήκει σε κάποιον εγγεγραμμένο χρήστη ή είναι άγνωστη για το σύστημα. Τα συστήματα εξακρίβωσης υπογραφής εξυπηρετούν κυρίως δικαστικές και εγκληματολογικές εφαρμογές για την αναγνώριση του υπογράφοντος σε παλαιά έγγραφα, όπου δεν υπάρχουν άλλες ενδείξεις για την ταυτότητά του. Γενικά, το πρόβλημα της εξακρίβωσης υπογραφής παρουσιάζει κυρίως ακαδημαϊκό ενδιαφέρον εξαιτίας του μεγάλου αριθμού κλάσεων (συντακτών) και του πολύ μικρού αντιπροσωπευτικού συνόλου κάθε κλάσης (υπογραφές αναφοράς κάθε συντάκτη). Ένα στοιχείο που καθιστά τα παραπάνω προβλήματα ταξινόμησης ιδιαίτερα απαιτητικά είναι η έννοια της πλαστογραφίας, που αποτελεί μία ειδική τάξη δεδομένων που δεν ανήκουν σε κάποια κλάση αλλά προσπαθούν να μιμηθούν χαρακτηριστικά αυτών. Με βάση το επίπεδο της πλαστογραφίας, οι πλαστές υπογραφές κατατάσσονται σε τρία είδη: την τυχαία πλαστογραφία (random forgery), την απλή ή ανειδίκευτη πλαστογραφία (simple ή unskilled forgery) και την εξειδικευμένη πλαστογραφία (skilled forgery) [Malik 2013]. Στην πρώτη κατηγορία, ο πλαστογράφος δεν έχει πρόσβαση στο δείγμα της υπογραφής αλλά απλώς υπογράφει με το δικό του γραφικό στυλ και επομένως τυχαίες πλαστές (random forgeries) υπογραφές για έναν συντάκτη είναι όλες οι άλλες υπογραφές άλλων συντακτών. Στην δεύτερη κατηγορία, ο πλαστογράφος έχει πρόσβαση στη γνήσια υπογραφή και προσπαθεί να την αναπαραστήσει χωρίς όμως κάποια ειδική γνώση ή προηγούμενη εμπειρία και συνήθως με μία προσπάθεια. Τέλος, στην τρίτη κατηγορία, ο πλαστογράφος είναι επαγγελματίας ή έχει εμπειρία σε αυτό τον τομέα και, αφού παρατηρήσει τη γνήσια υπογραφή, την αναπαράγει. Σημειώνεται εδώ ότι υπάρχει και μία ακόμα κατηγορία πλαστών υπογραφών που βασίζεται σε διαφορετική λογική και είναι η παραμόρφωση μίας υπογραφής ώστε αυτή να θεωρηθεί πλαστή (disguise signatures). Η τοπολογία Deep Sparse Coding θα εφαρμοστεί για την ταυτοποίηση (verification) χειρόγραφων υπογραφών, δηλ. για την επίλυση του προβλήματος διαχωρισμού γνήσιων (genuine) και πλαστών (forgeries) υπογραφών χρησιμοποιώντας χειρόγραφες υπογραφές σε χαρτί που έχουν ψηφιοποιηθεί (στατική προσέγγιση αναγνώρισης υπογραφής). Η βάση δεδομένων χειρόγραφων υπογραφών, πάνω στην οποία θα μελετηθεί η τοπολογία Deep Sparse Coding, είναι 158

179 η CEDAR [Kalera 2004]. Η CEDAR αποτελείται από 55 συντάκτες υπογραφών, που για τον κάθε ένα υπάρχουν 24 γνήσιες (genuine) υπογραφές και 24 εξειδικευμένες πλαστές (skilled forgeries) υπογραφές. Κάθε συντάκτης υπέγραψε σε έναν προκαθορισμένο χώρο 2 x 2 inches και οι πλαστές υπογραφές του σχηματίστηκαν από εξειδικευμένους πλαστογράφους. Οι υπογραφές ψηφιοποιούνται στα 300 dpi σε 8-bit grayscale εικόνες (δηλ. 256 κλίμακες του γκρι). Το πρόβλημα που καλείται να επιλυθεί είναι να διαχωριστούν οι γνήσιες (genuine) από τις πλαστές (forgeries) υπογραφές κάθε συντάκτη και άρα, το πρόβλημα ταυτοποίησης ορίζεται για κάθε συντάκτη ξεχωριστά. Οπότε, χρησιμοποιώντας την βάση υπογραφών CEDAR (που αποτελείται από 55 συντάκτες) εκτελούνται 55 ξεχωριστά πειράματα. Ο προσδιορισμός με σαφή τρόπο του πλήθους των υπογραφών εκμάθησης και δοκιμής για κάθε συντάκτη που επιλέγονται είναι αναγκαίος ώστε να μπορούν να συγκριθούν οι διάφορες μέθοδοι μεταξύ τους με όμοια κριτήρια (setup). Έτσι, για την βάση χειρόγραφων υπογραφών CEDAR το σύνολο εκμάθησης για κάθε συντάκτη αποτελείται από 5 γνήσιες υπογραφές του συντάκτη και 10 random forgeries υπογραφές, οι οποίες έχουν προκύψει επιλέγοντας τυχαία μία υπογραφή από 10 άλλους συντάκτες της βάσης δεδομένων. Για τις 10 random forgeries υπογραφές που αντιστοιχούν στο σύνολο εκμάθησης κάθε συντάκτη δεν απαιτείται η γνώση από ποιον συντάκτη έχουν προέλθει αλλά απλά συνθέτουν ένα σύνολο από 10 υπογραφές που είναι διαφορετικό από το σύνολο των 5 γνήσιων υπογραφών του συντάκτη. Έτσι, το σύνολο εκμάθησης κάθε συντάκτη αποτελείται από 5 γνήσιες υπογραφές του συντάκτη (positive class) και 10 random forgeries υπογραφές από 10 άλλους συντάκτες (negative class) ενώ οι υπόλοιπες 19 γνήσιες υπογραφές κάθε συντάκτη και οι 24 πλαστές υπογραφές κάθε συντάκτη χρησιμοποιούνται για δοκιμή (test). Η χρήση των random forgeries υπογραφών στο σύνολο εκμάθησης γίνεται διότι οι πλαστές υπογραφές ενός συντάκτη δεν είναι διαθέσιμες σε πρακτικές εφαρμογές της καθημερινότητας. Έτσι, έχοντας την δυνατότητα το σύστημα ταυτοποίησης για κάθε συντάκτη να εκπαιδεύεται με ένα μικρό αριθμό γνήσιων υπογραφών του συντάκτη (που είναι εύκολα διαθέσιμες) και με ένα σύνολο υπογραφών από άλλους συντάκτες (που συγκροτείται πολύ εύκολα επιλέγοντας τυχαίες υπογραφές άλλων ατόμων), τελικά αποκτά γενικότητα και είναι άμεσα εφαρμόσιμο για πραγματικές εφαρμογές. Εν τέλει, χρησιμοποιώντας την βάση υπογραφών CEDAR (που αποτελείται από 55 συντάκτες) εκτελούνται 55 ξεχωριστά πειράματα και το συνολικό αποτέλεσμα για ολόκληρη την βάση προκύπτει υπολογίζοντας το μέσο όρο από τα αποτελέσματα των 55 πειραμάτων. Η εφαρμογή της αραιής αναπαράστασης στο πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών έχει προταθεί και μελετηθεί από την εργασία [Zois 2017] με πολύ καλά αποτελέσματα. Έτσι, μέσω της μεθόδου Deep Sparse Coding επιχειρείται μία βελτίωση της απόδοσης επεκτείνοντας την αραιή αναπαράσταση 159

180 σε πολλαπλά επίπεδα. Οπότε, για το διαχωρισμό των γνήσιων (genuine) από τις πλαστές (forgeries) υπογραφές ενός συντάκτη εφαρμόζεται μία τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης, η οποία χρησιμοποιεί το αποτέλεσμα της εφαρμογής της αραιής αναπαράστασης στο πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών [Zois 2017] και το επεκτείνει προσθέτοντας ένα ακόμα επίπεδο αραιής αναπαράστασης. Συνεπώς, η τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης έχει σαν πρώτο επίπεδο (layer) την μέθοδο αραιής αναπαράστασης όπως αναφέρεται στην εργασία [Zois 2017] και στη συνέχεια διαθέτει ένα δεύτερο επίπεδο αραιής αναπαράστασης, αφού έχει μεσολαβήσει μία μονάδα σύνδεσης. Εικόνα 4.14 : Παραδείγματα υπογραφών από την βάση CEDAR. Οι υπογραφές με πράσινο πλαίσιο αποτελούν τις γνήσιες υπογραφές κάποιων συντακτών και οι υπογραφές δεξιά τους σε κόκκινο πλαίσιο είναι οι αντίστοιχες πλαστές. 160

181 4.2.2 Τα στάδια της τοπολογίας Deep Sparse Coding : Για την ταυτοποίηση (verification) χειρόγραφων υπογραφών χρησιμοποιείται η τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης, η οποία στηρίζεται στο αποτέλεσμα της εφαρμογής της αραιής αναπαράστασης στο πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών [Zois 2017] και το επεκτείνει προσθέτοντας ένα ακόμα επίπεδο αραιής αναπαράστασης. Το πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών είναι ανεξάρτητο για κάθε συντάκτη, δηλ. ο κάθε συντάκτης έχει δικά του δεδομένα εκμάθησης και δικά του δεδομένα δοκιμής, και άρα η τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης εφαρμόζεται για κάθε συντάκτη ξεχωριστά. Τα 55 ανεξάρτητα προβλήματα της βάσης δεδομένων CEDAR (που αποτελείται από 55 συντάκτες) έχουν κοινή (global) επιλογή στις τιμές των παραμέτρων που ρυθμίζουν τα στάδια της τοπολογίας Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης για κάθε συντάκτη. Σημειώνεται εδώ ότι η εξαγωγή χαρακτηριστικών από την τοπολογία Deep Sparse Coding πραγματοποιείται με μη-εποπτευόμενη μάθηση, δηλ. η εκμάθηση των λεξικών και της συνάρτησης μετασχηματισμού που απαιτούνται κατά την εκτέλεση της τοπολογίας γίνεται σε επίπεδο διανυσμάτων και δεν απαιτείται η γνώση αν η υπογραφή είναι γνήσια ή πλαστή. Ο ταξινομητής είναι η μονάδα που απαιτεί τη γνώση του είδους (γνήσια ή πλαστή) της κάθε υπογραφής εκμάθησης ώστε να καταφέρει να σχεδιάσει το κατάλληλο μοντέλο για κάθε συντάκτη που θα χρησιμοποιηθεί για την ταξινόμηση των άγνωστων υπογραφών. Άρα, όλες οι διαδικασίες εκμάθησης για την εξαγωγή χαρακτηριστικών (δηλ. η εκτέλεση όλης της τοπολογίας εκτός από τον ταξινομητή) μπορούν να πραγματοποιηθούν επιλέγοντας τυχαία διανύσματα από όλες τις γνήσιες ή και τις πλαστές υπογραφές κάθε συντάκτη. Στην παρούσα υλοποίηση, επιλέγεται τα λεξικά αραιής αναπαράστασης και η συνάρτηση μετασχηματισμού για την ελάττωση διάστασης να υπολογίζονται χρησιμοποιώντας μόνο τα διανύσματα των γνήσιων υπογραφών εκμάθησης για κάθε συντάκτη έτσι ώστε το σύστημα να είναι πιο ρεαλιστικό για πρακτικές εφαρμογές. Έτσι και αλλιώς, η εστίαση στο στάδιο της κωδικοποίησης έναντι του σταδίου της εκμάθησης είναι πιο κρίσιμης σημασίας, αφού έχει παρατηρηθεί ότι ακόμα και με πολύ απλή εκμάθηση λεξικού είναι δυνατόν να επιτευχθεί υψηλή απόδοση σε διάφορες βάσεις δεδομένων [Coates 2011]. Εν τέλει, για κάθε συντάκτη η διαδικασία εκμάθησης (εκμάθηση λεξικών αραιής αναπαράστασης και συνάρτησης μετασχηματισμού για ελάττωση διάστασης) πραγματοποιείται χρησιμοποιώντας μόνο τις γνήσιες υπογραφές από το σύνολο εκμάθησής του ενώ η εκπαίδευση του ταξινομητή SVM υλοποιείται χρησιμοποιώντας ολόκληρο το σύνολο εκμάθησής του (γνήσιες και random forgeries υπογραφές). Η απόδοση του συστήματος για κάθε συντάκτη ελέγχεται χρησιμοποιώντας το σύνολο δοκιμής του (υπόλοιπες γνήσιες υπογραφές και skilled forgeries υπογραφές). 161

182 Deep Sparse Coding ( DSC ) image SR SPM LSP DR SVM SR SPM SR : Sparse Representation (Dictionary Learning & Sparse Coding) LSP : Local Spatial Pooling DR : Dimensionality Reduction (by Dimensionality Reduction Learning an Invariant Mapping (DRLIM) SPM : Spatial Pyramid Matching (an alternative Spatial Pyramid Pooling method) SVM : Support Vector Machine (Classifier) Εικόνα 4.15 : Η τοπολογία Deep Sparse Coding με 2 επίπεδα αραιής αναπαράστασης, που εφαρμόζεται στο πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών 162

183 Στην συνέχεια ακολουθούν τα στάδια της τοπολογίας Deep Sparse Coding 2 επιπέδων (DSC 2 layers), όπου το κάθε ένα στάδιο περιγράφεται συνοπτικά και αναφέρονται οι παράμετροι που ρυθμίζουν την διεργασία που εκτελείται σε αυτό. Η τιμή των παραμέτρων σε κάθε στάδιο της τοπολογίας προκύπτει συνδυάζοντας τα αποτελέσματα από την εφαρμογή της τοπολογίας Deep Sparse Coding σε φυσικές εικόνες (Caltech-101,Caltech-256) που πραγματοποιήθηκε στο προηγούμενο εδάφιο και από τα αποτελέσματα της εργασίας [Zois 2017] που εφάρμοσε την αραιή αναπαράσταση ενός επιπέδου στο πρόβλημα ταυτοποίησης χειρόγραφων υπογραφών. Προ-επεξεργασία εικόνων (preprocessing) Η προ-επεξεργασία των εικόνων υπογραφών περιλαμβάνει τρεις διαδοχικές διεργασίες, την δυαδική μετατροπή (black and white) της εικόνας, την λέπτυνση (thinning) της εικόνας και την ορθογώνια περικοπή (cropped image) της εικόνας. Η δυαδική μετατροπή μετατρέπει τις εικόνες υπογραφών κλίμακας του γκρι (grayscale) σε δυαδικές (binary) χρησιμοποιώντας την μέθοδο καθολικής κατωφλίωσης Otsu [Otsu 1979]. Η λέπτυνση (thinning) είναι η μορφολογική διεργασία που πραγματοποιεί την απομάκρυνση επιλεγμένων pixels προσκηνίου από μία δυαδική εικόνα διατηρώντας τη συνεκτικότητα της εικόνας και το αποτέλεσμά της είναι, επίσης, μία δυαδική εικόνα. Η διεργασία της λέπτυνσης της δυαδικής εικόνας υπογραφής πραγματοποιήθηκε με επαναληπτική διαδοχική λέπτυνση μέχρι την επίτευξη πάχους ενός pixel. Το πάχος που θα έχει η υπογραφή μετά τη διαδικασία της λέπτυνσης καθορίζεται για κάθε βάση χειρόγραφων υπογραφών χρησιμοποιώντας μία αυτοματοποιημένη μέθοδο, η οποία ελέγχοντας την κατανομή των pixels σε κομμάτια της εικόνας επιλέγει το πάχος (υπό όρους pixels) που θα σταματήσει η μορφολογική διεργασία της λέπτυνσης. Έτσι, για την βάση CEDAR επιλέγεται το ίχνος της υπογραφής σε κάθε εικόνα να έχει πάχος ένα pixel ύστερα από την διεργασία της λέπτυνσης. Η λέπτυνση της εικόνας υπογραφής έχει σαν αποτέλεσμα την εξάλειψη των μεταβαλλόμενων παραμέτρων (ή παρενεργειών) του οργάνου γραφής, όπως το μέγεθος και η ποικιλία μελάνης, με ταυτόχρονη διατήρηση της συνεκτικότητας της υπογραφής. Τελικά, μέσω της εφαρμογής της μορφολογικής διεργασίας της λέπτυνσης στις εικόνες των υπογραφών επιχειρείται η ελαχιστοποίηση των επιπτώσεων των εξωτερικών παραμέτρων και η εστίαση στην υποκειμενικότητα και ιδιαιτερότητα του κάθε συντάκτη (υπογράφων). Η τελευταία διαδικασία της προ-επεξεργασίας των εικόνων υπογραφών είναι η ορθογώνια περικοπή τους. Ένα ορθογώνιο πλαίσιο μειώνει τις διαστάσεις της εικόνας υπογραφής στα όρια του αντικειμένου, δηλ. στα όρια της σκελετικής απεικόνισης (ίχνος υπογραφής). Η τελική κομμένη εικόνα οριοθετείται από τα 163

184 ακραία σημεία του σκελετού, περιλαμβάνοντας, επομένως, όλα τα pixels προσκηνίου (ίχνος υπογραφής) και παραλείποντας μόνο τα «μοναχικά» pixels προσκηνίου (που νοούνται τα pixels προσκηνίου που δεν συνδέονται με κανένα άλλο pixel προσκηνίου) που βρίσκονται σε απόσταση μεγαλύτερη από τρία pixels φόντου με οποιοδήποτε άλλο pixel προσκηνίου. Η διεργασία αυτή επιφέρει την απομάκρυνση των pixels του ίχνους της υπογραφής, τα οποία δεν προσφέρουν κάποιο χαρακτηριστικό γνώρισμα που να ενισχύει την προσπάθεια αναγνώρισης των υπογραφών και συνήθως οφείλονται σε ατέλειες του χαρτιού που απεικονίζει την χειρόγραφη υπογραφή ή σε σφάλματα του οργάνου σάρωσης (clutter removal). Εικόνα 4.16 : Η προ-επεξεργασία (preprocessing) των εικόνων υπογραφών αποτελείται από την δυαδική μετατροπή (binary image) της εικόνας, την λέπτυνση (thinning) της εικόνας και την ορθογώνια περικοπή (cropped image) της εικόνας. (Η εικόνα είναι από την παρουσίαση της εργασίας Parsimonious Coding and Verification of Offline Handwritten Signatures στο CVPR 2017 Biometrics Workshop) 164

185 Εξαγωγή κομματιών εικόνας (image patches) Η πληροφορία σε μία εικόνα υπογραφής βρίσκεται μόνο στα pixels της υπογραφής, αφού τα pixels παρασκηνίου της εικόνας δεν προσφέρουν καμία πληροφορία, και για αυτό το λόγο η εξαγωγή των patches από κάθε εικόνα υπογραφής διαφέρει σε σχέση με τον τρόπο εξαγωγής των patches στις φυσικές εικόνες. Έτσι, σε κάθε εικόνα υπογραφής χρησιμοποιείται το ίχνος της υπογραφής (cropped thinned binary image), που έχει προέλθει από την προ-επεξεργασία της εικόνας, για την εξαγωγή των patches από την grayscale (κλίμακας του γκρι) εικόνα. Συνεπώς, το ίχνος της υπογραφής χρησιμοποιείται σαν οδηγός στην αρχική grayscale εικόνα της υπογραφής ώστε να υποδεικνύει τα κέντρα των patches. Δηλ. τα patches της εικόνας υπογραφής εξάγονται από την grayscale εικόνα υπογραφής στις θέσεις που υποδεικνύει το ίχνος της υπογραφής, το οποίο έχει προέλθει από την προ-επεξεργασία της εικόνας. Κάθε pixel του ίχνους της υπογραφής αντιστοιχεί στο κέντρο του κάθε patch και άρα, τα patches είναι επικαλυπτόμενα και η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel. Το μέγεθος του patch ορίζεται στα 5 x 5 pixels. Επομένως, εξάγονται patches μέγεθος 5 x 5 pixels σε κάθε θέση pixel του ίχνους της υπογραφής, που σημαίνει ότι η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel. Κατά την διαδικασία εξαγωγής των patches υπολογίζονται και οι συντεταγμένες των κέντρων των patches της εικόνας ώστε να μπορεί να υπολογιστεί η χωρική απόσταση (υπό όρους pixels) μεταξύ των patches στην εικόνα. Τέλος, σε κάθε patch εφαρμόζεται σαν νορμαλισμός η αφαίρεση της μέσης τιμής του. Εικόνα 4.17 : Εξαγωγή patches από την grayscale εικόνα υπογραφής στις θέσεις που υποδεικνύει το ίχνος της υπογραφής, που έχει προέλθει από την προ-επεξεργασία της εικόνας υπογραφής. Το μέγεθος του patch είναι 5 x 5 pixels και η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel. (Η εικόνα είναι από την παρουσίαση της εργασίας Parsimonious Coding and Verification of Offline Handwritten Signatures στο CVPR 2017 Biometrics Workshop) 165

186 Αραιή αναπαράσταση (Sparse Representation) [1ο επίπεδο] Τα patches της υπογραφής έχουν προέλθει από την grayscale εικόνα υπογραφής στις θέσεις που υποδεικνύει το ίχνος της υπογραφής -που έχει προκύψει από την προ-επεξεργασία της εικόνας- και έχει αφαιρεθεί η μέση τιμή σε κάθε patch σαν νορμαλισμός. Τα patches (τα οποία μετασχηματίζονται σε διανύσματα 25 διαστάσεων ) αποτελούν τα δεδομένα εισόδου στο στάδιο της αραιής αναπαράστασης, το οποίο θα τροφοδοτήσει το επόμενο στάδιο με τους αραιούς συντελεστές. Άρα, από ένα σύνολο διανυσμάτων εισόδου υπολογίζεται μέσω μιας διαδικασίας εκμάθησης το λεξικό αραιής αναπαράστασης και στην συνέχεια όλα τα διανύσματα εισόδου κωδικοποιούνται με βάση το λεξικό για να προκύψει η αραιή αναπαράστασή τους. Το πρόβλημα βελτιστοποίησης της αραιής αναπαράστασης περιγράφεται από την σχέση : με τον περιορισμό Για την επίλυση του προβλήματος της αραιής κωδικοποίησης χρησιμοποιείται σαν κριτήριο αραιότητας η -νόρμα ή αλλιώς ψευδό-νόρμα λόγω του ότι απλά μετράει τα μη μηδενικά στοιχεία του διανύσματος συντελεστών. Η χρήση της 0-νόρμας στην συνάρτηση κόστους, δηλ. ο ακριβής προσδιορισμός των αραιότερων αναπαραστάσεων, αποδεικνύεται ότι είναι ένα μη ντετερμινιστικό πολυωνυμικό χρονικό πρόβλημα (NP-hard problem) και επιλύεται μόνο με προσεγγιστικές λύσεις, όπως μέσω αλγορίθμων ταιριάσματος (pursuit algorithms) [Davis 1997]. Η επίλυση του προβλήματος ελαχιστοποίησης για την αραιή αναπαράσταση πραγματοποιείται μέσω της εργαλειοθήκης K-SVD box, δηλ. εκτελείται μία batch διαδικασία εκμάθησης του λεξικού. Υπενθυμίζεται εδώ ότι, εφόσον η τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης εφαρμόζεται για κάθε συντάκτη ξεχωριστά (αφού το πρόβλημα ταυτοποίησης ορίζεται για κάθε συντάκτη ξεχωριστά) τότε η διαδικασία αραιής αναπαράστασης εκτελείται για κάθε συντάκτη ξεχωριστά. Αυτό σημαίνει ότι σχηματίζονται 55 λεξικά αραιής αναπαράστασης -για τους 55 συντάκτες της βάσης CEDAR-, που το κάθε ένα λεξικό έχει προκύψει μέσω μίας διαδικασίας εκμάθησης χρησιμοποιώντας τα patches από τις 5 γνήσιες υπογραφές εκμάθησης κάθε συντάκτη. Η μέθοδος εκμάθησης λεξικού αραιής αναπαράστασης K-SVD είναι μια batch διαδικασία, δηλ. για την εκμάθηση του λεξικού χρησιμοποιούνται όλα τα διαθέσιμα δεδομένα μαζί. Βέβαια, σε πρακτικές εφαρμογές αναγνώρισης υπογραφών είναι χρήσιμο να μπορούν να ενσωματώνονται νέες υπογραφές στο σύνολο εκμάθησης, δηλ. αν εμφανιστεί μία νέα υπογραφή του συντάκτη, αυτή να μπορεί να ενσωματωθεί στην διαδικασία εκμάθησης χωρίς να απαιτείται να 166

187 επαναληφθεί όλη η διαδικασία από την αρχή. Για να συμβεί αυτό, εκμεταλλεύεται η επιλογή που παρέχει ο αλγόριθμος K-SVD για την αρχικοποίηση του πίνακα του λεξικού. Έτσι, χρησιμοποιούνται διαδοχικά σύνολα διανυσμάτων εκμάθησης, όπου το λεξικό που έχει προκύψει από την διαδικασία εκμάθησης στο προηγούμενο σύνολο διανυσμάτων αποτελεί την αρχικοποίηση του λεξικού για την εκτέλεση της διαδικασίας εκμάθησης στο νέο σύνολο διανυσμάτων. Με αυτό τον τρόπο, το λεξικό ενημερώνεται μέσω μίας batch διαδικασίας εκμάθησης σε κάθε σύνολο διανυσμάτων ενώ νέα σύνολα διανυσμάτων ενσωματώνονται χρησιμοποιώντας το λεξικό που έχει προκύψει από το προηγούμενο σύνολο διανυσμάτων σαν πίνακα εκκίνησης. Το κάθε σύνολο διανυσμάτων εκμάθησης αποτελείται από τα patches μίας γνήσιας υπογραφής του συντάκτη. Άρα, αρχικά ο πίνακας του λεξικού αραιής αναπαράστασης αρχικοποιείται τυχαία από τα διανύσματα του πρώτου συνόλου διανυσμάτων εκμάθησης (που αποτελείται από τα patches μίας γνήσιας υπογραφής εκμάθησης) και εκτελείται η διαδικασία εκμάθησης στο πρώτο σύνολο διανυσμάτων για την ενημέρωση του λεξικού. Στη συνέχεια, το λεξικό που προκύπτει χρησιμοποιείται σαν πίνακας αρχικοποίησης για την εκτέλεση της διαδικασίας εκμάθησης σε ένα νέο σύνολο από patches, που προέρχονται από μία άλλη γνήσια υπογραφή εκμάθησης. Η διαδικασία επαναλαμβάνεται σε κάθε ένα νέο σύνολο από patches (που προέρχονται από μία νέα γνήσια υπογραφή εκμάθησης) μέχρι να χρησιμοποιηθούν όλες οι γνήσιες υπογραφές εκμάθησης. Οπότε, εκτελώντας τη batch διαδικασία εκμάθησης λεξικού αραιής αναπαράστασης K-SVD σε διαδοχικά σύνολα διανυσμάτων εκμάθησης και χρησιμοποιώντας σαν πίνακα αρχικοποίησης σε κάθε νέο σύνολο διανυσμάτων το λεξικό που έχει σχεδιαστεί με βάση το προηγούμενο σύνολο διανυσμάτων, επιτυγχάνεται η ενσωμάτωση νέων υπογραφών στην διαδικασία εκμάθησης του λεξικού χωρίς να απαιτείται να επαναληφθεί όλη η διαδικασία από τη αρχή. Βέβαια, η κάθε ενημέρωση του λεξικού -σε κάθε σύνολο διανυσμάτων εκμάθησηςπραγματοποιείται με τα patches μίας μόνο υπογραφής και άρα από ένα περιορισμένο σε πλήθος και ποικιλία σύνολο διανυσμάτων. Αυτό όμως, δεν αποτελεί μεγάλο πρόβλημα για εικόνες υπογραφών διότι ακόμα και αν χρησιμοποιούνταν όλα μαζί τα patches από τις 5 γνήσιες υπογραφές του κάθε συντάκτη, το σύνολο αυτό έχει μικρή μεταβλητότητα (intra-class variability) διότι οι γνήσιες υπογραφές κάθε συντάκτη μοιάζουν πάρα πολύ μεταξύ τους. Έτσι και αλλιώς, το μεγαλύτερο μέρος της απόδοσης των συστημάτων αναγνώρισης αποτελεί συνάρτηση της επιλογής της αρχιτεκτονικής και της κωδικοποίησης των δεδομένων αφού ακόμα και με πολύ απλή εκμάθηση λεξικού είναι δυνατόν να επιτευχθεί υψηλή απόδοση σε διάφορες βάσεις δεδομένων [Coates 2011]. Τελικά, μέσω της διαδικασία εκμάθησης από τα διαδοχικά σύνολα διανυσμάτων, που το κάθε σύνολο αποτελείται από τα patches μίας γνήσιας υπογραφής εκμάθησης, προκύπτει ένα λεξικό για κάθε συντάκτη, το οποίο χρησιμοποιείται για την κωδικοποίηση των patches των υπογραφών που σχετίζονται με αυτόν τον 167

188 συντάκτη, δηλ. των υπογραφών που ανήκουν στο σύνολο εκμάθησης και στο σύνολο δοκιμής του συντάκτη. Το μέγεθος του λεξικού έχει οριστεί στα 60 άτομα ( ) ύστερα από δοκιμές με διαφόρων διαστάσεων λεξικά και έλεγχο της απόδοσης [Zois 2017]. Η κωδικοποίηση των patches πραγματοποιείται από την μέθοδο OMP (Orthogonal Matching Pursuit) μέσω της εργαλειοθήκης OMP box. Ο OMP είναι ένας αλγόριθμος ταιριάσματος (pursuit) της κατηγορίας greedy. Στην κατηγορία greedy κατατάσσονται εκείνοι οι αλγόριθμοι που για την επίλυση του προβλήματος χρησιμοποιούν μία επινοητική μέθοδο, η οποία ακολουθεί την τοπικά βέλτιστη επιλογή σε κάθε βήμα με την ελπίδα να οδηγηθεί έτσι στην γενική λύση του προβλήματος. Η μέθοδος OMP είναι γρηγορότερη από τις κλασσικές μεθόδους και επιφέρει προσεγγιστική λύση σε προβλήματα που οι κλασσικοί τρόποι επίλυσης αδυνατούν να υπολογίσουν την ακριβή λύση (όπως σε ένα NP-hard problem). Κατά την επαναληπτική διαδικασία του OMP, για την σταδιακή ανάκτηση του υπό κωδικοποίηση σήματος ως σταθμισμένο άθροισμα των ατόμων του λεξικού D, επιλέγονται τα άτομα εκείνα που ταιριάζουν καλύτερα στις εσωτερικές δομές του υπό κωδικοποίηση σήματος. Έτσι, εντοπίζονται τα άτομα του λεξικού με τη μεγαλύτερη συσχέτιση με το υπό κωδικοποίηση σήμα, δηλ. ο δείκτης του ατόμου που παρατηρείται η μέγιστη ορθογώνια προβολή του υπολοίπου αποτελεί θέση μη μηδενικού στοιχείου του εκτιμώμενου αραιού διανύσματος συντελεστών. Ο OMP ενθαρρύνει το υπόλοιπο να είναι πάντα ορθογώνιο με όλα τα προηγούμενα επιλεγμένα άτομα, κάτι το οποίο είναι ισοδύναμο με τον επανυπολογισμό όλων των τιμών των μη μηδενικών συντελεστών όταν επιλέγεται ένα νέο άτομο. Οπότε, όλοι οι μη μηδενικοί συντελεστές που έχουν υπολογιστεί μέχρι εκείνη την στιγμή ανανεώνονται μέσω της επανα-προβολής στο τρέχων επιλεγμένο σύνολο ατόμων. Η επανα-προβολή στο μέχρι στιγμής επιλεγμένο σύνολο ατόμων -για τον επανυπολογισμό των μη μηδενικών συντελεστών- πραγματοποιείται με τη βοήθεια του αντιστρόφου πίνακα συνδιασποράς των επιλεγμένων ατόμων του λεξικού, ο οποίος προκύπτει από την ανάλυση Cholesky. Τελικά, κανένα άτομο δεν επιλέγεται δεύτερη φορά και το σύνολο των επιλεγμένων ατόμων αυξάνεται σε κάθε βήμα. Η επαναληπτική διαδικασία για τον υπολογισμό των όρων που συνθέτουν την προσεγγιστική λύση ολοκληρώνεται όταν διεκπεραιωθεί η συνθήκη τερματισμού που είναι ένας συγκεκριμένος αριθμός επαναλήψεων, ο οποίος καθορίζεται από τον περιορισμό αραιότητας αφού ο αριθμός επαναλήψεων ισούται με το πλήθος των όρων στο σταθμισμένο άθροισμα των ατόμων, δηλ. το πλήθος των μη μηδενικών συντελεστών. Η αποδεδειγμένη ιδιότητα του OMP, που τον κατατάσσει στους σημαντικότερους και πιο αποτελεσματικούς αλγορίθμους pursuit, είναι ότι εξασφαλίζει την σύγκλιση στην ιδανική λύση το πολύ σε k επαναλήψεις της αλγοριθμικής διαδικασίας του, όπου k η διάσταση του λεξικού, δηλ. το πλήθος των ατόμων του D [Pati 1993]. Το πλήθος των μη μηδενικών συντελεστών σε κάθε αραιή 168

189 αναπαράσταση (που υπολογίζει ο OMP) ορίζεται στην τιμή 3, δηλ. επιλέχθηκε ύστερα από δοκιμές και έλεγχο της απόδοσης [Zois 2017]., και Εικόνα 4.18 : Η διαδικασία εκμάθησης λεξικού αραιής αναπαράστασης μέσω της μεθόδου K-SVD για κάθε συντάκτη. Τα διανύσματα (patches) εκμάθησης προέρχονται από τις γνήσιες υπογραφές εκμάθησης του κάθε συντάκτη (#G-REF Genuine signatures). Το λεξικό ενημερώνεται μέσω της batch μεθόδου εκμάθησης K-SVD σε κάθε σύνολο διανυσμάτων ενώ νέα σύνολα διανυσμάτων ενσωματώνονται χρησιμοποιώντας το λεξικό που έχει προκύψει από το προηγούμενο σύνολο διανυσμάτων σαν πίνακα εκκίνησης. Το κάθε σύνολο διανυσμάτων αποτελείται από τα patches μίας γνήσιας υπογραφής εκμάθησης του συντάκτη. Άρα, αρχικά ο πίνακας του λεξικού αραιής αναπαράστασης αρχικοποιείται τυχαία από τα διανύσματα του πρώτου συνόλου διανυσμάτων εκμάθησης (που αποτελείται από τα patches μίας γνήσιας υπογραφής εκμάθησης) και εκτελείται η διαδικασία εκμάθησης στο πρώτο σύνολο διανυσμάτων για την ενημέρωση του λεξικού ( ). Στη συνέχεια, το λεξικό που προκύπτει χρησιμοποιείται σαν πίνακας αρχικοποίησης για την εκτέλεση της διαδικασίας εκμάθησης σε ένα νέο σύνολο από patches, που προέρχονται από μία άλλη γνήσια υπογραφή εκμάθησης. Η διαδικασία επαναλαμβάνεται σε κάθε σε ένα νέο σύνολο από patches (που προέρχονται από μία νέα γνήσια υπογραφή εκμάθησης), χρησιμοποιώντας το λεξικό που προκύπτει από την προηγούμενη διαδικασία σαν πίνακα αρχικοποίησης, μέχρι να χρησιμοποιηθούν όλες οι γνήσιες υπογραφές εκμάθησης (#G-REF Genuine signatures). Οπότε, εκτελώντας τη batch διαδικασία εκμάθησης λεξικού αραιής αναπαράστασης K-SVD σε διαδοχικά σύνολα διανυσμάτων εκμάθησης και χρησιμοποιώντας σαν πίνακα αρχικοποίησης σε κάθε νέο σύνολο διανυσμάτων το λεξικό που έχει σχεδιαστεί με βάση το προηγούμενο σύνολο διανυσμάτων, επιτυγχάνεται η ενσωμάτωση νέων υπογραφών στην διαδικασία εκμάθησης του λεξικού χωρίς να απαιτείται να επαναληφθεί όλη η διαδικασία από τη αρχή. Τελικά, μέσω της διαδικασία εκμάθησης από τα διαδοχικά σύνολα διανυσμάτων, που το κάθε σύνολο αποτελείται από τα patches μίας γνήσιας υπογραφής εκμάθησης, προκύπτει ένα λεξικό για κάθε συντάκτη, το οποίο χρησιμοποιείται για την κωδικοποίηση των patches των υπογραφών που σχετίζονται με αυτόν τον συντάκτη, δηλ. των υπογραφών που ανήκουν στο σύνολο εκμάθησης και στο σύνολο δοκιμής του συντάκτη. (Η εικόνα είναι από την παρουσίαση της εργασίας Parsimonious Coding and Verification of Offline Handwritten Signatures στο CVPR 2017 Biometrics Workshop) 169

190 Τοπική χωρική συγκέντρωση (Local Spatial Pooling) Η τοπική χωρική συγκέντρωση (Local Spatial Pooling) αποτελεί την πρώτη διεργασία της μονάδας σύνδεσης. Έτσι, στα διανύσματα αραιής αναπαράστασης που έχουν υπολογιστεί στο προηγούμενο επίπεδο της τοπολογίας Deep Sparse Coding εκτελείται η τοπική χωρική συγκέντρωση (Local Spatial Pooling) σε ομάδες γειτονικών διανυσμάτων για να ενσωματωθεί η πληροφορία από μία περιοχή της εικόνας σε ένα μόνο διάνυσμα για κάθε ομάδα. Η διαδικασία συγκέντρωσης (pooling) δεν μεταβάλλει την διάσταση των διανυσμάτων αραιής αναπαράστασης μίας εικόνας αλλά απλά μπορεί να ελαττώσει το πλήθος των αραιών διανυσμάτων μίας εικόνας που θα διαδοθούν στην τοπολογία. Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει, δηλ. έχουν διάσταση όσα και τα άτομα του λεξικού του προηγούμενου επιπέδου, αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης. Το πλήθος των pooled διανυσμάτων ενδέχεται να είναι διαφορετικό από το πλήθος των διανυσμάτων αραιής αναπαράστασης του προηγούμενου επιπέδου διότι εξαρτάται από το πλήθος των ομάδων γειτονικών διανυσμάτων που δημιουργούνται σε κάθε εικόνα. Για να συγκροτηθούν οι ομάδες των γειτονικών αραιών διανυσμάτων -τα οποία έχουν προκύψει από το προηγούμενο στάδιο κωδικοποίησης των patches των υπογραφών- και να εφαρμοστεί η συνάρτηση που εκτελεί τη συγκέντρωση (pooling) σε κάθε ομάδα ακολουθείται μία λίγο διαφορετική διαδικασία σε σχέση με την τοπική χωρική συγκέντρωση (Local Spatial Pooling) στα αραιά διανύσματα που προέρχονταν από τις φυσικές εικόνες. Η αλλαγή, που είναι απαραίτητο να πραγματοποιηθεί στην διαδικασία της τοπική χωρικής συγκέντρωσης, οφείλεται στον διαφορετικό τρόπο εξαγωγής των patches στις εικόνες υπογραφών από τις φυσικές εικόνες. Στις φυσικές εικόνες τα patches εξάγονται από ένα πυκνό και ομοιόμορφο πλέγμα σημείων στην εικόνα (dense grid), δηλ. εξάγονται από όλη την έκταση της εικόνας και τα κέντρα των patches είναι ομοιόμορφα κατανεμημένα στον χώρο της εικόνας. Αντίθετα, στις εικόνες υπογραφών τα patches εξάγονται από την grayscale εικόνα υπογραφής στις θέσεις που υποδεικνύει το ίχνος της υπογραφής που έχει προκύψει από την προ-επεξεργασία της εικόνας υπογραφής, δηλ. χρησιμοποιείται το ίχνος της υπογραφής (cropped thinned binary image) σαν οδηγός στην αρχική grayscale εικόνα της υπογραφής και κάθε pixel του ίχνους της υπογραφής να αντιστοιχεί στο κέντρο του κάθε patch. Έτσι, στις φυσικές εικόνες οι ομάδες γειτονικών αραιών διανυσμάτων αποτελούνται από καθορισμένο πλήθος διανυσμάτων ενώ κάτι τέτοιο δεν μπορεί να συμβεί κατά τον σχηματισμό των ομάδων γειτονικών αραιών διανυσμάτων στις εικόνες υπογραφών διότι δεν υπάρχουν πάντα τόσα γειτονικά -χωρικά- διανύσματα που να δημιουργούν μία ομάδα με προκαθορισμένο πλήθος διανυσμάτων. Οπότε, η τοπική χωρική 170

191 συγκέντρωση (Local Spatial Pooling) στο πρόβλημα των υπογραφών πραγματοποιείται σε ομάδες γειτονικών αραιών διανυσμάτων που δεν αποτελούνται αναγκαστικά από το ίδιο πλήθος αραιών διανυσμάτων αλλά κάθε μία ομάδα συγκροτείται από τα γειτονικά αραιά διανύσματα μίας περιοχής της εικόνας. Για να επιτευχθεί αυτό, κάθε ομάδα αναπτύσσεται γύρω από ένα κεντρικό αραιό διάνυσμα ώστε η κάθε ομάδα να αποτελείται από το κεντρικό αραιό διάνυσμα και τα γειτονικά του αραιά διανύσματα. Άρα, κάθε ομάδα καλύπτει μία χωρική περιοχή στην εικόνα και συγκροτείται από τα διανύσματα που τα κέντρα των Fields of View τους βρίσκεται μέσα σε αυτή την περιοχή. Έτσι, το μέγεθος της κάθε ομάδας δεν είναι το πλήθος των αραιών διανυσμάτων που την αποτελούν αλλά η χωρική περιοχή που καλύπτει στον χώρο των pixels της εικόνας. Επομένως, η δημιουργία της κάθε ομάδας γειτονικών αραιών διανυσμάτων, κατά τη διαδικασία της τοπική χωρικής συγκέντρωσης στα αραιά διανύσματα των εικόνων υπογραφών, πραγματοποιείται επιλέγοντας ένα αραιό διάνυσμα και οριοθετώντας μία περιοχή γύρω από το κέντρο του Field of View αυτού του διανύσματος έτσι ώστε τα αραιά διανύσματα που τα κέντρα των Fields of View τους ανήκουν σε αυτή την περιοχή να συγκεντρώνονται μαζί στην ομάδα. Με αυτό τον τρόπο, η κάθε ομάδα γειτονικών αραιών διανυσμάτων αποτελείται από όλα τα αραιά διανύσματα που αντιστοιχούν στην χωρική περιοχή της ομάδας, δηλ. από το κεντρικό αραιό διάνυσμα (γύρω από το οποίο σχηματίζεται η ομάδα) και από τα γειτονικά του αραιά διανύσματα που τα κέντρα των Fields of View τους ανήκουν στην περιοχή της ομάδας. Με άλλα λόγια, η κάθε ομάδα γειτονικών αραιών διανυσμάτων σχηματίζεται με βάση τη χωρική περιοχή που επιθυμείται να καλύπτει τον χώρο των pixels της εικόνας. Συνεπώς, οι παράμετροι της τοπικής χωρικής συγκέντρωσης στο πρόβλημα των εικόνων υπογραφών είναι η χωρική απόσταση που θα εκτείνεται η κάθε ομάδα γύρω από το κέντρο της (δηλ. η απόσταση γύρω το κέντρο του Field of View του κεντρικού αραιού διανύσματος της ομάδας) και το βήμα υποδειγματοληψίας που ορίζει πόσα αραιά διανύσματα, έτσι όπως είναι τοποθετημένα στον πίνακα των αραιών διανυσμάτων της κάθε εικόνας, θα παραλείπονται μέχρι την επιλογή του επόμενου κεντρικού αραιού διανύσματος (δηλ. του κεντρικού διανύσματος της επόμενης ομάδας). Με βάση την παραπάνω ανάλυση, το ελάχιστο πλήθος διανυσμάτων μίας ομάδας είναι ένα διάνυσμα, δηλ. η ομάδα να αποτελείται μόνο από το κεντρικό διάνυσμα, όταν το κεντρικό διάνυσμα είναι το μόνο διάνυσμα που το Field of View του ανήκει στην χωρική περιοχή της ομάδας. Εν τέλει, η παραπάνω μεταβολή στη διαδικασία τοπικής χωρικής συγκέντρωσης για την εφαρμογή στο πρόβλημα των υπογραφών, δηλ. ο τρόπος σχηματισμού των ομάδων με βάση τη χωρική περιοχή που επιθυμείται να καλύπτεται τον χώρο των pixels της εικόνας, είναι η μόνη λύση έτσι ώστε κάθε ομάδα να αποτελείται πράγματι από γειτονικά -στον χώρο των pixels της εικόνας- αραιά διανύσματα, διότι στην περίπτωση των εικόνων υπογραφών τα κέντρα των patches (από τα οποία έχουν προέλθει τα αραιά διανύσματα) ανήκουν στο ίχνος της υπογραφής και δεν καταλαμβάνουν ένα 171

192 ομοιόμορφο πλέγμα σημείων στην εικόνα, όπως αντίθετα συμβαίνει στην περίπτωση των φυσικών εικόνων (dense grid). Μετά από διάφορες δοκιμές τιμών παραμέτρων επιλέχθηκε να ορίζεται η χωρική περιοχή κάθε ομάδας έτσι ώστε το κεντρικό αραιό διάνυσμα της ομάδας να έχει επικαλυπτόμενο Field of View με όλα τα άλλα αραιά διανύσματα της ομάδας. Επομένως, πρέπει να βρεθεί το βρεθεί το Field of View (δηλ. η χωρική περιοχή στον χώρο των pixels της εικόνας) των αραιών διανυσμάτων στην εικόνα. Το κάθε αραιό διάνυσμα έχει προέλθει από την κωδικοποίηση ενός patch της εικόνας υπογραφής και άρα, το Field of View του κάθε αραιού διανύσματος είναι το ίδιο το patch από το οποίο έχει προέλθει. Το κέντρο του Field of View του κάθε αραιού διανύσματος είναι οι χωρικές συντεταγμένες του κέντρου του αντίστοιχου patch στην εικόνα, οι οποίες υπολογίζονται ταυτόχρονα με την εξαγωγή των patches. Οπότε, εφόσον το μέγεθος του patch είναι 5 x 5 pixels και η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel, τότε για να υπάρχει επικάλυψη μεταξύ του Field of View του κεντρικού αραιού διανύσματος της ομάδας με τα Fields of View των άλλων αραιών διανυσμάτων στην ομάδα πρέπει η χωρική απόσταση που εκτείνεται η κάθε ομάδα γύρω από το κέντρο της (δηλ. η απόσταση γύρω το κέντρο του Field of View του κεντρικού αραιού διανύσματος της ομάδας) να είναι μικρότερη από 5 pixels. Το βήμα υποδειγματοληψίας ορίζει πόσα αραιά διανύσματα, έτσι όπως είναι τοποθετημένα στον πίνακα των αραιών διανυσμάτων της κάθε εικόνας, θα παραλείπονται μέχρι την επιλογή του επόμενου κεντρικού αραιού διανύσματος (δηλ. του κεντρικού διανύσματος της επόμενης ομάδας) και άρα, μέσω της τιμής του βήματος καθορίζεται το πλήθος των pooled διανυσμάτων που συνεχίζουν στο επόμενο στάδιο της τοπολογίας. Με άλλα λόγια το βήμα υποδειγματοληψίας ορίζεται έτσι ώστε αν τα patches της εικόνας, και κατά συνέπεια τα αραιά διανύσματα, ήταν σε ένα πυκνό και ομοιόμορφο πλέγμα σημείων (dense grid) τότε η τιμή του βήματος θα ήταν η χωρική απόσταση διαδοχικών pooled διανυσμάτων. Άρα, αφού τα κέντρα των patches (από τα οποία έχουν προέλθει τα αραιά διανύσματα) ανήκουν στο ίχνος της υπογραφής και δεν καταλαμβάνουν ένα ομοιόμορφο πλέγμα σημείων στην εικόνα, τότε το βήμα υποδειγματοληψίας είναι η ελάχιστη χωρική απόσταση (υπό όρους pixels) που μπορεί να υπάρξει μεταξύ διαδοχικών pooled διανυσμάτων. Το βήμα υποδειγματοληψίας ορίζεται στην τιμή 5 και άρα ανά πέντε διανύσματα (έτσι όπως είναι τοποθετημένα στον πίνακα των αραιών διανυσμάτων της κάθε εικόνας) θα επιλέγεται το κεντρικό αραιό διάνυσμα της κάθε ομάδας. Οπότε, το πλήθος των ομάδων που δημιουργούνται (και άρα το πλήθος των pooled διανυσμάτων) είναι περίπου το 1/5 σε σχέση με το πλήθος των αραιών διανυσμάτων της κάθε εικόνας. Τελικά, αφού το Field of View του κάθε αραιού διανύσματος είναι το αντίστοιχο patch που έχει μέγεθος 5 x 5 pixels και η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel ενώ η χωρική απόσταση που εκτείνεται η κάθε ομάδα γύρω από το κέντρο της επιλέγεται να είναι μικρότερη από 5 pixels, τότε το 172

193 μέγιστο Field of View του κάθε pooled διανύσματος είναι 13 x 13 pixels. Επίσης, αφού το βήμα υποδειγματοληψίας αντιστοιχεί στην ελάχιστη χωρική απόσταση (υπό όρους pixels) μεταξύ διαδοχικών pooled διανυσμάτων τότε η ελάχιστη χωρική απόσταση διαδοχικών pooled διανυσμάτων είναι 5 pixels. Το Field of View του κάθε pooled διανύσματος λαμβάνει μία μέγιστη τιμή διότι δεν καταλαμβάνονται όλες οι θέσεις μίας ομάδας από αραιά διανύσματα (π.χ. μία ομάδα μπορεί να αποτελείται μόνο από το κεντρικό της διάνυσμα) και η χωρική απόσταση διαδοχικών pooled διανυσμάτων λαμβάνει μία ελάχιστη τιμή διότι τα κέντρα των patches (μερικά από τα οποία αποτελούν κέντρα των Fields of View των pooled διανυσμάτων) δεν καταλαμβάνουν ένα ομοιόμορφο πλέγμα σημείων στην εικόνα. Για την επιλογή της συνάρτησης (pooling) που θα εφαρμόζεται σε κάθε ομάδα αραιών διανυσμάτων λαμβάνονται υπόψη τα συμπεράσματα της σύγκρισης μεταξύ των διαδικασιών συγκέντρωσης (pooling) της εύρεσης της μέγιστης τιμής (max pooling) και του υπολογισμού της μέσης τιμής (average pooling) από την εργασία [Boureau 2010] καθώς και η διαφορετική φύση των εικόνων υπογραφών σε σχέση με τις φυσικές εικόνες. Στις εικόνες υπογραφών, μέσω της εξαγωγής χαρακτηριστικών, επιχειρείται η αποκάλυψη των ενδόμυχων υποκειμενικών ιδιαιτεροτήτων του συντάκτη, κάτι που δεν συμβαίνει στη μελέτη των φυσικών εικόνων. Έτσι, η συνάρτηση που εκτελεί τη συγκέντρωση (pooling) σε κάθε μία ομάδα διανυσμάτων επιλέγεται να είναι ο υπολογισμός της μέσης τιμής των διανυσμάτων κάθε ομάδας (average pooling operation). Εικόνα 4.19 : Η διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) εφαρμόζεται σε μία ομάδα γειτονικών αραιών διανυσμάτων χρησιμοποιώντας τη συνάρτηση εύρεσης της μέσης τιμής (average pooling operation). Η διάσταση των pooled διανυσμάτων είναι ίδια με την διάσταση των διανυσμάτων αραιής αναπαράστασης από τα οποία έχουν προέλθει αφού η διαδικασία συγκέντρωσης (pooling) εφαρμόζεται σε μία ομάδα διανυσμάτων ίδιας διάστασης και προκύπτει ένα νέο διάνυσμα πάλι ίδιας διάστασης, δηλ. δεν μεταβάλλεται η διάσταση των διανυσμάτων κατά τη διαδικασία συγκέντρωσης (pooling). 173

194 Dimensionality Reduction by Learning an Invariant Mapping (DRLIM) Το πρόβλημα που καλείται να λύσει η μέθοδος DRLIM είναι ο υπολογισμός της συνάρτησης που θα μετασχηματίζει τα υψηλής διάστασης δείγματα σε έναν χαμηλότερης διάστασης χώρο, δεδομένου των σχέσεων γειτνίασης μεταξύ των δειγμάτων εκμάθησης στον αρχικό χώρο. Η μέθοδος DRLIM στηρίζεται σε δύο άξονες, που είναι η αποφυγή χρήσης μετρικής απόστασης για τον προσδιορισμό της γειτνίασης των δεδομένων εκμάθησης και η δυνατότητα να μετασχηματίζει νέα άγνωστα δείγματα. Η DRLIM υπολογίζει τον γραμμικό μετασχηματισμού, που ορίζεται από τον πίνακα, έτσι ώστε για όμοια δείγματα (γείτονες) του αρχικού χώρου να έλκονται μαζί τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης και για ανόμοια δείγματα (μη-γείτονες) του αρχικού χώρου να απομακρύνονται μεταξύ τους τα αντίστοιχα σημεία στον χώρο χαμηλής διάστασης, δηλ. ο πίνακας μετασχηματισμού υπολογίζεται ελαχιστοποιώντας τη συνάρτηση απωλειών που ονομάζεται contrastive loss [Hadsell 2006]. Η συνάρτηση contrastive loss λειτουργεί με ζευγάρια δειγμάτων εκμάθησης μαζί με μία ετικέτα (0 ή 1), η οποία αντιστοιχεί στις σχέσεις γειτνίασης (δηλ. στην ομοιότητα) μεταξύ των δειγμάτων των ζευγαριών. Ο σχηματισμός των ζευγαριών εκμάθησης και ο προσδιορισμός των ετικετών που τα χαρακτηρίζουν πραγματοποιείται χρησιμοποιώντας την προηγούμενη γνώση (prior knowledge). Συνεπώς, το πρόβλημα βελτιστοποίησης -για τον υπολογισμό του πίνακα μετασχηματισμού ελαχιστοποιώντας την συνάρτηση contrastive loss- περιγράφεται από την σχέση : όπου, είναι το σύνολο των pooled διανυσμάτων, είναι το σύνολο των δεικτών όλων των ζευγαριών με ετικέτα ( ) 0 ή 1 που έχουν προκύψει από όλες τις γνήσιες υπογραφές εκμάθησης του συντάκτη και είναι η παράμετρος της συνάρτησης contrastive loss. Η εκτέλεση της μεθόδου DRLIM μπορεί να διαχωριστεί σε τρία στάδια. Το πρώτο στάδιο είναι ο προσδιορισμός των ζευγαριών εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν. Το δεύτερο στάδιο είναι η επίλυση του προβλήματος ελαχιστοποίησης της συνάρτησης contrastive loss για να υπολογιστεί η συνάρτηση μετασχηματισμού (πίνακας μετασχηματισμού), δεδομένου των ζευγαριών εκμάθησης και των ετικετών τους. Το τρίτο και τελευταίο στάδιο είναι η πραγματοποίηση της ελάττωσης διάστασης εφαρμόζοντας την συνάρτηση μετασχηματισμού, η οποία είναι ήδη υπολογισμένη, στα δεδομένα. 174

195 I) Σχηματισμός ζευγαριών και προσδιορισμός των ετικετών τους Τα ζευγάρια εκμάθησης μαζί με τις ετικέτες που τα χαρακτηρίζουν χρησιμοποιούνται για την ελαχιστοποίηση της συνάρτησης contrastive loss ώστε να υπολογιστεί η συνάρτηση μετασχηματισμού. Οι σχέσεις γειτνίασης (δηλ. η ομοιότητα) μεταξύ των δύο δειγμάτων του κάθε ζευγαριού καθορίζει την τιμή της ετικέτας (label) που θα έχει το ζευγάρι. Όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο όμοια δείγματα εκμάθησης τότε η ετικέτα λαμβάνει την τιμή μηδέν ( ) ενώ όταν το ζευγάρι των δειγμάτων σχηματίζεται από δύο ανόμοια δείγματα εκμάθησης τότε λαμβάνει την τιμή ένα ( ). Οι σχέσεις γειτνίασης προκύπτουν από την προηγούμενη γνώση (prior knowledge), δηλ. παρέχονται από μία επιπρόσθετη πηγή πληροφοριών και όχι από πληροφορίες που μπορούν να αντληθούν απευθείας από τα δείγματα εκμάθησης (δηλ. δεν προκύπτουν από μία μετρική διανυσματικής απόστασης μεταξύ των δειγμάτων). Για δύο patches της εικόνας που έχουν μεγάλη αλληλοεπικάλυψη στον χώρο των pixels της εικόνας, υπάρχει η προηγούμενη γνώση (prior knowledge) ότι κατά πάσα πιθανότητα αντιστοιχούν στο ίδιο αντικείμενο στην εικόνα ακόμα και αν οι αναπαραστάσεις τους είναι διαφορετικές υπό όρους απόστασης διανυσμάτων (δηλ. αν η σύγκριση των δύο patches γίνει θεωρώντας τα διανύσματα και άρα υπολογίζοντας την διανυσματική απόστασή τους). Επομένως, η προηγούμενη γνώση (prior knowledge) που επιθυμείται να εισαχθεί στο σύστημα είναι ότι αν ένα patch μίας εικόνας μετατοπιστεί κατά λίγα pixels εξακολουθεί να αντιστοιχεί στο ίδιο αντικείμενο στην εικόνα. Για τον σχηματισμό των ζευγαριών από τα δείγματα εκμάθησης χρησιμοποιείται η χωρική απόσταση των δειγμάτων (υπό όρους pixels), η οποία υπολογίζεται με βάση τις συντεταγμένες των κέντρων των Fields of View των pooled διανυσμάτων (που έχουν προκύψει από το προηγούμενο στάδιο της τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) και ουσιαστικά είναι τα κέντρα των patches από τα οποία προέρχονται τα κεντρικά αραιά διανύσματα κάθε ομάδας). Η χωρική απόσταση μεταξύ δύο δειγμάτων εκμάθησης χρησιμοποιείται τόσο για τον έλεγχο αν αυτά τα δύο δείγματα θα σχηματίσουν ένα ζευγάρι όσο και για τον προσδιορισμό της ετικέτας του ζευγαριού αν αυτό δημιουργηθεί. Κατά τον σχηματισμό ανόμοιων ζευγαριών εφαρμόζεται ένας επιπλέον περιορισμός (κριτήριο), που οφείλεται στη διαφορετική φύση των εικόνων υπογραφών σε σχέση με τις φυσικές εικόνες. Οι εικόνες υπογραφών έχουν την ιδιαιτερότητα ότι patches από μία υπογραφή ενδέχεται να περιέχουν παρόμοια μοτίβα ακόμα και αν έχουν εξαχθεί από τελείως διαφορετικές περιοχές της εικόνας, δηλ. patches με μεγάλη χωρική απόσταση μεταξύ τους μπορεί να αποτυπώνουν παρόμοιο περιεχόμενο. Έτσι, για να μην λογιστούν δύο pooled διανύσματα με μεγάλη χωρική απόσταση μεταξύ τους σαν ανόμοια κατά την δημιουργία του ζευγαριού ενώ τα αντίστοιχα Fields of View -των pooled διανυσμάτων- αποτυπώνουν παρόμοια μοτίβα της 175

196 υπογραφής, ελέγχεται η διανυσματική απόσταση μεταξύ των δύο Fields of View. Συνεπώς, ο επιπλέον περιορισμός έγκειται στο ότι η διανυσματική απόσταση μεταξύ των Fields of View των δύο pooled διανυσμάτων που πρόκειται να σχηματίζουν ένα ανόμοιο ζευγάρι πρέπει να είναι μεγαλύτερη από μία τιμή (ορισμένη από τον χρήστη). Με αυτό τον τρόπο δύο χωρικά μακρινά pooled διανύσματα σχηματίζουν πράγματι ανόμοιο ζευγάρι. Όλα αυτά συμπυκνώνεται στην παρακάτω σχέση :, όπου η ετικέτα του ζευγαριού των δύο (pooled) διανυσμάτων με για όμοια διανύσματα ή για ανόμοια διανύσματα, η χωρική απόσταση σε μονάδες pixels των διανυσμάτων μεταξύ τους, δηλ. η απόσταση των χωρικών τους θέσεων στην εικόνα, η μέγιστη χωρική απόσταση δύο διανυσμάτων μεταξύ τους ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι, το όριο (χωρική απόσταση) αν τα δύο διανύσματα του ζευγαριού θα θεωρούνται όμοια ή όχι, η απόσταση μεταξύ των Fields of View των δύο διανυσμάτων που πρόκειται να σχηματίσουν ένα ανόμοιο ζευγάρι (δηλ. η στοιχείο προς στοιχείο αφαίρεση των τιμών των pixels των Fields of View) με (ευκλείδεια απόσταση) και η ελάχιστη τιμή που επιτρέπεται να έχει η ευκλείδεια απόσταση ώστε να σχηματίζεται ένα ανόμοιο ζευγάρι. Άρα, η προηγούμενη γνώση (prior knowledge), που προσδιορίζει την σχέση γειτνίασης μεταξύ των δειγμάτων εκμάθησης, αντιστοιχεί στη χωρική απόσταση μεταξύ των δειγμάτων εκμάθησης. Δηλ. μέσω της χωρικής απόστασης και του περιορισμού για τα ανόμοια δείγματα καθορίζεται ποιά δείγματα θα σχηματίσουν ένα ζευγάρι και τί ετικέτα θα φέρει το ζευγάρι που θα δημιουργηθεί. Στην παρούσα εφαρμογή ορίζεται ο σχηματισμός των ζευγαριών εκμάθησης να γίνεται έτσι ώστε το κάθε ζευγάρι να αποτελείται από διανύσματα που τα patches από τα οποία προέκυψαν είναι επικαλυπτόμενα στον χώρο των pixels της εικόνας. Δηλ. δημιουργούνται ζευγάρια έτσι ώστε να υπάρχει πάντα αλληλοεπικάλυψη στα Fields of View των δύο διανυσμάτων που αποτελούν το ζευγάρι. Το Field of View του κάθε αραιού διανύσματος είναι το patch από το οποίο έχει προέλθει και έχει μέγεθος 5 x 5 pixels ενώ η ελάχιστη χωρική απόσταση μεταξύ διαδοχικών patches είναι 1 pixel. Κατά τη διαδικασία της τοπικής χωρικής συγκέντρωσης, η χωρική απόσταση που εκτείνεται η κάθε ομάδα γύρω από το κέντρο της επιλέγεται να είναι μικρότερη από 5 pixels έτσι ώστε το κεντρικό αραιό διάνυσμα της ομάδας να έχει επικαλυπτόμενο Field of View με όλα τα άλλα αραιά διανύσματα της ομάδας, οπότε το μέγιστο Field of View του κάθε pooled διανύσματος είναι 13 x 13 pixels. Επίσης, το βήμα υποδειγματοληψίας της τοπικής χωρικής συγκέντρωσης καθορίζει πόσα αραιά διανύσματα, έτσι όπως είναι 176

197 τοποθετημένα στον πίνακα των αραιών διανυσμάτων της κάθε εικόνας, θα παραλείπονται μέχρι την επιλογή του επόμενου κεντρικού αραιού διανύσματος ή με άλλα λόγια, αν τα patches της εικόνας, και κατά συνέπεια τα αραιά διανύσματα, ήταν σε ένα πυκνό και ομοιόμορφο πλέγμα σημείων (dense grid) τότε η τιμή του βήματος θα ήταν η χωρική απόσταση διαδοχικών pooled διανυσμάτων. Άρα, αφού τα κέντρα των patches (από τα οποία έχουν προέλθει τα αραιά διανύσματα) ανήκουν στο ίχνος της υπογραφής και δεν καταλαμβάνουν ένα ομοιόμορφο πλέγμα σημείων στην εικόνα, τότε το βήμα υποδειγματοληψίας είναι η ελάχιστη χωρική απόσταση (υπό όρους pixels) που μπορεί να υπάρξει μεταξύ διαδοχικών pooled διανυσμάτων. Το βήμα υποδειγματοληψίας ορίζεται στην τιμή 5 και άρα η ελάχιστη χωρική απόσταση διαδοχικών pooled διανυσμάτων είναι 5 pixels. Τελικά, το Field of View του κάθε pooled διανύσματος λαμβάνει μία μέγιστη τιμή διότι δεν καταλαμβάνονται όλες οι θέσεις μίας ομάδας από αραιά διανύσματα (π.χ. μία ομάδα μπορεί να αποτελείται μόνο από το κεντρικό της διάνυσμα) και η χωρική απόσταση διαδοχικών pooled διανυσμάτων λαμβάνει μία ελάχιστη τιμή διότι τα κέντρα των patches (μερικά από τα οποία αποτελούν κέντρα των Fields of View των pooled διανυσμάτων) δεν καταλαμβάνουν ένα ομοιόμορφο πλέγμα σημείων στην εικόνα. Για τον σχηματισμό των ζευγαριών από τα pooled διανύσματα, η παράμετρος ορίζει μία γειτονιά, που συγκροτείται από ένα σύνολο διανυσμάτων, γύρω από κάθε ένα διάνυσμα της εικόνας έτσι ώστε το διάνυσμα αυτό να έχει πάντα επικάλυψη στον χώρο των pixels της εικόνας με το κάθε διάνυσμα της γειτονιάς του ή αλλιώς, γύρω από κάθε διάνυσμα σχηματίζεται η γειτονιά του, που αποτελείται από τα διανύσματα που έχουν επικάλυψη με αυτό το διάνυσμα. Έτσι, εφόσον το μέγιστο Field of View του κάθε pooled διανύσματος είναι 13 x 13 pixels, η παράμετρος λαμβάνει την τιμή 13 αφού ορίζει τη μέγιστη χωρική απόσταση μεταξύ δύο διανυσμάτων ώστε μόνο αν έχουν μικρότερη χωρική απόσταση να σχηματίζουν ζευγάρι, διότι μόνο σε αυτή την περίπτωση τα εν δυνάμει Fields of View των δύο διανυσμάτων είναι επικαλυπτόμενα. Η ετικέτα του κάθε ζευγαριού λαμβάνει την τιμή όταν τα εν δυνάμει Fields of View των δύο διανυσμάτων του ζευγαριού έχουν μεγάλο ποσοστό επικάλυψης (mostly overlapped) και την τιμή όταν τα εν δυνάμει Fields of View των δύο διανυσμάτων του ζευγαριού έχουν μικρή επικάλυψη (partially overlapped). Η παράμετρος που προσδιορίζει αν τα δύο διανύσματα του ζευγαριού θα θεωρούνται όμοια ή ανόμοια είναι η χωρική απόσταση. Η παράμετρος επιλέγεται να λάβει την τιμή του βήματος υποδειγματοληψίας (που είναι η ελάχιστη χωρική απόσταση που μπορεί να υπάρξει μεταξύ διαδοχικών pooled διανυσμάτων) αυξημένη κατά μία μονάδα έτσι ώστε να είναι πιο ελαστική η διαδικασία σχηματισμού όμοιων ζευγαριών. Έτσι, η παράμετρος λαμβάνει την τιμή 6 (5+1), που σημαίνει ότι δημιουργούνται όμοια ζευγάρια μόνο με τα διανύσματα της γειτονιάς που έχουν χωρική απόσταση μικρότερη ή ίση με 6 pixels. 177

198 Τελικά, η επιλογή της τιμής της παραμέτρου να ισούται με το μέγεθος του μεγίστου Field of View του κάθε pooled διανύσματος και η επιλογή της τιμής της παραμέτρου να ισούται με την τιμή του βήματος υποδειγματοληψίας αυξημένη κατά μία μονάδα, έχει σαν αποτέλεσμα η εκμάθηση της συνάρτησης μετασχηματισμού να επικεντρώνεται στα πιο δύσκολα ζευγάρια. Τελικά, η επιλογή των τιμών των παραμέτρων και στο πρόβλημα των υπογραφών οδηγεί σε πιο αυστηρό ορισμό της γειτονιάς (που καθορίζεται από το ) και πιο ελαστικό ορισμό των όμοιων ζευγαριών (που καθορίζεται από το ) σε σχέση με το πρόβλημα των φυσικών εικόνων και αυτό συμβαίνει λόγω της διαφορετικής φύσης των εικόνων στα δύο προβλήματα. Η παράμετρος είναι η ελάχιστη τιμή που επιτρέπεται να έχει η ευκλείδεια απόσταση μεταξύ των Fields of View των δύο διανυσμάτων που πρόκειται να σχηματίσουν ένα ανόμοιο ζευγάρι. Έτσι, μετρώντας τις αποστάσεις μεταξύ διαφόρων Fields of View -για την εύρεση του εύρους τιμών που λαμβάνουν οι ευκλείδειες αποστάσεις- και στη συνέχεια μέσω δοκιμών με γραμμική σάρωση τιμών (grid search) επιλέγεται η παράμετρος να λάβει την τιμή 1.2. II) Υπολογισμός του πίνακα μετασχηματισμού Το πρόβλημα βελτιστοποίησης για τον υπολογισμό του πίνακα μετασχηματισμού για κάθε συντάκτη ορίζεται με την βοήθεια της συνάρτησης contrastive loss και περιγράφεται από την σχέση : όπου, είναι το σύνολο των pooled διανυσμάτων και είναι το σύνολο των δεικτών όλων των ζευγαριών με ετικέτα 0 ή 1 που έχουν προκύψει από όλες τις γνήσιες υπογραφές εκμάθησης του συντάκτη. Το πρόβλημα ελαχιστοποίησης επιλύεται με τη βοήθεια μίας στοχαστικής προσέγγισης της μεθόδου βελτιστοποίησης Gradient Descent, η οποία χρησιμοποιεί διαδοχικά μικρά διαχειρίσιμα σύνολα δειγμάτων (minibatches) σε κάθε επανάληψη και ονομάζεται minibatch Gradient Descent ή Stochastic Gradient Descent with minibatch. Η μέθοδος Stochastic Gradient Descent with minibatch προσπαθεί να βρει ένα ελάχιστο της συνάρτησης contrastive loss μέσω μίας επαναληπτικής διαδικασίας ώστε να υπολογίσει τον πίνακα μετασχηματισμού. Το πρώτο βήμα για τον υπολογισμό του πίνακα μετασχηματισμού είναι η τυχαία αρχικοποίηση του, δηλ. σαν μία 178

199 γκαουσιανή κατανομή με μέση τιμή μηδέν και διασπορά ίση με την μονάδα, και ο νορμαλισμός των στηλών του με την ²-νόρμα. Στην συνέχεια ο πίνακας μετασχηματισμού ενημερώνεται επαναληπτικά χρησιμοποιώντας τα ζευγάρια των διανυσμάτων μαζί με τις ετικέτες που τα χαρακτηρίζουν. Η διαδικασία ολοκληρώνεται μετά από ένα πλήθος epochs ώστε ο αλγόριθμος βελτιστοποίησης να έχει συγκλίνει σε ένα ελάχιστο της συνάρτησης απωλειών. Έτσι, σε κάθε επανάληψη της μεθόδου Stochastic Gradient Descent with minibatch επιλέγεται τυχαία ένα υποσύνολο ζευγαριών από όλα τα διαθέσιμα ζευγάρια (που έχουν προκύψει από τις 5 γνήσιες υπογραφές του συντάκτη), δηλ. και ενημερώνεται ο πίνακας μετασχηματισμού σύμφωνα με τη σχέση : όπου είναι το πλήθος των ζευγαριών του minibatch, είναι το βήμα ή ρυθμός εκμάθησης της μεθόδου SGD-minibatch και η κλίση για ένα ζευγάρι, υπολογίζεται από την σχέση : όπου με (ευκλείδεια απόσταση) και είναι η παράμετρος της συνάρτησης contrastive loss που αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους. Συνεπώς, σε κάθε επανάληψη η κλίση υπολογίζεται φορές -για τα ζευγάρια του minibatch- ώστε να αθροιστούν οι τιμές που έχουν προκύψει και να εφαρμοστεί η σχέση ενημέρωσης της μεθόδου Stochastic Gradient Descent with minibatch. Πριν όμως τον υπολογισμό της κλίσης, τα διανύσματα του κάθε ζευγαριού διαιρούνται με την ²-νόρμα τους για να αποκτήσουν μοναδιαίο μέτρο και έτσι να υπάρχει καλύτερη εποπτεία στις τιμές των διανυσματικών αποστάσεων που υπολογίζονται για να προκύψει η τιμή της κλίσης για κάθε ζευγάρι, δηλ. για την διανυσματική απόσταση στον υψηλής διάστασης χώρο και για την διανυσματική απόσταση στον χαμηλής διάστασης χώρο. Τέλος, μετά από κάθε ενημέρωση του πίνακα μετασχηματισμού, η κάθε στήλη του πίνακα διαιρείται με την ²-νόρμα της για να τηρείται ο περιορισμός. Στις στοχαστικές διαδικασίες είναι πολύ σημαντική η σειρά που εμφανίζονται τα δεδομένα, δηλ. ο τρόπος που σχηματίζονται τα minibatches, διότι ο πίνακας αρχικοποιείται και στη συνέχεια ενημερώνεται χρησιμοποιώντας ένα 179

200 minibatch από ζευγάρια κάθε φορά. Έτσι, τα ζευγάρια που έχουν σχηματιστεί από όλες τις γνήσιες υπογραφές εκμάθησης του συντάκτη ανακατεύονται μαζί πριν από κάθε epoch ώστε να αποφευχθεί να εμφανίζονται τα ζευγάρια διανυσμάτων με κάποια σειρά στα minibatches που σχηματίζονται. Για να είναι αποδοτική η κάθε ενημέρωση, δηλ. ο πίνακας μετασχηματισμού να μπορεί να επιτύχει τη έλξη των όμοιων διανυσμάτων και την απομάκρυνση των ανόμοιων διανυσμάτων στον χώρο χαμηλής διάστασης, επιλέγεται το κάθε minibatch να συγκροτείται με ίσο πλήθος όμοιων και ανόμοιων ζευγαριών, τα οποία βέβαια συλλέγονται τυχαία από το σύνολο ζευγαριών του συντάκτη. Με αυτό τον τρόπο, σε κάθε επανάληψη ενημερώνεται με ισότιμο τρόπο o πίνακας μετασχηματισμού για τις δύο λειτουργίες που μαθαίνει να εκτελεί. Επίσης, για να είναι αποτελεσματικότερη και πιο γρήγορη η διαδικασία υπολογισμού των 55 πινάκων μετασχηματισμού (για τους 55 συντάκτες της βάσης CEDAR), το πλήθος των epochs που θα εκτελεστούν για κάθε συντάκτη καθορίζεται από το πλήθος των minibatches που δημιουργούνται από τα ζευγάρια του κάθε συντάκτη έτσι ώστε ο αριθμός των επαναλήψεων της μεθόδου Stochastic Gradient Descent with minibatch να είναι ίδιος για όλους τους συντάκτες. Οι παράμετροι που διέπουν τη διαδικασία υπολογισμού του πίνακα μετασχηματισμού για κάθε συντάκτη είναι οι παράμετροι που ρυθμίζουν την μέθοδο βελτιστοποίησης Stochastic Gradient Descent with minibatch και οι παράμετροι που σχετίζονται με τον ορισμό της συνάρτησης contrastive loss. Έτσι, στη μέθοδος Stochastic Gradient Descent με minibatch επιλέγεται το βήμα (ή ρυθμός εκμάθησης) που καθορίζει τη συμμετοχή της παραγώγου στην ενημέρωση της τιμής της μεταβλητής, και το μέγεθος του minibatch, δηλ. το πλήθος των ζευγαριών που χρησιμοποιούνται σε κάθε επανάληψη για τον υπολογισμό της κλίσης και άρα την ενημέρωση του πίνακα. Η παράμετρος που σχετίζεται με τον ορισμό της συνάρτησης contrastive loss είναι το μέγεθος, το οποίο αποτελεί το όριο (margin) που τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους. Η παράμετρος προσδιορίζει μία σφαίρα ακτίνας στον χώρο χαμηλής διάστασης, όπου τα ανόμοια δείγματα συνεισφέρουν στην συνάρτηση κόστους μόνο αν η ευκλείδεια απόστασή τους στον προκύπτον χαμηλής διάστασης χώρο βρίσκεται μέσα στην σφαίρα, διότι αυτά τα ανόμοια δείγματα πρέπει να μάθει η συνάρτηση μετασχηματισμού να απομακρύνει στον χαμηλής διάστασης χώρο (αφού όσα ανόμοια δείγματα έχουν ευκλείδεια απόσταση μεταξύ τους μεγαλύτερη από στον χαμηλής διάστασης χώρο η συνάρτηση μετασχηματισμού έχει ήδη μάθει να τα απομακρύνει μεταξύ τους). Οι τιμές των παραμέτρων που ρυθμίζουν την μέθοδο Stochastic Gradient Descent επιλέχθηκαν μέσω δοκιμών χρησιμοποιώντας τα ζευγάρια εκμάθησης και ελέγχοντας κατά την εκτέλεση της μεθόδου Stochastic Gradient Descent with minibatch πως μεταβάλλεται η συνάρτηση απωλειών (contrastive loss). Οπότε, ο ρυθμός εκμάθησης επιλέχθηκε να έχει σταθερή τιμή 0.01 και το μέγεθος του minibatch ορίστηκε στα 128 ζευγάρια, όπου τα 64 είναι ζευγάρια με όμοια δείγματα (δηλ. ) και τα άλλα 64 είναι 180

201 ζευγάρια με ανόμοια δείγματα (δηλ. ), διότι με αυτές τις τιμές η μέθοδος Stochastic Gradient Descent ενημερώνει τον πίνακας με τρόπο που να οδηγεί σε ελάττωση των τιμών της contrastive loss, δηλ. ο αλγόριθμος κινείται προς την κατεύθυνση ενός ελαχίστου της συνάρτησης contrastive loss και άρα οδηγείται σε σύγκλιση. Η εφαρμογή του νορμαλισμού με την ²-νόρμα στα διανύσματα του υψηλής διάστασης χώρου πριν το υπολογισμό της κλίσης για κάθε ζευγάρι του minibatch έχει σαν αποτέλεσμα οι τιμές που το επηρεάζει την διαδικασία ελάττωσης διάστασης (αφού για πολύ μικρές τιμές του μηδενίζεται η επιμέρους συνάρτηση απωλειών που αφορά τα ανόμοια δείγματα και για πολύ μεγάλες τιμές του δεν μεταβάλλεται η διαδικασία εκμάθηση του πίνακα μετασχηματισμού) να κυμαίνονται σε μικρό εύρος τιμών και άρα να είναι υπολογιστικά εφικτό με δοκιμές να βρεθεί η τιμή που οδηγεί σε πιο αποδοτική ελάττωση διάστασης. Τελικά, ύστερα από δοκιμές (grid search) το όριο έλαβε την τιμή 5. Σε κάθε επανάληψη της μεθόδου Stochastic Gradient Descent with minibatch ενημερώνεται ο πίνακας χρησιμοποιώντας ένα minibatch από 128 ζευγάρια. Μία ακόμα παράμετρος, που δεν επηρεάζει την διαδικασία ενημέρωσης του πίνακα μετασχηματισμού αλλά καθορίζει την απεικόνιση της συνάρτησης contrastive loss, είναι μετά από πόσες επαναλήψεις (minibatches) θα σημειώνεται ένα σημείο στο διάγραμμα της συνάρτησης contrastive loss. Αυτό που επιλέχθηκε είναι ανά 40 minibatches (δηλ. ανά =5120 ζευγάρια και άρα 5120 τιμές της συνάρτησης contrastive loss, αφού για κάθε ζευγάρι υπολογίζεται μία τιμή της συνάρτησης contrastive loss) να υπολογίζεται ο μέσος όρος των τιμών της συνάρτησης contrastive loss και να σημειώνεται αυτό σαν ένα σημείο στο διάγραμμα της contrastive loss. Άρα, ανά 40 ενημερώσεις του πίνακα σημειώνεται ένα σημείο της συνάρτησης contrastive loss στο διάγραμμα (το οποίο είναι ο μέσος όρος των τιμών της συνάρτησης contrastive loss ύστερα από 40 επαναλήψεις, δηλ τιμές της συνάρτησης) και έτσι το διάγραμμα συμπληρώνεται ταυτόχρονα με την εκτέλεση της Stochastic Gradient Descent. Με αυτό τον τρόπο, ελέγχεται αν η μέθοδος Stochastic Gradient Descent οδηγείται σε σύγκλιση, δηλ. αν κινείται προς την κατεύθυνση ενός ελαχίστου της συνάρτησης contrastive loss, ή με άλλα λόγια αν η διαδικασία εκμάθησης του πίνακα μέσω της ενημέρωσης του από τη μέθοδος Stochastic Gradient Descent οδηγεί σε ελάττωση των τιμών της συνάρτησης contrastive loss. Η διαδικασία ελάττωσης διάστασης μετασχηματίζει τα διανύσματα του υψηλής διάστασης χώρου (k-διάστασης) σε διανύσματα του χαμηλότερης διάστασης χώρου (ɳ-διάστασης), δηλ. ɳ k. Τα διανύσματα του υψηλής διάστασης χώρου έχουν προκύψει από την διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) σε ομάδες γειτονικών αραιών διανυσμάτων και άρα είναι 60 διαστάσεων (αφού το λεξικό αραιής αναπαράστασης του πρώτου επιπέδου αποτελείται από 60 άτομα). Τα διανύσματα του χαμηλής διάστασης χώρου επιλέγεται να έχουν διάσταση όση και τα διανύσματα που 181

202 εφαρμόστηκε η αραιή αναπαράσταση, δηλ. ίδια διάσταση με τα patches. Άρα, τα διανύσματα στον προκύπτον χαμηλής διάστασης χώρο είναι 25 διαστάσεων. Με αυτό τον τρόπο, υπάρχει μια συμμετρία κατά την εκτέλεση της μορφής ακορντεόν της τοπολογία Deep Sparse Coding, όπου εναλλάσσονται μία διαδικασία αύξησης της διαστατικότητας των διανυσμάτων που δημιουργεί διανύσματα 60 διαστάσεων (αραιή αναπαράσταση) με μία διαδικασία ελάττωσης της διαστατικότητας των διανυσμάτων που οδηγεί σε διανύσματα 25 διαστάσεων (ελάττωση διάστασης στη μονάδα σύνδεσης), αν και αυτή η συμμετρία δεν είναι απαραίτητη. Τελικά, ισχύει k=60 και ɳ=25 ώστε ο πίνακας να μετασχηματίζει τα διανύσματα 60 διαστάσεων σε διανύσματα 25 διαστάσεων. Ο γεωμετρικός χώρος που ορίζεται η συνάρτηση απωλειών (contrastive loss) είναι ο χώρος (ɳ k) διαστάσεων. Επομένως, στον χώρο των (ɳ k) = (25 60) = 1500 διαστάσεων εκτελείται η μέθοδος Stochastic Gradient Descent with minibatch για την εύρεση του ελαχίστου της συνάρτησης contrastive loss ώστε να προκύψει o πίνακας μετασχηματισμού. Εικόνα 4.20 : Η τιμή της συνάρτησης contrastive loss ελαττώνεται καθώς ο πίνακας ενημερώνεται από την μέθοδο βελτιστοποίησης Stochastic Gradient Descent with minibatch μέσω της σχέσης, όπου για έναν συντάκτη της CEDAR. (δηλ. Το μέγεθος του minibatch ορίστηκε στα 128 ζευγάρια, όπου τα 64 είναι ζευγάρια με όμοια δείγματα ) και τα άλλα 64 είναι ζευγάρια με ανόμοια δείγματα (δηλ. ), και έχουν προέλθει τυχαία από το σύνολο ζευγαριών του κάθε συντάκτη (δηλ. από τις 5 γνήσιες υπογραφές του συντάκτη). Κάθε σημείο στο διάγραμμα είναι ο μέσος όρος των τιμών της συνάρτησης contrastive loss ύστερα από 40 επαναλήψεις (40 ενημερώσεις του πίνακα ) της μεθόδου Stochastic Gradient Descent with minibatch, δηλ. ύστερα από 40 minibatches, οπότε =5120 ζευγάρια, και συνεπώς από 5120 τιμές της συνάρτησης contrastive loss (αφού για κάθε ζευγάρι υπολογίζεται μία τιμή της συνάρτησης contrastive loss). Άρα, κάθε σημείο στο διάγραμμα αντιστοιχεί σε 40 επαναλήψεις, δηλ. είναι ο μέσος όρος από 5120 τιμές της συνάρτησης contrastive loss. Το διάγραμμα της συνάρτησης contrastive loss παράγεται ταυτόχρονα με την εκτέλεση της μεθόδου Stochastic Gradient Descent with minibatch έτσι ώστε να ελέγχεται αν η μέθοδος συγκλίνει και αν όχι να αλλάξουν οι παράμετροι που την ρυθμίζουν ή να τροφοδοτηθεί με δεδομένα (νέα epochs). 182

203 III) Πραγματοποίηση της διαδικασίας ελάττωσης διάστασης Ο πίνακας μετασχηματισμού υπολογίζεται με τη βοήθεια της μεθόδου Stochastic Gradient Descent with minibatch ελαχιστοποιώντας την συνάρτηση contrastive loss. Τα ζευγάρια και οι ετικέτες που χρειάζονται για τον σχηματισμό της συνάρτησης contrastive loss προσδιορίζονται με βάση τις χωρικές αποστάσεις (σε μονάδες pixels) των διανυσμάτων, δηλ. τις αποστάσεις των χωρικών θέσεων (κέντρο Field of View) των διανυσμάτων στην εικόνα. Κατά συνέπεια, ο πίνακας μετασχηματισμού έχει σχεδιαστεί έτσι ώστε να λαμβάνει υπόψη τις χωρικές σχέσεις μεταξύ των γειτονικών patches της εικόνας και με αυτόν τον τρόπο να διατηρείται η χωρική πληροφορία ομαλότητας των patches κατά τη διαδικασία ελάττωσης διάστασης. Για κάθε συντάκτη, η πραγματοποίηση της ελάττωσης διάστασης των δεδομένων υλοποιείται εφαρμόζοντας τη συνάρτηση μετασχηματισμού σε κάθε διάνυσμα του υψηλής διάστασης χώρου. Εφόσον η συνάρτηση μετασχηματισμού αντιστοιχεί στον πίνακα μετασχηματισμού, τότε ο πίνακας πολλαπλασιάζεται με κάθε διάνυσμα του υψηλής διάστασης χώρου ώστε να το μετασχηματίσει σε ένα διάνυσμα του χαμηλότερης διάστασης χώρου, δηλ. για κάθε διάνυσμα του υψηλής διάστασης χώρου υπολογίζεται το αντίστοιχο διάνυσμα του χαμηλής διάστασης χώρου. Επομένως, ο πίνακας του κάθε συντάκτη χρησιμοποιείται για την ελάττωση διάστασης των διανυσμάτων, που έχουν προκύψει από την διαδικασία τοπικής χωρικής συγκέντρωσης (Local Spatial Pooling) στις υπογραφές των συνόλων εκμάθησης και δοκιμής του κάθε συντάκτη, ώστε να προκύψουν τα χαμηλής διάστασης διανύσματα των υπογραφών που σχετίζονται με τον κάθε συντάκτη. Αραιή αναπαράσταση (Sparse Representation) [2ο επίπεδο] Στη διαδικασία ελάττωσης διάστασης -του προηγούμενου σταδίουεπιλέχθηκε τα διανύσματα που προκύπτουν έχουν ίδια διάσταση με τα patches, δηλ. να είναι 25 διαστάσεων. Τα διανύσματα αυτά αποτελούν είσοδο στο στάδιο της αραιής αναπαράστασης του 2ου επιπέδου (2nd layer) της τοπολογίας. Η διαδικασία που ακολουθείται είναι ακριβώς ίδια με αυτή στο στάδιο της αραιής αναπαράστασης του 1ου επιπέδου (1st layer) με τις ίδιες επιλογές παραμέτρων. Η μόνη διαφορά είναι ότι αυτό το στάδιο διαχειρίζεται μικρότερο πλήθος διανυσμάτων αφού, λόγω της επιλογής στο βήμα υποδειγματοληψίας στη διαδικασία τοπικής χωρικής συγκέντρωσης της μονάδας σύνδεσης, έχει μειωθεί το πλήθος των διανυσμάτων που συνεχίζουν να διαδίδονται στην τοπολογία. Άρα, από ένα σύνολο διανυσμάτων εισόδου υπολογίζεται μέσω μιας διαδικασίας εκμάθησης το λεξικό αραιής αναπαράστασης και στην συνέχεια όλα τα διανύσματα εισόδου κωδικοποιούνται με βάση το λεξικό για να 183

204 προκύψει η αραιή αναπαράστασή τους. Το πρόβλημα βελτιστοποίησης της αραιής αναπαράστασης περιγράφεται από την σχέση : με τον περιορισμό Το πρόβλημα της αραιής κωδικοποίησης έχει σαν κριτήριο αραιότητας την -νόρμα και επιλύεται μέσω της εργαλειοθήκης K-SVD box ενώ η αραιή κωδικοποίηση πραγματοποιείται από την μέθοδο OMP (Orthogonal Matching Pursuit) μέσω της εργαλειοθήκης OMP box. Από την εφαρμογή της τοπολογίας Deep Sparse Coding στις φυσικές εικόνες έχει προκύψει το συμπέρασμα ότι η διατήρηση των τιμών των παραμέτρων που ρυθμίζουν την αραιή αναπαράσταση οδηγεί στην καλύτερη απόδοση. Αυτό το συμπέρασμα επαληθεύεται από την εφαρμογή της τοπολογίας Deep Sparse Coding στο πρόβλημα των υπογραφών, αφού μετά από δοκιμές με διάφορες τιμές παραμέτρων η καλύτερη απόδοση του συστήματος επιτεύχθηκε όταν οι τιμές των παραμέτρων που ελέγχουν την εκμάθηση του λεξικού και την αραιότητα είναι ίδιες με την αραιή αναπαράσταση στο 1ο επίπεδο, δηλ. όταν το λεξικό αποτελείται από 60 άτομα ( ) και το πλήθος των μη μηδενικών συντελεστών σε κάθε αραιή αναπαράσταση (που υπολογίζει ο OMP) είναι 3 ( ). Χωρική πυραμιδική συγκέντρωση (μέσω της τεχνικής Spatial Pyramid Matching) Σε κάθε επίπεδο (layer) αραιής αναπαράστασης, εκτός από την διάδοση των αραιών αναπαραστάσεων στην επόμενη μονάδα σύνδεσης για την συνέχιση της διαδικασίας της βαθιάς μάθησης, εκτελείται και μία χωρική πυραμιδική συγκέντρωση (Spatial Pyramid Pooling) στις αραιές αναπαραστάσεις της κάθε εικόνας υπογραφής ώστε να εξάγεται ένα χαρακτηριστικό διάνυσμα από κάθε επίπεδο για κάθε εικόνα. Τελικά, όλα τα χαρακτηριστικά διανύσματα της κάθε εικόνας υπογραφής από όλα τα επίπεδα (ή μέχρι κάποιο επιθυμητό επίπεδο) ενώνονται σειριακά μαζί σε ένα διάνυσμα ώστε αυτό να χρησιμοποιηθεί στον ταξινομητή (SVM). Η τεχνική χωρικής πυραμιδικής συγκέντρωσης που χρησιμοποιείται κατά την εφαρμογή της αραιής αναπαράστασης στο πρόβλημα των υπογραφών [Zois 2017] αποτελεί μία παραλλαγή της χωρικής πυραμιδικής αντιστοίχισης (Spatial Pyramid Matching) [Lazebnik 2006] διότι χωρίζει την εικόνα σε περιοχές με βάση το ίχνος της υπογραφής έτσι ώστε όλες οι περιοχές σε κάθε φάση της τεχνικής να αποτελούνται από περίπου το ίδιο πλήθος pixels του ίχνους της υπογραφής (ενώ αντίθετα η κλασσική εκδοχή της χωρικής πυραμιδικής αντιστοίχισης εκμεταλλεύεται το πυκνό και ομοιόμορφο πλέγμα σημείων της εικόνας (dense grid) ώστε να χωρίζει σε 184

205 περιοχές με ίδιο πλήθος διανυσμάτων). Η τεχνική χωρικής πυραμιδικής συγκέντρωσης που χρησιμοποιείται στις εικόνες υπογραφών αποτελείται από δύο φάσεις (levels), όπου σε κάθε φάση η υπογραφή χωρίζεται σε περιοχές και στα διανύσματα της κάθε περιοχή εφαρμόζεται η διεργασία συγκέντρωσης, δηλ. από κάθε μία περιοχή (pooling region) προκύπτει ένα διάνυσμα έτσι ώστε να ενσωματωθεί η πληροφορία από μία περιοχή σε ένα μόνο διάνυσμα χαρακτηριστικών. Στην πρώτη φάση, η περιοχή της υπογραφής που εκτελείται η διεργασία συγκέντρωσης (pooling region) είναι ολόκληρη η εικόνα, δηλ. εκτελείται η διεργασία συγκέντρωσης σε όλα τα αραιά διανύσματα που έχουν υπολογιστεί για μία υπογραφή. Στη δεύτερη φάση, η υπογραφή χωρίζεται σε τέταρτα (4 τεταρτημόρια) και σε κάθε μία από τις 4 περιοχές εφαρμόζεται η διεργασία συγκέντρωσης. Οι 4 περιοχές της υπογραφής στην δεύτερη φάση υπολογίζονται έτσι ώστε να χωρίζουν το ίχνος της υπογραφής (που έχει προκύψει από την προ-επεξεργασία της εικόνας υπογραφής) σε 4 ορθογώνιες περιοχές με ίσο πλήθος pixels σε κάθε μία, δηλ. 4 τεταρτημόρια που δεν είναι αναγκαστικά χωρικά ίσα μεταξύ τους. Άρα, στο 1 ο επίπεδο αραιής αναπαράστασης της τοπολογίας, που κάθε αραιό διάνυσμα προκύπτει από την κωδικοποίηση ενός patch και τα patches εξάγονται από την grayscale εικόνα υπογραφής σε κάθε θέση pixel του ίχνους της υπογραφής, ισχύει ότι το πλήθος των pixels του ίχνους της υπογραφής σε κάθε περιοχή ισούται με το πλήθος των αραιών διανυσμάτων σε κάθε περιοχή. Στο 2 ο επίπεδο αραιής αναπαράστασης της τοπολογίας, που έχει μεσολαβήσει η διαδικασία τοπικής χωρικής συγκέντρωσης, οι περιοχές στην εικόνα που χωρίζει η τεχνική της χωρικής πυραμιδικής αντιστοίχισης παραμένουν ίδιες και αναλόγως σε ποια περιοχή ανήκει το κέντρο του Field of View του κάθε αραιού διανύσματος του 2 ου επιπέδου αραιής αναπαράστασης, σε αυτή την περιοχή κατατάσσεται το αντίστοιχο αραιό διάνυσμα. Επομένως, στην δεύτερη φάση της τεχνικής, το ίχνος της υπογραφής (cropped thinned binary image) χωρίζεται σε 4 περιοχές (δηλ. 4 τεταρτημόρια που δεν είναι αναγκαστικά χωρικά ίσα μεταξύ τους) έτσι ώστε τα pixels του ίχνους της υπογραφής να ισοκατανέμονται στις 4 περιοχές. Με αυτό τον τρόπο, οι περιοχές της εικόνας υπογραφής ορίζονται στον χώρο των pixels της εικόνας και τα αραιά διανύσματα, που τα κέντρα των Fields of View τους ανήκουν σε κάθε περιοχή, σχηματίζουν την αντίστοιχη ομάδα κάθε περιοχής. Οπότε, οι περιοχές της εικόνας που εκτελείται η διεργασία συγκέντρωσης σχηματίζονται ιεραρχικά και είναι επικαλυπτόμενες από τη μία φάση της τεχνικής στην άλλη. Άρα, από τις δύο φάσεις της τεχνική προκύπτουν 5 επικαλυπτόμενες περιοχές για την εικόνα (1+4=5), δηλ. 5 αλληλοσυμπληρούμενες ομάδες διανυσμάτων (αφού το κάθε διάνυσμα συμμετέχει σε δύο ομάδες λόγω των 2 φάσεων της τεχνικής). Εφόσον έχουν δημιουργηθεί οι 5 ομάδες αραιών διανυσμάτων (που αντιστοιχούν στις 5 περιοχές στον χώρο των pixels της εικόνας από τις δύο φάσεις της παραλλαγής της χωρικής πυραμιδικής αντιστοίχισης), σε κάθε μία ομάδα 185

206 διανυσμάτων εκτελείται η διεργασία συγκέντρωσης που είναι η συνάρτηση υπολογισμού της μέσης τιμής των διανυσμάτων που συγκεντρώνονται μαζί (average pooling operation). Η επιλογή της συνάρτησης που θα εκτελεί τη συγκέντρωση (pooling) σε κάθε ομάδα αραιών διανυσμάτων έγινε λαμβάνοντας υπόψη τα συμπεράσματα της σύγκρισης μεταξύ των διαδικασιών συγκέντρωσης της εύρεσης της μέγιστης τιμής (max pooling) και του υπολογισμού της μέσης τιμής (average pooling) από την εργασία [Boureau 2010] καθώς και παρατηρώντας ότι η αποκάλυψη των ενδόμυχων υποκειμενικών ιδιαιτεροτήτων του κάθε συντάκτη εξυπηρετείται καλύτερα από τον υπολογισμό της μέσης τιμής (average pooling) των αραιών διανυσμάτων που συγκεντρώνονται μαζί σε κάθε ομάδα ειδικά αν χρησιμοποιείται ένας μη-γραμμικός ταξινομητής [Zois 2017]. Τελικά, τα 5 διανύσματα που προκύπτουν μετά τη διεργασία υπολογισμού της μέσης τιμής (average pooling) ενώνονται σειριακά μαζί και σχηματίζουν ένα διάνυσμα χαρακτηριστικών που αντιστοιχεί στην κάθε εικόνα υπογραφής για το συγκεκριμένο επίπεδο αραιής αναπαράστασης της τοπολογίας. Έτσι, με τη διαδικασία της χωρικής πυραμιδικής αντιστοίχισης (Spatial Pyramid Matching), εισάγεται η χωρική πληροφορία στο διάνυσμα χαρακτηριστικών, η οποία δεν υπάρχει εγγενώς στα διανύσματα κωδικοποίησης, και είναι σημαντική διότι αποκαλύπτει τοπικά χαρακτηριστικά σε μία περιοχή (γειτονιά) της εικόνας υπογραφής. Άρα, η σύγκριση εικόνων μέσω των αποστάσεων των χαρακτηριστικών διανυσμάτων τους περιέχει άμεσα και χωρική πληροφορία πλέον, αφού ο τρόπος υπολογισμού των γειτονιών είναι κοινός για όλες τις εικόνες και άρα, κάθε τμήμα του χαρακτηριστικού διανύσματος αντιστοιχεί σε διαφορετική περιοχή των εικόνων. Αφού εκτελεστεί και το 2 ο επίπεδο της τοπολογίας Deep Sparse Coding, τα χαρακτηριστικά διανύσματα της κάθε εικόνας από τα δύο επίπεδα αραιής αναπαράστασης ενώνονται μαζί το ένα μετά το άλλο ώστε να δημιουργήσουν το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνας, το οποίο ενσωματώνει πληροφορίες ιεραρχικής μάθησης αφού από το 2 ο επίπεδο προκύπτει ένα χαρακτηριστικό διάνυσμα που περιέχει πληροφορίες μίας ευρύτερης περιοχής της εικόνας και αποτελεί σύνθεση των χαρακτηριστικών του 1 ου επιπέδου. Φυσικά, επειδή η τοπολογία Deep Sparse Coding έχει την ιδιότητα της ανά επίπεδο εκπαίδευσης (layer-wise), μπορούν να χρησιμοποιηθούν στον ταξινομητή μόνο τα χαρακτηριστικά διανύσματα που έχουν σχηματιστεί στο 1 ο επίπεδο ή να χρησιμοποιηθούν μαζί τα χαρακτηριστικά διανύσματα που έχουν σχηματιστεί και στα δύο επίπεδα. Έτσι, το τελικό διάνυσμα που σχηματίζεται για κάθε εικόνα μετά την εκτέλεση της τοπολογίας Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης έχει διαστάσεις : {αριθμός περιοχών (ομάδων) που σχηματίζονται σε κάθε εικόνα από την SPM} x {μέγεθος λεξικού αραιής αναπαράστασης σε κάθε επίπεδο} x {πλήθος επιπέδων αραιής αναπαράστασης στην τοπολογία}, δηλ. διαστάσεις. Στα διανύσματα χαρακτηριστικών που δημιουργούνται μέσω της τεχνικής 186

207 SPM συνηθίζεται να πραγματοποιείται μία διαδικασία νορμαλισμού [Law 2014]. Όσον αφορά τον τύπο του νορμαλισμού που θα επιλεγεί υπάρχουν δύο κυρίαρχες προσεγγίσεις. Στη πρώτη προσέγγιση υπολογίζεται ο 2 -νορμαλισμός του διανύσματος έτσι ώστε να διευκολύνεται η εκτέλεση ενός γραμμικού ταξινομητή [Vevaldi 2011]. Στην δεύτερη προσέγγιση θεωρείται ότι ο 2 -νορμαλισμός υποβαθμίζει την απόδοση διότι καταστρέφει την πληροφορία του διανύσματος, όποτε σε αυτή την περίπτωση είτε επιλέγεται να μην εφαρμοστεί κανένας νορμαλισμός είτε επιλέγεται μία μέση λύση που είναι η εφαρμογή της 1.5 -νόρμας [Boureau 2011]. Στην παρούσα εργασία δοκιμάστηκαν διάφορες εκδοχές νορμαλισμού (επιλογή νόρμας, νορμαλισμός σε κάθε φάση της SPM, νορμαλισμός σε ολόκληρο το διάνυσμα της SPM) και τελικά επιλέχθηκε με βάση την καλύτερη απόδοση να μην εφαρμοστεί κανένας νορμαλισμός [Zois 2017] στα διανύσματα που προέκυψαν από τον υπολογισμό της μέσης τιμής των αραιών διανυσμάτων των ομάδων της τεχνικής SPM σε κάθε επίπεδο της τοπολογίας. 1 η φάση: ολόκληρη η υπογραφή 2 η φάση: η υπογραφή χωρίζεται σε 4 περιοχές Εικόνα 4.21 : Χωρική Πυραμιδική Συγκέντρωση (Spatial Pyramid Pooling) με τη χρήση μίας παραλλαγής της τεχνική της Χωρικής Πυραμιδικής Αντιστοίχισης (Spatial Pyramid Matching) για εφαρμογή σε υπογραφές. Η παραλλαγή της τεχνικής Spatial Pyramid Matching (SPM) για τη χρήση σε εικόνες υπογραφών εφαρμόζεται στα αραιά διανύσματα της κάθε εικόνας υπογραφής σε κάθε μονάδα αραιής αναπαράστασης της τοπολογίας. Η τεχνική χωρικής πυραμιδικής συγκέντρωσης (pooling) αποτελείται από δύο φάσεις, όπου σε κάθε φάση η εικόνα υπογραφής χωρίζεται σε περιοχές και σε κάθε περιοχή εφαρμόζεται η διεργασία συγκέντρωσης, η οποία είναι ο υπολογισμός της μέσης τιμής (average pooling). Στην πρώτη φάση, η περιοχή της εικόνας που εκτελείται η διεργασία συγκέντρωσης είναι ολόκληρη η εικόνα, δηλ. εκτελείται η διεργασία συγκέντρωσης σε όλα τα αραιά διανύσματα που έχουν υπολογιστεί για μία υπογραφή. Στη δεύτερη φάση, η εικόνα χωρίζεται σε τέταρτα (4 τεταρτημόρια) και σε κάθε μία από τις 4 περιοχές εφαρμόζεται η διεργασία συγκέντρωσης. Οι 4 περιοχές της υπογραφής στην δεύτερη φάση υπολογίζονται έτσι ώστε να χωρίζουν το ίχνος της υπογραφής (που έχει προκύψει από την προ-επεξεργασία της εικόνας υπογραφής) σε 4 ορθογώνιες περιοχές με ίσο πλήθος pixels σε κάθε μία, δηλ. 4 τεταρτημόρια που δεν είναι αναγκαστικά χωρικά ίσα μεταξύ τους. Άρα, και από τις δύο φάσεις της SPM προκύπτουν 5 επικαλυπτόμενες περιοχές για την εικόνα (1+4=5), οι οποίες ορίζονται στον χώρο των pixels της εικόνας και τα αραιά διανύσματα που τα κέντρα των Fields of View τους ανήκουν σε κάθε περιοχή στον χώρο των pixels της εικόνας σχηματίζουν την αντίστοιχη ομάδα κάθε περιοχής. Τελικά, τα 5 διανύσματα που προκύπτουν ενώνονται σειριακά μαζί και σχηματίζουν ένα διάνυσμα χαρακτηριστικών, που αντιστοιχεί στην κάθε εικόνα για το συγκεκριμένο επίπεδο αραιής αναπαράστασης της τοπολογίας και έχει διαστάσεις (5)x(60)=300. Αφού εκτελεστεί το 2 ο επίπεδο της τοπολογίας, τα χαρακτηριστικά διανύσματα της κάθε εικόνας από τα δύο επίπεδα ενώνονται μαζί το ένα μετά το άλλο ώστε να δημιουργήσουν το τελικό χαρακτηριστικό διάνυσμα της κάθε εικόνας, το οποίο έχει μέγεθος (5)x(60)x(2)=600 διαστάσεις. Όσον αφορά τον νορμαλισμό των διανυσμάτων που σχηματίζονται, επιλέγεται να μην εφαρμόζεται κανένας νορμαλισμός διότι υποβαθμίζει την απόδοση. (Η εικόνα είναι από την παρουσίαση της εργασίας Parsimonious Coding and Verification of Offline Handwritten Signatures στο CVPR 2017 Biometrics Workshop) 187

208 Ταξινομητής SVM (Support Vector Machine) Ο ταξινομητής SVM είναι μία μέθοδος εποπτευόμενης μάθησης (supervised learning) συνδυασμένη με αλγορίθμους εκμάθησης (learning algorithms). Μια τυπική χρήση του SVM περιλαμβάνει δύο στάδια: πρώτα, την εκπαίδευση μέσω ενός συνόλου δεδομένων αναφοράς για να προκύψει ένα μοντέλο κατηγοριοποίησης αποτελούμενο από τα υποστηρικτικά σημεία (supporting points), και έπειτα, χρησιμοποιώντας το μοντέλο αυτό επιτυγχάνεται η πρόβλεψη ταξινόμησης ενός συνόλου δεδομένων δοκιμής. Έτσι, πιο αναλυτικά, δοθέντος ενός συνόλου δειγμάτων εκμάθησης, τα οποία ανήκουν σε δύο κατηγορίες, ο SVM κατασκευάζει ένα μοντέλο που αναθέτει τα νέα δείγματα στη μία ή στην άλλη κατηγορία, επιτελώντας τη λειτουργία ενός μη-πιθανολογικού δυαδικού ταξινομητή. Επομένως, το μοντέλο κατηγοριοποίησης είναι μία αναπαράσταση των υποστηρικτικών δειγμάτων ως σημεία στο χώρο, που χαρτογραφούνται έτσι ώστε τα δείγματα των επιμέρους κατηγοριών να χωρίζονται από ένα σαφές υπερεπίπεδο, το οποίο να είναι όσο το δυνατόν ευρύτερο και αντιπροσωπευτικότερο των δειγμάτων εκμάθησης. Συνεπώς, τα νέα δείγματα χαρτογραφούνται στον ίδιο χώρο και αναλόγως σε ποια πλευρά του υπερεπιπέδου τοποθετήθηκαν, προβλέπεται η κατηγορία που ανήκουν. Συμπερασματικά, η βασική διεργασία που επιτελεί ο SVM είναι η χάραξη του υπερεπιπέδου διαχωρισμού των υποστηρικτικών σημείων εκμάθησης. Η τοπολογία Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης για την ταυτοποίηση (verification) υπογραφών, δηλ. το διαχωρισμό των γνήσιων (genuine) από τις πλαστές (forgeries) υπογραφές για κάθε συντάκτη, έχει σχεδιαστεί με στόχο τη βέλτιστη απόδοση και την άμεση πρακτική εφαρμογή. Έτσι, η χρήση της τοπολογίας Deep Sparse Coding 2 επιπέδων αραιής αναπαράστασης για την εξαγωγή χαρακτηριστικών απαιτεί μόνο την εισαγωγή 5 γνήσιων υπογραφών ενός συντάκτη ώστε η τοπολογία να εκπαιδευτεί για να μπορεί να κωδικοποιήσει οποιαδήποτε άγνωστη υπογραφή. Για να πραγματοποιηθεί ο έλεγχος της απόδοσης του συστήματος ταυτοποίησης (verification) υπογραφών χρησιμοποιείται ένας ταξινομητής για κάθε συντάκτη, οποίος εκπαιδεύεται από το σύνολο εκμάθησης του κάθε συντάκτη, δηλ. από τις 5 γνήσιες υπογραφές του συντάκτη (positive class) και τις 10 random forgeries υπογραφές από 10 άλλους συντάκτες (negative class). Η χρήση των random forgeries υπογραφών στο σύνολο εκμάθησης του ταξινομητή γίνεται διότι οι πλαστές υπογραφές ενός συντάκτη δεν είναι διαθέσιμες σε πρακτικές εφαρμογές της καθημερινότητας. Οπότε, έχοντας την δυνατότητα ο ταξινομητής για κάθε συντάκτη να εκπαιδεύεται με ένα μικρό αριθμό γνήσιων υπογραφών του συντάκτη (που είναι εύκολα διαθέσιμες) και με ένα σύνολο υπογραφών από άλλους συντάκτες (που συγκροτείται πολύ εύκολα επιλέγοντας τυχαίες υπογραφές άλλων ατόμων), συνεπάγεται ότι το σύστημα ταυτοποίησης υπογραφών είναι άμεσα 188

209 εφαρμόσιμο σε πραγματικά προβλήματα. Έτσι, για τον έλεγχο της απόδοσης του συστήματος ταυτοποίησης (verification) υπογραφών χρησιμοποιείται ένας μηγραμμικός ταξινομητής από την βιβλιοθήκη LibSVM [Chang 2011], ο οποίος εκπαιδεύεται χρησιμοποιώντας τις υπογραφές εκμάθησης του κάθε συντάκτη, δηλ. τις 5 γνήσιες υπογραφές του συντάκτη (positive class) και τις 10 random forgeries υπογραφές από 10 άλλους συντάκτες (negative class). Οπότε, τα διανύσματα από τις υπογραφές εκμάθησης χαρτογραφούνται με την βοήθεια kernels σε έναν χώρο μεγαλύτερης διάστασης και εκεί ο SVM χαράσσεται το υπερεπίπεδο που διαχωρίζει βέλτιστα τα σημεία των δύο κλάσεων. Επομένως, ο ταξινομητής μαθαίνει να διαχωρίζει γνήσιες (genuine) υπογραφές ενός συντάκτη από υπογραφές άλλων συντακτών (random forgeries). Ο μη-γραμμικός ταξινομητής LibSVM επιλέγεται να έχει την μορφή C-SVC (-s 0) και να χρησιμοποιεί την συνάρτηση radial basis (-t 2) σαν kernel. Η τιμή της μεταβλητής gamma της συνάρτησης kernel (-g) και ο παράγοντας κανονικοποίησης (-c) της C-SVC προσδιορίζονται μέσω cross-validation στις 15 υπογραφές εκμάθησης του κάθε συντάκτη ύστερα από γραμμική σάρωση (grid search) σε διάφορες τιμές και έλεγχο της απόδοσης, ενώ οι υπόλοιπες παράμετροι του ταξινομητή παραμένουν στις προκαθορισμένες τιμές τους (default). Τελικά, ο ταξινομητής εκπαιδεύεται από τα χαρακτηριστικά διανύσματα των υπογραφών εκμάθησης του κάθε συντάκτη και στη συνέχεια εφαρμόζεται στις υπογραφές δοκιμής του κάθε συντάκτη έτσι ώστε να ελεγχθεί αν επιτυγχάνει τον διαχωρισμό των 19 γνήσιων υπογραφών του κάθε συντάκτη από τις 24 πλαστές υπογραφές του. Στα συστήματα αναγνώρισης βιομετρικών χαρακτηριστικών χρησιμοποιείται για την προβολή των αποτελεσμάτων ο πίνακας σύγχυσης (confusion matrix) -επίσης γνωστός ως πίνακας έκτακτης ανάγκης ή μήτρα σφάλματος ή μήτρα ταιριάσματος-, που αποτελεί μία ειδική μορφή πίνακα για την αποτύπωση της απόδοσης μίας μεθόδου. Κάθε γραμμή του απεικονίζει τα προβλεπόμενα (predict) δείγματα μίας κλάσης, ενώ κάθε στήλη του απεικονίζει τα πραγματικά (actual) δείγματα της κλάσης και άρα μέσω του πίνακα προκύπτουν όλοι οι δυνατοί συνδυασμοί πρόβλεψης (test predict) και πραγματικότητας (actual condition) σε ένα διττό (binary) πρόβλημα αναγνώρισης. Το όνομα του πίνακα προέρχεται από το γεγονός ότι καθιστά εύκολα αντιληπτό αν το σύστημα συγχέει δύο κλάσεις, δηλ. αν αποδίδει εσφαλμένη ετικέτα (label) στα δείγματα. Στην ανάλυση προγνωστικών, ο πίνακας σύγχυσης συγκροτείται από δύο σειρές και δύο στήλες (πίνακας 2x2), και συμπληρώνεται από τις τιμές που περιγράφουν τον αριθμό των αληθώς θετικών (True Positive), των ψευδώς θετικών (False Positive), των αληθώς αρνητικών (True Negative) και των ψευδώς αρνητικών (False Negative) δειγμάτων. Εικόνα 4.22 : confusion matrix Με τον όρο αληθώς θετικά (TP) ορίζονται τα δείγματα που αναγνωρίστηκαν σωστά, με τον όρο ψευδώς θετικά (FP) εννοούνται τα δείγματα που αναγνωρίστηκαν 189

210 λανθασμένα, με τον όρο αληθώς αρνητικά (TN) θεωρούνται τα δείγματα που απορρίφθηκαν σωστά και με τον όρο ψευδώς αρνητικά (FN) αναφέρονται τα δείγματα που απορρίφθηκαν λανθασμένα. Με αυτό τον τρόπο, καθίσταται δυνατή μία πιο λεπτομερής ανάλυση σε σχέση με την απλή αναλογία σωστών προβλέψεων. Με βάση τα στοιχεία του πίνακα σύγχυσης υπολογίζονται διάφορα μεγέθη που χρησιμοποιούνται για τον έλεγχο της απόδοσης των βιομετρικών συστημάτων αναγνώρισης, όπως ο ρυθμός των αληθώς θετικών ή ευαισθησία, ο ρυθμός των αληθώς αρνητικών ή εξειδίκευση, η ακρίβεια, ο ρυθμός εσφαλμένης παράλειψης, κ.ά. ενώ η πιο συνηθισμένη γραφική παράσταση με βάση το αποτέλεσμα του πίνακα σύγχυσης είναι η καμπύλη λειτουργικού χαρακτηριστικού δέκτη (Receiver Operating Characteristic curve ή ROC curve) [Fawcett 2006]. Η καμπύλη ROC αποτελεί μία τεχνική για την οργάνωση, επιλογή και απεικόνιση ταξινομητών με βάση μία γραφική παράσταση και έτσι συνιστά ένα μέγεθος που χρησιμοποιείται για τον έλεγχο της ποιότητας των ταξινομητών, δηλ. την αξιολόγηση των αποτελεσμάτων. Στη στατιστική, η καμπύλη ROC είναι μία γραφική παράσταση που απεικονίζει την απόδοση ενός διττού (binary) ταξινομητή καθώς το κατώφλι (όριο) διακρισιμότητάς του ποικίλλει. Για κάθε τιμή κατωφλίου υπολογίζονται δύο μεγέθη, ο ρυθμός των αληθώς θετικών παρατηρήσεων (GAR ή TPR) με, δηλ. αντιστοιχεί στις παρατηρήσεις με αποτέλεσμα μεγαλύτερο ή ίσο σε σχέση με την τιμή κατωφλίου, και ο ρυθμός των ψευδώς θετικών παρατηρήσεων (FAR ή FPR) με, δηλ. αντιστοιχεί στις παρατηρήσεις με αποτέλεσμα μικρότερο ή ίσο της τιμής κατωφλίου. Έτσι, για την χάραξη της καμπύλης ROC εφαρμόζονται τιμές κατωφλίου που να αντιστοιχούν σε όλο το εύρος του διαστήματος [0,1] των GAR και FAR. Συμπερασματικά, η καμπύλη ROC δημιουργείται σχεδιάζοντας τον ρυθμό των αληθώς θετικών παρατηρήσεων [GAR] σε συνάρτηση με τον ρυθμό των ψευδώς θετικών παρατηρήσεων [FAR], για διάφορες τιμές κατωφλίου. Επίσης, η καμπύλη ROC είναι γνωστή και ως σχετική λειτουργική χαρακτηριστική καμπύλη (Relative Operating Characteristic curve), επειδή είναι μια σύγκριση των δύο χαρακτηριστικών λειτουργίας του συστήματος (GAR ή TPR και FAR ή FPR) ως προς τις αλλαγές των κριτηρίων κατηγοριοποίησης. Η ανάλυση της καμπύλης ROC παρέχει εργαλεία για την επιλογή του βέλτιστου μοντέλου ταξινόμησης, ανεξάρτητα από το πλαίσιο κόστους ή την κατανομή κάθε κλάσης. Οπότε, η ανάλυση της ROC σχετίζεται με άμεσο και φυσικό τρόπο με την ανάλυση κόστους (ή οφέλους) της διαγνωστικής διαδικασίας λήψης αποφάσεων. Συνεπώς, η καμπύλη ROC μπορεί να χρησιμοποιηθεί, για παράδειγμα, για να προσδιορίσει το όριο που μεγιστοποιείται η ακρίβεια ταξινόμησης ή για να αξιολογήσει πώς ο ταξινομητής συμπεριφέρεται στις περιοχές υψηλής ευαισθησίας ή υψηλής εξειδίκευσης. Αυτό είναι δυνατόν επειδή η καμπύλη ROC είναι μία οπτική απεικόνιση της αντιστάθμισης μεταξύ της ευαισθησίας (ρυθμός των αληθώς θετικών) και της εξειδίκευσης (ρυθμός των αληθώς αρνητικών) αφού η καμπύλη ROC είναι η ευαισθησία (sensitivity) σε 190

211 συνάρτηση με την 1-εξειδίκευση (1 specificity). Ο ταξινομητής, όπως είναι γνωστό, λαμβάνει μία απόφαση με βάση ένα ορισμένο κατώφλι διακρισιμότητας. Έτσι, εάν η τιμή κατωφλίου είναι μικρή, η ευαισθησία είναι μεγάλη, η εξειδίκευση είναι μικρή και το σύστημα αναγνώρισης χαρακτηρίζεται διάτρητο αλλά φιλικό διότι η επιλογή της κατάταξης στην κατηγορία των θετικών πραγματοποιείται ακόμα με ασαφείς αποδείξεις οπότε υπάρχει υψηλό ποσοστό αληθώς θετικών (TP) δειγμάτων αλλά συχνά υπάρχει και υψηλό ποσοστό ψευδών θετικών (FP) δειγμάτων. Αντίθετα, αν η τιμή κατωφλίου είναι μεγάλη, η ευαισθησία είναι μικρή, η εξειδίκευση είναι μεγάλη και το σύστημα αναγνώρισης χαρακτηρίζεται αυστηρό αλλά δύσχρηστο διότι η επιλογή της κατάταξης στην κατηγορία των θετικών πραγματοποιείται με σαφείς αποδείξεις οπότε υπάρχει χαμηλό ποσοστό ψευδώς θετικών (FP) δειγμάτων αλλά συχνά υπάρχει και χαμηλό ποσοστό αληθώς θετικών (TP) δειγμάτων. Τέλος, μια συνήθης παραλλαγή της καμπύλη ROC είναι η γραφική παράσταση ανίχνευσης σφάλματος αντιστάθμισης (Detection Error Tradeoff, DET), η οποία απεικονίζει τον FNR συναρτήσει του FPR σε μη γραμμικά μετασχηματισμένους άξονες. Η γραμμική γραφική παράσταση DET χρησιμοποιείται σε περιπτώσεις υψηλών επιδόσεων (δηλ. για σπανιότερα σφάλματα). Εικόνα 4.23 : Οι κατανομές των δεδομένων (αριστερά) και η καμπύλη ROC (δεξιά). (Εικόνα διαθέσιμη από : Μία περεταίρω ανάλυσης της καμπύλης ROC οδηγεί στον υπολογισμό της περιοχής που βρίσκεται κάτω από την καμπύλη (area under the curve ή AUC ή AUROC) και η οποία ισούται με την πιθανότητα ένας ταξινομητής να κατατάξει ένα τυχαία επιλεγμένο θετικό παράδειγμα υψηλότερα από ένα τυχαία επιλεγμένο αρνητικό. Η AUC αποτελεί ένα μέτρο της ακρίβειας του ταξινομητή, το οποίο χρησιμοποιείται -στην παρούσα εφαρμογή- στην επιλογή των τιμών των παραμέτρων του SVM, δηλ. υπολογίζεται η AUC για να ελεγχθεί η απόδοση κατά τη διαδικασία cross-validation στις 15 υπογραφές εκμάθησης και να καθοριστούν οι τιμές των -g και -c του SVM. Αν και μια καμπύλη ROC φανερώνει πολύ χρήσιμες πληροφορίες για την 191

212 αξιολόγηση του ταξινομητή, καθώς επιτρέπει την διερεύνηση της απόδοσής του σε ένα ευρύ φάσμα κατωφλίων, πολλές φορές είναι βολικό να υπολογίζονται μεγέθη, όπως το μέσο τετραγωνικό σφάλμα, το σφάλμα ταξινόμησης και η εκθετική απώλεια, που μπορούν να συνοψίσουν την αποδοτικότητα ενός ταξινομητή σε ένα μόνο αριθμό. Ένα από τα πιο αντιπροσωπευτικά μεγέθη που προκύπτει από μία καμπύλη ROC και συνοψίζεται σε ένα μόνο αριθμό είναι το ισοδύναμο ποσοστό σφάλματος (Equal Error Rate, EER) ή ποσοστό σφάλματος διασταύρωσης (Crossover Error Rate, CER). Η τιμή του EER μπορεί εύκολα να ληφθεί από την καμπύλη ROC, αφού είναι η θέση όπου το FAR και το (1-GAR) είναι ίσα. Επομένως, το EER είναι η τιμή όπου οι ρυθμοί αποδοχής και απόρριψης σφάλματος είναι ίσοι. Το EER είναι ένας γρήγορος τρόπος για την σύγκριση της ακρίβειας συστημάτων αναγνώρισης με διαφορετικές καμπύλες ROC, αφού φανερώνει την ακρίβεια του συστήματος με τη χρήση ενός μόνο ποσοστού. Σε γενικές γραμμές, το σύστημα με το χαμηλότερο EER είναι η πιο ακριβές. Εικόνα 4.24 : Υπολογισμός του EER (Equal Error Rate) από την καμπύλη ROC. (Εικόνα από : [Tronci 2009]) 192

Δείτε περισσότερα