Αριστοτελειο Πανεπιστημιο Θεσσαλονικης Τμημα Πληροϕορικης Κατευθυνση Ψηϕιακων Μεσων Οπτική Ανίχνευση Φωνητικής Δραστηριότητας Διπλωματικη Εργασια της Φωτεινης Π. Πατρωνα Επιβλέπων: Ιωάννης Πήτας Καθηγητής Α.Π.Θ. Εργαστηριο Τεχνητης Νοημοσυνης και Αναλυσης Πληροϕοριων Θεσσαλονίκη, Σεπτέμβριος 2014
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Πληροϕορικής Κατεύθυνση Ψηϕιακών Μέσων Εργαστήριο Τεχνητής Νοημοσύνης και Ανάλυσης Πληροϕοριών Οπτική Ανίχνευση Φωνητικής Δραστηριότητας Διπλωματικη Εργασια της Φωτεινής Π. Πατρώνα Επιβλέπων: Ιωάννης Πήτας Καθηγητής Α.Π.Θ. Εργαστηριο Τεχνητης Νοημοσυνης και Αναλυσης Πληροϕοριων Θεσσαλονίκη, Σεπτέμβριος 2014
5 (Υπογραϕή)... Πατρωνα Φωτεινη Πτυχιούχος Τμήματος Εϕαρμοσμένης Πληροϕορικής Πανεπιστημίου Μακεδονίας c 2014 All rights reserved
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Πληροϕορικής Κατεύθυνση Ψηϕιακών Μέσων Εργαστήριο Τεχνητής Νοημοσύνης και Ανάλυσης Πληροϕοριών Copyright c 2014 All rights reserved Πατρώνα Φωτεινή. Με επιϕύλαξη παντός δικαιώματος. Απαγορεύεται η αντιγραϕή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής ϕύσης, υπό την προϋπόθεση να αναϕέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αϕορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραϕέα.
Στην οικογένειά μου
Ευχαριστίες Ολοκληρώνοντας την παρούσα διπλωματική εργασία, θα ήθελα πρωτίστως να ευχαριστήσω θερμά τον καθηγητή του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, κύριο Ιωάννη Πήτα για την καθοδήγηση και τη βοήθειά του τον ένα χρόνο που διήρκεσε η εκπόνηση της εργασίας αυτής, καθώς επίσης και τους κυρίους Αναστάσιο Τέϕα και Νικόλαο Νικολαΐδη για τις πολύτιμες συμβουλές και το χρόνο τους. Τέλος, οϕείλω ένα ευχαριστώ όλα τα μέλη του Εργαστηρίου Τεχνητής Νοημοσύνης και Ανάλυσης Πληρο- ϕοριών για τη στήριξη τους, και ιδιαίτερα στους Αλέξανδρο Ιωσηϕίδη και Κωνσταντίνο Παπαχρήστου για τη βοήθειά τους. 1
Περίληψη Στα πλαίσια της παρούσας εργασία ασχοληθήκαμε με το πρόβλημα της Οπτικής Α- νίχνευσης Φωνητικής Δραστηριότητας. Μία νέα βάση δεδομένων που διαϕέρει από τις υπάρχουσες και μπορεί να χρησιμοποιηθεί εκτός των άλλων και για έλεχγο μεθόδων που στοχεύουν στην Οπτική Ανίχνευση Φωνητικής Δραστηριότητας δημιουργήθηκε, μελετήθηκαν οι επιδόσεις μίας προϋπάρχουσας μεθόδου σε δύο βάσεις δεδομένων που χρησιμοποιούνται στη βιβλιογραϕία, καθώς και στη νέα βάση που δημιουργήθηκε, εντοπίστηκαν τα βασικά της προβλήματα και υιοθετήθηκε η προσέγγιση του προβλήματος της Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας σαν πρόβλημα αναγνώρισης κίνησης. Εϕαρμόστηκαν τεχνικές εξαγωγής χαρακτηριστικών, αναπαράστασης και κατηγοριοποίησης video κυρίαρχες στο χώρο της αναγνώρισης κίνησης, και βάσει των αποτελεσμάτων που αυτές έδωσαν στη νέα βάση δεδομένων διαπιστώθηκε ότι μπορούν να εϕαρμοστούν με επιτυχία και σε αυτό το πρόβλημα. Λέξεις Κλειδιά Οπτική Ανίχνευση Φωνητικής Δραστηριότητας, Μηχανές Διανυσμάτων Υποστήριξης, Μηχανές Ακραίας Μάθησης, Αναγνώριση Κίνησης 3
Abstract Visual Voice Activity Detection was the main problem under research in this thesis. A new dataset, considerably different from all the already existing ones and usable for testing methods aiming at solving the problem of Visual Voice Activity Detection was constructed, a preexisting method introduced by AUTH researchers was tested on two publicly available datasets as well as on the new one and its drawbacks were detected. Finally, action recognition techniques for feature extraction, video description and classification were adopted and proved to be appropriate for this problem, based on experiments conducted on the new dataset constructed. Keywords Visual Voice Activity Detection, Support Vector Machines, Extreme Learning Machines, Action Recognition 5
Περιεχόμενα Ευχαριστίες 1 Περίληψη 3 Abstract 5 Περιεχόμενα 9 Κατάλογος Σχημάτων 11 Κατάλογος Πινάκων 13 1 Εισαγωγή 15 1.1 Βιβλιογραϕική ανασκόπηση........................ 17 1.1.1 Ανίχνευση μέσω μάθησης χωρίς επίβλεψη............ 18 1.1.2 Ανίχνευση μέσω μάθησης με επίβλεψη.............. 20 1.1.3 Οπτικο-Ακουστικά συτήματα................... 22 1.2 Δομή εργασίας............................... 23 2 Εξαγωγή Χαρακτηριστικών, Περιγραϕή και Αναπαράσταση video 27 2.1 Μέθοδοι εξαγωγής χαρακτηριστικών και Τοπικοί περιγραϕείς...... 28 7
8 Περιεχόμενα 2.1.1 Space Time Interest Points - STIPs............... 28 2.1.2 Dense Trajectories........................ 29 2.2 Αναπαράσταση video μέσω «Οπτικού Λεξικού»............. 31 3 Κατηγοριοποίηση 35 3.1 Μηχανή Εδραίων Διανυσμάτων (SVM).................. 35 3.1.1 Περίπτωση γραμμικώς διαχωρίσιμων κλάσεων.......... 36 3.1.2 Περίπτωση μη-γραμμικώς διαχωρίσιμων κλάσεων........ 40 3.2 Το τέχνασμα του πυρήνα......................... 43 3.3 Μηχανή Ακραίας Μάθησης (ELM).................... 44 3.3.1 KELM............................... 46 4 Μέθοδοι Ανίχνευσης Φωνητικής Δραστηριότητας 49 4.1 Ανίχνευση Φωνητικής Δραστηριότητας Βάσει της Φωτεινότητας της Περιοχής του Στόματος.......................... 50 4.2 Ανίχνευση Φωνητικής Δραστηριότητας ως Πρόβλημα Αναγνώρισης Κίνησης.................................... 53 5 Βάσεις Δεδομένων 55 5.1 CUAVE.................................. 55 5.2 GRID................................... 57 5.3 3DTVS................................... 58 6 Πειραματικά Αποτελέσματα 63 6.1 Αποτελέσματα στις βάσεις CUAVE και GRID.............. 64 6.2 Αποτελέσματα στη βάση 3DTVS..................... 69 7 Συμπεράσματα 77
Περιεχόμενα 9 Βιβλιογραϕία 80
Κατάλογος Σχημάτων 2.1 Οπτικοποίηση σημείων STIP........................ 28 2.2 Οπτικοποίηση σημείων Dense Trajectories................ 30 2.3 Η διαδικασία δημιουργίας οπτικού λεξικού................. 32 2.4 BoF αναπαράσταση ενός video....................... 33 3.1 Κατηγοριοποίηση των γραμμικώς διαχωρίσιμων κλάσεων προτύπων C 1, C 2 με γραμμικό SVM.............................. 38 3.2 Κατηγοριοποίηση προτύπων δύο μη-γραμμικώς διαχωρίσιμων κλάσεων C 1, C 2.................................... 41 4.1 Διαίρεση του ανθρώπινου προσώπου σε περιοχές και ορισμός της περιοχής του στόματος.............................. 51 4.2 Προσδιορισμός στόματος βάσει αναλογιών σε αυτόματα ανιχνευμένο πρόσωπο................................... 52 5.1 Ενδεικτικά παραδείγματα μεμονωμένων ομιλητών της βάσης CUAVE.. 56 5.2 Παράδειγμα ζεύγους ομιλητών της βάσης CUAVE............ 56 5.3 Τρεις από τους ομιλητές της βάσης GRID................. 57 5.4 Ενδεικτικά καρέ της βάσης 3DTVS και τα αντίστοιχά τους στη βάση 3DTVS 2.................................. 59 11
Κατάλογος Πινάκων 5.1 Κατηγορίες των δειγμάτων της βάσης 3DTVS.............. 60 6.1 Ανάλυση της βάσης GRID σε επίπεδο frame............... 64 6.2 Ανάλυση της βάσης CUAVE σε επίπεδο frame.............. 65 6.3 Αποτελέσματα κατηγοριοποίησης στις βάσεις CUAVE και GRID.... 66 6.4 Πειραματικές διαμερίσεις της βάσης CUAVE............... 67 6.5 Ανάλυση της βάσης 3DTVS σε επίπεδο video............... 70 6.6 Αποτελέσματα κατηγοριοποίησης στη βάση 3DTVS........... 73 13
Κεϕάλαιο 1 Εισαγωγή Ως Ανίχνευση Φωνητικής Δραστηριότητας (Voice Activity Detection - VAD), ανα- ϕέρεται η προσπάθεια προσδιορισμού των περιόδων με ή χωρίς ϕωνητική δραστηριότητα σε ένα ηχητικό σήμα. Ανέκυψε ως ανάγκη από τη στιγμή που άρχισε να γίνεται καταγραϕή τέτοιων σημάτων, προκειμένου να καταστεί δυνατή η αυτόματη απομόνωση των τμημάτων εκείνων στα οποία υπήρχε ανθρώπινη ομιλία από εκείνα στα οποία α- κούγονταν ήχοι διαϕορετικής προέλευσης ή και ήχοι παραγόμενοι από τον άνθρωπο, που ωστόσο δεν αποτελούσαν ομιλία, ούτως ώστε ανάλογα κάθε ϕορά με το λόγο της καταγραϕής, να είναι δυνατή η επεξεργασία μόνο των αντίστοιχων περιόδων ενδιαϕέροντος. Συγκεκριμένα, ο προσδιορισμός των περιόδων ϕωνητικής δραστηριότητας σε ένα σήμα ομιλίας, μπορεί να αποτελέσει το πρώτο βήμα για την επίλυση ενός πιο σύνθετου προβλήματος, αυτού της Αυτόματης Αναγνώρισης Ομιλίας (Automatic Speech Recognition - ASR), της αποκρυπτογράϕησης δηλαδή των διαϕόρων ϕωνημάτων τα οποία συνθέτουν τις λέξεις και εν συνεχεία των ίδιων των λέξεων, η εκϕορά των οποίων συνθέτει το σήμα της ομιλίας, πρόβλημα το οποίο έχει απασχολήσει κατά καιρούς τόσο την επιστημονική, όσο και την ιατρική καθώς και τη στρατιωτική κοινότητα. Παρομοίως, η ανίχνευση των περιόδων χωρίς ομιλία, βρίσκει εϕαρμογή σε συστήματα όπως αυτά 15
16 Κεϕάλαιο 1. Εισαγωγή των βιντεοδιασκέψεων, για την εκτίμηση και την μείωση του θορύβου, ούτως ώστε να είναι δυνατός ο καλύτερος διαχωρισμός του από το σήμα ομιλίας και εν συνεχεία να μπορεί ευκολότερα να πραγματοποιηθεί και η VAD ή η ASR. Η εκτενής έρευνα που έχει πραγματοποιηθεί πάνω στη συγκεκριμένη περιοχή εδώ και αρκετές δεκαετίες, αξιοποιώντας όμως αποκλειστικά τα αντίστοιχα ηχητικά σήματα, οδήγησε σε διάϕορες προσεγγίσεις επίλυσης του προβλήματος της VAD, άλλες περισσότερο και άλλες λιγότερο αποτελεσματικές. Κοινό χαρακτηριστικό όλων, όμως, ήταν οι χαμηλές επιδόσεις σε σήματα καταγεγραμμένα σε ενθόρυβα περιβάλλοντα καθώς και στο διαχωρισμό πολλαπλών σημάτων ομιλίας. Για το λόγο αυτό, τις τελευταίες δύο δεκαετίες η έρευνα στράϕηκε στην καταγρα- ϕή και χρήση διδιάστατων, και πρόσϕατα και τρισδιάστατων εικονοσειρών (video) και την εξαγωγή χαρακτηριστικών από αυτές, με σκοπό την υποβοήθηση της αυτόματης ανίχνευσης ϕωνητικής δραστηριότητας βάσει μόνο του ήχου (Audio Voice Activity Detection - A-VAD / VAD), μιας και τα οπτικά χαρακτηριστικά δεν επηρεάζονται από την ύπαρξη ηχητικού θορύβου στον περιβάλλον, και μπορούν επομένως να χρησιμοποιηθούν για την ενίσχυση των εξαχθέντων από τον ήχο χαρακτηριστικών και την αποδοτικότερη ανίχνευση της ομιλίας σε τέτοια περιβάλλοντα, καθώς επίσης και για τον σωστό διαχωρισμό πεπλεγμένων ηχητικών σημάτων, προερχόμενων από διαϕορετικές πηγές. Τέλος, η VAD αποτελεί πλέον και μία μέθοδο εξοικονόμησης αποθηκευτικού χώρου, καθώς καθιστά δυνατή τη διατήρηση μόνο των περιόδων ενδιαϕέροντος αντί για τις πλήρεις καταγεγραμμένες εικονοσειρές, η αποθήκευση των οποίων μπορεί να απαιτεί απαγορευτικά μεγάλο αποθηκευτικό χώρο. Στην παρούσα εργασία, οι προσεγγίσεις που υιοθετήθηκαν ήταν δύο και πραγματοποιήθηκαν πειράματα τόσο σε κάποιες από τις διαθέσιμες βάσεις που αναϕέρονται στη βιβλιογραϕία, τις CUAVE [32] και GRID [10], όσο και σε μια βάση με δεδομένα ταινιών, που δημιουργήθηκε στα πλαίσια του προγράμματος 3DTVS. Η πρώτη προσέγγιση που
1.1 Βιβλιογραϕική ανασκόπηση 17 υιοθετήθηκε, προτάθηκε στο [35] από ερευνητές του Α.Π.Θ., και αϕορά σε ένα Visual Voice Activity Detection - V-VAD σύστημα, όπου αλγόριθμοι ανίχνευσης σήματος εϕαρμόζονται σε απλοϊκά χαρακτηριστικά σχετιζόμενα με τις τιμές ϕωτεινότητας των εικονοστοιχείων (pixel) της περιοχής του στόματος ενός ομιλητή. Η συγκεκριμένη μέθοδος είναι ιδιαίτερα γρήγορη, δεν προϋποθέτει κανενός είδους εκπαίδευση, είναι ε- ξαρτώμενη από τον ομιλητή και έχει αποδειχθεί ότι έχει πολύ καλά αποτελέσματα όταν εϕαρμόζεται σε δεδομένα όπου τα πρόσωπα των ομιλητών ϕαίνονται ολόκληρα (en face) και οι κινήσεις τους είναι περιορισμένες. Στη δεύτερη προσέγγιση, το πρόβλημα της V-VAD αντιμετωπίζεται ως ένα πρόβλημα αναγνώρισης κίνησης (action recognition), και χρησιμοποιούνται τρόποι περιγραϕής εικονοσειρών και τεχνικές ταξινόμησης ευρέως διαδεδομένες στο πεδίο αυτό. Πιο συγκεκριμένα, δοκιμάστηκε περιγραϕή των εικονοσειρών μέσω STIPs [22, 23] και Dense Trajectories [42] και ταξινόμηση μέσω μη-γραμμικών Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines - SVMs) [7] και Μηχανών Ακραίας Μάθησης (Extreme Learning Machines - ELMs) [20] εϕαρμόζοντας το «τέχνασμα του πυρήνα» (kernel trick) [34], καθώς και συνδυασμών τους. Η προσέγγιση αυτή, στοχεύει στην επιτυχή επίλυση του προβλήματος της VAD ανεξάρτητα από τη γωνία θέασης των προσώπων των ομιλητών που εμϕανίζονται στα δεδομένα. 1.1 Βιβλιογραϕική ανασκόπηση Οι προσεγγίσεις που έχουν προταθεί στη βιβλιογραϕία μέχρι τώρα, μπορούν να χωριστούν με διάϕορους τρόπους, ανάλογα κάθε ϕορά με τους παράγοντες που λαμβάνονται υπ όψη για τον χωρισμό. Ενας πρώτος τρόπος ταξινόμησης, είναι σε προσεγγίσεις που κάνουν χρήση μοντέλων (model-based) για την κατηγοριοποίηση των τμημάτων του σήματος σε σιωπηλά και μη, αποτελούνται δηλαδή από δύο βασικά στάδια, εκείνο της εκπαίδευσης (training) και εκείνο του ελέγχου (test), κατά το οποίο
18 Κεϕάλαιο 1. Εισαγωγή χρησιμοποιούνται τα μοντέλα που αναπτύχθηκαν κατά την εκπαίδευση, και σε προσεγγίσεις απαλλαγμένες από μοντέλα (model-free), οι οποίες δεν βασίζονται σε μοντέλα και επομένως δεν απαιτούν πρότερη γνώση πάνω στις κλάσεις στις οποίες ανήκουν τα δεδομένα. Ενας άλλος τρόπος διαίρεσης των προταθέντων προσεγγίσεων, είναι βάσει της προέλευσης των χαρακτηριστικών (features) που συνεισϕέρουν στην λήψη απόϕασης για κάθε δείγμα. Υπάρχουν, δηλαδή, προσεγγίσεις όπου το πρόβλημα της VAD αντιμετωπίζεται μόνο κάνοντας χρήση οπτικής πληροϕορίας, μέσω της ανάπτυξης συστημάτων αυτόματης Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας (Visual VAD - V-VAD) και προσεγγίσεις όπου επιχειρείται η βελτίωση υπαρχόντων συστημάτων VAD αξιοποιώντας και οπτική πληροϕορία, και αναπτύσσοντας κατ αυτό τον τρόπο συστήματα αυτόματης Οπτικο-ακουστικής Ανίχνευσης Φωνητικής Δραστηριότητας (Audio-Visual VAD - AV-VAD). Τέλος, τα συστήματα AV-VAD, διαϕοροποιούνται ανάλογα με τον τρόπο κατά τον οποίο πραγματοποιείται ο συνδυασμός των οπτικών και ακουστικών δεδομένων. Συγκεκριμένα, είναι δυνατή η εισαγωγή και των δύο τύπων χαρακτηριστικών στο ίδιο σύστημα, περίπτωση γνωστή ως «συγχώνευση χαρακτηριστικών» (feature fusion) ή «εξ αρχής συγχώνευση» (early fusion), ή η διεξαγωγή δύο ανεξάρτητων σταδίων α- ναγνώρισης, ενός με κάθε τύπο χαρακτηριστικών και η μετέπειτα συγχώνευση των αποτελεσμάτων αυτών, προσέγγιση που καλείται «συγχώνευση αποϕάσεων» (decision fusion) ή «εκ των υστέρων συγχώνευση» (late fusion), με τη συγχώνευση χαρακτηριστικών να έχει αποδειχθεί περισσότερο αποτελεσματική [39]. 1.1.1 Ανίχνευση μέσω μάθησης χωρίς επίβλεψη Οι model-free V-VADs, συνήθως είναι εξαρτώμενοι από τον ομιλητή, και βασίζουν τη διαδικασία λήψης των αποϕάσεών τους στην από κοινού αξιοποίηση τόσο στατι-
1.1 Βιβλιογραϕική ανασκόπηση 19 κών (static features) όσο και δυναμικών χαρακτηριστικών (dynamic features) άμεσα συνδεδεμένων με τον εκάστοτε ομιλητή, όπως είναι η γεωμετρία και η κίνηση του περιγράμματος των χειλιών του [38], που μπορούν να περιγραϕούν από το ύψος και το πλάτος της περιοχής που ορίζεται από το εσωτερικό των χειλιών, τα οποία είναι βαμμένα με μπλε χρώμα, και την τροχιά που αυτά διαγράϕουν στο χρόνο μέσω ενός κατάλληλα επιλεγμένου χρονικού παραθύρου [37]. Αξίζει να σημειωθεί, ότι στις δύο προαναϕερθείσες προσεγγίσεις, δεν υϕίσταται διαχωρισμός μεταξύ ηχητικών συμβάντων που αποτελούν ομιλία και συμβάντων, παραγόμενων από τον ομιλητή, που όμως δεν αποτελούν ομιλία (π.χ. επιϕωνήματα, γέλιο). Και στις δύο αυτές περιπτώσεις, δηλαδή, γίνεται η απλουστευτική θεώρηση ότι η υπάρχουσα ϕωνητική δραστηριότητα αποτελεί ομιλία, και λόγω του ότι με τις συγκεκριμένες προσεγγίσεις ο απόλυτα επιτυχής διαχωρισμός των δύο κλάσεων του προβλήματος είναι αδύνατος, στόχος είναι η κατά το δυνατόν καλύτερη ανίχνευση περιόδων χωρίς ϕωνητική δραστηριότητα. Πιο συγκεκριμένα, αναζητάται ένα ζευγάρι υψηλού ποσοστού ανίχνευσης περιόδων ϕωνητικής δραστηριότητας σε σχέση με το συνολικό πλήθος τους και ταυτόχρονα όσο γίνεται χαμηλότερου ποσοστού εσϕαλμένως ανιχνευθέντων περιόδων ϕωνητικής δραστηριότητας ως σιωπηλών περιόδων (false detection). Τα αποτελέσματα που ανα- ϕέρονται είναι 80% - 5% στο [38] και 80% - 12% στο [37]. Τέλος, δίνεται κυρίως έμϕαση στα δυναμικά και όχι στα στατικά χαρακτηριστικά που σχετίζονται με τα χείλη. Ο λόγος για τον οποίο συμβαίνει αυτό, είναι ότι όπως έχει διαπιστωθεί, κάποιες από τις ϕόρμες που παίρνουν στιγμιαία τα χείλη κατά την ομιλία απαντώνται και σε στιγμές απουσίας ϕωνητικής δραστηριότητας, και το αντίθετο, επομένως, μιας και τα στατικά χαρακτηριστικά αναϕέρονται κυρίως σε στιγμιαία σχήματα και τιμές παραμέτρων, δεν θεωρούνται ιδιαιτέρως αξιόπιστα [37, 38, 29]. Άλλη μία προσέγγιση αυτής της κατηγορίας προτείνεται στο [35], όπου αλγόριθμοι
20 Κεϕάλαιο 1. Εισαγωγή ανίχνευσης σήματος εϕαρμόζονται στις τιμές ϕωτεινότητας των εικονοστοιχείων της περιοχής του στόματος, και βάσει αυτών και των μεταβολών τους επιχειρείται ο διαχωρισμός των καρέ μίας εικονοσειράς σε καρέ όπου υπάρχει οπτική ομιλία και σε καρέ όπου δεν υπάρχει. Η μέθοδος αυτή περιγράϕεται με περισσότερες λεπτομέρειες στην Ενότητα 4.1. 1.1.2 Ανίχνευση μέσω μάθησης με επίβλεψη Μια περίπτωση model-based V-VAD, αποτελεί αυτός που προτάθηκε στο [33], ό- που χαρακτηριστικά όπως το άνοιγμα, η καμπυλότητα των χειλιών καθώς και το εάν το κάτω χείλος αγγίζει τα δόντια της επάνω γνάθου χρησιμοποιούνται για την μοντελοποίηση του σχηματισμού των χειλιών και η λήψη της απόϕασης πραγματοποιείται με τη βοήθεια SVMs έπειτα από ένα στάδιο ανίχνευσης κίνησης, προκειμένου μετά τον εντοπισμό κινούμενων χειλιών να διαπιστωθεί εάν η κίνηση αυτή έχει προκληθεί από τη συμμετοχή τους στην άρθρωση λόγου ή σε κάποια άλλη δραστηριότητα, περιπτώσεις που δε διαχωρίζονταν στους [37, 38], όπως προαναϕέρθηκε. Η προσέγγιση αυτή αποτελεί το πρώτο στάδιο ενός συστήματος αυτόματης Οπτικής Αναγνώρισης Ομιλίας (Visual Speech Recognition - VSR) και πετυχαίνει 98,2% ανίχνευση ομιλούντων χειλιών με μόλις 1,8% ποσοστό εσϕαλμένου χαρακτηρισμού ως περιόδων ομιλίας, περιόδων στις οποίες ο σχηματισμός των χειλιών δεν αντιστοιχεί πράγματι σε ομιλία. Τα παραπάνω αποτελέσματα αϕορούν πειράματα που υλοποιήθηκαν σε μία βάση δεδομένων που περιείχε και ένα τμήμα της βάσης AVTIMIT [1]. Κρυμμένα Μοντέλα Μαρκόβ (Hidden Markov Models - HMMs) μοντελοποιούν τις αλλαγές των διανυσμάτων της οπτικής ροής (optical flow) του στόματος ενός ομιλητή κατά τη διάρκεια περιόδων χωρίς ομιλία στο [4]. Τα διανύσματα κίνησης προκύπτουν μέσω ενός Σύνθετου Διακριτού Μετασχηματισμού Κυματιδίων (Complex Discrete W- avelet Transform - CDWT) και επιτυγχάνεται 90% επιτυχής ανίχνευση περιόδων χωρίς
1.1 Βιβλιογραϕική ανασκόπηση 21 ομιλία έναντι 5% εσϕαλμένης ανίχνευσης περιόδων με ομιλία ως σιωπηλές, σε δεδομένα όπου υπάρχει εσκεμμένη κίνηση του στόματος ακόμα και στα διαστήματα χωρίς ομιλία. Άλλη μία ενδιαϕέρουσα προσέγγιση της ίδιας κατηγορίας παρουσιάστηκε στο [24], όπου δίνεται ιδιαίτερη έμϕαση στη σωστή ανίχνευση του στόματος. Για το σκοπό αυτό χρησιμοποιούνται Μοντέλα Ενεργών Περιγραμμάτων (Active Contour Models - ACMs), ταίριασμα περιστρεϕόμενων προτύπων (rotational template matching), περιορισμοί ως προς την ενέργεια του σχήματος και ένας όρος που αϕορά την ενέργεια της περιοχής που ορίζεται από το σχήμα του περιγράμματος, προκειμένου να αποϕευχθούν προβλήματα που απαντούνται συχνά κατά την ανίχνευση του στόματος και οϕείλονται σε περιστροϕές του κεϕαλιού, στη χαμηλή ανάλυση της εικόνας και σε πιθανή σύγκλιση των σημείων του ενεργού περιγράμματος σε ένα μόνο σημείο. Μετέπειτα, εξάγονται και χρησιμοποιούνται για την κατηγοριοποίηση τόσο στατικά χαρακτηριστικά (γεωμετρικά και εμϕάνισης) όσο και δυναμικά, που επιλέγονται μέσω της τεχνικής προσαρμοστικής ενίσχυσης (adaptive boosting - AdaBoost) [15] κατά το στάδιο της εκπαίδευση του μοντέλου. Ο έλεγχος του αλγορίθμου εξαγωγής των χειλιών πραγματοποιείται στη βάση XM2VTS [9], ενώ ο έλεγχος του V-VAD σε δεδομένα διαθέσιμα στο YouTube. Τέλος, Μεικτά Γκαουσιανά Μοντέλα (Gaussian Mixture Models - GMMs) χρησιμοποιούνται στα [29, 30], στο [29] προκειμένου να διερευνηθεί η καταλληλότητα των στατικών έναντι των δυναμικών χαρακτηριστικών για το πρόβλημα της V-VAD, με τα δεύτερα να αποδεικνύονται αποδοτικότερα, και στο [30] για να εξακριβωθεί το κατά πόσο οι πλάγιες (profile) όψεις του προσώπου μπορούν να αξιοποιηθούν σε συστήματα V-VAD, όπου ϕάνηκε ότι μπορούν όντως να συμβάλουν, παρ όλο που τα αποτελέσματα σε αυτές ήταν πολύ χαμηλότερα σε σύγκριση με αυτά που προήλθαν από τη μπροστινή όψη των προσώπων της βάσης CUAVE [32].
22 Κεϕάλαιο 1. Εισαγωγή 1.1.3 Οπτικο-Ακουστικά συτήματα Ενα feature fusion AV-VAD σύστημα που αξιοποιεί πληροϕορίες σχετιζόμενες και με τις δύο αισθήσεις που συμμετέχουν στην αντίληψη της ομιλίας, την όραση και την ακοή προτείνεται στο [3]. Ο Διακριτός Μετασχηματισμός Συνημιτόνου (Discrete Cosine Transform - DCT) σε δύο διαστάσεις εϕαρμόζεται για την εξαγωγή χαρακτηριστικών από το οπτικό σήμα και μέσω ομαδοποίησης (clusteting) με τον αλγόριθμο Προσδοκίας - Μεγιστοποίησης (Expectation-Maximization - EM) δημιουργούνται τα δύο GMMs που χρησιμοποιούνται για την ταξινόμηση (classification). Η ακρίβεια του συστήματος, με χρήση μόνο οπτικής πληροϕορίας, σε πειράματα εξαρτώμενα από τον ομιλητή είναι 97% ενώ σε πειράματα ανεξάρτητα από τον ομιλητή πέϕτει στο 72% στα δεδομένα της βάσης GRID [10], τα οποία χρησιμοποιήθηκαν. Χρονική εξομάλυνση (temporal smoothing) των κανονικοποιημένων βάσει του ε- κτιμημένου μεγέθους του προσώπου παραμέτρων ύψος και πλάτος χειλιών πραγματοποιείται στο [45], ούτως ώστε να προκύψουν οι τελικές τιμές των οπτικών χαρακτηριστικών που εισάγονται σε ένα GMM, και μετέπειτα ενσωματώνονται με τα ακουστικά χαρακτηριστικά. Τα αποτελέσματα σε εικόνες υψηλής ανάλυσης, προερχόμενες από μία οπτικο-ακουστική βάση με Ιαπωνικές λέξεις, βάσει μόνο των οπτικών χαρακτηριστικών, είναι καλύτερα τόσο από αυτά του A-VAD όσο και από αυτά του AV-VAD που προτάθηκε στο [44]. Κατάτμηση του προσώπου βάσει χρωματικής πληροϕορίας με τη μέθοδο του Otsu [31] υλοποιείται στο [28] με σκοπό την ανίχνευση του δέρματος και του στόματος και τη μετέπειτα μελέτη της κίνησης του τελευταίου βάσει του ύψους του σε κάθε στιγμή εντός ενός χρονικού παραθύρου, ακολουθούμενη από δύο ανταγωνιστικά HMMs για το χαρακτηρισμό κάθε καρέ (video frame). Της ανίχνευσης του στόματος, προηγείται διόρθωση χρώματος, βάσει μιας εικόνας «προτύπου» από το σύνολο εκπαίδευσης, προκειμένου να εξαλειϕθεί η επιρροή διαϕοροποιήσεων της ϕωτεινότητας και των
1.2 Δομή εργασίας 23 χαρακτηριστικών της κάμερας που μπορεί να υπάρχουν μεταξύ των βίντεο και ακολουθεί ένα στάδιο μορϕολογικής μετα-επεξεργασίας. Η προσέγγιση αυτή επιτυγχάνει 80,2% επιτυχία σε δεδομένα που θα μπορούσαν να έχουν προκύψει από καταγραϕές της πραγματικής ζωής, ενώ το ποσοστό πέϕτει στο 58,9% σε δεδομένα όπου οι ομιλητές πραγματοποιούν εσκεμμένες κινήσεις του στόματος σε στιγμές που δεν μιλούσαν ή το καλύπτουν μερικώς όταν μιλάνε. Μια προσέγγιση διαϕορετική από τις υπόλοιπες, είναι αυτή του [8], με έναν «στιγμιαίο» (instantaneous) AV-VAD, όπου οι αποϕάσεις προκύπτουν λαμβάνοντας υπ όψη μόνο το τρέχον video frame. Τα οπτικά χαρακτηριστικά που εξάγονται είναι παραμετρικά και εμϕανισιακά, το classification γίνεται μέσω Τυχαίων Δασών (Random Forests - RFs) και βάσει των πειραματικών αποτελεσμάτων στις βάσεις CUAVE [32] και MO- BIO [25], επιβεβαιώνεται ότι σε περιπτώσεις ύπαρξης θορύβου στο περιβάλλον, τα οπτικά χαρακτηριστικά είναι εκείνα που συμβάλουν κυρίως στην αποτελεσματικότητα του συστήματος, και όχι τα ακουστικά. 1.2 Δομή εργασίας Η παρούσα διπλωματική εργασία είναι δομημένη ως εξής: Κεϕάλαιο 1 Στόχος του κεϕαλαίου αυτού είναι να εισάγει τον αναγνώστη στην Οπτική Ανίχνευση Φωνητικής Δραστηριότητας, ορίζοντας αρχικά το πρόβλημα που καλούμαστε να επιλύσουμε και αναϕέροντας τους λόγους που οδήγησαν στην ανάγκη ενασχόλησης με αυτό. Ακολουθεί μία σύντομη περιγραϕή των δύο προσεγγίσεων που υιοθετήσαμε για να επιλύσουμε το πρόβλημα, εν συνεχεία παρουσιάζονται οι διάϕορες κατηγορίες στις οποίες χωρίζονται οι μέθοδοι που έχουν προταθεί στη βιβλιογραϕία και γίνεται σύντομη αναϕορά σε κάποιες μεθόδους κάθε κατηγορίας.
24 Κεϕάλαιο 1. Εισαγωγή Κεϕάλαιο 2 Στο κεϕάλαιο αυτό περιγράϕονται δύο από τις πιο διαδεδομένες μεθόδους για ανίχνευση χωροχρονικών σημείων ενδιαϕέροντος για το πρόβλημα της αναγνώρισης κίνησης, γνωστές ως STIPs και Dense Trajectories, οι τοπικοί περιγραϕείς που αυτές χρησιμοποιούν για την εξαγωγή διανυσμάτων χαρακτηριστικών που αϕορούν τα σημεία ενδιαϕέροντος καθώς και η μεθοδολογία της δημιουργίας «οπτικού λεξικού» που είθισται να ακολουθείται για την αναπαράσταση των χαρακτηριστικών που προκύπτουν από την εϕαρμογή των μεθόδων αυτών μέσω ιστογραμμάτων. Κεϕάλαιο 3 Εϕόσον έχουν ήδη παρουσιαστεί κάποιες μέθοδοι εξαγωγής χαρακτηριστικών από εικονοσειρές καθώς και τα ίδια τα εξαγόμενα χαρακτηριστικά, το κεϕάλαιο αυτό ασχολείται με την παρουσίαση των ταξινομητών που επιστρατεύτηκαν για την επίλυση του προβλήματος της Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας βάσει αυτών των χαρακτηριστικών, προσεγγίζοντάς το ως προβλήματος αναγνώρισης κίνησης. Οι ταξινομητές αυτοί είναι οι Μηχανές Διανυσμάτων Υ- ποστήριξης και οι Μηχανές Ακραίας Μάθησης με εϕαρμογή του τεχνάσματος του πυρήνα, το οποίο επίσης περιγράϕεται. Κεϕάλαιο 4 Εδώ παρουσιάζονται οι δύο προσεγγίσεις που υιοθετήθηκαν για την επίλυση του προβλήματος της Ανίχνευση Φωνητικής Δραστηριότητας, η πρώτη εκ των ο- ποίων προϋπήρχε, είχε αναπτυχθεί παλαιότερα από ερευνητές του Εργαστηρίου Τεχνητής Νοημοσύνης και Ανάλυσης Πληροϕοριών του Τμήματος Πληροϕορικής του Α.Π.Θ., προτάθηκε στο [35] και εϕαρμόζει αλγορίθμους ανίχνευσης σήματος σε απλοϊκά χαρακτηριστικά σχετιζόμενα με τις τιμές ϕωτεινότητας των εικονοστοιχείων της περιοχής του στόματος ενός ομιλητή. Η δεύτερη, είναι αυτή
1.2 Δομή εργασίας 25 που ουσιαστικά προτείνεται στην παρούσα διπλωματική εργασία και αϕορά στην αντιμετώπιση του προβλήματος κάνοντας χρήση τεχνικών κατηγοριοποίησης και τρόπων περιγραϕής εικονοσειράς που χρησιμοποιούνται κατά κόρον στο πεδίο της αναγνώρισης κίνησης. Κεϕάλαιο 5 Δύο δημόσια διαθέσιμες βάσεις για Αναγνώριση Ομιλίας, Ανίχνευση Φωνητικής Δραστηριότητας, Αναγνώριση Ομιλητή και άλλα συναϕή προβλήματα, στις οποίες έχουν δοκιμαστεί κάποιες από τις μεθόδους της βιβλιογραϕίας παρουσιάζονται συνοπτικά στο κεϕάλαιο αυτό, και στη συνέχεια περιγράϕεται μία νέα βάση προσώπων, που δημιουργήθηκε με δεδομένα ταινιών στα πλαίσια του προγράμματος 3DTV, οι λόγοι που οδήγησαν στη δημιουργία της και τη διεξαγωγή πειραμάτων σε αυτή και ο τρόπος δημιουργίας της. Κεϕάλαιο 6 Το κεϕάλαιο αυτό αποσκοπεί στην ποσοτική μέτρηση της απόδοσης των μεθόδων κατηγοριοποίησης που προτάθηκαν στο Κεϕάλαιο 4 στα δείγματα των βάσεων που περιγράϕηκαν στο Κεϕάλαιο 5. Γίνεται μία εκτενέστερη περιγραϕή της σύνθεσης (των τμημάτων) των βάσεων που συμμετείχαν στα πειράματα, των μέτρων απόδοσης που χρησιμοποιήθηκαν και έπειτα παρατίθενται τα σχετικά αποτελέσματα για τις διάϕορες μεθόδους, καθώς και τα αντίστοιχα αποτελέσματα που έχουν αναϕερθεί στη βιβλιογραϕία. Κεϕάλαιο 7 Συγκεντρώνονται τα βασικά συμπεράσματα που προκύπτουν από τη μελέτη του προβλήματος της Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας και τις προσπάθειες αποτελεσματικής επίλυσής του, καθώς και κάποιες κατευθύνσεις για μελλοντική έρευνα πάνω σε αυτό.
Κεϕάλαιο 2 Εξαγωγή Χαρακτηριστικών, Περιγραϕή και Αναπαράσταση video Στο κεϕάλαιο αυτό περιγράϕονται δύο από τις πιο διαδεδομένες μεθόδους για ανίχνευση χωροχρονικών σημείων ενδιαϕέροντος για το πρόβλημα της αναγνώρισης κίνησης, γνωστές ως STIPs και Dense Trajectories, οι τοπικοί περιγραϕείς που αυτές χρησιμοποιούν για την εξαγωγή διανυσμάτων χαρακτηριστικών που αϕορούν τα σημεία ενδιαϕέροντος καθώς και η μεθοδολογία της δημιουργίας «οπτικού λεξικού» Bag-Of- Features (BoF) που συνήθως ακολουθείται για την αναπαράσταση των διανυσμάτων χαρακτηριστικών που προκύπτουν από την εϕαρμογή των μεθόδων αυτών μέσω ιστογραμμάτων. 27
28 Κεϕάλαιο 2. Εξαγωγή Χαρακτηριστικών, Περιγραϕή και Αναπαράσταση video 2.1 Μέθοδοι εξαγωγής χαρακτηριστικών και Τοπικοί περιγραϕείς 2.1.1 Space Time Interest Points - STIPs Η μέθοδος εντοπισμού σημείων ενδιαϕέροντος στο χωροχρόνο (Space Time Interest Points - STIPs) [22] παράγει αραιά δειγματοληπτημένες περιοχές σημείων ενδιαϕέροντος σε video frames που έχουν εντοπιστεί μέσω μιας χωρο-χρονικής επέκτασης του ανιχνευτή γωνιών Harris (Harris 3D Detector) [16] και είτε έχει γίνει παρακολούθη- Σχήμα 2.1: Οπτικοποίηση σημείων STIP. σή τους, σε περιπτώσεις ύπαρξης κίνησης, είτε αντιστοιχούν σε απότομες αλλαγές της
2.1 Μέθοδοι εξαγωγής χαρακτηριστικών και Τοπικοί περιγραϕείς 29 ϕωτεινότητας της εικόνας. Η επέκταση αυτή του ανιχνευτή Harris εξάγει χαρακτηριστικά σχετικά με τα σημεία ενδιαϕέροντος με δύο από τους δημοϕιλέστερους τοπικούς περιγραϕείς κίνησης (motion descriptors), το Ιστόγραμμα Προσανατολισμένων Κλίσεων (Histogram of Oriented Gradients - HOG) [12], για την ανίχνευση αντικειμένων μέσω του περιγράμματός τους, και το Ιστόγραμμα Οπτικής Ροής (Histogram of Optical Flow - HOF) [13], για την ανίχνευση κίνησης των αντικειμένων, και χρησιμοποιεί διάϕορους συνδυασμούς χωροχρονικών κλιμάκων. Η υιοθέτηση των δύο αυτών descriptors, συνδυάζεται συνήθως με αναπαράσταση της κίνησης μέσω ενός «οπτικού λεξικού» που δημιουργείται μέσω ενός Bag-Of-Features (BoF) μοντέλου [23, 36], δηλαδή με τη χρήση ιστογραμμάτων που προκύπτουν μέσω κβαντισμού των διανυσμάτων χαρακτηριστικών (feature vectors) που περιέχουν τους περιγραϕείς κίνησης. Τρία ενδεικτικά παραδείγματα οπτικοποίησης των STIPs παρουσιάζονται στο Σχήμα 2.1. 2.1.2 Dense Trajectories Η αποτελεσματικότερη μέθοδος εξαγωγής χαρακτηριστικών από video με σκοπό την αναγνώριση κίνησης, είναι αυτή τη στιγμή η μέθοδος εντοπισμού Πυκνών Τροχιών Κίνησης (Dense Trajectories) [42], όπου πραγματοποιείται πυκνή δειγματοληψία σημείων ενδιαϕέροντος σε κάποια από τα καρέ ενός video, παρακολούθηση αυτών στο χρόνο για έναν αριθμό L διαδοχικών καρέ και εξαγωγή περιγραϕέων για κάθε τροχιά που προκύπτει. Ως σημεία ενδιαϕέροντος, σε αυτή την περίπτωση, ορίζονται τα εικονοστοιχεία (pixels) ενός video frame που συμπίπτουν με τους κόμβους ενός πυκνού πλέγματος που υπερτίθεται του συγκεκριμένου καρέ και η παρακολούθησή τους επιτυγχάνεται μέσω υπολογισμού της πυκνής οπτικής ροής μεταξύ διαδοχικών καρέ. Στο Σχήμα 2.2 ως παραδείγματα οπτικοποίησης των σημείων αυτών ϕαίνονται τα καρέ που χρησιμοποιήθηκαν και στο Σχήμα 2.1 για την οπτικοποίηση των σημείων STIP. Οι
30 Κεϕάλαιο 2. Εξαγωγή Χαρακτηριστικών, Περιγραϕή και Αναπαράσταση video τοπικοί περιγραϕείς που επιστρατεύονται από αυτή τη μέθοδο είναι οι: Σχήμα 2.2: Οπτικοποίηση σημείων Dense Trajectories. - Τροχιά (trajetory)- κανονικοποιημένες συντεταγμένες εικονοστοιχείων που αντιστοιχούν στα σημεία ενδιαϕέροντος σε κάθε καρέ, - Ιστόγραμμα Προσανατολισμένων Κλίσεων (HOG), - Ιστόγραμμα Οπτικής Ροής (HOF), - Ιστόγραμμα Ορίων Κίνησης (Motion Boundary Histograms - MBH) κατά την
2.2 Αναπαράσταση video μέσω «Οπτικού Λεξικού» 31 οριζόντια (MBHx) και την κατακόρυϕη (MBHy) διεύθυνση χωριστά [13] ώστε να απομονωθεί η κίνηση του αντικειμένου από αυτή του ϕόντου. Οπως προαναϕέρθηκε για τα χαρακτηριστικά που εξάγονται με τη μέθοδο STIPs, έτσι και για αυτά της μεθόδου Dense Trajectories, η συνηθέστερη αναπαράσταση κίνησης είναι με ένα μοντέλο BoF [36, 43] ώστε να προκύψουν ιστογράμματα σταθερού μεγέθους για κάθε video. 2.2 Αναπαράσταση video μέσω «Οπτικού Λεξικού» Η αναπαράσταση μέσω λεξικού αποτελεί μία αρκετά παλιά μεθοδολογία, που αρχικά εϕαρμόστηκε στην ανάλυση κειμένων με σκοπό να συμβάλει στην αποτελεσματικότερη ανάκτηση αυτών και αργότερα προσαρμόστηκε με τέτοιο τρόπο ώστε να μπορεί να χρησιμοποιηθεί και σε εϕαρμογές υπολογιστικής όρασης [36]. Η ανάγκη για τη συμπαγή αναπαράσταση εικόνων και μετέπειτα και video μέσω οπτικού πλέον λεξικού, ανέκυψε λόγω του διαϕορετικού πλήθους των σημείων ενδιαϕέροντος που ανιχνεύονται από εικόνα σε εικόνα και από video σε video και του μεγάλου όγκου των χαρακτηριστικών που τελικά εξάγονται, καθιστώντας την απευθείας αξιοποίησή τους από συστήματα ταξινόμησης προβληματική. Η μεθοδολογία λοιπόν του BoF για ένα σύνολο εκπαίδευσης F είναι η εξής. Αρχικά γίνεται ο εντοπισμός των σημείων ενδιαϕέροντος στα n video του συνόλου F, υπολογίζονται οι τοπικοί περιγραϕείς σε αυτά και εξάγονται τα διάϕορα χαρακτηριστικά f, οπότε κάθε video αναπαριστάται ως το σύνολο των χαρακτηριστικών του, και F = f 1, f 2,..., f n. Στη συνέχεια, μέσω ενός αλγορίθμου ομαδοποίησης (clustering), συνήθως των κ-μέσων (k-means), γίνεται η κβάντιση και η δημιουργία ενός πλήθους V «οπτικών λέξεων» (codewords) w i, i = 1,..., V, που δεν είναι παρά ομάδες στις
32 Κεϕάλαιο 2. Εξαγωγή Χαρακτηριστικών, Περιγραϕή και Αναπαράσταση video οποίες έχουν συγκεντρωθεί τα παρόμοια αρχικά διανύσματα χαρακτηριστικών, και του «οπτικού λεξικού» (codebook) W, του συνόλου δηλαδή των codewords που περιγράϕει το σύνολο των διαϕορετικών δεδομένων, W = w 1, w 2,..., w V. Η παραπάνω διαδικασία παρουσιάζεται διαγραμματικά στο Σχήμα 2.3. ομαδοποίηση χώρος χαρακτηριστικών F οπτικές λέξεις οπτικό λεξικό W w 1 w 2 w 3 w 4 Σχήμα 2.3: Η διαδικασία δημιουργίας οπτικού λεξικού. Τέλος, για κάθε video εκπαίδευσης και ελέγχου υπολογίζονται οι εμϕανίσεις όλων των codewords που απαρτίζουν το codebook και δημιουργείται έτσι ένα ιστόγραμμα συχνοτήτων V n, η BoF δηλαδή αναπαράστασή του, όπως ϕαίνεται στο Σχήμα 2.4, όπου n ij = N(w i, f j ) και N(w i, f j ) η συχνότητα εμϕάνισης του codeword w i στο video f j [6, 41].
2.2 Αναπαράσταση video μέσω «Οπτικού Λεξικού» 33 w 1 w 2 video ελέγχου f j w 3 w 4 χώρος χαρακτηριστικών f j κβαντισμός n ij f j ιστόγραμμα συχνοτήτων w i Σχήμα 2.4: BoF αναπαράσταση ενός video.
Κεϕάλαιο 3 Κατηγοριοποίηση Ο όρος κατηγοριοποίηση (Classification) χρησιμοποιείται για να αναϕερθούμε σε μία διαδικασία που κατατάσσει/κατηγοριοποιεί ένα σύνολο αντικειμένων (objects) που συνήθως καλούνται δείγματα ή πρότυπα (patterns), σε ένα σύνολο εκ των προτέρων γνωστών κατηγοριών/κλάσεων (labels/classes) βάσει ενός συνόλου χαρακτηριστικών (features) που συνθέτουν διανύσματα χαρακτηριστικών (feauter vectors). Συγκεκριμένα, κάθε δείγμα προσδιορίζεται μοναδικά από ένα διάνυσμα χαρακτηριστικών και δείγματα των οποίων τα διανύσματα χαρακτηριστικών μοιάζουν, σύμϕωνα με κάποιο μέτρο ομοιότητας ή ανομοιότητας, κατηγοριοποιούνται στην ίδια κλάση, δηλαδή στην ίδια περιοχή του χώρου των χαρακτηριστικών, όπως έχει οριοθετηθεί από την επιϕάνεια απόϕασης (decision surface) που επέλεξε ένας ταξινομητής (classifier) βάσει ενός συνόλου δειγμάτων με γνωστά labels που καλείται σύνολο εκπαίδευσης (training set) και κάποιου κριτηρίου βελτιστοποίησης (optimality criterion) [5, 40]. 3.1 Μηχανή Εδραίων Διανυσμάτων (SVM) Οι Μηχανές Εδραίων Διανυσμάτων ή Διανυσμάτων Υποστήριξης (Support Vector Machines - SVMs) [7] προέκυψαν μέσα από τη Θεωρία Στατιστικής Μάθησης και προ- 35
36 Κεϕάλαιο 3. Κατηγοριοποίηση τάθηκαν για πρώτη ϕορά το 1992. Πρόκειται για δυαδικούς ταξινομητές που στοχεύουν στο διαχωρισμό των δειγμάτων δύο κλάσεων μέσω ενός υπερεπιπέδου ορισμένου από μία γραμμική συνάρτηση και κατάλληλα επιλεγμένου έτσι ώστε να μεγιστοποιείται το περιθώριο μεταξύ αυτού και των κοντινότερων δειγμάτων των δύο κλάσεων, τα οποία είναι και τα μόνα που παίζουν ρόλο στον προσδιορισμό του, και καλούνται Διανύσματα Υποστήριξης (Support Vectors). 3.1.1 Περίπτωση γραμμικώς διαχωρίσιμων κλάσεων Εστω ένα πρόβλημα ταξινόμησης n προτύπων εκπαίδευσης x k, x k R D δύο γραμμικώς διαχωρίσιμων κλάσεων C 1, C 2, για τα οποία ισχύει: y k = 1 x k C 1 y k = 1 x k C 2, (3.1) όπου με y k { 1, 1} συμβολίζεται η ετικέτα της κλάσης (label) στην οποία ανήκει το δείγμα x k. Εϕόσον οι κλάσεις είναι γραμμικώς διαχωρίσιμες, υπάρχουν διάϕορα ζεύγη ενός διανύσματος w και ενός κατωϕλιού b τέτοια ώστε > 0, x k C 1 w T x k + b (3.2) < 0, x k C 2 αν θεωρήσουμε ως γραμμική διαχωριστική επιϕάνεια την D(x) = w T x + b = 0. (3.3) Μόνο ένα όμως από αυτά τα ζεύγη (w, b) ικανοποιεί το κριτηρίο της μεγιστοποίησης του περιθωρίου ταξινόμησης (margin maximization) M που εϕαρμόζεται από τα SVMs και επιβάλει την επιλογή εκείνου του υπερεπιπέδου που ισαπέχει από τα κοντινότερα δείγματα των δύο κλάσεων έχοντας τη μέγιστη δυνατή απόσταση από αυτά. Επομένως,
3.1 Μηχανή Εδραίων Διανυσμάτων (SVM) 37 αν συμβολίσουμε με d 1 και d 2 τα περιθώρια των κοντινότερων δειγμάτων των δύο κλάσεων C 1 και C 2, αντίστοιχα, από την επιϕάνεια (w, b) ισχύει ότι M = d 1 + d 2 d 1 = d 2 M = 2d 1 = 2d 2 (3.4) Επειδή, τώρα, η απόσταση d ενός σημείου από ένα υπερεπίπεδο δίνεται από τη σχέση d = D(x) w (3.5) και λόγω του ότι οι κλιμακώσεις των τιμών των w, b δε μας ενδιαϕέρουν, μπορούμε να θεωρήσουμε ότι τα support vectors βρίσκονται πάνω στις επιϕάνειες για τις οποίες D(x) = 1 και να χρησιμοποιήσουμε τις αντίστοιχες κλιμακώσεις των w, b. Οι σχέσεις (3.5) και (3.4), επομένως γίνονται d = 1 w (3.6) M = 2d = 2 w, (3.7) από όπου είναι προϕανές ότι η μεγιστοποίηση του περιθωρίου M προϋποθέτει την ελαχιστοποίηση του μέτρου του w. Ενα παράδειγμα κατηγοριοποίησης μέγιστου περιθωρίου απεικονίζεται στο Σχήμα 3.1. Η (3.2) μπορεί τώρα να γραϕτεί ως 1, x k C 1 w T x k + b (3.8) 1, x k C 2 και λαμβάνοντας υπόψη και τα labels y k των δειγμάτων x k να μετατραπεί στην για y k = 1 w T x k + b 1 για y k = 1 w T x k + b 1 y k(w T x k + b) 1 y k (w T x k + b) 1 y k(w T x k + b) 1 0. (3.9)
38 Κεϕάλαιο 3. Κατηγοριοποίηση x 2 }support vectors w T x + b = 1 w T x + b = 0 w T x + b = -1 C 1 b w } 1 w C 2 x 1 }M Σχήμα 3.1: Κατηγοριοποίηση των γραμμικώς διαχωρίσιμων κλάσεων προτύπων C 1, C 2 με γραμμικό SVM. Ετσι τελικά προκύπτει ένα πρόβλημα βελτιστοποίησης τετραγωνικού προγραμματισμού με κυρτή αντικειμενική συνάρτηση και γραμμικούς ανισοτικούς περιορισμούς τόσους όσα και τα δείγματα εκπαίδευσης, που μοντελοποιείται μαθηματικά ως minimize J(w) = 1 2 w 2 (3.10) subject to y k (w T x k + b) 1 0. (3.11) Η J είναι κυρτή ως θετικά ορισμένη ενώ οι περιορισμοί ως γραμμικοί είναι και κοίλοι, επομένως ορίζουν μία κυρτή εϕικτή περιοχή για τις λύσεις, που δεν είναι πολλές αλλά μία και μοναδική και αποτελεί ολικό ελάχιστο. Προκειμένου να βρεθεί αυτή η μοναδική λύση, σχηματίζεται η Λαγκραντζιανή του προβλήματος που είναι η L(w, b, α) = 1 n 2 wt w α k (y k (w T x k + b) 1), (3.12) k=1 όπου με α k σημειώνονται οι πολλαπλασιαστές Λαγκράντζ και για να εϕαρμοστεί το θεώρημα Karush-Luhn-Tucker (KKT) [14] και η λύση που θα βρεθεί να είναι όντως η
3.1 Μηχανή Εδραίων Διανυσμάτων (SVM) 39 βέλτιστη, πρέπει: L(w, b, α) w = 0 w L(w, b, α) b n α k y k x k = 0 w = k=1 = 0 n α k y k x k (3.13) k=1 n α k y k = 0 (3.14) k=1 α k [y k (w T x k + b) 1] = 0 k = 1,..., n (3.15) Αντικαθιστώντας την (3.13) στην (3.12) έχουμε L(α) = 1 n n 2 ( α k y k x k ) T ( α j y j x j ) k=1 j=1 α k 0 k = 1,..., n. (3.16) n α k y k x T k k=1 και αν αντικαταστήσουμε και την (3.14) προκύπτει η L(α) = 1 2 = n k=1 n α k α j y k y j x T k x j j n α k 1 2 k=1 n k=1 j=1 k=1 j=1 n α j y j x j + j=1 n α k y k b + k=1 n n n α k α j y k y j x T k x j + b α k y k + k=1 n k=1 α k (3.17) n α k (3.18) k=1 n α k α j y k y j x T k x j (3.19) = 1 T α 1 2 αt Hα, (3.20) όπου 1 T = [1 1... 1 1], H kj = y k y j x T k x j και α = [α 1 α 2... α n ]. Η (3.20) δεν είναι παρά η αντικειμενική συνάρτηση του δυϊκού προβλήματος, που μοντελοποιείται ως maximize J(α) = 1 T α 1 2 αt Hα (3.21) n subject to α k y k = 0, (3.22) k=1 α 0 (3.23) και είναι πιο εύκολο στη λύση του μιας και λόγω του δεύτερου περιορισμού συμμετέχουν στους υπολογισμούς μόνο τα support vectors, που συνήθως είναι λίγα σε αριθμό σε σχέση με το συνολικό πλήθος των προτύπων εκπαίδευσης, ενώ έχοντας υπολογίσει
40 Κεϕάλαιο 3. Κατηγοριοποίηση τον α με απλή αντικατάσταση στη σχέση (3.13) υπολογίζεται το w της διαχωριστικής επιϕάνειας, λύνοντας οποιονδήποτε περιορισμό της μορϕής (3.3) για τον οποίο ισχύει α n 0 υπολογίζεται το b [5, 7, 40] από τη σχέση b = y k w T x k (3.24) και η μετέπειτα κατηγοριοποίηση ενός προτύπου εκπαίδευσης γίνεται ελέγχοντας το πρόσημο της f(x test, w, b) = w T x test + b (3.13) = n α k y k x T k x test + b. (3.25) k=1 3.1.2 Περίπτωση μη-γραμμικώς διαχωρίσιμων κλάσεων Στα περισσότερα πραγματικά προβλήματα, η υπόθεση που έγινε στην προηγούμενη ενότητα, ότι δηλαδή τα πρότυπα των κλάσεων είναι γραμμικώς διαχωρίσιμα δεν ισχύει και επομένως είναι αδύνατο να βρεθεί ένα υπερεπίπεδο της μορϕής (3.3) που να τα διαχωρίζει τέλεια χωρίς να υπάρχουν σϕάλματα στην κατηγοριοποίηση, ή υπάρχουν ακραία πρότυπα που οδηγούν στην επιλογή μιας διαχωριστικής επιϕάνειας με πολύ μικρό περιθώριο, περιορίζοντας έτσι την ικανότητα γενίκευσης του ταξινομητή. Σε αυτές τις περιπτώσεις, χρησιμοποιείται μία παραλλαγή του ταξινομητή μέγιστου περιθωρίου, αυτή του «μαλακού» περιθωρίου (Soft Margin), που προτάθηκε στο [11] και ορίζει ότι εϕόσον δε μπορεί να βρεθεί υπερεπίπεδο που να διαχωρίζει τέλεια τα πρότυπα προς κατηγοριοποίηση, θα επιλέγεται εκείνο το υπερεπίπεδο που επιτυγχάνει το διαχωρισμό με τα λιγότερα δυνατά σϕάλματα κατηγοριοποίησης, μεγιστοποιώντας ταυτόχρονα το περιθώριο μεταξύ των κοντινότερων προτύπων των δύο κλάσεων που μπορούν να κατηγοριοποιηθούν σωστά. Εισάγονται επομένως στο πρόβλημα ένα σύνολο νέων μη-αρνητικών μεταβλητών, ξ k, που καλούνται «χαλαρές» μεταβλητές (slack variables) και εκϕράζουν την απόσταση κάθε εσϕαλμένα κατηγοριοποιημένου προτύπου από την επιϕάνεια πάνω στην οποία βρίσκονται τα support vectors της κλάσης
3.1 Μηχανή Εδραίων Διανυσμάτων (SVM) 41 στην οποία ανήκει, δηλαδή από την περιοχή σωστής κατηγοριοποίησής του και επομένως έχουν μηδενικές τιμές για τα ορθά κατηγοριοποιημένα πρότυπα [5, 11, 40]. Στο Σχήμα 3.2 παρουσιάζεται ένα τέτοιο πρόβλημα με κλάσεις που δεν διαχωρίζονται γραμμικά, ενώ ϕαίνονται και τα δύο ειδών σϕάλματα που μπορεί να προκύψουν κατά την κατηγοριοποίηση και οϕείλονται σε πρότυπα που βρίσκονται στη σωστή πλευρά της επιϕάνειας διαχωρισμού αλλά εντός του περιθωρίου είτε σε πρότυπα που βρίσκονται στην αντίθετη πλευρά της επιϕάνειας διαχωρισμού από αυτή που θα έπρεπε. Για κάθε μία περίπτωση σϕάλματος, σημειώνεται και η ανισοτική σχέση που την εκϕράζει όταν δεν λαμβάνονται υπόψη τα ξ k και οι αντίστοιχες τιμές αυτών. x 2 w T x + b = 1 ξ 5 ξ w T x + b = 0 w T x + b = -1 ξ 1 ξ 2 ξ 3 ξ 8ξ9 6 ξ7 ξ 4 } b C 1 y } k (w T x k + b) = +_ 1 ξ k = 0 } 0 < y k(w T x k + b) < 1 0 < ξ k < 1 } y k(w T x k + b) < 0 ξ k > 1 C 2 1 w w x 1 }M Σχήμα 3.2: Κατηγοριοποίηση προτύπων δύο μη-γραμμικώς διαχωρίσιμων κλάσεων C 1, C 2. Ενσωματώνοντας τις «χαλαρές» μεταβλητές ξ i στην (3.8) και λαμβάνοντας υπόψη
42 Κεϕάλαιο 3. Κατηγοριοποίηση και τα labels y k των δειγμάτων x k προκύπτει ένα σύνολο περιορισμών της μορϕής για y k = 1 w T x k + b 1 ξ k y k (w T x k + b) 1 ξ k για y k = 1 w T x k + b 1 + ξ k y k (w T x k + b) 1 ξ k ξ k 0 k ξ k 0 k y k (w T x k + b) 1 ξ k ξ k 0 k, (3.26) ενώ και στην αντικειμενική συνάρτηση του νέου προβλήματος βελτιστοποίησης εισάγεται ένας επιπλέον όρος που αϕορά στις «χαλαρές» μεταβλητές και δεν είναι παρά το άθροισμά τους πολλαπλασιασμένο με ένα θετικό βάρος, C, που καθορίζει την επιρροή του όρου αυτού στην τελική επιλογή του υπερεπιπέδου απόϕασης. Ζητούμενο πλέον, είναι η ελαχιστοποίηση του μέτρου του w και η ταυτόχρονη διατήρηση του αθροίσματος των «χαλαρών» μεταβλητών σε μία όσο γίνεται μικρότερη τιμή. Το νέο πρόβλημα βελτιστοποίησης, επομένως, μπορεί να εκϕραστεί μαθηματικά ως minimize J(w) = 1 n 2 w 2 + C ξ k (3.27) k=1 subject to y k (w T x k + b) 1 ξ k, (3.28) ξ k 0 k. (3.29) Εϕόσον, όπως προαναϕέρθηκε, για τα επιτυχώς κατηγοριοποιημένα πρότυπα ισχύει ξ k = 0, είναι προϕανές ότι στο άθροισμα ξ k συμμετέχουν μόνο τα εσϕαλμένως κατηγοριοποιημένα πρότυπα, ενώ όσο η τιμή του C αυξάνεται τόσο μεγαλύτερη βαρύτητα δίνεται στο να είναι το πλήθος αυτών μικρό [5, 11, 40]. Και αυτό το πρόβλημα λύνεται παρόμοια με προηγουμένως με τη βοήθεια των πολλαπλασιαστών Λαγκράντζ αϕού γραϕεί ως L(w, b, ξ, α, µ) = 1 n n n 2 wt w + C ξ k α k (y k (w T x k + b) 1 + ξ k ) µ k ξ k (3.30) k=1 k=1 k=1
3.2 Το τέχνασμα του πυρήνα 43 και μετατραπεί στο ισοδύναμο δυϊκό του, maximize J(α) = 1 T α 1 2 αt Hα (3.31) n subject to α k y k = 0, (3.32) k=1 0 α C (3.33) όπου 1 T = [1 1... 1 1], H kj = y k y j x T k x j, α = [α 1 α 2... α n ] και το C θέτει ένα άνω ϕράγμα στις δυνατές τιμές των πολλαπλασιαστών Λαγκράντζ, α. 3.2 Το τέχνασμα του πυρήνα Οταν τα διαθέσιμα δείγματα εκπαίδευσης δεν είναι δυνατό να διαχωριστούν γραμμικά στο χώρο στον οποίο βρίσκονται, και προκειμένου να αποϕευχθεί η αναζήτηση μίας μη-γραμμικής υπερεπιϕάνειας διαχωρισμού, εϕαρμόζεται το «τέχνασμα του πυρήνα» (kernel trick), που δεν είναι παρά η χρήση συναρτήσεων K(x k, x j ) που επιτυγχάνουν έναν μη-γραμμικό μετασχηματισμό Φ( ) των δειγμάτων σε κάποιον Ευκλείδειο χώρο ανώτερης διάστασης όπου θα μπορούν να διαχωριστούν γραμμικά. Το τέχνασμα αυτό προτάθηκε για πρώτη ϕορά το 1964 στο [2] αλλά έγινε ευρέως γνωστό όταν το 1992 εϕαρμόστηκε στον ταξινομητή μέγιστου περιθωρίου [7]. Αντικαθιστώντας τα πρότυπα x k με τους μετασχηματισμούς τους Φ(x k ) στο πρόβλημα (3.31)-(3.33) και ξαναγράϕοντάς το στην αναλυτική του μορϕή γίνεται n maximize J(α) = α k 1 n n α k α j y k y j Φ(x k ) T Φ(x j ) (3.34) 2 subject to k=1 k=1 j=1 n α k y k = 0, (3.35) k=1 0 α C. (3.36) Παρατηρούμε λοιπόν, ότι στους υπολογισμούς τα μετασχηματισμένα πρότυπα εμϕανίζονται σε ζευγάρια και μας ενδιαϕέρουν μοναχά τα εσωτερικά τους γινόμενα, δηλαδή
44 Κεϕάλαιο 3. Κατηγοριοποίηση η ομοιότητά τους. Το γεγονός αυτό είναι ιδιαίτερα βολικό, γιατί, σύμϕωνα με το θεώρημα του Mercer [26], αν ορίσουμε τη συνάρτηση πυρήνα που μετασχηματίζει τα δείγματα με τέτοιο τρόπο ώστε ο πίνακας Kernel της να είναι συμμετρικός και θετικά ημι-ορισμένος, το εσωτερικό γινόμενο στον αρχικό χώρο μπορεί να αναπαρασταθεί ισοδύναμα στο νέο χώρο υψηλότερης διάστασης ως x T k x j = K(x k, x j ) = Φ(x k ) T Φ(x j ) (3.37) και επομένως, αντί να βρούμε τις αναπαραστάσεις των Φ(x k ), Φ(x j ) και έπειτα το εσωτερικό τους γινόμενο στο νέο χώρο, αρκεί να το υπολογίσουμε στον αρχικό χώρο και να μετασχηματίσουμε το αποτέλεσμα [5, 7, 40]. Το τέχνασμα του πυρήνα μπορεί να εϕαρμοστεί σε οποιοδήποτε πρόβλημα μπορεί να εκϕραστεί συναρτήσει εσωτερικών γινομένων των δειγμάτων και κάποιοι πυρήνες που συχνά χρησιμοποιούνται είναι οι ακόλουθοι - Γραμμικός (Linear) ή Εσωτερικό γινόμενο (Inner Product): K(x k, x j ) = x T k x j - Πολυωνυμικός (Polynomial): K(x k, x j ) = (x T k x j + 1) d - Γκαουσιανή Συνάρτηση Ακτινωτής Βάσης (Gaussian Radial Basis Function - RBF): K(x k, x j ) = e γ x k x j 2 - Σιγμοειδής (Sigmoid): K(x k, x j ) = tanh(κx T k x j + ν) - χ 2 (Chi-square): K(x k, x j ) = 1 n (x i k xi j )2 1 i=1 2 (xi k +xi ). j 3.3 Μηχανή Ακραίας Μάθησης (ELM) Η Μηχανή Ακραίας Μάθησης (Extreme Learning Machine - ELM) αποτελεί έναν απλό αλγόριθμο μάθησης που προτάθηκε στο [20] προκειμένου να βελτιώσει το χρόνο
3.3 Μηχανή Ακραίας Μάθησης (ELM) 45 μάθησης των Νευρωνικών Δικτύων Εμπρόσθιας Διάδοσης Σϕάλματος με Ενα Κρυϕό Επίπεδο (Single-Hidden Layer Feedforward Neural Networks - SLFNs). Ας συμβολίσουμε ως {x i, c i }, i = 1,..., N ένα σύνολο N διανυσμάτων x i R D διαθέσιμων για την εκπαίδευση ενός SLFN δικτύου και τα αντίστοιχα labels τους c i {1,..., C}. Το δίκτυο θα αποτελείται από D νευρώνες εισόδου (όση και η διάσταση των διανυσμάτων x i ), L κρυϕούς νευρώνες, συνήθως αρκετά περισσότερους από τον αριθμό των κλάσεων, L C, [19, 21] και C νευρώνες εξόδου (όσο και το πλήθος των κλάσεων που συμμετέχουν στο πρόβλημα κατηγοριοποίησης). Τα διανύσματα επιθυμητής εξόδου του δικτύου t i = [t i1,..., t ic ] T, με το καθένα να αντιστοιχεί σε ένα διάνυσμα εκπαίδευσης x i, τίθενται ίσα με t ik = 1 για τα διανύσματα που ανήκουν στην κλάση k, δηλαδή ισχύει c i = k, ενώ διαϕορετικά τίθενται ίσα με t ik = 1. Στον ELM, πραγματοποιείται τυχαία ανάθεση τιμών τόσο στα βάρη των νευρώνων εισόδου W in R D L όσο και στις τιμές πόλωσης b R L των κρυϕών νευρώνων, ενώ αντίθετα, γίνεται αναλυτικός υπολογισμός των βαρών των νευρώνων εξόδου W out R L C. Αν ως v j, w k, w kj συμβολίσουμε την j-ιοστή στήλη του W in, την k-ιοστή γράμμη του W out και το j-ιοστό στοιχείο του w k, αντίστοιχα, δοθείσης μίας συνάρτησης ενεργοποίησης Φ( ) για το κρυϕό επίπεδο του δικτύου και χρησιμοποιώντας γραμμική συνάρτηση ενεργοποίησης για το επίπεδο εξόδου, η απόκριση o i = [o 1,..., o C ] T του δικτύου που αντιστοιχεί στο x i υπολογίζεται από τη σχέση L o ik = w kj Φ(v j, b j, x i ), k = 1,..., C. (3.38) j=1 Ως συνάρτηση ενεργοποίησης Φ( ) για τον υπολογισμό των εξόδων των νευρώνων του κρυϕού επιπέδου, έχει αποδειχθεί [17, 18, 19] ότι μπορεί να χρησιμοποιηθεί σχεδόν οποιαδήποτε μη-γραμμική κατά διαστήματα συνεχής συνάρτηση, όπως η Σιγμοειδής, η Ημιτονοειδής, η Γκαουσιανή, η RBF, οι σειρές Φουριέ, κ.λ.π. Συγκεντρώνοντας τις εξόδους του κρυϕού επιπέδου του δικτύου ϕ i R L που αντιστοιχούν σε όλα τα διανύσματα εκπαίδευσης x i, i = 1,..., N σε έναν πίνακα Φ = [ϕ 1,..., ϕ N ], η εξίσωση
46 Κεϕάλαιο 3. Κατηγοριοποίηση (3.38) μπορεί να εκϕραστεί σε μορϕή πίνακα ως O = W T outφ, με τον O R C N να αποτελεί έναν πίνακα που περιέχει τις αποκρίσεις του δικτύου για όλα τα δείγματα εκπαίδευσης x i. Ο αναλυτικός υπολογισμός των βαρών των νευρώνων εξόδου του δικτύου μπορεί να πραγματοποιηθεί μέσω της W out = Φ T T, (3.39) όπου Φ = ( ΦΦ T ) 1 Φ είναι ο γενικευμένος ψευδοαντίστροϕος της Φ T και T = [t 1,..., t N ] ο πίνακας με τα διανύσματα στόχους του δικτύου, η απόκριση του οποίου για ένα διάνυσμα x l R D δίνεται από τη σχέση o l = W T outϕ l. (3.40) 3.3.1 KELM Επιτρέποντας μικρά σϕάλματα εκπαίδευσης και επιδιώκοντας την ελαχιστοποίηση της νόρμας των βαρών των νευρώνων εξόδου του δικτύου [19], το W out μπορεί να υπολογιστεί επιλύοντας το πρόβλημα βελτιστοποίησης maximize J P,KELM = 1 2 W out 2 F + c 2 N ξ i 2 2 (3.41) subject to Woutϕ T i = t i ξ i, i = 1,..., N, (3.42) όπου το ξ i R C είναι το διάνυσμα σϕλαμάτων που αντιστοιχεί στο διάνυσμα x i και c είναι μία παράμετρος που καθορίζει τη σημασία του σϕάλματος εκπαίδευσης στο πρόβλημα βελτιστοποίησης. Βάσει του θεωρήματος KKT [14], τα βάρη εξόδου του δικτύου W out μπορούν να προσδιοριστούν λύνοντας το δυϊκό πρόβλημα βελτιστοποίησης i=1 J D,KELM = 1 2 W out 2 F + c 2 N ξ i 2 2 i=1 N ( ) a i W T out ϕ i t i + ξ i, (3.43) i=1 που είναι ισοδύναμο του (3.41). Υπολογίζοντας τις παραγώγους της J D,KELM ως προς τα W out, ξ i και a i και θέτοντάς τες ίσες με το μηδέν, τα βάρη εξόδου του δικτύου
3.3 Μηχανή Ακραίας Μάθησης (ELM) 47 W out, υπολογίζονται μέσω της ( W out = Φ Φ T Φ + 1 ) 1 ( c I T T = Φ K + 1 ) 1 c I T T = ΦBT T, όπου ως K R N N συμβολίζουμε τον πίνακα Kernel του ELM (Kernel Extreme Learning Machine - KELM), με τα στοιχεία του να δίνονται από τον τύπο [K] i,j = ϕ T i ϕ j [19] και B = ( K + 1 c I) 1. Η σχέση (3.40) για τον προσδιορισμό της απόκρισης του δικτύου για ένα διάνυσμα x l R D χρησιμοποιώντας την (3.44) γίνεται o l = W T outϕ l = TB T Φ T ϕ l = TB T k l, (3.44) όπου το k l R N είναι ένα διάνυσμα με στοιχεία που δίνονται από τη σχέση k l,i = ϕ T i ϕ l. Επομένως, η απόκριση του δικτύου μπορεί να υπολογιστεί κάνοντας χρήση μόνο εσωτερικών γινομένων στο χώρο των χαρακτηριστικών F, που προσδιορίζεται από τις εξόδους του κρυϕού επιπέδου του δικτύου. Ο F μπορεί να είναι ένας χώρος αυθαίρετης (ακόμα και άπειρης) διάστασης και οι αποκρίσεις του δικτύου μπορούν υπολογιστούν μόνο μέσω εσωτερικών γινομένων των αναπαραστάσεων των δεδομένων στον F, κωδικοποιημένων μέσω του πίνακα Kernel K.
Κεϕάλαιο 4 Μέθοδοι Ανίχνευσης Φωνητικής Δραστηριότητας Στο παρόν κεϕάλαιο, περιγράϕονται οι δύο προσεγγίσεις που υιοθετήθηκαν για την επίλυση του προβλήματος της Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας στα πλαίσια της παρούσας διπλωματικής εργασίας. Η πρώτη, η οποία απλά δοκιμάζεται σε βάσεις δεδομένων στις οποίες δεν είχε δοκιμαστεί, προτάθηκε στο [35] από ερευνητές του Εργαστηρίου Τεχνητής Νοημοσύνης και Ανάλυσης Πληροϕοριών του Τμήματος Πληροϕορικής του Α.Π.Θ., και εϕαρμόζει αλγορίθμους ανίχνευσης σήματος σε απλοϊκά χαρακτηριστικά σχετιζόμενα με τις τιμές ϕωτεινότητας των εικονοστοιχείων της περιοχής του στόματος ενός ομιλητή. Η δεύτερη, είναι αυτή που ουσιαστικά προτείνεται στην παρούσα διπλωματική εργασία και αϕορά στην αντιμετώπιση του προβλήματος κάνοντας χρήση τεχνικών κατηγοριοποίησης και τρόπων περιγραϕής εικονοσειράς που χρησιμοποιούνται ευρύτατα σε προβλήματα αναγνώρισης κίνησης. 49
50 Κεϕάλαιο 4. Μέθοδοι Ανίχνευσης Φωνητικής Δραστηριότητας 4.1 Ανίχνευση Φωνητικής Δραστηριότητας Βάσει της Φωτεινότητας της Περιοχής του Στόματος Η μέθοδος αυτή, που στο εξής θα καλείται SNP-μέθοδος, δεν κάνει χρήση μοντέλων (model-free method) και βασίζεται στη σημαντική διαϕοροποίηση των τιμών ϕωτεινότητας των εικονοστοιχείων της περιοχής του στόματος που εμϕανίζεται όταν το άτομο μιλάει, καθώς το άνοιγμα του στόματος προκαλεί ραγδαία αύξηση στον αριθμό των εικονοστοιχείων με χαμηλή τιμή ϕωτεινότητας λόγω της αποκάλυψης τμήματος της στοματικής κοιλότητας, και είναι ουσιαστικά μία νέα, ελαϕρώς τροποποιημένη υ- λοποίηση της μεθόδου που είχε αναπτυχθεί και προταθεί στο [35] από ερευνητές του Α.Π.Θ. Δεδομένης μιας εικονοσειράς αποτελούμενης μόνο από εικόνες προσώπων, ή μιας εικονοσειράς για την οποία είναι επίσης διαθέσιμη πληροϕορία ανίχνευσης και παρακολούθησης προσώπων, στην υλοποίηση της προϋπάρχουσας μεθόδου στα πλαίσια της παρούσας διπλωματικής, ο προσδιορισμός της περιοχής του στόματος έγινε βάσει των ιδανικών αναλογιών του ανθρώπινου προσώπου, όπως αυτές έχουν διατυπωθεί από εκπροσώπους της τέχνης ανά τους αιώνες, ξεκινώντας από τους αρχαίους Αιγυπτίους που πρώτοι προσπάθησαν να σχεδιάσουν ανθρώπινες ϕιγούρες με οδηγό ένα πλέγμα οριζόντιων και κατακόρυϕων γραμμών προκειμένου να πετύχουν τις τέλειες αναλογίες, και ϕτάνοντας μέχρι το Leonardo Da Vinci, που εισήγαγε το χωρισμό του ανθρώπινου προσώπου σε πέντε ίσα οριζόντια τμήματα και τρία κάθετα. Οι αναλογίες αυτές και οι κανόνες που τις εκϕράζουν χρησιμοποιήθηκαν αργότερα και από εκπροσώπους του κλάδου της ιατρικής που αποσκοπούσαν στη διόρθωση ατελειών και γενικότερα την αισθητική. Ενας τέτοιος κανόνας πέραν του χωρισμού του προσώπου σε οριζόντια και κατακόρυϕα τμήματα είναι αυτός που ορίζει ότι το
} } 4.1 Ανίχνευση Φωνητικής Δραστηριότητας Βάσει της Φωτεινότητας της Περιοχής του Στόματος 51 κάτω τρίτο του μπορεί να χωριστεί εκ νέου σε τρία ίσα κατακόρυϕα τμήματα, που ο- ριοθετούνται το πρώτο από τη σχισμή που δημιουργείται ανάμεσα στο άνω και το κάτω χείλος και το δεύτερο από το βαθούλωμα μεταξύ του κάτω χείλους και του πιγουνιού [27]. Στο Σχήμα 4.1 επιχειρείται η εϕαρμογή των κανόνων αυτών που χαρακτηρίζουν 1 3 } 2 3 } 1 3 1 9 } 1 5 } 1.5 5 } 1.5 5 Σχήμα 4.1: Διαίρεση του ανθρώπινου προσώπου σε περιοχές και ορισμός της περιοχής του στόματος. το ιδανικό πρόσωπο σε ένα πραγματικό πρόσωπο, που όμως δεν είναι αναλογικά τέλειο και έπειτα ϕαίνεται η περιοχή που χρησιμοποιήθηκε ως στόμα, ενώ στο Σχήμα 4.2 αποτυπώνεται ένα στιγμιότυπο στο οποίο ϕαίνεται η εκτίμηση της θέσης του στόματος που προκύπτει. Εχοντας μετατρέψει τις εικονοσειρές από πραγματικού χρώματος (true colour) σε αποχρώσεων του γκρι (grayscale), αν χρειάζεται, συμβολίζουμε ως x το πλήθος των εικονοστοιχείων που ανήκουν στην περιοχή του στόματος και έχουν τιμή μικρότερη από ένα κατώϕλι t, το οποίο υπολογίζεται βάσει των τιμών ϕωτεινότητας των ίδιων εικονοστοιχείων στο πρώτο καρέ της εικονοσειράς και μεταβάλλεται όταν χρειάζεται. Επομένως, για μία εικονοσειρά αποτελούμενη από M καρέ, δημιουργείται μία διακριτή ακολουθία x[n], n [0, M 1], με το x[n] να λαμβάνει πολύ μεγαλύτερες τιμές και με
52 Κεϕάλαιο 4. Μέθοδοι Ανίχνευσης Φωνητικής Δραστηριότητας μεγαλύτερη διακύμανση όταν υπάρχει ομιλία, συγκριτικά με όταν δεν υπάρχει. Σχήμα 4.2: Προσδιορισμός στόματος βάσει αναλογιών σε αυτόματα ανιχνευμένο πρόσωπο. Θεωρώντας το x[n] μονοδιάστατο σήμα, οι τιμές που παίρνει όταν το στόμα είναι κλειστό αντιμετωπίζονται ως θόρυβος, στόχος επομένως της μεθόδου είναι να λάβει μία απόϕαση σχετικά με το αν υπάρχει μόνο θόρυβος (οπτική σιωπή) ή συνύπαρξη σήματος και θορύβου (οπτική ομιλία). Το πρόβλημα ανίχνευσης, μπορεί λοιπόν να περιγραϕεί ως H 0 : x[n] = w[n], n = 0, 1,..., N 1 H 1 : x[n] = s[n] + w[n], n = 0, 1,..., N 1, όπου w[n] N(0, σ 2 ), s[n] N(µ s, σ 2 s), s[n], w[n] ανεξάρτητες και όμοια κατανεμημένες μεταβλητές (independent and identically distributed - i.i.d.), άρα, μπορεί να γίνει
4.2 Ανίχνευση Φωνητικής Δραστηριότητας ως Πρόβλημα Αναγνώρισης Κίνησης 53 διαχωρισμός του σήματος από το θόρυβο βάσει της μέσης τιμής και της διακύμανσής του. Τα τμήματα όπου υπάρχει ομιλία, μπορούν επομένως να διαχωριστούν από εκείνα στα οποία δεν υπάρχει, μέσω της εϕαρμογής δύο ανιχνευτών, ενός σταθμιστή (averager) T 1 (x) = 1 N 1 x[n] και ενός ανιχνευτή ενέργειας (energy detector) T N 2 (x) = N 1 n=0 x 2 [n] σε ένα κυλιόμενο παράθυρο, που διασχίζει όλη την εικονοσειρά μετακινούμενο n=0 κάθε ϕορά ένα καρέ. Καθένας από τους δύο ανιχνευτές συγκρίνεται με το αντίστοιχο κατώϕλι του, που υπολογίζεται βάσει του θεωρήματος Neyman-Pearson και εξαρτάται από την κατανομή των σιωπηλών καρέ. Αυτή η επαναληπτική διαδικασία, συμβάλει στην εκτίμηση των πραγματικών στατιστικών του θορύβου, οι αρχικές εκτιμήσεις των οποίων υπολογίζονται στο πρώτο καρέ της εικονοσειράς, θεωρώντας ότι σε αυτό δεν υπάρχει ομιλία, αλλά μόνο θόρυβος. Γι αυτό το λόγο, σε περίπτωση που στο πρώτο αυτό καρέ υπάρχει και σήμα ομιλίας, η τελική εκτίμηση των στατιστικών του σήματος του θορύβου θα είναι «προκατειλλημμένη». 4.2 Ανίχνευση Φωνητικής Δραστηριότητας ως Πρόβλημα Αναγνώρισης Κίνησης Προσεγγίζοντας το πρόβλημα της Οπτικής Ανίχνευσης Φωνητικής Δραστηριότητας ως πρόβλημα αναγνώρισης κίνησης (action recognition), αρχικά για την εξαγωγή χαρακτηριστικών από τις εικονοσειρές υιοθετήθηκε η μέθοδος των STIPs ακολουθούμενη από τη μεθοδολογία του «οπτικού λεξικού» για την αναπαράσταση των εικονοσειρών μέσω ιστογραμμάτων σταθερού μήκους ίσου με 2000 για κάθε εικονοσειρά. Τέλος, πραγματοποιήθηκε κατηγοριοποίηση με SVMs και ELM με χρήση πυρήνα χ 2. Η μέθοδος των STIPs εϕαρμόστηκε τόσο σε ολόκληρα τα καρέ των εικονοσειρών όσο και στα κάτω 3/5 αυτών, προκειμένου να επικεντρωθεί η αναζήτηση σημείων
54 Κεϕάλαιο 4. Μέθοδοι Ανίχνευσης Φωνητικής Δραστηριότητας ενδιαϕέροντος στο τμήμα του προσώπου στο οποίο βρίσκεται το στόμα, χωρίς σημαντική αλλαγή στα αποτελέσματα της κατηγοριοποίησης, οπότε υιοθετήθηκε η εξαγωγή σημείων ενδιαϕέροντος από όλη την έκταση των εικόνων προσώπων. Στη συνέχεια, υιοθετήθηκε η εξαγωγή χαρακτηριστικών από όλη την έκταση των προσώπων που απεικονίζονται στις εικονοσειρές ανάλυσης 195 315 εικονοστοιχεία μέσω της μεθόδου Dense Trajectories σε συνδυασμό με Bag of Words μοντέλο και δημιουργία οπτικών λεξικών μεγέθους 2000. Η κατηγοριοποίηση έγινε και πάλι με SVM και ELM με χ 2 πυρήνα.
Κεϕάλαιο 5 Βάσεις Δεδομένων Δύο δημόσια διαθέσιμες βάσεις για Αναγνώριση Ομιλίας, Ανίχνευση Φωνητικής Δραστηριότητας, Αναγνώριση Ομιλητή και άλλα συναϕή προβλήματα, στις οποίες έ- χουν δοκιμαστεί κάποιες από τις μεθόδους της βιβλιογραϕίας παρουσιάζονται συνοπτικά στο κεϕάλαιο αυτό, και στη συνέχεια περιγράϕεται μία νέα βάση προσώπων ατόμων διαϕόρων ηλικιών, σε διάϕορους προσανατολισμούς, που κινούνται ϕυσικά όπως στην καθημερινή ζωή και βρίσκονται τόσο σε εξωτερικούς όσο και εσωτερικούς χώρους. Η βάση αυτή δημιουργήθηκε με δεδομένα ταινιών στα πλαίσια του προγράμματος 3DTV, για λόγους που περιγράϕονται στη συνέχεια μαζί με τον τρόπο δημιουργίας της. 5.1 CUAVE Η CUAVE (Clemson University Audio Visual Experiments) [32] είναι μια ανεξάρτητη από τον ομιλητή βάση μεμονωμένων και συνεχόμενων ψηϕίων (από το 0 έως το 9), αποτελούμενη από δύο μέρη, ένα με ανεξάρτητους ομιλητές και ένα με ζεύγη ομιλητών. Το πρώτο μέρος, σε υποσύνολα του οποίου δοκιμάστηκαν κάποιες από τις μεθόδους της βιβλιογραϕίας καθώς και οι δικές μας, συντίθεται από 36 συνολικά αντιπροσωπευ- 55
56 Κεϕάλαιο 5. Βάσεις Δεδομένων τικούς ομιλητές, 17 γυναίκες και 19 άνδρες με ποικίλες προϕορές, διαϕορετικό χρώμα δέρματος και άλλες ανομοιομορϕίες στην εξωτερική τους εμϕάνιση. Κάθε ομιλητής εκ- Σχήμα 5.1: Ενδεικτικά παραδείγματα μεμονωμένων ομιλητών της βάσης CUAVE. ϕέρει αρχικά 50 μεμονωμένα ψηϕία όντας σε μία σταθερή θέση και στη συνέχεια άλλα 30 κινούμενος αριστερά - δεξιά, μπροστά - πίσω και γέρνοντας το κεϕάλι. Ακολουθούν η εκϕορά 20 μεμονωμένων ψηϕιών με κάθε πλάγια όψη του κεϕαλιού στραμμένη προς την κάμερα και τέλος 60 συνεχόμενων ψηϕίων σε ακολουθίες παρόμοιες με αυτές των τηλεϕωνικών αριθμών, οι μισές με κίνηση και οι υπόλοιπες χωρίς, με το κεϕάλι όμως στραμμένο ευθεία προς την κάμερα. Κάποια ενδεικτικά παραδείγματα ομιλητών της Σχήμα 5.2: Παράδειγμα ζεύγους ομιλητών της βάσης CUAVE. βάσης παρουσιάζονται στο Σχήμα 5.1.
5.2 GRID 57 Στο δεύτερο μέρος, τα 20 ζεύγη των ομιλητών εκϕέρουν άλλοτε συνεχόμενα ψηϕία εναλλάξ και άλλοτε μεμονωμένα ψηϕία επικαλύπτοντας μερικώς ο ένας τον άλλο. Οπως ϕαίνεται και στο Σχήμα 5.2 όλες οι καταγραϕές έχουν γίνει μπροστά σε ένα πράσινο ϕόντο. 5.2 GRID Η συλλογή GRID [10], αποτελείται από 34000 συνολικά ϕράσεις, τις οποίες έχουν εκϕέρει 34 ομιλητές όντας ακίνητοι μπροστά σε ένα μπλε ϕόντο. Οι ϕράσεις αυτές είναι σύντομες, απλές, με πανομοιότυπη συντακτική δομή και ακολουθούν το πρότυπο «εντολή»(4) «χρώμα»(4) «πρόθεση»(4) «γράμμα του λατινικού αλϕαβήτου εκτός του w»(25) «ψηϕίο»(10) «επίρρημα»(4), με τους αριθμούς εντός παρενθέσεων να υ- ποδηλώνουν το πλήθος των δυνατών επιλογών για κάθε στοιχείο. Κάθε ομιλητής, Σχήμα 5.3: Τρεις από τους ομιλητές της βάσης GRID. εκϕέρει 1000 τέτοιες ϕράσεις στις οποίες εμϕανίζονται όλοι οι δυνατοί συνδυασμοί των
58 Κεϕάλαιο 5. Βάσεις Δεδομένων «λέξεων κλειδιών», που είναι τα στοιχεία χρώμα, γράμμα και ψηϕίο, και κατάλληλα ε- πιλεγμένα μέλη των άλλων στοιχείων. Για τις 16 γυναίκες και τους 18 άνδρες ομιλητές που συμμετείχαν στην δημιουργία της βάσης, η Αγγλική ήταν η μητρική τους γλώσσα, είχαν ζήσει κυρίως στην Αγγλία, με ελάχιστες εξαιρέσεις, και ήταν σπουδαστές ή εργαζόμενοι στο τμήμα Επιστήμης των Υπολογιστών και Ανθρώπινης Επικοινωνίας του πανεπιστημίου του Sheffield. Οι τρεις ομιλητές που χρησιμοποιήθηκαν στα πειράματα που πραγματοποιήθηκαν απεικονίζονται στο Σχήμα 5.3. 5.3 3DTVS Στις περισσότερες δημόσια διαθέσιμες βάσεις για VAD οι ομιλητές είναι ακίνητοι, ή σχεδόν ακίνητοι μπροστά σε ένα απλοϊκό, μονόχρωμο ϕόντο. Για το λόγο αυτό, επιχειρήθηκε η δημιουργία μιας πιο απαιτητικής βάσης, οι καταγραϕές της οποίας προσομοιάζουν στο μέγιστο δυνατό βαθμό την πραγματικότητα. Ετσι, δημιουργήθηκε μία νέα βάση, αποτελούμενη από εικονοσειρές προσώπων που έχουν εξαχθεί από τις τρεις 3D ταινίες Hugo, Drive Angry και Pirates Of The Carribean μετά από πλήρως αυτόματη ανίχνευση και παρακολούθηση προσώπων σε αυτές, μέσω των αντίστοιχων ρουτινών του Video Content Analysis Tool, που αναπτύχθηκε επίσης από ερευνητές του Α.Π.Θ. στα πλαίσια του προγράμματος 3DTVS. Η πρωτοτυπία της βάσης αυτής, έγκειται στο ότι σε αυτή εμϕανίζονται πρόσωπα ατόμων διαϕόρων ηλικιών, σε διάϕορους προσανατολισμούς και με ϕυσική κίνηση, όπως στην καθημερινή ζωή, ενώ υπάρχουν λήψεις τόσο σε εξωτερικούς όσο και εσωτερικούς χώρους. Αρχικά οι εικονοσειρές εξήχθησαν σε διάϕορες αναλύσεις, ξεκινώντας από πιο μικρές όπως οι 60 80, 100 145, 120 160 και προχωρώντας στις μεγαλύτερες 195 315 και 562 539 προκειμένου να βρεθεί η καταλληλότερη ανάλυση για τη διεξαγωγή των πειραμάτων, και έπειτα από κάποιες δοκιμές, επιλέχθηκε τελικά ως ανάλυση της βάσης
5.3 3DTVS 59 αυτή των 195 315 εικονοστοιχείων. Στη συνέχεια, λόγω του ότι τα αρχικά video χαρακτηρίζονταν από έντονο τρεμόπαιγμα (flickering) που οϕειλόταν σε αστάθειες της παρακολούθησης των προσώπων και θα μπορούσε να επηρεάσει τα αποτελέσματα των πειραμάτων, μιας και βασίζονται στη χρήση περιγραϕέων κίνησης (motion descriptors), εξήχθη ένα νέο σύνολο video. Κατά τη δημιουργία της νέας αυτής βάσης ακολουθήθηκε μία διαϕορετική προσέγγιση για τη εξαγωγή των video. Συγκεκριμένα, αντί να Σχήμα 5.4: Ενδεικτικά καρέ της βάσης 3DTVS και τα αντίστοιχά τους στη βάση 3DTVS 2. χρησιμοποιούνται ως καρέ οι Περιοχές Ενδιαϕέροντος (Regions of Interest - ROIs) που προέκυπταν από την ανίχνευση και μετέπειτα την παρακολούθηση των προσώπων