Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε Ρ ΓΑ Σ Ι Α ΕΛΛΗΝΙΚΟΣ ΤΙΤΛΟΣ: «ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΜΕΣΩ ΟΜΙΛΙΑΣ ΚΑΙ ΕΚΦΡΑΣΕΩΝ ΠΡΟΣΩΠΟΥ ΣΕ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ» ENGLISH TITLE: REVIEW OF REAL-TIME EMOTION RECOGNITION FROM SPEECH AND FACIAL EXPRESSIONS AND THEIR APPLICATION IN THE EDUCATIONAL PROCESS «ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ ΑΙΚΑΤΕΡΙΝΗ 1652 ΜΠΟΥΛΙΤΣΑΚΗ ΝΙΚΟΛΕΤΑ 1681»

2 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΤΣΙΑΤΣΟΣ ΘΡΑΣΥΒΟΥΛΟΣ-ΚΩΝΣΤΑΝΤΙΝΟΣ, ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΙΚΗ

3

4

5

6

7 ΠΕΡΊΛΗΨΗ Π Ε Ρ Ι Λ Η Ψ Η Λόγω της αυξανόμενης μελέτης στα ανθρώπινα συναισθήματα τα τελευταία χρόνια, γίνεται αντιληπτή η μεγάλη σημασία της επίγνωσης τους σε πολλούς επιστημονικούς τομείς. Αναπτύχθηκαν πολλές θεωρίες συναισθημάτων, κάποιες που θεωρούν τα συναισθήματα διακριτές καταστάσεις και άλλες που τα τοποθετούν πάνω σε άξονες, τονίζοντας έτσι την συσχέτιση που υπάρχει ανάμεσα τους. Ο σημαντικότερος ερευνητής των συναισθημάτων είναι ο Ekman, σύμφωνα με τον οποίο υπάρχουν έξι βασικά συναισθήματα που εμφανίζονται σε όλους του ανθρώπους και εκφράζονται με τις ίδιες εκφράσεις του προσώπου. Η θεωρία των συναισθημάτων ωστόσο δεν θα μπορούσε να λείψει από την επιστήμη της Πληροφορικής και πιο συγκεκριμένα από την επικοινωνία ανθρώπου-μηχανής. Έτσι, ένα νέο πεδίο δημιουργείται, της συναισθηματικής υπολογιστικής, που αναπτύσσει συστήματα και συσκευές που αναγνωρίζουν, ερμηνεύουν και επεξεργάζονται τα ανθρώπινα συναισθήματα με στόχο την κατάλληλη ερμηνεία και δράση. Η αναγνώριση των συναισθημάτων γίνεται συνήθως με τρεις τρόπους, από τα φυσιολογικά σήματα μέσω αισθητήρων, από την ομιλία και από τις εκφράσεις του προσώπου. Η αναγνώριση των συναισθημάτων από την ομιλία πραγματοποιείται με την επεξεργασία του ηχητικού σήματος, την εξαγωγή χαρακτηριστικών γνωρισμάτων και την ταξινόμηση σε συναισθηματικές καταστάσεις. Με παρόμοιο τρόπο εξάγονται χαρακτηριστικά του προσώπου από τις εκφράσεις που παίρνουν τα μάτια, τα φρύδια, το στόμα και η μύτη και ο συνδυασμός αυτών οδηγεί στην συναισθηματική κατάσταση των ατόμων. Δύο από τις πιο διαδεδομένες τεχνικές μέτρησης και συμπεριφοράς του προσώπου είναι το σύστημα FACS και το MPEG-4. Για την ταξινόμηση των χαρακτηριστικών σε συναισθηματικές καταστάσεις σημαντικό ρόλο παίζουν οι ταξινομητές και οι επιδόσεις τους κυρίως στην αναγνώριση σε πραγματικό χρόνο. Τέλος η αναγνώριση των συναισθημάτων κρίνετε αναγκαία στην εκπαιδευτική διαδικασία. Μπορεί να συμβάλει στην καλύτερη σχεδίαση εκπαιδευτικών εργαλείων, στην ανάπτυξη λογισμικών με κατάλληλη ανάδραση ανάλογα με τα συναισθήματα των χρηστών καθώς και στην βελτίωση της συνεργατικής μάθησης. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ VII

8

9 ABSTRACT A B S T R A C T Due to the growing study of the human emotions in recent years, is perceived the great importance in many scientific fields. Many theories of emotions have developed, some of them consider the emotions distinct states and others place them on pillars, emphasizing the association that exists between them. The major researcher of emotions is Ekman, according to him there are six basic emotions which occur all people and expressed with the same facial expressions. However, the theory of emotions could not miss from Computer Science and particularly from the humanmachine communication. So, a new field has created, emotional computing, which develops systems and devices that recognize, interpret and process human emotions with the view to the appropriate interpretation and action. The recognition of emotion is usually done with three ways, by physiological signal by sensing, by speech and by facial expressions. The recognition of emotion from speech performed by the processing of the audio signal, feature extraction and classification in emotional states. Similarly extracted facial features of the expressions of the eyes, eyebrows, mouth and nose. The combination of these leads to the emotional state. Two of the most widely used measurement techniques of face is the system FACS and the MPEG-4. Classifiers and their performance have an important role to the classification of features in emotional states, mainly to real-time recognition. Finally, the recognition of emotions deem necessary to the educational process. It can help to design better educational tools, to develop software with the appropriate feedback depending on the emotions of users and to improve collaborative learning. ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ IX

10

11 ΕΥΧΑΡΙΣΤΊΕΣ Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Πριν την παρουσίαση των αποτελεσμάτων της παρούσας εργασίας, αισθανόμαστε την υποχρέωση να ευχαριστήσουμε ορισμένους από τους ανθρώπους που γνωρίσαμε, συνεργαστήκαμε μαζί τους και έπαιξαν πολύ σημαντικό ρόλο στην πραγματοποίησή της. Ευχαριστούμε πολύ για την συνεργασία τους τον κ. Τσιάτσο Θρασύβουλο, Επ. Καθηγητή του Τμήματος Πληροφορικής ΑΠΘ που επέβλεψε την εργασία και τον κ. Αποστολίδη Ιπποκράτη, Υποψήφιο Διδάκτορα του Τμήματος Πληροφορικής ΑΠΘ για την βοήθεια που μας προσέφερε καθ όλη την διάρκεια της εκπόνησης της εργασίας μας. < > Καραγιαννακίδου Αικατερίνη Μπουλιτσάκη Νικολέτα ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ XI

12

13 ΠΕΡΙΕΧΌΜΕΝΑ Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΠΕΡΙΛΗΨΗ... VII EXECUTIVE SUMMARY... ERROR! BOOKMARK NOT DEFINED. ΕΥΧΑΡΙΣΤΙΕΣ... XI ΠΕΡΙΕΧΟΜΕΝΑ... XIII ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ... XVIIΙΙ ΛΙΣΤΑ ΠΙΝΑΚΩΝ... XXI ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 2: ΣΥΝΑΙΣΘΗΜΑ:ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ... ERROR! BOOKMARK NOT DEFINED ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ-ΔΙΑΦΟΡΙΚΟΙ ΟΡΙΣΜΟΙ ΘΕΩΡΙΕΣ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΕΚΦΡΑΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ...34 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΕΝΝΟΙΟΛΟΓΙΚΟΣ ΟΡΙΣΜΟΣ ΤΟΜΕΙΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΥΠΟΒΑΘΡΟ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΥΠΟΛΟΓΙΣΤΙΚΗΣ..42 ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ XIII

14 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ ΥΠΟΛΟΓΙΣΤΙΚΑ ΜΟΝΤΕΛΑ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΕΥΦΥΕΙΣ ΠΡΑΚΤΟΡΕΣ ΜΟΝΤΕΛΟ FEARNOT ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΚΑΤΑΣΤΑΣΗΣ ΦΥΣΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΦΥΣΙΟΛΟΓΙΚΟΙ ΔΕΙΚΤΕΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΟ ΠΟΝΤΙΚΙ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΑΠΟ ΦΥΣΙΟΛΟΓΙΚΑ ΣΗΜΑΤΑ ΜΕΘΟΔΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΣΕ ΣΥΝΑΙΣΘΗΜΑΤΙΚΕΣ ΚΑΤΑΣΤΑΣΕΙΣ...52 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΤΗΝ ΟΜΙΛΙΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΜΕ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΟΜΙΛΙΑ ΚΑΤΗΓΟΡΙΕΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Η ΔΗΜΙΟΥΡΓΙΑ ΕΤΙΚΕΤΩΝ ΣΤΙΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΔΕΙΓΜΑ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΕ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΟΜΙΛΙΑ ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΤΟΥ ΗΧΟΥ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΤΑΞΙΝΟΜΗΤΕΣ ΣΤΑΤΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΥΝΑΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΣΥΓΚΡΙΣΗ ΤΑΞΙΝΟΜΗΤΩΝ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΜΕΣΩ ΑΝΑΛΥΣΗΣ ΠΡΟΣΩΠΟΥ ΕΜΨΥΧΩΣΗ ΕΚΦΡΑΣΕΩΝ ΣΕ ΣΥΝΑΙΣΘΗΜΑΤΙΚΑ ΜΟΝΤΕΛΑ ΠΡΟΣΩΠΟΥ ΚΥΡΙΟΤΕΡΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΣΤΑ ΣΥΣΤΗΜΑΤΑ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΜΕΣΩ ΠΡΟΣΩΠΟΥ ΤΕΧΝΙΚΕΣ ΕΜΨΥΧΩΣΗΣ: FACS ΚΑΙ MPEG ΤΕΧΝΙΚΕΣ ΑΝΑΓΝΩΡΙΣΗΣ ΕΚΦΡΑΣΕΩΝ ΣΤΑΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΗΜΙΣΤΑΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΔΥΝΑΜΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ...96 XIV

15 ΠΕΡΙΕΧΌΜΕΝΑ ΕΚΦΡΑΣΕΙΣ ΠΡΟΣΩΠΟΥ-ΑΝΙΧΝΕΥΣΗ ΠΡΟΣΩΠΟΥ, ΚΑΤΑΤΜΗΣΗ, ΕΞΑΓΩΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΗΜΕΙΩΝ ΑΝΙΧΝΕΥΣΗ ΠΡΟΣΩΠΟΥ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ: ΜΑΘΗΜΑΤΙΚΟ ΥΠΟΒΑΘΡΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΚΑΙ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΣΗΜΕΙΩΝ ΠΡΟΣΩΠΟΥ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΗΜΕΙΑ ΠΡΟΣΩΠΟΥ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΣΗΜΕΙΩΝ ΠΡΟΣΩΠΟΥ ΕΞΑΓΩΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΗΜΕΙΩΝ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΗΜΕΙΩΝ ΤΑΞΙΝΟΜΗΣΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ-ΓΕΝΙΚΟΙ ΧΡΗΣΙΜΟΠΟΙΟΥΜΕΝΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΣΥΜΠΕΡΑΣΜΑΤΑ-ΑΞΙΟΛΟΓΗΣΕΙΣ ΜΕΘΟΔΩΝ ΚΑΙ ΤΑΞΙΝΟΜΗΤΩΝ ΚΕΦΑΛΑΙΟ 5 : ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΑ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΜΑΘΗΣΗΣ ΤΟ ΣΥΝΑΙΣΘΗΜΑΤΙΚΟ ΚΥΚΛΙΚΟ ΜΟΝΤΕΛΟ ΤΟΥ RUSSELL ΤΟ ΜΑΘΗΣΙΑΚΟ ΣΠΕΙΡΟΕΙΔΕΣ ΜΟΝΤΕΛΟ ΤΟΥ KORT Η ΕΠΙΔΡΑΣΗ ΤΩΝ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΑΝΑΓΚΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ ΣΤΗΝ ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΣΗ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΗΝ ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΣΗ ΑΠΟ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ΚΑΙ ΤΗΝ ΟΜΙΛΙΑ ΠΡΟΤΕΙΝΟΜΕΝΑ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΩΝ ΣΤΗΝ ΒΙΒΛΙΟΓΡΑΦΙΑ ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΑΡΑΡΤΗΜΑ I: ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ ΙΙ: ΑΚΡΩΝΥΜΑ ΠΑΡΑΡΤΗΜΑ ΙΙΙ: ΓΛΩΣΣΑΡΙΟ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ XV

16 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ ΠΑΡΑΡΤΗΜΑ IV: ΕΥΡΕΤΗΡΙΟ XVI

17 ΛΊΣΤΑ ΣΧΗΜΆΤΩΝ Λ Ι Σ Τ Α Σ Χ Η Μ ΑΤ Ω Ν Εικόνα 1:Βασικές ανθρώπινες εκφράσεις: (a) λύπη, (b) θυμός, (c) χαρά, (d) φόβος, (e) απέχθεια, (f) έκπληξη...35 Εικόνα 2:Περιοχές συναισθηματικής υπολογιστικής...41 Εικόνα 3:Διάγραμμα ιεραρχικής ταξινόμησης πρακτόρων...43 Εικόνα 4:Φυσιολογικά μέτρα ανάλογα με τα όργανα του σώματος και οι αντίστοιχοι αισθητήρες...47 Εικόνα 5:Electromyography...47 Εικόνα 6:galvanic skin response...48 Εικόνα 7:Blood Volume Pulse...48 Εικόνα 8:Ηλεκτροκαρδιογράφημα...49 Εικόνα 9:Electroencephalography...50 Εικόνα 10:Respiration Rate...51 Εικόνα 11:Συναισθηματικό Ποντίκι...51 Εικόνα 12:Σύστημα αναγνώρισης συναισθημάτων από την φωνή...56 Εικόνα 13:Κατηγορίες συναισθηματικών βάσεων και η πολυπλοκότητα/δυσκολίες τους...59 Εικόνα 14:Έρευνα σχεδίασης του Smart-Mobile σεναρίου...62 Εικόνα 15:Συναισθηματικές μονάδες...63 Εικόνα 16:Αναπαράσταση του ηχητικού σήματος με κυματομορφή και φασματογράφημα...65 Εικόνα 17:Παραδείγματα καμπυλών της θεμελιώδους συχνότητας στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...66 Εικόνα 18:Παραδείγματα καμπυλών των συχνοτήτων F1 και F2 στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...66 Εικόνα 19:Παραδείγματα καμπυλών της ενέργεια της ομιλίας στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...68 Εικόνα 20:Οι φασματικές συχνότητες στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...69 Εικόνα 21:Αναπαράσταση των MFCC συντελεστών στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...70 ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ XVII

18 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 22:Παραδείγματα χρόνων των γλωπίδικων παλμών στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα...71 Εικόνα 23:Τα τέσσερα βήματα επιλογής χαρακτηριστικών φωνής...72 Εικόνα 24:Οι φορείς υποστήριξης, s1,s2 και s3 για ένα ταξινομητή SVM μεγιστοποιούν την απόσταση ανάμεσα σε 2 τάξεις. Η μπλε γραμμή δείχνει το μέγιστο υπερεπίπεδο...74 Εικόνα 25:Βέλτιστη ευθυγράμμιση των συναισθημάτων χρησιμοποιώντας ML- SVM...75 Εικόνα 26:Η δομή ενός MLP...76 Εικόνα 27:Το μοντέλο HMM με τρεις καταστάσεις και όλα τα είδη σύνδεσης...78 Εικόνα 28:Εκφραστικές περιοχές οριζόμενες για το πρωτογενή επιφανειακό χαρακτηριστικό του προσώπου...86 Εικόνα 29: Ατομικές όψεις μοντέλου προσώπου...87 Εικόνα 30:Δείγματα ακολουθιών μοντέλου για μια έκφραση προσώπου...87 Εικόνα 31:Το FACS λαμβάνει υπόψη τους μύες που αλλάζουν την «εμφάνιση» του προσώπου...88 Εικόνα 32:Ορισμός των feature points στο MPEG Εικόνα 33:Μονάδες κίνησης των χαρακτηριστικών προσώπου...92 Εικόνα 34:Η αρχιτεκτονική ενός γενικού συστήματος αναγνώρισης προσώπου Εικόνα 35:Τετραγωνικά χαρακτηριστικά, τοποθετημένα μέσα στο παράθυρο σάρωσης. Τα συνολικά pixels των λευκών τετραγώνων αφαιρούνται από τα pixels των γκρι. ΑΙ και Α2:Two-rectangle features, A3 και Α4: Three-rectangle feature, Α5: four-rectangle feature. Α6:κεντρικά περικυκλωμένο χαρακτηριστικό, Β rectangle: παραδείγματα από συμμετρικά rectangle ως προς τον y- άξονα Εικόνα 36:Integral image:(α):pixel με συντεταγμένες (x,y) έχει τιμή το άθροισμα των pixels, που είναι πάνω και αριστερά του (χ, y). (Β):Το σύνολο των pixels του τετραγώνου D μπορεί να υπολογιστεί από το integral image σαν χ 4 -χ 2 - χ 3 +χ Εικόνα 37:Πάνω: Τα eigenfaces κου αντιστοιχούν στις 8 μεγαλύτερες ιδιοτιμές. Κάτω: Τα eigenfaces κου αντιστοιχούν σε 8 χαμηλές ιδιοτιμές Εικόνα 38:Η συνολική διασπορά του πληθυσμού δεν σημαίνει αναγκαστικά και διασπορά των επιμέρους κλάσεων Εικόνα 39:Εικόνα σύνθεσης μοντέλου προσώπου Εικόνα 40:Τα 16 σημεία του προσώπου που εντοπίζονται αυτόματα Εικόνα 41:(Α):Υπολογισμός περιοχής στόματος με βάση την ID, (Β): Ανίχνευση ακμών (λευκά pixels) στην περιοχή του στόματος Εικόνα 42:Το σύστημα συντεταγμένων του προσώπου Εικόνα 43:Πρόσωπα που χρησιμοποιούνται στο σύνολο των θετικών δειγμάτων..131 Εικόνα 44:Τεχνητώς δημιουργούμενα εικονικά δείγματα προσώπων XVIII

19 ΕΙΣΑΓΩΓΉ Εικόνα 45:Μη-πρόσωπα που χρησιμοποιούνται στο σύνολο των αρνητικών δειγμάτων Εικόνα 46:Περίπτωση ομαδοποίησης των διανυσμάτων 2 κλάσεων σε ένα cluster σε 2-D χώρο. Το νέο στοιχείο Χ θα ταξινομηθεί σωστά εφόσον η κλάση 1 διαχωριστεί σε 2 clusters όπως δείχνει η εικόνα 47, αλλίως θα ταξινομηθεί στην κλάση Εικόνα 47:Περίπτωση δημιουργίας 2 clusters για την κλάση 1. Το νέο στοιχείο Χ θα ταξινομηθεί στην κλάση Εικόνα 48:2-D γραμμικώς διαχωρίσιμα δείγματα Εικόνα 49:2-D γραμμικώς μη-διαχωρίσιμα δείγματα Εικόνα 50:Διάγραμμα του ταξινομητή HMM Εικόνα 51:(Α) Αποτελέσματα ορθής και (Β) λανθασμένης ταξινόμησης με χρήση HMM, μετά από προβολή στο χώρο activation - evaluation Εικόνα 52:Νευρωνικώς ταξινομητής πλέγματος και διατεταγμένης σειράς Εικόνα 53:Παράδειγμα δισδιάστατων κατανομών δεδομένων και των αντίστοιχων πρωτευόντων και ανεξάρτητων αξόνων Εικόνα 54:Ένα παράδειγμα των βασικών μαθησιακών συναισθημάτων Εικόνα 55:Το σπειροειδές μοντέλο του Kort Εικόνα 56:Εφαρμογή της συναισθηματικής υπολογιστικής στην ηλεκτρονική μάθηση Εικόνα 57:Μοντέλο συναισθηματικής μάθησης Εικόνα 58:Αρχιτεκτονική συστήματος Ashish Kapoor &Rosalind W. Picard Εικόνα 59:Μοντέλο εξαγωγής χαρακτηριστικών προσώπου του συστήματος Ashish Kapoor & Rosalind W. Picard Εικόνα 60:Μοντέλο εξαγωγής των στάσεων του σώματος του συστήματος Ashish Kapoor &Rosalind W. Picard Εικόνα 61:Η πλατφόρμα του ERMIS Εικόνα 62:Ευτυχής χαρακτήρας SAL που επικοινωνεί μ έναν χρήστη Εικόνα 63:Ασθενής «ζωσμένος» με την συσκευή καταγραφής κίνησης του emopain Εικόνα 64:Αρχιτεκτονική συστήματος emo-pain XIX

20

21 ΛΊΣΤΑ ΠΙΝΆΚΩΝ Λ Ι Σ Τ Α Π Ι Ν Α Κ Ω Ν Πίνακας 1:Χαρακτηριστικά εκφράσεων...36 Πίνακας 2:Συναιασθηματικές προσεγγίσεις και ποσοστά αναγνώρισης...46 Πίνακας 3:Έρευνες στην αναγνώριση των συναισθημάτων από την ομιλία...79 Πίνακας 4:FACS Action Unit...89 Πίνακας 5:Παραδείγματα από συνδυασμούς FACS Action Unit...89 Πίνακας 6:Μονάδες μέτρησης των FAPS...93 Πίνακας 7:Ομαδοποίηση των FAPS...94 Πίνακας 8:Παράμετροι άνω μέρους προσώπου. Στις τιμές των παραμέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιμή στο ουδέτερο frame Πίνακας 9:Παράμετροι κάτω μέρους προσώπου. Στις τιμές των παραμέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιμή στο ουδέτερο frame Πίνακας 10:Αποτελέσματα ανίχνευσης προσώπου με τη μέθοδο Stump-based Gentle AdaBoost Πίνακας 11:Αποτελέσματα ανίχνευσης προσώπου με τη μέθοδο CART-based Gentle AdaBoost XΧΙ

22

23 ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ XXIII

24

25 Κ Ε Φ Α Λ Α Ι Ο 1 : Ε Ι Σ Α Γ Ω Γ Η

26

27 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΉ ΕΙΣΑΓΩΓΗ Αντικείμενο της παρούσας εργασίας είναι η υλοποίηση μιας βιβλιογραφικής επισκόπησης για την αναγνώριση των συναισθημάτων μέσω της ομιλίας και των εκφράσεων του προσώπου καθώς και την εφαρμογή ενός τέτοιου συστήματος στην εκπαιδευτική διαδικασία. Πιο συγκεκριμένα σκοπός της είναι να ερευνηθούν θεωρίες, μέθοδοι, αλγόριθμοι και συστήματα για την συναισθηματική αναγνώριση και πως αυτά θα μπορέσουν να ενσωματωθούν και να αξιοποιηθούν από εκπαιδευτικά συστήματα κυρίως εξ αποστάσεως και συνεργατικά. Η ανάγκη ενσωμάτωσης της συναισθηματικής αναγνώρισης σε εκπαιδευτικές διαδικασίες όπως μάθησης εξ αποστάσεως, ηλεκτρονική μάθησης, και συνεργατική μάθησης είναι μεγάλη. Τα συναισθήματα τα οποία αναπτύσσουν οι εκπαιδευόμενοι κατά την διάρκεια της μάθησης μπορούν να επηρεάσουν τον τρόπο σκέψης, την λήψη αποφάσεων, την συγκέντρωση τους και κατά συνέπεια την ίδια την μάθηση. Οι πληροφορίες που συλλέγονται από τέτοια συστήματα θα μπορούσαν αρχικά να βοηθήσουν τον ίδιο τον μαθητή άμεσα καθώς και τον εκπαιδευτικό που θα μπορεί πλέον να γνωρίζει την συναισθηματική κατάσταση του παιδιού. Επίσης θα βοηθούσαν στην σχεδίαση τέτοιων εκπαιδευτικών συστημάτων και στην προσαρμογή τους ανάλογα με το συναίσθημα. Η εργασία δομείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2 αναφέρονται η έννοια του συναισθήματος και οι σημαντικότερες θεωρίες συναισθημάτων έτσι όπως εξελίχθηκαν στον χρόνο καθώς και το πώς μπορούν τα συναισθήματα να καθρεπτίζονται στην ψυχολογία, στα φυσικά όργανα και τις εκφράσεις του προσώπου. Στο Κεφάλαιο 3 αναφέρεται η έννοια της συναισθηματικής υπολογιστικής και οι εφαρμογές Ο τομέας της συναισθηματικής υπολογιστικής ασχολείται με την μοντελοποίηση των θεωριών του συναισθήματος, την ενσωμάτωση της συναισθηματικής αναγνώρισης σε συστήματα καθώς και την ανάκτηση και την επεξεργασία είτε της φωνής, είτε του προσώπου, είτε των φυσιολογικών σημάτων για την αναγνώριση της συναισθηματικής κατάστασης. Τέλος, γίνεται μια ανάλυση της συναισθηματικής αναγνώρισης από φυσιολογικά σήματα. Στο Κεφάλαιο 4 γίνεται μία λεπτομερής ανάλυση της συναισθηματικής αναγνώρισης από την ομιλία και τις εκφράσεις του προσώπου. Προσδιορίζονται οι σημαντικότεροι μέθοδοι, αλγόριθμοι και συστήματα για την κάθε μία κατηγορία αναγνώρισης. Επίσης γίνεται μια προσπάθεια σύγκρισης των μεθόδων αυτών. Στο Κεφάλαιο 5 παρουσιάζονται η ανάγκη συναισθηματικής αναγνώρισης στην εκπαίδευση, η συναισθηματική υπολογιστική στα εκπαιδευτικά περιβάλλοντα ηλεκτρονικής μάθησης καθώς και κάποια διαδεδομένα συστήματα όπου η συναισθηματική αναγνώριση λαμβάνει χώρο στις εκπαιδευτικές διαδικασίες. Στο Κεφάλαιο 6 συνοψίζονται τα συμπεράσματα από κάθε κεφάλαιο αυτής της εργασίας και παρουσιάζεται το κύριο συμπέρασμα σύμφωνα πάντα με τον αρχικό σκοπό της παρούσας εργασίας. Έτσι γίνεται γνωστή η μεγάλη ανάγκη ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 27

28 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ της συναισθηματικής αναγνώρισης στην εκπαίδευση. Οι τρεις προσεγγίσεις (αναγνώριση της ομιλίας, των εκφράσεων του προσώπου και των φυσιολογικών σημάτων) μοιάζουν κατάλληλες ανάλογα με τον συνδυασμό τους. Ένα πολυμοντελικό σύστημα όμως φαίνεται πως καταλαμβάνει τα μεγαλύτερα ποσοστά ακριβείας και αποδοτικότητας. Στο Παράρτημα I παρουσιάζονται η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτημα IΙ παρουσιάζονται τα ακρωνύμια τα οποία χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IIΙ παρουσιάζεται το γλωσσάριο ξενικών όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IV παρουσιάζεται το ευρετήριο των όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. 28

29 Κ Ε Φ Α Λ Α Ι Ο 2 : Σ Υ Ν Α Ι Σ Θ Η Μ Α : ΕΝΝ Ο Ι Ο Λ Ο Γ Ι Κ Ε Σ Δ Ι Α Σ Α Φ Η Σ Ε Ι Σ

30

31 ΚΕΦΑΛΑΙΟ 2: ΣΥΝΑΙΣΘΗΜΑ: ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ ΣΥΝΑΙΣΘΗΜΑ: ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ. Η μελέτη των ανθρώπινων συναισθημάτων έχει προχωρήσει σημαντικά τα τελευταία χρόνια σε σύγκριση με τις πρώτες θεωρητικές προσεγγίσεις στις αρχές του αιώνα. Παράλληλες εξελίξεις σε διαφορετικά πεδία της ψυχολογίας (π.χ. κλινική, κοινωνική, εξελικτική) συγκλίνουν στην σημασία που αποδίδουν στη μελέτη των συναισθημάτων ως αυτόνομο πεδίο έρευνας. Ένα μεγάλο σώμα κοινωνικών ψυχολογικών μελετών για τα συναισθήματα έχει δείξει την ύπαρξη ενός περιορισμένου αριθμού ( βασικών ) συναισθημάτων τα οποία παρατηρεί κανείς στην έκφραση του προσώπου και τις συγκινησιακές αντιδράσεις ανθρώπων σε όλο τον πλανήτη. Οι κύριοι υποστηρικτές της θεωρίας ακολουθούν την ψυχο-εξελικτική προσέγγιση και εστιάζουν σε έρευνες που δείχνουν ότι τα βασικά συναισθήματα (όπως χαρά, λύπη, θυμός, κ.α.) χαρακτηρίζονται από μια συγκεκριμένη δομή, αποτελούν ένα υπόδειγμα που συνδυάζει συγκεκριμένες ψυχοφυσιολογικές αντιδράσεις με συγκεκριμένες εκφράσεις του προσώπου και κέντρα του φλοιού του εγκεφάλου. 2.1 ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ-ΔΙΑΦΟΡΙΚΟΙ ΟΡΙΣΜΟΙ Οι εξελίξεις στο χώρο της ψυχολογίας των συναισθημάτων προέρχονται κυρίως από την θεωρία της μάθησης. Σύμφωνα λοιπόν με την Θεωρία της Κλασσικής Εξαρτημένης Αντίδρασης, το συναίσθημα ορίζεται ως ένα σύνολο από οργανικές καταστάσεις οι οποίες παράγονται από την ενίσχυση κάποιων γεγονότων ή κάποιων ανακλαστικών ερεθισμάτων. Κατά τον Ekman το συναίσθημα είναι ένα σύνολο νευρολογικών διαδικασιών, που προκαλούν περιφερικές διεργασίες, οι οποίες πιθανόν να οδηγήσουν σε εμφανείς συναισθηματικές εκφράσεις, αλλά πάντα οδηγούν σ' ένα μοναδικό συνειδητό βίωμα, το οποίο άλλοτε είναι προσβάσιμο από γνωστικές διεργασίες και από το λεκτικό σύστημα και άλλοτε όχι. Τέλος, δίνοντας τον δικό του ορισμό ο Plutchnik(1993) [2], θεωρεί πως: τα συναισθήματα διαθέτουν κάποιες προσαρμοστικές λειτουργίες για το άτομο. Τα συναισθήματα προκύπτουν από διάφορες πηγές στοιχείων και έχουν τις βάσεις τους σε συγκεκριμένες γνώσεις αποκαλύπτοντας κάτι από την συμπεριφορά και τα κίνητρα του ατόμου. Στην παρούσα βιβλιογραφία χρησιμοποιείται ο όρος συναίσθημα, ως ευρύτερος όρος που εμπεριέχει κυρίως την επίγνωση και τη συναίσθηση του συγκινησιακού και αισθητηριακού βιώματος από το ίδιο το άτομο. 2.2 ΘΕΩΡΙΕΣ ΣΥΝΑΙΣΘΗΜΑΤΟΣ Στην υποενότητα αυτή θα γίνει μια μικρή αναφορά στις πιο αντιπροσωπευτικές θεωρίες των συναισθημάτων εστιάζοντας περισσότερο στην Θεωρία των Διακριτών Συναισθημάτων όπως αυτή διατυπώθηκε πρώτα από τον Δαρβίνο και ξαναήρθε στο προσκήνιο από τον Paul Ekman, δεδομένης δε της πολυπλοκότητας και της ποικιλίας των ορισμών για το συναίσθημα, είναι σαφές ότι θα υπάρχουν ανάλογα και ποικίλες θεωρίες. Η υπάρχουσα ποικιλία και πολυπλοκότητα των θεωριών του συναισθήματος ΣΥΝΑΙΣΘΗΜΑ: ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ 31

32 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗΣΥΓΓΡΑΦΈΑΣ καθιστά προβληματική την ύπαρξη μιας καθολικά αποδεκτής κατηγοριοποίηση τους. Συνεπώς, θα γίνει προσπάθεια να κατηγοριοποιηθούν σε δύο γενικές κατηγορίες, όπως ακριβώς έγιναν από τους θεωρητικούς των συναισθημάτων. Οι θεωρίες συναισθημάτων επηρρεάζονται και κατηγοριοποιούνται με βάση δύο κύριους παράγοντες: α)την ψυχοφυσιολογική τους προέλευση, η οποία δημιουργεί δύο υποκατηγορίες θεωριών (τις περιφερικές και τις κεντρικές) ανάλογα με τον εάν το φυσιολογικό ερέθισμα πρόκλησης του συναισθήματος διέρχεται από το Περιφερικό ή το Κεντρικό Νευρικό Σύστημα αντίστοιχα[2]. Η σημαντικότερη Περιφερική Θεωρία Συναισθήματος είναι αυτή όπως διατυπώθηκε από τον Paul Ekman και είναι οι λεγόμενες περιφερικές θεωρίες ανατροφοδότησης του προσώπου. Οι συγκεκριμένες θεωρίες υποστηρίζουν ότι η ανατροφοδότηση που προέρχεται από τις εκφράσεις του πρόσωπου επηρεάζει τη συναισθηματική κατάσταση του ατόμου. Αντίθετα, οι Κεντρικές Θεωρίες θεωρούν ως δεδομένο ότι οι εκφράσεις του προσώπου απεικονίζουν τις εσωτερικές συναισθηματικές καταστάσεις του ατόμου. Σύμφωνα με τις Κεντρικές Θεωρίες, οι φυσιολογικές αντιδράσεις, όπως η μυϊκή ένταση, η εφίδρωση κλπ. εμφανίζονται ταυτόχρονα με την συναισθηματική εμπειρία. Κανένα από τα δύο δεν είναι αιτία πρόκλησης του άλλου. β) την αιτία δημιουργίας τους, σύμφωνα με την οποία παράγονται τέσσερις υποκατηγορίες θεωριών[1] οι Εξελικτικές, Γνωστικές, Σωματικές και Κοινωνιολογικές. Υποστηρικτές του γνωστικισμού υποστηρίζουν ότι ο όρος συναίσθημα αφορά τόσο γνωστικές (συνειδητές ή ασυνείδητες νοητικές διαδικασίες, όπως είναι η μνήμη, οι πεποιθήσεις, η αντίληψη, η αξιολόγηση) όσο και συγκινησιακές διαδικασίες[2]. Οι πρώτες έρευνες έδειξαν ότι τα απλά συναισθηματικά ερεθίσματα υποβάλλονται γρηγορότερα σε επεξεργασία, δηλαδή, πριν, από τα αντίστοιχα γνωστικά και η αρχική επεξεργασία είναι πολύ διαφορετική από την πιο πρόσφατη γνωστική επεξεργασία. Οι Σωματικές Θεωρίες υποστηρίζουν ότι η συναισθηματική εμπειρία συσχετίζεται κατά ένα μεγάλο μέρος με τις σωματικές αλλαγές[2]. Σωματικές αλλαγές εμφανίζονται στην στάση του σώματος ή στις εκφράσεις του προσώπου. Με βάση τις θεωρίες της Κοινωνικής Κατασκευής των Συναισθημάτων, υποστηρίζεται ότι τα συναισθήματα των ενηλίκων εξαρτώνται από τις περιρρέουσες κοινωνικές έννοιες, και υποκατηγοριοποιούνται στις Φυσιοκρατικές Θεωρίες του Συναισθήματος, οι οποίες υποστηρίζουν ότι τα συναισθήματα είναι τα αποτελέσματα των φυσικών διαδικασιών και είναι ανεξάρτητα από κοινωνικούς κανόνες και στις Αλληλεπιδραστικές Θεωρίες Συναισθήματος, σύμφωνα με τις οποίες οι βιολογικοί μηχανισμοί προβλέπουν μερικά θεμελιακά συναισθηματικά χαρακτηριστικά τα οποία συνδυάζονται με άλλα κοινωνικά χαρακτηριστικά[2]. Οι πρόσφατες εξελικτικές θεωρίες συναισθήματος θεωρούν, τα συναισθήματα ως έμφυτες απαντήσεις σε κάποια ερεθίσματα. Οι εξελικτικοί θεωρητικοί αναγνωρίζουν, ακόμη, την επιρροή της σκέψης και της μάθησης στο συναίσθημα. Η σημαντικότερες προσέγγισεις που επικρατούν στις εξελικτικές θεωρίες συναισθήματος είναι η Θεωρία των Βασικών (Διακριτών) Συναισθημάτων, όπως αυτή διατυπώθηκε πρώτα απο τον 32 ΣΥΝΑΙΣΘΗΜΑ:ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ

33 ΚΕΦΑΛΑΙΟ 2: ΣΥΝΑΙΣΘΗΜΑ: ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ Δαρβίνο και στην συνέχεια από τον Paul Ekman (περιγράφεται αναλυτικά παρακάτω) και η προσέγγιση των διαστάσεων η οποία υποστηρίζει ότι το συναίσθημα έχει δύο ή και τρεις βασικές κρυμμένες διαστάσεις κατά μήκος των οποίων βρίσκονται όλα τα συναισθήματα[9]. Οι πιο κοινές διαστάσεις είναι το σθένος, που κυμαίνεται από την ευτυχία έως τη λύπη και η διέγερση, που κυμαίνεται από την ηρεμία έως την ένταση. Η τρίτη διάσταση που αναφέρεται λιγότερο είναι η κυριαρχία, που κυμαίνεται από τον έλεγχο του συναισθήματος έως το μη ελεγχόμενο συναίσθημα. Μια από τις σημαντικότερες θεωρίες του μελέτησαν το συναίσθημα ως προς τις διαστάσεις του είναι η Θεωρία Συναισθημάτων ως σημεία πάνω σε διπολικούς άξονες (Τροχός Συναισθημάτων της Whissel και Θεωρία Συναισθημάτων του Plutchik)[2],[9]. Θεωρία των βασικών Διακριτών Συναισθημάτων Η Θεωρία αυτή στηρίζεται στις εξελικτικές θεωρίες που αντιλαμβάνονται τα συναισθήματα ως διακριτές οντότητες, ανεξάρτητες μεταξύ τους[2]. Οι εξελικτικοί θεωρητικοί πιστεύουν ότι όλοι οι ανθρώπινοι πολιτισμοί μοιράζονται ορισμένα συναισθήματα, τα οποία είναι διακριτά, βασικά και παγκόσμια, όπως είναι η ευτυχία, η περιφρόνηση, η έκπληξη, η αποστροφή, ο θυμός, ο φόβος, και η θλίψη. Θεωρούν δε ότι όλα τα άλλα συναισθήματα προκύπτουν από τη μίξη και τις διαφορετικές εντάσεις αυτών των πρωταρχικών βασικών συναισθημάτων. Επίσης, το καθένα από τα βασικά συναισθήματα θεωρείται ότι έχει ένα μοναδικό πρότυπο φυσιολογικής διέγερσης, μια μοναδική έκφραση συμπεριφοράς, ένα μοναδικό τρόπο οργάνωσης των γνώσεων και της αντίληψης. Η Θεωρία του Δαρβίνου Ο Charles Darwin (1874) υπήρξε ο πρώτος εμπνευστής της θεωρίας των βασικών συναισθημάτων. Αρχικά, ασχολήθηκε με τις μορφές έκφρασης των βασικών συναισθημάτων και υποστήριξε ότι οι εκφράσεις του προσώπου δεν είναι αποτέλεσμα εκμάθησης αλλά είναι βιολογικά προκαθορισμένες. Θεώρησε ότι η έκφραση των βασικών συναισθημάτων είναι αναγκαία για την επιβίωση και εξέλιξη του ανθρώπινου είδους και επιτελείται με αντιδράσεις προσαρμοστικού χαρακτήρα[2]. Συγκεκριμένα ο Δαρβίνος ανέλυσε λεπτομερώς γύρω στα δώδεκα βασικά συναισθήματα, θετικά και αρνητικά, περιγράφοντας για το καθένα τις χαρακτηριστικές εκφράσεις του προσώπου καθώς και τους προσαρμοστικούς μηχανισμούς αντίδρασης προς το εκάστοτε περιβαλλοντικό ερέθισμα. Η προσαρμοστική τους λειτουργία εντοπίζεται, αφενός με το να διευκολύνουν την επικοινωνία των ατόμων με το κοινωνικό τους περιβάλλον, αφετέρου με την ρύθμιση των συναισθημάτων από τα ίδια τα άτομα προκειμένου να ανταποκριθούν στις απαιτήσεις του περιβάλλοντος Η Θεωρία των Βασικών Συναισθημάτων του Paul Ekman Το βιβλίο του Δαρβίνου 'Η έκφραση των συναισθημάτων στους ανθρώπους και τα ζώα' (1872) γίνεται αντικείμενο εξέτασης και επανεκδίδεται με επιμέλεια του Paul Ekman (1995) [3] πρωτοπόρου μελετητή και υπέρμαχου της θεωρίας του «παγκόσμιου» χαρακτήρα των συναισθημάτων. Ο Paul Ekman (1972) [5],[6], εμπνευσμένος από την προσέγγιση του Δαρβίνου, εκλαμβάνει τις συναισθηματικές εκφράσεις ως σύνθετες απαντήσεις, που συναντώνται σε όλους τους ανθρώπινους πληθυσμούς, οι οποίες ελέγχονται από μηχανισμούς που λειτουργούν ασυνείδητα. Ο ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 33

34 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗΣΥΓΓΡΑΦΈΑΣ Ekman επινοεί έναν κατάλογο βασικών συναισθημάτων μετά από μια διαπολιτισμική έρευνα που έκανε σε άτομα της φυλής Παπούα στη Νέα Γουϊνέα[4]. Πιο συγκεκριμένα το 1971 οι Paul Ekman και Wallace Friesen[2] ζήτησαν από τα άτομα της φυλής Παπούα (τα οποία δεν διέθεταν υψηλό έως καθόλου μορφωτικό επίπεδο) να εξετάσουν κάποιες φωτογραφίες ανθρώπων που έφεραν ένα συγκεκριμένο συναίσθημα και συγκεκριμένες εκφράσεις του προσώπου. Οι φωτογραφίες αυτές είχαν προηγουμένως χρησιμοποιηθεί ως αντικείμενα μελέτης και στον Δυτικό Πολιτισμό. Όταν οι δύο ερευνητές ζήτησαν από τα άτομα αυτά να διαλέξουν δύο με τρείς φωτογραφίες με γνώμονα ένα συγκεκριμένο συναίσθημα που εκφραζόταν από την ιστορία της φωτογραφίας, οι επιλογές των ατόμων της φυλής ταίριαζαν με τις επιλογές των ατόμων από τον Δυτικό Πολιτισμό. Τα αποτελέσματα αυτά αποδεικνύουν ότι ορισμένες εκφράσεις είναι παγκοσμίως συσχετισμένες με συγκεκριμένα συναισθήματα ακόμη και σε περιπτώσεις στις οποίες οι άνθρωποι που εξετάστηκαν είχαν λίγο ή και καθόλου επαφή με τον Δυτικό Πολιτισμό. Τα μόνα συναισθήματα που δυσκόλεψαν στην διάκριση τους τα άτομα της Παπούα ήταν αυτά του φόβου και της έκπληξης. Έτσι, ο Ekman σημειώνει ότι ενώ οι καθολικές εκφράσεις δεν αποδεικνύουν απόλυτα την θεωρία του Δαρβίνου, εντούτοις παρέχονται ισχυρές ενδείξεις για την δυνατότητα αυτή. Καταλήγει λοιπόν στο συμπέρασμα ότι, η έκφραση μέσω του προσώπου μερικών βασικών συναισθημάτων είναι έμφυτη. Με αυτόν τον τρόπο, ο Ekman επιβεβαιώνει ερευνητικά την ύπαρξη τουλάχιστον έξι βασικών συναισθημάτων: Της χαράς, της έκπληξης, του φόβου, της λύπης, του θυμού, της απέχθειας. Σύμφωνα λοιπόν με τον Ekman, υπάρχουν έξι βασικά συναισθήματα τα οποία εμφανίζονται σε όλους τους υπάρχοντες πολιτισμούς ανάλογα με τη βιολογική ηλικία του ατόμου και απεικονίζονται με τις ίδιες εκφράσεις προσώπου παγκοσμίως. Επιπλέον επιβεβαιώνει τις προτάσεις του με διάφορα ερευνητικά ευρήματα που υποστηρίζουν ότι, το αυτόνομο νευρικό σύστημα ενεργοποιεί διαφορετικές φυσιολογικές αντιδράσεις για καθένα από τα συναισθήματα του φόβου, του θυμού, της απέχθειας και της λύπης. Τόσο ο Ekman όσο και Friesen προκείμενου να εξάγουν τα συμπεράσματα τους γύρω από την θεωρία των βασικών συναισθημάτων εξέτασαν συστηματικά το πρόσωπο και βρήκαν τις κύριες εκφράσεις που δηλώνουν συναίσθημα. Κατά τον Ekman το πρόσωπο είναι «κεντρικό και παγκόσμιο κέντρο που τραβά την προσοχή μας όχι μόνο σαν επιστήμονες, μα και σαν φίλοι, εραστές, γονείς, και άτυποι παρατηρητές». 2.3 ΈΚΦΡΑΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ Ως συναισθηματικές εκφράσεις του προσώπου[2], ορίζονται οι αλλαγές οι οποίες εμφανίζονται κυρίως στους μυς του προσώπου, είναι ξεχωριστές για το κάθε συναίσθημα, και αποσκοπούν στο να αποκαλύψουν ένα εσωτερικό μήνυμα αυτού ο οποίος τις εκφράζει. Κατ αυτόν τον τρόπο, οι εκφράσεις του προσώπου είναι ένα σημαντικό κανάλι της μη λεκτικής επικοινωνίας και παρ όλη την ανάπτυξη της λεκτικής επικοινωνίας, ο ρόλος τους παραμένει ουσιαστικός. Πρώτοι οι Ekman και Friesen περιέγραψαν και ταξινόμησαν τις μη-λεκτικές εκφράσεις του προσώπου σε πέντε βασικές κατηγορίες, 34 ΣΥΝΑΙΣΘΗΜΑ:ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ

35 ΚΕΦΑΛΑΙΟ 2: ΣΥΝΑΙΣΘΗΜΑ: ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ υποστηρίζοντας ότι οι εκφράσεις αυτές αποτελούν σημαντικό κανάλι της μη-λεκτικής επικοινωνίας και παρ' όλη την ανάπτυξη της λεκτικής επικοινωνίας ο ρόλος τους παραμένει ουσιαστικός. Οι πέντε κατηγορίες μη-λεκτικών εκφράσεων είναι οι εξής: α) οι χυδαίες και προσβλητικές χειρονομίες (εμβλήματα), β) τα νεύματα που χρησιμοποιούνται για την ρύθμιση της ροής της συζήτησης (ρυθμιστές), γ) οι εκδηλώσεις συναισθήματος, όπως είναι το χαμόγελο και το συνοφρύωμα, δ) οι επεξηγήσεις που συνοδεύουν την ομιλία, όπως το κούνημα των χεριών, ε) οι μετασχηματιστές ή σωματικοί χειρισμοί, όπως το άγγιγμα του προσώπου μου εμφανίζονται συχνά σε καταστάσεις άγχους ή πανικού. Η έκφραση κάποιου προσώπου μία δεδομένη στιγμή εκφράζεται από ένα σύνολο σημάτων. Στα σήματα αυτά περιλαμβάνονται το σχήμα και ο προσανατολισμός του προσώπου, αλλά και γενικότερα ολόκληρης της κεφαλής, και φυσικά η θέση και η κίνηση των διαφόρων χαρακτηριστικών του προσώπου (μάτια, φρύδια, στόμα κτλ). Φυσικά τη σημαντικότερη συμβολή στη δημιουργία των εκφράσεων την έχουν οι μύες του προσώπου, οι οποίοι και έχουν την ικανότητα να δημιουργήσουν μεγάλη μεταβολή στην έκφραση σε πολύ σύντομο χρονικό διάστημα, συμβάλλοντας τα μέγιστα στη χωρίς λόγια επικοινωνία. Εκτός από το πρόσωπο και η φωνή αποτελεί ένα σημαντικό στοιχείο της συναισθηματικής κατάστασης σύμφωνα με τους Pittman και Scherer[9]. Συγκεκριμένα, έρευνα η οποία μελέτησε τους τρόπους αποκωδικοποίησης των μηνυμάτων τα οποία αποτυπώνονται στις συναισθηματικές εκφράσεις των ατόμων απέδειξε ότι οι ενδείξεις, τις οποίες χρησιμοποιούν οι περισσότεροι άνθρωποι για να κατανοήσουν τις συναισθηματικές εκφράσεις των άλλων είναι συνήθως φωνητικές σε ποσοστό 67% ενώ οι παραπάνω ενδείξεις όταν αποδίδονται στο συνδυασμό της έκφρασης του προσώπου και της φωνής αλλά και του περιεχομένου αυτού που εκφράζεται τότε το ποσοστό φτάνει το 50%. Από έρευνες μάλιστα που έχουν πραγματοποιηθεί από τον Ekman όταν υπάρχει ασυμφωνία μεταξύ του λεκτικού και του μη λεκτικού περιεχομένου ενός μηνύματος τείνουμε να εμπιστευόμαστε το μη λεκτικό. Εικόνα 1: Βασικές ανθρώπινες εκφράσεις: (a) λύπη, (b) θυμός, (c) χαρά, (d) φόβος, (e) απέχθεια, (f) έκπληξη ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 35

36 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗΣΥΓΓΡΑΦΈΑΣ α/α Έκφραση Περιγραφή a Λύπη Τα εσωτερικά σημεία των φρυδιών κάμπτονται προς τα πάνω. Τα μάτια είναι ελαφρώς κλειστά. Το στόμα είναι χαλαρωμένο. b Θυμός Τα εσωτερικά φρύδια τραβιούνται μαζί προς τα κάτω. Τα μάτια είναι πολύ ανοιχτά. Τα χείλια πιέζονται το ένα στο άλλο ή ανοίγουν και εκθέτουν τα δόντια. c Χαρά Τα φρύδια είναι χαλαρωμένα. Το στόμα είναι ανοικτό και οι στοματικές γωνίες τραβιούνται πίσω προς τα αυτιά. d Φόβος Τα εσωτερικά φρύδια τραβιούνται μαζί προς τα κάτω. Τα εσωτερικά σημεία των φρυδιών κάμπτονται προς τα πάνω. f Τα μάτια είναι ανήσυχα, άγρυπνα. Απέχθεια Τα φρύδια και τα βλέφαρα είναι χαλαρωμένα. Το άνω χείλος αυξάνει και σουφρώνει, συχνά ασυμμετρικά. g Έκπληξη Τα φρύδια κινούνται προς τα πάνω. Τα άνω βλέφαρα είναι πολύ ανοιχτά, ενώ τα κάτω χαλαρά. Το σαγόνι είναι κατεβασμένο. Πίνακας 1: Χαρακτηριστικά εκφράσεων 36 ΣΥΝΑΙΣΘΗΜΑ:ΕΝΝΟΙΟΛΟΓΙΚΕΣ ΔΙΑΣΑΦΗΣΕΙΣ

37 Κ Ε Φ Α Λ Α Ι Ο 3 : Σ Υ Ν Α Ι Σ Θ Η - Μ ΑΤ Ι Κ Η Υ Π Ο Λ Ο Γ Ι Σ Τ Ι Κ Η

38

39 ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ Η πρόσφατη αναθεώρηση του ρόλου του συναισθήματος στην διαδικασία κατανόησης και μοντελοποίησης της ανθρώπινης νοημοσύνης έχει διαπεράσει τα σκληρά όρια μεταξύ επιστημών και έχει ανοίξει νέους διεπιστημονικούς ερευνητικούς ορίζοντες. Η μεταφορά της έρευνας συναισθημάτων σε ένα εύρωστο υπολογιστικό πλαίσιο αποτελεί ιδιαίτερη πρόκληση, μιας και οι μέθοδοι εξασφάλισης επιστημονικής εγκυρότητας ενός τέτοιου εγχειρήματος είναι ακόμα περιορισμένο. Κρίνεται εύλογο λοιπόν, ο σκεπτικισμός με τον οποίο αντιμετωπίζεται ο προσφάτως ορισθείς κλάδος της συναισθηματικής υπολογιστικής. Η εξέλιξη του πεδίου τείνει να φέρει τον άνθρωπο στο κέντρο κάθε ερευνητικής διαδικασίας, με αποτέλεσμα η μελέτη της συναισθηματικής υπολογιστικής να μετεξελίσσεται στην μελέτη της συναισθηματικής αλληλεπίδρασης. 3.1 Θεωρητικό υπόβαθρο της συναισθηματικής υπολογιστικής Εννοιολογικός ορισμός Ως συναισθηματική υπολογιστική(affective computing) ορίζεται ο κλάδος μελέτης και ανάπτυξης της τεχνητής νοημοσύνης που εξετάζει το σχεδιασμό συστημάτων και συσκευών που μπορούν να αναγνωρίζουν, να ερμηνεύουν και να επεξεργάζονται ανθρώπινα συναισθήματα και θέτει ως στόχο την δημιουργία μηχανής που θα ερμηνεύει την ανθρώπινη συναισθηματική κατάσταση και θα δρά ανάλογα[12]. Είναι ένας διεπιστημονικός τομέας (διεπιστημονικό χαρακτηρίζεται ένα πεδίο όταν οι επιμέρους επιστημονικοί τομείς που το καθορίζουν δεν περιέχουν ήδη την γνώση για να δοθούν οι ζητούμενες απαντήσεις στα σχετικά ερευνητικά ερωτήματα) που ανήκει στον ερευνητικό χώρο της επικοινωνίας ανθρώπου-μηχανής και τοποθετείται ανάμεσα στα πεδία της πληροφορικής, της τεχνητής νοημοσύνης, της ψυχολογίας και της γνωστικής επιστήμης. Η διεπιστημονικότητα αποτελεί ένα καθοριστικό χαρακτηριστικό του πεδίου αυτού, που βοηθάει στην κατανόηση των ιδιαιτεροτήτων και των δυσκολιών. Για να επιτευχθεί η δημιουργία μιας αυτοματοποιημένης μηχανής που θα αναγνωρίζει ανθρώπινα συναισθηματικά επίπεδα θα πρέπει η αρχιτεκτονική των υπολογιστικών εφαρμογών να μπορεί να λάβει υπόψη της την δυνατότητα των ανθρώπων να παρέχουν είσοδο με πολλαπλή μορφή στους υπολογιστές, ξεπερνώντας την απαρχαιωμένη διεπαφή τύπου παράθυρο-ποντίκι-δείκτης και χρησιμοποιώντας πιο διαισθητικά μέσα, πλησιέστερα στις ανθρώπινες συνήθειες Τομείς της συναισθηματικής υπολογιστική ς Προκειμένου μια μηχανή να αντιδράσει έξυπνα στα συναισθήματα του χρήστη πρέπει να μπορεί να τον παρατηρεί, στην συνέχεια να ερμηνεύει τα δεδομένα της παρατήρησης, να τα συγκεντρώνει και να εξάγει συμπεράσματα και τέλος να έχει την

40 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ δυνατότητα να αντιδρά με τρόπο που να αρμόζει στην κάθε περίσταση. Με τον τρόπο αυτόν, μπορεί η αλληλεπίδραση ανθρώπου-μηχανής να διατηρεί το ενδιαφέρον του χρήστη σε υψηλά επίπεδα και να κάνει την εμπειρία αξιομνημόνευτη, πιο κοντά στην ανθρώπινη λογική, πιο ικανοποιητική και λεκτικά πιο αποτελεσματική[9]. Παρακάτω αναφέρονται οι βασικές περιοχές που βρίσκει εφαρμογή η συναισθηματική υπολογιστική: Εντοπισμός πληροφορίων που φέρουν συναίσθημα Η ανίχνευση συναισθηματικών πληροφοριών μπορεί να πραγματοποιείται με χρήση αισθητήρων που καταγράφουν τα δεδομένα σχετικά με τη συναισθηματική κατάσταση του χρήστη και με παρακολούθηση της συμπεριφοράς του, χωρίς να εστιάζει σε κάποια ερμηνεία των δεδομένων αυτών. Η ανίχνευση στηρίζεται σε δεδομένα ανάλογα με αυτά που εξετάζουμε εμείς οι ίδιοι προκειμένου να ανακαλύψουμε την συναισθηματική κατάσταση κάποιου τρίτου όπως για παράδειγμα μια κάμερα καταγράφει εκφράσεις πρόσωπου, στάση σώματος και χειρονομίες, άλλοι αισθητήρες μπορούν να καταγράφουν δεδομένα σχετικά με την ανθρώπινη φυσιολογία, όπως ο καρδιακός παλμός, η θερμοκρασία ή η αγωγιμότητα του δέρματος (ενότητα 3.3). Αναγνώριση συναισθημάτων Η αναγνώριση συναισθημάτων απαιτεί την εξαγωγή των σημαντικών σχημάτων από συγκεντρωμένα δεδομένα της ανίχνευσης. Αυτό επιτυγχάνεται με την ανάλυση των δεδομένων μέσω διαφόρων διαδικασιών. Από τα δεδομένα φωνής με την επεξεργασία φυσικής γλώσσας επιτυγχάνεται η αναγνώριση ομιλίας και άρα του σημασιολογικού περιεχομένου της, ενώ με την ανάλυση των χαρακτηριστικών της ομιλίας, όπως η προσωδία και ο τόνος, εξάγεται πληροφορία για το ύφος και τη διάθεση του ομιλούντα. Η ερμηνεία γίνεται με την χρήση προχωρημένων αλγορίθμων μάθησης και ταξινόμησης. Οι αλγόριθμοι αυτοί αρχικά εκπαιδεύονται σε κάποια δεδομένα αναφοράς, αποτελέσματα συνήθως της αναγνώρισης και ταξινόμησης αντίστοιχων συναισθηματικών καταστάσεων από ανθρώπους. Συναισθηματικά μηχανικά συστήματα Η πιο σημαντική ίσως περιοχή της συναισθηματικής υπολογιστικής είναι ο σχεδιασμός υπολογιστικών συστημάτων που να είναι σε θέση είτε να επιδεικνύουν έμφυτες συναισθηματικές ικανότητες, είτε να πείθουν ότι διαθέτουν συναισθήματα χωρίς απαραίτητα να χρησιμοποιούν αντίστοιχους μηχανισμούς με αυτούς του ανθρώπου. Τα συστήματα αυτά περιέχουν μια διεπαφή (interface) αλληλεπίδρασης με τον χρήστη που μπορεί να είναι είτε φωνητική είτε γραπτής μορφής ή με την μορφή εικονικού πράκτορα (virtual agent). Οι πράκτορες αυτοί είναι λογισμικές οντότητες με δυνατότητες προσομοίωσης συναισθημάτων και απεικονίζονται είτε με μια ομιλούσα κεφαλή (talking head) είτε με πλήρη γραφική σωματική υπόσταση. Ο στόχος αυτής της προσέγγισης είναι να εμπλουτιστεί και να διευκολυνθεί η αλληλεπίδραση ανθρώπου και μηχανής μέσα από ένα ανθρωπόμορφο γραφικό περιβάλλον. Ο εικονικός πράκτορας ενσωματώνει την εκφραστική ανάλυση, η οποία αποτελεί την ικανότητα του πράκτορα να αντιληφθεί και να ερμηνεύσει τη συναισθηματική κατάσταση του χρήστη ή έστω κάποιων ενδείξεων αυτής. Η δυνατότητα των αληθοφανών εικονικών πρακτόρων να παρέχουν εκφραστική 40

41 ανατροφοδότηση στον χρήστη είναι μια σημαντική πτυχή ώστε να υποστηρίξουν τη φυσικότητα της αλληλεπίδρασής τους. H πολυμεσική ανατροφοδότηση επηρεάζει την αληθοφάνεια της συμπεριφοράς ενός πράκτορα ως προς τον ανθρώπινο χρήστη και ενισχύει την επικοινωνιακή του εμπειρία. Κατανόηση και προσομοίωση συναισθημάτων Η κατανόηση των συναισθημάτων (emotion understanding) αναφέρεται στην ικανότητα μιας συσκευής όχι απλά να ανιχνεύει συναισθηματική πληροφορία, αλλά και να την αποθηκεύει, να την επεξεργάζεται και να χτίζει/συντηρεί ένα μοντέλο συναισθηματικής συμπεριφοράς του ατόμου που την ενδιαφέρει. Τελικός στόχος είναι η μηχανή, ανάλογα με την κατάσταση/τις συνθήκες /το περιβάλλον και τις ενδείξεις που συλλέγει από το χρήστη, να αντιδρά με ένα τρόπο που να αρμόζει στην περίσταση. Πριν όμως φτάσει στο σημείο που πρέπει να εκφράσει, με την σειρά της, το συναίσθημα, πρέπει να έχει κατανοήσει στο βαθμό που είναι δυνατό για μια μηχανή τη σημασία της συμπεριφοράς και των αντιδράσεων του ανθρώπου που αλληλεπιδρά μαζί της, στο εκάστοτε εννοιολογικό πλαίσιο. Εικόνα 2.Περιοχές συναισθηματικής υπολογιστικής. Κλείνοντας την υποενότητα της συναισθηματικής υπολογιστικής είναι χρήσιμο να αναφερθεί πως θεμέλιο για την μοντελοποίηση συναισθηματικής συμπεριφοράς σε μια μηχανή είναι οι θεωρίες αξιολόγησης με τις οποίες μπορούμε να διακρίνουμε συναισθηματικές καταστάσεις ανάλογα με το ποιές διεργασίες αξιολόγησης συμμετέχουν στην εκάστοτε συναισθηματική εμπειρία και το αποτέλεσμά τους. Στην βιβλιογραφία της συναισθηματικής υπολογιστικής η θεωρία με τις περισσότερες αναφορές είναι αυτή των Ortony, Clore και Collins, η ονομαζόμενη θεωρία OCC. Πρόκειται για μια από τις πιο χαρακτηριστικές θεωρίες αξιολόγησης. Ο κυριότερος λόγος για την δημοτικότητα είναι η δομή της θεωρίας. Συγκεκριμένα, η θεωρία των Ortony, Clore και Collins υποθέτει ότι τα συναισθήματα αναπτύσσονται σαν συνέπειες σε συγκεκριμένες γνωστικές διεργασίες και ερμηνείες. Συνεπώς εστιάζει στην γνωστική πλευρά των συναισθημάτων. Σύμφωνα με αυτή την θεωρία τρεις παράμετροι καθορίζουν τις γνωστικές διεργασίες: τα γεγονότα, τα άτομα (ή ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 41

42 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ γενικότερα οντότητες που μπορούν να εκτελέσουν ενέργειες) και τα αντικείμενα. Τα συναισθήματα αναπαρίστανται σαν θετικές ή αρνητικές αντιδράσεις σε αυτά που αντιλαμβανόμαστε στο περιβάλλον μας. Οι υποστηρικτές της θεωρίας OCC στη συναισθηματική υπολογιστική εξηγούν ότι δεν τους ενδιαφέρει αν οι μηχανές μπορούν πραγματικά να βιώσουν συναισθήματα με τον τρόπο που τα βιώνουν οι άνθρωποι. Αντίθετα, εστιάζουν απλά πάνω στην ικανότητα να καταλαβαίνει τα συναισθήματα και να αναπτύξει τρόπους συλλογιστικής σχετικά με αυτά και να μπορεί να εκφράσει συναισθήματα με τα μέσα που διαθέτει. Τέλος, μια ενδιαφέρουσα θεωρία που κερδίζει διαρκώς έδαφος είναι αυτή του core affect, της βασικής συγκινησιακής κατάστασης[9]. Η θεωρία αυτή αναφέρεται και ως ενοποιητική θεωρία (unified theory of affect) καθώς προσπαθεί να συνδυάσει την ιδέα των βασικών συναισθημάτων με μηχανισμούς που εισάγουν οι θεωρίες αξιολόγησης (appraisal theories). Πολλοί ερευνητές, με πιο πρόσφατο εκπρόσωπο τον Russell, υποστηρίζουν την ύπαρξη συναισθημάτων, τα οποία είναι θεμελιώδη και τα οποία δεν μπορούν να αναλυθούν περαιτέρω στα συστατικά τους. Οι θεμελιώδεις ή βασικές συγκινησιακές καταστάσεις μπορεί να είναι συναισθήματα ή διαθέσεις δεν είναι απαραίτητο να συμβεί κάποιο γεγονός/ερέθισμα για να τις βιώσει κανείς. Ο άνθρωπος θεωρείται ότι έχει ανά πάσα στιγμή μια βασική συγκινησιακή κατάσταση. Μπορεί να υπάρχει διακύμανση στην ένταση της ή στην διάρκεια της καθώς και στο πόσο συνειδητή είναι στο άτομο, αλλά υπάρχει πάντα 3.2 Τεχνολογικό υπόβαθρο της συναισθηματικής υπολογιστικής Υπολογιστικά μοντέλα συναισθημάτων Τα υπολογιστικά μοντέλα συναισθημάτων έχουν σαν στόχο να μετατρέψουν τους παραπάνω θεωρητικούς ισχυρισμούς σε σαφείς κανόνες και συσχετίσεις που μπορούν να γίνουν κατανοητές από μια μηχανή. Διακρίνονται στα μοντέλα που έχουν σκοπό την αναγνώριση και κατανόηση της ανθρώπινης συναισθηματικής συμπεριφοράς και σε αυτά που στοχεύουν στην προσομοίωση της ανθρώπινης συμπεριφοράς από συνθετικούς /εικονικούς χαρακτήρες[9]. Προκειμένου όμως να γίνει αυτή η μοντελοποίηση της ανθρώπινης συμπεριφοράς με σκοπό την δημιουργία και την κατανόηση συνθετικών πρακτόρων που να μπορούν να υποστηρίξουν ικανότητες ίδιες με αυτές του ανθρώπου κρίνεται απαραίτητο η ύπαρξη και κατανόηση της γνωσιακής αρχιτεκτονικής (cognitive architecture). Στόχος της γνωσιακής αρχιτεκτονικής είναι να σχεδιαστούν ολοκληρωμένα συστήματα που να ενεργούν έξυπνα ανεξαρτήτως συνθηκών ή εννοιολογικού πλαισίου (αυτή η άποψη ανήκει στην Ενοποιημένη Γνωσιακή Θεωρία-Unified Theory of Cognition). Οι πρώτες θεωρίες γνωσιακής αρχιτεκτονικής που έκαναν την εμφανισή τους ήταν η SOAR και η ACT-R, όπου εστίαζαν στις εσωτερικές διεργασίες επεξεργασίας πληροφοριών ενός ευφυούς πράκτορα, όπως είναι η συλλογιστική διαδικασία, ο σχεδιασμός, η επίλυση προβλημάτων και μάθηση εννοιών. Πιο πρόσφατα, πολλές αρχιτεκτονικές (όπως πάλι η SOAR και η ACT-R καθώς και η ICARUS και CLARION) έχουν επεκταθεί και μοντελοποιούν μηχανισμούς αντίληψης και δράσης καθώς και συναισθηματικές καταστάσεις διαθέσεις και κίνητρα. 42

43 Ευφυείς πράκτορες Ένα από τα βασικότερα μοντέλα συναισθημάτων που βρισκεί εφαρμογή η συναισθηματική υπολογιστική είναι οι πράκτορες. Ως πράκτορας (agent) ορίζεται μια οντότητα που αντιλαμβάνεται το περιβάλλον μέσα στο οποίο βρίσκεται με την βοήθεια αισθητήρων (sensors), είναι μέρος του περιβάλλοντος αυτού, κάνει συλλογισμούς και δρα μέσα σε αυτό με τη βοήθεια μηχανισμών δράσης (effectors), για την επίτευξη στόχων.. Προκειμένου να γίνει σαφές ποιοί πράκτορες ανήκουν στον τομέα της συναισθηματικής υπολογιστικής, καθώς και πώς συνδέονται με υπολογιστικά μοντέλα συναισθήματος παρατίθεται μια σύντομη κατηγοριοποίηση των τύπων πρακτόρων. Στην εικόνα 3 βλέπουμε μια ιεραρχική ταξινόμηση πρακτόρων όπως αυτή προτάθηκε από τους Franklin και Graesser. Οι βιολογικοί πράκτορες χρησιμοποιούν τις αισθήσεις τους για αντιληφθούν τον γύρω κόσμο, τις γνώσεις για να βγάλουν συμπεράσματα για αυτόν, και τα μέρη του σώματος τους για να εφαρμόσουν τις ενέργειες που προκύπτουν από τη συλλογιστική τους. Εκτός από τους βιολογικούς πράκτορες υπάρχουν και οι τεχνητοί, ρομποτικοί, και υπολογιστικοί πράκτορες. Οι ρομποτικοί πράκτορες έχουν σαν αισθητήρες και μηχανισμούς δράσης μηχανικά ή ηλεκτρονικά μέρη και δρουν στον πραγματικό κόσμο. Οι υπολογιστικοί πράκτορες χωρίζονται σε ευφυείς λογισμικούς πράκτορες (intelligent software agents ή softbots) που είναι προγράμματα και δρουν σε ένα υπολογιστικό σύστημα και σε πράκτορες οι οποίοι επιδεικνύουν δραματουργικές συμπεριφορές τεχνητής ζωής (artificial life agents). Εικόνα 3. Διάγραμμα ιεραρχικής ταξινόμησης πρακτόρων. Οι πράκτορες ακολουθούν δύο βασικές θεωρήσεις ως προς τον τρόπο λειτουργίας τους: την χαλαρή θεώρηση (weak notion of agency) όπου πρέπει να είναι αναπροσδιοριζόμενοι (self-contained) και να εκτελούνται ταυτόχρονα με κάποιους άλλους (concurrently executing) και την ισχυρή θεώρηση (strong notion of agency) όπου πρέπει να έχουν γνώση (knowledge), πεποιθήσεις (beliefs), επιθυμίες (desires), ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 43

44 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ προθέσεις (intetions) και υποχρεώσεις (obligations). Στην περιοχή της επικοινωνίας ανθρώπου-μηχανής και συγκεκριμένα της συναισθηματικής υπολογιστικής περισσότερη έμφαση δίνεται στα μοντέλα πρακτόρων που υιοθετούν την ισχυρή θεώρηση. Κάποια από τα βασικά χαρακτηριστικά που καθιστούν τους πράκτορες εξελιγμένα υπολογιστικά μοντέλα ειναι τα εξής: α) αυτονομία (autonomy) καθώς μπορούν να δρούν χωρίς την άμεση παρέμβαση άλλων χρηστών ή πρακτόρων, β) προνοητικότητα (reactiveness) καθώς είναι σε θέση να αντιλαμβάνονται τα γεγονότα που συμβαίνουν στο γειτονικό τους περιβάλλον, γ) κοινωνικότητα (social ability) δίνοντας τους την δυνατότητα να επικοινωνούν και να αντιδρούν με άλλους πράκτορες και χρήστες μέσω μιας κοινά κατανοητής γλώσσας και δ) προνοητικότητα (pro-activeness) αφού μπορούν να επιτύχουν στόχους επιδεικνύοντας την αρμόζουσα συμπεριφορά και λαμβάνοντας πρωτοβουλίες ανάλογα με τις συνθήκες του περιβάλλοντος τους. Μια ειδική κατηγορία ευφυών πρακτόρων είναι ο πράκτορας BDI (Belief-Desire- Intention-απόψεις, επιθυμίες, προθέσεις)[9], που πρόκειται για ένα υπολογιστικό μοντέλο που αναπτύχθηκε για τον προγραμματισμό λογισμικών πρακτόρων. Το μοντέλο BDI συνδέεται στενά με τους ευφυείς εικονικούς χαρακτήρες (intelligent virtual agents), αλλά δεν επαρκεί από μόνο του να διασφαλίσει όλα τα χαρακτηριστικά που σχετίζονται με μια τέτοια οντότητα. Ωστόσο, υπάρχουν υβριδικά μοντέλα που υιοθετούν την προσέγγιση BDI μαζί με συστήματα που επιτρέπουν τη διαχείριση διαλόγου (dialogue management systems) και προσφέρουν τη δυνατότητα αλληλεπίδρασης με ανθρώπινους χρήστες, μέσω διάφορων εκφραστικών μέσων, όπως η ομιλία και οι μη-λεκτικές εκφράσεις. Χρήση ευφυών πρακτόρων και συστημάτων για την διάγνωση της συναισθηματικής κατάστασης του μαθητή Οι συναισθηματικές διαταραχές παίζουν σημαντικό ρόλο στη μαθησιακή συμπεριφορά του εκπαιδευόμενου[13]. Στο τομέα της αλληλεπίδρασης ανθρώπου και μηχανής υπάρχουν πολλές μέθοδοι για τη ρητή επικοινωνία των δυο οντοτήτων. Για να υπάρξει συνεισφορά στα προσαρμοστικά εκπαιδευτικά συστήματα με χρήση υπερμέσων, πρέπει να κατασκευαστεί μια σιωπηρή επικοινωνία μεταξύ αυτών των παραγόντων. Σε ότι ακολουθεί, με τον όρο σιωπηρή επικοινωνία εννοείται η συναισθηματική επικοινωνία κατά την οποία η συναισθηματική κατάσταση του ατόμου ερμηνεύεται από την μηχανή. Παραδείγματα συναισθηματικών καταστάσεων οι οποίες έχουν ερευνηθεί είναι η απογοήτευση, το άγχος, η ανησυχία και η κούραση. Αν οι μηχανές μπορούν να διαισθάνονται την συναισθηματική κατάσταση του ατόμου, η διάδραση μεταξύ ανθρώπου-μηχανής μπορεί να γίνει πιο διαισθητική πιο ομαλή και πιο αποτελεσματική. Για τα προσαρμοστικά εκπαιδευτικά συστήματα με χρήση υπερμέσων, ο εντοπισμός της συναισθηματικής κατάστασης του εκπαιδευόμενου έχει αποδειχθεί μια αποφασιστική συνιστώσα της προσαρμοστικότητας. Μέχρι σήμερα έχει γίνει προσπάθεια ανίχνευσης της συναισθηματικής κατάστασης του χρήστη συστημάτων διαχείρισης μάθησης στηριζόμενη στην αναγνώριση εικόνας και ήχου. Το σύστημα αναγνωρίζει στις μεταβολές των γραμμών αντίστοιχη μεταβολή της συναισθηματικής κατάστασης του μαθητή και διαπιστώνει την εκδήλωση ανίας. Οι Sidney, D' Mello και Art Graesser αναγνώρισαν την συναισθηματική κατάσταση του μαθητή παρακολουθώντας την συνολική κατάσταση του σώματος (θέση και κίνηση) κατά την αλληλεπίδραση χρήστη και ενός ευφυούς συστήματος διδασκαλίας το AutoTutor[69]. 44

45 Τόσο στα αλληλεπιδραστικά συστήματα όσο και στα προσαρμοστικά εκπαιδευτικά συστήματα με χρήση υπερμέσων, η χωρίς προσήλωση ενατένιση της οθόνης καθώς και κάθε πληροφορία για τη νοητική συγκέντρωση στο μαθησιακό περιεχόμενο παρουσιάζει ιδιαίτερο ενδιαφέρον. Για παράδειγμα, συνδυάζοντας το μαθησιακό προφίλ και την εστίαση της προσοχής του χρήστη είναι δυνατό να συνάγονται πληροφορίες για τις προθέσεις του χρήστη σχετικά με την επίτευξη μαθησιακών στόχων. Η χωρίς προσήλωση ενατένιση της οθόνης χρησιμεύει επίσης ως μη φραστικό σήμα για την επικοινωνία με avatars ή με ανθρωποειδής αυτόνομους πράκτορες. Η χωρίς προσήλωση ενατένιση της οθόνης είναι μετρήσιμη όταν χρησιμοποιηθούν εγκεφαλικές δραστηριότητες ή κατάλληλες μεθοδολογίες παρακολούθησης της κίνησης του ματιού, δίνοντας έτσι νέες ευκαιρίες για την σχεδίαση νέων ευφυών διεπαφών (interfaces) που στηρίζονται στην αναγνώριση της προσοχής του χρήστη Το μοντέλο FearNot To μοντέλο FearNot[70] υιοθετεί μια εφαρμοσμένη προσέγγιση και έχει υλοποιηθεί σε ένα μαθησιακό περιβάλλον όπου εικονικοί χαρακτήρες αλληλεπιδρούν μεταξύ τους. Απευθύνεται σε παιδιά ηλικίας 8-12 ετών και έχει σαν σκοπό να τα εξοικειώσει με το πώς να αντιδρούν σε σενάρια που κάποιο άλλο παιδί τα εκφοβίζει/ενοχλεί (bullying)[9]. Οι εικονικοί χαρακτήρες του FearNot παρουσιάζουν συναισθηματική συμπεριφορά, η οποία καθορίζεται από τις θεωρητικές προβλέψεις του OCC. Πρόκειται για μια προσέγγιση η οποία είναι άρρηκτα δεμένη με το σενάριο του περιβάλλοντος. Κατ' αυτό τον τρόπο δυνατή η αναπαράσταση γνώσης και ο σχεδιασμός επόμενων κινήσεων από ένα ορισμένο εκ των προτέρων σύνολο δυνατών αντιδράσεων. 3.3 ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΚΑΤΑΣΤΑΣΗΣ Το επόμενο βήμα για την βελτίωση της επικοινωνίας ανθρώπου-υπολογιστή είναι η υιοθέτηση ενός αλληλεπιδραστικού παραδείγματος που μιμείται τις πτυχές της επικοινωνίας μεταξύ των ανθρώπων, δηλαδή την επίγνωση των συναισθηματικών καταστάσεων του χρήστη (ένας συνδυασμός των συναισθημάτων καθώς και άλλες νοητικές καταστάσεις, όπως η ανία ή η κούραση).οι επιπτώσεις των συναισθημάτων στην ανθρώπινη συμπεριφορά και στις διαδικασίες λήψης αποφάσεων γίνονται αντιληπτές με διάφορους τρόπους και τα αποτελέσματα της μπορούν να επηρεάσουν τις διαδικασίες αναζήτησης, απόκτησης και ανάκτησης πληροφοριών καθώς και την επιλογή στρατηγικών αποφάσεων για ένα έργο. Κατά την αντίθετη άποψη το συναίσθημα μπορεί να βοηθήσει τους ανθρώπους να δρουν πιο έξυπνα και να επιλέγουν ορθολογικά. Έρευνες στην υπολογιστική συναισθηματική έχουν δείξει το πώς οι υπολογιστές μπορούν να ερμηνεύσουν και να προσομοιώσουν τα συναισθήματα για την επίτευξη πιο εξελιγμένης αλληλεπίδρασης ανθρώπουυπολογιστή. Έχουν υπάρξει διάφορες προσεγγίσεις που προτείνουν τον καθορισμό των συναισθηματικών καταστάσεων[17]. Μερικές από τις πιο διαδεδομένες τεχνικές έρευνας βασίζονται στην ανάλυση του προσώπου, των χειρονομιών, της ομιλίας, την στάση του σώματος καθώς και μελέτες που συνδέουν την φυσιολογική αντίδραση ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 45

46 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ (physiological response) με την συναισθηματική κατάσταση. Κάθε τεχνική έχει της δικές του προκλήσεις. Στον παρακάτω πίνακα παρουσιάζονται μερικές από τις βασικές προσεγγίσεις σε σύγκριση με τα ποσοστά συναισθηματικής αναγνώρισης που παρατηρήθηκαν σε διάφορες έρευνες. Συχνά οι σωματικές κινητικές εκφράσεις του συναισθήματος διαφέρουν σε μεγάλο βαθμό από άτομο σε άτομο που καθιστούν οποιαδήποτε τεχνική αναγνώρισης συναισθήματος αδύνατη. Εκφράζεται η ελπίδα ότι η αναγνώριση των φυσιολογικών αντιδράσεων του σώματος και η προσέγγιση του συνδυασμού πολλών μαζί προσεγγίσεων επιφέρει καλύτερα και πιο εξειδικευμένα αποτελέσματα. Πίνακας 2: Συναισθηματικές προσεγγίσεις και ποσοστά αναγνώρισης Φυσιολογική προσέγγιση Η μεγάλη πρόκληση των φυσιολογικών σημάτων είναι η πληθώρα των διαθέσιμων δεδομένων. Εκατοντάδες χαρακτηριστικά μπορούν να εξαχθούν από την εξέταση όλων το φυσιολογικών αντιδράσεων. Η δραστηριότητα της καρδίας, των μυών και του εγκεφάλου, η αρτηριακή πίεση, η θερμοκρασία του δέρματος, η αναπνοή και η παραγωγή ιδρώτα είναι πηγές πλούσιες σε πληροφόρηση Φυσιολογικοί δείκτες Οι πιο βασικές φυσιολογικές μετρήσεις είναι η μέτρηση της μυϊκής έντασης του προσώπου, η μέτρηση της αγωγιμότητας του δέρματος, ο παλμικός όγκος του αίματος, η θερμοκρασία, τα κύματα του εγκεφάλου, ο παλμός της καρδίας και ο ρυθμός της αναπνοής. [19]. 46

47 Εικόνα 4: Φυσιολογικά μέτρα ανάλογα με τα όργανα του σώματος και οι αντίστοιχοι αισθητήρες. Μυϊκή ένταση Οι πιο διαδεδομένες μέθοδοι για καταγραφή και ανάλυση συμπερασμάτων της μυϊκής έντασης είναι το ηλεκτρομυογράφημα (electromyography)[19]. Το ηλεκτρομυογράφημα μετράει τις αλλαγές στα ηλεκτρικά δυναμικά που ενεργούν στις μυϊκές ίνες, οι οποίες είναι προσβάσιμες μέσω επιφανειακών ηλεκτροδίων που συνδέονται με το δέρμα πάνω στους μύες. Για την εξαγωγή συναισθηματικών συμπερασμάτων χρησιμοποιούμε συνήθως το ηλεκτρομυογράφημα του προσώπου (facial electromyography). Το πρόσωπο παρουσιάζει μια μεγάλη συγκέντρωση συναισθημάτων, όμως υπάρχουν κάποιες κύριες ομάδες μυών που συνήθως χρησιμοποιούνται για την αναγνώριση συναισθημάτων: οι μύες των φρυδιών που μας δίνουν συνήθως τα αρνητικά συναισθήματα (συνοφρύωση) και οι μύες των ζυγωματικών που μας δίνουν τα θετικά συναισθήματα (χαμόγελο). Εικόνα 5: Electromyography Αγωγιμότητα του δέρματος Η αγωγιμότητα του δέρματος είναι επίσης γνωστή και ως γαλβανική απόκριση του δέρματος (galvanic skin response, GSR) ή ηλεκτροδερμική απόκριση (elecrtodermal response, EDR) [18]. Είναι μία μέθοδος για την μέτρηση της ηλεκτρικής αγωγιμότητας του δέρματος, η οποία ποικίλλει ανάλογα με το επίπεδο υγρασίας της. Καθώς οι ιδρωτοποιοί αδένες παράγουν αυτή την υγρασία και οι αδένες ελέγχονται από το νευρικό σύστημα του σώματος, υπάρχει μία συσχέτιση μεταξύ της ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 47

48 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ αγωγιμότητας του δέρματος με την διεγερμένη κατάσταση του σώματος. Όσο πιο πολύ διεγείρει ένα γεγονός τον άνθρωπο τόσο θα μεγαλώνει η αγωγιμότητα του δέρματός του[19]. Με αυτόν τον τρόπο γίνεται αντιληπτή η ψυχολογική κατάσταση του ανθρώπου μέσα από αυθόρμητες διακυμάνσεις και αντιδράσεις σε εσωτερικά και εξωτερικά ερεθίσματα[18]. Μπορεί να μετρηθεί με δύο μικρά ηλεκτρόδια χλωριούχου αργύρου που τοποθετούνται στο δέρμα και εφαρμόζουν μία μικρή τάση μεταξύ τους. Η αγωγιμότητα μετράται από έναν αισθητήρα. Για να μεγιστοποιήσει την άνεση και την μείωση της όχλησης στα ηλεκτρόδια μπορούν τα τοποθετηθούν στα πόδια, ώστε να αφήνει τα χέρια ελεύθερα για την χρήση πληκτρολογίου ή ποντικιού. Εικόνα 6: Galvanic skin response Παλμικός όγκος του αίματος Ο παλμικός όγκος του αίματος (Blood Volume Pulse, BVP) μπορεί να μετρηθεί με μία διαδικασία που λέγεται photoplethysmography, η οποία παράγει ένα γράφημα που δείχνει την ροή του αίματος στα άκρα. Οι κορυφές των κυμάτων υποδεικνύουν έναν καρδιακό κύκλο, όπου η καρδία αντλεί αίμα στα άκρα. Αν το άτομο έχει συναισθήματα του φόβου ή της έκπληξης, η καρδία του συνήθως κάνει «άλματα» και χτυπάει γρήγορα για κάποιο χρονικό διάστημα, με αποτέλεσμα το πλάτος του καρδιακού κύκλου να αυξάνεται.. Όταν το άτομο ηρεμεί, διαστέλλεται ο εσωτερικός πυρήνας του σώματος, επιτρέποντας περισσότερο αίμα να ρέει πίσω στα άκρα και έτσι ο κύκλος επιστρέφει στο φυσιολογικό του μέγεθος. Για την μέτρηση αυτή χρησιμοποιείται ένας αισθητήρας που τοποθετείται στο δάχτυλο και αντανακλά υπέρυθρο φώς πάνω στο δέρμα[19]. Στην συνέχεια μετριέται το ποσό της αντανάκλασης αυτής. Το ποσό αυτό συσχετίζεται με την ΒVP καθώς το φως απορροφάται από την αιμοσφαιρίνη που βρίσκεται πλούσια στην κυκλοφορία του αίματος. Εικόνα 7: Blood Volume Pulse 48

49 Μεταβλητότητα του καρδιακού ρυθμού Για την μέτρηση της δραστηριότητας της καρδίας χρησιμοποιείται το ηλεκτροκαρδιογράφημα, το οποίο μετράει την συσταλτική δραστηριότητα της καρδίας.. Οι πιο σημαντικές μετρήσεις που γίνονται είναι του ρυθμού της καρδίας (heart rate, HR), τα διαστήματα μεταξύ των παλμών (inter-beat intervals, ΙΒΙ), την μεταβλητότητα του καρδιακού ρυθμού (heart rate Variability, HRV) και την αναπνευστική φλεβοκομβική αρρυθμία[19]. Η κανονική μεταβλητότητα του καρδιακού ρυθμού που καθορίζεται από το ηλεκτροκαρδιογράφημα οφείλεται στην συνεργατική δράση δύο κλάδων του αυτόνομου νευρικού συστήματος (autonomic nervous system, ANS). To αυτόνομο νευρικό σύστημα ρυθμίζει την ισορροπία μεταξύ των νευρικών, μηχανικών, ορμονικών και άλλων φυσιολογικών μηχανισμών προκειμένου να διατηρηθούν οι καρδιακοί παράμετροι στις πιο ευνοϊκές τους κυμάνσεις, ώστε να διευκολυνθεί η βέλτιστη ανάδραση στις μεταβαλλόμενες εξωτερικές ή εσωτερικές συνθήκες[16]. Άτομα με χαμηλή μεταβλητότητα του καρδιακού ρυθμού (Low HRV) αντιμετωπίζουν συνήθως ψυχολογικά προβλήματα, άγχος και φοβίες[18]. Έρευνες έχουν δείξει ότι η συσχέτιση αυτή είναι ανεξάρτητη από την ηλικία, το φύλο, την καρδιοαναπνευστική λειτουργία, τον καρδιακό ρυθμό, την αρτηριακή πίεση και το ρυθμό της αναπνοής. Οι αισθητήρες για το ηλεκτροκαρδιογράφημα συνήθως τοποθετούνται στην επιφάνεια του στήθους ή των άκρων[19]. Εγκεφαλική δραστηριότητα Εικόνα 8: Ηλεκτροκαρδιογράφημα Η ηλεκτρική δραστηριότητα των νευρώνων του εγκεφάλου μετριέται με ηλεκτρόδια τα οποία τοποθετούνται στην επιφάνεια του κεφαλιού. Η δραστηριότητα αυτή καταγράφεται από το ηλεκτροεγκεφαλογράφημα [33] (Electroencephalography, ΕΕG) όπου τα αποτελέσματα είναι πιο καθαρά όταν εξετάζουμε νευρώνες που βρίσκονται στον φλοιό και που βρίσκονται πλησιέστερα προς τα ηλεκτρόδια. Η συχνότητα και η ένταση είναι τα χαρακτηριστικά του ηλεκτροεγκεφαλογραφήματος. Η συχνότητα έχει συνήθως εύρος από 1 έως 80 Hz. Οι παρατηρούμενες συχνότητες χωρίζονται σε περιοχές συχνοτήτων όπου είναι περισσότερο εμφανείς οι ορισμένες καταστάσεις του εγκεφάλου. Οι δύο πιο σημαντικές είναι η άλφα (8-12 Hz) και η βήτα (12-30 Hz) ενότητες. Τα κύματα άλφα υποδηλώνουν μία χαλαρή ψυχική κατάσταση (θετικά συναισθήματα) και οι υψηλές δραστηριότητα τους έχουν συσχετιστεί με την αδρανοποίηση του εγκεφάλου. Η δραστηριότητα των βήτα σχετίζεται με μία ενεργή κατάσταση του νου και εμφανίζεται έντονη δραστηριότητα κατά την διάρκεια νοητικής δραστηριότητας (διέγερση). ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 49

50 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ Εικόνα 9: Electroencephalography Αναπνοή Για την εξαγωγή συναισθηματικών καταστάσεων ένα ακόμα μέτρο είναι σημαντικό να ληφθεί. Το μέτρο αυτό σχετίζεται με την αναπνοή και είναι ο ρυθμός της αναπνοής (Respiration Rate) [19]. Για την μέτρησή του χρησιμοποιείται η μέθοδος επέκτασης του στήθους, όπου ένας αισθητήρας τοποθετείται στο στήθος ή στην κοιλιακή χώρα. Η αύξηση του ρυθμού αναπνοής συσχετίζεται με έντονα συναισθήματα, όπως ο θυμός και η χαρά, ενώ η μείωση του με την χαλάρωση και την ευδαιμονία[19]. Εικόνα 10: Respiration Rate Θερμοκρασία του δέρματος Οι διακυμάνσεις της θερμοκρασίας του δέρματος (Skin temperature, SKT) προέρχονται κυρίως από τοπικές αλλαγές στην ροή του αίματος που προκαλούνται από αγγειακή αντίσταση ή από την αρτηριακή πίεση[20]. Η τοπική αγγειακή αντίσταση διαμορφώνεται από τον ομαλό μυϊκό τόνο, ο οποίος ρυθμίζεται από το συμπαθητικό σύστημα. Ο μηχανισμός της αρτηριακής διακύμανσης της αρτηριακής πίεσης μπορεί να περιγραφεί από ένα πολύπλοκο μοντέλο ρύθμισης του καρδιαγγειακού συστήματος από το αυτόνομο νευρικό σύστημα. Έτσι, είναι προφανές ότι η διακύμανση της θερμοκρασίας του δέρματος αντανακλάται από το αυτόνομο νευρικό σύστημα και αποτελεί ένα αποτελεσματικό μέτρο μέτρησης της συναισθηματικής κατάστασης Συναισθηματικό ποντίκι Το ειδικό σχεδιασμένο ποντίκι[17] κατασκευάστηκε για την καταγραφή τριών μέτρων που αποτελούν τις πιο χαρακτηριστικές πτυχές δραστηριοτήτων. Είναι ιδανικά διαμορφωμένο για μια σταθερή επαφή μεταξύ του δέρματος και των αισθητήρων για την μέτρηση του παλμικού όγκο του αίματος με την χρήση τις διαδικασίας photoplethysmography (PPG), την γαλβανική αντίδραση του δέρματος (GSR) και 50

51 την θερμοκρασία του δέρματος (SKT) προκειμένου να αποφευχθεί ο θόρυβος της μέτρησης. Το συναισθηματικό ποντίκι συλλέγει σήματα PPG από τον αντίχειρα, σήματα GSR από το κάτω μέρος της παλάμης και σήματα SKT από το κέντρο της παλάμης όπως φαίνεται στην Εικόνα 11. Το συναισθηματικό ποντίκι διαβάζει τα φυσιολογικά στοιχεία και τα διαβιβάζει στον διακομιστή. Ο διακομιστής στην συνέχεια επεξεργάζεται και αναλύει τα δεδομένα αξιολογώντας τα συναισθήματα με βάση ενός αλγορίθμου. Εικόνα 11: Συναισθηματικό Ποντίκι Εξαγωγή χαρακτηριστικών από τα φυσιολογικά σήματα Έχοντας αναφερθεί στα σήματα τα οποία μπορούν να χρησιμοποιηθούν για την αναγνώριση των συναισθημάτων, τότε είναι αναγκαίο να καθοριστεί μία μεθοδολογία για να μπορέσουν να μεταφραστούν τα σήματα αυτά που προέρχονται από τους αισθητήρες σε συγκεκριμένα συναισθήματα[20]. Το πρώτο αναγκαίο βήμα είναι η εξαγωγή χρήσιμων πληροφοριών από τα σήματα ώστε να μπορέσει να γίνει η ταξινόμηση σε διάφορα πρότυπα (pattern classification). Για την αναγνώριση συναισθημάτων τα χαρακτηριστικά από κάθε βιώσιμα θα πρέπει να εξάγονται. Για κάθε εγγραφή συνήθως υπολογίζουμε τις έξη παραμέτρους που προτείνονται από την Picard σε Ν τιμές (5 δευτερόλεπτα στα 256 δείγματα ανά δευτερόλεπτο δίνει Ν=1280) : 1. Η μέση τιμή των αρχικών σημάτων 2. Η τυπική απόκλιση των αρχικών σημάτων 3. Ο μέσος όρος των απόλυτων τιμών των πρώτων διαφορών των αρχικών σημάτων 4. Ο μέσος όρος των απόλυτων τιμών των πρώτων διαφορών των κανονικοποιημένων σημάτων 5. Ο μέσος όρος των απόλυτων τιμών των δεύτερων διαφορών των αρχικών σημάτων ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 51

52 ΚΕΦΑΛΑΙΟ 3: ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ 6. Ο μέσος όρος των απόλυτων τιμών των δεύτερων διαφορών των κανονικοποιημένων σημάτων Μέθοδοι ταξινόμησης σε συναισθηματικές καταστάσεις Αρκετές παλαιότερες και τρέχουσες έρευνες[20] έχουν γίνει για την ταξινόμηση συναισθημάτων που προκύπτουν από την επεξεργασία φυσιολογικών σημάτων. Η Picard και οι συνεργάτες της πρότειναν το συνδυασμό δύο μεθόδων, την Σειριακή Κυμαινόμενη Αναζήτηση προς τα εμπρός (Sequential Floating Forward Search, SFFS) και την Fisher Projection για την ταξινόμηση οκτώ συναισθημάτων με ακρίβεια 81%. Η μέθοδος Κ -κοντινότερων γειτόνων (Κ-Nearest neighbor), η Διαχωριστική Λειτουργική Ανάλυση (Discriminant Function Analysis, DFA) και Marquardt Backpropagation εφαρμόστηκαν για την διαφοροποίηση μεταξύ έξι συναισθημάτων από τους Lisetti και Nasoz με ακρίβεια ταξινόμησης 71%, 74% και 83% αντίστοιχα. Ο Conati επίσης παρέχει μία μεθοδολογία για την οικοδόμηση ενός μοντέλου πιθανοτήτων που λαμβάνει υπόψη το πλαίσιο της αλληλεπίδρασης ανθρώπου-υπολογιστή, την προσωπικότητα του χρήστη και μια ποικιλία εκφράσεων του σώματος του. Για την αξιολόγηση του ψυχικού φόρτους έχει επίσης χρησιμοποιηθεί η μέθοδος Artificial Neural Network με μέση ακρίβεια 85%, 82% και 86% σε χαμηλές και υψηλές δυσκολίας συνθήκες αντίστοιχα. Τέλος ο αλγόριθμος Vector Support Machine διερευνήθηκε για την ταξινόμηση τριών, τεσσάρων και πέντε συναισθημάτων με ακρίβεια 78%, 61% και 41%. 52

53 Κ Ε Φ Α Λ Α Ι Ο 4 : Α Ν Α Γ Ν Ω Ρ Ι Σ Η Σ Υ Ν Α Ι Σ Θ Η Μ ΑΤ Ω Ν Α Π Ο Τ Η Ν Ο Μ Ι Λ Ι Α Κ Α Ι Τ Ι Σ Ε Κ Φ Ρ Α Σ Ε Ι Σ Τ Ο Υ Π Ρ Ο Σ Ω Π Ο Υ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ 53

54

55 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ 4.1 ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΤΗΝ ΟΜΙΛΙΑ Ένα σύστημα αναγνώρισης συναισθημάτων μέσω φωνής αποτελείται από τρία κύρια μέρη, όπως φαίνεται στην παρακάτω εικόνα: επεξεργασία του σήματος (signal processing), υπολογισμός χαρακτηριστικών (feature calculation) και ταξινόμηση (classification) [21]. Η επεξεργασία του σήματος περιλαμβάνει την ψηφιοποίηση του καταγεγραμμένου σήματος, πιθανώς ακουστική προεπεξεργασία όπως το φιλτράρισμα και την κατάτμηση του σήματος εισόδου σε σημαντικές μονάδες. Ο σκοπός του υπολογισμού των χαρακτηριστικών είναι να βρεθούν οι ιδιότητες εκείνες των ψηφιοποιημένων και προεπεξεργασμένων ηχητικών σημάτων που χαρακτηρίζονται από συναισθήματα και η αναπαράσταση τους σε ν-διάστατο διάνυσμα χαρακτηριστικών γνωρισμάτων (feature vector). Μέχρι στιγμής δεν υπάρχει κάποια γενική συμφωνία για το πια χαρακτηριστικά είναι πιο σημαντικά. Κατά συνέπεια, οι περισσότερες προσεγγίσεις υπολογίζουν ένα μεγάλο αριθμό χαρακτηριστικών και στην συνέχεια εφαρμόζουν αλγόριθμους επιλογής χαρακτηριστικών προκειμένου να μειωθούν οι διαστάσεις των δεδομένων εισόδου. Μετά τον υπολογισμό των χαρακτηριστικών, κάθε συναισθηματική μονάδα αντιπροσωπεύεται από ένα ή περισσότερα διανύσματα χαρακτηριστικών γνωρισμάτων και το πρόβλημα της αναγνώρισης συναισθημάτων μπορεί τώρα να θεωρηθεί ως γενικό πρόβλημα ταξινόμησης. Η ταξινόμηση μπορεί να είναι είτε στατική είτε δυναμική. Στην στατική μοντελοποίηση, ένα διάνυσμα αντιπροσωπεύει μία συναισθηματική μονάδα, ενώ στην δυναμική μοντελοποίηση μία συναισθηματική μονάδα αντιπροσωπεύεται από μία ακολουθία διανυσμάτων. Στην δυναμική ταξινόμηση λαμβάνεται επίσης υπόψη και η χρονική συμπεριφορά των διανυσμάτων που είναι πολύ σημαντική για την αναγνώριση των συναισθημάτων. Για αναγνώριση συναισθημάτων σε πραγματικό χρόνο[21], οι δυνατότητες απευθείας σύνδεσης των αλγορίθμων πρέπει να χρησιμοποιούνται σε όλα τα στάδια. Επιπλέον οι μέθοδοι είναι πιο ισχυρές στις αλλαγές του θορύβου και άλλων παρεμβολών, διότι κατά την διάρκεια εφαρμογών μπορούν να ελεχθούν ευκολότερα οι επιρροές στην κατάσταση. Για να μπορεί να προβλεφτεί πως ένας εκπαιδευόμενος ταξινομητής θα συμπεριφερθεί σε νέα δεδομένα, θα πρέπει να δοκιμαστεί με δεδομένα τα οποία δεν χρησιμοποιήθηκαν κατά την διάρκεια της κατάρτισης. Καθώς η καταγραφή των δεδομένων απαιτεί μεγάλη προσπάθεια και δεν είναι δυνατή η απόκτηση απεριόριστων νέων δεδομένων δοκιμών (test data), συνήθως μια υπάρχουσα βάση δεδομένων χωρίζεται σε σύνολα εκπαίδευσης και δοκιμής (training and test sets). Μια άλλη δυνατότητα είναι η λεγόμενη διασταυρωμένη επικύρωση (cross-validation), ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ ΓΙΑ REAL-TIME EMOTION FROM SPEECH AND FACIAL EMOTION RECOGNITION ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ

56 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ όπου η βάση δεδομένων χωρίζεται σε n τμήματα. Τα n-1 μέρη χρησιμοποιούνται για την κατάρτιση και τα υπόλοιπα για την δοκιμή. Εικόνα 12: Σύστημα αναγνώρισης συναισθημάτων από την φωνή Βάσεις δεδομένων με συναισθηματική ομιλία Οι βάσεις δεδομένων με ηχογραφημένο υλικό συναισθηματικής ομιλίας είναι ουσιαστικής σημασίας για την αναγνώριση των συναισθημάτων. Το γενικό συναίσθημα και οι ειδικές σχέσεις μεταξύ των ακουστικών παραμέτρων μπορούν να γίνουν γνωστά μόνο από ένα μία μεγάλη σειρά παραδειγμάτων. Έτσι η ποιότητα των ηχογραφήσεων είναι ζωτικής σημασίας για τον εκπαιδευόμενο ταξινομητή (trained classifier), δεδομένου ότι δεν μπορεί να μάθει περισσότερα από αυτά που παρέχουν τα δεδομένα κατάρτισης (training data). Όσο περισσότερο τα δεδομένα ταιριάζουν στο συγκεκριμένο σενάριο ή όσο περισσότερο αντιπροσωπευτικά είναι με την γενική έκφραση των συναισθημάτων, τόσο καλύτερα μπορεί ένας ταξινομητής να γενικεύσει πρωτόγνωρες περιπτώσεις. Όλα αυτά συμβάλλουν στην σημασία του τομέα της κατάρτισης (training corpora). 56

57 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Κατηγορίες συναισθηματικών βάσεων δεδομένων Οι βάσεις δεδομένων[21] με συναισθηματική ομιλία δεν είναι απαραίτητες μόνο για ψυχολογικές μελέτες, αλλά και για να την αυτόματη πρόβλεψη συναισθημάτων. Εκπαιδευόμενοι ταξινομητές μπορούν να ταξινομήσουν αξιόπιστα μόνο τα δεδομένα που είναι όμοια με τα δεδομένα κατάρτισης. Έτσι η σχεδίαση ή η επιλογή των δεδομένων κατάρτισης για μια δοσμένη εφαρμογή είναι ένα πολύ σημαντικό βήμα. Η ομοιότητα που αναφέρθηκε παραπάνω σημαίνει ότι τα δεδομένα καταγράφονται κάτω από όμοιες συνθήκες (ίδιο μικρόφωνο, περιβάλλον και θορύβους) με το ίδιο είδος ομιλητών ( ίδια ηλικία, φύλο, κ.λπ.) και το ίδιο είδος ομιλίας (αυθόρμητη, από διάβασμα, ερμηνεία). Η σχεδίαση μίας βάσης δεδομένων με συναισθηματική ομιλία αποτελεί μια πολύ δύσκολη εργασία. Η πρώτη απόφαση που πρέπει να παρθεί αφορά το πώς τα συναισθήματα πρέπει να παράγονται. Ο ευκολότερος τρόπος είναι η δημιουργία μίας ομάδας ατόμων που θα προσποιούνται συναισθήματα. Γενικά η έρευνα πάνω σε αυτό το θέμα ασχολείται με βάσεις δεδομένων ερμηνείας που προκαλείται ή με εντελώς αυθόρμητη ομιλία. Φυσικά η πολυπλοκότητα της εργασίας αυξάνεται με την φυσικότητα της ομιλίας. Στην αρχή των ερευνών σχετικά με την αυτόματη φωνητική αναγνώριση, η οποία άρχισε σοβαρά να ερευνάται στα μέσα της δεκαετίας του 90, οι εργασίες άρχισαν με προκαλούμενη ομιλία και στην συνέχεια μέχρι και σήμερα μετατοπίστηκαν στην συλλογή πιο ρεαλιστικών δεδομένων. Για να αποκλειστούν τυχόν επιρροές από το περιεχόμενο, οι προφορικές εκφράσεις είναι συνήθως με συναισθηματικά ουδέτερο περιεχόμενο διότι το γλωσσικό περιεχόμενο συχνά καθοδηγεί τους ανθρώπους περισσότερο από τα γλωσσολογικά χαρακτηριστικά όταν ζητηθεί να ταξινομηθούν τα συναισθήματα που προκύπτουν από μία συζήτηση μεταξύ τους. Οι επαγγελματίες ηθοποιοί μπορούν να εμβαθύνουν σε ένα συναίσθημα και να προσποιηθούν σε τέτοιο βαθμό ώστε να έχουν παρόμοιες φυσιολογικές αποκρίσεις με εκείνες σε πραγματικές συναισθηματικές καταστάσεις. Ως εκ τούτου, μερικοί ερευνητές ισχυρίζονται ότι αυτά τα συναισθήματα είναι τα πιο κατάλληλα για εξέταση και κατάρτιση, από τα συναισθήματα στην πραγματική ζωή διότι είναι αγνά, απαλλαγμένα από άλλες ανεξέλεγκτες επιρροές. Ωστόσο, αμφισβητείται το κατά πόσο αυτό είναι αλήθεια, διότι τα προκαλούμενα συναισθήματα δεν αφορούν παρά μόνο τα βασικά και τα πολύ έντονα συναισθήματα, ενώ στην πραγματικότητα τα συναισθήματα είναι συχνά αδύναμα και ένα μείγμα πολλών διαφορετικών συναισθημάτων. Μια άλλη δυνατότητα για την παραγωγή προσομοιωμένων συναισθημάτων είναι η ανάγνωση ενός κειμένου από ανθρώπους με περισσότερο ή λιγότερο συναισθηματικό περιεχόμενο. Αν τους ζητηθεί να διαβάσουν το κείμενο εκφραστικά, ακόμα και οι μη επαγγελματίες ομιλητές μπορούν να παράγουν αξιοσημείωτα συναισθήματα. Η επιτυχία γίνεται πιο εύκολη όταν το κείμενο είναι συναισθηματικά χρωματισμένο. Φυσικά τα συναισθήματα δεν είναι και πάλι αυθόρμητα. Ένας σχετικά μεγάλος αριθμός τέτοιων βάσεων δεδομένων έχουν αναπτυχθεί. Ανάμεσα σε όλες η πιο γνωστή είναι η Δανική βάση δεδομένων με συναισθηματική ομιλία ( Danish Emotional Speech database, DES), η οποία περιλαμβάνει ομιλία από 4 ηθοποιούς που προφέρουν 2 μεμονωμένες λέξεις ( ναι / όχι ), 9 προτάσεις και 2 αποσπάσματα ανάγνωσης κειμένου σε 5 συναισθηματικές καταστάσεις.. Για την ταξινόμηση του στρες, η SUSAS (Speech Under Simulated and Actual Stress Database) έχει χρησιμοποιηθεί εκτενώς και περιέχει ομιλία με 57

58 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ προσομοιωμένο στρες σε 8 διαφορετικές μορφές. Τέλος ένα ακόμα παράδειγμα βάσης δεδομένων με προκαλούμενη ομιλία είναι η Βάση δεδομένων με συναισθηματική ομιλία του Βερολίνου. Η συμβατική προσέγγιση για την συλλογή προκαλούμενων συναισθηματικών δεδομένων από την ομιλία είναι το διάβασμα ενός συνόλου προτάσεων που απεικονίζουν συγκεκριμένες συναισθηματικές καταστάσεις από ηθοποιούς. Αυτό οδηγεί συνήθως σε πολύ πρωτότυπα και τεχνητά δεδομένα. Προκειμένου να ενισχυθεί ο ρεαλισμός της προσέγγισης αυτής, έχει προταθεί η χρήση ειδικών ερμηνευτικών τεχνικών. Για παράδειγμα, οι Busso και Narayanan ζήτησαν από επαγγελματίες ηθοποιούς και φοιτητές δραματικής σχολής να παίξουν αυτοσχέδιο ή με σενάριο δράμα και συνέριναν τις δύο αυτές προσεγγίσεις. Εντόπισαν ότι το αυτοσχέδιο θέατρο ήταν πιο φυσικό, αλλά λιγότερο ελεγχόμενο. Το θέατρο με σενάριο ήταν πιο εύκολο να αναλυθεί καθώς το λεξιλογικό περιεχόμενο ήταν γνωστό. Τέλος τα συναισθήματα που προκύπτουν από την αυθόρμητη ερμηνεία έδειξαν να είναι πιο έντονα από τις ερμηνείες με σενάριο. Μία άλλη μέθοδος για την πρόκληση συναισθημάτων είναι η Τεχνητή Συναισθηματική Ακρόασης (Sensitive Artificial Listener, SAL). Σε αυτή την μέθοδο άτομα μιλάνε σε έναν τεχνητό ακροατή που μπορεί να έχει τέσσερις διαφορετικές προσομοιωμένες προσωπικότητες για να ενθαρρύνουν τον χρήστη να συμμετάσχει στα αντίστοιχα συναισθηματικά πρότυπα. Οι προσωπικότητες είναι αισιόδοξοι, συγκρουσιακοί, ρεαλιστικοί και καταθλιπτικοί. Τα θέματα μπορούν να εναλλάσσονται κατά την διάρκεια της συνομιλίας. Οι απαντήσεις που επιλέγονται από τον ακροατή είναι προκαθορισμένες αν και μια πλήρως αυτοματοποιημένη έκδοση έχει αναπτυχθεί από την ΕΕ με το έργο SEMAINE2. Αν και τα συναισθήματα που προκαλούνται από το SAL προέρχονται από ένα ευρύ φάσμα, δεν είναι πολύ έντονα προφανώς επειδή η κατάσταση δεν είναι αρκετά ρεαλιστική. Μέχρι στιγμής υπάρχουν Αγγλικές, Εβραϊκές και Ελληνικές εκδόσεις του SAL. Οι Amir et al[21] χρησιμοποίησαν μία τεχνική όπου άτομα κλήθηκαν να θυμηθούν και να μιλήσουνε για συναισθηματικές καταστάσεις που είχαν βιώσει στην ζωή τους. Τα συναισθήματα που προέρχονται από την πραγματική ζωή δεν είναι πολύ δύσκολο να καταγραφούν. Ωστόσο, ηθικοί λόγοι και προσωπικά δικαιώματα απαγορεύουν την χρήση τους χωρίς την άδεια των ατόμων που αφορούν. Εκτός αυτού, είναι δύσκολη η καταγραφή καλής ποιότητας ήχου. Τα δεδομένα από τηλεφωνικά κέντρα περιέχουν πολύ ρεαλιστικά δεδομένα ενώ έχουν σχετικά ελεγχόμενες προϋποθέσεις καταγραφής. Σε ορισμένες χώρες, όπως στην Γαλλία, οι ερευνητές έχουν την δυνατότητα να χρησιμοποιήσουν αυτά τα δεδομένα χωρίς την απαιτούμενη άδεια. Ένας άλλος τύπος του σώματος κατάρτισης με άφθονο υλικό προέρχεται από τα δεδομένα της τηλεόρασης. Για παράδειγμα, οι άνθρωποι των talk shows συμπεριφέρονται φαινομενικά φυσικά και εκφράζουν πολλά συναισθήματα. Ωστόσο, η παρουσία της κάμερας επηρεάζει πάντα την συμπεριφορά στο να μην είναι απόλυτα φυσική. Εκτός αυτού, οι λόγοι πνευματικών δικαιωμάτων καθιστούν συχνά δύσκολο την χρήση μιας ταινίας ή τηλεοπτικών δεδομένων. Η Belfast fφυσική βάση δεδομένων και η EmoTv είναι μερικά παραδείγματα βάσεων δεδομένων που περιέχουν τηλεοπτικά δεδομένα. Οι συζητήσεις του επιλέγονται είναι συνήθως από chat shows, από θρησκευτικές εκπομπές ή από τηλεοπτικές συνεντεύξεις και 58

59 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ εμφανίζουν ένα ευρύ φάσμα συναισθημάτων. Πρόσφατα, έγινε διαθέσιμη στο κοινό η οπτικοακουστική βάση δεδομένων Vera am Mittag. Περιέχει ηχογραφήσεις του γερμανικού talkshow Vera am Mittag και διαθέτει αυθόρμητες συναισθηματικές εκφράσεις από τις συζητήσεις μεταξύ των καλεσμένων. Η βάση αυτή χαρακτηρίζεται από ένα μεγάλο αριθμό σχολιαστών κατά μήκος 3 διαστάσεων (σθένος/ενεργοποίηση/κυριαρχία). Αν και τα δεδομένα της τηλεόρασης είναι επίσης περισσότερο ή λιγότερο κατάλληλα για την εκπαίδευση ενός αυθόρμητου αναγνωριστή συναισθημάτων, η εύρεση συναισθημάτων από ταινίες μπορεί να αποτελέσει μία εφαρμογή από μόνη της. Συμπερασματικά, ισχύει ότι όσο αυθόρμητη και φυσική είναι η ομιλία και τα συναισθήματα, τόσο τα αποτελέσματα της ταξινόμησης υποβαθμίζονται, όπως φαίνεται στο παρακάτω σχήμα. Για ένα συγκεκριμένο έργο, ο καλύτερος τύπος βάσης δεδομένων κατάρτισης εξαρτάται από την χρήση της εφαρμογής αναγνώρισης συναισθημάτων από την ομιλία. Ένα χρησιμοποιηθεί για ένα παιχνίδι τα προκαλούμενα συναισθήματα θα ήταν κατάλληλα. Για όλα τα πρότυπα αναγνώρισης η καλύτερη λύση είναι η συλλογή των δεδομένων από το ακριβώς ίδιο σενάριο με αυτό της εφαρμογής που θα χρησιμοποιηθούν, αν και αυτό πολλές φορές είναι ανέφικτο. Εικόνα 13: Κατηγορίες συναισθηματικών βάσεων και η πολυπλοκότητα/δυσκολίες τους Η δημιουργία ετικετών στις βάσεις δεδομένων Όταν τα δεδομένα έχουν συλλεχθεί, πρέπει να φέρουν μία σήμανση, ώστε ένας ταξινομητής να μπορεί να μάθει της εξαρτήσεις μεταξύ στα ακουστικά δεδομένα και στα συναισθήματα. Οι ετικέτες των βάσεων δεδομένων[21] αντιπροσωπεύουν τα βασικά συναισθήματα που αναφέρθηκαν σε προηγούμενο κεφάλαιο. Για τα προκαλούμενα δεδομένα, οι ετικέτες είναι συνήθως γνωστές εκ των προτέρων. Οι πιο 59

60 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ γνώστες περιλαμβάνουν τα συναισθήματα του θυμού, της χαράς, του φόβου, της θλίψης, της απέχθειας, της πλήξης και τα ουδέτερα. Στην αυθόρμητη ομιλία έχουμε τις διάφορες διαστάσεις αυτών των συναισθημάτων από θετικό σε αρνητικό και από μεγάλη ένταση σε μικρή ένταση. Τυπικά ισχύει ότι για τα ρεαλιστικά συναισθήματα χρησιμοποιούνται 2, 3 ή 4 συναισθηματικές ετικέτες παραπάνω. Η πιο διαδεδομένος τρόπος επισήμανσης που κυριαρχεί στην ομιλία και στο συναίσθημα είναι η κατηγορηματική επισήμανση (categorical labelling). Αυτή η μέθοδος είναι κατάλληλη για τα προκαλούμενα συναισθήματα από ηθοποιούς διότι τα συναισθήματα αυτά έχουν εγγενώς κατηγορηματική δομή. Οι ετικέτες συχνά πρέπει να πάρουν μια αναγκαστική απόφαση (forced choice), διότι τους δίνεται ένας περιορισμένος αριθμός κατηγοριών (οι ίδιες κατηγορίες με αυτές που οι ηθοποιοί κλήθηκαν να παράγουν. Πιο πρόσφατες εργασίες στα φυσικά δεδομένα έχουν μετακινηθεί από την κατηγορηματική επισήμανση στην επισήμανση διαστάσεων ( dimensional labelling), μία έννοια που παρουσιάστηκε από τον Wundt (1903) [21], επαναπροσδιορίστηκε από τον Schlossberg (1954) [21] και χρησιμοποιείται ευρέως από τότε. Οι 2 κύριες διαστάσεις που των συναισθημάτων ( αξιολόγηση/ενεργοποίηση) αναφέρθηκαν στο Κεφάλαιο 2. Οι διαστάσεις των συναισθημάτων μπορούν να αποδοθούν με το πρόγραμμα FEELTRACE. Το FEELTRACE επιτρέπει μία εκτίμηση στην ηχογραφημένη ομιλία και την ταυτόχρονη επιλογή ενός σημείου στην οθόνη του οποίου οι συντεταγμένες εκφράζουν τις δύο διαστάσεις. Μία τρίτη προσέγγιση είναι η λογική επισήμανση (logical labelling). Εδώ η συναισθηματική κατάσταση θεωρείται ότι βρίσκεται στο τέλος ενός δέντρου με διακλαδώσεις. Η εννοιολογική προσέγγιση αυτής παρουσίασαν πρώτοι οι Ortony et al (1988) [21] και o Roseman (1991) [21]. Μια ιδιαίτερα ενδιαφέρον μορφή της λογικής επισήμανσης βασίζεται στο μοντέλο αξιολόγησης. Η προσέγγιση σχετίζεται με θεωρητικούς, οι οποίοι ισχυρίζονται ότι τα διαφορετικά είδη συναισθημάτων αντιστοιχούν σε διαφορετικούς τρόπους εκτίμησης της κατάστασης η οποία προκαλεί το συναίσθημα. Ο Scherer (1999) [21] παρέχει μία ευρεία επισκόπηση της εν λόγω προσέγγισης και ένα μοντέλο που θα μπορούσε να μεταφραστεί σε ένα σύστημα επισήμανση Παραδείγματα βάσεων δεδομένων με συναισθηματική ομιλία Μερικές από τις πιο διαδεδομένες και με πολλαπλή χρήση βάσεις δεδομένων με συναισθηματική ομιλία παρουσιάζονται παρακάτω. Berlin Database of Emotional Speech. Η βάση δεδομένων με συναισθηματική ομιλία του Βερολίνου καταγράφηκε στο Τεχνικό Πανεπιστήμιο του Βερολίνου[21]. Περιέχει προκαλούμενη συναισθηματική ομιλία στα γερμανικά από 10 προσεκτικά επιλεγμένους ομιλητές (πέντε άντρες και πέντε γυναίκες) που κλήθηκαν να προσποιηθούν έξι διαφορετικά συναισθήματα (θυμό, χαρά, λύπη, φόβο, απέχθεια και ανία) καθώς και μία ουδέτερη κατάσταση σε δέκα εκφράσεις για την κάθε κατάσταση. Πέντε από τις δέκα εκφράσεις αποτελούν μία φράση και οι άλλες πέντε από δύο φράσεις. Το περιεχόμενο των φράσεων ήταν 60

61 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ συναισθηματικά ουδέτερο. Καθώς οι καταγραφές προοριζόταν για φωνητική ανάλυση, οι συνθήκες καταγραφής χαρακτηρίζονταν από πολύ υψηλή ποιότητα ήχου. Μετά τις ηχογραφήσεις πραγματοποιήθηκε ένα ακουστικό τεστ με 20 ανθρώπους οι οποίοι έπρεπε να αναγνωρίσουν το συναίσθημα και το ποσοστό φυσικότητας του. Κατά μέσο όρο, 94,25% από τις εκφράσεις αναγνωρίστηκαν σωστά και το 78,83% θεωρήθηκε φυσικό. Η βάση αυτή αποτελεί ένα εύκολο έργο για την συναισθηματική αναγνώριση της ομιλίας αλλά αρκετά μακριά από ρεαλιστικές καταστάσεις. FAU Aibo Emotion Corpus Η FAU Aibo Emotion Corpus[21] καταγράφηκε στην Γερμανία. Περιέχει ομιλία από παιδιά που αλληλεπιδρούν με το σκυλί-ρομπότ Aibo της Sony. Τα παιδιά έπρεπε να καθοδηγήσουν τον σκύλο με προφορικές εντολές, προκειμένου να εκπληρώσει μία εργασία. Στην πραγματικότητα, όμως, το ρομπότ λειτουργούσε εξ αποστάσεως από άλλο πρόσωπο και η αλληλουχία των κινήσεων του ήταν προκαθορισμένη. Για τα παιδιά όμως το σκυλί φαινόταν ανυπάκουο ή ανίκανοι να το κάνουν ότι ήθελαν. Αυτό τους προκάλεσε να προσπαθήσουν να το διδάξουν, συνήθως χρησιμοποιώντας ομιλία για μωρά (motherese), να θυμώνουν με το σκύλο όταν δεν τους υπάκουε ή να τον επαινέσουν όταν κατά τύχη έκανε τις σωστές κινήσεις. Ηχογραφήσεις ελήφθησαν από 51 παιδία ηλικίας από 10 μέχρι 13 ετών από 2 σχολεία, 31 από αυτά κορίτσια και 20 αγόρια. Συνολικά περιέχει περίπου 9,2 ώρες ομιλίας. Στην συνέχεια, κάθε λέξη ήταν σχολιασμένη από 5 ανεξάρτητους εκτιμητές με ετικέτες χαράς, έκπληξης, συμπάθειας, αγωνίας, ευθιξίας, θυμού, συναίσθημα ομιλίας μωρού, ανίας, επίπληξης, ανάπαυσης και ουδέτερες. Η κατάτμηση σε λέξεις προέρχεται από έναν αναγνωριστή αυθόρμητης ομιλίας και στην συνέχεια διορθώνεται στο χέρι. SmartKom Corpus Ο στόχος του έρχου SmartKom[21] ήταν η ανάπτυξη ενός πολυτροπικού συστήματος διαλόγου για 3 διαφορετικά σενάρια: ένα κοινό περιβάλλον εργασίας πληροφορίας, ένα βοηθός επικοινωνίας στο κινητό και στο σπίτι. Το σύστημα είχε ως στόχο να καταλάβει τις χειρονομίες και την ομιλία, καθώς και να ανταποκρίνεται στα συναισθήματα. Στο πλαίσιο του έργου, ένα μεγάλο πολυτροπικό σώμα συλλέχθηκε για ρυθμίσεις του έργου Wizard-of-Oz στο Πανεπιστήμιο του Μονάχου. 222 εθελοντές καταγράφθηκαν σε 447 συνεδρίες. Κάθε συνεδρία ήταν περίπου 4,5 λεπτά σε διάρκεια, ωστόσο, το μέρος του λόγου ήταν πολύ λιγότερο. Χρησιμοποιήθηκαν διευθυντικά μικρόφωνα και κάμερες. Η ηλικία των εθελοντών κυμαινόταν από περίπου 10 έως 65 ετών, ενώ η πλειοψηφία των ομιλητών ήταν μεταξύ 12 και 27 ετών. Έτσι τα θέματα ήταν πολύ ετερογενής. Οι εθελοντές δεν ήξεραν ότι κατά την διάρκεια των ηχογραφήσεων παρατηρήθηκε η συναισθηματική τους κατάσταση. Εκτός από τα φυσικά συναισθήματα προσπάθησαν να αποσπάσουν συναισθήματα από μικρές δυσλειτουργίες του συστήματος. Ενώ τα συναισθήματα θα μπορούσαν να θεωρηθούν αρκετά ρεαλιστικά, δυστυχώς το μεγαλύτερο μέρος της ομιλίας είναι συναισθηματικά ουδέτερο. Τα συναισθήματα που επισημάνθηκαν ήταν η χαρά/ικανοποίηση, έκπληξη, συλλογισμού, απελπισίας, θυμού/ερεθισμού και ουδέτερα και αδιευκρίνιστα επεισόδια. 61

62 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 14: Έρευνα σχεδίασης του SmartKom-Mobile σεναρίου Τμηματοποίηση του ήχου Ο στόχος της τμηματοποίησης του ήχου είναι η κατάτμηση ενός σήματος ομιλίας σε μονάδες που αντιπροσωπεύουν κατάλληλα τα διάφορα συναισθήματα[34]. Οι μονάδες αυτές είναι συνήθως μεσαίου μήκους χρονικά διαστήματα που δημιουργούνται με γλωσσικό κίνητρο, όπως λέξεις ή εκφράσεις. Αν και η απόφαση σχετικά με το είδος της μονάδας είναι σημαντική, δεν έχει λάβει προσοχή σε πολλές έρευνες σχετικές με την αναγνώριση των συναισθημάτων. Οι περισσότερες προσεγγίσεις μέχρι σήμερα έχουν ασχοληθεί με τις εκφράσεις των προκαλούμενων συναισθημάτων όπου η επιλογή της μονάδας είναι προφανώς μόνο αυτή η έκφραση, μια σαφώς καθορισμένη γλωσσική μονάδα χωρίς αλλαγή των συναισθημάτων. Ωστόσο, στην αυθόρμητη ομιλία αυτό το είδος μονάδας δεν υπάρχει. Γενικά μία καλή συναισθηματική μονάδα πρέπει να πληρεί ορισμένες απαιτήσεις. Για την εξαγωγή χαρακτηριστικών σύμφωνα με τις παγκόσμιες στατιστικές για μια μονάδα εκχύλισης, αυτές οι μονάδες θα πρέπει να έχουν ελάχιστο μήκος. Όσες περισσότερες τιμές στατιστικών μέτρων υπολογίζονται τόσο περισσότερες εκφραστικές είναι οι μονάδες αυτές. Από την άλλη πλευρά θα πρέπει να συμπεριλαμβάνονται όλες οι αλλαγές στην συναισθηματική κατάσταση, έτσι η μονάδα θα πρέπει να είναι αρκετά σύντομη ώστε να είναι σίγουρο ότι δεν θα συμβεί καμία αλλαγή των συναισθημάτων εντός της. Επιπλέον, θα πρέπει οι μονάδες να είναι τόσο σύντομες ώστε οι ακουστικές ιδιότητες της σε σχέση με τα συναισθήματα να είναι σταθερές για να μπορούν να προκύψουν τα εκφραστικά χαρακτηριστικά. Τέλος οι συναισθηματικές μονάδες θα πρέπει να συνάδουν με τις ετικέτες των βάσεων δεδομένων εκπαίδευσης. Δεδομένου ότι ο στόχος εδώ είναι η αναγνώριση συναισθημάτων από ένα σύστημα σε πραγματικό χρόνο η επιλογή των μονάδων θα πρέπει να υπολογίζεται αυτόματα από το ηχητικό σήμα μόνο. Σε γενικές γραμμές, οι μονάδες μπορεί να είναι γλωσσικά κίνητρα και ως εκ τούτου να είναι φωνήματα, συλλαβές, λέξεις, ή εκφράσεις, ή να καθορίζονται σε πλαίσια με σταθερό μήκος, για παράδειγμα 0,5 ή 1 δευτερολέπτου. Οι μονάδες με σταθερό μήκος έχουν το πλεονέκτημα σε ρεαλιστικές εφαρμογές. Επιπλέον, μία μονάδα μπορεί να θεωρηθεί με το γενικό πλαίσιο της, αυτό σημαίνει ότι για μία λέξη, θα εξετάσει την 62

63 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ προηγούμενη και την επόμενη λέξη μαζί. Για να έχουμε μία μονάδα στην αυθόρμητη ομιλία η οποία να προσεγγίζει την προκαλούμενη ομιλία μπορεί να πραγματοποιηθεί μια χειροκίνητη ή αυτόματη ανίχνευση ορίων. Μια στρατηγική για την αυτόματη ανίχνευση ορίων είναι η κατάτμηση από παύσεις, δηλαδή τα τμήματα των σημάτων χαμηλής ενέργειας να είναι τουλάχιστον 0,2-1 δευτερολέπτων διάρκειας. Για τον σκοπό αυτό, μπορούν να χρησιμοποιηθούν και οι αλγόριθμοι ανίχνευσης της δραστηριότητας της φωνής ( voice activity detection, VAD). Γενικά εξαρτάται σε μεγάλο βαθμό από τα δεδομένα στα οποία η μονάδα ταιριάζει καλύτερα. Ως εκ τούτου διάφορα είδη μονάδων έχουν διερευνηθεί λόγω της χρησιμότητας τους για τα διάφορα είδη δεδομένων. Αρχικά έχουμε τις μη-γλωσσικές μονάδες[21] (non-linguistic units). Είναι μονάδες σταθερού μήκους με 3 διάρκειες: 0,5, 1 και 2 δευτερολέπτων. Επελέγησαν επειδή οι μονάδες κάτω των 0,5 δευτερολέπτων θεωρήθηκαν ως πολύ μικρές για τον υπολογισμό των στατιστικών μέτρων, ενώ οι αλλαγές της συναισθηματικής κατάστασης μπορεί κάλλιστα να συμβεί σε μονάδες περισσότερο από 2 δευτερόλεπτα. Μια προσέγγιση των μονάδων αυτών, είναι ο αλγόριθμος που ενσωματώθηκε στο ESMERALDA, ένα πλαίσιο για την δημιουργία αυτόματων αναγνωριστών ομιλίας βασισμένο στο ΗΜΜs. Όλες αυτές οι μονάδες είναι ιδιαίτερα κατάλληλες για ένα πραγματικού χρόνου σύστημα. Οι γλωσσικές μονάδες[21] (linguistic units) αποτελούν λέξεις με παρόμοια γλωσσική σημασία, κατάτμηση επικουρούμενη από τις παύσεις καθώς και εκφράσεις και σημεία στροφής του διαλόγου. Αυτές αναλύονται σε μη-πραγματικό χρόνο και αποτελούν το σημείο αναφοράς για τις μη-γλωσσικές μονάδες. Οι λέξεις είναι συνήθως πολύ μικρές για αυτό και διερευνώνται στο πλαίσιο των προηγούμενων και των επόμενων λέξεων καθώς και από την πιθανή σιωπή ή το μη-λεκτικό μέρος στο ενδιάμεσο τους. Η ίδια διερεύνηση γίνεται και με τα σημεία στροφής του διαλόγου. Εικόνα 15: Συναισθηματικές μονάδες. Τέλος, μπορεί να συναχθεί το συμπέρασμα ότι υπάρχουν αρκετές εναλλακτικές λύσεις επιλογής των μονάδων για την αναγνώριση συναισθημάτων από την ομιλία. Σε γενικές γραμμές, οι μεγαλύτερες σε διάρκεια μονάδες προτιμούνται από τις 63

64 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ μικρότερες και με γλωσσικό κίνητρο μονάδες, αν και αυτό μπορεί να ποικίλλει ανάλογα με την βάση δεδομένων ή από το σενάριο της εφαρμογής Εξαγωγή Χαρακτηριστικών Το δεύτερο βήμα για ένα σύστημα αναγνώρισης των συναισθημάτων από την ομιλία είναι η εξαγωγή των σχετικών χαρακτηριστικών (features) [34]. Στόχος της είναι η εύρεση των ιδιοτήτων των ψηφιοποιημένων και προεπεξεργασμένων ηχητικών σημάτων που είναι κατάλληλες για την εξαγωγή συναισθημάτων και την αναπαράσταση τους από n-διαστάσεων διανύσματα χαρακτηριστικών γνωρισμάτων. Μέχρι στιγμής, δεν υπάρχει μία γενική συμφωνία σχετικά με τα χαρακτηριστικά τα οποία είναι τα πιο σημαντικά και τα καλά χαρακτηριστικά φαίνεται να εξαρτώνται ιδιαίτερα από τα δεδομένα. Ωστόσο ένας μεγάλος αριθμός των χαρακτηριστικών δεν είναι συχνά ωφέλιμος επειδή οι περισσότεροι ταξινομητές επηρεάζονται αρνητικά από τα περιττά, συσχετιζόμενα ή άσχετα χαρακτηριστικά. Κατά συνέπεια, οι περισσότερες προσεγγίσεις υπολογίζουν ένα μεγάλο αριθμό χαρακτηριστικών και στην συνέχεια, προκειμένου να μειωθεί η διάσταση των δεδομένων εισόδου, εφαρμόζεται ένας αλγόριθμος επιλογής χαρακτηριστικών που επιλέγει τα πιο σημαντικά χαρακτηριστικά των δεδομένων κατάρτισης για ένα συγκεκριμένο έργο. Εναλλακτικά, ένας αλγόριθμος μείωσης του μεγάλου μήκους, όπως η ανάλυση σε κύριες συνιστώσες (principal components analysis, PCA) μπορεί να χρησιμοποιηθεί για να κωδικοποιήσει την κύρια πληροφορία του χώρου των χαρακτηριστικών πιο συμπαγώς. Το σήμα ομιλίας μπορεί να θεωρηθεί ότι είναι μια στιγμιαία περιοδική κυματοφορφή που έχει ορισμένες ιδιότητες, όπως την ένταση, τον χρόνο και την συχνότητα που χρησιμεύουν για τον χαρακτηρισμό του και την διάκριση μεταξύ των συναισθημάτων[21]. Για υπολογιστικούς σκοπούς, η κυματομορφή αυτή ψηφιοποιείται. Κατά συνέπεια ο ρυθμός με τον οποίο λαμβάνονται τα δείγματα είναι ένα σημαντικό χαρακτηριστικό του σήματος. Μια άλλη μορφή αναπαράστασης του σήματος που είναι ιδιαίτερα κατάλληλο για την ανάλυση της ομιλίας είναι το φασματογράφημα[21]. Δείχνει την ενέργεια των μικρών ζωνών των συχνοτήτων σε σύντομα χρονικά διαστήματα, έτσι ώστε να είναι μια αναπαράσταση της συχνότητας στην πάροδο του χρόνου. Το εύρος κωδικοποιείται από χρωματισμούς. Όσο πιο σκοτεινά χρωματισμένη είναι μια συχνότητα τόσο μεγαλύτερη είναι η ενέργεια αυτής. Διαφορετικά φωνήματα ή τύποι ομιλίας έχουν πολύ διαφορετικά πρότυπα συχνότητας που είναι ορατά στο φασματογράφημα. Διάφορα άλλα ακουστικά μέτρα μπορεί να προέρχονται από το εύρος, τον χρόνο και την συχνότητα. Κάποια από αυτά είναι η θεμελιώδης συχνότητα, η ενέργεια, η ποιότητα φωνής, η διάρκεια και άλλες φασματικές ιδιότητες. Η αναγνώριση των συναισθημάτων από τα ακουστικά μέτρα φαίνεται να είναι απλή και το μόνο που χρειάζεται να επιλυθεί να είναι η αναζήτηση ορισμένων προτύπων, αλλά δυστυχώς το πρόβλημα είναι πιο περίπλοκο. Για παράδειγμα πολλές φορές τα χαρακτηριστικά μπορεί να έχουν τις ίδιες ενδείξεις για τον θυμό την χαρά και τον φόβο. Παρακάτω γίνεται μια αναφορά και σύντομη περιγραφή των τύπων χαρακτηριστικών που χρησιμοποιούμε και τι χαρακτηριστικά γνωρίσματα εξάγουμε από αυτούς. Μελετώντας την χρονική τους δομή, τα μέτρα ανήκουν σε 2 μεγάλες κατηγορίες: 64

65 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Σύντομα σταθερού μήκους χρονικά μέτρα (short fixed length time measures): Θεμελιώδης συχνότητα (pitch), Συχνότητες των formants (Formants), Ένταση (loudness), Φασματικοί συντελεστές συχνότητας Mel (MFCCs), κτλ. Υπέρ-τμηματικά μέτρα (supra-segmental measures): Διάρκεια (Duration), Ρυθμός ομιλίας (Speaking rate), Ποιότητα φωνής (Voice quality) κτλ. Εικόνα 16: Αναπαράσταση του ηχητικού σήματος με κυματομορφή και φασματογράφημα. Θεμελιώδης συχνότητα (Pitch) To pitch[37] είναι η θεμελιώδης συχνότητα του σήματος της φωνής που διαμορφώνεται από την ένταση των φωνητικών χορδών, την πίεση και την ταχύτητα του αέρα μεταξύ τους. Πιστεύεται ότι είναι ένας από τους πρωταρχικούς παράγοντες που επηρεάζεται από το συναίσθημα. To pitch μελετάται συνήθως σε επίπεδο παραθύρου, παρόλα αυτά έχουν γίνει έρευνες που το μελετούν σε επίπεδο συλλαβής, καθώς και σε επίπεδο πρότασης. Σε επίπεδο παραθύρου υπολογίζεται ο μέσος όρος, η μέση τιμή, η τυπική απόκλιση, η μέγιστη και η ελάχιστη τιμή, το εύρος, το 25% και το 75% των τιμών του εύρους του pitch. Επίσης πολλές έρευνες χρησιμοποιούν μια ομαλοποιημένη εκδοχή του pitch, καθώς και την παράγωγό του. Γενικά, οι περισσότερες έρευνες έχουν καταλήξει στο ότι το pitch έχει μεγαλύτερη μέση τιμή και εύρος τιμών στην χαρά και στον θυμό, ενώ μικρότερες τιμές στην λύπη και στην αποστροφή. Στο θυμό έχουν βρεθεί απότομες διακυμάνσεις του pitch, ενώ στην χαρά είναι πιο ομαλό. Για το φόβο έχουν παρατηρηθεί πολύ υψηλές τιμές του pitch με μεγάλο εύρος και κανονική διακύμανση. Τέλος, έχει επιχειρηθεί να εξετασθεί η πορεία του pitch κατά τη διάρκεια μιας πρότασης, που βρίσκεται με γραμμική παρεμβολή, έτσι ώστε να βρεθεί αν είναι φθίνουσα, σταθερή ή αύξουσα. Βρέθηκε ότι η πορεία του είναι σταθερή στο συναίσθημα της λύπης, σχεδόν σταθερή προς φθίνουσα στην αποστροφή και φθίνουσα στην πλήξη και στο ουδέτερο συναίσθημα. Στο θυμό η πορεία του pitch φαίνεται να έχει μεγάλες διακυμάνσεις, δηλαδή μπορεί να είναι φθίνουσα, αύξουσα ή 65

66 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ σταθερή. Παρόμοια παρατήρηση αλλά σε μικρότερη έκταση γίνεται στο συναίσθημα της χαράς, ενώ σταθερή ή φθίνουσα πορεία παρατηρείται κατά την διάρκεια μια πρότασης στο συναίσθημα του άγχους. Εικόνα 17: Παραδείγματα καμπυλών της θεμελιώδους συχνότητας στις συναισθηματικές καταστάσεις του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα. Συχνότητες των Formants Οι συχνότητες των Formants[37] επηρεάζονται από την θέση της γλώσσας, των χειλιών και του πίσω μέρους του φωνητικού σωλήνα και έχουν μελετηθεί για την αναγνώριση του συναισθήματος. Οι περισσότεροι ερευνητές ασχολούνται με τις 2 πρώτες συχνότητες των Formants F1 και F2, ενώ κάποιοι άλλοι λαμβάνουν υπόψη τους και την Τρίτη και την τέταρτη συχνότητα formant F3 και F4. Το πρώτο formant αντιστοιχεί στο άνοιγμα των φωνηέντων (το ύψος των φωνηέντων) και το δεύτερο στο βάθος των φωνηέντων. Τα στατιστικά χαρακτηριστικά που υπολογίζονται είναι ο μέσος όρος, η τυπική απόκλιση, το εύρος, το μέγιστο και το ελάχιστο. Υπό συνθήκες άγχους έχει παρατηρηθεί μεγάλη μεταβλητότητα των formants. Η επίδραση του άγχους στο λόγο είναι εμφανέστερη με την χρήση formants για τα φωνήεντα που προφέρονται με την γλώσσα να βρίσκεται στο μπροστά μέρος του στόματος, όπως τα i, y και σε μικρότερο βαθμό το e. Ο αργός, δυνατός ή αγχώδης λόγος παρουσιάζει την μεγαλύτερη ολίσθηση στην F1 συχνότητα, ενώ η F2 αυξάνεται για όλα τα είδη αγχώδους λόγου. Τέλος στο συναίσθημα της λύπης παρουσιάζεται μικρότερη μεταβλητότητα για την F1, ενώ για την F2 μικρότερη μεταβλητότητα στο συναίσθημα της χαράς. Εικόνα 18: Παραδείγματα καμπυλών των συχνοτήτων F1 και F2 στις συναισθηματικές καταστάσεις: του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα. Διάρκεια Ομιλίας 66

67 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Στις έρευνες για την αναγνώριση των συναισθημάτων έχουν χρησιμοποιηθεί διάφορες παράμετροι που αφορούν στην διάρκεια της ομιλίας, όπως η διάρκεια των προτάσεων, η διάρκεια των συλλαβών και ο ρυθμός ομιλίας[37]. Ο θυμός, η λύπη και η χαρά εκφράζονται συνήθως με προτάσεις μεγαλύτερης διάρκειας σε σχέση με το ουδέτερο συναίσθημα. Υπολογίζοντας το πηλίκο της διάρκειας της σιωπής μεταξύ 2 λέξεων προς την διάρκεια του λόγου, προκύπτει ότι ο ομιλητής χρησιμοποιεί περισσότερες παύσεις στο συναίσθημα της λύπης σε σύγκριση με τα υπόλοιπα συναισθήματα. Ο ρυθμός ομιλίας μπορεί να υπολογιστεί ως ο αριθμός των φωνηέντων σε ένα δευτερόλεπτο και σημειώνεται ότι στο θυμό, στην λύπη και στην χαρά υπάρχει μεγαλύτερη μεταβλητότητα του ρυθμού ομιλίας από το ουδέτερο. Συγκεκριμένα έχει παρατηρηθεί ότι στον θυμό και στο φόβο είναι σχετικά αυξημένος, ενώ στην αποστροφή πολύ αυξημένος. Στο συναίσθημα της λύπης η ομιλία είναι αργή, ενώ στην χαρά μπορεί να είναι είτε γρήγορη είτε αργή. Έτσι τρία είναι τα χαρακτηριστικά γνωρίσματα που μελετάμε: Το μήκος του τμήματος, οι παύσεις και ο ρυθμός ομιλίας. Ένταση-Ενέργεια Ομιλίας Η ένταση της ομιλίας φαίνεται να παίζει σημαντικό ρόλο στην ανίχνευση συναισθημάτων. Στο θυμό και στην χαρά παρατηρείται μεγαλύτερη ένταση φωνής, ενώ στην λύπη και την αποστροφή η ένταση είναι χαμηλότερη. Κανονική ένταση σημειώνεται για τον φόβο. Μελετάται σε επίπεδο λέξης και σε επίπεδο συλλαβής. Η ενέργεια του σήματος[21] αντιστοιχεί στην αντιληπτή ένταση του ήχου. Υπολογίζεται η μέση τιμή και το λογαριθμισμένο σήμα SΕ υπολογίζεται για κάθε πλαίσιο: Όπου si είναι το εύρος τιμής κατά τον χρόνο i ενός πλαισίου Ν δειγμάτων. Στην συνέχεια η ενέργεια κανονικοποιείται στο 95% των προηγούμενων πλαισίων. Υπολογίζονται τα τοπικά μέγιστα και τοπικά ελάχιστα της καμπύλης της ενέργειας, καθώς και η απόσταση και η κλίση μεταξύ των γειτονικών τοπικών ακρότατων. Επίσης η πρώτη και η δεύτερη παράγωγος προστίθενται στον αριθμό των χαρακτηριστικών γνωρισμάτων που προκύπτουν από την ενέργεια της ομιλίας. Παρατηρείται ότι τα χαρακτηριστικά που υπολογίζουμε από την ενέργεια είναι πιο αποδοτικά σε σχέση με άλλα χαρακτηριστικά του pitch και των formants. Η παρατήρηση αυτή ισχύει σε πολύ μεγάλο βαθμό για την γυναικεία φωνή και σε μικρότερο για την αντρική[37]. Σε άλλες έρευνες[37] υπολογίζονται τα LFPC χαρακτηριστικά, δηλαδή μία λογαριθμική εκδοχή της ενέργειας, που φαίνεται να διαχωρίζουν αρκετά καλά τα συναισθήματα θυμού, έκπληξης, χαράς, φόβου, αποστροφής και λύπης. Γενικά για τον υπολογισμό της ενέργειας υπάρχουν αρκετές αντιδιαστολές σε σχέση με τη συχνότητα στην οποία διαχωρίζονται αποδοτικά τα συναισθήματα. Ορισμένοι ερευνητές δίνουν μεγάλη σημασία στις χαμηλές συχνότητες για τον υπολογισμό της ενέργειας, ενώ άλλοι πιστεύουν το αντίθετο. Μια πιθανή εξήγηση για αυτό είναι ότι ο 67

68 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ αγχώδης ή θυμωμένος λόγος μπορεί να εκφραστεί είτε με μικρή προσπάθεια ταλάντωσης των φωνητικών χορδών, που προκαλεί ομαλή μορφή των formants είτε με τσιριχτή φωνή, πράγμα που μεταθέτει την ενέργεια στις υψηλές συχνότητες. Εικόνα 19: Παραδείγματα καμπυλών της ενέργεια της ομιλίας στις συναισθηματικές καταστάσεις: του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα. Χαρακτηριστικά LPC (Linear predictive coding) Η Γραμμική Κωδικοποίηση Πρόβλεψης χαρακτηριστικών[38] είναι πολύ σημαντική σε πολλές εφαρμογές για την αναγνώριση συναισθημάτων. Η ιδέα πίσω από αυτή την μέθοδο είναι ότι ένα δείγμα ομιλίας μπορεί να προσεγγιστεί ως ένας γραμμικός συνδυασμός των παλαιότερων δειγμάτων. Για να πετύχει αυτό, είναι απαραίτητο να ελαχιστοποιήσει το σύνολο των τετραγωνικών διαφορών μεταξύ του τωρινού δείγματος ομιλίας με τους προβλεπόμενους συντελεστές. Το αποτέλεσμα αυτής της ανάλυσης είναι μία σειρά από μοναδικούς προβλεπόμενους συντελεστές. Τα LPC χαρακτηριστικά χρησιμοποιούνται ευρέως για την μείωση του χώρου για την αποθήκευση ηχητικών σημάτων ή για την εκτίμηση παραμέτρων ομιλίας. Ένας άλλος λόγος που τα χαρακτηριστικά αυτά είναι διάσημα είναι γιατί υπολογίζονται αρκετά γρήγορα. Έναν αλγόριθμο για τον υπολογισμό τους πρότειναν οι Durbin and Levinson. Φασματικά χαρακτηριστικά (Spectral features) Για να αποκτήσει φασματικά χαρακτηριστικά[36] το ηχητικό σήμα, εφαρμόζεται ο μετασχηματισμός Fourier στα πλαίσια μήκους 16 ms. Δεδομένου ότι πληροφορίες σχετικά με την κλίση του φάσματος θεωρούνται σημαντικές, υπολογίζουμε, για κάθε φάσμα, την απόσταση μεταξύ του 10 ου και του 90 ου εκατοστημορίου, την κλίση μεταξύ αδύναμων και ισχυρότερων συχνοτήτων, καθώς και 2 γραμμικούς συντελεστές παλινδρόμησης. Επιπλέον υπολογίζεται το κέντρο βάρους του φάσματος σύμφωνα με τον παρακάτω τύπο: Όπου το Fi είναι συχνότητες του φάσματος και το Ei η ενέργεια της Fi στο φάσμα. Ο τύπος παραμετροποιεί την φασματική ισορροπία μεταξύ υψηλών και χαμηλών συχνοτήτων για ένα τμήμα του σήματος. 68

69 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Εικόνα 20: Οι φασματικές συχνότητες στις συναισθηματικές καταστάσεις: του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα. Cepstral Χαρακτηριστικά Σε πολλές έρευνες για την αναγνώριση συναισθήματος έχουν χρησιμοποιηθεί cepstral χαρακτηριστικά, που είναι ευρέως διαδεδομένα στην αυτόματη αναγνώριση ομιλίας, γιατί φαίνεται να υπερτερούν των γραμμικών χαρακτηριστικών. Τα cepstral χαρακτηριστικά αντανακλούν την φασματική δομή της φωνής στην κλίματα Mel, που είναι η κλίμακα της ανθρώπινης ακουστικής. Η μέθοδος αυτή μειώνει τη συχνότητα του ηχητικού σήματος σε ένα μικρό αριθμό συντελεστών οι οποίοι προσπαθούν να κωδικοποιήσουν τις πληροφορίες με παρόμοιο τρόπο με αυτόν του ανθρώπινου κοχλία. Επιπλέον η λογαριθμική λειτουργία προσπαθεί να μοντελοποιήσει την αντίληψη της έντασης του ανθρώπινου συστήματος ακοής. Το MFCC είναι ένα πολύ απλοποιημένο μοντέλο ακουστικής επεξεργασίας, καθώς και εύκολο και γρήγορα υλοποιήσιμο. Ο υπολογισμός των MFCC[42] συντελεστών ακολουθεί τα παρακάτω βήματα: 1. Το σήμα παραθυροποιείται με μία συγκεκριμένη μέθοδο ( Hamming ή Hanning) χρησιμοποιώντας ένα παράθυρο μήκους ms και ένα βήμα μεγέθους 5-10 ms. 2. Το φάσμα υπολογίζεται για κάθε παράθυρο χρησιμοποιώντας τον μετασχηματισμό Fourier. 3. Το φάσμα στην συνέχεια φιλτράρεται με ειδικό φίλτρο της κλίμακας Mel για να αποκτήσει αντιστοιχία με τους συντελεστές Mel. 4. Στην συνέχεια υπολογίζονται οι λογάριθμοι των συντελεστών Mel. 5. Ο διακριτός μετασχηματισμός συνημίτονου χρησιμοποιείται για την μετατροπή τους στον φασματικό-χώρο. 6. Οι μη-απαραίτητοι (υψηλής συχνότητας) MFCC συντελεστές απορρίπτονται. Η χρήση 20 MFCC συντελεστών χρησιμοποιούνται συνήθως σε συστήματα αναγνώρισης συναισθημάτων αλλά ακόμα και είναι επαρκής. Το πιο σημαντικό μειονέκτημα της χρήσης των MFCC συντελεστών είναι η ευαισθησία στον θόρυβο, λόγω της εξάρτησης τους από την φασματική μορφή τους. Για την κατηγοριοποίηση συναισθημάτων θυμού, φόβου, χαράς, λύπης, έκπληξης και ουδέτερου στην ασαμική γλώσσα χρησιμοποιήθηκαν MFCC χαρακτηριστικά με GMM ταξινομητή με ποσοστό επιτυχίας 73,4%. Για το ίδιο πρόβλημα εισάχθηκαν και MFCC χαρακτηριστικά των οποίων η ενέργεια υπολογίζεται με βάση τον Teager τελεστή. Αυτά ονομάζονται tfmcc χαρακτηριστικά και επιτυγχάνουν 45.1% αναγνώριση[37]. 69

70 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Τα MFCC χαρακτηριστικά έχουν συνδυαστεί και με την μέθοδο Maximum Likelihood[37]. Διαπιστώθηκε ότι πιο αποτελεσματικά από τα MFCC χαρακτηριστικά είναι τα MFB, που αποτελούν τη λογαριθμημένη ενέργεια της φωνής σε φίλτρα τοποθετημένα σύμφωνα με την κλίμακα Mel. Ο λόγος είναι ότι τα MFB χρακτηριστικά δεν αλλοιώνουν τις ακουστικές διαφορές μεταξύ του λόγου που περιέχει συναίσθημα και του ουδέτερου λόγο, πράγμα που γίνεται στα MFCC μέσω του μετασχηματισμού συνημίτονου. Για την αναγνώριση των διαφόρων ειδών αγχώδους λόγου έχουν χρησιμοποιηθεί χαρακτηριστικά MFCC, δέλτα MFCC, δέλτα-δέλτα MFCC, αυτοσυσχέτιση των MFCC και ετεροσυσχέτιση των MFCC[37]. Θεωρείται ότι τα χαρακτηριστικά αυτά δίνουν πληροφορίες σχετικές με τις αλλαγές στην φασματική δομή της φωνής και στο φωνητικό σωλήνα που προέρχονται από το άγχος. Εικόνα 21: Αναπαράσταση των MFCC συντελεστών στις συναισθηματικές καταστάσεις: του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα. Έμφωνα τμήματα (voiced segments) Η διάρκεια και η κατανομή μεταξύ των ηχηρών και άηχων τμημάτων, όπως υπολογίζεται από τον αλγόριθμο του pitch, σε ένα σήμα ομιλίας σχετίζεται με τα χαρακτηριστικά της φωνής που μπορούν να μας δώσουν συμβουλές σχετικές με την συναισθηματική κατάσταση του ομιλητή. Ως εκ τούτου, τα μήκη των δύο αυτών τμημάτων μέσα σε μία συναισθηματική μονάδα χρησιμοποιούνται για την δημιουργία μιας νέας σειράς τιμών. Υπολογίζονται το μέσο μήκος των έμφωνων τμημάτων σε μία μονάδα καθώς και ο κανονικοποιημένος αριθμός τους από των αριθμό των πλαισίων του pitch[36]. Ποιότητα της φωνής Η ποιότητα της φωνής[21] αναφέρεται στα διάφορα είδη της φώνησης (phonation). Τα χαρακτηριστικά που χρησιμοποιούνται για την ποιότητα της φωνής είναι αναλογία αρμονίας-θορύβου (harmonics-to-noise ratio, HNR) και οι γλωπίδικοι παλμοί (glottal pulses). Ο υπολογισμός του HNR γίνεται από τον παρακάτω τύπο: Όπου r είναι η δύναμη της θεμελιώδης συχνότητας του πλαισίου. 70

71 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Εικόνα 22: Παραδείγματα χρόνων των γλωπίδικων παλμών στις συναισθηματικές καταστάσεις: του ουδέτερου συναισθήματος, της ευτυχίας και της πλήξης αντίστοιχα Επιλογή χαρακτηριστικών και Ταξινόμηση Η ομάδα χαρακτηριστικών που περιγράφεται στην προηγούμενη ενότητα περιλαμβάνει πολλά χαρακτηριστικά, πολλά από αυτά ίσως να είναι περιττά ή να μην έχουν καμία σημασία για κάποιες εργασίες. Η διαδικασία της επιλογής χαρακτηριστικών μπορεί να έχει διάφορα οφέλη, για την ερμηνεία των χαρακτηριστικών καθώς και την περαιτέρω διαδικασία. Ο κύριος στόχος αυτής της διαδικασίας αναλύεται γύρω από τρεις προτάσεις: 1. Η επιλογή χαρακτηριστικών θα πρέπει να δίνει στοιχεία για το ποιοι τύποι χαρακτηριστικών είναι συναφή και πόσο. 2. Για λόγους αποτελεσματικότητας, ένα μικρότερο σύνολο χαρακτηριστικών είναι προτιμότερο από ένα μεγαλύτερο, καθώς ο χρόνος κατάρτισης και ταξινόμησης συνήθως είναι μικρός. 3. Μια καλή επιλογή χαρακτηριστικών μπορεί να αυξήσει την απόδοση και μια προσθήκη των κακών και των περιττών μπορεί να επηρεάσει την ακρίβεια. Επιπλέον, τα σύνολα των χαρακτηριστικών θα πρέπει να ανταποκρίνονται στο αντίστοιχο σενάριο της κάθε εφαρμογής, δεδομένου ότι οι καλές ομάδες χαρακτηριστικών είναι πολύ διαφορετικές ανάλογα με τον τύπο δεδομένων. Υπάρχουν κυρίως δύο προσεγγίσεις για τον εντοπισμό ενός καλού συνόλου χαρακτηριστικών. Η μία είναι να σχεδιαστεί προσεκτικά μια χειροκίνητη επιλογή και η άλλη να υπολογιστεί μια πληθώρα χαρακτηριστικών και στην συνέχεια μια αυτόματη διαδικασία επιλογής να αποφασίσει ποια είναι τα σημαντικότερα για μια συγκεκριμένη εργασία. Μια τυπική διαδικασία επιλογής χαρακτηριστικών αποτελείται από τέσσερα βήματα, δηλαδή την παραγωγή υποσυνόλων (subset generation), την αξιολόγηση των υποσυνόλων (subset evaluation), το κριτήριο διακοπής (stopping criterion) και την επικύρωση των αποτελεσμάτων (result validation) [39]. 71

72 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 23: Τα τέσσερα βήματα επιλογής χαρακτηριστικών. Η παραγωγή υποσυνόλων είναι μία διαδικασία αναζήτησης που παράγει υποψήφια υποσύνολα χαρακτηριστικών για την αξιολόγηση και βασίζεται σε μία συγκεκριμένη στρατηγική αναζήτησης. Κάθε υποψήφιο υποσύνολο αξιολογείται και συγκρίνεται με το καλύτερο προηγούμενο σύμφωνα με κάποιο κριτήριο αξιολόγησης. Αν το νέο υποσύνολο αποδειχθεί ότι είναι καλύτερο αντικαθιστάται με το προηγούμενο. Η διαδικασία της δημιουργίας και αξιολόγησης των υποσυνόλων επαναλαμβάνεται μέχρι το κριτήριο διακοπής να ικανοποιηθεί. Στην συνέχεια το επιλεγμένο υποσύνολο χρειάζεται συνήθως να επικυρωθεί από προηγούμενες γνώσεις ή από διαφορετικές δοκιμές συνόλων δεδομένων κατάρτισης. Η επιλογή χαρακτηριστικών μπορεί να συσχετιστεί με πολλούς τομείς της ταξινόμησης των δεδομένων. Οι αλγόριθμοι επιλογής χαρακτηριστικών έχουν σχεδιαστεί με διαφορετικά κριτήρια αξιολόγησης που χωρίζονται σε τρεις κατηγορίες. Το μοντέλο φίλτρου (filter model), το μοντέλο εξομοίωσης (wrapper model) και το υβριδικό μοντέλο (hybrid model). Το μοντέλο του φίλτρου βασίζεται σε γενικά χαρακτηριστικά των δεδομένων για την αξιολόγηση και την επιλογή των υποσυνόλων χωρίς την εμπλοκή κανενός αλγορίθμου ταξινόμησης. Το μοντέλο εξομοίωσης απαιτεί ένα προκαθορισμένο αλγόριθμο ταξινόμησης και χρησιμοποιεί τις επιδόσεις του ως κριτήριο αξιολόγησης. Αναζητά για χαρακτηριστικά που να ταιριάζουν καλύτερα με τον ταξινομητή με σκοπό την βελτίωση των επιδόσεων του, αλλά αυτό φαίνεται να είναι πιο ακριβό υπολογιστικά. Το υβριδικό μοντέλο επωφελείται και από τα δύο παραπάνω μοντέλα αξιοποιώντας τα διαφορετικά κριτήρια αξιολόγησης τους στα διάφορα στάδια αναζήτησης. Στο τομέα της παραγωγής υποσυνόλων διακρίνονται τρεις κατηγορίες στρατηγικών αναζητήσεων: η εκθετική αναζήτηση (exponential search) που αξιολογεί ένα σύνολο υποσυνόλων που αυξάνεται εκθετικά με την διάσταση του χώρου αναζήτησης, η σειριακή αναζήτηση (sequential search) που προσθέτει ή αφαιρεί χαρακτηριστικά σειριακά,αλλά έχει την τάση να παγιδεύεται σε τοπικά ελάχιστα και η τυχαία αναζήτηση (random search) που ενσωματώνει την τυχαιότητα στην διαδικασία της αναζήτησης για να μπορεί να ξεφύγει από τα τοπικά ελάχιστα.. Κάποιοι από τους βασικούς αλγόριθμους επιλογής χαρακτηριστικών ανάλογα με τις τρεις προηγούμενες κατηγορίες χωρίζονται ως εξής[40]: 1. Εκθετική αναζήτηση Εξαντλητική αναζήτηση Branch and Bound 72

73 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Approximate Monotonicity with Branch and Bound Beam αναζήτηση 2. Σειριακή αναζήτηση Σειριακή προς τα εμπρός επιλογή Σειριακή προς τα πίσω επιλογή Plus-l Minus-r επιλογή Αμφίδρομη αναζήτηση Σειριακή κυμαινόμενη επιλογή 3. Τυχαία αναζήτηση Τυχαία παραγωγή μαζί με σειριακή επιλογή Προσομοιωμένη ανόπτηση Γενετικοί αλγόριθμοι Ταξινομητές Μετά τον υπολογισμό και την επιλογή υποσυνόλων των χαρακτηριστικών το πρόβλημα της αναγνώρισης συναισθημάτων από την ομιλία μπορεί τώρα να θεωρηθεί ως γενικό πρόβλημα εξόρυξης δεδομένων. Όπως αναφέρθηκε και παραπάνω οι αλγόριθμοι επιλογής χαρακτηριστικών στα περισσότερα μοντέλα χρησιμοποιούν αλγόριθμους ταξινόμησης για την αξιολόγηση των χαρακτηριστικών και την ταξινόμηση τους στις αντίστοιχες συναισθηματικές καταστάσεις. Παρακάτω θα αναφερθούν οι δύο κατηγορίες αλγορίθμων ταξινόμησης και οι βασικοί αλγόριθμοι που τις αντιπροσωπεύουν[21] Στατικοί ταξινομητές Οι στατικοί ταξινομητές[21] χρησιμοποιούν παγκόσμια στατιστικά στοιχεία και ορίζουν μια ετικέτα κλάσης σε κάθε διάνυσμα χαρακτηριστικών που δίνεται. Οι πιο σημαντικοί ταξινομητές που ανήκουν σε αυτή την κατηγορία είναι ο Support Vector Machine (SVM), οι Bayesien ταξινομητές, τα Νευρωνικά Δίκτυα (Neural Networks), τα Δέντρα Απόφασης (Decision Trees), οι ταξινομητές Πλησιέστερου Γείτονα (Nearest- Neighbour), η Γραμμική Διακριτή Ανάλυση (Linear Disciminant Analysis, LDA), τα Μεικτά Γκαουσιανά Μοντέλα (Gaussian Mixture Models, GMM) καθώς και οι παραλλαγές τους. Οι στατικοί ταξινομητές είναι κατάλληλη για την ενασχόληση με δεδομένα εισόδου μεγάλων διαστάσεων. Για να είναι επίσης κατάλληλοι για την αναγνώριση σε πραγματικό χρόνο θα πρέπει να είναι γρήγοροι, τουλάχιστον κατά την διάρκεια του σταδίου της ταξινόμησης. 73

74 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Support Vector Machines Ο αλγόριθμος SVM αναπτύχθηκε από τον Vapnik (1995)[21] και από τους συναδέλφους του στα AT και Bell εργαστήρια στα μέσα της δεκαετίας του 90 και άρχισε να αποκτάει αυξανόμενο ενδιαφέρον στο τομέα της ταξινόμησης το 2008 από τους Steinwart και Christmann. Δείχνει μια υψηλή ικανότητα γενίκευσης που οφείλεται στην ικανότητα του να ελαχιστοποιεί τους κινδύνους κατά την διάρκεια της κατάρτισης. Μπορεί και λύνει τα μη-γραμμικά προβλήματα μετασχηματίζοντας τα εισερχόμενα διανύσματα χαρακτηριστικών γνωρισμάτων σε ένα χώρο πολλών διαστάσεων χαρακτηριστικών με την λειτουργία της χαρτογράφησης. Η συνάρτηση που εκτελεί αυτή την χαρτογράφηση είναι η συνάρτηση του πυρήνα (kernel function).οι πιο γνωστές συναρτήσεις στον τομέα της αναγνώρισης συναισθημάτων από την ομιλία είναι η ακτινική συνάρτηση βάσης (radial basis function), η πολυωνυμική συνάρτηση (polynomial function) και η γραμμική συνάρτηση (linear function). Στις περισσότερες έρευνες χρησιμοποιείται ο γραμμικός πυρήνας. Τα δεδομένα εισόδου χωρίζονται σε δύο ομάδες χρησιμοποιώντας ένα διαχωριστικό υπερεπίπεδο που μεγιστοποιεί το περιθώριο μεταξύ των δύο συνόλων δεδομένων. Τα δείγματα που βρίσκονται στο περιθώριο καλούνται φορείς υποστήριξης (support vectors). Εικόνα 24: Οι φορείς υποστήριξης, s1,s2 και s3 για ένα ταξινομητή SVM μεγιστοποιούν την απόσταση ανάμεσα σε 2 τάξεις. Η μπλε γραμμή δείχνει το μέγιστο υπερεπίπεδο. Ένας ενιαίος SVM αλγόριθμος είναι μία μέθοδος ταξινόμησης για δύο κατηγορίες δεδομένων. Στην αναγνώριση συναισθημάτων από την ομιλία όμως, χρησιμοποιούνται πολλαπλές κατηγορίες συναισθημάτων. Δύο κοινές μέθοδοι που χρησιμοποιούνται για τη λύση του προβλήματος είναι η ένα-εναντίον-όλων (oneversus-all) και ένα-εναντίον-ενός (one-versus-one) (Fradkin και Muchnik, 2006). Στην πρώτη περίπτωση, ένας SVM κατασκευάζεται για κάθε συναίσθημα, ο οποίος διακρίνει αυτό το συναίσθημα από τα υπόλοιπα. Στην δεύτερη, ένας SVM κατασκευάζεται για να γίνει διάκριση μεταξύ κάθε ζεύγους των κατηγοριών. Η 74

75 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ τελική απόφαση ταξινόμησης γίνεται σύμφωνα με τα αποτελέσματα από όλες της εφαρμογές του SVM με τον κανόνα της πλειοψηφίας. Στην ένα-εναντίον-ενός μέθοδο, η κατηγορία του συναισθήματος μίας έκφρασης καθορίζεται από τον ταξινομητή με την υψηλότερη απόδοση με βάση την στρατηγική ο νικητής-τα παίρνει-όλα (winner-takes-all), ενώ στην δεύτερη, κάθε ταξινομητής αναθέτει την έκφραση σε μία από της τις δύο κατηγορίες συναισθημάτων σύμφωνα με την στρατηγική νικάει αυτός-με τις περισσότερες ψήφους (max-wins voting). Τέλος μία μορφή ενός SVM αλγορίθμου με πολλαπλά στρώματα (Multi-Layer SVM, ML-SVM) [41] παρουσιάζει η παρακάτω εικόνα. Εικόνα 25: Βέλτιστη ευθυγράμμιση των συναισθημάτων χρησιμοποιώντας ML- SVM. Bayes classifier O Naïve Bayes ταξινομητής[21] είναι μία τεχνική που βασίζεται στο θεώρημα Bayes, το οποίο αναφέρει: Ο παραπάνω τύπος σημαίνει ότι η πιθανότητα ενός συναισθήματος Εi, δοσμένου ενός διανύσματος χαρακτηριστικών γνωρισμάτων (f1, fn) διαστάσεως n, εξαρτάται από την εκ των προτέρων πιθανότητα P(Ei) του συναισθήματος πολλαπλασιασμένη με το αποτέλεσμα της πιθανότητας του κάθε χαρακτηριστικού fi και όλο αυτό διαιρούμενο με την αρχική πιθανότητα του διανύσματος των χαρακτηριστικών. Ως αποτέλεσμα της ταξινόμησης δίνεται το συναίσθημα Εi από ένα σύνολο Ν συναισθημάτων (Ε1..ΕΝ) που μεγιστοποιεί την παραπάνω εξίσωση. Αυτό απλοποιείται σε ένα βαθμό, όσο το θεώρημα Bayes αναλαμβάνει να είναι τα χαρακτηριστικά ανεξάρτητα μεταξύ τους. Ένας άλλος Bayes ταξινομητής είναι ο ταξινομητής Bayes μέγιστης πιθανότητας (Maximum Likelihood Bayes classifier, MLB). O MLB είναι μια παραμετρική μέθοδος που θεωρεί ότι η πιθανότητα της κάθε κλάσης μπορεί να περιγραφεί 75

76 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ επαρκώς από ένα πολυπαραγοντικό Γκαουσιανό πρωτότυπο διάνυσμα (multivariate Gaussian prototype vector). Η μέγιστη πιθανή εκτίμηση είναι εύκολο να υπολογιστεί από τα δεδομένα κατάρτισης. Η κλάση που επιλέγεται είναι αυτή με την μέγιστη πιθανότητα η οποία μπορεί να υπολογιστεί χρησιμοποιώντας το θεώρημα Bayes. Νευρωνικά Δίκτυα Ένα νευρωνικό δίκτυο[43] είναι ένα μοντέλο που αποτελείται από διασυνδεδεμένες μονάδες επεξεργασίας γνωστές ως τεχνητοί νευρώνες, ομαδοποιημένοι σε στρώματα, που εμπνεύστηκαν από τον ανθρώπινο εγκέφαλο. Η διαδικασία της ταξινόμησης περιλαμβάνει μία διαδεδομένη δραστηριότητα μέσα σε κάθε στρώμα του δικτύου χρησιμοποιώντας μια συνάρτηση ενεργοποίησης για τον υπολογισμό της εξόδου από κάθε κόμβο. Συνήθως τα νευρωνικά δίκτυα αναφέρονται ως multilayered perceptrons (MLP) [43]. Οι νευρώνες ομαδοποιούνται σε τρία στρώματα: είσοδος, έξοδος και το κρυφό. Η δομή αυτής της μεθόδου φαίνεται στο παρακάτω σχήμα. Εικόνα 26: Η δομή ενός MLP. Δέντρα απόφασης Ένα δέντρο απόφασης[43] είναι μια ιεραρχική δομή δεδομένων η οποία είναι αποτέλεσμα της επαναληπτικής δυαδικής διαμέρισης των δεδομένων κατάρτισης. Η διαδικασία της ταξινόμησης περιλαμβάνει την διάσχιση του δέντρου ακλουθώντας μια διαδρομή προς ένα συγκεκριμένο φύλλο-κόμβο, σύμφωνα με το κριτήριο απόφασης σε κάθε κόμβο. Τα φύλλα-κόμβοι αντιπροσωπεύουν τις ταξινομήσεις. Ο πιο διαδεδομένος αλγόριθμος για την κατασκευή δέντρων αποφάσεων στην αναγνώριση συναισθημάτων από την ομιλία είναι ο C4.5. K-πλησιέστερος Γείτονας Η ταξινόμηση του Κ-πλησιέστερου γείτονα (K-nearest neighbor, KNN) [43] είναι μια πολύ απλή, αλλά αποτελεσματική μέθοδος ταξινόμησης. Η βασική ιδέα είναι ότι 76

77 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ παρόμοιες παρατηρήσεις ανήκουν σε παρόμοιες κατηγορίες. Ο KNN ταξινομητής συγκρίνει ένα δοσμένο δείγμα με K δείγματα κατάρτισης με κριτήριο την ομοιότητα ή με πιο είναι πλησιέστερο σε ομοιότητα με αυτό. Υπάρχουν μία ποικιλία μετρικών που χρησιμοποιούνται για την μέτρηση της ομοιότητας, αλλά το μετρικό που χρησιμοποιείται πιο συχνά είναι η Ευκλείδεια απόσταση (Euclidian distance). Το νέο δείγμα εκχωρείται στην κλάση στην οποία ανήκει η πλειοψηφία των πλησιέστερων αυτών γειτόνων. Δεν υπάρχει συναίνεση για ποια τιμή του K πρέπει να χρησιμοποιείται στην περίπτωση της αναγνώρισης των συναισθημάτων από την ομιλία. Διάφορες έρευνες έχουν γίνει με K=1 μέχρι και K=20. Συνήθως η τιμή του K βρίσκεται μέσω δοκιμών και συγκρίσεων. Μία παραλλαγή του KNN αλγορίθμου είναι ο σταθμισμένος KNN (Weighted ΚΝΝ, WKNN)[45]. Στον WKNN, οι K πλησιέστεροι γείτονες περιέχουν διαφορετικά βάρη. Το αποτέλεσμα της ταξινόμησης αποδίδεται την τάξη για την οποία τα βάρη των πλησιέστερων γειτόνων έχουν την μεγαλύτερη τιμή. Τέλος μια άλλη προτεινόμενη παραλλαγή αυτού του αλγορίθμου είναι ο σταθμισμένων-αποστάσεων KNN (weighted-distance ΚΝΝ)[45] που αποτελεί ένα συνδυασμό των παραπάνω αλγορίθμων. Η διαφορά του είναι ότι χρησιμοποιεί την σειρά Fibonacci για το προσδιορισμό των βαρών. Κάθε βάρος ισούται με το άθροισμα των δύο τελευταίων. Αυτό σημαίνει ότι το βάρος του πρώτου πλησιέστερου γείτονα θα ισούται με το άθροισμα των βαρών των τελευταίων δύο πλησιέστερων γειτόνων. Πειραματικά αποτελέσματα δείχνουν ότι η μέθοδος αυτή αποδίδει καλύτερα από τις δύο πρώτες που περιγράφηκαν παραπάνω όσο αφορά την κατηγορία των KNN αλγορίθμων. Μεικτά Γκαουσιανά Μοντέλα-Υπερδιανυσματική ταξινόμηση Τα μεικτά Γκαουσιανά μοντέλα[44] χρησιμοποιούν την πιθανότητα των συναρτήσεων πυκνότητας με ένα μείγμα σταθμισμένων Γκαουσιανών μεταβλητών. Η πιθανότητα της συνάρτησης πυκνότητας ορίζεται ως όπου Ν(;,) είναι η Γκαουσιανή συνάρτηση πυκνότητας, wi, μi και Σi είναι τα βάρη, ο μέσος όρος και ο πίνακας συνδιακύμανσης του i Γκαουσιανού συστατικού, αντίστοιχα. Το υπερδιάνυσμα (supervector) ενός GMM σχηματίζεται από την συνένωση της μέσης τιμής του κάθε Γκαουσιανού συστατικού και παίρνει την παρακάτω μορφή 77

78 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Για κάθε συναίσθημα, ένας GMM εκπαιδεύεται με τα εξαγόμενα χαρακτηριστικά και προκύπτει το αντίστοιχο υπερδιάνυσμα. Τις περισσότερες φορές το μοντέλο GMM αντλείται από το μοντέλο καθολικού υποβάθρου (universal background model, UBM) Η προσαρμογή του κάθε συναισθήματος στον GMM συνήθως γίνεται με την χρήση του αλγορίθμου Μεγιστοποίησης Προσδοκιών (Expectation Maximization, EM) ή με τον μέγιστο εκ των προτέρων αλγόριθμο (Maximum a posteriori, MAP). Τα υπερδιανύσματα του GMM μπορούν να θεωρηθούν ως μια χαρτογράφηση ενός μεγάλων διαστάσεων διανύσματος χαρακτηριστικών γνωρισμάτων. Έτσι συνήθως χρησιμοποιούνται σε άλλους αλγορίθμους ταξινόμησης, για παράδειγμα μπορούν να χρησιμοποιηθούν ως διανύσματα υποστήριξης (support vectors) στον SVM αλγόριθμο Δυναμικοί ταξινομητές Οι δυναμικοί ταξινομητές[21] βασίζονται σε ακολουθίες των σύντομων χρονικά χαρακτηριστικών και ο χρόνος διαμορφώνεται από τον ταξινομητή και όχι από τα χαρακτηριστικά. Ο πιο δημοφιλής αλγόριθμος ταξινόμησης που ανήκει σε αυτή την κατηγορία είναι τα Κρυμμένα Μαρκοβιανά Μοντέλα (Hidden Markov Models, HMM). Κρυμμένο Μαρκοβιανό Μοντέλο Το κρυμμένο Μαρκοβιανό μοντέλο (Hidden Markov model, HMM) [34] είναι ένα στοχαστικό πεπερασμένο αυτόματο, όπου η πιθανότητα να περάσει στην επόμενη κατάσταση εξαρτάται από την προηγούμενη. Κάθε κατάσταση παράγει μια έξοδο με μια ορισμένη πιθανότητα. Όσο αφορά την αναγνώριση συναισθημάτων από την ομιλία η έξοδος αποτελεί την παρατηρούμενη ακολουθία των διανυσμάτων χαρακτηριστικών και η κατάσταση αντιπροσωπεύει το συναίσθημα που πρέπει να αναγνωριστεί. Προφανώς χρονικές μεταβολές στα χαρακτηριστικά μπορούν να συλληφθούν. Για τον λόγο αυτό ο ΗΜΜ χρησιμοποιείται κυρίως για την αυτόματη αναγνώριση συναισθημάτων από την ομιλία σε συστήματα πραγματικού χρόνου. Έρευνες έδειξαν ότι μια κατάλληλη τοπολογία του μοντέλου περιέχει από 5-10 καταστάσεις. Τέλος, όπως φαίνεται στην παρακάτω εικόνα οι συνδέσεις μπορούν να είναι μόνο προς τα μπροστά και μόνο με μικρά άλματα, προς και πίσω με μικρά άλματα, μόνο προς τα μπροστά με μεγάλα άλματα και προς και πίσω με μεγάλα άλματα. Εικόνα 27: Το μοντέλο HMM με τρεις καταστάσεις και όλα τα είδη συνδέσεων 78

79 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Σύγκριση Ταξινομητών Έχουν διεξαχθεί πολλές έρευνες και έχουνε προταθεί πολλοί νέοι αλγόριθμοι καθώς και συνδυασμοί των παραπάνω βασικών αλγορίθμων με κύριο σκοπό την αύξηση της ακρίβειας επιτυχίας της αναγνώρισης του αλγορίθμου και την μείωση του εύρους των λαθών που παρουσιάζουν. Σε κάθε έρευνα τα χαρακτηριστικά του ηχητικού σήματος που λαμβάνονται υπόψη, οι βάσεις δεδομένων και ο αριθμός των ομιλητών είναι διαφορετικός. Παρακάτω παρουσιάζεται ένας πίνακας συγκεντρωτικών στοιχείων από διάφορες έρευνες των τελευταίων ετών. Έρευνα Banse, 1996[53] Αριθμός συναισθημάτ ων Χαρακτηριστικά Μέθοδος Ακρίβεια Βάση Δεδομένων 14 F0, Ενέργεια, Ρυθμός ομιλίας, Φασματικά χαρακτηριστικά Ang, 2002[53] 2 F0, Ενέργεια, Ρυθμός ομιλίας, Φασματικά χαρακτηριστικά, Διάρκεια New, 2003[53] 6 Log Freguency Power Coefficients Vidrascu, 2005[53] Batliner, 2005[53] D.Morrison et al, 2006[47] 2 F0, Ενέργεια, Φασματικά χαρακτηριστικά, Διάρκεια 4 F0, Ενέργεια, Διάρκεια 6 F0mean, Forange, Ενέργεια, Ρυθμός ομιλίας, F1-F2 Formants LDA 25-53% 12 άτομαπροκαλούμενη ομιλία Decision Tree 75% Wizard of Oz technique HMM 77%-89% 12 άτομαπροκαλούμενη ομιλία SVM 83% 404 άτομαφυσική ομιλία LDA 78% 51 άτομα- Wizard of Oz technique SVM MLP KNN K* RF 71.85% 65.37% 61.83% 60.34% 67.36% ESMBS SVM (RBF) KNN Multi-layer 76.93% 75.85% 74.25% NATURAL 79

80 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ perceptron RF 71.98% K* 70.67% Naïve Bayes 69.56% SVM(polynomial) 69.50% C4.5 decision tree 67.47% Random tree 60.05% Hao Tang, Stephen M.Chu, Mark Hasegawa Johnoson, Thomas S.Huang[48] 4 MFCCs, Ενέργεια, F0 BoostedGMM GMM 90% 86% 1 άτομοspeaker independent recognition Dimitrios Verdiadis and Constantine Kotropoulos [52] 5 Φασματικά χαρακτηριστικά, Ενέργεια, Θεμελιώδης Συχνότητα Bayes with pdfs classifier Gaussian 50.6% Danish Emotional Speech database Moataz M.E.El Ayadi, Mohamed S.Kamel, Fakhri Karray[50] 6 MFCCs, delta coefficients, Ενέργεια. GMVAR HMM KNN ANN 76% 71% 67.3% 55% Berlin emotional speech database Dan-Ning Jiang, Lian- Hong Cai[49] 6 Θεμελιώδης συχνότητα, Ενέργεια, Διάρκεια MLP-GMM likelihoods MLP-HMM likelihoods 68.6% 72.2% 1 άτομοspeaker independent recognition MLP-both likelihoods 83.1% Tin Lay New, Foo Say Wei, Liyanage C.De Dilva, 2001[51] 4 6 MFCCs Neural Network Nearest criterion Mean 70% 75% 2 άτομαπροκαλούμενη ομιλία 6 VQ based Discrete HMM 72.22% Bjorn Schuller, Raquel JimenezVillar, 7 Acoustics speaker dependent(θεμε λιώδης NB ND SVM 86.3% 86.9% 91% δείγματα προκαλούμενη ς και φυσικής 80

81 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Gerhard Rigoll and Manfred Lang[46] συχνότητα, ενέργεια, διάρκεια) C4.5 Bagging C4.5 Boosting C % 86.9% 92.7% ομιλίας MLP 90.6% Acoustics speaker independent( θεμελιώδης συχνότητα, ενέργεια, διάρκεια) Bagging MLP Boosting MLP StackingC 92.7% 92.7% 92.9% Linguistic feature Ze-Jing Chuang and Chung-Hsien Wu[54] 6 Θεμελιώδης συχνότητα, Ενέργεια, F1 Formants, zero crossing rate Multiple SVM Single SVM 76.44% 65.90% 2 άτομαφυσική ομιλία Πίνακας 3: Έρευνες στην αναγνώριση των συναισθημάτων από την ομιλία Στις παραπάνω έρευνες βλέπουμε ότι εκτός από του γνωστούς αλγόριθμους που παρουσιάστηκαν στην προηγούμενη ενότητα γίνονται συγκρίσεις και με νέους αλγόριθμους που αποτελούν βελτιωμένες προσεγγίσεις των βασικών αλγορίθμων χρησιμοποιώντας άλλες τεχνικές ή τον συνδυασμό αυτών. Τις περισσότερες φορές οι νέοι αυτοί αλγόριθμοι έχουν μεγαλύτερη ακρίβεια στην αναγνώριση των συναισθημάτων, το οποίο εξαρχής σκόπευαν να πετύχουν. Κάποιοι από αυτούς είναι ο BoostedGMM, μία βελτίωση του GMM χρησιμοποιώντας την τεχνική boosting, o GMVAR, O GMM βασισμένος στον SVM, ο MLP σε συνδυασμό με συναρτήσεις πιθανοτήτων των GMM και HMM, ο VQ βασισμένος στον ΗΜΜ και ο StackingC. Επίσης, παρατηρούμε ότι έρευνες γίνονται με διαφορετικές βάσεις δεδομένων, αν και το πιο συνηθισμένο είναι η χρήση δειγμάτων προκαλούμενης ομιλίας. Το αξιοσημείωτο είναι ότι σε πολλές έρευνες η ομιλία χωρίζεται σε ανεξάρτητη και εξαρτημένη από τον ομιλητή, δηλαδή στο αν προέρχεται από ένα άτομο ή την αλληλεπίδραση πολλών ατόμων. Από της παραπάνω έρευνες προκύπτει ότι η αναγνώριση ομιλίας ανεξάρτητη του ομιλητή έχει μεγαλύτερα ποσοστά ακρίβειας στην αναγνώριση των συναισθημάτων. 81

82 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ 4.2 ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΜΕΣΩ ΑΝΑΛΥΣΗΣ ΠΡΟΣΩΠΟΥ Η ανάλυση των εκφράσεων του προσώπου αποτέλεσε την πρώτη μέθοδο αναγνώρισης συναισθημάτων και χρησιμοποιείται από τότε εκτενώς σε πολλές μελέτες καθώς είναι η μέθοδος που προτιμάται για ενιαία συνδυαστικά συστήματα αναγνώρισης και έκφρασης συναισθημάτων. Οι εκφράσεις του προσώπου αποτελούν τα βασικά μη-λεκτικά εργαλεία επικοινωνίας του ανθρώπου παρέχοντας το πιο ισχυρό και ευέλικτο φυσικό μέσο επικοινωνίας και ενώ αποτελούν ένδειξη της συναισθηματικής φόρτωσης του ατόμου εστιάζοντας στα βασικά χαρακτηριστικά του προσώπου που δεν είναι άλλα από τα μάτια, τα φρύδια, το στόμα και η μύτη. Καθεμιά από αυτές τις περιοχές εξάγουν κάποια χαρακτηριστικά και όρια τα οποία συνδυάζονται μεταξύ τους προκειμένου να δηλώσουν το συναισθηματικό επίπεδο του ατόμου. Η παραδοσιακή τακτική αναγνώρισης των συναισθημάτων μέσα από την έκφρασή τους στο πρόσωπο είναι όμοια με αυτήν της αναγνώρισης τους μέσω της ομιλίας: Τα δεδομένα εισόδου είναι στατικά και επιδεικνύουν απλά την κορύφωση του συναισθήματος. Στην περίπτωση της οπτικής πληροφορίας η απεικόνιση είναι απλά μια φωτογραφία στην οποία το υποκείμενο εικονίζεται στο υψηλότερο εκφραστικό επίπεδο. Οι σύγχρονες τεχνικές πάντως τείνουν να εμπλέκουν πληροφορία δυναμικής υφής για την κατανόηση των συναισθημάτων μέσα από τις εκφράσεις του προσώπου. Η αλήθεια είναι ότι η αναγνώριση συναισθημάτων από την οπτική πληροφορία έχει ένα ισχυρότερο υπόβαθρο, προερχόμενο από μελέτες στο τομέα της Νευροφυσιολογίας, από ότι η αναγνώριση τους από ηχητικά δεδομένα. Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι πολλές μελέτες σχετικές με την αναγνώριση προσώπων διερεύνησαν και τον τρόπο με τον οποίο οι άνθρωποι ερμηνεύουν τα συναισθήματα των συνανθρώπων τους με βάση τις αντιλαμβανόμενες εκφράσεις Εμψύχωση εκφράσεων σε συναισθηματικά μοντέλα προσώπου Τα χαρακτηριστικά του προσώπου μπορούν να θεωρηθούν είτε στατικά όπως για παράδειγμα το χρώμα του δέρματος- είτε αργά μεταβαλλόμενα όπως η υφή η οποία μεταβάλλεται με την ανάπτυξη ρυτίδων- είτε κινούμενα όπως οι βλεφαρίδες, τα φρύδια κοκ. Η ανίχνευση της θέσης των χαρακτηριστικών αυτών από χρονικά σταθερές απεικονίσεις φωτογραφίες- είναι ο στόχος των στατικών προσεγγίσεων της ανάλυσης εκφράσεων. Παρόλα αυτά υπάρχει ισχυρή ένδειξη ότι η αναγνώριση εκφράσεων από τον άνθρωπο στηρίζεται περισσότερο σε πληροφορία δυναμικής υφής παρά σε στατικές απεικονίσεις. Η ειδοποιός διαφορά μεταξύ ανθρώπου και υπολογιστή είναι η ακρίβεια εντοπισμού των προσώπων και των χαρακτηριστικών τους στο χώρο. Το ανθρώπινο οπτικό σύστημα είναι εξαιρετικά αποτελεσματικό στον τομέα αυτό. Αντίθετα στους υπολογιστές τα σφάλματα εντοπισμού του προσώπου και των χαρακτηριστικών του, λειτουργούν προσθετικά και σε πολλές περιπτώσεις καλύπτουν την ουσιαστική πληροφορία κίνησης που διατίθεται από τις ακολουθίες. Το τελικό συμπέρασμα είναι 82

83 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ότι οι στατικές προσεγγίσεις οι οποίες είναι λιγότερο επιρρεπείς στον εντοπισμό των χαρακτηριστικών του προσώπου διατηρούν την αξία τους όσον αφορά την αναγνώριση των εκφράσεων. Από την άλλη πλευρά τα στάδια προεπεξεργασίας τα οποία αφορούν στον εντοπισμό του προσώπου, των βασικών χαρακτηριστικών του όπως τα μάτια, μύτη, το στόμα κοκ και σημείων στη περιοχή των χαρακτηριστικών αυτών είναι εξαιρετικά σημαντικά σε όλες τις περιπτώσεις. Οι δυναμικές προσεγγίσεις αντιμετωπίζουν επιπλέον και την πρόκληση της παρακολούθησης της κίνησης των χαρακτηριστικών με τεχνικές εκτίμησης κίνησης και μοντελοποίησης των μυών και των δράσεων τους Κυριότερες βάσεις δεδομένων που χρησιμοποιούνται στα συστήματα συναισθηματικής αναγνώρισης μέσω πρόσωπου Α) FACSAID[9]: Τη βάση για τα περισσότερα από τα συστήματα αναγνώρισης εκφράσεων αποτέλεσε η εργασία των Ekman και Friesen, οι οποίοι δημιούργησαν ένα σύστημα κωδικοποίησης το οποίο περιγράφει όλες τις οπτικά διαχωρίσιμες κινήσεις του προσώπου το οποίο το ονόμασαν FACS - Facial Action Coding System και το οποίο θα αναλυθεί παρακάτω σε ξεχωριστεί ενότητα. Στηριζόμενοι σε αυτό το σύστημα κωδικοποίησης ο Ekman και οι συνεργάτες του δημιούργησαν τη βάση FACSAID η οποία χρησιμοποιείται για τον υπολογισμό των συναισθηματικών εκφράσεων με βάση τις μετρήσεις των παραμέτρων του FACS. Οι ερευνητές πάλεψαν με προβλήματα όπως πώς θα οργανωθούν ξεχωριστά, μεμονωμένα FACS σε σχετικές βαθμολογίες για κομμάτια συμπεριφοράς και στην συνέχεια, πώς θα ερμηνεύσουν τα κομμάτια αυτά από πλευράς ψυχολογικών εννοιών. Όσο αφορά το τελυεταίο ζήτημα, ο Friesen άρχισε να γράφει ένα πρόγραμμα σε BASIC που ταξινομεί τις βαθμολογίες FACS(FACS scores) σε συναισθηματικές κατηγορίες μαζί με ενδείξεις για την ένταση του συναισθήματος και άλλα χαρακτηριστικά. Το πρόγραμμα αυτό αποτελείτο από ένα μακρύ κατάλογο δηλώσεων IF...THEN και αξιολογούσε κατά πόσο ένα FACS score πληρεί ορισμένα κριτήρια για τις συναισθηματικές κατηγορίες. Οι αποφάσεις αυτές οργανώνονταν γύρω από την έννοια των βασικών μονάδων δράσεων(core action units-aus), που ήταν οι βασικές μυϊκές ενέργειες αλλά και συνδυασμοί των δράσεων που προσδιορίζονταν από μια συναισθηματική έκφραση. Δεδομένου ότι η σημαντικότητα των ενεργειών για την συναισθηματική ερμηνεία ήταν γνωστή, οι ερευνητές ενδιαφέρονταν μόνο για την ύπαρξη της συναισθηματικής έκφρασης που απαιτείτο για την εξέταση της AU ή για τους συνδυασμούς αυτών, μειώνοντας σημαντικά τον χρόνο υπολογισμού των FACS scores. Η βάση FACSAID ( Facial Action Coding System Affect Interpretation Dictionary) είναι ένα έργο το οποίο συνδέει τις εκφράσεις του προσώπου με την ψυχολογική τους ερμηνεία. Οι πληροφορίες αποθηκεύονται σε μια σχεσιακή βάση δεδομένων, η οποία μοντελοποιεί συμπεριφορές του προσώπου καθώς και τις έννοιες αυτών των εκφράσεων. Οι εκφράσεις του προσώπου στην βάση δεδομένων FACSAID σήμερα περιγράφονται μόνο από τα αποτελέσματα του FACS και οι ερμηνείες τους αφορούν ως επί το πλείστον τη συναισθηματική σημασία αυτών των συμπεριφορών. Το σύστημα περιγράφεται ως ένα λεξικό λόγω του ότι ο χρήστης μπορεί να ανατρέξει έννοιες για μια συγκεκριμένη συμπεριφορά του προσώπου ή να αναζητήσει τις συμπεριφορές του προσώπου που υποδηλώνουν μια συγκεκριμένη έννοια ή συναίσθημα όπως θυμό ή χαρά. Η προσέγγιση του λεξικού-δεδομένων της FACSAID 83

84 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ είναι διαφορετική από εκείνη ενός βασισμένου σε κανόνες ή έμπειρου συστήματος, όπου οι ερμηνείες προκύπτουν από κάποιο άκαμπτο τύπο που προβλέπει μια έννοια για κάθε έκφραση του προσώπου. Η βάση FACSAID περιέχει τις λεγόμενες FACS βαθμολογίες (FACS scores), η καθεμία από τις οποίες εξετάζεται ατομικά από εμπειρογνώμονες, οι οποίοι ερμηνεύουν την έννοια της συμπεριφοράς του προσώπου όπως αυτή εκπροσωπείται από μια συγκεκριμένη βαθμολογία. Αυτή η ερμηνεία-έκφραση του προσώπου είναι αποθηκευμένη στην βάση δεδομένων για μεταγενέστερη ανάκτηση από τους ερευνητές που θέλουν να ξέρουν τι σημαίνουν οι εκφράσεις. Η βάση περιέχει διάφορους τύπους δεδομένων: αναπαραστάσεις εκφράσεων του προσώπου από την άποψη των FACS, αναπαραστάσεις των εννοιών που μπορούν να συνδεθούν με τις συμπεριφορές του προσώπου και άλλα στοιχεία σχετικά με τις συμπεριφορές, όπως για παράδειγμα πόσες φορές έχει παρατηρηθεί μια συμπεριφορά, οπτικές αναπαραστάσεις της συμπεριφοράς κλπ. Αν και διαφορετικές έννοιες μπορούν να συνδεθούν με την ίδια συμπεριφορά του προσώπου μόνο μια έννοια που συμφωνήθηκε από τους εμπειρογνώμονες σχετικά με τα FACS για καθεμία συμπεριφορά προσώπου είναι σήμερα στην βάση δεδομένων. Επί του παρόντος, η πρόσβαση στην βάση δεδομένων παρέχεται μέσω του site όπου ατομικά FACS scores μπορούν να εισαχθούν στις σελίδες Web και μια ερμηνεία να λαμβάνεται μέσω μιας JSP, JAVA Servlet υποδομής. Δεν απαιτείται άδεια για να χρησιμοποιηθεί αυτή η δυνατότητα χρήστης πρέπει μόνο να ξέρει τα FACS. Περιορισμός του είναι μόνο ότι ένα FACS score, μπορεί να ερμηνευθεί σ' ένα μόνο χρόνο. Μια εφαρμογή JAVA θα είναι σύντομα διαθέσιμη, η οποία θα τρέχει στην επιφάνεια εργασίας του υπολογιστή του χρήστη, το οποίο θα είναι συνδεδεμένο με το Web. Β) OPENCV[23]: Η βιβλιοθήκη "Open Source Computer Vision Library" (OpenCV) [OCVL] είναι μία ελεύθερα διαθέσιμη, ανοικτού κώδικα συλλογή από ρουτίνες σε C++, που αφορούν την τεχνητή όραση. Η OpenCV παρέχει μια στερεή υποδομή για την τεχνητή όραση που επιτρέπει στους ειδικούς να δουλέψουν σε ένα υψηλότερο επίπεδο από το στοιχειώδες. Με την τύπου BSD (Berkeley Software Distribution) άδεια χρήσης της, η OpenCV παρέχεται από την Intel για ελεύθερη εμπορική και ερευνητική χρήση. Η υποστήριξη της OpenCV στην τεχνητή όραση είναι εκτεταμένη. Υποστηρίζει ρουτίνες για την ανάγνωση, απεικόνιση, επεξεργασία και αποθήκευση απλών φωτογραφικών εικόνων αλλά και κινηματογραφικών ταινιών. Παρέχονται ένα πλήθος από ρουτίνες για την επεξεργασία εικόνας και υποστηρίζονται ρουτίνες υπολογιστικής γεωμετρίας, αναγνώρισης προτύπων και αλγόριθμοι ανίχνευσης αντικειμένων. Η OpenCV παρέχει χαμηλού και υψηλού επιπέδου API για την Ανίχνευση Προσώπων ή άλλων Αντικειμένων, ανάλογα με την εκπαίδευση που έχει προηγηθεί στον ταξινομητή αντικειμένων που προσφέρει. Ο ταξινομητής αντικειμένων που προσφέρει είναι αυτός που έχει προταθεί από τους Viola & Jones και έχει βελτιωθεί από τον Lienhart κ.ά. Ο ταξινομητής για τα πρόσωπα έχει εκπαιδευτεί με εκατοντάδες θετικά δείγματα προσώπων μεγέθους 20x20 και αυθαίρετα αρνητικά δείγματα ίδιου μεγέθους. Η OpenCV περιέχει την εφαρμογή Haartraining για την εκπαίδευση ενός ταξινομητή με ένα δεδομένο σύνολο θετικών και αρνητικών δειγμάτων, που αφορούν ένα συγκεκριμένο αντικείμενο. Η 84

85 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ εφαρμογή αυτή δημιουργεί ένα xml αρχείο που περιέχει τα δεδομένα που αφορούν τον εν λόγω ταξινομητή και μπορεί να χρησιμοποιηθεί στη συνέχεια για την ανίχνευση του συγκεκριμένου αντικειμένου. Αναλυτικότερη περιγραφή για την εκπαίδευση και λειτουργία του ταξινομητή της βάσης OPENCV θα γίνει στο κομμάτι που αναφέρεται στους ταξινομητές (ενότητα ). Γ) BU-3DFE[68]: Η BU-3DFE βάση δεδομένων δημιουργήθηκε από το Πανεπιστήμιο Binghamton της Νέας Υόρκης και αποτελείται από 100 αντικείμεναάτομα(56 γυναίκες και 44 άνδρες) διαφορετικών εθνικοτήτων, το καθένα εκ των οποίων αποσπά 7 καθολικές εκφράσεις του προσώπου(θυμός, αηδία, χαρά, λύπη, φόβος, έκπληξη και ουδέτερη έκφραση) με 4 επίπεδα έντασης. Τα D μοντέλα έκφρασης περιγράφονται τόσο με βάση τα 3D γεωμετρικά τους σχήματα όσο και με τις 3D χρωματικές υφές. Για να διευκολυνθούν οι αντιστοιχίες, τα 83 FPs(feature points) προσδιορίζονται σε κάθε 3D μοντέλο. Οι επιφάνειες του προσώπου χαρακτηρίζονται από τα πρωτογενή επιφανειακά χαρακτηριστικά βάσει των επιφανειακών καμπυλοτήτων (Εικόνα 28). Η κατανομή αυτών των χαρακτηριστικών χρησιμοποιούνται ως δείκτες της επιφάνειας του προσώπου, χαρακτηρίζοντας την έκφραση του προσώπου. Η συγκεκριμένη βάση δεδομένων χρησιμοποιεί την μέθοδο LPA(Γραμμική διακριτή Ανάλυση-Linear Discriminant Analysis) προκειμένου να εξάγει συμπεράσματα για την έκφραση του εκάστοτε προσώπου στηριζόμενη πάντα στις 6 καθολικές εκφράσεις(εξαιρούμενη η ουδέτερη έκφραση) με ποσοστό επιτυχημένης αναγνώρισης 83%. Εικόνα 28: Εκφραστικές περιοχές οριζόμενες για το πρωτογενή επιφανειακό χαρακτηριστικό του προσώπου)[68]. 85

86 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Δ) BU-4DFE(3D+time)[68]: Για να αναλυθεί η συμπεριφορά του προσώπου από ένα 3D στατικό χώρο σ έναν 3D δυναμικό χώρο, η παραπάνω βάση δεδομένων επεκτάθηκε στην BU-4DFE. Η νέα βάση δεδομένων παρουσιάζεται ως μια νεοσύστατη υψηλής ευκρίνειας 3D βάση δεδομένων για τις εκφράσεις του προσώπου, η οποία προς το παρόν τίθεται μόνο στην διάθεση της επιστημονικής ερευνητικής κοινότητας. Οι 3D εκφράσεις του προσώπου «συλλαμβάνονται» με αναλογία βίντεου (25 πλαίσια ανά δευτερόλεπτο). Για κάθε αντικείμενο, υπάρχουν 6 βασικές ακολουθίες-συχνότητες που δείχνουν τις 6 πρωτότυπες εκφράσεις προσώπου(συν μια που δείχνει την ουδέτερη έκφραση) (Εικόνα 29). Κάθε έκφραση-ακολουθία περιέχει 100 πλαίσια(frames). Η BU-4DFE περιλαμβάνει 606 3D ακολουθίες που έχουν «συλληφθεί» από 101 άτομα(58 γυναίκες και 43 άνδρες), με συνολικά μοντέλα-πλαίσια. Κάθε 3D μοντέλο (Εικόνα 30) μιας 3D ακολουθίας-βίντεο διαθέτει την ανάλυση περίπου κορυφών. Τέλος, κάθε βίντεο υποστηρίζει ανάλυση 1040x1329 pixels ανά καρέ. Εικόνα 29: Ατομικές όψεις μοντέλου. Εικόνα 30 : Δείγμα ακολουθιών μοντέλου για μια έκφραση. Ε) Cohn-Kanade AU-Coded Facial Expression Image Database[25] Η βάση αποτελείται από ενήλικες, 69% γυναίκες και 31% άντρες, ηλικίας 18 με 50 χρονών, διαφόρων εθνικοτήτων. Τα άτομα που συμμετέχουν στη βάση εκπαιδεύτηκαν από ειδικούς για να ερμηνεύσουν απλά AUs και συνδυασμούς από AUs. Η κινηματογράφηση έγινε σε κλειστό-εσωτερικό χώρο. 86

87 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Οι ακολουθίες εικόνων ξεκινούν με ουδέτερο πρόσωπο και σταματούν με το τελευταίο καρέ να απεικονίζει την εκάστοτε έκφραση στη μέγιστη ένταση της. Οι εικόνες αποτελούνται από pixels, με 8 bit/pixel οι ασπρόμαυρες και 24 bit/pixel οι έγχρωμες. Ακολουθίες εικόνων με εντός πλάνου κίνηση και περιορισμένη εκτός πλάνου κίνηση, περιέχονται μέσα στη βάση. Το μέρος της βάσης που μας έγινε διαθέσιμο, μετά από αίτημα, αποτελείται από 97 άτομα σε 487 ακολουθίες εικόνων, κωδικοποιημένων κατά FACS AUs Τεχνικές εμψύχωσης: FACS και MPEG-4 FBA FACS: σύντομη παρουσίαση Το Facial Action Coding System (FACS) είναι μία ευρέως διαδεδομένη μέθοδος μέτρησης και περιγραφής της «συμπεριφοράς» του προσώπου[10]. Οι Paul Ekman και W.V. Friesen ανέπτυξαν το συγκεκριμένο σύστημα κωδικοποίησης των κινήσεων του προσώπου τo 1978, χρησιμοποιώντας γνώση ανθρώπινης ανατομίας και ορίζοντας τον τρόπο με τον οποίο η σύσπαση κάθε μυός του προσώπου (μεμονωμένα και σε συνδυασμό) αλλάζει την εμφάνιση του προσώπου. Εξέτασαν ακολουθίες κινούμενης εικόνας που απεικονίζουν εκφράσεις προσώπου, ώστε να καθορίσουν τις αλλαγές που συντελούνται από τις συσπάσεις των μυών, καθώς και τους συνδυασμούς αυτών και να διαχωρίσουν τους πιθανούς συνδυασμούς κινήσεων, ενώ για τον καθορισμό των AUs (Action Units) χρησιμοποιήθηκαν γνώσεις ανατομίας. Το εγχειρίδιο του FACS πρωτοεκδόθηκε το Μονάδες μέτρησης του FACS είναι τα Action Units (AUs)[22]. Όπως αναφέρθηκε και στην υποενότητα της βάσης δεδομένων FACSAID. Δεν επιλέχθηκαν οι μύες γιατί ορισμένα AUs συνδυάζουν την κίνηση περισσοτέρων του ενός μυών (Εικόνα 31) ή το αποτέλεσμα της σύσπασης ενός μυός εκφράζεται με δύο ή περισσότερα AUs. Ο κωδικοποιητής ενός τέτοιου συστήματος αναλύει την παρατηρούμενη έκφραση σε συγκεκριμένα AUs και δίνει ως αποτέλεσμα μία λίστα των AUs που δημιουργούν την έκφραση. Επίσης είναι δυνατόν να ληφθούν υπόψη η διάρκεια, η ένταση και η πιθανή ασυμμετρία. Τα αποτελέσματα αυτά είναι μόνο περιγραφικά και δεν παρέχουν στοιχεία σχετικά με τη σημασία της έκφρασης. Ο Ekman και οι συνεργάτες του δημιούργησαν επίσης και ένα λεξικό το EMFACS στο οποίο δηλώνονται οι AU οι οποίες περιγράφουν τις πρωτεύουσες εκφράσεις. Σε επόμενο στάδιο είναι δυνατόν τα στοιχεία του FACS να μετατραπούν σε χρήσιμες για την ψυχολογία έννοιες με τη βοήθεια του FACSAID, ενός συστήματος ερμηνείας της αντίστοιχης βάσης δεδομένων διαθέσιμου στους ερευνητές. Η ίδια χρησιμοποιείται για τον υπολογισμό των συναισθηματικών εκφράσεων με βάση τις μετρήσεις των παραμέτρων του FACS. Το σύστημα FACS είναι ιδιαίτερα διαδεδομένο εργαλείο στους κύκλους των ψυχολόγων και ακόμα και σύγχρονες θεωρίες που κάνουν προβλέψεις σχετικά με τις συνέπειες ενός συναισθήματος στο πρόσωπο, τις εκφράζουν με την χρήση των Action Units. 87

88 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 31: Το FACS λαμβάνει υπόψη τους μύες που αλλάζουν την «εμφάνιση» του προσώπου. Πίνακας 4: FACS Action Unit. 88

89 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Πίνακας 5:Παραγείγματα από συνδυασμούς FACS Action Units. Το πρότυπο MPEG-4 Το μοντέλο FACS ενέπνευσε και τη δημιουργία των παραμέτρων περιγραφής προσώπου και απόδοσης κίνησης προσώπου στο πλαίσιο του προτύπου ISO MPEG- 4. Στην πρώτη έκδοση του MPEG-4 αναπτύχθηκε ένας τρόπος αναπαράστασης και ανάλυσης του ανθρωπίνου προσώπου (Face animation) [10]. Το 1999 το MPEG-4 βασιζόμενο στο Hanim, ασχολήθηκε για πρώτη φορά με το ανθρώπινο σώμα (Body Animation). Στις πρώτες επεκτάσεις του (MPEG-4 έκδοση 2 αρχές 2000), το πρότυπο απέκτησε την επίσημη διεθνή τυποποιημένη μορφή, ενώ στην τελευταία έκδοση του MPEG-4 υπάρχουν στοιχεία για την κωδικοποίηση όχι μόνο εικονικών ανθρώπων (virtual human) αλλά και ζώων και φυτών. Στην κατεύθυνση αυτή έχουν αναπτυχθεί τα εξής δύο πλαίσια εφαρμογών: το FBA (Face Body Animation), το BBA (Bone-base Animation). MPEG-4 και πρόσωπο - FDPs & FAPs Χρησιμοποιείται ένα σύνολο παραμέτρων για τον προσδιορισμό του σχήματος, του μεγέθους και της υφής του προσώπου (FDPs Facial Definition Parameters), σε συνδυασμό με ένα άλλο σύνολο παραμέτρων που χρησιμοποιείται για τον προσδιορισμό των «κινήσεων» του προσώπου είτε αυτές προέρχονται από έκφραση συναισθημάτων είτε προκύπτουν κατά την ομιλία (FAPs Facial Animation Parameters). Το σύνολο των FDPs μας παρέχει τη δυνατότητα ακριβούς προσδιορισμού των κινήσεων συγκεκριμένων χαρακτηριστικών του προσώπου, ενώ από τα FAPs, με σωστή ερμηνεία, μπορούμε να προσδιορίσουμε εκφράσεις και εκφορά λόγου σε διάφορα μοντέλα προσώπων χωρίς να είναι απαραίτητες η αρχικοποίηση και η βαθμονόμηση (calibration) της κάμερας. Η μετατροπή των FAPs σε φωνήματα μπορεί να μας οδηγήσει σε ένα μοντέλο κεφαλιού που θα έχει τη δυνατότητα να μιλάει σε όλες τις γλώσσες. 89

90 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Σύνολο παραμέτρων προσδιορισμού προσώπου (FDPs) Με τα FDPs μπορούμε να προσαρμόσουμε ένα μοντέλο προσώπου σε ένα δεδομένο πρόσωπο. Το σύνολο των FDPs μπορεί να περιλαμβάνει πλέγμα 3D με πληροφορίες για την υφή, τρισδιάστατα χαρακτηριστικά σημεία και, προαιρετικά, κάποια εικόνα της υφής και άλλα χαρακτηριστικά όπως μαλλιά, γυαλιά οράσεως, ηλικία ή φύλο. Το πλέγμα 3D χρησιμοποιείται για τον προσδιορισμό του σχήματος του προσώπου, ενώ τα τρισδιάστατα χαρακτηριστικά σημεία χρησιμοποιούνται για τον προσδιορισμό των χαρακτηριστικών του προσώπου στο συγκεκριμένο τρισδιάστατο σχήμα. Εικόνα 32: Ορισμός των feature points στο MPEG-4. Τα FDPs περιέχουν τα εξής πεδία: FeaturePointsCoord τα τρισδιάστατα χαρακτηριστικά σημεία που χρησιμοποιούνται για τη ζυγοστάθμιση του μοντέλου του προσώπου. 90

91 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ TextureCoords συντεταγμένες της υφής για τα χαρακτηριστικά σημεία. TextureType πληροφορία για τον αποκωδικοποιητή σχετική με το τύπο της εικόνας της υφής. FaceDefTables περιγραφή της συμπεριφορά των FAPs. FaceSceneGraph - περιέχει την εικόνα της υφής ή πληροφορίες για την ιεραρχία του μοντέλου. Σύνολο παραμέτρων κίνησης του προσώπου(faps) Τα FAPs βασίζονται στη μελέτη των ελαχίστων κινήσεων του προσώπου και συνδέονται στενά με τις κινήσεις των μυών. Αντιπροσωπεύουν ένα ολοκληρωμένο σύνολο βασικών ενεργειών του προσώπου, επιτρέποντας την απεικόνιση της πλειοψηφίας των φυσιολογικών ανθρωπίνων εκφράσεων, ενώ οι υπερβολικές τιμές μας επιτρέπουν να ορίσουμε ενέργειες αδύνατες για έναν άνθρωπο, αλλά απαραίτητες, για παράδειγμα, για τους χαρακτήρες cartoon. Όλες οι παράμετροι που εμπεριέχουν μεταφορική κίνηση εκφράζονται με τους όρους των μονάδων κίνησης των χαρακτηριστικών του προσώπου (FAPU Facial Animation Parameter Units). Προέκυψε η ανάγκη ορισμού των μονάδων αυτών ώστε να είναι δυνατή η εφαρμογή των FAPs σε οποιοδήποτε μοντέλο προσώπου με σταθερό τρόπο, καθώς και η παραγωγή λογικών και αναμενόμενων αποτελεσμάτων, όσον αφορά στις εκφράσεις και στην εκφορά του λόγου. Τα FAPUs απεικονίζονται στην Εικόνα 33 και αντιστοιχούν, στην ουσία, σε κλάσματα της απόστασης ορισμένων σημείων κλειδιών του προσώπου, επιλεγμένα με τέτοιο τρόπο ώστε να δίνουν την απαιτούμενη ακρίβεια. Εικόνα 33: Μονάδες κίνησης των χαρακτηριστικών προσώπου Οι παράμετροι FAPUs που απεικονίζονται στην Εικόνα 33, δίνουν τις σχέσεις του Πίνακα 5 για τις μονάδες μέτρησης του MPEG-4: 91

92 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Πίνακας 6: Μονάδες μέτρησης των FAPs. Για κάθε FAP ορίζουμε αν έχει μόνο θετικές (unidirectional) ή και αρνητικές τιμές (bidirectional), προς ποια κατεύθυνση είναι οι θετικές τιμές και ποιες ακριβώς είναι οι μονάδες μέτρησης (μοίρες ή κάποιο από τα FAPUs), ενώ μόνο για την περίπτωση του σαγονιού χρησιμοποιούμε μονάδες που μετρούν την «ένταση» πίεσης του σαγονιού με κλίμακα από το 1 έως το 10. FAPs υπάρχουν ακόμη και για την κίνηση της άκρης της γλώσσας ή και για πιθανή κίνηση των αυτιών. Υπάρχουν κάποια «ανώτερα FAPs» που περιγράφουν, χωρίς να διευκρινίζουν λεπτομέρειες, κάποια από τις έξι γνωστές εκφράσεις για το πρόσωπο που θα αποκωδικοποιηθεί. Τα FAPs αυτά (έξι, ένα για κάθε βασική έκφραση) έχουν προτεραιότητα έναντι των υπολοίπων, δηλαδή ακόμα και αν, σύμφωνα με τα υπόλοιπα FAPs, ορίζεται κάτι διαφορετικό, ο αποκωδικοποιητής θα λάβει υπόψη του μόνο τα ανώτερα FAPs. Το MPEG 4 προσδιορίζει 84 σημεία χαρακτηριστικών στο ουδέτερο πρόσωπο, τα οποία παρέχουν χωρική αναφορά για τον ορισμό των FAPs. Ο ορισμός του Facial Animation στο πλαίσιο του προτύπου ISO MPEG 4 βασίζεται στο Σύστημα Κωδικοποίησης Ενεργειών του Προσώπου (FACS Facial Action Coding System) (Ενότητα ). Συγκεκριμένα, τα σύνολα παραμέτρων ορισμού προσώπου FDP (Facial Definition Parameter) και οι παράμετροι κίνησης προσώπου FAP (Facial Animation Parameter) σχεδιάστηκαν στο πρότυπο MPEG-4 για να επιτρέψουν τον ορισμό του σχήματος και της υφής του προσώπου, μειώνοντας την ανάγκη προσδιορισμού της τοπολογίας της υπάρχουσας γεωμετρίας μέσω των FDPs και την κίνηση των χαρακτηριστικών του προσώπου, αναπαράγοντας εκφράσεις, συναισθήματα και εκφορά λόγου μέσω των FAPs. Ο ορισμός του viseme έχει συμπεριληφθεί στο πρότυπο για τον συγχρονισμό των κινήσεων του στόματος ως προς τα φωνήματα με τη συνολική κίνηση των χαρακτηριστικών του προσώπου (facial animation). Παρακολουθώντας τα νεύματα (gestures) του προσώπου που αντιστοιχούν σε FDP και/ή FAP κινήσεις ως προς το χρόνο, είναι δυνατή η απόδοση στοιχείων (cues) που αφορούν τις εκφράσεις και τα συναισθήματα του χρήστη. Το MPEG-4, εστιάζοντας κυρίως στην σύνθεση εκφράσεων του προσώπου και την εμψύχωση εικονικών χαρακτήρων, ορίζει τις παραμέτρους εμψύχωσης του προσώπου 92

93 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ (FAPs) που είναι έντονα επηρεασμένες από τις μονάδες δράσης (AUs), τον πυρήνα του FACS. Ποικίλα αποτελέσματα έχουν παρουσιαστεί που αφορούν στην κατάταξη βασικών εκφράσεων του προσώπου, βασιζόμενα κυρίως σε χαρακτηριστικά ή σημεία που εξάγονται από περιοχές του προσώπου γύρω από το στόμα ή τα μάτια. Αυτά τα αποτελέσματα υποδηλώνουν ότι οι εκφράσεις του προσώπου σε συνδυασμό με κάποιες χειρονομίες και την φωνή, όταν αυτή είναι διαθέσιμη, παρέχουν στοιχεία που μπορούν να χρησιμοποιηθούν για την κατανόηση της συναισθηματικής κατάστασης του ατόμου. Πίνακας 7: Ομαδοποίηση των FAPs Τεχνικές αναγνώρισης εκφράσεων Στην παράγραφο αυτή παρουσιάζονται μερικές από τις τεχνικές οι οποίες πραγματεύονται τους τρόπους με τους οποίους ο υπολογιστής μπορεί να ανακτήσει πληροφορίες σχετικά με τη συναισθηματική κατάσταση κάποιου ατόμου μέσα από τις εκφράσεις του προσώπου του. Οι προσεγγίσεις του ανωτέρω ζητήματος διακρίνονται σε 3 βασικές κατηγορίες[24]: (α) στατικές, στις οποίες η αναγνώριση της έκφρασης βασίζεται σε μια απλή φωτογραφία στην οποία εικονίζεται η έκφραση στην κορύφωση της, (β) ημιστατικές στις οποίες γίνεται χρήση δύο εικόνων μια με το πρόσωπο σε ουδέτερη κατάσταση και μία με το πρόσωπο στη κορύφωση της έκφρασης και (γ) δυναμικές, στις οποίες η αναγνώριση πραγματοποιείται με τη χρήση μιας ακολουθίας από καρέ τα οποία επιδεικνύουν την χρονική εξέλιξη της έκφρασης. Η διάρκεια μιας ακολουθίας που απεικονίζει κάποια έκφραση κυμαίνεται από 0.5 έως 4 δευτερόλεπτα. Μια ενδιάμεσηκατηγορία αποτελούν οι τεχνικές οι οποίες χρησιμοποιούν δύο καρέ, ένα με το πρόσωπο σε ουδέτερη κατάσταση και ένα με το πρόσωπο στη κορύφωση της έκφρασης. Παρόλο που τεχνικές αυτές πλησιάζουν την περισσότερο τη δυναμική προσέγγιση θα μπορούσε καταχρηστικά κάποιος να τις χαρακτηρίσει ημιστατικές. 93

94 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Παρακολούθηση της κίνησης του προσ ώπου Οι άνθρωποι οφείλουν ένα μεγάλο ποσοστό της ικανότητας τους να αναγνωρίζουν εκφράσεις στον εξαιρετικά ακριβή εντοπισμό του προσώπου και των χαρακτηριστικών του. Σε κάθε αλγόριθμο αναγνώρισης εκφράσεων ο εντοπισμός του προσώπου και η παρακολούθηση της κίνησης του είναι ζητήματα πολύ σημαντικά. Στις εργασίες το πρόσωπο ανιχνεύεται με βάση την χρωματική κατανομή του δέρματος, σε κάθε καρέ ξεχωριστά, και στη συνέχεια υπολογίζεται η συνολική μετατόπιση του ανάμεσα στα δύο καρέ. Η προσέγγιση αυτή είναι αξιόπιστη όταν εφαρμόζεται σε ακολουθίες βίντεο με ελεγχόμενες συνθήκες φωτισμού και όταν το πρόσωπο κοιτάζει ευθεία στη κάμερα εφαρμογές τηλεδιάσκεψης. Σε κάθε άλλη περίπτωση η ακρίβεια υπολογισμού της κίνησης είναι χαμηλή και επηρεάζεται από την κλίση και στροφή του προσώπου. Οι τεχνικές παρακολούθησης της κίνησης του προσώπου με χρήση προτύπων, ενεργών περιγραμμάτων, γράφων, κυμματιδίων και RBF συναρτήσεων(radial Basis Function), είναι σε γενικές γραμμές αναίσθητες ως προς κηδεστείς(συγγενείς) (affine) διακυμάνσεις και μετασχηματισμούς αλλά έχουν υψηλή υπολογιστική πολυπλοκότητα η οποία τις καθιστά ακατάλληλες σε εφαρμογές πραγματικού χρόνου. Εκτός από τις τεχνικές παρακολούθησης της κίνησης του προσώπου σημαντικές είναι και οι τεχνικές οι οποίες προσπαθούν να εκτιμήσουν την θέση του στο τρισδιάστατο χώρο -εκτίμηση στάσης (pose estimation)- και να αντισταθμίσουν τις αλλαγές που εμφανίζονται στα χαρακτηριστικά του προσώπου εξαιτίας της οριοθέτησης του Στατικές προσεγγίσεις Οι περισσότερες από τις μελέτες όσον αφορά την ανάλυση εκφράσεων πραγματοποιήθηκαν σε φωτογραφίες σήμανσης (mug shot) φωτογραφίες στις οποίες απεικονίζονται οι εκφράσεις στην κορύφωση τους. Οι φωτογραφίες αυτές επιτρέπουν την ανίχνευση κάποιων στατικών στοιχείων όπως οι ρυτίδες στο μέτωπο, στα μάγουλα και ανάμεσα στα φρύδια, με βάση τα οποία πραγματοποιείται η ταξινόμηση τους σε συγκεκριμένες κατηγορίες. Η εξαγωγή των στοιχείων αυτών δεν είναι ούτε εύκολη αλλά ούτε ικανή για το διαχωρισμό εκφράσεων. Η λογική της ταξινόμησης είναι μάλλον «το μη χείρον βέλτιστο» παρά η ουσιαστική περιγραφή των εκφράσεων. Πολύ λίγες από τις στατικές προσεγγίσεις εμφανίζουν αξιοσημείωτα αποτελέσματα. Μια σχετικά επιτυχημένη τεχνική παρουσιάζεται στην εργασία, στην οποία ένα σύνολο από νευρωνικά δίκτυα, τα οποία λειτουργούν παράλληλα, πραγματοποιούν προβολή των μπλοκ της εικόνας στους άξονες με ανάλυση κύριων συνιστωσών PCA(Principal Componet Analysis) των περιοχών ενδιαφέροντος μάτια και στόμα. Μετά τη διαδικασία εκπαίδευσης το νευρωνικό δίκτυο με την μεγαλύτερη ικανότητα ανάκλησης χρησιμοποιείται ως ταξινομητής. Οι συγγραφείς της εργασίας αναφέρουν ποσοστό γενίκευσης 86% -στα ίδια δεδομένα οι άνθρωποι είχαν ποσοστό επιτυχίας 92%- αλλά για την εφαρμογή της τεχνικής απαιτείται επακριβής κανονικοποίηση των εικόνων εισόδου ως προς την κλίμακα και την διάταξη των χαρακτηριστικών. Επίσης η αυτόματη εξαγωγή των μπλοκ που περιέχουν τα μάτια και το στόμα με αρκετά μεγάλη ακρίβεια είναι αμφίβολη. Το γεγονός ότι οι στατικές προσεγγίσεις, παρά την αμφίβολη αποτελεσματικότητα τους, είναι αρκετά δημοφιλείς μπορεί να αποδοθεί σε δύο παράγοντες: (α) στην ύπαρξη αρκετών βάσεων με στατικές εικόνες σε αντίθεση με τις λίγες, στον αριθμό 94

95 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ αλλά και πλήθος ακολουθιών, δυναμικές βάσεις, και (β) στα επίπονα στάδια προεπεξεργασίας που απαιτούνται στις δυναμικές προσεγγίσεις Ημιστατικές προσεγγίσεις Οι ημιστατικές προσεγγίσεις ταξινομούν τις εκφράσεις βασιζόμενες σε χαρακτηριστικά τα οποία πηγάζουν από τον υπολογισμό της κίνησης, είτε των μυών του προσώπου είτε των χαρακτηριστικών του, ανάμεσα σε δύο καρέ τα οποία απεικονίζουν το πρόσωπο στην ουδέτερη κατάσταση και στην κορύφωση της έκφρασης. Είναι προφανές ότι στηρίζονται σε δυναμικά στοιχεία και έχουν δύο πλεονεκτήματα: (α) Η κίνηση των επιμέρους σημείων του προσώπου ανάμεσα στα δύο αυτά καρέ είναι αρκετά μεγάλη, και (β) υπάρχει αρκετό υλικό για τον αποτελεσματικό έλεγχο των αλγορίθμων. Από την άλλη πλευρά ουδείς αμφισβητεί ότι η χρονική εξέλιξη της έκφρασης αποτελεί σημαντικό χαρακτηριστικό της και προφανώς η χρήση δύο μόνο καρέ αδυνατεί να καταγράψει την χρονική αυτή εξέλιξη. Οι Yacoob και Davis επικεντρώθηκαν στις ακμές αντί στους μύες του προσώπου, θεωρώντας ότι οι ακμές και η κίνηση τους υπολογίζονται ευκολότερα και είναι περισσότερο ευσταθή χαρακτηριστικά, όσον αφορά τις συνθήκες φωτισμού και τις αλλαγές της θέσης του προσώπου στον τρισδιάστατο χώρο. Ενοποιώντας τις περιγραφές των Ekman και Friesen και τα πρότυπα κίνησης των επιμέρους εκφράσεων του Bassili, κατέληξαν στη δημιουργία μιας γλωσσικής και ενδιάμεσου επιπέδου περιγραφής η οποία μοντελοποιεί την χωροχρονική δραστηριότητα του προσώπου Δυναμικές προσεγγίσεις Εκτίμηση της κίνησης των σημείων στην επιφάνεια του προσώπου Ένα κρίσιμο θέμα στις δυναμικές προσεγγίσεις είναι η εκτίμηση της κίνησης των χαρακτηριστικών και γενικότερα των σημείων του προσώπου από ένα καρέ στο επόμενο. Οι πιο διαδεδομένες προσεγγίσεις στο πρόβλημα αυτό χρησιμοποιούν εκτίμηση των χωρικών και χρονικών παραγώγων των καρέ, φιλτράρισμα ή απλά συσχέτιση στο χώρο των εικόνων. Η εκτίμηση των χωρικών και χρονικών παραγώγων βασίζεται στην προσέγγιση των Horn και Schunck, οι οποίοι υποθέτουν ότι το δέρμα του προσώπου είναι τοπικά ομοιογενές και τα βασικά χαρακτηριστικά του διακρίνονται από σχετικά υψηλό βαθμό ανομοιογένειας. Η εκτίμηση της κίνησης με φιλτράρισμα απαιτεί την εφαρμογή φίλτρων τόσο στο πεδίο του χρόνου όσο και στο χώρο. Με τον τρόπο αυτό εκτιμάται η χωροχρονική συχνοτική κατανομή, ανάμεσα σε μια σειρά από καρέ, η εξέλιξη της οποίας οδηγεί στη κατασκευή του πεδίου των διανυσμάτων κίνησης. Το μειονέκτημα της μεθόδου είναι ότι απαιτεί ένα αρκετά μεγάλο αριθμό από καρέ για τη σωστή εκτίμηση του πεδίου κίνησης. Οι τεχνικές συσχέτισης στηρίζονται στην κλασική ιδέα της πρόβλεψης κίνησης η οποία χρησιμοποιείται στο πρότυπο MPEG. Ο υπολογισμός της κίνησης ενός pixel σε δύο διαδοχικά καρέ βασίζεται στην υπόθεση ότι κίνηση αυτή είναι μικρή και υπολογίζεται με απευθείας σύγκριση της γραμμικά φιλτραρισμένης τιμής του pixel στο τρέχον καρέ με τις αντίστοιχες γειτονικές του pixel θέσεις στο επόμενο καρέ. Ο υπολογισμός της κίνησης των pixels με τον τρόπο αυτό μοιάζει απλοϊκός και επιρρεπής σε σφάλματα, κάτω όμως από ένα μακροσκοπικό πρίσμα μπορούν να εξαχθούν ορθά συμπεράσματα. 95

96 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Η ολική κατανομή των διανυσμάτων κίνησης στην επιφάνεια του προσώπου και οι εκφράσεις. Σε μια προσπάθεια να διευκρινιστεί η φιλολογία σχετικά με την αξία των διανυσμάτων κίνησης που σχετίζονται με τα σημεία της επιφάνειας του προσώπου, όσον αφορά τον χαρακτηρισμό των εκφράσεων, πραγματοποιήθηκε το πείραμα που περιγράφεται στη συνέχεια: Έστω ότι όλες οι εικόνες που απεικονίζουν τις επιμέρους εκφράσεις του ιδίου προσώπου είναι κανονικοποιημένες ως προς την κλίμακα και ευθυγραμμισμένες ως προς τη θέση κάποιων σταθερών σημείων του προσώπου κόχες ματιών και βάση της μύτης. Η υπόθεση αυτή εξαλείφει την ολική κίνηση του κεφαλιού και το zoom της κάμερας. Υπολογίζουμε το πεδίο των διανυσμάτων κίνησης απευθείας από τις τιμές των pixels και για εκείνες μόνο τις περιοχές του προσώπου για τις οποίες έχει λάβει χώρα ουσιαστική δράση. Έστω Fk και Fk+1 δύο καρέ τα οποία απεικονίζουν το ίδιο πρόσωπο στην ουδέτερη κατάσταση και την κορύφωση κάποιας συγκεκριμένης έκφρασης. Κάθε pixel pk (x, y) του k-οστού καρέ περιγράφεται μέσω του 2nx2n μπλοκ bk (x, y) που το περικλείει και αντιστοιχίζεται με το επόμενο σφάλμα (MAD-Mean Absolute Difference): Τα διανύσματα μετατόπισης υπολογίζονται μόνο για εκείνα τα μπλοκ του καρέ τα οποία αντιστοιχούν σε μεγάλο σφάλμα ek (x, y). Το διάνυσμα μετατόπισης vˆ k (x, y) του block bk (x, y) υπολογίζεται με τη διαδικασία ταύτισης μπλοκ σε μια γειτονιά του μπλοκ bk +1 (x, y) σύμφωνα με την εξίσωση: όπου Q = {-q,..., q} {-q,..., q} ένα τετραγωνικό πλέγμα που αντιπροσωπεύει την περιοχή έρευνας. Για την μείωση του χρόνου εκτέλεσης πραγματοποιείται λογαριθμική αντί για εξαντλητική έρευνα. «Θορυβώδη» -λάθος εκτιμημένα- διανύσματα κίνησης απομακρύνονται με φιλτράρισμα ενδιάμεσης τιμής, αρχικά ως προς τη φάση και στη συνέχεια ως προς το μέτρο. Πλήρως δυναμικές προσεγγίσεις Οι τεχνικές ανάλυσης εκφράσεων από ακολουθίες βίντεο ακολουθίες σε μορφή τηλεδιάσκεψης- μπορούν να υποδιαιρεθούν σε τρεις κατηγορίες: i) Τεχνικές βασισμένες στο πεδίο των διανυσμάτων κίνησης: Στις τεχνικές αυτές υπολογίζεται το πεδίο των διανυσμάτων κίνησης είτε σε όλο το καρέ είτε σε επιλεγμένες περιοχές του προσώπου. Η ταξινόμηση των εκφράσεων πραγματοποιείται χρησιμοποιώντας παράγωγα χαρακτηριστικά των διανυσμάτων κίνησης και η ταύτιση υλοποιείται με κάποιο δυναμικό σχήμα Ηidden Markov Μodels (HMM), επαναλαμβανόμενα νευρωνικά δίκτυα κοκ. Τυπικά χαρακτηριστικά είναι η ενεργειακή κατανομή των διανυσμάτων κίνησης σε επιμέρους περιοχές του προσώπου και ο συνολικός προσανατολισμός τους. Ένα πρόβλημα με τις τεχνικές αυτές είναι αναπόφευκτη παρουσία θορύβου στα εκτιμούμενα διανύσματα κίνησης η οποία μπορεί να επηρεάσει σημαντικά τη διαδικασία ανάλυσης. Ο Ohya και οι συνεργάτες του εφάρμοσαν Hidden Markov Models για τη μοντελοποίηση της χρονικής εξέλιξης των εκφράσεων. Η κατάσταση των μυών σε κάθε χρονική στιγμή προσεγγίζεται από τους εσωτερικούς κόμβους των HMMs ένας για κάθε έκφραση. Στην εργασία χρησιμοποίησαν κυμματίδια (wavelets) για την εξαγωγή του διανύσματος χαρακτηριστικών ισχύς του πεδίου κίνησης για διάφορες 96

97 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ συχνοτικές περιοχές υπολογισμένες με τη βοήθεια του μετασχηματισμού waveletενώ στη μελέτη χρησιμοποίησαν το μετασχηματισμό Fourier. ii) Παρακολούθηση των χαρακτηριστικών του προσώπου: Η παρακολούθηση της κίνησης των σημαντικότερων χαρακτηριστικών του προσώπου κατά τη διάρκεια των εκφράσεων είναι ίσως η πιο προφανής αντιμετώπιση της ανάλυσης εκφράσεων από ακολουθίες βίντεο. Το πεδίο των διανυσμάτων κίνησης εκτιμάται μόνο στις περιοχές του προσώπου που περιλαμβάνουν τα χαρακτηριστικά αυτά. Η διαδικασία διαιρείται σε δύο στάδια: Για κάθε καρέ της ακολουθίας πραγματοποιείται εντοπισμός των χαρακτηριστικών χαμηλού επιπέδου, όπως ακμών και γωνιών που αυτές σχηματίζουν, ή υψηλότερου επιπέδου όπως τα μάτια, τα φρύδια, το στόμα κ.ο.κ. και στη συνέχεια ελέγχεται η κίνησή τους ανάμεσα σε διαδοχικά καρέ. Πολύ διαδεδομένος αλγόριθμος παρακολούθησης της κίνησης των χαρακτηριστικών είναι ο αλγόριθμος των Lucas-Kanade, ο οποίος εμφανίζει σχετικά υψηλή ακρίβεια όσον αφορά στην εκτίμηση της κίνησης. Η παρακολούθηση της κίνησης χαρακτηριστικών περιορίζει την υπολογιστική πολυπλοκότητα αλλά υποθέτει μεγάλη ακρίβεια στον εντοπισμό τους. Επιπλέον δεν είναι προφανές ότι όλη η πληροφορία σχετικά με τη διαμόρφωση των εκφράσεων εκφράζεται μόνο από τη μεταβολή των βασικών χαρακτηριστικών του προσώπου. Για παράδειγμα σε πολλές εκφράσεις η εμφάνιση ρυτίδων σε ομοιόμορφες περιοχές του προσώπου μέτωπο, μάγουλα- είναι μια σημαντική πληροφορία. iii) Χρήση τρισδιάστατων μοντέλων για το κεφάλι: Η τρίτη κατηγορία δυναμικών προσεγγίσεων κάνει χρήση της τρισδιάστατης υφής του κεφαλιού και προσαρμόζει ένα τέτοιο μοντέλο με βάση τα δεδομένα που προέρχονται από τα καρέ της ακολουθίας βίντεο. Η χρήση των τρισδιάστατων μοντέλων αποσκοπεί στην καλύτερη εκτίμηση της θέσης του προσώπου στο χώρο και στην εκτίμηση της κίνησης σε τρισδιάστατο επίπεδο και όχι απλά σε επίπεδο μετατόπισης. Η ύπαρξη 3D μοντέλων δεν φαίνεται να συνεισφέρει στην αποτελεσματικότερη ανάλυση εκφράσεων, αλλά για σκοπούς σύνθεσης και αναπαραγωγής εκφράσεων είναι μείζονος σημασίας Εκφράσεις προσώπου-ανίχνευση προσώπου, κατάτμηση, εξαγωγή και ταξινόμηση χαρακτηριστικών σημείων Ανίχνευση προσώπου Το πρώτο βήμα στο στάδιο της ανίχνευσης των χαρακτηριστικών γνωρισμάτων του προσώπου είναι αυτό της ανίχνευσης του προσώπου. Σε αυτό το βήμα ο στόχος είναι να προσδιοριστεί εάν υπάρχουν ή όχι πρόσωπα στην εικόνα και, εάν ναι. να επιστραφεί η θέση τους στην εικόνα και το μέγεθος κάθε προσώπου. Η ανίχνευση και ο εντοπισμός του προσώπου μπορεί να εκτελεσθεί με ποικίλες μεθόδους. Η αξιοπιστία του συστήματος ανίχνευσης παίζει κυρίαρχο ρόλο στην απόδοση και χρησιμότητα ολόκληρου του συστήματος αναγνώρισης προσώπου. Αν δοθεί μία φωτογραφία ή ένα βίντεο, ο ιδανικός ανιχνευτής προσώπου πρέπει να είναι ικανός να ανακαλύπτει και να εντοπίζει όλα τα πρόσωπα που είναι παρόντα, ανεξάρτητα από τις συνθήκες φωτισμού, τη θέση, την κλίμακα, τον προσανατολισμό και τους μορφασμούς των προσώπων. 97

98 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Η μέθοδος των Viola & Jones με τις βελτιώσεις του Lienhart που στηρίζεται στην εκμάθηση με την τεχνική Adaboost και την χρήση χαρακτηριστικών γνωρισμάτων της μορφής Haar, εμφανίζεται μέχρι σήμερα να έχει την καλύτερη απόδοση ως προς την αποτελεσματικότητα και την ταχύτητα. Το ενδιαφέρον της μεθόδου έγκειται επίσης στο ότι είναι υλοποιημένη από τον Lienhart κ.ά. ως τμήμα της βιβλιοθήκης ανοικτού κώδικα OpenCV της Intel. Το πρόβλημα ανίχνευσης προσώπου Η ανίχνευση προσώπου μπορεί να θεωρηθεί σαν ένα πρόβλημα ταξινόμησης (classification) δύο κλάσεων, κατά το οποίο μία περιοχή μιας εικόνας ταξινομείται ως "πρόσωπο" ή "μη-πρόσωπο". Η ανίχνευση προσώπου έγκειται στην ανακάλυψη και εντοπισμό των ανθρώπινων προσώπων σε μια εικόνα ανεξαρτήτως της θέσης τους, του μεγέθους τους (κλίμακας), του προσανατολισμού τους (στροφή στο επίπεδο της εικόνας), της στάσης/πόζας τους (στροφή εκτός επιπέδου εικόνας), της έκφρασής τους (ύπαρξη μορφασμών), της ύπαρξης άλλων δομικών στοιχείων (μούσια, μουστάκια, γυαλιά), του περιεχομένου της εικόνας (ύπαρξη εμποδίων ή άλλων προσώπων) και του φωτισμού και των συνθηκών αποτύπωσης της εικόνας (ευαισθησία κάμερας, ανάλυση) [23]. Όλα τα παραπάνω αποτελούν τις κύριες αιτίες της μεγάλης δυσκολίας που εμφανίζει το πρόβλημα της ανίχνευσης ενός προσώπου. Αυτές οι μεγάλες παραλλαγές στην εμφάνιση του προσώπου, στην στάση, στην έκφραση και τον φωτισμό κάνουν πολύ πολύπλοκο το πολύπτυχο (manifold) του χώρου των προσώπων και δυσδιάκριτα τα όρια προσώπων / μη-προσώπων. Ένας μη γραμμικός ταξινομητής απαιτείται για να είναι εφικτή η διαχείριση αυτής της πολύπλοκης κατάστασης, καθώς επίσης και ένα μεγάλο σύνολο δειγμάτων εκπαίδευσης, τα οποία θα εμπεριέχουν αυτήν την ποικιλότητα στην εμφάνιση των προσώπων. Η ταχύτητα είναι επίσης ένα σημαντικό θέμα για την απόδοση του συστήματος σε πραγματικό χρόνο. Μέθοδοι ανίχνευσης/εντοπισμού προσώπου Οι υπάρχουσες τεχνικές για την ανίχνευση (face detection) ή τον εντοπισμό προσώπων (face localization) σε μονόχρωμες ή έγχρωμες εικόνες κατηγοριοποιούνται κατά τον Yang, ως εξής[23]: Μέθοδοι βασισμένες στη γνώση (knowledge-based methods): Αυτές οι μέθοδοι κωδικοποιούν την ανθρώπινη γνώση σε κανόνες αναφορικά με το τί συνιστά ένα τυπικό πρόσωπο. Συνήθως κωδικοποιούνται από τον ερευνητή οι σχέσεις (θέσεις, αποστάσεις) ανάμεσα στα χαρακτηριστικά του προσώπου. Οι δυσκολίες της μεθόδου οφείλονται στην μετατροπή των σχέσεων των χαρακτηριστικών σε συγκεκριμένους κανόνες. Αυτές οι μέθοδοι έχουν σχεδιαστεί για τον εντοπισμό του προσώπου. Προσεγγίσεις αναλλοίωτων χαρακτηριστικών (feature invariant approaches): Στόχος αυτών των μεθόδων είναι να βρεθούν τα δομικά χαρακτηριστικά ενός προσώπου που υπάρχουν ακόμα και όταν η στάση, η θέση παρατήρησης ή οι συνθήκες φωτισμού ποικίλουν. Με βάση τα δομικά αυτά χαρακτηριστικά 98

99 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ (φρύδια, μάτια, στόμα κλπ.) χτίζονται στατιστικά μοντέλα μορφών (statistical shape models), που στη συνέχεια μπορούν να χρησιμοποιηθούν για τον εντοπισμό του προσώπου. Οι δυσκολίες της μεθόδου οφείλονται στην απόκρυψη των χαρακτηριστικών ή στην ύπαρξη πρόσθετων αντικειμένων που αλλοιώνουν τις μορφές. Μέθοδοι συνταιριάσματος υποδειγμάτων (template matching methods): Εδώ χρησιμοποιούνται διάφορα προκαθορισμένα τυπικά υποδείγματα (templates) για να περιγράψουν το πρόσωπο σαν σύνολο ή τα χαρακτηριστικά του προσώπου ξεχωριστά. Για την ανίχνευση υπολογίζεται η συσχέτιση μεταξύ της εικόνας εισόδου και των αποθηκευμένων υποδειγμάτων. Οι μέθοδοι αυτές χρησιμοποιούνται για ανίχνευση αλλά και για εντοπισμό των προσώπων. Οι δυσκολίες της μεθόδου οφείλονται στην αντιμετώπιση των παραλλαγών στην κλίμακα, την μορφή και τον προσανατολισμό, δεδομένου ότι τα υποδείγματα είναι προκαθορισμένα. Μέθοδοι βασισμένες στην εμφάνιση (appearance-based methods): Εδώ τα μοντέλα ή υποδείγματα προσώπου, σε αντίθεση με την μέθοδο των υποδειγμάτων όπου τα υποδείγματα είναι προκαθορισμένα, μαθαίνονται από ένα σύνολο εικόνων εκπαίδευσης που είναι αντιπροσωπευτικές της ποικιλότητας της εμφάνισης των προσώπων. Αυτά τα μοντέλα από εκμάθηση χρησιμοποιούνται στη συνέχεια για την ανίχνευση των προσώπων. Οι μέθοδοι αυτές χρησιμοποιούνται κυρίως για ανίχνευση, αλλά και για εντοπισμό των προσώπων. Σε γενικές γραμμές, οι αλγόριθμοι αυτοί στηρίζονται σε τεχνικές στατικής ανάλυσης (ταξινόμηση κατά Bayes) και σε μηχανές εκπαίδευσης (νευρωνικά δίκτυα, support vector machines). Συνήθως, για λόγους υπολογιστικής ισχύς και ακρίβειας παρατηρείται στα χαρακτηριστικά μείωση διαστάσεων (PCA, adaboost). Οι πιο επιτυχημένες τεχνικές για ανίχνευση προσώπου είναι οι μέθοδοι που βασίζονται στην εμφάνιση (appearance-based). Αυτές βασίζονται αποκλειστικά στη εμφάνιση των προσώπων, χωρίς να χρησιμοποιούνται άλλα ευρήματα[22]. Η διαδικασία ανίχνευσης έχει ως εξής: Μια εικόνα εισόδου σαρώνεται σε όλες τις δυνατές θέσεις και κλίμακες από ένα υπο-παράθυρο ανίχνευσης. Η ανίχνευση προσώπου αποφασίζεται από την ταξινόμηση του δείγματος στο υπο-παράθυρο σαν πρόσωπο ή μη-πρόσωπο. Ο ταξινομητής προσώπων / μη-προσώπων εκπαιδεύεται από ένα εκπαιδευτικό σύνολο δειγμάτων από πρόσωπα και μη-πρόσωπα χρησιμοποιώντας στατιστικές μεθόδους εκπαίδευσης Αναγνώριση προσώπου: μαθηματικό υπόβαθρο Στην υποενότητα αυτή παρουσιάζεται η γενική δομή των συστημάτων αναγνώρισης προσώπων, δίνονται κάποιοι ορισμοί και εισαγωγικές έννοιες και παρουσιάζονται αναλυτικά κάποια σχετικά δημοφιλή σχήματα. Όπως αναφέρθηκε και παραπάνω, οι μεγάλες διακυμάνσεις στα ανθρώπινα πρόσωπα όπως μεταβολές στις εκφράσεις, στις συνθήκες φωτισμού, τη θέση παρατήρησης, η ηλικία κ.τ.λ. την αναγνώριση προσώπων ένα πραγματικά πολύ δύσκολο πεδίο έρευνας δεδομένου ότι ένα τέτοιο σύστημα πρέπει να είναι ικανό να πραγματοποιεί επιτυχημένες ταυτοποιήσεις ανεξάρτητα από διακυμάνσεις αυτές[24]. Η πλειονότητα των συστημάτων αναγνώρισης προσώπου που έχουν προταθεί σε ερευνητικές εργασίες θέτουν αυστηρούς περιορισμούς όπως ομοιόμορφο φόντο, οι φωτογραφίες προσώπων να είναι φωτογραφίες εμπρόσθιας όψης, τα πρόσωπα στις εικόνες να 99

100 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ βρίσκονται στο κέντρο και υπό μικρή κλίση και περιστροφή κοκ. Οι μέθοδοι αυτοί επικεντρώνεται στην εξαγωγή χαρακτηριστικών, είτε γεωμετρικών είτε μέσω γραμμικών μετασχηματισμών. Κάποιες από τις δημοφιλέστερες προσεγγίσεις στην αναγνώριση προσώπων είναι οι εξής: χρήση κυματιδίων τύπου Haar σε ταξινομητές ενός μόνο χαρακτηριστικού (ανίχνευση κατά Viola και Jones), ο μετασχηματισμός Karhunen-Loeve και οι Αναλύσεις Κύριων και Ανεξάρτητων Συνιστωσών (PCA και ICA αντίστοιχα) που αποτελούν την καρδιά της αναπαράστασης των ιδιοδιανυσμάτων και χρησιμοποιούνται τόσο για εντοπισμό, όσο και για αναγνώριση προσώπων με μάλλον αποδοτικότερη την διαδικασία εντοπισμού, τα νευρωνικά δίκτυα για την αναγνώριση της συναισθηματικής κατάστασης από τις εκφράσεις του προσώπου και ανίχνευση προσώπου με την OpenCV. Για την επίτευξη υψηλότερων ποσοστών αναγνώρισης οι περισσότεροι αλγόριθμοι απαιτούν την μετατροπή των φωτογραφιών προσώπων σε ένα κατάλληλο φορμάτ το οποίο καλείται «φορμάτ προσώπου- head format». Σε αυτό τα απεικονιζόμενα πρόσωπα παρουσιάζονται σε συγκεκριμένη κλίμακα και οριοθέτηση και κάποια βασικά χαρακτηριστικά προσώπου συνήθως τα μάτια- είναι ευθυγραμμισμένα. Ένα γενικό διάγραμμα που απεικονίζει την διαδικασία αναγνώρισης προσώπων φαίνεται στην εικόνα

101 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Εικόνα 34: Η αρχιτεκτονική ενός γενικού συστήματος αναγνώρισης προσώπου. Α) Χρήση κυματιδίων τύπου Haar ενός μόνου χαρακτηριστικού (Ανίχνευση VIOLA & JONES) Η διαδικασία της ανίχνευσης αντικειμένων με χαρακτηριστικά τύπου Haar βασίζεται σε τέσσερα στοιχεία. Το πρώτο και βασικότερο είναι η χρήση των χαρακτηριστικών Haar για την περιγραφή των αντικειμένων. Πέρα από τις αρχικές συναρτήσεις Haar, χρησιμοποιούνται και άλλες του ίδιου τύπου όπως θα δούμε και παρακάτω. Δεύτερο βασικό στοιχείο της διαδικασίας είναι η χρήση δύο πινάκων για τον γρήγορο υπολογισμό των χαρακτηριστικών, τρίτο στοιχείο αποτελεί ο αλγόριθμος εκπαίδευσης AdaBoost που χρησιμοποιείται για την εκπαίδευση του ανιχνευτή και περιγράφεται αναλυτικά στην ενότητα Τελευταίο στοιχείο της διαδικασίας είναι η χρήση πολλών μικρών και γρήγορων διαδοχικά συνδεδεμένων ταξινομητών, αντί ενός μεγάλου και αργού ταξινομητή. Με την τεχνική αυτή αυξάνεται πολύ η ταχύτητα της διαδικασίας ανίχνευσης. Οι Viola και Jones στο περιγράφουν ένα πλαίσιο εργασίας για την αναγνώριση αντικειμένων, το οποίο συνδυάζει τόσο τη γρήγορη επεξεργασία των εικόνων όσο και τα υψηλά ποσοστά αναγνώρισης. Στο γεγονός αυτό συνεισφέρουν κάποια βασικά χαρακτηριστικά του συστήματος[22]: 101

102 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ 1. Μία νέα αναπαράσταση της εικόνας την οποία οι Viola & Jones την ονομάζουν integral image και η οποία επιτρέπει την πολύ γρήγορη αποτίμηση κάποιων χαρακτηριστικών. Η αναπαράσταση αυτή μπορεί να υπολογιστεί πολύ εύκολα από την εικόνα, μόνο με τη χρήση μερικών απλών αριθμητικών πράξεων για κάθε pixel. 2. Ο διαδοχικός συνδυασμός σύνθετών διαχωριστών σε σειριακή δομή (cascade). Το γεγονός αυτό αυξάνει αισθητά την ταχύτητα, περιορίζοντας την λεπτομερή αναζήτηση σε συγκεκριμένες περιοχές της εικόνας και όχι στο σύνολο της. Υπολογισμός χαρακτηριστικών τύπου Haar Το σύστημα ταξινομεί τις εικόνες με βάση τις τιμές απλών χαρακτηριστικών. Υπάρχουν πολλά κίνητρα για την χρήση χαρακτηριστικών, σε σχέση με την απευθείας χρήση των φωτεινοτήτων των pixels. Ο πιο σημαντικός λόγος είναι ότι τα χαρακτηριστικά έχουν τη δυνατότητα να κωδικοποιούν γνώση η οποία είναι πολύ δύσκολο να εμπεδωθεί μέσω πεπερασμένου αριθμού δεδομένων εκπαίδευσης. Επίσης ένα ακόμα βασικό κίνητρο είναι ότι ένα feature-based σύστημα (σύστημα που βασίζεται στα χαρακτηριστικά) είναι σαφώς ταχύτερο από ένα pixel-based σύστημα (σύστημα που βασίζεται στα εικονοστοιχεία). Τα απλά χαρακτηριστικά που χρησιμοποιούνται έχουν την βάση τους στις συναρτήσεις Haar. Συγκεκριμένα χρησιμοποιούνται τρία διαφορετικά είδη χαρακτηριστικών. Η τιμή ενός διπλού-τετράγωνου χαρακτηριστικού (two-rectangle features) είναι η διαφορά του αθροίσματος των pixels των δύο τετραγώνων (Εικόνα 35). Ένα τριπλό-τετράγωνο χαρακτηριστικό (three-rectangle features) υπολογίζει το άθροισμα των δύο εξωτερικών τετραγώνων μειωμένο κατά το κεντρικό τετράγωνο. Τέλος ένα τετραπλό-τετράγωνο χαρακτηριστικό (four-rectangle features) υπολογίζει την διαφορά του αθροίσματος ανάμεσα στα διαγώνια τετράγωνα[22]. Εικόνα 35:Τετραγωνικά χαρακτηριστικά, τοποθετημένα μέσα στο παράθυρο σάρωσης. Τα συνολικά pixels των λευκών τετραγώνων αφαιρούνται από τα pixels των γκρι. ΑΙ και Α2:Two-rectangle features, A3 και Α4: Three-rectangle feature, Α5: four-rectangle feature. Α6:κεντρικά περικυκλωμένο χαρακτηριστικό, Β rectangle: παραδείγματα από συμμετρικά rectangle ως προς τον y-άξονα [22]. 102

103 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Με δεδομένο το ότι η βασική ανάλυση του ανιχνευτή είναι 24 χ 24 pixels, το εξαντλητικό σετ των χαρακτηριστικών για ένα παράθυρο σάρωσης είναι αρκετά μεγάλο: χαρακτηριστικά. Επομένως αναγκαία είναι η εύρεση ενός κανόνα για τον ταχύ υπολογισμό αυτών των χαρακτηριστικών, γίνεται δυνατό με την ενδιάμεση αναπαράσταση της εικόνας integral image. Η integral image στο pixel με συντεταγμένες (x'.y) περιέχει το άθροισμα των pixels, που βρίσκονται πάνω και αριστερά του (χ,y), δηλαδή: Όπου ii (χ,y) είναι η integral image και η i (χ,y) η κανονική εικόνα (σα). (σχέση 1). Εικόνα 36:Integral image:(α):pixel με συντεταγμένες (x,y) έχει τιμή το άθροισμα των pixels, που είναι πάνω και αριστερά του (χ, y). (Β):Το σύνολο των pixels του τετραγώνου D μπορεί να υπολογιστεί από το integral image σαν χ 4 -χ 2 -χ 3 +χ 1 [22]. Με χρήση της integral image κάθε άθροισμα τετραγώνου μπορεί να υπολογιστεί με αναφορά σε τέσσερα μόνο διανύσματα (Εικόνα 36 Β).Επομένως, η διαφορά μεταξύ δύο τετραγώνων μπορεί να υπολογιστεί με οχτώ διανύσματα. Άμα ληφθεί υπόψη και το γεγονός ότι στα two-rectangle features τα τετράγωνα αυτά είναι γειτονικά τότε αρκούν έξι διανύσματα. Παρόμοια στην περίπτωση των three-rectangle features οχτώ και στα four-rectangle features εννιά. Τα τετράγωνα χαρακτηριστικά μοιάζουν πρωτόγονα σε σύγκριση με διάφορα άλλα φίλτρα δύο διαστάσεων ( κυματίδια gabor canny edge detector κ.τ.λ.). Αν και είναι ευαίσθητα στην παρουσία ακμών και απλών δομών, εντούτοις είναι ανεπαρκή για την λεπτομερή δομική ανάλυση των εικόνων. Επίσης συναντώνται σε δύο μόνο προσανατολισμούς (οριζόντιος και κάθετος). Παρόλα τα παραπάνω, ένα σετ από τετράγωνα χαρακτηριστικά φαίνεται να εξασφαλίζει μία πλούσια αναπαράσταση της εικόνας, κατάλληλη να εφαρμοστεί σε αλγορίθμους εκπαίδευσης. Επίσης η τεράστια υπολογιστική ευκολία που προσφέρουν αντισταθμίζει την περιορισμένη λειτουργικότητα τους. Τα υπολογιστικά πλεονεκτήματα της τεχνικής integral image γίνονται ακόμα πιο εμφανή αν θεωρήσουμε την συνηθισμένη προσέγγιση της πυραμίδας των εικόνων. Στα περισσότερα συστήματα εντοπισμού αντικειμένου, ο ανιχνευτής εξετάζει την εικόνα σε πολλές κλίμακες. Η εικόνα σαρώνεται από ένα παράθυρο εντοπισμού σταθερών διαστάσεων (π.χ ), αρχικά στο αρχικό της μέγεθος και στη συνέχεια 103

104 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ σε μικρότερα μεγέθη. Έτσι δημιουργείται μία πυραμίδα από την ίδια εικόνα σε διάφορες κλίμακες. Με την χρήση των rectangle features η όλη διαδικασία του εντοπισμού του προσώπου σε όλα τα επίπεδα της πυραμίδας γίνεται πολύ γρήγορα, γρηγορότερα και από τον υπολογισμό των ίδιων των εικόνων της πυραμίδας. Επιλογή χαρακτηριστικών με τον αλγόριθμο εκπαίδευσης Adaboost Υπάρχουν πολλές μέθοδοι για την υλοποίηση ενός ταξινομητή, δεδομένου ενός συνόλου χαρακτηριστικών και ενός συνόλου εκμάθησης θετικών και αρνητικών εικόνων (αρνητικών και θετικών δειγμάτων)[23]. Έχουν χρησιμοποιηθεί νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης κ.α. Το σύνολο όμως των χαρακτηριστικών που χρησιμοποιούμε είναι πολύ μεγάλο. Έτσι, ο υπολογισμός του πλήρους συνόλου των χαρακτηριστικών για την ανίχνευση σε κάθε υποπαράθυρο της εικόνας, θα ήταν και πάλι πολύ χρονοβόρος. Θα πρέπει, λοιπόν, να επιλέξουμε ένα μικρό αριθμό χαρακτηριστικών από το διαθέσιμο σύνολο, και να κατασκευάσουμε από αυτά τον ταξινομητή μας. Η επιλογή αυτών των χαρακτηριστικών είναι αρκετά δύσκολη. Στην μέθοδο ανίχνευσης που εξετάζουμε, χρησιμοποιήθηκε ο αλγόριθμος AdaBoost τόσο για την επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν, όσο και για την εκπαίδευση του ταξινομητή. Ο αλγόριθμος εκμάθησης AdaBoost ανήκει στην κατηγορία των αλγορίθμων ενδυνάμωσης (boosting) και χρησιμοποιείται για να αυξήσει την απόδοση ενός οποιουδήποτε απλού αλγορίθμου ταξινόμησης. Ο απλός αλγόριθμος ταξινόμησης λέγεται και ασθενής αλγόριθμος ταξινόμησης, καθώς ακόμα και η καλύτερη συνάρτηση ταξινόμησης που μπορεί να προκύψει από αυτόν, δεν αναμένεται να ταξινομεί καλά τα δεδομένα. Θεωρώντας μια αντιστοίχιση μεταξύ αδύναμων ταξινομητών και χαρακτηριστικών οι Viola & Jones, χρησιμοποίησαν τον αλγόριθμο AdaBoost σαν μια αποτελεσματική διαδικασία για την ανεύρεση ενός μικρού αριθμού "καλών" χαρακτηριστικών που επιπλέον είναι σημαντικά διαφοροποιημένα. Αναλυτική περιγραφή του τρόπου λειτουργίας του ταξινομητή Adaboost πραγματοποιείται στην ενότητα των βασικών ταξινομητών. B) Ανάλυση σε Βασικούς Άξονες (PCA-Principal Component Analysis) Η μέθοδος της Ανάλυσης Κυρίων Συνιστωσών (PCA)[26] υπολογίζει ένα ορθοκανονικό σύνολο αξόνων στις διευθύνσεις όπου τα δεδομένα παρουσιάζουν μέγιστη συνδιακύμανση. Δηλαδή, γεωμετρικά οι κύριες συνιστώσες (principal components) είναι οι διευθύνσεις του χώρου τον δεδομένων όπου μεγιστοποιείται η συνδιασπορά της προβολής των αρχικών διανυσμάτων στις συνιστώσες αυτές. Τα διανύσματα αυτά ορίζουν τον υποχώρο των εικόνων προσώπου ο οποίος ονομάζεται υποχώρος προσώπου (face space). Όλες οι εικόνες προσώπων του συνόλου εκπαίδευσης προβάλλονται πάνω στον υποχώρο αυτό προκειμένου να βρεθεί ένα σύνολο βαρών που περιγράφει τη συμμετοχή κάθε διανύσματος στον υποχώρο προσώπου. Για να γίνει ταυτοποίηση μιας νέας εικόνας πρέπει να προβληθεί το διάνυσμα που την αναπαριστά στον υποχώρο προσώπου ώστε να υπολογιστεί ένα αντίστοιχο σύνολο βαρών. Συγκρίνοντας τα βάρη της εικόνας με το σύνολο βαρών των εικόνων εκπαίδευσης μπορεί να γίνει η ταυτοποίηση της. 104

105 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Οι κύριες συνιστώσες ορίζονται ως ιδιοδιανύσματα (eigenvectors) του πίνακα της συνδιασποράς C: (σχέση 2). όπου Χi το διάνυσμα κάθε εικόνας, μ η μέση τιμή των διανυσμάτων εικόνας και η το πλήθος των εικόνων. Η προβολή των εικόνων γίνεται στα ιδιοδιανύσματα που αντιστοιχούν στις πι μεγαλύτερες ιδιοτιμές (eigenvalues). Οι κύριες συνιστώσες έχουν ίδια διάσταση με τις αρχικές εικόνες κι αναφέρονται συχνά ως eigenfaces. Αφού γίνει η προβολή, το διάνυσμα εισόδου διάστασης Ν, δηλαδή το πρόσωπο, αναπαρίσταται με ένα διάνυσμα του m-διάστατου υποχώρου. Οι ιδιοτιμές αποτελούν ένδειξη της αναλογίας μεταβλητότητας των δεδομένων τα οποία αφορά κάθε ιδιοδιάνυσμα. Η πρώτη κύρια συνιστώσα δείχνει την κατεύθυνση της μέγιστης μεταβλητότητας, η δεύτερη την κατεύθυνση μέγιστης μεταβλητότητας που είναι ορθογώνια ως προς την πρώτη κ.ο.κ. Η απομάκρυνση ορισμένων ιδιοδιανυσμάτων μπορεί να βελτιώσει την απόδοση της μεθόδου με την απομάκρυνση θορύβου. Για το λόγο αυτό, η συνήθης προσέγγιση της μεθόδου περιλαμβάνει επιλογή των ιδιοδιανυσμάτων που αντιστοιχούν στις μεγαλύτερες ιδιοτιμές. Η επιλογή αυτή οδηγεί ουσιαστικά σε επιλογή των διευθύνσεων στις οποίες οι εικόνες διαφέρουν περισσότερο. Στις περισσότερες εφαρμογές, τα ιδιοδιανύσματα που αντιστοιχούν σε μικρές ιδιοτιμές θεωρούνται θόρυβος και δεν λαμβάνονται υπόψη στης διαδικασία ταυτοποίησης. Στην εικόνα 37 βλέπουμε τα eigenfaces που αντιστοιχούν στις 8 μεγαλύτερες ιδιοτιμές και 8 eigenfaces που αντιστοιχούν σε χαμηλές ιδιοτιμές κατά την εφαρμογή της μεθόδου σε δείγμα εικόνων. Εικόνα 37: Πάνω: Τα eigenfaces κου αντιστοιχούν στις 8 μεγαλύτερες ιδιοτιμές. Κάτω: Τα eigenfaces κου αντιστοιχούν σε 8 χαμηλές ιδιοτιμές[26]. Γ) Μετασχηματισμός Karhunen-Loeve (Karhunen-Loeve Transform-KLT) Ένα από τα πιο σημαντικά συστήματα αναγνώρισης προσώπων βασίζεται στον μετασχηματισμό Karhunen-Loeve (KLT-Karhunen Loeve Transform)[24] και είναι γνωστό με το όνομα «Eigenfaces». Όπως το όνομα της μεθόδου μαρτυρά, στηρίζεται στην Ανάλυση σε Βασικούς Άξονες (PCA-Principal Component Analysis) και 105

106 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ πραγματοποιεί μια συμπαγή αναπαράσταση των προσώπων μέσω των συντελεστών προβολής στους βασικούς άξονες. Σε αντίθεση με τους κλασσικούς μετασχηματισμούς διανυσμάτων όπως ο Fourier και ο DCT, ο μετασχηματισμός Karhunen-Loeve κατασκευάζεται με βάση τις στατιστικές ιδιότητες των ιδίων των διανυσμάτων. Έστω ότι τα διανύσματα προσώπων αναπαριστώνται από τη στοχαστική ανέλιξη x. Το μέσο διάνυσμα του πληθυσμού δίνεται από τη σχέση: mx = E{x}, (σχέση 3). όπου Ε{ } συμβολίζει την αναμενόμενη τιμή. Ο πίνακας συμμεταβλητότητας του πληθυσμού δίνεται από τη σχέση: C= E{(x-mx) (x-mx) } (σχέση 4). Η ορθοκανονική βάση του KL αποτελείται από τα ιδιοδιανύσματα του πίνακα C τα οποία καλούνται και eigenfaces εξαιτίας της μορφής τους. Η μέθοδος των eigenfaces χρησιμοποιεί τον προβολή στο χώρο του μετασχηματισμού KL για τη δημιουργία της συμπαγούς αναπαράστασης των προσώπων μέσω διανυσμάτων χαρακτηριστικών. Αν τα ιδιοδιανύσματα του C είναι u1,u2,...,un και αντιστοιχούν στις ιδιοτιμές λ1 λ2 λn, τότε το x εκφράζεται ως: (σχέση 5). και μια συμπαγής αναπαράσταση του υπό την προϋπόθεση ότι λi είναι πολύ μικρό για i >m- είναι: (σχέση 6). Η αναπαράσταση που δίνεται από τη σχέση 6 είναι η αποδοτικότερη δυνατή για όλα τα m<n γιατί δίνει το μικρότερο μέσο τετραγωνικό σφάλμα για όλες τις αναπαραστάσεις του x με διανύσματα m στοιχείων. Δεδομένου ότι η ιδιοτιμή λi εκφράζει τη διασπορά του πληθυσμού κατά μήκος του άξονα ui και ότι η εντροπία ποσό πληροφορίας- αυξάνει με τη διασπορά, είναι προφανές ότι η προβολή στους m βασικούς άξονες διατηρεί το μεγαλύτερο ποσοστό της πληροφορίας του πληθυσμού. Τα ανωτέρω βέβαια δεν σημαίνουν σε καμία περίπτωση ότι ο μετασχηματισμός KL είναι βέλτιστος και ως προς την διαχωρισιμότητα, η οποία εξαρτάται από την διασπορά ανάμεσα στις αναπαραστάσεις διαφορετικών προσώπων και όχι από τη συνολική διασπορά του πληθυσμού (Εικόνα 38). 106

107 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Εικόνα 38: Η συνολική διασπορά του πληθυσμού δεν σημαίνει αναγκαστικά και διασπορά των επιμέρους κλάσεων[24]. Η ταύτιση ενός προσώπου εισόδου με κάποιο από τη αποθηκευμένα πραγματοποιείται με τη χρήση του κριτηρίου: (σχέση 7). Για την χρήση του μετασχηματισμού KL στη πράξη χρειάζεται η εκτίμηση του μέσου διανύσματος mx και του πίνακα C. Για το σκοπό αυτό χρησιμοποιείται ένα σύνολο από N εικόνες προσώπων {I1, I2,... IN}. Μετά από λεξικογραφική διάταξη των pixels κάθε εικόνας Ii δημιουργούμε ένα σύνολο από διανύσματα x1, x2,..., xn όπου xi ανήκει στο R n και n = l m. Το μέσο διάνυσμα mx και ο πίνακας C εκτιμώνται από τις σχέσεις: (σχέση 8). (σχέση 9). όπου X = [x1 - mx, x2 - mx,..., xn - mx ]. Οι συναρτήσεις βάσης του KLT υπολογίζονται από τη λύση του προβλήματος ιδιοτιμών: (σχέση 10). όπου F είναι ο πίνακας των ιδιοδιανυσμάτων του C, και L είναι ο αντίστοιχος διαγώνιος πίνακας των ιδιοτιμών. Όπως μπορεί κάποιος να παρατηρήσει η διάσταση του πίνακα συμμεταβλητότητας είναι υπερβολικά μεγάλη και επομένως η διαγωνιοποίηση του είναι υπολογιστικά πολύ απαιτητική. Η λύση του προβλήματος διαγωνιοποίησης του πίνακα C μπορεί να πραγματοποιηθεί μέσω της αποσύνθεσης ιδιάζουσων τιμών (SVD) του πίνακα X. Παρόλο που η μέθοδος KLT είναι πολύ καλά τεκμηριωμένη θεωρητικά παρουσιάζει δύο τουλάχιστον σοβαρά μειονεκτήματα: (α) Η προβολή στους βασικούς άξονες 107

108 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ είναι βέλτιστη όσον αφορά την συσσώρευση ενέργειας και την ανακατασκευή των προσώπων αλλά δεν είναι σε καμία περίπτωση βέλτιστη όσον αφορά στην ικανότητα διαχωρισμού προσώπων πράγμα ιδιαίτερα επιθυμητό σε συστήματα αναγνώρισης. Βεβαίως σε εφαρμογές όπως η ανίχνευση προσώπων η ικανότητα διαχωρισμού πολύ λίγη σημασία έχει, (β) η εφαρμογή της μεθόδου απαιτεί την εκτίμηση και διαγωνοποίηση του πίνακα αυτοσυσχέτισης, ο οποίος με δεδομένη τη μεγάλη διάσταση του χώρου των εικόνων και το σχετικά μικρό πλήθος των δειγμάτων εκπαίδευσης, είναι σχεδόν πάντοτε singular. Δ) Ανάλυση ανεξάρτητων Συνιστωσών (Independent Component Analysis-ICA) Η μέθοδος PCA ανήκει στην κατηγορία των στατιστικών μεθόδων που βρίσκουν ένα σύνολο από εικόνες βάσης και αναπαριστούν τα πρόσωπα ως ένα γραμμικό συνδυασμό των εικόνων αυτών[26]. Διαχωρίζει τις συσχετίσεις των δεδομένων εισόδου αλλά δεν επεκτείνεται στις υψηλής τάξης εξαρτήσεις όπως οι σχέσεις μεταξύ τριών ή περισσότερων pixels. Σε μια διεργασία, όμως, όπως η αναγνώριση προσώπου ή εκφράσεων, στην οποία σημαντική πληροφορία μπορεί να περιέχεται στις υψηλής τάξης σχέσεις μεταξύ των pixels, είναι λογική η προσδοκία ότι καλύτερες εικόνες βάσης μπορούν να προκύψουν από μεθόδους ευαίσθητες σε αυτές της υψηλής τάξης ροπές. Η Ανάλυση ανεξάρτητων συνιστωσών (Independent Component Analysis, ICA), που αποτελεί μια γενίκευση της μεθόδου PCA, είναι μια τέτοια μέθοδος η οποία προσπαθεί να υπολογίσει μια στατιστικά ανεξάρτητη διανυσματική βάση. Για εφαρμογές επεξεργασίας εικόνων του προσώπου έχουν αναπτυχθεί δύο αρχιτεκτονικές βασισμένες στην Ανάλυση Ανεξάρτητων Συνιστωσών. Η πρώτη αρχιτεκτονική (Architecture I) παράγει στατιστικά ανεξάρτητες εικόνες βάσης ενώ η δεύτερη (Architecture II) παράγει στατιστικά ανεξάρτητους συντελεστές. Σύμφωνα με την πρώτη αρχιτεκτονική, η είσοδος του αλγόριθμου είναι ένας πίνακας Χ στις γραμμές του οποίου έχουν τοποθετηθεί n εικόνες, δηλαδή οι εικόνες του συνόλου εκπαίδευσης, με τη μορφή διανυσμάτων μήκους Ν, όπου Ν το πλήθος pixels των εικόνων. Στόχος της μεθόδου ICA είναι να υπολογίσει μια στατιστικά ανεξάρτητη διανυσματική βάση U και να παραστήσει τις εικόνες προσώπου του Χ ως ένα γραμμικό συνδυασμό της βάσης αυτής. Η διαδικασία αυτή συνοψίζεται στην εξίσωση U=W X όπου W ένας n n αντιστρέψιμος πίνακας. Η διανυσματική βάση U, διάστασης n N, και ο πίνακας W υπολογίζονται από την μέθοδο ICA. Για την υλοποίηση της μεθόδου, δηλαδή τον υπολογισμό των πινάκων W και U, χρησιμοποιήθηκε ο αλγόριθμος Infomax που προέρχεται από αρχή βέλτιστης μεταφοράς πληροφορίας σε νευρώνες με στιγμοειδείς συναρτήσεις μεταφοράς. Ο αλγόριθμος συνίσταται ως εξής: Θεωρούμε τους πίνακες Χ και W, και τον πίνακα Υ = f(u) που αναπαριστά τις εξόδους των n-νευρώνων και έχει ίδιες διαστάσεις με τον Χ. Κάθε στοιχείο της f = (f 1,..f n ) είναι μια αντιστρέψιμη συνάρτηση που απεικονίζει πραγματικούς αριθμούς στο διάστημα [0,1]. Τυπικά η συνάρτηση που χρησιμοποιείται είναι η: 108

109 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ F(u) = 1/ (1-e - ) u Οι γραμμές του U δηλαδή τα διανύσματα u 1,..u n, είναι γραμμικοί συνδυασμοί των εισόδων και μπορούν να ερμηνευθούν ως προσυναπτικοί ενεργοποιητές των n- νευρώνων. Οι γραμμές του Υ, τα διανύσματα y 1,,y n, μπορούν να ερμηνευθούν ως μετασυναπτικοί βαθμοί ενεργοποίησης και περιορίζονται στο διάστημα [0,1]. Σκοπός του αλγόριθμου είναι να μεγιστοποιηθεί η κοινή πληροφορία μεταξύ της εισόδου και της εξόδου του νευρωνικού δικτύου Υ. Αυτό επιτυγχάνεται με την βαθμωτή άνοδο της εντροπίας της εξόδου σε σχέση με τον πίνακα βαρών W. Ο αλγόριθμος είναι επαναληπτικός και ο κανόνας εκπαίδευσης του πίνακα βαρών W προκύπτει από την σχέση: WH(Y)W T W = ( I +Y`U T )W όπου I ο μοναδιαίος πίνακας. Ο αλγόριθμος περιλαμβάνει και μια διαδικασία «sphering» πριν την διαδικασία εκπαίδευσης. Ο μέσοι όροι γραμμών αφαιρούνται από το σύνολο δεδομένων εισόδου Χ και έπειτα ο Χ διέρχεται από ένα μηδενικής φάσης whitening φίλτρο, Wz, το οποίο ισούται με το διπλάσιο της τετραγωνικής ρίζας του πίνακα συμμεταβλητότητας: Wz = 2(ΧΧ Τ ) 1/2 Η διαδικασία αυτή αφαιρεί τις πρώτης και δεύτερης τάξης στατιστικές των δεδομένων καθώς οι διακυμάνσεις αντισταθμίζονται. Όταν οι είσοδοι στον αλγόριθμο ICA έχουν υποβληθεί σε διαδικασία sphering, ο πίνακας μετασχηματισμού της εξίσωσης U=W X είναι ο W Ι, ο οποίος προκύπτει από το γινόμενο του πίνακα Wz και του πίνακα που εκπαιδεύτηκε κατά την διαδικασία ICA: W I = WW Z Επομένως η σχέση U=W X γίνεται: U=W I X Aναπαράσταση των εικόνων προσώπου με ICA. Η πρώτη αρχιτεκτονική της μεθόδου ICA παράγει, ένα σύνολο στατιστικά ανεξάρτητων εικόνων βάσης και αναπαριστά τις αρχικές εικόνες ως ένα γραμμικό συνδυασμό των εικόνων αυτών. Για να βρούμε ένα σύνολο στατιστικά ανεξάρτητων εικόνων βάσης από τις αρχικές εικόνες προσώπου, διαχωρίζουμε τις ανεξάρτητες συνιστώσες τους σύμφωνα με το 109

110 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ συνθετικό μοντέλο εικόνας (image synthesis model) της εικόνας 39.Οι εικόνες προσώπου του πίνακα Χ θεωρούμε ότι προέρχονται από ένα γραμμικό συνδυασμό ενός άγνωστου συνόλου στατιστικά ανεξάρτητων εικόνων πηγής (source images) S, όπου A ένας άγνωστος πίνακας μετασχηματισμού. Οι εικόνες πηγής μπορούν να προσεγγισθούν με τη χρήση του πίνακα εκπαιδευμένων φίλτρων W I, που παράγει ένα σύνολο στατιστικά ανεξάρτητων εξόδων, U. Εικόνα 39: Εικόνα σύνθεσης μοντέλου[26]. Έστω ότι το σύνολο εικόνων εκπαίδευσης αποτελείται από n εικόνες προσώπου διάστασης ρ q pixels. Η είσοδος του αλγόριθμου είναι ο πίνακας Χ στις γραμμές του οποίου τοποθετούνται οι εικόνες με τη μορφή διανυσμάτων μήκους Ν, όπου Ν = ρ q. Επομένως ο πίνακας Χ θα έχει διάσταση n Ν. Η έξοδος της μεθόδου είναι ο πίνακας U, ο οποίος έχει επίσης διάσταση n Ν και συνδέεται με τον πίνακα Χ με τη σχέση U=W I X.Οι γραμμές του πίνακα U είναι οι ανεξάρτητες συνιστώσες που παράγονται από τον αλγόριθμο και είναι επίσης εικόνες αν αναδιαταχθούν σε διάσταση ρ q. Για το λόγο αυτό αναφέρονται και ως «εικόνες βάσης». Αποτελούν ένα σύνολο στατιστικά ανεξάρτητων γνωρισμάτων προσώπου (facial features) όπου οι τιμές των pixels σε κάθε τέτοια εικόνα δεν μπορούν να προβλεφθούν από τις τιμές των pixels στις άλλες εικόνες γνωρισμάτων. Από την σχέση U=W I X προκύπτει: Επομένως οι εικόνες του πίνακα Χ αποτελούν ένα γραμμικό συνδυασμό των εικόνων βάσης U. Ως εκ τούτου, οι εικόνες εισόδου μπορούν να αναπαρασταθούν από τους συντελεστές του μετασχηματισμού αυτού, δηλαδή από τις γραμμές του πίνακα W -1. Για ευκολία ονομάζουμε Β τον πίνακα συντελεστών ICA και άρα ισχύει: 110

111 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ B = W -1 Να υπενθυμίσουμε ότι ο πίνακας W I έχει διάσταση n n και επομένως αυτή είναι και η διάσταση του Β. Τελικά, η αναπαράσταση ICA της i-οστής εικόνας του Χ αποτελείται από τους συντελεστές του γραμμικού συνδυασμού των ανεξάρτητων εικόνων βάσης που την συνθέτει, δηλαδή από τους συντελεστές της i-οστής γραμμής του Β. Αφού ολοκληρώθηκε η αναπαράσταση των εικόνων εκπαίδευσης, ακολουθεί η αναπαράσταση των εικόνων δοκιμής. Έστω ότι το σύνολο των εικόνων δοκιμής περιλαμβάνει k εικόνες προσώπου. Θεωρούμε ότι ο πίνακας X test περιλαμβάνει στις γραμμές του τις εικόνες δοκιμής, με τη μορφή διανυσμάτων μήκους Ν, από τις όποιες όμως έχουν αφαιρεθεί οι μέσοι όροι γραμμών. Επομένως ο X test έχει διάσταση k Ν. Τα διανύσματα των εικόνων δοκιμής του X test προβάλλονται στην διανυσματική βάση U ως εξής: B test = X test U όπου U είναι ο ψευδοαντίστροφος πίνακας του U και έχει διάσταση N n. Ο B test έχει διάσταση k n κα περιλαμβάνει στις γραμμές του τους συντελεστές αναπαράστασης ICA των εικόνων δοκιμής. Ο αριθμός των ανεξάρτητων συνιστωσών που προκύπτει από την μέθοδο ICA συμπίπτει με την διάσταση εισόδου. Αν, δηλαδή, οι εικόνες εκπαίδευσης είναι n τότε παράγονται αντίστοιχα n ανεξάρτητες συνιστώσες. Αφού έχει ολοκληρωθεί ο αλγόριθμος ICA και έχουν αναπαρασταθεί οι εικόνες εκπαίδευσης και δοκιμής με διανύσματα συντελεστών, ακολουθεί η ταξινόμηση των εικόνων δοκιμής σε κλάσεις. Τα διανύσματα συντελεστών του συνόλου δοκιμής αντιστοιχίζονται σε κάποια ετικέτα κλάσης με βάση τον αλγόριθμο κοντινότερης γειτνίασης (nearest neighbor algorithm)και ο οποίος περιγράφεται αναλυτικά στην ενότητα των γενικών χρησιμοποιούμενων ταξινομητών. Σύμφωνα με τον αλγόριθμο κοντινότερης γειτνίασης, ένα διάνυσμα ταξινομείται με βάση την κλάση του διανύσματος από το οποίο απέχει την μικρότερη απόσταση. Η απόσταση υπολογίζεται με κάποια μετρική απόστασης (distance metric). Ε) Προσαρμογή νευρωνικού δικτύου στην αναγνώριση της συναισθηματικής κατάστασης Μια αποτελεσματική προσέγγιση παρουσιάζεται εδώ, η οποία χρησιμοποιεί αρχιτεκτονικές νευρωνικών δικτύων[12] για την ανίχνευση της ανάγκης για προσαρμογή της γνώσης που αποκτήθηκε με την αρχική εκπαίδευση και την προσαρμογή της μέσω μιας αποδοτικής διαδικασίας προσαρμογής. Αρχιτεκτονική νευρωνικού δικτύου Έστω ότι θέλουμε να κατηγοριοποιήσουμε, σε μία από τις p διαθέσιμες κατηγορίες συναισθήματος ω, κάθε διάνυσμα εισόδου xi που περιέχει χαρακτηριστικά από το σήμα εισόδου. Ένα νευρωνικό δίκτυο παράγει ένα διάνυσμα εξόδου, με διάσταση p, y( χ i ). 111

112 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ (σχέση 11). Όπου p i ωj, η πιθανότητα η είσοδος i να ανήκει στην κλάση j. Έστω ότι το δίκτυο έχει εκπαιδευτεί βάσει ενός συνόλου δεδομένων, S b = {( χ 1, d 1),..,( χ mb, d mb)}, όπου τα διανύσματα χ i, d i με i=1,2,...,m b δηλώνουν το διάνυσμα εισόδου i και το αντίστοιχο επιθυμητό διάνυσμα εξόδου με στοιχεία p. Έπειτα, y( χ i ) έστω η έξοδος του δικτύου όταν παρουσιαστεί στο δίκτυο ένα νέο σύνολο εισόδων και έστω η είσοδος i μέσα σε αυτό το σύνολο, που πιθανόν ανήκει σε διαφορετικό πρόσωπο ή διαφορετικές συνθήκες από αυτές που επικρατούσαν κατά την αρχική εκπαίδευση. Βασισμένοι στα παραπάνω, ελαφρώς τροποποιημένα βάρη πρέπει να εκτιμηθούν σε τέτοιες περιπτώσεις μέσα από μια διαδικασία προσαρμογής. Το διάνυσμα w b, περιλαμβάνει όλα τα βάρη του δικτύου πριν την εφαρμογή της διαδικασίας προσαρμογής και w a τις νέες τιμές βαρών που διαμορφώνονται μετά την προσαρμογή. Για να εφαρμοστεί η διαδικασία προσαρμογής, ένα σύνολο εκπαίδευσης S c εξάγεται από την τρέχουσα περίπτωση, που αποτελείται από m c εισόδους. Ο αλγόριθμος προσαρμογής που ενεργοποιείται, όποτε ανιχνευτεί η ανάγκη για προσαρμογή, υπολογίζει τα βάρη w a ελαχιστοποιώντας τα ακόλουθα κριτήρια λάθους σε σχέση με τα βάρη: (σχέση 12). Όπου, E c,a είναι το λάθος του δικτύου επί του συνόλου S c (τρέχουσα κατάσταση) και το αντίστοιχο λάθος E f,a για το σύνολο S b (πρότερη γνώση). z a ( x i ) και z a (x i ) είναι οι έξοδοι του προσαρμοσμένου δικτύου, στα διανύσματα εισόδου x i και αντίστοιχα. Η παράμετρος η είναι παράγοντας σταθμισμού της σημασίας του τρέχοντος συνόλου εκπαίδευσης συγκριτικά με το πρότερο και είναι η νόρμα L 2. x i 112

113 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Στόχος της εκπαίδευσης είναι να ελαχιστοποιηθεί το λάθος E f,a και να εκτιμήσει τα νέα βάρη w a. Υποθέτουμε πως μια μικρή αλλαγή στις τιμές των βαρών συνάψεων w b (πριν την διαδικασία προσαρμογής) είναι αρκετή για να επιτευχθούν ικανοποιητικά αποτελέσματα κατηγοριοποίησης. Τότε, w a = w b +Δ w όπου Δ w έιναι μικρές μεταβολές. Βάσει της υπόθεσης αυτής οδηγούμαστε σε μια αναλυτική λύση για την εκτίμηση των w a, αφού επιτρέπει την γραμμική λύση της μη γραμμικής συνάρτησης ενεργοποίησης ενός νευρώνα, με την χρήση των σειρών Taylor πρώτου βαθμού. Η σχέση 12 δέιχνει ότι τα νέα βάρη του δικτύου εκτιμούνται λαμβάνοντας υπόψη και την τρέχουσα και την πρότερη γνώση του δικτύου. Κάθε φορά που εξακριβώνει ο μηχανισμός απόφασης ότι απαιτείται προσαρμογή, ένα νέο σύνολο εκπαίδευσης S c δημιουργείται, το οποίο αντιπροσωπεύει τις τρέχουσες συνθήκες. Κατόπιν, τα νέα βάρη δικτύων υπολογίζονται λαμβάνοντας υπόψη τόσο την τρέχουσα όσο και την πρότερη γνώση. Αφού το σύνολο το S c έχει βελτιστοποιηθεί μόνο για την τρέχουσα κατάσταση, δεν μπορεί να θεωρηθεί κατάλληλο για μελλοντικές ακολουθίες ή καταστάσεις του περιβάλλοντος. Αυτό οφείλεται στο γεγονός ότι στοιχεία που λαμβάνονται από μελλοντικές καταστάσεις του περιβάλλοντος μπορεί να έρθουν σε σύγκρουση με στοιχεία που λαμβάνονται από το παρόν. Αντίθετα, υποθέτουμε ότι το σύνολο εκπαίδευσης Si,, που γενικά είναι βασισμένο σε εκτενή πειραματισμό, είναι σε θέση να προσεγγίσει την επιθυμητή έξοδο του δικτύου σε οποιαδήποτε πιθανή μελλοντική κατάσταση του περιβάλλοντος. Εντοπίζοντας την ανάγκη για προσαρμογή Ο σκοπός του μηχανισμού αυτού είναι να ανιχνεύσει την ακαταλληλότητα της εξόδου του νευρωνικού δικτύου ταξινόμησης και συνεπώς να ενεργοποιήσει τον αλγόριθμο προσαρμογής σε εκείνα τα χρονικά στιγμιότυπα που εντοπίζεται η μεταβολή των παραγόντων του περιβάλλοντος. Ας υποθέσουμε αρχικά ότι μια προσαρμογή δικτύου έχει πραγματοποιηθεί και ας εστιάσουμε στα οπτικά γνωρίσματα εισόδου. Έστω χ(k) το διάνυσμα χαρακτηριστικών γνωρισμάτων της k εικόνας ή πλαισίου, μετά από το χρόνο που εφαρμόστηκε η προσαρμογή. Ο δείκτης k επομένως επαναρχικοποιείται κάθε φορά που εφαρμόζεται η προσαρμογή, με χ(0) το αντίστοιχο διάνυσμα χαρακτηριστικών γνωρισμάτων της εικόνας όπου έγινε η προσαρμογή του δικτύου. Το διάνυσμα C = [d 1..d mc ] T [z b ( χ 1 )...z b ( χ mc )] T εκφράζει την διαφορά μεταξύ των επιθυμητών και των πραγματικών εξόδων του δικτύου βάσει των βαρών w b και εφαρμόζεται στο τρέχον σύνολο δεδομένων. Κατά συνέπεια, εάν το μέτρο του διανύσματος c αυξηθεί, η απόδοση του δικτύου παρεκκλίνει από την επιθυμητή έξοδο και το δίκτυο πρέπει να προσαρμοστεί. Αντιθέτως, εάν το διάνυσμα c λαμβάνει μικρές τιμές, δεν απαιτείται προσαρμογή. Ακολούθως χρησιμοποιούμε τη διαφορά μεταξύ της εξόδου του προσαρμοσμένου δικτύου και της εξόδου του αρχικά εκπαιδευμένου ταξινομητή για να προσεγγίσουμε την τιμή του c. 113

114 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Έστω e(0) η διαφορά που υπολογίζεται κατά την επεξεργασία της εισόδου χ(0) και e(k) η διαφορά μεταξύ των αντίστοιχων εξόδων των δύο ταξινομητών, όταν σε αυτά παρουσιάζεται το χ(k). Αναμένεται ότι το επίπεδο βελτίωσης εκφρασμένο ως e(k) θα είναι κοντά στο e(0) αν τα αποτελέσματα της ταξινόμησης είναι καλά. Αυτό προϋποθέτει ότι οι εικόνες εισόδου είναι παρόμοιες με αυτές που χρησιμοποιούνται κατά τη διάρκεια της φάσης προσαρμογής. Ένα λάθος e(k) αρκετά διαφορετικό από το e(0), οφείλεται γενικά στην αλλαγή περιβάλλοντος. Κατά συνέπεια, η ποσότητα a(k) = e(k) e(0) μπορεί να χρησιμοποιηθεί για την ανίχνευση της αλλαγής του περιβάλλοντος ή ισοδύναμα τα χρονικά σημεία όπου η προσαρμογή είναι απαραίτητη. Κατά συνέπεια, καμία προσαρμογή δεν απαιτείται εάν: α(k)< Τ (σχέση 13). όπου Τ είναι ένα κατώφλι που εκφράζει την μέγιστη ανοχή, πέραν της οποίας είναι απαραίτητη η προσαρμογή για την βελτίωση της απόδοσης του δικτύου. Μια τέτοια προσέγγιση ανιχνεύει με ακρίβεια τις χρονικές στιγμές ανάγκης προσαρμογής σε περιπτώσεις απότομων αλλά και βαθμιαίων αλλαγών του περιβάλλοντος. Στην περίπτωση απότομης λειτουργικής αλλαγής, το λάθος e(k) δεν θα είναι κοντά στο e(0) και συνεπώς, το α(κ) θα υπερβαίνει το κατώφλι Τ και η προσαρμογή ενεργοποιείται. Σε περίπτωση που συμβαίνει μια βαθμιαία αλλαγή, το λάθος e(k) θα παρεκκλίνει βαθμιαία αλλά σταθερά από το e(0) έτσι ώστε η ποσότητα α(κ) να αυξάνεται βαθμιαία και η προσαρμογή να ενεργοποιηθεί στο πλαίσιο του α(k)> Τ. Η προσαρμογή δικτύων μπορεί να εκτελεσθεί στιγμιαία κάθε φορά που το σύστημα τίθεται σε λειτουργία από τον χρήστη. Κατά συνέπεια, η ποσότητα α(0) υπερβαίνει αρχικά το κατώφλι Τ και η προσαρμογή αναγκάζεται να πραγματοποιηθεί. ΣΤ) Ανίχνευση προσώπων με την OPENCV Όπως έχει ήδη αναφερθεί και παραπάνω η OpenCV αναπτύχθηκε από την εταιρία Intel και διατίθεται ελεύθερα για χρήση. Είναι μια βιβλιοθήκη συναρτήσεων που έχει ως πεδίο εφαρμογής της την Όραση Υπολογιστών[25]. Περιέχει μεγάλο πλήθος συναρτήσεων για την επεξεργασία και την παρουσίαση εικόνων και βίντεο. Μαζί με τη βιβλιοθήκη συναρτήσεων, παρέχονται και κάποια έτοιμα προγράμματα που κατασκευάζουν έναν ταξινομητή. Η OpenCV περιέχει την εφαρμογή Haartraining[23] για την εκπαίδευση ενός ταξινομητή με ένα δεδομένο σύνολο θετικών και αρνητικών δειγμάτων, που αφορούν ένα συγκεκριμένο αντικείμενο. Η εφαρμογή αυτή δημιουργεί ένα xml αρχείο που περιέχει τα δεδομένα που αφορούν τον εν λόγω ταξινομητή και μπορεί να χρησιμοποιηθεί στη συνέχεια για την ανίχνευση του συγκεκριμένου αντικειμένου. Αφού εκπαιδευτεί ο ταξινομητής (διαδικασία η οποία αναφέρεται λεπτομερέστατα στην υποενότητα των ταξινομητών-ενότητα ), μπορεί να εφαρμοστεί σε μία περιοχή ενδιαφέροντος μιας εικόνας εισόδου. Ο ταξινομητής αποκρίνεται με "1" αν η περιοχή περιέχει το αναζητούμενο αντικείμενο και με "0" σε αντίθετη περίπτωση. Για να αναζητηθεί το αντικείμενο σε ολόκληρη την εικόνα, το παράθυρο αναζήτησης μπορεί να μετακινηθεί σε διαφορετικές θέσεις και να ελεγχθεί η απόκριση του 114

115 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ταξινομητή. Ο ταξινομητής έχει σχεδιαστεί έτσι ώστε το παράθυρο αναζήτησης να μπορεί να τροποποιηθεί ως προς τις διαστάσεις του εύκολα, για να ανευρεθούν αντικείμενα διαφορετικών διαστάσεων, αντί να απαιτείται αντίστοιχη μεταβολή των διαστάσεων της ίδιας της εικόνας. Έτσι, για να βρεθεί ένα αντικείμενο άγνωστων διαστάσεων σε μία εικόνα, η διαδικασία αναζήτησης μπορεί να γίνει όσες φορές χρειάζεται σε διαφορετικές κλίμακες. Ο τελικός ταξινομητής αποτελείται από επίπεδα απλούστερων ταξινομητών σε διάταξη καταρράκτη (cascade). Κάθε επίπεδο του καταρράκτη αποτελείται από ένα ισχυρό ταξινομητή (strong classifier) που κατασκευάζεται από απλούστερους αδύναμους ταξινομητές (weak classifiers) με την τεχνική της ενίσχυσης (boosting). Οι τεχνικές ενίσχυσης που υποστηρίζονται είναι η Discrete AdaBoost, η Real AdaBoost, η Gentle AdaBoost και η LogitBoost. Οι αδύναμοι ταξινομητές που χρησιμοποιούνται είναι δένδρα απόφασης (decision trees) με 1 έως 4 κόμβους. Οι αδύναμοι ταξινομητές παίρνουν ως είσοδο ορθογώνια χαρακτηριστικά (features) τύπου Haar, που καθορίζονται από την θέση, τις διαστάσεις, τον προσανατολισμό και την μορφή τους και παίρνουν τιμές μία σταθμισμένη διαφορά των εντάσεων των εικονοστοιχείων στις περιοχές που ορίζουν. Τα αθροίσματα των εντάσεων υπολογίζονται με τη χρήση της εικόνας ολοκλήρωμα (integral image) που έχει προϋπολογιστεί. Έτσι μια χαμηλού επιπέδου ρουτίνα, για παράδειγμα, παρέχει τη δυνατότητα στον χρήστη να ελέγξει μία συγκεκριμένη περιοχή της εικόνας για το αν περιέχει ή όχι πρόσωπο. Βοηθητικές ρουτίνες υπολογίζουν τις εικόνες ολοκληρώματα, και ρυθμίζουν την κλίμακα αναζήτησης του ταξινομητή για πρόσωπα διαφορετικών μεγεθών κλπ. Αντίθετα, μία υψηλού επιπέδου συνάρτηση, όπως η cvhaardetectobjects κάνει όλα τα προηγούμενα, χρησιμοποιώντας τον ταξινομητή που είναι αποθηκευμένος σε xml αρχείο, παρέχοντας αυτόματα τα αποτελέσματα ανίχνευσης στο χρήστη, πράγμα που είναι τις περισσότερες φορές αρκετό. Η συνάρτηση ανίχνευσης Η συνάρτηση cvhaardetectobjects βρίσκει ορθογώνιες περιοχές σε μια δεδομένη εικόνα που είναι πιθανό να περιέχουν αντικείμενα που ο ταξινομητής έχει εκπαιδευτεί να διακρίνει και επιστρέφει αυτές τις περιοχές σαν μία σειρά από ορθογώνια[23]. Η συνάρτηση σαρώνει την εικόνα αρκετές φορές σε διαφορετικές κλίμακες, και κάθε φορά, για κάθε περιοχή, εφαρμόζει τον ταξινομητή για να ελέγξει την ύπαρξη του προς ανίχνευση αντικειμένου. Αφού προχωρήσει η διαδικασία και συλλέγουν τα υποψήφια ορθογώνια (περιοχές που επαληθεύονται από τον ταξινομητή), ομαδοποιούνται σε ομάδες επικαλυπτόμενων ορθογωνίων και επιστρέφονται σαν μία σειρά από μέσα ορθογώνια πλαίσια, ένα για κάθε ομάδα Οι προκαθορισμένες παράμετροι (scale_factor=1.1, min_neighbors=3, flags=0) είναι ρυθμισμένες για μεγαλύτερης ακρίβειας αν και χρονοβόρα ανίχνευση. Για ταχύτερη λειτουργία σε εικόνες βίντεο οι ρυθμίσεις είναι: scale_factor=1.2, min_neighbors=2, flags=cv_haar_do_canny_pruning, min_size=<minimum possible face size>. Η συνάρτηση cvhaardetectobjects δέχεται τις εξής παραμέτρους: 115

116 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ CvSeq* cvhaardetectobjects( const CvArr* image, CvHaarClassifierCascade* cascade, CvMemStorage* storage, double scale_factor=1.1, int min_neighbors=3, int flags=0, CvSize min_size=cvsize(0,0) ); image Η εικόνα στην οποία ανιχνεύονται τα αντικείμενα. cascade Η αναφορά στον χρησιμοποιούμενο ταξινομητή. storage Μνήμη για την αποθήκευση της σειράς των ορθογωνίων που ανιχνεύτηκαν τα αντικείμενα. scale_factor Ο συντελεστής κατά τον οποίο μεγεθύνεται το παράθυρο ανίχνευσης μεταξύ των διαδοχικών σαρώσεων της εικόνας, π.χ., 1.1 σημαίνει αύξηση του παραθύρου κατά 10%. min_neighbors Ο ελάχιστος αριθμός (μείον 1) των γειτονικών ορθογωνίων που αντιστοιχούν στο ίδιο αντικείμενο και συγχωνεύονται σε ένα. Όλες οι ομάδες με μικρότερο αριθμό ανιχνευμένων ορθογωνίων απορρίπτονται ως εσφαλμένες ανιχνεύσεις. Εάν η min_neighbors είναι 1, η συνάρτηση δεν κάνει καμία ομαδοποίηση και επιστρέφει όλα τα ανιχνευμένα υποψήφια ορθογώνια. Αυτή η λειτουργία είναι χρήσιμη στην περίπτωση που ο χρήστης θέλει να εφαρμόσει μια εξειδικευμένη διαδικασία ομαδοποίησης. flags Τρόπος λειτουργίας. Ο μόνος διαθέσιμος αυτή τη στιγμή τρόπος λειτουργίας είναι ο CV_HAAR_DO_CANNY_PRUNING. Σ' αυτή την περίπτωση, η συνάρτηση χρησιμοποιεί τη μέθοδο ανίχνευσης ακμών του Canny για να απορρίψει κάποιες περιοχές που περιέχουν πολύ λίγες ή πάρα πολλές ακμές σε σχέση με το αντικείμενο που ανιχνεύεται. Οι συγκεκριμένες τιμές έχουν ρυθμιστεί έτσι ώστε να επιταχύνεται η διαδικασία στην ανίχνευση προσώπων. min_size Ελάχιστο μέγεθος παραθύρου από το οποίο ξεκινά η ανίχνευση. Η προκαθορισμένη τιμή είναι το μέγεθος των δειγμάτων με τα οποία εκπαιδεύτηκε ο ταξινομητής (~20 20 για την ανίχνευση προσώπων). Οι μέθοδοι ανίχνευσης H OpenCV παρέχει 4 μεθόδους ανίχνευσης προσώπων σε κατά μέτωπο (frontal) στάση, με τις οποίες έχει ήδη εκπαιδευτεί ο ταξινομητής και είναι αποθηκευμένες σε αντίστοιχα αρχεία xml, τα οποία μπορούν να φορτωθούν με τη χρήση της συνάρτησης cvload: Stump-based 24x24 Discrete Adaboost with cascade (haarcascade_frontalface_default.xml) Stump-based 20x20 Gentle Adaboost with cascade 116

117 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ (haarcascade_frontalface_alt.xml) CART-based (2-nodes) 20x20 Gentle Adaboost with cascade (haarcascade_frontalface_alt2.xml) Stump-based 20x20 Gentle Adaboost with tree of stage classifiers (haarcascade_frontalface_alt_tree.xml) Χαρακτηριστικά και παρακολούθηση σημείων προσώπου Χαρακτηριστικά σημεία προσώπου Στα χαρακτηριστικά σημεία προσώπου αναφέρονται περίοπτα σημεία του πρόσωπο όπως οι γωνίες των ματιών, οι άκρες των φρυδιών, οι γωνίες και τα μεσαία σημεία των χειλιών, η κορυφή της μύτης κ.α. Ο εντοπισμός αυτών των σημείων συχνά αποτελεί βασικό στάδιο σε πολλές εφαρμογές υπολογιστικής όρασης (computer vision), όπως η ταυτοποίηση προσώπου, η αναγνώριση εκφράσεων προσώπου, η παρακολούθηση προσώπου σε αλληλουχία εικόνων, το διάβασμα χειλιών. Η ακρίβεια στον εντοπισμό των σημείων του προσώπου επηρεάζει σε μεγάλο βαθμό την επίδοση του όλου συστήματος. Οι μέθοδοι που έχουν προταθεί μέχρι στιγμής για εντοπισμό συγκεκριμένων σημείων μπορούν να χωριστούν σε δύο κατηγορίες[22]: Μέθοδοι που στηρίζονται στην υφή της εικόνας (texture-based methods). Οι μέθοδοι αυτοί μοντελοποιούν τοπικά την δομή της εικόνας γύρω από το σημείο ενδιαφέροντος. Σα δομή μπορεί να θεωρηθεί η ακριβής φωτεινότητα των pixels, η έξοδος κάποιο 2-d φίλτρου κ.τ.λ. Μέθοδοι που στηρίζονται στο σχήμα των σημείων (shape-based methods). Οι μέθοδοι αυτοί θεωρούν όλα τα σημεία σαν ένα ενιαίο πλέγμα. Το σύστημα εκπαιδεύεται από ένα σετ δειγμάτων, και στη συνέχεια προσπαθεί να εντοπίσει το κατάλληλο πλέγμα σε άγνωστα πρόσωπα. Στην ενότητα αυτή παρουσιάζεται μία ακριβής μέθοδος με υψηλά ποσοστά επιτυχίας για τον εντοπισμό 16 σημείων του προσώπου σε εικόνες με ανέκφραστα πρόσωπα και ενδεχομένως εντός πλάνου περιστροφή (Εικόνα 40). Η κινηματογράφηση των εικόνων έγινε σε ποικίλες συνθήκες φωτισμού. 117

118 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 40: Τα 16 σημεία του προσώπου που εντοπίζονται αυτόματα. Αρχικά εντοπίζονται οι κόρες και το μέσο του στόματος. Στη συνέχεια με βάση αυτά τα σημεία το πρόσωπο χωρίζεται σε 16 περιοχές, με κάθε περιοχή να σχετίζεται με τον εντοπισμό ενός σημείου. Η μέθοδος εντοπισμού χρησιμοποιεί μεμονωμένες φόρμες χαρακτηριστικών για τον εντοπισμό των σημείων στις περιοχές. Τα μοντέλα χαρακτηριστικών είναι pixels Geritleboost φόρμες που παράγονται τόσο από τις φωτεινότητες των pixels όσο και από φίλτρα Gabor. Στην εκπαίδευση, τα μοντέλα των χαρακτηριστικών εκπαιδεύονται με χρήση αντιπροσωπευτικών θετικών και αρνητικών δειγμάτων, όπου τα θετικά δείγματα είναι τμήματα εικόνας κεντραρισμένα σε συγκεκριμένα σημεία και τα αρνητικά δείγματα είναι τμήματα εικόνας τοποθετημένα τυχαία σε κοντινές αποστάσεις από τα ίδια σημεία. Στη φάση του εντοπισμού, κάθε περιοχή φιλτράρεται από ένα set φίλτρων Gabor. ίδιο μ'αυτό που χρησιμοποιήθηκε στην εκπαίδευση. Έπειτα, για ένα συγκεκριμένο σημείο του προσώπου, ένα pixels παράθυρο σκανάρει όλη την αντίστοιχη περιοχή. Για κάθε pixel της περιοχής ο διαχωριστής αποκρίνεται ανάλογα με την ομοιότητα του pixel με το μοντέλο εκπαίδευσης, που αντιστοιχεί στην συγκεκριμένη περιοχή. Μετά από διεξοδική σάρωση όλης της περιοχής, επιλέγεται το σημείο με την μεγαλύτερη απόκριση. Καθορισμός περιοχών Μετά τον εντοπισμό του προσώπου σε μία εικόνα, το επόμενο βήμα είναι ο καθορισμός των περιοχών ενδιαφέροντος (Region Of Interest (ROI)) για κάθε συγκεκριμένο σημείο που θέλουμε να εντοπίσουμε πάνω στο πρόσωπο. Αυτό 118

119 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ σημαίνει, να προσδιορίσουμε μία μικρή περιοχή του προσώπου, η οποία περιέχει το συγκεκριμένο σημείο που αναζητούμε. Για να επιτύχουμε αυτό το σκοπό εφαρμόζουμε μια πλήρως αυτόματη μέθοδο για τον εντοπισμό της ίριδας των ματιών και του μέσου του στόματος. Όταν είναι γνωστά αυτά τα σημεία μπορούμε πολύ εύκολα, στηριζόμενοι σε ανθρωπόμορφα χαρακτηριστικά, να καθορίσουμε διάφορες περιοχές του ανθρώπινου προσώπου. Α) Εντοπισμός ίριδας Σε αυτό το στάδιο μπορούμε να χρησιμοποιήσουμε κάποιες από τις μεθόδους εντοπισμού του προσώπου που αναφέρθηκαν πιο πάνω. Δημιουργούμε δύο ανιχνευτές έναν για τον αριστερό οφθαλμό και έναν για το δεξί. Στη συνέχεια η περιοχή του προσώπου (έτσι όπως την καθόρισε ο ανιχνευτής προσώπου) σαρώνεται σε διάφορες αναλύσεις και θέσεις, έτσι ώστε να προκύψει για κάθε περίπτωση η έξοδος των ανιχνευτών. Για την εκπαίδευση του διαχωριστή μπορεί να χρησιμοποιηθεί μια βάση δεδομένων. Σαν θετικά δείγματα επιλέχθηκαν και κόπηκαν περιοχές του προσώπου με ανοιχτά και κλειστά μάτια και στη συνέχεια αναπροσαρμόστηκαν σε 24 χ 24 pixels παράθυρα. Σαν αρνητικά δείγματα επιλέχθηκαν τυχαία περιοχές του προσώπου που δεν περιείχαν μάτια. Υπάρχουν διάφοροι τρόποι για την επιλογή της περιοχής του ματιού. Μπορούμε να παραμετροποιήσουμε την επιλογή εισάγοντας τις εξής μεταβλητές: ID την απόσταση μεταξύ των ματιών, d το λόγο της απόστασης ανάμεσα στο κέντρο του ματιού και την πάνω αριστερή γωνία του παραθύρου του προσώπου και έναν παράγοντας κλίμακας q. Τα θετικά δείγματα επιλέγονται έτσι ώστε να ισχύει d = qld και στη συνέχεια κλιμακώνονται σε παράθυρα των 24 χ 24 pixels. Αξίζει να σημειώσουμε ότι μικρές τιμές του q < 0.5 αντιστοιχούν σε μεγάλη ανάλυση (παράθυρα που καλύπτονται σχεδόν εξ'ολοκλήρου από το μάτι), ενώ μεγαλύτερες τιμές του q > 1 αντιστοιχούν σε μικρή ανάλυση (παράθυρα που περιέχουν σχεδόν όλο το πρόσωπο κεντραρισμένο στο μάτι). Εφόσον επιλεχθούν τα δείγματα εκπαίδευσης στην συνέχεια εκπαιδεύουμε τους ανιχνευτές με κάποιον αλγόριθμο ταξινόμησης όπως για παράδειγμα τον Adaboost ή τον Gentleboost. Β) Εντοπισμός στόματος Για τον εντοπισμό του μέσου του στόματος αρχικά προσδιορίζουμε την περιοχή του στόματος. Με δεδομένο ότι η απόσταση μεταξύ των ματιών είναι γνωστή (ID), ορίζουμε την περιοχή του στόματος σαν ένα παράθυρο με κορυφή 0.75 χ ID από την οριζόντια θέση των ματιών, μήκος ID και ΰψος 0.65 x ID (Εικόνα 41Α). Στην περιοχή αυτή εφαρμόζουμε αλγόριθμο ανίχνευσης ακμών και λαμβάνουμε μια απεικόνιση του σχήματος του στόματος (Εικόνα 41Β). 119

120 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 41: (Α): Υπολογισμός περιοχής στόματος με βάση την ID, (Β): Ανίχνευση ακμών (λευκά pixels) στην περιοχή του στόματος. Ανιχνευτής ακμών Ο σκοπός των ανιχνευτών ακμών είναι ο εντοπισμός των σημείων της εικόνας, όπου παρατηρείται απότομη μεταβολή της φωτεινότητας. Η ανίχνευση ακμών μειώνει αισθητά την πληροφορία της εικόνας, διατηρώντας μόνο τα σημαντικά δομικά χαρακτηριστικά της. Οι ακμές μπορεί να εξαρτώνται από την γωνία λήψης - αυτές οι ακμές αλλάζουν όσο μεταβάλλεται η γωνία και συνήθως αντανακλούν την γεωμετρία της οκηνής, την αλληλοεπικάλυψη των αντικειμένων κ.τ.λ. - ή να είναι ανεξάρτητες από την γωνία λήψης - αυτές χαρακτηρίζουν τις ιδιότητες των αντικειμένων. Υπάρχουν πολύ αλγόριθμοι ανίχνευσης ακμών. Οι περισσότεροι από αυτούς μπορούν να κατηγοριοποιηθούν σε δύο κατηγορίες: σ'αυτούς που ανιχνεύουν ακμές αναζητώντας μέγιστα και ελάχιστα στην πρώτη παράγωγο της εικόνας και σ'αυτούς που χρησιμοποιούν τις μηδενικές τιμές της δεύτερης παραγώγου της εικόνας. Με δεδομένη την παράγωγο της εικόνας το επόμενο βήμα είναι η εφαρμογή ενός κατωφλίου με σκοπό τον χαρακτηρισμό των σημείων. Όσο μικρότερο είναι το κατώφλι τόσο περισσότερα σημεία χαρακτηρίζονται σαν ακμές και τόσο μεγαλύτερη είναι η παρουσία του θορύβου. Αντίθετα, ένα πολύ μεγάλο κατώφλι μπορεί να αγνοήσει σημαντικές ακμές της εικόνας. Στην πράξη συνήθως χρησιμοποιείται συνδυασμός από πολλά κατώφλια με σκοπό την βέλτιστη απόδοση του αλγορίθμου. Καθορισμός περιοχών ενδιαφέροντος (ROIs) Με δεδομένες τις θέσεις των ματιών και του στόματος χωρίζουμε την εικόνα του προσώπου σε 16 περιοχές έτσι ώστε κάθε χαρακτηριστικό σημείο του προσώπου που θέλουμε να εντοπίσουμε να βρίσκεται μέσα σε μια περιοχή. Υπολογισμός χαρακτηριστικών Η μέθοδος εντοπισμού χρησιμοποιεί μεμονωμένες φόρμες χαρακτηριστικών για τον εντοπισμό των σημείων στις περιοχές. Τα μοντέλα χαρακτηριστικών είναι

121 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ παράθυρα που παράγονται τόσο από τις φωτεινότητες των pixels όσο και από φίλτρα Gabor. Πρόσφατες εργασίες έδειξαν ότι τα κυματίδια Gabor υπερτερούν στην εξαγωγή τοπικών χαρακτηριστικών σε σύγκριση με πολλές άλλες γνωστές μεθόδους, όπως π.χ. η ανάλυση πρωτευουσών συνιστωσών (Principal Component Analysis), η ανάλυση τοπικών συνιστωσών (Local features analysis), κ.α. Η επιτυχία των φίλτρων Gabor υπόκειται στο γεγονός ότι αφαιρούν τυχών αλλοιώσεις στην εικόνα που επιφέρουν οι μεταβολές στον φωτισμό και το κοντράστ, ενώ ταυτόχρονα είναι αποτελεσματικά στις μικρές μετατοπίσεις και παραμορφώσεις. Τα σωματίδια Gabor αποτελούν μια καλή προσέγγιση του προφίλ των επιφανειακών κυττάρων του ανθρώπου. Συνήθως τα κύτταρα αυτά συναντιόνται σε ζευγάρια με περιττή και άρτια συμμετρία, όμοια με το φανταστικό και το πραγματικό μέρος των φίλτρων Gabor. Φίλτρα Gabor Ο τύπος μιας μιγαδικής συνάρτησης Gabor δυο μεταβλητών στο πεδίο του χώρου είναι: g(χ,y) = s(χ,y)w r (χ,y) (σχέση 14). όπου s(x,y) είναι το μιγαδικό ημιτονοειδές (φέρον) και w r (x,y) μία 2-D Γκαουοιανή συνάρτηση (envelope). Το μιγαδικό ημιτονοειδές ορίζεται σαν, s(χ,y) = e j(2π(u oχ+υ o y)+p) (σχέση 15). όπου (u o,υ ο ) και P ορίζουν την χωρική συχνότητα και τη φάση του ημιτονοειδές, αντίστοιχα. Η Gaussian envelope είναι της μορφής, w r (χ,y) = Κe (-π(α2(χ-χ ο)2r +b2(y-yo ) 2 )) r (σχέση 16). όπου (x ο,y ο ) είναι η κορυφή της συνάρτησης, Κ το πλάτος της συνάρτησης, α και b παράμετροι για την αναλογία των δύο αξόνων της συνάρτησης και η βάση r αντιστοιχεί σε περιστροφή της συνάρτησης, με γωνία θ, της μορφής: (χ-χ 0 ) r = (χ-χ 0 ) cosθ + (y-y 0 ) sinθ (y-y 0 ) r = -(χ-χ 0 ) sinθ + (y-y 0 ) cosθ (σχέση 17). Έτσι προκύπτει η μιγαδική συνάρτηση Gabor στο πεδίο του χώρου: g(χ,y) = Ke (-π(α2(χ-χο)2r + b2(y-yo)2 r)) e j(2π(uoχ+υoy)+p) (σχέση 18). 121

122 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Θεωρούμε ότι η κορυφή του Gaussian envelope ταυτίζεται με την αρχή των αξόνων, δηλαδή (χο,yο)= (0,0) και ότι η αρχική φάση του ημιτονοειδές είναι μηδέν, δηλαδή Ρ = 0. Επίσης με βάση τις αναλογίες που επικρατούν στα κύτταρα του προσώπου [16] προκύπτει και. Τέλος, για το πλάτος του Gaussian envelope θεωρούμε, K=F o 2 ab με Fo=. Με βάση τα παραπάνω, στο πεδίο της συχνότητας, ένα Gabor φίλτρο είναι ένα Gaussian φίλτρο με κεντρική συχνότητα F Ο και προσανατολισμό θ. Πολλά φίλτρα Gabor συνδυάζονται για τη δημιουργία μίας τράπεζας φίλτρων. Η τράπεζα φίλτρων αποτελείται από φίλτρα σε διάφορες συχνότητες και με διάφορους προσανατολισμούς. Το διάνυσμα χαρακτηριστικών για κάθε σημείο του προσώπου, που θέλουμε να εντοπίσουμε, υπολογίζεται από ένα pixels παράθυρο κεντραρισμένο στο σημείο. Αυτό το διάνυσμα κατά τη διάρκεια της εκπαίδευσης χρησιμοποιείται για την εκμάθηση του προτύπου του σημείου και κατά τη διάρκεια του ελέγχου για να προβλέψει αν ένα σημείο αποτελεί σημείο ενδιαφέροντος ή όχι. Το διάνυσμα υπολογίζεται από την ασπρόμαυρη εικόνα της περιοχής και από 48 αναπαραστάσεις της, οι οποίες λαμβάνονται με φιλτράρισμα της περιοχής από 48 φίλτρα Gabon Έτσι. για την αναπαράσταση ενός σημείου χρησιμοποιούνται (48 + 1) = 8281 χαρακτηριστικά. Εκπαίδευση διαχωριστή Για την εκπαίδευση των χαρακτηριστικών προτύπων χρησιμοποιούνται αντιπροσωπευτικά θετικά και αρνητικά δείγματα. Σαν θετικά δείγματα για ένα σημείο του προσώπου χρησιμοποιούμε pixels παράθυρα, κεντραρισμένα στο πραγματικό σημείο (αυτό που προσδιορίζεται χειροκίνητα) και σε 8 θέσεις γειτονικά του σημείου. Όσο αφορά τα αρνητικά δείγματα για κάθε σημείο του προσώπου χρησιμοποιούμε 2 σετ. Το πρώτο σετ περιέχει pixel παράθυρα, τυχαία τοποθετημένα σε απόσταση τεσσάρων pixel από το πραγματικό σημείο. Το δεύτερο σετ αρνητικών δειγμάτων περιέχει pixels παράθυρα, τυχαία τοποθετημένα μέσα στην περιοχή ενδιαφέροντος. Έτσι, για κάθε ROI, υπολογίζονται 9 θετικά και 16 αρνητικά δείγματα. Αυτό σημαίνει πως έχουμε έναν πίνακα, που αντιπροσωπεύει τα δεδομένα εκπαίδευσης για κάθε περιοχή και για κάθε εικόνα. Παρόλο που κάθε χαρακτηριστικό μπορεί να υπολογιστεί πολύ εύκολα, ο υπολογισμός του πλήρες σετ είναι πολύ απαιτητικός υπολογιστικά. Συνυπολογίζοντας και το γεγονός ότι η αναπαράσταση των χαρακτηριστικών περιέχει πλεονάζουσα πληροφορία καταφεύγουμε στον αλγόριθμο Gentleboost για μείωση της διάστασης των χαρακτηριστικών (όπου και πλήρη περιγραφή του γίνεται στην ενότητα των γενικών ταξινομητών-ενότητα ) Παρακολούθηση σημείων προσώπου Η θέση των σημείων του προσώπου στο πρώτο καρέ της ακολουθίας βρίσκεται αυτόματα με χρήση της μεθόδου που περιγράψαμε παραπάνω. Η θέση αυτών των σημείων στα υπόλοιπα καρέ της ακολουθίας μπορεί να προσδιοριστεί μέσω κάποιας μεθόδου για image alignment. Με τον όρο image alignment εννοούμε την μετακίνηση και πιθανόν την παραμόρφωση μίας φόρμας με σκοπό την 122

123 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ ελαχιστοποίηση της διαφοράς ανάμεσα στην φόρμα και την εικόνα. Από την πρώτη του χρήση στον αλγόριθμο Lucas-Kanade, το image alignment έχει γίνει μία από τις πιο ευρεία διαδεδομένες τεχνικές στον τομέα του computer vision. Η συνήθης προσέγγιση για image alignment είναι μέσω της μείωσης της κλίσης (gradient descent). Αυτό μπορεί να επιτευχθεί με διάφορους τρόπους. Βασική διαφορά που παρατηρείται μεταξύ των τεχνικών είναι αν υπολογίζουν απευθείας μία αύξηση/μείωση των παραμέτρων ή αν αρχικά υπολογίζουν μία προσθετική παραμόρφωση και στη συνέχεια τη συνδυάζουν με τις τρέχουσες παραμέτρους. Μία άλλη διαφορά συναντάται στην προσέγγιση που χρησιμοποιεί ο αλγόριθμος για τον υπολογισμό της κλήσης gradient σε κάθε επανάληψη. Α) Αλγόριθμος Lucas-Kanade Σκοπός του αλγόριθμου Lucas- Kanade[22] είναι να αντιστοιχίσει μία φόρμα Τ( ) σε μία εικόνα Ι( ) όπου = (χ, y) T είναι ένα διάνυσμα στήλη με τις συντεταγμένες του pixel. Αν ο αλγόριθμος Lucas-Kanade εφαρμοστεί για οπτική ροή (optical flow) ή για παρακολούθηση (tracking) ενός image patch από τη χρονική στιγμή t=t o στην t=t o + 1, τότε η φόρμα Τ( ) είναι μια περιοχή (π.χ. ένα 15 χ 15 παράθυρο) της εικόνας για t = t o και το Ι( ) είναι η εικόνα για t=t o + 1. Ως W( ; ) ορίζουμε το σετ των επιτρεπτών παραμορφώσεων, όπου = (p 1,.p n ) T είναι ένα διάνυσμα παραμέτρων. Ο κανόνας W( ; ) αντιστοιχίζει το pixel = (χ, y) T της φόρμας Τ στην περιοχή W( ; ) της εικόνας I. Στην περίπτωση για παράδειγμα της οπτικής ροής, η παραμόρφωση W( ; ) μπορεί να είναι η μετατόπιση: όπου το διάνυσμα όπου (σχέση 19). = (p 1, p 2 ) T αντιστοιχεί στο optical flow. Στην περίπτωση παρακολούθησης μεγάλων image patch, χρησιμοποιείται W( ; ) με περισσότερες μεταβλητές από αυτό της σχέσης 19. Συγκεκριμένα ορίζουμε το warp σαν: (σχέση 20). 123

124 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ όπου χρησιμοποιούνται 6 μεταβλητές = (p 1,p 2,p 3,p 4,p 5,p 6 ) T. γενικά ο αριθμός των μεταβλητών n μπορεί να είναι πολύ μεγάλος και το W( ; ) πολύ περίπλοκο. Στόχος του αλγορίθμου Lucas-Kanade Ο στόχος του αλγορίθμου Lucas-Kanade είναι να ελαχιστοποιηθεί το άθροισμα της διαφοράς των τετραγώνων ανάμεσα σε δύο εικόνες, στην φόρμα Τ και το αντίστοιχο image patch του I: (σχέση 21). Για τον υπολογισμό του I (W( ; )) απαιτείται η παρεμβολή της εικόνας I στην περιοχή που ορίζεται από το W( ; ). Η ελαχιστοποίηση σχέσης 21 γίνεται σε συνάρτηση με το διάνυσμα παραμέτρων p και το άθροισμα υπολογίζεται για όλα τα pixel του προτύπου Τ( χ). Για την βελτιστοποίηση της έκφρασης στην σχέση 21, ο αλγόριθμος Lucas-Kanade υποθέτει ότι η τρέχουσα εκτίμηση το p είναι γνωστή και στη συνέχεια λύνει την εξίσωση με βάση την αύξηση των παραμέτρων Δp. Έτσι στην ουσία η έκφραση που ελαχιστοποιείται σε συνάρτηση με το Δp είναι: (σχέση 22). Και οι παράμετροι ενημερώνονται : p p + Δp (σχέση 23). Τα δύο αυτά βήματα επαναλαμβάνονται συνεχώς μέχρι να συγκλίνει η εκτίμηση του p. Συνήθως ο αλγόριθμος συγκλίνει όταν το μέτρο του Δp είναι μικρότερο από ένα κατώφλι ε, Δp ε. Ανάλυση του αλγορίθμου Lucas-Kanade Η ελαχιστοποίηση της σχέσης 21 είναι μια μη γραμμική διαδικασία βελτιστοποίησης, ακόμα και αν το W( ; ) είναι γραμμικό ως προς p, επειδή η φωτεινότητα των pixels Ι(χ) είναι γενικά ασυνάρτητη με τις συντεταγμένες του χ. Ο αλγόριθμος Lucas- Kanade είναι ένας μη γραμμικός Gauss-Newton κλιμακώτης μείωσης (gradient descent) αλγόριθμος βελτιστοποίησης. Γραμμικοποιούμε την σχέση 22 με ανάπτυξη του I (W( ; )) σε σειρά Taylor πρώτης τάξης. Έτσι προκύπτει: (σχέση 24). Όπου, η κλίση (gradient) της περιοχής της εικόνας I που αντιστοιχεί στο W( ; ) είναι: 124

125 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ και ο ιακωβιανός πίνακας του W( ; ). Αν το W( ; ) εκφραστεί σε μορφή (σχέση 25). Η σχέση 24 είναι ένα πρόβλημα ελάχιστων τετραγώνων, το οποίο μπορεί να λυθεί με μερικές παραγώγους. Η μερική παράγωγος της σχέσης 24 ως προς Δp είναι: (σχέση 26). όπου το ονομάζεται steepest descent image. Θέτοντας την σχέση 26 ίση με μηδέν και λύνοντας την εξίσωση ως προς Δp προκύπτει: όπου Η είναι ο n n Hessian πίνακας: (σχέση 27). (σχέση 28). Ο αλγόριθμος Lucas-Kanade αποτελείται οτην ουσία από την επαναληπτική εκτέλεση των σχέσεων 23 και 27. Παρακάτω παρατείθεται ο ψευδοκώδικας του αλγορίθμου. Τόσο η κλίση όσο και ο ιακωβιανός πίνακας εξαρτώνται από το διάνυσμα p. Για κάποια απλά διανύσματα p, όπως για παράδειγμα αυτά των σχέσεων 19 και 20, ο ιακωβιανός πίνακας είναι σταθερός και αρκεί να υπολογιστεί μία μόνο φορά στην αρχή του αλγορίθμου. Συνήθως, ωστόσο και τα 9 βήματα του αλγορίθμου πρέπει να υπολογιστούν σε κάθε επανάληψη αφού η εκτίμηση των παραμέτρων αλλάζει από επανάληψη σε επανάληψη. Αξίζει να σημειωθεί ότι στο μόνο περιορισμό που υπόκειται το W( ; ) είναι ότι πρέπει να είναι παραγωγίσιμο ως προς το διάνυσμα p. 125

126 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Ψευδοκώδικας αλγορίθμου Lucas-Kanade Input: image patch T(x) image I(x) threshold ε Initialize: W(x; p) = W(x; p 0 ) While Δp ε. 1. Υπολόγισε το I (W( ; )) 2. Υπολόγισε την εικόνα σφάλματος Τ(χ)- I (W( ; )) 3. Υπολόγισε το 4. Υπολόγισε το 5. Υπολόγισε το 6. Υπολόγισε τον Hessian πίνακα από την σχέση Υπολόγισε το Τ [Τ(χ)- I (W( ; ))] 8. Υπολόγισε το Δp από την σχέση Ενημέρωσε τις παραμέτρους p p+δp end of while output: το διάνυσμα παραμέτρων p Β) Αλγόριθμος αντιστοίχισης ECC Μία νέα μέθοδος που υπόσχεται πολλά στο πρόβλημα της αντιστοίχησης, αλλά και σε άλλα προβλήματα της υπολογιστικής όρασης, είναι η μέθοδος ECC (Enhanced Cross Correlation)[27]. Η μέθοδος ακολουθεί τα βήματα του αλγορίθμου των Lucas- Kanade, αλλά αντί να ελαχιστοποιεί την συνάρτηση κόστους (σχέση 21), μεγιστοποιεί την συνάρτηση: (σχέση 29). Στην παραπάνω σχέση, οι Ι(W( ; )), Τ(χ) είναι οι εικόνες I(W(x; p)), T(x), με αφαιρεμένη την μέση τιμή τους. Η λύση ωστόσο που προκύπτει από την μεγιστοποίηση της παραπάνω συνάρτησης κόστους, είναι κλειστής 126

127 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ μορφής. Στην μέθοδο ECC, εφαρμόζονται τα βήματα του αλγόριθμου των Lucas- Kanade, αρκεί αντί της σχέσης 27, να χρησιμοποιηθεί η σχέση: (σχέση 30) Όπου: Η, G τα μηδενικά μέσης τιμής μητρώα Hessian και Ιακωβιανά. P G, το μητρώο προβολής που ισούται με P G = G H -1 G T T(χ), ΙW( ; )), οι εικόνες T(x), I(W(x; p)), με αφαιρεμένη την μέση τιμή τους. (χ), W( ; )), οι μηδενικές μέσης τιμής εικόνες T(x), I(W(x;p)). Τα πλεονεκτήματα του αλγορίθμου ECC έναντι του αλγορίθμου Lucas-Kanade είναι: 1. Προσφέρει κλειστή λύση σε κάθε επανάληψη του αλγορίθμου. 2. Η μετρική που ελαχιστοποιεί είναι κανονικοποιημένη και δεν επηρεάζεται από φωτομετρικές διαφορές. 3. Είναι πιο ανθεκτική στο θόρυβο. 4. Απαιτεί λιγότερες επαναλήψεις Εξαγωγή και ταξινόμηση χαρακτηριστικών σημείων Εξαγωγή χαρακτηριστικών σημείων Η εξαγωγή χαρακτηριστικών μπορεί να υπερκεράσει προβλήματα που σχετίζονται με τη μεγάλη διάσταση του χώρου των εικόνων όπως η υπολογιστική πολυπλοκότητα και η ικανότητα γενίκευσης των ταξινομητών που χρησιμοποιούνται για την κατηγοριοποίηση προσώπων. Τα χαρακτηριστικά που επιλέγονται πρέπει να οδηγούν στην περιγραφή κάθε προσώπου με μοναδικό τρόπο και να επιτρέπουν την ταυτοποίηση του μέσω ενός χώρου μικρότερης διάστασης. Επιπλέον τα χαρακτηριστικά αυτά πρέπει να μπορούν να εξάγονται αυτόματα από το υπολογιστικό σύστημα που χρησιμοποιείται για την ταυτοποίηση. Η εύρεση τέτοιων χαρακτηριστικών είναι το βασικότερο πρόβλημα των συστημάτων αναγνώρισης προσώπων. Μετά την επιλογή της αναπαράστασης των προσώπων μέσω ενός συνόλου χαρακτηριστικών απαιτείται εκτεταμένη επεξεργασία έτσι ώστε να απαλειφθούν εκείνοι οι παράγοντες οι οποίοι αυξάνουν τις εντός κλάσεων διακυμάνσεις[24]. Η επιλογή του διανύσματος χαρακτηριστικών είναι ένας πραγματικός γρίφος όταν πρέπει να ληφθούν υπόψη τα προβλήματα που δημιουργούνται από τις μεταβολές στην οριοθέτηση, κλίμακα, φωτισμό και υφή των προσώπων. Με άλλα λόγια το 127

128 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ διάνυσμα χαρακτηριστικών πρέπει να υποστεί εκτεταμένη επεξεργασία ώστε να είναι ανεπηρέαστο από τους παραπάνω παράγοντες αλλά ταυτόχρονα να διατηρεί τις ιδιότητες εκείνες που το καθιστούν ικανό να οδηγήσει σε επιτυχείς ταυτοποιήσεις. Οι ανωτέρω προσεγγίσεις απαιτούν τα πρόσωπα στις βάσεις να είναι σε κατάλληλο «φορμάτ» και να χαρακτηρίζονται από μια χονδρική περιγραφή για σκοπούς δεικτοδότησης. Μετά την εφαρμογή ενός αλγορίθμου αντιστοίχησης (όπως για παράδειγμα του Lucas-Kanade), σε κάθε εικόνα της ακολουθίας προκύπτει ένα σετ σημείων με διαστάσεις n m, όπου n είναι ο αριθμός των καρέ της ακολουθίας και m το σύνολο των περιοχών που ανήκει κάθε χαρακτηριστικό σημείο. Παρακινούμενοι από κάποια τεχνική εμψύχωσης (FACS-Aus, MPEG-4), εξάγουμε από κάθε καρέ 2 σετ από χαρακτηριστικές παραμέτρους. Το ένα σετ χαρακτηρίζει το πάνω μέρος του προσώπου και το άλλο το κάτω. Καταφεύγουμε σ'αυτόν το διαχωρισμό επειδή η «συμπεριφορά» του πάνω και του κάτω μέρους του προσώπου είναι μεταξύ τους ανεξάρτητες για την αναγνώριση του AU. Για το πάνω μέρος του προσώπου εξάγουμε χαρακτηριστικά που περιγράφουν το σχήμα, την κίνηση και την κατάσταση των ματιών και των φρυδιών. Αντίστοιχα για το κάτω μέρος του προσώπου εξάγουμε χαρακτηριστικά, ενδεικτικά του σχήματος, της κίνησης και της κατάστασης των χειλιών. Τα χαρακτηριστικά αυτά κανονικοποιούνται γεωμετρικά, έτσι ώστε να ανεξαρτητοποιηθούν από την κλίμακα της εικόνας και την εντός πλάνου κίνηση του κεφαλιού. Στη συνέχεια τα 2 αυτά σετ από παραμέτρους χρησιμοποιούνται για την εκπαίδευση ταξινομητών. Επειδή ο σκοπός του συστήματος είναι ο εντοπισμός διαφορετικών AUs, τα οποία λαμβάνουν χώρα μεμονωμένα ή σε συνδυασμό, εκπαιδεύουμε αυτόνομους δυαδικούς διαχωριστές, έναν για κάθε AU, να εντοπίζουν την παρουσία του AU ανεξάρτητα από τυχών διαφορετικά AUs που λαμβάνουν χώρα ταυτόχρονα. Αναπαράσταση χαρακτηριστικών Από κάθε frame μιας ακολουθίας εξάγουμε 2 σετ από παραμέτρους στηριζόμενοι στα m σημεία του συγκεκριμένου προσώπου. Όπως προαναφέρθηκε, κάνουμε αυτόν το διαχωρισμό μιας και η συμπεριφορά του πάνω μέρους του προσώπου αλληλεπιδρά στο ελάχιστο μ'αυτή του κάτω μέρους. Αρχικά πρέπει να ορίσουμε ένα σύστημα συντεταγμένων για το προσώπου[22]. Επειδή τα εσωτερικά σημεία των ματιών εντοπίζονται αξιόπιστα και επειδή μένουν σχεδόν ανεπηρέαστα από τις συστολές των μυών, ορίζουμε τον άξονα χ ως την ευθεία που ενώνει τα δύο εσωτερικά σημεία των ματιών και τον y άξονα κάθετο στον χ. Αναπαριστούμε τα χαρακτηριστικά του πάνω μέρους του προσώπου με παραμέτρους οι οποίες περιγράφουν το σχήμα και τις κινήσεις των ματιών, των βλεφαρίδων και των φρυδιών ενώ με μία παράμετρο δίνεται η απόσταση μεταξύ των φρυδιών (Dbrow). Για να ανεξαρτητοποιηθούν από την ανάλυση της εικόνας και της εντός πλάνου κίνησης του κεφαλιού μεταξύ των ακολουθιών των εικόνων οι παράμετροι υπολογίζονται ως λόγοι της τρέχουσας τιμής τους προς την τιμή που έχουν στο αρχικό καρέ της ακολουθίας. Τα χαρακτηριστικά του κάτω μέρους του πρόσωπου αναπαριστώνται με παραμέτρους οι οποίες περιγράφουν το σχήμα και την κίνηση των χειλιών. Για ανεξαρτητοποιηθούν από το ζουμ της εικόνας και την εντός πλάνου κίνηση του κεφαλιού μεταξύ των ακολουθιών των εικόνων, οι παράμετροι υπολογίζονται σαν 128

129 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ λόγοι της τρέχουσας τιμής τους ως προς την τιμή που έχουν στο αρχικό καρέ της ακολουθίας. Στην εικόνα 42 απεικονίζεται το σύστημα συντεταγμένων για το πάνω και κάτω μέρος του προσώπου ενώ στους πίνακες 8 και 9 ορίζονται οι παράμετροι με βάση το σύστημα συντεταγμένων της εικόνας 42. Εικόνα 42: Το σύστημα συντεταγμένων του προσώπου[22]. Πίνακας 8: Παράμετροι άνω μέρους προσώπου. Στις τιμές των παραμέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιμή στο ουδέτερο frame[22]. 129

130 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Πίνακας 9: Παράμετροι κάτω μέρους προσώπου. Στις τιμές των παραμέτρων ο δείκτης 0 αντιστοιχεί στην αντίστοιχη τιμή στο ουδέτερο frame[22] Ταξινόμηση χαρακτηριστικών-γενικοί χρησιμοποιούμενοι ταξινομητές Δείγματα προσώπων και μη -προσώπων Για την εκπαίδευση του ταξινομητή που πρόκειται να χρησιμοποιηθεί χρησιμοποιούνται θετικά όσο και αρνητικά δείγματα προσώπων[23]: Θετικά δείγματα: Λήψη όσο το δυνατό μεγαλύτερης ποικιλίας δειγμάτων, ώστε να περιλαμβάνονται όσο το δυνατόν περισσότερες εκδοχές του προσώπου που πρέπει να ανιχνεύεται. Κόψιμο και κανονικοποίηση κάθε εικόνας προσώπου σε ένα συγκεκριμένο μέγεθος, π.χ pixels (Εικόνα 43). Αύξηση του πλήθους των θετικών δειγμάτων με τη δημιουργία εικονικών δειγμάτων (Εικόνα 44). Εικόνα 43: Πρόσωπα που χρησιμοποιούνται στο σύνολο των θετικών δειγμάτων[23]. 130

131 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Εικόνα 44: Τεχνητώς δημιουργούμενα εικονικά δείγματα προσώπων[23]. Αρνητικά δείγματα: Τα αρνητικά δείγματα λαμβάνονται από οποιαδήποτε εικόνα που δεν περιέχει πρόσωπα (Εικόνα 45). Οι εικόνες δείγματα των μηπροσώπων λαμβάνονται στο ίδιο μέγεθος με τις εικόνες των προσώπων. Κατά τη διάρκεια της εκπαίδευσης, το μερικώς εκπαιδευμένο σύστημα εφαρμόζεται σε εικόνες οι οποίες δεν περιέχουν πρόσωπα (όπως στην Εικόνα 45 αριστερά). Κάθε περιοχή στην εικόνα η οποία ανιχνεύεται εσφαλμένα ως πρόσωπο (τα οποία παρατίθενται στην Εικόνα 45 δεξιά) είναι δείγματα μη-προσώπων, τα οποία προστίθενται στο σύνολο των αρνητικών δειγμάτων εκπαίδευσης. Εικόνα 45: Μη-πρόσωπα που χρησιμοποιούνται στο σύνολο των αρνητικών δειγμάτων[23]. Εικονικά Θετικά Δείγματα: Για τον πολλαπλασιασμό του συνόλου των δειγμάτων εκπαίδευσης δημιουργούνται με τεχνητό τρόπο νέες εικόνεςδείγματα από τις υπάρχουσες (Εικόνα 44 με original kai mirror). Γενικοί χρησιμοποιούμενοι ταξινομητές Κατά καιρούς έχουν χρησιμοποιηθεί διάφοροι ταξινομητές/αλγόριθμοι σε εργασίες ανίχνευσης προσώπων, οι κυριότεροι από τους οποίους είναι: 131

132 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Α) Αλγόριθμος εκπαίδευσης Adaboost Ο αλγόριθμος εκμάθησης AdaBoost ανήκει στην κατηγορία των αλγορίθμων ενδυνάμωσης (boosting) και χρησιμοποιείται για να αυξήσει την απόδοση ενός οποιουδήποτε απλού αλγορίθμου ταξινόμησης[25]. Ο απλός αλγόριθμος ταξινόμησης λέγεται και ασθενής αλγόριθμος ταξινόμησης, καθώς ακόμα και η καλύτερη συνάρτηση ταξινόμησης που μπορεί να προκύψει από αυτόν, δεν αναμένεται να ταξινομεί καλά τα δεδομένα. Συγκεκριμένα, αρκεί η συνάρτηση ταξινόμησης να έχει απόδοση ελαφρά καλύτερη από την τυχαία ταξινόμηση (50%). Για να αυξήσει, λοιπόν, την απόδοση ενός ασθενούς αλγορίθμου ταξινόμησης, ο AdaBoost συνδυάζει μια συλλογή ασθενών συναρτήσεων ταξινόμησης χρησιμοποιώντας άπληστο αλγόριθμο, ώστε να σχηματίσει από αυτούς έναν ισχυρότερο ταξινομητή. Η βελτίωση του ασθενούς αλγορίθμου ταξινόμησης πραγματοποιείται, καλώντας τον αλγόριθμο να επιλύσει μια αλληλουχία προβλημάτων ταξινόμησης. Αρχικά, όλα τα παραδείγματα (θετικά και αρνητικά) παίρνουν μια τιμή βάρους, η οποία είναι ίδια για όλα. Δίνονται στον αλγόριθμο τα παραδείγματα και πραγματοποιείται ο πρώτος κύκλος εκμάθησης, όπου ο αλγόριθμος ταξινομεί όλα τα παραδείγματα με κάθε διαθέσιμη συνάρτηση ταξινόμησης. Έπειτα, οι συναρτήσεις ταξινόμησης διατάσσονται σύμφωνα με τα αποτελέσματά τους, λαμβάνοντας υπόψη το βάρος κάθε παραδείγματος. Επιλέγεται ένας μικρός αριθμός συναρτήσεων ταξινόμησης, από αυτές με τα καλύτερα αποτελέσματα, που αποτελούν τον πρώτο ασθενή ταξινομητή. Ο πρώτος κύκλος εκμάθησης ολοκληρώνεται και τα βάρη των παραδειγμάτων ισοσταθμίζονται, δίνοντας μεγαλύτερο βάρος στα παραδείγματα που ταξινομήθηκαν λανθασμένα από τον πρώτο ασθενή ταξινομητή. Έτσι, στον δεύτερο κύκλο εκμάθησης ο αλγόριθμος ταξινόμησης θα θεωρήσει πιο σημαντικά τα παραδείγματα που ταξινομήθηκαν λανθασμένα από τον προηγούμενο ταξινομητή. Τα βήματα επαναλαμβάνονται διαδοχικά, μέχρι να φτάσουμε στο επίπεδο του συνολικού λόγου λανθασμένης ταξινόμησης που επιθυμούμε. Τελικά, ο ισχυρός ταξινομητής προκύπτει από τον συνδυασμό των ασθενών ταξινομητών που επιλέχθηκαν και ένα κατώφλι. Κατά την διαδικασία της ταξινόμησης ενός υποπαραθύρου εικόνας από τον ισχυρό ταξινομητή, εφαρμόζονται στο υποπαράθυρο όλοι οι ασθενείς ταξινομητές. Τα αποτελέσματα των ασθενών ταξινομητών αθροίζονται, και αν το άθροισμα ξεπερνά το κατώφλι του ταξινομητή, το υπό εξέταση αντικείμενο ταξινομείται ως θετικό, αλλιώς ως αρνητικό. Παρακάτω παρουσιάζεται ο ψευδοκώδικας για την δημιουργία ενός ισχυρού ταξινομητή Adaboost. 132

133 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Αλγόριθμος Adaboost για εκπαίδευση ισχυρού ταξινομητή[23]. 1) Είσοδος: Δώσε δείγματα εικόνων (x1, y1),, (xn, yn) όπου yi = 0,1 για αρνητικά και θετικά δείγματα αντίστοιχα. 2) Αρχικοποίηση: Αρχικοποίησε τα βάρη W 1,i =, για y i =0,1 αντίστοιχα, όπου m και l είναι οι αριθμοί των αρνητικών και θετικών δειγμάτων αντίστοιχα. 3) For t=1,.t: Α) Κανονικοποίησε τα βάρη: έτσι ώστε w t να είναι μια κατανόμη πιθανότητας. Β) Για κάθε χαρακτηριστικό j, εκπαίδευσε έναν ταξινομητή h j χρησιμοποιώντας ένα και μόνο χαρακτηριστικό. Το λάθος υπολογίζεται σε σχέση με το w t, ε j = i h j (x i ) - y i. Γ) Διάλεξε τον ταξινομητή h t, με το μικρότερο λάθος ε t.. Δ) ενημέρωσε τα βάρη: w t+1,i = w t,i β 1-e t i, όπου e i = 0 αν το δείγμα χ i έχει ταξινομηθεί σωστά, αλλιώς e i = 1 π.χ. w t+1,i = w t,i β t // αν χ i έχει ταξινομηθεί σωστά w t+1,i = w t,i // αν χ i δεν έχει ταξινομηθεί σωστά όπου, 4) Έξοδος: Ο τελικός ισχυρός ταξινομητής είναι: Κάθε ασθενής ταξινομητής[25] παίρνει μόνο δύο διακριτές τιμές, τις { 1,1} ανάλογα με το αν ένα δείγμα ταξινομείται ως θετικό ή αρνητικό. Η δεύτερη εκδοχή ονομάζεται Πραγματικός AdaBoost (Real AdaBoost RAB), καθώς η συνάρτηση ταξινόμησης κάθε ασθενή ταξινομητή παίρνει όλες τις πραγματικές τιμές στο διάστημα [0,1]. Με τη χρήση του RAB, μπορούμε να έχουμε μια ένδειξη εμπιστοσύνης για τα αποτελέσματα της ταξινόμησης, χρησιμοποιώντας τις τιμές που επιστρέφονται από τον αλγόριθμο και όχι μόνο το αποτέλεσμα της θετικής ή αρνητικής ταξινόμησης. 133

134 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Άλλη εκδοχή είναι ο Ήπιος AdaBoost (Gentle AdaBoost GAB) όπου παρακάτω διατίθεται και ο ψευδοκώδικας του και ο οποίος βασίζεται στον Πραγματικό AdaBoost αλλά χρησιμοποιεί βήματα της μεθόδου Newton αντί για ακριβή υπολογισμό. Τέλος, υπάρχει και ο LogitBoost, ο οποίος έχει δύο παραλλαγές, αυτή που χρησιμοποιεί δύο κλάσεις και αυτή που χρησιμοποιεί J κλάσεις. Ο αριθμός των κλάσεων επηρεάζει την τιμή της εκτίμησης πιθανότητας κάθε δείγματος χ i, η οποία ισούται με p(χ i ) = στη μία περίπτωση και p(χ i ) = στην άλλη. Στη μέθοδο ανίχνευσης αντικειμένων που χρησιμοποιούμε, κάθε ασθενής αλγόριθμος εκμάθησης περιορίζεται στο σύνολο των συναρτήσεων ταξινόμησης που αποτελούνται από ένα μόνο χαρακτηριστικό τύπου Haar. Προφανώς, από ένα μόνο χαρακτηριστικό δε μπορούμε να περιμένουμε ιδιαίτερα χαμηλό λόγο σφάλματος. Σε κάθε στάδιο του αλγορίθμου AdaBoost επιλέγεται το χαρακτηριστικό που διαχωρίζει καλύτερα τα θετικά από τα αρνητικά δείγματα. Για κάθε χαρακτηριστικό, ο ασθενής αλγόριθμος εκμάθησης προσδιορίζει ένα κατώφλι της τιμής του χαρακτηριστικού, που ελέγχοντάς το περιορίζονται οι λανθασμένες ταξινομήσεις από το συγκεκριμένο χαρακτηριστικό στις ελάχιστες δυνατές. Έπειτα, επιλέγεται ως ασθενής ταξινομητής το χαρακτηριστικό τύπου Haar, που, για το δεδομένο κατώφλι του, κάνει τη συνολικά καλύτερη ταξινόμηση. Ο AdaBoost συνεχίζει εκπαιδεύοντας όλους τους ασθενείς ταξινομητές, μέχρι το σημείο που ο ισχυρός συνολικός ταξινομητής επιτυγχάνει το επίπεδο ταξινόμησης που ζητάμε. Ο αλγόριθμος AdaBoost παρέχει αρκετά ισχυρές εγγυήσεις για την ορθότητά του. Έχει αποδειχθεί, ότι το σφάλμα ταξινόμησης του ισχυρού ταξινομητή που προκύπτει από την εφαρμογή του αλγορίθμου, τείνει προς το μηδέν εκθετικά ως προς τον αριθμό των κύκλων εκπαίδευσης. Επίσης, η όλη διαδικασία της εκμάθησης πραγματοποιείται με μεγάλη ταχύτητα. Ας θεωρήσουμε ότι έχουμε στη διάθεσή μας K χαρακτηριστικά τύπου Haar και εικόνες- παραδείγματα. Για να κατασκευαστεί ένας ισχυρός ταξινομητής από τον αλγόριθμο AdaBoost, που αποτελείται από M ασθενείς ταξινομητές, χρειάζονται O(MNK ) βήματα, σε αντίθεση με άλλους αλγορίθμους που χρειάζονται O(MNKN ) βήματα[25]. Σε αντίθεση με τον AdaBoost ο αλγόριθμος GentleBoost έχει έξοδο που παίρνει πραγματικές τιμές και όχι δυαδικές[22]. Επίσης πειραματικά αποδεικνύεται ότι ο GentleBoost όχι μόνο συγκλίνει ταχύτερα, αλλά και είναι αποτελεσματικότερος σε προβλήματα εντοπισμού αντικειμένου. Είναι ευκολότερος στην υλοποίηση, αριθμητικά ακριβής και πειραματικά έχει αποδειχθεί ότι υπερτερεί σε θέματα εντοπισμού προσώπου από τους άλλους boosting αλγόριθμους. Αυτό αναφέρεται στην επίδοση των boosting αλγορίθμων σε δεδομένα που δημιουργούνται από κλάσεις που έχουν σημαντική επικάλυψη. Σε τέτοιες περιπτώσεις, ο AdaBoost δίνει υπερβολική έμφαση σε μη τυπικά δείγματα της κλάσης με αποτέλεσμα να υστερεί σε σχέση με τον GentleBoost. Ο λόγος γι αυτό πολύ πιθανόν να είναι ότι ο GentleBoost δίνει λιγότερη βαρύτητα στα δεδομένα που κατηγοριοποιούνται λανθασμένα, αφού η αύξηση στα βάρη είναι τετραγωνική και όχι εκθετική. 134

135 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Αλγόριθμος Gentle Adaboost[22]. 1) Είσοδος: Ν προσημειωμένα δείγματα εκπαίδευσης (χ 1,y 1 ),. (χ N,y N ) αδύναμος αλγόριθμος εκπαίδευσης ο ακέραιος Μ καθορίζει το πλήθος των επαναλήψεων. 2) Αρχικοποίηση: Τα βάρη των δειγμάτων w i = για i=1,..n. Η έξοδος του τελικου διαχωριστή: F(χ)=0. 3) For m=1,2, M do: Α) Κάλεσε τον αδύναμο ταξινομητή, ώστε να πάρεις μια εκτίμηση των κατανομών των κλάσεων Χρησιμοποιώντας τα βάρη w i των δειγμάτων. Β) Θέσε: Γ) Ενημέρωσε την έξοδο: F(χ) : F(χ) + f m (χ). Δ) Ενημέρωσε τα βάρη: w i w i e -yi F(χ). Ε) Κανονικοποίησε τα βάρη: End of for. έτσι ώστε το να αποτελεί συνάρτηση πυκνότητας πιθανότητα. 4) Έξοδος: Ο τελικός διαχωριστής: Β) Αλγόριθμος Κοντινότερης Γειτνίασης (NEAREST NEIGHBOR ALGORITHM) Όπως αναφέρθηκε και στο κομμάτι της Aνάλυσης Ανεξάρτητων Συνιστωσών(ICA), ο αλγόριθμος κοντινότερης γειτνίασης αποτελεί τον ταξινομητή που χρησιμοποιεί η ICA προκείμενου να ταξινομήσει τις εικόνες δοκιμής σε κλάσεις[26]. Τα διανύσματα συντελεστών αντιστοιχίζονται σε κάποια ετικέτας κλάσης με βάση τον αλγόριθμο αυτόν. 135

136 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Υπάρχουν τρείς διαφορετικές προσεγγίσεις με τις οποίες εμφανίζεται ο αλγόριθμος κοντινότερης γειτνίασης και χρησιμοποιείται από την μέθοδο ICA: 1. Συνημίτονο γωνίας διανυσμάτων (ΝΝ1): Η μετρική ομοιότητας αυτή είναι συνήθης σε διαδικασίες αναγνώρισης προσώπου. Το διάνυσμα συντελεστών κάθε εικόνας δοκιμής αντιστοιχίζεται στην ετικέτα κλάσης του διανύσματος συντελεστών του συνόλου εκπαίδευσης το οποίο προκύπτει ως πιο παρεμφερές με βάση το συνημίτονο της μεταξύ τους γωνίας: C = 2. Ευκλείδεια απόσταση από το κέντρο βάρους κλάσης (ΝΝ2): Τα διανύσματα συντελεστών των εικόνων εκπαίδευσης διαχωρίζονται σε ομάδες με βάση την κλάση τους και υπολογίζεται ένα διάνυσμα για κάθε κλάση που ισούται με τα κέντρα βάρους των συντελεστών της κλάσης. Στην περίπτωση μας, όπου οι κλάσεις είναι τα 6 συναισθήματα και η ουδέτερη κατάσταση, υπολογίζονται κάθε φορά 7 διανύσματα W i, i=1,..7. Το διάνυσμα συντελεστών κάθε εικόνας δοκιμής αντιστοιχίζεται στην ετικέτα κλάσης του διανύσματος W i από το οποίο απέχει την μικρότερη απόσταση. Για μετρική απόστασης χρησιμοποιήθηκε η Ευκλείδεια απόσταση η οποία για 2 διανύσματα χ = (χ 1,...χ n ), y = (y 1,...y n ), μήκους n ορίζεται: Στην περίπτωση αυτή χ b test και y W i. 3. Ευκλείδεια απόσταση από το κέντρο βάρους των clusters της κλάσης (ΝΝ3). Τα διανύσματα συντελεστών των εικόνων εκπαίδευσης διαχωρίζονται με βάση την κλάση τους και έπειτα ομαδοποιούνται για κάθε κλάση σε 3 συστάδες (clusters) με τον αλγόριθμο Κ-μέσων. Από κάθε cluster υπολογίζεται το διάνυσμα του κέντρου βάρους των διανυσμάτων του. Επομένως κάθε κλάση παριστάνεται με 3 διανύσματα και το διάνυσμα συντελεστών κάθε εικόνας δοκιμής αντιστοιχίζεται στην ετικέτα κλάσης του διανύσματος από το οποίο απέχει την μικρότερη Ευκλείδεια απόσταση. Γίνεται αντιληπτό ότι η μετρική ΝΝ1 στηρίζεται σε συγκρίσεις ένα προς ένα των διανυσμάτων αναπαράστασης ενώ οι μετρικές ΝΝ2 και ΝΝ3 βασίζονται στην ομαδοποίηση των διανυσμάτων ίδιων κλάσεων. Η κεντρική ιδέα της χρήσης της ΝΝ3 στηρίχθηκε στο γεγονός ότι η κατανομή των διανυσμάτων στον feature space δεν είναι γνωστή και επομένως υπάρχει περίπτωση οι γεωμετρίες των clusters που δημιουργεί η ΝΝ2 να μην είναι κυρτές και να προκύπτουν φαινόμενα λανθασμένης ταξινόμησης κατά τη χρήση της Το φαινόμενο αυτό, στην απλή περίπτωση του δισδιάστατου χώρου, φαίνεται στην εικόνα 46. Στην εικόνα παριστάνονται δύο διαφορετικές κλάσεις εκ των οποίων η μια, η κλάση 1, δημιουργεί cluster με μη κυρτό σχήμα. Τα σκούρα στοιχεία 136

137 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ αντιπροσωπεύουν τα κέντρα βάρους των δύο κλάσεων. Το νέο στοιχείο Χ, ενώ ανήκει στην κλάση 2, με την μετρική ΝΝ2 θα ταξινομηθεί τελικά στην κλάση 1 καθώς απέχει μικρότερη απόσταση από το κέντρο βάρους της κλάσης 1 σε σχέση με το κέντρο βάρους της κλάσης 2. Εικόνα 46:Περίπτωση ομαδοποίησης των διανυσμάτων 2 κλάσεων σε ένα cluster σε 2-D χώρο. Το νέο στοιχείο Χ θα ταξινομηθεί σωστά εφόσον η κλάση 1 διαχωριστεί σε 2 clusters όπως δείχνει η εικόνα 47, αλλίως θα ταξινομηθεί στην κλάση 1. Εικόνα 47: Περίπτωση δημιουργίας 2 clusters για την κλάση 1. Το νέο στοιχείο Χ θα ταξινομηθεί στην κλάση 2. Γ) Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines-SVMs) Οι Μηχανές Διανυσμάτων Υποστήριξης είναι μια σειρά μεθόδων εκμάθησης που χρησιμοποιείται για ταξινόμηση και παλινδρόμηση. Αντιμετωπίζοντας τα δεδομένα εισόδου ως δύο σύνολα διανυσμάτων, που αντιστοιχούν σε δύο διαφορετικές κλάσεις, σε έναν Ν-διάστατο χώρο. ένα SVM μπορεί να κατασκευάσει ένα διαχωριστικό υπερεπίπεδο στον χώρο αυτό πάνω στο οποίο μεγιστοποιείται το περιθώριο (margin) μεταξύ των δύο συνόλων δεδομένων. Για να υπολογιστεί το περιθώριο αυτό 137

138 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ κατασκευάζονται δύο παράλληλα υπερεπίπεδα. Ένας καλός διαχωρισμός επιτυγχάνεται με το υπερεπίπεδο που απέχει την μεγαλύτερη απόσταση από τα κοντινότερα στοιχεία και των δύο κλάσεων αφού γενικά όσο μεγαλύτερη είναι αυτή η απόσταση τόσο μικρότερο είναι το σφάλμα ταξινόμησης. Τα τελευταία χρόνια, παρατηρείται πολύ συχνή χρήση τους σε πολλούς τομείς της αναγνώρισης προτύπων, όπως στην αυτόματη αναγνώριση χαρακτήρων του αλφαβήτου, στην αναγνώριση αντικειμένων, στον εντοπισμό προσώπων σε εικόνες κ.τ.λ. Παρακάτω παραθέτουμε περιγραφή των βασικών αρχών των SVMs, αρχίζοντας από τα γραμμικά και γενικεύοντας στα μη γραμμικά SVMs[22]. Γραμμικά SVMs Γραμμικώς διαχωρίσιμα δεδομένα εκπαίδευσης Ξεκινάμε από την απλούστερη περίπτωση των γραμμικών SVMs που εκπαιδεύονται σε γραμμικώς διαχωρίσιμα δεδομένα[22]. Υποθέτουμε πως μας δίνονται l δείγματα εκπαίδευσης. Κάθε δείγμα είναι της μορφής: χ i,y i }, με χ i να ανήκει στο R d και y i = { 1,1}. Υποθέτουμε ότι υπάρχει υπερεπίπεδο Η, τέτοιο ώστε να διαχωρίζει τα θετικά από τα αρνητικά δείγματα. Τα σημεία του υπερεπιπέδου ανήκουν στην εξίσωση : w χ +b = 0, όπου w είναι διάνυσμα κατεύθυνσης του Η, w το μέτρο του και η κάθετη απόσταση του Η από την αρχή των αξόνων. Ορίζουμε ως d +( d - ) την μικρότερη απόσταση του Η από το κοντινότερο θετικό(αρνητικό) δείγμα. Προσδιορίζουμε το περιθώριο (margin) του Η ως το άθροισμα: d + + ( d - ) Για τα γραμμικώς διαχωρίσιμα δεδομένα, τα SVMs απλά ψάχνουν για το υπερεπίπεδο με το μεγαλύτερο περιθώριο. Από μαθηματικής απόψεως αυτό μπορεί να εκφραστεί ως εξής: υποθέτουμε ότι όλα τα δείγματα εκπαίδευσης ικανοποιούν τους περιορισμούς: χ i w i + b +1 για y i = +1 (σχέση 31). χ i w i + b - 1 για y i = - 1 (σχέση 32). ή y i ( χ i w i ) + b 1 0 για κάθε y i (σχέση 33). Τα σημεία που ικανοποιούν την ισότητα της σχέσης 31 βρίσκονται στο υπερεπίπεδο χ i w i + b =1, με κάθετη απόσταση από την αρχή των αξόνων. Ομοίως τα σημεία που ικανοποιούν την ισότητα της σχέσης 32 βρίσκονται στο υπερεπίπεδο χ i w i + b =- 1, με κάθετη απόσταση από την αρχή των αξόνων. Έτσι προκύπτει d + = d- = και το περιθώριο είναι. Δηλαδή, για να βρούμε το ζευγάρι των Η 1 και Η 2 που μεγιστοποιεί το περιθώριο, αρκεί να ελαχιστοποιήσουμε το 2, ικανοποιώντας τους περιορισμούς της σχέσης 33. Με βάση τα παραπάνω, περιμένουμε η λύση για ένα πρόβλημα δύο διαστάσεων να είναι της μορφής της εικόνας 48. Τα δείγματα για τα οποία ισχύει η ισότητα της σχέσης 33 (αυτά τα οποία βρίσκονται πάνω στα υπερεπίπεδα H 1 και H 2 ) και τα οποία 138

139 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ επηρεάζουν την λύση του προβλήματος, ονομάζονται support vector machines (στην εικόνα σημειώνονται με κύκλο). Εικόνα 48: 2-D γραμμικώς διαχωρίσιμα δείγματα. Το παραπάνω πρόβλημα το αναδιατυπώνουμε με εισαγωγή συντελεστών Lagrange. Καταφεύγουμε σ'αυτόν τον διαχωρισμό για δύο συγκεκριμένους λόγους. Πρώτον γιατί οι περιορισμοί της σχέσης 33 θα αντικατασταθούν από περιορισμούς στους συντελεστές Lagrange, γεγονός που διευκολύνει τους υπολογισμούς και δεύτερον γιατί τα δείγματα εκπαίδευσης θα εμφανιστούν σε μορφή εσωτερικών γινομένων, γεγονός που καθιστά ευκολότερη την γενίκευση σε μη γραμμικές περιπτώσεις. Θεωρούμε τους συντελεστές Lagrange α i με i=1,...l,έναν για κάθε περιορισμό της σχέσης 33. Υπενθυμίζεται ο κανόνας Lagrange, ο οποίος για σχέσεις της μορφής c i 0 απαιτεί τον πολλαπλασιασμό των περιορισμών με θετικούς συντελεστές 2 ) για την Lagrange (α i > 0) και την αφαίρεση τους από την συνάρτηση ( δημιουργία της Lagrangian. Για περιορισμούς ισότητας οι συντελεστές α i δεν έχουν κάποιο περιορισμό. Τελικά προκύπτει: (σχέση 34). Μετά την μετατροπή σε Lagrangian πρέπει να ελαχιστοποιήσουμε το Lp ως προς τα w, b και ταυτόχρονα οι παράγωγοι του Lp ως προς τα α i να είναι μηδέν, με τα α i πάντα να ικανοποιούν τον περιορισμό α i 0. Αυτό σημαίνει ότι μπορούμε να μεγιστοποιήσουμε το Lp, ικανοποιώντας τους περιορισμούς ότι οι παράγωγοί του ως προς w, b είναι μηδέν και ότι α i 0. Με δεδομένο ότι οι παράγωγοι του Lp ως προς w, b είναι μηδέν προκύπτει ότι: (σχέση 35). 139

140 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Με αντικατάσταση των παραπάνω σχέσεων στην σχέση 34 προκύπτει: (σχέση 36). (σχέση 37). Η εκπαίδευση των SVMs συνιστάται στην εύρεση των θετικών α i που μεγιστοποιούν την L D και τα οποία ικανοποιούν τον περιορισμό της σχέσης 36. Τα τελικά διανύσματα υπολογίζονται από την σχέση 35. Αξίζει να σημειώσουμε ότι σε κάθε δείγμα εκπαίδευσης αντιστοιχεί και ένας πολ/στης Lagrange α i. Στην σχέση 35, τα σημεία για τα οποία ισχύει α i 0 λέγονται support vectors και βρίσκονται πάνω στα υπερεπίπεδα Η 1 και Η 2. Όλα τα άλλα σημεία έχουν α i = 0 και κείτονται είτε στον υποχώρο του Η 1 ή Η 2. (έτσι ώστε να ισχύει η σχέση 33). Τα σημαντικότερα δείγματα του σετ εκπαίδευσης είναι τα support vectors. Αν όλα τα άλλα δείγματα εκπαίδευσης μεταβληθούν χωρίς να περάσουν τα διαχωριστικά υπερεπίπεδα Η 1 και Η 2 η εκπαίδευση επαναληφθεί το αποτέλεσμα θα είναι ακριβώς το ίδιο. Η τελική συνάρτηση απόφασης που χρησιμοποιείται για τον έλεγχο των δειγμάτων είναι η: f(χ) = sgn( w χ + b) (σχέση 38). Τέλος αξίζει να σημειωθεί ότι ενώ τα διανύσματα w υπολογίζονται ρητά από το στάδιο της εκπαίδευσης, το κατώφλι b υπολογίζεται εν δυνάμη από την εξίσωση α i (y i ( χ i w + b)-1)=0, επιλέγοντας οποιοδήποτε i για το οποίο ισχύει α i 0. Γραμμικώς μη διαχωρίσιμα δεδομένα εκπαίδευσης Ο αλγόριθμος που περιγράφηκε παραπάνω, αν εφαρμοστεί σε μη διαχωρίσιμα δείγματα δεν θα βρει λύση, διότι η L D θα πάρει πολύ μεγάλες τιμές. Για να επεκτείνουμε τι παραπάνω ιδέες σε μη διαχωρίσιμα δεδομένα πρέπει να «χαλαρώσουμε» τους περιορισμούς των σχέσεων 31 και 32, αλλά μόνο όταν αυτό είναι απαραίτητο[22]. Αυτό μπορούμε να το επιτύχουμε εισάγοντας ένα επιπλέον κόστος στην κυρία συνάρτηση ( 2 ). Έτσι για ξ i 0 με i=1,...l οι περιορισμοί γίνονται: χ i w i + b +1- ξ i για y i = +1 (σχέση 39). χ i w i + b - 1+ ξ i για y i = - 1 (σχέση 40). ή y i ( χ i w i ) + b 1+ ξ i 0 για κάθε y i (σχέση 41). Για να καταταχθεί το δείγμα λανθασμένα θα πρέπει, με βάση την παραπάνω εξίσωση, το ξ i να υπερβεί την μονάδα, έτσι το πάνω όριο του σφάλματος εκπαίδευσης 140

141 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ είναι Συνεπώς ένας τρόπος για να εκχωρήσουμε ένα επιπλέον κόστος για τα σφάλματα είναι να αλλάξουμε την συνάρτηση που θέλουμε να ελαχιστοποιήσουμε 2 από σε 2 + C( i) k, όπου C είναι μια παράμετρος-βάρος του σφάλματος. Επιλέγοντας K=1 έχουμε: 42). με τις ακόλουθες εξισώσεις περιορισμών: 0 α i C (σχέση Ο υπολογισμός των SVMs γίνεται πάλι από την εξίσωση: και η τελική συνάρτηση απόφασης είναι ίδια της σχέσης 38. (σχέση 43). Από τα παραπάνω εύκολα συμπεραίνει κανείς ότι η μόνη διαφορά με την περίπτωση των γραμμικών διαχωρίσιμων δειγμάτων είναι το άνω όριο C i του α i.. Η λύση για ένα πρόβλημα δύο διαστάσεων απεικονίζεται στην εικόνα 49. Εικόνα 49: 2-D γραμμικώς μη διαχωρίσιμα δείγματα. Η αρχική Lagrangian είναι: η 44). (σχέσ όπου μ i είναι οι συντελεστές Lagrange που αντιστοιχούν στον περιορισμό ξ i 0 και 141

142 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ C = α i - μ i (σχέση 45). μ i 0 (σχέση 46). α i ( y i ( χ i w + b) 1+ ξ i ) = 0 (σχέση 47). μ i ξ i = 0 (σχέση 48). Από τις σχέσεις 45 και 48 προκύπτει ότι ξ i = 0 αν α i C. Έτσι μπορούμε να επιλέξουμε οποιοδήποτε δείγμα για το οποίο ισχύει 0 α i C ( ξ i = 0) και στην συνέχεια από την σχέση 47 υπολογίζουμε το b. Μη γραμμικά SVMs Στην συγκεκριμένη υποενότητα γίνεται μια επέκταση των παραπάνω σε περιπτώσεις που οι συνάρτηση απόφασης δεν είναι γραμμική[22]. Καταρχήν, παρατηρούμε ότι τα δεδομένα εμπλέκονται στον αλγόριθμο εκπαίδευσης μόνο με την πράξη του εσωτερικού γινομένου ( χ i χ j ). Έτσι αν αντιστοιχίσουμε τα δεδομένα σε έναν άλλο ευκλείδειο χώρο Η, δηλαδή αν Φ : R d Η, ο αλγόριθμος εκπαίδευσης θα εξαρτάται από τα εσωτερικά γινόμενα των δεδομένων (Φ( χ i )Φ(χ j )) στο χώρο Η. Αν τώρα βρίσκαμε μια συνάρτηση (kernel function), τέτοια ώστε Κ(χ i, χ j ) = Φ( χ i ) Φ(χ j ), για την εκπαίδευση των SVMs δεν θα χρειαζόταν να γνωρίζαμε με σαφήνεια τον χώρο Η. Ωστόσο, αν αντικαταστήσουμε το χ i χ j από το K(χ i, χ j ) παντού στον αλγόριθμο εκπαίδευσης, ο αλγόριθμος θα συγκλίνει σε SVMs του χώρου Η στο ίδιο χρονικό διάστημα με αυτό του χώρου R d. Όλοι οι παραπάνω συλλογισμοί ισχύουν, διότι ο διαχωρισμός των δεδομένων παραμένει γραμμικός, απλά γίνεται σε διαφορετικό χώρο. Παρόλο που το w υπολογίζεται στο χώρο Η και όχι στο R d, στο στάδιο του ελέγχου μπορεί πάλι να χρησιμοποιηθεί για τον διαχωρισμό των δειγμάτων, διότι η συνάρτηση απόφασης υπολογίζει εσωτερικά γινόμενα ανάμεσα στο σημείο χ και τα w. Έτσι η συνάρτηση απόφασης διαμορφώνεται: όπου s i είναι τα support vectors. Έτσι και στο στάδιο ελέγχου μπορούμε να αγνοήσουμε τον μετασχηματισμό Φ και να χρησιμοποιήσουμε την συνάρτηση Kernel. (σχέση 49) Για να υπάρχει Kernel στον οποίο αντιστοιχεί Η,Φ}, με τις παραπάνω ιδιότητες πρέπει αν ισχύει η συνθήκη του Mercer: Ένας μετασχηματισμός Φ και μια συνάρτηση του: υπάρχουν, αν και μόνο αν, για κάθε συνάρτηση g (χ), τέτοια ώστε: (σχέση 50). 142

143 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ να ισχύει (σχέση 51). (σχέση 52). Τέλος αξίζει να αναφέρουμε ότι ο αλγόριθμος SVMs μπορεί να υπολογιστεί αναλυτικά μόνο αν τα δείγματα εκπαίδευσης είναι λιγοστά ή όταν είναι εκ των προτέρων γνωστά τα support vectors. Ωστόσο για πραγματικά προβλήματα πρέπει να χρησιμοποιηθεί κάποια αριθμητική μέθοδος. Δ) Αλγόριθμος Kρυφών Mαρκοβιανών Mοντέλων (Hidden Markov Models- HMM) Τα μοντέλα HMM έχουν την ικανότητα να χειρίζονται χρονικά μεταβαλλόμενα δεδομένα ανεξάρτητα από την κλίμακα του χρόνου. Η ιδιότητα τους αυτή είναι χρήσιμη στην ταξινόμηση εκφράσεων από ακολουθίες βίντεο. Για το σκοπό αυτό μπορούν να τροφοδοτηθούν με κάποιο διάνυσμα αναπαράστασης το οποίo εξάγεται από την κίνηση των διαφόρων σημείων του προσώπου[24]. Η ικανότητα των HMMs να χειρίζονται ακολουθιακά δεδομένα, η ανεξαρτησία τους από μεταβολές της κλίμακας του χρόνου η διάρκεια των εκφράσεων δεν πρέπει να θεωρείται ως χαρακτηριστικό τους αντίθετα με τις καταστάσεις από τις οποίες διέρχονται- καθώς και η δυνατότητα μάθησης, τα καθιστούν κατάλληλα για την ταξινόμηση αγνώστων ακολουθιών από διανύσματα. Ένα γενικό μπλοκ διάγραμμα του ταξινομητή HMM επιδεικνύεται στην εικόνα 50. Έξη διαφορετικά HMMs που αντιστοιχούν στις πρότυπες εκφράσεις «χαρά», «λύπη», «οργή», «απέχθεια», «φόβος» και «έκπληξη»- χρησιμοποιούνται για την διάρθρωση του ταξινομητή. Τα μοντέλα είναι πρώτης τάξης, με μεταβάσεις από αριστερά στα δεξιά μόνο και αποτελούνται από τέσσερις καταστάσεις G1, G2, G3 και G4. Οι καταστάσεις αυτές αντιστοιχούν χονδρικά σε ουδέτερη κατάσταση, έκφραση σε εξέλιξη, κορύφωση και χαλάρωση. Στη συνέχεια δίνονται κάποια χαρακτηριστικά της υλοποίησης των HMMs. Η πιθανότητα στην έξοδο των καταστάσεων λαμβάνεται με χρήση μιας συνεχούς κατανομής πυκνότητας πιθανότητας. Η επιλογή αυτή έγινε για να μειωθούν οι απαιτήσεις για δεδομένα εκπαίδευσης. Στη διακριτή περίπτωση η τάξη της διαμέρισης πρέπει να είναι αρκετά μεγάλη ώστε να ελαχιστοποιείται το σφάλμα κβαντισμού. Ένα πρόβλημα με της συνεχείς κατανομές πυκνότητας πιθανότητας είναι η αρχικοποίηση των παραμέτρων τους ώστε να αποφεύγεται η σύγκλιση σε τοπικά ελάχιστα. Η συνάρτηση πυκνότητα πιθανότητας στην έξοδο της κατάστασης Gj προσεγγίζεται από μια κατανομή Gauss πολλών μεταβλητών: 143

144 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ όπου O i είναι η i-στη παρατήρηση (διάνυσμα χαρακτηριστικών εισόδου), μ j είναι το μέσο διάνυσμα της κατάστασης G j, C j είναι ο αντίστοιχος πίνακας συμμεταβλητότητας και k είναι ο αριθμός των στοιχείων στο διάνυσμα O i. Οι αρχικές τιμές για τα διανύσματα μ j και C j εκτιμώνται με στατιστικές τεχνικές και πριν την έναρξη της διαδικασίας εκπαίδευσης. Οι πιθανότητες μετάβασης amn ανάμεσα στις καταστάσεις Gm και Gn εκτιμώνται κατά τη διάρκεια της εκπαίδευσης και λαμβάνοντας υπόψη τους περιορισμούς: (α) amn =0 για κάθε n<m μεταβάσεις μόνο από αριστερά προς τα δεξιά (β) amm =1-amn -δυνατή μόνο η μετάβαση στην επόμενη κατάσταση ή παραμονή στην ίδια. Ο βαθμός ταύτισης της τροχιάς του διανύσματος αναπαράστασης, όπως αυτή περιγράφεται από την ακολουθία O = O 1 O 2...O T, δεδομένου του μοντέλου l m (A m,b m,π m ) επιδεικνύεται στην εικόνα 57 και συνοψίζεται παρακάτω: Υπολογίζουμε την βέλτιστη ακολουθία καταστάσεων Q*, με δεδομένη την παρατηρούμενη ακολουθία O: Q* = arg max{p(q/o,λ m )} Ο βαθμός ταύτισης της παρατηρούμενης ακολουθίας O δεδομένης της ακολουθίας καταστάσεων Q* δίνεται από την ποσότητα: P* = P(O/ Q*, λ m ). Εικόνα 50: Διάγραμμα του ταξινομητή HMM. Τα αποτελέσματα της ταξινόμησης που προέκυψαν από το δικτύωμα HMMs προβάλλονται στο χώρο ενεργοποίησης επαλήθευσης. Το κρίσιμο ερώτημα είναι κατά πόσο οι μεταβλητές που χρησιμοποιεί ο ταξινομητής HMM σχετίζονται με κάποιο χώρο χαμηλότερης διάστασης, όπως αυτός των αξόνων ενεργοποίησης επαλήθευσης, παρά με συγκεκριμένες κατηγορίες. Η εικόνα 51 συνηγορεί στη μέχρι ενός σημείου, καταφατική απάντηση στο προηγούμενο ερώτημα: Η πλειοψηφία των 144

145 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ αποτυχημένων ταξινομήσεων παραμένει στο ίδιο τεταρτημόριο με την πραγματική έκφραση εξαίρεση αποτελούν οι αποτυχημένες ταξινομήσεις της έκφρασης «χαρά». Το συμπέρασμα είναι ότι ακόμη και οι αποτυχημένες ταξινομήσεις διατηρούν μέρος της πληροφορίας σχετικά με την πραγματική συναισθηματική κατάσταση, η οποία άλλωστε με αφαιρετικό τρόπο προσδιορίζεται με μία και μόνη λεκτική έννοια. Εικόνα 51: (Α) Αποτελέσματα ορθής και (Β) λανθασμένης ταξινόμησης με χρήση HMM, μετά από προβολή στο χώρο activation - evaluation[24]. Ε) Αλγόριθμος ταξινόμησης κατά Bayes Οι Bayesian ταξινομητές βασίζονται στην εξέταση κατανομών πιθανότητας και η ειδική κατηγορία «αφελών» Βayesian ταξινομητών (Naïve Bayesian Classifiers) είναι εκείνη η οποία χρησιμοποιείται κατά κόρον στην ταξινόμηση των χαρακτηριστικών σημείων του προσώπου[28]. Ο ταξινομητής Naive Bayes βασίζεται στην απλή υπόθεση ότι οι τιμές των χαρακτηριστικών είναι υπό συνθήκη ανεξάρτητες, δεδομένης της τιμής της εξαρτημένης μεταβλητής. Υπάρχουν αρκετές παραλλαγές στις εφαρμογές του αλγόριθμου αυτού. Ο McCallum συνόψισε δύο βασικά μοντέλα naive Bayes για την ταξινόμηση χαρακτηριστικών σημείων, το πολυμεταβλητό μοντέλο του Bernoulli και το πολυωνυμικό μοντέλο. Το πολυμεταβλητό μοντέλο του Bernoulli χρησιμοποιεί χαρακτηριστικά με τιμές boolean (παρουσία ή απουσία χαρακτηριστικών) ενώ το πολυωνυμικό μοντέλο χρησιμοποιεί χαρακτηριστικά με τιμές μη-μηδενικούς ακεραίους (συχνότητα εμφάνισης χαρακτηριστικών). Και τα δύο μοντέλα υποθέτουν την υπό συνθήκη ανεξαρτησία των χαρακτηριστικών. Τα πλεονεκτήματα που φέρουν οι αφελείς Bayesian αλγόριθμοι έναντι πολλών άλλων αλγορίθμων ταξινόμησης είναι τα εξής: Το μοντέλο που προκύπτει είναι απλό και σχετικά ευνόητο. Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων απαιτεί μόνο μια ανάγνωση του συνόλου δεδομένων. Συνεπώς, οι Bayesian ταξινομητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. Οι Bayesian ταξινομητές έχουν καλή ανοχή στον θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των μερικών πιθανοτήτων. Τέλος, δεν επηρεάζονται από τις ελλιπείς τιμές. Επειδή αυτές μπορούν να αγνοηθούν. 145

146 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Μειονέκτημα των αφελών Bayesian ταξινομητών είναι το γεγονός ότι η ακρίβεια πρόβλεψης τους επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντα υπάρχουν εξαρτήσεις μεταξύ μεταβλητών[29]. ΣΤ) Αυτοοργανούμενος νευρωνικός ταξινομητής Το SOFM (Self Organized Feature Map) ή αυτοοργανούμενη απεικόνιση χαρακτηριστικών, είναι ένα νευρωνικό δίκτυο το οποίο εκπαιδεύεται χωρίς επίβλεψη και ο σκοπός του είναι να διακρίνει κάποια δομή στα δεδομένα εκπαίδευσης και να τα χωρίσει σε ομάδες[30]. Είναι λοιπόν ένας νευρωνικός ταξινομητής. Προτάθηκε από τον Kohonen από τον οποίο πήρε και το όνομα του και η αρχιτεκτονική του είναι αυτή του ενός επιπέδου δικτύου (Single Layer Feedforward Network ). Τα χαρακτηριστικά των δεδομένων εισόδου εφαρμόζονται απευθείας σε μια ομάδα νευρώνων η οποία μπορεί να έχει τη διάταξη ενός πλέγματος στις δύο διαστάσεις ή ακόμα και μιας διατεταγμένης σειράς σε μία διάταξη. Τα χαρακτηριστικά εισόδου στο πεδίο ενδιαφέροντος μας είναι οι τρεις συνιστώσες των διανυσμάτων που χαρακτηρίζουν τη χρωματική πληροφορία των εικονοστοιχείων κάθε κομματιού. Ως προς τον χρωματικό χώρο RGB. Ο αριθμός των μονάδων εισόδου λοιπόν, είναι ίδιος με τον αριθμό των διαστάσεων των ανυσμάτων που χρησιμοποιούνται για την εκπαίδευση του δικτύου. Εικόνα 52: Νευρωνικός ταξινομητής πλέγματος και διατεταγμένης σειράς[30]. Οι μονάδες εξόδου λειτουργούν ως τα κέντρα των κλάσεων που θα ανιχνευτούν. Η γνώση που αποκτά το δίκτυο από τα δεδομένα εκπαίδευσης αποθηκεύεται στα βάρη w i,k, που εκφράζουν τη σπουδαιότητα της σύνδεσης μεταξύ του δεδομένου χ k και του νευρώνα εξόδου i. Οι νευρώνες εξόδου μοιάζουν να ανταγωνίζονται μεταξύ τους για το ποιός από αυτούς είναι πιο κοντά στο διάνυσμα εισόδου, ως προς μια μετρική απόστασης που είναι συνήθως η ευκλείδεια. Αυτός που βρίσκεται πιο κοντά είναι που μεταβάλλει τις συνάψεις του, ώστε να μετακινηθεί ακόμη πιο κοντά στο διάνυσμα εισόδου και για το λόγο αυτό η συγκεκριμένη διαδικασία μάθησης ονομάστηκε ανταγωνιστική μάθηση (competitive learning), ενώ ο νευρώνας που βρίσκεται πιο κοντά νευρώνας νικητής. Κατά την υλοποίηση του SOFM επιλέχθηκε η διατεταγμένη σειρά νευρώνων λόγω απλούστερης κατασκευής και μικρότερου υπολογιστικού κόστους. Κατά την αρχικοποίηση του δικτύου οι συνάψεις μεταξύ του νευρώνα j και των p συνιστωσών των διανυσμάτων χ i όπου i =1,2,...,p παίρνουν τυχαίες τιμές που όμως 146

147 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ υποδηλώνουν τιμές συνιστωσών στο χρωματικό χώρο. Έτσι όταν το δίκτυο συγκλίνει οι συνάψεις των νευρώνων αντιπροσωπεύουν τις συνιστώσες των διανυσμάτων των κέντρων των κλάσεων. Για κάθε διάνυσμα εκπαίδευσης υπολογίζονται οι αποστάσεις αυτού από κάθε νευρώνα. Έτσι αν ο νευρώνας j είναι ο νικητής, δηλαδή αυτός που βρίσκεται πιο κοντά στο διάνυσμα χ i, τότε τα βάρη των συνάψεων αυτού μεταβάλλονται κατά: Δw ji = n (χ i w ij ) όταν j ο είναι νικητής Δw ji = 0 όταν ο j δεν είναι νικητής. όπου n είναι μια σταθερά που υποδηλώνει τον ρυθμό εκμάθησης. Η σταθερά αυτή θα πρέπει να έχει τιμή μικρότερη της μονάδος, ώστε η γνώση που αποκτήθηκε από τα προηγούμενα διανύσματα να μην αναιρείται. Επίσης μπορεί η τιμή αυτή να είναι μεταβαλλόμενη φθίνουσα κατά τη διάρκεια εφαρμογής της μεθόδου ώστε να μην υπάρχει ταλάντωση των διανυσμάτων των κέντρων των κλάσεων που αντιπροσωπεύονται από τις συνάψεις των νευρώνων εξόδου. Μετά τη φάση της εκπαίδευσης του, ακολουθεί η φάση της αξιολόγησης κατά την οποία τροφοδοτούμε το δίκτυο με άγνωστα διανύσματα, το κάθε ένα από τα οποία καλείται να το αντιστοιχήσει σε ένα από τα κέντρα των κλάσεων που έχει βρει κατά τη φάση της εκπαίδευσης του. Τα νευρωνικά δίκτυα Kohonen χρησιμοποιούνται στην «ταξινόμηση» κατά την οποία επιλέγεται μία έξοδος ανάμεσα σε πολλές. Μεγάλη επιτυχία έχουν σε εφαρμογές οπτικής αναγνώρισης χαρακτήρων και αναγνώρισης φωνής. Ζ) Πρόγραμμα εκπαίδευσης ταξινομητή της OPENCV Η OpenCV παρέχει το πρόγραμμα haartraining, το οποίο εκτελεί όλη την εκπαίδευση ενός ταξινομητή, σύμφωνα με τη θεωρία που αναλύσαμε προηγουμένως. Το πρόγραμμα αυτό παίρνει ως παραμέτρους εισόδου όλες τις επιλογές που μπορούμε να κάνουμε για την εκπαίδευση του ταξινομητή. Παρακάτω δίνονται το πρόγραμμα εκπαίδευσης καθώς και οι παράμετροι που χρησιμοποιούνται συνοδευόμενες από επεξηγήσεις κατά την χρήση τους[23],[25]. Η κλήση της εφαρμογής γίνεται ως εξής: Haartraining -data <όνομα_καταλόγου> -vec <όνομα_αρχείου_vec> -bg <όνομα_αρχείου_αρνητικών_παραδειγμάτων> -nstages <αριθμός_σταδίων = 14> -nsplits <αριθμός_διαιρέσεων_ = 1> -minhitrate <ελάχιστος_λόγος_εντοπισμού = > -maxfalsealarm <μέγιστος_λόγος_λανθασμένων_ανιχνεύσεων = > -data <όνομα_καταλόγου> Εδώ δίνεται το όνομα του καταλόγου στον οποίο θα αποθηκευθεί ο ταξινομητής. Για κάθε στάδιο του διαδοχικού συνδεδεμένου ταξινομητή (ΔΣΤ) δημιουργείται ένας 147

148 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ υποφάκελος με όνομα τον αριθμό του σταδίου. Μέσα σε αυτόν δημιουργείται ένα αρχείο κειμένου, που περιλαμβάνει τις πληροφορίες του ταξινομητή που αποτελεί το στάδιο. Έτσι, για κάθε Haar χαρακτηριστικό του ταξινομητή αναγράφεται ο τύπος του, η θέση και το μέγεθός του καθώς και το κατώφλι του. Στο τέλος αναφέρεται και το συνολικό κατώφλι του ισχυρού ταξινομητή. Στο τέλος της εκπαίδευσης θα δημιουργηθεί και ένα αρχείο τύπου xml με το ίδιο όνομα, που θα έχει την ίδια περίπου δομή. Η εκπαίδευση ενός ΔΣΤ μπορεί να διακοπεί και να συνεχιστεί σε οποιοδήποτε σημείο. Όταν επιλέξουμε να συνεχίσουμε την εκπαίδευση ενός υπάρχοντος ΔΣΤ, ξεκινάμε από το τελευταίο υπάρχον στάδιο το οποίο εντοπίζεται στο φάκελο. -vec <όνομα_αρχείου_vec> Με αυτήν την παράμετρο δηλώνεται το αρχείο στο οποίο είναι αποθηκευμένη η συλλογή με τα θετικά δείγματα. -bg <όνομα_αρχείου_αρνητικών_παραδειγμάτων> Με την παράμετρο αυτή δηλώνεται το όνομα του αρχείου κειμένου που περιλαμβάνει τα αρνητικά παραδείγματα. Κάθε γραμμή του θα πρέπει να έχει ένα όνομα αρχείου εικόνας που θα αποτελέσει πηγή αρνητικών παραδειγμάτων. -nstages <αριθμός_σταδίων = 14> Με αυτή την παράμετρο δηλώνεται ο αριθμός των σταδίων που θα έχει ο ΔΣΤ. Αν ο φάκελος που θα αποθηκευθεί ο ταξινομητής δεν είναι κενός και περιέχει έναν ΔΣΤ με στάδια λιγότερα από αυτά που δηλώνονται τώρα, συνεχίζεται η εκπαίδευση του υπάρχοντος ΔΣΤ μέχρι να αποκτήσει ο ΔΣΤ τόσα στάδια όσα έχουν δηλωθεί. Αν δεν δηλωθεί αριθμός σταδίων, κατασκευάζονται 14 στάδια. -nsplits <αριθμός_διαιρέσεων_ = 1> Με αυτή την παράμετρο δηλώνεται ο αριθμό; των χαρακτηριστικών που θα χρησιμοποιηθούν σε κάθε ασθενή ταξινομητή. Για να κατασκευάσουμε τον ταξινομητή, θα πρέπει να δώσουμε την τιμή 1, που είναι και η προεπιλεγμένη τιμή. Δίνοντας μεγαλύτερη τιμή, κάθε ασθενής ταξινομητής θα αποτελείται από περισσότερα από ένα χαρακτηριστικά τύπου Haar. -minhitrate <ελάχιστος_λόγος_εντοπισμού = > Με την παράμετρο αυτή δηλώνεται ο ελάχιστος λόγος εντοπισμού που θέλουμε να έχει κάθε στάδιο του ΔΣΤ. Για να έχουμε καλή ταξινόμηση, η τιμή αυτή θα πρέπει να είναι πολύ κοντά στη μονάδα. Η προεπιλεγμένη τιμή είναι 0,995. -maxfalsealarm <μέγιστος_λόγος_λανθασμένων_ανιχνεύσεων = > Με αυτή την παράμετρο δηλώνεται ο μέγιστος λόγος λανθασμένων θετικών ανιχνεύσεων που θέλουμε να έχει κάθε στάδιο του ΔΣΤ. Με τιμή κοντά στο 0,5 (αλλά πάντα κάτω από αυτό), κατασκευάζεται ένας γρήγορος ταξινομητής που σε κάθε στάδιο απορρίπτει περίπου τα μισά αρνητικά παράθυρα. Αν επιλέξουμε τιμή πολύ χαμηλότερη (στην περιοχή του 0,05), ο ταξινομητής θα απορρίπτει πολύ περισσότερα αρνητικά παράθυρα σε κάθε στάδιο. Η προεπιλεγμένη τιμή είναι 0,5. 148

149 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Συμπεράσματα-αξιολογήσεις μεθόδων και ταξινομητών Στην ενότητα που προηγήθηκε πραγματοποιήθηκε μια αναλυτική περιγραφή της διαδικασίας εντοπισμού του προσώπου και κατηγοριοποίησης των χαρακτηριστικών του σημείων που συμβάλλουν στην δυνατότητα αναγνώρισης των συναισθηματικών καταστάσεων του χρήστη. Αξιολόγηση Harr & Adaboost Αναφορικά με τις μεθόδους που χρησιμοποιούν την προσέγγιση Haar & Adaboost[23] μπορούμε να εξάγουμε τα παρακάτω συμπεράσματα σχετικά με τα σύνολα των χαρακτηριστικών, τους αλγόριθμους boosting, τους αδύναμους ταξινομητές, τα μεγέθη των υποπαραθύρων, και τα μεγέθη του συνόλου εκπαίδευσης: Οι AdaBoost μέθοδοι εκπαίδευσης στην ανίχνευση προσώπων είναι οι πιο αποτελεσματικές μέχρι σήμερα. Αναφορικά με τα επίπεδα ανίχνευσης και σφαλμάτων, συγκρίνονται με την μέθοδο των νευρωνικών δικτύων, αλλά σε μερικές περιπτώσεις είναι αρκετές φορές ταχύτερες. Ένα υπερπλήρες σύνολο από χαρακτηριστικά τύπου Haar είναι αποτελεσματικό για ανίχνευση προσώπου. Η χρήση της μεθόδου εικόνας ολοκληρώματος κάνει τον υπολογισμό αυτών των χαρακτηριστικών εφικτό και ανεξάρτητο από την κλίμακα. Tα εκτεταμένα χαρακτηριστικά τύπου Haar βοηθούν στην ανίχνευση των περιστρεμμένων προσώπων. Η εκπαίδευση AdaBoost μπορεί να επιλέξει το καλύτερο υποσύνολο από ένα ευρύ σύνολο χαρακτηριστικών και να κατασκευάσει έναν ισχυρό μη γραμμικό ταξινομητή. Η διάταξη καταρράκτη (cascade) βελτιώνει σημαντικά την ταχύτητα ανίχνευσης και μειώνει αποτελεσματικά τα σφάλματα με μικρό κόστος στους χρόνους ανίχνευσης. Πιο σύνθετοι αδύναμοι ταξινομητές μπορούν να μοντελοποιήσουν δεύτερης ή/και τρίτης τάξης εξαρτήσεις των χαρακτηριστικών, και μπορούν να είναι επωφελείς σε μη γραμμική επεξεργασία της ανίχνευσης προσώπου. Το ιδανικό μέγεθος του υπο-παραθύρου για την επεξεργασία ανίχνευσης προσώπων φαίνεται να είναι 20 20~24 24 pixels. Πιθανές βελτιώσεις μπορεί να είναι εφικτές με τον σχεδιασμό επιπλέον χαρακτηριστικών συμπληρωματικά στα ήδη υπάρχοντα, που υιοθετούν πιο προχωρημένες τεχνικές εκπαίδευσης, και που θα μπορούσαν να καταλήξουν σε πιο σύνθετους ταξινομητές, αποφεύγοντας το πρόβλημα της υπερπροσαρμογής. Γρήγορο και σχεδόν εύρωστο σύστημα που τρέχει σε πραγματικό χρόνο. Βέβαια πέρνα των θετικών στοιχείων που χαρακτηρίζουν τις μεθόδους που υιοθετούν την τεχνική Haar & Adaboost, η ίδια χαρακτηρίζεται και από ορισμένα αρνητικά: Απαιτείται η αναζήτηση στο χώρο και την κλίμακα. Απαιτεί αρκετά θετικά και αρνητικά δείγματα. 149

150 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Ανάλωση πολύ χρόνου στη φάση της εκπαίδευσης (μπορεί να απαιτεί μέρες εκπαίδευσης). Περιορισμένη προσέγγιση των περιπτώσεων διαφορετικού προσανατολισμού των προσώπων. Απαιτεί αρκετή εργασία υλοποίησης. Τέλος, είναι χρήσιμο είναι να υπενθυμίσουμε την διαφορά που υπάρχει μεταξύ αλγορίθμου Adaboost και Gentleboost. Όπως έχει ήδη αναφερθεί, ο Gentleboost δίνει έξοδο δυαδικών τιμών και όχι πραγματικών, σε αντίθεση με τον Adaboost ενώ είναι αποτελεσματικότερος σε προβλήματα εντοπισμού προσώπου και ευκολότερος στην υλοποίηση σε σχέση με τον Adaboost καθώς ο Adaboost αφοσιώνεται υπερβολικά σε μη τυπικά δείγματα της κλάσης με αποτέλεσμα να υστερεί. Στην αντίπερα όχθη, ο Adaboost παρέχει ισχυρές εγγυήσεις ως προς την ορθότητα του καθώς το σφάλμα ταξινόμησης του ισχυρού ταξινομητή τείνει στο μηδέν. Αξιολόγηση της OPENCV. Για την αξιολόγηση της OpenCV ως εντοπιστή προσώπων σε δοκιμές που πραγματοποιήθηκαν[23] σε μικρό δείγμα εικόνων, χρησιμοποιώντας τις μεθόδους ανίχνευσης Stump based Gentle AdaBoost και CART-based Gentle AdaBoost (παράγραφος ΣΤ), παρατηρήθηκε ότι η Stump-based Discrete AdaBoost εμφανίζει πολλές εσφαλμένες ανιχνεύσεις (false detections) και πολλαπλές ανιχνεύσεις (multiple detections), ενώ η Stump-based Gentle AdaBoost with Tree of Classifiers κάνει πολλαπλάσιο χρόνο για να ολοκληρώσει την ανίχνευση χωρίς να βελτιώνει την απόδοση. Οι εικόνες ταξινομήθηκαν και ως προς τις συνθήκες φωτογράφισης, σε φυσιολογικές (norm), κακού φωτισμού (light), ύπαρξης μορφασμών (expr), στροφών (rot) και εμποδίων (occl), ώστε να προσδιοριστεί η ικανότητα αντιμετώπισης απο τον ανιχνευτή τέτοιων καταστάσεων. Τα αποτελέσματα ήταν τα εξής: Πίνακας 10: Αποτελέσματα ανίχνευσης προσώπου με τη μέθοδο Stump-based Gentle AdaBoost[23]. 150

151 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Πίνακας 11: Αποτελέσματα ανίχνευσης προσώπου με τη μέθοδο CART-based Gentle AdaBoost[23]. Οι εσφαλμένες ανιχνεύσεις στην Stump-based Gentle AdaBoost εμφανίστηκαν πάντα μαζί με θετικές/σωστές ανιχνεύσεις, δηλαδή, υπήρχαν πολλαπλές ανιχνεύσεις. Το μεγαλύτερο ποσοστό των μη ανιχνεύσεων (19% στην Stump-based Gentle Adaboost και 17% στην CART) έχουν τα πρόσωπα με στροφή (rot). Η απόδοση σε θετικές ανιχνεύσεις των δύο μεθόδων είναι σχεδόν ίδια (97%), όμως η CART-based Gentle AdaBoost παρουσιάζει σχεδόν διπλάσιες (16% αντί για 9% της Stump-based Gentle Adaboost) εσφαλμένες ανιχνεύσεις και μάλιστα πολλαπλές στην ίδια εικόνα (εσφαλμένες ανιχνεύσεις μαζί με σωστή ή και διπλές επικαλυπτόμενες σωστές ανιχνεύσεις ή και μόνο εσφαλμένες χωρίς σωστή). Σε ένα τελευταίο στάδιο των ερευνών έγινε ένας πειραματισμός για τη δυνατότητα της μεθόδου Stump-based Discrete AdaBoost να ανιχνεύσει πρόσωπα σε 15 εικόνες που η μέθοδος Stump-based Gentle AdaBoost είχε αποτύχει. Το αποτέλεσμα ήταν να ανιχνευτούν σωστά επιπλέον 8 απ' αυτές, ρίχνοντας τις αποτυχίες στις 7. Οι ενδείξεις πως η μέθοδος Stump-based Discrete AdaBoost έχει δυνατότητα βελτιωμένης επίδοσης στην επιτυχημένη ανίχνευση σε περιπτώσεις που η Stump-based Gentle AdaBoost αποτυγχάνει μας οδήγησε στην χρησιμοποίηση και των δύο μεθόδων με μία διαδικασία μετεπεξεργασίας για την συγχώνευση των πολλαπλών ανιχνεύσεων που προέρχονται από τις δύο μεθόδους. Η λογική του αλγορίθμου μετεπεξεργασίας για την αποδοχή και τη συγχώνευση των υποψηφίων ανιχνευμένων περιοχών είναι η εξής: Αν default = 0 και alt >= 1 τότε επίστρεψε το μεγαλύτερο alt παράθυρο. Αν default >= 1 και alt = 0 τοτε επίστρεψε το μεγαλύτερο default παράθυρο. Αν default >= 1 και alt >= 1 τότε πάρε όλους τους συνδυασμούς default και alt ανά δύο αν έχουν κοινή κάλυψη >= 60% τότε αν το ένα μέσα στο άλλο επίστρεψε την τομή (εσφαλμένη εστίαση) αλλιώς το μέσο παράθυρο (λάθος σκόπευση). Από όλα τα παράθυρα που συγχωνεύτηκαν σε ένα επέστρεψε το μεγαλύτερο. Αξιολόγηση Μηχανών Διανυσμάτων Υποστήριξης, Νευρωνικών δικτύων και η μεταξύ τους σύνδεση Η SVM τεχνική είναι μια χρήσιμη τεχνική για την ταξινόμηση δεδομένων. Αν και θεωρείται ότι τα νευρωνικά δίκτυα είναι πιο εύκολα στην χρήση από τα SVMs, μερικές φορές φέρνουν μη ικανοποιητικά αποτελέσματα. Τα κύρια πλεονεκτήματα των Μηχανών Διανυσμάτων Υποστήριξης[32] είναι ότι η εκπαίδευση είναι σχετικά εύκολη και ότι δεν έχουν τοπικά μέγιστα όπως τα νευρωνικά δίκτυα. Λειτουργεί σχετικά καλά σε υψηλής διάστασης δεδομένα και η εξισορρόπηση μεταξύ της πολυπλοκότητας των ταξινομητών και του σφάλματος μπορεί να ελεγχθεί. Το βασικό ελάττωμα των Μηχανών Υποστήριξης Διανυσμάτων περιλαμβάνει την ανάγκη για μια καλή συνάρτηση πυρήνα. Συμπερασματικά, οι Μηχανές υποστήριξης διανύσματος βασίζονται στη στατιστική θεωρία εκμάθησης. Μπορούν να χρησιμοποιηθούν για την πρόβλεψη μελλοντικών 151

152 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ δεδομένων μέσω διαδικασιών εκμάθησης. Οι Μηχανές Υποστήριξης Διανυσμάτων εκπαιδεύονται επιλύοντας τετραγωνικά προβλήματα βελτιστοποίησης με περιορισμούς. Εκτελούν την χαρτογράφηση των δεδομένων εισόδου σε υψηλής διάστασης χώρου με την χρήση γραμμικών συναρτήσεων βάσης. Υπάρχει η δυνατότητα να χρησιμοποιηθούν για την εκπαίδευση μιας ποικιλίας αναπαραστάσεων όπως είναι τα νευρωνικά δίκτυα και οι πολυωνυμικοί εκτιμητές και μάλιστα υπάρχει μία μοναδική βέλτιστη λύση για τη κάθε επιλογή των SVM παραμέτρων. Σε αυτό το σημείο διαφέρουν σημαντικά άλλες μηχανές εκμάθησης, όπως είναι τα πρότυπα νευρωνικά δίκτυα που εκπαιδεύονται με τροφοδότηση προς τα πίσω-διάδοσης. Εν συντομία, η ανάπτυξη των Μηχανών υποστήριξης διανυσμάτων προσφέρει μια νέα αντίληψη στις τεχνικές εκμάθησης. Τα τέσσερα κυριότερα χαρακτηριστικά των SVMs είναι η δυαδικότητα, οι πυρήνες, η κυρτότητα και η σπανιότητα. Οι Μηχανές υποστήριξης διανυσμάτων αποτελούν μία από τις καλύτερες προσεγγίσεις με στόχο τη μοντελοποίηση των δεδομένων. Συνδυάζουν τον έλεγχο γενίκευσης σαν μια τεχνική ελέγχου της διάστασης. Η χαρτογράφηση του πυρήνα αποτελεί μια κοινή βάση για τις περισσότερες από τις συνήθεις αρχιτεκτονικές μοντέλου, επιτρέποντας συγκρίσεις. Στα προβλήματα ταξινόμησης ο έλεγχος γενίκευσης γίνεται με την μεγιστοποίηση του περιθωρίου, που αντιστοιχεί σε ελαχιστοποίηση του διανύσματος βάρους σε ένα κανονικό πλαίσιο. Η λύση βρίσκεται σαν ένα σύνολο διανυσμάτων στήριξης που μπορεί να είναι αραιό. Η ελαχιστοποίηση του διανύσματος βάρους χρησιμοποιείται σαν κριτήριο στα προβλήματα παλινδρόμησης, με μια τροποποιημένη συνάρτηση απώλειας. Όσο αναφορά τα νευρωνικά δίκτυα[31], η αρχιτεκτονική τους χρησιμοποιείται κατά κόρον για την οπτική αναγνώριση χαρακτήρων και στοιχείων με ποσοστό επιτυχίας της τάξης του 80-90%. Αυτό οφείλεται πρωτίστως στα νευρωνικά δίκτυα Kohonen τα οποία χρησιμοποιούνται με μεγάλη επιτυχία στην «ταξινόμηση», κατά την οποία επιλέγεται μία έξοδος ανάμεσα σε πολλές. Επιπροσθέτως, τα υψηλά ποσοστά επιτυχούς αναγνώρισης οφείλονται στην προσαρμοστικότητα της εφαρμογής. Ο κάθε χρήστης μπορεί να εκπαιδεύσει το νευρωνικό δίκτυο με βάση τα δικά του χαρακτηριστικά-σημεία, με αποτέλεσμα στην συνέχεια να γίνεται πολύ αποδοτικότερα η αναγνώριση. Επιπλέον, σημαντική συμβολή έχει και η δυνατότητα της εφαρμογής να εισάγει για κάθε χαρακτήρα προς αναγνώριση πολλά δείγματα εκπαίδευσης, με αποτέλεσμα να υπάρχει όσο το δυνατόν πιο αντιπροσωπευτική απεικόνιση των εκφράσεων του προσώπου στα δεδομένα εκπαίδευσης. Συμπερασματικά, θα λέγαμε πως η αρχιτεκτονική νευρωνικών δικτύων Kohonen ανταποκρίνεται ιδιαίτερα καλά στο πρόβλημα της οπτικής αναγνώρισης των συναισθηματικών καταστάσεων μέσω του προσώπου. Ωστόσο, η βελτίωση της αποδοτικότητας της αρχιτεκτονικής αποτελεί πεδίο συνεχούς έρευνας με στόχο την επίτευξη όλο και μεγαλύτερων ποσοστών επιτυχούς αναγνώρισης. Τις Μηχανές Διανυσμάτων Υποστήριξης μπορούμε να τις δούμε ως ένα καινούργιο τρόπο εκπαίδευσης των νευρωνικών δικτύων τροφοδότησης προς τα εμπρός διάδοσης (feed-forward). Πιο συγκεκριμένα, μπορούμε να χρησιμοποιήσουμε τον αλγόριθμο εκμάθησης των διανυσμάτων υποστήριξης για να δημιουργήσουμε τους ακόλουθους τρεις τύπους μηχανών εκμάθησης μεταξύ άλλων: i) πολυωνυμικές μηχανές εκμάθησης, ii) νευρωνικά δίκτυα RBF (Radial-Basis Function), iii) νευρωνικά δίκτυα 2 επιπέδων με ένα κρυφό επίπεδο (Two-layer perceptrons network). 152

153 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ Αξιολόγηση μεθόδων Κύριων Συνιστωσών (PCA)και μετασχηματισμού Karhunen- Loeve (KLT) Η μέθοδος της Ανάλυσης Κυρίων Συνιστωσών (PCA) [26] όπως έχουμε ήδη αναφέρει υπολογίζει ένα ορθοκανονικό σύνολο αξόνων στις διευθύνσεις όπου τα δεδομένα παρουσιάζουν μέγιστη συνδιακύμανση. Κωδικοποιεί τις δεύτερης τάξης εξαρτήσεις των δεδομένων με την περιστροφή των αξόνων ώστε να αντιστοιχούν στις διευθύνσεις μέγιστης συνδιασποράς και τοποθετεί ένα ορθογώνιο σύνολο αξόνων τέτοιο ώστε οι προβολές των δύο κατανομών να επικαλύπτονται απόλυτα. Η παραδοχή Gaussian πηγών στην μέθοδο PCA την καταστά ανεπαρκή όταν οι πραγματικές πηγές δεν είναι Gaussian. Έχει παρατηρηθεί εμπειρικά ότι πολλά φυσικά σήματα, όπως είναι η ομιλία και οι φυσικές εικόνες περιγράφονται καλύτερα με κατανομές με επιμήκη ουρά. Η ίδια υπολογίζει μια ορθογώνια βάση η οποία δεν μπορεί να ανακατασκευάσει τα δεδομένα σε περίπτωση θορύβου. Ωστόσο η PCA[24] ξεπερνάει δυσκολίες που σχετίζονται με την μεγάλη διαστατικότητα των διανυσμάτων ενώ έχει εξαιρετική επιτυχία στην ταξινόμηση και στην ανακατασκευή των εικόνων του συνόλου μάθησης αλλά μικρή ικανότητα γενίκευσης εξαιτίας κυρίως της ιδιομορφίας στον τρόπο έκφραση των συναισθημάτων από τους ανθρώπους. Ο μετασχηματισμός KL[24] βασίζεται στην εξής απλή ιδέα: αν οι μεταβλητές είναι συσχετισμένες σε μεγάλο βαθμό, με το να προβληθούν σε ένα καινούργιο σύστημα με λιγότερες συντεταγμένες (κύριες συνιστώσες) οι οποίες θα είναι ασυσχέτιστες μεταξύ τους, επιτυγχάνεται η διατήρηση της πληροφορίας μειώνοντας ταυτόχρονα τα δεδομένα. Στην ιδανική περίπτωση, λίγες από τις κύριες συνιστώσες θα είναι σημαντικές και η προβολή αυτή βοηθώντας στην καλύτερη κατανόηση των δεδομένων επιτρέπει να προχωρήσουμε σε περαιτέρω ανάλυση. Το βασικό πλεονέκτημα του μετασχηματισμού KL που δεν είναι άλλο από την απλότητα του, έρχονται να το αντισταθμίσουν τα δύο βασικά μειονεκτήματα που χαρακτηρίζουν αυτή την μέθοδο: i) Η προβολή στους βασικούς άξονες είναι βέλτιστη όσον αφορά την συσσώρευση ενέργειας και την ανακατασκευή των προσώπων αλλά δεν είναι σε καμία περίπτωση βέλτιστη όσον αφορά στην ικανότητα διαχωρισμού προσώπων, ii) η εφαρμογή της μεθόδου απαιτεί την εκτίμηση και διαγωνοποίηση του πίνακα αυτοσυσχέτισης, ο οποίος με δεδομένη τη μεγάλη διάσταση του χώρου των εικόνων και το σχετικά μικρό πλήθος των δειγμάτων εκπαίδευσης, είναι σχεδόν πάντοτε singular. Αξιολόγηση μεθόδου Ανεξάρτητων Συνιστωσών (ICA) και η διαφορά της με την μέθοδο Βασικών Συνιστωσών (PCA) Η ανάλυση Ανεξάρτητων Συνιστωσών είναι, όπως προαναφέραμε, μια γενίκευση της Ανάλυσης Κύριων Συνιστωσών με την PCA να κωδικοποιεί τις δεύτερης τάξης εξαρτήσεις των δεδομένων με την περιστροφή των αξόνων ώστε να αντιστοιχούν στις διευθύνσεις μέγιστης συνδιασποράς[26]. Η μέθοδος ICA δεν προϋποθέτει οι άξονες να είναι ορθογώνιοι αλλά επιδιώκει να τους τοποθετήσει στις διευθύνσεις όπου τα δεδομένα παρουσιάζουν στατιστικές εξαρτήσεις. Κάθε διάνυσμα βάρους επιχειρεί να κωδικοποιήσει ένα τμήμα των εξαρτήσεων των εισόδων ώστε οι εξαρτήσεις μεταξύ των στοιχείων των εξόδων να αφαιρεθούν. Οι προβολές των δύο κατανομών στους άξονες ICA θα έχουν μικρότερη επικάλυψη και οι κατανομές εξόδου των δύο διανυσμάτων βάρους θα είναι κυρτές. 153

154 ΚΑΡΑΓΙΑΝΝΑΚΙΔΟΥ-ΜΠΟΥΛΙΤΣΑΚΗ Εικόνα 53: Παράδειγμα δισδιάστατων κατανομών δεδομένων και των αντίστοιχων πρωτευόντων και ανεξάρτητων αξόνων. Όπως έχουμε αναφέρει, έχει παρατηρηθεί εμπειρικά ότι πολλά φυσικά σήματα, όπως είναι η ομιλία και οι φυσικές εικόνες περιγράφονται καλύτερα με κατανομές με επιμήκη ουρά. Οι πηγές αυτές ονομάζονται «αραιές» πηγές ("sparse" sources). Όταν πρόκειται για μοντέλο αραιών πηγών η μέθοδος ICA εμφανίζει κάποια πιθανά πλεονεκτήματα έναντι της μεθόδου PCA[26]: 1. Παρέχει ένα καλύτερο πιθανοτικό μοντέλο δεδομένων το οποίο προσδιορίζει καλύτερα που συγκεντρώνονται τα δεδομένα στον n-διάστατο χώρο. 2. Προσδιορίζει μεμονωμένα τον πίνακα μετασχηματισμού W. 3. Είναι ευαίσθητη σε υψηλής τάξεως στατιστικές στα δεδομένα κι όχι μόνο στον πίνακα συμμεταβλητότητας. Σε διεργασίες αναγνώρισης από εικόνες προσώπου αναμένεται ότι τα ICA διανύσματα πηγών αφού είναι ανεξάρτητα, σε αντίθεση με τα ιδιοδυανύσματα PCA που είναι μόνο ασυσχέτιστα. θα πλησιάζουν περισσότερο τα φυσικά χαρακτηριστικά των εικόνων και επομένως θα είναι πιο ικανά να αναπαραστήσουν τις διαφορές μεταξύ των προσώπων. Ωστόσο ή μέθοδος ICA δεν παρουσιάζει μόνο πλεονεκτήματα. Οι αλγόριθμοι ICA είναι επαναληπτικοί και μερικές φορές συγκλίνουν δύσκολα. Επιπλέον παρουσιάζουν δυσκολία στον χειρισμό μεγάλου σημάτων ή, στην περίπτωση μας, πολυδιάστατων διανυσμάτων. 154

155 ΚΕΦΑΛΑΙΟ 4: ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΌ ΤΗΝ ΟΜΙΛΙΑ ΚΑΙ ΤΙΣ ΕΚΦΡΑΣΕΙΣ ΤΟΥ ΠΡΟΣΩΠΟΥ 155

156

157 Κ Ε Φ Α Λ Α Ι Ο 5: Α Ν Α Γ Ν Ω Ρ Ι Σ Η Σ Υ Ν Α Ι Σ Θ Η Μ ΑΤ Ω Ν Σ Τ Η Ν Ε Κ Π Α Ι Δ Ε Υ Σ Η

158

159 ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ Την τελευταία δεκαετία τα περιβάλλοντα διδασκαλίας εξελίχθηκαν από εργαλεία συμπληρωματικής βοήθειας στην εκπαίδευση σε ευφυή συστήματα διδασκαλίας. Η ηλεκτρονική μάθηση είναι σε μεγαλύτερο βαθμό επικεντρωμένη στον μαθητευόμενο και χρησιμοποιεί περισσότερες εξατομικευμένες τεχνολογίες μάθησης. Δεν πρέπει μόνο να παράγει καλά μαθησιακά αποτελέσματα αλλά θα πρέπει να βοηθάει τους μαθητές να ενταχθούν καλύτερα στην μαθησιακή διαδικασία. Οι μαθητές που ασχολούνται πραγματικά με την διαδικασία της ηλεκτρονικής μάθησης εμπλέκονται σε αυτήν συμπεριφορικά, διανοητικά και συναισθηματικά (Bangert-Drowns & Pyke,2001; Wang & Kang, 2006). Η επιρροή των συναισθημάτων στην εκπαίδευση είναι ακόμα ένα θέμα που δεν έχει διευκρινιστεί επαρκώς[11]. Πρόσφατα ένα αυξανόμενο τμήμα της βιβλιογραφίας (π.χ. Currin, 2003; Dirkx; Hara & Kling, 2000; Kort, Reilly & Picard, 2001; Wang & Kang, 2006) έχει αρχίσει να αντιλαμβάνεται το κεντρικό ρόλο του συναισθήματος στην μάθηση και ειδικά στην ηλεκτρονική μάθηση. Η συνεχής έρευνα που γίνεται στην ηλεκτρονική και στην διαδικτυακή μάθηση αποκαλύπτει τη σημασία της συναισθηματικής κατάστασης των εκπαιδευομένων στην διαδικασία της μάθησης και ιδιαίτερα στην αποτελεσματική μάθηση. Έρευνα (ISEN,2000) δείχνει ότι ακόμα και ένα μικρό ποσοστό θετικής διάθεσης να υπάρχει στον εκπαιδευόμενο δεν τον κάνει να αισθάνεται απλά καλύτερα αλλά επίσης προκαλεί ένα διαφορετικό είδος σκέψης, που χαρακτηρίζεται από μία τάση για μεγαλύτερη αποτελεσματικότητα και αυστηρότητα στην διαδικασία λήψης αποφάσεων. Τα ευρήματα αυτά τονίζουν τις σημαντικές επιδράσεις των συναισθημάτων στην μάθηση. 5.1 ΜΟΝΤΕΛΑ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΜΑΘΗΣΗΣ Ο σκοπός των συναισθηματικών μοντέλων ηλεκτρονικής είναι η περιγραφή της εξέλιξης των συναισθημάτων των μαθητών κατά την διάρκεια της διαδικασίας μάθησης. Η γνώση αυτή επιτρέπει στην δημιουργία εκπαιδευτικών συστημάτων που γνωρίζουν και ανταποκρίνονται κατάλληλα σε αυτές τις συναισθηματικές αλλαγές Το συναισθηματικό κυκλικό μοντέλο του Russell To μοντέλο της Russell[11] είναι ένα τρισδιάστατο μοντέλο όπου τα συναισθήματα θεωρούνται συνδυασμοί της διέγερσης και σθένους. Τα συναισθήματα διανέμονται σε ένα σύστημα συντεταγμένων όπου ο άξονας y δείχνει το βαθμό της διέγερσης και ο άξονας x το σθένος, από αρνητικό σε θετικό συναίσθημα. Το βασικά συναισθήματα που περιλαμβάνει είναι αυτά που συμβαίνουν πιο συχνά στην κατά την διάρκεια της μάθησης, δηλαδή, το ενδιαφέρον, η συμμετοχή, η σύγχυση, η απογοήτευση, η ανία, η αισιοδοξία, η ικανοποίηση και η απογοήτευση. 159

160 Εικόνα 54: Ένα παράδειγμα των βασικών μαθησιακών συναισθημάτων Το Μαθησιακό σπειροειδές μοντέλο του Kort. Ο Kort (2001) πρότεινε ένα σπειροειδές μοντέλο μάθησης τεσσάρων τεταρτημορίων[11] στο οποίο τα συναισθήματα του μαθητή αλλάζουν καθώς αυτός κινείται μέσα στα τεταρτημόρια και πάνω στο σπειροειδές. Στο τεταρτημόριο I ο μαθητής έχει θετικό συναίσθημα και παράγει γνώσεις. Στο σημείο αυτό ο μαθητής εργάζεται με ευκολία και δεν αντιμετωπίζει προβλήματα και ασάφειες. Διάφορες αποκλίσεις αρχίζουν να προκύπτουν μεταξύ των πληροφοριών και της δομής της γνώσης του μαθητή καθώς αυτός κινείται στο τεταρτημόριο II, το οποίο χαρακτηρίζεται από την εποικοδομητική μάθηση και το αρνητικό συναίσθημα. Εδώ ο μαθητής βιώνει διάφορες καταστάσεις όπως η σύγχυση. Όταν ο μαθητής προσπαθήσει να λύση το αίνιγμα και αποτύχει τότε περνάει στο τεταρτημόριο III. Αυτό το τεταρτημόριο είναι το τεταρτημόριο της απώλειας μάθησης και του αρνητικού συναισθήματος. Ο μαθητής εδώ βιώνει συναισθήματα, όπως η απογοήτευση. Στην συνέχεια αφού οι παρανοήσεις απορρίπτονται ο μαθητής κινείται στο τεταρτημόριο IV, που χαρακτηρίζεται από απώλεια γνώσεις και θετικό συναίσθημα. Σε αυτό το στάδιο ο μαθητής δεν είναι ακόμα σίγουρος για το πώς να προχωρήσει αλλά έχει την διάθεση να αποκτήσει νέες γνώσεις και ιδέες. Μόλις ο μαθητής αναπτύσσει νέες γνώσεις τότε προωθείται ξανά στο τεταρτημόριο I. Έτσι ο μαθητής κινείται στην σπείρα κάνοντας κύκλους και αποκτώντας κύκλο-με-κύκλο περισσότερες γνώσεις.

161 Εικόνα 55: Το σπειροειδές μοντέλο του Kort 5.2 Η ΕΠΙΔΡΑΣΗ ΤΩΝ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ Τα συναισθήματα που μπορεί να έχει ο εκπαιδευόμενος κατά την διάρκεια της εκπαιδευτικής διαδικασίας μπορεί να επηρεάζουν τον τρόπο με τον οποίο παρακολουθούν, κωδικοποιούν και ανακτούν τις διάφορες πληροφορίες καθώς και την σκέψη και την κρίση του[2]. Εκπαιδευόμενοι, δηλαδή, με θετικά συναισθήματα είναι πιο δημιουργικοί και αποδοτικοί από ότι εκπαιδευόμενοι με αρνητικά συναισθήματα. Έρευνες διίστανται όσον αφορά την επίδραση των συναισθημάτων στην παρακολούθηση και στην εστίαση της προσοχής. Η μία μεριά πιστεύει ότι τα έντονα συναισθήματα βοηθούν τον εκπαιδευόμενο στην εστίαση της προσοχής σε προβλήματα που χρειάζονται άμεση επίλυση, ενώ η άλλη υποστηρίζει ότι η υπερβολική αυτοεστίαση συμβάλλει στην εμφάνιση της κατάθλιψης. Γενικά όμως τα θετικά συναισθήματα βοηθούν την συγκέντρωση της προσοχής σε όλα τα θέματα ενώ τα συναισθήματα άγχους παρουσιάζουν αύξηση της πιθανότητας επεξεργασίας ερεθισμάτων μόνο σχετικών με το άγχος. Επίσης, τα συναισθήματα παρουσιάζουν επιρροή στην λήψη αποφάσεων από τους εκπαιδευόμενους. Έρευνες έδειξαν την δυσκολία δράσης, απόφασης, αντιμετώπισης προβλημάτων και ανάπτυξης της λογικής κρίσης σε άτομα με συναισθήματα θλίψης. Μια σημαντική πτυχή του θέματος είναι η επίδραση των συναισθημάτων στην λειτουργία της μνήμης του εκπαιδευόμενου. Έρευνες έδειξαν ότι οι συναισθηματικές διαταραχές του εκπαιδευομένου περιορίζουν την λειτουργική του μνήμη, την ικανότητα δηλαδή να διατηρεί στη μνήμη του όλες τις πληροφορίες, γεγονός που έχει άμεσες συνέπειες στη μάθησή του. Επιπλέον επιβεβαιώνεται ερευνητικά ότι η ανάκτηση πληροφοριών μέσω της μνήμης εξαρτάται από την συναισθηματική κατάσταση του εκπαιδευόμενου, και μάλιστα οι πληροφορίες ανακτώνται καλύτερα, όταν ο εκπαιδευόμενος βρεθεί σε παρόμοια κατάσταση διάθεσης με αυτήν που είχε όταν τις ανακτούσε. Παρόλα αυτά, υπάρχει και η αντίθετη άποψη που υποστηρίζει ότι 161

162 ορισμένα συναισθήματα, θετικά ή αρνητικά, μπορούν να δράσουν ως κινητήριες δυνάμεις για την ενεργοποίηση της μνήμης 5.3 ΑΝΑΓΚΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ Φαίνεται λοιπόν, ότι τα συναισθήματα που έχουν οι εκπαιδευόμενοι κατά την διάρκεια τις εκπαιδευτικής διαδικασίας είτε αυτή γίνεται με την βοήθεια του υπολογιστή είτε όχι, έχει μεγάλη επίδραση στην μάθηση και στον τρόπο σκέψης. Το γεγονός αυτό οδήγησε στην άνθιση ενός νέου τομέα, της Συναισθηματικής Μάθησης, που ενσωματώνει στοιχεία ψυχολογίας, νευροεπιστήμης και γνωστικής επιστήμης. Τα τελευταία χρόνια οι εκπαιδευτικές διαδικασίες περιλαμβάνουν ένα πολύ μεγάλο ποσοστό την χρήση του ηλεκτρονικού υπολογιστή. Οι εκπαιδευόμενοι πλέον μαθαίνουν μέσω εκπαιδευτικών λογισμικών, εκπαιδευτικών ιστοτόπων στο διαδίκτυο, εκπαιδευτικών συνεργατικών πλατφορμών και εικονικών εκπαιδευτικών περιβαλλόντων. Η μάθηση αυτή μπορεί να γίνει εξ αποστάσεως, συνεργατικά είτε στους χώρους μάθησης (σχολεία, φροντιστήρια, εργασιακοί χώροι). Επειδή η μάθηση από υπολογιστή είναι μία διαδικασία πιο έμμεση και πιο απρόσωπη από αυτήν την παραδοσιακή του σχολείου έπεται η ανάγκη σχεδίασης φιλικών, ευέλικτων και καλά σχεδιασμένων από άποψη διδακτικής προσέγγισης περιβαλλόντων. Ο ηλεκτρονικός υπολογιστής προσφέρει τη δυνατότητα εισαγωγής του μαθητή σ ένα ελεγχόμενο περιβάλλον καθώς διαθέτει μια προβλέψιμη και «νομοταγή» «συμπεριφορά» και άρα είναι ελέγξιμη συσκευή, ενώ είναι ένα εκπαιδευτικό μέσο που επιδέχεται περαιτέρω βελτίωση δίνοντας τη δυνατότητα μη-λεκτικής ή λεκτικής έκφρασης. Τα προγράμματα που χρησιμοποιεί ένας υπολογιστής μπορούν να χρησιμοποιηθούν πολλές φορές και έτσι να επιτευχθεί επανάληψη της μάθησης και ενδυνάμωση της προηγούμενης μάθησης και ας μην ξεχνάμε ότι τα περισσότερα παιδιά βρίσκουν ότι είναι σχετικά εύκολο να χειριστεί κανείς τους υπολογιστές, μόλις του δοθεί η βασική βοήθεια. Φαίνεται να έχουν την "έβδομη αίσθηση" την οποία δεν κατέχουν οι προηγούμενες γενιές. Η ιδιωτική φύση της διάδρασης ανάμεσα στον υπολογιστή και το παιδί υποβοηθάει στη δημιουργία ενός φιλικού περιβάλλοντος, στο οποίο το παιδί μπορεί να εκφραστεί αυθόρμητα, να ρισκάρει χωρίς το φόβο της γελοιοποίησης και του λάθους. Η αναγνώριση των συναισθημάτων κατά την διάρκεια χρήσης των περιβαλλόντων αυτών από τους εκπαιδευόμενους είτε αυτή γίνεται σε πραγματικό χρόνο είτε όχι μπορεί να μας δώσει ενδιαφέροντα στοιχεία για τα περιβάλλοντα αυτά σε θέματα που αφορούν την σχεδίασή τους, το περιεχόμενό τους, την ευελιξία τους, την καταλληλότητα τους, την αποδοτικότητα τους, την προσαρμοστικότητά τους, τον εκπαιδευτικό σχεδιασμό τους και γενικά την αποτελεσματικότητά τους. Σύγχρονα εκπαιδευτικά συστήματα, ιδιαίτερα αυτά που χρησιμοποιούνται για εξ αποστάσεως εκπαίδευση, ενσωματώνουν πολυμεσική τεχνολογία. Σε αυτό συνέβαλε και η ραγδαία εξέλιξη του διαδικτύου το οποίο κατέστησε τη χρήση πολυμέσων μία κρίσιμη παράμετρο στη σχεδίαση και υλοποίηση των ηλεκτρονικών συστημάτων

163 μάθησης (Clark & Mayer, 2007). Η πολυμεσική τεχνολογία παρέχει τη δυνατότητα ενοποίησης διαφόρων μέσων, όπως κειμένου, γραφικών, εικόνας, ήχου, βίντεο για τη δημιουργία ενός πολυμορφικού αλληλεπιδραστικού εκπαιδευτικού υλικού. Με αυτό τον τρόπο η μαθησιακή διαδικασία υποστηρίζεται αποτελεσματικά. Αναγνωρίζοντας τη συναισθηματική κατάσταση του μαθητή, διαμορφώνονται κατάλληλες συναισθηματικού τύπου παιδαγωγικές τακτικές για να μπορέσει να προσαρμόσει ο διδάσκων κατάλληλα την εκπαιδευτική διαδικασία και το παρεχόμενο διδακτικό υλικό στις ιδιαίτερες γνωστικές και συναισθηματικές ανάγκες του εκπαιδευόμενου. Η ενσωμάτωση πολυμεσικών στοιχείων στο εκπαιδευτικό υλικό παρέχει ένα αποτελεσματικό τρόπο αλληλεπίδρασης του μαθητή με το εκπαιδευτικό σύστημα διατηρώντας παράλληλα την προσοχή του εστιασμένη στην εκπαιδευτική διαδικασία. Θα είναι σε θέση να παρέχει την ευκαιρία στο μαθητή να εξερευνήσει το εκπαιδευτικό υλικό και να αλληλεπιδράσει με τα μαθησιακά του αντικείμενα με ένα ενδιαφέρον και δημιουργικό τρόπο. Οι αναγνώριση των συναισθημάτων μπορεί να γίνει από την φωνή, από τις εκφράσεις του προσώπου, από τις διάφορες χειρονομίες και στάσεις του σώματος, καθώς και από τα φυσιολογικά χαρακτηριστικά του ανθρώπινου οργανισμού. Για καλύτερα, πιο στοχευόμενα και πιο γρήγορα αποτελέσματα προτείνεται η αναγνώριση συναισθημάτων σε πραγματικό χρόνο, δηλαδή την ώρα που οι εκπαιδευόμενοι συμμετέχουν στην εκπαιδευτική διαδικασία. Γενικά, η αναγνώριση των συναισθημάτων βοηθάει στους εξής τομείς[55]: 1. Στην καλύτερη σχεδίαση εκπαιδευτικών περιβαλλόντων. 2. Στην δημιουργία εργαλείων και τεχνολογιών που μπορούν να ανταποκριθούν κατάλληλα στους συναισθηματικούς παράγοντες. 3. Παρέχουν εξατομικευμένες πληροφορίες για την ψυχολογία των εκπαιδευομένων που μπορούν να χρησιμοποιηθούν από τους εκπαιδευτές για βελτίωση της μάθησης. 4. Παρέχουν πληροφορίες σχετικά με την συνεργατική μάθηση και βοηθούν στην βελτίωση αυτών των συστημάτων. Παρ όλα αυτά ο υπολογιστής δεν πρέπει να χαρακτηριστεί ως πανάκεια για την επίλυση των μαθησιακών προβλημάτων. Όπως υποστηρίζουν οι Ράπτης & Ράπτη (2001), Στασινός (1987), Wilkinson-Tilbrook (1995) παράλληλα με τις πολλές δυνατότητες, ο υπολογιστής έχει και κάποιες λειτουργικές ιδιότητες που συνθέτουν το πρόβλημα των αδυναμιών του. Τα λεκτικά μηνύματα που προσλαμβάνει κανείς από τον υπολογιστή δεν είναι παρά μονότονοι ρυθμοί, και έτσι δεν έχουν την ανθρώπινη αμεσότητα που χαρακτηρίζουν τα χαρακτηριστικά των ανθρώπινων σχέσεων στη φυσική τους διάσταση. Είναι μια "τεχνητή ομιλία" από την οποία λείπει η αμεσότητα και ο αυθορμητισμός, καθώς λειτουργεί χωρίς συνείδηση και συναισθηματικούς τόνους. Δεν μπορεί να καλύψει λοιπόν την ανθρώπινη ανάγκη "ενός ζεστού χαμόγελου επιβράβευσης", ανάγκη που είναι ιδιαίτερα αυξημένη στα παιδιά με μαθησιακές δυσκολίες, ούτε μπορεί να υποκαταστήσει την προσωπικότητα του δασκάλου. Τέλος, ένα άλλο εξίσου σημαντικό πρόβλημα είναι η επιλογή λογισμικού καθώς υπάρχουν προγράμματα που δεν προάγουν καθόλου τη διαδικασία μάθησης (Wilkinson-Tilbrook,1995, Σιμάτος,1995). Αυτή η ανάγκη μπορεί να θεωρηθεί παρόμοια με εκείνη της αγοράς καινούριων υποδημάτων. Αν, για παράδειγμα, το μέγεθος των υποδημάτων είναι μεγαλύτερο από το απαιτούμενο στο συγκεκριμένο άτομο, υπάρχει το ενδεχόμενο να πέσει. Αν είναι μικρότερο, τότε ίσως 163

164 να δημιουργηθούν πληγές στα πόδια του. Το προσδιοριστικό αυτό παράδειγμα καταδεικνύει την ανάγκη της συνεχούς ενημέρωσης και παρακολούθησης από το δάσκαλο των εξελίξεων στον τομέα του εκπαιδευτικού λογισμικού καθώς επίσης και στην ανάγκη να δοκιμάζονται πρώτα τα εργαλεία και οι σχετικές εφαρμογές πριν εφαρμοστούν στα παιδιά. 5.4 ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΥΠΟΛΟΓΙΣΤΙΚΗ ΣΤΗΝ ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΣΗ Η έννοια της συναισθηματικής υπολογιστικής όπως αναφέρθηκε και σε προηγούμενο κεφάλαιο σχετίζεται με την πληροφορική που αφορά, επηρεάζει και προκύπτει από τα συναισθήματα. Βασίζεται στα φυσιολογικά και συμπεριφορικά σήματα που προέρχονται από διάφορους αισθητήρες και σχετίζεται με την ανάπτυξη ενός προσωπικού υπολογιστικού συστήματος το οποίο μπορεί να αναγνωρίσει και να κατανοήσει τα ανθρώπινα συναισθήματα προσφέροντας έξυπνες και φιλικές ανταποκρίσεις για τα συναισθήματα του χρήστη. Λειτουργεί καλά στην μείωση της συναισθηματικής απόστασης μεταξύ της μηχανής και του χρήστη δημιουργώντας ένα αρμονικό περιβάλλον μεταξύ τους. Αυτά τα χαρακτηριστικά της συναισθηματικής υπολογιστικής αξιοποιούνται κατάλληλα όταν εφαρμόζονται στην ηλεκτρονική μάθηση. Η κύρια εφαρμογή της συναισθηματικής υπολογιστικής περιλαμβάνει συναισθηματική αντίληψη, κατανόηση και έκφραση[56]. Η μέθοδος που χρησιμοποιείται συνήθως είναι η εκτίμηση της συναισθηματικής κατάστασης του χρήστη αναγνωρίζοντας τις εκφράσεις του προσώπου του και εντοπίζοντας την φυσιολογική του κατάσταση. Όσον αφορά την ηλεκτρονική μάθηση η αυξανόμενη έρευνα δείχνει το σημαντικό ρόλο που παίζει το συναίσθημα στην μάθηση. Στην παρακάτω εικόνα φαίνεται η εφαρμογή των τριών βασικών προσεγγίσεων της συναισθηματικής υπολογιστικής σε ένα σύστημα ηλεκτρονικής μάθησης. Εικόνα 56: Εφαρμογή της Συναισθηματικής Υπολογιστικής στην ηλεκτρονική μάθηση.

165 5.4.1 Αναγνώριση συναισθημάτων στην ηλεκτρονική μάθηση από τις εκφράσεις του προσώπου και την ομιλία Η ηλεκτρονική μάθηση διαφέρει από την συμβατική μάθηση στο γεγονός ότι χωρίζει τους εκπαιδευτικούς από τους εκπαιδευόμενους. Λόγω αυτού του διαχωρισμού δεν είναι σε θέση να επικοινωνήσουν πρόσωπο-με-πρόσωπο. Ως αποτέλεσμα η σύγχρονη ηλεκτρονική μάθηση παίρνει αρκετά ανθρώπινα συναισθήματα υπόψη. Η συναισθηματική κατάσταση αντανακλάται στις εκφράσεις του προσώπου ενός ατόμου και έτσι μπορεί να μετρηθεί, να μεταφερθεί και να διαβαστεί από τους εκπαιδευτικούς με στόχο καλύτερα δυνατά αποτελέσματα στην διαδικασία της μάθησης[56]. Δεδομένου ότι ο λόγος είναι πολύ σημαντικός, πιο αποτελεσματικός και πιο βολικός, η καταγραφή του και η αναγνώριση των συναισθημάτων μέσω αυτού μπορεί να βελτιώσει σημαντικά τις επιδόσεις ενός συστήματος ηλεκτρονικής μάθησης. Πιο συγκεκριμένα η αλλαγή της ομιλίας του εκπαιδευόμενου κατά την διάρκεια της ηλεκτρονικής μάθησης μπορεί να αναγνωρίσει τις αλλαγές στην διάθεση του και με την κατάλληλη ανάδραση να επιτευχτεί μία αναπαράσταση της πραγματικής αλληλεπίδρασης[56]. Αν και η αναγνώριση των συναισθημάτων από την ομιλία στην ηλεκτρονική μάθηση έχει πολλές υποσχόμενες προοπτικές, υπάρχουν ακόμα κάποιες δυσκολίες που μπορεί να εμποδίσουν την ευρή χρήση της[56]. I. Μία από τις σημαντικότερες εφαρμογές της αναγνώρισης της ομιλίας είναι ο εντοπισμός και η κατανόηση της φυσικής γλώσσας. Το πρώτο πρόβλημα που προκύπτει όταν η φωνητική αλλάζει όταν ο τονισμός, η θεμελιώδης συχνότητα του ήχου ή οι λέξεις συνδυάζονται σε συνεχή ομιλία. Έτσι θα πρέπει να διευκρινιστούν τα ασαφή αυτά όρια. II. III. IV. Οι αλλαγές των φωνητικών μηνυμάτων είναι δραστικές. Η αναγνώριση της ομιλίας ποικίλλει όσο για διαφορετικούς ομιλητές τόσο και για τον ίδιο τον ομιλητή. Για παράδειγμα η φωνή ενός ανθρώπου είναι διαφορετική όταν μιλάει άνετα από όταν μιλάει σοβαρά. Επίσης ο χρόνος επηρεάζει την αναγνώριση της ομιλίας γιατί το φωνητικό μήνυμα μπορεί να είναι διαφορετικό στο παρόν από ότι αυτό στον μετά από τρεις μήνες, ακόμα και αν μιλάει με τον ίδιο τρόπο. Η φωνή είναι ασαφής. Διαφορετικές φωνές πολλές φορές ακούγονται παρόμοια και έτσι η ταξινόμηση τους γίνεται μια μεγάλη πρόκληση. Είναι δύσκολο να εντοπιστεί η ομιλία μέσα σε πολύ θόρυβο. Τα δεδομένα τις ομιλίας που συλλέγονται είναι όλα σχεδόν σε μία ιδανική κατάσταση, αλλά όταν εφαρμόζεται η αναγνώριση σε πραγματικές συνθήκες τότε μπορεί να προκαλέσει πολλά προβλήματα. Έτσι πολλές φορές δεν μπορούν να εντοπιστούν τα συναισθήματα από την ομιλία. V. Η αναγνώριση των συναισθημάτων από την ομιλία, ως μια διεπιστημονική μελέτη, περιλαμβάνει την επιστήμη της πληροφορικής, την ψυχοακουστική, την ψυχολογία, την γνωστική επιστήμη και την επεξεργασία των πληροφοριών και των σημάτων. Συνήθως επεξεργαζόμαστε την ομιλία επιφανειακά αντί να κατανοήσουμε την ευαισθησία του σήματος αυτού. 165

166 5.5 ΠΡΟΤΕΙΝΟΜΕΝΑ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΩΝ ΣΤΗΝ ΒΙΒΛΙΟΓΡΑΦΙΑ Οι Liping Shen, Minjuan Wang και Ruimin Shen πρότειναν ένα μοντέλο συναισθηματικής μάθησης εστιάζοντας στο πως μπορεί να γίνει η χρήση των πληροφοριών που εξάγονται για τα συναισθήματα του μαθητή και την εξέλιξη τους κατά την διάρκεια της εκπαιδευτικής διαδικασίας[11]. Το μοντέλο αυτό βασίζεται στις συγκυριακές πληροφορίες του μαθητή και στο περιβάλλον μάθησης, και δημιουργεί κατάλληλες αντιδράσεις για τον μαθητή βασισμένες στην συναισθηματική του κατάσταση, τις γνωστικές ικανότητες και τους μαθησιακούς στόχους. Επίσης το μοντέλο αυτό μπορεί να χρησιμοποιηθεί για να προσαρμόσει την αλληλεπίδραση μεταξύ του μαθητή και του συστήματος μάθησης, να προβλέψει τις απαντήσεις του μαθητή καθώς και τις μελλοντικές αλληλεπιδράσεις του εκπαιδευόμενου με το σύστημα μάθησης. Εικόνα 57: Μοντέλο Συναισθηματικής Μάθησης Το συναισθηματικό μοντέλο μάθησης που προτείνεται χρησιμοποιεί τον συνδυασμό: 1. Μιας γνωστικής προσέγγισης για την συναισθηματική μοντελοποίηση του χρήστη βασισμένη σε καταστάσεις που βιώνουν οι χρήστες και την παρατηρούμενη συμπεριφορά τους. 2. Μιας φυσιολογικής προσέγγισης.

167 Στην Εικόνα 58 παρουσιάζεται μια υψηλού επιπέδου περιγραφή του μοντέλου αυτού καθώς και τους γενικούς παράγοντες που εμπλέκονται. Το πάνω μέρος του μοντέλου τροποποιήθηκε με το γνωστικό μοντέλο συναισθημάτων OCC (Ortony et al, 1990) και το κάτω μέρος του μοντέλου αποτελεί την αναγνώριση των συναισθημάτων από φυσιολογικά σήματα. Η μέθοδος αναγνώρισης προτύπων που χρησιμοποιείται είναι τα δίκτυα Bays. Το μοντέλο αυτό υποδεικνύει ότι η συναισθηματική κατάσταση του χρήστη σχετίζεται με το προφίλ του μαθητή (πχ τις μαθησιακές του προτιμήσεις, τις γνωστικές δεξιότητες, τις γνώσεις κτλπ), τους μαθησιακούς στόχους και την αλληλεπίδραση του μαθητή με το σύστημα. Οι συναισθηματικές καταστάσεις των εκπαιδευόμενων επηρεάζουν τις μετρήσεις των διαθέσιμων αισθητήρων. Το πλεονέκτημα του μοντέλου αυτού είναι το γεγονός ότι και αισθητήρες φυσιολογικών μετρήσεων να μην υπήρχαν θα είχε πάλι καλά αποτελέσματα. Η χρήση όμως των φυσιολογικών σημάτων κάνει το σύστημα πιο αξιόπιστο με μεγαλύτερη ακρίβεια συναισθηματικής αναγνώρισης και βοηθάει το σύστημα να παρέχει έγκαιρη βοήθεια ή επαρκές περιεχόμενο βασισμένο στα συναισθήματα που βιώνει ο εκπαιδευόμενος σε μία δεδομένη στιγμή. Τέλος η αναγνώριση της συναισθηματικής κατάστασης από το σύστημα θα μπορεί να γίνεται γνωστή στους εκπαιδευτικούς και σε άλλους εκπαιδευόμενους στην ίδια ομάδα. Έτσι θα μπορούν να ανταποκριθούν σε πραγματικό χρόνο στην μάθηση των εκπαιδευόμενων και να προσαρμόσουν στο εκάστοτε μαθητή το στυλ διάλεξης, την ταχύτητα και το περιεχόμενο του μαθήματος ανάλογα με την συναισθηματική του κατάσταση. Το μοντέλο αυτό χρησιμοποιήθηκε σε μία βάση δεδομένων μόνο φυσιολογικών σημάτων ενός ατόμου και το καλύτερο ποσοστό ακρίβειας ταξινόμησης που έφτασε είναι το 86.3% με τον αλγόριθμο ταξινόμηση SVM. Οι Ashish Kapoor και Rosalind W. Picard[57] προτείνουν ένα σύστημα αναγνώρισης συναισθηματικής κατάστασης σε εκπαιδευτικά περιβάλλοντα από φυσιολογικά σήματα και τις εκφράσεις του προσώπου. Στην παρακάτω εικόνα περιγράφεται η αρχιτεκτονική αυτού του συστήματος. Οι μη-λεκτικές συμπεριφορές του χρήστη ανιχνεύονται μέσω μιας κάμερας και μιας αισθητήριας καρέκλας πίεσης (pressure sensing chair). H κάμερα είναι εξοπλισμένη με υπέρυθρες LED ακτίνες για δομημένο φωτισμό που βοηθάει στην παρακολούθηση των μαθητών σε πραγματικό χρόνο και την εξαγωγή χαρακτηριστικών από το πρόσωπό τους. Ομοίως, τα στοιχεία που ανιχνεύονται από την καρέκλα χρησιμοποιούνται για την εξαγωγή χαρακτηριστικών από τις στάσεις των εκπαιδευόμενων. Αυτά τα δύο χαρακτηριστικά επεξεργάζονται και συνδυάζονται ώστε να αναγνωριστεί η συναισθηματική κατάσταση των εκπαιδευομένων. 167

168 Εικόνα 58: Η αρχιτεκτονική του συστήματος Ashish Kapoor και Rosalind W. Picard. Στην παρακάτω εικόνα παρουσιάζεται το μοντέλο εξαγωγής χαρακτηριστικών προσώπου των μαθητών. Η εξαγωγή των χαρακτηριστικών γίνεται από το σχήμα των ματιών και των φρυδιών, το χαμόγελο και το σχήμα του στόματος καθώς και από το νεύμα και το κούνημα του κεφαλιού. Οι αλγόριθμοι εξαγωγής που χρησιμοποιεί είναι ο SVM και ο HMM. Εικόνα 59: Μοντέλο εξαγωγής χαρακτηριστικών προσώπου συστήματος Ashish Kapoor και Rosalind W. Picard. Οι στάσεις του σώματος αναγνωρίζονται από δύο στρώματα της ειδικής καρέκλας. Το ένα βρίσκεται στο κάθισμα ενώ το δεύτερο στην πλάτη του καθίσματος. Κάθε

Δείτε περισσότερα