ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΟΜΙΛΙΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ ΚΑΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ



Σχετικά έγγραφα
Αναγνώριση Συναισθημάτων σε Περιβάλλοντα Θορύβου

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Αναγνώριση Προτύπων Ι

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

Συστήματα Επικοινωνιών

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

ΤΕΧΝΙΚΕΣ ΚΑΤΑΓΡΑΦΗΣ ΣΥΝΑΙΣΘΗΜΑΤΩΝ (EMOTIONS) ΑΠΟ ΤΗ ΧΡΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ. Ελένη Καλκοπούλου. στα πλαίσια του μαθήματος Πολυμέσα (ΓΤΠ61)

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό


ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Μηχανουργική Τεχνολογία ΙΙ

Πληροφοριακά Συστήματα Διοίκησης

of Cognition, Brain, and Language, Spain.

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Ανάκτηση πολυμεσικού περιεχομένου

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ

þÿ²± ¼Ì ¹º±½ À à  ½ ûµÅÄ

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ψηφιακές Τηλεπικοινωνίες. Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 4: Δειγματοληψία και Κβάντιση Εικόνας

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

ΠΟΩΤΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΔΤΝΑΜΙΚΗΣ ΜΗΧΑΝΩΝ

[Type text] ΓΕΝΙΚΕΣ ΟΔΗΓΙΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ, ΣΥΝΤΑΞΗ, ΣΥΓΓΡΑΦΗ ΚΑΙ ΥΠΟΒΟΛΗ ΤΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ

Πληροφορική 2. Τεχνητή νοημοσύνη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Προσφερόμενα Διπλώματα (Προσφερόμενοι Τίτλοι)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ με έμφαση στις γνωστικές λειτουργίες

Keywords λέξεις κλειδιά:

Διδακτικές Τεχνικές (Στρατηγικές)

Εξαιρετικά σπάνια διάσπαση στο CMS, CERN 19 Ιουλίου 2012

Το μοντέλο Perceptron

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Eκπαίδευση Εκπαιδευτών Ενηλίκων & Δία Βίου Μάθηση

Εισαγωγή στην Ψυχολογία με έμφαση στις γνωστικές λειτουργίες

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro

Τηλεπικοινωνιακά Συστήματα Ι

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

Καινοτόµο σύστηµα αξιοποίησης φυσικού φωτισµού µε αισθητήρες στο επίπεδο εργασίας

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Στόχος της ψυχολογικής έρευνας:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Ειδικά Θέματα Ακουστικού Σχεδιασμού και Πολυμέσων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Χαρακτηρισµός Νεοπλασµάτων στη Μαστογραφία από το Σχήµα της Παρυφής µε χρήση Νευρωνικών ικτύων

ΠΡΟΤΥΠΟ ΣΧΕΔΙΟ ΣΥΓΓΡΑΦΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ ΣΕ ΣΥΝΕΠΙΒΛΕΨΗ

ΠΑΡΑΜΕΤΡΟΠΟΙΗΣΗ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ ΓΙΑ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΟΣ ΟΜΙΛΗΤΗ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΜΕΛΕΤΗ ΓΝΩΣΤΙΚΩΝΝ ΡΑΔΙΟΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Διακριτικές Συναρτήσεις

Μελέτη Επίδοσης Συστημάτων Πολλαπλών Εισόδων Πολλαπλών Εξόδων

ΣΧΟ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Τομέας Ρευστών Εργαστήριο Θερμικών Στροβιλομηχανών

Σχεδιασμός και Διεξαγωγή Πειραμάτων

þÿ ¼ ¼± Ä Â ÆÅùº  ÃÄ ½

ΕΚΠΑΙΔΕΥΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ Is είναι βιώσιμη η επιχείρηση

RobotArmy Περίληψη έργου

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ελεύθερη Έκφραση Απόψεων: Εμπειρική μελέτη σε εργαζόμενους σε οργανισμούς πληροφόρησης

Επικοινωνία Ανθρώπου Υπολογιστή. Β2. Αναγνώριση ομιλίας

Συστήµατα καταγραφής συναισθηµάτων Affective Computing. Παπασωτήρης Γεώργιος ΓΤΠ61

Transcript:

ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΟΜΙΛΙΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ ΚΑΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Διδακτορική Διατριβή του Θεόδωρου Παναγιώτη Κωστούλα Διπλωματούχου Ηλεκτρολόγου Μηχανικού και Τεχνολογίας Υπολογιστών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Αρ. Διατριβής: 284 Πάτρα, Φεβρουάριος 2012

(Η σελίδα αυτή είναι σκοπίμως κενή) 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Διδακτορική Διατριβή του Θεόδωρου Παναγιώτη Κωστούλα Διπλωματούχου Ηλεκτρολόγου Μηχανικού και Τεχνολογίας Υπολογιστών που υποβλήθηκε στο ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ με τίτλο ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΑΠΟ ΟΜΙΛΙΑ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ ΚΑΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Πάτρα, Φεβρουάριος 2012 3

(Η σελίδα αυτή είναι σκοπίμως κενή) 4

5

(Η σελίδα αυτή είναι σκοπίμως κενή) 6

ΜΕΛΗ ΕΞΕΤΑΣΤΙΚΗΣ ΕΠΙΤΡΟΠΗΣ Νικόλαος Φακωτάκης, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, Δ/ντης Τομέα Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας (Επιβλέπων Καθηγητής). Ιωάννης Μουτζόπουλος, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών (Μέλος Συμβουλευτικής Επιτροπής). Ευάγγελος Δερματάς, Αναπληρωτής Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών (Μέλος Συμβουλευτικής Επιτροπής). Αντώνιος Τζες, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής). Νικόλαος Αβούρης, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής). Αθανάσιος Τσακαλίδης, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Μηχ. Ηλεκτρονικών Υπολογιστών και Πληροφορικής) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής). Γεώργιος Κουρουπέτρογλου, Αναπληρωτής Καθηγητής (Τμ. Πληροφορικής και Τηλεπικοινωνιών) του Πανεπιστημίου Αθηνών (Μέλος Εξεταστικής Επιτροπής). 7

(Η σελίδα αυτή είναι σκοπίμως κενή) 8

Αφιερώνεται στους γονείς μου, Παναγιώτη και Αριάδνη και στον αδερφό μου Πολυχρόνη 9

(Η σελίδα αυτή είναι σκοπίμως κενή) 10

ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα διδακτορική διατριβή εκπονήθηκε στο Εργαστήριο Ενσύρματης Τηλεπικοινωνίας του τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών. Σε αυτό το σημείο θα ήθελα να ευχαριστήσω θερμά για τη συμβολή τους στην ολοκλήρωση αυτής της εργασίας: Καταρχάς, τον Διευθυντή του τομέα Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας, Δ/ντή του Εργαστηρίου Ενσύρματης Τηλεπικοινωνίας και Επιβλέποντα Καθηγητή μου κ. Νίκο Φακωτάκη για την καθοδήγησή που μου προσέφερε, τις πολύτιμες συμβουλές του, τη δυνατότητα που μου έδωσε να διεξάγω έρευνα με τη διασφάλιση των απαραίτητων συνθηκών, και τη συμβολή του για τη συγγραφή της εργασίας. Επίσης, θέλω να ευχαριστήσω θερμά τα μέλη της Τριμελούς Συμβουλευτικής Επιτροπής, Καθηγητή κ. Ιωάννη Μουρτζόπουλο και Αναπληρωτή Καθηγητή κ. Ευάγγελο Δερματά για την καθοδήγησή τους κατά τη διάρκεια της εκπόνησης της διατριβής. Θα ήθελα, ακόμα, να ευχαριστήσω τον συνάδελφο Δρ. Todor Ganchev του οποίου η βοήθεια και συνεργασία ήσαν πολύτιμες. Επίσης, θα ήθελα να ευχαριστήσω θερμά τους φίλους Δρ. Ιωσήφ Μπόρα και Δρ. Αλέξανδρο Λαζαρίδη, όπως και όλους τους συναδέλφους μου στην Ομάδα Τεχνητής Νοημοσύνης για το όμορφο κλίμα συνεργασίας που έχουν δημιουργήσει. Τέλος, ευχαριστώ θερμά την οικογένειά μου, που είναι πάντα δίπλα μου σε όλη μου τη ζωή. 11

(Η σελίδα αυτή είναι σκοπίμως κενή) 12

ΠΕΡΙΛΗΨΗ Η παρούσα διατριβή με τίτλο "Αναγνώριση Συναισθημάτων από Ομιλία με Xρήση Τεχνικών Ψηφιακής Επεξεργασίας Σήματος και Μηχανικής Μάθησης" υποβλήθηκε στο Πανεπιστήμιο Πατρών για τη μερική εκπλήρωση των υποχρεώσεων όσον αφορά στην απόκτηση Διδακτορικού τίτλου. Η διατριβή είναι οργανωμένη ως εξής: Στο Κεφάλαιο 1 παρουσιάζεται μια γενική επισκόπηση του ερευνητικού χώρου επικοινωνίας ανθρώπου μηχανής. Στη συνέχεια, παρουσιάζεται η αναγκαιότητα ύπαρξης συστήματος αναγνώρισης συναισθημάτων από ομιλία και δίνεται μια περιγραφή των κύριων προσεγγίσεων στη διεθνή βιβλιογραφία. Τέλος, αναφέρουμε τη συνεισφορά της διατριβής και περιγράφουμε τη δομή αυτής. Στο Κεφάλαιο 2 εισάγουμε τον αναγνώστη στο χώρο της αναγνώρισης συναισθημάτων από ομιλία. Συγκεκριμένα, γίνεται μια εισαγωγή στα ευρέως υιοθετημένα μοντέλα συναισθημάτων, και στον χώρο της αναγνώρισης συναισθημάτων από ομιλία, με έμφαση στην αναγνώριση συναισθημάτων από ομιλία με χρήση ακουστικής πληροφορίας, που είναι το αντικείμενο της διδακτορικής διατριβής. Στο Κεφάλαιο 3 περιγράφεται η αρχική μελέτη της συμπεριφοράς ενός ολοκληρωμένου συστήματος αναγνώρισης συναισθημάτων από ομιλία με δέντρα απόφασης. Η συμπεριφορά του συστήματος μελετάται σε προσποιητή ομιλία, σε διαφορετικές συνθήκες θορύβου και συγκρίνεται με υποκειμενική αξιολόγηση ακροατών. Στο Κεφάλαιο 4 παρουσιάζεται η διαδικασία για τη δημιουργία πραγματικών δεδομένων που εξυπηρετούν την έρευνα στο χώρο της αναγνώρισης συναισθηματικών καταστάσεων σε πραγματικά δεδομένα. Προτείνεται ένα σύστημα το οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο εξαρτημένου και ανεξάρτητου ομιλητή πρόβλημα, με χρήση μοντέλου Γκαουσιανών κατανομών. Η προτεινόμενη αρχιτεκτονική συνδυάζει εξαγωγή παραμέτρων ομιλίας χαμηλού και υψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα. Στο Κεφάλαιο 5 παρουσιάζεται η πρακτική εφαρμογή ενός συστήματος αναγνώρισης συναισθημάτων βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών σε διαφορετικούς τύπους δεδομένων πραγματικής ζωής: για υποστήριξη ατόμων με νοητική δυσλειτουργία και εντοπισμό συναισθημάτων σε μη-τυπικές καταστάσεις σε διαφορετικά περιβάλλοντα. Επίσης, περιγράφεται η διαδικασία βελτίωσης ενός συστήματος αναγνώρισης συναισθημάτων με επιλογή παραμετρικού διανύσματος. Στο Κεφάλαιο 6 προτείνεται μια νέα μεθοδολογία για μοντελοποίηση συνυπαρχουσών συναισθηματικών καταστάσεων, όπως αυτές εμφανίζονται σε οποιαδήποτε δεδομένα πραγματικής ζωής. Δείχνουμε ότι το σύστημα επιτυγχάνει υψηλότερη απόδοση σε σχέση με τρέχουσες τεχνολογίες και είναι εφαρμόσιμο σε πραγματικά δεδομένα. Στο Κεφάλαιο 7 γίνεται μια γενική επισκόπηση της διατριβής και δίνονται μελλοντικές κατευθύνσεις. 13

(Η σελίδα αυτή είναι σκοπίμως κενή) 14

ABSTRACT The present dissertation entitled "Emotion Recognition from Speech Using Digital Signal Processing and Machine Learning Techniques" was submitted to the University of Patras, in partial fulfillment of the requirements for the degree of Doctor of Philosophy. The dissertation is structured as follows: In Chapter 1, an introduction to human-computer interaction is presented. The importance as well as the necessity of emotion recognition from speech is outlined, together with the main directions in the research area of emotion recognition. Finally, the contribution of the Thesis and its structure are presented. In Chapter 2, the reader is introduced to more details on the area of emotion recognition from speech. Specifically, the globally inherited emotion models are introduced, and there follows an introduction to emotion recognition from speech signal, utilizing the acoustic information, which is topic of the present Thesis. In Chapter 3 a initial study on a complete end-to-end emotion recognition from speech system is presented, which is based on decision trees. The evaluation of the system is performed on acted speech data both without noise and in various type of noise conditions, and compared to subjective evaluation of humans. In Chapter 4 the process of designing, and implementing a real world speech corpus of emotions, which serves the purpose of conducting research in the area of emotion recognition from real-life speech is described. The system suggested is designed to detect negative emotional states in real world conditions, both in speaker dependent and speaker independent mode using Gaussian Mixture Models, (GMM). The suggested architecture utilizes low and high level descriptors for constructing the feature vector. In Chapter 5 a emotion recognition system based on Universal Background Model, (UBM-GMM), is evaluated-integrated and evaluated for different kind of real-world data: for the purpose of supporting patients with mental disorders and evaluated for detecting emotions in atypical event situations, respectively. Further, the improvement of an emotion recognition system utilizing speech parameter selection is presented. In Chapter 6 a novel method for modeling co-occurrence of affective states, as they appear in real life speech is proposed. The proposed architecture leads to significant improvement over a number of affective states. In Chapter 7 a summary and conclusion of the work together with future directions are presented. 15

(Η σελίδα αυτή είναι σκοπίμως κενή) 16

ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγή... 25 1.1 Επισκόπηση κύριων κατευθύνσεων στη διεθνή βιβλιογραφία... 25 1.2 Συνεισφορά της διατριβής... 27 1.3 Δομή και παρουσίαση της διατριβής... 28 Κεφάλαιο 2 Εισαγωγή στην Αναγνώριση Συναισθημάτων... 31 2.1 Εισαγωγή... 31 2.2 Μοντέλα συναισθημάτων... 31 2.2.1 Διακριτά μοντέλα συναισθημάτων... 32 2.2.2 Πολυδιάστατα μοντέλα συναισθημάτων... 33 2.3 Αναγνώριση συναισθημάτων από ομιλία... 34 Κεφάλαιο 3 Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων... 37 3.1 Εισαγωγή... 37 3.2 Περιγραφή του συστήματος... 39 3.3 Πειραματική διαδικασία και αποτελέσματα... 42 3.3.1 Βάση δεδομένων... 43 3.3.2 Καθορισμός παραμέτρων πειραματικής διαδικασίας... 43 3.3.3 Πειραματικά αποτελέσματα χωρίς θόρυβο... 44 3.3.4 Αξιολόγηση ηχογραφήσεων από ακροατές... 46 3.3.5 Πειραματικά αποτελέσματα σε περιβάλλον θορύβου... 47 3.4 Συμπεράσματα... 49 Κεφάλαιο 4 Αναγνώριση Συναισθημάτων με Χρήση Μοντέλου Γκαουσιανών Κατανομών 51 4.1 Εισαγωγή... 51 4.2 Πραγματικά δεδομένα... 52 4.2.1 Σκοπός... 53 4.2.2 Σχεδιασμός και μεθοδολογία... 54 4.2.3 Ηχογραφήσεις... 56 4.2.4 Επισημείωση δεδομένων... 57 4.3 Περιγραφή του συστήματος... 59 4.4 Πειραματική διαδικασία και αποτελέσματα... 61 4.4.1 Εξαρτημένου ομιλητή... 61 4.4.2 Ανεξαρτήτου ομιλητή... 66 4.5 Τροποποίηση του συστήματος: Μίξη αποφάσεων κατηγοριοποιητών... 68 4.6 Αποτελέσματα για το τροποποιημένο σύστημα... 70 4.7 Ενσωμάτωση συστήματος αναγνώρισης συναισθημάτων... 71 4.7.1 Αρχιτεκτονική του διαλογικού συστήματος... 72 4.7.2 Αξιολόγηση ενσωματωμένου συστήματος... 74 4.8 Συμπεράσματα... 76 Κεφάλαιο 5 Αναγνώριση Συναισθημάτων με Χρήση Οικουμενικού Μοντέλου Γκαουσιανών Κατανομών... 77 5.1 Εισαγωγή... 77 5.2 Περιγραφή του συστήματος... 77 5.3 Αναγνώριση συναισθημάτων για υποστήριξη ατόμων με νοητικές δυσλειτουργίες... 80 5.3.1 Σχεδιασμός και υλοποίηση βάσης δεδομένων για υποστήριξη ατόμων με νοητικές δυσλειτουργίες... 82 5.3.2 Αξιολόγηση του συστήματος αναγνώρισης συναισθημάτων... 87 5.3.3 Ενσωμάτωση συστήματος αναγνώρισης συναισθημάτων... 89 5.4 Αναγνώριση μη τυπικών καταστάσεων σε πραγματικά γεγονότα... 93 17

5.4.1 Βάση δεδομένων... 94 5.4.2 Πειραματική διαδικασία και αποτελέσματα... 96 5.5 Αναγνώριση συναισθημάτων με επιλογή παραμέτρων ομιλίας... 98 5.5.1 Βάση συναισθηματικής ομιλίας... 100 5.5.2 Πειραματική διαδικασία και αποτελέσματα... 101 5.6 Συμπεράσματα... 105 Κεφάλαιο 6 Αναγνώριση Συναισθημάτων μέσω Μοντελοποίησης Συνυπαρχουσών Καταστάσεων 107 6.1 Εισαγωγή... 107 6.2 Μεθοδολογία... 109 6.2.1 Ιδέα... 109 6.2.2 Υλοποίηση της ιδέας... 111 6.2.3 Παράδειγμα... 112 6.3 Πειραματική διαδικασία... 114 6.3.1 Βάση δεδομένων συναισθηματικών καταστάσεων... 115 6.3.2 Παραμετροποίηση ομιλίας... 116 6.3.3 Πρώτο στάδιο: Κατηγοριοποιητές μη επικαλυπτόμενων ζευγαριών.. 116 6.3.4 Δεύτερο στάδιο: μοντέλα συναισθηματικών καταστάσεων... 117 6.3.5 Σύστημα αναφοράς... 117 6.4 Πειραματικά αποτελέσματα... 118 6.5 Συμπεράσματα... 120 Κεφάλαιο 7 Συμπεράσματα και Μελλοντικές Κατευθύνσεις... 123 7.1 Συμπεράσματα... 123 7.2 Μελλοντικές κατευθύνσεις... 125 Δημοσιεύσεις-Αναφορές Τρίτων... 127 Δημοσιεύσεις σε διεθνή περιοδικά... 127 Δημοσιεύσεις σε βιβλία... 129 Δημοσιεύσεις σε συνέδρια... 130 Τεχνικές αναφορές... 132 Αναφορές σε εργασίες τρίτων... 134 Βιβλιογραφία... 141 18

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 3-1 Ποσοστά εκτίμησης ανά κατηγορία (αναγνώριση συναισθημάτων σε επίπεδο πλαισίου ομιλίας)... 45 Πίνακας 3-2 Ποσοστά εκτίμησης ανά κατηγορία (αναγνώριση συναισθημάτων σε επίπεδο πρότασης)... 45 Πίνακας 3-3 Αξιολόγηση παραμέτρων ομιλίας... 46 Πίνακας 3-4 Αξιολόγηση των ηχογραφήσεων από ακροατές... 47 Πίνακας 3-5 Απόδοση συστήματος σε διαφορετικά περιβάλλοντα... 47 Πίνακας 4-1 Σύνοψη των περιεχομένων των 10 καρτών ενεργειών... 56 Πίνακας 4-2 Κατανομές φύλου ανά περίοδο ηλικίας για τους συμμετέχοντες... 57 Πίνακας 4-3 Αριθμός συμμετεχόντων σε σχέση με την περιοχή καταγωγής... 57 Πίνακας 4-4 Αριθμός προτάσεων για τις οποίες δεν μπορεί να ληφθεί απόφαση ανάλογα με το όριο επισημειωτών που πρέπει να συμφωνούν... 58 Πίνακας 5-1 Παραδείγματα ερωτήσεων και σχετικών συναισθηματικών απαντήσεων... 84 Πίνακας 5-2 Κατανομή συμμετεχόντων ανά ομάδες ηλικιών και φύλο... 86 Πίνακας 5-3 Κατανομή συμμετεχόντων ανά καταγωγή και φύλο... 86 Πίνακας 5-4 Αποτελέσματα για διαφορετικό αριθμό mixture components, υπό μορφή EER... 88 Πίνακας 5-5 Βέλτιστη απόδοση των ανιχνευτών συναισθηματικών καταστάσεων... 97 Πίνακας 5-6 Επιλεγμένες παράμετροι ομιλίας... 102 Πίνακας 5-7 Ποσοστά εκτίμησης ανά κατηγορία συναισθήματος του βελτιστοποιημένου συστήματος αναγνώρισης` συναισθημάτων στην καθορισμένη πειραματική διαδικασία από το διαγωνισμό Interspeech 2009 Emotion Challenge. 104 Πίνακας 6-1 Ποσοστά εκτίμησης ανά κατηγορία συναισθήματος για το σύστημα αναφοράς... 119 Πίνακας 6-2 Ποσοστά εκτίμησης ανά κατηγορία συναισθήματος για τη δυ-σταδιακή αρχιτεκτονική κατηγοριοποίησης... 119 19

(Η σελίδα αυτή είναι σκοπίμως κενή) 20

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Σχήμα 2-1 Μοντέλο OCC (Ortony et al., 1990)... 32 Σχήμα 2-2 Δισδιάστατο μοντέλο συναισθημάτων σθένους-ενεργοποίησης... 33 Σχήμα 2-3 Υπολογιστικό σύστημα αναγνώρισης και απόκρισης συναισθημάτων... 34 Σχήμα 2-4 Επισημείωση δεδομένων με χρήση δισδιάστατου μοντέλου συναισθημάτων σθένους-ενεργοποίησης (εργαλείο Feeltrace)... 35 Σχήμα 2-5 Παράμετροι ομιλίας χαμηλού επιπέδου (Low Level Descriptors), και παράμετροι ομιλίας σε επίπεδο πρότασης (Sentence Level Features)... 36 Σχήμα 3-1 Αρχιτεκτονική Συστήματος Αναγνώρισης Συναισθημάτων... 40 Σχήμα 3-2 Αρμονικότητα συναρτήσει του χρόνου για ένα σήμα ομιλίας... 42 Σχήμα 3-3 Απόδοση συστήματος σε διαφορετικά περιβάλλοντα: Περίπτωση α... 48 Σχήμα 3-4 Απόδοση συστήματος σε διαφορετικά περιβάλλοντα: Περίπτωση β... 48 Σχήμα 4-1 Χώρος διεξαγωγής πειραμάτων του διαλογικού συστήματος έξυπνου σπιτιού... 55 Σχήμα 4-2 Αρχιτεκτονική του ανιχνευτή αρνητικών συναισθηματικών καταστάσεων... 60 Σχήμα 4-3Ποσοστά αναγνώρισης για προσποιητή ομιλία και διαφορετικά όρια απόφασης... 63 Σχήμα 4-4Ποσοστά αναγνώρισης για πραγματικά δεδομένα ομιλίας και διαφορετικά όρια απόφασης... 63 Σχήμα 4-5Ποσοστά αναγνώρισης για πραγματικά δεδομένα ομιλίας και διαφορετικά όρια απόφασης, με λόγο συμφωνία επισημειωτών μεγαλύτερο από 5/7.... 64 Σχήμα 4-6 Καμπύλες DET για την αξιολόγηση των DNES.... 65 Σχήμα 4-7 Καμπύλες DET για την αξιολόγηση του ανιχνευτή αρνητικών συναισθημάτων για τις τρείς βάσεις δεδομένων... 68 Σχήμα 4-8 Σύστημα αναγνώρισης συναισθημάτων με μίξη αποφάσεων σε επίπεδο πρότασης... 69 Σχήμα 4-9 Καμπύλες DET για τα πραγματικά δεδομένα: με μίξη αποφάσεων ( w 0.2 ) και χωρίς ( w 0 )... 71 Σχήμα 4-10 Αρχιτεκτονική της διαλογικής πλατφόρμας έξυπνου σπιτιού... 73 Σχήμα 4-11 Καμπύλες DET για εξαρτημένου (Speaker Dependent) και ανεξάρτητου (Speaker Independent) αναγνώριση συναισθημάτων... 75 Σχήμα 5-1 Αρχιτεκτονική του συστήματος αναγνώρισης συναισθημάτων... 79 Σχήμα 5-2 Παραμετροποίηση Ομιλίας... 79 Σχήμα 5-3 Γραφικό περιβάλλον που χρησιμοποιήθηκε για την ηχογράφηση των RS001 και RS002... 84 Σχήμα 5-4 Ποσοστά εκτίμησης ανά κατηγορία συναισθήματος (%)... 88 Σχήμα 5-5 DET καμπύλες για τους ανιχνευτές συναισθηματικών καταστάσεων για τα βέλτιστα αποτελέσματα: ανιχνευτής Θυμού (πράσινη διακεκομμένη με τελείες γραμμή), ανιχνευτής Βαρεμάρας (μπλε διακεκομμένη με παύλες γραμμή, κόκκινη γραμμή)... 89 Σχήμα 5-6 Αρχιτεκτονική της πλατφόρμας σοβαρών παιγνίων... 91 Σχήμα 5-7 (a) Επίδραση του αριθμού των mixture components στην απόδοση των ανιχνευτών συναισθηματικών καταστάσεων, (b) Βέλτιστες καμπύλες DET για τα διαφορετικά σενάρια και τους διαφορετικούς ανιχνευτές συναισθηματικών καταστάσεων... 97 Σχήμα 5-8 UA recall στα δεδομένα επικύρωσης για παραμετρικά διανύσματα των 1,2,, 56 παραμέτρων ομιλίας... 103 21

Σχήμα 6-1 Δομικό διάγραμμα της δυ-σταδιακής αρχιτεκτονικής κατηγοριοποίησης... 113 Σχήμα 6-2 Αλγόριθμος για τον προσδιορισμό των κατηγοριοποιητών μηεπικαλυπτομενων ζευγαριών... 115 Σχήμα 6-3 Σύγκριση με πρόσφατη έρευνα (Schuller et al., 2011), Fig. 4... 122 22

ΛΕΞΙΚΟ ΤΕΧΝΙΚΩΝ ΟΡΩΝ Artificial Intelligence (AI) - Τεχνητή νοημοσύνη Automatic Speech Recognition (ASR) - Αυτόματη αναγνώριση ομιλίας Equal Error Rate (EER) - Σημείο ίσων σφαλμάτων Gaussian Mixture Model (GMM) - Γενικό μοντέλο Γκαουσιανών κατανομών Harmonics to noise ratio (HNR) - Αρμονικότητα Hidden Markov Model (HMM) - Κρυμμένα μοντέλα Markov Low level Descriptors (LLD) - Παράμετροι ομιλίας χαμηλού επιπέδου Maximum a-posteriori probability (MAP) - μέγιστη εκ των υστέρων πιθανότητα Maximum Likelihood (ML) - Μέγιστη Πιθανοφάνεια Mel frequency cepstral coefficients (MFCC) - cepstral συντελεστές της κλίμακας mel Pitch - Θεμελιώδης συχνότητα Radial basis function (RBF) - Συνάρτηση ακτινικής βάσης Root mean square (RMS) - Τετραγωνική ρίζα του μέσου Sequential floating forward selection (SFFS) - ακολουθιακή εμπρόσθια επιλογή Signal to Noise Ratio (SNR) - Λόγος σήματος προς θόρυβο Support Vector Machines (SVM) - Μηχανές υποστήριξης διανυσμάτων Universal Background Model (UBM) - Οικουμενικό μοντέλο Universal Background Model -Gaussian Mixture Model (UBM-GMM) - Οικουμενικό μοντέλο Γκαουσιανών κατανομών 23

(Η σελίδα αυτή είναι σκοπίμως κενή) 24

Κεφάλαιο 1 Εισαγωγή Η ομιλία αποτελεί τον πλέον φυσικό και διαδεδομένο τρόπο επικοινωνίας Με τη ραγδαία πρόοδο της τεχνολογίας, η χρήση φιλικών διεπαφών χρήστη είναι απαραίτητη (Cowie et al., 2001). Καθ όλη την διάρκεια αλληλεπίδρασης του τελικού χρήστη με τη μηχανή, είναι αναγκαία η εξασφάλιση ενός ευχάριστου περιβάλλοντος. Επίσης, είναι γνωστό ότι καθένας, ως συναισθηματικό πλάσμα, αρέσκεται στο να αλληλεπιδρά με συναισθηματικούς οργανισμούς. Συνεπώς, η πληροφορία που αφορά την συναισθηματική κατάσταση του τελικού χρήστη, κατά τη διάρκεια αλληλεπίδρασής του με μία μηχανή, είναι εξαιρετικά χρήσιμη και μπορεί να συμβάλει σε πιο φιλική και αποτελεσματική επικοινωνία ανάμεσα στον άνθρωπο και στην μηχανή (Pantic and Rothkrantz, 2003). Επομένως, η γνώση της συναισθηματικής κατάστασης ενός χρήστη καθιστά εφικτές πιο επιτυχημένες εμπειρίες αλληλεπίδρασης ανθρώπου-μηχανής (Cowie et al., 2001). 1.1 Επισκόπηση κύριων κατευθύνσεων στη διεθνή βιβλιογραφία Οι αρχικές προσεγγίσεις, για αναγνώριση συναισθημάτων από ομιλία, εντρύφησαν ως επί το πλείστον στην αναγνώριση συναισθημάτων από προσποιητή ομιλία. Ωστόσο, σε πραγματικές εφαρμογές, τα συναισθήματα εκφράζονται με πολύ διαφορετικό τρόπο και χαρακτηρίζονται από αυθόρμητες εκφράσεις. Επομένως, αποτελέσματα με αναφορές έως και 100% για προσποιητή ομιλία δεν μπορούν να υποστηριχτούν σε πραγματικά δεδομένα, με την απόδοση συστημάτων που χρησιμοποιούν τρέχουσα τεχνολογία να κυμαίνονται σε λιγότερο από 80 % για ένα 25

Κεφάλαιο 1 πρόβλημα κατηγοριοποίησης δύο καταστάσεων και λιγότερο από 60 % για ένα πρόβλημα κατηγοριοποίησης τεσσάρων καταστάσεων (Batliner et al., 2008; Callejas and López-Cózar, 2008; Devillers and Vidrascu, 2006; Lee and Narayanan, 2005; Lugger and Yang, 2007; Schuller et al., 2005; Seppi et al., 2008; Steidl, 2009). Παρά την ευρεία έρευνα που έχει διεξαχθεί τα τελευταία χρόνια στο χώρο της αναγνώρισης συναισθημάτων. Oι περισσότερες ερευνητικές εργασίες δεν προσφέρονται για αποτελεσματική σύγκριση των αποτελεσμάτων τους, αφού δεν υπήρχε κάποιο εν γένει αποδεκτό και συχνά χρησιμοποιούμενο πρωτόκολλο πειραματικής διαδικασίας. Ωστόσο, πρόσφατες πρωτοβουλίες εντρύφησαν στην εδραίωση και χρησιμοποίηση ενός γενικού πρωτόκολλου πειραματικής διαδικασίας (Kockmann et al., 2009; Kostoulas et al., 2011; Schuller et al., 2009). Η βελτίωση της επικοινωνίας ανθρώπου-μηχανής με την χρησιμοποίηση συστήματος αναγνώρισης συναισθημάτων θεωρείται ένα σημαντικό βήμα για φιλική επικοινωνία ανθρώπου-μηχανής. Επομένως, αρκετά ερευνητικά προγράμματα με κατεύθυνση και στην εφαρμοσμένη έρευνα έχουν ασχοληθεί με διάφορες πτυχές της αναγνώρισης συναισθημάτων. Το πρόγραμμα HUMAINE (HUMAINE, 2009) είναι ένα από τα πρωτοπόρα που έθεσαν τις βάσεις για έρευνα και ανάπτυξη στο χώρο της αναγνώρισης συναισθημάτων. Συγκεκριμένα, στόχος του προγράμματος είναι η εδραίωση υποδομών για την ανάπτυξη συστημάτων που λαμβάνουν υπόψη τους την συναισθηματική κατάσταση του χρήστη και αποκρίνονται ανάλογα. Επιπλέον, καθορίζει έξι θεματικές περιοχές, οι οποίες επιχειρούν να δημιουργήσουν ένα πλαίσιο-γέφυρα συνεργασίας σε παραδοσιακές ερευνητικές περιοχές: διεπαφές νοηματικής γλώσσας, δομές συναισθηματικών αλληλεπιδράσεων, συναισθήματα και γνωστική λειτουργία και δράση, συναισθήματα κατά την επικοινωνία ανθρώπων, χρηστικότητα συστημάτων που λαμβάνουν υπόψη τους τη συναισθηματική κατάσταση χρήστη. Το πρόγραμμα Semaine (SEMAINE, 2010) είχε σαν σκοπό τη χρήση πολυαισθητήριου διαλογικού συστήματος, που θα αντιλαμβάνεται και θα αποκρίνεται με συναισθήματα. Συγκεκριμένα, το πολυαισθητήριο διαλογικό σύστημα θα είχε τη δυνατότητα να αλληλεπιδρά με τους ανθρώπους μέσω ενός εικονικού βοηθού, να διατηρεί την αλληλεπίδραση με το χρήστη για κάποιο χρονικό διάστημα, και να αντιδρά ανάλογα με τη μη-λεκτική συμπεριφορά του χρήστη. Επιπλέον, ένα ενδιαφέρον ερευνητικό πρόγραμμα που χρησιμοποιεί σύστημα αναγνώρισης συναισθημάτων είναι το PlayMancer (PlayMancer). Σε αυτό το 26

Εισαγωγή πρόγραμμα, το σύστημα αναγνώρισης συναισθημάτων τροφοδοτεί ένα παιχνίδι ειδικά σχεδιασμένο για ασθενείς με νοητικές δυσλειτουργίες, προκειμένου να αλλάξει την στρατηγική παιχνιδιού, ανάλογα με το συναίσθημα του παίκτη. Απώτερος σκοπός είναι ο παίκτης-ασθενής να μάθει να ελέγχει τα αρνητικά συναισθήματά του, ώστε να βελτιώσει την ποιότητα ζωής του στην καθημερινότητά του. 1.2 Συνεισφορά της διατριβής Η παρούσα διατριβή προτείνει καινοτόμες μεθόδους σε μια σειρά από εφαρμογές που αξιοποιούν σύστημα αναγνώρισης συναισθηματικών καταστάσεων. Ο βασικός στόχος των μεθόδων είναι η αντιμετώπιση των προκλήσεων που παρουσιάζονται όταν ένα σύστημα αναγνώρισης συναισθηματικών καταστάσεων καλείται να λειτουργήσει σε πραγματικές συνθήκες, με αυθόρμητες αντιδράσεις, ανεξαρτήτως ομιλητή. Πιο συγκεκριμένα η διατριβή εμπεριέχει: Κεφάλαιο 3: Αξιολογείται η συμπεριφορά ενός συστήματος αναγνώρισης συναισθημάτων σε προσποιητή ομιλία (c14). Μελετάται η απόδοση του συστήματος σε σύγκριση με υποκειμενική αξιολόγηση ακροατών (c14). Αξιολογείται η απόδοση του συστήματος σε συνθήκες θορύβου (c12). Κεφάλαιο 4: Σχεδιάζονται και υλοποιούνται πραγματικά δεδομένα, όπως αυτά προκύπτουν από την αλληλεπίδραση μη-έμπειρων χρηστών με διαλογικό σύστημα (c8). Αξιολογείται σύστημα αναγνώρισης συναισθημάτων με χρήση μοντέλου Γκαουσιανών κατανομών σε σχέση με προσποιητή ομιλία για το πρόβλημα αναγνώρισης συναισθημάτων εξαρτημένου ομιλητή (c11) και ανεξάρτητου ομιλητή (b6). Προτείνεται ένα σύστημα το οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο ανεξάρτητου ομιλητή πρόβλημα, με χρήση μοντέλου Γκαουσιανών κατανομών (b6). Η προτεινόμενη αρχιτεκτονική συνδυάζει εξαγωγή παραμέτρων ομιλίας χαμηλού και υψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα. Παρουσιάζεται η ενσωμάτωση του συστήματος αναγνώρισης συναισθημάτων σε διαλογικό σύστημα (c11). Κεφάλαιο 5: Μελετάται η συμπεριφορά ενός συστήματος αναγνώρισης συναισθημάτων, βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών, σε περιβάλλον σοβαρών παιγνίων. Συγκεκριμένα, σχεδιάζονται και υλοποιούνται πραγματικά δεδομένα για το αντίστοιχο περιβάλλον (c2), αξιολογείται το σύστημα στα πραγματικά δεδομένα (j2), και ενσωματώνεται το σύστημα στην πλατφόρμα των 27

Κεφάλαιο 1 σοβαρών παιγνίων (j2) (j4). Επίσης, μελετάται η απόδοση του συστήματος με χρησιμοποίηση διαφορετικών δεδομένων εκπαίδευσης και δοκιμής, και αξιολογείται η απόδοση του συστήματος σε μη τυπικές καταστάσεις (b1). Επιπλέον, μελετάται η επιλογή παραμέτρων ομιλίας για την βελτίωση ενός συστήματος αναγνώρισης συναισθημάτων, στα πλαίσια πειραματικής διαδικασίας που ορίστηκε από διεθνή διαγωνισμό, και καθορίζεται βέλτιστο παραμετρικό διάνυσμα που οδηγεί σε βελτίωση της απόδοσης του συστήματος σε σχέση με το σύστημα αναφοράς (b2). Κεφάλαιο 6: Προτείνεται μια καινοτόμα μεθοδολογία για μοντελοποίηση συναισθηματικών καταστάσεων, όπως αυτές συνυπάρχουν στον ανθρώπινο εγκέφαλο (j1). Υλοποιείται σύστημα αναγνώρισης συναισθημάτων βασισμένο στη προηγούμενη μεθοδολογία (j1). Αξιολογείται το σύστημα αναγνώρισης συναισθημάτων και αποδεικνύεται ότι το σύστημα επιτυγχάνει υψηλότερη απόδοση σε σχέση με τρέχουσες τεχνολογίες και είναι εφαρμόσιμο σε πραγματικά δεδομένα (j1). 1.3 Δομή και παρουσίαση της διατριβής Η διατριβή είναι δομημένη ως εξής: Στο Κεφάλαιο 2 εισάγουμε τον αναγνώστη στο χώρο της αναγνώρισης συναισθημάτων από ομιλία. Συγκεκριμένα, παρουσιάζονται διαφορετικές κατηγορίες προβλημάτων στο χώρο της αναγνώρισης συναισθημάτων, με έμφαση στις προκλήσεις της κάθε κατηγορίας. Στο Κεφάλαιο 3 περιγράφεται η αρχική μελέτη της συμπεριφοράς ενός ολοκληρωμένου συστήματος αναγνώρισης συναισθημάτων από ομιλία με δέντρα απόφασης. Η συμπεριφορά του συστήματος ερευνάται σε προσποιητή ομιλία και σε διαφορετικές συνθήκες θορύβου, και συγκρίνεται με υποκειμενική αξιολόγηση ακροατών. Στο Κεφάλαιο 4 παρουσιάζεται η διαδικασία για τη δημιουργία πραγματικών δεδομένων που εξυπηρετούν την έρευνα, στο χώρο της αναγνώρισης συναισθηματικών καταστάσεων σε πραγματικά δεδομένα και προτείνεται ένα σύστημα, το οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο εξαρτημένου και ανεξάρτητου ομιλητή πρόβλημα, αντίστοιχα, με χρήση μοντέλου Γκαουσιανών κατανομών. Η προτεινόμενη αρχιτεκτονική συνδυάζει εξαγωγή 28

Εισαγωγή παραμέτρων ομιλίας χαμηλού και υψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα. Στο Κεφάλαιο 5 παρουσιάζεται η πρακτική εφαρμογή ενός συστήματος αναγνώρισης συναισθημάτων βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών σε διαφορετικούς τύπους δεδομένων πραγματικής ζωής: για υποστήριξη ατόμων με νοητικές διαταραχές και εντοπισμό συναισθημάτων σε μη-τυπικές καταστάσεις σε διαφορετικά περιβάλλοντα. Επίσης, παρουσιάζεται η βελτίωση ενός συστήματος αναγνώρισης συναισθημάτων με επιλογή παραμετρικού διανύσματος. Στο Κεφάλαιο 6 προτείνεται μια νέα μεθοδολογία για μοντελοποίηση συνυπαρχουσών συναισθηματικών καταστάσεων, όπως αυτές εμφανίζονται σε οποιαδήποτε δεδομένα πραγματικής ζωής. Δείχνουμε ότι το σύστημα επιτυγχάνει υψηλότερη απόδοση σε σχέση με τρέχουσες τεχνολογίες και είναι εφαρμόσιμο σε πραγματικά δεδομένα. Στο Κεφάλαιο 7 γίνεται μια γενική επισκόπηση της διατριβής και δίνονται μελλοντικές κατευθύνσεις. 29

(Η σελίδα αυτή είναι σκοπίμως κενή) 30

Κεφάλαιο 2 Εισαγωγή στην Αναγνώριση Συναισθημάτων 2.1 Εισαγωγή Σε αυτό το κεφάλαιο εισάγουμε τον αναγνώστη στο χώρο της αναγνώρισης συναισθημάτων από ομιλία. Συγκεκριμένα, γίνεται μια εισαγωγή αρχικά στα ευρέως χρησιμοποιούμενα μοντέλα συναισθημάτων, και στη συνέχεια στον χώρο της αναγνώρισης συναισθημάτων από ομιλία, με έμφαση στην αναγνώριση συναισθημάτων από ομιλία με χρήση ακουστικής πληροφορίας, που είναι και το αντικείμενο της διδακτορικής διατριβής. 2.2 Μοντέλα συναισθημάτων Τα συναισθήματα περιλαμβάνουν αισθήματα και εμπειρία, έννοιες φυσιολογίας και συμπεριφοράς, όπως επίσης και έννοιες γνωστικής λειτουργίας. Πολλές θεωρίες υπάρχουν σχετικά με την κατηγοριοποίηση των συναισθημάτων, οι οποίες καθορίζουν τα μοντέλα συναισθημάτων και καθορίζονται από τα μοντέλα συναισθημάτων. Οι γνωστικές προσεγγίσεις κατηγοριοποίησης συναισθημάτων ορίζουν ένα γενικό, βασισμένο σε κανόνες, μοντέλο για τον ορισμό των διαφόρων τύπων συναισθημάτων, γνωστό ως μοντέλο OCC (Ortony, Clore, & Collins) (Ortony et al., 1990). Σύμφωνα με το μοντέλο αυτό, το συναίσθημα είναι η αντίδραση σε ένα 31

Κεφάλαιο 2 Σχήμα 2-1 Μοντέλο OCC (Ortony et al., 1990) γεγονός. Η δομή των συναισθημάτων σύμφωνα με το μοντέλο OCC φαίνεται στο Σχήμα 2-1. Τα μοντέλα συναισθημάτων διακρίνονται σε: διακριτά πολυδιάστατα 2.2.1 Διακριτά μοντέλα συναισθημάτων Τα διακριτά μοντέλα συναισθημάτων ορίζουν την ύπαρξη συγκεκριμένου αριθμού συναισθηματικών καταστάσεων (Ekman, 1971). Η πιο διαδεδομένη θεωρία ορίζει την ύπαρξη ενός αριθμού βασικών συναισθηματικών καταστάσεων, όπως για παράδειγμα θυμός, λύπη, χαρά, απέχθεια. Όλα τα υπόλοιπα συναισθήματα προκύπτουν από συνδυασμό ή τροποποίηση των βασικών συναισθηματικών καταστάσεων. 32

Εισαγωγή στην Αναγνώριση Συναισθημάτων 2.2.2 Πολυδιάστατα μοντέλα συναισθημάτων Τα πολυδιάστατα μοντέλα συναισθημάτων ορίζουν ως συναίσθημα ένα σύνολο χαρακτηριστικών, όπως είναι η διέγερση και η ευχαρίστηση, συναρτήσει του βαθμού ύπαρξης αυτών των χαρακτηριστικών (Russell, 1980). Τα μονοδιάστατα μοντέλα συναισθημάτων διαφοροποιούν τα διαφορετικά συναισθήματα σε μία διάσταση. Αυτή η διάσταση μπορεί να είναι: Σχήμα 2-2 Δισδιάστατο μοντέλο συναισθημάτων σθένους-ενεργοποίησης ενεργοποίηση: κατά πόσο κάποιος αισθάνεται ενεργοποιημένος ή μη ενεργοποιημένος σθένος: κατά πόσο κάποιος είναι θετικά προσκείμενος ή αρνητικά Τα πολυδιάστατα μοντέλα συναισθημάτων αναπαριστούν τα συναισθήματα σαν συντεταγμένες σε έναν, συνήθως, δισδιάστατο διανυσματικό χώρο. Ένα παράδειγμα δισδιάστατου διανυσματικού χώρου, με κάποιες ενδεικτικές συναισθηματικές καταστάσεις, είναι αυτός που φαίνεται στο Σχήμα 2-2. Ο συγκεκριμένος διανυσματικός χώρος χρησιμοποίει τις προαναφερόμενες διαστάσεις "ενεργοποίηση" (ενεργοποιημένος-μη ενεργοποιημένος) και "σθένος" (αρνητικός-θετικός). 33

Κεφάλαιο 2 Σχήμα 2-3 Υπολογιστικό σύστημα αναγνώρισης και απόκρισης συναισθημάτων 2.3 Αναγνώριση συναισθημάτων από ομιλία Μια μηχανή, έχει τη δυνατότητα να αντιλαμβάνεται την ανθρώπινη συμπεριφορά μέσω αισθητήρων που καταγράφουν τόσο οπτική όσο και ηχητική πληροφορία (Σχήμα 2-3). Ωστόσο, πληθώρα εφαρμογών έχουν αναπτυχθεί με στόχο τη δημιουργία φιλικών διεπαφών, χρησιμοποιώντας την ομιλία ως βασικό μέσο επικοινωνίας με τον χρήστη. Η πλειονότητα των διαλογικών συστημάτων χρησιμοποιούν ένα συγκεκριμένο πλάνο, προκειμένου να εξυπηρετήσουν τον χρήστη με τον οποίο αλληλεπιδρούν, μη λαμβάνοντας υπόψη την συναισθηματική κατάσταση του τελευταίου. Επιπλέον, σε πολλά έξυπνα σπίτια, ο χρήστης δυσαρεστείται από τη συμπεριφορά του συστήματος, καθώς οι διαλογικές εφαρμογές αγνοούν τα συναισθήματά του και έχουν μια ροή διαλόγου ανεξάρτητα από την κατάσταση του χρήστη. Συνεπώς, η παρουσία ενός συστήματος αναγνώρισης συναισθημάτων από ομιλία είναι κάτι παραπάνω από αναγκαία. Στην διδακτορική διατριβή, επικεντρωνόμαστε στην αναγνώριση συναισθημάτων από ομιλία με αξιοποίηση της ακουστικής πληροφορίας. Η προϋπόθεση για την υλοποίηση ενός συστήματος αναγνώρισης συναισθημάτων είναι η ύπαρξη επισημειωμένων ηχητικών δεδομένων που εμπεριέχουν συναίσθημα. Η επισημείωση είναι απαραίτητη για την ύπαρξη κατηγοριοποιημένων δεδομένων πραγματικής ζωής. Επισημείωση ορίζεται η διαδικασία ορισμού μιας 34

Εισαγωγή στην Αναγνώριση Συναισθημάτων Σχήμα 2-4 Επισημείωση δεδομένων με χρήση δισδιάστατου μοντέλου συναισθημάτων σθένους-ενεργοποίησης (εργαλείο Feeltrace) συναισθηματικής κατάστασης για ένα κομμάτι ομιλίας, είτε σύμφωνα με κάποιο διακριτό μοντέλο συναισθημάτων, είτε σύμφωνα με κάποιο πολυδιάστατο μοντέλο συναισθημάτων. Στο Σχήμα 2-4 βλέπουμε την χρήση του εργαλείου (Cowie et al., 2000) για επισημείωση δεδομένων με χρήση δισδιάστατου μοντέλου συναισθημάτων σθένους-ενεργοποίησης. Η αυτόματη αναγνώριση συναισθημάτων από ομιλία είναι ένα πρόβλημα αναγνώρισης προτύπων, το οποίο χαρακτηρίζεται και εξαρτάται άμεσα από: τις παραμέτρους ομιλίας που εξάγονται από το σήμα ομιλίας την μέθοδο κατηγοριοποίησης που χρησιμοποιείται τη βάση δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση του συστήματος τις κατηγορίες συναισθημάτων για τις οποίες το σύστημα έχει σχεδιαστεί να αναγνωρίζει Παράμετροι ομιλίας χαμηλού επιπέδου (Low Level Descriptors, LLD), όπως το ύψος φωνής και η ενέργεια του σήματος ομιλίας και παράμετροι ομιλίας σε επίπεδο πρότασης, οι οποίες προκύπτουν από στατιστική επεξεργασία των LLD είναι οι πιο συχνά χρησιμοποιούμενες στην τρέχουσα τεχνολογία. Κάποιες ενδεικτικές παράμετροι ομιλίας τόσο χαμηλού επιπέδου, όσο και επιπέδου πρότασης (Sentence 35

Κεφάλαιο 2 Σχήμα 2-5 Παράμετροι ομιλίας χαμηλού επιπέδου (Low Level Descriptors), και παράμετροι ομιλίας σε επίπεδο πρότασης (Sentence Level Features) Level Features) φαίνονται στο Σχήμα 2-5 όπως αυτοί περιγράφονται σε πρόσφατες προσεγγίσεις (Schuller et al., 2009). Οι πιο συχνά χρησιμοποιούμενες μέθοδοι κατηγοριοποίησης είναι αυτές που βασίζονται σε Hidden Markov Models, HMM (Rabiner, 1989), Gaussian Mixture Models, GMM (Reynolds and Rose, 1995), Support Vector Machines, SVM (Burges, 1998), Universal Background Models, Gaussian Models,UBM-GMM (Universal Background Model, Gaussian Mixture Modeling) (Reynolds et al., 2000). 36

Κεφάλαιο 3 Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων 3.1 Εισαγωγή Σε αυτό το κεφάλαιο παρουσιάζεται μία βασική προσέγγιση για αναγνώριση συναισθημάτων σε προσποιητή ομιλία. Επικεντρωνόμαστε στην αξιολόγηση ενός συστήματος αναγνώρισης συναισθημάτων εξαρτημένου ομιλητή έχοντας επιλέξει ένα βασικό σύνολο 20 παραμέτρων ομιλίας έχει επιλεγεί. Ο αλγόριθμος μηχανικής μάθησης που επιλέχθηκε είναι ο C4.5. Η συμπεριφορά του συστήματος εξετάζεται για πέντε κατηγορίες συναισθημάτων επιλέχθηκαν: ουδέτερο, έντονος θυμός, χαρά, λύπη και πανικός. Η βάση δεδομένων που χρησιμοποιήθηκε είναι προσποιητής ομιλίας και για κάθε ηθοποιό έχει δημιουργηθεί ξεχωριστό μοντέλο ταξινόμησης. Για όλα τα μοντέλα ταξινόμησης η μέση ακρίβεια που επιτεύχθηκε είχε τιμή 80.46%, η οποία εκφράζει την ποιότητα των μοντέλων που δημιουργήθηκαν. Η προτεινόμενη αρχιτεκτονική του συστήματος αναγνώρισης συναισθημάτων λαμβάνει απόφαση σε επίπεδο πρότασης και επιτυγχάνει ακρίβεια 85.40%, η οποία είναι αντιπροσωπευτική για την συνολική συμπεριφορά του συστήματος. Στη συνέχεια εξετάζεται η συμπεριφορά του συστήματος σε διαφορετικές συνθήκες θορύβου. Τρία διαφορετικά σενάρια υλοποιούνται. Αρχικά εξετάζουμε τη συμπεριφορά του συστήματος χωρίς την παρουσία θορύβου. Στη συνέχεια, το σύστημα εκπαιδεύεται και αξιολογείται με δεδομένα που εμπεριέχουν θόρυβο σε στάθμη 10dB SNR. Τέλος, το σύστημα αξιολογείται με δεδομένα που εμπεριέχουν 37

Κεφάλαιο 3 θόρυβο σε στάθμη 10dB SNR, ενώ η εκπαίδευσή του έχει γίνει με δεδομένα που δεν περιέχουν θόρυβο. Εξετάζοντας τις περιπτώσεις εκείνες όπου μόνο ηχητική πληροφορία χρησιμοποιήθηκε για την εξαγωγή της συναισθηματικής κατάστασης του ομιλητή, ο (Yacoub et al., 2003) αναφέρθηκε στην αυτόματη αναγνώριση συναισθημάτων από ομιλία, πραγματοποιώντας εξαγωγή παραμέτρων από μικρές προτάσεις, οι οποίες χρησιμοποιούνται σε συστήματα αυτόματης απόκρισης IVR (Interactive Voice Response), εξετάζοντας τη χρήση διαφόρων κατηγοριοποιητών όπως είναι τα νευρωνικά δίκτυα, SVM (Support Vector Machines), KNN (K-Nearest Neighbors) και δέντρα αναζήτησης. Τα παραπάνω πειράματα οδήγησαν στο συμπέρασμα ότι μπορούσε να διαχωριστεί ο οξύς θυμός από την ουδέτερη συναισθηματική κατάσταση με 94.00% πιθανότητα. Οι (Hozjan and Kacic, 2003) εξέτασαν την εξαρτημένου ομιλητή αναγνώριση συναισθημάτων σε διαφορετικές γλώσσες. Χρησιμοποιώντας ένα μεγάλο σύνολο από στατιστικές παραμέτρους κατέληξαν σε μια μέση βελτίωση στην αναγνώριση του συναισθήματος της τάξης του 18% και μία μέγιστη της τάξης του 44.99%. Ο Yu (Yu et al., 2004) χρησιμοποίησε SVM και HMM προκειμένου να αναγνωρίσει 5 συναισθηματικές καταστάσεις. Για εξαρτημένου ομιλητή αναγνώριση συναισθημάτων ανέφερε ακρίβεια 75.00%. Εξετάζοντας την περίπτωση οπού εκτός από ακουστική πληροφορία από το σήμα ομιλίας εξάγεται και γλωσσολογική πληροφορία, ο (Schuller et al., 2005) παρουσίασε μια σύγκριση συγκεκριμένων τεχνικών για ανάλυση ακουστικής και γλωσσολογικής πληροφορίας αναφέροντας μέση απόδοση συστήματος 90.30%. Για γλωσσολογική ανάλυση χρησιμοποιήθηκε η τεχνική «Bag of Words text representation», ενώ πραγματοποιήθηκε η εξαγωγή 276 ακουστικών παραμέτρων. Οι (Wang and Guan, 2005) εξέτασαν την περίπτωση που χρησιμοποιείται και οπτική πληροφορία για την πρόβλεψη της συναισθηματικής κατάστασης του τελικού χρήστη. Για την περιγραφή του σήματος ομιλίας πραγματοποιήθηκε εξαγωγή MFCC παραμέτρων και των συντονισμών του φωνητικού καναλιού, ενώ για την οπτική πληροφορία χρησιμοποιήθηκαν τα Gabor wavelet Features. Το μοντέλο κατηγοριοποίησης ήταν βασισμένο στην Fisher s Linear Discriminant Analysis και η μέση απόδοση του συστήματος είναι 82.14%. 38

Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων 3.2 Περιγραφή του συστήματος Η αρχιτεκτονική του συστήματος αναγνώρισης συναισθημάτων φαίνεται στο Σχήμα 3-1. Στο σύστημα αυτό λαμβάνουν χώρα δύο βασικές διεργασίες. Η μία είναι η εκπαίδευση του συστήματος και η άλλη η κατηγοριοποίηση του σήματος ομιλίας. Η βάση δεδομένων που χρησιμοποιείται είναι τα δεδομένα εκπαίδευσης του συστήματος. Σε κάθε σήμα ομιλίας εφαρμόζεται προεπεξεργασία, εξαγωγή παραμέτρων και ανίχνευση σιγής και ηχηρών / άηχων πλαισίων ομιλίας. Στη συνέχεια τα παραμετρικά διανύσματα μοντελοποιούνται, για να προκύψει ένα μοντέλο για κάθε συναίσθημα. Όταν δημιουργηθούν τα μοντέλα κατηγοριοποίησης, κάθε είσοδοςσήμα ομιλίας μπορεί να κατηγοριοποιηθεί ακολουθώντας τη ροή που φαίνεται στο Σχήμα 3-1. Οι παράμετροι που επιλέχθηκαν να εξαχθούν ήταν τέτοιες ώστε να μην απαιτείται αναγνώριση φωνημάτων. Με αυτήν την επιλογή, το σύστημα είναι δυνατόν να χρησιμοποιηθεί σε οποιαδήποτε εφαρμογή πραγματικού χρόνου, χωρίς την παρουσία συστήματος αναγνώρισης φωνημάτων πραγματικού χρόνου. Η συναισθηματική κατάσταση ενός ομιλητή εκφράζεται άμεσα μέσω της θεμελιώδους ταλάντωσης του φωνητικού καναλιού και της ενέργειας του σήματος ομιλίας. Για παράδειγμα, το ύψος φωνής και η ενέργεια ενός χαρούμενου ή θυμωμένου ατόμου είναι σε γενικές γραμμές υψηλότερη από αυτές ενός ατόμου που εκφράζει λύπη. Οι παράμετροι που επιλέχθηκαν είναι: Η θεμελιώδης ταλάντωση (pitch), οι 12 πρώτοι φασματικοί συντελεστές Mel (MFCC, Mel Frequency Cepstrum Coefficients), οι πρώτες 4 συχνότητες συντονισμού, η ενέργεια και η αρμονικότητα. Ο υπολογισμός της θεμελιώδους ταλάντωσης, των παραμέτρων MFCC, των συχνοτήτων συντονισμού, και της αρμονικότητας έγινε με χρήση του προγράμματος επεξεργασίας ομιλίας Praat (Boersma and Weenink, 2005). Τόσο η θεμελιώδης ταλάντωση όσο και η αρμονικότητα υπολογίστηκαν με τον αλγόριθμο του (Boersma, 1993). Μια σύντομη περιγραφή του αλγορίθμου της αρμονικότητας ακολουθεί παρακάτω, δεδομένης της σημαντικότητας του αλγορίθμου για την ανίχνευση σιγής και ηχηρών/άηχων πλαισίων. Η αυτοσυσχέτιση ενός σήματος x() t του οποίου οι στατιστικές παράμετροι είναι σταθεροί, ορίζονται συναρτήσει της φάσης ως εξής: 39

Κεφάλαιο 3 Σχήμα 3-1 Αρχιτεκτονική Συστήματος Αναγνώρισης Συναισθημάτων x r( ) x t x(t )dt 3-1 Αυτή η συνάρτηση έχει ένα ολικό μέγιστο για 0. Αν αυτή η συνάρτηση έχει άλλο μέγιστο εκτός του 0 και υπάρχει μια φάση 0 ώστε όλα τα υπόλοιπα μέγιστα να είναι στις θέσεις n 0, τότε αυτή καλείται θεμελιώδης περίοδος της βραχύχρονης συνάρτησης αυτοσυσχέτισης r( x ) και η θεμελιώδης συχνότητα ορίζεται ως F0 1. T Ένα τέτοιο σήμα x() t μπορεί να κατασκευαστεί παίρνοντας ένα περιοδικό σήμα Ht () και προσθέτοντας θόρυβο Nt () σε αυτό. Η ενέργεια του πλαισίου σήματος ταυτίζεται με την τιμή της συνάρτησης αυτοσυσχέτισης όταν 0 : r (0) r (0) r (0) 3-2 x H N Αν ο θόρυβος είναι λευκός, ένα τοπικό μέγιστο μπορεί να βρεθεί για max T0 με r( ) r ( T ) r (0) 3-3 x max H 0 H Συνεπώς, η κανονικοποιημένη αυτοσυσχέτιση στο σημείο max, ' x 0 r( ) αναπαριστά τη σχετική ενέργεια της περιοδικής συνιστώσας του σήματος και το ' συμπλήρωμά της 1-r ( ) τη σχετική ενέργεια της συνιστώσας που αντιστοιχεί στο x max θόρυβο. Η αρμονικότητα HNR (HNR, Harmonics-to-noise-ratio) ορίζεται ως εξής: ' r x ( max) HNR 10 log 3-4 1-r ' x ( max ) Η αρμονικότητα αναπαριστά ένα μέτρο της περιοδικότητας του σήματος ομιλίας. Για ιδανικά περιοδικό σήμα η αρμονικότητα είναι άπειρη. max 40

Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων Προκειμένου να πραγματοποιηθεί ανίχνευση σιγής και ηχηρών-άηχων πλαισίων πραγματοποιείται βραχύχρονη ανάλυση της θεμελιώδους συχνότητας και της αρμονικότητας. Από ελάχιστη ως καθόλου πληροφορία, που να αφορά την συναισθηματική κατάσταση ενός ομιλητή, περιλαμβάνεται στα άηχα πλαίσια του σήματος ομιλίας, διότι δεν υπάρχει ταλάντωση των φωνητικών χορδών. Συνεπώς, καθορίζεται ένα κατώφλι για το ύψος φωνής, ώστε όλα τα άηχα πλαίσια κάτω από αυτό το κατώφλι να απορρίπτονται. Επίσης, κατά τον υπολογισμό της αρμονικότητας καθορίζεται ένα ενεργειακό κατώφλι, ώστε όλα τα άηχα πλαίσια να απορρίπτονται. Στο Σχήμα 3-2 φαίνεται η αρμονικότητα συναρτήσει του χρόνου για ένα σήμα ομιλίας. Η τιμή της αρμονικότητας για τα πλαίσια ομιλίας των οποίων η τιμή είναι μικρότερη από το κατώφλι είναι -200 db. Κατά τη διαδικασία κατηγοριοποίησης λαμβάνουν χώρα δύο βασικές διεργασίες: Η δημιουργία του μοντέλου κατηγοριοποίησης συναισθημάτων και η κατηγοριοποίηση του σήματος ομιλίας εισόδου. Η πρώτη διεργασία είναι η εκπαίδευση του συστήματος. Κατά τη δεύτερη διεργασία κάθε διάνυσμα που αντιστοιχεί σε κάθε πλαίσιο ομιλίας εισόδου κατηγοριοποιείται με χρήση του μοντέλου κατηγοριοποίησης που δημιουργήθηκε, κατά τη διαδικασία της εκπαίδευσης του συστήματος. Η τελική απόφαση για το συναίσθημα που εκφράζεται στην εκάστοτε πρόταση λαμβάνεται υπολογίζοντας την μέγιστη πιθανότητα. Ο κατηγοριοποιητής που χρησιμοποιήθηκε για την υλοποίηση των δέντρων αποφάσεων είναι ο C4.5 (Quinlan, 1993) και επιλέχθηκε τόσο με κριτήριο την ταχύτητά του κατά τη δημιουργία μοντέλων συναισθημάτων όσο και της απόδοσής του στα δεδομένα προσποιητής ομιλίας. Ο αλγόριθμος υλοποιήθηκε με χρήση της βιβλιοθήκης μηχανικής εκμάθησης WEKA (Witten and Frank, 2005). Ο C4.5 είναι ένας αλγόριθμος γένεσης δέντρων αποφάσεων βασισμένος στον ID3 αλγόριθμο (Quinlan, 1993). Ο αλγόριθμος ID3 εκπαιδεύει δέντρα αποφάσεων με την κατασκευή τους από πάνω προς τα κάτω. Πρώτον, βρίσκει το καλύτερο χαρακτηριστικό για να χρησιμοποιηθεί ως μια δοκιμή στη ρίζα του δέντρου απόφασης. Στη συνέχεια δημιουργείται ένας απόγονος του ριζικού κόμβου για κάθε πιθανή τιμή του εν λόγω χαρακτηριστικού γνωρίσματος και τα δείγματα εκπαίδευσης κατηγοριοποιούνται στον κατάλληλο κόμβο. Όλη αυτή η διαδικασία επαναλαμβάνεται χρησιμοποιώντας όλα τα δείγματα εκπαίδευσης σε κάθε κόμβο-απόγονο, προκειμένου να επιλεχθεί το καλύτερο χαρακτηριστικό γνώρισμα σε εκείνο το σημείο του δέντρου (Quinlan, 1993). 41

Κεφάλαιο 3 Σχήμα 3-2 Αρμονικότητα συναρτήσει του χρόνου για ένα σήμα ομιλίας Για την κατασκευή των δέντρων που χρησιμοποιεί ο κατηγοριοποιητής C4.5 η διαδικασία του κλαδέματος λαμβάνει χώρα. Κατά τη διάρκεια του κλαδέματος, κάθε ένα από τους κόμβους απόφασης στο δέντρο είναι υποψήφιος για κλάδεμα. Κλάδεμα του κόμβου απόφασης γίνεται με την αφαίρεση των όποιων δέντρων κάτω από αυτόν τον κόμβο, καθιστώντας το ένα δικτυακό κόμβο. Η αντικατάσταση αυτή πραγματοποιείται μόνον εφόσον το προκύπτον δέντρο έχει καλύτερη απόδοση από το αρχικό στα δεδομένα επικύρωσης (Quinlan, 1993). 3.3 Πειραματική διαδικασία και αποτελέσματα Σε αυτή την ενότητα εξετάζεται η συμπεριφορά του συστήματος σε διαφορετικές συνθήκες θορύβου. Τρία διαφορετικά σενάρια υλοποιούνται. Αρχικά εξετάζουμε τη συμπεριφορά του συστήματος χωρίς την παρουσία θορύβου. Κατόπιν εξετάζουμε την υποκειμενική αξιολόγηση των ηχογραφήσεων από ακροατές. Στη συνέχεια, το σύστημα εκπαιδεύεται και δοκιμάζεται με δεδομένα που εμπεριέχουν θόρυβο σε αναλογία 10dB. Τέλος, το σύστημα δοκιμάζεται με δεδομένα που εμπεριέχουν 42

Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων θόρυβο σε αναλογία 10dB, ενώ η εκπαίδευσή του έχει γίνει με δεδομένα που δεν περιέχουν θόρυβο. 3.3.1 Βάση δεδομένων Για την αξιολόγηση της συμπεριφοράς του συστήματος χρησιμοποιήθηκε η γνωστή βάση δεδομένων LDC 2002S28 (Emotional Prosody Speech and Transcripts) (Consortium). Η συγκεκριμένη βάση δεδομένων αποτελείται από 30 ηχογραφήσεις σε διαμόρφωση sphere (Garofolo and Fiscus, 1993) και τα transcript αρχεία τους. Προκειμένου να εξαχθούν από τις ηχογραφήσεις αυτές καθαρές προτάσεις ομιλίας κατασκευάστηκε μια ειδική μηχανή. Σαν αποτέλεσμα προέκυψαν προτάσεις από 8 ηθοποιούς κατά τις οποίες εκφράζονται τα εξής συναισθήματα: Ουδετερότητα, οξύς θυμός, ψυχρός θυμός, χαρά, λύπη, αποστροφή, πανικός, αγωνία, απελπισία, ενθουσιασμός, ενδιαφέρον, ντροπή, ανία, περηφάνια και περιφρόνηση. Για την προσθήκη θορύβου στο καθαρό σήμα ομιλίας χρησιμοποιήθηκε η βάση δεδομένων NOISEX-92 (Varga and Steeneken, 1993) η οποία περιέχει διάφορους θορύβους, όπως θόρυβος από περιβάλλον γραφείου, από εργοστάσιο, HF (High Frequency) θόρυβος ραδιοφωνικού καναλιού, ροζ θόρυβος, λευκός θόρυβος. Επιπλέον περιέχονται σήματα θορύβου από στρατιωτικά πεδία όπως από μαχητικά αεροπλάνα (Buccaneer, F16), καταστροφικοί θόρυβοι (από δωμάτιο μηχανήςεπιχειρήσεων), από τανκ (Leopard, M109), από πυροβόλο όπλο. Τέλος, εμπεριέχεται θόρυβος από αυτοκίνητο (Volvo340). 3.3.2 Καθορισμός παραμέτρων πειραματικής διαδικασίας Επελέγησαν 5 βασικές συναισθηματικές καταστάσεις: Οξύς Θυμός, λύπη, χαρά, πανικός (που προσεγγίζει τον φόβο) και ουδετερότητα. Όσον αφορά τις κατηγορίες θορύβου, επιλέχθηκαν: λευκός θόρυβος (WHI), θόρυβος γραφείου (VOB), θόρυβος από πιλοτήριο αεροσκάφους (F16), HF θόρυβος ραδιοφωνικού καναλιού (HFR) και θόρυβος πυροβόλου όπλου (MAC). Εξετάστηκε η εξαρτημένου ομιλητή αναγνώριση συναισθημάτων: σε κάθε ομιλητή-ηθοποιό αντιστοιχεί ξεχωριστό μοντέλο κατηγοριοποίησης, το οποίο έχει δημιουργηθεί από δικά του δεδομένα. Για κάθε ηθοποιό-ομιλητή, προκειμένου να εκμεταλλευτούμε με τον καλύτερο τρόπο όλα τα διαθέσιμα δεδομένα, εφαρμόσαμε την τεχνική leave-one-out: κάθε φορά εκπαιδεύαμε το σύστημα με όλα τα δεδομένα του ομιλητή πλην αυτών που αντιστοιχούν σε μία πρόταση, και εξετάζαμε την απόφαση του συστήματος για αυτή την πρόταση. Κατά την διάρκεια της 43

Κεφάλαιο 3 προεπεξεργασίας, σε περίπτωση που επιθυμούμε να διαμορφώσουμε σήμα ομιλίας με θόρυβο, χρησιμοποιούμε το αντίστοιχο σήμα θορύβου σε αναλογία 10dB. Κάθε σήμα που προκύπτει πλαισιοποιείται σε παράθυρα των 25 msec με βήμα 10 msec. Όσον αφορά την παραμετροποίηση του κατηγοριοποιητή, επιλέχθηκε η τιμή 25 % για την παράμετρο "pre-pruning". Λαμβάνοντας υπόψη ότι και οι άνθρωποι κάνουν λάθη όταν επιχειρούν να αναγνωρίσουν συναισθήματα, πραγματοποιήθηκε αρχικά μια αξιολόγηση των ηχογραφήσεων της βάσης δεδομένων από ακροατές. Στην αξιολόγηση έλαβαν μέρος τέσσερις Έλληνες ακροατές (δύο άντρες και δύο γυναίκες), με άριστη γνώση αγγλικών. Όλες οι ηχογραφήσεις αναπαράχθηκαν τυχαία στους ακροατές, οι οποίοι επισημείωναν κάθε ηχογράφηση σε μία από τις 5 προαναφερθείσες συναισθηματικές καταστάσεις. 3.3.3 Πειραματικά αποτελέσματα χωρίς θόρυβο Η πρώτη σειρά πειραμάτων αποτελείται από την εξέταση της συμπεριφοράς του συστήματος όταν αυτό καλείται να διακρίνει τις 5 κατηγορίες συναισθημάτων. Σε κάθε μοντέλο κατηγοριοποίησης αντιστοιχεί ένας πίνακας που περιλαμβάνει τα ποσοστά εκτίμησης ανά κατηγορία, στα δεδομένα εκπαίδευσης. Αυτός ο πίνακας είναι μια έκφραση της ποιότητας των μοντέλων και αντιστοιχεί στην ικανότητα των μοντέλων να κατηγοριοποιήσουν το παραμετρικό διάνυσμα που αντιστοιχεί σε ένα πλαίσιο ομιλίας. Η μέση απόδοση για όλους τους πίνακες όλων των ηθοποιών είναι 80.46 % (Πίνακας 3-1) Σε επίπεδο πρότασης, η μέση απόδοση του συστήματος είναι 85.40 %. Στον πίνακα (Πίνακας 3-2) φαίνονται τα ποσοστά εκτίμησης ανά κατηγορία συναισθημάτων. Η μέγιστη απόδοση που επιτεύχθηκε για έναν ηθοποιό ήταν 97.06 %. Μπορεί να παρατηρηθεί ότι η απόδοση του συστήματος σε επίπεδο πρότασης είναι υψηλότερη από την αντίστοιχη σε επίπεδο πλαισίου ομιλίας. Αυτό συμβαίνει επειδή γίνεται εκμετάλλευση της πληροφορίας ότι μόνο ένα συναίσθημα εκφράζεται καθ' όλη τη διάρκεια μιας ηχογράφησης, η οποία αντιστοιχεί σε προσποιητή ομιλία. Εξετάζοντας τη συμπεριφορά του συστήματος, όταν προσπαθεί να κατηγοριοποιήσει πέντε συναισθήματα, το κύριο πρόβλημα εντοπίζεται στον εντοπισμό του οξύ θυμού και του πανικού. Αυτό συμβαίνει γιατί και οι δύο 44

Αναγνώριση Συναισθημάτων με Χρήση Δέντρων Αποφάσεων Οξύς Πανικός Ουδέτερο Χαρά Λύπη Θυμός Πανικός 81.3 7.06 8.52 2.83 0.29 % Ουδέτερο 0.3 83.25 6.72 8.9 0.83 % Χαρά 6.51 5.85 75.63 7.45 4.55 % Λύπη 1.75 5.7 6.43 85.08 1.05 % Οξύς Θυμός 9.25 0.94 11.38 1.37 77.06 % Πίνακας 3-1 Ποσοστά εκτίμησης ανά κατηγορία (αναγνώριση συναισθημάτων σε επίπεδο πλαισίου ομιλίας) Πανικός Ουδέτερο Χαρά Λύπη Οξύς Θυμός Πανικός 77.26 2.08 6.72 3.47 10.47 % Ουδέτερο 0.00 91.47 2.95 4.89 0.69 % Χαρά 5.00 3.33 85.56 0.56 5.55 % Λύπη 0.62 3.59 4.82 90.97 0.00 % Οξύς Θυμός 3.90 0.72 11.91 1.74 81.73 % Πίνακας 3-2 Ποσοστά εκτίμησης ανά κατηγορία (αναγνώριση συναισθημάτων σε επίπεδο πρότασης) κατηγορίες συναισθημάτων είναι κοντά στο διανυσματικό χώρο τόσο μεταξύ τους, όσο και με τη χαρά. Επιπρόσθετα, τόσο το ουδέτερο συναίσθημα, όσο και η λύπη αναγνωρίζονται με καλύτερα ποσοστά, λόγω του ότι είναι μακριά στο διανυσματικό χώρο από όλα τα υπόλοιπα συναισθήματα. Η δεύτερη σειρά πειραμάτων εξετάζει την δυνατότητα του συστήματος να αναγνωρίσει δύο συναισθηματικές καταστάσεις, ουδέτερο και οξύ θυμό. Αυτό το πείραμα δίνει σημαντική πληροφορία υπό το πρίσμα πιθανής χρήσης ενός συστήματος αναγνώρισης συναισθημάτων σε εφαρμογές ασφαλείας. Η μέση απόδοση του συστήματος ήταν 98.13 % με μέγιστη απόδοση 100 % για ορισμένους ομιλητές. Η απόδοση αυτή ήταν ένα αναμενόμενο αποτέλεσμα δεδομένων των αποτελεσμάτων από την πρώτη σειρά πειραμάτων, όπου το ουδέτερο συναίσθημα και ο θυμός δεν μπερδεύονται παρά μόνο ελάχιστα. 45

Κεφάλαιο 3 Συνεισφορά παραμέτρου ομιλίας Παράμετρος Ομιλίας Συνεισφορά παραμέτρου ομιλίας Παράμετρος Ομιλίας 6542.10 Pitch 1146.14 5th MFCC 4559.25 2nd MFCC 1033.36 9th MFCC 3026.81 Energy 945.86 1st Formant 2434.56 4th MFCC 777.41 10th MFCC 2292.40 1st MFCC 459.71 8th MFCC 1647.96 3rd MFCC 455.87 11th MFCC 1623.82 7th MFCC 182.81 2nd Formant 1457.96 6th MFCC 160.30 3rd Formant 1211.96 13th MFCC 155.63 4th Formant 1199.26 12th MFCC 129.60 Harmonicity Πίνακας 3-3 Αξιολόγηση παραμέτρων ομιλίας Η τρίτη σειρά πειραμάτων αποσκοπεί στην εξέταση της ικανότητας της συγκεκριμένης υλοποίησης να διακρίνει δύο τελείως διαφορετικές συναισθηματικές καταστάσεις, υπό το πρίσμα της υποβόσκουσας ψυχολογικής κατάστασης (οξύ θυμό και πανικό). Όπως φαίνεται από την πρώτη σειρά πειραμάτων, τα συγκεκριμένα συναισθήματα μπερδεύονται αρκετά, κάτι το οποίο δίνει ένα παραπάνω κίνητρο για την εξέταση της συμπεριφοράς του συστήματος στο συγκεκριμένο πρόβλημα. Η μέση απόδοση του συστήματος αντιστοιχεί σε 89.99 %, η οποία είναι σχετικά χαμηλή, λαμβάνοντας υπόψη ότι πρόκειται: για ένα πρόβλημα 2 καταστάσεων, προσποιητή ομιλία και εξαρτημένου ομιλητή πρόβλημα. Το αποτέλεσμα αυτό δείχνει ότι ο οξύς θυμός και ο πανικός είναι κοντά στον διανυσματικό χώρο. Σε όλα τα προαναφερθέντα πειράματα το παραμετρικό διάνυσμα αποτελείται από το σύνολο των παραμέτρων ομιλίας. Προκειμένου να εξετάσουμε τον βαθμό συνεισφοράς κάθε παραμέτρου ομιλίας πραγματοποιήθηκε αξιολόγηση αυτών των παραμέτρων ομιλίας. Στον πίνακα (Πίνακας 3-3) φαίνονται τα αποτελέσματα της αξιολόγησης για κάθε παράμετρο ομιλίας (Witten and Frank, 2005). 3.3.4 Αξιολόγηση ηχογραφήσεων από ακροατές Τα αποτελέσματα της αξιολόγησης των ηχογραφήσεων από ακροατές είναι σχετικά χαμηλά. Στον πίνακα (Πίνακας 3-4) φαίνονται τα μέσα αποτελέσματα από τους τέσσερις ακροατές. Η μέση απόδοση των ακροατών είναι 78.39 %. Παρόμοια με τη συμπεριφορά του συστήματος αναγνώρισης συναισθημάτων, οι ακροατές είναι εξαιρετικά ικανοί να αναγνωρίσουν ηχογραφήσεις με λύπη. Επίσης συναισθήματα όπως ο πανικός και ο 46