ΠΑΡΑΜΕΤΡΟΠΟΙΗΣΗ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ ΓΙΑ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΟΣ ΟΜΙΛΗΤΗ

Σχετικά έγγραφα
Συναισθήματα και η Διαχείρισή τους

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ με έμφαση στις γνωστικές λειτουργίες

Το παιδί μου έχει αυτισμό Τώρα τι κάνω

ΜΕΘΟΔΟΙ & ΤΕΧΝΙΚΕΣ ΕΝΕΡΓΗΤΙΚΗΣ ΑΚΡΟΑΣΗΣ ΙΙ «ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΨΥΧΟΛΟΓΙΑ: ΣΧΕΣΗ ΘΕΡΑΠΕΥΤΗ ΘΕΡΑΠΕΥΟΜΕΝΟΥ»

Εισαγωγή στην Ψυχολογία με έμφαση στις γνωστικές λειτουργίες

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Ο καθημερινός άνθρωπος ως «ψυχολόγος» της προσωπικότητάς του - Νικόλαος Γ. Βακόνδιος - Ψυχο

Βιολογική εξήγηση των δυσκολιών στην ανθρώπινη επικοινωνία - Νικόλαος Γ. Βακόνδιος - Ψυχολόγ

Αναστασία Κωσταρίδου-Ευκλείδη Ομότιμη καθηγήτρια, Τμήμα Ψυχολογίας, Α.Π.Θ. Συνέδριο Εταιρείας Νόσου Alzheimer, Θεσσαλονίκη, 2 Φεβρουαρίου 2017

Εφαρµοσµένη ιδακτική των Φυσικών Επιστηµών (Πρακτικές Ασκήσεις Β Φάσης)

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Γνωστικοί και Συναισθηματικοί Παράγοντες της Επικοινωνίας

Τι μαθησιακός τύπος είναι το παιδί σας;

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

ιδακτική μαθημάτων Ειδικότητας

Η προσέγγιση του γραπτού λόγου και η γραφή. Χ.Δαφέρμου

Διδακτική της Περιβαλλοντικής Εκπαίδευσης

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Ευγενία Μαυρομάτη Παιδοψυχολόγος Δήμος Πειραιά

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Η συγκεκριμένη εργασία αφορά την παρουσίαση του βιβλίου « με αξιοποίηση του εργαλείου Power Point.

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την

Γνωστικοί και Συναισθηματικοί Παράγοντες της Επικοινωνίας

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Εκπαιδευτική Ψυχολογία Μάθημα 2 ο. Γνωστικές Θεωρίες για την Ανάπτυξη: Θεωρητικές Αρχές και Εφαρμογές στην Εκπαίδευση

MULTICOM 112. Οδηγίες χρήσης

Άδειες Χρήσης. Μοντέλο προαγωγής προγραμμάτων αγωγής υγείας μέσω της φυσικής αγωγής. Χρηματοδότηση. Σκοποί ενότητας. Οι παρακάτω θεωρίες

Σχέδιο Μαθήματος: Κοινωνικές και Επικοινωνιακές Δεξιότητες για Ανάπτυξη Αυτοπεποίθησης και Τεχνικών Επίλυσης Διαφορών

Θετική Ψυχολογία. Καρακασίδου Ειρήνη, MSc. Ψυχολόγος-Αθλητική Ψυχολόγος Υποψήφια Διδάκτωρ Κλινικής και Συμβουλευτικής Ψυχολογίας, Πάντειο Παν/μιο

Βασίλειος Κοντογιάννης ΠΕ19

"Να είσαι ΕΣΥ! Όλοι οι άλλοι ρόλοι είναι πιασμένοι." Oscar Wilde

Δεύτερη Συνάντηση ΜΑΘΗΣΗ ΜΕΣΑ ΑΠΟ ΟΜΑΔΕΣ ΕΡΓΑΣΙΕΣ. Κάππας Σπυρίδων

Ασκήσεις φυσικής και Δυσλεξία

Ποια είναι τα είδη της κατάθλιψης;

Τι κρύβουν οι λέξεις που χρησιμοποιείς για τον εαυτό σου;

ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΑΡΧΑΓΓΕΛΟΥ Γ ΤΑΞΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ

Στόχος της ψυχολογικής έρευνας:

Το Αληθινό, το Όμορφο και η απόλυτη σχέση τους με την Νοημοσύνη και τη Δημιουργία Σελ.1

Σχεδιασμός και Διεξαγωγή Πειραμάτων

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΠΙΚΟΙΝΩΝΊΑ ΚΑΙ ΙΚΑΝΟΠΟΊΗΣΗ ΠΕΛΑΤΏΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ ΘΕΣΣΑΛΙΑΣ

Δημιουργικό Παιχνίδι ΕΝΣΩΜΑΤΩΣΗ ΤΩΝ ΠΑΙΧΝΙΔΙΩΝ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ Φ.Α. Διάλεξη 3η

Πανεπιστήμιο Νεάπολις Πάφος 05 Σεπτεμβρίου, 2018

Η γλωσσική ανάπτυξη των παιδιών.

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Σχεδιασμός Ερωτηματολογίου

Πως ο Νους Χειρίζεται το Φόβο

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΛΟΓΙΑ (ΨΧ 00)

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

Πολλοί άνθρωποι θεωρούν λανθασμένα ότι δεν είναι «ψυχικά δυνατοί». Άλλοι μπορεί να φοβούνται μήπως δεν «φανούν» ψυχικά δυνατοί στο περιβάλλον τους.

Διοίκηση Επιχειρήσεων

Πανελλαδικές εξετάσεις υποψηφίων με αναπηρία ή ειδικές εκπαιδευτικές ανάγκες

Πώς γράφεις αυτές τις φράσεις;

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Σχεδίαση και Ανάπτυξη εφαρμογής ηλεκτρονικής εκπαίδευσης σε περιβάλλον Διαδικτύου: Υποστήριξη χαρακτηριστικών αξιολόγησης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Η Σημασία της Επικοινωνίας

ΠΡΟΣΑΡΜΟΓΗ ΣΤΟ STRESS STRESS: ΠΙΕΣΗ

Ενότητα σώματος και ψυχής κατά τον Max Scheler

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

ΠΡΟΣΧΕΔΙΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ. Α τάξης Γυμνασίου

* Μήπως είστε γονείς ενός παιδιού που: * Μήπως είστε εκπαιδευτικοί που στην τάξη σας έχετε μαθητή ή

ΦΥΛΛΟ ΠΑΡΑΤΗΡΗΣΗΣ ΤΑΞΗΣ: ΕΝΑ ΜΟΝΤΕΛΟ ΓΙΑ ΠΕΙΡΑΜΑΤΙΣΜΟ (2 η

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΔΙΑΔΙΚΑΣΙΑ ΜΕΤΑΒΑΣΗΣ ΣΤΟ CLOUD COMPUTING ΜΑΘΗΣΙΑΚΟΙ ΣΤΟΧΟΙ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Αναγνώριση Προτύπων Ι

Ψυχολογία ασθενών με καρδιακή ανεπάρκεια στο Γενικό Νοσοκομείο

Πολλαπλοί τύποι νοημοσύνης και η σημασία τους για την ανάπτυξη και την εκπαίδευση των παιδιών, τη. Συναισθηματική Νοημοσύνη. και τη Δημιουργικότητα.

Εφαρμοσμένη Διδακτική των Φυσικών Επιστημών (Πρακτικές Ασκήσεις Β Φάσης)

Διδακτικές Τεχνικές (Στρατηγικές)

Γεώργιος Φίλιππας 23/8/2015

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

Τεχνικές συλλογής δεδομένων στην ποιοτική έρευνα

ο εκπαιδευτικός µπορεί να χρησιµοποιήσει ιστορία σε κόµικς που περιέχει διάλογο να διδάξει κατάλληλες λεκτικές δοµές για το ξεκίνηµα συζήτησης

Μανώλης Ισχάκης - Πνευματικά δικαιώματα - για περισσότερη εκπαίδευση

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

ΕΚΠΑΙΔΕΥΤΙΚΗ ΨΥΧΟΛΟΓΙΑ

1 Ανάλυση Προβλήματος

Αξιολόγηση της συμπεριφοράς παιδιών προσχολικής ηλικίας

Μεταιχμιακό Σύστημα του Εγκεφάλου

Αναλυτικό Πρόγραμμα Μαθηματικών

Γράφοντας ένα σχολικό βιβλίο για τα Μαθηματικά. Μαριάννα Τζεκάκη Αν. Καθηγήτρια Α.Π.Θ. Μ. Καλδρυμίδου Αν. Καθηγήτρια Πανεπιστημίου Ιωαννίνων

Αναπτυξιακά ορόσημα λόγου

ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΝΟΗΜΟΣΥΝΗ, ΕΞΕΛΙΞΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ

14 Δυσκολίες μάθησης για την ανάπτυξη των παιδιών, αλλά και της εκπαιδευτικής πραγματικότητας. Έχουν προταθεί διάφορες θεωρίες και αιτιολογίες για τις

ΧΑΡΤΙΝΗ ΑΓΚΑΛΙΑ ΟΜΑΔΑ Β. Ερώτηση 1 α

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Η Επίδραση της Συγκίνησης ης στη Λήψη Ατομικών Αποφάσεων

ΜΕΤΑΒΑΣΗ ΑΠΟ ΤΟ ΝΗΠΙΑΓΩΓΕΙΟ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ: ΕΚΠΑΙΔΕΥΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΑΚΤΙΚΕΣ

ΕΚΠΑΙΔΕΥΤΙΚΗ ΨΥΧΟΛΟΓΙΑ

2. Δεξιότητες επικοινωνίας ενηλίκων εκπαιδευομένων. Επιμόρφωση εκπαιδευτών/τριών Επιμορφωτικών Κέντρων Λευκωσία

Οι γνώμες είναι πολλές

Διάλογοι Σελίδα.1

Χρήστος Μαναριώτης Σχολικός Σύμβουλος 4 ης Περιφέρειας Ν. Αχαϊας Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΣΚΕΦΤΟΜΑΙ ΚΑΙ ΓΡΑΦΩ ΣΤΗΝ Α ΔΗΜΟΤΙΚΟΥ ΣΧΟΛΕΙΟΥ

Σχολικός Εκφοβισμός και Ψυχολογία

Ενότητα 1: Πώς να διδάξεις ηλικιωμένους για να χρησιμοποιήσουν τη ψηφιακή τεχνολογία. Ημερομηνία: 15/09/2017. Intellectual Output:

ΓΝΩΣΤΙΚΕΣ ΣΥΜΠΕΡΙΦΟΡΙΣΤΙΚΕΣ ΘΕΩΡΙΕΣ

Επικοινωνία προπονητή-αθλητών

Αναπτυξιακή Ψυχολογία. Διάλεξη 6: Η ανάπτυξη της εικόνας εαυτού - αυτοαντίληψης

Transcript:

Πανεπιστήμιο Πατρών Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Τομέας Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας ΠΑΡΑΜΕΤΡΟΠΟΙΗΣΗ ΣΗΜΑΤΟΣ ΟΜΙΛΙΑΣ ΓΙΑ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΟΣ ΟΜΙΛΗΤΗ Διπλωματική εργασία της φοιτήτριας Μιχαλέτου Ελένης Α.Μ. 5387 Επιβλέπων Καθηγητής: κ. Νικόλαος Φακωτάκης Πάτρα, Σεπτέμβριος 2008

ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η διπλωματική εργασία με θέμα: Παραμετροποίηση σήματος ομιλίας για αναγνώριση συναισθήματος ομιλητή της φοιτήτριας του Τμήματος Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών Μιχαλέτου Ελένης του Γεωργίου (Α.Μ. 5387) Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών στις / / Ο Επιβλέπων Καθηγητής Νικόλαος Φακωτάκης Καθηγητής Ο Διευθυντής του τομέα Νικόλαος Φακωτάκης Καθηγητής

Πίνακας Περιεχομένων ΚΕΦΑΛΑΙΟ 1 Ο...1 ΕΙΣΑΓΩΓΗ...1 1.1 Τι είναι το συναίσθημα;...1 1.2 Κατηγοριοποίηση συναισθημάτων...2 1.3 Η συναισθηματική διαδικασία...5 1.4 Ορίζοντας τις διαστάσεις του συναισθήματος...5 1.5 Η αναπαράσταση αξόνων «ενεργοποίησης αξιολόγησης»...7 1.6 Συναισθηματικός υπολογισμός (Emotional computing)... 10 1.7 Η τεχνολογία της συναισθηματικής ομιλίας... 11 1.7.1 Κίνητρα... 11 1.7.2 Εμπόδια και δυσκολίες... 14 1.7.3 Επισκόπηση συστημάτων αναγνώρισης... 18 ΚΕΦΑΛΑΙΟ 2 Ο... 23 ΑΝΘΡΩΠΙΝΗ ΟΜΙΛΙΑ ΚΑΙ ΣΥΝΑΙΣΘΗΜΑ... 23 2.1 Εισαγωγή... 23 2.1.1 Εκφράζοντας συναισθήματα... 23 2.1.2 Τα δύο κανάλια της ανθρώπινης επικοινωνίας... 24 2.1.3 Φωνητικά συστατικά του συναισθήματος... 26 2.2 Ο μηχανισμός παραγωγής ομιλίας... 27 2.2.1 Ο ανθρώπινος μηχανισμός παραγωγής ομιλίας... 28 2.2.2 Μοντελοποίηση του μηχανισμού παραγωγής ομιλίας... 29 2.2.3 Επιρροή της πηγής στην ποιότητα φωνής... 33 2.2.4 Επιρροή του φίλτρου στην ποιότητα φωνής... 34 2.3 Η σημασία της προσωδίας στη συναισθηματική ομιλία... 36 2.3.1 Η ενέργεια ως προσωδιακό σημάδι για την ανίχνευση συναισθήματος... 36 2.3.2 Το ύψος της φωνής (Pitch) ως προσωδιακό σημάδι για την ανίχνευση συναισθήματος... 38 2.3.3 Τα σημάδια χρονισμού για την ανίχνευση συναισθήματος... 40 2.4 Η σημασία της ποιότητας της φωνής στη συναισθηματική ομιλία... 40 ΚΕΦΑΛΑΙΟ 3 Ο... 46 i

ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΟΣ... 46 3.1 Περιγραφή ενός αυτόματου συστήματος αναγνώρισης... 46 3.1.1 Διαδικασία εκπαίδευσης... 46 3.1.2 Διαδικασία κανονικής λειτουργίας ταξινόμησης... 47 3.2 Επιλογή της βάσης δεδομένων... 49 3.2.1 Αυθόρμητη ομιλία... 50 3.2.2 Προσποιητή ομιλία... 50 3.2.3 Αποσπασμένη ομιλία... 52 3.2.4 Η βάση δεδομένων της παρούσας εργασίας... 53 3.3 Επιλογή του αλγόριθμου ταξινόμησης... 54 3.3.1 Ταξινομητές που χρησιμοποιούνται για αναγνώριση συναισθήματος... 54 3.3.2 Ο ταξινομητής της παρούσας εργασίας... 57 3.4 Μηχανές διανυσμάτων υποστήριξης (SVM)...57 3.4.1 Βασικές αρχές λειτουργίας των SVMs... 59 3.4.2 Συναρτήσεις πυρήνων σε SVM δίκτυα (Kernel functions)... 62 3.4.3 Η αρχιτεκτονική ενός SVM δικτύου... 65 ΚΕΦΑΛΑΙΟ 4 Ο... 67 ΕΞΑΓΩΓΗ ΠΑΡΑΜΕΤΡΩΝ ΟΜΙΛΙΑΣ... 67 4.1 Εξαγωγή της θεμελιώδους συχνότητας (Pitch)... 67 4.1.1 Υπολογισμός του Pitch στο πεδίο του χρόνου... 70 4.1.2 Υπολογισμός του Pitch στο πεδίο της συχνότητας Cepstrum ανάλυση... 72 4.1.3 Υπολογισμός του Pitch με τη συνάρτηση αυτοσυσχέτισης... 73 4.1.4 Αλγόριθμος εξαγωγής του Pitch στη παρούσα εργασία... 74 4.2 Εξαγωγή των συχνοτήτων συντονισμού (Formants)... 77 4.2.1 Ορισμός των Formants... 77 4.2.2 Μέθοδος γραμμικής πρόγνωσης... 79 4.2.3 Αλγόριθμος εξαγωγής των Formants στη παρούσα εργασία... 82 4.3 Υπολογισμός της ενέργειας του σήματος ομιλίας... 85 4.4 Εξαγωγή των συντελεστών MFCC... 86 4.5 Εξαγωγή των συντελεστών TEO... 88 4.6 Εξαγωγή του ποσοστού αρμονικότητας προς θόρυβο (HNR)... 90 4.6.1 Ορισμός της αρμονικότητας και του HNR... 90 4.6.2 Αλγόριθμος εξαγωγής των HNR στη παρούσα εργασία... 92 ii

4.7 Εξαγωγή του ρυθμού ομιλίας... 93 4.8 Υπολογισμός στατιστικών στοιχείων των παραμέτρων ομιλίας... 94 ΚΕΦΑΛΑΙΟ 5 Ο... 101 ΠΕΙΡΑΜΑΤΑ ΤΑΞΙΝΟΜΗΣΗΣ ΚΑΙ ΜΕΤΡΗΣΕΙΣ... 101 5.1 Πειραματική διαδικασία... 102 5.2 Επιλογή των συνόλων εκπαίδευσης και δοκιμής... 102 5.3 Μετρήσεις απόδοσης ταξινόμησης SVM... 106 5.4 Επιλογή των βέλτιστων χαρακτηριστικών γνωρισμάτων ομιλίας με τη μέθοδο Forward Feature Selection (FFS)... 108 5.4.1 Η μέθοδος FFS για την επιλογή των χαρακτηριστικών γνωρισμάτων... 108 5.4.2 Αποτελέσματα της μεθόδου FFS για τα δεδομένα ομιλίας της βάσης Berlin... 109 5.5 Μοντελοποίηση με μίγματα Γκαουσσιανών κατανομών (GMM Gaussian Mixture Model)... 111 5.6 Αποτελέσματα της μοντελοποίησης GMM για τα δεδομένα της βάσης Berlin... 113 ΚΕΦΑΛΑΙΟ 6 Ο... 117 ΣΥΜΠΕΡΑΣΜΑΤΑ... 117 6.1 Γενικά... 117 6.2 Συμπεράσματα από την επιλογή παραμέτρων FFS... 117 6.3 Συμπεράσματα από τη μοντελοποίηση GMM... 118 6.4 Συμπεράσματα από τα πειράματα ταξινόμησης SVM... 119 Βιβλιογραφία... 121 iii

Σκοπός Σκοπός της παρούσας διπλωματικής εργασίας είναι η μελέτη των ανθρώπινων χαρακτηριστικών ομιλίας που είναι σε θέση να μας δώσουν σημαντική πληροφορία για το συναίσθημα. Τα χαρακτηριστικά ομιλίας που μελετώνται θα ονομάζονται και ως παράμετροι ομιλίας. Μέσα από μια σειρά πειραμάτων, στόχος μας είναι ο προσδιορισμός των κατάλληλων παραμέτρων ομιλίας, οι οποίες θα θέσουν ένα αυτόματο σύστημα ικανό να αναγνωρίζει με αξιοπιστία τη συναισθηματική κατάσταση του ομιλητή όταν μελετάμε ένα πεπερασμένο αριθμό συναισθηματικών καταστάσεων. Περίληψη Με τη συνεχώς αυξανόμενη παρουσία αυτόματων συστημάτων στην καθημερινότητά μας, εισέρχεται και το βάρος της αλληλεπίδρασης με αυτά τα συστήματα εξαιτίας της έλλειψης συναισθηματικής νοημοσύνης από την πλευρά των μηχανών [45]. Η συναισθηματική πληροφορία που μεταδίδεται μέσω της ανθρώπινης ομιλίας αποτελεί σημαντικό παράγοντα στις ανθρώπινες επικοινωνίες και αλληλεπιδράσεις. Όταν οι άνθρωποι αλληλεπιδρούν με μηχανές ή υπολογιστικά συστήματα υπάρχει ένα κενό μεταξύ της πληροφορίας που μεταδίδεται και αυτής που γίνεται αντιληπτή. Η εργασία αυτή επικεντρώνεται στον τρόπο με τον οποίο ένα υπολογιστικό σύστημα μπορεί να αντιληφθεί την συναισθηματική πληροφορία που υποβόσκει στην ανθρώπινη ομιλία. Γίνεται μελέτη ενός συστήματος αναγνώρισης της συναισθηματικής κατάστασης του ομιλητή, και πιο συγκεκριμένα επικεντρωνόμαστε στην προεπεξεργασία του σήματος ομιλίας και την εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν μονοσήμαντα κάθε συναισθηματική κατάσταση. Διεξάγουμε πειραματικές μετρήσεις εξάγοντας μια σειρά στατιστικών τιμών από παραμέτρους που χαρακτηρίζουν τόσο την προσωδία όσο και την ποιότητα της φωνής. Τα αποτελέσματά μας υποδεικνύουν το βέλτιστο σύνολο παραμέτρων ομιλίας για αξιόπιστη αναγνώριση συναισθημάτων πάνω στη συναισθηματική βάση του Βερολίνου. iv

Επισκόπηση της παρούσας εργασίας Στο κεφάλαιο 1 γίνεται μια εισαγωγή στην έννοια του συναισθήματος από τη σκοπιά του τομέα της ψυχολογίας και των σχετικών θεωρήσεων της συναισθηματικής ομιλίας. Επίσης γίνεται και μια επισκόπηση της σχετικής έρευνας για τα συστήματα αναγνώρισης και επεξεργασίας της συναισθηματικής ομιλίας. Το κεφάλαιο 2 παρουσιάζει τους τρόπους έκφρασης των συναισθημάτων και δίνει λεπτομέρειες για τις συναισθηματικές εκφάνσεις της ανθρώπινης ομιλίας και τη σχέση των παραμέτρων ομιλίας στην ανθρώπινη επικοινωνία. Επίσης παρουσιάζεται συνοπτικά ο μηχανισμός παραγωγής της ανθρώπινης ομιλίας. Στο κεφάλαιο 3 περιγράφεται η λειτουργία ενός αυτόματου συστήματος ταξινόμησης συναισθημάτων και γίνεται περιγραφή των συστατικών μερών του. Αναλύεται ειδικά η σημασία της επιλογής μιας κατάλληλης βάσης δεδομένων ομιλίας και του κατάλληλου ταξινομητή για την εφαρμογή στην οποία στοχεύει και δίνονται οι αναλυτικές περιγραφές της βάσης ομιλίας του Βερολίνου και του ταξινομητή SVM που χρησιμοποιούμε στα πειράματα αυτής της διπλωματικής εργασίας. Το κεφάλαιο 4 παρουσιάζει τις παραμέτρους ομιλίας που επιλέγουμε να εξάγουμε από το σήμα ομιλίας ως τα χαρακτηριστικά γνωρίσματα εκείνα που θα μελετήσουμε ως προς την καταλληλότητα τους για αξιόπιστη αναγνώριση της συναισθηματικής κατάστασης του ομιλητή. Παρουσιάζονται αναλυτικά οι δημοφιλέστερες μέθοδοι εξαγωγής αυτών των παραμέτρων και οι αλγόριθμοι που υλοποιούν την εκτίμηση τους κατά τα πειράματα της παρούσας εργασίας. Στο κεφάλαιο 5 περιγράφεται η πειραματική διαδικασία που ακολουθήσαμε και παρατίθενται πίνακες με τα αριθμητικά αποτελέσματα των πειραμάτων. Στο κεφάλαιο 6 ερμηνεύουμε τα αποτελέσματα των πειραμάτων μας και δίνουμε τα συμπεράσματα της ερευνητικής αυτής δουλειάς. Τέλος στο συνοδευτικό CD παρατίθενται το παράρτημα της εργασίας στο οποίο βρίσκεται ο κώδικας MATLAB, με τις συναρτήσεις που υλοποιούν τις αντίστοιχες μεθόδους εξαγωγής των παραμέτρων ομιλίας αυτής της εργασίας. v

vi

Κεφάλαιο 1 Εισαγωγή ΚΕΦΑΛΑΙΟ 1 Ο ΕΙΣΑΓΩΓΗ 1.1 Τι είναι το συναίσθημα; [1], [2] Η κατασκευή ενός αυτόματου συστήματος αναγνώρισης συναισθημάτων εξαρτάται από το τι ακριβώς ορίζουμε ως συναίσθημα, και πως αυτό μπορεί να αναπαρασταθεί και να μετρηθεί. Αυτό είναι ένα πολύ ενδιαφέρον ερώτημα που έχει προκαλέσει πληθώρα συζητήσεων και διαμαχών στους επιστημονικούς κύκλους τόσο στο παρελθόν όσο και σήμερα. Οι ορισμοί του συναισθήματος είναι αρκετοί, συνήθως πολύπλοκοι, χωρίς να αναφέρονται σε ένα μοναδικό και καλά καθορισμένο, παρατηρήσιμο φαινόμενο. Η παράδοση της επιστήμης της ψυχολογίας συγκλίνει στο ότι το συναίσθημα είναι μια ψυχο-σωματική αντίδραση σε γεγονότα. Συνεπώς, σύμφωνα με τους ψυχολόγους, το συναίσθημα δεν είναι μόνο μια εσωτερική κατάσταση, αυτό που ονομάζεται δηλαδή συναισθηματική κατάσταση, αλλά η γενικότερη αντίδραση του ανθρώπου. Μια απλοποιημένη εξήγηση του συναισθήματος θα μπορούσε να είναι η εξής: το συναίσθημα γεννιέται με αφετηρία τα γεγονότα που λαμβάνουν χώρα, και με την επίδραση ποικίλων παραμέτρων, που μελετώνται από την ψυχολογία (σχήμα 1.1). ΓΕΓΟΝΟΣ Φίλτρα αντίληψης ΑΝΤΙΛΗΨΗ ΕΡΜΗΝΙΑ (ΣΚΕΨΗ) ΣΥΝΑΙΣΘΗΜΑ Σχήμα 1.1: Σχηματική αναπαράσταση της διαδικασίας δημιουργίας του συναισθήματος. 1

Κεφάλαιο 1 Εισαγωγή 1.2 Κατηγοριοποίηση συναισθημάτων [2] Τα συναισθήματα μπορούν να θεωρηθούν και ως μια μορφή επικοινωνίας (μηνύματα), προς τον εαυτό μας και προς άλλους. Αποτελούνται από συμπεριφορές, ψυχολογικές μεταβολές και υποκειμενικές εμπειρίες (π.χ. «φοβάμαι»), προκαλούμενες από σκέψεις ή από εξωτερικά γεγονότα, ειδικά από γεγονότα που θεωρούνται μεγάλης σημασίας. Και ενώ η αντίληψη της σημασίας κάθε γεγονότος είναι καθαρά υποκειμενική και εξαρτώμενη από κοινωνικούς παράγοντες, υπάρχουν κάποια οικουμενικά συναισθήματα που είναι τα συναισθήματα τα οποία βιώνει και εξωτερικεύει η πλειοψηφία των ανθρώπων π.χ. είμαστε χαρούμενοι όταν γεννιέται το παιδί μας, είμαστε λυπημένοι όταν κάποιο αγαπημένο πρόσωπο πεθαίνει. Επίσης κάποια λίγα συγκεκριμένα συναισθήματα αποτελούν τη βάση ολόκληρης της συναισθηματικής ζωής, μια ιδέα την οποία πρώτος διατύπωσε ο Καρτέσιος, ενώ ο Δαρβίνος εισήγαγε την ιδέα ότι τα συναισθήματα είναι αναπόσπαστα από λειτουργικές συμπεριφορές όπως σωματικές δράσεις. Συνεπώς κατατάσσουμε τα συναισθήματα σε δύο κύριες κατηγορίες: τα πρωτεύοντα (βασικά) και τα δευτερεύοντα (παραγόμενα) συναισθήματα. Τα πρωτεύοντα ή βασικά συναισθήματα είναι αυτά που κατά κύριο λόγο βιώνονται από όλα τα κοινωνικά θηλαστικά (από ανθρώπους, πιθήκους, λύκους, σκύλους, φάλαινες...) και σχετίζονται με συγκεκριμένους τρόπους έκφρασης (εκφράσεις προσώπου, τάσεις συμπεριφοράς, φυσιολογικά πρότυπα). Οι επιστήμονες δεν έχουν ακόμα καταλήξει στο ποια υπό-ομάδα συναισθημάτων αποτελούν τα βασικά συναισθήματα και στο πόσα είναι (κατηγοριοποιήσεις αναφέρουν από δύο έως και εννέα συναισθήματα). Υπάρχει όμως συμφωνία στο ότι τα συναισθήματα του φόβου και του θυμού είναι βασικά, αντίθετα δεν είναι σίγουρο ότι είναι βασικά τα δύο πιο συνήθη συναισθήματα της χαράς και της λύπης. Τα βασικά συναισθήματα είναι σημαντικά γιατί αντιπροσωπεύουν μοναδικές κινητήριες τάσεις και συμπεριφορές και είναι επίσης εύκολα αναγνωρίσιμα από φυσιολογικής πλευράς. Κάποια απ τα χαρακτηριστικά τους περιλαμβάνουν: - Είναι αμετάβλητα σε όλες τις ανθρώπινες κοινωνίες και σε όλα τα κοινωνικά θηλαστικά. Για παράδειγμα όλοι οι άνθρωποι και όλα τα κοινωνικά θηλαστικά βιώνουν το συναίσθημα του φόβου. - Έχουν συγκεκριμένους τρόπους έκφρασης όπως οι εκφράσεις προσώπου που χρησιμοποιούνται συχνά για την αναγνώριση ενός βασικού συναισθήματος. 2

Κεφάλαιο 1 Εισαγωγή - Στους ανθρώπους τα βασικά συναισθήματα εμφανίζονται μέσα στον πρώτο χρόνο ζωής. - Προέρχονται από απαραίτητες εξελικτικές ανάγκες (π.χ. ο φόβος προειδοποιεί το ζώο για μια επικείμενη μάχη). Μια δεδομένη έκφραση συναισθήματος στον άνθρωπο μπορεί να μην επιτελεί ακόμα την ίδια εξελικτική ανάγκη όπως π.χ. αν αισθανθούμε φόβο παρακολουθώντας μια ταινία θρίλερ. Τα δευτερεύοντα ή παραγόμενα συναισθήματα είναι παραλλαγές ή συνδυασμοί των βασικών συναισθημάτων και ίσως συναντώνται μόνο στον άνθρωπο. Σ αυτά ανήκει π.χ. η υπερηφάνεια (μια παραλλαγή της ευτυχίας σε απάντηση προς ένα κατόρθωμα) και η ευγνωμοσύνη (ευτυχία προερχόμενη από την εκτίμηση της βοήθειας που παρείχε ένα άλλο άτομο). Συχνά παραδείγματα δευτερευόντων συναισθημάτων είναι επίσης: θλίψη/λύπη, τρυφερότητα/στοργή, σαρκασμός/ειρωνεία έκπληξη/κατάπληξη... Ερευνητές Ομάδα βασικών συναισθημάτων Επιλογή συναισθημάτων βάσει: Arnold Ekman, Friesen, & Ellsworth Θυμός, αποστροφή, κουράγιο, κατάθλιψη, επιθυμία, απόγνωση, φόβος, μίσος, ελπίδα, αγάπη, λύπη Θυμός, αηδία, φόβος, χαρά, λύπη, έκπληξη Σχέση με τάση για πράξη Οικουμενικές εκφράσεις προσώπου Fridja Επιθυμία, ευτυχία, ενδιαφέρον, έκπληξη, θαυμασμός, οδύνη Μορφές ετοιμότητας πράξης Gray Οργή και τρόμος, αγωνία, χαρά Εγκεφαλικά συνδεδεμένα Izard Θυμός, περιφρόνηση, αηδία, αμηχανία, φόβος, ενοχή, ενδιαφέρον, χαρά, ντροπή, έκπληξη Εγκεφαλικά συνδεδεμένα James Φόβος, θλίψη, αγάπη, οργή Σωματική εμπλοκή McDougall Θυμός, αηδία, αγαλλίαση, φόβος, υποταγή, στοργή, θαυμασμός Σχέση με ένστικτα Mower Πόνος, απόλαυση Συναισθηματικές καταστάσεις χωρίς εξοικείωση Oatley & Johnson- Laird Θυμός, αηδία, αγωνία, ευτυχία, λύπη Δεν απαιτούν περιεχόμενο πρόθεσης 3

Κεφάλαιο 1 Εισαγωγή Panksepp Προσμονή, φόβος, οργή, πανικός Εγκεφαλικά συνδεδεμένα Plutchik Αποδοχή, θυμός, πρόνοια, αηδία, χαρά, φόβος, Σχέση με βιολογικές διεργασίες λύπη, έκπληξη προσαρμογής Tomkins Θυμός, ενδιαφέρον, περιφρόνηση, αηδία, αμηχανία, φόβος, χαρά, ντροπή, έκπληξη Πυκνότητα νευρικής αντίδρασης Watson Φόβος, αγάπη, οργή Εγκεφαλικά συνδεδεμένα Weiner & Graham Ευτυχία, λύπη Ανεξάρτητα χαρακτηριστικού Πίνακας 1.1: Σύνοψη της ομάδας των βασικών συναισθημάτων κατά τον ορισμό της από διάφορους ερευνητές (Ortony and Turner, 1990) [4]. Σχήμα 1.2: Τρισδιάστατο μοντέλο του Robert Plutchik [4] Περιγραφή της σχέσης μεταξύ των συναισθημάτων με μια αναλογία χρωμάτων. Η κάθετη διάσταση του κώνου είναι η ένταση του συναισθήματος και ο κύκλος αντιπροσωπεύει το βαθμό ομοιότητας μεταξύ των συναισθημάτων. Στο κεντρικό κύκλο βρίσκονται τα βασικά συναισθήματα όπως ορίζονται στη συγκεκριμένη προσέγγιση και παρουσιάζονται αντιδιαμετρικά ως ζευγάρια αντιθέτων. Τα συναισθήματα που βρίσκονται στο λευκό κομμάτι είναι μίγμα δύο βασικών συναισθημάτων (δυάδες βασικών). 4

Κεφάλαιο 1 Εισαγωγή 1.3 Η συναισθηματική διαδικασία [2] Η συναισθηματική διαδικασία, όπως και οποιαδήποτε άλλη διαδικασία επίγνωσης, είναι σύνθετη και απαιτεί πολλά βήματα (βλέπε σχήμα 1.1). Το πρώτο βήμα είναι η ενεργοποίηση ή διέγερση. Η ενεργοποίηση ακολουθείται από την αξιολόγηση της κατάστασης. Παραδείγματος χάριν, εάν μια δεδομένη κατάσταση αποτελεί απειλή ή όχι, καθώς επίσης και εάν κάποιος αντιμετωπίζει ένα θήραμα ή ένα αρπακτικό. Με βάση την αξιολόγηση, ενεργοποιείται είτε η ανασταλτική είτε διαδικασία δράσης και έπειτα εκφράζονται οι κατάλληλες συναισθηματικές συμπεριφορές. Κάθε στάδιο της συναισθηματικής διαδικασίας συνδέεται με μεταβολές στη φυσιολογία. i. Μηχανισμοί ενεργοποίησης. Η ενεργοποίηση, μια έννοια κλειδί για τα συναισθήματα, ορίζεται ως η ετοιμότητα για συναισθηματική συμπεριφορά. ii. Λειτουργίες αξιολόγησης. Το σύστημα αξιολόγησης των ζώων, το οποίο μπορεί να λειτουργήσει με ή χωρίς γνωστική συνειδητοποίηση (θεωρώντας ότι μόνο οι άνθρωποι έχουν γνωστική συνειδητοποίηση) δουλεύει σε τρία στάδια: 1. αξιολογεί τα γεγονότα για τη σχετικότητά τους, 2. κατευθύνει τις δράσεις προς απάντηση και 3. τροφοδοτεί με τις πληροφορίες τον υποθάλαμο για να ρυθμίσει την απάντηση της φυσιολογίας. Παραδείγματος χάριν, ένα ζώο αξιολογεί το μέγεθος και τη δύναμη ενός άλλου ζώου, και καθορίζει εάν η απάντηση πρέπει να είναι επιθετικότητα ή απόσυρση. Από την άποψη των συναισθημάτων, οι λειτουργίες αξιολόγησης βοηθούν στο να διακρίνει εάν το συναίσθημα είναι θετικό ή αρνητικό. Με βάση αυτές τις πτυχές του συναισθηματικού μηχανισμού προκύπτει η ιδέα της αναπαράστασης των συναισθημάτων σε έναν πολυδιάστατο χώρο. 1.4 Ορίζοντας τις διαστάσεις του συναισθήματος [2] Γενικά υπάρχουν πολλοί τρόποι που μπορούν να αναπαραστήσουν τα συναισθήματα σε χώρους πολλών διαστάσεων. Σύμφωνα με τη θεωρία των Osgood, Suci και Tannenbaum [5] και 5

Κεφάλαιο 1 Εισαγωγή μεταγενέστερες ψυχολογικές έρευνες, η επικοινωνία του συναισθήματος μπορεί να γίνει αντιληπτή ως μια τρισδιάστατη έννοια με τρεις σημαντικές διαστάσεις: της διέγερσης, της ευχαρίστησης και της δύναμης. Οι τρεις διαφορετικές διαστάσεις αναφέρονται τακτικά στη λογοτεχνία σχετική με την ανάλυση συναισθήματος και καθορίζονται ως εξής: Ενεργοποίηση ή διέγερση (activation / arousal): Αναφέρεται στο βαθμό έντασης του συναισθήματος και κυμαίνεται «από τον ύπνο στο μανιώδη ενθουσιασμό» [6]. Συσχετίζεται επίσης με το βαθμό ετοιμότητας για δράση, κατά πόσο ένα συναίσθημα μας παρέχει το κίνητρο για δράσεις. Η έρευνα από το Δαρβίνο μέχρι σήμερα έχει αναγνωρίσει ότι οι συναισθηματικές καταστάσεις εμπεριέχουν διαθέσεις προς δράση με συγκεκριμένους τρόπους. Οι συναισθηματικές καταστάσεις εκτιμώνται απλά από την άποψη του σχετικού επιπέδου ενεργοποίησης, δηλ. η δύναμη ή η αδυναμία της διάθεσης του προσώπου για να λάβει κάποια μέτρα. Η διάσταση της ενεργοποίησης διαφοροποιεί, για παράδειγμα, το θυμό από την πλήξη. Ενώ ο πρώτος κατέχει ένα υψηλό επίπεδο ενεργοποίησης, ο δεύτερος παρουσιάζει χαμηλότερη διάθεση για να ενεργήσει κάποιος, και επομένως χαμηλότερο επίπεδο ενεργοποίησης. Αξιολόγηση ή σθένος (evaluation / appraisal): Καθορίζει πόσο θετική ή αρνητική είναι η επιρροή του συναισθήματος, συμπαθές ή αντιπαθές. Αυτή η διάσταση απεικονίζει το σαφέστερο κοινό στοιχείο των συναισθηματικών καταστάσεων, ένα άτομο επηρεάζεται καίρια από τα συναισθήματα που είναι «σθεναρά», δηλ. έχουν να κάνουν κυρίως με θετικές ή αρνητικές αξιολογήσεις ανθρώπων ή πραγμάτων ή γεγονότων. Η σύνδεση μεταξύ των συναισθημάτων και του σθένους είναι αναμφισβήτητη, αν και οι συγγραφείς την περιγράφουν υπό διαφορετικούς όρους. Ο Arnold αναφέρεται στην κρίση «ευτυχίας ή δυστυχίας», ο Tomkins περιγράφει την επιρροή του συναισθήματος ως αυτό που καθορίζει την αξία των πραγμάτων «χωρίς την ενίσχυσή του (συναισθήματος), τίποτα δεν έχει σημασία, και με την ενίσχυσή του, οτιδήποτε μπορεί να έχει σημασία». Ο Rolls βλέπει τη συναισθηματική επεξεργασία ως: «η αξία ανταμοιβής ή τιμωρίας γίνεται προφανής στην αναπαράσταση». Για παράδειγμα, η ευτυχία θεωρείται ότι είναι θετικό, δηλ. έχει ένα υψηλό επίπεδο αξιολόγησης, ενώ ο θυμός παρουσιάζει μια αρνητική αξία, δηλ. χαμηλό επίπεδο αξιολόγησης. 6

Κεφάλαιο 1 Εισαγωγή Δύναμη ή έλεγχος (dominance / power): Αφορά το βαθμό δύναμης ή την αίσθηση ελέγχου του συναισθήματος και βοηθά να διακριθούν τα συναισθήματα που ξεκινούν από το πρόσωπο από εκείνα που προέρχονται από το περιβάλλον π.χ. διάκριση περιφρόνησης/φόβου. Συσχετίζεται επίσης με το βαθμό κυριαρχίας/υποβολής. Για παράδειγμα αν δεν υπάρχει αυτή η διάσταση δεν μπορεί να διακριθεί το συναίσθημα του φόβου από το θυμό αφού ο έλεγχος, ή καλύτερα η δυνατότητα να αντιμετωπιστεί μια κατάσταση, είναι το μόνο διαχωριστικό στοιχείο. [7] Το κύριο πλεονέκτημα αυτής της θεωρίας είναι ότι παρέχει μια καλή ταξινόμηση λόγω των απλών μέτρων απόστασης μεταξύ των κατηγοριών συναισθημάτων, καθώς επίσης και ένα συνεχές πλαίσιο για τις βαθμιαίες, μη-ακραίες συναισθηματικές καταστάσεις. Εντούτοις, τρεις διαστάσεις δεν συλλαμβάνουν ακόμα όλες τις σχετικές πτυχές μιας συναισθηματικής κατάστασης. 1.5 Η αναπαράσταση αξόνων «ενεργοποίησης αξιολόγησης» [2] Ο χώρος ενεργοποίησης αξιολόγησης είναι μια εξειδίκευση/απλοποίηση της διαστατικότητας που εισάγεται στην παράγραφο 1.4, η οποία οδηγεί σε μια αντιπροσώπευση που είναι και απλή και σε θέση να καταγράψει ένα ευρύ φάσμα από τις σημαντικές πτυχές των συναισθημάτων. Στηρίζεται σε μια απλουστευμένη αντιμετώπιση των δύο βασικών θεμάτων: αξιολόγηση και ενεργοποίηση. 7

Κεφάλαιο 1 Εισαγωγή Σχήμα 1.3: Γραφική αναπαράσταση της θεωρίας «αξιολόγησης-ενεργοποίησης» των συναισθημάτων [2]. Ο κάθετος άξονας παρουσιάζει το επίπεδο ενεργοποίησης, ο οριζόντιος άξονας είναι η αξιολόγηση. Το βασικό πλεονέκτημα αυτής της αναπαράστασης είναι ότι παρέχει έναν τρόπο περιγραφής των συναισθηματικών καταστάσεων που είναι πιο βολικός από τη χρήση λέξεων, αλλά που μπορεί και να περιγραφεί από και μεταφραστεί σε λεκτικές περιγραφές. Η μετάφραση είναι δυνατή επειδή οι λέξεις που σχετίζονται με τα συναισθήματα μπορούν να γίνουν κατανοητές, τουλάχιστον σε μια πρώτη προσέγγιση, όπως αν αναφερόμαστε σε θέσεις στο χώρο ενεργοποίησης του συναισθήματος. Ο χώρος ενεργοποίησης - αξιολόγησης είναι ένα εκπληκτικά ισχυρό εργαλείο, και έχει χρησιμοποιηθεί όλο και περισσότερο στην υπολογιστικά προσανατολισμένη έρευνα. Εντούτοις, πρέπει να υπογραμμιστεί ότι οι αναπαραστάσεις αυτού του είδους εξαρτώνται από την κατάρρευση του δομημένου, πολυδιάστατου χώρου των πιθανών συναισθηματικών 8

Κεφάλαιο 1 Εισαγωγή καταστάσεων σε ένα ομοιογενές διάστημα μόνο δύο διαστάσεων. Υπάρχει αναπόφευκτα απώλεια πληροφοριών και χειρότερα ακόμα, διαφορετικοί τρόποι υλοποίησης της κατάρρευσης οδηγούν σε ουσιαστικά διαφορετικά αποτελέσματα. Η έρευνα προτείνει ότι ο χώρος ενεργοποίησης - αξιολόγησης είναι φυσικά κυκλικός, δηλ. καταστάσεις που βρίσκονται στο όριο της συναισθηματικής έντασης καθορίζουν μια περιφέρεια. Οι καταστάσεις που είναι στο όριο της συναισθηματικής έντασης απέχουν εξ ίσου από ένα συναισθηματικό ουδέτερο σημείο (δείτε το σχήμα 1.3). Πολλές τεχνικές συγκλίνουν στο συμπέρασμα ότι σε μια πρώτη προσέγγιση, οι συναισθηματικοί όροι μπορούν να γίνουν κατανοητοί ότι αναφέρονται σε σημεία στο χώρο που καθορίζεται από εκείνους τους δύο άξονες. Ο Pereira στο [8] εκτέλεσε ένα πείραμα βασισμένο στις δοκιμές ακούσματος μερικών συναισθηματικών εκφράσεων (κρύος θυμός, καυτός θυμός, ευτυχία, ουδετερότητα και θλίψη). Τα αποτελέσματα κατέληξαν στο συμπέρασμα ότι όλα τα συναισθήματα διέφεραν σημαντικά μεταξύ τους τουλάχιστον σε μία από τις δύο διαστάσεις. Τα συμπεράσματα του [8] δείχνουν ότι η έννοια των διαστάσεων του συναισθήματος είναι χρήσιμη να περιγράψει και να διακρίνει τα συναισθήματα και ότι συναισθήματα με ένα παρόμοιο επίπεδο διέγερσης, και μερικές φορές με ένα παρόμοιο επίπεδο δύναμης, έχουν και παρόμοια ακουστικά χαρακτηριστικά από την άποψη της F0 σε μέση τιμή και ευρύτητα, και ιδιαίτερα παρόμοια μέση τιμή έντασης. Επίσης προτείνεται ότι αυτό συμβάλλει στην αντιληπτή ομοιότητα μεταξύ αυτών των συναισθημάτων και συνεπώς των συγχύσεων μεταξύ τους, ειδικά στους κουφούς. Παρατηρήθηκε ότι στην πλειοψηφία των περιπτώσεων, τα συναισθήματα που συγχέονταν ήταν πιο κοντά στη διάσταση της διέγερσης απ' ότι στις άλλες δύο διαστάσεις. Στα πλαίσια του προγράμματος PHYSTA ένα σύστημα αποκαλούμενο FEELTRACE [14] σχεδιάστηκε για να αντιπροσωπεύσει τα συναισθήματα στο χώρο ενεργοποίησης -αξιολόγησης. Η λειτουργία αυτού του εργαλείου είναι να καταγράφει τον τρόπο που τα σημάδια γίνονται αντιληπτά από αντιπροσωπευτικούς παρατηρητές, μέσω ενός συστήματος που βρίσκουν εύχρηστο, και που δίνει σχετικά αξιόπιστα αποτελέσματα. Τα αποτελέσματα της δοκιμής FEELTRACE είναι σύμφωνα με τη θεωρητική προσέγγιση. 9

Κεφάλαιο 1 Εισαγωγή 1.6 Συναισθηματικός υπολογισμός (Emotional computing) [2] Μελέτες φυσιολογίας συμφωνούν στο ότι τα συναισθήματα είναι μείζονος σημασίας για την ανθρώπινη νοημοσύνη, τη λογική λήψη αποφάσεων, τις κοινωνικές επαφές, την αντίληψη, τη μνήμη, τη μάθηση, τη δημιουργικότητα κα... Οι ερευνητές που προσπαθούν να κατασκευάσουν νοήμονες υπολογιστές έχουν επικεντρωθεί στην επίλυση προβλημάτων, τη λογική, τη μάθηση, την αντίληψη, τη γλώσσα και σε άλλες γνωστικές λειτουργίες σημαντικές για τη νοημοσύνη. Οι περισσότεροι δεν έχουν λάβει ακόμα υπόψη τους ότι τα συναισθήματα επηρεάζουν τις λειτουργίες αυτές στους ανθρώπους. Σήμερα υπάρχουν αποδείξεις ότι το συναίσθημα παίζει μεγάλο ρόλο στις λειτουργίες που σχετίζονται με την νοημοσύνη. Ο Antonio R. Damasio, γνωστός επιστήμονας της νευρολογίας συμπέρανε από πειράματα: «ένας ανθρώπινος εγκέφαλος που στερείται ή είναι μη λειτουργικός στο νευρικό υποσύστημα το οποίο είναι υπεύθυνο για τα συναισθήματα δε μπορεί να εκτελέσει αποδοτικά τις λειτουργίες λήψης αποφάσεων». Αυτή η κατανόηση του ρόλου των συναισθημάτων για τον άνθρωπο και η αυξανόμενη σημασία για τη σωστή αντίληψη και αλληλεπίδραση μεταξύ υπολογιστή και ανθρώπου επιβάλουν την ανάπτυξη μίας νέας προσέγγισης προς το συναίσθημα κατά τη σχεδίαση υπολογιστικών συστημάτων. Παραδοσιακά, ο συνυπολογισμός των συναισθημάτων σε υπολογιστικά συστήματα θεωρείται μόνο χρήσιμος σε συστήματα για την ψυχαγωγία και τις κοινωνικές ή οικογενειακές καταστάσεις. Η χρήση των συναισθημάτων για τους υπολογιστές θα μπορούσε να θεωρηθεί μόνο είδος πολυτέλειας που πρόκειται να είναι μικρής συνέπειας. Τα επιστημονικά συμπεράσματα έρχονται σε αντίθεση με το συμπέρασμα ότι τα ανθρώπινα συναισθήματα είναι μια πολυτέλεια. Μάλλον, τα στοιχεία τοποθετούν το συναίσθημα σε έναν ουσιαστικό ρόλο για τη βασική λογική και ευφυή συμπεριφορά. Τα συναισθήματα όχι μόνο συμβάλλουν σε μια πλουσιότερη ποιότητα της αλληλεπίδρασης, αλλά επηρεάζουν άμεσα τη δυνατότητα ενός προσώπου να αλληλεπιδράσει με έναν ευφυή τρόπο. Οι συναισθηματικές δεξιότητες, ειδικά η δυνατότητα να αναγνωριστούν και να εκφραστούν συναισθήματα, είναι ουσιαστικές για τη φυσική επικοινωνία με τους ανθρώπους. Η συναισθηματική συγκίνηση είναι ένα φυσικό και κοινωνικό μέρος της ανθρώπινης επικοινωνίας επομένως, οι άνθρωποι το χρησιμοποιούν φυσικά και όταν αλληλεπιδρούν με τους υπολογιστές. 10

Κεφάλαιο 1 Εισαγωγή 1.7 Η τεχνολογία της συναισθηματικής ομιλίας [1], [2] Η έρευνα στη συναισθηματική ομιλία έχει μια μακροχρόνια παράδοση. Τα τελευταία χρόνια, το ενδιαφέρον για την αυτόματη ανίχνευση και ερμηνεία των συναισθημάτων στην ομιλία έχει αυξηθεί. Ταυτόχρονα, η παραγωγή ορισμένων συναισθημάτων στη σύνθεση ομιλίας αποτελεί επίσης έναν ανερχόμενο ερευνητικό τομέα. Τέτοια γνώση μπορεί να βελτιώσει τα υπάρχοντα συστήματα, π.χ. διαλογικά/έμπειρα συστήματα, αλλά μπορεί και να είναι ένας αποφασιστικός παράγοντας προς την ανάπτυξη νέων εφαρμογών όπως βοηθητικές συσκευές για άτομα με ειδικές ανάγκες. Μια συνοπτική επισκόπηση σχετικά με τις ευεργετικές δυνατότητες του συνυπολογισμού των συναισθημάτων στη τεχνολογία ομιλίας απεικονίζεται στην επόμενη υποενότητα 1.7.1. Μερικά από τα προβλήματα που πρέπει να αντιμετωπιστούν, κατά τον εργασία στο συναισθηματικό κομμάτι της ομιλίας, περιγράφονται στην παράγραφο 1.7.2. Πολλοί ερευνητές στον τομέα της τεχνολογίας ομιλίας κατά τη διάρκεια της τελευταίας δεκαετίας έχουν εργαστεί στις διαφορετικές πτυχές των συναισθημάτων στην ομιλία. Ένας από τους στόχους είναι να κατασταθεί ο ήχος σύνθεσης ομιλίας φυσικότερος, ένας άλλος στόχος είναι να κατασκευαστούν συστήματα/μηχανές που να είναι σε θέση να αναγνωρίσουν τη συναισθηματική κατάσταση ενός ομιλητή π.χ. σε ένα αυτοματοποιημένο σύστημα διαλόγου. Το συναίσθημα στα πλαίσια σύνθεσης ομιλίας δεν ενδιαφέρει αυτή τη διπλωματική και συνεπώς στις παρακάτω ενότητες δεν θα αναφερθούμε σε αυτό το θέμα. Το τμήμα 1.7.3 επαναλαμβάνει τις διαφορετικές προσπάθειες στην αυτόματη αναγνώριση συναισθημάτων και αποτελεί μια αναφορά για την πολυπλοκότητα προβλήματος. 1.7.1 Κίνητρα Τα συναισθήματα χρωματίζουν την ομιλία και μπορούν να καταστήσουν την έννοιά της πιο σύνθετη. Οι ακροατές αντιδρούν στη συναισθηματική κατάσταση του ομιλητή και προσαρμόζουν τη συμπεριφορά τους ανάλογα με το τι είδους συναίσθημα διαβιβάζει ο ομιλητής, π.χ. παρουσιάζοντας εμπάθεια στους λυπημένους ανθρώπους, ή προσπαθώντας να βοηθήσει κάποιον που διστάζει να διευκρινίσει τι συμβαίνει ή τι θέλει. Η ταξινόμηση των συναισθηματικών καταστάσεων βασισμένη στη προσωδία και την ποιότητα της φωνής απαιτεί την ταξινόμηση των ακουστικών χαρακτηριστικών της ομιλίας, ανάλογα με το πως συνδέονται με τα συναισθήματα. Αυτό υπονοεί επίσης την υπόθεση ότι μόνο η φωνή φέρει τις πραγματικές 11

Κεφάλαιο 1 Εισαγωγή και πλήρεις πληροφορίες για τη συναισθηματική κατάσταση του ομιλητή [15]. Οι περισσότερες ερευνητικές εργασίες αποκαλύπτουν ότι αυτή η υπόθεση μπορεί να θεωρηθεί δεδομένη χωρίς αμφιβολία, αλλά υπάρχουν ακόμα μελέτες που θεωρούν αυτή την υπόθεση αμφισβητήσιμη [16] λόγω των αμέτρητων εξωτερικών παραγόντων που επηρεάζουν την ανθρώπινη επίγνωση. Η πρόσβαση στις συναισθηματικές πληροφορίες στην ομιλία θα μπορούσε να βελτιώσει ορισμένες εφαρμογές, δηλ. θα ήταν χρήσιμο π.χ. ένα σύστημα διαλόγου να είναι σε θέση να λάβει υπόψη του εάν ο ομιλητής είναι απεγνωσμένος, ενοχλημένος ή ικανοποιημένος. Με αυτόν τον τρόπο, το σύστημα είναι σε θέση να ανιχνεύσει τη συναισθηματική κατάσταση ενός προσώπου και να αποκριθεί αναλόγως, καθώς επίσης και να μιλήσει με τέτοιο τρόπο ώστε οι άνθρωποι να μπορούν να αισθανθούν άνετα με αυτό. Πρόσφατα, η ανάγκη για εν δυνάμει εφαρμόσιμα αποτελέσματα σε αυτόν τον τομέα έχει γίνει απαραίτητη για περίπλοκα αυτόματα συστήματα ομιλίας, π.χ. SmartKom. Στο [1] δίνεται μια περίληψη των διαφορετικών πιθανών εφαρμογών της αναγνώρισης συναισθημάτων από ομιλία. Αυτές οι δυνατότητες περιλαμβάνουν τη βελτίωση των αυτόματων συστημάτων διαλόγου χρησιμοποιώντας την έννοια της σύγκλισης η οποία είναι ένα χαρακτηριστικό γνώρισμα της ανθρώπινης επικοινωνίας. Ομιλητές που είναι σε συμφωνία ή που θέλουν να δείξουν ότι είναι, συγκλίνουν φωνητικά σε μια σειρά παραμέτρων. Με αυτό τον τρόπο, αυτόματα συστήματα διαλόγου θα μπορούσαν να αναγνωρίσουν τη συναισθηματική κατάσταση του ομιλητή και να προσαρμόσουν τις παραμέτρους τους για να συγκλίνουν κατάλληλα. Αυτά τα συστήματα μπορούν να βελτιωθούν επίσης με το να εκμεταλλευτούν την αλληλεπίδραση μεταξύ των καναλιών, δεδομένου ότι ο διάλογος επηρεάζεται όχι μόνο από το λεξικολογικό μήνυμα αλλά και η προσωδία για παράδειγμα, συμβάλλει επίσης στην σημασία του μηνύματος. Η αναγνώριση συναισθημάτων μπορεί επίσης να χρησιμοποιηθεί για να κρίνει ένα άλλο πρόσωπο με έναν ακριβέστερο ή αντικειμενικό τρόπο. Το κλασσικό παράδειγμα είναι η ανίχνευση ψέματος. Μερικές κλινικές διαγνώσεις εξαρτώνται επίσης από την ανίχνευση των φωνητικών γνωρισμάτων των συναισθημάτων, τα οποία συμπληρώνουν τις υποκειμενικές εντυπώσεις των ψυχιάτρων με σχετικά αντικειμενικά μέτρα. Οι συναισθηματικές πληροφορίες μπορούν επίσης να χρησιμοποιηθούν στο σύστημα τηλεσυνεδριάσεων προκειμένου να αποφευχθούν απώλειες στην ευαισθησία που προκύπτουν από το μη φυσικότητα του μέσου. 12

Κεφάλαιο 1 Εισαγωγή Τα φωνητικά γνωρίσματα των συναισθημάτων φέρουν και άλλους τύπους πληροφοριών, όπως πληροφορίες για το σε ποιο στάδιο βρίσκεται μια αλληλεπίδραση. Αυτό το χαρακτηριστικό γνώρισμα μπορεί να είναι χρήσιμο για να διαπραγματευτεί τις συναλλαγές ανθρώπων/υπολογιστών και αυτό εξαρτάται από την κατανόηση των πτυχών των συναισθημάτων, αρκετά καλά ώστε να αναγνωρίσει τι ακριβώς κρύβεται πίσω από ένα συγκεκριμένο πρότυπο προσωδίας. Μια ενδιαφέρουσα εφαρμογή έχει να κάνει με τις μηχανές που λειτουργούν σαν υπάλληλοι σε συστήματα διαλόγου και εξυπηρετούν πελάτες. Τα πλεονεκτήματα θα ήταν προφανή αν οι μηχανές αυτές είχαν τη δυνατότητα να αναγνωρίσουν τη συναισθηματική κατάσταση του ομιλητή-πελάτη και αν η κατάσταση αυτή είναι πέρα απ τα όρια που μπορεί να αντιμετωπίσει η μηχανή τότε είτε να τερμάτιζε την επικοινωνία είτε να την παρέδιδε σε κάποιον άλλο, ικανό να αντιμετωπίσει τέτοια κατάσταση. Ο αυξανόμενος ρόλος που παίζουν τα προφορικά συστήματα διαλόγου ειδικά για την επέκταση των υπηρεσιών που συνδέονται με τα τηλεφωνικά κέντρα και για ποικίλη αυτόματη κατάρτιση και για εκπαιδευτικές εφαρμογές, παρακινούν επίσης την ανάπτυξη των αυτόματων συστημάτων αναγνώρισης συναισθήματος [17]. Ένα παράδειγμα τέτοιου συστήματος είναι το σύστημα αναγνώρισης συναισθήματος που κατασκευάστηκε στο [18]. Εκεί, το σύστημα είναι σε θέση να ξεχωρίσει την αναταραχή από την ηρεμία, με ακρίβεια 77%, χρησιμοποιείται ως μέρος ενός συστήματος υποστήριξης απόφασης για την ιεράρχηση μηνυμάτων φωνής και αναθέτει έναν κατάλληλο ανθρώπινο υπάλληλο για να απαντήσει το μήνυμα σε ένα τηλεφωνικό κέντρο. Οι εφαρμογές βασισμένες στην αυτόματη παράδοση μαθημάτων πρέπει επίσης να ξέρουν εάν ο χρήστης βρίσκει τα παραδείγματα ενοχλητικά ή δύσκολα. Μια από τις σημαντικότερες εμπορικές εφαρμογές σχετικής με την τεχνολογία του συναισθήματος μπορεί να είναι στα προγράμματα ψυχαγωγίας και παιχνιδιών που αποκρίνονται στη κατάσταση του χρήστη, π.χ. AIBO, Play Station 2... Για παράδειγμα, στο [18] αναπτύχθηκε ένα παιχνίδι αναγνώρισης συναισθήματος (ERG Emotion Recognition Game). Το πρόγραμμα επιτρέπει σε έναν χρήστη να ανταγωνιστεί ενάντια στον υπολογιστή ή ένα άλλο πρόσωπο για να δει ποιος μπορεί καλύτερα να αναγνωρίσει το συναίσθημα στην καταγραμμένη ομιλία. Το πρόγραμμα χρησιμεύει συνήθως ως μια επίδειξη της δυνατότητας του υπολογιστή να αναγνωρίσει το συναίσθημα, αλλά μια πιθανή πρακτική εφαρμογή του παιχνιδιού είναι να ενισχυθούν οι αυτιστικοί άνθρωποι στην ανάπτυξη καλύτερων συναισθηματικών δεξιοτήτων στην αναγνώριση του συναισθήματος από ομιλία. 13

Κεφάλαιο 1 Εισαγωγή Σήμερα είναι εύκολο να βρεθούν άνθρωποι που ξοδεύουν περισσότερο χρόνο αλληλεπιδρώντας με έναν υπολογιστή απ' ότι με άλλους ανθρώπους. Καθημερινά οι άνθρωποι μπαίνουν σε online κοινότητες του Διαδικτύου όπου επικοινωνούν ο ένας με τον άλλον μέσω των υπολογιστών. Η καθημερινή αλληλεπίδραση μεταξύ ανθρώπου-υπολογιστή έχει έναν οικονομικό αντίκτυπο δισεκατομμυρίων δολαρίων, για να μην αναφέρουμε τον ψυχολογικό αντίκτυπο, ο οποίος είναι πιο δύσκολος να ποσοτικοποιηθεί. Αυτός ο αυξανόμενος αντίκτυπος, συν το ευρύ φάσμα των υπαρχουσών εφαρμογών και των δυνατοτήτων του συναισθηματικού υπολογισμού, έχει αυξήσει το επιστημονικό και τεχνικό ενδιαφέρον για την αναγνώριση και παραγωγή συναισθημάτων σε συστήματα ομιλίας. Σχήμα 1.4: ERG Emotion Recognition Game, το παιχνίδι που αναπτύχθηκε από την ομάδα του ερευνητή Valery Α. Petrushin [21]. 1.7.2 Εμπόδια και δυσκολίες Τόσο η αναγνώριση συναισθήματος όσο και η σύνθεση αντιμετωπίζουν μια ευρεία ποικιλόμορφων προβλημάτων. Εντούτοις, η αυτόματη ανίχνευση των συναισθημάτων θεωρείται το δυσκολότερο μέρος σε αυτόν τον τομέα. Ο λόγος είναι ότι οι έρευνες πρέπει να χειριστούν 14

Κεφάλαιο 1 Εισαγωγή την αυθόρμητη ομιλία ως είσοδο καθώς επίσης ούτε οι κατηγορίες συναισθημάτων ούτε και ο καθορισμός αξιόπιστων ακουστικών χαρακτηριστικών για τα συναισθήματα είναι σαφή. Ένα σοβαρό πρόβλημα στην έρευνα των συναισθημάτων στις ανθρώπινες φωνήσεις είναι ότι οι άνθρωποι παράγουν ήχο τις περισσότερες φορές μόνο όταν αρθρώνουν γλωσσικές εκφράσεις όπως συγκεκριμένες λέξεις, έτσι οι ακουστικές αλλαγές στις παραμέτρους που προέρχονται λόγω των συναισθηματικών καταστάσεων αναμιγνύονται με τις αλλαγές εκείνων των λεκτικών ήχων που παράγονται για την προφορική επικοινωνία. Ενώ οι εγκέφαλοί μας είναι πολύ καλοί στο διαχωρισμό αυτών των πληροφοριών, οι μηχανές και τα προγράμματα υπολογιστών μας δεν είναι σίγουρα. Ένα παράδειγμα αυτής της δυσκολίας είναι η παραλλαγή της δομής των formants στα ηχηρά τμήματα της ομιλίας. Όπως εκτίθεται λεπτομερώς στο κεφάλαιο 2, οι συχνότητες formant καθορίζουν τον ηχηρό ήχο, δηλ. κάθε φωνήεν χαρακτηρίζεται από μια ιδιαίτερη formant δομή. Εντούτοις, οι μικρές παραλλαγές των formant συχνοτήτων μέσα σε μια σειρά μπορούν να παραγάγουν την ίδια εντύπωση φωνήεντος αλλά με τροποποίηση της συναισθηματικής αντίληψης του ακροατή. Επιπλέον, ένα από τα πιο ιδιαίτερα χαρακτηριστικά ομιλίας είναι η μεταβλητότητά της. Οι διαφορετικοί ομιλητές λένε τα πράγματα με διαφορετικούς τρόπους και σε λεκτικό και φωνητικό επίπεδο. Υπάρχει επίσης ιδιαίτερη μεταβλητότητα μέσα στην ομιλία ενός ενιαίου ομιλητή. Ούτε οι διαφορετικές περιπτώσεις της ίδιας λέξης δεν θα είναι ηχητικά ίδιες. Σύμφωνα με τους Murray και Arnott [19], υπάρχουν διάφοροι λόγοι για αυτήν την μεταβλητότητα: - Το ύφος ομιλίας (speaking style): Οι ομιλητές αλλάζουν τον τρόπο ομιλίας τους ανάλογα με τις διάφορες συνθήκες σχετικές με το περιβάλλον τους και τη θέση τους σχετικά με εκείνους στους οποίους μιλούν. Τέτοιες συνθήκες περιλαμβάνουν τη συνειδητά αυξανόμενη σαφήνεια, ένας ομιλητής θα αλλάξει την ομιλία τους για έναν μη ιθαγενή ακροατή, ή λόγω του αυξανόμενου παρασιτικού θορύβου, την οικειότητα, ένας ομιλητής θα μιλήσει πιο προσεκτικά σε έναν ακροατή με τον οποίο δεν είναι εξοικειωμένος, και την κοινωνική θέση, ένας ομιλητής θα μιλήσει σε ένα παιδί διαφορετικά από τον τρόπο που θα μιλούσε σε έναν συνομήλικο, και θα μιλούσε με έναν διαφορετικό τρόπο πάλι σε έναν ακροατή από μια κοινωνικά κυρίαρχη θέση σε σχέση με αυτή του ομιλητή. 15

Κεφάλαιο 1 Εισαγωγή - Συναίσθημα και διάθεση (emotion and mood): Οι διαφορετικές συναισθηματικές καταστάσεις επηρεάζουν το μηχανισμό παραγωγής ομιλίας ενός ομιλητή με διάφορους τρόπους, και οδηγούν σε ακουστικές αλλαγές στην ομιλία. Αυτές οι αλλαγές μπορούν να γίνουν αντιληπτές ως οφειλόμενες στο συναίσθημα από τους ακροατές. Η αναγνώριση και η απομόνωση αυτού του είδους αλλαγών είναι οι κύριοι στόχοι ενός συστήματος αναγνώρισης συναισθημάτων. Γενικά, τα συναισθήματα αναφέρονται στη βραχυπρόθεσμη κατάσταση, ενώ η διάθεση είναι πιο μακροπρόθεσμη, και η προσωπικότητα μπορεί να θεωρηθεί ως η υποθάλπτουσα κατάσταση ενός ατόμου, αν και οι όροι επικαλύπτονται κάπως στον ορισμό τους, η διάθεση και το συναίσθημα χρησιμοποιούνται περιστασιακά και ταυτοσήμως. Το σχήμα 1.5 επεξηγεί καλύτερα αυτή τη διαφορά. Εκφράσει ς Συμπεριφορές Συναισθήματα Διαθέσεις Συναισθηματικές Διαταραχές Χαρακτηριστικά Σχήμα 1.5: Χρονικά χαρακτηριστικά των συναισθηματικών κατηγοριών. [1] - Ένταση (stress): Διάφοροι άλλοι παράγοντες σχετικά με τη φυσιολογική διέγερση συμβάλλουν επίσης στις αλλαγές στην ομιλία, και αυτές χαρακτηρίζονται ως συνήθως ένταση (το συναίσθημα συμπεριλαμβάνεται συχνά υπό αυτόν τον τίτλο επίσης). Τέτοιοι παράγοντες περιλαμβάνουν την κούραση, την ασθένεια, και τα αποτελέσματα των φαρμάκων και του φόρτου εργασίας. Φυσική ένταση λόγω δονήσεων ή λόγω επιτάχυνσης μπορεί επίσης να παράγει ακουστικές αλλαγές στην ομιλία λόγω της άμεσης δράσης στο ίδιο το φωνητικό κανάλι. 16

Κεφάλαιο 1 Εισαγωγή Για το μεγαλύτερο μέρος, η λεκτική μεταβλητότητα παράγεται ασυναίσθητα, ακόμη και όταν ένα ύφος ομιλίας υιοθετείται συνειδητά από έναν ομιλητή, οι πραγματικές φωνητικές αλλαγές γίνονται σε ασυναίσθητο επίπεδο. Μια άλλη δυσκολία που συναντάται κατά τη προσέγγιση του προβλήματος της κατηγοριοποίησης των συναισθημάτων είναι η επιλογή των κατηγοριών εξόδου. Κατ' αρχάς, δεν υπάρχει καμία συμφωνία για το σύνολο βασικών συναισθημάτων. Ούτε συγκλίνουν τα κριτήρια για την επιλογή ενός συνόλου εις βάρος ενός άλλου και στην πραγματικότητα, η εστίαση σε διαφορετικές πτυχές των συναισθημάτων τείνει να παράγει και διαφορετικές λίστες συναισθημάτων. Εξετάζοντας την προσπάθεια που έχει αφιερωθεί στο ζήτημα, αυτή η έλλειψη σύγκλισης υποδεικνύει ότι ίσως να μη μπορεί να ανακαλυφθεί καμία φυσική μονάδα. Η άμεση επίπτωση είναι ότι η επιλογή των συναισθημάτων που μπορούν να αναγνωριστούν απαιτεί πραγματικές επιλογές. Συνεπώς αυτή η ερώτηση, σχετικά με το ποιες κατηγορίες συναισθημάτων είναι σχετικές για την καθιέρωση αναλογιών μεταξύ των συναισθημάτων και της ομιλίας, είναι μέχρι ένα σημείο εξαρτώμενη από την εφαρμογή, δηλ. διαφορετικές εφαρμογές μπορούν να κερδίσουν από διαφορετική ταξινόμηση. Η σήμανση των στοιχείων είναι επίσης ένας παράγοντας κλειδί. Οι ερευνητές σήμερα δε συμφωνούν απόλυτα για τις γενικές ετικέτες, και η ταξινόμηση γίνεται συχνά σε σχετικά υποκειμενική βάση. Αυτό παράγει δυσκολίες όταν θέλουμε να συγκρίνουμε αποτελέσματα προερχόμενα από διαφορετικές μελέτες. Η ταξινόμηση των συναισθημάτων μπορεί να στηριχθεί σε φιλοσοφικές, ψυχολογικές και βιολογικές προσεγγίσεις, ή ακόμα και από έναν συνδυασμό όλων των διαφορετικών τρόπων. Εκτός από αυτές τις βασικές προσεγγίσεις, μπορούμε επίσης να βρούμε διαφορές και στις διαστάσεις της κατηγοριοποίησης των συναισθημάτων, διακεκριμένες κατηγορίες ή κλιμακωτές τιμές. Ο κύριος λόγος, που προκαλεί τη σύγχυση κατηγοριοποίησης, είναι ότι δεν ξέρουμε ακόμα ακριβώς με ποια κριτήρια οι άνθρωποι κρίνουν τα συναισθήματα στη φυσική ομιλία. Η εργασία με περισσότερες στερεοτυπικές ποικιλίες ομιλίας, όπως προσποιητή (acted) ή συνθεμένη (synthesized) ομιλία δίνει καλύτερα αποτελέσματα αναγνώρισης από την αυθόρμητη ομιλία. Εντούτοις, ο Schröder επισημαίνει, ότι σε τέτοιες εφαρμογές όπου πρέπει να επιλέξουμε από συγκεκριμένη λίστα συναισθημάτων, είναι ένα πρόβλημα περισσότερο διάκρισης μεταξύ των συναισθημάτων σε ένα δεδομένο σύνολο και όχι ελεύθερης επιλογής, πετυχαίνοντας έτσι έναν πολύ πιο απλούστερο στόχο. Τα προσποιητά ή τα συντεθειμένα συναισθήματα είναι γενικά υποδειγματικά και ισχυρά. Τέτοια συναισθήματα δεν 17

Κεφάλαιο 1 Εισαγωγή εμφανίζονται συχνά στους φυσικούς διαλόγους, ένα γεγονός που ίσως να οφείλεται σε κοινωνικό-πολιτιστικούς παράγοντες. Σήμερα το σοβαρό πρόβλημα όταν έχουμε να κάνουμε με αυτόματη αναγνώριση συναισθημάτων, είναι ότι τα συμπεράσματα στον τομέα των ακουστικών χαρακτηριστικών που υποδεικνύουν τα συναισθήματα δεν είναι πάντα ενθαρρυντικά, και επίσης όχι πάρα πολύ ομοιογενή. Τα αποτελέσματα οδηγούν μερικές φορές σε αντιφατικές κατευθύνσεις, και είναι προβληματικό να καθορίσουμε ποια είναι τα καλύτερα χαρακτηριστικά για να ανιχνεύσουμε τα συναισθήματα στην ομιλία. Αυτό είναι και το πρόβλημα που μας απασχολεί στην εργασία αυτή. Το κεφάλαιο 2 περιγράφει πώς η ομιλία επηρεάζεται από το συναισθηματικό περιεχόμενο και συγκεκριμενοποιεί αυτήν την επίδραση σε δύο κύριες λεκτικές πτυχές: ποιότητα προσωδίας και φωνής. Γενικά η αυθόρμητη ομιλία (δείτε την παράγραφο 3.2.1) είναι εξαιρετικά δύσκολο να πλησιαστεί με το «σωστό» τρόπο, δεδομένου ότι υπάρχουν τόσες πολλές πληροφορίες βασισμένες στα συμφραζόμενα. Στη προσποιητή ομιλία (δείτε την παράγραφο 3.2.2), φαίνεται να υπάρχουν περισσότερες αναλογίες, τουλάχιστον μεταξύ των «προοριζόμενων» συγκινήσεων και των ακουστικών χαρακτηριστικών. Αυτό σημαίνει ότι οι άνθρωποι είναι σε θέση να παράγουν τις στερεότυπες συναισθηματικές εκδηλώσεις, ένα γεγονός που στη συνέχεια υπονοεί ότι οι άνθρωποι έχουν κάποιο είδος κατηγοριών πρωτοτύπων για το πώς τα συναισθήματα παράγονται στην ομιλία. Εντούτοις, οι άνθρωποι δεν φαίνονται να χρησιμοποιούν εκείνες τις στερεοτυπικές μορφές στην αυθόρμητη ομιλία. Ίσως επειδή τα συναισθήματα είναι πιο σύνθετα στην πραγματική ζωή και επίσης επειδή μέχρι ένα σημείο επιβάλλεται να καλυφθούν, λόγω κάποιας κοινωνικής σύμβασης. Η αναγνώριση συναισθημάτων μόνο από το σήμα ομιλίας αντιμετωπίζει μεγάλες δυσκολίες και επομένως και άλλοι τρόποι της συναισθηματικής έκφρασης λαμβάνονται υπόψη συχνά στη λογοτεχνία. Παραδείγματα είναι η ανάλυση εικόνας και οι αισθητηριακές μετρήσεις που βοηθούν ουσιαστικά στην ανίχνευση της συναισθηματικής κατάσταση του ομιλητή. 1.7.3 Επισκόπηση συστημάτων αναγνώρισης Ένα από τα επιτεύγματα ενός ευφυούς υπολογιστή θα ήταν η δυνατότητά του να αναγνωρίσει τα συναισθήματα, δηλ. να συμπεράνει μια συναισθηματική κατάσταση από τις παρατηρήσεις των συναισθηματικών εκφράσεων και μέσω του συλλογισμού για μια κατάσταση 18

Κεφάλαιο 1 Εισαγωγή που μπορεί να έχει προκαλέσει το συναίσθημα. Η αναγνώριση μπορεί να απαιτήσει τις δυνατότητες όρασης και ακρόασης για τη συλλογή των εκφράσεων του προσώπου, των χειρονομιών και της φωνητικής προσωδίας. Επιπλέον, ο υπολογιστής μπορεί να χρησιμοποιήσει άλλες εισόδους που μπορούν να έχουν ή όχι αναλογίες με τις ανθρώπινες αισθήσεις, π.χ. ανάγνωση υπέρυθρης θερμοκρασίας, μέτρηση της ηλεκτρο-δερμικής απόκρισης, και ούτω καθεξής. Το κεφάλαιο 2 περιγράφει τα διαφορετικά ανθρώπινα χαρακτηριστικά για την αναγνώριση συναισθήματος, κυρίως γνωρίσματα σχετικά με τη φωνή, δεδομένου ότι εξετάζονται στην παρούσα εργασία. Μόλις γίνουν αντιληπτές οι συναισθηματικές εκφράσεις και αναγνωριστούν, το σύστημα μπορεί να χρησιμοποιήσει τη γνώση του για να αντιδράσει σύμφωνα με τη λειτουργία του. Η αξιολόγηση ενός συστήματος αναγνώρισης συναισθημάτων μπορεί να εκτελεσθεί με αντικειμενικά κριτήρια, εντούτοις γίνεται συχνά μέσω της σύγκρισης των αναγνωρισμένων αποτελεσμάτων με ανθρώπινα κριτήρια. Θεωρώντας ότι το 70% των ανθρώπων που ακούνε μια έκφραση σκέφτονται ότι αποκαλύπτει το θυμό, και το υπόλοιπο το αναγνωρίζει ως πλήξη, τότε ένα ενιαίο σύστημα αναγνώρισης δεν πρέπει να τιμωρηθεί εάν αναγνωρίσει την έκφραση ως πλήξη. Όταν το 70% των συστημάτων αναγνωρίζουν το θυμό, και το υπόλοιπο αναγνωρίζει την πλήξη, τότε έχουν πετύχει στο ταίριασμα των ανθρώπινων κριτηρίων για αυτό το στοιχείο. Η δοκιμή μπορεί επίσης να οργανωθεί σε δύο τρόπους: εξαρτώμενη από τον ομιλητή και ανεξάρτητη από τον ομιλητή. Στον εξαρτώμενο τρόπο ομιλητών, το σύστημα ξέρει ήδη το πρόσωπο, και προσαρμόζει τις δυνατότητες αναγνώρισής του ώστε να χρησιμοποιήσει ότι ξέρει για εκείνο το άτομο. Στον ανεξάρτητο από τον ομιλητή τρόπο, το σύστημα δεν μπορεί ποτέ «να είχε συναντήσει» το πρόσωπο από πριν, και πρέπει να χρησιμοποιήσει μερικές γενικές δυνατότητες αναγνώρισης. Ανάλογα με το πόσο πολύ οι εκφράσεις αυτού του νέου προσώπου είναι κοντά σε αυτές που το σύστημα έχει μάθει από πριν, ο υπολογιστής θα έχει αντίστοιχα καλύτερη επιτυχία στην αναγνώριση της έκφρασης και της συναισθηματικής κατάστασης αυτού του προσώπου. Παρά τις δυσκολίες στην αναγνώριση συναισθημάτων μέσω του σήματος ομιλίας, όπως αναφέρεται στην παράγραφο 1.7.2, υπάρχουν ακόμα προσπάθειες να αντιμετωπιστεί αυτό το πρόβλημα. Οι Dellaert, Polzin και Waibel [22] κατέγραψαν μια βάση πάνω από 1000 εκφράσεων από διάφορους διαφορετικούς ομιλητές, οι οποίοι κλήθηκαν να διαβάσουν 50 σύντομες προτάσεις με τέσσερα διαφορετικά συναισθήματα (ευτυχία, θλίψη, θυμός και φόβος) 19

Κεφάλαιο 1 Εισαγωγή συν την κανονική (ουδέτερη) κατάσταση. Τα χαρακτηριστικά γνωρίσματα εξήχθησαν ανά έκφραση βασισμένα απλώς στο σχεδιάγραμμα pitch. Τρεις μέθοδοι αναγνώρισης προτύπων χρησιμοποιήθηκαν: Ταξινομητής Bayes μέγιστης πιθανότητας (MLB), οπισθοδρόμηση πυρήνων (KR) και Κ-κοντινότεροι γείτονες (KNN). Το χαμηλότερο λάθος αναγνώρισης, που εκτελεί τη μέθοδο leave-one-out (LOO) cross validation 1 λαμβάνεται για τη μέθοδο KNN και φθάνει σε περίπου 36%. Η χρήση των ακουστικών φωνητικών προσωδιών γνωρισμάτων προκειμένου να ταξινομηθεί ο θυμός εναντίον του ουδέτερου ύφους ομιλίας περιγράφεται στο [23]. 20 ομιλητές κλήθηκαν να παράγουν 50 ουδέτερα και 50 θυμωμένες εκφράσεις και πολυστρωματικά perceptrons εκπαιδεύθηκαν με αυτά τα στοιχεία. Τα αποτελέσματα έφτασαν κοντά στο 90% της ακρίβειας για το απλουστευμένο έργο της διάκρισης μεταξύ συναισθηματικής και μησυναισθηματικής ομιλίας. Ο Valery Petrushin [18] διεξήγαγε μια πειραματική μελέτη για τα φωνητικά συναισθήματα και την ανάπτυξη ενός συστήματος υπολογιστών για την αναγνώριση συναισθημάτων. Η μελέτη εξέτασε μια βάση 700 σύντομων εκφράσεων εκφραζόμενες με πέντε συναισθήματα: ευτυχία, θυμός, θλίψη, φόβος και κανονική (απαθής) κατάσταση, οι οποίες εκφράστηκαν από τριάντα άτομα. Επιλέχτηκαν μερικά στατιστικά στοιχεία του pitch, του πρώτου και δεύτερου formant, της ενέργειας και του ρυθμού ομιλίας και διάφοροι τύποι ταξινομητών δημιουργήθηκαν και συγκρίθηκαν. Τα καλύτερα αποτελέσματα επιτεύχθηκαν χρησιμοποιώντας ταξινομητές νευρωνικών δικτύων, οι οποίοι καταδεικνύουν την ακόλουθη ακρίβεια: κανονική κατάσταση - 55-75%, ευτυχία - 60-70%, θυμός - 70-80%, θλίψη - 75-85%, και φόβος - 35-55%. Η συνολική ακρίβεια αναγνώρισης είναι περίπου 70%. Αυτή η μελέτη αναπτύσσει επίσης έναν ταξινομητή συναισθημάτων πραγματικού χρόνου χρησιμοποιώντας νευρωνικά δίκτυα για εφαρμογές τηλεφωνικών κέντρων. Πέτυχε ακρίβεια ταξινόμησης περίπου 77% σε δύο συναισθήματα, την αναταραχή και την ηρεμία με 8 χαρακτηριστικά γνωρίσματα που επιλέχτηκαν από μια μέθοδο επιλογής χαρακτηριστικών γνωρισμάτων. Στο [17] χρησιμοποιείται ένα σύνολο στοιχείων που καταγράφονται από διαλόγους μεταξύ ανθρώπου-μηχανής, από μια εμπορική εφαρμογή που αναπτύσσεται από την SpeechWorks. Η γραμμική διακρίνουσα ταξινόμηση με την γκαουσσιανή υπό-κατηγορία κατανομή πιθανότητας 1 Ένα πρότυπο αφήνεται έξω κατά τη διάρκεια της εκπαίδευσης και χρησιμοποιείται έπειτα για τη δοκιμή του ταξινομητή. Αυτή η διαδικασία επαναλαμβάνεται για κάθε ένα ξεχωριστό πρότυπο του συνόλου στοιχείων. 20

Κεφάλαιο 1 Εισαγωγή και οι μέθοδοι Κ-κοντινότερης γειτονιάς χρησιμοποιούνται για να ταξινομήσουν τις εκφράσεις σε δύο βασικές συναισθηματικές καταστάσεις, αρνητικό και μη αρνητικό. Τα χαρακτηριστικά γνωρίσματα που χρησιμοποιούνται από τους ταξινομητές είναι στατιστικές σε επίπεδο έκφρασης (sentence-level) της θεμελιώδους συχνότητας και της ενέργειας του σήματος ομιλίας. Τα πειράματα είναι εξαρτώμενα από το γένος και τα αποτελέσματα είναι συγκρίσιμα με εκείνους από Petrushin [18] με δύο συναισθηματικές καταστάσεις για όλους τους ταξινομητές που δοκιμάζονται. 21

Κεφάλαιο 1 Εισαγωγή 22

Κεφάλαιο 2 Ανθρώπινη ομιλία και συναίσθημα ΚΕΦΑΛΑΙΟ 2 Ο ΑΝΘΡΩΠΙΝΗ ΟΜΙΛΙΑ ΚΑΙ ΣΥΝΑΙΣΘΗΜΑ 2.1 Εισαγωγή Ο σκοπός αυτής της εργασίας είναι η ταξινόμηση των συναισθημάτων μέσα από ορισμένες ιδιότητες της προφορικής επικοινωνίας. Το βασικό πρόβλημα που πρέπει να λυθεί είναι: ποιά είναι μια καλή υπολογιστική χαρτογράφηση μεταξύ των συναισθημάτων και των προτύπων ομιλίας; Συγκεκριμένα, πρέπει να βρούμε τα χαρακτηριστικά γνωρίσματα που ένας υπολογιστής μπορεί να εξάγει, και τα πρότυπα που μπορεί να χρησιμοποιήσει για να αναγνωρίσει και να συνθέσει τη συναισθηματική διακύμανση. Αυτά τα χαρακτηριστικά γνωρίσματα προέρχονται γενικά από την παρατήρηση του τρόπου με τον οποίο οι φωνές αλλάζουν με τις συναισθήματα. Επομένως, αξίζει να αναφέρουμε μια σύντομη επισκόπηση για τον τρόπο με τον οποίο τα συναισθήματα εκφράζονται μέσα στην ανθρώπινη επικοινωνία και, ιδιαίτερα, πώς αυτά εσωκλείονται μέσα στην προφορική έκφραση. 2.1.1 Εκφράζοντας συναισθήματα Υπάρχει μια μεγάλη βιβλιογραφία στα χαρακτηριστικά σημάδια που φανερώνουν το συναίσθημα και μέσα στην ψυχολογική επιστήμη και πέρα από αυτή. Το φωνητικό στοιχείο είναι μια από τις θεμελιώδεις εκφράσεις των συναισθημάτων, ίσης αξίας με την έκφραση του προσώπου. Όλα τα θηλαστικά έχουν συναισθήματα και μπορούν να τα μεταβιβάσουν από τα φωνητικά χαρακτηριστικά. Οι άνθρωποι μπορούν να εκφράσουν τα συναισθήματά τους φωνάζοντας, γελώντας, κλαίγοντας, χρησιμοποιώντας επίσης και τα πιο λεπτά χαρακτηριστικά της ομιλίας. Συνεπώς, στην έκφραση και την κατανόηση των συναισθημάτων, διαφορετικοί τύποι πηγών πρέπει να εξεταστούν. Η συναισθηματική εκδήλωση έχει επίσης ένα ευρύ φάσμα 23