Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς μάθησης (deep learning). Το πρόβλημα είναι ότι δεν έχουμε αρκετά δεδομένα για να εκπαιδεύσουμε έναν τέτοιο ταξινομητή ώστε να αποδίδει καλά. Προκειμένου να αντιμετωπίσουμε το πρόβλημα αυτό, θα εκπαιδεύσουμε έναν ταξινομητή σε έναν άλλον άνθρωπο (για τον οποίο έχουμε περισσότερα δεδομένα) και θα προσπαθήσουμε να "μεταφέρουμε" τη γνώση που απέκτησε στο αρχικό μας πρόβλημα. Η προσέγγιση αυτή ονομάζεται transfer learning. Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο επιστημονικός κλάδος της επικοινωνίας ανθρώπου-υπολογιστή ασχολείται τόσο με την κατανόηση του πως οι άνθρωποι χρησιμοποιούν τους υπολογιστές, οσο και με τον σχεδιασμό νέων συστημάτων που ενισχύουν την απόδοση και την εμπειρία του ανθρώπου. Η συναισθηματική κατάσταση ενός ανθρώπου, επηρεάζει σημαντικά τη λειτουργία και τις αποφάσεις του. Θα ήταν σημαντικό, λοιπόν, στον κλάδο της επικοινωνίας ανθρώπου-υπολογιστή, να γνώριζε κανείς την συναισθηματική κατάσταση του χρήστη. Ο άνθρωπος είναι εκπαιδευμένος να αναγνωρίζει τις καταστάσεις αυτές με έμμεσο τρόπο, από την έκφραση του προσώπου του, τον τόνο της φωνής του και από τις κινήσεις του. Πιο συγκεκριμένα, το πρόσωπο είναι ένας από τους πιο πολύπλοκους τρόπους που έχει ο άνθρωπος για να στέλνει σήματα στους γύρω του. Περιλαμβάνει πάνω από 40 ξεχωριστούς μύες που λειτουργούν αυτόνομα και ανεξάρτητα ο ένας απ τον άλλον και είναι ο κυρίαρχος τρόπος από τον οποίον οι άνθρωποι αναγνωρίζουν συναισθήματα. Για τον λόγο αυτό, η ερευνητική κοινότητα έχει ασχοληθεί εκτενώς με την αναγνώριση της έκφρασης του προσώπου. 1 / 5
Τι είναι, όμως, το συναίσθημα και πως μπορούμε να το κατηγοριοποιήσουμε; Υπάρχουν δυο προσεγγίσεις για το θέμα: Η ορίζει ένα σύνολο "βασικών" συναισθημάτων και θεωρεί πως τα υπόλοιπα συναισθήματα είναι όλα διακριτά μεταξύ τους και πηγάζουν από τα βασικά. Η δεύτερη ορίζει ένα σύστημα δύο συντεταγμένων αρέσκειας(valence)-διέγερσης(arousal) και τοποθετεί τα συναισθήματα στον χώρο αυτό. Ο οριζόντιος άξονας είναι αυτός της αρέσκειας. Δεξιά βρίσκονται τα ευχάριστα συναισθήματα, ενώ οσο πιο αριστερά πηγαίνουμε, τόσο πιο δυσάρεστο είναι το συναίσθημα για τον άνθρωπο. Ο κάθετος άξονας της διέγερσης δείχνει ποσό ενεργό είναι το συναίσθημα. Οσο πιο ψηλά βρισκόμαστε στον άξονα τόσο πιο έντονο είναι το συναίσθημα, ενώ χαμηλά βρίσκονται τα παθητικά συναισθήματα. Πώς μπορούμε να ποσότικοποιήσουμε τις εκφράσεις στο πρόσωπο και πώς 2 / 5
συσχετίζονται αυτές με τα συναισθήματα; Για να μπορέσουμε να μετρήσουμε τις αλλαγές στο πρόσωπο ενός ανθρώπου έχει οριστεί ένα σύνολο από μονάδες δράσης (Action Units - AU). Η κάθε μονάδα από αυτές, αναπαριστά την μυϊκή δραστηριότητα που προκαλεί αλλαγές στην έκφραση του προσώπου. Οι μονάδες αυτές ορίζονται στο σύστημα κωδικοποίησης προσώπου (Facial Coding System FACS).Στο πλαίσιο του συστήματος αυτού, κάθε παρατηρήσιμη κατάσταση του προσώπου, διαχωρίζεται στις συστατικές του μονάδες δράσης, ενώ το σύστημα FACS περιγράφει τα κριτήρια της παρατήρησης και κωδικοποίησης αυτών των μονάδων. Το FACS δεν έχει ως σκοπό την ανίχνευση κάποιου συναισθήματος πάνω στο πρόσωπο, αλλά μόνο την περιγραφή και κωδικοποίηση της κατάστασης του προσώπου. Παρόλα αυτά υπάρχουν συσχετίσεις συναισθημάτων με συνδυασμούς μονάδων δράσεων. Για παράδειγμα ο θυμός σχετίζεται με τις παρακάτω μονάδες: AU4, AU5 και/ή AU7, AU22, AU23, AU24. Προκειμένου, λοιπόν, να αναγνωρίσουμε την συναισθηματική κατάσταση ενός ανθρώπου από το πρόσωπό του, αρκεί να αποδομήσουμε την έκφραση του σε μονάδες δράσης και να δούμε με ποιώ συναίσθημα αυτές συσχετίζονται καλύτερα. Εισαγωγικά για τις τεχνικές βαθιάς μάθησης (leep learning) 3 / 5
Βαθιά μάθηση, ονομάζουμε το κομμάτι της μηχανικής μάθησης που προσπαθεί να μοντελοποιήσει πολλαπλά επίπεδα αφαιρετικότητας, χρησιμοποιώντας πολλαπλά επίπεδα στις αρχιτεκτονικές της. Τα δίκτυα αυτά είναι εμπνευσμένα από το πώς επεξεργάζεται ο άνθρωπος την πληροφορία και προσπαθούν να προσομοιάσουν την λειτουργία των νευρώνων στο νεοφλοιό του εγκεφάλου (όπου γίνεται περίπου το 80% της ανθρώπινης σκέψης). Οι αρχιτεκτονικές που θα χρησιμοποιήσουμε στην παρούσα εργασία ονομάζονται βαθιά συνελικτικά νευρωνικά δίκτυα (Deep Convolutional Neural Networks). Αυτά σχηματίζονται από μια σειριακή ακολουθία μη γραμμικών επεξεργαστικών μονάδων με σκοπό την εξαγωγή χαρακτηριστικών. Οι μονάδες αυτές ονομάζονται επίπεδα και οσο περισσότερα επίπεδα έχει ένα δίκτυο στη σειρά, τόσο πιο βαθύ είναι. Μερικές βασικές έννοιες στα δίκτυα αυτά είναι η αραιή συνδεσιμότητα μεταξύ των νευρώνων των διαφόρων επιπέδων και τα η χρήση κοινών βαρών σε γειτονικούς νευρώνες. Αυτό βοηθάει τα δίκτυα με δύο τρόπους: Αφενός μειώνει πολύ τον αριθμό των παραμέτρων, πράγμα που κάνει την εκπαίδευση εφικτή από υπολογιστικής άποψης και αφετέρου επιτρέπει στα δίκτυα να εξάγουν τοπικά χαρακτηριστικά. Βάζοντας πολλά τέτοια επίπεδα στη σειρά, πετυχαίνουμε την εξαγωγή ολοένα και πιο γενικών χαρακτηριστικών. Για τους λόγους αυτούς τα δίκτυα αυτά έχουν πετύχει πολύ 4 / 5
καλές επιδόσεις στην αναγνώριση εικόνας. Εισαγωγικά για τη μεταφορά γνώσης (transfer learning) Μεταφορά γνώσης ονομάζουμε το πρόβλημα της μηχανικής μάθησης, στο οποίο προσπαθούμε να αξιοποιήσουμε την γνώση που απέκτησε ένα σύστημα σε ένα πρόβλημα, σε ένα διαφορετικό αλλά σχετικό πρόβλημα. Η μέθοδος αυτή αξιοποιείται πολύ από τα βαθιά νευρωνικά δίκτυα, γιατί αυτά απαιτούν μεγάλο αριθμό δεδομένων για να εκπαιδευτούν. Θεωρητικά, άμα δεν έχουμε αρκετά δεδομένα για ένα πρόβλημα, μπορούμε να εκπαιδεύσουμε ένα δίκτυο σε ένα σχετικό πρόβλημα, στο οποίο έχουμε περισσότερα δεδομένα και να χρησιμοποιήσουμε τη γνώση που απέκτησε στο αρχικό μας πρόβλημα. Μια τέτοια τεχνική θα εφαρμόσουμε και στο παρών πρόβλημα. 5 / 5