Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ. http://cvsp.cs.ntua.gr Συνδυασμένη Οπτική-Ακουστική ή Ανάλυση Ομιλίας Γιώργος Παπανδρέου Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό
Ομάδα CVSP -- ΕΜΠ Μέλη Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση ηφωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα) Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr
Αναγνώριση Ομιλίας από Ήχο και Εικόνα Ήχος Εικόνα Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald) Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Εικόνα Ακουστική Γεωμετρία φωνητικής οδού Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης ύθ με μίμηση διαδικασίας δ παραγωγής Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης Φωνητική επιστήμη/φωνολογία / Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης
Ομιλία: Πολύπλευρο φαινόμενο
Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα Ακουστική αναπαράσταση Ομιλία ως οπτικό-ακουστικό ουστι ό σήμα Αρθρωτική αναπαράσταση Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng) Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)
Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)
Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, Adaptive Multimodal Fusion by Uncertainty Compensation with Application to Audio-Visual Speech Recognition, IEEE Trans. ASLP, 2009
Αναγνώριση Ομιλίας από Ήχο και Εικόνα Ήχος Εικόνα Κύρια σημεία: Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & η η χ ρ γχρ μ οπτικού καναλιού
Εξαγωγή Οπτικής Πληροφορίας Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το διάβασμα των χειλιών Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ) Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ Εκτιμάται και η αβεβαιότητα ββ ως προς τις τιμές των χαρακτηριστικών μέσο διάνυσμα 1 ο ιδιοδιάνυσμα 2 ο ιδιοδιάνυσμα
Εξαγωγή Οπτικής Πληροφορίας Μηχανισμός για μείωση της επίδρασης της ταυτότητας του ομιλητή: δυνατότητα αναγνώρισης πολλαπλών λώ ομιλητών Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο
Σύστημα πραγματικού χρόνου για οπτική-ακουστική αναγν. ομιλίας Face detector Adaboost-based, @5 fps System Overview Image Acquisition Firewire color camera, 640x480480 @25 fps (Re)initialization Face tracking & feature extraction Real-time AAM fitting algorithms GPU-accelerated processing OpenGL implementation HMM-based backend Transcription
Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική; Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική μ πληροφορία ρ Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα) Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία
Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση Ήχος, εικόνα, αφή,... Διαφορετικές όψεις εντός της ίδιας αίσθησης Οπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards) Ενδείξεις και από ψυχολογικά πειράματα (π.χ. χ Ernstetal) al.) Διαφορετικά επίπεδα σύμμειξης Πρώιμη/ενδιάμεση/όψιμη σύμμειξη Maragos et al., Cross-Modal Integration, Springer 2008
Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας Αρχή: Μπορούμε να μετρήσουμε χαρακτηριστικά αναγνώρισης με πεπερασμένη μόνο ακρίβεια Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο φιλτράρισμα: Φίλτρα Wiener και Kalman Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών επιδρά στις μεθόδους ταξινόμησης;
Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές άπειρης ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με το σφάλμα στη μέτρησή τους: SNR= 20dB SNR= 5dB
Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian Mixture Model - GMM) S ανεξάρτητες ροές κρυφές ανεξ. υπό συνθήκη: φανερές Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά C X Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο C X Και τα δύο κρυφά! ύστερη πρότερη κατανομή καθαρών κατανομή θορύβου Y
GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης συμβατική άποψη p c x p c ρ N x μ S ( ) ρ ( μ Σ ) 1: s ( ) sc, s; sc,, sc, 1: 1 C X Μοντέλο θορύβου χαρακτηριστικά αλλοιωμένα από θόρυβο p ( y x ) = N ( ; x +, Σ ) Γά Γκάους: s s y s s μ e, s e, s C X S M sc, ( ) ( ) 1: s ( ) ρscm,, s; μscm,, + μes,, Σ scm,, +Σes, p c y p c N y s= 1 m= 1 Y
GMM Ταξινόμηση Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης Δύο 1-Δ Δ ροές (y 1 και y 2 )2τάξεις ),
Σχέση ημε Σύμμειξη Στάθμισης Ροής Βάρη Ροής: bc ( y ) = pc ( ) p( ys c) S 1: s 1 w s Πιθανότητα με Αντιστάθμιση Αβεβαιότητας: p c y p c N y μ S ( ) ( ) ( ;, ) PGΤ PoG Ταυτότητα: Σ +Σ 1: s 1 s sc, sc, es, ( ) ( 1 ; μ, Σ w ; μ, Σ) N x N x w ( 1 S ) ( μ Σ ) 1: s ( ) s; sc,, sc, sc, b c y p c N y μ w 1: 1 Ενεργό όβάρος Ροής: Ρή Σ w = 1 1+ sc, Σ es, s, c
EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια Συμβατική άποψη C Κρυφή Q( θ, θ ) =Ε[log px (,{ C} θ) X, θ ] X Φανερή C Η προσέγγισή μας X Κρυφή Q( θ, θ ) =Ε[log py (,{ X, C} θ) Y, θ ] Y Φανερή
Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση) Προσαρμογή στο χρόνο (επίπεδο frame) Συμβατική Άποψη C1 C2 C3 C4 X1 X2 X3 X4 Κρυφές Φανερές Η Προσέγγισή μας C1 C2 C3 C4 X1 X2 X3 X4 Κρυφές Y1 Y2 Y3 Y4 Φανερές
Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs): Pre-emphasis STFT. Mel-scale log(. ) DCT Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN) Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS) X = f ( X, N) noisy clean MFCC θορύβου MFCC καθαρής φωνής Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας X = Xˆ + E Αβεβαιότητα clean Deng, Droppo, Acero, IEEE Tr. SAP, 2005
Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας Υ1 Υ2 Υ3 C1 C2 C3 X1 X2 X3 Multistream-ΗΜΜ με απόλυτο συγχρονισμό ανά κατάσταση Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, Τεχνικές για συγχρονισμό στο επίπεδο του σήματος
Ποσοτική αξιολόγηση στη βάση CUAVE
Αναγν. Ομιλίας από Ήχο και Εικόνα: Πειράματα ρμ Χρήση της βάσης CUAVE: 36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος) 5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10) Σύνολο ελέγχου: 300 ψηφία (6x5x10) Διεπικύρωση ύ για βελτίωση βλί της στατιστικής εγκυρότητας αποτελεσμάτων Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο Προσθήκη θορύβου τύπου babble - βάση NOISEX Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας) Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)
Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα AV A
Αναγνώριση μόνο από ήχο ή εικόνα Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών χαρακτηριστικών ΕΜΟ
Συνδυασμένη οπτική/ακουστική αναγνώριση Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία AV-W-UC vs. A-UC 28.7 %
Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W Μέση σχετική μείωση ποσοστού λάθους χάρη Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %
Μοντελοποίηση συγχρονισμού με Product-HMM Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με Product-HMM vs. Multistream-HMM 1.2 %
Αναγνώριση Ομιλίας από Ήχο και Εικόνα Ήχος Σύνοψη: Εικόνα Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή Σύμμειξη οπτικής και ακουστικής πληροφορίας Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού ού καναλιού Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού A Katsamanis G Papandreo and P Maragos F A ti A. Katsamanis, G. Papandreou, and P. Maragos, Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation, IEEE Trans. ASLP, 2009
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Ακουστική Κύρια σημεία: Γεωμετρία φωνητικής οδού Εικόνα Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: ρρ ςχείλη, δόντια,, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά
Βάση με μετρήσεις άρθρωσης ρρ MOCHA Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1 γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες 9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο
Μετρήσεις στο πρόσωπο με ΕΜΟ
Οπτική-Ακουστική Αντιστροφή Ομιλίας phoneme 37
Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσης Παρατηρήσεις y, παράμετροι άρθρωσης x Μοντέλο: Γραμμική εκτίμηση άρθρωσης: prior μέτρηση Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998
Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA) Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση: Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης
Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης 40
Τμηματικά Γραμμικό Μοντέλο Viterbi Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ Hiroya & Honda, IEEE TSAP 2004
Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής / Πληροφορίας Πρόβλεψη δεδομένης της κρυφής κατάστασης: Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια: Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή Ασύγχρονο (όψιμο) μ μοντέλο: Ξεχωριστή αποκωδικοποίηση/ κανάλι. Καταστάσεις που αντιστοιχούν σε: Visemes (οπτικό κανάλι) Φωνήματα (ακουστικό κανάλι)
Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA Ποσοτικά κριτήρια Ποιοτική αξιολόγηση
Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία
Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)
Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)
Viseme Classes for Inversion
Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή
Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα
Παράδειγμα Αντιστροφής
Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο Katsamanis et al. EUSIPCO 2008 51
Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά Μοντέλα (Ν. Κατσαμάνης) Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι (Τ. Ρούσσος και Ν. Κατσαμάνης) Audiovisual i Speech Inversion Articulatory Speech Synthesis Articulatory Parameter Extraction Articulatory Model Training
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Ακουστική Σύνοψη: Γεωμετρία φωνητικής οδού Εικόνα Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά Χρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)
Ευχαριστώ! Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr