Ψηφιακή Επεξεργασία Φωνής

Σχετικά έγγραφα
Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Διοικητική Λογιστική

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Ψηφιακή Επεξεργασία Εικόνων

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Κβαντική Επεξεργασία Πληροφορίας

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Δομές Δεδομένων Ενότητα 1

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Διοικητική Λογιστική

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Μηχανολογικό Σχέδιο Ι

Ψηφιακή Επεξεργασία Φωνής

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Βάσεις Περιβαλλοντικών Δεδομένων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Κβαντική Επεξεργασία Πληροφορίας

Μηχανική Μάθηση Hypothesis Testing

Ιστορία της μετάφρασης

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Τεχνικό Σχέδιο - CAD

Βέλτιστος Έλεγχος Συστημάτων

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Εισαγωγή στους Υπολογιστές

Ψηφιακή Επεξεργασία Εικόνων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Επεξεργασία Σημάτων. Άσκηση 3η. Στυλιανού Ιωάννης. Τμήμα Επιστήμης Υπολογιστών

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Εισαγωγή σε μεθόδους Monte Carlo Ενότητα 3: Δειγματοληπτικές μέθοδοι

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Τεχνικό Σχέδιο - CAD

Ψηφιακή Επεξεργασία Εικόνων

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Εισαγωγή στην Πληροφορική

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διδακτική των εικαστικών τεχνών Ενότητα 1

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Διδακτική Πληροφορικής

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Τεχνικό Σχέδιο - CAD. Τόξο Κύκλου. Τόξο Κύκλου - Έλλειψη. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Φιλοσοφία της Ιστορίας και του Πολιτισμού

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ατμοσφαιρική Ρύπανση

Μεθοδολογία Παραγωγής Πολιτισμικών και Πολυμεσικών Τίτλων

Βάσεις Περιβαλλοντικών Δεδομένων

Μάρκετινγκ Αγροτικών Προϊόντων

Ψηφιακή Επεξεργασία Εικόνων

Λειτουργία και εφαρμογές της πολιτιστικής διαχείρισης

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Θεατρικές Εφαρμογές και Διδακτική της Φυσικής Ι

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ψηφιακή Επεξεργασία Εικόνων

Κοινωνία & Υγεία Υγεία Πρόληψη Προαγωγή υγείας: Βαθμίδες πρόληψης

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Εννοιες και Παράγοντες της Ψηφιακής Επεξεργασίας Εικόνας

Ψηφιακή Επεξεργασία Φωνής

Διδακτική των εικαστικών τεχνών Ενότητα 3

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

ΣΤΑΘΜΟΙ ΠΑΡΑΓΩΓΗΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Κβαντική Επεξεργασία Πληροφορίας

PRESENTATION TITLE PRESENTATION SUBTITLE

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διδακτική Πληροφορικής

Διδακτική των εικαστικών τεχνών Ενότητα 2

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 13η: Multi-Object Auctions Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Transcript:

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Επεξεργασία Φωνής Ενότητα 8η: Αναγνώριση Ομιλητή Στυλιανού Ιωάννης Τμήμα Επιστήμης Υπολογιστών

CS578- Speech Signal Processing Lecture 9: Speaker Recognition Yannis Stylianou University of Crete, Computer Science Dept., Multimedia Informatics Lab yannis@csd.uoc.gr Univ. of Crete

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Terms Speaker identification Speaker verification Claimant (Target speaker) Imposter (Background speaker) False acceptances/false rejections Features Training stage/testing stage Mismatch conditions

Overview Of A Speaker Verification System

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

Cues for recognition: High Level Clarity Roughness Animation Magnitude Pitch intonation Articulation rate Dialect

Cues for recognition: High Level Vocal tract spectrum Instantaneous pitch Glottal flow excitation Modulations in formant trajectories

Mel-Cepstrum Compute STFT: X (n, ω k ) = x[m]w[n m]e jω k m m= where ω k = 2π k with N the DFT length N Apply mel-scale filters V l (ω k ) on X (n, ω k ) : V l (ω k ) X (n, ω k ) Compute the energy in each mel-frequency band: E mel (n, l) = 1 U l V l (ω k ) X (n, ω k ) 2 A k k=l l where L l and U l denote the lower and upper limit of the lth filter and U l A l = V l (ω k ) 2 k=l l Compute mel-cepstrum: C mel [n, m] = 1 R 1 log (E mel (n, l)) cos ( 2π R R lm) l=0 where R is the number of filters.

Mel-Cepstrum Compute STFT: X (n, ω k ) = x[m]w[n m]e jω k m m= where ω k = 2π k with N the DFT length N Apply mel-scale filters V l (ω k ) on X (n, ω k ) : V l (ω k ) X (n, ω k ) Compute the energy in each mel-frequency band: E mel (n, l) = 1 U l V l (ω k ) X (n, ω k ) 2 A k k=l l where L l and U l denote the lower and upper limit of the lth filter and U l A l = V l (ω k ) 2 k=l l Compute mel-cepstrum: C mel [n, m] = 1 R 1 log (E mel (n, l)) cos ( 2π R R lm) l=0 where R is the number of filters.

Mel-Cepstrum Compute STFT: X (n, ω k ) = x[m]w[n m]e jω k m m= where ω k = 2π k with N the DFT length N Apply mel-scale filters V l (ω k ) on X (n, ω k ) : V l (ω k ) X (n, ω k ) Compute the energy in each mel-frequency band: E mel (n, l) = 1 U l V l (ω k ) X (n, ω k ) 2 A k k=l l where L l and U l denote the lower and upper limit of the lth filter and U l A l = V l (ω k ) 2 k=l l Compute mel-cepstrum: C mel [n, m] = 1 R 1 log (E mel (n, l)) cos ( 2π R R lm) l=0 where R is the number of filters.

Mel-Cepstrum Compute STFT: X (n, ω k ) = x[m]w[n m]e jω k m m= where ω k = 2π k with N the DFT length N Apply mel-scale filters V l (ω k ) on X (n, ω k ) : V l (ω k ) X (n, ω k ) Compute the energy in each mel-frequency band: E mel (n, l) = 1 U l V l (ω k ) X (n, ω k ) 2 A k k=l l where L l and U l denote the lower and upper limit of the lth filter and U l A l = V l (ω k ) 2 k=l l Compute mel-cepstrum: C mel [n, m] = 1 R 1 log (E mel (n, l)) cos ( 2π R R lm) l=0 where R is the number of filters.

Triangular mel-scale filter bank

Sub-Cepstrum Convolve mel-scale filter impulse response u l [n] (subband filter) with x[n]: Compute energy: E sub (n, l) = X (n, ω l ) = x[n] u l [n] N/2 m= N/2 where p[n] is a smoothing filter. Compute subband cepstrum: p[n m] X (n, ω l ) 2 C sub [n, m] = 1 R 1 log (E sub (n, l)) cos ( 2π R R lm) l=0

Sub-Cepstrum Convolve mel-scale filter impulse response u l [n] (subband filter) with x[n]: Compute energy: E sub (n, l) = X (n, ω l ) = x[n] u l [n] N/2 m= N/2 where p[n] is a smoothing filter. Compute subband cepstrum: p[n m] X (n, ω l ) 2 C sub [n, m] = 1 R 1 log (E sub (n, l)) cos ( 2π R R lm) l=0

Sub-Cepstrum Convolve mel-scale filter impulse response u l [n] (subband filter) with x[n]: Compute energy: E sub (n, l) = X (n, ω l ) = x[n] u l [n] N/2 m= N/2 where p[n] is a smoothing filter. Compute subband cepstrum: p[n m] X (n, ω l ) 2 C sub [n, m] = 1 R 1 log (E sub (n, l)) cos ( 2π R R lm) l=0

Comparing Mel-Cepstrum and Sub-Cepstrum

Energies from mel-scale and subband filter banks

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

Minimum-Distance Classifier Compute the average (mel or subband) cepstral features for the training data: C tr [n] = 1 M C tr [ml, n] M m=1 where L denotes the frame length. Compute the average cepstral features for the testing data: Compute a distance: For speaker verification: C ts [n] = 1 M M m=1 C ts [ml, n] D = 1 R 1 ( R 1 C tr [n] C ts [n]) 2 n=1 if D > Threshold, then speaker is verified

Minimum-Distance Classifier Compute the average (mel or subband) cepstral features for the training data: C tr [n] = 1 M C tr [ml, n] M m=1 where L denotes the frame length. Compute the average cepstral features for the testing data: Compute a distance: For speaker verification: C ts [n] = 1 M M m=1 C ts [ml, n] D = 1 R 1 ( R 1 C tr [n] C ts [n]) 2 n=1 if D > Threshold, then speaker is verified

Minimum-Distance Classifier Compute the average (mel or subband) cepstral features for the training data: C tr [n] = 1 M C tr [ml, n] M m=1 where L denotes the frame length. Compute the average cepstral features for the testing data: Compute a distance: For speaker verification: C ts [n] = 1 M M m=1 C ts [ml, n] D = 1 R 1 ( R 1 C tr [n] C ts [n]) 2 n=1 if D > Threshold, then speaker is verified

Minimum-Distance Classifier Compute the average (mel or subband) cepstral features for the training data: C tr [n] = 1 M C tr [ml, n] M m=1 where L denotes the frame length. Compute the average cepstral features for the testing data: Compute a distance: For speaker verification: C ts [n] = 1 M M m=1 C ts [ml, n] D = 1 R 1 ( R 1 C tr [n] C ts [n]) 2 n=1 if D > Threshold, then speaker is verified

Using Acoustic Classes Let assume we know the acoustic class of each speech segment For each class i compute the mean: C i tr [n] = 1 M M m=1 C i tr [ml, n] C i ts [n] = 1 M M m=1 C i ts [ml, n] Compute the Euclidean distance in each class: D i = 1 R 1 R 1 Average over all classes: n=1 D = 1 I ( C tr i I i=1 [n] C ts i [n]) 2 Use D as previously for speaker verification (or identification) D i

Using Acoustic Classes Let assume we know the acoustic class of each speech segment For each class i compute the mean: C i tr [n] = 1 M M m=1 C i tr [ml, n] C i ts [n] = 1 M M m=1 C i ts [ml, n] Compute the Euclidean distance in each class: D i = 1 R 1 R 1 Average over all classes: n=1 D = 1 I ( C tr i I i=1 [n] C ts i [n]) 2 Use D as previously for speaker verification (or identification) D i

Using Acoustic Classes Let assume we know the acoustic class of each speech segment For each class i compute the mean: C i tr [n] = 1 M M m=1 C i tr [ml, n] C i ts [n] = 1 M M m=1 C i ts [ml, n] Compute the Euclidean distance in each class: D i = 1 R 1 R 1 Average over all classes: n=1 D = 1 I ( C tr i I i=1 [n] C ts i [n]) 2 Use D as previously for speaker verification (or identification) D i

Using Acoustic Classes Let assume we know the acoustic class of each speech segment For each class i compute the mean: C i tr [n] = 1 M M m=1 C i tr [ml, n] C i ts [n] = 1 M M m=1 C i ts [ml, n] Compute the Euclidean distance in each class: D i = 1 R 1 R 1 Average over all classes: n=1 D = 1 I ( C tr i I i=1 [n] C ts i [n]) 2 Use D as previously for speaker verification (or identification) D i

Using Acoustic Classes Let assume we know the acoustic class of each speech segment For each class i compute the mean: C i tr [n] = 1 M M m=1 C i tr [ml, n] C i ts [n] = 1 M M m=1 C i ts [ml, n] Compute the Euclidean distance in each class: D i = 1 R 1 R 1 Average over all classes: n=1 D = 1 I ( C tr i I i=1 [n] C ts i [n]) 2 Use D as previously for speaker verification (or identification) D i

Multivariate Gaussian pdf Let x be a d 1 vector Gaussian pdf: g µ,σ (x) = 1 2π d Σ e 1 2 (x µ)t Σ 1 (x µ) where µ is the mean vector and Σ the covariance matrix. Estimation of the mean: ˆµ = 1 N N i=1 x i Estimation of the (unbiased) covariance matrix: ˆΣ = 1 N 1 N (x i µ)(x i µ) T i=1

Multivariate Gaussian pdf Let x be a d 1 vector Gaussian pdf: g µ,σ (x) = 1 2π d Σ e 1 2 (x µ)t Σ 1 (x µ) where µ is the mean vector and Σ the covariance matrix. Estimation of the mean: ˆµ = 1 N N i=1 x i Estimation of the (unbiased) covariance matrix: ˆΣ = 1 N 1 N (x i µ)(x i µ) T i=1

Multivariate Gaussian pdf Let x be a d 1 vector Gaussian pdf: g µ,σ (x) = 1 2π d Σ e 1 2 (x µ)t Σ 1 (x µ) where µ is the mean vector and Σ the covariance matrix. Estimation of the mean: ˆµ = 1 N N i=1 x i Estimation of the (unbiased) covariance matrix: ˆΣ = 1 N 1 N (x i µ)(x i µ) T i=1

Gaussian Mixture Model - GMM Mixture of Gaussian PDFs K p(x θ) = p(q k x)g µk,σ k (x) k=1 where Speaker model, θ for k = 1, 2,, K K p(q k x) = 1 k=1 θ = {p k, µ k, Σ k }

Speaker Identification If we have estimated S target speaker models θ j with j = 1, 2,, S. Maximum a posteriori probability classification: Maximum Likelihood: max θ j P(θ j x i ) = p(x i θ j )P(θ j ) S j=1 p(x i θ j ) max θ j p(x i θ j ) if X = {x 0, x 1, x M 1 } and assuming frames are independent: Speaker identification: p(x θ j ) = M 1 i=0 p(x i θ j ) M 1 Ŝ = max log [p(xi θ j )] 1 j S

Speaker Identification If we have estimated S target speaker models θ j with j = 1, 2,, S. Maximum a posteriori probability classification: Maximum Likelihood: max θ j P(θ j x i ) = p(x i θ j )P(θ j ) S j=1 p(x i θ j ) max θ j p(x i θ j ) if X = {x 0, x 1, x M 1 } and assuming frames are independent: Speaker identification: p(x θ j ) = M 1 i=0 p(x i θ j ) M 1 Ŝ = max log [p(xi θ j )] 1 j S

Speaker Identification If we have estimated S target speaker models θ j with j = 1, 2,, S. Maximum a posteriori probability classification: Maximum Likelihood: max θ j P(θ j x i ) = p(x i θ j )P(θ j ) S j=1 p(x i θ j ) max θ j p(x i θ j ) if X = {x 0, x 1, x M 1 } and assuming frames are independent: Speaker identification: p(x θ j ) = M 1 i=0 p(x i θ j ) M 1 Ŝ = max log [p(xi θ j )] 1 j S

Speaker Identification If we have estimated S target speaker models θ j with j = 1, 2,, S. Maximum a posteriori probability classification: Maximum Likelihood: max θ j P(θ j x i ) = p(x i θ j )P(θ j ) S j=1 p(x i θ j ) max θ j p(x i θ j ) if X = {x 0, x 1, x M 1 } and assuming frames are independent: Speaker identification: p(x θ j ) = M 1 i=0 p(x i θ j ) M 1 Ŝ = max log [p(xi θ j )] 1 j S

Speaker Identification If we have estimated S target speaker models θ j with j = 1, 2,, S. Maximum a posteriori probability classification: Maximum Likelihood: max θ j P(θ j x i ) = p(x i θ j )P(θ j ) S j=1 p(x i θ j ) max θ j p(x i θ j ) if X = {x 0, x 1, x M 1 } and assuming frames are independent: Speaker identification: p(x θ j ) = M 1 i=0 p(x i θ j ) M 1 Ŝ = max log [p(xi θ j )] 1 j S

Speaker Verification If we have estimated a GMM for the target speaker θ t and a GMM for a collection of imposters (background model), θ BUM Compute the ratio: P(θ t X) P(θ BUM X) = p(x θ t )P(θ t ) p(x θ BUM )P(θ BUM ) Compute the log-likelihood ratio: Λ(X) = log [p(x θ t )] log [p(x θ BUM )] Compare with a threshold Λ(X) λ, accept Λ(X) < λ, reject

Speaker Verification If we have estimated a GMM for the target speaker θ t and a GMM for a collection of imposters (background model), θ BUM Compute the ratio: P(θ t X) P(θ BUM X) = p(x θ t )P(θ t ) p(x θ BUM )P(θ BUM ) Compute the log-likelihood ratio: Λ(X) = log [p(x θ t )] log [p(x θ BUM )] Compare with a threshold Λ(X) λ, accept Λ(X) < λ, reject

Speaker Verification If we have estimated a GMM for the target speaker θ t and a GMM for a collection of imposters (background model), θ BUM Compute the ratio: P(θ t X) P(θ BUM X) = p(x θ t )P(θ t ) p(x θ BUM )P(θ BUM ) Compute the log-likelihood ratio: Λ(X) = log [p(x θ t )] log [p(x θ BUM )] Compare with a threshold Λ(X) λ, accept Λ(X) < λ, reject

Speaker Verification If we have estimated a GMM for the target speaker θ t and a GMM for a collection of imposters (background model), θ BUM Compute the ratio: P(θ t X) P(θ BUM X) = p(x θ t )P(θ t ) p(x θ BUM )P(θ BUM ) Compute the log-likelihood ratio: Λ(X) = log [p(x θ t )] log [p(x θ BUM )] Compare with a threshold Λ(X) λ, accept Λ(X) < λ, reject

GMM-based recognition systems

Performance of GMM-based recognition systems 19 mel-scale coeff (24-1-2-2), 8-component GMM with diagonal covariance matrix.

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

Liljencrants-Fant (LF) model for GFD 7-parameters LF model: u LF (t) = 0, 0 t < T o = E o e α(t To) sin [Ω 0 (t T o )], T o t < T e = E 1 [e β(t Te) e β(tc Te) ], T e t < T c

Example of a glottal flow derivative estimate [1]

Comparing histograms for two speakers based on GFD estimates [1]

Speaker identification performance using GFD parameters [1] Table: Using GFD estimates Features Male Female Coarse: 7 LF 58.3% 68.2% Fine: 5 energy 39.5% 41.8% Source: 12 LF & energy 69.1% 73.6% Table: Using mel-cepstrum on GFD estimates Features Male Female Modeled GFD: 41.1% 51.8% GFD: 95.1% 95.5%

Prosodic and other features Left: females, Right: males

Explaining the performance of prosody for SID

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

Acknowledgments Most, if not all, figures in this lecture are coming from the book: T. F. Quatieri: Discrete-Time Speech Signal Processing, principles and practice 2002, Prentice Hall and have been used after permission from Prentice Hall

Outline 1 Introduction 2 Spectral Features for Speaker Recognition Mel-Cepstrum Sub-Cepstrum 3 Speaker Recognition Algorithms Minimum-Distance Classifier Vector Quantization Gaussian Mixture Model - GMM 4 Non-Spectral Features in Speaker Recognition Glottal Flow Derivative, GFD Prosodic and other features 5 Acknowledgments 6 References

M. Plumpe, T. F. Quatieri, and D. Reynolds, Modeling of the Glottal Flow Derivative Waveform with Application to Speaker Identification, IEEE Trans. Audio, Speech, and Language Processing, vol. 1, pp. 569 586, Sept. 1999.

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Κρήτης» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Σημειώματα

Σημείωμα αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση, Όχι Παράγωγο Έργο 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-nd/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.. 5

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Κρήτης, Στυλιανού Ιωάννης. «Ψηφιακή Επεξεργασία Φωνής. Αναγνώριση Ομιλητή». Έκδοση: 1.0. Ηράκλειο/Ρέθυμνο 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: http://www.csd.uoc.gr/~hy578

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Σημείωμα Χρήσης Έργων Τρίτων Το Έργο αυτό κάνει χρήση των ακόλουθων έργων: Εικόνες/Σχήματα/Διαγράμματα/Φωτογραφίες Εικόνες/σχήματα/διαγράμματα/φωτογραφίες που περιέχονται σε αυτό το αρχείο προέρχονται από το βιβλίο: Τίτλος: Discrete-time Speech Signal Processing: Principles and Practice Prentice-Hall signal processing series, ISSN 1050-2769 Συγγραφέας: Thomas F. Quatieri Εκδότης: Prentice Hall PTR, 2002 ISBN: 013242942X, 9780132429429 Μέγεθος: 781 σελίδες και αναπαράγονται μετά από άδεια του εκδότη.