Ψηφιακή Επεξεργασία Φωνής

Σχετικά έγγραφα
Διοικητική Λογιστική

Ψηφιακή Επεξεργασία Φωνής

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Ψηφιακή Επεξεργασία Εικόνων

Εισαγωγή στους Αλγορίθμους

Διοικητική Λογιστική

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Κβαντική Επεξεργασία Πληροφορίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Βάσεις Περιβαλλοντικών Δεδομένων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Επεξεργασία Σημάτων. Άσκηση 3η. Στυλιανού Ιωάννης. Τμήμα Επιστήμης Υπολογιστών

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Ψηφιακή Επεξεργασία Εικόνων

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Τεχνικό Σχέδιο - CAD

Τεχνικό Σχέδιο - CAD. Τόξο Κύκλου. Τόξο Κύκλου - Έλλειψη. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Μηχανολογικό Σχέδιο Ι

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Τεχνικό Σχέδιο - CAD

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Εισαγωγή στην Πληροφορική

Δομές Δεδομένων Ενότητα 1

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Διδακτική Πληροφορικής

Κβαντική Επεξεργασία Πληροφορίας

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Ιστορία της μετάφρασης

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Βέλτιστος Έλεγχος Συστημάτων

Ψηφιακή Επεξεργασία Φωνής

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εννοιες και Παράγοντες της Ψηφιακής Επεξεργασίας Εικόνας

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Διδακτική Πληροφορικής

Διοικητική Λογιστική

Εισαγωγή στην Πληροφορική

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διαχείριση Πολιτισμικών Δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή σε μεθόδους Monte Carlo Ενότητα 2: Ολοκλήρωση Monte Carlo, γεννήτριες τυχαίων αριθμών

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Εισαγωγή σε μεθόδους Monte Carlo Ενότητα 3: Δειγματοληπτικές μέθοδοι

Κοινωνία & Υγεία Υγεία Πρόληψη Προαγωγή υγείας: Βαθμίδες πρόληψης

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Βάσεις Περιβαλλοντικών Δεδομένων

Διδακτική Πληροφορικής

Εισαγωγή στους Υπολογιστές

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Φιλοσοφία της Ιστορίας και του Πολιτισμού

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Εισαγωγή στην Πληροφορική

Τεχνολογία Πολιτισμικού Λογισμικού

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Σχεδίαση Ολοκληρωμένων Κυκλωμάτων Ενότητα Α-Κεφάλαιο 4: Διάχυση και εμφύτευση Ιόντων. Αγγελική Αραπογιάννη Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μάρκετινγκ Αγροτικών Προϊόντων

Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

ΟΙΚΟΝΟΜΙΚΑ ΜΑΘΗΜΑΤΙΚΑ

Εισαγωγή στην Πληροφορική

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 13η: Multi-Object Auctions Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Διδακτική των εικαστικών τεχνών Ενότητα 1

Διδακτική των εικαστικών τεχνών Ενότητα 3

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Transcript:

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Επεξεργασία Φωνής Ενότητα 2η: Παραγωγή και Ταξινόμηση Σημάτων Φωνής Στυλιανού Ιωάννης Τμήμα Επιστήμης Υπολογιστών

CS578- Speech Signal Processing Lecture 2: Production and Classification of Speech Sounds Yannis Stylianou University of Crete, Computer Science Dept., Multimedia Informatics Lab yannis@csd.uoc.gr Univ. of Crete, 2008 Winter Period

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

A Simple view

Cross sectional view

Downward-looking into the larynx: Vocal folds Left: Voicing, Right: Breathing

Vocal Folds vibration

Bernoulli s principle in the glottis

Glottal airflow velocity

Softer, typical, and relaxed glottal flow

Other vocal folds configurations Left: Whispering, Middle: Voicing Right: Whispering voicing

Other forms of vibration Creaky voice: Vocal fry Diplophonia vocal folds very tense only a portion of them in oscillation harsh-sounding voice high and irregular pitch folds are massy and relaxed abnormally low and irregular pitch secondary pulses during open phase extra flaps secondary pulses during the closed phase

Other forms of vibration Creaky voice: Vocal fry Diplophonia vocal folds very tense only a portion of them in oscillation harsh-sounding voice high and irregular pitch folds are massy and relaxed abnormally low and irregular pitch secondary pulses during open phase extra flaps secondary pulses during the closed phase

Other forms of vibration Creaky voice: Vocal fry Diplophonia vocal folds very tense only a portion of them in oscillation harsh-sounding voice high and irregular pitch folds are massy and relaxed abnormally low and irregular pitch secondary pulses during open phase extra flaps secondary pulses during the closed phase

Examples Upper panel: vocal fry, Lower panel: diplophonia

Vocal Tract By saying Vocal Tract we mean: Oral cavity: from the larynx to the lips, and the Nasal cavity Oral tract: 17cm for male voice, shorter for females Its purpose is to spectrally color the source and generate new sources for sound production

Vocat tract shapes

Spectral Shaping Vocal tract is often approximated by a linear filter with: Formant frequencies Formant amplitude Formant bandwidth Assuming a stable vocal tract and only with poles filter: H(z) = = Ni A k=1 (1 c kz 1 )(1 ck z 1 ) N i A k (1 c k z 1 )(1 ck z 1 ) k=1

Spectral Shaping Vocal tract is often approximated by a linear filter with: Formant frequencies Formant amplitude Formant bandwidth Assuming a stable vocal tract and only with poles filter: H(z) = = Ni A k=1 (1 c kz 1 )(1 ck z 1 ) N i A k (1 c k z 1 )(1 ck z 1 ) k=1

Example Let the excitation of vocal tract, h[n], be: u[n] = g[n] p[n] then, the output speech, x[n, τ], is given by: x[n, τ] = w[n, τ]{h[n] (g[n] p[n])} and X (ω, τ) = 1 H(ω k )G(ω k )W (ω ω k, τ) P k=

Harmonics and Formants

Soprano

Ways to categorize speech sounds Vocal fold state: Voiced Unvoiced Oral tract state: Plosives Fricatives Also: voiced and unvoiced plosives (/b/,/t/), voiced and unvoiced fricatives (/z/,/f/), whispered unvoiced

Which tea party did baker go to?

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

Short Time Fourier Transform, STFT STFT: where Spectrogram: X (ω, τ) = x[n, τ]e jωn n= x[n, τ] = w[n, τ]x[n] S(ω, τ) = X (ω, τ) 2

Short Time Fourier Transform, STFT STFT: where Spectrogram: X (ω, τ) = x[n, τ]e jωn n= x[n, τ] = w[n, τ]x[n] S(ω, τ) = X (ω, τ) 2

Narrowband Spectrogram

Wideband Spectrogram

Spectrogram on speech

Spectrogram on speech; another example

Do we know better now? to classify sounds by looking in time of in frequency domain for periodic, noisy, impulsive sources? shape of vocal tract?

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

Phonemes map

Vowels Source: Quasi-periodic puffs of airflow System: Each vowel phoneme corresponds to a different vocal tract configuration.

Vowels: time and spectrogram

Nasals Source: Quasi-periodic puffs of airflow System: Air flows mainly through the nasal cavity and oral tract being constricted

Nasals: time and spectrogram

Fricatives Source: Voiced: vocal-folds vibrate Unvoiced: vocal-folds are relaxed and not vibrating System: Oral tract being constricted by tongue at the back, center, or front of the oral tract, or at the teeth or lips

Fricatives profile

Fricatives: time and spectrogram

Plosives, or burst signals Voiced: Source: vocal folds are vibrating ( voice bar ) System: Oral tract being constricted by tongue at the back, center, or front of the oral tract, or at the teeth or lips Unvoiced: Source: vocal folds are not vibrating System: Oral tract being constricted by tongue at the back, center, or front of the oral tract, or at the teeth or lips

Plosives profile

Voice Onset Time

Plosives: time and spectrogram

Semi-vowels

Transitional Speech Sounds: boy

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

Prosody of speech As prosody of speech we refer to: Rhythm Fundamental frequency contour (pitch) Loudness

Stressed speech Please do this today :

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

Perception of Speech?

Outline 1 Anatomy and Physiology of Speech Production Larynx Vocal Tract Categories of sound by source 2 Spectrographic analysis of Speech 3 Elements of Language 4 Prosody of Speech 5 Perception of Speech 6 Acknowledgments

Acknowledgments Most, if not all, figures in this lecture are coming from the book: T. F. Quatieri: Discrete-Time Speech Signal Processing, principles and practice 2002, Prentice Hall and have been used after permission from Prentice Hall

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Κρήτης» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Σημειώματα

Σημείωμα αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση, Όχι Παράγωγο Έργο 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-nd/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.. 5

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Κρήτης, Στυλιανού Ιωάννης. «Ψηφιακή Επεξεργασία Φωνής. Παραγωγή και Ταξινόμηση Σημάτων Φωνής». Έκδοση: 1.0. Ηράκλειο/Ρέθυμνο 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: http:// www.csd.uoc.gr/~hy578

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Σημείωμα Χρήσης Έργων Τρίτων Το Έργο αυτό κάνει χρήση των ακόλουθων έργων: Εικόνες/Σχήματα/Διαγράμματα/Φωτογραφίες Εικόνες/σχήματα/διαγράμματα/φωτογραφίες που περιέχονται σε αυτό το αρχείο προέρχονται από το βιβλίο: Τίτλος: Discrete-time Speech Signal Processing: Principles and Practice Prentice-Hall signal processing series, ISSN 1050-2769 Συγγραφέας: Thomas F. Quatieri Εκδότης: Prentice Hall PTR, 2002 ISBN: 013242942X, 9780132429429 Μέγεθος: 781 σελίδες και αναπαράγονται μετά από άδεια του εκδότη.