Ψηφιακή Επεξεργασία Φωνής

Σχετικά έγγραφα
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Διοικητική Λογιστική

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Ψηφιακή Επεξεργασία Φωνής

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Ψηφιακή Επεξεργασία Εικόνων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΛΛΗΛΟΓΡΑΦΙΑ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑ ΣΤΗΝ ΑΓΓΛΙΚΗ ΓΛΩΣΣΑ

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοικητική Λογιστική

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Κβαντική Επεξεργασία Πληροφορίας

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Ψηφιακή Επεξεργασία Φωνής

Βάσεις Περιβαλλοντικών Δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 13η: Multi-Object Auctions Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Μηχανολογικό Σχέδιο Ι

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

ΟΡΟΛΟΓΙΑ -ΞΕΝΗ ΓΛΩΣΣΑ

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Ιστορία νεότερων Μαθηματικών

Δομές Δεδομένων Ενότητα 1

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Ψηφιακή Επεξεργασία Εικόνων

Κβαντική Επεξεργασία Πληροφορίας

Τεχνικό Σχέδιο - CAD

Τεχνικό Σχέδιο - CAD. Τόξο Κύκλου. Τόξο Κύκλου - Έλλειψη. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Ιστορία της μετάφρασης

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Ψηφιακή Επεξεργασία Φωνής

Μηχανική Μάθηση Hypothesis Testing

Τεχνικό Σχέδιο - CAD

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

PRESENTATION TITLE PRESENTATION SUBTITLE

Διδακτική Πληροφορικής

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή σε μεθόδους Monte Carlo Ενότητα 2: Ολοκλήρωση Monte Carlo, γεννήτριες τυχαίων αριθμών

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοικητική Λογιστική

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή σε μεθόδους Monte Carlo Ενότητα 3: Δειγματοληπτικές μέθοδοι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Φιλοσοφία της Ιστορίας και του Πολιτισμού

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Δομές Δεδομένων Ενότητα 3

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Ψηφιακή Επεξεργασία Εικόνων

Ψηφιακή Επεξεργασία Εικόνων

Βέλτιστος Έλεγχος Συστημάτων

Εννοιες και Παράγοντες της Ψηφιακής Επεξεργασίας Εικόνας

Διδακτική των εικαστικών τεχνών Ενότητα 1

Κοινωνία & Υγεία Υγεία Πρόληψη Προαγωγή υγείας: Βαθμίδες πρόληψης

Εισαγωγή στην Πληροφορική

Ψηφιακή Επεξεργασία Φωνής

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

ΣΤΑΘΜΟΙ ΠΑΡΑΓΩΓΗΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ

Εισαγωγή στην Πληροφορική

Διδακτική Πληροφορικής

ΗΛΕΚΤΡΟΤΕΧΝΙΑ-ΗΛΕΚΤΡΟΝΙΚΗ ΕΡΓΑΣΤΗΡΙΟ

Διαχείριση Πολιτισμικών Δεδομένων

Transcript:

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Επεξεργασία Φωνής Ενότητα 3η: Ακουστική Ανάλυση Παραγωγής Φωνής Στυλιανού Ιωάννης Τμήμα Επιστήμης Υπολογιστών

CS578- Speech Signal Processing Lecture 3: Acoustics of Speech Production Yannis Stylianou University of Crete, Computer Science Dept., Multimedia Informatics Lab yannis@csd.uoc.gr Univ. of Crete, 2008 Winter Period

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Compression and rarefaction of air particles

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Some definitions Sound wave: propagation of disturbance (local changes in pressure, displacement, and velocity) of particles through a medium, creating the effect of compression or rarefaction. Wavelength: distance between two consecutive peak compressions, λ Frequency: number of cycles of compressions per second, f Speed of sound: c = f λ (at sea level and at 70 F, c = 344m/sec) Isothermal process: a slow variation of pressure where the temperature in the medium remains constant Adiabatic process: a fast variation of pressure where the temperature in the medium increases

Cube configuration

Notation Assuming planar propagation, and within the cube: p(x, t) fluctuation of pressure about an ambient or average pressure P 0. Threshold of hearing: 2 10 5 newtons/m 2 Threshold of pain: 20 newtons/m 2 υ(x, t) fluctuation of particles velocity about zero average velocity. ρ(x, t) fluctuation of particles density about an average density ρ 0.

Notation Assuming planar propagation, and within the cube: p(x, t) fluctuation of pressure about an ambient or average pressure P 0. Threshold of hearing: 2 10 5 newtons/m 2 Threshold of pain: 20 newtons/m 2 υ(x, t) fluctuation of particles velocity about zero average velocity. ρ(x, t) fluctuation of particles density about an average density ρ 0.

Notation Assuming planar propagation, and within the cube: p(x, t) fluctuation of pressure about an ambient or average pressure P 0. Threshold of hearing: 2 10 5 newtons/m 2 Threshold of pain: 20 newtons/m 2 υ(x, t) fluctuation of particles velocity about zero average velocity. ρ(x, t) fluctuation of particles density about an average density ρ 0.

The Wave Equation Under the assumptions: If there is no friction of air particles in the cube with those outside the cube (no viscosity), Cube is very small, The density of air particles is constant in the cube (i.e.,ρ 0 = ρ) then, one form of the Wave Equation is given by: p x = ρ υ t p t = ρc 2 υ x

The Wave Equation Under the assumptions: If there is no friction of air particles in the cube with those outside the cube (no viscosity), Cube is very small, The density of air particles is constant in the cube (i.e.,ρ 0 = ρ) then, one form of the Wave Equation is given by: p x = ρ υ t p t = ρc 2 υ x

The Wave Equation Under the assumptions: If there is no friction of air particles in the cube with those outside the cube (no viscosity), Cube is very small, The density of air particles is constant in the cube (i.e.,ρ 0 = ρ) then, one form of the Wave Equation is given by: p x = ρ υ t p t = ρc 2 υ x

The Wave Equation Under the assumptions: If there is no friction of air particles in the cube with those outside the cube (no viscosity), Cube is very small, The density of air particles is constant in the cube (i.e.,ρ 0 = ρ) then, one form of the Wave Equation is given by: p x = ρ υ t p t = ρc 2 υ x

The Wave Equation Under the assumptions: If there is no friction of air particles in the cube with those outside the cube (no viscosity), Cube is very small, The density of air particles is constant in the cube (i.e.,ρ 0 = ρ) then, one form of the Wave Equation is given by: p x = ρ υ t p t = ρc 2 υ x

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Lossless Case of cross section A where u(x, t) = Aυ(x, t) p x = ρ u A t p t = ρc2 A u x

Solution for a Lossless Tube Under the assumptions/conditions: No friction along the walls of the tube At the open end of the tube, there are no variations in air pressure, i.e. p(l, t) = 0 Volume velocity at x = 0: u(0, t) = U g (Ω)e jωt Volume velocity: u(x, t) = cos [Ω(l x)/c] U g (Ω)e jωt cos (Ω l/c) (Incremental) Pressure: p(x, t) = j ρc A sin [Ω(l x)/c] U g (Ω)e jωt cos (Ω l/c) where U g (Ω)e jωt denotes volume velocity at x = 0

Solution for a Lossless Tube Under the assumptions/conditions: No friction along the walls of the tube At the open end of the tube, there are no variations in air pressure, i.e. p(l, t) = 0 Volume velocity at x = 0: u(0, t) = U g (Ω)e jωt Volume velocity: u(x, t) = cos [Ω(l x)/c] U g (Ω)e jωt cos (Ω l/c) (Incremental) Pressure: p(x, t) = j ρc A sin [Ω(l x)/c] U g (Ω)e jωt cos (Ω l/c) where U g (Ω)e jωt denotes volume velocity at x = 0

Velocity and Pressure are orthogonal

Input/Output volume velocity At x = l u(l, t) = 1 cos (Ω l/c) U g (Ω)e jωt Then, the frequency response V (Ω) is: V (Ω) = U(l, Ω) U g (Ω) = 1 cos (Ω l/c) providing resonances of infinite amplitudes at frequencies: Ω k = (2k + 1) πc, k = 0, 1, 2, 2l Example: if l= 35cm, c = 350 m/s, then f k = 250, 750, 1250, Hz.

Input/Output volume velocity At x = l u(l, t) = 1 cos (Ω l/c) U g (Ω)e jωt Then, the frequency response V (Ω) is: V (Ω) = U(l, Ω) U g (Ω) = 1 cos (Ω l/c) providing resonances of infinite amplitudes at frequencies: Ω k = (2k + 1) πc, k = 0, 1, 2, 2l Example: if l= 35cm, c = 350 m/s, then f k = 250, 750, 1250, Hz.

Uniform tube: being realistic Energy loss due to the wall vibration (left) and with viscous and thermal loss (right)[1]:

Uniform tube: being more realistic Sound radiation at the lips, as an acoustic impedance: Z r (Ω) = P(l, Ω) U(l, Ω) All the previous losses, plus radiation loss[1]:

Pressure-to-volume velocity frequency response Since we measure pressure at the lips: H(Ω) = P(l, Ω) U g (Ω) = Z r (Ω)V (Ω)

Numerical simulations for /o/[1]

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Concatenating lossless Uniform Tubes Reflection coefficient: r k = A k+1 A k A k+1 + A k

Discretizing the continuous-space tube Impulse response of N lossless concatenated tubes with total length l: h(t) = b 0 δ(t Nτ) + where τ = x c and x = l N Frequency response: H(Ω) = b k δ(t Nτ k2τ) k=1 b k e jω2kτ k=0 Observe that: H(Ω + 2π 2τ ) = H(Ω)

Discretizing the continuous-space tube Impulse response of N lossless concatenated tubes with total length l: h(t) = b 0 δ(t Nτ) + where τ = x c and x = l N Frequency response: H(Ω) = b k δ(t Nτ k2τ) k=1 b k e jω2kτ k=0 Observe that: H(Ω + 2π 2τ ) = H(Ω)

Discretizing the continuous-space tube Impulse response of N lossless concatenated tubes with total length l: h(t) = b 0 δ(t Nτ) + where τ = x c and x = l N Frequency response: H(Ω) = b k δ(t Nτ k2τ) k=1 b k e jω2kτ k=0 Observe that: H(Ω + 2π 2τ ) = H(Ω)

Signal flow graphs (a) two concatenated tubes, (b) lip boundary condition, (c) glottal boundary condition

For a lossless two-tube model Transfer function relating the volume velocity at the lips to the glottis: be s2τ V (s) = 1 + a 1 e s2τ + a 2 e s4τ with a 1 = r 1 r g + r 1 r L, a 2 = r L r g and b = 0.5(1 + r g )(1 + r L )(1 + r 1 ) (Show me this)

Discrete-time lossless models Two cubes: By setting z = e s2τ, then: V (z) = bz 1 1 + a 1 z 1 + a 2 z 2 N cubes: V (z) = Az N/2 1 + N k=1 a kz k

Discrete-time lossless models Two cubes: By setting z = e s2τ, then: V (z) = bz 1 1 + a 1 z 1 + a 2 z 2 N cubes: V (z) = Az N/2 1 + N k=1 a kz k

Choosing the number of tube elements Question: If a vocal tract has length l = 17.5 cm and the speed of sound c = 350 m/s, how many tubes, N, do we need to cover a bandwidth of 5000 Hz? Answer: N = 10

Choosing the number of tube elements Question: If a vocal tract has length l = 17.5 cm and the speed of sound c = 350 m/s, how many tubes, N, do we need to cover a bandwidth of 5000 Hz? Answer: N = 10

Complete discrete-time model from N Tubes Discrete-time pressure-to-volume velocity frequency response: H(z) = R(z)V (Z) where R(z) 1 αz 1 and V (z) is an all-pole model. And for the speech signal (voiced case): X (z) = A v G(z)H(z) with A v to control loudness and G(z) being the z-transform of the glottal flow input. or 1 αz 1 X (z) = A v G(z) 1 + N k=1 a kz k

Complete discrete-time model from N Tubes Discrete-time pressure-to-volume velocity frequency response: H(z) = R(z)V (Z) where R(z) 1 αz 1 and V (z) is an all-pole model. And for the speech signal (voiced case): X (z) = A v G(z)H(z) with A v to control loudness and G(z) being the z-transform of the glottal flow input. or 1 αz 1 X (z) = A v G(z) 1 + N k=1 a kz k

Glottal waveform model A typical glottal flow waveform over one cycle is modeled as: which has as z-transform: So for a voiced frame: g[n] = (b n u[ n]) (b n u[ n]) G(z) = 1 (1 βz) 2 X (z) = A v (1 az 1 ) (1 bz) 2 (1 + N k=1 a kz k )

Glottal waveform model A typical glottal flow waveform over one cycle is modeled as: which has as z-transform: So for a voiced frame: g[n] = (b n u[ n]) (b n u[ n]) G(z) = 1 (1 βz) 2 X (z) = A v (1 az 1 ) (1 bz) 2 (1 + N k=1 a kz k )

Modeling other states For noisy inputs: For impulsive sounds: being more general: X (z) = A n U(z)V (z)r(z) X (z) = A i V (z)r(z) X (z) = A (1 az 1 ) M i k=1 (1 c kz 1 ) M o k=1 (1 d kz) (1 bz) 2 (1 N k=1 a kz k )

Modeling other states For noisy inputs: For impulsive sounds: being more general: X (z) = A n U(z)V (z)r(z) X (z) = A i V (z)r(z) X (z) = A (1 az 1 ) M i k=1 (1 c kz 1 ) M o k=1 (1 d kz) (1 bz) 2 (1 N k=1 a kz k )

Modeling other states For noisy inputs: For impulsive sounds: being more general: X (z) = A n U(z)V (z)r(z) X (z) = A i V (z)r(z) X (z) = A (1 az 1 ) M i k=1 (1 c kz 1 ) M o k=1 (1 d kz) (1 bz) 2 (1 N k=1 a kz k )

An Overview then

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Glottal Flow Derivative Since speech signals, x(t) can be obtained in general by: and because: x(t) A d dt [u g (t) v(t)] A d [ ] d dt [u g (t) v(t)] = A dt u g (t) v(t) we usually consider the derivative d dt u g (t) as input to the system, which is referred to as Glottal Flow Derivative

Glottal flow and its derivative

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Ripple in the glottal flow derivative?

Regarding the first formant [2]

Truncation effect - again

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

Acknowledgments Most, if not all, figures in this lecture are coming from the book: T. F. Quatieri: Discrete-Time Speech Signal Processing, principles and practice 2002, Prentice Hall and have been used after permission from Prentice Hall

Outline 1 Physics of sound 2 Uniform Tube Model 3 Concatenating N uniform tubes 4 Glottal Flow Derivative 5 Vocal Fold/Vocal Tract Interaction 6 Acknowledgments 7 References

M. Portnoff, A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal Tract. PhD thesis, Massachusetts Institue of Technology, May 1973. C. Jankowski, Fine Structure Features for Speaker Identification. PhD thesis, Massachusetts Institute of Technology, Dept. of EE and CS, June 1996.

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Κρήτης» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Σημειώματα

Σημείωμα αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση, Όχι Παράγωγο Έργο 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-nd/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.. 5

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Κρήτης, Στυλιανού Ιωάννης. «Ψηφιακή Επεξεργασία Φωνής. Ακουστική Ανάλυση Παραγωγής Φωνής». Έκδοση: 1.0. Ηράκλειο/ Ρέθυμνο 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: http:// www.csd.uoc.gr/~hy578

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Σημείωμα Χρήσης Έργων Τρίτων Το Έργο αυτό κάνει χρήση των ακόλουθων έργων: Εικόνες/Σχήματα/Διαγράμματα/Φωτογραφίες Εικόνες/σχήματα/διαγράμματα/φωτογραφίες που περιέχονται σε αυτό το αρχείο προέρχονται από το βιβλίο: Τίτλος: Discrete-time Speech Signal Processing: Principles and Practice Prentice-Hall signal processing series, ISSN 1050-2769 Συγγραφέας: Thomas F. Quatieri Εκδότης: Prentice Hall PTR, 2002 ISBN: 013242942X, 9780132429429 Μέγεθος: 781 σελίδες και αναπαράγονται μετά από άδεια του εκδότη.