Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Σχετικά έγγραφα
Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Ψηφιακή Επεξεργασία Σημάτων

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Εισαγωγή στις Τηλεπικοινωνίες

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

1/3/2009. Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν με τον «αναλογικό» ανθρώπινο κόσμο. Φλώρος Ανδρέας Επίκ. Καθηγητής.

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Γενική εικόνα τι είναι σήµα - Ορισµός. Ταξινόµηση σηµάτων. Βασικές ιδιότητες σηµάτων. Μετατροπές σήµατος ως προς το χρόνο. Στοιχειώδη σήµατα.

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Μετάδοση πληροφορίας - Διαμόρφωση

Επεξεργαστές - ελεγκτές ψηφιακού σήµατος

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

«Επικοινωνίες δεδομένων»

Ραδιοτηλεοπτικά Συστήματα Ενότητα 3: Θεωρία Ψηφιοποίησης

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΑΝΑΠΤΥΓΜA - ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΟΓΙΚΩΝ ΣΗΜΑΤΩΝ. Περιγράψουµε τον τρόπο ανάπτυξης σε σειρά Fourier ενός περιοδικού αναλογικού σήµατος.

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

«Επικοινωνίες δεδομένων»

Μετάδοση πληροφορίας - Διαμόρφωση

Εφαρμογή στις ψηφιακές επικοινωνίες

Σεραφείµ Καραµπογιάς ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Παράδειγµα ενός ηλεκτρικού συστήµατος

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Σχήµα 1: Χρήση ψηφιακών φίλτρων για επεξεργασία σηµάτων συνεχούς χρόνου

Συναρτήσεις Συσχέτισης

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

Επικοινωνίες στη Ναυτιλία

Ψηφιακή Επεξεργασία Σημάτων

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Γενικά χαρακτηριστικά ανάδρασης

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

Ιατρικά Ηλεκτρονικά. Δρ. Π. Ασβεστάς Εργαστήριο Επεξεργασίας Ιατρικού Σήματος & Εικόνας Τμήμα Τεχνολογίας Ιατρικών Οργάνων

Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ζ διακριτές σήματα και συστήματα διακριτού χρόνου χρονοσειρές (time series)

Μορφοποίηση και ιαµόρφωση Σηµάτων Βασικής Ζώνης

Αρχές Τηλεπικοινωνιών

DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Ασκήσεις στα Συστήµατα Ηλεκτρονικών Επικοινωνιών Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Παράμετροι σχεδίασης παλμών (Μορφοποίηση παλμών)

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΑΣΚΗΣΗ 5

Θ.Ε. ΠΛΗ22 ( ) 2η Γραπτή Εργασία

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER

Τι είναι σήµα; Σεραφείµ Καραµπογιάς

Θεώρημα δειγματοληψίας

ΕΡΓΑΣΤΗΡΙΟ ΦΥΣΙΚΗΣ ΟΠΤΙΚΗΣ - ΟΠΤΟΗΛΕΚΤΡΟΝΙΚΗΣ & LASER ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΧΗΜΕΙΑΣ & Τ/Υ ΑΣΚΗΣΗ ΝΟ7 ΟΠΤΙΚΗ FOURIER. Γ. Μήτσου

Τεχνολογικό Eκπαιδευτικό Ίδρυμα Kρήτης TMHMA MHXANOΛOΓIAΣ. Δρ. Φασουλάς Γιάννης

Συστήματα Επικοινωνιών ΙI

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Α. Αιτιολογήστε αν είναι γραμμικά ή όχι και χρονικά αμετάβλητα ή όχι.

FFT. Θα επικεντρωθούμε στο ΔΜΦ αλλά όλα ισχύουν και για τον

Ημιτονοειδή σήματα Σ.Χ.

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Εισαγωγή. Προχωρημένα Θέματα Τηλεπικοινωνιών. Ανάκτηση Χρονισμού. Τρόποι Συγχρονισμού Συμβόλων. Συγχρονισμός Συμβόλων. t mt

H ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ. στις τηλεπικοινωνίες

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Κεφάλαιο 1 ο. Βασικά στοιχεία των Κυκλωμάτων

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ 2. ΣΤΟΙΧΕΙΑ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ Κεφ. 10.3, ) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε

Εξεταστική Ιανουαρίου 2007 Μάθηµα: «Σήµατα και Συστήµατα»

δ[n kp ], k Z (1) 1 cos πn, N 1 n N 1 + N 2 2N

Διάλεξη 3. Δειγματοληψία και Ανακατασκευή Σημάτων. Δειγματοληψία και Ανακατασκευή Σημάτων. (Κεφ & 4.6,4.8)

Ενδεικτικές Ασκήσεις για το μάθημα: «Μετρήσεις Φυσικών Μεγεθών»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Ειδικά Θέματα Ηλεκτρονικών 1

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΜΑ 2 1. Υπολογίστε την σχέση των δύο αντιστάσεων, ώστε η συνάρτηση V

Φασµατογράφος NMR. Μαγνήτης. ΑποσυζευκτÞò Β 2 Β 3. ÄÝκτηò S N. ΚανÜλι κλειδþìατοò. Β 1 Ποìπüò ADC. (data points) (data points) Επεξεργασßα.

ΤΗΛ412 Ανάλυση & Σχεδίαση (Σύνθεση) Τηλεπικοινωνιακών Διατάξεων. Διάλεξη 6. Άγγελος Μπλέτσας ΗΜΜΥ Πολυτεχνείου Κρήτης, Φθινόπωρο 2016

1) Να σχεδιαστούν στο matlab οι γραφικές παραστάσεις των παρακάτω ακολουθιών στο διάστημα, χρησιμοποιώντας τις συναρτήσεις delta και step.

Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 4 «Μετατροπή ηχητικών σημάτων από αναλογικό σε ψηφιακό»

Τηλεπικοινωνιακά Συστήματα Ι

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Ο μετασχηματισμός Fourier

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Συστήµατα και Αλγόριθµοι Πολυµέσων

Ψηφιακή Επεξεργασία Σημάτων

Σήματα και Συστήματα. Διάλεξη 10: Γραμμικά Φίλτρα. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Επεξεργασία Στοχαστικών Σημάτων

Περιεχόµενα διαλέξεων 2ης εβδοµάδας

Transcript:

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.83 Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας 3.1 Eισαγωγή Τα στάδια που προηγούνται της βασικής διαδικασίας αναγνώρισης, αναφέρονται σαν στάδια προεπεξεργασίας του σήµατος οµιλίας. Παραστατικά φαίνονται στην εικόνα 3.1 και περιλαµβάνουν τα εξής: µετατροπή του ακουστικού σήµατος σε ηλεκτρικό µε την χρήση κατάλληλου µικρόφωνου, ενίσχυση της στάθµης του ηλεκτρικού σήµατος που προέρχεται από το µικρόφωνο (προενισχυτής µικροφώνου), διέλευση του ακουστικού σήµατος από βαθυπερατό φίλτρο για αποκοπή των υψηλών συχνοτήτων του σήµατος και αποφυγή προβληµάτων φασµατικής αναδίπλωσης, µετατροπή του αναλογικού σήµατος σε ψηφιακό (A/D), χωρισµός του ψηφιακού σήµατος οµιλίας σε χρονικά πλαίσια µικρής χρονικής διάρκειας (πλαισιοποίηση) για να είναι δυνατή η χρήση µεθόδων ανάλυσης του σήµατος, επιδράσεων του ορθογωνίου παραθύρου που εφαρµόζεται κατά την πλαισιοποίηση, και τέλος, προέµφαση του ακουστικού σήµατος.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.84 Εικόνα 3.1: ιαδικασία προεπεξεργασίας του σήµατος οµιλίας. 3.2 Αναλογική Επεξεργασία Σκοπός του αναλογικού τµήµατος της βαθµίδας εξαγωγής παραµέτρων είναι η µετατροπή των ηχητικών κυµάτων σε ψηφιακό σήµα, ώστε να παρουσιάζει τη µικρότερη δυνατή παραµόρφωση στο εύρος ζώνης συχνοτήτων στο οποίο να γίνεται δειγµατοληψία. Οι συσκευές και οι βαβµίδες που πραγµατοποιούν αυτή την µετατροπή, περιγράφονται µε την σειρά που εµφανίζονται στην διαδικασία ψηφιοποίηση του σήµατος οµιλίας. 3.2.1 Μικρόφωνο Το µικρόφωνο αποτελεί την συσκευή που συνήθως παρεµβάλλει την µεγαλύτερη στάθµη παραµορφώσεων από όλες τις αναλογικές βαθµίδες επεξεργασίας. Η επιλογή του µικροφώνου θα πρέπει να γίνει µε τέτοιο τρόπο, ώστε να ελαχιστοποιηθούν αστάθµητοι παράγοντες που προκαλούν αλλοιώσεις στην ποιότητα του σήµατος οµιλίας. Οι πιο σηµαντικοί από τους παραπάνω παράγοντες είναι η µεταβαλλόµενη συµπεριφορά των οµιλητών η οποία είναι συνάρτηση της εξοικείωσης των οµιλητών µε το σύστηµα, και το περιβάλλον λειτουργίας. Αν τώρα θεωρήσουµε µικρή την εξοικείωση του χρήστη µε το σύστηµα και το περιβάλλον ηχογραφήσεων χαµηλής στάθµης θορύβου, τότε επιλέγεται ως κατάλληλο ένα µικρόφωνο χαµηλής ευαισθησίας (close talking) και µέσης κατευθυντικότητας. Τα πλεονεκτήµατα αυτών των µικροφώνων είναι η µεγάλη απόσβεση των αντηχήσεων και των θορύβων από µέση και µεγάλη απόσταση, η τοποθέτηση τους σε µια σταθερή απόσταση από το στόµα του οµιλητή και η ικανοποιητική απόσβεση του θορύβου της εκπνοής στα όρια απόστασης που έχει θέσει ο κατασκευαστής. Τέλος, σαν µειονέκτηµα µπορεί να αναφερθεί το γεγονός, ότι µε την µη καλή τοποθέτηση του µικροφώνου µπορεί να αυξηθεί η ισχύς της εκπνοής και των ήχων της κίνησης των χειλιών, θόρυβοι οι οποίοι λαµβάνουν χώρα κατά την προφορά των λέξεων.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.85 3.2.2 Ενισχυτής Χρησιµοποιείται για να ενισχύει το χαµηλής ισχύος µικροφωνικό ρεύµα σε µια στάθµη στην οποία ελαχιστοποιείται η παραµόρφωση που προσθέτει ο ηλεκτρονικός θόρυβος των κυκλωµάτων στις βαθµίδες αναλογικής επεξεργασίας που ακολουθούν. Οι περισσότεροι καλής ποιότητας γραµµικοί προενισχυτές του εµπορίου µπορούν να χρησιµοποιηθούν για την ενίσχυση του µικροφωνικού ρεύµατος, επειδή παρουσιάζουν συνήθως πολύ µικρή παραµόρφωση στις ακουστικές συχνότητες. 3.2.3 Κατωδιαβατό Φίλτρο Το φάσµα οµιλίας ενός µέσου άρρενα οµιλητή µε µήκος φωνητικού καναλιού περίπου 17 cm, περιέχει 3 4 συντονισµούς στην περιοχή των 200 3,200 Hz και 4-5 συντονισµούς στη περιοχή των 200-5,000 Hz. Σε µικρότερα φωνητικά κανάλια (παιδιά, γυναίκες) οι τρεις πρώτοι συντονισµοί εµφανίζονται στην περιοχή των 300-3,600 Hz. Έχει αποδειχτεί ότι το µεγαλύτερο ποσοστό ακουστικής πληροφορίας συγκεντρώνεται στην περιοχή των τριών πρώτων συντονισµών. Κατ αυτόν τον τρόπο περιορίζοντας το φάσµα του σήµατος οµιλίας στα 200-3600 Hz, οι σηµαντικότερες ακουστικές πληροφορίες µένουν σχεδόν ακέραιες, µε µόνο κόστος τη µείωση της ακουστικής ποιότητας (πιστότητας) του σήµατος. Με βάση το θεώρηµα δειγµατοληψίας Nyquist, η συχνότητα δειγµατοληψίας F s 8kHz µπορεί να εξασφαλίσει ικανοποιητική ψηφιοποίηση για το τµήµα αυτό του σήµατος οµιλίας. Πριν τη δειγµατοληψία θα πρέπει να γίνει περιορισµός του φάσµατος του αναλογικού σήµατος στην περιοχή 0-F s /2 Hz, για την αποφυγή της παραµόρφωσης φασµατικής αναδίπλωσης (aliasing). Αυτό εξασφαλίζεται µε την διέλευση του σήµατος οµιλίας από χαµηλοπερατό φίλτρο συχνότητας αποκοπής F s /2 Hz. Στην εικόνα 3.2 (α) βλέπουµε ότι το κατωδιαβατό φίλτρο περνάει συχνότητες µέχρι ενός ορίου ω 0 και στο (β) κυκλωµατικό διάγραµµα ενός στοιχειώδους Low Pass φίλτρου.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.86 Εικόνα 3.2: (α) Γραφική παράσταση µέτρου ενός ιδανικού κατωδιαβατού φίλτρου και (β) κυκλωµατικό διάγραµµα ενός στοιχειώδους Low Pass φίλτρου. Το φίλτρο θα πρέπει να επιλεγεί έτσι ώστε να παρουσιάζει στην ζώνη συχνοτήτων διέλευσης επίπεδο φάσµα, ενώ κοντά στην συχνότητα αποκοπής του θα πρέπει να έχει υψηλή απόσβεση, ώστε η συχνότητα δειγµατοληψίας να επιλεγεί όσο το δυνατόν πλησιέστερα στην συχνότητα αποκοπής. Με αυτό τον τρόπο µπορεί να ελαττωθεί σηµαντικά η συχνότητα δειγµατοληψίας µε άµεση συνέπεια την ελάττωση και του χρόνου απόκρισης των βαθµίδων ψηφιακής επεξεργασίας µιας και παρουσιάζεται χαµηλότερη πληροφοριακή ροή στην βαθµίδα ψηφιοποίησης. 3.2.4 Αναλογική Ψηφιακή Μετατροπή Όλα τα σήµατα που δηµιουργούνται από φυσικά αίτια είναι αναλογικά. Η ψηφιακή επεξεργασία αυτών των σηµάτων απαιτεί την προηγούµενη µετατροπή τους σε ακολουθίες αριθµών µιας συγκεκριµένης ακρίβειας µέσω µιας διαδικασίας µετατροπής αναλογικών σηµάτων σε ψηφιακά (analog to digital conversion) και η οποία µπορεί να θεωρηθεί σαν µια σειρά από δύο βήµατα: ειγµατοληψία (Sampling): Περιοδικά λαµβάνονται δείγµατα του αναλογικού σήµατος για να σχηµατισθεί µία ακολουθία αριθµών. Κβαντοποίηση (Quantization): Οι τιµές των δειγµάτων της ακολουθίας αντιστοιχούνται σε διακριτές τιµές ώστε να γίνει δυνατή η χρήση τους από το ψηφιακό σύστηµα, το οποίο έχει πεπερασµένο µήκος.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.87 Με τη δειγµατοληψία του αναλογικού σήµατος x(t) στα χρονικά διαστήµατα Τ(=1/Fs), δηµιουργείται το διακριτό σήµα s(nt). Συνήθως χρησιµοποιούνται κανονικοποιηµένα διαστήµατα (Τ=1), ώστε: sn ( ) = snt ( ) = xt ( ) t= nt (3.1) Για την παρουσίαση και επεξεργασία του διακριτού σήµατος χρησιµοποιείται ο µετασχηµατισµός z. Έτσι το διακριτό σήµα οµιλίας µετασχηµατισµένο κατά z, δίνεται από τη σχέση. n Sz ( ) = snz ( ) (3.2) n= όπου z (=exp(jθ)) µιγαδική µεταβλητή. Είναι γενικώς παραδεκτό ότι οι µετατροπείς αναλογικού σήµατος σε ψηφιακό µε 12 bits ακρίβεια ψηφιοποίησης είναι οι πλέον κατάλληλοι στην επεξεργασία οµιλίας, διότι συνδυάζει καλή διακριτότητα ψηφιοποίησης (χαµηλό σφάλµα κβαντισµού) και συνάµα χαµηλό κόστος. 3.3 Ψηφιακή Προεπεξεργασία Σήµατος Οµιλίας Σκοπός του ψηφιακού τµήµατος της βαθµίδας εξαγωγής παραµέτρων εíναι να προσδιορίσει το παραµετρικό διάνυσµα του πρότυπου του φωνήµατος που αναγνωρίζεται, απορρίπτοντας ταυτόχρονα τα σήµατα οµιλίας που προέρχονται από διάφορες διαταραχές του αναλογικού τµήµατος, από έλλειψη οµιλίας, από την παρουσία υψηλής στάθµης θορύβου, από τον κορεσµό του ψηφιοποιητή ή την χαµηλή στάθµη έντασης οµιλίας. Το τµήµα αυτό αποτελείται από τον προεπεξεργαστή, τον αλγόριθµο εντοπισµού των άκρων της οµιλίας και τον αναλυτή του σήµατος, ο οποίος προσδιορίζει τις παραµέτρους του µοντέλου παραγωγής οµιλίας. 3.3.1 Βραχύχρονη Ανάλυση Σήµατος Οµιλίας Ο ρυθµός µεταβολής της κυµατοµορφής του σήµατος οµιλίας είναι κατά πολύ µεγαλύτερος του ρυθµού άρθρωσης ενός οµιλητή. Για παράδειγµα, χρειάζονται περί τα 10,000 δείγµατα για να παραστήσουν µε ικανοποιητική πιστότητα ψηφιοποιηµένο τµήµα οµιλίας διάρκειας ενός δευτερολέπτου, που δεν περιέχει περισσότερους από δέκα φθόγγους. Σ' αυτή τη θεµελιώδη διαπίστωση, ότι δηλαδή τα χαρακτηριστικά της ανθρώπινης οµιλίας µεταβάλλονται σχετικά αργά στον χρόνο, στηρίζεται η αρχή της βραχύχρονης ανάλυσης. Στη βραχύχρονη ανάλυση, µικρά τµήµατα οµιλίας αποµονώνονται και υφίστανται επεξεργασία σαν να περιέχουν ήχο µε σταθερές ιδιότητες. Αυτά τα τµήµατα οµιλίας των Ν δειγµάτων θα αναφέρονται στη συνέχεια σαν πλαίσια οµιλίας. Η διαδικασία ανάλυσης πλαισίων

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.88 επαναλαµβάνεται περιοδικά και δίνει σαν αποτέλεσµα µια νέα χρονικά εξαρτηµένη ακολουθία παραµέτρων, ισοδύναµη της αρχικής παράστασης του εξεταζόµενου σήµατος. Το µήκος των πλαισίων που επιλέγεται πρέπει να είναι τέτοιο ώστε να περιέχει φωνητικά συµβάντα µε σχετικά σταθερές ιδιότητες. Η ανάδειξη µήκους πλαισίων καθορισµένης τιµής που να ανταποκρίνεται σε όλες τις περιπτώσεις φθόγγων θεωρείται µάλλον αδύνατη. Στον κανονικό λόγο, οι άηχοι ήχοι είναι πολύ µικρότερης χρονικής διάρκειας των ηχηρών ήχων, που η διάρκειά τους ξεπερνά τα 80msec. Αντίθετα οι στιγµιαίοι ήχοι δεν ξεπερνούν σε διάρκεια τα 10msec. Θεωρείται ικανοποιητικό το µήκος πλαισίου των 10 ως 30msec, που αποτελεί συµβιβασµό µεταξύ της επιθυµίας να υπάρχει σταθερή φασµατική εκτίµηση και του περιορισµού ανάδειξης των χρονικών µεταβολών του σήµατος (κατάλληλο µήκος πλαισίου µπορεί να θεωρηθούν τα 25.6 msec, δηλαδή τα Ν=256 διακριτά δείγµατα για τη συχνότητα δειγµατοληψίας των 10kHz). Οσον αφορά την τοποθέτηση των πλαισίων σε σχέση µε την περίοδο του ύψους φωνής (pitch), αυτό εξαρτάται από το είδος της ανάλυσης που ακολουθεί την προεπεξεργασία. Για ύψους σύγχρονη ανάλυση (Pitch synchronous analysis) [46], η τοποθέτηση των πλαισίων πρέπει να είναι µέσα στην θεµελιώδη περίοδο. Για ύψους ασύγχρονη ανάλυση (Pitch asynchronous analysis) η τοποθέτηση των πλαισίων µπορεί να είναι τυχαία. 3.3.2 Προέµφαση Για την εκτίµηση της συνάρτησης µεταφοράς του φωνητικού καναλιού, θα πρέπει, εκτός της εξοµάλυνσης του φάσµατος από τη διέγερση του υπογλωττικού συστήµατος, να εξουδετερωθεί και η επίδραση των πόλων της γλωττίδας και της χαρακτηριστικής ακτινοβολίας των χειλιών. Η εξοµοίωση της επίδρασης της χαρακτηριστικής ακτινοβολίας των χειλιών µε ένα µηδενικό (2.6), µπορεί να θεωρηθεί ότι απλοποιείται (σαν µια καλή προσέγγιση) µε έναν από τους δύο πόλους της συνάρτησης µεταφοράς της γλωττίδας (2.3), δεδοµένου ότι ο εκθέτης ct είναι γενικά πολύ µικρότερος της µονάδας. Όµως µένει η επίδραση του δεύτερου πόλου της συνάρτησης της γλωττίδας, που έχει σαν αποτέλεσµα την εξασθένηση της συνάρτησης µεταφοράς του φωνητικού καναλιού µε κλίση 6dB/οκτάβα. Σκοπός της προέµφασης των πλαισίων είναι η εξουδετέρωση της επίδρασης του ανεπιθύµητου πόλου. Αυτό επιτυγχάνεται µε τη διέλευση του σήµατος από ένα φίλτρο ενός µηδενικού, της µορφής [112], Pz ( ) 1 1 = µ z (3.3) Στο χρόνο, η προέµφαση πραγµατοποιείται από τη σχέση s'( n) = sn ( ) µ sn ( 1) (3.4)

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.89 Ο συντελεστής µo αναφέρεται στην κλίση της ενίσχυσης του φάσµατος. Η τιµή του κυµαίνεται µεταξύ 0<µ o <1 και εξαρτάται από το περιεχόµενο του πλαισίου οµιλίας. Για άηχους ήχους το µ o είναι αρκετά µικρότερο της µονάδας, ενώ για ηχηρούς ήχους, πολύ κοντά στη µονάδα. Πειραµατικά ο συντελεστής µo µπορεί να εκτιµηθεί γιά κάθε πλαίσιο φωνής από το λόγο των δύο πρώτων συντελεστών αυτοσυσχέτισης του σήµατος οµιλίας [41]. R(1) µ = (2.5) R(0) όπου R(0) ο µηδενικός συντελεστής αυτοσυσχέτισης που εκφράζει την ενέργεια του πλαισίου, R(1) ο πρώτος συντελεστής αυτοσυσχέτισης. Όπως δείχνεται στο Σχήµα 2.3, η επίδραση της προέµφασης στις συχνότητες των συντονισµών (συµπαγής γραµµή), βρέθηκε πειραµατικά να δηµιουργεί σ' αυτές µικρή µετατόπιση σε σχέση µε µηδενική προέµφαση (διακοπτόµενη γραµµή). Εικόνα 3.3: Εξοµαλυµένο ηχηρό πλαίσιο φωνής (/u/), (α) µε προέµφαση (µ o =0.93), (β) χωρίς προέµφαση (µ o =0). 3.3.3 Φίλτρο Παραθύρου Τα πλαίσια οµιλίας της βραχύχρονης ανάλυσης, δηλαδή τα, s'( n), n [0, N 1] s''( n) = 0, n [0, N 1] (3.6)

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.90 µπορούν να παρασταθούν σαν το γινόµενο µεταξύ ενός πεπερασµένης διάρκειας ορθογώνιου "παραθύρου" 1, n [0, N 1] wn ( ) = 0, n [0, N 1] (3.7) και της ακολουθίας των δειγµάτων του διακριτού σήµατος οµιλίας. ηλαδή, s''( n) = s'( n) w( n) (3.8) Η παρουσία του ορθογωνίου "παραθύρου" προκαλεί παραµόρφωση στο φάσµα του σήµατος, γνωστή από την κλασική θεωρία [43], [88], δεδοµένου ότι αυτό αποτελεί συνέλιξη µεταξύ των µετασχηµατισµών Fourier του τετραγωνικού παλµού και του σήµατος της πληροφορίας. Η παραµόρφωση εµφανίζεται µε µηδενικά στον διακριτό µετασχηµατισµό Fourier του σήµατος εξόδου. Η επίδραση αυτών των µηδενικών είναι τόσο ισχυρή που συχνά ο δεύτερος και τρίτος συντονισµός εξαφανίζονται εντελώς. Για τον περιορισµό της παραµόρφωσης αυτής, µελετήθηκαν διάφορα είδη φίλτρων "παραθύρου" [43]. Το ορθογώνιο φίλτρο αντικαταστάθηκε µε µια σειρά φίλτρων, σύµφωνα µε τις απαιτήσεις της εκάστοτε εφαρµογής. Στην ανάλυση του σήµατος οµιλίας για την εξαγωγή των συχνοτήτων συντονισµού, τα φίλτρα "παραθύρου" που επικράτησαν λόγω της απλότητάς τους, της ευκρινούς παρουσίασης των συντονισµών και γενικά της αποτελεσµατικότητάς τους, είναι τα "παράθυρα" Hamming και Hanning. Αυτά ορίζονται από τη σχέση: a+ (1 a) cos(2 π n N), n [0, N 1] wn ( ) = 0, n [0, N 1] (3.9) όπου, n είναι ο αριθµός του διακεκριµένου δείγµατος του τµήµατος του σήµατος οµιλίας που αναλύεται, Ν ο συνολικός αριθµός των δειγµάτων που περιλαµβάνει το τµήµα αυτό, w(n) η συνάρτηση "παραθύρου", και α η σταθερά που καθορίζει το είδος του "παραθύρου", η οποία για τα δύο παραπάνω "παράθυρα" είναι: α = 1.00, ορθογώνιο "παράθυρο", α = 0.54 για "παράθυρο" Hamming και α = 0.50 για "παράθυρο" Hanning. Στην εικόνα 3.4 εικονίζονται τα πειραµατικά αποτελέσµατα της επίδρασης των ορθογώνιου και Hamming παραθύρων για το ίδιο ηχηρό πλαίσιο οµιλίας, µε µήκος παραθύρου Ν=16.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.91 Εικόνα 3.4. Ηχηρό πλαίσιο οµιλίας µέσω: α) ορθογωνίου (rectangular) παραθύρου, β) παραθύρου Hamming. 3.3.4 Ρυθµός Μετακίνησης Πλαισίων Ο ρυθµός µετακίνησης των πλαισίων καθορίζεται από το είδος της ανάλυσης που ακολουθεί την προεπεξεργασία. Για ανάλυση συνεχείας, όπου οµοιόµορφα αναλύεται ολόκληρο το σήµα οµιλίας, τα πλαίσια µετακινούνται µε ρυθµό σταθερού βήµατος. Για ανάλυση σηµείων, όπου αναλύονται µεµονωµένα χαρακτηριστικά σηµεία του σήµατος οµιλίας, η µετακίνηση των πλαισίων γίνεται µε ρυθµό µεταβλητού βήµατος. Στο ρυθµό σταθερού βήµατος η µετακίνηση των πλαισίων είναι προκαθορισµένη, σταθερή και παρακολουθεί τη χρονική ροή των µεταβολών του σήµατος οµιλίας. Η απόσταση µεταξύ των διαδοχικών πλαισίων πρέπει να είναι αρκετά µικρή για να µη χάνονται φωνητικά συµβάντα, όπως π.χ. οι στιγµιαίοι ήχοι, των οποίων η διάρκεια είναι µικρή, αλλά και αρκετά µεγάλη για να αποφεύγεται η ανίχνευση περιττών λεπτοµερειών που στη συνέχεια θα χρειάζεται πρόσθετη διαδικασία (εξοµάλυνση) για την αποµάκρυνσή τους. Πειραµατικά έχει εκτιµηθεί [67] σαν κατάλληλο το µήκος του σταθερού βήµατος να είναι µεταξύ 5 και 12 msec (κατάλληλο το βήµα µετακίνησης των πλαισίων εκτιµήθηκε πειραµατικά στα 6.4 msec, δηλαδή B=64 δείγµατα). Η µετακίνηση των πλαισίων σκόπιµο είναι να γίνεται µε τη διαδικασία της επικάλυψης. 3.4 Αλγόριθµος Ανίχνευσης των Άκρων Οµιλίας Ένα από τα πλέον δυσεπίλυτα προβλήµατα που παρουσιάζονται κατά την σχεδίαση συστηµάτων αναγνώρισης οµιλίας είναι ο εντοπισµός των άκρων της οµιλίας στο ψηφιοποιηµένο σήµα. Ένα µεγάλο πλήθος αστάθµητων παραγόντων όπως, η µικρή έντασης της οµιλίας, η υψηλή στάθµη θορύβου, η λειτουργία του συστήµατος αναγνώρισης οµιλίας σε περιβάλλον µε µεταβαλλόµενα

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.92 χαρακτηριστικά θορύβου (δωµάτιο γραφείου, χώρος εργοστασίου κ.ο.κ.), η ύπαρξη του θορύβου της εισπνοής και κυρίως της εκπνοής στο τέλος της προφερόµενης λέξης, είναι οι βασικότερες αιτίες που προκαλούν λανθασµένο εντοπισµό των άκρων της οµιλίας. Οι συνήθεις χρησιµοποιούµενοι αλγόριθµοι χωρίζονται σε δυο κατηγορίες [1]: o o Στους αλγόριθµους που προσδιορίζουν από το σήµα οµιλίας ένα πλήθος παραµέτρων ικανών να αναγνωρίσουν την ύπαρξη οµιλίας ή σιγής (speech/silence detection). Αυτοί παρουσιάζουν ικανοποιητική αξιοπιστία χρησιµοποιώντας δοµικά ή πιθανότητα µοντέλα αναγνώρισης αλλά είναι υπολογιστικά χρονοβόροι. Στους αλγόριθµους που χρησιµοποιούν ένα πολύ περιορισµένο αριθµό παραµέτρων (συνήθως ενέργεια ή και τις µηδενικές διελεύσεις του σήµατος) παρουσιάζοντας ταχύτερη απόκριση αλλά και µικρότερη αξιοπιστία. Μειονέκτηµα αυτών των αλγορίθµων είναι ένα µεγάλο πλήθος κατωφλίων που ορίζονται πειραµατικά και δυσχεραίνουν την χρήση του συστήµατος αναγνώρισης σε διαφορετικά περιβάλλοντα και στάθµες θορύβου.