Θέµα 2: Φασµατογράφηµα στενής και ευρείας ζώνης, ενός σήµατος οµιλίας. Προέµφαση της οµιλίας. Παράµετροι οµιλίας (Ενέργεια, Pitch, Formants, LPC.

Θέµα 2: Φασµατογράφηµα στενής και ευρείας ζώνης, ενός σήµατος οµιλίας. Προέµφαση της οµιλίας. Παράµετροι οµιλίας (Ενέργεια, Pitch, Formants, LPC.) Άσκηση 1: Φασµατογράφηµα στενής και ευρείας ζώνης, σηµάτων οµιλίας. Κάνετε διπλό κλικ στο εικονίδιο SFSWin για να εκκινήσετε την εφαρµογή. A. Πηγαίνετε στην επιλογή Item/Import/Speech(Copy) και µετά πατήστε το κουµπί <Browse> για να επιλέξετε ένα αρχείο οµιλίας. Πηγαίνετε στο φάκελο C:\LABs\Lab2, επιλέξτε English1.wav και πατήστε <Open>. Ύστερα πατήστε <OK>. Ως αποτέλεσµα θα δείτε να εµφανίζεται στο κύριο παράθυρο του SFSWin ένα νέο σήµα που ονοµάζεται Speech. Κάνετε κλικ στο εικονίδιο Display checked items ( ) για να δείτε το σήµα. Ως αποτέλεσµα, θα εµφανιστεί ένα νέο παράθυρο. Μετά πατήστε τα εικονίδια Display Waveforms ( ), Narrowband Spectrograms ( ) και Wideband Spectrograms ( ) για να δείτε το σήµα και τα φασµατογραφήµατά του στο ίδιο παράθυρο. Πώς µεταφράζετε την πληροφορία που απεικονίζεται στα φασµατογραφήµατα; Μπορείτε να δείτε καµιά διαφορά µεταξύ φασµατογραφηµάτων στενής και ευρείας ζώνης; Πότε χρειαζόµαστε φασµατογράφηµα στενής ζώνης και πότε φασµατογράφηµα ευρείας ζώνης; Προσπαθήστε να εξηγήσετε τη διαφορά στην κατανοµή της ενέργειας για ηχηρούς και άηχους ήχους. Τι είναι ενδεικτικό για ηχηρή οµιλία; B. Πηγαίνετε στο κύριο παράθυρο του SFSWin. Τώρα µπορείτε να διαγράψετε το σήµα Speech από την επιλογή Item/Delete. Πατήστε <Yes> για να επιβεβαιώσετε τη διαγραφή. Χρησιµοποιήστε την ίδια µε την άσκηση 1A ακολουθία εντολών, για να φορτώσετε ένα άλλο σήµα οµιλίας (π.χ. Chinese.wav). Επαναλάβετε όλα τα βήµατα για να δείτε τα φασµατογραφήµατα στενής και ευρείας ζώνης του σήµατος. 1

Άσκηση 2: Υπολογίστε την Ενέργεια, το Pitch και τα Formants ενός σήµατος οµιλίας. A. Χρησιµοποιήστε την ίδια µε την άσκηση 1A ακολουθία εντολών, για να φορτώσετε το σήµα οµιλίας English1.wav. Για να υπολογίστε την ενέργεια του σήµατος, πηγαίνετε στην επιλογή Tools/Speech/Analysis/Energy Envelope. Επιλέξτε όλες τις παραµέτρους όπως φαίνονται στο σχήµα κάτω αριστερά. Analysis window size = 10ms, Hamming window yes, Logarithmic scale yes. Πατήστε <OK> για επιβεβαίωση. Ένα νέο σήµα µε όνοµα Track θα εµφανιστεί στο κύριο παράθυρο του SFSWin. Επιλέξτε και τα δύο σήµατα και κάνετε κλικ στο εικονίδιο Display checked items ( ) για να τα οπτικοποιήσετε. Προσπαθήστε να υπολογίσετε την ενέργεια του σήµατος χρησιµοποιώντας µέγεθος παραθύρου ανάλυσης (analysis window size) 20ms και 100ms. Ποια είναι η διαφορά; Για να υπολογίσετε το pitch, πηγαίνετε στο κύριο παράθυρο του SFSWin. Πηγαίνετε στην επιλογή Tools/Speech/Analysis/Fundamental frequency/fundamental Frequency Track όπως φαίνεται στο σχήµα κάτω. Επιλέξτε Set for higher pitched voices και πατήστε <OK>. Ύστερα από λίγο ένα νέο σήµα µε όνοµα FX θα εµφανιστεί στο κύριο παράθυρο του SFSWin. Χρησιµοποιήστε το εικονίδιο Display all items ( ) για να οπτικοποιήσετε όλα τα σήµατα. Από το παράθυρο της τρέχουσας εικόνας χρησιµοποιήστε την εντολή View/Grids για να ενεργοποιήσετε το πλέγµα (grid). 2

B. Για να υπολογίσετε τα formants του σήµατος οµιλίας πρέπει να πάτε ξανά στο κύριο παράθυρο του SFSWin. Πηγαίνετε στην επιλογή Tools/Speech/Analysis/Formants και βάλτε τις παραµέτρους όπως φαίνονται στην εικόνα κάτω αριστερά: Window size = 30ms, Step size = 10ms, Number of coefficients = 25. Μετά πατήστε <OK>. Ένα νέο σήµα µε όνοµα Formant θα εµφανιστεί στο κύριο παράθυρο. Ύστερα χρησιµοποιήστε την επιλογή Tools/Formants/Generate synthesizer control data για να εξοµαλύνετε τα formants. Θα εµφανιστεί ένα σήµα µε όνοµα Synth. Επιλέξτε τα σήµατα Speech, Formant και Synth και κάνετε κλικ στο εικονίδιο Display checked items ( ). Τα formants απεικονίζονται µε αριθµούς που δείχνουν τη σειρά τους. Επιλέξτε Narrowband Spectrograms ( ) για το σήµα οµιλίας και προσπαθήστε να προσδιορίστε αν τα formants που βλέπετε έχουν υπολογιστεί σωστά. Άσκηση 3: Προέµφαση των σηµάτων οµιλίας. Φορτώστε το αρχείο οµιλίας English1.wav όπως στην άσκηση 1A. Για να κάνετε προέµφαση του σήµατος οµιλίας επιλέξτε Tools/Speech/Process/Preparation, όπως φαίνεται στην εικόνα κάτω αριστερά. 3

Ύστερα τσεκάρετε µόνο την επιλογή Pre-emphasis waveform και πατήστε <OK>. Ένα νέο σήµα µε όνοµα Speech θα εµφανιστεί, αλλά θα έχει διαφορετικό δείκτη. Επιλέξτε και τα δύο σήµατα οµιλίας και οπτικοποιήστε τα. Ποιο είναι το αποτέλεσµα της προέµφασης; Επιλέξτε το εικονίδιο Narrowband Spectrograms για να δείτε τις αλλαγές στα φασµατογραφήµατα. Για να κάνετε φασµατική ανάλυση αυτών των δύο σηµάτων Speech πηγαίνετε πάλι στο κύριο παράθυρο του SFSWin. Επιλέξτε το σήµα Speech 1.01 και µετά πηγαίνετε στην επιλογή Tools/Speech/Analysis/Spectral Analysis. Βάλτε τις παραµέτρους όπως φαίνονται στην παρακάτω εικόνα. Window size = 20ms, Step size = 10ms, Do not preemphasise yes. Πατήστε <OK>. Ως αποτέλεσµα θα εµφανιστεί µια καινούργια παραλλαγή µε όνοµα Coeff. Με τον ίδιο τρόπο κάνετε φασµατική ανάλυση για το σήµα Speech 1.02. Επιλέξτε και τις δύο παραλλαγές Coeff και οπτικοποιήστε τις στην ίδια εικόνα χρησιµοποιώντας το εικονίδιο Display selected items ( είναι χρήσιµη και πότε όχι; ). Ποια είναι η διαφορά; Πώς λειτουργεί η προέµφαση; Πότε Άσκηση 4: Κατανοµή των Formants για τα φωνήεντα της ελληνικής γλώσσας. Χρησιµοποιήστε την ίδια µε την άσκηση 1A ακολουθία εντολών για να φορτώσετε το αρχείο GreekVowels.wav. Τα φωνήεντα προφέρονται µε την ακόλουθη σειρά: A, E, I, U, και O. Χρησιµοποιήστε την ακολουθία εντολών της άσκησης 2B για να υπολογίσετε και να οπτικοποιήσετε τα formants και συµπληρώστε τον πίνακα µε όνοµα Κατανοµή των Formants για τα φωνέντα στα ελληνικά. (Βοήθεια: Είναι πιο εύκολο να προσδιορίσετε τις ακριβείς τιµές των formants αν ενεργοποιήσετε το πλέγµα στην οθόνης χρησιµοποιήστε την εντολή View/Grids). 2500 2250 Distribution of formants F1 vs F2 for the Greek vowels Πίνακας 1. Κατανοµή των Formants για τα φωνέντα στα ελληνικά F2 [Hz] 2000 1750 1500 1250 "I" "O" "A" F1 F2 A E I U O 1000 750 500 250 "U" 0 0 100 200 300 400 500 600 700 800 900 1000 F1 [Hz] κατανοµή των formants για τα φωνήεντα στην ελληνική γλώσσα. "E" Χρησιµοποιήστε τα δεδοµένα από τις γραµµές F1 εναντίον F2 για να φτιάξετε ένα γράφο για την Χρησιµοποιήστε το παραπάνω σχήµα ως µοντέλο. Παρακαλώ, προσέξτε ότι οι θέσεις των φωνηέντων που φαίνονται στο σχήµα είναι τυχαίες και δεν είναι σωστές! Χρησιµοποιήστε τα δεδοµένα του πίνακα για να βάλετε τα φωνήεντα στις σωστές θέσεις. Χρησιµοποιώντας το σχήµα για την κατανοµή των φωνηέντων που φτιάξατε, οµαδοποιήστε τα φωνήεντα µε παρόµοια χαρακτηριστικά. F3 F4 4

Άσκηση 5: Συγκρίνετε την προφορά των φωνηέντων στα ελληνικά µεταξύ αντρών και γυναικών. Φορτώστε τα αρχεία GreekVovels.wav και GreekVowelsFem.wav. Υπολογίστε το pitch και για τα δύο σήµατα. Ενεργοποιήστε το πλέγµα στην οθόνη. Συγκρίνετε τις µέσες τιµές του pitch για την γυναικεία και αντρική φωνή. Φτιάξτε έναν πίνακα µε την κατανοµή των formants για τη γυναικεία φωνή και συγκρίνετέ τον µε τιον αντίστοιχο πίνακα για την αντρική φωνή. Τι είναι ενδεικτικό για γυναικείες φωνές; Άσκηση 6: Αλλαγές του Pitch. Πηγαίνετε στο Desktop των Windows και εκκινήστε το CoolEdit2000. Χρησιµοποιήστε την εντολή File/Open για να φορτώσετε το σήµα οµιλίας C:\Labs\Lab2\English1.wav. Κάνετε κλικ στο εικονίδιο Play ( ), για να ακούσετε το σήµα. Τώρα µπορείτε να µειώσετε το αρχικό pitch χρησιµοποιώντας την εντολή Transform/Time_Pitch/Stretch. Βάλτε όλες τις παραµέτρους όπως φαίνονται στην εικόνα (Ratio 150%.). Πατήστε <OK> για να µετατρέψετε το σήµα και µετά κάνετε κλικ στο εικονίδιο Play ( ), για να ακούσετε τη διαφορά. Πώς ακούγεται αυτή η οµιλία; Κάνετε κλικ στο εικονίδιο Undo last action ( ) για να επαναφέρετε το αρχικό σήµα. Επαναλάβετε όλη την παραπάνω διαδικασία για λόγο (ratio) 200%. Για να αυξήσετε το pitch, πηγαίνετε στην επιλογή Transform/Time_Pitch/Stretch. Βάλτε τις παραµέτρους όπως φαίνονται στην παρακάτω εικόνα: Πατήστε <OK> για να ξεκινήσετε το µετασχηµατισµό. Ύστερα πατήστε το εικονίδιο Play ( ) για να ακούσετε τη διαφορά. Πώς ακούγεται αυτή η οµιλία; Κάνετε κλικ στο εικονίδιο Undo last action ( ) για να επαναφέρετε το αρχικό σήµα. Επαναλάβετε όλη την παραπάνω διαδικασία για λόγο (ratio) 50%. Ποια είναι η γνώµη σας για το pitch; Αντιπροσωπεύει την πληροφορία για το τι ειπώθηκε ή ποιος το είπε; 5

Άσκηση 7: Μελέτη της επίδρασης του αριθµού των LPC παραµέτρων στην ακρίβεια του φάσµατος. Πηγαίνετε στο Desktop των Windows και κάνετε διπλό κλικ στο εικονίδιο Lab2 για να µπείτε στο MS- DOS prompt. Τώρα µπορείτε να εκκινήσετε την εφαρµογή LPCspec, που θα σας βοηθήσει να κατανοήσετε πώς ο αριθµός των LPC παραµέτρων επηρεάζει την ακρίβεια της φασµατικής αναπαράστασης. Το LPCspec έχει το παρακάτω format: LPCspec <Speech file> <NumberLPC> <Figure>, όπου <Speech file> είναι το αρχείο WAV που θέλετε να επεξεργαστείτε, <NumberLPC> είναι ο αριθµός των LPC παραµέτρων που χρησιµοποιούνται για την αναπαράσταση του φάσµατος, και <Figure> είναι η εικόνα όπου θα παρουσιαστούν τα αποτελέσµατα. Συνιστάται οι παράµετροι εισόδου γι αυτό το πρόγραµµα να βρίσκονται στα παρακάτω όρια: <Speech file> = {GreekA, GreekO, GreekU, GreekE, GreekI}, (γι αυτά τα αρχεία Fs=11025Hz) <NumberLPC> = {1,2 50}, <Figure> = {1,2 10}. Κάνετε φασµατική ανάλυση για κάποια από τα παραπάνω σήµατα χρησιµοποιώντας διαφορετικό αριθµό LPC παραµέτρων. (Βοήθεια: Μπορείτε να ανοίξετε διάφορα MS-DOS prompts και να εκκινήσετε διάφορα αντίγραφα του LPCspec µε διαφορετικό <NumberLPC>.) Για παράδειγµα: C:\Labs\Lab2>LPCspec GreekA 15 1 θα δηµιουργήσει την παρακάτω εικόνα: Προσπαθήστε να βρείτε πειραµατικά πόσες LPC παράµετροι είναι αρκετές ώστε να διατηρήσουν µια καλή αναπαράσταση του φάσµατος του σήµατος. Θυµάστε κάποιο συγκεκριµένο κανόνα για τον αριθµό των LPC παραµέτρων; Τι θα συµβεί στην περίπτωση που χρησιµοποιούνται όχι αρκετές ή πάρα πολλές LPC παράµετροι; Γράψτε µια αναφορά όπου θα περιγράψετε τα αποτελέσµατα και τα συµπεράσµατα που βγάλατε κατά τη διάρκεια της επίλυσης των ασκήσεων του Θέµατος 2. 6