Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής Ηλίας Παπαθανασίου Αν Καθηγητής Τμήμα Λογοθεραπείας, ΤΕΙ Πάτρας Επιστημ. Συνεργάτης Α Πανεπιστημιακής ΩΡΛ Κλινικής Ιατρική Σχολή, ΕΚΠΑ 1 3/23/15
Ακουστική ανάλυση φωνής Μικρόφωνο ηχογράφηση Απλοί και σύνθετοι ήχοι Κυματομορφή και φάσμα ομιλίας Θεωρία πηγής- φίλτρου Θεμελιώδης συχνότητα, καμπύλη ύψους Αποκλίσεις από την περιοδικότητα Χαρακτηριστικά πηγής 2 3/23/15
Μικρόφωνο - ηχογράφηση 3 3/23/15
Πρωτόκολλο εργαστηριακής αξιολόγησης φωνής στην κλινική 4 3/23/15
Παράμετροι 5 Φώνηση Διάρκεια, ύψος, έυρος, αναλογία εκπνοής- φώνησης Μέση βασική συχνότητα και εναλλαγές της Αρμονικότητα και αποκλίσεις από την περιοδικότητα, Φασματική ανάλυση φωνής Άρθρωση και συνέργεια αρθρωτών Μορφικές φωνηέντων Χρόνος έναρξης φώνησης στιγμιαίων συμφώνων Ροή ομιλίας Ρυθμός κατά την αυθόρμητη ομιλία και κατά την ανάγνωση 3/23/15
Δραστηριότητες Ανάγνωση κειμένου Ανάγνωση λίστας λέξεων Περιγραφή εικόνας Παραγωγή δαιρκούς /a/, /s/, /z/ 6 3/23/15
Υλικό κείμενα 2 μακράς διαρκείας (163 w) & 2 βραχείας διαρκείαςt (122 w) κείμενα Φωνητικά ισορροπημένα στην ελληνική γλώσσα Τα ζεύγη είναι ισοδύναμα: αριθμό λέξεων, μέσο μήκος λέξεων, αριθμό συλλαβών, μέσο μήκος συλλαβών, συμπλέγματα, συνολικό αριθμό φωνημάτων, συλλαβική δομή Λίστες λέξεων 5 φωνήεντα 6 σύμφωνα στιγμιαία= 30 CVCV λέξεις 5 φωνήεντα 2 τόνοι 2 θέσεις = 10 CVCV λέξεις 7 3/23/15
Ανάλυση Ηχογράφηση σε PC Speech Analyser Ανάλυση με κάποιο πρόγραμμα όπως το praat 8 3/23/15
μετρήσεις a/s/z: Διαπεριοδική μεταβλητότητα βασικής συχνότητας (jitter), Διαπεριοδική μεταβλητότητα πλάτους (shimmer), Σχέση χρόνου αναπνοής- φώνησης, βασκική συχνότητα (ύψος) σταθερού φωνήεντος Κείμενο & εικόνα: Βασική συχνότητα κατά την αυθόρμητη ομιλία και κατά την ανάγνωση, αριθμό συλλαβών ανά λεπτό λέξεις: p-t-c/k-b-d-j/g χρόνος έναρξης φώνησης (σύγκριση του τόπου άρθρωσης και της ηχηρότητας) Λέξεις: a-ε-i-o-u ύψος, διάρκεια, ένταση, μορφικές F1, F2, F3 (σύγκριση τονισμού και θέσης) 9 3/23/15
Καταγραφή και Ανάλυση της Φωνής με το Πρόγραμμα PRAAT Εισαγωγή στο πρόγραμμα Praat Ανάλυση χαρακτηριστικών φωνής / ομιλίας κατά την ανάγνωση κειμένων
Έναρξη προγράμματος και εισαγωγή ενός αρχείου ήχου Βήμα 1 ο Ανοίγοντας το πρόγραμμα PRAAT αναδύονται δύο καινούρια παράθυρα: Praat objects και Praat picture
Βήμα 2ο Για να εισάγω ένα αρχείο ήχου στο παράθυρο Praat objects επιλέγω: Read à Read from file à επιλέγω το αρχείο ήχου από τον φάκελο που θέλω à Άνοιγμα Βήμα 3 ο Για να εμφανιστεί το ηχητικό αρχείο σε κυματομορφή επιλέγω το αρχείο από το παράθυρο Praat objects κάνοντας πάνω του «κλικ» και στη συνέχεια επιλέγω Edit στη δεξιά πλευρά του παραθύρου.
in: zoom in out: zoom out sel : zoom στο κομμάτι που έχω επιλέξει all : η συνολική εικόνα της κυματομορφής Pitch à Show Pitch (γαλάζια γραμμή) Intensity à Show Intensity (κίτρινη γραμμή) Formant à Show Formants (κόκκινες κουκίδες) Pulsesà Show Pulses (μπλε κάθετες γραμμές) Κάνοντας κλικ σε ένα τυχαίο σημείο πάνω στην κυματομορφή παίρνουμε κάποιες τιμές για το συγκεκριμένο σημείο: Με μπλε χρώμα δεξιά φαίνεται η βασική συχνότητα του σημείου που επιλέξαμε (π.χ. 104.78 Hz) Με πράσινο χρώμα δεξιά φαίνεται η ένταση του σημείου που επιλέξαμε (π.χ. 68.64 db) Με κόκκινο χρώμα στο πάνω μέρος της κυματομορφής φαίνεται ένας δεκαδικός αριθμός που δείχνει το χρονικό σημείο της ηχογράφησης σε δευτερόλεπτα. Επιλέγω ένα κομμάτι της κυματομορφής με δύο τρόπους: 1, Κάνοντας «κλικ» στο σημείο της κυματομορφής που θέλω να ξεκινήσω και shift Κλικ στο σημείο που θέλω να τελειώνει η επιλογή μου 2, Κάνοντας double κλικ στο σημείο της κυματομορφής που θέλω να ξεκινήσω και τραβάω / σύρω το ποντίκι μέχρι το σημείο που θέλω να τελειώνει η επιλογή μου Για να ακούσετε ένα μέρος ή όλη την κυματομορφή, αφού την επιλέξετε κάνετε «κλικ» στην μπάρα του χρόνου. Για να σταματήσει η ακρόαση πατήστε «Esc»
κειμένων Παράμετροι Φωνής: Μέση βασική συχνότητα φωνής Παράμετροι Ομιλίας: Αριθμός συλλαβών / λεπτό
Αρχικό βήμα Ακούτε όλη την ηχογράφηση του κειμένου έχοντας μπροστά σας το κείμενο σε γραπτή μορφή (εκτυπωμένη/ σε ηλεκτρονική μορφή). Εάν η ανάγνωση του κειμένου από το άτομο δεν έχει καμία διαφορά ως προς το πρωτότυπο κείμενο δεν κάνουμε καμία τροποποίηση. Εάν ακούσουμε διαφορές στην ανάγνωση του κειμένου σε σχέση με το πρωτότυπο κείμενο (π.χ. επαναλήψεις λέξεων, σχόλια, παραποιημένες λέξεις), τότε κάνουμε τις εξής τροποποιήσεις:
Εάν το άτομο πει κάτι που δεν συμπεριλαμβάνεται στις λέξεις του κειμένου (π.χ. κάνει ένα σχόλιο) ή εάν επαναλάβει μία λέξη του κειμένου για λόγους προσωδίας (π.χ. διαβάσει μία λέξη διστακτικά και την επαναλάβει για να την πει πιο «ωραία»), τότε σε αυτές τις δύο περιπτώσεις αφαιρούμε και από την κυματομορφή και από τον συνολικό χρόνο του κειμένου τα σχόλια ή την επαναλαμβανόμενη λέξη με τον εξής τρόπο: - κάνουμε αρκετό zoom in στη σημείο του κειμένου που βρίσκεται το λάθος - επιλέγουμε (όπως προαναφέραμε) το κομμάτι της κυματομορφής που ακούγεται το λάθος - στην γραμμή εργαλειών επιλέγουμε : Edit à Cut
Εάν το άτομο διαβάσει μία λέξη κάνοντας αρθρωτικό λάθος ή «μπερδέψει» τα λόγια του και μετά την διαβάσει σωστά, τότε σε αυτές τις δύο περιπτώσεις αφαιρούμε το λάθος μόνο από την κυματομορφή αλλά όχι από τον συνολικό χρόνο του κειμένου με τον εξής τρόπο: - κάνουμε αρκετό zoom in στο σημείο του κειμένου που βρίσκεται το λάθος - επιλέγουμε το κομμάτι της κυματομορφής που ακούγεται το λάθος (όπως προαναφέραμε) -στην γραμμή εργαλειών επιλέγουμε: Edit à Set selection to zero
Αφού κάνετε τις τροποποιήσεις θα αποθηκεύσετε το τελικό κείμενο με τις αλλαγές με τον εξής τρόπο: - κάνουμε zoom out για να βλέπουμε όλο την ανάγνωση - επιλέγουμε το κομμάτι της κυματομορφής που θέλουμε (π.χ. όλη την ανάγνωση) -στην γραμμή εργαλειών επιλέγουμε: File à Write sound selection to WAV file à Ονομάζετε το νέο αρχείοà Αποθήκευση
Επιλέγω το ηχητικό κομμάτι από την κυματομορφή.
Επιλέγω Edità Cut. Αφαιρείται το κομμάτι από την κυματομορφή αλλά και από τον συνολικό χρόνο του κειμένου.
Επιλέγω Edità Set selection to zero. Αφαιρείται το κομμάτι από την κυματομορφή αλλά όχι από τον συνολικό χρόνο του κειμένου.
Παράμετροι Φωνής: Μέση βασική συχνότητα φωνής 1ο βήμα Για να βρούμε τη βασική συχνότητα της φωνής κατά την ανάγνωση θα πρέπει να επιλέξουμε όλη την ανάγνωση, από την αρχή έως το τέλος. Η συγκεκριμένη επιλογή θα μας χρειαστεί και για την επόμενη μέτρηση, τον αριθμό συλλαβών / λεπτό. Πώς γίνεται η επιλογή όλης της ανάγνωσης; Κάνοντας zoom in επιλέγουμε ως αρχή την έναρξη της φώνησης και σας το τέλος το τελείωμα της φώνησης.
Συνολική εικόνα ανάγνωσης πριν την επιλογή.
Επιλογή αρχής φώνησης στην αρχή την ανάγνωσης με κλικ.
Επιλογή τέλους φώνησης στο τέλος της ανάγνωσης με shift κλικ.
Συνολική εικόνα επιλεγμένης ανάγνωσης.
2ο βήμα - Επιλέγω all ώστε να φαίνεται στην οθόνη όλη η επιλεγμένη ανάγνωση. - Στην γραμμή εργαλειών επιλέγω Pitch à Show pitch - Στην γραμμή εργαλειών επιλέγω Pitch à Get pitch
Παράμετροι Ομιλίας: Αριθμός συλλαβών / λεπτό 1ο βήμα Ο συνολικός χρόνος της ανάγνωσης όπως φαίνεται από το παράθυρο είναι 76.783705 δευτερόλεπτα, τα οποία πρέπει να μετατραπούν σε λεπτά (1.28 λεπτά). Στη συνέχεια διαιρούμε τον συνολικό αριθμό συλλαβών του κειμένου με τα λεπτά για να πάρουμε τον αριθμό συλλαβών ανά λεπτό.
Καταγραφή και Ανάλυση της Φωνής με το Πρόγραμμα PRAAT Ανάλυση χαρακτηριστικών φωνής κατά τη διάρκεια παραγωγής των φωνημάτων /a/, /s/, /z/
Παράμετροι Φωνής: Μέγιστος χρόνος φώνησης Βασική συχνότητα Jitter Shimmer
Εισάγεται το αρχείο ήχου στο πρόγραμμα Praat και επιλέγετε Edit. Θα εμφανιστούν τρεις διαφορετικές κυματομορφές στη σειρά, μία για κάθε επανάληψη του φωνήματος. Αντίστοιχα στο φασματόγραμμα θα δείτε τις μορφικές από τις τρεις παραγωγές του ήχου. Η ανάλυση που θα ακολουθήσει θα πρέπει να γίνει για την κάθε παραγωγή ξεχωριστά.
1.ΜΕΓΙΣΤΟΣ ΧΡΟΝΟΣ ΦΩΝΗΣΗΣ /a/, /s/, /z/ (μέσος όρος από 3 προσπάθειες) Αφού επιλέξουμε την κυματομορφή της πρώτης παραγωγής και πατήσουμε sel, ακούμε τον ήχο για να σιγουρευτούμε ότι είναι ο σωστός κάνοντας κλικ πάνω στην μπάρα του χρόνου. Ύστερα κάνουμε zoom τόσο, ώστε να είναι διακριτά τα σημεία της έναρξης φώνησης και της λήξης της. Ο αριθμός που αναγράφεται στην μπάρα του χρόνου με κόκκινους χρώμα είναι ο Μέγιστος Χρόνος Φώνησης.
2.ΒΑΣΙΚΗ ΣΥΧΝΟΤΗΤΑ /a/, /s/, /z/ (μέσος όρος από 3 προσπάθειες) 3.JITTER 4.SHIMMER Επιλέγεται πάλι όλη την κυματομορφή, αλλά αυτή τη φορά το κάνετε βάσει της γραμμής του ύψους (μπλε γραμμή) στο φασματόγραμμα. Πάλι χρησιμοποιείται αρκετό zoom για να βρείτε ακριβώς την αρχή της γραμμής του ύψους και το τέλος.
Ύστερα επιλέγετε «sel» για να φαίνεται η επιλογή σας σε όλη την οθόνη.
Επιλέγετε Pulses à Show pulses και τέλος επιλέγετε Pulses à Voice report. Από το παράθυρο «Praat: Info» που θα ανοίξει παίρνετε / χρησιμοποιείτε τις εξής μεταβλητές: Mean pitch (Βασική συχνότητα) Jitter (local): % Shimmer (local): %
Συνολική εικόνα ανάγνωσης πριν την επιλογή.
Φώνημα /a/
Φώνημα /S/
Φώνημα /z/
Καταγραφή και Ανάλυση της Φωνής με το Πρόγραμμα PRAAT Χρόνος έναρξης φώνησης στα ελληνικά (φωνούμενων και άφωνων συμφώνων)
Παράμετροι Φωνής: Χρόνος έναρξης φώνησης στα ελληνικά (φωνούμενων και άφωνων συμφώνων)
ΧρΟΝΟΣ ΕΝΑΡΞΗΣ ΦΩΝΗΣΗΣ Κλειστά ή Έκκροτα σύµφωνα: p, b, t, d, k, g, c, ɟ Διακοπή της ροής του αέρα σε κάποιο σηµείο της φωνητικής οδού Η εκτόνωση / «έκρηξη» αυτή ονοµάζεται «άφεση» του συµφώνου
Όταν ένα σύμφωνο είναι άφωνο, τότε οι φωνητικές χορδές αρχίζουν να δονούνται αργότερα, μετά την «άφεση» / έκρηξη. Ακολουθούν παραδείγματα της λεγόμενης «έκρηξης» των άφωνων συμφώνων. Παρατηρείστε ότι η δόνηση των φωνητικών χορδών ξεκινάει αργότερα.
Χρόνος έναρξης φώνησης του /k/ στη συλλαβή /ka/.
Χρόνος έναρξης φώνησης του /t/ στη συλλαβή /ta/.
Χρόνος έναρξης φώνησης του /p/ στη συλλαβή /pa/.
Χρόνος έναρξης φώνησης του /c/ στη συλλαβή /ce/.
Όταν ένα σύμφωνο είναι φωνούμενο, τότε οι φωνητικές χορδές αρχίζουν να δονούνται νωρίτερα, δηλαδή πριν από την «άφεση» / έκρηξη à ΠΡΟΦΩΝΗΣΗ Ακολουθούν παραδείγματα:
Χρόνος έναρξης φώνησης του /g/ στη συλλαβή /ka/.
Χρόνος έναρξης φώνησης του /d/ στη συλλαβή /da/.
Χρόνος έναρξης φώνησης του /b/ στη συλλαβή /ba/.
Χρόνος έναρξης φώνησης του /ɟ/ στη συλλαβή /ɟi/.
Άρα Ο χρόνος μεταξύ άφεσης και φώνησης ονομάζεται χρόνος έναρξης φώνησης (ΧΕΦ)
ΓΙΑ ΝΑ ΒΡΟΥΜΕ ΤΟΝ ΧΡΟΝΟ ΕΝΑΡΞΗΣ ΦΩΝΗΣΗΣ Εντοπίζουμε στην κυματομορφή (ακούγοντας το αρχείο) το φώνημα που θέλουμε και μεγεθύνουμε τόσο, ώστε να φαίνεται ξεκάθαρα το σημείο της «άφεσης» και η περιοδικότητα της φώνησης. Υπολογίζουμε το ΧΕΦ επιλέγοντας την αρχή της «άφεσης» μέχρι την αρχή της φώνησης.
Εάν υπάρχει προφώνηση, υπολογίζουμε το ΧΕΦ επιλέγοντας την έναρξη της πειοδικότητας στα αριστερά της άφεσης. Η χρονική απόσταση μεταξύ των δύο σημαδιών είναι ο ΧΕΦ.
ΧΕΦ = η χρονική απόσταση μεταξύ των δύο σημαδιών
Καταγραφή και Ανάλυση της Φωνής με το Πρόγραμμα PRAAT Ακουστικά χαρακτηριστικά ελληνικών φωνηέντων
Παράμετροι Φωνής: Ακουστικά χαρακτηριστικά ελληνικών φωνηέντων
Ακουστικά χαρακτηριστικά ελληνικών φωνηέντων Διάρκεια φωνήεντος Ύψος (Pitch) Ένταση (Intensity) Μορφικές (Formants)
Διάρκεια φωνήεντος Για να μετρήσουμε τη διάρκεια κάποιου φθόγγου : Μεγεθύνουμε αρκετά το σημείο της κυματομορφής που μας ενδιαφέρει, ώστε να διακρίνονται με λεπτομέρεια οι διαφορές μεταξύ των φθόγγων και να είναι εμφανή τα σύνορα μεταξύ τους. Τοποθετούμε τα σημάδια στα όρια του τμήματος, δηλαδή στην αρχή και στο τέλος του φθόγγου. Ακούμε το τμήμα που επιλέξαμε για να βεβαιωθούμε ότι είναι αυτό που μας ενδιαφέρει. Αν χρειάζεται, αλλάζουμε τα σημάδια μας ή ελέγχουμε ακουστικά διπλανά τμήματα ώστε να τα αποκλείσουμε από την περιοχή που μας ενδιαφέρει.
Αφού έχουμε επιλέξει με ακρίβεια την αρχή και το τέλος του φθόγγου που μας ενδιαφέρει και το έχουμε ελέγξει ακουστικά, διαβάζουμε την ένδειξη διάρκειας πάνω από την κυματομορφή, στη μπάρα του χρόνου
/kato/
Η αρχική συλλαβή /ka/ από τη λέξη /kato/.
Χρονική διάρκεια του ήχου /a/ από την αρχική συλλαβή /ka/.
Ύψος (Pitch) - Ένταση (Intensity) - Μορφικές (Formants) Για να βρούμε τις παραπάνω μεταβλητές θα πρέπει να φαίνεται στο φασματόγραμμα η γραμμή του ύψους, της έντασης και οι μορφικές. Οπότε επιλέγουμε: Pitch à Show pitch Intensity à Show intensity Formant à Show formants
Στη συνέχεια θα πρέπει να ρυθμίσουμε τις μορφικές σύμφωνα με το φύλο του ατόμου. Επιλέγουμε Formant à Formant settings Maximum formant (Hz): 5.500 (γυναίκες) Maximum formant (Hz): 5.000 (άνδρες) Number of formants: 5.0
Επιλέγουμε ένα και μοναδικό σημείο μέσα στα χρονικά όρια του ήχου το οποίο είναι ταυτόχρονα: Το πιο σταθερό σε σχέση με τις μορφικές, δηλαδή να είναι όσο πιο παράλληλες γίνεται. Και το πιο δυνατό σημείο ή το πλησιέστερο στο πιο δυνατό σημείο ως προς την γραμμή της έντασης.
Στη συνέχεια παίρνουμε τις μεταβλητές που θέλουμε επιλέγοντας: Pitch à Get pitch Intensityà Get intensity Formant à Formant listing
Formant à Formant listing