Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.41 Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας 2.1 Εισαγωγή Ο ανθρώπινος λόγος αποτελείται από µια ακολουθία ήχων η ταξινόµηση των οποίων ελέγχεται από γλωσσικούς κανόνες. Η µελέτη αυτών των κανόνων είναι πέραν του αντικειµένου αυτής της εργασίας, καθόσον αποτελεί αντικείµενο του γλωσσικού τοµέα. Η γνώση όµως της δοµής των ήχων, δηλαδή το πώς κάποιες πληροφορίες βρίσκονται κωδικοποιηµένες στο σήµα οµιλίας, αποτελεί προϋπόθεση για τη σωστή επεξεργασία του σήµατος κατά τη διαδικασία ανάδειξης παραµέτρων αναγνώρισης οµιλητή. Η γνώση αυτή, προέρχεται από τη µελέτη του µηχανισµού παραγωγής οµιλίας και της µαθηµατικής µοντελοποίησής του. Οποιαδήποτε ανάλυση των σηµάτων φωνής έχει σαν απαραίτητη προϋπόθεση την καλή κατανόηση του µηχανισµού παραγωγής των σηµάτων αυτών. Η παραγωγή και αντίληψη οµιλίας, είναι πολύπλοκη και χρησιµοποιούνται γι' αυτό το σκοπό πολλά όργανα, όπως λάρυγγας, ρουθούνια, αυτιά και τους µυς που ελέγχουν αυτά καθώς και τον εγκέφαλο. Ξέρουµε αρκετά για την ανατοµία και φυσιολογία της παραγωγής και κατανόησης οµιλίας, αλλά πολύ λίγα ξέρουµε για την αλληλεπίδραση του εγκεφάλου µε το φωνητικό και ακουστικό µας σύστηµα. Όσο πιο βαθιά κατανοήσουµε αυτά τα θέµατα, τόσο πιο γρήγορα θα µπορέσουµε κάποτε να φτιάξουµε µια συσκευή, η οποία θα µπορεί να λειτουργεί σαν τον άνθρωπο ως προς την κατανόηση και αναγνώριση οµιλίας και οµιλητή. Ο ανθρώπινος µηχανισµός παραγωγής οµιλίας αποτελείται από διάφορα µέρη, µερικά από τα οποία ανήκουν στο αναπνευστικό και άλλα στο πεπτικό σύστηµα (Εικόνα 2.1). Το ανώτερο τµήµα του πεπτικού συστήµατος, δηλαδή το στόµα και ο φάρυγγας, παίζει σηµαντικό ρόλο στο σχηµατισµό των φωνηέντων και των συµφώνων, καθώς και στη συγκεκριµένη φωνητική ποιότητα που αυτά αποκτούν. Το σχήµα και το µέγεθος αυτών των κοιλοτήτων µπορεί να αλλάζει µε τη βοήθεια των µυών της γλώσσας, της µαλακής υπερώας και του φάρυγγα.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.42 Κατά το µηχανισµό παραγωγής ήχου οµιλίας, όλο το αναπνευστικό σύστηµα ενεργοποιείται. Η θωρακική κοιλότητα µπορεί να διασταλεί και να συσταλεί µε τη βοήθεια των αναπνευστικών µυών, παράγοντας έτσι ένα ρεύµα συµπιεσµένου αέρα από τους πνεύµονες προς το λάρυγγα, συνθήκη απαραίτητη για την παραγωγή ήχου στο λάρυγγα. Ο λάρυγγας, πλούσια εφοδιασµένος µε µύες των οποίων ο πρωταρχικός προορισµός είναι η προστασία των διόδων αέρα και η παρεµπόδιση ξένων σωµάτων να πέσουν µέσα σε αυτές, αποτελεί το πραγµατικό όργανο παραγωγής ήχου. Η λειτουργία της παραγωγής οµιλίας βασίζεται στις καλά συγχρονισµένες κινήσεις των δύο αυτών συστηµάτων, δηλαδή του ανώτερου τµήµατος της πεπτικής οδού και του αναπνευστικού συστήµατος. Στην πραγµατικότητα, η παραγωγή οµιλίας είναι µία συµπληρωµατική δραστηριότητα στην αναπνοή, γεγονός που σηµαίνει ότι ιδιαίτερα αυτές οι δύο λειτουργίες αλληλεπιδρούν έντονα µεταξύ τους. 2.2 Ανατοµία των Οργάνων Παραγωγής Οµιλίας[10], [31] Οι ήχοι οµιλίας παράγονται µε δύο τρόπους. Απ τη µια, οι φωνητικές χορδές που βρίσκονται στον λάρυγγα, δονούνται σε µία σταθερή συχνότητα από τον αέρα που βγαίνει από τα πνευµόνια. Απ την άλλη, ήχοι παράγονται από το στροβίλισµα του αέρα σε ένα από τα διάφορα µέρη κατά µήκος της φωνητικής οδού. Στη συνέχεια περιγράφουµε τη λειτουργία και τη συνεισφορά κάθε τµήµατος του ανθρώπινου οργανισµού κατά την παραγωγή οµιλίας µε αναφορά την Εικόνα 2.1.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.43 Εικόνα 2.1: Τα όργανα του ανθρώπινου µηχανισµού παραγωγής οµιλίας. 2.2.1 Θώρακας και Πνεύµονες Από τη θωρακική κοιλότητα ξεκινάει το ρεύµα αέρα, το πρώτο βήµα στην παραγωγή οµιλίας. Κατά τη διάρκεια της φώνησης, οι έσω µεσοπλεύριοι µύες ενεργοποιούνται, έτσι, ώστε να διατηρηθεί η απαραίτητη υπογλωττιδική πίεση του αέρα. Η ελαστική δύναµη των πνευµόνων και το διεσταλµένο τοίχωµα του θώρακα είναι σπουδαιότατης σηµασίας για τη φυσιολογική αθόρυβη εκπνοή, καθώς και για την παραγωγή φυσιολογικής οµιλίας. Κατά την παραγωγή οµιλίας είναι σηµαντικό να διατηρείται µία συγκεκριµένη υπογλωττιδική πίεση σε όλη τη διάρκεια της φώνησης. Αλλαγή της πίεσης αυτής έχει σαν αποτέλεσµα την αλλαγή της έντασης και της ποιότητας του ήχου και σε µερικές περιπτώσεις και του ύψους του (pitch). Οι Draper, Ladefoged και Whitteridge (1959), απέδειξαν ότι κατά τη πρώτη φάση της φώνησης, η ελαστική δύναµη των διεσταλµένων ιστών επαρκεί για να διατηρήσει µία σταθερή υπογλωττιδική πίεση. Μερικές φορές µάλιστα, η δύναµη αυτή είναι τόσο µεγάλη, ώστε πρέπει να "φρεναριστεί" διατηρώντας κάποια δραστηριότητα στους µύες εισπνοής (τους έξω µεσοπλεύριους µύες) κατά την πρώτη φάση της φώνησης. Ακόµα, ταυτόχρονα µε τη µείωση της ελαστικής δύναµης, ενεργοποιούνται οι µύες της εκπνοής (έσω µεσοπλεύριοι µύες), ώστε να

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.44 µπορεί να διατηρηθεί η υπογλωττιδική πίεση σταθερή. Στο τελευταίο µέρος της φώνησης, συµµετέχουν και οι µύες του κοιλιακού τοιχώµατος. Εικόνα 2.2: Μπλοκ διάγραµµα του µηχανισµού παραγωγής οµιλίας 2.2.2 Λάρυγγας Ο λάρυγγας αποτελείται από χόνδρους διαρθρωµένους µεταξύ τους, από συνδέσµους και από µύες. Ο λάρυγγας, προς τα άνω, βρίσκεται σε άµεση συνέχεια µε το φάρυγγα, κρέµεται από τη ρίζα της γλώσσας, γι' αυτό και η θέση του επηρεάζεται από τις κινήσεις της γλώσσας. Στηρίζεται δε πάνω στην τραχεία, η οποία αποτελεί τη συνέχειά του προς τα κάτω. Οι κινήσεις στις αρθρώσεις του επιτυγχάνονται από διάφορους µικρούς µύες, οι οποίοι όταν είναι απαραίτητο αλλάζουν τις αµοιβαίες σχέσεις των χόνδρων. Αυτές οι κινήσεις ρυθµίζουν τη θέση και την τάση των φωνητικών χορδών. Οι φωνητικές χορδές, είναι δύο πρισµατικές τρίπλευρες προεξοχές που προβάλλουν στη λαρυγγική κοιλότητα και κάθε µία αποτελείται από το φωνητικό µύ, φωνητικό ελαστικό και συνδετικό ιστό. Η οριζόντια θέση τους κοντά στα πλευρικά τοιχώµατα του λάρυγγα, τους επιτρέπει να διατείνονται από µπρος προς τα πίσω. Το άνοιγµα µεταξύ των φωνητικών χορδών ονοµάζεται γλωττίδα. Τέσσερις θέσεις των φωνητικών χορδών φαίνονται στην Εικόνα 2.3: Στο σηµείο (α) είναι η θέση τους κατά τη φυσιολογική αναπνοή, όπου η γλωττίδα σχηµατίζει µία επιµήκη τριγωνική σχισµή. Η θέση αυτή ονοµάζεται "θέση ανάπαυσης" και επιτρέπει στον αέρα να περνά ανεµπόδιστα και χωρίς να ακούγεται. Κατά τη βαθιά εισπνοή, οι φωνητικές χορδές αποµακρύνονται περισσότερο και η γλωττίδα παίρνει το

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.45 σχήµα ενός πενταγώνου, όπως φαίνεται στο σηµείο (β). Στο σηµείο (γ), οι φωνητικές χορδές βρίσκονται κοντά και η γλωττίδα σχηµατίζει µία κλειστή σχισµή, θέση κατά την παραγωγή ήχου. Όταν ψιθυρίζουµε, τα πίσω τµήµατα είναι αποµακρυσµένα µεταξύ τους και έτσι δηµιουργείται ένα τριγωνικό άνοιγµα, µέσω του οποίου διαρρέει ο αέρας, σηµείο (δ). Εικόνα 2.3: Η γλωττίδα σε θέση: (α) εισπνοής, (β) βαθιάς εισπνοής, (γ) φώνησης και (δ) ψιθύρου. Η λαρυγγική κοιλία, η οποία περιέχει πολλούς βλεννώδεις αδένες, θεωρείται πως λιπαίνει τις φωνητικές χορδές κατά τη διάρκεια της φώνησης. Σύµφωνα µε τον Fant, η λαρυγγική κοιλία µπορεί να προκαλέσει µία µικρή µείωση σε κάποιες από τις συχνότητες συντονισµού (formants) και να θέσει µία οξεία υψηλή συχνότητα περιορισµένη περίπου στα 4,500Ηz στο φάσµα των φωνηέντων. Εικόνα 2.4: Οριζόντια τοµή του λάρυγγα Κατά την παραγωγή ήχου, οι φωνητικές χορδές πλησιάζουν µεταξύ τους (κλειστές) και ταλαντώνονται ανοίγοντας και κλείνοντας τη γλωττίδα διαδοχικά για πολύ µικρές περιόδους. Το ρεύµα αέρα από τους πνεύµονες είναι αυτό που χωρίζει τις φωνητικές χορδές και ανοίγει τη γλωττίδα, αλλά καθώς αυτό αρχίζει να ρέει διαµέσου της στενής γλωττίδας, προκαλεί µία αρνητική πίεση, η οποία τραβάει τις φωνητικές χορδές ξανά κοντά (φαινόµενο Bernoulli).

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.46 Αµέσως µετά, η υπογλωττιδική πίεση εξαναγκάζει τις φωνητικές χορδές να αποµακρυνθούν ξανά και ο αέρας ξαναρρέει διαµέσου της γλωττίδας. Οι κινήσεις αυτής της ταλάντωσης γίνονται σε µία συχνότητα, η οποία καθορίζεται από την τάση των φωνητικών χορδών. Η συχνότητα ταλάντωσής τους, µε τη σειρά της, καθορίζει τη συχνότητα των παλµών του αέρα, οι οποίοι είναι η πρωταρχική πηγή του ήχου. Έτσι, η τάση των φωνητικών χορδών επηρεάζει το ύψος φωνής (pitch). Εικόνα 2.5: Ο κύκλος ταλάντωσης των φωνητικών χορδών, που αναπαριστά το σχετικό µέγεθος της γλωττίδας κατά τη διάρκεια της φώνησης. Η περίοδος ανοίγµατος και κλεισίµατος, που ονοµάζεται κύκλος ταλάντωσης, έχει πολύ µικρή διάρκεια, λόγω των γρήγορων κινήσεων ταλάντωσης των φωνητικών χορδών: στην ανδρική οµιλία είναι περίπου 1/125sec και στη γυναικεία υποδιπλάσιος περίπου. Ο κύκλος ταλάντωσης µπορεί να παρασταθεί γραφικά από το λεγόµενο γλωττογράφηµα, όπως φαίνεται στην Εικόνα 2.5, όπου η καµπύλη αναπαριστά τον κύκλο ταλάντωσης και το πάνω µέρος του Σχήµατος δείχνει τη θέση των φωνητικών χορδών σε διάφορες φάσεις του κύκλου. Όταν οι φωνητικές χορδές δονούνται, παράγονται αρµονικές σαν πολλαπλάσια της θεµελιώδους συχνότητας, και το πλάτος των αρµονικών µειώνεται όσο αυξάνεται η συχνότητα. 2.2.3 Φάρυγγας Ο φάρυγγας είναι ένας µυώδης σωλήνας, µήκους περίπου 15cm και σχήµατος ανεστραµµένου κώνου. Το µπροστινό του τοίχωµα είναι ατελές, διότι εκεί βρίσκονται τρία ανοίγµατα, που συνδέουν το φάρυγγα µε τη ρινική κοιλότητα, τη στοµατική κοιλότητα και το λάρυγγα. Στο

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.47 φάρυγγα, υπάρχουν δύο συστήµατα βαλβίδων, το ένα που βρίκεται προς τα πάνω και µπορεί να ονοµαστεί υπερωιοφαρυγγική βαλβίδα και το άλλο πιο κάτω, που ονοµάζεται επιγλωττίδα. Το πρώτο από αυτά, παίζει σπουδαίο ρόλο στην παραγωγή φυσιολογικής οµιλίας. Ενα ατελές κλείσιµο επιτρέπει στο ηχητικό κύµα να διαφύγει και µέσα από τη ρινική κοιλότητα, κάνοντας την οµιλία ένρινη. Η επιγλωττίδα, έχοντας στενή σχέση µε τη ρίζα της γλώσσας, επηρεάζεται από τις αλλαγές στη θέση της γλώσσας κι έτσι, µπορεί να µετακινείται προς τα πίσω (µε την οπίσθια κίνηση της γλώσσας) κρύβοντας εν µέρει το δρόµο προς το λάρυγγα, ή προς τα εµπρός (µε την εµπρόσθια κίνηση της γλώσσας), επιτρέποντας να φαίνεται η είσοδος του λάρυγγα. Η είσοδος του λάρυγγα κλείνει τελείως από την επιγλωττίδα µόνο όταν καταπίνουµε, µε την ταυτόχρονη πίεση της ρίζας της γλώσσας προς τα κάτω και την ανύψωση του λάρυγγα. Ο φάρυγγας, κατά την παραγωγή οµιλίας, παίζει το ρόλο κοιλότητας αντήχησης. Με την κατάλληλη ενεργοποίηση των µυών του, µπορεί να υποστεί σηµαντικές µεταβολές στον όγκο του και αλλαγές στη µορφή του. 2.2.4 Στοµατική Κοιλότητα Η στοµατική κοιλότητα µαζί µε τη ρινική κοιλότητα σχηµατίζουν την έξοδο του φωνητικού καναλιού. Η στοµατική κοιλότητα χωρίζεται µε τις φατνιακές αποφύσεις της άνω και κάτω γνάθου και µε τα δόντια. Οριοθετείται από τα χείλη προς τα εµπρός, από τις παρειές (µάγουλα) στα πλάγια και συνεχίζεται προς τα πίσω από το φάρυγγα. Η γλώσσα βρίσκεται στο έδαφος του στόµατος και χωρίζεται στο πρόσθιο τµήµα που ονοµάζεται άκρη ή κορυφή, το µεσαίο τµήµα, που ονοµάζεται σώµα και το οπίσθιο, που ονοµάζεται ρίζα ή βάση. Η πάνω πλευρά της ονοµάζεται ράχη και καταλήγει στα πλάγια στις παρυφές ή χείλη της γλώσσας. Η γλώσσα αποτελεί από πολλές απόψεις ένα πολύ σηµαντικό όργανο. Με τον πλούσιο εξοπλισµό της σε µύες, έχει εξαιρετική κινητικότητα, γεγονός που δίνει τη δυνατότητα µεγάλων µεταβολών στον όγκο και στο Σχήµα των κοιλοτήτων συντονισµού, δηλαδή της στοµατικής και της φαρυγγικής κοιλότητας, κατά την παραγωγή οµιλίας. Το στόµα, έχει µεγάλη πλαστικότητα και κινητικότητα µε τη βοήθεια των µυών που διαθέτει, γεγονός σηµαντικό για τη διαµόρφωση διαφόρων ήχων οµιλίας. Ετσι, κατά την παραγωγή οµιλίας τα χείλη βοηθούν στο σχηµατισµό διαφορετικών φωνηέντων, εν µέρει τροποποιώντας τη µορφή του ανοίγµατος του στόµατος και εν µέρει µεταβάλλοντας τον όγκο του στοµατικού προθαλάµου, του οποίου αποτελούν το πρόσθιο όριο.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.48 2.2.5 Ρινική Κοιλότητα Η ρινική κοιλότητα αποτελεί την υψηλότερη έξοδο διαφυγής του αέρα. Στο πίσω µέρος της ενώνεται µε το ρινοφάρυγγα µέσω δύο ανοιγµάτων, των χοανών, µία σε κάθε πλευρά. Η ρινική κοιλότητα συγκαταλέγεται στα σηµαντικά τµήµατα του µηχανισµού παραγωγής οµιλίας, λόγω της επίδρασής της ως κοιλότητας αντήχησης. Η ρινική κοιλότητα χωρίζεται σε δύο µέρη (ρινικές θαλάµες) από το διάφραγµα, το οποίο µερικές φορές, είναι ασύµµετρα τοποθετηµένο, χωρίζοντάς την σε άνισου µεγέθους ηµιµόρια. Μελετώντας τους συντονισµούς (formants) ένρινων φωνηέντων, οι Fujimura και Lindqvist (1964), βρήκαν ότι αυτή η ασυµµετρία επηρεάζει το φάσµα συχνότητας. 2.3 Μοντέλο Παραγωγής Οµιλίας Το πρώτο βήµα στη διαδικασία ανάλυσης φωνής είναι η δηµιουργία ενός µοντέλου που να περιγράφει το σύστηµα παραγωγής οµιλίας. Η βασική απαίτηση στη δηµιουργία του µοντέλου είναι ο προσδιορισµός µαθηµατικής σχέσης που να περιγράφει το σύστηµα µε τη λιγότερη πολυπλοκότητα και τη µεγαλύτερη δυνατή ακρίβεια. Πολλά µοντέλα έχουν µελετηθεί για την περιγραφή µηχανισµού παραγωγής οµιλίας. Η βασική παραδοχή των περισσοτέρων µοντέλων είναι ότι η πηγή διέγερσης είναι ανεξάρτητη από τη φωνητική οδό. Η παραδοχή αυτή απλοποιεί σηµαντικά το πρόβληµα επιτρέποντας έτσι την αναζήτηση της συνάρτησης µεταφοράς του φωνητικού καναλιού ανεξάρτητα από την πηγή διέγερσης. Αναπτύσσοντας µία µέθοδο ανάλυσης οµιλίας, πρέπει να απλοποιήσουµε το πραγµατικό γεγονός της οµιλίας στο βαθµό που απαιτούν τα µαθηµατικά εργαλεία για να µπορούν να εφαρµοστούν, όχι όµως σε τέτοιο βαθµό που οι βασικές φυσικές ιδιότητες του γεγονότος να µην είναι δυνατό να διατηρηθούν ικανοποιητικά. Σε µερικές περιπτώσεις µπορεί να δηµιουργηθεί ένα πολύ απλοποιηµένο µοντέλο της οµιλίας, υιοθετώντας πολύ απλές υποθέσεις και επιβάλλοντας πολύ αυστηρούς περιορισµούς. Με ένα µοντέλο παραγωγής οµιλίας προσπαθούµε να εξηγήσουµε και να ελέγξουµε τον αντίστοιχο ανθρώπινο µηχανισµό ή κάποιο συγκεκριµένο τµήµα του µηχανισµού αυτού. Ο Whitaker (1970) είχε θέσει σαν ελάχιστη απαίτηση για ένα µοντέλο παραγωγής οµιλίας, τη σωστή αναπαράσταση της λειτουργίας του φωνητικού καναλιού. Ετσι, πολλά µοντέλα σχεδιάστηκαν δίνοντας έµφαση µόνο στο τµήµα του ανθρώπινου µηχανισµού παραγωγής οµιλίας που βρίσκεται πάνω από το λάρυγγα, δηλαδή στο φωνητικό κανάλι. Ένα πλήρες µοντέλο όµως, πρέπει να λαµβάνει υπ' όψη του τις αλληλεπιδράσεις µεταξύ των διαφόρων συνιστωσών του µηχανισµού αυτού, δηλαδή µεταξύ της αναπνευστικής και της φωνητικής συνιστώσας και των χώρων αντήχησης. Γενικά, θεωρούµε διαδικασίες παραγωγής οµιλίας που περιλαµβάνουν µόνο τις δραστηριότητες του λάρυγγα, του φάρυγγα και της στοµατικής κοιλότητας. Εµφανώς, σε αυτές τις περιπτώσεις

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.49 δεν λαµβάνονται υπ' όψη η ρινική κοιλότητα και οι υπογλωττιδικές δραστηριότητες, που και τα δύο είναι σηµαντικά για την παραγωγή οµιλίας. Είναι όµως απαραίτητο στις τεχνικές ανάλυσης να τα αγνοήσουµε, αφού περιπλέκουν υπερβολικά το µοντέλο και τα αντίστοιχα µαθηµατικά. Σαν απλοποίηση της διαδικασίας παραγωγής οµιλίας, τρείς κύριοι παράγοντες θεωρούνται: o η διέγερση (ταλάντωση της γλωττίδας), o η µετάδοση (µορφολογία της στοµατικής και της φαρυγγικής κοιλότητας) και o η επίδραση της ακτινοβολίας των χειλιών. Παρά το γεγονός ότι στην πραγµατική διαδικασία οι τρεις αυτοί παράγοντες δεν µπορούν να διαχωριστούν, εδώ γίνεται η υπόθεση ότι διαχωρίζονται, και έτσι για πρώτη φορά γίνεται δυνατό να εφαρµοστούν κάποιες αρχές των µαθηµατικών και της µηχανικής για τη µοντελοποίηση της παραγωγής οµιλίας. Ένα γραµµικό σύστηµα ικανοποιεί την παραπάνω υπόθεση και τα περισσότερα µοντέλα ανάλυσης (και σύνθεσης) οµιλίας είναι γραµµικά συστήµατα. Βλέπουµε λοιπόν, ότι εξ αρχής θέτονται περιορισµοί. Όµως η υπόθεση που µόλις αναφέραµε, µας επιτρέπει να περιγράψουµε χαρακτηριστικά των ήχων υπό τη µορφή απλών παραµέτρων, οι οποίες µπορούν να εξαχθούν από το γραµµικό µοντέλο της παραγωγής οµιλίας, καθώς επίσης και να προσδιορίσουµε τα ακουστικά χαρακτηριστικά που οφείλονται στη διέγερση, στη φωνητική κοιλότητα και στην επίδραση της ακτινοβολίας. 2.3.1 Γενικά Χαρακτηριστικά του Μοντέλου Παραγωγής Οµιλίας Υπάρχουν τρεις κύριες κατηγορίες ήχων οµιλίας, οι οποίες αντιστοιχούν σε διαφορετικές µορφές διέγερσης του φωνητικού καναλιού. Συγκεκριµένα: Ηχηροί ήχοι (voiced sounds) παράγονται διεγείροντας το φωνητικό κανάλι µε ψευδόπεριοδικούς παλµούς αέρα, οι οποίοι δηµιουργούνται από το άνοιγµα και το κλείσιµο της γλωττίδας. H θεµελιώδης συχνότητα της ταλάντωσης των φωνητικών χορδών (pitch) καθορίζεται από τη ροή του αέρα, αλλά κυρίως από την ένταση κάτω από την οποία βρίσκονται οι φωνητικές χορδές λόγω της επίδρασης των µυών. Τιρβώδεις ήχοι (fricative sounds) παράγονται δηµιουργώντας µία στένωση σε κάποιο σηµείο του φωνητικού καναλιού και εξαναγκάζοντας τον αέρα να περάσει µέσω της στένωσης, ώστε να δηµιουργηθεί στροβιλισµός, παράγοντας έτσι µία θορυβώδους µορφής διέγερση. Εκρηκτικοί ήχοι (plosive sounds) παράγονται µε ολοκληρωτικό κλείσιµο του φωνητικού καναλιού, δηµιουργώντας αύξηση της πίεσης πίσω από το εµπόδιο (σηµείο κλεισίµατος) και ξαφνική αποδέσµευση της πίεσης. Αυτός ο τύπος διέγερσης είναι της ίδιας φύσεως µε τη διέγερση του φωνητικού καναλιού από ένα µεµονωµένο παλµό αέρα της γλωττίδας, ονοµάζεται µεταβατική διέγερση και ακολουθείται σχεδόν πάντα από ένα µικρό διάλειµµα θορυβώδους διέγερσης. Σε κάθε περίπτωση, το σήµα οµιλίας δηµιουργείται διεγείροντας το σύστηµα του φωνητικού καναλιού (ένα ακουστικό σύστηµα µετάδοσης) µε µία διέγερση ευρείας ζώνης. Το φωνητικό κανάλι αλλάζει σχήµα σχετικά αργά στο χρόνο και εποµένως µπορεί να προτυποποιηθεί σαν ένα

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.50 αργά χρονικά-µεταβαλλόµενο φίλτρο το οποίο επιβάλλει τις ιδιότητες της απόκρισης συχνότητάς του στο φάσµα της διέγερσης. Το φωνητικό κανάλι χαρακτηρίζεται από τις φυσικές του συχνότητες, οι οποίες ονοµάζονται formants και αντιστοιχούν σε συντονισµούς (resonances) στην απόκριση της συχνότητάς του. Είναι χρήσιµο να σηµειώσουµε εδώ ότι από πλευράς αντίληψης ενός ήχου, µόνο οι τρεις πρώτοι συντονισµοί είναι σηµαντικοί για τον προσδιορισµό του, αν και οι ανώτεροι συντονισµοί είναι απαραίτητοι για την παραγωγή ήχων αποδεκτής ποιότητας. Αν υποθέσουµε ότι η πηγή διέγερσης και η µορφή του φωνητικού καναλιού είναι ανεξάρτητες µεταξύ τους, µπορούµε να αναπαραστήσουµε τη δειγµατοληπτούµενη κυµατοµορφή της οµιλίας µε ένα µοντέλο διακριτού χρόνου, όπως φαίνεται στην Εικόνα 2.6. Σε αυτό το µοντέλο, τα δείγµατα του σήµατος οµιλίας θεωρούνται ως η έξοδος ενός χρονικά-µεταβαλλόµενου συστήµατος, διακριτού χρόνου, το οποίο αναπαριστά τους συντονισµούς του συστήµατος του φωνητικού καναλιού. Το είδος της διέγερσης του συστήµατος αλλάζει µεταξύ περιοδικών παλµών και τυχαίου θορύβου, ανάλογα µε τον τύπο του ήχου που παράγεται. Εικόνα 2.6: Μοντέλο παραγωγής οµιλίας διακριτού χρόνου. Εφόσον όπως είπαµε, το φωνητικό κανάλι αλλάζει σχήµα σχετικά αργά κατά τη συνεχόµενη οµιλία, είναι λογικό να υποθέσουµε ότι το σύστηµα διακριτού χρόνου του µοντέλου έχει σταθερές ιδιότητες για ένα χρονικό διάστηµα (της τάξης των 10msec). Εποµένως, το σύστηµα διακριτού χρόνου µπορεί να χαρακτηριστεί σε κάθε τέτοιο χρονικό διάστηµα από µία κρουστική απόκριση ή µία απόκριση συχνότητας ή ένα σύνολο συντελεστών ενός ΙΙR (Infinite Impulse

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.51 Response) συστήµατος. Συγκεκριµένα, ένα µοντέλο για τη συνάρτηση του συστήµατος του φωνητικού καναλιού αποδεικνύεται πως έχει τη µορφή: K k bk z k= 0 V ( z) = P (2.1) k a z k= 0 k ή ισοδύναµα V Az ( z) = [ P / 2] k = 1 K Ko i k = 1 (1 r e (1 α z k jθk z k 1 1 o ) K k = 1 )(1 r e k (1 β z) jθk z k 1 ) (2.2) jθ k όπου, οι ποσότητες r k e είναι οι µιγαδικές φυσικές συχνότητες του φωνητικού καναλιού, οι οποίες φυσικά εξαρτώνται από τη µορφή του φωνητικού καναλιού και συνεπώς είναι χρονικά µεταβαλλόµενες. Τα µηδενικά της V(z) οφείλονται στην πεπερασµένης διάρκειας κυµατοµορφή του παλµού της γλωττίδας, στη ζεύξη µε τη ρινική κοιλότητα και στις στενώσεις του φωνητικού καναλιού κατά τη δηµιουργία ένρινων και τιρβωδών ήχων. Τέτοια µηδενικά συχνά δεν συµπεριλαµβάνονται, επειδή είναι πολύ δύσκολο να εκτιµηθεί η θέση τους µόνο από την κυµατοµορφή της οµιλίας, και επειδή έχει δειχθεί (Atal και Hanauer, 1971) ότι η µορφή του φάσµατος του σήµατος οµιλίας µπορεί να προτυποποιηθεί ακριβώς χωρίς τη χρήση µηδενικών, αν συµπεριληφθούν επιπλέον πόλοι πέραν του αριθµού που χρειάζεται για να αναπαραστήσει τους συντονισµούς του φωνητικού καναλιού. Το σύστηµα του φωνητικού καναλιού διεγείρεται από µία ακολουθία διέγερσης p[n], η οποία είναι µία ακολουθία κρουστικών, όταν πρόκειται για ηχηρούς ήχους οµιλίας και µία ψευδοτυχαία ακολουθία θορύβου, όταν πρόκειται για άηχους ήχους οµιλίας, όπως τα τιρβώδη και τα άηχα εκρηκτικά. Ο έλεγχος κέρδους που εµφανίζεται µεταξύ της πηγής και του συστήµατος, όπως φαίνεται στο Σχήµα 1.5, επιτρέπει κάποια ευελιξία στην ακουστική στάθµη της εξόδου. Πολλά από τα θεµελιώδη προβλήµατα της επεξεργασίας οµιλίας ανάγονται στον υπολογισµό των παραµέτρων του µοντέλου οι οποίες είναι: o Οι συντελεστές της V(z) (οι θέσεις των πόλων και των µηδενικών στις εξισώσεις 2.1 και 2.2). o Το είδος της διέγερσης του συστήµατος του φωνητικού καναλιού, (περιοδική ακολουθία κρουστικών ή τυχαίος θόρυβος). o Η περίοδος της διέγερσης της οµιλίας όταν είναι περιοδική o Το πλάτος του σήµατος διέγερσης.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.52 2.3.2 Γραµµικό Μοντέλο Παραγωγής Οµιλίας Ένα ακόµα µοντέλο, ίσως το πιο επιτυχηµένο, είναι το γραµµικό που αρχικά ανέπτυξε ο FANT [28] (Εικόνα 2.7). Εικόνα 2.7: Γραµµικό µοντέλο παραγωγής οµιλίας βασισµένο στο µοντέλο του FANT. Το γραµµικό µοντέλο παριστάνεται µε δύο εισόδους. Μια γεννήτρια κρουστικών παλµών και µια γεννήτρια λευκού θορύβου, που εξοµοιώνουν την ψευδοπεριοδική διέγερση (ηχηρή διέγερση) και τη διέγερση από τυρβώδη ροή αέρα (άηχη διέγερση) αντίστοιχα. Η συνάρτηση µεταφοράς της γεννήτριας κρουστικών παλµών δίνεται από τη σχέση: 1 Ez ( ) = (2.3) T0 1 / T z όπου T, η περίοδος δειγµατοληψίας του διακριτού σήµατος, To η περίοδος του "ψευδοπεριοδικού" σήµατος που παριστάνει το ύψος φωνής (pitch), µε αντίστοιχη συχνότητα F o =1/T o που ονοµάζεται θεµελιώδης συχνότητα και ορίζεται σαν η συχνότητα του σήµατος διέγερσης του φωνητικού καναλιού. Τον ηχηρό κλάδο ακολουθεί το µοντέλο της γλωττίδας. Είναι ένα φίλτρο δεύτερης τάξης µε συνάρτηση µεταφοράς τη σχέση: Lz ( ) = 1 ct 1 ( 1 e z ) 2 (2.4) Η συχνότητα αποκοπής του φίλτρου υπολογίζεται στα 100 Ηz περίπου. Ο όρος ct θεωρείται γενικά πολύ µικρότερος της µονάδας.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.53 Οι εντάσεις των ηχηρών και άηχων ήχων ελέγχονται από τους ενισχυτές Αv και Αu αντίστοιχα. Ο διακόπτης ηχηρής-άηχης διέγερσης συνδέει τις εισόδους µε το µοντέλο του φωνητικού καναλιού. Το φωνητικό κανάλι παριστάνεται σαν ένα k-πολικό φίλτρο χωρίς µηδενικά (φίλτρο µόνο πόλων) και αποτελεί µια πολύ καλή προσέγγιση για τους περισσότερους ήχους. Η συνάρτηση µεταφοράς του φωνητικού καναλιού δίνεται µε τη σχέση: V( z) = 1 k ct i 1 2cT i 2 1 2e cos( bt i ) z + e z i= 1 (2.5) Οι k πόλοι της V(z) αποτελούν τους συντονισµούς του φωνητικού καναλιού (formants), µε συχνότητες και εύρη ζωνών που δίνονται µε τις σχέσεις: F i bi = και 2π b i ci = 2π αντίστοιχα. Το πλήθος των συντονισµών σε ένα φωνητικό κανάλι ξεπερνά τους έξι, ενώ, όπως θα εξηγηθεί αργότερα, το µεγαλύτερο ενδιαφέρον το συγκεντρώνουν οι τρεις πρώτοι συντονισµοί. Τέλος το µοντέλο που εξοµοιώνει την επίδραση της ακτινοβολίας των χειλιών και δίνει έµφαση στις υψηλότερες συχνότητες, µπορεί να προσεγγιστεί από ένα φίλτρο µε συνάρτηση µεταφοράς ενός µηδενικού, R( z) 1 1 = z (2.6) Να σηµειωθεί ότι το γραµµικό µοντέλο δεν καλύπτει ειδικές περιπτώσεις ήχων, όπως της µικτής διέγερσης (ηχηρή και άηχη) ή της σύζευξης µε τη ρινική κοιλότητα. Για τους ένρινους ήχους είναι απαραίτητο η συνάρτηση µεταφοράς να περιέχει εκτός των πόλων και µηδενικά. Πάντως οι περισσότερες περιπτώσεις ήχων καλύπτονται, αφού ανήκουν στις υπόλοιπες δύο κατηγορίες. Η συνάρτηση µεταφοράς του µοντέλου στο σύνολό του, περιγράφεται από τη σχέση: Sz ( ) = Ez ( ) Lz ( ) Vz ( ) Rz ( ) (2.7) Το γραµµικό µοντέλο µπορεί να παρασταθεί σαν φίλτρο µόνο πόλων, όπου η έξοδος s(n) δίνεται σαν γραµµικός συνδυασµός p προηγουµένων εξόδων και µιας εισόδου e(n), δηλαδή: p sn ( ) = asn i ( i) + en ( ) (2.8) i= 1 Με αυτό τον τρόπο, η συνάρτηση µεταφοράς του γραµµικού συστήµατος παραγωγής οµιλίας µπορεί να δοθεί από τη σχέση,

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.54 Sz ( ) 1 H( z) 1 Ez ( ) Az ( ) = = p i = + ai z (2.9) i= 1 όπου Α(z), το µόνο µηδενικά ανάστροφο φίλτρο που παριστάνει το µοντέλο παραγωγής σήµατος οµιλίας εξοµαλυµένο από τον ερεθισµό Ε(z). Οι παράµετροι {αi} για i=1,2,...p, που ορίζουν το ανάστροφο φίλτρο ονοµάζονται συντελεστές γραµµικής πρόγνωσης (Linear prediction coefficients). Συγκρίνοντας τις σχέσεις (2.7) και (2.9) προκύπτει η σχέση 1 Az ( ) = LzV ( ) ( zrz ) ( ) (2.10) Το γραµµικό αυτό φίλτρο µπορεί να παρασταθεί σαν µια σειρά φίλτρων παράλληλα συνδεδεµένων, των οποίων οι φυσικές µιγαδικές συχνότητες µεταβάλλονται αργά στο χρόνο, ώστε να προσεγγίζουν τους χρονικά µεταβαλλόµενους συντονισµούς της φωνητικής οδού. Όταν η µνήµη του συστήµατος p είναι αρκετά µεγάλη το µόνο-µηδενικό µοντέλο αποτελεί µια καλή προσέγγιση για όλους σχεδόν τους ήχους. Το µεγάλο πλεονέκτηµα του µοντέλου, η ύπαρξη απλών επαναληπτικών αλγορίθµων για τον υπολογισµό των συντελεστών {αi} του φίλτρου, δικαιολογεί τη χρήση του σε ένα πλήθος διαφορετικών εφαρµογών. 2.3.3 Η κυµατοµορφή Οµιλίας Σύµφωνα µε τα παραπάνω, ένα τµήµα µήκους L δειγµάτων του δειγµατοληπτούµενου σήµατος οµιλίας µπορεί να θεωρηθεί σαν η συνέλιξη sn [ ] = hn [ ] pn [ ],0 n L 1 (2.11) όπου, v[n] είναι η κρουστική απόκριση του φωνητικού καναλιού και p[n] είναι είτε περιοδική πηγή διέγερσης (για ηχηρή οµιλία) είτε τυχαίος θόρυβος (για άηχη οµιλία). Στην Εικόνα 2.8(α) απεικονίζεται η απόκριση του συστήµατος στο πεδίο του χρόνου και τα αντίστοιχα φάσµατα για ένα τµήµα ηχηρής οµιλίας. Η διέγερση (πηγή) είναι µία διαµόρφωση του αέρα εκπνοής λόγω των περιοδικών κινήσεων ανοίγµατος-κλεισίµατος των φωνητικών χορδών. Η αναπαράσταση λοιπόν της διέγερσης στο πεδίο του χρόνου είναι µία ακολουθία παλµών αέρα εκπεµπόµενων µέσω της γλωττίδας, µε διάστηµα µεταξύ γειτονικών παλµών ίσο µε Τ ο. Στο πεδίο της συχνότητας, η διέγερση είναι ένα φάσµα των αρµονικών της θεµελιώδους συχνότητας της φωνής, F ο =1/Τ ο. Το αποτέλεσµα του "φιλτραρίσµατος" από το φωνητικό κανάλι είναι ότι το πλάτος κάθε µίας εκ των αρµονικών P(f) πολλαπλασιάζεται µε την τιµή της συνάρτησης µεταφοράς V(f) σε αυτήν τη συχνότητα, και το γινόµενο είναι το φάσµα του εκπεµπόµενου ήχου

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.55 S( f) = P( f) H( f) (2. 12) Αν εκφράσουµε την παραπάνω σχέση λογαριθµικά, η διέγερση και η συνάρτηση µεταφοράς προστίθενται 20 log S( f) = 20 log P( f) + 20 log H( f) (2.13) 10 10 10 H στάθµη του φάσµατος του ήχου σε µία συχνότητα f είναι λοιπόν, το άθροισµα της στάθµης της διέγερσης σε αυτήν τη συχνότητα και της συνάρτησης µεταφοράς, σε decibels. Τέλος, η αναπαράσταση του εκπεµπόµενου κύµατος στο πεδίο του χρόνου είναι απλώς το άθροισµα όλων των ηµιτονοειδών κυµάτων που περιέχονται στο φάσµα των αρµονικών. Οι συντονισµοί του φάσµατος προέρχονται, όπως είπαµε, από τα µέγιστα της συνάρτησης µεταφοράς του φωνητικού καναλιού, δηλαδή από τους συντονισµούς του φωνητικού καναλιού (formants). Επειδή η συνάρτηση µεταφοράς του φωνητικού καναλιού και η διέγερση θεωρούνται αµοιβαίως ανεξάρτητα, οι συχνότητες των συντονισµών δεν αλλάζουν αν αλλάξει η θεµελιώδης συχνότητα της φωνής, όπως τραγουδώντας µία σκάλα ή ένα σκοπό διατηρώντας µία σταθερή µορφή άρθρωσης. Σχήµα 2.8: Μοντέλο παραγωγής οµιλίας ως απόκριση ενός ψευδοστάσιµου γραµµικού συστήµατος: (α) στο πεδίο του χρόνου, (β) στο πεδίο της συχνότητας.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.56 2.4 Αντίληψη Ήχων Οµιλίας Η οµιλία, θεωρώντας την σαν µία µεγάλη ακουστική διαδικασία, µπορεί να οριστεί σαν µία συνεχώς µεταβαλλόµενη δοµή κυµάτων, που περιλαµβάνει όλες τις συχνότητες και τα πλάτη µέσα σε ένα συγκεκριµένο φάσµα συχνοτήτων. Τα φαινόµενα αυτά στη φυσική καλούνται µεταβατικά και ο ακροατής είναι ικανός να αναγνωρίσει γλωσσολογικά σήµατα κάνοντας ανάλυση των φαινοµένων µε το αυτί του. Η διαδικασία της ακοής περιλαµβάνει τη λήψη ενός ακουστικού µηνύµατος από το αυτί, τη µετατροπή του σε νευρικό µήνυµα που λαµβάνεται και ολοκληρώνεται από τα νευρολογικά κυκλώµατα, την ταυτοποίησή του και τέλος, την αναγνώρισή του σαν ένα δοµικό στοιχείο, που ανήκει σε ένα γλωσσικό σύστηµα, που γνωρίζει το υποκείµενο. 2.4.1 Ανατοµία του Αυτιού Ο ήχος που πλησιάζει το αυτί φτάνει µέσω του πτερυγίου και του έξω ακουστικού πόρου, στην τυµπανική µεµβράνη, την οποία θέτει σε ταλάντωση. Τα οστάρια, τοποθετηµένα στο άνω τµήµα του µέσου αυτιού, µεταφέρουν αυτές τις ταλαντώσεις της τυµπανικής µεµβράνης στο έσω αυτί: η σφύρα, η οποία εφάπτεται στην τυµπανική µεµβράνη, µεταφέρει τις ταλαντώσεις στον άκµονα και αυτός µε τη σειρά του στον αναβολέα, ο οποίος εφάπτεται στην ωοειδή θυρίδα του έσω αυτιού. Με αυτόν τον τρόπο τα ηχητικά κύµατα φθάνουν στο έσω αυτί και διεγείρουν τον κοχλία, ο οποίος είναι τοποθετηµένος στα κοιλώµατα του κροταφικού οστού. Ο κοχλίας, µία κοιλότητα µε σχήµα κελύφους σαλιγκαριού, είναι γεµάτος υγρό και χωρίζεται σε δύο χώρους (την αιθουσαία και την τυµπανική κλίµακα), από τη βασική µεµβράνη, η οποία φέρει τα αισθητήρια κύτταρα όπου καταλήγουν οι απολήξεις των νευρικών ινών του ακουστικού νεύρου. Ο κοχλίας, επικοινωνεί µε το µέσο αυτί µέσω της ωοειδούς θυρίδας από την πλευρά της αιθουσαίας κλίµακας, και µέσω της στρογγύλης θυρίδας, που αποφράσσεται µε µία απλή µεµβράνη, από την πλευρά της τυµπανικής κλίµακας. Οι παλµικές κινήσεις του αναβολέα και της µεµβράνης της στρογγύλης θυρίδας καθορίζουν την κίνηση του υγρού, το οποίο µε αυτόν τον τρόπο διεγείρει τα αισθητήρια κύτταρα της βασικής µεµβράνης, κατά περιοχές, ανάλογα µε τη συχνότητα του προσπίπτοντας ήχου (Εικόνα 2.9).

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.57 Εικόνα 2.9: Ανατοµία του αυτιού. 2.4.2 Το Ακουστικό Μήνυµα Το ακουστικό µήνυµα αναπαρίσταται από κάποιους συγκεκριµένους ήχους, οι οποίοι καθορίζονται από το πλάτος και τη συχνότητά τους στην περίπτωση ενός καθαρού τόνου, ή από το πλάτος και το φάσµα τους στην περίπτωση ενός σύνθετου ήχου. Η φυσική ποιότητα "συχνότητα" αντιστοιχεί στην αίσθηση του ύψους ήχου (pitch), το "πλάτος" στην αίσθηση της έντασης (intensity) και το "φάσµα" στην αίσθηση της χροιάς (timbre). Εποµένως, η συχνότητα, το πλάτος και το φάσµα είναι τα φυσικά δεδοµένα, ενώ το ύψος, η ένταση και η χροιά, είναι τα φυσιολογικά δεδοµένα ή δεδοµένα αντίληψης, όπως φαίνεται στον παρακάτω πίνακα. Φυσικά σε σχέση µε τα φυσιολογικά δεδοµένα Φυσική Ποσότητα Αίσθηση Συχνότητα Ύψος Πλάτος Ένταση Φάσµα Χροιά

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.58 Η πλέον διαδεδοµένη µονάδα µέτρησης του πλάτους, είναι το decibel (db), ή ακριβέστερα το Bel, του οποίου το 1/10 είναι το db και ονοµάστηκε έτσι προς τιµήν του Alexander Graham Bell. To db χρησιµοποιείται σαν µονάδα σε συστήµατα και µεγέθη που έχουν σχέση µε την επικοινωνία, επειδή επιτρέπει τη συµπίεση κλίµακας φυσικών µετρήσεων και βασίζεται στους λογαρίθµους. Σε κάποια προσέγγιση, οι ανθρώπινες αισθήσεις λειτουργούν παρόµοια µε λογαριθµικές σχέσεις. Όµοια µεγέθη που γίνονται αντιληπτά σαν ίσες σχέσεις είναι στην πραγµατικότητα ίσα διαστήµατα. Ακόµα, οι διάφορες αισθήσεις λειτουργούν µε διαφορετικά κατώτερα όρια ευαισθησίας. Ο ορισµός του Βel είναι: Bel W 1 = log10, δηλαδή το decibel είναι W2 db = 10 log W 10 W 1 2 όπου, W1 και W2 είναι οι ισχείς δύο µεγεθών. Έτσι βλέπουµε, ότι το db εκφράζει τη σχέση (λόγο) δύο µεγεθών. Στην πράξη σχεδόν πάντα χρησιµοποιείται µία στάθµη αναφοράς, δηλαδή µια σταθερή ποσότητα, που αντιστοιχεί σε ένα ελάχιστο φυσικό µέγεθος, µε βάση την οποία παίρνουµε την απόλυτη τιµή ενός οµοειδούς µεγέθους. Εποµένως, η απόλυτη τιµή της έντασης του ήχου σε db δίνεται από το δεκαδικό λογάριθµο του λόγου της δεδοµένης µέτρησης προς την αντίστοιχη στάθµη αναφοράς. 2.4.3 Περιοχή Ακουστότητας Το αυτί, έχει την ικανότητα να λαµβάνει ήχους σε µία συγκεκριµένη περιοχή συχνοτήτων, από 16Ηz περίπου µέχρι 18ΚΗz περίπου. Πάνω και κάτω από αυτές τις συχνότητες, ο άνθρωπος δεν ακούει πλέον ηµιτονοειδείς ταλαντώσεις, ανεξαρτήτως από το πλάτος τους. Μεταξύ των ορίων αυτών η υποκειµενική αίσθηση της έντασης, εξαρτάται από τη συχνότητα και συγκεκριµένα, το αυτί είναι πιο ευαίσθητο σε συχνότητες µεταξύ 1,000Ηz και 4,000Hz. Σε χαµηλότερες και υψηλότερες συχνότητες το αυτί γίνεται όλο και λιγότερο ευαίσθητο. Αν καθορίσουµε τη µικρότερη ένταση για την οποία οι ήχοι διαφόρων συχνοτήτων γίνονται µόλις αντιληπτοί από το αυτί, µπορούµε να σχεδιάσουµε µια καµπύλη δείχνοντας το κατώφλι πάνω από το οποίο οι ήχοι γίνονται ακουστοί, το οποίο είναι γνωστό, σαν το κατώφλι ακουστότητας (auditory threshold) (Fletcher, 1958). Όσο η ένταση ενός ήχου αυξάνεται, φθάνει σε κάποιο όριο µετά το οποίο αυτός γίνεται ενοχλητικός και αργότερα προκαλεί πόνο. Έτσι, µπορούµε να καθoρίσουµε άλλο ένα κατώφλι, όχι µε ακρίβεια γιατί εξαρτάται από µια προσωπική αίσθηση, το οποίο λέγεται κατώφλι πόνου. Η περιοχή µεταξύ των δύο αυτών καµπυλών αναπαριστά µία σειρά συνδυασµών έντασης και συχνότητας των ζητούµενων ήχων και ονοµάζεται περιοχή ακουστότητας (Εικόνα 2.10).

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.59 Εικόνα 2.10: Περιοχή ακουστότητας, κατώφλι ακουστότητας και κατώφλι πόνου, περιοχή εµφάνισης ήχων οµιλίας, µουσικής, και θορύβου. Τα δύο κατώφλια πλησιάζουν µεταξύ τους στα άκρα υψηλών και χαµηλών συχνοτήτων της περιοχής των συχνοτήτων, αλλά ποτέ δεν συναντιούνται. Εποµένως, αφού δεν µπορούµε να κλείσουµε την περιοχή ακουστότητας ενώνοντας το κατώφλι ακουστότητας και το κατώφλι πόνου στα άκρα τους, µπορούµε να θεωρήσουµε την περιοχή ακουστότητας σαν µια ζώνη ασαφώς οριοθετηµένη σε όλες τις πλευρές της, µε ένα περιθώριο αβεβαιότητας, κυρίως στις χαµηλές και υψηλές συχνότητες. Στην πράξη, οι ήχοι κοντά στο κατώφλι ακουστότητας για να γίνουν αντιληπτοί χρειάζονται ιδανικές συνθήκες ησυχίας και προσοχής. Από στατιστικές µελέτες µέτρησης του αριθµού των θετικών ως προς την ακουστότητα απαντήσεων σαν συνάρτηση της έντασης του ήχου, φαίνεται ότι υπάρχει ένα περιθώριο τουλάχιστον 20dB µεταξύ των βέλτιστων φυσιολογικών πιθανοτήτων και µίας σταθερής θετικής απάντησης από πλευράς του υποκειµένου. Στα 20dB περίπου ο ήχος ακούγεται αξιόπιστα και κάποιος µπορεί να αντιληφθεί και το ύψος του σωστά. 2.4.4 Υποκειµενική Εκτίµηση Ήχων και Οµιλίας Οι τρεις ακουστικές παράµετροι που επιτρέπουν σε οποιοδήποτε ακουστικό φαινόµενο να χαρακτηριστεί είναι η ένταση (intensity), η συχνότητα (frequency), και ο χρόνος (time). Για να προσδιορίσουµε πώς κάποιος αντιλαµβάνεται την ένταση δεδοµένου ήχου σε δεδοµένη χρονική

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.60 περίοδο, µετράµε το διαφορικό κατώφλι ακουστότητας (differencial auditory threshold), δηλαδή καθορίζουµε το όριο της αλλαγής της έντασης. Για µία συχνότητα 1,000Ηz και µία ένταση 60dB, το όριο αυτό είναι περίπου 0,3dB. Όσο αποµακρύνεται κανείς από τα 1,000Ηz προς υψηλότερες ή χαµηλότερες συχνότητες, τόσο µεγαλύτερο γίνεται το διαφορικό κατώφλι ακουστότητας. Όµοια, σε πολύ χαµηλές εντάσεις (γύρω στα 10 µε 20dB) το κατώφλι αυτό ξεπερνάει το 1dB. Σε πολύ υψηλές εντάσεις είναι δύσκολο να παρατηρηθούν διαφορές στην ένταση. Μπορούµε ακόµα να µετρήσουµε το διαφορικό κατώφλι ύψους ήχου (differencial threshold of pitch), δηλαδή τα όρια µέσα στα οποία κάποιος δεν µπορεί να διακρίνει µία διαφορά µεταξύ διαφορετικών ήχων. Όπως συµβαίνει και µε το διαφορικό κατώφλι ακουστότητας, όσο αποµακρυνόµαστε από µεσαίες τιµές συχνοτήτων και εντάσεων, τόσο µεγαλύτερο γίνεται το διαφορικό κατώφλι ύψους ήχου. Τέλος, µπορούµε να µετρήσουµε το διαφορικό κατώφλι διάρκειας (differencial threshold of duration) ζητώντας σε κάποιον να εκτιµήσει τη διαφορά στη διάρκεια µεταξύ δύο ήχων. Τα τρία αυτά διαφορικά κατώφλια µεταβάλλονται ανάλογα µε την εκπαίδευση στην ακουστική του κάθε ακροατή και πιο συγκεκριµένα, όπως πάµε από το πρώτο προς το τρίτο, τόσο λιγότερο ακριβείς είναι οι τιµές που µετράµε. Για την επικοινωνία µε οµιλία, µόνο ένα µικρό µέρος της περιοχής ακουστότητας χρειάζεται, όπως φαίνεται στην Εικόνα 2.9. Το άνω όριο της συχνότητας για την οµιλία είναι 12ΚΗz, και το φυσιολογικό εύρος στο οποίο κυµαίνονται οι θεµελιώδεις συχνότητες είναι περίπου, για τους άνδρες 80Ηz ως 300Ηz και για τις γυναίκες 200Ηz ως 450Ηz. Επίσης, η ένταση των διαφόρων συνιστωσών της οµιλίας συνήθως κυµαίνεται µεταξύ 30dB και 90dB. Αυτά τα όρια υποδεικνύουν την ενεργή ακουστική ζώνη. Ο δυναµικός χαρακτήρας της οµιλίας κάνει πολύ πιο δύσκολη την υποκειµενική εκτίµηση της έντασης του ήχου που εκπέµπεται, µε αποτέλεσµα να υπάρχει διαφορά µεταξύ του κατωφλίου ακουστότητας ενός καθαρού τόνου και της στάθµης ελάχιστης έντασης, για την αντίληψη οµιλίας. Γι' αυτό, δεν αρκεί να καθορίσουµε το ακουστόγραµµα (audiogram), ή ακόµα και να ξέρουµε τα διαφορικά κατώφλια, όταν θέλουµε να µάθουµε πώς κάποιος αντιλαµβάνεται την οµιλία και τις δυσκολίες που µπορεί να αντιµετωπίσει στην αναγνώριση της φωνητικής δοµής των λέξεων και των φράσεων. 2.4.5 Φωνητική Ολοκλήρωση Το ακουστικό µήνυµα που λαµβάνεται από τον κοχλία και τροποποιείται από τα αισθητήρια κύτταρα σε µήνυµα των νεύρων, πρέπει στη συνέχεια να ολοκληρωθεί από τα νευρολογικά κυκλώµατα.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.61 Ονοµάζουµε "ολοκλήρωση" την υπέρθεση στο ίδιο σύστηµα και στον ίδιο χρόνο δύο φαινοµένων ξεχωριστών στο χρόνο ή στο χώρο. Αυτός ο ορισµός ισχύει και για τη δύναµη ολοκλήρωσης του κοχλία και γι' αυτήν των πολύπλοκων κυκλωµάτων µνήµης. Στον κοχλία η µνήµη µπορεί να αναπαρασταθεί από το χρόνο διάρκειας της ταλάντωσης που προκλήθηκε από ένα µόνο παλµό, ενώ η µνήµη των νευρολογικών κυκλωµάτων µπορεί να διαρκέσει µία ολόκληρη ζωή. Η ολοκλήρωση εξουδετερώνει τον παράγοντα χρόνο µε την υπέρθεση δύο εικόνων. Όταν δύο κινήσεις ταλάντωσης αρχικά χωρισµένες στο χρόνο µπορούν να υπερτεθούν στον κοχλία, παράγεται ένα φαινόµενο ανάµιξής τους, που οδηγεί στην αίσθηση της συχνότητας ύψους. Τα όρια της ακουστικής ολοκλήρωσης βρίσκονται περίπου στα 60msec, που αντιστοιχεί στο ακραίο όριο της αίσθησης του ύψους που δίνεται από ένα χρονικό διάλειµµα στη βέλτιστη ένταση. 2.4.6 Η Κλίµακα Mel Το ανθρώπινο αυτί είναι ένας µη γραµµικός δέκτης, ενισχύοντας κατ αυτό τον τρόπο κάποια χαρακτηριστικά γνωρίσµατα των ακουστικών δεδοµένων και υποβιβάζοντας άλλα. Επιπλέον, τα κύτταρα ακρόασης και το νευρικό σύστηµα µπορούν να προσαρµοστούν στις διαφορετικές καταστάσεις και να µειώσουν τον αντίκτυπο του θορύβου και άλλων τυχαίων ακουστικών φαινοµένων. Λαµβάνοντας υπόψη την επίδραση της ανατοµίας στον τρόπο που αντιλαµβανόµαστε τους ήχους µπορεί κάποιος θεωρητικά να αποβάλει όλες τις άσχετες ιδιότητες ενός σήµατος οµιλίας και να χρησιµοποιήσει το υπόλοιπο ως βάση για την αναγνώριση. Η σηµαντικότερη σκέψη είναι ότι το ακουστικό σύστηµά µας λειτουργεί πρώτιστα στο πεδίο της συχνότητας. Το εύρος ζώνης που µπορούµε να ακούσουµε είναι περίπου από 20 έως 20000 Hz, αλλά και οι κλίµακες πλάτους, όπως και οι κλίµακες συχνοτήτων, είναι µη γραµµικές. Από τεχνική σκοπιά, υπάρχουν διάφορες εµπειρικές κλίµακες συχνότητας, οι οποίες είναι εφαρµόσιµες και χρησιµοποιούν τη γνώση των κρισίµων εύρων ζώνης. Το κρίσιµο εύρος ζώνης γύρω από µια κεντρική συχνότητα είναι το εύρος στο οποίο όλες οι συχνότητες ηχούν το ίδιο. Παρά την απαίτηση για µια φασµατική αναπαράσταση, κάποιες µέθοδοι κυµατοµορφικής ανάλυσης στο πεδίο του χρόνου έχουν αποδειχθεί χρήσιµες όταν επεξεργαζόµαστε ψηφιακά σήµατα οµιλίας. Μολονότι το αυτί µπορεί να αγνοήσει αυτά τα πρόσθετα χαρακτηριστικά γνωρίσµατα, εν τούτοις είναι πολύ ισχυρή βοήθεια για την υπολογιστική ανάλυση. Χρησιµοποιούνται στον καθορισµό της αρχής και του τέλους µιας έκφρασης οµιλίας και στην ταξινόµηση των φωνηµάτων, για παράδειγµα. Ένα mel ορίζεται ως η µονάδα µέτρησης του αντιλαµβανόµενου pitch ή συχνότητας ενός τόνου. εν ανταποκρίνεται γραµµικά στη φυσική συχνότητα του τόνου, όπως ακριβώς και το ανθρώπινο ακουστικό σύστηµα δεν αντιλαµβάνεται το pitch µε γραµµικό τρόπο. Το ακριβές νόηµα της κλίµακας mel γίνεται εµφανές, εξετάζοντας το πείραµα από το οποίο παράχθηκε. Οι Stevens και Volkman επέλεξαν αόριστα τη συχνότητα 1000 Hz και την αντιστοίχισαν µε 1000 mels. Ζητήθηκε κατόπιν από ακροατές να αλλάξουν τη φυσική συχνότητα, µέχρι το pitch που αντιλαµβάνονται να γίνει διπλάσιο από την αναφορά, µετά 10-πλάσιο κ.ο.κ. Οι αναλυτές κατόπιν µπόρεσαν να καθορίσουν µια αντιστοιχία µεταξύ της πραγµατικής κλίµακας συχνοτήτων (Hz) και της αντιλαµβανόµενης κλίµακας συχνοτήτων (mels). Η αντιστοίχιση είναι κατά προσέγγιση γραµµική για συχνότητες µικρότερες του 1 khz και λογαριθµική για µεγαλύτερες. Μια παρόµοια

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.62 προσέγγιση χρησιµοποιείται συνήθως στην αναγνώριση οµιλίας. Ο Fant, για παράδειγµα, προτείνει την προσέγγιση 1000 F F = 1 + Hz mel log 2 1000 (2.14) στην οποία η F mel (F Hz ) είναι η αντιλαµβανόµενη (πραγµατική) συχνότητα σε mels (Hz). Η κλίµακα mel απεικονίζεται παρακάτω. Εικόνα 2.11: Η κλίµακα mel [Stevens & Volkman, 1940] 2.5 Παραγωγή Ήχων Οµιλίας Ο προσδιορισµός των ακουστικών χαρακτηριστικών των ήχων οµιλίας είναι απαραίτητος για όλους τους τοµείς των εφαρµογών της επιστήµης που ασχολείται µε την οµιλία, δηλαδή για την αυτόµατη αναγνώριση οµιλίας, τη σύνθεση οµιλίας, τα συστήµατα κατανόησης οµιλίας, την αναγνώριση οµιλητή, την ταυτοποίηση της γλώσσας και των συστηµάτων παροχής βοήθειας στους ανθρώπους µε µειωµένη ικανότητα ακοής. Η παραγωγή οµιλίας, όπως άλλωστε και η παραγωγή όλων των ήχων, εξαρτάται από τρεις παράγοντες: o µία πηγή ενέργειας (διέγερση), o ένα ταλαντούµενο σώµα, o ένα χώρο αντήχησης. Όλα αυτά τα συστατικά είναι συγκεντρωµένα στα φωνητικά όργανα του ανθρώπινου σώµατος. Όπως έχουµε περιγράψει (Εικόνα 2.1), τα φωνητικά όργανα αποτελούν: οι πνεύµονες, η τραχεία, ο λάρυγγας που περιέχει τις φωνητικές χορδές, ο φάρυγγας, η στοµατική κοιλότητα και η ρινική κοιλότητα. Παρότι η σχέση µεταξύ αναπνοής και φώνησης είναι πολύπλοκη (Hixon, 1972), θεωρούµε σαν πηγή ενέργειας για την παραγωγή οµιλίας, το εξερχόµενο από τους πνεύµονες

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.63 ρεύµα αέρα. Οι φωνητικές χορδές λειτουργούν σαν ταλαντωτής όταν θέτονται σε κίνηση από τον αέρα εκπνοής. Ο παραγόµενος ήχος στη συνέχεια διαµορφώνεται από τους χώρους αντήχησης του φάρυγγα, της στοµατικής κοιλότητας και της ρινικής κοιλότητας. Η υποκειµενική ποιότητα ύψους της φωνής καθορίζεται από τη συχνότητα ταλάντωσης των φωνητικών χορδών. Το µεγαλύτερο πλήθος των ανδρικών φωνητικών χορδών έχουν χαµηλότερη συχνότητα ταλάντωσης από αυτή των γυναικείων. Κάποιος µπορεί να αλλάξει το ύψος της φωνής του µεταβάλλοντας την τάση των φωνητικών χορδών. Με αύξηση της τάσης έχουµε υψηλότερη συχνότητα ταλάντωσης, ενώ µε µείωσή της, χαµηλότερη. Το "ακατέργαστο" δείγµα ήχου που έχει παραχθεί από την ταλάντωση των φωνητικών χορδών, διαµορφώνεται στη συνέχεια από τους χώρους αντήχησης. Το µέγεθος και το σχήµα της φαρυγγικής, της στοµατικής και της ρινικής κοιλότητας, σαν σύνολο, µπορεί να αλλάζει και µε αυτόν τον τρόπο καθορίζονται τα ακουστικά χαρακτηριστικά των ήχων οµιλίας. Η γενική διαδικασία µε την οποία επιτυγχάνεται αυτή η αλλαγή, ονοµάζεται άρθρωση. Η ταλάντωση των φωνητικών χορδών είναι ένας τρόπος µε τον οποίο η ενέργεια του ρεύµατος αέρα της αναπνοής χρησιµοποιείται για να παραχθεί ένας ακουστός ήχος, ο οποίος διαµορφώνεται από τους χώρους αντήχησης (περίπτωση ηχηρών ήχων). Υπάρχουν όµως και άλλοι τρόποι παραγωγής ήχου µε τα φωνητικά όργανα. Ένας τρόπος είναι η εξαναγκασµένη διέλευση του αέρα µέσα από ένα στενό πέρασµα του φωνητικού καναλιού, πάνω από τον λάρυγγα. Αυτή η στένωση δηµιουργεί στροβιλισµό του ρεύµατος του αέρα και ο στροβιλισµός παράγει έναν ακουστό σφυριχτό ήχο (περίπτωση τυρβωδών ήχων). Ένας άλλος τρόπος είναι το στιγµιαίο ολοκληρωτικό κλείσιµο του φωνητικού καναλιού, µε το οποίο αυξάνεται η πίεση του ρεύµατος του αέρα πίσω από το σηµείο του εµποδίου. Απότοµη αποδέσµευση της πίεσης δηµιουργεί ένα σύντοµο ήχο (περίπτωση εκρηκτικών ήχων). Όπως ο ήχος που παράγεται από ταλάντωση των φωνητικών χορδών, έτσι και αυτός που παράγεται από στένωση ή ολοκληρωτικό κλείσιµο του φωνητικού καναλιού, διαµορφώνεται από τους χώρους αντήχησης. Η στένωση και το κλείσιµο µπορεί να συνοδεύονται και από ταλάντωση των φωνητικών χορδών, αφού η λειτουργία των πηγών περιοδικού και θορυβώδους ήχου είναι ηµιανεξάρτητη. 2.5.1 Άρθρωση Ήχων Οµιλίας Άρθρωση (articulation) είναι η διαδικασία µε την οποία τροποποιείται η µορφολογία του φωνητικού καναλιού για να παράγει τους ξεχωριστούς ήχους οµιλίας. Χρήσιµο είναι, περιγράφοντας τη διαδικασία αυτή να κάνουµε διάκριση µεταξύ φωνηέντων και συµφώνων. Κατά την άρθρωση των φωνηέντων η γλώσσα µπορεί να πάρει µία ποικιλία θέσεων µέσα στο στόµα, τα χείλη είναι ανοιχτά και οι αρυταινοειδείς χόνδροι του λάρυγγα βρίσκονται κοντά µεταξύ τους έτσι ώστε να παραχθεί ταλάντωση των φωνητικών χορδών µε το πέρασµα του εξερχόµενου κύµατος του αέρα διαµέσου αυτών στο φωνητικό κανάλι. Παρότι η ακριβής θέση της γλώσσας ποικίλλει µε αναφορά σε πολλές διαστάσεις, έχει καθιερωθεί να περιγράφεται µε αναφορά στην τοποθέτηση και στο ύψος του υψηλότερου σηµείου της γλώσσας. Το σηµείο αυτό µπορεί να βρίσκεται στο πρόσθιο, στο κεντρικό ή στο

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.64 οπίσθιο µέρος του στόµατος και µέσα σε αυτές τις τρεις περιοχές µπορεί να είναι στο άνω, στο µέσο ή στο κάτω µέρος του στόµατος. Η άρθρωση κατά την παραγωγή των συµφώνων περιγράφεται µε βάση τον τόπο άρθρωσης (place of articulation), τον τρόπο άρθρωσης (manner of articulation), και το γεγονός της ταυτόχρονης ταλάντωσης ή µη των φωνητικών χορδών. Ο τόπος άρθρωσης καθορίζεται από το σηµείο µε τη µικρότερη διατοµή (το στενότερο πέρασµα) µέσα στο φωνητικό κανάλι κατά την παραγωγή του ήχου οµιλίας. Η στένωση δηµιουργείται καθώς ένα µέσο άρθρωσης (articulator) πλησιάζει ή έρχεται σε επαφή µε ένα σηµείο άρθρωσης (point of articulation). Τα µέσα άρθρωσης είναι κινητά µέρη της στοµατικής κοιλότητας, δηλαδή είναι δύο, η γλώσσα και το κάτω χείλος. Η γλώσσα είναι βέβαια το πιο ευέλικτο µέσο, εξ αιτίας των ποικίλων θέσεων που µπορεί να καταλάβει. Τα σηµεία άρθρωσης είναι ακίνητα µέρη της στοµατικής κοιλότητας και, όπως φαίνεται στην εικόνα 2.12 τα αποτελούν, το άνω χείλος (upper lip), η άνω οδοντοστοιχία (upper teeth), το φατνιακό όγκωµα (alveolar ridge), ο ουρανίσκος ή σκληρή υπερώα (palate), το ιστίο ή µαλακή υπερώα (velum), η σταφυλή (uvula) και η κάτω οδοντοστοιχία (lower teeth). Το σηµείο µέγιστης στένωσης προσδιορίζεται και περιγράφεται καθορίζοντας το µέσο άρθρωσης και το σηµείο άρθρωσης που συµµετέχουν στο σχηµατισµό της στένωσης. Εικόνα 2.12: Τα σηµεία άρθρωσης του φωνητικού καναλιού. Ο τρόπος άρθρωσης περιγράφει τον τρόπο µε τον οποίο παράγεται κάθε ήχος οµιλίας. Όλα τα φωνήεντα παράγονται µε τον ίδιο τρόπο, δηλαδή το εξερχόµενο κύµα αέρα περνάει σχετικά

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.65 ελεύθερα µέσα από το φωνητικό κανάλι και ο ήχος που δηµιουργείται από την ταλάντωση των φωνητικών χορδών διαµορφώνεται από τις κοιλότητες αντήχησης. Αντίθετα, τα σύµφωνα παράγονται µε πολλούς διαφορετικούς τρόπους. Κατά την άρθρωση των στιγµιαίων (stops) η έξοδος του αέρα είναι ολοκληρωτικά κλεισµένη στον τόπο άρθρωσης, µε αποτέλεσµα τη στιγµιαία αύξηση της πίεσης πίσω από το σηµείο του εµποδίου. Η αιφνίδια αποδέσµευση της πίεσης δηµιουργεί ένα µικρό εκρηκτικό ήχο και γι' αυτό τα σύµφωνα αυτά ονοµάζονται και εκρηκτικά (plosives). Το κλείσιµο του φωνητικού καναλιού µπορεί να γίνει σε οποιοδήποτε από τα σηµεία άρθρωσης που περιγράψαµε προηγουµένως. Ένας άλλος τρόπος παραγωγής των συµφώνων είναι η βεβιασµένη έξοδος του αέρα διαµέσου µίας στενής διαδροµής ή στένωσης του φωνητικού καναλιού. Ο ήχος που παράγεται µε αυτόν τον τρόπο, ονοµάζεται τυρβώδης (fricative). Η στένωση του φωνητικού καναλιού µπορεί να σχηµατιστεί σε οποιοδήποτε από τα σηµεία άρθρωσης. Για την παραγωγή των στιγµιαίων και τυρβωδών ήχων µπορεί να έχουµε ταυτόχρονα και ταλάντωση των φωνητικών χορδών, οπότε σε αυτήν την περίπτωση ονοµάζονται ηχηρά (voiced). Στην περίπτωση που ο ήχος παράγεται χωρίς την ενεργοποίηση (ταλάντωση) των φωνητικών χορδών, αυτός ονοµάζεται άηχος (unvoiced). Τα ηχηρά στιγµιαία και τυρβώδη σύµφωνα δηµιουργούνται µε µικτή διέγερση, δηλαδή έχουµε δύο ηχητικές πηγές: τον ήχο που παράγεται από την ταλάντωση των φωνητικών χορδών και τον ήχο που παράγεται από τη στένωση ή τη φραγή του φωνητικού καναλιού. Σε όλες τις παραπάνω περιπτώσεις (ηχηρά και άηχα, εκρηκτικά και τυρβώδη), ο ήχος που προκύπτει διαµορφώνεται αποκλειστικά στη στοµατική κοιλότητα. Οι ήχοι µπορεί να διαµορφώνονται και στη ρινική κοιλότητα, επιτρέποντας ένα µέρος του κύµατος του αέρα να περνά µέσα από αυτήν και ένα µέρος µέσα από τη στοµατική κοιλότητα. Ο έλεγχος της διαδροµής που ακολουθεί ο αέρας επιτυγχάνεται από το υπερώιο ιστίο, το οποίο όταν χαµηλώνει επιτρέπει τη διέλευση του αέρα µέσα και από τις δύο κοιλότητες. Τα φωνήεντα συνήθως συντονίζονται στη στοµατική κοιλότητα, ενώ στην περίπτωση που παράγονται µε χαµηλωµένο ιστίο αναφέρονται σαν έρρινα φωνήεντα (nasalized vowels).

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.66 Εικόνα 2.13: Παράδειγµα επίδρασης της έρρινης οµιλίας στο φάσµα. Μία οµάδα συµφώνων παράγεται πάντα µε χαµηλωµένο ιστίο και ο τρόπος άρθρωσής τους χαρακτηρίζεται ένρινος (nasal). Τα ένρινα σύµφωνα παράγονται µε ολοκληρωτικό κλείσιµο της στοµατικής κοιλότητας, µε τη βοήθεια της γλώσσας ή των χειλιών, σε κάποιο σηµείο άρθρωσης, επιτρέποντας έτσι στον αέρα να περνά µόνο µέσα από τη ρινική κοιλότητα. Η διέγερση των ένρινων συµφώνων είναι πάντα ηχηρή.

Κεφάλαιο 2 Ο Μηχανισµός Παραγωγής και Αντίληψης Οµιλίας σελ.67 Εικόνα 2.14: Επίδραση της οδοντοστοιχίας στο φάσµα φωνηµάτων. Η συνεχής γραµµή αντιστοιχεί στο φάσµα µε πλήρη οδοντοστοιχία και η διακεκοµένη χωρίς οδοντοστοιχία. Η γραµµοσκιασµένη περιοχή δείχνει την επικάλυψη των δυο φασµάτων. Τέλος, άλλος ένας τρόπος άρθρωσης των συµφώνων είναι µε αλλαγή του τόπου άρθρωσης κατά τη διάρκεια της παραγωγής τους. Οι ήχοι αυτοί ονοµάζονται ολισθηροί (glides) ή διαφορετικά ηµιφωνήεντα (vowel-like sounds), λόγω των αρκετών κοινών χαρακτηριστικών τους µε τα φωνήεντα. Η ηχητική πηγή αυτών είναι η ταλάντωση των φωνητικών χορδών και η µορφολογία του φωνητικού καναλιού είναι σχετικά ανοιχτή (στο φωνητικό κανάλι δεν υπάρχει φραγή ούτε και στένωση). Τα µέσα άρθρωσης ενεργούν έτσι ώστε να αλλάζουν το µέγεθος και το σχήµα της στοµατικής κοιλότητας και οι αλλαγές στην ποιότητα του ήχου εξαρτώνται από τα χαρακτηριστικά της κοιλότητας αντήχησης καθώς το ηχηρό κύµα αέρα περνά ελεύθερα µέσα από το φωνητικό κανάλι. 2.5.2 Συνάρθρωση Στη συνεχή οµιλία, λόγω των απαιτήσεων που θέτονται στο µηχανισµό άρθρωσης, τα µέσα άρθρωσης µερικές φορές πλησιάζουν µόνο την επιθυµητή θέση-στόχο, αντί να τη φθάσουν. Το φαινόµενο αυτό ονοµάζεται συνάρθρωση (coarticulation). Η επίδραση της συνάρθρωσης µπορεί να είναι µονοκατευθυντήρια, όπου τότε ο τόπος άρθρωσης ενός ήχου αλλοιώνεται λόγω του ήχου που έπεται ή προηγείται, ή δικατευθυντήρια, όπου η άρθρωση και των δύο γειτονικών ήχων επηρεάζεται. Υπάρχει φυσικά ένα όριο για το βαθµό της αλλαγής που µπορεί να υποστεί ο τόπος άρθρωσης κάθε φωνήµατος. Μόνο οι ήχοι που έχουν µεγάλη περιοχή δυνατών τόπων άρθρωσης, επηρεάζονται εµφανώς από τη συνάρθρωση, και σε αυτήν την περίπτωση ο ακριβής τόπος άρθρωσης θα καθοριστεί, µέσα στην επιτρεπτή περιοχή, από τον τόπο άρθρωσης του ήχου που προηγείται ή έπεται. Οι ήχοι µε µικρό εύρος τόπων άρθρωσης επηρεάζονται ελάχιστα από τη συνάρθρωση.