Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems)"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems) ιπλωματική Εργασία της Σοφίας Στεργιοπούλου (ΑΕΜ: 212) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ ΦΕΒΡΟΥΑΡΙΟΣ 2010

2 Περίληψη Η τεχνολογία σύνθεσης ομιλίας, μετράει μόνο λίγα χρόνια ζωής, κατά τη διάρκεια των οποίων έχει αναπτυχθεί και έχει γνωρίσει ιδιαίτερη άνθιση. Καθώς σε συνδυασμό με την βελτίωση των υπολογιστών και της τεχνολογίας χρησιμοποιείται ολοένα και σε νέα πεδία εφαρμογών. Συνεπώς αποτελεί πρόκληση η υλοποίηση αποδοτικών συστημάτων σύνθεσης ομιλίας. Στην παρούσα διπλωματική εργασία αρχικά γίνεται βιβλιογραφική μελέτη των συστημάτων ομιλίας και κυρίως των συστημάτων μετατροπής κειμένου σε ομιλία, των βασικών τεχνολογιών και των αλγορίθμων που χρησιμοποιούν. Ιδιαίτερη έμφαση δίνεται στην μελέτη μεθόδων και αλγορίθμων που σχετίζονται με δύο σημαντικά θέματα της τεχνολογίας σύνθεσης ομιλίας, την προσωδία και τον αυτόματο τεμαχισμό σημάτων ομιλίας. Στη συνέχεια, παρουσιάζεται ένα σύστημα σύνθεσης ομιλίας που υλοποιήθηκε στα πλαίσια αυτής της εργασίας και το οποίο ακολουθεί την προσέγγιση Σύνθεση με Συνένωση Μονάδων Φυσικής Ομιλίας, καρπός της οποίας είναι συστήματα τα οποία παράγουν ομιλία από κείμενο απεριορίστου λεξιλογίου, με υψηλή καταληπτότητα και φυσικότητα. Τέλος αξίζει να σημειωθεί, ότι με στόχο την παραγωγή πιο φυσικής ομιλίας μέσω της εκμετάλλευσης της έννοιας της προσωδίας, το σύστημα εμπεριέχει έναν επεξεργαστή έκφρασης ο οποίος χρησιμοποιεί ιδιαίτερα δέντρα ταξινόμησης και κατηγοριοποίησης (CARTS) για να παράγει τις πληροφορίες της προσωδίας. Λέξεις Κλειδιά: TTS Systems, Προσωδία, Σύνθεση Ομιλίας

3 Abstract The technology of speech composition, measures only few years of life, at the duration of which it has been developed and has known particular growth. This is because, in combination with the improvement of computers and technology it is increasingly used in new fields of applications. Consequently the concretisation of efficient systems of composition of speech, constitutes a challenge. In this diplomatic work initially are presented the conclusions of a bibliographic study concerning the systems of speech and mainly the systems of transformation of text in speech, the basic technologies and the algorithms that they use. Particular emphasis is given in the study of methods and algorithms that are related with two important subjects of technology of composition of speech, the prosody and the automatic chopping of signals of speech. Then, is presented a system of composition of speech that was materialised in the frames of this work and which follows the approach Composition with Conjunction of Units of Natural Speech, result of which are systems which produce speech from text of unlimited vocabulary, with high comprehensive and naturalness. Finally it should be mentioned, that with the aim of composing more natural speech via the exploitation of prosody, the system includes processor which uses particular trees of classification and categorisation (CARTS) in order to produces the information of prosody. Keywords: TTS Systems, Prosody, Composition of Speech

4 Πρόλογος Η ομιλία αποτελεί τον βασικότερο τρόπο επικοινωνίας μεταξύ των ανθρώπων, καθώς χαρακτηρίζεται από ιδιαιτερότητες που δεν μπορούν εύκολα να αποτυπωθούν στο γραπτό λόγο και που δίνουν άλλη διάσταση στη μεταδιδόμενη πληροφορία. Εξαιτίας αυτού του γεγονότος, προέκυψε η ανάγκη ένταξης της ομιλίας στις μηχανές. Η τεχνολογία της ομιλίας σε επίπεδο μηχανής χωρίζεται σε δύο βασικούς τομείς, την αναγνώριση της ομιλίας (speech recognition) και την παραγωγή ή σύνθεση ομιλίας (speech synthesis). Ένα πεδίο εφαρμογών στο οποίο έχει δοθεί μεγάλη έμφαση σε ερευνητικό επίπεδο σχετικά με την παραγωγή ομιλίας από μηχανή, αποτελούν τα συστήματα μετατροπής κειμένου σε ομιλία (ΜΚσΟ ή συστήματα Text-To-Speech, TTS). Τα συστήματα αυτά δέχονται ως είσοδο κείμενο και παράγουν συνθετικό προφορικό λόγο, παρέχοντας με αυτόν τον τρόπο στους ανθρώπους πληροφορίες κειμένου μέσω φωνητικών μηνυμάτων. Η αξιοπιστία των συστημάτων αυτών κρίνεται σε μεγάλο βαθμό από τον βαθμό που η παραγόμενη ομιλία προσεγγίζει την πραγματική ομιλία καθώς και από την ευληπτότητά της. Συνεπώς εκτός από τους συντακτικούς και λεξιλογικούς κανόνες της γλώσσας που πρέπει να λαμβάνονται υπόψιν στα συστήματα ομιλίας, εξίσου σημαντικά είναι τα χαρακτηριστικά της ομιλίας που σηματοδοτούνται από διαδικασίες που δεν περιορίζονται σε συντακτικούς ή λεξιλογικούς κανόνες, όπως είναι η προσωδία. Τα προσωδιακά χαρακτηριστικά της ομιλίας είναι αυτά που πέρα από το λεξιλογικό περιεχόμενο των προτάσεων, επισημαίνουν άλλα σημαντικά στοιχεία που αφορούν την εστίαση και την έμφαση και σχετίζονται με την ποιότητα και τη χροιά της ανθρώπινης ομιλίας, εισάγοντας με αυτό τον τρόπο ένα δευτερεύον υποκείμενο κανάλι στην επικοινωνία. Επιπλέον, συνδέονται σε μεγάλο βαθμό με την έκφραση συναισθήματος στην ομιλία. Την τελευταία πενταετία έχει σημειωθεί αλματώδης βελτίωση στο χώρο της σύνθεση ομιλίας μετά την υιοθέτηση της προσέγγισης Σύνθεση με Συνένωση Μονάδων Φυσικής Ομιλίας. Καρπός της προσέγγισης αυτής είναι συστήματα τα οποία παράγουν ομιλία από κείμενο απεριορίστου λεξιλογίου, με υψηλή καταληπτότητα και φυσικότητα. Στην παρούσα διπλωματική εργασία γίνεται βιβλιογραφική μελέτη των συστημάτων ομιλίας και κυρίως των συστημάτων μετατροπής κειμένου σε ομιλία, των βασικών τεχνολογιών και των αλγορίθμων που χρησιμοποιούν. Έπειτα παρουσιάζεται το

5 σύστημα σύνθεσης ομιλίας που αναπτύχθηκε στα πλαίσια αυτής της εργασίας, το TTSApp. Το σύστημα αυτό ακολουθεί την προσέγγιση της σύνθεσης με συνένωση μονάδων φυσικής ομιλίας και παράγει ομιλία που προσομοιάζει την φυσική. Τον πυρήνα του συστήματος αποτελεί μια υλοποιημένη βιβλιοθήκη στην γλώσσα προγραμματισμού Java η οποία περιέχει συναρτήσεις για σύνθεση ομιλίας. Ενώ για την καλύτερη παρουσίαση των συναρτήσεων σύνθεσης ομιλίας, υλοποιήθηκε μια web εφαρμογή, με χρήση δυναμικών σελίδων Jsp, και οι βασικές συναρτήσεις σύνθεσης ομιλίας ενσωματώθηκαν σε αυτές.

6 Ευχαριστίες Η παρούσα διπλωματική εργασία εκπονήθηκε σε συνεργασία με την Ερευνητική Ομάδα του Εργαστηρίου Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού του τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, στα πλαίσια του προγράμματος του μεταπτυχιακού κύκλου σπουδών, υπό την επίβλεψη του καθηγητή Ι. Βλαχάβα. Θα ήθελα να τον ευχαριστήσω για την εμπιστοσύνη που έδειξε στο πρόσωπό μου, για την άριστη συνεργασία μας και για το ενδιαφέρον για την συγγραφή της εργασίας αυτής. Επίσης θα ήθελα να εκφράσω τις ιδιαίτερες ευχαριστίες μου στον λέκτορα Γ. Τσουμάκα για την σημαντική βοήθεια του, τις πολύτιμες συμβουλές και παρατηρήσεις του αλλά και την αμέριστη συμπαράστασή που έδειξε κατά τη διάρκεια της συνεργασίας μας. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου και τους φίλους μου για την υπομονή, την κατανόηση και την συμπαράστασή τους, και να τους αφιερώσω αυτήν την εργασία. Στεργιοπούλου Σοφία 10 Φεβρουαρίου 2010

7 Λίστα Περιεχομένων ΠΕΡΙΛΗΨΗ...2 ABSTRACT...3 ΠΡΟΛΟΓΟΣ...4 ΕΥΧΑΡΙΣΤΙΕΣ...6 ΛΙΣΤΑ ΠΕΡΙΕΧΟΜΕΝΩΝ...7 ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ...11 ΛΙΣΤΑ ΠΙΝΑΚΩΝ...14 ΛΕΞΙΚΟ ΤΕΧΝΙΚΩΝ ΟΡΩΝ ΓΡΑΠΤΟΣ ΚΑΙ ΠΡΟΦΟΡΙΚΟΣ ΛΟΓΟΣ ΕΙΣΑΓΩΓΗ Η ΣΥΝΘΕΣΗ ΦΩΝΗΣ ΣΥΣΤΗΜΑΤΑ ΚΑΙ ΥΠΟΚΑΤΗΓΟΡΙΕΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΟΜΙΛΙΑΣ Συστήματα παραγωγής φυσικής γλώσσας Συστήματα Τεχνολογίας Ομιλίας και βάσεις δεδομένων Τεχνολογία Ομιλίας και Προσωδία Τεχνολογία Ομιλίας και Συστήματα Μετατροπής Κειμένου σε Ομιλία ΑΝΑΛΥΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΤΡΟΠΗΣ ΚΕΙΜΕΝΟΥ ΣΕ ΟΜΙΛΙΑ (ΔΟΜΗ ΚΑΙ ΟΡΓΑΝΩΣΗ) Επεξεργασία φυσικής γλώσσας Αναλυτής κειμένου Αυτόματη φωνητική μεταγραφή Δημιουργία Προσωδίας ΠΑΡΑΓΩΓΗ ΣΥΝΘΕΤΙΚΗΣ ΟΜΙΛΙΑΣ Σύνθεση ομιλίας με μοντελοποίηση άρθρωσης Σύνθεση ομιλίας με κανόνες Σύνθεση ομιλίας με συνένωση μονάδων ΠΟΙΟΤΗΤΑ ΕΝΟΣ ΣΥΣΤΗΜΑΤΟΣ ΜΕΤΑΤΡΟΠΗΣ ΚΕΙΜΕΝΟΥ ΣΕ ΟΜΙΛΙΑ

8 1.7 ΠΑΡΑΔΕΙΓΜΑΤΑ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΤΡΟΠΗΣ ΚΕΙΜΕΝΟΥ ΣΕ ΟΜΙΛΙΑ ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΕΙΣΑΓΩΓΗ ΤΕΧΝΙΚΕΣ ΤΕΜΑΧΙΣΜΟΥ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ Μέθοδος τεμαχισμού με σύνθεση ομιλίας και δυναμική παραμόρφωση χρόνου Μέθοδος τεμαχισμού ομιλίας με κρυμμένα μοντέλα Markov Βελτίωση τεμαχισμού σημάτων ομιλίας με μετα-επεξεργασία Παράλληλος συνδυασμός ανεξάρτητων συστημάτων τεμαχισμού ομιλίας Αξιολόγηση τεχνικών τεμαχισμού σημάτων ομιλίας ΕΦΑΡΜΟΓΕΣ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΣΗΜΑΤΩΝ Εφαρμογή στη Σύνθεση Ομιλίας Εφαρμογή στην Αναγνώριση Ομιλίας Εφαρμογή στην Αναγνώριση Γλώσσας ΠΡΟΣΩΔΙΑΚΗ ΠΛΗΡΟΦΟΡΙΑ ΣΤΟΝ ΠΡΟΦΟΡΙΚΟ ΛΟΓΟ ΠΡΟΣΩΔΙΑ Βασικά συστατικά της προσωδίας Η έννοια της προσωδίας ΜΟΝΤΕΛΑ ΕΠΙΤΟΝΙΣΜΟΥ Ακουστικά μοντέλα επιτονισμού Ακουστικό μοντέλο επιτονισμού Fujisaki Μέθοδοι ακουστικής τυποποίησης Αντιληπτικά μοντέλα επιτονισμού Το IPO μοντέλο επιτονισμού Αυτόματη αντιληπτική τυποποίηση Γλωσσολογικά μοντέλα επιτονισμού Μοντέλο επιτονισμού ΤοΒΙ Το σύστημα Gr-ToBI ΑΝΑΠΤΥΞΗ ΓΛΩΣΣΙΚΩΝ ΠΟΡΩΝ ΓΙΑ ΤΗΝ ΕΡΕΥΝΑ ΤΗΣ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ Προετοιμασία Της Βάσης Δεδομένων ΘΕΩΡΗΤΙΚΗ ΣΥΝΔΕΣΗ ΠΡΟΣΩΔΙΑΣ ΚΑΙ ΣΥΝΤΑΞΗΣ

9 3.5 ΦΩΝΗΤΙΚΗ ΒΑΣΗ ΔΙΦΩΝΩΝ Επιλογή των δομικών ακουστικών μονάδων Λίστα δομικών μονάδων φωνητικής βάσης Λεκτικοί φορείς δομικών μονάδων φωνητικής βάσης Επιλογή του κατάλληλου ομιλητή και ηχογράφηση Κατάτμηση ηχογραφήσεων και έλεγχος Κανονικοποίηση σήματος ομιλίας ΤΟ ΠΡΟΣΩΔΙΑΚΟ ΣΩΜΑ ΟΜΙΛΙΑΣ ΜΙΑΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ Επιλογή ύφους ομιλίας και σύνοδος ηχογράφησης ΤΟ ΣΥΝΑΙΣΘΗΜΑΤΙΚΟ ΣΩΜΑ ΟΜΙΛΙΑΣ ΜΙΑΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ Κατηγορίες συναισθημάτων Ανάπτυξη τεχνικής για την αυτόματη τεμαχιοποίηση ηχογραφήσεων ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΠΡΟΣΩΔΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΜΕΤΑΤΡΟΠΗΣ ΚΕΙΜΕΝΟΥ ΣΕ ΟΜΙΛΙΑ ΒΑΘΜΙΔΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ Βαθμίδα προεπεξεργασίας κειμένου Εξαγωγή μορφοσυντακτικής πληροφορίας ΒΑΘΜΙΔΑ ΕΞΑΓΩΓΗΣ ΠΡΟΣΩΔΙΑΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΠΙΠΕΔΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΦΑΙΝΟΜΕΝΩΝ ΕΠΙΤΟΝΙΣΜΟΥ ΜΕ ΜΕΘΟΔΟΥΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Μοντελοποίηση καμπύλης τονικότητας Αλγόριθμοι μηχανικής μάθησης Δένδρα απόφασης Μπαεϋζιανή μάθηση Μάθηση βασισμένη σε στιγμιότυπα Μοντέλα μηχανικής μάθησης για την ανίχνευση προσωδιακών παύσεων ΑΞΙΟΛΟΓΗΣΗ ΕΠΙΤΟΝΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΓΙΑ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ Εισαγωγή Συναισθηματική ομιλία Δεδομένα συναισθηματικής ομιλίας ΤΕΧΝΟΛΟΓΙΕΣ ΥΛΟΠΟΙΗΣΗΣ

10 4.1 JAVA ΑPACHE TOMCAT NETBEANS JAVAEE JAVASERVER PAGES Βασικές Έννοιες Επιλογή της JSP Αρχιτεκτονική JSP Ανατομία μίας σελίδας JSP Στάδια επεξεργασίας σελίδας JSP Στοιχεία JSP JAVA SPEECH API Εφαρμογές Java με χρήση Τεχνολογίας Ομιλίας Java APIs (Ομιλίας και μη) Προϋποθέσεις του Java Speech API ΤΟ ΣΥΣΤΗΜΑ TTSAPP ΣΥΣΤΗΜΑ FREETTS Περίληψη της Διαδικασίας Σύνθεσης Ομιλίας Βήματα της Λειτουργίας της Σύνθεσης ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΥΣΤΗΜΑΤΟΣ TTSAPP Κατασκευή Δυναμικών Ιστοσελίδων Βασική Δομή Δυναμικών Ιστοσελίδων ΛΕΙΤΟΥΡΓΙΚΟΤΗΤΑ ΣΥΣΤΗΜΑΤΟΣ Μετατροπή Κειμένου σε Ομιλία (Μέσω Πεδίου Κειμένου) Μετατροπή Κειμένου σε Ομιλία (Μέσω Αρχείου) ΠΥΡΗΝΑΣ ΣΥΣΤΗΜΑΤΟΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ ΒΙΒΛΙΟΓΡΑΦΙΑ

11 Λίστα Σχημάτων Εικόνα 1.1. Η αλυσίδα επικοινωνίας από άνθρωπο σε άνθρωπο μέσω ομιλίας [36]...16 Εικόνα 1.2: Μπλοκ διάγραμμα του μηχανισμού παραγωγής ομιλίας [151]...17 Εικόνα 1.3: Παράδειγμα ροής αέρα εξόδου από την γλωττίδα κατά την διάρκεια ηχηρής ομιλίας [151]...18 Εικόνα 1.4: Παράδειγμα κυματομορφής ομιλίας όπου φαίνονται τα αντίστοιχα pitchmarks [15]...19 Εικόνα 1.5. Σύστημα αμφίδρομης φωνητικής απόκρισης - ΑΦΑ, (Interactive Voice Response IVR)...19 Εικόνα 1.6. Οι ακουστικοί ταλαντωτές του Christian Kratzenstein, Εικόνα 1.7. Η μηχανές των (α) Wolfgang von Kempelen και (β) Charles Wheatstone...21 Εικόνα 1.8 Ιστορικό χρονοδιάγραμμα της σύνθεσης φωνής...22 Εικόνα 1.9. Μπλοκ διάγραμμα ενός τυπικού διαλογικού συστήματος Εικόνα Κατηγορίες της τεχνολογίας ομιλίας...24 Εικόνα 1.11: Στάδια συστήματος παραγωγής φυσικής γλώσσας...26 Εικόνα Εξέλιξη της τεχνολογίας ομιλίας...29 Εικόνα 1.13 Λειτουργικό διάγραμμα συστήματος ΜκσΟ...37 Εικόνα Δομικό διάγραμμα του επιπέδου ΕΦΓ ενός συστήματος ΜκσΟ...37 Εικόνα 1.15 Βαθμίδα φωνητικής γραφής (α) βασισμένη σε λεξικό και (β) με κανόνες...42 Εικόνα Διάγραμμα της βαθμίδας δημιουργίας προσωδιακής πληροφορίας...44 Εικόνα Μοντελοποίηση κίνησης γλωττίδας με ένα σύστημα ελατηρίου-μάζας...46 Εικόνα 1.18 Δομικό διάγραμμα ενός συστήματος σύνθεσης ομιλίας με κανόνες...47 Εικόνα 2.1: Μπλοκ διάγραμμα της μεθόδου τεμαχισμού ομιλίας με χρήση των κρυμμένων μοντέλων Markov, για την γλωσσολογικά περιορισμένη περίπτωση...52 Εικόνα 2.2. Μπλοκ διάγραμμα της μεθόδου τεμαχισμού σημάτων ομιλίας με χρήση ενός συνθέτη ομιλίας και του αλγορίθμου δυναμικής παραμόρφωσης (Deroo et al., 1998)

12 Εικόνα 2.3: Μπλοκ διάγραμμα της μεθόδου τεμαχισμού ομιλίας με χρήση των κρυμμένων μοντέλων Markov...57 Εικόνα 2.4: Τυπική αρχιτεκτονική κρυμμένου μοντέλου Markov για την μοντελοποίηση φωνήματος ομιλίας, με 3 καταστάσεις χωρίς skipping μεταβάσεις Εικόνα 2.5: Δίκτυο κρυμμένων μοντέλων Markov, όπου φαίνεται η συνένωση τους για μια ακολουθία δύο λέξεων (one two) που αντιστοιχεί στην ακολουθία φωνημάτων /W/ - /AX/ - /N/ - /T/ - /OO/ (SPHINX, 2008)...58 Εικόνα 2.6: Παράδειγμα εφαρμογής του Viterbi αλγορίθμου σε 6 παραμετρικά διανύσματα ομιλίας και ένα κρυμμένο μοντέλο Markov 6 καταστάσεων [165]...59 Εικόνα 2.7: Μπλοκ διάγραμμα της διάταξης βελτίωσης των προβλέψεων των θέσεων των φωνητικών μεταβάσεων σε σήμα ομιλίας, με τεχνικές μετα-επεξεργασίας...62 Εικόνα 2.8: Μπλοκ διάγραμμα της διάταξης βελτίωσης των προβλέψεων των θέσεων των φωνητικών μεταβάσεων σε σήμα ομιλίας, με παράλληλο συνδυασμό μηχανών τεμαχισμού σημάτων ομιλίας Εικόνα 2.9: Μπλοκ διάγραμμα της διαδικασίας αυτόματης αναγνώρισης σημάτων ομιλίας...68 Εικόνα 3.1. Αλλαγές στην καμπύλη F0 ανάλογα με την θέση του τόνου επιτονισμού στη φράση...74 Εικόνα 3.2. Καμπύλη F0 της φράσης Χλόμιασαν με τις μανούβρες του καραβιού α) σε κατάσταση θυμού και β) σε κατάσταση στεναχώριας...74 Εικόνα 3.3. Φασματική και ακουστική αναπαράσταση κυματομορφής σε συνάρτηση με το χρόνο Εικόνα 3.4: Γραμμές κλίσης οι οποίες έχουν ληφθεί έπειτα από ακουστική ανάλυση. ΑΣ, ΤΑ, Εx, Mx και μx αντίστοιχα, αναφέρονται στην αρχική συχνότητα, τελική συχνότητα, ελάχιστα, μέγιστα και μικροπροσωδιακές μεταβολές Εικόνα 3.6 Τονικά ύψη και η ευθυγράμμιση τους με την τονισμένη συλλαβή [12]...82 Εικόνα 3.7. H κωδικοποίηση ToBI. Παράδειγμα της κυματομορφής της φράσης Τους έλεγχε με το καμτσίκι όπου φαίνονται, τα επίπεδα του φωνήματος (phones), λέξης (Ws), τα επίπεδα του ToBI: προσωδιακή λέξη (IWs), δείκτης παύσης (BreakIndex) και τόνων (PitchAccents, PhraseAccents) Εικόνα 3.8 Δομικό διάγραμμα διαδικασίας ανάπτυξης φωνητικής βάσης...91 Εικόνα 3.9 Μοντέλο φωνήματος, διφώνου και τριφώνου...93 Εικόνα Κυματομορφή και καμπύλη F0 της λέξης /tarara/

13 Εικόνα 3.11 Πλάτος, καμπύλη ενέργειας, θεμελιώδους συχνότητας και όρια διφώνου /n-e/ Εικόνα 3.12 α) Αριστερό, β) κεντρικό και γ) δεξί όριο του διφώνου /n-e/ Εικόνα Μπλοκ διάγραμμα συστήματος ανάπτυξης μοντέλων προσωδίας & ΜκσΟ.104 Εικόνα Στάδιο επεξεργασίας φυσικής γλώσσας Εικόνα Μπλοκ διάγραμμα εξαγωγής καμπύλης F0 με χρήση γραμμικής παλινδρόμησης Εικόνα FR=L/To=2, αφού εξαχθούν 2 βασικοί περίοδοι ανά παράθυρο, κάθε παράθυρο μετατοπίζεται κατά Τ-Το, έτσι ώστε να επιτευχθεί κατά την άθροιση, περίοδος Τ. [33] Εικόνα Διάγραμμα ροής ενός μοντέλου F0 σε σύστημα ΜΚσΟ Εικόνα 4.1. Java Εικόνα 4.2. Apache Tomcat Εικόνα 4.3. Το περιβάλλον NetBeans IDE Σχήμα 4.4.: 3-Tier Αρχιτεκτονική Πλατφόρμας Java EE Εικόνα 4.5.: Java EE Server και Containers Εικόνα 4.6. Δημιουργία δυναμικού περιεχομένου με στοιχεία JSP Εικόνα 475. Τυπική χρήση στοιχείων JSP Εικόνα 4.8. Η HTML σελίδα που φθάνει στο browser του χρήστη Εικόνα 4.9. Αρχιτεκτονική JSP σελίδας Εικόνα Δομή JSP σελίδας Εικόνα Στάδια επεξεργασίας σελίδας JSP Εικόνα 5.1. Οι δομές φωνής και έκφρασης Εικόνα 5.2. Βήματα της Λειτουργίας της Σύνθεσης του συστήματος FreeTTS Εικόνα 5.3 Βασική Δομή Δυναμικών Σελίδων Συστήματος Εικόνα 5.4 Αρχική Σελίδα Συστήματος Εικόνα 5.5 Σελίδα Μετατροπή Κειμένου σε Ομιλία (Μέσω Πεδίου Κειμένου) Εικόνα 5.6 Σελίδα Μετατροπή Κειμένου σε Ομιλία (Μέσω Αρχείου)

14 Λίστα Πινάκων Πίνακας 1 Επίδραση των ομοιοτήτων ή των διαφορών μεταξύ ζευγαριών πιθανών λέξεων...39 Πίνακας 2 Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων...72 Πίνακας 3 Οι μελωδίες σε διάφορα είδη πρότασης στα Ελληνικά Πίνακας 4 Χαρακτηριστικά Φωνημάτων Πίνακας 5 Directive Elements Πίνακας 6 Action Elements Πίνακας 7 Scripting Elements Λεξικό τεχνικών όρων Dynamic Time Warping (DTW) Δυναμική παραμόρφωση χρόνου Explicit segmentation Τεμαχισμός σημάτων ομιλίας με γλωσσολογικούς περιορισμούς Formant - Η περιοχή του φάσματος του ηχητικού σήματος ενός φωνήματος στην οποία παρατηρείται η μεγαλύτερη συγκέντρωση ενέργειας. Implicit segmentation Τεμαχισμός σημάτων ομιλίας χωρίς γλωσ/κούς περιορισμούς Hidden Markov Model (HMM) Κρυμμένο μοντέλο Markov Maximum Likelihood (ML) Μέγιστη πιθανοφάνεια Pitch Θεμελιώδης συχνότητα Pitchmarks Σημεία στην κυματομορφή του σήματος ομιλίας που αντιστοιχούν στα κλεισίματα της γλωττίδας Phoneme (Φώνημα) - Ένα φώνημα είναι μέλος του συνόλου των μικρότερων μονάδων της ομιλίας που χρησιμεύουν να διακρίνουν μια έκφραση από μια άλλη σε μια γλώσσα ή μια διάλεκτο. Regression Παλινδρόμηση Support vector machines Μηχανές υποστήριξης διανυσμάτων Unit (Μονάδα Ομιλίας) - Είναι μια ενιαία μονάδα ομιλίας που μπορεί να κυμανθεί σε μέγεθος από ολόκληρη φράση μέχρι ένα φώνημα. 14

15 Φωνητική οδός Η φωνητική οδός αρχίζει από το άνοιγμα των φωνητικών χορδών ή την γλωττίδα και τελειώνει στα χείλη, περιλαμβάνει τον φάρυγγα και τη στοματική κοιλότητα. 1 Γραπτός και προφορικός λόγος 1.1 Εισαγωγή Ένας καταλυτικός παράγοντας στην ανάπτυξη του ανθρώπινου πολιτισμού είναι η ομιλία. Η ομιλία αποτελεί τον βασικό τρόπο επικοινωνίας μεταξύ των ανθρώπων και μαζί με τον γραπτό λόγο αποτελούν τα δύο κύρια μέσα ανταλλαγής απόψεων, ιδεών, γνώσης και πολιτισμού. Η ανταλλαγή εμπειριών, ιδεών, αλλά και η μεταφορά γνώσης από τη μια γενιά ανθρώπων στην επόμενη πραγματοποιήθηκε σε μεγάλο βαθμό προφορικά. Αν και ο όγκος των βιβλίων, των εφημερίδων και όλων των άλλων εντύπων που τυπώνονται σήμερα είναι τεράστιος, ωστόσο η ποσότητα της πληροφορίας που ανταλλάσσεται με την προφορική ομιλία είναι πολύ μεγαλύτερη. Επιπλέον, η προφορική επικοινωνία είναι ταχύτερη και πιο εύχρηστη από την γραπτή. Αυτά τα δεδομένα καθιστούν την ομιλία και ότι σχετίζεται με αυτή απαραίτητα, από την πιο απλή επικοινωνία μεταξύ δύο ανθρώπων, έως την επικοινωνία μέσα σε διοικητικές δομές ή ακόμη και κράτη. Η ομιλία, μέσα από την ακατάπαυστη χρήση της στην καθημερινή ζωή ως εργαλείο επικοινωνίας αναπτύχθηκε σε ένα εξαιρετικό αποδοτικό σύστημα επικοινωνίας με στόχο την ανταλλαγή ακόμα και των πιο πολυσήμαντων ιδεών. Σ' αυτό βοήθησε το γεγονός ότι η προφορική ομιλία παραμένει λειτουργικά ανεπηρέαστη από την διαφορετικότητα της φωνής των ανθρώπων, των ιδιαιτεροτήτων ομιλίας, των διαφορών στη προφορά που μπορούν να εμφανιστούν, όταν εκατομμύρια άνθρωποι χρησιμοποιούν την ίδια γλώσσα. Η εξέλιξη διαφόρων τομέων της τεχνολογίας και της επιστήμης επέτρεψε την ανάπτυξη συστημάτων και εργαλείων με τα οποία μπορούν να αυτοματοποιηθούν διαδικασίες που σχετίζονται με την ομιλία. Είναι προφανές ότι τα συστήματα που έχουν να κάνουν με άμεση επικοινωνία ή συνδιαλλαγή με τον άνθρωπο, για να είναι φιλικά προς τον χρήστη, θα πρέπει να αντιγράψουν τον τρόπο επικοινωνίας μεταξύ των 15

16 ανθρώπων. Τέτοια συστήματα μπορεί να είναι αυτόματα τηλεφωνικά κέντρα, υπηρεσίες πληροφόρησης (για παράδειγμα τουριστικά κιόσκια), υπηρεσίες εξυπηρέτησης (για παράδειγμα κράτηση εισιτηρίων), έλεγχος χώρων/εισόδων με ομιλία, έξυπνα σπίτια, έξυπνα αυτοκίνητα κ.λπ.. Για παράδειγμα σε ένα τηλεφωνικό κέντρο, η χρήση ανθρώπων τηλεφωνητών αντικαθίσταται από αυτόματα συστήματα εξυπηρέτησης μέσω τηλεφώνου. Ειδικά για την περίπτωση των εφαρμογών που λειτουργούν υπό σταθερές συνθήκες θορύβου ή τρόπου ομιλίας, η σύγχρονη τεχνολογία ομιλίας επιτρέπει την αντικατάσταση ανθρώπων-υπαλλήλων συνομιλητών από διαλογικά συστήματα. Η τεχνολογία ομιλίας είναι ο τομέας της επιστήμης που ασχολείται με την επικοινωνία μεταξύ ανθρώπου και μηχανής (human-computer interaction HCI) με τον πλέον φυσικό τρόπο, δηλαδή την ομιλία. Επιπλέον, η τεχνολογία ομιλίας ενδιαφέρεται για τον αρμονικό συνδυασμό της ομιλίας με άλλα είδη επικοινωνίας, όπως οπτική επαφή, χειρονομίες κ.λπ. Όπως αναφέρθηκε και παραπάνω, τις τελευταίες δεκαετίες η ανάπτυξη συστημάτων που αφορούν την φωνητική αλληλεπίδραση μεταξύ ανθρώπου και μηχανής έχει αυξηθεί σημαντικά. Η επικοινωνία ανθρώπου μηχανής περιλαμβάνει την μετάδοση μηνυμάτων από τον άνθρωπο στην μηχανή, δηλαδή την μετατροπή φυσικής ομιλίας σε κείμενο (ή αναγνώριση ομιλίας), και την μετάδοση μηνυμάτων από την μηχανή στον άνθρωπο, δηλαδή την μετατροπή ενός κειμένου που παράγεται αυτόματα σε συνθετική ομιλία (ή σύνθεση ομιλίας). Εικόνα 1.1. Η αλυσίδα επικοινωνίας από άνθρωπο σε άνθρωπο μέσω ομιλίας [36] Στην Εικόνα 1.1 φαίνεται η «αλυσίδα ομιλίας», δηλαδή η από τον ομιλητή έως τον ακροατή διαδρομή μετάδοσης ενός δεδομένου (νοήματος). Αρχικά κάποια νοήματα 16

17 (semantics) παράγονται από τον εγκέφαλο. Τα νοήματα αυτά μεταφράζονται από τον εγκέφαλο σε προτάσεις φυσικής ομιλίας και μέσα από τους νευρώνες του νευρικού συστήματος, δίνεται εντολή σε όλους τους μύες που εμπλέκονται μέσα από το φωνητικό κανάλι στην παραγωγή ομιλίας να παράγουν το κύμα αέρα που αντιστοιχεί στην ομιλία της αντίστοιχης πρότασης. Συγκεκριμένα, οι μύες των πνευμόνων δημιουργούν μια πίεση αέρα που διέρχεται διαμέσου των φωνητικών χορδών, δηλαδή διαμέσου της γλωττίδας. Ανάλογα με το αν εκείνη την στιγμή παράγεται ηχηρή (voiced) ή άηχη (unvoiced) ομιλία οι φωνητικές χορδές βρίσκονται αντίστοιχα σε ταλάντωση ή χαλάρωση, δημιουργώντας μια ροή αέρα με παλμική ή τυρβώδη μορφή αντίστοιχα. Στη συνέχεια, η εξερχομένη της γλωττίδας ροή αέρα διέρχεται μέσα από τον φάρυγγα και τον λάρυγγα, και στη συνέχεια διαμέσου της στοματικής κοιλότητας, σε σύζευξη ή όχι με την ρινική κοιλότητα, εξέρχεται διαμορφωμένη με την μορφή του σήματος ομιλίας. Ανάλογα με το τι προφέρεται ανά χρονική στιγμή η φωνητική οδός μαζί με την σιαγώνα και την γλώσσα παίρνουν την κατάλληλη θέση άρθρωσης ώστε να παραχθεί ο κατάλληλος ήχος. Από την μεριά του ακροατή, το αυτί λαμβάνει το σήμα ομιλίας και το μετατρέπει στα αντίστοιχα νευρικά σήματα. Στη συνέχεια τα νεύρα μεταφέρουν την πληροφορία αυτή στον εγκέφαλο, ο οποίος με την σειρά του την μετατρέπει σε νοήματα τα οποία και επεξεργάζεται αναλόγως. Ένα μπλοκ διάγραμμα του μηχανισμού παραγωγής ομιλίας φαίνεται στην Εικόνα 1.2. Εικόνα 1.2: Μπλοκ διάγραμμα του μηχανισμού παραγωγής ομιλίας [151] Η ομιλία είναι στην πραγματικότητα ένα σύνολο από στοιχειώδεις ήχους. Οι ήχοι αυτοί ονομάζονται φωνήματα και είναι διαφορετικοί για κάθε γλώσσα. Τα φωνήματα, δηλαδή οι στοιχειώδεις ήχοι που απαρτίζουν την ανθρώπινη ομιλία, χωρίζονται σε δυο κατηγορίες, τα ηχηρά και τα άηχα φωνήματα. Ανάλογα με το εάν προφέρεται ηχηρό ή άηχο φώνημα κάθε στιγμή κατά την διάρκεια της ομιλίας, οι φωνητικές χορδές 17

18 πάλλονται (ταλαντώνονται) στην γλωττίδα ή διατηρούνται ακίνητες, αντίστοιχα. Ενώ κατά την προφορά των άηχων φωνημάτων ο αέρας βγαίνει από την γλωττίδα με μια τυρβώδη ροή, κατά την διάρκεια των ηχηρών φωνημάτων δημιουργείται μια ροή αέρα που έχει την μορφή παλμών. Ένα παράδειγμα ροής αέρα κατά την διάρκεια ηχηρής ομιλίας δίνεται στην Εικόνα 1.3. Εικόνα 1.3: Παράδειγμα ροής αέρα εξόδου από την γλωττίδα κατά την διάρκεια ηχηρής ομιλίας [151] Η περίοδος ταλάντωσης των φωνητικών χορδών ονομάζεται θεμελιώδης περίοδος (T0), και η αντίστοιχη συχνότητα ονομάζεται θεμελιώδης συχνότητα (F0) ή pitch. Σε πολλές εφαρμογές της τεχνολογίας ομιλίας, όπως για παράδειγμα στην σύνθεση ομιλίας, η επεξεργασία των δεδομένων γίνεται σύγχρονα με το pitch, ή όπως έχει επικρατήσει, η ανάλυση είναι pitch-synchronous. Ένα σημαντικό μέγεθος στην pitch-synchronous ανάλυση είναι η εξαγωγή των σημείων που κλείνει (ή ανοίγει) η γλωττίδα. Τα σημεία αυτά έχουν επικρατήσει στην βιβλιογραφία με τον όρο pitchmarks και χρησιμοποιούνται κυρίως στην σύνθεση ομιλίας (Dutoit, 1996; Black and Lenzo, 2007) [32,15]. Ένα παράδειγμα κυματομορφής ομιλίας όπου φαίνονται τα αντίστοιχα pitchmarks φαίνεται στην Εικόνα 1.4. Είναι προφανές ότι δύο διαδοχικά pitchmarks απέχουν μεταξύ τους απόσταση ίση με την θεμελιώδη περίοδο Τ0. 18

19 Εικόνα 1.4: Παράδειγμα κυματομορφής ομιλίας όπου φαίνονται τα αντίστοιχα pitchmarks [15] Κάθε φώνημα από μόνο του δεν έχει καμία νοηματική αντιστοίχηση, ωστόσο συνδυασμοί αυτών των ήχων και μάλιστα σε συγκεκριμένη σειρά αντιστοιχούν σε νοήματα, δηλαδή στις λέξεις κάθε γλώσσας. Μάλιστα το νόημα που αντιστοιχίζεται σε κάθε λέξη μπορεί να διαφοροποιείται για την ίδια ακολουθία φωνημάτων, σύμφωνα με το που τονίζεται η λέξη, ή σύμφωνα με τις λέξεις που προηγούνται ή ακολουθούν. Παρόλο που κάθε γλώσσα αποτελείται από το δικό της σύνολο φωνημάτων, όλες οι ομιλούμενες γλώσσες θεωρούνται υποσύνολα ενός υπερσυνόλου φωνημάτων που ονομάζεται διεθνές φωνητικό αλφάβητο (international phonetic alphabet IPA) (IPA, 1999) [53]. Εικόνα 1.5. Σύστημα αμφίδρομης φωνητικής απόκρισης - ΑΦΑ, (Interactive Voice Response IVR) Λόγω λοιπόν του ότι η ομιλία ανέκαθεν υπήρξε ο βασικός τρόπος επικοινωνίας μεταξύ των ανθρώπων, εκτενής έρευνα έχει πραγματοποιηθεί για την κατανόηση και παραγωγή της από μηχανές. Η κατανόηση από της μηχανές αφορά το πρόβλημα της αναγνώρισης ομιλίας (speech recognition) ενώ το πρόβλημα της παραγωγής καλείται σύνθεση ομιλίας (speech synthesis). 19

20 Ένα σύστημα το οποίο μπορεί να συνδυάζει και τις δύο τεχνολογίες καλείται σύστημα αμφίδρομης φωνητικής απόκρισης (ΑΦΑ) και το διάγραμμα λειτουργίας του παρουσιάζεται στην εικόνα Η σύνθεση φωνής Η δημιουργία μιας μηχανής ικανής να παράγει τεχνητή ομιλία, ήταν το όνειρο του ανθρώπου για αιώνες. Οι πρώτες προσπάθειες για δημιουργία συνθετικής ομιλίας έγιναν πριν δύο αιώνες. Στην Αγία Πετρούπολη το 1779 ο Ρώσος καθηγητής Christian Kratzenstein εξήγησε τις διαφορές μεταξύ 5 φωνηέντων «/a/, /e/, /i/, /o/,/u/» και έφτιαξε μια συσκευή για να τα παράγει τεχνητά. Κατασκεύασε ακουστικούς ταλαντωτές, εικόνα 1.6, παρόμοιους με την ανθρώπινη φωνητική οδό τους οποίους τους ενεργοποιούσε με αέρα όπως τα πνευστά μουσικά όργανα. Εικόνα 1.6. Οι ακουστικοί ταλαντωτές του Christian Kratzenstein, 1779 Λίγα χρόνια αργότερα στην Βιέννη το 1791 ο Wolfgang von Kempelen εισήγαγε την ακουστικο-μηχανική μηχανή φωνής η οποία μπορούσε να παράγει απλούς ήχους και μερικούς συνδυασμούς. Στην πραγματικότητα ο Kempelen ξεκίνησε την εργασία του πριν τον Kratzenstein, το 1769, και μετά από 20 χρόνια έρευνας εξέδωσε βιβλίο που περίγραφε τις μελέτες του στην παραγωγή ανθρώπινης φωνής και τα πειράματά του με το μηχάνημα παραγωγής φωνής. Το μηχάνημα του von Kempelen μοντελοποιούσε τους πνεύμονες με μια φυσούνα, τις φωνητικές χορδές με ένα παλλόμενο έλασμα και τη φωνητική οδό με ένα δερμάτινο σωλήνα, εικόνα 1.7. Αλλάζοντας το σχήμα του δερμάτινου σωλήνα μπορούσε να παράγει τα φωνήεντα. Η παραγωγή συμφώνων γινόταν ελέγχοντας με τα δάχτυλα τέσσερα διαφορετικά περάσματα αέρα. Η μελέτη του δημιούργησε την θεωρία ότι η φωνητική οδός είναι το κυριότερο μέρος της 20

21 συνάρθρωσης. Μέχρι τότε θεωρείτο μόνο ο λάρυγγας ως το κέντρο της παραγωγής φωνής. Στα μέσα του 1800 ο Charles Wheatstone επέκτεινε την μηχανή του Kempelen η οποία τώρα μπορούσε να παράγει πιο πολύπλοκα σύμφωνα, μπορούσε δηλαδή να παράγει συνδυασμούς ήχων αλλά ακόμη και ολόκληρες λέξεις. Εικόνα 1.7. Η μηχανές των (α) Wolfgang von Kempelen και (β) Charles Wheatstone Η σχέση ενός συγκεκριμένου φωνήεντος με τη γεωμετρία της φωνητικής οδού μελετήθηκε από τον Willis το Έκανε συνθέσεις διαφορετικών φωνηέντων χρησιμοποιώντας ταλαντωτές που έμοιαζαν με σωληνοειδή πνευστά όργανα. Παρατήρησε ότι η ποιότητα των φωνηέντων εξαρτάται μόνο από το μήκος των σωλήνων και όχι από τη διάμετρο. Η έρευνα και τα πειράματα με μηχανικά και ημιηλεκτρικά συστήματα συνεχίστηκε μέχρι το 1960 χωρίς αξιοσημείωτα αποτελέσματα. Διάσημος επιστήμονας που ασχολήθηκε με ημι-ηλεκτρικά συστήματα παραγωγής φωνής ήταν και ο Herman von Helmhotz. Ο πρώτος ηλεκτρικός συνθέτης δημιουργήθηκε από τον Stewart το Σαν διέγερση είχε ένα βομβητή και δύο κυκλώματα συντονισμού τα οποία μοντελοποιούσαν τους ακουστικούς συντονισμούς της φωνητικής οδού. Το μηχάνημα μπορούσε να παράγει μεμονωμένα φωνήεντα με τα δυο πρώτα formants, αλλά όχι σύμφωνα ή ολοκληρωμένες εκφωνήσεις. Παρόμοια 21

22 δουλειά έκανε και ο Wagner βάζοντας 4 ηλεκτρικούς συντονιστές παράλληλα. Το 1932 οι Ιάπωνες ερευνητές Obata και Teshima ανακάλυψαν και τρίτο formant στα φωνήεντα. Εικόνα 1.8 Ιστορικό χρονοδιάγραμμα της σύνθεσης φωνής Η πρώτη συσκευή που θεωρήθηκε ως συνθέτης φωνής ήταν ο VODER (Voice Operating Demonstrator) από τον Homer Dudley που παρουσιάστηκε στην διεθνή έκθεση της Νέας Υόρκης το Ο VODER δημιουργήθηκε εμπνευσμένος από τον VOCODER (Voice Coder) που αναπτύχθηκε στα Bell Laboratories στα μέσα του '30. Ο VODER ήτανε μια μηχανή η οποία ανέλυε την φωνή σε ακουστικές παραμέτρους και κατόπιν οδηγούσε τα αποτελέσματα σε ένα συνθέτη ο οποίος επαναδημιουργούσε μια προσέγγιση του αρχικού σήματος. Ο VODER δεχόταν χειροκίνητα τις παραμέτρους για τη σύνθεση και μπορούσε να παράγει προτάσεις. Ο έλεγχος της F0 γινόταν με ένα πεντάλ! Η ποιότητα της φωνής δεν ήταν καλή αλλά αυτή η μηχανή αποτέλεσε την αρχή για παραγωγή τεχνητής ομιλίας. Οι επιστήμονες μετά τον VODER άρχισαν να ενδιαφέρονται περισσότερο για τη σύνθεση φωνής. Ο πρώτος συνθέτης με κανόνες (formant) ήταν ο PAT (Parametric Artificial Talker) που παρουσιάστηκε από τον Walter Lawrence το Ο συνθέτης PAT είχε τρεις συντονιστές συνδεδεμένους παράλληλα (για κάθε αρμονική). Η είσοδός του ήταν βόμβος ή θόρυβος. Με τη χρησιμοποίηση μιας κινούμενης διαφάνειας μετατρέπονταν οι ζωγραφισμένες πατέντες της σε έξι συναρτήσεις χρόνου, οι οποίες διαμόρφωναν τις τρεις αρμονικές συχνότητες, την ένταση, την F0 και τα επίπεδα θορύβου. Την ίδια περίοδο ο Gunnar παρουσίασε τον πρώτο τύπου με κανόνες συνθέτη (OVE - Orator Verbis Electris) με συντονιστές σε σειρά. Δέκα χρόνια αργότερα, το 1962 παρουσιάστηκε ο OVE II από τους Fant και Martony ενώ στη συνέχεια οι OVE III και GLOVE στο Kungliga Tekniska Hogskolan της Σουηδίας. Ο πρώτος συνθέτης συνάρθρωσης (articulatory synthesizer) παρουσιάστηκε το 1958 από τον George Rosen στο Massachusetts Institute of Technology (MIT). Τα σήματα ελέγχου του συνθέτη 22

23 DAVO (Dynamic Analog of the VΟcal tract) περιέχονταν σε μια ηχογράφηση. Τα σήματα αυτά εισάγονταν χειρονακτικά. To 1979 οι Allen, Hunnicutt και Klatt παρουσίασαν το MITalk (Allen et al., 1987), ένα εργαστηριακό σύστημα σύνθεσης φωνής από κείμενο το οποίο αναπτύχθηκε στο Massachusetts Institute of Technology. Αργότερα ο D. Klatt παρουσίασε το Klattalk (Klatt, 1982) [60], μια επέκταση του MITalk. Η τεχνολογία που χρησιμοποιήθηκε στο MITalk και Klattalk αποτέλεσε την βάση για την ανάπτυξη συνθετών όπως ο DECtalk και ο Prose Την περίοδο παρουσιάστηκαν αρκετά εμπορικά συστήματα μετατροπής κειμένου σε ομιλία. Το πρώτο ολοκληρωμένο κύκλωμα για σύνθεση φωνής ήτανε το Votrax chip το οποίο αποτελούνταν από έναν συνθέτη με κανόνες και απλά χαμηλοδιαβατά φίλτρα. 1.3 Συστήματα και υποκατηγορίες της τεχνολογίας ομιλίας Η τεχνολογία ομιλίας προσπαθεί να αντιγράψει ή ακόμα και να βελτιώσει τις διαδικασίες που λαμβάνουν χώρα κατά την διάρκεια της προφορικής επικοινωνίας μεταξύ δύο ανθρώπων. Η διαδικασία επικοινωνίας ανθρώπου-μηχανής παρουσιάζεται στην Εικόνα 1.9, και αποτελεί την βασική δομή ενός τυπικού διαλογικού συστήματος. Εικόνα 1.9. Μπλοκ διάγραμμα ενός τυπικού διαλογικού συστήματος. Όπως φαίνεται στην Εικόνα 1.9, το σήμα ομιλίας από τον άνθρωπο-χρήστη επεξεργάζεται και οδηγείται σε ένα σύστημα αυτόματης αναγνώρισης ομιλίας 23

24 (automatic speech recognizer ASR), όπου το μετατρέπει στην ακολουθία των αναγνωρισμένων λέξεων. Στη συνέχεια ένα σύστημα επεξεργασίας φυσικής γλώσσας, το οποίο αποτελεί και την καρδιά του διαλογικού συστήματος θα επεξεργαστεί τα δεδομένα εισόδου. Η επεξεργασία αυτή αποτελείται από την μετατροπή από κείμενο σε νοήματα, με ένα σύστημα αντίληψης φυσικής ομιλίας (natural language understanding NLU), την επεξεργασία των νοημάτων και την δημιουργία νέων νοημάτων, δηλαδή της κατάλληλης απόκρισης του συστήματος, την μετατροπή των νέων αυτών νοημάτων σε φυσική ομιλία με ένα σύστημα δημιουργίας φυσικής ομιλίας (natural language generation NLG), και τέλος, την μετατροπή του κειμένου που αντιστοιχεί στην απόκριση του συστήματος προς τον άνθρωπο-χρήστη σε συνθετική ομιλία, με ένα σύστημα μετατροπής από κείμενο σε ομιλία (text-to-speech TTS). Είναι προφανές ότι η τεχνολογία ομιλίας περιλαμβάνει ένα πλήθος από συστήματα και υπο-συστήματα, για την πλήρη εκτέλεση της επικοινωνίας ανθρώπου-μηχανής. Η τεχνολογία ομιλίας μπορεί να χωριστεί σε διάφορες κατηγορίες και υπο-κατηγορίες όπως φαίνεται στην Εικόνα Εικόνα Κατηγορίες της τεχνολογίας ομιλίας Συστήματα παραγωγής φυσικής γλώσσας Την τελευταία πενταετία έχει σημειωθεί αλματώδης βελτίωση στο χώρο της σύνθεσης ομιλίας μετά την υιοθέτηση της προσέγγισης Σύνθεση με Συνένωση Μονάδων Φυσικής Ομιλίας. Καρπός της προσέγγισης αυτής είναι συστήματα τα οποία παράγουν ομιλία από κείμενο απεριορίστου λεξιλογίου, με υψηλή καταληπτότητα και φυσικότητα. 24

25 Τα συστήματα παραγωγής φυσικής γλώσσας (Natural Language Generation Systems - NLG) είναι συστήματα λογισμικού υπολογιστών που χρησιμοποιούν τεχνικές της τεχνητής νοημοσύνης και της υπολογιστικής γλωσσολογίας για να παράγουν αυτόματα κατανοητά κείμενα στα Αγγλικά ή άλλη ανθρώπινη γλώσσα, είτε αυτόνομα είτε ως μέρος εγγράφων πολυμέσων, ιστοσελίδων και συστημάτων ομιλίας. Ξεκινώντας από μια μη γλωσσική αναπαράσταση πληροφορίας ως είσοδο, τα συστήματα παραγωγής φυσικής γλώσσας χρησιμοποιούν γνώσεις για τη γλώσσα και την περιοχή της κάθε εφαρμογής για να παράγουν αυτόματα έγγραφα, αναφορές, επεξηγήσεις, μηνύματα βοήθειας και άλλων ειδών κείμενα (Reiter et al, 2000). Γενικά, στην είσοδο ενός συστήματος παραγωγής φυσικής γλώσσας λαμβάνονται υπόψη οι εξής πληροφορίες : Πληροφορίες για την περιοχή της εφαρμογής που συνήθως βρίσκονται σε μια ή περισσότερες βάσεις δεδομένων και ουσιαστικά περιγράφουν τις γνώσεις του συστήματος για την περιοχή. Ο επικοινωνιακός στόχος του παραγόμενου κειμένου (π.χ. περιγραφή συγκεκριμένου αντικειμένου, παροχή βοήθειας για την εκτέλεση συγκεκριμένης εργασίας κ.ά.). Πληροφορίες για τον αποδέκτη του παραγόμενου κειμένου που συνήθως σχετίζονται με τις γνώσεις και τα ενδιαφέροντά του (μοντέλο χρήστη). Πληροφορίες για το τι έχει περιληφθεί στα κείμενα που εμφανίστηκαν προηγουμένως (προϊστορία αλληλεπίδρασης). Ανάλογα με το σύστημα, όλες ή κάποιες από τις παραπάνω πληροφορίες περνούν από μια σειρά διαδικασιών και επιδέχονται διάφορες επεξεργασίες με αποτέλεσμα το τελικό κείμενο. Παρακάτω περιγράφεται ένα από τα μοντέλα που χρησιμοποιούνται για τα συστήματα παραγωγής φυσικής γλώσσας που αποτελείται από τέσσερα στάδια : την επιλογή περιεχομένου, τον σχεδιασμό εγγράφου, το μικροσχεδιασμό εγγράφου και τη παραγωγή επιφανειακής μορφής. Τα στάδια αυτά, που φαίνονται στην εικόνα 1.11, είναι διαδοχικά έτσι που η έξοδος του ενός να είναι είσοδος του επόμενου και το τελευταίο (παραγωγή επιφανειακής μορφής) να παράγει το τελικό κείμενο. 25

26 Εικόνα 1.11: Στάδια συστήματος παραγωγής φυσικής γλώσσας Ένα περίπλοκο NLG σύστημα πρέπει να περιλάβει τα στάδια του προγραμματισμού και της συγχώνευσης των πληροφοριών για να επιτραπεί η παραγωγή κειμένου με γλώσσα που να φαίνεται φυσική και να μην είναι επαναλαμβανόμενη. [162] Τα στάδια ενός τυπικού περίπλοκου συστήματος NLG είναι: Επιλογή Περιεχομένου: Απόφαση ποιων πληροφοριών θα αναφερθούν στο κείμενο. Παραδείγματος χάριν, σε ένα σύστημα πρόβλεψης των επιπέδων του ανέμου σε διάφορα σημεία της Ελλάδας, αποφασίζει εάν ρητά θα αναφέρει ότι το επίπεδο ανέμου είναι 7 στις Κυκλάδες. Προσδιορισμός Ομιλίας: Γενική οργάνωση των μεταβιβαζόμενων πληροφοριών. Παραδείγματος χάριν, αποφασίζει να περιγράψει τις περιοχές με τα υψηλά επίπεδα ανέμων πρώτα, αντί των περιοχών με τα χαμηλά επίπεδα ανέμων. Συνάθροιση: Συγχώνευση των παρόμοιων προτάσεων για βελτίωση της αναγνωσιμότητας και της φυσικότητας. Παραδείγματος χάριν, συγχωνεύοντας τις δύο προτάσεις: Τα επίπεδα των ανέμων την Παρασκευή θα είναι αυξημένα σε σχέση με τα μέτρια χθεσινά επίπεδα και Τα επίπεδα των ανέμων θα είναι περίπου 6 7 στα περισσότερα τμήματα της χώρας στην πρόταση Τα επίπεδα των ανέμων την Παρασκευή θα είναι αυξημένα σε σχέση με τα μέτρια χθεσινά επίπεδα με τιμές περίπου 6 7 στα περισσότερα τμήματα της χώρας. Λεξικολογική επιλογή: Τοποθέτηση των λέξεων στις έννοιες. Παραδείγματος χάριν, αποφασίζοντας εάν η λέξη μέσος ή η λέξη μέτριος πρέπει να χρησιμοποιηθεί κατά την περιγραφή ενός επιπέδου ανέμου με τιμή 4. Παραγωγή αναφερόμενων εκφράσεων: Δημιουργία αναφερόμενων εκφράσεων που προσδιορίζουν αντικείμενα και περιοχές. Παραδείγματος χάριν, αποφασίζοντας να χρησιμοποιήσει την έκφραση Στο Βόρειο Αιγαίο και στην Θράκη 26

27 για να αναφερθεί σε μια ορισμένη περιοχή στην Ελλάδα. Αυτός ο στόχος περιλαμβάνει επίσης να λάβει τις αποφάσεις για τις αντωνυμίες και άλλους τύπους αναφοράς. Υλοποίηση: Δημιουργία του πραγματικού κειμένου, το οποίο πρέπει να είναι σωστό σύμφωνα με τους κανόνες σύνταξης, μορφολογίας, και ορθογραφίας. Παραδείγματος χάριν, η χρησιμοποίηση της έκφρασης θα είναι για το μελλοντικό χρόνο του ρήματος είμαι. Πιο συγκεκριμένα, κατά την επιλογή περιεχομένου αποφασίζεται ποιες πληροφορίες (γεγονότα) είναι καταλληλότερες για να συμπεριληφθούν στο κείμενο εξόδου. Η επιλογή γίνεται από τη βάση δεδομένων, οπότε οι πληροφορίες που περιέχονται σ αυτή καθορίζουν σε μεγάλο βαθμό τις πληροφορίες που είναι δυνατό να συμπεριληφθούν στα παραγόμενα κείμενα. Η επιλογή περιεχομένου, όμως, επηρεάζεται και από άλλους παράγοντες, όπως τα γνωστά ή υποθετικά χαρακτηριστικά του αποδέκτη (χρήστη) και η προηγούμενη αλληλεπίδρασή του με το σύστημα, καθώς και ο διαθέσιμος χώρος στον οποίο πρέπει να χωρά το παραγόμενο κείμενο ή άλλες συνθήκες που εξαρτώνται από το εκάστοτε σύστημα και εφαρμογή. Μετά την επιλογή του περιεχομένου γίνεται ο σχεδιασμός του εγγράφου, που σκοπό έχει να καθορίσει τη γενική δομή του εγγράφου με κυριότερες παραμέτρους την επιθυμητή σειρά των γεγονότων που θα εκφραστούν και το εάν υπάρχουν σχέσεις και ποιες μεταξύ των γεγονότων αυτών (για παράδειγμα αν κάποιο γεγονός επεκτείνει κάποιο άλλο ή αντιτίθεται σε αυτό). Στη συνέχεια, κατά το μικροσχεδιασμό του εγγράφου, συμπληρώνονται οι διάφορες λεπτομέρειες που δεν καθορίστηκαν πλήρως στα δυο προηγούμενα στάδια. Ο μικροσχεδιασμός περιλαμβάνει τρεις κύριες λειτουργίες. Πρώτον, την επιλογή των όρων που θα χρησιμοποιηθούν για να εκφράσουν τα γεγονότα που αποφασίστηκαν στο πρώτο στάδιο (στάδιο επιλογής περιεχομένου). Η διαδικασία αυτή περιλαμβάνει για παράδειγμα την επιλογή ρήματος, χρόνου, υποκειμένου και αντικειμένου για κάθε γεγονός και είναι σαφώς δυσκολότερη στα πολύγλωσσα συστήματα, όπου η ίδια πληροφορία πρέπει να εκφραστεί σε διαφορετικές γλώσσες. Η δεύτερη λειτουργία είναι η παραγωγή αναφορικών εκφράσεων, δηλαδή εκφράσεων με τις οποίες θα αναφέρονται στο κείμενο οι οντότητες (π.χ. αυτή, αυτή η περιοχή, ο δορυφόρος ). Αυτό περιλαμβάνει τόσο την παρουσίαση μιας οντότητας για πρώτη φορά στο κείμενο, όσο και τις επόμενες αναφορές σε αυτή χωρίς να υπάρχει κίνδυνος παρανόησης του ποια είναι κάθε φορά η αναφερόμενη οντότητα. Τέλος, ο μικροσχεδιασμός περιλαμβάνει και την ομαδοποίηση, που είναι η απόφαση του πώς τα γεγονότα και οι δομές του σταδίου 27

28 του σχεδιασμού εγγράφου θα συνδυαστούν μεταξύ τους στο σχηματισμό προτάσεων και παραγράφων. Η ομαδοποίηση είναι σημαντική για την κανονική ροή και την αναγνωσιμότητα του κειμένου (για παράδειγμα οι προτάσεις Ο Γιάννης έχει υψηλή πίεση και Ο Γιάννης έχει χαμηλό αιματοκρίτη μπορούν να ομαδοποιηθούν σε αυτή Ο Γιάννης έχει υψηλή πίεση και χαμηλό αιματοκρίτη ). Το τελευταίο στάδιο του μοντέλου, που παράγει και το τελικό κείμενο, είναι η παραγωγή επιφανειακής μορφής. Αυτή είναι υπεύθυνη για τη μορφή του κειμένου και καθορίζει πράγματα όπως η κατάλληλη μορφή των λέξεων (π.χ. πτώση υποκειμένου και αντικειμένου), η τοποθέτηση των διάφορων συστατικών των προτάσεων (π.χ. υποκείμενο, ρήμα, αντικείμενο, προσδιορισμοί) στη σωστή σειρά, η συμφωνία γένους και αριθμού και άλλα, ώστε το παραγόμενο κείμενο να συμφωνεί με το συντακτικό της φυσικής γλώσσας. Έτσι, καταφέρνει το σύστημα να φτάσει σταδιακά από τη γλωσσικά ανεξάρτητη αναπαράσταση των πληροφοριών σε κατανοητά κείμενα κάποιας φυσικής γλώσσας με αρκετά καλή αναγνωσιμότητα. Τα NLG συστήματα έχουν βρει εφαρμογή σε διαφόρους κλάδους, κυρίως όμως στην αυτόματη παραγωγή κειμένων για πρόγνωση καιρού μέσω της χρήσης δεδομένων από αντίστοιχες βάσεις δεδομένων. Το πρώτο NLG σύστημα που αναπτύχθηκε για παραγωγή κειμένου καιρικών προβλέψεων από δεδομένα που αφορούν τον καιρό ονομαζόταν FoG, και χρησιμοποιήθηκε από τον Καναδά ώστε να παραγάγει τις καιρικές προβλέψεις στα γαλλικά και αγγλικά στις αρχές της δεκαετίας του ' Συστήματα Τεχνολογίας Ομιλίας και βάσεις δεδομένων Παρότι η τεχνολογία ομιλίας έχει περισσότερα από πενήντα χρόνια ζωής μόνο τα τελευταία είκοσι χρόνια παρουσιάστηκε ραγδαία εξέλιξη στο χώρο, τόσο σε ερευνητικό όσο και σε εμπορικό επίπεδο. Η αυξημένη ανάπτυξη συστημάτων και λειτουργιών, που αφορούν την φωνητική αλληλεπίδραση ανθρώπου και μηχανής, οφείλεται κατά κύριο λόγο στην δημιουργία βάσεων δεδομένων με ηχογραφήσεις ομιλίας μεγάλου όγκου, δηλαδή αρκετών ωρών ομιλίας. Στην Εικόνα 1.12 παρουσιάζεται η εξέλιξη της τεχνολογίας ομιλίας στον χρόνο παράλληλα με την διαθεσιμότητα βάσεων δεδομένων με ηχογραφήσεις ομιλίας. Είναι προφανές από την εικόνα ότι η δημιουργία βάσεων δεδομένων με ηχογραφήσεις ομιλίας μεγάλου όγκου (ώρες ομιλίας), από πολλούς ομιλητές και με φυσικό τρόπο ομιλίας, έπαιξε καθοριστικό ρόλο στην ανάπτυξη 28

29 συστημάτων και εργαλείων στο χώρο της τεχνολογίας ομιλίας. Πράγματι, οι μικρές βάσεις δεδομένων με ηχογραφήσεις ομιλίας από συνήθως ένα ομιλητή, ο οποίος διάβαζε ένα περιορισμένου λεξιλογίου κείμενο, ή ακόμα και μεμονωμένες λέξεις, σε συνδυασμό με τις περιορισμένες δυνατότητες των μικροεπεξεργαστών και υπολογιστικών συστημάτων των μέσων του προηγούμενου αιώνα, αποτέλεσαν τροχοπέδη για την εξέλιξη της τεχνολογίας ομιλίας. Εικόνα Εξέλιξη της τεχνολογίας ομιλίας. Η εξάρτηση της ανάπτυξης συστημάτων τεχνολογίας ομιλίας από μεγάλες βάσεις δεδομένων ομιλίας οφείλεται στα ιδιαίτερα χαρακτηριστικά που παρουσιάζει η ομιλία σε σχέση με άλλα βιομετρικά χαρακτηριστικά. Για παράδειγμα, τα δακτυλικά αποτυπώματα ενός ανθρώπου παραμένουν σταθερά μετά την ηλικία των 10 ετών και είναι μοναδικά για κάθε άνθρωπο (Φακωτάκης, 2007). Αντίθετα με τα δακτυλικά αποτυπώματα, η ομιλία παρουσιάζει μεγάλη ευαισθησία στην μίμηση, στη συναισθηματική κατάσταση του ομιλητή, στην υγεία του φωνητικού συστήματος κ.λπ. Έτσι, είναι προφανές ότι από ομιλητή σε ομιλητή, ή ακόμη και σε διαφορετικές συνθήκες του ίδιου ομιλητή, η ομιλία παρουσιάζει μεγάλες αποκλίσεις. Οι αποκλίσεις αυτές σε συνδυασμό με το ότι η τεχνολογία ομιλίας βασίζεται κατά κόρον σε στατιστικές μεθόδους, προαπαιτεί μεγάλο εύρος δεδομένων εκπαίδευσης ούτως ώστε να καλυφθούν όσο το δυνατό περισσότερες από τις αποκλίσεις αυτές. Η δημιουργία μεγάλων βάσεων δεδομένων με ηχογραφήσεις ομιλίας από διαφορετικούς ομιλητές και σε διαφορετικές συνθήκες και περιβάλλοντα εργασίας επέτρεψε την ανάπτυξη συστημάτων αυτόματης αναγνώρισης ομιλίας ανεξάρτητα του ομιλητή, και μεγάλου λεξιλογίου, σε αντίθεση με παλιότερα συστήματα που περιορίζονταν συνήθως σε ένα ομιλητή και σε περιορισμένο λεξιλόγιο (π.χ. αναγνώριση ψηφίων, ή μεμονωμένων λέξεων). 29

30 Ένα πρόβλημα που υπάρχει με τις βάσεις δεδομένων ομιλίας είναι ότι για να μπορεί να τις εκμεταλλευθεί κατάλληλα ένα σύστημα θα πρέπει να υποστούν προ-επεξεργασία. Η προ-επεξεργασία αυτή περιλαμβάνει συνήθως την ακολουθία των λέξεων που αντιστοιχούν στο φωνητικό μήνυμα που ειπώθηκε. Εκτός από αυτό τα συστήματα τεχνολογίας ομιλίας εκμεταλλεύονται πληροφορία η οποία βρίσκεται και σε χαμηλότερα επίπεδα, όπως για παράδειγμα η ακολουθία φωνημάτων που αντιστοιχούν στο φωνητικό σήμα, οι συλλαβές των λέξεων, η προσωδία της ομιλίας και οι θέσεις των φωνητικών μεταβάσεων. Η προ-επεξεργασία των βάσεων στα διάφορα επίπεδα πληροφορίας μπορεί να γίνει με το χέρι, συνήθως από κάποιο φωνολόγο. Ωστόσο, σε περίπτωση που η βάση αποτελείται από μερικές ώρες ηχογραφήσεων ομιλίας είναι προφανές ότι η λύση αυτή είναι απαγορευτική. Ενώ τα περισσότερα από τα προαναφερθέντα επίπεδα πληροφορίας μπορούν να εξαχθούν με ικανοποιητική ποιότητα και ακρίβεια, με αυτόματες μεθόδους, η εύρεση των θέσεων των φωνητικών μεταβάσεων αποτελεί σήμερα ένα σημαντικό πεδίο έρευνας, αφού θεωρείται η πιο δύσκολα εξαγόμενη πληροφορία, από μια βάση ομιλίας. Μάλιστα, η δυσκολία του προβλήματος σε συνδυασμό με την αναγκαιότητα εξαγωγής των θέσεων των ορίων των φωνημάτων για εφαρμογές όπως η σύνθεση ομιλίας, αυξάνει την σπουδαιότητα του προβλήματος αυτού. Τα νέα δεδομένα των τελευταίων ετών, όπου ηχογραφήσεις αρκετών ωρών από πολλούς ομιλητές και με φυσικό τρόπο ομιλίας είναι διαθέσιμα, οδήγησαν τόσο στην βελτίωση των συστημάτων τεχνολογίας ομιλίας όσο και στην δημιουργία νέων τεχνικών που βασίζονται στην εκμετάλλευση του όγκου των διαθέσιμων ηχογραφήσεων. Για παράδειγμα στο χώρο της αναγνώρισης ομιλίας, η μετάβαση από μικρό όγκο ηχογραφήσεων σε μεγάλες βάσεις αρκετών ωρών ομιλίας επέτρεψε την μετάβαση από τεχνικές σύγκρισης προτύπων (template matching) σε στατιστικά μοντέλα ομιλίας και την εκπαίδευση εύρωστων ακουστικών μοντέλων ειδικού ή ακόμα και γενικού σκοπού για εφαρμογές μεγάλου λεξικού (large vocabulary speech recognition). Ένα χαρακτηριστικό παράδειγμα επίδρασης της ανάπτυξης βάσεων δεδομένων ομιλίας είναι η σύνθεση ομιλίας, όπου η δημιουργία μεγάλων βάσεων επέτρεψε την ανάπτυξη νέων τεχνικών. Συγκεκριμένα, σήμερα η πιο επιτυχημένη και συχνά χρησιμοποιούμενη μέθοδος σύνθεσης ομιλίας είναι αυτή της συνένωσης μονάδων με επιλογή τους από μια διαθέσιμη βάση (concatenative unit-selection). Η επιτυχία της μεθόδου αυτής οφείλεται στην απευθείας χρησιμοποίηση κατάλληλων τμημάτων 30

31 ομιλίας χωρίς να έχουν υποστεί κάποια προ-επεξεργασία, με αποτέλεσμα η προκύπτουσα συνθετική ομιλία να είναι πολύ κοντά στην αυθεντική προηχογραφημένη ομιλία, σε αντίθεση με παλαιότερες μεθόδους όπως για παράδειγμα η formant σύνθεση (Allen et al., 1987; Dutoit, 1996; Huang et al. 2001) [,32,50] και η diphone σύνθεση (Moulines and Charpentier, 1990; Dutoit et al. 1996; Dutoit, 1997; Huang et al. 2001) [,32,50]. Οι βάσεις δεδομένων ομιλίας που δημιουργούνται αποτελούνται από μια γενικά τυποποιημένη δομή. Πιο συγκεκριμένα, για κάθε ηχογράφηση ομιλίας υπάρχει το αντίστοιχο αρχείο ήχου. Οι ηχογραφήσεις ομαδοποιούνται και κατατάσσονται ανάλογα με τον ομιλητή, την διάλεκτο, τη γλώσσα, το περιεχόμενο, κ.λπ. Μαζί με κάθε αρχείο ήχου υπάρχει και ένα σύνολο επισημειώσεων της ομιλίας, που σε κάθε βάση καλύπτει διαφορετικά επίπεδα, όπως το περιεχόμενο της ομιλίας σε επίπεδο λέξεων, σημειώσεις ως προς την εμφάνιση ηχητικών φαινόμενων (για παράδειγμα κάποιος θόρυβος από το περιβάλλον, από τον ομιλητή, λανθασμένη προφορά κ.λπ.), σημειώσεις της ακολουθίας των φωνημάτων που αντιστοιχούν σε αυτή την πρόταση ομιλίας, κ.λπ. Η ποιότητα των επισημειώσεων που συνοδεύουν ένα σύνολο ηχογραφήσεων είναι πολύ σημαντική σε ότι αφορά την εκμετάλλευση της βάσης από μια τεχνική ή ένα σύστημα, ώστε να επιτευχθεί ανταγωνιστική απόδοση. Ένα από τα πιο σημαντικά επίπεδα επισημείωσης βάσεων ομιλίας είναι η καταγραφή των ορίων των φωνημάτων. Μάλιστα, τα υπόλοιπα στάδια κατασκευής της βάσης δεν απαιτούν ιδιαίτερο κόπο, αφού το κείμενο λέξεων συνήθως είναι έτοιμο, από τις υπαγορεύσεις των ομιλητών από συγκεκριμένα κείμενα, ή αν δεν είναι διαθέσιμο μπορεί να εξαχθεί αυτόματα από έτοιμα συστήματα, και στη συνέχεια να διορθωθεί από ακροατή-διορθωτή ημιαυτόματα. Σε ότι αφορά την εξαγωγή των αντίστοιχων φωνημάτων, αυτές συνήθως εξάγονται από λεξικά προφοράς, ή αν δεν υπάρχουν τέτοια διαθέσιμα από κανόνες μετατροπής γραμμάτων στην αντίστοιχη φωνητική τους γραφή (grapheme-to-phone ή αλλιώς letter-to-sound κανόνες). Σε αντίθεση με τα παραπάνω επίπεδα επισημείωσης, η καταγραφή των χρονικών στιγμών των ορίων των φωνημάτων είναι μια ιδιαίτερα δύσκολη εργασία. Σήμερα, η πιο ακριβής μέθοδος εντοπισμού των ορίων των φωνημάτων είναι με το χέρι. Η εργασία αυτή γίνεται συνήθως από έμπειρους φωνολόγους, οι οποίοι με την βοήθεια λογισμικών εργαλείων, όπως για παράδειγμα (Boersma and Weenink, 2005) [20], ακούν το σήμα ομιλίας βλέποντας ταυτόχρονα την κυματομορφή του, προσπαθώντας έτσι να βρουν τις θέσεις των ορίων των φωνημάτων. Γίνεται αντιληπτό πως η 31

32 διαδικασία αυτή είναι ιδιαίτερα χρονοβόρα και επίπονη μεν, ακριβή σε κόστος δε. Ένα επιπλέον πρόβλημα που εισάγει αυτή η διαδικασία είναι τα προσωπικά κριτήρια κάθε φωνολόγου. Πράγματι, σε παλαιότερες έρευνες (Wesenick and Kipp, 1996; van Hemert 1991; Pellom and Hansen 1998) [91] έχει δειχθεί ότι για την ίδια φωνητική μετάβαση διαφορετικοί φωνολόγοι τοποθετούν σε διαφορετικές θέσεις το αντίστοιχο όριο. Μάλιστα, σε πολλές περιπτώσεις δεν υπάρχει καν συμφωνία για την τελική «σωστή» θέση του φωνητικού ορίου. Οι βάσεις δεδομένων με ηχογραφήσεις ομιλίας, που περιέχουν τις θέσεις των φωνητικών μεταβάσεων είναι καθοριστικής σημασίας σήμερα για την ανάπτυξη συστημάτων, όπως για παράδειγμα text-to-speech με συνένωση μονάδων. Ωστόσο, οι δυσκολίες που αναφέρθηκαν πιο πάνω καθιστούν σαφές ότι η χρήση φωνολόγων για την επισημείωση βάσεων δεδομένων μεγάλου όγκου, για παράδειγμα μερικών ωρών ομιλίας είναι απαγορευτική. Με αυτά τα δεδομένα γίνεται σαφές ότι η εκμετάλευση των υπαρχόντων και μεγάλου μεγέθους βάσεων δεδομένων ομιλίας, οι οποίες έχουν αποδειχθεί υπεύθυνες σε μεγάλο βαθμό για την ραγδαία εξέλιξη της τεχνολογίας ομιλίας εξαρτάται άμεσα από την ανάπτυξη μεθόδων για τον αυτόματο τεμαχισμό σημάτων ομιλίας. Επομένως ένα από τα κύρια ζητήματα που μελετώνται στην διεθνή βιβλιογραφία σχετικά με την τεχνολογία ομιλίας είναι ο αυτόματος τεμαχισμός των ψηφιακών σημάτων ομιλίας και η εφαρμογή του στα συστήματα ομιλίας Τεχνολογία Ομιλίας και Προσωδία Η διαρκώς αυξανόμενη ανάπτυξη εφαρμογών όπως τα συστήματα μετατροπής κειμένου σε ομιλία (TTS systems) ή τα συστήματα αυτόματης αναγνώρισης ομιλίας (ASR systems) κάνουν επιτακτική την ανάγκη της μελέτης χαρακτηριστικών της ομιλίας που δεν περιορίζονται σε συντακτικούς ή λεξιλογικούς κανόνες, αλλά σηματοδοτούνται από διαφορετικές διαδικασίες, όπως είναι η προσωδία. Τα προσωδιακά χαρακτηριστικά της ομιλίας είναι αυτά που πέρα από το λεξιλογικό περιεχόμενο των προτάσεων, επισημαίνουν άλλα σημαντικά στοιχεία που αφορούν στην εστίαση και την έμφαση, εισάγοντας με αυτό τον τρόπο ένα δευτερεύον υποκείμενο κανάλι στην επικοινωνία. Επιπλέον, συνδέονται σε μεγάλο βαθμό με την έκφραση συναισθήματος στην ομιλία. Γι'αυτό το λόγο είναι σημαντικό το να διερευνηθούν τα χαρακτηριστικά αυτά, τόσο 32

33 στην ουδέτερη ομιλία, όσο και στις περιπτώσεις ομιλίας σε ορισμένες συναισθηματικές καταστάσεις. Η προσωδία είναι ένα πολύπλοκο πλέγμα από φυσικά φωνητικά φαινόμενα που εφαρμόζονται για να εκφράσουν ένα παράλληλο κανάλι επικοινωνίας στην καθημερινή προφορική μας επικοινωνία. Σ' ένα προφορικό ή γραπτό κείμενο υπάρχει το σημασιολογικό περιεχόμενό του καθώς και η εννοιολογική απόχρωση του μηνύματος. Η προσωδία παίζει ένα σημαντικό υποστηρικτικό ρόλο στο να σηματοδοτεί αυτή την εννοιολογική απόχρωση, δηλαδή τις συναισθηματικές και εμφατικές επιπτώσεις στις οποίες αποσκοπεί ο ομιλητής ή τις οποίες συμπεραίνει ο ακροατής, καθώς επίσης τη στάση του ομιλητή απέναντι στο μήνυμα, απέναντι στον ακροατή ή ακροατές και απέναντι συνολικά στο γεγονός της επικοινωνίας. Απ' τη σκοπιά του ακροατή, εξάλλου, η προσωδία είναι αυτή που ευθύνεται για τη συστηματική αντίληψη και ανάκτηση των σκοπών του ομιλητή. Οι ιδιότητες αυτές της ομιλίας στις οποίες αναφέρεται η προσωδία και στις οποίες στηρίζονται τα παραπάνω φαινόμενα της ανθρώπινης επικοινωνίας είναι οι εναλλαγές στο ύψος της φωνής, δηλαδή η εναλλαγή της φωνητικής πτυχής σαν συνάρτηση του χρόνου, οι παύσεις, που υποδεικνύουν τις φράσεις και βοηθάνε στο να μην εξαντληθεί ο αέρας του ομιλητή, η ηχηρότητα της φωνής, δηλαδή το σχετικό εύρος της, καθώς και ο ρυθμός ομιλίας, που με άλλα λόγια αναλύεται στη διάρκεια των φωνημάτων, το συγχρονισμό και τη ρυθμικότητα. Κατά την προσωδιακή μελέτη, πολλοί χρησιμοποιούν τον όρο επιτονισμό, σαν συνώνυμο της προσωδίας. Στην ουσία, ο επιτονισμός περιορίζεται στις ηχοτονικές (tonal) πτυχές της, ενώ συχνά χρησιμοποιείται για τη δομική ερμηνεία των προσωδιακών φαινομένων. Με τον όρο προσωδιακός παράγοντας μιας εκφώνησης αναφερόμαστε στις πτυχές του προφορικού λόγου που σχετίζονται με την ποιότητα και τη χροιά της ανθρώπινης ομιλίας. Μέσω των παραγόντων αυτών μεταφέρεται πληροφορία η οποία δεν περιέχεται αρχικά στην λεξιλογική μορφή μιας έκφρασης. 33

34 1.3.4 Τεχνολογία Ομιλίας και Συστήματα Μετατροπής Κειμένου σε Ομιλία Μια εφαρμογή στην οποία έχει δοθεί μεγάλη έμφαση σε ερευνητικό επίπεδο σχετικά με την παραγωγή ομιλίας από μηχανή, είναι τα συστήματα μετατροπής κειμένου σε ομιλία (ΜΚσΟ ή συστήματα Text-To-Speech, TTS). Τα συστήματα TTS είναι αντικείμενο συστηματικής και συνεχόμενης έρευνας και αυτό έχει ως αποτέλεσμα τη βελτίωση της ποιότητας τους καθώς και τη σημαντική μείωση του κόστους τους. Τα συστήματα αυτά βρίσκουν ήδη εφαρμογή στις επικοινωνίες, όπου μηνύματα βασισμένα σε κείμενο, όπως τα ή τα fax, ή πληροφορίες που συνδυάζουν κείμενο και εικόνα, όπως οι ιστοσελίδες, αποδίδονται φωνητικά. Υπάρχει επίσης, το πρόγραμμα VoiceXML που παρέχει διαδραστικές υπηρεσίες ομιλίας διαμέσου του διαδικτύου. Γενικότερα, τα συστήματα TTS καλύπτουν την ανάγκη για φωνητική απόδοση πληροφοριών, όλων των ειδών, που βρίσκονται αποθηκευμένες στις βάσεις δεδομένων, όπως για παράδειγμα τηλεφωνικοί αριθμοί, διευθύνσεις ή πληροφορίες πλοήγησης αυτοκινήτων. Ακόμη, βρίσκουν εφαρμογή στις αυτόματες υπηρεσίες πληροφόρησης, που παρέχουν για παράδειγμα πληροφορίες για τοποθεσίες και μενού εστιατορίων ή πραγματοποιούν αυτόματη εκφώνηση δελτίων καιρού και ειδήσεων μέσω τηλεφώνου. Δίνουν επίσης λύσεις και σε πιο κλασικές ανάγκες του ανθρώπου, όπως είναι η αυτόματη ανάγνωση εντύπων από μια μηχανή (ομιλούντα βιβλία), που εξυπηρετεί ιδιαίτερα άτομα με προβλήματα όρασης. Επιπλέον, η έρευνα στρέφεται και στην δημιουργία συστημάτων που αποσκοπούν στην μετατροπή εννοιών σε ομιλία (Concept to speech systems) όπου στην περίπτωση αυτή ο συνθέτης δέχεται ως είσοδο την έξοδο ενός συστήματος δημιουργίας φυσικής γλώσσας (Theune et al., 2001). To πλεονέκτημα που έχουν τέτοιου είδους συστήματα είναι ότι παρέχουν στον συνθέτη περισσότερη πληροφορία για την δημιουργία του τεχνητού λόγου. Έτσι μαζί με τις λέξεις που θα εκφωνηθούν, μπορεί να δοθεί συντακτική, σημασιολογική και προσωδιακή πληροφορία που αλλιώς ο συνθέτης θα έπρεπε να εξάγει ή να προβλέψει ο ίδιος. Οι πιθανές εφαρμογές των υψηλής ποιότητας TTS συστημάτων είναι πράγματι πολυάριθμες. Παρακάτω παρουσιάζονται μερικά παραδείγματα: Τηλεπικοινωνιακές υπηρεσίες. Τα TTS συστήματα καθιστούν πιθανό να έχει κανείς πρόσβαση σε πληροφορίες με μορφή κειμένου από το τηλέφωνο. 34

35 Οι πληροφορίες σε μορφή κειμένου μπορεί να είναι από απλά μηνύματα, όπως οι τοπικές πολιτιστικές εκδηλώσεις (κινηματογράφοι, θέατρα...), στις τεράστιες βάσεις δεδομένων που μπορούν μετά βίας να διαβαστούν και να αποθηκευτούν ως ψηφιοποιημένη ομιλία. Οι ερωτήσεις ανάκτησης σε τέτοια συστήματα πληροφοριών θα μπορούσαν να τεθούν μέσω της φωνής του χρήστη (με τη βοήθεια ενός λεκτικού συστήματος αναγνώρισης), ή μέσω του τηλεφωνικού πληκτρολογίου (με τα συστήματα DTMF). Μερικές τηλεφωνικές υπηρεσίες που μπορούν να υλοποιηθούν με τη χρήση TTS συστημάτων είναι: Ηχητική αναγνώριση κλήσεων (μπορεί κανείς να ακούσει το όνομα του καλούντος πριν συνδεθεί η κλήση και να την αποφύγει), ολοκληρωμένο μήνυμα (μπορεί κανείς να ακούσει το ηλεκτρονικό ταχυδρομείο ή το facsimiles αυτόματα από το τηλέφωνο). Αυτές οι εφαρμογές έχουν αποδειχθεί αποδεκτές, και ακόμα και δημοφιλείς, υπό τον όρο ότι η σαφήνεια των συνθετικών εκφράσεων είναι αρκετά υψηλή. Η φυσικότητα δεν ήταν ένα σημαντικό ζήτημα στις περισσότερες περιπτώσεις. Γλωσσική εκπαίδευση. Η υψηλής ποιότητας TTS σύνθεση μπορεί να συνδυαστεί με ένα σύστημα εκμάθησης με βοήθεια υπολογιστή, και να παρέχει ένα χρήσιμο εργαλείο για να μάθει κανείς μια νέα γλώσσα. Κάτι που δεν έχει υλοποιηθεί πλήρως ακόμα, λαμβάνοντας υπόψη τις κρίσιμες απαιτήσεις τέτοιων σκοπών σε αντιδιαστολή με τη σχετικά κακή ποιότητα, που είναι διαθέσιμη στα εμπορικά συστήματα. Βοήθεια στους ανθρώπους με ειδικές ανάγκες. Οι αναπηρίες φωνής δημιουργούνται από διανοητικές ή σωματικές διαταραχές. Οι μηχανές μπορούν να είναι μια ανεκτίμητη βοήθεια στην τελευταία περίπτωση: με τη βοήθεια ενός ειδικά σχεδιασμένου πληκτρολογίου και ενός γρήγορου προγράμματος σύνθεσης προτάσεων, η συνθετική ομιλία μπορεί να παραχθεί σε μερικά δευτερόλεπτα για να ξεπεράσει τέτοιου είδους εμπόδια. Όσοι άνθρωποι επίσης πάσχουν από προβλήματα όρασης μπορούν να ωφεληθούν από TTS συστήματα, τα οποία μπορούν να συνδεθούν με τα οπτικά συστήματα αναγνώρισης (OCR) και να προσφέρουν πρόσβαση σε γραπτές πληροφορίες. Ομιλούντα βιβλία και παιχνίδια. Η αγορά παιχνιδιών έχει αγγιχτεί ήδη από τη λεκτική σύνθεση. Πολλά παιχνίδια ομιλίας έχουν εμφανιστεί, η κακή ποιότητα των οποίων αναπόφευκτα σταματά την εκπαιδευτική φιλοδοξία 35

36 τέτοιων προϊόντων. Η υψηλής ποιότητας σύνθεση όμως σε προσιτές τιμές μπορεί να ανατρέψει κάτι τέτοιο. Φωνητικός έλεγχος. Σε μερικές περιπτώσεις, οι προφορικές πληροφορίες είναι αποδοτικότερες από τα γραπτά μηνύματα. Η φωνητική έκκληση είναι ισχυρότερη, ενώ η προσοχή μπορεί να εστιάσει και σε άλλες οπτικές πηγές πληροφοριών. Πολυμέσα, επικοινωνία ανθρώπου-μηχανής. Μακροπρόθεσμα, η ανάπτυξη των υψηλής ποιότητας TTS συστημάτων είναι ένα απαραίτητο βήμα (όπως είναι η αύξηση των λεκτικών συστημάτων αναγνώρισης) προς τους πληρέστερους τρόπους επικοινωνίας μεταξύ των ατόμων και των υπολογιστών. Τα πολυμέσα είναι μια πρώτη αλλά ελπιδοφόρος κίνηση σε αυτήν την κατεύθυνση. Βασική και εφαρμοσμένη έρευνα. Τα Text To Speech (TTS) συστήματα έχουν ένα πολύ ιδιαίτερο χαρακτηριστικό γνώρισμα που τα κάνει θαυμάσια εργαστηριακά εργαλεία για τους γλωσσολόγους: είναι πλήρως ελεγχόμενα, έτσι ώστε όταν επαναλαμβάνεται η ίδια διαδικασία να μπορεί να παρέχει τα ίδια αποτελέσματα (κάτι που δεν συμβαίνει με τους ανθρώπους). Ένας ιδιαίτερος τύπος TTS συστημάτων, που είναι βασισμένα σε μια περιγραφή του φωνητικού σήματος μέσω των ηχηρών συχνοτήτων του (formants) έχει επίσης χρησιμοποιηθεί εκτενώς από επιστήμονες στην μελέτη της ομιλία σε σχέση με τους ακουστικούς κανόνες. 1.4 Ανάλυση συστημάτων μετατροπής κειμένου σε ομιλία (Δομή και οργάνωση) Τα συστήματα μετατροπής κειμένου-σε-ομιλία (ΜΚσΟ) δέχονται ως είσοδο κείμενο και παράγουν συνθετικό προφορικό λόγο, παρέχοντας με αυτόν τον τρόπο στους ανθρώπους πληροφορίες κειμένου μέσω φωνητικών μηνυμάτων. Το κείμενο μπορεί να εισάγεται απευθείας στον υπολογιστή από κάποιον χρήστη ή να σαρώνεται και στην συνέχεια να περνάει από ένα σύστημα οπτικής αναγνώρισης χαρακτήρων (Optical Character Recognition system OCR). Στο παρακάτω σχήμα περιγράφεται το γενικό μοντέλο ενός συστήματος ΜκσΟ. Αρχικά το προς σύνθεση κείμενο εισέρχεται στο στάδιο της επεξεργασίας φυσικής γλώσσας όπου υφίσταται μορφολογική, λεξιλογική και γλωσσολογική ανάλυση. Η 36

37 ανάλυση αυτή οδηγεί στην απόκτηση της απαραίτητης πληροφορίας για την δημιουργία των προσωδιακών προδιαγραφών του συνθετικού λόγου. Σαν επόμενο στάδιο έχοντας μια λεπτομερή φωνητική και γλωσσολογική αναπαράσταση του κειμένου εισόδου καθώς και την προσωδία των φωνημάτων προχωράμε στην ψηφιακή επεξεργασία του σήματος που θα δώσει σαν έξοδο την ομιλία. Εικόνα 1.13 Λειτουργικό διάγραμμα συστήματος ΜκσΟ Οι καρποί της συστηματικής και συνεχόμενης έρευνας στον τομέα της ΜΚσΟ έχει ως αποτέλεσμα τη βελτίωση της ποιότητας της συνθετικής ομιλίας πετυχαίνοντας ταυτόχρονα χαμηλό κόστος. Το γεγονός αυτό, σε συνδυασμό με τις ολοένα αυξανόμενες ανάγκες σε έναν κόσμο διακίνησης τεράστιου όγκου πληροφορίας, όπου πολλές από αυτές είναι πληροφορίες κειμένου, έδωσαν το κίνητρο για την ευρεία εξάπλωση των ΜΚσΟ εφαρμογών Επεξεργασία φυσικής γλώσσας Προχωρώντας ένα βήμα στην περιγραφή ενός συστήματος μετατροπής κειμένου σε ομιλία συναντάμε το επίπεδο επεξεργασίας φυσικής γλώσσας. (ΕΦΓ). Στην πραγματικότητα, μπορούμε να το χωρίσουμε, χωρίς απώλεια της γενικότητας σε τρία τμήματα: τον αναλυτή κειμένου (ΑΚ), τον μετατροπέα της λεξικής σε φωνητική γραφή (ΜΛσΦΓ), και της γεννήτρια προσωδίας (ΓΠ). (Εικόνα 1.14) Εικόνα Δομικό διάγραμμα του επιπέδου ΕΦΓ ενός συστήματος ΜκσΟ 37

38 Αναλυτής κειμένου Ο βασικός σκοπός λειτουργίας του αναλυτή κειμένου ενός συστήματος ΜΚσΟ είναι η μετατροπή του κειμένου εισόδου σε μια μορφή καταλληλότερη για την εφαρμογή γλωσσολογικής επεξεργασίας. Αυτό μπορεί να θεωρηθεί ως μια λειτουργία κατά την οποία προσπαθούμε, το ακατέργαστο κείμενο, να το κάνουμε πιο κατανοητό στον υπολογιστή. Στα πλαίσια της ανάλυσης αυτής πραγματοποιείται κατάτμηση του κειμένου σε λέξεις, σύμβολα και σύνολα λέξεων συνδεδεμένα μεταξύ τους καθώς και η αποβολή μη χρήσιμων χαρακτήρων (όπως κενά, χαρακτήρες αλλαγής γραμμής, κ.α.). Η προεπεξεργασία, είναι ως επί το πλείστον μια πολύπλοκη διαδικασία κατά την οποία μπορούν να παρουσιαστούν προβλήματα τα οποία σχετίζονται άμεσα με την γλώσσα στην οποία δουλεύουμε (Sproat, 1996). Για παράδειγμα ας θεωρήσουμε την παρακάτω πρόταση ότι είναι είσοδος σε έναν αναλυτή κειμένου, Στείλε ηλεκτρονικά στον κ. Παπαδόπουλο μια απόδειξη με κωδικό AC (κωδικός ) με ημερομηνία 12/12/2009, αλλιώς!!!!,παρατηρούμε ότι αυτή η πρόταση είναι γεμάτη με χαρακτήρες (Ελληνικούς και Λατινικούς), σύμβολα και αριθμούς που πρέπει να διερμηνευτούν και να προφερθούν με σωστό τρόπο. Ψηφία, αριθμοί, ημερομηνίες, σύμβολα, ακρώνυμα πρέπει να αναπτυχθούν σε πλήρεις λέξεις. Σε σχέση με το μοντέλο επικοινωνίας μεταξύ ανθρώπων, που ορίσαμε στο προηγούμενο κεφάλαιο, θα λέγαμε ότι η μονάδα ανάλυσης κειμένου λαμβάνει την γραπτή πληροφορία σαν είσοδο και με βάση το είδος σημειολογίας που αναγνωρίζει (φυσική γλώσσα ή άλλος, π.χ. μια ημερομηνία), αποκωδικοποιεί το γραπτό σήμα σε μια σαφή, δομημένη, αναπαράσταση, και στην περίπτωση αναπαράστασης της πληροφορίας με χρήση μη-φυσικής γλώσσας, συνθέτει φράσεις για την απόδοση αυτής. Είναι σημαντικό να σημειώσουμε ότι η ανάλυση κειμένου περιλαμβάνει μόνο την ανακάλυψη της αρμόζουσας λέξης (και στην αρμόζουσα μορφή) που περιγράφει την πληροφορία στο κείμενο εισόδου και δεν γίνεται προσπάθεια για την σημασιολογική και εννοιολογική ανάλυση του. Μια γενική επισκόπηση των διαδικασιών που λαμβάνουν χώρα κατά την ανάλυση του κειμένου δίνεται παρακάτω: Προ-επεξεργασία: πιθανός προσδιορισμός του ύφους του κειμένου, ζητήματα σχετικά με το είδος κωδικοποίησης των χαρακτήρων, πιθανά πολυγλωσσικά ζητήματα. Διαχωρισμός προτάσεων: κατάτμηση του κειμένου εισόδου σε προτάσεις. 38

39 Κατάτμηση προτάσεων: κατάτμηση των προτάσεων που αναγνωρίστηκαν στο προηγούμενο στάδιο σε δείγματα (λέξεις, συμβολοσειρές, κ.λ.π.) Ανάλυση κειμένου: αυτό το στάδιο της επεξεργασίας απαρτίζεται από τις παρακάτω διεργασίες και καλείται να αποσαφηνίσει τις περιπτώσεις που φαίνονται στον Πίνακας 1. Λαμβάνει χώρα δηλαδή μια συσχέτιση μεταξύ του νοήματος, της γλωσσική και φωνητικής μορφής των λέξεων. Σημειολογική κατηγοριοποίηση: ταξινόμηση κάθε δείγματος σε μια από τις σημειολογικές κατηγορίες της φυσικής γλώσσας π.χ., σύντμησης, ποσότητας, ημερομηνίας, χρόνου κ.λπ. Αποκωδικοποίηση δειγμάτων: εύρεση της ταυτότητας ενός δείγματος κάνοντας χρήση ενός αποκωδικοποιητή σύμφωνα με την προηγούμενη σημειολογική ταξινόμηση του. Φραστική απόδοση/ρηματοποίηση: φραστική απόδοση δειγμάτων που δεν ανήκουν στη φυσική γλώσσα &, κ.λ.π.) Μορφολογική ανάλυση: προσδιορισμό γραμματικών χαρακτηριστικών των δειγμάτων, όπως μέρος του λόγου, γένος, κ.λ.π. Συντακτική ανάλυση: εύρεση της συντακτικής δομής μιας πρότασης. Πίνακας 1 Επίδραση των ομοιοτήτων ή των διαφορών μεταξύ ζευγαριών πιθανών λέξεων 39

40 Αυτόματη φωνητική μεταγραφή Το τμήμα ΜΛσΦΓ ενός συστήματος ΜΚσΟ ευθύνεται για τον αυτόματο προσδιορισμό της φωνητικής μεταγραφής του κειμένου εισόδου. Τα προβλήματα που συναντάμε σε αυτό το στάδιο είναι εξαρτώμενα από τη γλώσσα. Στις ακόλουθες παραγράφους, τα παραδείγματα δίνονται για τα Ελληνικά αλλά τα περισσότερα από τα συμπεράσματα μπορούν να προέλθουν, τηρουμένων των αναλογιών, από άλλες γλώσσες. Είναι γνωστό ότι η προφορά μιας λέξεις γενικά διαφέρει από την ορθογραφία της. Αυτό το γεγονός κατά ένα μέρος οφείλεται στην εξέλιξη (και αλλοίωση) που υφίσταται η προφορική γλώσσα σε σχέση με την, πιο άκαμπτη γραπτή. Αποτέλεσμα τούτου είναι ότι η αρχή ένας χαρακτήρας = ένα φώνημα συχνά να μην ακολουθείται. Έτσι, ένας χαρακτήρας μπορεί να αντιστοιχεί σε δύο φωνήματα όπως το ξ /ks/, περισσότεροι του ενός χαρακτήρες μπορεί να παράγουν ένα φώνημα όπως το εί, οί, υί που αντιστοιχούν στο /i/. Ακόμα ένας ή μια σειρά από χαρακτήρες μπορούν αν προφερθούν με διαφορετικούς τρόπους ανάλογα με το λεξικό ή φωνητικό περιβάλλον στο οποίο βρίσκονται (παράδειγμα). Όπως είδαμε στην αρχή της παρούσης παραγράφου η βαθμίδα ΜΛσΦΓ είναι υπεύθυνη για την αυτόματη παραγωγή της φωνητικής μεταγραφής του κειμένου εισόδου. Αν και κάποιος θα μπορούσε αρχικά να ισχυριστεί ότι η υλοποίηση αυτής της διαδικασίας είναι τόσο απλή όσο η διαδικασία αναζήτησης σε ένα λεξικό, μια βαθύτερη εξέταση του προβλήματος κάνει αντιληπτό ότι οι περισσότερες λέξεις μπορεί να έχουν πολλές διαφορετικές εκφάνσεις κατά την χρήση τους στον προφορικό λόγο όπου πολλές από τις οποίες δεν αναφέρονται στα λεξικά. Πέραν τούτου, πολλές υποψήφιες προφορές μιας λέξης μπορεί να είναι προαιρετικές στη χρήση τους εννοώντας με αυτό ότι μπορεί να χρησιμοποιηθεί η μία στην θέση της άλλης χωρίς αλλοίωση του νοήματος ή της φυσικότητας της φράσης. Πολλές φορές όμως αυτό δεν είναι εφικτό αφού υπάρχει το ενδεχόμενο η χρήση μίας συγκεκριμένης εκ των πιθανών προφορών μιας λέξης να είναι απαραίτητη για την διατήρηση του επιθυμητού νοήματος. Συνοψίζοντας θα λέγαμε ότι η διαδικασία αντιστοίχησης μιας (και ακριβής) φωνητικής μεταγραφής σε κάθε λέξη μιας πρότασης δεν είναι ανάλογη με μια σειρά αναζητήσεων σε ένα λεξικό (μια για κάθε λέξη) για τους ακόλουθους λόγους: Συνήθως τα λεξικά αναφέρονται στην προφορά του λήμματος μιας λέξης και δεν αναφέρονται στις πιθανές, λόγω συγκεκριμένης μορφολογίας της φράσης, διαφοροποίηση τους. 40

41 Κάποιες λέξεις αντιστοιχούν σε περισσότερες από μια εγγραφές σε ένα λεξικό. Η προφορά μιας λέξης σε ένα λεξικό είναι περισσότερο φωνημική παρά φωνητική. 1 Λέξεις οι οποίες βρίσκονται μέσα σε προτάσεις προφέρονται με διαφορετικό τρόπο από την μεμονωμένη προφορά τους. Στρατηγικές υλοποίηση βαθμίδας ΜΛσΦΓ Οι προσεγγίσεις για την φωνητική μεταγραφή ενός κειμένου ουσιαστικά χωρίζονται σε δύο κατηγορίες, τις βασισμένες σε λεξικό (dictionary based) και με κανόνες (rule based), αν και υπάρχουν και κάποιες υβριδικές λύσεις όπου χρησιμοποιούνται και οι δύο τεχνικές. Διαγράμματα των δύο παραπάνω τεχνικών φαίνονται στο σχήμα Με στόχο τον σχεδιασμό και την υλοποίηση ενός λεξικού εύλογου μεγέθους, οι καταχωρήσεις είναι ως επί το πλείστον περιορισμένες στα μορφήματα, και η προφορά των επιφανειακών μορφών (surface forms) αποτελείται από κλιτικούς, παραγωγικούς και συνθετικούς μορφονεμικούς κανόνες που περιγράφουν πως οι φωνητικές μεταγραφές των μορφηματικών συστατικών μιας λέξεις πραγματώνονται για τον σχηματισμό τους. Μορφήματα που δεν μπορούν να βρεθούν στο λεξικό μεταγράφονται με χρήση κανόνων. Έτσι, αφότου έχει ληφθεί μια πρώτη φθογγική μεταγραφή μιας λέξης, εφαρμόζεται μια φωνητική μετα-επεξεργασία, με σκοπό την εξομάλυνση φαινόμενων συνάρθρωσης. Ένα άλλο γνωστό σύστημα ΜΚσΟ το οποίο ακολουθεί επίσης το ίδιο μονοπάτι επίλυσης είναι το σύστημα σύνθεσης ομιλίας των AT&T Labs (Beutnagel, et al., 1999) [14], το οποίο διαθέτει ένα λεξικό μορφημάτων. 1 Υπάρχουν διάφορα είδη γραφής και κάποια από αυτά αποτελούν στάδια της ανάπτυξης της. Σημαντικότερα όλων είναι η αλφαβητική, η φωνημική ή φωνολογική, η φωνητική και η ιστορική γραφή ή χρήσης. Η πρώτη αποτελείται από ένα σύνολο γραφικών σημείων που ονομάζονται γράμματα και όπου το καθένα μπορεί να αναπαραστήσει έναν ή περισσότερους φθόγγους μιας συγκεκριμένης γλώσσας, ενώ η δεύτερη αναπαριστά μέσω των γραφικών σημείων της φωνήματα και όχι φθόγγους. Η φωνητική γραφή είναι το τελευταίο στάδιο της εξέλιξης της γραφής όπου υπάρχει ένα μόνο γραφικό σημείο για κάθε φθόγγο της συγκεκριμένης γλώσσας. Τέλος, στην ιστορική γραφή ή χρήσης, τα γραφικά σύμβολα έχουν μικρή σχέση με τα φωνήματα της λέξης, τα φωνήματα αναπαριστώνται με περισσότερα γραφικά σύμβολα με σκοπό να δηλώσουν την γραμματική ποιότητα της λέξης ή την ετυμολογική της καταγωγή. 41

42 Εικόνα 1.15 Βαθμίδα φωνητικής γραφής (α) βασισμένη σε λεξικό και (β) με κανόνες Μια διαφορετική στρατηγική υλοποίησης της βαθμίδας ΜλσΦΓ είναι αυτή της φωνητικής μεταγραφής με κανόνες. Σύμφωνα με αυτή την τεχνική η απαιτούμενη φωνολογική πληροφορία λαμβάνεται από κανόνες μετατροπής γραμμάτων σε ήχους (letter to sound) αντί από κάποιο λεξικό. Σε αυτή την τεχνική, μόνο εκείνες οι λέξεις που δεν προφέρονται με ιδιαίτερο τρόπο, ο οποίος δεν καλύπτεται από τους κανόνες, αποθηκεύονται σε ένα λεξικό εξαιρέσεων. Ένα τυπικό μέγεθος ενός τέτοιου λεξικού για τα αγγλικά είναι 2000 λέξεις καλύπτοντας το 70% των περιπτώσεων (Hunnicat, 1980). Ήδη από τις πρώιμες μέρες των συστημάτων ΜΛσΦΓ με λεξικό υποστηριζόταν ότι μπορούν πετύχουν μεγαλύτερη ακρίβεια φωνητικής μεταγραφής σε σχέση με εκείνα που στηρίζονται σε σύνολα κανόνων, δεδομένης της ύπαρξης μεγάλων φωνητικών λεξικών σε ηλεκτρονική μορφή. Από την άλλη μεριά βέβαια, ιδιαίτερες προσπάθειες 42

43 έχουν γίνει για τον σχεδιασμό συνόλου κανόνων οι οποίοι θα έχουν ευρεία κάλυψη. Από όλα τα παραπάνω είναι ξεκάθαρο ότι κάποιος συμβιβασμός στον επιθυμητό στόχο, ο οποίος είναι 100% κάλυψη μιας γλώσσας, είναι αναπόφευκτος. Η έκταση του συμβιβασμού εξαρτάται από την γλώσσα, δεδομένων των προφανών διαφορών στην αξιοπιστία των κανόνων φωνητικής μεταγραφής για διαφορετικές γλώσσες Δημιουργία Προσωδίας Όλες οι υπομονάδες της βαθμίδας επεξεργασίας φυσικής γλώσσας που μελετήσαμε ως τώρα έχουν σαν βασικό σκοπό την εξαγωγή πληροφορίας, από το κείμενο εισόδου ενός συστήματος ΜΚσΟ, η οποία θα χρησιμοποιηθεί για την εξαγωγή των προσωδιακών προδιαγραφών που θα εφαρμοστούν στο συνθετικό σήμα ομιλίας. Πολλές φορές έχουμε ακούσει την φράση Δεν είναι τι είπες, αλλά πως το είπες!. Στην εργασία (Sheridan, 1775) έχει επισημανθεί η σημασία της προσωδίας εδώ και περισσότερο από 200 χρόνια. Συγκεκριμένα αναφέρετε ότι, Τα παιδιά μαθαίνουν να διαβάζουν προτάσεις, τις οποίες δεν καταλαβαίνουν, και όπως είναι αδύνατον να τοποθετήσουν την έμφαση σωστά, χωρίς να καταλαβαίνουν πλήρως το νόημα, έχουν την συνήθεια είτε να διαβάζουν μονότονα, είτε στην προσπάθεια τους να ξεχωρίσουν μια λέξη από τις υπόλοιπες, να τοποθετούν την έμφαση τυχαία αλλοιώνοντας έτσι το έννοια αυτού που διαβάζουν. Η προσωδία είναι μια πολύπλοκη σύνθεση φυσιολογικών (άρθρωση, μηχανισμός παραγωγής ομιλίας) και φωνητικών διεργασιών τα οποία υιοθετούνται από τον ομιλητή προκειμένου να εκφράσει την διάθεση του, να εκφέρει τις υποθέσεις και την προσοχή του. Αποτελεί ουσιαστικά ένα παράλληλο κανάλι πληροφορίας της καθημερινής λεκτικής επικοινωνίας του. Το σημασιολογικό περιεχόμενο ενός γραπτού ή προφορικού μηνύματος καλείται ως δήλωση (denotation), ενώ το συναισθηματικό και η πληροφορία μέσω της έμφασης που προσδίδονται από τον ομιλητή, ή αντιλαμβάνονται από τον ακροατή συγκροτούν το συμπέρασμα (connotation) του μηνύματος. Από την οπτική γωνία του ακροατή, η προσωδία πραγματώνεται μέσα από την συστηματική αντίληψη και ανάκτηση των προθέσεων του ομιλητή βασιζόμενος στα παρακάτω ερεθίσματα: Παύσεις: για να ορισθούν οι ενδοπεριοδικές φράσεις και για την αποφυγή ελλείψεως αέρα. Τονικότητα: η αντίληψη του ρυθμού ταλάντωσης των φωνητικών χορδών (θεμελιώδης συχνότητα F0) σε συνάρτηση με το χρόνο από τον ακροατή. 43

44 Κατανομή/σχετική διάρκεια: διάρκειες φωνημάτων, συγχρονισμός και ρυθμός Ένταση: σχετικό πλάτος ήχου. Εικόνα Διάγραμμα της βαθμίδας δημιουργίας προσωδιακής πληροφορίας Η τονικότητα είναι εκείνο το συστατικό της προσωδία που μεταφέρει το μεγαλύτερο νοηματικό φορτίο. Καθώς μιλάμε, συστηματικά μεταβάλουμε την θεμελιώδη συχνότητα προκειμένου να εκφράσουμε τα συναισθήματα μας για αυτό το οποίο αναφερόμαστε, ή για να κατευθύνουμε την προσοχή του ακροατή σε συγκεκριμένα σημεία του μηνύματος που εκφέρει. Αν προσπαθήσουμε να εκφέρουμε ένα γραπτό μήνυμα με σταθερή τονικότητα και σταθερές παύσεις (ή χωρίς παύσεις) μεταξύ των λέξεων, το αποτέλεσμα είναι αφύσικο. Η εικόνα 1.16 αποτελεί σχηματική αναπαράσταση των στοιχείων της βαθμίδας δημιουργίας προσωδιακών προδιαγραφών ενός συστήματος ΜΚσΟ. Η είσοδος της βαθμίδας είναι το κανονικοποιημένο κείμενο μαζί με την συμβολοσειρά που παριστάνει την φωνητική μεταγραφή του μεταγραφή. Η έξοδος του περιέχει πλήρως ορισμένη πληροφορία σχετικά με την διάρκεια των φωνημάτων και την τονικότητα του προς σύνθεση σήματος ομιλίας. 1.5 Παραγωγή συνθετικής ομιλίας Η διαδικασία δημιουργίας συνθετικής ομιλίας, έχοντας σαν βάση την προσωδιακή πληροφορία που προκύπτει από το στάδιο της επεξεργασία φυσικής γλώσσας, μπορεί να χαρακτηριστεί ως η προσπάθεια συσχέτισης μιας αφηρημένης και συνοπτικής συμβολικής αναπαράστασης της γλώσσας με μια άλλη παραμετρική και συνεχή περιγραφή. Αυτή η αντιστοιχία απεικονίζει τον διαχωρισμό μεταξύ των διαδικασιών που λαμβάνουν χώρα από την μία για την περιγραφή της γλώσσας και από την άλλη για 44

45 την παραγωγή της ομιλίας σε ένα σύστημα ΜΚσΟ. Η κωδικοποιημένη (παραμετρική) πληροφορία χρησιμοποιείται για να οδηγήσει κάποιο είδος μοντέλου παραγωγής ομιλίας. Οι μέθοδοι παραγωγής ομιλίας αρχικά μπορούν να χωριστούν σε δύο ευρείες κατηγορίες, αυτές που κατά κύριο λόγο διαμορφώνουν το σήμα ομιλίας και εκείνες που κωδικοποιούν πτυχές του. Στην δεύτερη κατηγορία συστημάτων ανήκουν η αρθρωτική σύνθεση (articulator synthesis) και η σύνθεση με κανόνες (formant synthesis). Και οι δύο στηρίζονται πλήρως στην δημιουργία συνθετικού σήματος ομιλίας χρησιμοποιώντας παραμετρική πληροφορία ή οποία οδηγεί ένα θεωρητικό μοντέλο παραγωγής. Στην πρώτη κατηγορία ανήκουν εκείνες οι τεχνικές που βασίζονται στην συνένωση κομματιών πραγματικής ομιλίας πάνω στα οποία «προστίθεται» προσωδιακή πληροφορία Σύνθεση ομιλίας με μοντελοποίηση άρθρωσης Κατά την αρθρωτική σύνθεση επιχειρείται να προσομοιωθεί η νευροφυσιολογία και η βιομηχανική (biomechanic) του μηχανισμού παραγωγής ομιλίας του ανθρώπου, όπως απεικονίζεται στην εικόνα Αποτελεί μία πολύπλοκη διεργασία, αφενός λόγω της δυσκολίας να μετρηθεί η πραγματική διαδικασία της άρθρωσης καθώς παράγεται η φυσική ομιλία, και αφετέρου λόγω της μαθηματικής και υπολογιστικής πολυπλοκότητας που απαιτείται για αυτά τα μοντέλα. Έτσι παρότι από πλευράς πιστότητας είναι, ίσως, η πιο αποτελεσματική μέθοδος παραγωγής ομιλίας, είναι η λιγότερο ανεπτυγμένη τεχνική. Υπάρχουν μερικά συστήματα που έχουν επιδείξει κάποια ενθαρρυντικά αποτελέσματα (Rubin et al., 1981), (Browman, Goldstein, 1986), με πιο πρόσφατο το HLSyn (Stevens, 2002). Πρόοδος επίσης επιτελείται στις μετρήσεις της διαδικασίας άρθρωσης με διάφορες τεχνικές όπως το ηλεκτροπαλατογράφημα (electropalletography), οι μικροδέσμες ακτίνων-χ (x-ray microbeam) και το ηλεκτρομαγνητικό αρθρωγράφημα (ElectroMagnetic Articulograph). Όσο εξελίσσεται η τεχνολογία και βελτιώνεται η ικανότητα μας να μοντελοποιήσουμε τέτοιες διαδικασίες, η σύνθεση με μοντελοποίηση άρθρωσης θα καταστεί πιο διαδεδομένη. Προς το παρόν όμως στερείται πρακτικότητας στη χρήση. 45

46 Εικόνα Μοντελοποίηση κίνησης γλωττίδας με ένα σύστημα ελατηρίου-μάζας Σύνθεση ομιλίας με κανόνες Όσον αφορά τα συστήματα σύνθεσης ομιλίας με κανόνες, αυτά βασίζουν την λειτουργία τους σε ένα θεωρητικό μοντέλο εξομοίωσης του ανθρώπινου μηχανισμού παραγωγής ομιλίας. Σύμφωνα με το μοντέλο αυτό η στοματική κοιλότητα μπορεί να αναπαρασταθεί με ένα σύστημα χρονικά μεταβαλλόμενων ψηφιακών φίλτρων, σύμφωνα με κανόνες, τα οποία διεγείρονται από ένα σήμα που αντιστοιχεί στη μεταβολή της πίεσης του αέρα που ρέει μέσα σε αυτή. Τα συστήματα αυτά παράγουν ομιλία πολύ καλής φυσικότητας, μικρότερης όμως καταληπτότητας από αυτή των συστημάτων συνένωσης. Το γεγονός αυτό οφείλεται αφενός στην έλλειψη ακόμα επαρκούς γνώσης για την λειτουργία του ανθρώπινου μηχανισμού παραγωγής ομιλίας και αφετέρου στην δυσκολία εξαγωγής των παραμέτρων του μοντέλου αυτού μελετώντας μόνο το σήμα ομιλίας. Έχει αποδειχθεί ότι συστήματα βασισμένα σε σύνθεση με κανόνες παράγουν φυσική ομιλία καλής ποιότητας με την προϋπόθεση βέβαια ότι προηγουμένως έχουν εξαχθεί κατάλληλοι παράμετροι για την οδήγηση του μοντέλου. Θεωρητικά, η σύνθεση με κανόνες είναι σε θέση να συνθέσει τους περισσότερους από τους ήχους που χρησιμοποιούνται στον προφορικό λόγο έχοντας όμως το μειονέκτημα ότι ο τεχνητός προφορικός λόγος που παράγουν, αν και καταληπτός, ακούγεται μηχανικός. Το άγιο δισκοπότηρο στην έρευνα της σύνθεσης με κανόνες είναι η δημιουργία μιας γενικευμένης χαρτογράφησης της ομιλίας σε ένα σύνολο παραμέτρων. 46

47 Εικόνα 1.18 Δομικό διάγραμμα ενός συστήματος σύνθεσης ομιλίας με κανόνες Τα σημαντικότερα πλεονεκτήματα αυτής της μεθόδου είναι ότι παράγουν αρκετά καλής ποιότητας ομιλία με σχετικά μικρές απαιτήσεις σε αποθηκευτικό χώρο και δίνουν μεγάλη ευχέρεια στην μετατροπή του κωδικοποιημένου σήματος ομιλίας (αλλαγή χροιάς, ταχύτητας ομιλίας κ.α.). Το βασικότερο μειονέκτημα τους είναι ότι η παραγωγή συνθετικής ομιλίας υψηλής ποιότητας είναι μια χρονοβόρα διαδικασία, κάνοντας την δημιουργία μεγάλων βάσεων ομιλίας δύσκολη Σύνθεση ομιλίας με συνένωση μονάδων Η τρίτη, και κατά την παρούσα περίοδο η πιο αποτελεσματική, μορφή σύνθεσης ομιλίας είναι αυτή η οποία στηρίζεται στην συνένωση δομικών μονάδων ομιλίας (ή αλλιώς συρραφής κυματομορφών). Περιλαμβάνει την κατάτμηση προ-ηχογραφημένης πραγματικής ομιλίας και τη μετέπειτα συγκόλληση των κατάλληλων λεκτικών τμημάτων, για την παραγωγή ενός συνθετικού εκφωνήματος. Συχνά χρησιμοποιούνται τεχνικές επεξεργασίας για να μεταβάλουν τα χαρακτηριστικά των τμημάτων, ώστε να παρέχουν πιο ομαλές μεταβάσεις ανάμεσα στα συγκολλημένα τμήματα. Το μήκος των τμημάτων μπορεί να κυμαίνεται από ολόκληρες προτάσεις ή λέξεις μέχρι συλλαβές ή φωνήματα. Γενικά, όσο μεγαλύτερη είναι η επεξεργασία σήματος που απαιτείται για την παραγωγή τμημάτων που συνδέονται με συνέπεια, τόσο μειώνεται η ποιότητα της παραγόμενης ομιλίας. Τα πιο διαδεδομένα δομικά στοιχεία είναι τα δίφωνα (diphones), 47

48 που αποτελούν μονάδες που αρχίζουν από το κέντρο της σταθερής κατάστασης ενός φωνήματος και τελειώνουν στο αντίστοιχο κέντρο του επόμενου. Σύμφωνα με τη θεωρία, αυτές οι μονάδες είναι πιο εύκολο να συρραφτούν απ ότι χωριστά φωνήματα λόγω της σταθερής κατάστασης στα δύο άκρα. Η τρέχουσα έρευνα επιδιώκει την χρήση διφώνων, τριφώνων αλλά και πιο γενικών τμημάτων με διάφορα μήκη και περισσότερα στιγμιότυπα από κάθε τμήμα, καθώς αυτό μπορεί να μειώσει το ποσό της επεξεργασίας σήματος που απαιτείται για τη συρραφή των μονάδων. Ο όρος επιλογή μονάδας (unit selection) χρησιμοποιείται συχνά για να περιγράψει αυτόν τον τύπο σύνθεσης. Οι προσεγγίσεις επιλογής μονάδας προσφέρουν τα πιο φυσικά ακουστικά αποτελέσματα, επειδή ελαχιστοποιούν την επεξεργασία του σήματος ομιλίας τόσο κατά τη δημιουργία του αποθέματος των δειγμάτων όσο και κατά τη σύνθεση. Τις περισσότερες φορές η συνθετική ομιλία που παράγεται από τέτοια συστήματα δεν ξεχωρίζει από την φυσική ομιλία. Ωστόσο, η μέγιστη φυσικότητα επιτυγχάνεται με πολύ μεγάλα αποθέματα που κυμαίνονται σε δεκάδες ώρες συνεχούς ομιλίας. Παραδείγματα σύνθεσης με συρραφή είναι τα εξής: FESTIVAL (Black et al., 1998), (Taylor et al., 1998), Laureate (Page, Breen, 1996) και AT&T NextGen (Syndral et al.,2000) [18,87]. 1.6 Ποιότητα ενός συστήματος μετατροπής κειμένου σε ομιλία Εκείνοι οι παράγοντες που εξετάζονται για τον έλεγχο της ποιότητας ενός συστήματος μετατροπής κειμένου σε ομιλία είναι η καταληπτότητα και η φυσικότητα του. Για να δώσουμε έναν ορισμό στην έννοια της φυσικότητας θα λέγαμε ότι περιγράφει την ανάγκη η συνθετική φωνή να είναι το ίδιο εύκολο να ακουστεί (όσο και η φυσική φωνή) υπό τις ίδιες συνθήκες. Από την άλλη μεριά η βελτίωση της καταληπτότητας υπήρξε ο αντικειμενικός στόχος στον σχεδιασμό και την υλοποίηση των ΜΚσΟ, αφού χωρίς υψηλό βαθμό καταληπτότητας τα συστήματα αυτά δεν θα εξυπηρετούσαν κανέναν σκοπό. Ως εκ τούτου, τα περισσότερα σύγχρονα ΜΚσΟ συστήματα παρέχουν ιδιαίτερα καταληπτή ομιλία, με τα επίσημα τεστ να αποδεικνύουν ότι σε επίπεδο καταληπτότητας, πλησιάζουν σε μεγάλο βαθμό τον φυσικό λόγο. Από την άλλη, έως και τα μέσα της δεκαετίας του '90, η εξέλιξη σε επίπεδο φυσικότητας της παραγόμενης ομιλίας δεν υπήρξε ικανοποιητική. Η χαμηλού βαθμού φυσικότητα, ιδιαίτερα με την έννοια της ευκολίας στην ακοή, υποβαθμίζει αισθητά την συνολική απόδοση ενός ΜΚσΟ συστήματος. Σε αυτήν την περίπτωση, οι άνθρωποι χρειάζεται να είναι 48

49 ιδιαίτερα συγκεντρωμένοι και να καταβάλουν ιδιαίτερη προσπάθεια όταν ακούνε συνθετική ομιλία, με αποτέλεσμα να κουράζονται εύκολα και να εγκαταλείπουν γρήγορα. Πρέπει συνεπώς να εξασφαλίζεται ένα ελάχιστο επίπεδο ακουστικής ποιότητας προτού αποδεχτούν οι καταναλωτές να ακούνε συνθετική ομιλία σε τακτική βάση. Ως εκ τούτου ο στόχος των σύγχρονων ερευνών είναι να συνεχίσουν μεν να παρέχουν ΜΚσΟ συστήματα με υψηλή καταληπτότητα, αλλά, την ίδια στιγμή, να πετυχαίνουν και υψηλή φυσικότητα στην ομιλία, ανεβάζοντας με αυτόν τον τρόπο την ποιότητα των συστημάτων σε τέτοιο επίπεδο ώστε να καταφέρνουν να ανταποκρίνονται στις απαιτήσεις των καταναλωτών. 1.7 Παραδείγματα Συστημάτων μετατροπής κειμένου σε ομιλία Τα συστήματα ΜΚσΟ της βιβλιογραφίας έχουν σαν κοινό τόπο το διαχωρισμό και την αυτονομία των επιμέρους γλωσσικών διαδικασιών. Αυτά διαφοροποιούνται σε δύο θέματα: α) στον τρόπο διαχείρισης και αναπαράστασης της γνώσης που κατ επέκταση οριοθετεί την ευελιξία ανάπτυξης γλωσσικών διεργασιών, και β) στα θεμελιώδη γλωσσικά συστατικά και εργαλεία τα οποία προσφέρουν για την υποστήριξη γλωσσολογικών και φωνολογικών επεξεργασιών. Το FESTIVAL είναι ένα ανοικτού κώδικα ερευνητικό σύστημα ΜΚσΟ, η ευρεία διάδοση του οποίου οφείλεται κατά ένα μεγάλο μέρος στο γεγονός ότι αποτελεί ένα πλαίσιο εργασίας με μια πληθώρα εργαλείων απαραίτητων για την ανάπτυξη συνθετικών φωνών (Black, Lenzo, 2003) [16]. Η αναπαράσταση και διαχείριση της γνώσης από το FESTIVAL πραγματοποιείται με την χρήση των Ετερογενών Σχεσιακών Γράφων (Heterogeneous Relation Graph HRG) (Black et al., 1998) [18], οι οποίοι αναπαριστούν τόσο λίστες όσο και δεντρικές δομές, ενώ στα ζεύγη ιδιοτήτων-τιμών των κόμβων, οι τιμές μπορεί να είναι δείκτες σε συναρτήσεις, καθιστώντας τον φορμαλισμό πολύ ευέλικτο. Από το FESTIVAL υποστηρίζεται τόσο η δυνατότητα σύνθεσης ομιλίας από κείμενο με χρήση της τεχνικής συρραφής καθώς και με επιλογή μονάδων. Τα εργαλεία για την ανάπτυξη νέων γλωσσών παρέχονται από την βιβλιοθήκη Edinburgh Speech Tools (Taylor et al., 1998) η οποία παρέχει μία σειρά από εργαλεία όπως: το wagon (για τη δημιουργία λιστών και δέντρων CART), εργαλεία (για τη δημιουργία μοντέλων γραμμικής παλινδρόμησης) κ.α. Το FLITE (Black, Lenzo, 2001) [17] αποτελεί μία μικρότερη έκδοση του FESTIVAL, που έχει σαν χαρακτηριστικό το μικρότερο μέγεθος του συστήματος, αλλά 49

50 και την βελτιστοποίηση του κώδικα ώστε να μπορεί να εκτελεστεί στις όλο και αυξανόμενες συσκευές χαμηλών συνθηκών (small-footprint). Περιλαμβάνει έναν αλγόριθμο Huffman (Huffman, 1952) [29] για τη συμπίεση των λεξικών, καθώς και έναν συνθέτη γραμμικής πρόβλεψης για υψηλότερη συμπίεση των φωνητικών δειγμάτων. Το σύστημα FreeTTS αποτελεί μία εναλλακτική έκδοση του FLITE σε γλώσσα προγραμματισμού Java (σε αντίθεση με το FLITE που είναι σε C). Το ProSynth (Huckvale, 1999) [51] είναι ένα σύστημα ΜΚσΟ το οποίο χρησιμοποιεί τη μεταγλώσσα XML για την αναπαράσταση της γνώσης, σε ένα σχήμα που ονομάζεται ProXML. Το ProSynth αξιοποιεί τις ευκολίες που παρέχονται μέσω της ProXML για την αναπαράσταση των φωνολογικών χαρακτηριστικών μιας έκφρασης σε μετρικές προσωδιακές δομές (metrical prosodic structures), δηλαδή ιεραρχίες από κόμβους που περιγράφονται από ζεύγη ιδιοτήτων-τιμών. Επιπλέον, ο φορμαλισμός της ProXML επιτρέπει την αναπαράσταση ενός δηλωτικού φωνολογικού περικειμένου με βάση την οποία εφαρμόζεται η φωνητική διερμηνεία (interpretation) του κειμένου. Στο EULER (Dutoit, et al., 2000) [31], η αναπαράσταση γνώσης γίνεται μέσω των Πολυεπίπεδων Δομών Δεδομένων (Multilayer Data Structures MLDS). Πρόκειται για στιβάδες λιστών, οι οποίες ευθυγραμμίζονται μεταξύ τους με βάση έναν κοινό χρονικό άξονα. Το EULER αξιοποιεί το συνθέτη διφώνων MBROLA (Multiband Resynthesis OverLap Add) (Dutoit, Leich, 1993) (Dutoit et al., 1996) [33,32], ο οποίος έχει προέρθει από την ίδια ερευνητική ομάδα. 50

51 2 Αυτόματος Τεμαχισμός Σημάτων Ομιλίας 2.1 Εισαγωγή Όπως αναφέρθηκε και παραπάνω, η ανάπτυξη μεθόδων για τον αυτόματο τεμαχισμό σημάτων ομιλίας κρίνεται ιδιαιτέρως σημαντική για την εξέλιξη της τεχνολογίας ομιλίας και την ανάπτυξη συστημάτων μετατροπής κειμένου σε ομιλία και αντίστροφα. Η σύγχρονη τεχνολογία ομιλίας και η ανάπτυξή της εξαρτάται σε σημαντικό βαθμό από μεγάλες βάσεις δεδομένων ομιλίας, η επισημείωση των οποίων είναι ένα δύσκολο πρόβλημα γίνεται συνήθως με το χέρι ή με ημιαυτόματες διαδικασίες. Γενικά, οι βάσεις δεδομένων ομιλίας αποτελούνται από τις ηχογραφήσεις των ομιλητών και επισημειωμένα επίπεδα πληροφορίας τα οποία μπορούν να περιλάβουν την επισημείωση λέξεων, φωνημάτων, χρονικά όρια φωνημάτων και προσωδιακή επισημείωση (Sagisaka et al., 1997; Iwano et al., 2004). Ενώ στην αυτόματη αναγνώριση ομιλίας (automatic speech recognition ASR) οι λέξεις και οι αντίστοιχες φωνητικές ακολουθίες είναι ικανοποιητικές για την εκπαίδευση των ακουστικών μοντέλων, στη σύνθεση ομιλίας (text-to-speech TTS) η χρονική ευθυγράμμιση φωνητικών μονάδων είναι απαραίτητη (Dutoit, 1996) [32]. Επιπλέον, όταν τα δεδομένα εκπαίδευσης με την αντίστοιχη χρονική-ευθυγράμμιση των φωνητικών τους ακολουθιών είναι διαθέσιμα οι παράμετροι των κρυμμένων μοντέλων Markov αρχικοποιούνται καλύτερα και προσδιορίζονται με ακρίβεια (Malfrere et al., 2003) [76]. Γενικά, οι επισημειώσεις λέξεων εξάγονται εύκολα από το σήμα ομιλίας με τη χρησιμοποίηση των αυτόματων αναγνωριστών κειμένου και την μετέπειτα χειρωνακτική διόρθωση των αυτόματα εξαχθέντων ακολουθιών λέξεων. Με παρόμοια ευκολία, η φωνητική επισημείωση εξάγεται συνήθως από την επισημείωση σε επίπεδο λέξης χρησιμοποιώντας μετατροπείς από γράμματα σε φωνήματα (grapheme-to-phone). Σε αντίθεση με τις ανωτέρω αναφερθείσες επισημειώσεις, η εξαγωγή των ορίων των φωνημάτων που αντιστοιχούν στα αρχεία ομιλίας της βάσης δεδομένων θεωρείται δύσκολο έργο. Στην μέθοδο τεμαχισμού, που βασίζεται στα κρυμμένα μοντέλα Markov για τη γλωσσολογικά περιορισμένη περίπτωση, κάθε σήμα ομιλίας αποσυντίθεται αρχικά σε μια ακολουθία παραμετρικών διανυσμάτων, χρησιμοποιώντας μια τεχνική παραμετροποίησης ομιλίας. Κατόπιν, ένα σύστημα αναγνώρισης φωνημάτων με 51

52 κρυμμένα μοντέλα Markov χρησιμοποιείται για να ευθυγραμμίσει χρονικά τη διανυσματική ακολουθία χαρακτηριστικών γνωρισμάτων με ην αντίστοιχη φωνητική ακολουθία μέσω του αλγορίθμου Viterbi (Viterbi, 1967). Η έκβαση αυτής της διαδικασίας είναι οι χρονικές θέσεις των φωνητικών μεταβάσεων. Εικόνα 2.1: Μπλοκ διάγραμμα της μεθόδου τεμαχισμού ομιλίας με χρήση των κρυμμένων μοντέλων Markov, για την γλωσσολογικά περιορισμένη περίπτωση. Υπάρχουν δύο βασικές στρατηγικές εκπαίδευσης των κρυμμένων μοντέλων Markov για φωνητικά πρότυπα, ανάλογα με τη διαθεσιμότητα των με το χέρι τετμημένων δεδομένων ομιλίας (δεδομένα εκπαίδευσης/εκκίνησης). Όταν τα δεδομένα εκπαίδευσης είναι διαθέσιμα, η isolated-unit εκπαίδευση εκτελείται, όπου τα πλαίσια ομιλίας που αντιστοιχούν σε κάθε φώνημα χρησιμοποιούνται χωριστά για να αρχικοποιήσουν και να καθορίσουν τις παραμέτρους των κρυμμένων μοντέλων Markov του αντίστοιχου φωνητικού προτύπου. Κατά τη διάρκεια της αρχικοποίησης τα στοιχεία είναι ομοιόμορφα τετμημένα και συνδεμένα στην αντίστοιχη ακολουθία καταστάσεων των κρυμμένων μοντέλων Markov. Ο καθαρισμός των παραμέτρων των κρυμμένων μοντέλων Markov εκτελείται μέσω του Viterbi και του Baum-Welch (Baum et al., 1970) [11] αλγορίθμου. Όταν τα δεδομένα εκπαίδευσης δεν είναι διαθέσιμα, embedded εκπαίδευση εκτελείται, όπου οι παράμετροι των κρυμμένων μοντέλων Markov όλων των φωνημάτων υπολογίζονται ταυτόχρονα χρησιμοποιώντας όλα τα πλαίσια ομιλίας των δεδομένων εκπαίδευσης. Στην embedded εκπαίδευση τα φωνητικά μοντέλα αρχικοποιούνται με τον καθορισμό ολικών τιμών στις παραμέτρους των κρυμμένων μοντέλων Markov όλων των φωνητικών προτύπων (επίπεδη έναρξη) και έπειτα καθαρίζονται από τον Baum-Welch αλγόριθμο. Τα φωνητικά μοντέλα μπορούν να εκπαιδευθούν σε άλλες βάσεις δεδομένων ομιλίας και να χρησιμοποιηθούν με/χωρίς προσαρμογή στα δεδομένα ενδιαφέροντος. Η μέθοδος τεμαχισμού ομιλίας με χρήση κρυμμένων μοντέλων Markov έχει συνδυαστεί επιτυχώς με άλλες τεχνικές μετα-επεξεργασίας για να καθαριστούν με 52

53 μεγαλύτερη ακρίβεια τα προβλεφθέντα φωνητικά όρια (Sethy and Narayanan, 2002; Kim and Conkie, 2002; Toledano et al., 2003; Matousek et al., 2003; Wang et al., 2003; Adell et al., 2005; Lee, 2006; Lin and Jang, 2007; Lo and Wang, 2007) [59,78,3,65]. Επιπλέον, μέθοδοι για τoν συνδυασμό αποτελεσμάτων κατάτμησης από διαφορετικές προσεγγίσεις/ μεθόδους ή/και συστήματα έχουν προταθεί. Στην εργασία (Jarifi et al., 2008) [54] έχει αποδειχθεί ότι ο γραμμικός συνδυασμός των προβλέψεων των ολικών και τοπικών προσεγγίσεων για τον αυτόματο τεμαχισμό βελτιώνει την συνολική ακρίβεια τεμαχισμού. Στην εργασία (Park and Kim, 2006; Park and Kim, 2007) [89,90] η συνολική ακρίβεια τεμαχισμού βελτιώνονται χρησιμοποιώντας έναν γραμμικό συνδυασμό των προβλέψεων διάφορων ανεξάρτητων μεθόδων κατάτμησης βασισμένων στα κρυμμένα μοντέλα Markov και μια μέθοδο προβολής κλίσης για τον υπολογισμό των συνδυαστικών βαρών. Στην εργασία (Kominek and Black, 2004) [62] δείχθηκε ότι τα μεγάλα λάθη τεμαχισμού ασκούν μεγαλύτερη επίδραση στην αντιληπτή ποιότητα μιας έκφρασης σε σχέση με διάφορα μικρότερα λάθη, και επομένως ο υπολογισμός μέσου όρου μεταξύ διάφορων εκτιμήσεων για κάθε όριο είναι ένας απλός και ένας αποτελεσματικός τρόπος να αποφευχθούν οι μεγάλες ανακρίβειες. Οι περισσότερες μελέτες στην βιβλιογραφία σχετικά με τον συνδυασμό διάφορων μηχανών τεμαχισμού ομιλίας (Kominek and Black, 2004; Park and Kim, 2006; Park and Kim, 2007; Jarifi et al., 2008) [62,89,90,54] μπορούν να γενικευτούν σε κάποια μορφή γραμμικού συνδυασμού των θέσεων των ορίων που προβλέφθηκαν από διάφορες ανεξάρτητες μηχανές τεμαχισμού. Επιπλέον, αυτές οι μελέτες έχουν ασχοληθεί αποκλειστικά με τον τεμαχισμό σημάτων ομιλίας για την περίπτωση ενός μονάχα ομιλητή. Αυτό συμβαίνει επειδή οι αλγόριθμοι παλινδρόμησης είναι σε θέση να μαθαίνουν τα συστηματικά λάθη κάθε μηχανής τεμαχισμού, καθώς επίσης και τις συστηματικές μετατοπίσεις των ορίων μεταξύ των μηχανών τεμαχισμού για κάθε τύπο ορίου. Με τον όρο τύπο ορίου αναφερόμαστε στη μετάβαση από την φωνητική κατηγορία στην οποία βρίσκεται το φώνημα πριν το όριο, προς την φωνητική κατηγορία που ανήκει το φώνημα μετά το όριο, π.χ. φωνήεντα (vowels), μη-τυρβώδη (affricates), τυρβώδη (fricatives), έρρινα (nasals), ημιφωνήεντα (glides), εκρηκτικά (stops) και σιωπή (silence). 53

54 2.2. Τεχνικές τεμαχισμού σημάτων ομιλίας Υπάρχουν δύο σημαντικές κατηγορίες μεθόδων/τεχνικών για αυτόματο τεμαχισμό σε φωνήματα: implicit και explicit (van Hemert, 1991). Στις implicit (ή ανεξάρτητες κειμένου) τεχνικές, το σήμα ομιλίας χωρίζεται σε τεμάχια, που αντιστοιχούν σε φωνήματα (ή σε συλλαβές), χωρίς οποιαδήποτε γνώση της αντίστοιχης φωνητικής ακολουθίας του σήματος ομιλίας. Στις explicit (ή εξαρτώμενες κειμένου) μεθόδους το σήμα ομιλίας είναι χωρίζεται και χρονικά ευθυγραμμίζεται σε σχέση με μια γνωστή φωνητική ακολουθία. Γενικά, οι explicit τεχνικές επιτυγχάνουν υψηλότερη απόδοση, δεδομένου ότι ο αριθμός ανιχνευμένων τμημάτων είναι ίσος με αυτόν στην φωνητική ακολουθία που αντιστοιχεί στο αρχείο, σε αντίθεση με την implicit περίπτωση όπου ο αριθμός προβλεφθέντων ορίων δεν είναι πάντα ο σωστός. Έως σήμερα, οι δύο πιο ευρέως χρησιμοποιούμενες μέθοδοι για τον αυτόματο τεμαχισμό ομιλίας στις αντίστοιχες φωνητικές μονάδες είναι η χρήση ενός συνθέτη ομιλίας σε συνδυασμό με τον αλγόριθμο δυναμικής παραμόρφωσης χρόνου και τα κρυμμένα μοντέλα Markov. Στις επόμενες παραγράφους γίνεται μια παρουσίαση των μεθόδων αυτών, καθώς επίσης και διαφόρων παραλλαγών τους, με τεχνικές μεταεπεξεργασίας ή παράλληλου συνδυασμού τους, όπως έχουν παρουσιαστεί στη διεθνή βιβλιογραφία Μέθοδος τεμαχισμού με σύνθεση ομιλίας και δυναμική παραμόρφωση χρόνου Η μέθοδος τεμαχισμού σημάτων ομιλίας σε φωνητικές μονάδες με χρήση ενός συνθέτη ομιλίας και του αλγορίθμου δυναμικής παραμόρφωσης χρόνου προτάθηκε στις εργασίες (Bajwa et al., 1996; Deroo et al., 1998). Το μπλοκ διάγραμμα της παρούσας μεθόδου παρουσιάζεται στην Εικόνα

55 Εικόνα 2.2. Μπλοκ διάγραμμα της μεθόδου τεμαχισμού σημάτων ομιλίας με χρήση ενός συνθέτη ομιλίας και του αλγορίθμου δυναμικής παραμόρφωσης (Deroo et al., 1998). Όπως το μπλοκ διάγραμμα της πιο πάνω εικόνας παρουσιάζει, το κείμενο των λέξεων που αντιστοιχεί στο περιεχόμενο του σήματος ομιλίας που επιθυμούμε να τεμαχίσουμε εισάγεται σε ένα μοντέλο μετατροπής κειμένου σε φωνήματα (text-tospeech phonetizer). Η δημιουργία τέτοιων μοντέλων γίνεται είτε βάσει κανόνων (rulebased) είτε από δεδομένα εκπαίδευσης (data-driven). Στην πρώτη περίπτωση, φωνολόγοι καταγράφουν κανόνες για την αντιστοίχηση γραμμάτων μέσα σε συγκεκριμένο περιεχόμενο, δηλαδή τα γειτονικά γράμματα, με φωνήματα. Στην δεύτερη περίπτωση (data-driven), χρησιμοποιούνται έτοιμες φωνητικές προφορές λέξεων, από λεξικά, για να εκπαιδεύσουν στατιστικά μοντέλα ή μοντέλα με μηχανική μάθηση. Στη συνέχεια η ακολουθία των φωνημάτων που αντιστοιχεί στο σήμα ομιλίας που επιθυμούμε να τεμαχίσουμε οδηγείται ως είσοδος σε ένα σύστημα σύνθεσης ομιλίας. Όπως φαίνεται από την Εικόνα 2.2, η μέθοδος βασίζεται στην χρησιμοποίηση ενός προϋπάρχοντος συστήματος σύνθεσης ομιλίας. Η προϋπόθεση της ύπαρξης ενός συστήματος σύνθεσης ομιλίας δεν είναι ιδιαιτέρως απαιτητική, δεδομένου ότι μπορεί για παράδειγμα να καλυφθεί από ένα diphone συνθέτη ομιλίας, ο οποίος έχει μεν μειωμένη απόδοση στην παραγόμενη συνθετική ομιλία σε σχέση με ένα corpus-based σύστημα σύνθεσης ομιλίας (Dutoit, 1996; Huang et al., 2001; Black and Lenzo, 2007) 55

56 [32,50,15,58], ωστόσο δεν απαιτεί την ύπαρξη ή την δημιουργία μιας βάσης δεδομένων ομιλίας, αφού μια συλλογή από non-sense λέξεις που να περιέχουν τα δίφωνα της γλώσσας μας μπορεί να θεωρηθεί έως ένα βαθμό ικανοποιητική. Επίσης παρόλο που για την δημιουργία φυσικής ομιλίας απαιτείται προσωδιακή πληροφορία για την πρόταση, μια προσεγγιστική εκτίμηση της προσωδίας επαρκεί για την δημιουργία του συνθετικού σήματος ομιλίας, αφού μόνο τα φασματικά χαρακτηριστικά που έχουν σχέση με τα όρια των φωνημάτων θα χρησιμοποιηθούν. Η διάρκεια των φωνημάτων και οι καμπύλες του επιτονισμού της ομιλίας επιλέγονται έτσι ώστε να εξυπηρετούν την διαδικασία αντιστοίχησης. Έτσι, από την στιγμή που δεν μπορεί να γίνει κάποια θεώρηση για τον ομιλητή, η καμπύλη της συνθετικής F0 (όπου F0 είναι η θεμελιώδης συχνότητα συντονισμού των φωνητικών χορδών) επιλέγεται όσο πιο απλή γίνεται, δηλαδή με μια σταθερή τιμή σε όλο το μήκος της. Θεωρώντας ότι η τεχνική παραμετροποίησης που θα χρησιμοποιηθεί στη συνέχεια δεν σχετίζεται με την F0 καμπύλη, η επιλογή αυτή δεν έχει σημαντική επίπτωση στην ακρίβεια του τεμαχισμού της ομιλίας στα αντίστοιχα φωνήματα. Το σύστημα σύνθεσης ομιλίας θα δώσει ως έξοδο ένα συνθετικό σήμα ομιλίας (synthetic reference) το οποίο θα αντιστοιχεί στην φωνητική ακολουθία εισόδου. Στο συνθετικό σήμα ομιλίας οι θέσεις των φωνητικών μεταβάσεων είναι προκαθορισμένες και άρα γνωστές (Black and Lenzo, 2007) [15]. Ένα από τα μειονεκτήματα της παρούσας μεθόδου τεμαχισμού σημάτων ομιλίας με χρήση συνθέτη ομιλίας είναι η εξάρτηση στον ομιλητή του συστήματος, δηλαδή το text-to-speech μετατροπέα. Αυτό συμβαίνει διότι η ίδια reference φωνή χρησιμοποιείται για τεμαχισμό, σε οποιονδήποτε test ομιλητή. Αυτό θα μπορούσε να μειωθεί εφόσον χρησιμοποιούνταν τεχνικές κανονικοποίησης ομιλητή, ωστόσο μελέτες που έχουν γίνει στο παρελθόν (Malfrere et al., 2003) [76], έδειξαν ότι η κατεύθυνση αυτή δεν είναι μεγάλης σπουδαιότητας Μέθοδος τεμαχισμού ομιλίας με κρυμμένα μοντέλα Markov Η χρήση των κρυμμένων μοντέλων Markov (Rabiner, 1989) για την μοντελοποίηση φωνημάτων έχει καθιερωθεί στο χώρο της τεχνολογίας ομιλίας (Young et al., 2006; Lee et al., 1990) [68]. Τα κρυμμένα μοντέλα Markov χρησιμοποιούνται τόσο στην αναγνώριση ομιλίας (Young et al., 2006; Lee et al., 1990) [68], όσο και στην σύνθεση 56

57 ομιλίας (Lee et al., 2001; Kawahara et al., 2000) [66,]. Η γνωστή δομή τους σε συνδυασμό με την προσαρμοστικότητά τους οδήγησε στην χρήση τους για το πρόβλημα του τεμαχισμού της ομιλίας. Ο τεμαχισμός ομιλίας με κρυμμένα μοντέλα Markov είναι η πλέον ευρέως χρησιμοποιούμενη μέθοδος (Ljolje and Riley, 1991; Brugnara et al., 1993; Ljolje et al., 1997; Pellom and Hansen, 1998; Mporas et al., 2008) [73,23,74,91,81] τεμαχισμού ομιλίας. Αυτή η μέθοδος έγινε δημοφιλής δεδομένου ότι είναι λιγότερο επιρρεπής σε μεγάλα λάθη (gross errors) (Kominek et al., 2003) [63] και λόγω της γνωστής αρχιτεκτονικής της. Στην Εικόνα 2.3 παρουσιάζεται το μπλοκ διάγραμμα της μεθόδου τεμαχισμού σημάτων ομιλίας με κρυμμένα μοντέλα Markov. Εικόνα 2.3: Μπλοκ διάγραμμα της μεθόδου τεμαχισμού ομιλίας με χρήση των κρυμμένων μοντέλων Markov. Σε αυτήν την μέθοδο κάθε σήμα ομιλίας αποσυντίθεται αρχικά σε μια ακολουθία παραμετρικών διανυσμάτων, χρησιμοποιώντας μια τεχνική παραμετροποίησης ομιλίας. Κατόπιν, ένα σύστημα αναγνώρισης φωνημάτων με κρυμμένα μοντέλα Markov χρησιμοποιείται για να αναγνωρίσει και ευθυγραμμίσει χρονικά τη διανυσματική ακολουθία των παραμετρικών χαρακτηριστικών ομιλίας με την αντίστοιχη φωνητική ακολουθία μέσω του αλγορίθμου Viterbi (Viterbi, 1967). Η έκβαση αυτής της διαδικασίας είναι οι χρονικές θέσεις των φωνητικών μεταβάσεων. Όπως έχει ήδη αναφερθεί, ο τεμαχισμός μπορεί να είναι explicit ή implicit, ανάλογα με το αν υπάρχει κάποιος περιορισμός στην ακολουθία των φωνημάτων που αντιστοιχούν στο σήμα ομιλίας που πρόκειται να τεμαχιστεί. Έτσι στην περίπτωση του implicit τεμαχισμού στην πραγματικότητα η μέθοδος ανάγεται σε αναγνώριση φωνημάτων, ενώ στην explicit περίπτωση η μέθοδος ανάγεται σε χρονική ευθυγράμμιση των καταστάσεων των κρυμμένων μοντέλων Markov των εμπλεκομένων φωνημάτων με τα αντίστοιχα παραμετρικά διανύσματα ομιλίας. Εισάγουμε μαθηματικό φορμαλισμό για την μέθοδο τεμαχισμού με κρυμμένα μοντέλα Markov ως ακολούθως. Θεωρούμε μια τυχαία τεχνική παραμετροποίησης σημάτων ομιλίας η οποία αποσυνθέτει το σήμα ομιλίας σε μια ακολουθία 57

58 παρατηρήσεων O αποτελούμενη από χαρακτηριστικά διανύσματα βραχύχρονης ανάλυσης. Θεωρώντας ένα συγκεκριμένο μήκος παραθύρου και ενιαίο ρυθμό πλαισίων για την τεχνική παραμετροποίησης ομιλίας που χρησιμοποιούμε εδώ ορίζουμε (2.1) Όπου T είναι ο αριθμός των παρατηρήσεων. Κατά την διάρκεια της χρονικής ευθυγράμμισης με χρήση του αλγορίθμου Viterbi η ακολουθία παρατηρήσεων O αντιστοιχίζεται στην ακολουθία παρατηρήσεων L των P το πλήθος φωνημάτων (2.2) και ένα σύνολο κρυμμένων μοντέλων Markov φωνημάτων. Συγκεκριμένα, κάθε φώνημα μοντελοποιείται από ένα κρυμμένο μοντέλο Markov S καταστάσεων με διάταξη από αριστερά προς τα δεξιά, με non-emitting την πρώτη και τελευταία κατάσταση. Ένα παράδειγμα ενός τέτοιου κρυμμένου μοντέλου Markov, τυπικό για εφαρμογές τεχνολογίας ομιλίας φαίνεται στην Εικόνα 2.4. Εικόνα 2.4: Τυπική αρχιτεκτονική κρυμμένου μοντέλου Markov για την μοντελοποίηση φωνήματος ομιλίας, με 3 καταστάσεις χωρίς skipping μεταβάσεις. Αυτή η αρχιτεκτονική των κρυμμένων μοντέλων Markov, χρησιμοποιείται για να μοντελοποιήσει τα φασματικά χαρακτηριστικά στην αρχή, την μέση και το τέλος της διάρκειας κάθε φωνήματος, αφού αυτά δεν διατηρούνται σταθερά, καθώς επηρεάζονται από τα φασματικά χαρακτηριστικά του τέλους του προηγούμενου φωνήματος και της αρχής του επόμενου φωνήματος, λόγω της παρουσίας της συνάρθρωσης (Lee and Hon, 1989) [69]. Στην περίπτωση όπου η ακολουθία φωνημάτων είναι γνωστή, δηλαδή την explicit περίπτωση, τα μοντέλα που αντιστοιχούν στα φωνήματα της ακολουθίας των φωνημάτων του σήματος ομιλίας που πρόκειται να τεμαχιστεί καταστρώνουν ένα δίκτυο. Το δίκτυο αυτό αποτελείται από τα κρυμμένα μοντέλα Markov των φωνημάτων που αντιστοιχούν στην ακολουθία L, και κατασκευάζεται ενώνοντας την τελική nonemitting κατάσταση του μοντέλου lk με την πρώτη non-emitting κατάσταση του lk+1 μοντέλου. Ένα παράδειγμα υλοποίησης ενός τέτοιου δικτύου φαίνεται στην Εικόνα 2.5. Εικόνα 2.5: Δίκτυο κρυμμένων μοντέλων Markov, όπου φαίνεται η συνένωση τους για μια ακολουθία δύο λέξεων (one two) που αντιστοιχεί στην ακολουθία φωνημάτων /W/ - /AX/ - /N/ - /T/ - /OO/ (SPHINX, 2008). 58

59 Αφού κατασκευαστεί το δίκτυο των κρυμμένων μοντέλων Markov, εφαρμόζεται ο αλγόριθμος Viterbi, για να ευθυγραμμίσει χρονικά την ακολουθία των παραμετρικών διανυσμάτων με τις καταστάσεις των μοντέλων του δικτύου. Ένα σχηματικό παράδειγμα του αλγορίθμου Viterbi για ένα κρυμμένο μοντέλο Markov έξι καταστάσεων με τις ακραίες καταστάσεις non-emitting και skipping μεταβάσεις φαίνεται στην Εικόνα 2.6. Εικόνα 2.6: Παράδειγμα εφαρμογής του Viterbi αλγορίθμου σε 6 παραμετρικά διανύσματα ομιλίας και ένα κρυμμένο μοντέλο Markov 6 καταστάσεων [165]. Όπως φαίνεται στην Εικόνα 2.6, δημιουργείται ένα πλέγμα αντιστοίχησης μεταξύ των παραμετρικών διανυσμάτων και των καταστάσεων του κρυμμένου μοντέλου Markov. Η ακολουθία κόμβων με την μέγιστη πιθανοφάνεια ορίζει την κατάσταση στην οποία αντιστοιχίζεται κάθε παραμετρικό διάνυσμα. Με αυτό τον τρόπο, η θέση μιας φωνητικής μετάβασης μπορεί να οριστεί από το τελευταίο παραμετρικό διάνυσμα που αντιστοιχίζεται στην τελευταία κατάσταση ενός κρυμμένου μοντέλου Markov του προηγούμενου φωνήματος, ή ισοδύναμα, από το πρώτο διάνυσμα που αντιστοιχίζεται στην πρώτη κατάσταση του κρυμμένου μοντέλου Markov του επόμενου φωνήματος, στην συγκεκριμένη φωνητική μετάβαση. Το κύριο πλεονέκτημα της μεθόδου τεμαχισμού σημάτων ομιλίας με κρυμμένα μοντέλα Markov είναι ότι η εκπαίδευση μοντέλων φωνημάτων είναι απλή και εύκολη διαδικασία. Μάλιστα δεδομένης της ύπαρξης συστημάτων αυτόματης αναγνώρισης ομιλίας, τα υπάρχοντα ακουστικά μοντέλα, δηλαδή τα μοντέλα των φωνημάτων της αντίστοιχης γλώσσας, μπορούν να χρησιμοποιηθούν ως phone recognizers. Η ευελιξία αυτή καθιέρωσε τα κρυμμένα μοντέλα Markov ως την κύρια μέθοδο για τον αυτόματο τεμαχισμό σημάτων ομιλίας στις αντίστοιχες φωνητικές τους μονάδες. 59

60 Εκτός από τα παραπάνω πλεονεκτήματα της μεθόδου τεμαχισμού με κρυμμένα μοντέλα Markov, ένα επιπλέον χαρακτηριστικό της μεθόδου είναι η δυνατότητα προσαρμογής των φωνητικών μοντέλων που υπάρχουν στις ανάγκες κάθε εφαρμογής. Πιο συγκεκριμένα, τα κρυμμένα μοντέλα Markov μπορούν να προσαρμοστούν σε συγκεκριμένο φύλο ομιλητή, σε συγκεκριμένο ομιλητή, ή σε συγκεκριμένη διάλεκτο ομιλίας. Αυτό μπορεί να γίνει με τεχνικές προσαρμογής όπως η μέθοδος μέγιστης πιθανοφάνειας (maximum a-posteriori MAP) (Gauvain and Lee, 1994), η μέθοδος μέγιστης πιθανοφάνειας (maximum likelihood estimation MLE), (Wald, 1949; Liporace, 1982) και η μέθοδος μέγιστης πιθανοφάνειας με γραμμική παλινδρόμηση (maximum likelihood linear regression MLLR), (Leggeter and Woodland, 1995) [71]. Με αυτό τον τρόπο τα μοντέλα των φωνημάτων μοντελοποιούν με μεγαλύτερη ακρίβεια τα φασματικά χαρακτηριστικά ενός συγκεκριμένου ομιλητή για παράδειγμα, του οποίου τις ηχογραφήσεις θέλουμε να τεμαχίσουμε, με αποτέλεσμα την βελτίωση της ακρίβειας του τεμαχισμού των σημάτων ομιλίας (Toledano and Gomez, 2003). Τέλος, σε περίπτωση τεμαχισμού βάσης δεδομένων ομιλίας, όπου είναι γνωστό το κείμενο λέξεων που αντιστοιχεί σε κάθε ηχογράφηση, τα κρυμμένα μοντέλα Markov για κάθε φώνημα μπορούν να εκπαιδευθούν αποκλειστικά από τα ίδια δεδομένα ομιλίας που πρόκειται να τεμαχιστούν σε φωνητικές μονάδες Βελτίωση τεμαχισμού σημάτων ομιλίας με μετα-επεξεργασία Η μέθοδος τεμαχισμού ομιλίας με χρήση κρυμμένων μοντέλων Markov έχει συνδυαστεί επιτυχώς με άλλες τεχνικές μετα-επεξεργασίας για να καθαριστούν με μεγαλύτερη ακρίβεια τα προβλεφθέντα φωνητικά όρια. Στην εργασία (Sethy and Narayanan, 2002) αρχικές θέσεις φωνητικών μεταβάσεων παράγονται με την βοήθεια κρυμμένων μοντέλων Markov φωνημάτων, και στη συνέχεια οι προβλεφθείσες θέσεις των ορίων αυτών επαναϋπολογίζονται από μοντέλα των ορίων επίσης βασισμένα σε κρυμμένα μοντέλα Markov, με κριτήριο την θέση όπου μεγιστοποιείται η πιθανοφάνεια του μοντέλου του ορίου. Στην εργασία (Kim and Conkie, 2002) [59] τα αρχικά όρια των φωνημάτων, που υπολογίστηκαν με κρυμμένα μοντέλα Markov, επανατοποθετούνται σε νέες θέσεις μετρώντας ευκλείδειες αποστάσεις μεταξύ των παραμετρικών διανυσμάτων που βρίσκονται μέσα σε ένα παράθυρο από το προβλεφθέν όριο. Στην εργασία (Toledano et al., 2003) υπολογίζονται οι θέσεις των φωνητικών μεταβάσεων με κρυμμένα μοντέλα Markov, και στη συνέχεια 60

61 παράγονται στατιστικές διορθώσεις επί των θέσεων αυτών. Στην εργασία (Matousek et al., 2003) [78] ομοίως με προηγουμένως, αφού παραχθούν τα αρχικά όρια φωνημάτων, στατιστικές διορθώσεις επιβάλλονται, οι οποίες είναι ξεχωριστές για κάθε είδος φωνητικής μετάβασης, δηλαδή από συγκεκριμένη φωνητική κατηγορία σε άλλη. Στην εργασία (Wang et al., 2003) τα όρια των φωνημάτων που υπολογίζονται από κρυμμένα μοντέλα Markov επανατοποθετούνται ως εξής: σε όλα τα παραμετρικά διανύσματα προστίθενται τα γειτονικά τους (Ν προηγούμενα και Ν επόμενα διανύσματα), με τα οποία εκπαιδεύονται μοντέλα μείξεων Gaussian κατανομών (Gaussian mixture models GMMs), για τον επαναπροσδιορισμό των θέσεων των ορίων σε ένα παράθυρο αναζήτησης γύρω από την αρχική θέση, και με κατηγοριοποίηση της εκπαίδευσης των GMMs με δέντρα αποφάσεων (classification and regression trees CART). Στην εργασία (Adell et al., 2005) [3] οι προβλέψεις των θέσεων των ορίων των φωνημάτων επανατοποθετούνται με την βοήθεια δέντρων παλινδρόμησης (regression trees), αφού πρώτα εφαρμοστεί η τεχνική των κρυμμένων μοντέλων Markov. Στην εργασία (Lee, 2006) [65] τα όρια που προέκυψαν από τον βασικό τεμαχισμό με κρυμμένα μοντέλα Markov, επανατοποθετούνται με χρήση ενός νευρωνικού δικτύου με πολλαπλά στρώματα νευρώνων (multilayer perceptron MLP). Τέλος, στις εργασίες (Lin and Jang, 2007, Lo and Wang, 2007) [72,75], οι συγγραφείς προτείνουν την χρήση μηχανών διανυσμάτων υποστήριξης (support vector machines SVM) για την επανατοποθέτηση των φωνητικών ορίων που προέβλεψαν κρυμμένα μοντέλα Markov ή η δυναμική παραμόρφωση χρόνου. Οι παραπάνω αναφερθείσες εργασίες δείχνουν την δυνατότητα των δύο βασικών μεθόδων που παρουσιάστηκαν στις δύο προηγούμενες παραγράφους να παράγουν μια πρώτη εκτίμηση για τις θέσεις των φωνητικών μεταβάσεων. Έτσι, δεδομένου ότι τα ακριβή όρια των φωνημάτων βρίσκονται μέσα σε ένα περιορισμένο παράθυρο από την προβλεφθείσα θέση, πολύπλοκοι αλγόριθμοι μηχανικής μάθησης ή στατιστικά μοντέλα μπορούν να κάνουν αναζήτηση μέσα σε ένα περιορισμένο χώρο, δηλαδή μέσα στο παράθυρο αναζήτησης, ώστε να βρουν την «βέλτιστη» θέση της φωνητικής μετάβασης. Ένα μπλοκ διάγραμμα του τρόπου που γίνεται η μετα-επεξεργασία των προβλεφθέντων θέσεων των φωνητικών μεταβάσεων παρουσιάζεται στην Εικόνα

62 Εικόνα 2.7: Μπλοκ διάγραμμα της διάταξης βελτίωσης των προβλέψεων των θέσεων των φωνητικών μεταβάσεων σε σήμα ομιλίας, με τεχνικές μετα-επεξεργασίας Παράλληλος συνδυασμός ανεξάρτητων συστημάτων τεμαχισμού ομιλίας Μέθοδοι για το συνδυασμό αποτελεσμάτων κατάτμησης από διαφορετικές προσεγγίσεις/ μεθόδους ή/και συστήματα έχουν επίσης προταθεί. Οι μέθοδοι αυτές συνδυάζονται παράλληλα και προσφέρουν συνδυαστικές προβλέψεις πιο ακριβών θέσεων των ορίων των φωνημάτων. Ένα μπλοκ διάγραμμα της μεθόδου παράλληλου συνδυασμού μηχανών τεμαχισμού ομιλίας παρουσιάζεται στην Εικόνα 2.8. Στην εργασία (Jarifi et al., 2008) [54] έχει αποδειχθεί ότι ο γραμμικός συνδυασμός των προβλέψεων των ολικών και τοπικών προσεγγίσεων για τον αυτόματο τεμαχισμό βελτιώνει την συνολική ακρίβεια τεμαχισμού. Εικόνα 2.8: Μπλοκ διάγραμμα της διάταξης βελτίωσης των προβλέψεων των θέσεων των φωνητικών μεταβάσεων σε σήμα ομιλίας, με παράλληλο συνδυασμό μηχανών τεμαχισμού σημάτων ομιλίας. Στην εργασία (Park and Kim, 2006; Park and Kim, 2007) [89,90] η συνολική ακρίβεια τεμαχισμού βελτιώνονται χρησιμοποιώντας έναν γραμμικό συνδυασμό των προβλέψεων διάφορων ανεξάρτητων μεθόδων κατάτμησης βασισμένων στα κρυμμένα 62

63 μοντέλα Markov και μια μέθοδο προβολής κλίσης για τον υπολογισμό των συνδυαστικών βαρών. Τέλος, στην εργασία (Kominek and Black, 2004) [62] δείχθηκε ότι τα μεγάλα λάθη τεμαχισμού ασκούν μεγαλύτερη επίδραση στην αντιληπτή ποιότητα μιας έκφρασης σε σχέση με διάφορα μικρότερα λάθη, και επομένως ο υπολογισμός μέσου όρου μεταξύ διάφορων εκτιμήσεων για κάθε όριο είναι ένας απλός και αποτελεσματικός τρόπος να αποφευχθούν οι μεγάλες ανακρίβειες Αξιολόγηση τεχνικών τεμαχισμού σημάτων ομιλίας Παρουσιάσαμε τις δύο πιο ευρέως διαδεδομένες και χρησιμοποιούμενες μεθόδους για τον αυτόματο τεμαχισμό σημάτων ομιλίας στις αντίστοιχες φωνητικές τους μονάδες. Οι δύο αυτές μέθοδοι βασίζονται στην σύγκριση (template matching) του προς εξέταση σήματος, με ένα σήμα αναφοράς που παράχθηκε από ένα συνθέτη ομιλίας (text-tospeech), και στα ευρέως διαδεδομένα στο χώρο της τεχνολογίας ομιλίας, κρυμμένα μοντέλα Markov. Παρουσιάσαμε επιπλέον παραλλαγές των δυο αυτών μεθόδων, που έχουν δημοσιευθεί σε παλαιότερες εργασίες. Οι παραλλαγές αυτές κατατάσσονται κυρίως σε συνδυαστικές λειτουργίες των δυο αυτών μεθόδων με τεχνικές μηχανικής μάθησης ή στατιστικά μοντέλα, είτε σε σειρά είτε παράλληλα. Αξιολογώντας τις δυο βασικές μεθόδους, η μέθοδος που βασίζεται στα κρυμμένα μοντέλα Markov παρουσιάζει συγκριτικά πλεονεκτήματα σε σχέση με την μέθοδο ευθυγράμμισης σημάτων ομιλίας με αντίστοιχα συνθετικά σήματα. Καταρχήν, η μέθοδος με κρυμμένα μοντέλα Markov μπορεί να εφαρμοστεί τόσο στην περίπτωση που είναι γνωστό το περιεχόμενο της ομιλίας, δηλαδή το κείμενο λέξεων και επομένως η φωνητική ακολουθία, όσο και στην περίπτωση που δεν υπάρχει καμία προγενέστερη γνώση για το τι ειπώθηκε από τον ομιλητή. Σε αντίθεση, η μέθοδος με συνθέτη ομιλίας και δυναμική παραμόρφωση του χρόνου μπορεί να εφαρμοστεί μόνο όταν είναι γνωστό το περιεχόμενο της ομιλίας, αφού η κατασκευή του συνθετικού σήματος ομιλίας προϋποθέτει μια δεδομένη ακολουθία φωνημάτων. Εκτός από τον παραπάνω περιορισμό, ο τεμαχισμός της ομιλίας με συνθέτη ομιλίας και δυναμική παραμόρφωση του χρόνου προαπαιτεί την ύπαρξη ενός text-to-speech συστήματος. Παρόλο που δεν απαιτείται corpus-based συνθέτης ομιλίας, ο οποίος προϋποθέτει μια βάση δεδομένων ομιλίας με τις αντίστοιχες επισημειώσεις των 63

64 ηχογραφήσεων, και αντί αυτού ένας diphone για παράδειγμα συνθέτης μπορεί να χρησιμοποιηθεί, ο οποίος κατασκευάζεται πιο εύκολα, στην περίπτωση του τεμαχισμού σημάτων ομιλίας με κρυμμένα μοντέλα Markov κανένα έτοιμο σύστημα δεν προαπαιτείται, δεδομένου ότι αν δεν υπάρχει διαθέσιμος phone recognizer, οι ηχογραφήσεις που πρόκειται να τεμαχιστούν μπορούν να χρησιμοποιηθούν αποκλειστικά για την εκπαίδευση των μοντέλων των φωνημάτων. Ένα ακόμα πρόβλημα που προκύπτει συχνά είναι η ασυμβατότητα μεταξύ των φωνητικών συνόλων (phone sets), που χρησιμοποιούνται από βάση σε βάση, για βάσεις ομιλίας της ίδιας γλώσσας. Σε αυτή την περίπτωση ενώ μπορούν να εκπαιδευθούν, από την υπάρχουσα βάση, κρυμμένα μοντέλα Markov για τα φωνήματα που είναι ασύμβατα μεταξύ των δύο βάσεων, δεν μπορεί να χρησιμοποιηθεί ο συνθέτης ομιλίας ο οποίος είναι προ-εκπαιδευμένος για συγκεκριμένο σύνολο φωνημάτων. Επιπλέον, ενώ τα κρυμμένα μοντέλα Markov είναι εύκολο να προσαρμοστούν στα ιδιαίτερα χαρακτηριστικά των ηχογραφήσεων που πρόκειται να τεμαχιστούν, όπως για παράδειγμα η διάλεκτος, το φύλο του ομιλητή, ο τρόπος ομιλίας του ομιλητή κ.λπ., ο συνθέτης ομιλίας από την άλλη μεριά μπορεί να παράγει ομιλία από έναν μόνο ομιλητή με συγκεκριμένο τρόπο ομιλίας. Επομένως, με την μέθοδο τεμαχισμού με σύνθεση ομιλίας και δυναμική παραμόρφωση του χρόνου δεν υπάρχει δυνατότητα προσαρμογής στα χαρακτηριστικά του σήματος ομιλίας ενδιαφέροντος χωρίς να εκπαιδευθεί ένα νέο σύστημα σύνθεσης ομιλίας για μια νέα φωνή. Τέλος, όπως έχει δειχθεί σε προηγούμενη εργασία (Kominek et al. 2003) [63], η μέθοδος τεμαχισμού με συνθέτη ομιλίας και δυναμική παραμόρφωση χρόνου, παρόλο που σε συγκεκριμένες περιπτώσεις, καταφέρνει υψηλές αποδόσεις τεμαχισμού σημάτων ομιλίας, είναι επιρρεπής σε μεγάλα λάθη (δηλαδή προβλέψεις θέσεων ορίων αρκετά χιλιοστά του δευτερολέπτου από το πραγματικό φωνητικό όριο). Έχει δειχθεί σε σχετική έρευνα (Kominek and Black, 2004) [62] ότι η επίδραση των μεγάλων σφαλμάτων τεμαχισμού προκαλεί σημαντική μείωση στην αντιληπτή ποιότητα της συνθετικής ομιλίας σε σχέση με μικρά σφάλματα, γεγονός που αποτελεί σημαντικό μειονέκτημα της μεθόδου αυτής. Σε αντίθεση, η μέθοδος τεμαχισμού με κρυμμένα μοντέλα Markov δεν είναι επιρρεπής σε μεγάλα λάθη (Kominek et al. 2003; Toledano and Gomez, 2003) [63]. Ωστόσο, αξίζει να αναφέρουμε ότι η μέθοδος τεμαχισμού με συνθέτη ομιλίας και δυναμική παραμόρφωση του χρόνου, εφόσον υπάρχει ο συνθέτης ομιλίας διαθέσιμος, δεν απαιτεί καμία εκπαίδευση. Σε αντίθεση, στον τεμαχισμό ομιλίας με κρυμμένα 64

65 μοντέλα Markov, τα μοντέλα των φωνημάτων συνήθως εκπαιδεύονται πάνω στα ηχητικά δεδομένα ενδιαφέροντος ή τουλάχιστον γίνεται προσαρμογή προϋπαρχόντων μοντέλων πάνω στα δεδομένα αυτά. Τόσο οι δύο αυτές μέθοδοι όσο και οι συνδυασμοί αυτών προσφέρουν μείωση του χρόνου δημιουργίας επισημειώσεων σε μια βάση δεδομένων ομιλίας, εξάγοντας τα όρια των φωνημάτων των ηχογραφήσεων είτε αυτόματα είτε ημι-αυτόματα, με διορθώσεις με το χέρι επί των αυτόματα εξαχθέντων ορίων. Γενικά, όσο πιο ακριβή είναι τα εξαχθέντα φωνητικά όρια, τόσο μεγαλύτερη είναι η δυνατότητα να χρησιμοποιηθούν ως έχουν ή τόσο λιγότερος χρόνος θα απαιτείται για την διόρθωση τους από φωνολόγο Εφαρμογές Αυτόματου Τεμαχισμού Σημάτων Στην προηγούμενη ενότητα παρουσιάστηκαν μια σειρά από μεθόδους για τον αυτόματο τεμαχισμό σημάτων ομιλίας στις αντίστοιχες φωνητικές τους μονάδες. Σε αυτήν την ενότητα παρουσιάζουμε εφαρμογές των αλγορίθμων που προτάθηκαν, και την συνεισφορά τους στην επίλυση προβλημάτων από τον χώρο της τεχνολογίας ομιλίας Εφαρμογή στη Σύνθεση Ομιλίας Ο αυτόματος τεμαχισμός βάσεων δεδομένων ομιλίας στις αντίστοιχες φωνητικές τους μονάδες είναι ουσιαστικής σημασίας για τον κύκλο ανάπτυξης ενός Text-to-Speech (TTS) συστήματος. Επιπλέον, η ποιότητα των συντεθειμένων σημάτων ομιλίας συσχετίζεται άμεσα με την ακρίβεια του παραχθέντος τεμαχισμού. Κατά τη διάρκεια των τελευταίων ετών, η σύνθεση ομιλίας βασιζόμενη στην συνένωση μονάδων από βάση (corpus-based concatenative) είναι η πλέον ευρέως χρησιμοποιούμενη μέθοδος στα Text-to-Speech (TTS) συστήματα (Hunt and Black, 1996) [52]. Αυτή η μέθοδος έχει γίνει δημοφιλής λόγω της υψηλής ποιότητας συνθετικής φωνής που παρέχει, καθώς επίσης και λόγω της βελτίωσης στη φυσικότητα και την σαφήνεια που αυτή προσφέρει. Η σύνθεση ομιλίας βασισμένη σε βάση δεδομένων παρουσιάζει υπεροχή σε σχέση με άλλες TTS μεθόδους ως αποτέλεσμα της χρήσης προσωδιακών κανόνων εξαχθέντων από τη βάση και αποδοτικών αλγορίθμων αναζήτησης για την επιλογή μονάδων. Το κύριο χαρακτηριστικό των TTS μεθόδων βασισμένων σε βάσεις ομιλίας είναι η χρήση μεγάλων βάσεων δεδομένων. Συγκεκριμένα, η χρήση μεγάλων βάσεων δεδομένων με τις αντίστοιχες επισημειώσεις επιτρέπει την επιλογή και την συνένωση κατάλληλων ακολουθιών μονάδων για την 65

66 κατασκευή του σήματος συνθετικής ομιλίας. Από αυτόν τον τρόπο, τα αρχικά σήματα ομιλίας δεν τροποποιούνται σημαντικά ή αλλοιώνονται, με αποτέλεσμα να προκύπτουν σήματα συνθετικής ομιλίας κοντά στα αρχικά. Το κύριο πρόβλημα των προσεγγίσεων που βασίζονται σε βάσεις δεδομένων είναι η ανάγκη για επισημείωση της βάσης δεδομένων. Συγκεκριμένα, μεγάλες βάσεις δεδομένων απαιτούνται για να εξασφαλίσουν ότι μια κατάλληλη εμφάνιση της μονάδας που ψάχνουμε κατά τη διάρκεια της διαδικασίας επιλογής υπάρχει στη βάση δεδομένων, δηλαδή μια συγκεκριμένη μονάδα με το συγκεκριμένο αριστερό και δεξιό περιεχόμενο και τη συγκεκριμένη προσωδία. Κατά συνέπεια, όσο μεγαλύτερη η βάση δεδομένων ομιλίας είναι, τόσο πιο πιθανό είναι να βρεθεί και να επιλεχθεί η κατάλληλη εμφάνιση μιας μονάδας για να παραχθεί φυσική συνθετική ομιλία. Ένα άλλο μειονέκτημα είναι ότι προκειμένου να δημιουργηθούν οι νέες συνθετικές φωνές, διαφορετικές μορφές ομιλίας ή να εμπλουτιστεί μια υπάρχουσα φωνή σε νέα δεδομένα από συγκεκριμένη θεματική περιοχή, νέες ηχογραφήσεις μαζί με την αντίστοιχη επισημείωση πρέπει να γίνουν. Ένα μεγάλο μέρος της προσπάθειας που απαιτείται για να υλοποιηθεί ένα TTS με επιλογή μονάδων ξοδεύεται κατά την προετοιμασία της βάσης δεδομένων. Τα περισσότερα από τα συστήματα σύνθεσης ομιλίας χρησιμοποιούν τα φωνήματα ως μονάδες, κατά τη διάρκεια της διαδικασίας επιλογής. Κατά συνέπεια, η βάση δεδομένων ομιλίας πρέπει να επισημειωθεί στο φωνητικό επίπεδο. Οι φωνητικές επισημειώσεις μπορούν να προέλθουν από το επίπεδο λέξης, που είναι συνήθως διαθέσιμο από τις υπαγορεύσεις των ομιλητών κατά την ηχογράφηση της βάσης, με χρήση κανόνων letter-to-sound. Το δυσκολότερο μέρος της προετοιμασίας βάσεων δεδομένων είναι η φωνητική χρονική ευθυγράμμιση των ηχογραφήσεων. Η φωνητική χρονική ευθυγράμμιση εκτελείται συνήθως με το χέρι από ειδικούς φωνολόγους, δεδομένου ότι είναι ο ακριβέστερος τρόπος να ανιχνευθούν τα φωνητικά όρια. Εντούτοις, η χειρωνακτική φωνητική κατάτμηση των σημάτων ομιλίας είναι κουραστική, ακριβή και χρονοβόρος διαδικασία. Κατά συνέπεια, διάφορες μέθοδοι για τον αυτόματο τεμαχισμό σημάτων ομιλίας έχουν προταθεί. Διάφορες προσεγγίσεις τεμαχισμού ομιλίας έχουν προταθεί στη βιβλιογραφία. Η συνηθέστερα και επιτυχώς χρησιμοποιημένη προσέγγιση για το πρόβλημα του τεμαχισμού ομιλίας είναι βασισμένη στα κρυμμένα μοντέλα Markov (Pellom and Hansen, 1998; Brugnara et al., 1993; Adell et al., 2005) [91,23,3]. 66

67 Εφαρμογή στην Αναγνώριση Ομιλίας Η αναγνώριση ομιλίας σήμερα μονοπωλείται από μεθόδους που βασίζονται στα κρυμμένα μοντέλα Markov. Τα περισσότερα εμπορικά και ερευνητικά/ανοιχτού-κώδικα (open-source) συστήματα αναγνώρισης ομιλίας βασίζονται σε αυτά (Young et al., 2006; Lee et al., 1990; SPHINX, 2008; Scansoft, 2003) [68]. Στη μέθοδο αυτή, κάθε φώνημα αποτελεί την βασική μονάδα ομιλίας. Ο συνδυασμός φωνημάτων οδηγεί στην δημιουργία λέξεων, και ο συνδυασμός λέξεων στην δημιουργία προτάσεων. Κατά την διαδικασία εκπαίδευσης ενός συστήματος αναγνώρισης ομιλίας, από την βάση εκπαίδευσης εξάγονται για κάθε ηχογράφηση ομιλίας οι αντίστοιχες φωνητικές ακολουθίες, από letter-to-sound κανόνες, και οι αντίστοιχες ακολουθίες παραμετρικών διανυσμάτων. Κάθε φώνημα μοντελοποιείται, τυπικά, από ένα κρυμμένο μοντέλο Markov 3 καταστάσεων με συνδέσεις μετάβασης από αριστερά προς τα δεξιά, με ή χωρίς skipping μετάβαση από την πρώτη στην τρίτη κατάσταση. Κάθε κατάσταση των κρυμμένων μοντέλων Markov μοντελοποιείται από ένα γραμμικό συνδυασμό N συνεχών Gaussian κατανομών των παραμετρικών διανυσμάτων που υπολογίστηκαν προηγουμένως. Ο υπολογισμός των τιμών των παραμέτρων των κρυμμένων μοντέλων Markov γίνεται, τυπικά, με χρήση του αλγορίθμου Baum-Welch (Baum et al., 1970) [11]. Ακολουθώντας αυτή την μεθοδολογία, αρχικά τα κρυμμένα μοντέλα Markov όλων των φωνημάτων θέτονται με ίσες τιμές σε όλες τις παραμέτρους τους, με αποτέλεσμα η πρώτη εφαρμογή του αλγορίθμου να οδηγήσει σε ίσο/ενιαίο τεμαχισμό των σημάτων ομιλίας (flat initialization). Έπειτα από ικανοποιητικό αριθμό εφαρμογών του Baum- Welch αλγορίθμου, οι τιμές των παραμέτρων των κρυμμένων μοντέλων Markov καταλήγουν σε σύγκλιση. Αφού υπολογιστούν τα μοντέλα των φωνημάτων (contextindependent models), οι ακολουθίες των φωνημάτων αντικαθίστανται από ακολουθίες τριφώνων, δηλαδή το τρέχον φώνημα μαζί με την επισημείωση του προηγούμενου και επόμενου φωνήματος (context-dependent models). Τα μοντέλα τριφώνων αρχικά κλωνοποιούνται από τα αντίστοιχα μοντέλα φωνημάτων, και οι τιμές τους υπολογίζονται με επαναληπτική εφαρμογή του Baum-Welch αλγορίθμου, έως ότου καταλήξουμε σε κριτήρια σύγκλισης. Τέλος από όλα τα μοντέλα τριφώνων, τα οποία προφανώς θα είναι πολλά στο πλήθος τους, υπολογίζονται οι καταστάσεις εκείνες που είναι ακουστικά όμοιες (με μέτρηση της σταθμισμένης ευκλείδειας απόστασης μεταξύ των υπολογισμένων συνεχών κατανομών καταστάσεων). Οι καταστάσεις που θεωρούνται όμοιες ενοποιούνται σε μια κοινή κατάσταση (tied state) και 67

68 χρησιμοποιούνται από κοινού από τα αντίστοιχα μοντέλα τριφώνων. Οι τιμές των tiedstate μοντέλων τριφώνων επανακαθορίζονται από επαναληπτική εφαρμογή του αλγορίθμου Baum-Welch. Κατά την διαδικασία της αναγνώρισης ομιλίας τα tied-state μοντέλα των τριφώνων χρησιμοποιούνται από τον Viterbi αλγόριθμο (Viterbi, 1967). Κατά την διάρκεια της αναγνώρισης (decoding), χρησιμοποιείται μια γραμματική λέξεων ή ένα γλωσσολογικό μοντέλο λέξεων, και ένα λεξικό φωνητικών γραφών. Με την βοήθεια αλγορίθμων αναζήτησης που εφαρμόζονται σε ένα λεξιλογικό δέντρο (lexical tree), και με περιορισμό της αναζήτησης σε αυτό με pruning τεχνικές, υπολογίζεται η πιο πιθανή ακολουθία λέξεων με βάση την πιθανοφάνεια (likelihood) που προκύπτει από το ακουστικό (acoustic score) και το γλωσσολογικό μοντέλο (language score). Ένα τυπικό μπλοκ διάγραμμα της διαδικασίας αναγνώρισης ομιλίας παρουσιάζεται στην Εικόνα 2.9. Εικόνα 2.9: Μπλοκ διάγραμμα της διαδικασίας αυτόματης αναγνώρισης σημάτων ομιλίας. Η χρήση του αλγορίθμου Baum-Welch επιτρέπει την εκπαίδευση των κρυμμένων μοντέλων Markov των φωνημάτων, χωρίς να απαιτείται προηγούμενη γνώση των θέσεων των ορίων των φωνημάτων. Σε αντίθετη περίπτωση, δηλαδή εφόσον υπήρχαν διαθέσιμες οι θέσεις των ορίων των φωνημάτων, η εκπαίδευση των κρυμμένων μοντέλων Markov θα μπορούσε να γίνει με χρήση του αλγορίθμου Viterbi. Δεδομένου ότι ακουστικά μοντέλα για συστήματα αναγνώρισης ομιλίας χρειάζονται για την εκπαίδευσή τους μερικές ώρες ηχογραφήσεων ομιλίας, ώστε να είναι εύρωστα και αξιόπιστα, και δεδομένου ότι είναι πρακτικά αδύνατο να υπολογιστούν με το χέρι τα 68

69 όρια των φωνημάτων σε τόσο μεγάλο όγκο δεδομένων, η εκπαίδευση των κρυμμένων μοντέλων Markov γίνεται με τον αλγόριθμο Baum-Welch. Ένα πρόβλημα που υπάρχει κατά την εκπαίδευση των κρυμμένων μοντέλων Markov με τον αλγόριθμο Baum-Welch είναι η αρχικοποίηση των παραμέτρων. Συγκεκριμένα, η αρχικοποίηση των μοντέλων των φωνημάτων με ενιαίο/ίσο τεμαχισμό (flat initialization) καθιστά τα μοντέλα ασταθή κατά τις πρώτες εφαρμογές του αλγορίθμου Baum-Welch, με αποτέλεσμα την μη σύγκλιση των τιμών των παραμέτρων έπειτα από ένα ικανοποιητικό αριθμό επαναλήψεων. Το γεγονός αυτό είναι σύνηθες σε ηχογραφήσεις προτάσεων μεγάλου μήκους κυρίως (Malfrere et al., 2003) [76]. Αυτό το πρόβλημα αστάθειας κατά την εκπαίδευση των κρυμμένων μοντέλων Markov με τον Baum-Welch αλγόριθμο συνήθως αντιμετωπίζεται με την χρησιμοποίηση ενός υποσυνόλου δεδομένων, που έχουν επισημειωθεί με το χέρι, ώστε να γίνει αρχικοποίηση των τιμών των παραμέτρων των φωνητικών μοντέλων με Viterbi εκπαίδευση Εφαρμογή στην Αναγνώριση Γλώσσας Η τάση παγκοσμιοποίησης στις τελευταίες δύο δεκαετίες έχει αναγκάσει την κοινότητα της τεχνολογίας ομιλίας να στραφεί στην ανάπτυξη των πολυ-γλωσσικών διαλογικών συστημάτων. Συγκεκριμένα, η πολυ-γλωσσική αναγνώριση ομιλίας και η πολυγλωσσική σύνθεση ομιλίας, που θα επιτρέψουν την αυτόματη μετάφραση ομιλίας, θα γίνουν όλο και περισσότερο σημαντικές (Schultz and Kirchhoff, 2006). Ο ακρογωνιαίος λίθος των πολυ-γλωσσικών εφαρμογών ομιλίας είναι η αναγνώριση γλώσσας (language identification LID) που είναι το πρόβλημα της αυτόματης αναγνώρισης της γλώσσας ενός σήματος ομιλίας. Ο ρόλος της αναγνώρισης ομιλίας είναι ουσιαστικός για τις πολυ-γλωσσικές εφαρμογές, όπως τα προφορικά συστήματα διαλόγου (π.χ. πληροφοριακά περίπτερα, τραπεζικές συναλλαγές με φωνή, e-government, φωνητικές πύλες, κ.λπ.) που υποστηρίζουν μια ομάδα γλωσσών, προφορικής ανάκτησης εγγράφων και human-to-human συστημάτων επικοινωνιών (π.χ. δρομολογητές κλήσης, μετάφραση από ομιλία σε ομιλία) (Schultz and Kirchhoff, 2006). Λόγω της υψηλής σημασίας της αναγνώρισης γλώσσας, εντατικές προσπάθειες έχουν αφιερωθεί στην ανάπτυξη αυτής της τεχνολογίας. Αυτό έχει οδηγήσει σε σημαντική πρόοδο, η οποία έχει σημειωθεί στα τελευταία έτη (Martin and Le, 2008) [77]. 69

70 Στην αναγνώριση γλώσσας διάφορες πηγές πληροφορίας, οι οποίες είναι κωδικοποιημένες σε διαφορετικά επίπεδα πληροφορίας στο σήμα ομιλίας μπορούν να χρησιμοποιηθούν για την επιτυχή διάκριση μεταξύ των γλωσσών. Αυτή η διάκριση μπορεί να εκτελεστεί σε διάφορα επίπεδα, όπως το ακουστικό επίπεδο (π.χ. φασματικές πληροφορίες), το προσωδιακό επίπεδο (π.χ. προσωδία), το φωνολογικό επίπεδο (π.χ. γλωσσικά πρότυπα) και οι λεξικολογικές πληροφορίες (Tong et al., 2006). Όσον αφορά το ακουστικό επίπεδο, οι φασματικές πληροφορίες του σήματος ομιλίας εξάγονται μέσω τεχνικών παραμετροποίησης της ομιλίας και περαιτέρω οδηγούνται σε ισχυρούς αλγορίθμους κατηγοριοποίησης ή μηχανικής μάθησης όπως τα μείγματα Gaussian κατανομών (Torres-Carrasquillo et al., 2004), οι μηχανές διανυσμάτων υποστήριξης (Campbell et al., 2004) [25] και τα νευρωνικά δίκτυα (Braun and Levkowvitz, 1998) [21]. Στο προσωδιακό επίπεδο, η διάρκεια των φωνητικών μονάδων (Tong et al., 2006; Ghesquiere and Compernolle, 2002; Lin and Wang, 2006; Hazen and Zue, 1997) [42,47] και ο ρυθμός ομιλίας (Farinas et al., 2002) [37] έχουν χρησιμοποιηθεί. Οι λεξικολογικές πληροφορίες επίσης έχουν αποδειχθεί ως χρήσιμη πηγή κατά την αναγνώριση γλώσσας ή διαλέκτου από ομιλία (Huang and Hansen, 2005; Campbell et al., 2007) [49,24]. Σήμερα, η ο επιτυχέστερα εφαρμοσμένη προσέγγιση και για το πρόβλημα της αναγνώρισης γλώσσας από ομιλία είναι η φωνολογική προσέγγιση (Zissman, 1996; Tsai and Chang, 1999). Στη φωνολογική προσέγγιση, το σήμα ομιλίας αποσυντίθεται στην αντίστοιχη φωνητική του ακολουθία, και οδηγείται περαιτέρω σε γλωσσολογικά μοντέλα, συγκεκριμένα για κάθε γλώσσα. Το γλωσσολογικό μοντέλο με το μέγιστο αποτέλεσμα πιθανότητας δείχνει την αναγνωρισμένη γλώσσα. Η αποσύνθεση του σήματος ομιλίας στην φωνητική ακολουθία μπορεί να εκτελεστεί χρησιμοποιώντας ένα μόνο σύστημα αναγνώρισης φωνημάτων που ακολουθείται από τα γλωσσολογικά μοντέλα (phone recognition followed by language model PRLM), ή χρησιμοποιώντας παράλληλα συστήματα αναγνώρισης φωνημάτων (parallel PRLM PPRLM). 70

71 3 Προσωδιακή πληροφορία στον προφορικό λόγο 3.1 Προσωδία Στον προφορικό λόγο, μέρος του εκφωνηθέντος μηνύματος καταλήγει στον ακροατή μέσω της εκδήλωσης συγκεκριμένων φαινόμενων τα οποία συγκροτούν τη λεκτική ροή. Τέτοια γεγονότα συσχετίζονται με αλλαγές ορισμένων ιδιοτήτων του σήματος ομιλίας όπως μεταβολές στην τονικότητα (διακυμάνσεις της θεμελιώδους συχνότητας), στην διάρκεια των φωνημάτων, στις παύσεις, στην ηχηρότητα και στην ποιότητα της φωνής. Οι τονικές πτυχές της προσωδίας περιγράφονται από τον όρο επιτονισμός. Διάφοροι φορμαλισμοί και μέθοδοι περιγραφής των προσωδιακών φαινομένων έχουν αναπτυχθεί κατά τη διάρκεια των ετών. Η αξιολόγηση της ακρίβειας αναπαράστασης αυτών των μοντέλων στηρίζεται στη δυνατότητά τους να αναδημιουργήσουν την προσωδία μιας έκφρασης και πόσο καλά οι παράμετροι του μοντέλου εξηγούν τη σχέση μεταξύ προσωδίας και σύνταξης. Η περιγραφή της προσωδίας μπορεί να γίνει σε ακουστική, αντιληπτική ή γλωσσολογική βάση. Καθεμία από αυτές τις προσεγγίσεις αντιστοιχεί σε ένα διαφορετικό επίπεδο επεξεργασίας των προσωδιακών πληροφοριών στην προφορική γλωσσική αλληλεπίδραση. Η ακουστική απόδοση των προσωδιακών φαινομένων (θεμελιώδης συχνότητα, πλάτος, και διάρκεια), μπορεί να μετρηθεί απευθείας κάνοντας χρήση ειδικών μηχανημάτων ή αλγορίθμων (όπως αλγόριθμοι για την αυτόματη εκτίμηση της τονικότητας). Το αντιληπτικό επίπεδο αναπαράστασης περιγράφει τα προσωδιακά φαινόμενα μιας φράσης όπως αντιλαμβάνονται από τον (μέσο) ακροατή. Τέλος, το γλωσσολογικό επίπεδο κωδικοποιεί την προσωδία μιας φράσης σαν μια αλληλουχία από αφηρημένες μονάδες (τελεστές, σύμβολα), κάποια από τα οποία εμπεριέχουν προσωδιακή πληροφορία ενώ κάποια άλλα απλά πληρούν κάποιες απαιτήσεις της συντακτικής δομής της φράσης. Ένα γλωσσολογικό μοντέλο αποτελεί μια δομημένη αναπαράσταση της πληροφορίας, η οποία είναι αποτέλεσμα της στατιστικής και ποσοτικής μελέτης των δεδομένων από κάποιον γλωσσολόγο και όχι κάποια κρυμμένη πληροφορία η οποία μπορεί να εξαχθεί αρχικά με έναν αυτόματο τρόπο. Αντίθετα με τις άλλες δύο αναπαραστάσεις, η γλωσσολογική αναπαράσταση δεν είναι «μετρήσιμη», δεν μπορεί να ελεγχθεί παρά μόνο μπορεί να επαληθευτεί η 71

72 περιγραφική της ακρίβεια. Εντούτοις, είναι δυνατό να υλοποιηθούν συστήματα αναγνώρισης που παράγουν μια μεταγραφή της προσωδιακής πληροφορίας μιας άγνωστης έκφρασης σύμφωνα με κάποιο συγκεκριμένο γλωσσικό πρότυπο της προσωδίας. Πίνακας 2 Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων Βασικά συστατικά της προσωδίας Μεταξύ των προσωδιακών φαινομένων, το πιο προφανές είναι οι αλλαγές στην τονικότητα (της τάξεως των πέντε semitones ή περισσότερων), τα οποία συνολικά δημιουργούν την προσωδιακή καμπύλη ή αλλιώς καμπύλη τονικότητας. Η ανάλυση των προσωδιακών καμπύλων μεγάλων προτάσεων φανερώνει ότι αυτές μπορούν να χωριστούν σε μια ακολουθία στοιχειωδών καμπύλων, οι οποίες με την σειρά τους μπορούν περαιτέρω να διαιρεθούν σε συλλαβικά περιγράμματα ή ακόμα μικρότερες διακυμάνσεις οι οποίες συνδέονται με τις συλλαβές ή μέρη αυτών. Με τον όρο συλλαβικά περιγράμματα εννοούμε τις μορφές που λαμβάνει καμπύλη τονικότητας σε επίπεδο συλλαβής όταν αυτή φέρει τόνο επιτονισμού. Ο τόνος (προσωδιακός τόνος ή τόνου επιτονισμού) αποτελεί εκείνο το κομμάτι της προσωδιακής πληροφορίας το οποίο έχει επισημανθεί από τις πρώτες κιόλας εργασίες προσωδίας και φωνητικής. Η μελέτη του προσωδιακού τόνου μπορεί να πραγματοποιηθεί με εξέταση της αντιληπτικής μεριάς περιγραφής της προσωδίας και σχετίζεται άμεσα με την ηχηρότητα και τη φωνητική δύναμη που καταβάλει σε συγκεκριμένα σημεία ο ομιλητής. Η συλλαβή στην οποία πραγματώνεται ο προσωδιακός τόνος διακρίνεται, σε σχέση με τις γειτονικές της, είτε λόγο της μεγαλύτερης ηχηρότητα της (loudness) είτε λόγω των εν γένει δυναμικών ιδιοτήτων της (συνάρθρωσης, διάρκειας φωνημάτων, κ.α.). Για παράδειγμα στις λέξεις <νόμος> και <νομός> μπορούμε να δούμε τις παραπάνω διαφοροποιήσεις που υφίστανται οι τονισμένες συλλαβές. 72

73 Σημαντικό ρόλο στην ένδειξη των προσωδιακών ορίων και του τόνου παίζει η τμηματική διάρκεια (segmental duration). Αν και η απόλυτη διάρκεια ενός γεγονότος μπορεί εύκολα να μετρηθεί, αυτή είναι μόνο μια τετριμμένη πτυχή της μέτρησης της διάρκειας. Καταρχήν, δεν είναι προφανές ποια γεγονότα θα πρέπει να μετρηθούν: ολόκληρες συλλαβές, ηχηρά μέρη, συλλαβικοί πυρήνες, κ.λ.π. Δεύτερον, η διάρκεια των συλλαβών και γενικότερα της ομιλίας εξαρτάται από διάφορους παράγοντες όπως ο ρυθμός ομιλίας, η φύση των φωνημάτων κ.α. Οι ακουστικοί παράγοντες που σχετίζονται με την προσωδία (κυρίως η F0, η ένταση, και η διάρκεια), παρουσιάζουν βραχύχρονες μεταβολές οι οποίες μπορούν να μετρηθούν (δεδομένης της ύπαρξης κατάλληλων οργάνων ακριβείας), αλλά δεν μπορούν να γίνουν αντιληπτές και έτσι δεν έχουν καμία συμβολή στην δημιουργία της καμπύλης επιτονισμού (αν και μπορεί να συμβάλουν στην διαφοροποίηση των φωνημάτων). Αυτού του είδους οι διαφοροποιήσεις αποτελούν την μικροπροσωδία. Για παράδειγμα, το τμήμα της καμπύλης F0 που ανήκει σε ρινικά ή υγρά σύμφωνα μερικές φορές παρουσιάζει πολύ μικρές διακυμάνσεις. Τα περισσότερα από αυτά τα φαινόμενα μπορούν να εξηγηθούν από την αεροδυναμική της παραγωγής ομιλίας Η έννοια της προσωδίας Η προσωδία έχει διάφορες λειτουργίες στην επικοινωνία με ομιλία. Η πιο προφανής επίδραση της προσωδίας στην επικοινωνία είναι αυτή της εστίασης (focus). Για παράδειγμα, συγκεκριμένα τονικά φαινόμενα κάνουν μια συλλαβή να ξεχωρίζει μέσα σε μια φράση, και επομένως να αναδεικνύεται είτε η λέξη είτε η συντακτική κλάση στην οποία ανήκει σαν ένα κομμάτι της φράσης το οποίο περιέχει μια νέα ή σημαντική πληροφορία. Τα προσωδιακά χαρακτηριστικά δημιουργούν ένα καταμερισμό της αλυσίδας της ομιλίας σε ομάδες συλλαβών, με άλλα λόγια ομαδοποιούν νοηματικά συλλαβές ή λέξεις. Πέραν τούτου, υπάρχουν προσωδιακά φαινόμενα τα οποία ορίζουν σχέσεις μεταξύ τέτοιων ομάδων. Η ομαδοποίηση που προκαλείται από τα προσωδιακά φαινόμενα έχει ιεραρχική δομή, και δεν είναι αναγκαίο να ακολουθεί την συντακτική δομή της φράσης. Η πολύ γνωστή μορφή δηλωτικού επιτονισμού (ή το τέλος της καμπύλης επιτονισμού μιας πρότασης), χαρακτηρίζεται, σε πολλές γλώσσες, από πολύ χαμηλή τιμή τονικότητας (κοντά στα όρια της τονικής κλίμακας του ομιλητή), έτσι συχνά θεωρείται ως μια προσωδιακή ένδειξη που παριστάνει το τέλος της πρότασης. Από την άλλη μεριά, υψηλή τιμή τονικότητας στο τέλος μια φράσης δηλώνει την ύπαρξη 73

74 ερώτησης. Σε σχέση με τα προσωδιακά χαρακτηριστικά που αναφέραμε παραπάνω, τα φαινόμενα αυτά μπορούν να θεωρηθούν αποτελέσματα της προσωδιακής ιεραρχίας. Η προσωδιακή δομή έχει ολοκληρωθεί όταν ο τελικός τόνος της πρότασης έχει βρεθεί, η δομή είναι ατελής ή έχει μείνει ανοιχτή από τον ομιλητή, δηλώνοντας μια σύνδεση με αυτά που θα ακολουθήσουν. Εικόνα 3.1. Αλλαγές στην καμπύλη F0 ανάλογα με την θέση του τόνου επιτονισμού στη φράση Όλες αυτές οι πλευρές του επιτονισμού μπορούν να ομαδοποιηθούν κάτω από τον τίτλο, γλωσσολογική πλευρά του επιτονισμού. Αποτελούν μέρος της δομής μια γλώσσας ακριβώς όπως η μορφολογία ή η σύνταξη της. Υπάρχει, εντούτοις, μια άλλη σειρά φαινομένων που εκφράζονται επίσης με τα προσωδιακά μέσα (όπως η τονικότητα), αλλά είναι ανεξάρτητα από τις λειτουργική πλευρά της προσωδίας. Θα μπορούσαν να οριστούν ως συναισθηματικές πτυχές της προσωδίας αφού μεταβιβάζουν τις πληροφορίες για τη συναισθηματική ή φυσική κατάσταση του ομιλητή. Παραδείγματος χάριν, η ομιλία σε θυμωμένη συναισθηματική κατάσταση συνήθως παρουσιάζει τονικότητα με γρηγορότερες αλλαγές και μεγαλύτερο εύρος και πλάτος τιμών (η ομιλία σε καταθλιπτική συναισθηματική κατάσταση παρουσιάζει αντίθετη τάση). Εικόνα 3.2. Καμπύλη F0 της φράσης Χλόμιασαν με τις μανούβρες του καραβιού α) σε κατάσταση θυμού και β) σε κατάσταση στεναχώριας Όμως παρότι η πραγμάτωση της τονικότητας μπορεί να επηρεαστεί από τέτοιους συναισθηματικούς παράγοντες, οι βασικές λειτουργικές μορφές της και οι διαμορφώσεις της παραμένουν απρόσβλητες. Το συναισθηματικό φορτίο λοιπόν δεν 74

75 αλλάζει το γλωσσικό κώδικα (την επιλογή δηλαδή των φωνημάτων που απαρτίζουν το μήνυμα) αλλά έχει επιπτώσεις μόνο στην πραγματοποίησή του. Για αυτό τέτοιες πτυχές καλούνται μερικές φορές παραγλωσσολογικές, μαζί με άλλα φαινόμενα όπως η π.χ. η ποιότητα της φωνής. 3.2 Μοντέλα επιτονισμού Διάφοροι φορμαλισμοί και μέθοδοι μεταγραφής του επιτονισμού έχουν αναπτυχθεί κατά τη διάρκεια των ετών. Η ταξινόμηση των φορμαλισμών αυτών ταυτίζεται με αυτή που περιγράψαμε στην προηγούμενη παράγραφο σχετικά με τα επίπεδα αναπαράστασης της προσωδίας, (πίνακας 2: Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων) έτσι και αυτά μπορεί με την σειρά τους να ταξινομηθούν σε ακουστικά, αντιληπτικά και γλωσσολογικά μοντέλα Ακουστικά μοντέλα επιτονισμού Όπως είναι δυνατή η περιγραφή των τεμαχιακών χαρακτηριστικών της ομιλίας με την μορφή σειράς φασματικών διανυσμάτων σχετιζομένων με κάποιο ακουστικό μοντέλο, είναι δυνατό να δημιουργήσουμε μια αριθμητική αναπαράσταση της προσωδίας, με την μορφή τιμών τονικότητας (π.χ. μια τιμή κάθε 10 ms), με την βοήθεια αλγορίθμων ανάλυσης τονικότητας (εικόνα 3.3). Μια τέτοια περιγραφή βέβαια έχει περιορισμένη εφαρμογή. Στα πλαίσια της ΜΚσΟ, μπορεί στην καλύτερη περίπτωση να χρησιμοποιηθεί σαν προσωδιακή πληροφορία ενός συνθέτη ο οποίος θα αναπαράγει την φράσεις ενός ομιλητή με συνθετική φωνή (copy synthesizer), διατηρώντας την αρχική προσωδία. Μια πλήρη ακουστική αναπαράσταση της προσωδίας δεν είναι πολύ περιοριστική επίσης, δεδομένου ότι η σειρά των ακουστικών γεγονότων που δύναται να περιγράψει είναι πάρα πολύ μεγάλη για μια περιγραφή της ανθρώπινης προσωδίας. Δεν αντιστοιχούν όλες οι καμπύλες τονικότητας σε φυσικά ή φυσικά ευκολοπρόφερτα δεδομένα. Ως εκ τούτου, δεν ενδείκνυται για προσωδιακές τροποποιήσεις ακόμα και για έναν συνθέτη αναπαραγωγής (copy synthesizer), πόσο μάλλον για την χρήση της σε ένα σύστημα ΜΚσΟ. 75

76 Εικόνα 3.3. Φασματική και ακουστική αναπαράσταση κυματομορφής σε συνάρτηση με το χρόνο. Στην πραγματικότητα, η τροποποίηση της προσωδίας μιας έκφρασης μεταφράζεται σαν την τροποποίηση χαρακτηριστικών τιμών της F0 ομοιογενώς. Αυτό μπορεί μόνο να επιτευχθεί, σε έναν βαθμό, με τη βοήθεια ενός πλήρους ακουστικού προτύπου προσωδίας (σε αντιδιαστολή με την περιγραφή ανωτέρω), το οποίο εξετάζει τα προσωδιακά στοιχεία σε πιο υψηλό επίπεδο αναπαράστασης και περιγράφει τις καμπύλες F0 με έναν περιορισμένο αριθμό παραμέτρων, μια αλλαγή των οποίων δύναται να προκαλέσει ένα ευρύ φάσμα προσωδιακών αποτελεσμάτων. Τέτοια πρότυπα υπάρχουν, τα πιο γνωστά εκ των οποίων είναι το μοντέλο Fujisaki και τα μοντέλα ακουστικής τυποποίησης Ακουστικό μοντέλο επιτονισμού Fujisaki Το πρότυπο του Fujisaki, είναι η συνέχεια εργασίας του Ohman (Ohman, 1967) για την προσωδία των λέξεων. Είναι βασισμένο στη θεμελιώδη υπόθεση ότι οι καμπύλες προσωδίας, αν και συνεχείς και στο χρόνο και στη συχνότητα, δημιουργούνται σε ιδιαίτερα γεγονότα που προκαλούνται από τον αναγνώστη και είναι η αιτία των φυσιολογικών μηχανισμών σχετικών με τον έλεγχο της F0. [41] 76

77 Μέθοδοι ακουστικής τυποποίησης Μια άλλη προσέγγιση για την περιγραφή της πληροφορίας που περιέχεται σε μια καμπύλη F0, με κατανοητό τρόπο, είναι με την επισήμανση των ακουστικών παραλλαγών που ενδεχομένως να περιέχει υπολογίζοντας της γραμμές κλίσης (declination lines) και (ή) προσεγγίζοντας την καμπύλη με μια σειρά από συγκεκριμένα σημεία στόχους (target points). Έχει αποδειχθεί για πολλές γλώσσες ότι καμπύλη F0 έχει την τάση να παίρνει τιμές μεταξύ κάποιων μέσων τιμών οι οποίες μειώνονται με τον χρόνο (Vaissiere, 1983). Αν υπολογίσουμε την μέση τιμή της θεμελιώδους συχνότητας μια καμπύλης, τότε παρατηρούμε ότι οι τιμές της είναι μεγαλύτερες από την τιμή αυτή στο αρχικό σημείο της και μικρότερες στο τελικό. Αυτή η γενική τάση των τιμών της F0 καλείται απόκλιση (declination). Εικόνα 3.4: Γραμμές κλίσης οι οποίες έχουν ληφθεί έπειτα από ακουστική ανάλυση. ΑΣ, ΤΑ, Εx, Mx και μx αντίστοιχα, αναφέρονται στην αρχική συχνότητα, τελική συχνότητα, ελάχιστα, μέγιστα και μικροπροσωδιακές μεταβολές. Ένας απλός τρόπος για την μαθηματική απόδοση της θεωρίας απόκλισης είναι το να υπολογίσουμε τις γραμμές κλίσης σαν την καλύτερη γραμμική παλινδρόμηση όλων των τοπικών ακρότατων (μέγιστα και ελάχιστα) της καμπύλης F0. Ένα παράδειγμα του παραπάνω φαίνεται στην Εικόνα 3.4, όπου τα τοπικά μέγιστα και ελάχιστα της καμπύλης προσεγγίζονται με δύο ευθείες, πάνω (topline) και κάτω (baseline). Στην πραγματικότητα αυτή η διαδικασία δυσκολεύει από το γεγονός ότι οι ομιλητές συνηθίζουν να αρχικοποιούν την φωνητική τους κατάσταση μετά από την παραγωγή μιας σχετικά χαμηλής τιμής F0 (συγκεκριμένα μετά από παύσεις που χωρίζουν μεγάλες ενδοπεριοδικές φράσεις) ( t Hart et al., 1991) [1]. 77

78 3.2.2 Αντιληπτικά μοντέλα επιτονισμού Όπως είδαμε στην προηγούμενη ενότητα, τα ακουστικά μοντέλα επιτονισμού μπορούν με μεγάλη δυσκολία να χρησιμοποιηθούν υπό αυτήν τη μορφή για μια γλωσσική, λειτουργική μελέτη της προσωδίας, η οποία πρέπει τουλάχιστον να λάβει την αντίληψη υπόψιν. Παρέχουν προσεγγίσεις της καμπύλης F0, αλλά δεδομένου ότι οι αλγόριθμοι εκτίμησης παραμέτρων λαμβάνουν τα ακουστικά χαρακτηριστικά της ομιλίας ως δεδομένα εισόδου, δεν μπορούν να εγγυηθούν ότι οι λεπτομέρειες που παραλείπονται κατά την εκτίμηση δεν είναι πραγματικά ακουστές, και αντιθέτως ότι αυτές που παραμένουν μπορούν πραγματικά να ακουστούν. Τα αντιληπτικά πρότυπα αφ' ετέρου στοχεύουν στην παραγωγή μιας ποσοτικής αλλά συμπαγούς περιγραφή των προσωδιακών ιδιοτήτων του σήματος που γίνονται αντιληπτές από τον ακροατή. Θα εξετάσουμε εν συντομία δύο τέτοια πρότυπα: το πρότυπο IPO και ένα αυτόματο αντιληπτικό πρότυπο τυποποίησης επιτονισμού Το IPO μοντέλο επιτονισμού Το πρότυπο επιτονισμού IPO αναπτύσσεται από τη δεκαετία του '60, στο Ινστιτούτο Έρευνας Αντίληψης (Instituut voor Perceptieonderzoek, IPO). Το μοντέλο αυτό είναι βασισμένο σε μια μέθοδο ανάλυση-μέσω-σύνθεσης κατά την οποία οι φράσεις αναλύονται και συνθέτονται σε μια τυποποιημένη καμπύλη τονικότητας, αποτελούμενη από μια ακολουθία ευθειών γραμμών (σε λογαριθμική κλίμακα), ώστε να ελεγχθεί η αντιληπτική ισοδυναμία μεταξύ της αρχικής και της παραγόμενης (στιλιζαρισμένης) καμπύλης επιτονισμού ( t Hart et al., 1991) [1]. Αρχικά η προσέγγιση αυτή μοιάζει με ένα μη αυτόματο ισοδύναμο της διαδικασίας που είδαμε στην προηγούμενη ενότητα, ή σαν μια αντιληπτικά προσανατολισμένη τεχνική σαν αυτή που εξετάσαμε στη παράγραφο Αυτή η ομοιότητα ενισχύεται περαιτέρω από το γεγονός ότι η IPO τυποποίηση του επιτονισμού χρησιμοποιεί επίσης τις γραμμές κλίσης (που καθορίζονται αυτή τη φορά με αντιληπτικές υποθέσεις και περιορισμούς) ( t Hart et al., 1991), (Collier 1991) [1,26] Αυτόματη αντιληπτική τυποποίηση Σε εργασίες τους οι Mertens και d'alessandro προτείνουν μεθόδους για την αυτόματη τυποποίηση της καμπύλης τονικότητας βάση του ανθρώπινου μηχανισμού αντίληψης αυτών των φαινομένων (Mertens, 1987), (d'allessandro, Mertens, 1995) [79,30]. Τα μοντέλα αυτά βασίζονται στην προϋπόθεση ότι οι καμπύλες F0 πρέπει να μελετώνται 78

79 σε συνάρτηση με άλλα φωνητικά και προσωδιακά χαρακτηριστικά του σήματος ομιλίας (Kohler, 1991) [61]. Συγκεκριμένα, οι συλλαβές (ή γενικότερα μονάδες σε επίπεδο συλλαβής) συχνά εμφανίζονται ως δομικά στοιχεία όσον αφορά την αντίληψη του επιτονισμού. Πέραν τούτου, οι καμπύλες επιτονισμού που πραγματώνονται μέσα σε μια συλλαβή μπορούν να αναλυθούν περαιτέρω σε στοιχειώδεις καμπύλες που καλούνται τονικά τεμάχια (tonal segments), ο αριθμός των οποίων εξαρτάται από ιδιότητες εξαρτώμενες από την γλώσσα που μελετάμε. Εδώ θα πρέπει να επισημάνουμε την διαφορά των τονικών τεμαχίων στα οποία αναφέρεται η μέθοδος της αντιληπτικής τυποποίησης επιτονισμού και στα γλωσσικά τονικά τμήματα που προτείνονται από πολλές φωνολογικές θεωρίες του (όπως θα δούμε στην επόμενη ενότητα) Γλωσσολογικά μοντέλα επιτονισμού Η εξαγωγή της φωνολογικής φύσης των προσωδιακών δεδομένων (με τη σύγχυση στοιχείων που μεταβιβάζουν την ίδια πληροφορία) είναι πιο προβληματική από την εξαγωγή των αντίστοιχων ακουστικών ή αντιληπτικών χαρακτηριστικών. Θα μπορούσε εδώ να ισχυριστεί κάποιος ότι η αποκωδικοποίηση της προσωδιακής πληροφορίας είναι μια διαδικασία κατά κάποιο τρόπο υποκειμενική (σε αντιδιαστολή με την ακουστική πληροφορία ενός τμήματος ομιλίας). Έτσι λοιπόν η προσωδιακή πληροφορία δεν αντιστοιχεί σε απόλυτες τιμές διάρκειας, έντασης ή θεμελιώδους συχνότητας (F0) ούτε και σε απόλυτες τιμές τονικότητας, ηχηρότητας, μήκους, ή συλλαβικής διάρκειας. Άλλωστε, τα ίδια ακουστικά ή αντιληπτικά δεδομένα μπορούν να γίνουν κατανοητά πολύ διαφορετικά από τον ακροατή, ανάλογα με το προσωδιακό πλαίσιο. Κατά συνέπεια, η εφαρμογή γλωσσολογικά προσανατολισμένων υποθέσεων ενός συστήματος μεταγραφής για την προσωδία αποσκοπεί σε έναν ταυτόχρονο καθορισμό κάποιου "προσωδιακού λεξιλογίου" για να περιγράψει τα επιτονικά φαινόμενα που προκύπτουν από την ακουστική ή αντιληπτική ανάλυση καθώς και κάποιας γραμματικής με σκοπό την διευθέτηση ασαφειών που προκύπτουν κατά την χρήση αυτών των συμβόλων σε διαφορετικές εννοιολογικά περιπτώσεις. Σε μια λέξη, είναι απαραίτητη η ανάπτυξη μιας εκτενούς γλωσσικής θεωρίας υπερτεμαχίων (παραπάνω από ένα τεμάχια), ανάλογη με αυτή περί τεμαχίων αλλά όχι όμως απαραίτητα σχετική με αυτή. Τα υπερτεμάχια δεν χρειάζονται να αναλυθούν συστηματικά με βάση την τεμαχιακή οργάνωση των προτάσεων, των μορφημάτων, των φράσεων κ.α. Στην εργασία του (Selkirk, 1984), παρουσιάζεται μια φωνολογική ιεραρχία που περιέχει τη συλλαβή, την προσωδιακή λέξη, τη φωνολογική φράση και τη φράση επιτονισμού. Μια 79

80 τέτοια αυτόνομη ανάλυση μπορεί να επιτευχθεί με πέραν τις μιας προσεγγίσεις. Με αυτή μπορεί να αποκαλυφθούν χαρακτηριστικά όπως η ύπαρξη των λειτουργικών προσωδιακών μονάδων (που παριστάνονται από τα σύμβολα του προαναφερθέντος λεξιλογίου) και οργανώνονται στις φράσεις και τις προτάσεις (η σύνταξη των οποίων αποτελείται από την προαναφερθείσα γραμματική). Ακριβώς όπως για το αποσπασματικό επίπεδο, οι λειτουργικές προσωδιακές μονάδες (ή αλλιώς προσωδήματα) δεν έχουν καμία ανεξάρτητη ύπαρξη: αποτελούν ένα δομημένο σύνολο στο οποίο κάθε στοιχείο μπορεί να αντιπαραβληθεί με το σύνολο-η αντικατάσταση ή η λάθος εκτίμηση ενός στοιχείου με κάποιο μέσα σε μια προσωδιακή συμβολοσειρά μπορεί να οδηγήσει σε μια αλλαγή στην κατανόηση της συμβολοσειράς (όπως η αλλαγή της θέσης της εστίασης, παραδείγματος χάριν). Η σύνταξη των προσωδιακών συμβολοσειρών, έχει σαν αποτέλεσμα τον περιορισμό του πλήθους των αποδεκτών προσωδιακών συμβολοσειρών για μια δεδομένη γλώσσα και περιγράφεται με τους κανόνες μιας γραμματικής. Μια τέτοια γραμματική δεν είναι μοναδική. Οι κανόνες της εξαρτώνται από το γενικό φορμαλισμό που υιοθετείται για την περιγραφή και, το πιο σημαντικό σε αυτήν την περίπτωση, από τα γλωσσικά χαρακτηριστικά γνωρίσματα του κειμένου. Η ουσία είναι ότι ο επιτονισμός σχετίζεται σε μεγάλο βαθμό με την σημασιολογία και την πραγματολογία. Έχουμε αναφέρει επίσης ότι εκθέτει τις συναισθηματικές, παραγλωσσολογίες πτυχές της ομιλίας. Κατά συνέπεια, αν και το διεθνές φωνητικό αλφάβητο (IPA) έχει εμφανιστεί περισσότερο από έναν αιώνα πριν, το προσωδιακό αντίστοιχό του δεν έχει πλήρως οριστεί ακόμα. Καμία παγκοσμίως υιοθετημένη προσωδιακή σύνταξη δεν έχει ακόμα καθιερωθεί πλήρως. Είναι εντούτοις μια θεμελιώδης απαίτηση για την ανάπτυξη των γλωσσικών θεωριών και για την απόφυση των λεκτικών εφαρμογών (είτε για αναγνώριση είτε για σύνθεση ομιλίας). Τα φωνολογικά μοντέλα του επιτονισμού μπορούν να ταξινομηθούν με βάση διάφορες οπτικές ανάλυσης, κυρίως ανάλογα με το βαθμό κατάτμησης που προκαλούν (σε ποια σημεία μιας φράσης εισάγουν τα προσωδιακά σύμβολα), η θέση του τόνου (εάν χρησιμοποιείται ή όχι ρητά), και η ιεραρχία, ή οι προσωδιακές περιοχές που ορίζουν. Στη συνέχεια θα αναλύσουμε περιφραστικά το μοντέλο επιτονισμού ToBI το οποίο βασίζεται στην εφαρμογή σημαδιών τα οποία κωδικοποιούν την κίνηση της καμπύλης F0 κατά την παραγωγή του προφορικού μηνύματος. 80

81 Μοντέλο επιτονισμού ΤοΒΙ Σε αυτό το κεφάλαιο θα αναλύσουμε το σύστημα ToBI.Το ΤοΒΙ (Tones and Break Indices) είναι ένα πλαίσιο για την ανάπτυξη συμβάσεων ευρείας αποδοχής σχετικές με την μετεγγραφή της επιτονικής δομής των εκφωνημάτων. Το ToBI υποθέτει μία στενή σχέση ανάμεσα στον επιτονισμό και σε ένα ιεραρχικό μοντέλο από προσωδιακές συνιστώσες (Pierrehumbert, 1980), (Pierrehumbert, Beckman, 1988), (Beckman, Pierrehumbert, 1986) [92,93,12]. Δεν αποτελεί ένα διεθνές προσωδιακό αλφάβητο, καθώς η προσωδιακή οργάνωση διαφέρει από γλώσσα σε γλώσσα και συχνά από διάλεκτο σε διάλεκτο μέσα στην ίδια γλώσσα. Έτσι, υπάρχουν διαφορετικά συστήματα ToBI για κάθε γλώσσα και διάλεκτο. Π.χ. Αγγλικά (Silverman, et al., 1992), Γερμανικά (GToBI) (Baumann, et al., 2000) [10], Γιαπωνέζικα (J_ToBI) (Venditti, 2004), Κορεάτικα (K-ToBI) (Jun, 2000), Ελληνικά (GR-ToBI) (Arvaniti, Baltazani, 2000) [5]. Εικόνα 3.5 Η γραμματική του ΤΟΒΙ Το σύστημα αποτελείται από μία σειρά από παράλληλα επίπεδα (tiers). Το πρώτο είναι ένα τονικό διάζωμα που περιέχει τονικά γεγονότα (pitch events) βασισμένα στην θεωρία της Pierrehumbert. Η Pierrehumbert διέκρινε μόνο δύο τονικά επίπεδα, ένα υψηλό H και ένα χαμηλό L, τα οποία δεν αντιπροσωπεύουν απόλυτες τιμές (π.χ. σε Hz) αλλά αντιπαραβάλλονται μεταξύ τους: το H είναι υψηλότερο στο εύρος του ομιλητή απ ότι θα ήταν το L στην ίδια θέση. Οι πιθανές ακολουθίες από τόνους H και L περιορίζονται από μία γραμματική πεπερασμένης κατάστασης (Σχήμα 3.6), που με τη σειρά της διαχωρίζει τέσσερις κατηγορίες τόνων στη βάση των ιδιοτήτων κατανομής: αρχικοί οριακοί τόνοι (initial boundary tones), επιτονικό ύψος (pitch accent tones), φραστικοί τόνοι (phrase accent tones) και καταληκτικοί οριακοί τόνοι (final boundary tones). Αυτή η γραμματική εισάγει ρητά μία ιεραρχική περιγραφή του επιτονισμού τριών επιπέδων πάνω από το επίπεδο της λέξης: η προσωδιακή λέξη ΠΛ (Prosodic Word), η μεσαία φράση ΜΦ (intermediate phrase) και η επιτονική φράση ΕΦ 81

82 (Intonational Phrase). Στα τονικά γεγονότα συχνά περιλαμβάνονται και οι ετικέτες `HiF0` για να σημειώσουν την μέγιστη τιμή της F0 σε μία φράση. Μία ΜΦ περιλαμβάνει τουλάχιστον ένα επιτονικό ύψος και οριοθετείται τονικά με έναν φραστικό τόνο, είτε H- είτε L- στη δεξιά του πλευρά. Μία ΕΦ περιλαμβάνει τουλάχιστον μία ΜΦ και οριοθετείται τονικά με έναν οριακό τόνο, όπως H% ή L%. Επειδή οι φραστικοί και οι οριακοί τόνοι δεν μπορούν να συμβαίνουν ταυτόχρονα, έχει καθιερωθεί να ονομάζονται και οι δύο σαν τελικοί τόνοι (endtones). Τα εκφωνήματα αναλύονται σε προσωδιακές λέξεις οι οποίες δέχονται έναν και μόνο έναν μονό (στατικό) ακουστικό τόνο (H* ή L*) ή έναν διπλό (δυναμικό) τόνο (H*+L, H+L*, L*+H, L+H*), όπου ο τόνος που συσχετίζεται με την τονισμένη συλλαβή συμβολίζεται με το διακριτικό του αστερίσκου (*). Οι προσωδιακές λέξεις συνδυάζονται σε ενδιάμεσες φράσεις που με τη σειρά τους δημιουργούν τις επιτονικές φράσεις. Ο τόνος κλεισίματος (offset pitch) των ενδιάμεσων φράσεων δηλώνεται από έναν φραστικό τόνο που φέρει το διακριτικό της παύλας (-). Οι τόνοι ανοίγματος (onset) και κλεισίματος (offset) των επιτονικών φράσεων δηλώνονται μέσω των αρχικών και τελικών οριακών τόνων που φέρουν το διακριτικό του επί τοις εκατό (%). Εικόνα 3.6 Τονικά ύψη και η ευθυγράμμιση τους με την τονισμένη συλλαβή [12] Το διάζωμα των δεικτών παύσης (break indices) χρησιμοποιείται για να σημειώσει παύσεις στη κλίμακα 0 μέχρι 4 (ή 6 ή 3, ανάλογα με τη γλώσσα), που δείχνει την ένταση του συνδέσμου ανάμεσα σε δύο παρακείμενες λέξεις. Τέλος, για να σημειωθούν ενδοιασμοί, δυσχέρειες λόγου, μη-ομιλία κλπ., χρησιμοποιείται ένα διάζωμα διαφόρων ποικιλιών (miscellaneous). Το μοντέλο ToBI είναι ένα γλωσσολογικό μοντέλο το οποίο αν και έχει μελετηθεί ευρέως, παρουσιάζει μεγάλες αποκλίσεις ως προς την σημειογραφία του, ενώ όπως όλα τα γλωσσολογικά μοντέλα δεν περιγράφει το τονικό περίγραμμα αλλά τη δομή του. Το σχήμα του τόνου μέσα σε μία κλάση έχει δειχθεί ότι μπορεί να ποικίλει με βάση το φωνηματικό περιεχόμενο το οποίο τους φέρει. Ο (Grabe, 1998) [44], για παράδειγμα, έδειξε ότι ο προσωδιακός τόνος συμπιέζεται όταν υπάρχει λιγότερο ηχηρό (sonorant) φωνηματικό υλικό. 82

83 Μέρος της φιλοσοφίας του ToBI είναι το γεγονός ότι παρέχει ένα πλαίσιο σημειογραφίας μέσα στο οποίο διαφορετικοί σχολιαστές (labelers) γλωσσολόγοι, δύνανται να είναι συνεπείς κατά το δικό τους χαρακτηρισμό. Αυτή η συνέπεια είναι σημαντική για τη σύνθεση ομιλίας, για παράδειγμα, για την εκπαίδευση ενός στατιστικού μοντέλου. Το βασικότερο πρόβλημα της σημειογραφίας του ToBI είναι ότι ενώ στη γραπτή αναπαράσταση μπορεί να είναι ξεκάθαρη η διαφορά των τόνων που ορίζει, η απόδοση τους στο φυσικό σήμα ομιλίας εμφανίζει πολλές ομοιότητες. Η F0 από μόνη της δεν δείχνει πάντα τις ξεκάθαρες καμπύλες που αναμένονται, οπότε και δεν είναι σαφές τι είδους τύπου είναι ένας τόνος ή αν υπάρχει τόνος. Στην εργασία των (Syrdal, McGory, 2000) αποδεικνύεται ότι αν και οι σχολιαστές γενικώς συμφωνούν στο σημείο εμφάνισης ενός τόνου, εμφανίζουν χαμηλό ποσοστό συμφωνίας στο είδος του τόνου πράγμα το οποίο μπορεί να αποβεί σημαντικό εμπόδιο για την εκπαίδευση των μοντέλων Το σύστημα Gr-ToBI Το GR-ToBI είναι η προσαρμογή του συστήματος ToBI στα Ελληνικά (Arvaniti, Baltazani, 2000) [5]. Στηρίζεται πάνω στο Αγγλικό ToBI, αλλά έχει προσαρμοστεί στα Ελληνικά λαμβάνοντας υπόψη μερικά πρόσθετα στοιχεία της Ελληνικής προσωδίας, όπως για παράδειγμα τα εκτενή sandhi. Για τα Ελληνικά ορίζονται πέντε προσωδιακοί τόνοι: L*, L*+H, L+H*, H* και H*+L. Αν δούμε μερικά παραδείγματα της γλωσσολογικής λειτουργίας των παραπάνω τόνων, το L+H* σηματοδοτεί στενή εστιακή κορύφωση, ενώ το H* ευρεία. Η διαφοροποίηση του L*+H και του L+H* έγκειται στην ευθυγράμμιση του τόνου H ο τόνος H του L+H* βρίσκεται σαφώς μέσα στη περιοχή του τονούμενου φωνήεν, ενώ ο τόνος H του L*+H ευθυγραμμίζεται νωρίς στο πρώτο φωνήεν μετά το τονούμενο (post accentual). Επίσης, όλοι οι τόνοι μπορεί να εμφανίζονται με χαμηλότερη κλιμάκωση απ ό,τι τονίζονται τυπικώς αυτό το παρατηρούμενο γεγονός ονομάζεται αποκλιμάκωση (downstep). Υπάρχουν τρεις τύπου φραστικοί τόνοι στα Ελληνικά, H-, L- και!h- και τρεις τύποι οριακών τόνων, H%, L% και!h%. Οι τρεις οριακοί τόνοι συνδυάζονται με τους φραστικούς τόνους σε οκτώ διαφορετικές διατάξεις που εμφανίζονται να έχουν συγκεκριμένες πραγματολογικές λειτουργίες. Ένα σημαντικό πρόβλημα στη σημειογραφία του ToBI είναι η τοποθέτηση του κατάλληλου τύπου ακουστικού τόνου, φραστικού τόνου και οριακού τόνου. 83

84 Τέλος, ορίζονται τέσσερις τύποι δεικτών παύσης: 0, 1, 2 και 3. Ο δείκτης 0 δείχνει έντονη συνεκτικότητα ανάμεσα σε δύο ορθογραφικές λέξεις. Συνεχόμενες λέξεις με ενδιάμεσους δείκτες 0 αποτελούν μία προσωδιακή λέξη και λαμβάνουν έναν μόνο προσωδιακό τόνο (ή δύο στις περιπτώσεις εγκλιτικού τόνου). Ο δείκτης 1 σημειώνει τα όρια των προσωδιακών λέξεων, ενώ οι δείκτες 2 και 3 τα όρια των ενδιάμεσων και των επιτονικών φράσεων αντίστοιχα. Ο Πίνακας 3 παρουσιάζει τις ακολουθίες των τόνων στα ελληνικά για διάφορα είδη προτάσεων (Baltazani, 2002) [9]. Πίνακας 3 Οι μελωδίες σε διάφορα είδη πρότασης στα Ελληνικά. Εικόνα 3.7. H κωδικοποίηση ToBI. Παράδειγμα της κυματομορφής της φράσης Τους έλεγχε με το καμτσίκι όπου φαίνονται, τα επίπεδα του φωνήματος (phones), λέξης (Ws), τα επίπεδα του ToBI: προσωδιακή λέξη (IWs), δείκτης παύσης (BreakIndex) και τόνων (PitchAccents, PhraseAccents). 84

85 3.3 Ανάπτυξη γλωσσικών πόρων για την έρευνα της σύνθεσης ομιλίας Η επιτυχία της σύνθεσης ομιλίας με συνένωση δομικών στοιχείων καθώς και η μετάβαση του ενδιαφέροντος των ερευνητών, από μοντέλα εξαγωγής προσωδιακής πληροφορίας με κανόνες σε μοντέλα μηχανικής μάθησης (όπου η προσωδιακή πληροφορία εξάγεται έπειτα από στατιστική επεξεργασία ενός σώματος κειμένου με διάφορα επίπεδα επισημείωσης), οδήγησαν την έρευνα στο χώρο της ΜΚσΟ σε μοντέλα που παράγονται από μεθόδους οδηγούμενες από δεδομένα. Ειδικότερα, η σύνθεση ομιλίας με συνένωση μονάδων στηρίζεται στην ύπαρξη μιας αυτόματης διαδικασίας επιλογής κατάλληλων δομικών στοιχείων από μια ηχογραφημένη βάση δεδομένων ομιλίας. Επιπλέον, η κατασκευή αξιόπιστων μοντέλων εκτίμησης προσωδιακών φαινομένων οδηγούμενων από δεδομένα απαιτεί την ύπαρξη καλά σχεδιασμένων σωμάτων ομιλίας (με επισημειωμένη πληροφορία σε διάφορα επίπεδα). Χαρακτηριστικά του σώματος ομιλίας που παίζουν σημαντικό ρόλο στην αξιοπιστία των παραγόμενων μοντέλων προσωδίας είναι το μέγεθος τους (quantity), το πληροφοριακό εύρος που καλύπτει η πληροφορία που περιέχουν (domain coverage) και η συμφωνία των σχολιαστών κατά την επισημείωση της προσωδιακής πληροφορίας (annotator consistency). Κατά συνέπεια, η διαδικασία της συλλογής δεδομένων και οι προδιαγραφές που χαρακτηρίζουν ένα προσωδιακό σώμα ομιλίας επηρεάζουν άμεσα την ποιότητα του παραγόμενου συνθετικού σήματος ομιλίας. Παρόλα αυτά όμως, εκτός από την ελάχιστη απαίτηση να έχουμε αρκετά δεδομένα για την εκπαίδευση και τον έλεγχο μιας στατιστικής πρότυπης διαδικασίας εκτίμησης, δεν υπάρχουν κάποιοι τυποποιημένοι κανόνες για την σχεδίαση και δημιουργία των βάσεων προσωδιακής πληροφορίας. Κατά την ανάπτυξη μιας προσωδιακής βάσης δεδομένων, μία εκ των σημαντικότερων διαδικασιών είναι αυτή της επιλογής του κατάλληλου σώματος κειμένου. Διάφορες προσεγγίσεις έχουν προταθεί για την κατάλληλη επιλογή του. Συγκεκριμένα μπορεί να αποτελείται είτε από μια λίστα ειδικά σχεδιασμένων λέξεων χωρίς-νόημα (nonsense words), είτε να είναι ένα σώμα ασυσχέτιστων και μεμονωμένων προτάσεων, είτε κείμενο ραδιοφωνικών μεταδόσεων ειδήσεων, είτε αποσπάσματα λογοτεχνικών βιβλίων (Bellegarda et al., 2001: 52-66) [13]. Το επόμενο βήμα είναι η ηχογράφηση του επιλεγμένου σώματος κειμένων που μπορεί να πραγματοποιηθεί από έναν ή περισσότερους ομιλητές και μπορεί να λάβει χώρα σε μια ή περισσότερες συνόδους κατά την διάρκεια μιας εκτεταμένης χρονικής περιόδου. Τέλος, ένα ακόμα 85

86 εξίσου σημαντικό θέμα που πρέπει να ληφθεί υπόψη κατά τον σχεδιασμό και δημιουργία μιας προσωδιακής βάσης ομιλίας είναι η επιλογή ενός κατάλληλου ύφους ομιλίας το οποίο έχει άμεση σχέση με την εμφάνιση των προσωδιακών φαινόμενων στο σώμα ομιλίας Προετοιμασία Της Βάσης εδομένων Μια σειρά προκαταρκτικών βημάτων πρέπει να εκπληρωθεί προτού να μπορέσει να παραγάγει ο synthesizer την πρώτη του έκφρασή[18]. Αρχικά, τα τμήματα ομιλίας επιλέγονται έτσι ώστε να ελαχιστοποιηθούν τα μελλοντικά προβλήματα στη συνένωση. Ένας συνδυασμός διφώνων (δηλ. μονάδων που αρχίζουν στη μέση της σταθερής κατάστασης ενός φωνήματος και τελειώνουν στη μέση του επόμενου), οι μισές συλλαβές, και τρίφωνα (που διαφέρουν από τα δίφωνα στο ότι περιλαμβάνουν ένα πλήρες κεντρικό φώνημα) επιλέγονται συχνά ως λεκτικές μονάδες, δεδομένου ότι περιλαμβάνουν τις περισσότερες από τις μεταβάσεις και τις συναρθρώσεις απαιτώντας για την αποθήκευσή τους μια λογική ποσότητα μνήμης. Όταν συμπληρωθεί ένας πλήρης κατάλογος τμημάτων ομιλίας, ένας αντίστοιχος κατάλογος λέξεων δημιουργείται, κατά τέτοιο τρόπο ώστε κάθε τμήμα να εμφανίζεται τουλάχιστον μία φορά (αν και δύο φορές είναι καλύτερα, για λόγους ασφάλειας). Ανεπιθύμητα μέρη, όπως εσωτερικά τονισμένες συλλαβές, αποκλείονται. Στη συνέχεια ένα κυρίως σώμα, μια συλλογή ηχητικών στοιχείων από τα παραπάνω τμήματα ομιλίας, καταγράφεται ψηφιακά και αποθηκεύεται, και τα επιλεγμένα τμήματα εντοπίζονται, είτε χειροκίνητα με τη βοήθεια εργαλείων απεικόνισης σημάτων, είτε αυτόματα χάρη στους αλγορίθμους κατάτμησης, οι αποφάσεις των οποίων ελέγχονται και διορθώνονται αμφίδρομα. Μια βάση δεδομένων τμημάτων ομιλίας συγκεντρώνει τελικά τα αποτελέσματα, με μορφή των ονομάτων, των κυματομορφών, των διαρκειών, και των εσωτερικών υποδιαιρέσεων των τμημάτων που περιέχει. Στην περίπτωση των διφώνων, παραδείγματος χάριν, πρέπει να αποθηκευτεί η θέση των ορίων μεταξύ των φωνημάτων που αποτελούν το δίφωνο, ώστε να είναι σε θέση να τροποποιηθεί διάρκεια του ενός φωνήματος του διφώνου χωρίς να αλλοιωθεί το άλλο φώνημα. Στα τμήματα έπειτα δίνεται μια παραμετρική έκφραση, με τη μορφή μιας προσωρινής ακολουθίας διανυσμάτων από παραμέτρους που συλλέγονται στην έξοδο ενός αναλυτή ομιλίας και που αποθηκεύονται σε μια παραμετρική βάση δεδομένων τμημάτων. To πλεονέκτημα από τη χρήση ενός πρότυπου ομιλίας έγκειται στο γεγονός ότι: 86

87 τα καλά επιλεγμένα λεκτικά πρότυπα επιτρέπουν τη μείωση μεγέθους στοιχείων, ένα πλεονέκτημα καθόλου ευκαταφρόνητο στη σύνθεση με συνένωση δεδομένου της ποσότητας των στοιχείων που χρειάζονται να αποθηκευτούν. Συνεπώς, η συσκευή ανάλυσης ομιλίας συχνά ακολουθείται από έναν παραμετρικό κωδικοποιητή ομιλίας. Διάφορα πρότυπα διαχωρίζουν ξεκάθαρα τις συνεισφορές της ηχητικής πηγής και της φωνητικής οδού, μια λειτουργία χρήσιμη για τις διαδικασίες πριν τη σύνθεση: την επίτευξη της επιθυμητής προσωδίας και την συνένωση των τμημάτων ομιλίας Όντως, ο πραγματικός στόχος του synthesizer είναι να παράγει, σε πραγματικό χρόνο, μια ικανοποιητική ακολουθία τμημάτων, τα οποία εξάγονται από την παραμετρική βάση δεδομένων τμημάτων. To δεύτερο στοιχείο που πρέπει να παράγει είναι η προσωδία, οποία προκύπτει από τη ρύθμιση των αρχικών τιμών του ύψους φωνής (pitch) και της διάρκειας των τμημάτων ομιλίας που υπάρχουν στην βάση, στις τιμές που προέκυψαν από την ενότητα επεξεργασίας γλώσσας. Συνεπώς, οι αντίστοιχες εργασίες που εκτελούνται από τις ενότητες συνένωσης και καθορισμού προσωδίας διευκολύνονται αρκετά όταν τα τμήματα εισόδου παρουσιάζονται σε μια μορφή που επιτρέπει την εύκολη τροποποίηση του ύψους φωνής (pitch), της διάρκειας, και της φασματικής περιβάλλουσας τους σε αντίθεση με την απλή χρήση των μη επεξεργασμένων δειγμάτων κυματομορφής. Δεδομένου ότι τα τμήματα που θα χρησιμοποιηθούν για τη σύνθεση έχουν εξαχθεί από διαφορετικές λέξεις, δηλαδή από διαφορετικά φωνητικά πλαίσια, παρουσιάζουν συχνά προβλήματα ομαλού ταιριάσματος εύρους και χροιάς μεταξύ των τμημάτων. Ακόμη και στην περίπτωση των στάσιμων φωνηεντικών ήχων, μια ακατέργαστη συνένωση των παραμέτρων παρουσιάζει ευδιάκριτες ηχητικές ασυνέχειες. Αυτά τα προβλήματα μπορούν να αντιμετωπιστούν κατά τη διάρκεια της δημιουργίας της βάσης δεδομένων τμημάτων σύνθεσης, με μια ισοστάθμιση στην οποία εφαρμόζονται παρόμοια φάσματα εύρους σε σχετιζόμενες άκρες των τμημάτων. Στην πράξη, εντούτοις, αυτή η λειτουργία, είναι περιορισμένη στις παραμέτρους εύρους: το στάδιο ισοστάθμισης τροποποιεί ομαλά τα ενεργειακά επίπεδα στην αρχή και στο τέλος των τμημάτων, με τέτοιο τρόπο ώστε να απομακρύνεται οποιοδήποτε μη σωστό ταίριασμα εύρους (με το να τεθεί η ενέργεια όλων των μερών ενός δεδομένου φωνήματος στη μέση τιμή των ενεργειών τους). Αντίθετα, οι διαφορές στη χροιά αντιμετωπίζονται καλύτερα στο χρόνο εκτέλεσης, με την εξομάλυνση μεμονωμένων ζευγών τμημάτων 87

88 όταν χρειάζεται, παρά με την άπαξ ισοστάθμισή τους, έτσι ώστε να διατηρείται μέρος της φωνητικής μεταβλητότητας, που εισάγεται φυσικά από την συνάρθρωση. Στην πράξη, η ισοστάθμιση του εύρους μπορεί να εκτελεσθεί είτε πριν είτε μετά από τη ανάλυση ομιλίας (δηλ. στα ακατέργαστα δείγματα ή στις λεκτικές παραμέτρους). Εφ' όσον έχει ολοκληρωθεί η παραμετρική βάση διδόμενων, η διαδικασία της σύνθεση μπορεί πλέον να ξεκινήσει. 3.4 Θεωρητική σύνδεση προσωδίας και σύνταξης Στην παράγραφο αυτή θα αναπτύξουμε την θεωρητική σύνδεση μεταξύ της προσωδίας του προφορικού λόγου με την σύνταξη του γραπτού λόγου. Η θεωρία ότι η προσωδία της ομιλίας συσχετίζεται με τη συντακτική δομή της έκφρασης δεν είναι μια πρόσφατη διαπίστωση. Το 1970 o Laver σημείωσε ότι οι τονικές ομάδες (tone groups) λαμβάνουν χώρα με μια τονικά προεξέχουσα συλλαβή σε μια ακολουθία περίπου επτά συλλαβών. Τα όρια αυτών των μονάδων συχνά συμπίπτουν με εκείνων της συντακτικής πρότασης (Laver, 1970) [64]. Στην εργασία του ο Chafe παρατηρεί ότι στον γραπτό λόγο, οι άνθρωποι γράφουν σκεπτόμενοι τον τρόπο με τον οποίο το κείμενο θα μιλιόνταν υποθέτοντας ότι ο πιθανός αναγνώστης θα πρόφερε το κείμενο τον ίδιο τρόπο και θα ερμήνευε την έννοια με βάση αυτόν τον εσωτερικό διάλογο (Chafe, 1994). Κατά αυτόν τον τρόπο, ο αναγνώστης και ο συγγραφέας είναι σε θέση να αντιλαμβάνονται ακουστικές πληροφορίες ακόμα και σε σημεία όπου στο γραπτό λόγο δεν είναι εμφανή. Ένας απλός τρόπος για να γίνει αντιληπτή αυτή η σχέση είναι με το να ζητήσουμε την ανάγνωση του κειμένου μεγαλοφώνως, με την προειδοποίηση ότι αυτό δεν αντιστοιχεί ακριβώς σε φυσική ομιλία. Μια προσθήκη στην ήδη υπάρχουσα δυσκολία συσχέτισης προφορικού και γραπτού λόγου είναι το γεγονός ότι διαφορετικοί αναγνώστες προσδιορίζουν διαφορετικές προσωδιακές πληροφορίες σε ίδια γραπτά κείμενα. Προσφάτως η έρευνα στην προσωδία έχει στραφεί στην βελτίωση της καταληπτότητας και φυσικότητας της ομιλίας σε συστήματα ΜΚσΟ. Στα πλαίσια αυτής της έρευνας έχει αποδειχθεί ότι ο τόνος επιτονισμού συνδέεται σε πολλές περιπτώσεις με το είδος του μέρους του λόγου της λέξης στην οποία εμφανίζεται, ή γενικότερα με το αν η λέξη είναι λειτουργική (function word) ή περιεχομένου (content word). Στα πλαίσια αυτής της έρευνας έχει βρεθεί ότι σε πολλές περιπτώσεις η έμφαση σχετίζεται με πληροφορίες όπως μέρους του λόγου ή γενικότερα να επηρεάζεται από τον 88

89 διαχωρισμό των λέξεων σε λειτουργικές και περιεχομένου (Arnfield, 1994), (Black, Taylor, 1994) [4,19]. Περισσότερα σχετικά με τον ορισμό και τις διαφορές που διέπουν τις λειτουργικές λέξεις και τις λέξεις περιεχομένου μπορεί κάποιος να ανακαλύψει στο βιβλίο του Lee (Lee, 1980) [70] και όσον αφορά τα Ελληνικά στο βιβλίο (Πετρούνιας, 1984). Στην εργασία του ο Lee διαπίστωσε ότι οι σημαντικές λέξεις στην ομιλία έτειναν να τονιστούν. Οι τονισμένες λέξεις ήταν κατά κύριο λόγο ρήματα, επίθετα, επιρρήματα, και ουσιαστικά ενώ οι μη-τονισμένες ήταν άρθρα και προθέσεις. Η πρώτη κατηγορία περιέχει τις λέξεις περιεχομένου ενώ η δεύτερη περιέχει τις λειτουργικές λέξεις. Οι (Swerts, Geluykens, 1994) διαπίστωσαν ότι τα προσωδιακά χαρακτηριστικά μιας έκφρασης είχαν σαν αποτέλεσμα την αποσαφήνιση και τον διαχωρισμό διαφόρων ομάδων πληροφορίας. Αυτό επιτρέπει στους ομιλητές να σηματοδοτήσουν την έναρξη και το τέλος των μονάδων αυτών μέσω του τρόπου με τον οποίο μιλούν. Αυτή η άποψη υποστηρίζεται επίσης και στην εργασία των (Shattuck, Hufnagel, 2000) όπου η σύνδεση μεταξύ προσωδίας και σύνταξης φανερώνεται σε σημεία όπου γίνεται χρήση προσωδιακών φαινομένων για την διαφοροποίηση συντακτικά διφορούμενων φράσεων και σε περιπτώσεις όπου παρατηρείται απόκλιση των επιτονικών φράσεων από την συνηθισμένη θέση τους σχετικά με τις περιβάλλουσες τους λέξεις. Οι σύνδεσμοι (πχ., και, αλλά, επομένως) χρησιμοποιούνται για να συνδέσουν τμήματα του κειμένου. Συχνά οι σύνδεσμοι συνοδεύονται με την ύπαρξη τονικών ορίων και γενικά πριν ή μετά από την πραγμάτωση τους λαμβάνουν χώρα μικρές παύσεις. Λόγω αυτού, οι σύνδεσμοι τείνουν να εμφανιστούν με τα προσωδιακά γεγονότα, το οποίο έχει νόημα δεδομένου ότι και τα δύο παρέχουν πρόσθετες πληροφορίες. Οι παύσεις μεταξύ των ουσιαστικών είναι άτυπες, αλλά σε ορισμένες δομές, όπως πολλά ουσιαστικά στη σειρά, οι προσωδιακές παύσεις είναι πιθανότερο να υπάρξουν (Black, Taylor, 1997) [19]. Μεγάλες προσωδιακές παύσεις συσχετίζονται επίσης με διακοπές της ομιλίας λόγω της αναπνοής (Price, et al., 1989). Σε μια περιορισμένη μελέτη πάνω σε ραδιοφωνικές εκφωνήσεις το 85% των ορίων πρότασης εμφανίστηκε κατά τη διάρκεια των περιόδων όπου ο ομιλητής πήρε μια αναπνοή. Επιπλέον, 53% των επιτονικών ορίων φράσης χαρακτηρίζονταν από την συνύπαρξη τους με αναπνοή. Παρά την ύπαρξη αυτού του υψηλού συσχετισμού, η παρουσία οποιασδήποτε μικρής διακοπής δεν σηματοδοτεί απαραιτήτως την ύπαρξη μιας προσωδιακής παύσης (Lee, 1980), (Wightman, Ostendorf, 1994) [70,]αλλά αντ' αυτού μπορεί να είναι αποτέλεσμα δισταγμού. Σε μια δοκιμή που συγκρίνει την ανθρώπινη απόδοση σχετικά την δυνατότητα εξακρίβωσης των ορίων μιας πρότασης δεδομένου του κειμένου και της αντίστοιχης 89

90 ηχογράφησης σε αντίθεση με το κείμενο μόνο, μπορεί να μετρηθεί η δυνατότητα ανίχνευσης των ορίων με χρήση μόνο λεξιλογικής (μορφολογικής) πληροφορίας. Στο πείραμα για την Ολλανδική ομιλία, όλη η στίξη αφαιρέθηκε και στους σχολιαστές ζητήθηκε να ανιχνεύσουν τα όρια των παραγράφων, χωρίς να τους έχει δοθεί κάποιος καθορισμός αυτών. Διαπιστώθηκε ότι και οι δύο ομάδες ανεκπαίδευτων σχολιαστών είχαν τους δείκτες παραγράφου σε παρόμοιες θέσεις, αν και η συμφωνία μεταξύ τους ήταν υψηλότερη στην ομάδα θεμάτων που παρέχονταν και η ηχογράφηση του κειμένου (Swerts, 1997). Τα αποτελέσματα αυτής της έρευνας έδειξαν ότι είναι δυνατό να αποκτηθεί αρκετά υψηλή ακρίβεια στην αυτόματη πρόβλεψη ορίων χρησιμοποιώντας μεθόδους που στηρίζονται εξ ολοκλήρου μόνο στο κείμενο, αν και η αναμενόμενη απόδοση θα αυξανόταν με την χρήση και της ακουστικής πληροφορίας. 3.5 Φωνητική βάση διφώνων Στην ενότητα αυτή περιγράφεται η διαδικασία σχεδιασμού και ανάπτυξης μιας φωνητικής βάσης διφώνων (WCL-1-dph). Πρώτο βήμα της διαδικασίας είναι η επιλογή των συμβόλων που αποτελούν το φωνητικό αλφάβητο που θα χρησιμοποιηθεί. Στην ελληνική γλώσσα για παράδειγμα, για την αντιμετώπιση φαινομένων ουρανικοποίησης (π.χ. /λιώνω/, /λυπάμαι/), όπως και άλλες περιπτώσεις διφθόγγων της Ελληνικής γίνεται μια συγχώνευση (ως προς τον συμβολισμό αυτών) ώστε να αντιμετωπίζονται ως μία μονάδα και όχι ως δύο χωριστά φωνήματα στις διάφορες φάσεις επεξεργασίας. Αυτό αποσκοπεί στην επίτευξη μιας ευελιξίας των συστημάτων ΜΚσΟ αφού η αναζήτηση των φωνημάτων και η εξαγωγή σχετικών πληροφοριών από αυτά είναι πάρα πολύ συχνή. Έτσι λοιπόν ορίζεται τέτοια κωδικοποίηση των φθόγγων όπου να γίνεται αντιστοιχία ενός και μόνο χαρακτήρα σε κάθε φώνημα. Έτσι, κατά την αναζήτηση φωνημάτων από το σύστημα, όλες οι συγκρίσεις και οι αναζητήσεις γίνονται πιο απλά, άρα και πιο γρήγορα (πάνω σε 1 byte αντί σε περισσότερα). Την επιλογή του φωνητικού αλφάβητου ακολουθούν οι εξής διαδικασίες, (α) επιλογή του μεγέθους των δομικών μονάδων (δίφωνα και τρίφωνα ή μεγαλύτερα τμήματα ομιλίας) που θα αποτελέσουν την βάση, (β) λίστα των δομικών μονάδων (διφώνων και τριφώνων) ώστε να καλύπτεται το μεγαλύτερο μέρος της Ελληνικής γλώσσας, (γ) σχεδιασμός φράσεων οι οποίοι θα είναι οι φορείς των δομικών μονάδων, (δ) επιλογή κατάλληλου ομιλητή και ηχογράφηση, (στ) τεμαχιοποίηση των δομικών ακουστικών μονάδων, (ζ) έλεγχος ποιότητας δομικών μονάδων και (η) κανονικοποίηση 90

91 του σήματος ομιλίας. Στη συνέχεια της παραγράφου θα περιγράψουμε τα σημαντικότερα σημεία των παραπάνω διαδικασιών. Η διαδικασία σχεδιασμού και ανάπτυξης της φωνητικής βάσης διφώνων απεικονίζεται σχηματικά στην εικόνα 3.8. Εικόνα 3.8 Δομικό διάγραμμα διαδικασίας ανάπτυξης φωνητικής βάσης Επιλογή των δομικών ακουστικών μονάδων Το φώνημα είναι η πιο συχνά χρησιμοποιούμενη συμβολική αναπαράσταση του ήχου στα συστήματα ΜΚσΟ. Ανάλογα με την φωνολογική ανάλυση που εφαρμόζεται, υπάρχουν μέχρι 44 φωνήματα στα Ελληνικά (Πετρούνιας, 1984) και αυτό το σύνολο αντιπροσωπεύει τον ελάχιστο αριθμό συμβόλων που απαιτείται για να περιγράφει μεμονωμένα οποιαδήποτε λέξη σε συγκεκριμένη διάλεκτο. Εν τούτοις, απλά αποθηκεύοντας ένα φθόγγο για κάθε φώνημα δεν θα μας δώσει συνθετική ομιλία καλής ποιότητας. Φαινόμενα όπως η συνάρθρωση έχουν σαν αποτέλεσμα η παραγωγή ενός φθόγγου να επηρεάζεται σημαντικά από το περιβάλλον στο οποίο βρίσκεται. Ένα από τα σημαντικότερα ζητήματα στην τεχνική σύνθεσης με συνένωση μονάδων είναι η επιλογή της καταλληλότερης φωνητικής μονάδας που θα αποτελέσει το δομικό στοιχείο για την δημιουργία της συνθετικής φωνής. Η επιλογή αυτή είναι στην πραγματικότητα μια ανταγωνιστική διαδικασία ανάμεσα στις μακρύτερες και στις συντομότερες χρονικά φωνητικές μονάδες. Με την χρήση των μεγαλύτερων μονάδων επιτυγχάνεται υψηλό επίπεδο φυσικότητας, λιγότερα σημεία συνένωσης και καλός έλεγχος της συνάρθρωσης, αλλά αυξάνεται το μέγεθος του καταλόγου των απαιτούμενων μονάδων και συνεπώς οι απαιτήσεις σε μνήμη. Από την άλλη, με την χρήση συντομότερων μονάδων μειώνονται οι απαιτήσεις σε μνήμη, αλλά η συλλογή δειγμάτων και η επεξεργασία σήματος που πρέπει να εφαρμοστεί σε αυτά, γίνονται περισσότερες και πολυπλοκότερες. Οι μονάδες που έχουν χρησιμοποιηθεί μέχρι σήμερα 91

92 σε διάφορα ερευνητικά και εμπορικά συστήματα είναι συνήθως λέξεις, συλλαβές, ημισυλλαβές, φωνήματα, δίφωνα ή τρίφωνα. Η λέξη αποτελεί μια φυσική δομική μονάδα σε γραπτό κείμενο και χρησιμοποιείται με επιτυχία σε συστήματα που υποστηρίζουν πολύ περιορισμένο λεξιλόγιο. Η συνένωση λέξεων εφαρμόζεται σχετικά εύκολα και οι επιδράσεις της συνάρθρωσης είναι περιορισμένες στο «εσωτερικό» των μονάδων και όχι στα σημεία συνένωσης. Ωστόσο, η συνένωση «απομονωμένων» λέξεων έχει σαν αποτέλεσμα ο τεχνητός συνεχόμενος λόγος να στερείται φυσικότητας. Επίσης, επειδή υπάρχουν εκατοντάδες χιλιάδες λέξεις σε κάθε γλώσσα, η επιλογή της λέξης ως δομική μονάδα, αντενδεικνύεται για συστήματα που υποστηρίζουν απεριόριστο λεξιλόγιο. Από την άλλη μεριά, οι συλλαβές, δεν αποτελούν επίσης κατάλληλη επιλογή, καθώς είναι πάρα πολλές (περισσότερες από στην Ελληνική γλώσσα) και επιπλέον επιφέρουν, σε μεγάλο βαθμό, επιδράσεις συνάρθρωσης. Οι ημισυλλαβές, όπως φαίνεται από την λέξη, είναι μισές συλλαβές και αντιστοιχούν στα αρχικά και στα τελικά τμήματα των συλλαβών. Ένα πλεονέκτημα που έχουν είναι το σχετικά μικρό πλήθος αυτών (χρειάζονται περίπου για να παράγουν τις συλλαβές που διαθέτει η Ελληνική γλώσσα). Επιπλέον, οι ημισυλλαβές περιλαμβάνουν ένα μεγάλο πλήθος πιθανών μεταβάσεων και συνεπώς έναν μεγάλο αριθμό φαινόμενων συνάρθρωσης κάνοντας έτσι τις απαιτήσεις σε μνήμη να είναι σε υψηλό μεν αλλά ανεκτό επίπεδο. Τέλος τα φωνήματα είναι από τις πιο συχνά χρησιμοποιημένες μονάδες στη σύνθεση ομιλίας επειδή αποτελούν την πιο απλή γλωσσική αναπαράσταση της ομιλίας. Σε αυτήν την περίπτωση, ο κατάλογος των βασικών μονάδων περιλαμβάνει συνήθως φωνήματα (σαφώς μικρότερο πλήθος έναντι άλλων μονάδων). Η χρησιμοποίηση των φωνημάτων δίνει μέγιστη ευελιξία στα συστήματα που είναι βασισμένα σε κανόνες. Εντούτοις, μερικά φωνήματα, όπως τα εκρηκτικά, είναι δύσκολο να δημιουργηθούν. Από τα παραπάνω γίνεται κατανοητό ότι το δίφωνο αποτελεί τον ιδανικότερο, υπολογιστικά, συμβιβασμό μεταξύ του προβλήματος της συνάρθρωσης και της ανάγκης για όσο το δυνατόν μικρότερο αριθμό δειγμάτων προς αποθήκευση. Θεωρητικά, το πλήθος των διφώνων ισούται με το τετράγωνο του πλήθους των φωνημάτων της γλώσσας (συν τα αλλόφωνα), αλλά στην πράξη δεν χρησιμοποιούνται όλοι οι συνδυασμοί φωνημάτων με αποτέλεσμα τον περιορισμό του τελικού αριθμού των μονάδων. Η υιοθέτηση των διφώνων ως θεμελιώδη δομική μονάδα κάνει εξ αρχής δύο πρακτικές υποθέσεις σχετικά με το σήμα ομιλίας, οι οποίες εμπεριέχουν ένα σφάλμα αλλά διευκολύνουν την διαδικασία συλλογής και διαχείρισης της πληροφορίας των 92

93 καταλόγων ηχητικής πληροφορίας. Η πρώτη υπόθεση είναι ότι οι φθόγγοι θεωρείται ότι αποτελούνται από τρία τμήματα την έμβαση (onset), την σταθερή κατάσταση (steady state) και την έκβαση (offset). Η δεύτερη πρακτική υπόθεση είναι ότι το φαινόμενο της συνάρθρωσης μπορεί να παγιδευτεί στα πλαίσια της μετάβαση από τον ένα φθόγγο στον άλλο. Κατά αυτό τον τρόπο λοιπόν, ένα δίφωνο θεωρείται ότι περιέχει την μετάβαση από την σταθερή κατάσταση του ενός φθόγγου στην σταθερή κατάσταση του άμεσου γείτονα του. Εικόνα 3.9 Μοντέλο φωνήματος, διφώνου και τριφώνου Μια καλύτερη προσέγγιση όσον αφορά την πιο ακριβή αναπαράσταση του σήματος ομιλίας μπορεί να ληφθεί με τον καθορισμό μιας μονάδας που περιέχει τις μεταβάσεις από τις σταθερές καταστάσεις γειτονικών φθόγγων προς και από ένα φθόγγο. Αυτές οι μονάδες καλούνται τρίφωνα. Η Εικόνα 3.9 παρουσιάζει το μοντέλο ενός φωνήματος, ενός διφώνου και ενός τριφώνου. Μακρύτερα τμήματα ομιλίας, όπως τρίφωνα ή τετράφωνα χρησιμοποιούνται πιο σπάνια. Τα τρίφωνα είναι σαν τα δίφωνα μόνο που περιέχουν ένα φώνημα στην μέση (δηλ., είναι στη σειρά: μισό φώνημα ένα φώνημα μισό φώνημα). Με άλλα λόγια ένα τρίφωνο είναι ένα φώνημα με ένα συγκεκριμένο αριστερό και δεξί φωνητικό περιβάλλον. Ενδεικτικά, η αγγλική γλώσσα απαιτεί περίπου τρίφωνα. Όπως είπαμε και παραπάνω υπήρξε η ανάγκη για χρήση ενός περιορισμένου αριθμού τριφώνων, για να καλύψουμε κάποιες περιπτώσεις κατά τις οποίες παρουσιάζονται ιδιαίτερα έντονα φαινόμενα συνάρθρωσης, σε μια ευρύτερη περιοχή (που καλύπτει 3 φωνήματα) και όχι μόνο στα σημεία μετάβασης από φώνημα σε φώνημα. Παραδείγματος χάριν, έστω ότι θέλουμε να συνθέσουμε την λέξη «πάπια» η οποία προφέρεται <παπγια>. Στην περιοχή του σήματος ομιλίας που αντιστοιχεί στο πγια και συγκεκριμένα στην μεσαίο τμήμα, λαμβάνουν χώρα έντονα φαινόμενα συνάρθρωσης. Για τον λόγο αυτό, είναι σκόπιμο να υπάρχει ένα τρίφωνο που να φέρει την μετάβαση πγια, δηλαδή οι δομικές μονάδες που συνθέτουν την λέξη να είναι: paup / pa / ap / pia / a-pau, και όχι δύο δίφωνα ως εξής: pau-p / pa / ap / pi / ia / a-pau. 93

94 3.5.2 Λίστα δομικών μονάδων φωνητικής βάσης Για την δημιουργία της λίστας των διφώνων και τριφώνων που θα αποτελούν μια φωνητική βάση σε μια γλώσσα π.χ. Ελληνικά, μπορούμε να δημιουργήσουμε ένα γλωσσικό μοντέλο για την Ελληνική χρησιμοποιώντας ενός μεγάλο σώμα κειμένων για την Ελληνική γλώσσα καθώς και κάποιο εργαλείο μοντελοποίησης (π.χ. το εργαλείο μοντελοποίησης γλώσσας ανοιχτού κώδικα SRILM (Stolcke, 2002)) Λεκτικοί φορείς δομικών μονάδων φωνητικής βάσης Οι δομικές μονάδες σε ένα σύστημα ΜκσΟ με συρραφή κυματομορφών μπορεί να εξαχθούν είτε από δόκιμες φράσεις (από βιβλία, εφημερίδες κ.α. όπου είτε εκφράζονται είτε όχι διάφορες συναισθηματικές καταστάσεις) ή φράσεις με λέξεις χωρίς νόημα (nonsense carrier words) (Black, Taylor, 1997) [19]. Προτείνεται στην βιβλιογραφία ο δεύτερος τρόπος δημιουργίας του σώματος κειμένου αφού βασικό μειονέκτημα της πρώτης προσέγγισης είναι το γεγονός ότι ο εκφωνητής μπορεί εύκολα να χάσει την προσοχή και την συγκέντρωση του με αποτέλεσμα οι λέξεις φορείς να περιέχουν μεγάλες διαφοροποιήσεις στην θεμελιώδη συχνότητα. Επίσης ένα σημαντικό πρόβλημα είναι λόγο της δυσκολίας στον έλεγχο του λεξιλογικού περιβάλλοντος των διφώνων έχουμε εντονότερο το πρόβλημα της συνάρθρωσης στην τελική βάση. Κατά τον σχεδιασμό των λέξεων φορέων μπορούμε να φροντίσουμε ώστε το αριστερό φώνημα να συνορεύει με φωνήεν και το δεξί με εκρηκτικό (ώστε να μπορούν να διαχωριστούν πιο εύκολα). Το τελευταίο έχει σαν αποτέλεσμα η διαδικασία εξαγωγής των διφώνων και τριφώνων να είναι λιγότερο χρονοβόρα και κουραστική εξασφαλίζοντας ταυτόχρονα μεγαλύτερη συμβατότητα των διφώνων μεταξύ τους όσον αφορά το φασματικό περιεχόμενο τους. Κατά τον σχεδιασμό των λέξεων φορέων μπορούμε να φροντίσουμε ώστε το αριστερό φώνημα να συνορεύει με φωνήεν και το δεξί με εκρηκτικό (ώστε να μπορούν να διαχωριστούν πιο εύκολα). Για αυτό το λόγο, πρέπει να αποφεύγεται η εξαγωγή των ζητούμενων μονάδων από την αρχή ή το τέλος μιας λέξης, εκτός αν η εν λόγω μονάδα περιέχει μια μετάβαση από ή προς την σιωπή (οι λέξεις φορείς δημιουργούνται έτσι ώστε τα ζητούμενα δίφωνα και τρίφωνα να βρίσκονται, όποτε είναι εφικτό, στην κεντρική περιοχή των λέξεων). Σε αυτήν την περίπτωση, είναι σίγουρο ότι οι εξαγόμενες μονάδες θα είναι πλήρως αρθρωμένες. Παραδείγματος χάριν, από την λέξη : 94

95 pau t a z a z a pau εξάγουμε τα δίφωνα /za/ και /az/, και από pau t a t a e t a pau θα πάρουμε μόνο το δίφωνο /ae/ (καθώς τα /ta/ και /et/ λαμβάνονται από αλλού, αν και θα μπορούσαμε πράγματι να πάρουμε και τα τρία δίφωνα από την ίδια λέξη). Εικόνα Κυματομορφή και καμπύλη F0 της λέξης /tarara/. Οι λέξεις πρέπει να προφέρονται με σταθερή φωνητική προσπάθεια και όσο το δυνατόν μικρότερη προσωδιακή διακύμανση. Δηλαδή να υπάρχει σταθερή ένταση της φωνής καθ'όλη την φάση της ηχογράφησης και επίσης να υπάρχει ένας σταθερός ρυθμός και τονικότητα κατά την εκφορά Επιλογή του κατάλληλου ομιλητή και ηχογράφηση Έχει παρατηρηθεί ότι η επιλογή του σωστού ομιλητή που θα εκτελέσει τις υπαγορεύσεις κατά την φάση της ηχογράφησης, είναι μια πολύ σημαντική διαδικασία που επηρεάζει ουσιαστικά την απόδοση του συστήματος. Είναι αλήθεια ότι κάποιοι άνθρωποι έχουν φωνές που προσφέρονται για σύνθεση ομιλίας περισσότερο από ότι κάποιοι άλλοι. Γενικότερα, οι καθαρές και σταθερές φωνές ενδείκνυνται για σύνθεση, αλλά δυστυχώς δεν φτάνει μόνο αυτό. Οι επαγγελματίες ομιλητές θεωρούνται γενικά προτιμότεροι για αυτό σκοπό σε σχέση με τους μη επαγγελματίες, παρόλο που δεν είναι κατάλληλες οι φωνές όλων των επαγγελματιών και υπάρχουν και φωνές μη επαγγελματιών που παράγουν ικανοποιητικά αποτελέσματα. Όπως προαναφέρθηκε, ο κατάλληλος ομιλητής πρέπει να διαθέτει καθαρή φωνή, δηλαδή να έχει καλή άρθρωση ώστε να είναι σωστή η αποτύπωση των φωνημάτων. 95

96 Επίσης καλό θα ήταν να είναι σχετικός με την τεχνολογία ομιλίας, π.χ. να έχει μια γενική ιδέα της έννοιας του φωνήματος. Ακόμη, ο ομιλητής είναι ανάγκη να διατηρεί σταθερή ένταση στη φωνή του καθ όλη την διάρκεια της ηχογράφησης και να προφέρει τις προτάσεις αποφεύγοντας επιμελώς να χρωματίζει την φωνή του, ώστε να ελαχιστοποιείται η προσωδιακή πληροφορία που φέρουν οι λέξεις, ή αλλιώς να έχουν σταθερή τονικότητα και σταθερή διάρκεια φωνημάτων. Αυτές τις απαιτήσεις συνήθως μπορεί κάποιος να τις επιτύχει με επαγγελματίες εκφωνητές (ιδιαίτερα με ηθοποιούς ραδιοφώνου). Άλλωστε οι περισσότεροι άνθρωποι δεν είναι σε θέση να ομιλούν για μακρύ διάστημα αν δεν είναι εξασκημένοι σε αυτό. Τέλος, υπάρχουν κάποιοι συγκεκριμένοι κανόνες που πρέπει να ληφθούν υπόψη και οι οποίοι πρέπει να εφαρμόζονται στην φάση της ηχογράφησης. Είναι σημαντικό η ηχογράφηση να γίνει με ενιαίο τρόπο, δηλαδή να πραγματοποιηθεί μέσα σε μια μέρα, επειδή είναι δύσκολο να στηθεί ξανά το ίδιο περιβάλλον ηχογράφησης ακόμη και αν αυτό γίνει με ιδιαίτερη προσοχή. Επίσης, προτείνεται να λάβει χώρα κάποια στιγμή το πρωί (όχι αμέσως μετά το ξύπνημα) και σε περίπτωση που χρειαστεί επανηχογράφηση να συμβεί την ίδια περίοδο της ημέρας όπως και η πρώτη. Εννοείται επίσης, ότι η ηχογράφηση πρέπει να αποφεύγεται σε περίπτωση που ο ομιλητής έχει κάποιο κρύωμα ή βρίσκεται σε κακή πνευματική και σωματική κατάσταση Κατάτμηση ηχογραφήσεων και έλεγχος Το στάδιο της κατάτμησης των ηχογραφήσεων περιλαμβάνει την διαδικασία καθορισμού των ορίων των δομικών μονάδων της φωνής (διφώνων και τριφώνων). Η κατάτμηση των μονάδων μπορεί να πραγματοποιηθεί με δύο τρόπους, χειρωνακτικά (manually), και ημι-αυτόματα (semiautomatic). Στην πρώτη περίπτωση κατάτμηση πραγματοποιείται με επισκόπηση της κυματομορφής στο πεδίο του χρόνου, την συχνότητα και εξετάζοντας το ενεργειακό περιεχόμενο των υποψήφιων περιοχών. Όσον αφορά την ημι-αυτόματη κατάτμηση μονάδων αρχικά χρησιμοποιείται ένα πρόγραμμα αυτόματης εξακρίβωσης ορίων τεμαχίων (automatic segmentation procedure), και στη συνέχεια πραγματοποιείται έλεγχος και διόρθωση των αποτελεσμάτων. 96

97 Εικόνα 3.11 Πλάτος, καμπύλη ενέργειας, θεμελιώδους συχνότητας και όρια διφώνου /n-e/. Για την καλύτερη κατανόηση της διαδικασίας παραθέτουμε παρακάτω τους κανόνες που πρέπει να ακολουθηθούν: Η έμβαση (onset) και η έκβαση (offset) του κάθε διφώνου λαμβάνεται στην κεντρική περιοχή κάθε φωνήματος, εικόνα 3.9, όπου το φασματογράφημα παρουσιάζει σταθερά χαρακτηριστικά, (βλ. Εικόνες 3.10 και 3.11). Στα σημεία που λαμβάνονται τα όρια, το πλάτος του σήματος πρέπει να είναι μηδέν (zero-crossings). Με αυτή την απαίτηση εξασφαλίζεται το γεγονός στο σημείο συνένωσης δύο μονάδων να έχουμε μικρότερα ποσοστά ασυνέχειας. Η συγκεκριμένη απαίτηση έχει νόημα μόνο για όρια που λαμβάνονται σε ηχηρές περιοχές (σε μη ηχηρή περιοχή, δεν υπάρχει λόγος να εφαρμοστεί η παραπάνω απαίτηση εξαιτίας της θορυβώδους φύσης αυτών). Προκειμένου να αποφευχθούν ασυνέχειες φάσης κατά την συνένωση τοποθετούμε τα όρια των ηχηρών τμημάτων των διφώνων σε σημεία τέτοια ώστε η έκβαση του αριστερής μονάδας να είναι συμπληρωματική της έμβασης της δεξιάς. 97

98 Εικόνα 3.12 α) Αριστερό, β) κεντρικό και γ) δεξί όριο του διφώνου /n-e/. Όταν πρόκειται για εκρηκτικά φωνήματα, η «έκρηξη» πρέπει να περιέχεται ολόκληρη είτε στην αριστερή είτε στην δεξιά μονάδα κατά την συνένωση. Π.χ είτε όλα τα δίφωνα /*-k/ ( * σημαίνει οποιοδήποτε φώνημα) θα περιέχουν την έκρηξη του /k/ είτε όλα τα /k-*/. Λαμβάνεται υπόψη η ενέργεια του τμήματος ομιλίας κατά τέτοιο τρόπο ώστε να μοιάζει με την ενέργεια των ήδη έτοιμων μονάδων με τις οποίες πρόκειται να γίνει συνένωση. Με αυτόν τον τρόπο επιχειρείται να μην υπάρχει μεγάλη διαφορά ανάμεσα στις ενέργειες των μονάδων που συνενώνονται. Αφού γίνει ο καθορισμός των ορίων για μία μονάδα, ακολουθεί ακουστικός έλεγχος για να διαπιστωθεί πόσο καλά μπορεί να συνενώνεται η τρέχουσα μονάδα με τις ήδη έτοιμες μονάδες Κανονικοποίηση σήματος ομιλίας Μετά το πέρας των ηχογραφήσεων και της επισημείωσης των ορίων των διφώνων γίνεται εξαγωγή των pitchmarks και κανονικοποίηση της φωνητικής βάσης. Ο βέλτιστος τρόπος για την εξαγωγή των pitchmarks είναι η εξαγωγή αυτών μέσω ηλεκτρογραφήματος (EGG σήμα)). Για όλα τα ηχηρά τμήματα ομιλίας εισάγουμε τα pitchmarks στο μέγιστο κάθε τονικής περιόδου (pitch period). Για τα μη-ηχηρά τμήματα, εισάγουμε ένα pitchmark ανά τακτά χρονικά διαστήματα. Σε πολλά σημεία αυτής της ενότητας έχει τονιστεί η ανάγκη για την εξασφάλιση ηχογραφήσεων με όσο το δυνατόν μεγαλύτερη ομοιότητα στα ακουστικά και φασματικά χαρακτηριστικά τους. Συνήθως αυτή η απαίτηση δεν είναι δυνατόν να τηρηθεί στο ακέραιο, και αυτό γιατί καταρχήν η διαδικασία δεν μπορεί να λάβει χώρα σε μια συνεδρία, με αποτέλεσμα οι επόμενες συνεδρίες λόγω ή διαφορετικού στησίματος της διαδικασίας (π.χ. διαφορετική θέση μικροφώνου) ή μεταβολής στην προσπάθεια του ομιλητή (π.χ. απώλειας συγκέντρωσης, κόπωσης, λάθος ανάγνωσης 98

99 κειμένου κ.α.). Για να αντιμετωπίσουμε τις διακυμάνσεις που προκύπτουν στο σώμα των ηχογραφήσεων μας εφαρμόζουμε ένα στάδιο κανονικοποίησης αυτών. Έτσι λοιπόν, δεδομένου ότι κάποια δίφωνα έχουν διαφορετικές τιμές ενέργειας υπολογίζουμε την ενέργεια για όλα τα φωνήεντα κάθε χωρίς-νόημα λέξης, στη συνέχεια βρίσκουμε την μέση τιμή ως προς όλα τα αρχεία, και υπολογίζουμε ένα συντελεστή κανονικοποίησης για κάθε λέξη με τον οποίο θα πραγματοποιηθεί η κανονικοποίηση. 3.6 Το προσωδιακό σώμα ομιλίας μιας βάσης δεδομένων Η πραγματοποίηση εκτενούς έρευνας στον τομέα της σύνθεσης ομιλίας έχει δείξει ότι οι μονάδες ενός συστήματος ΜΚσΟ περιλαμβάνουν μοντέλα των οποίων η έξοδος είναι είτε συνεχής (μονάδα εκτίμησης διάρκειας φωνημάτων) είτε διακριτές τιμές (όπως τα φαινόμενα επιτονισμού και οι ενδοπεριοδικές προσωδιακές παύσεις) απαιτούν την ύπαρξη βάσεων δεδομένων εκπαίδευσης που να καλύπτουν αποτελεσματικά την περιοχή που ανήκει το κείμενο εισόδου τo οποίο θέλουμε να μετατρέψουμε σε ομιλία. Εξαιτίας λοιπόν της απαίτησης για πιο ολοκληρωμένη κάλυψη του θεματικού πεδίου του κειμένου, δύο συμπληρωματικές προσεγγίσεις θα μπορούσαν να ακολουθηθούν (Santen, Sproat, 1998). Η πρώτη προσέγγιση προτείνει ότι τα δεδομένα εκπαίδευσης θα πρέπει να επιλεχτούν από ένα μεγάλο αρχικό σώμα κειμένου, ενώ η δεύτερη προτείνει τη χρήση προτύπων και κανόνων που είναι βασισμένοι στις γενικές τακτικότητες ή τη σταθερότητα στοχεύοντας στη γενίκευση από τα επιλεγμένα δεδομένα εκπαίδευσης στην πλήρη περιοχή εφαρμογής. Εάν για παράδειγμα έχουμε στην διάθεση μας μεγάλα σώματα κειμένου είναι προτιμότερο να ακολουθούμε την πρώτη μεθοδολογία. Σύμφωνα με την οποία, αρχικά θα πάρουμε την κατανομή συχνοτήτων εμφάνισης των συλλαβών της γλώσσας π.χ. ελληνικής έπειτα από ανάλυση ενός μεγάλου σώματος κειμένου. Κατόπιν, για κάθε πρόταση του αρχικού σώματος κειμένου, ένα αποτέλεσμα για την καταλληλότητα της για να περιληφθεί στο τελικό σύνολο προτάσεων θα πρέπει να ληφθεί με βάση εμπειρικά κριτήρια σχετικά με την ελληνική γλώσσα. Μετά από το φιλτράρισμα του αρχικού σώματος προτάσεων θα πρέπει να υπολογιστεί εκ νέου η συχνότητα εμφάνισης των συλλαβών. Κατά το στάδιο σχεδιασμού μιας βάσης δεδομένων ομιλίας για την μελέτη προσωδίας δύο βασικές απαιτήσεις που πρέπει να πληρούνται όσο το δυνατόν με τον καλύτερο τρόπο, είναι η επαρκής φωνητική και προσωδιακή κάλυψη του επιλεγμένου σώματος κειμένων. 99

100 Λέγοντας επαρκής φωνητική κάλυψη εννοούμε το κάθε φώνημα να βρίσκεται σε όλες τις δυνατές θέσεις μέσα σε μια λέξη (αρχή, μέση, τέλος), καθώς και με διαφορετικά γειτονικά φωνήματα. Ένα σώμα κειμένων που τηρεί αυτές τις προϋποθέσεις χαρακτηρίζεται ως "φωνητικά πλούσιο" (phonetically rich) (Black, Taylor, 1997) [19]. Αυτή η συγκεκριμένη απαίτηση επιτεύχθηκε στο σώμα κειμένων μας με την εφαρμογή αυτόματης επιλογής αυτών μέσα από ένα αρχικά μεγάλο σώμα. Έτσι, αρχικά ένα μεγάλο σώμα κειμένου συλλέγεται από άρθρα εφημερίδων και παραγράφους λογοτεχνίας στη συνέχεια εφαρμόζεται ως είσοδος στη μονάδα μετατροπής κειμένου σε φωνητική γραφή του συστήματος δίνοντας μας σαν έξοδο την λίστα με τις προτάσεις καθώς και μια δεύτερη λίστα με τα δίφωνα που το απαρτίζουν. Στο τέλος, θα πρέπει να εφαρμόσουμε σε έναν αλγόριθμο (π.χ. στον πλεονεκτικό αλγόριθμο (Cormen et all,1990) [27] την λίστα προτάσεων που προέκυψε με σκοπό την επιλογή ενός βέλτιστου υποσύνολου προτάσεων που να περιέχει όλα τα ελληνικά φωνήματα και τα αλλόφωνα σε διαφορετικές θέσεις στην δομή μιας λέξης. Αφετέρου, σχετικά με τον σχεδιασμό μιας πλούσιας προσωδιακά βάσης δεδομένων ομιλίας, το σώμα κειμένου που έχει εκφωνηθεί για την ηχογράφηση της μπορεί να επιλεχθεί αυτόματα από ένα μεγάλο ευρύτερο σώμα προτάσεων. Η επιλογή αυτή θα γίνει με σκοπό το τελικό σετ προτάσεων να καλύπτει συγκεκριμένες απαιτήσεις. Το σημαντικότερο εμπόδιο για την επίτευξη του στόχου για ένα πλούσιο προσωδιακά σώμα ηχογραφήσεων είναι η έλλειψη ενός σαφούς καθορισμού των απαιτήσεων που πρέπει να πληρούνται. Σε σχέση με την απαίτηση για φωνητική πληρότητα, υπάρχει περιορισμένη βιβλιογραφία για την προσωδιακή κάλυψη, ιδιαίτερα για την ελληνική γλώσσα. Επομένως, βασιζόμενοι στην υπόθεση ότι ο σχηματισμός των προσωδιακών γεγονότων συσχετίζεται σε μεγάλο βαθμό με την συντακτική δομή μιας πρότασης (Price, et al., 1991), μπορούμε να επικεντρώσουμε την προσοχή μας στην κατάλληλη επιλογή τύπων πρότασης καθώς και στην εσωτερική συντακτική δομή τους. Για την αντιμετώπιση περιπτώσεων σπάνιων επιτονικών και φωνολογικών φαινόμενων, κατάλληλο κείμενο μπορεί να συνταχθεί από γλωσσολόγο. Εκτός από τους τύπους πρότασης που θα μπορούσαν να καθορίσουν το σχέδιο προσωδίας μιας πρότασης, και άλλοι παράγοντες που καθορίζουν την προσωδιακή δομή της θα πρέπει επίσης να εξεταστούν. Η μελέτη των παραγόντων που επηρεάζουν την προσωδιακή δομή μιας φράσης είναι ένα πολύ σύνθετο πρόβλημα εξαιτίας του γεγονότος ότι η εξαγωγή των κατάλληλων χαρακτηριστικών γνωρισμάτων απαιτεί την 100

101 ανάλυση σε συντακτικό, σημασιολογικό ή πραγματολογικό επίπεδο. Στην περίπτωσή μας το μόνο επίπεδο που θα μπορούσε να εξεταστεί χωρίς την εφαρμογή χειρωνακτικής επισημείωσης ήταν η ανεύρεση των μορφολογικών και συντακτικών ιδιοτήτων μιας πρότασης Επιλογή ύφους ομιλίας και σύνοδος ηχογράφησης Ένα άλλο σημαντικό πρόβλημα στην ανάπτυξη μιας προσωδιακής βάσης δεδομένων είναι η επιλογή του επιθυμητού ύφους ομιλίας. 3.7 Το συναισθηματικό σώμα ομιλίας μιας βάσης δεδομένων Είναι η επικοινωνία ανθρώπου μηχανής ολοκληρωμένη χωρίς την ικανότητα των μηχανών να αντιλαμβάνονται και να εκφράζονται τα συναισθήματα; Αισθανόμαστε κάποιον ή κάτι ότι μας καταλαβαίνει αν δεν κατανοεί την συναισθηματική μας κατάσταση; Όπως είδαμε και σε προηγούμενα κεφάλαια η συνθετική ομιλία υστερεί σε σχέση με την πραγματική όσον αφορά την σαφήνεια στην απόδοση καθώς και στην ανεπαρκή εκφραστικότητα, τα οποία αποτελούν βασικά μειονεκτήματά όταν εφαρμόζεται σε ένα πλαίσιο επικοινωνίας ανθρώπου-μηχανής. Μετα-πληροφορία όπως ο επιτονισμός, η τεμαχιακή διάρκεια και ο ρυθμός αποσκοπούν στην διευκρίνιση των συντακτικών δομών αποσαφηνίζει το φέρον μήνυμα και βοηθούν στον έλεγχο της ροής της ομιλίας. Πέραν αυτών όμως υπάρχουν και άλλες πτυχές της ομιλίας η οποίες φέρουν πληροφορίες σχετικά με τις προθέσεις και την διανοητική κατάσταση του ομιλητή. Αυτές οι πτυχές της ομιλίας είναι η εκφραστικότητα και η συναισθηματική φόρτιση του. Τα τελευταία χρόνια έχει δοθεί μεγάλη ερευνητική έμφαση στις περιοχές της αναγνώρισης ομιλίας, η οποία περιέχει συναισθηματικό φορτίο, σύνθεση συναισθηματικής ομιλίας από κείμενο και στην αναγνώριση συναισθημάτων. Όσον αφορά τις εφαρμογές τεχνητής νοημοσύνης, η ύπαρξη ενός σταδίου το οποίο θα αναγνωρίζει και θα παράγει συναισθηματική πληροφορία θεωρείται απαραίτητο. Μια τέτοια βαθμίδα έχει τόσο πρακτικό όσο και ψυχολογικό αντίκτυπο στον χρήστη. Ο βασικός στόχος ανάπτυξης ενός τέτοιου σταδίου είναι η αύξηση της χρησιμότητας και λειτουργικότητας μιας πληθώρας εφαρμογών τεχνητής νοημοσύνης όπως, εικονικοί ξεναγοί, εκπαιδευτικό λογισμικό (π.χ. ανίχνευση αν ο χρήστης ενδιαφέρεται ή όχι), συστήματα στήριξης (π.χ. ανίχνευση πανικού, φόβου, ακόμα και λύπης), τηλεφωνικά 101

102 κέντρα, κέντρα πληροφοριών, έξυπνα σπίτια (π.χ. επιλογή ενός χρώματος στο φωτισμό τέτοιο ώστε να ηρεμήσει τον κάτοικο, αλλαγή της ροής διαλόγου ενός διαλογικού συστήματος ανάλογα με την συναισθηματική κατάσταση του χρήστη) (Ekman, 1982) [35] Κατηγορίες συναισθημάτων Τα συναισθήματα μπορούν να χαρακτηριστούν ως βασικά και μη-βασικά. Από την πλευρά τους τα μη βασικά, μπορούν περαιτέρω να ταξινομηθούν σε κατηγορίες όπως μείγματα, συνδυασμούς, ανάμεικτα, ή δευτερεύοντα. Το γεγονός ότι ορισμένες καταστάσεις μπορεί να θεωρηθούν ως επικαλυπτόμενες, έχει ως αποτέλεσμα η εξακρίβωση της συναισθηματικής κατάστασης ενός ομιλητή να ανάγεται στην αναγνώριση τεσσάρων μέχρι οκτώ βασικών καταστάσεων. Ένα σημαντικό πρόβλημα που μπορεί να αντιμετωπίσει κάποιος είναι η ύπαρξη κατάλληλων (αξιόπιστων) ηχογραφήσεων για την εξαγωγή κανόνων. Οι βάσεις συναισθηματικής ομιλίας κατατάσσονται σε δύο κατηγορίες, αυτές που περιέχουν αυθόρμητο προφορικό λόγο, ο οποίος είναι αντιπροσωπευτικός της καθημερινής ζωής (πολύ δύσκολη η συλλογή του) και σε αυτές που περιέχουν υποκριτικό προφορικό λόγο. Η συλλογή του αυθόρμητου συναισθηματικού προφορικού λόγου μπορεί να προέρχεται είτε από πραγματικά γεγονότα (π.χ. τηλεφωνικά κέντρα, τηλεοπτικές εκπομπές) είτε από συγκεκριμένες συνθήκες στις οποίες υποβάλλεται ο ομιλητής προκειμένου να ηχογραφηθούν οι επιθυμητές καταστάσεις. Στην τελευταία περίπτωση υπάρχουν πολλοί ηθικοί προβληματισμοί όσον αφορά την ψυχολογία του ομιλητή. Έχει δειχθεί στην εργασία του (Montero et al., 1998) ότι οι ηχογραφήσεις συναισθημάτων με πραγματικούς ηθοποιούς είναι μια πολύ καλή προσέγγιση της αντίστοιχης πραγματικής συναισθηματικής ομιλίας Ανάπτυξη τεχνικής για την αυτόματη τεμαχιοποίηση ηχογραφήσεων Η κατάτμηση της συνεχούς ομιλίας σε γλωσσολογικά καθορισμένα τμήματα, όπως τα φωνήματα, είναι ένα πολύ σημαντικό ζήτημα για διάφορες περιοχές επεξεργασίας του λόγου. Σήματα ομιλίας υποσημειωμένα σε φωνητικό επίπεδο είναι απαραίτητα για την έρευνα στους χώρους της αναγνώρισης και σύνθεσης ομιλίας. Ειδικά στην περίπτωση της σύνθεσης ομιλίας είδαμε ότι είναι βασική προϋπόθεση για την δημιουργία νέων 102

103 φωνών σε συστήματα σύνθεσης με κανόνες και συρραφής κυματομορφών όπως και για την ανάπτυξη μοντέλων επιτονισμού (προσωδιακές βάσεις ομιλίας, διάρκειες). Υπάρχουν δύο προσεγγίσεις στις τεχνικές κατάτμησης φωνημάτων, οι εξαρτώμενες και οι μη εξαρτώμενες από κείμενο. Στις εξαρτώμενες από κείμενο προσεγγίσεις λαμβάνει χώρα μια διαδικασία αντιστοίχισης της φωνητικής μεταγραφής του κειμένου με την αντίστοιχη κυματομορφή σε επίπεδο ορίων φωνήματος. Οι εξαρτώμενες από κείμενο προσεγγίσεις επιτυγχάνουν μεγάλα ποσοστά ακρίβειας και είναι ιδανικές για την αυτόματη αντιστοίχηση κειμένου και ηχογράφησης, όπου η φωνητική μεταγραφή είναι συνήθως γνωστή. Όσον αφορά τις μη-εξαρτώμενες από κείμενο προσεγγίσεις, τα όρια των φωνημάτων ανιχνεύονται χωρίς γνώση του κειμένου που αντιστοιχεί στο προς επεξεργασία λεκτικό σήμα. Πολλές προσεγγίσεις αυτόματης κατάτμησης φωνημάτων χρησιμοποιούν τις φασματικές παραμέτρους για να την ανίχνευση των ορίων. Οι δημοφιλέστεροι παράμετροι που χρησιμοποιούνται είναι η καμπύλη F0, η καμπύλη ενέργειας, ο ρυθμός μεταβολής της εντροπίας στο επίπεδο του χρόνο και τα παράγωγά τους όπως τα λογαριθμικά και τα δέλτα περιγράμματα, (Essa, 1998) [36], (Wokurek, 2000), (Wang, et al., 2003), (Adami, Hermansky, 2003) [2]. Στην εργασία των (Aversano et al., 2001) [8] προτείνεται μια μέθοδος κατάτμησης η οποία στηρίζεται στην αντιληπτική ανάλυση των κρίσιμων φασματικών ζωνών σήματος ομιλίας και εισάγοντας το ως είσοδο σε μια συνάρτηση απόφασης δίνοντας ακρίβεια 73,58% σε χρονικό παράθυρο ±20 msec στην DARPA-TIMIT. Σε μια άλλη εργασία (Suh, Lee, 1996) προτείνουν μια δομή η οποία βασίζεται σε ένα νευρωνικό δίκτυο (multi-layer perceptron) και αναφέρουν απόδοση 87% με διάστημα ανοχής 15msec και σε περίπτωση βάσεων ομιλίας εξαρτώμενων από ομιλητή η απόδοση ανεβαίνει κατά 3.4%. Οι (Svendsen, Kvale, 1990) προτείνουν μια διαδικασία κατάτμησης φωνημάτων η οποία πραγματοποιείται σε δύο επίπεδα και βασίζεται στην μηχανισμό εκπαίδευσης ΗΜΜ, και εκθέτουν ακρίβεια 80-85% για τέσσερις γλώσσες με χρονική ανοχή 20 msec. Τέλος οι (Grayden, Scordilis, 1994) [45] προτείνουν μια Μπαεϋζιανή επιφάνεια απόφασης για τη διαίρεση της ομιλίας σε ευδιάκριτες ηχηρές και μη ηχηρές περιοχές εφαρμόζοντας σε κάθε μια από αυτές παρουσιάζοντας 80% ακρίβειας αναφέρεται με ένα ποσοστό εισαγωγής (insertion rate) 12%. 103

104 3.8 Αρχιτεκτονική προσωδιακού συστήματος μετατροπής κειμένου σε ομιλία Ένα σύστημα ΜΚσΟ αποτελείται κατά κύριο λόγο από δύο βασικές διαδικασίες/συστατικά (Dutoit, 1996) [32], (Sproat, 1998): την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing NLP) και την Επεξεργασία Σήματος (Signal Processing SP2). Η πρώτη ασχολείται με (α) τη διαμόρφωση της προσωδιακής συμπεριφοράς ενός κείμενου (Text-to-Prosody TtP) καθώς και (β) της κατάλληλης φωνηματικής ροής (phonetic transcription) για το δοθέν κείμενο, τροφοδοτώντας τη δεύτερη διαδικασία (DSP) με επαρκή φωνητική και προσωδιακή πληροφορία για τη γένεση ενός ακουστικού σήματος ομιλίας. Εικόνα Μπλοκ διάγραμμα συστήματος ανάπτυξης μοντέλων προσωδίας & ΜκσΟ Στην εικόνα 3.13 παρουσιάζεται ένα μπλοκ διάγραμμα το οποίο περιγράφει την αρχή λειτουργίας ενός πρωσοδιακού συστήματος μετατροπής κειμένου σε ομιλία. Αρχικά το κείμενο εισόδου υφίσταται προεπεξεργασία όπου απαλλάσσεται από ακρώνυμα, συντομεύσεις κ.α. Στη συνέχεια το «καθαρό» πλέον κείμενο περνά από το στάδιο επεξεργασίας φυσικής γλώσσας όπου εξάγεται μορφολογική και συντακτική πληροφορία σε διάφορα επίπεδα όπως φωνήματος, συλλαβής, λέξης, προσωδιακής λέξης, κ.α. Η ντετερμινιστική πληροφορία που εξάγεται από το κείμενο στη συνέχεια μπορεί να χρησιμοποιηθεί σε δύο φάσεις (βλ. Εικόνα 3.13). Στην πρώτη φάση η μορφοσυντακτική πληροφορία μπορεί να «ευθυγραμμιστεί» με την επισημειωμένη πληροφορία (φαινόμενα ToBI, διάρκειες, επιτονικές ομάδες) με σκοπό την δημιουργία 104

105 σετ χαρακτηριστικών για την εκπαίδευση και αξιολόγηση προσωδιακών μοντέλων τα οποία έχουν προκύψει από την εφαρμογή αλγορίθμων μηχανικής μάθησης. Σε μια δεύτερη φάση η μορφοσυντακτική πληροφορία μπορεί να χρησιμοποιηθεί για να οδηγήσει δημιουργηθέντα (από την πρώτη φάση) μοντέλα επιτονισμού και διάρκειας φωνημάτων και στην συνέχεια η πληροφορία να περάσει στο επίπεδο επεξεργασίας σήματος από όπου θα προκύψει το συνθετικό σήμα ομιλίας. Στις παρακάτω ενότητες θα δοθούν περισσότερες λεπτομέρειες για τις μονάδες επεξεργασίας του συγκεκριμένου συστήματος. 3.9 Βαθμίδα επεξεργασίας φυσικής γλώσσας Όπως εξετάσαμε και σε προηγούμενη ενότητα το στάδιο επεξεργασίας φυσικής γλώσσας περιλαμβάνει εκείνες τις διαδικασίες με την βοήθεια των οποίων θα λάβουμε από το κείμενο εισόδου την πληροφορία του τι και πως θα ειπωθεί. Στο σύστημα μας, όπως φαίνεται και στην εικόνα 3.13, το κείμενο εισόδου υφίσταται προεπεξεργασία και στην συνέχεια εξάγονται μορφοσυντακτικά χαρακτηριστικά. Η πλήρης διαδικασία επεξεργασίας φυσικής γλώσσας φαίνεται στο παρακάτω σχήμα. Εικόνα Στάδιο επεξεργασίας φυσικής γλώσσας Βαθμίδα προεπεξεργασίας κειμένου Κατά την προεπεξεργασία κειμένου πραγματοποιείται η απαλλαγή του κειμένου εισόδου από ακρωνύμια, συντμήσεις και συχνά χρησιμοποιούμενες ξένες λέξεις. Έστω για παράδειγμα η πρόταση, «Πολύωρες συσκέψεις των μελών του ΟΗΕ οδήγησαν στην αποτροπή της στρατιωτικής επέμβασης». Ο συνθέτης φωνής πρέπει να είναι σε θέση να αναγνωρίσει ότι ο «ΟΗΕ» είναι συντομογραφία αλλά και τον τρόπο που αυτή αναπτύσσεται. Στο συγκεκριμένο παράδειγμα η συντομογραφία θα μπορούσε να αναπτυχθεί με δύο τρόπους: «Πολύωρες συσκέψεις των μελών του ΟΗΕ αποφάσισε..» 105

106 ή «Πολύωρες συσκέψεις των μελών του Οργανισμού Ηνωμένων Εθνών..». Επίσης παρατηρούμε ότι η συντομογραφία πρέπει να αναπτύσσεται με τέτοιο τρόπο ώστε να συμφωνεί με το περιβάλλον στο οποίο βρίσκεται (κλίση). Η συντομογραφία «ΟΗΕ» αναπτύσσεται έτσι ώστε να συμφωνεί στη κλίση με το οριστικό (άρθρο) που προηγείται δηλαδή: «ο ΟΗΕ..», «..του ΟΗΕ..». Το οριστικό άρθρο σε ορισμένες περιπτώσεις μπορεί να βρίσκεται νωρίτερα από την συντομογραφία όπως στο παράδειγμα: «Τα παλιά τηλ. έχουν διαγραφεί». Το οριστικό άρθρο εδώ είναι «Τα» και μεσολαβεί το επίθετο «παλιά» πριν την συντομογραφία «τηλ.». Ο συνθέτης φωνής πρέπει να αναπτύσσει τις συντομογραφίες λαμβάνοντας υπόψη όλες αυτές τις σημειώσεις. Συγκεκριμένα ο συνθέτης φωνής αναπτύσσει τις συντομογραφίες χρησιμοποιώντας ένα εξωτερικό αρχείο όπου ο χρήστης νωρίτερα (offline) έχει εισάγει τις συντομογραφίες με την ανάπτυξή τους Εξαγωγή μορφοσυντακτικής πληροφορίας Το τελευταίο στάδιο της επεξεργασίας φυσικής γλώσσας του συστήματος μας περιλαμβάνει την φωνολογική, μορφολογική και συντακτική ανάλυση του φιλτραρισμένου κειμένου. Αρχικά μετατρέπεται η λεξιλογική γραφή σε φωνητική και εξάγονται φωνολογικά χαρακτηριστικάμγια κάθε φώνημα. Για την φωνητική μεταγραφή των κειμένων εισόδου χρησιμοποιήθηκε σύστημα βασισμένο σε κανόνες, (Sgarbas, et al., 1999). Στα πλαίσια της μορφολογικής ανάλυσης του κειμένου εξάγεται πληροφορία όπως αριθμός λέξεων, αριθμός συλλαβών, θέση λέξης στη πρόταση, θέση συλλαβής στην λέξη (και την πρόταση) και θέση φωνήματος στην συλλαβή (λέξη και πρόταση). Τέλος, εξάγεται πληροφορία σχετικά με το μέρος του λόγου της λέξης, το λήμμα, το γένος, το χρόνο κ.λ.π. Η μορφοσυντακτική πληροφορία που παρέχεται από τη μονάδα επεξεργασίας φυσικής γλώσσας έχει την λογική του δέντρου, έτσι στο κείμενο έχουμε χαρακτηριστικά σε επίπεδο παραγράφου, πρότασης, λέξης, συλλαβής και καταλήγουμε στο επίπεδο φωνήματος. 106

107 Πίνακας 4 Χαρακτηριστικά Φωνημάτων Η εξαγωγή ΝτΤ έχει γίνει με την εφαρμογή ντετερμινιστικών κανόνων που εξετάζουν τα σημεία στίξεως μια της πρότασης καθώς και της διάκρισης των λέξεων σε λειτουργικές και περιεχομένου Βαθμίδα εξαγωγής προσωδιακής πληροφορίας Όπως είδαμε αναλυτικά σε προηγούμενη ενότητα, απαραίτητο συστατικό για την δημιουργία καταληπτού και φυσικού συνθετικού προφορικού λόγου είναι η ύπαρξη βαθμίδας εξαγωγής πληροφορίας σχετικά με τον επιτονισμό της φράσης και της διάρκειας των φωνημάτων που την απαρτίζουν. Για την υλοποίηση της συγκεκριμένης βαθμίδας στο σύστημα μας μπορούμε να χρησιμοποιήσουμε μοντέλα μηχανικής μάθησης τόσο για την εξαγωγή της ToBI επισημείωσης (και στην συνέχεια τις τιμές των τονικών υψών σε επίπεδο συλλαβής), όσο και για την εκτίμηση της διάρκειας των φωνημάτων. Συγκεκριμένα, για την εξαγωγή της πληροφορίας τονικότητας έχοντας προηγουμένως δημιουργήσει διανύσματα με μορφοσυντακτική πληροφορία από την βαθμίδα επεξεργασίας φυσικής γλώσσας, τα εισάγουμε σαν είσοδο στα μοντέλα εκτίμησης των ΤοΒΙ χαρακτηριστικών (τονικά ύψη, οριακοί τόνοι και δείκτες παύσεων). Η πληροφορία που θα εξαχθεί από τα μοντέλα ToBI επισημείωσης, μαζί με χαρακτηριστικά που εξάγονται επίσης από την βαθμίδα επεξεργασίας φυσικής γλώσσας εφαρμόζονται σε τρία μοντέλα γραμμικής παλινδρόμησης καθένα από τα οποία έχει εκπαιδευτεί ώστε να εξάγει πληροφορία σχετική με την τιμή που θα έπρεπε να έχει η F0 στην αρχή (F0sylStart), στη μέση (F0sylMid) και στο τέλος της συλλαβής (F0sylEnd) αντίστοιχα. Τα μοντέλα γραμμικής παλινδρόμησης έχουν προηγουμένως εκπαιδευτεί με πληροφορία που έχει εξαχθεί από την προσωδιακή βάση ομιλίας. 107

108 Εικόνα Μπλοκ διάγραμμα εξαγωγής καμπύλης F0 με χρήση γραμμικής παλινδρόμησης 3.11 Επίπεδο επεξεργασίας σήματος Στο επίπεδο επεξεργασίας σήματος έχοντας πλέον τις προσωδιακές προδιαγραφές της προς εκφώνηση φράσης καθώς επίσης και την αλληλουχία φωνημάτων που την περιγράφει προχωρούμε στην σύνθεση φωνής κάνοντας χρήση τεχνικών συνένωσης στοιχειωδών μονάδων ομιλίας. Ευρέως διαδεδομένες τεχνικές σύνθεσης που μπορούμε να χρησιμοποιήσουμε είναι οι: Multi Band Resynthesis OverLap & Add (M.B.R.OL.A) και Time Domain - Pitch Synchronous OverLap Add (PSOLA). Ο αλγόριθμος MBROLA επιτρέπει την αλλαγή δύο από τις τρεις προσωδιακές παραμέτρους, της διάρκειας (duration) και της βασικής συχνότητας F0 ενώ η παράμετρος της έντασης παραμένει αμετάβλητη. Ουσιαστικά αποτελεί βελτίωση της TD-PSOLA καθώς δανείζεται τεχνικές ανασύνθεσης από τo γνωστό Multi-Band Excited μοντέλο (Griffin, 1987), όπως αυτό χρησιμοποιείται σε τεχνικές κωδικοποίησης δορυφορικών σημάτων. Όσον αφορά την TD-PSOLA προσέγγιση (Charpentier & Stella (1986), Charpentier & Moulines (1989)) είναι οτι μπορούμε να παράγουμε έμφωνους (voiced) φθόγγους τροποποιημένης βασικής συχνότητας F0, χρησιμοποιώντας τμήματα ηχογραφημένης φωνής από τα οποία έχουμε εξάγει παράθυρα βασικών περιόδων (που αντιπροσωπεύουν την γλωττιδική δραστηριότητα, το ανοιγοκλείσιμο δηλαδή των φωνητικών χορδών). Η μεταβολή της τονικότητας γίνεται αθροίζοντας τα παράθυρα βασικών περιόδων που έχουν εξαχθεί, με σχετική μεταξύ τους μετατόπιση στο χρόνο (time shift), έτσι ώστε η βασική περίοδος Το να αλλάξει στην επιθυμητή Τ. Η μεταβολή 108

109 της διάρκειας, γίνεται με εισαγωγή ή εξαγωγή παραθύρων βασικής περιόδου. Οι μαθηματικές σχέσεις που περιγράφουν τα παραπάνω, έχουν ως εξής: (1) (2) Σημαντικής σημασίας είναι η επιλογή του είδους και μήκους του παραθύρου w(n). Επιλογή μεγάλου μήκους παραθύρου σε σχέση με την Το, οδηγεί σε περιοδικότητα ενδεχομένως αντιληπτή από το ανθρώπινο αυτί, δημιουργώντας ένα είδος αντήχησης στον παραγόμενο ήχο. Από την άλλη μεριά, μικρό μήκος παραθύρου (ως προς Το), οδηγεί σε μικρή αναλυτικότητα συχνότητας, με συνέπεια την φασματική αλλοίωση των εξαγόμενων παραθύρων φυσικής φωνής. Επομένως, το μήκος των παραθύρων L αποτελεί ένα trade off μεταξύ των παραπάνω ιδιοτήτων και καθορίζεται από τον παράγοντα FR = L / Το (recovery factor) ο οποίος εκλέγεται, συνήθως, ίσος με το δύο (FR =2). Το παράθυρο, είναι συνήθως ένα παράθυρο Hamming, καθώς αυτό το είδος των παραθύρων παρουσιάζει ικανοποιητική απόσβεση των πλευρικών λοβών του σχέση με τον κεντρικό. Στο σχήμα που ακολουθεί, φαίνεται καθαρά η λογική του αλγορίθμου TD-PSOLA. Όταν Τ=Το, το ανακατασκευασμένο σήμα, είναι περίπου ανάλογο του αρχικού. Η αναλογία εξαρτάται από το είδος του παραθύρου που χρησιμοποιήθηκε: (3) Το παράθυρο w(n), οφείλει να έχει διάρκεια αρκετά μεγάλη, έτσι ώστε το φάσμα του w*(n) να έχει μικρό εύρος (αντιστοιχώντας σε μια δέλτα του Dirac) με συνέπεια, η συνέλιξή του στο πεδίο της συχνότητας με το φάσμα του x(n), να δώσει το φάσμα του x(n). Η ποιότητα των τμημάτων που παράγονται με την τεχνική TD-PSOLA είναι εξαιρετική, όταν η τελευταία εφαρμόζεται σε ημιστάσιμα (quasi-stationary) τμήματα του λόγου (καθώς, όπως είναι γνωστό, η φωνή δεν είναι ποτέ στάσιμο σήμα). 109

110 Εικόνα FR=L/To=2, αφού εξαχθούν 2 βασικοί περίοδοι ανά παράθυρο, κάθε παράθυρο μετατοπίζεται κατά Τ-Το, έτσι ώστε να επιτευχθεί κατά την άθροιση, περίοδος Τ. [33] Tα μεγαλύτερα προβλήματα της TD-PSOLA (όπως και των περισσοτέρων τεχνικών σύνθεσης με συνένωση δομικών μονάδων) εμφανίζονται κατά την σύνδεση τμημάτων φωνής που έχουν εξαχθεί από διαφορετικά λεκτικά-ακουστικά περιβάλλοντα (π.χ. διαφορετικές λέξεις), εξαιτίας τριών, σχεδόν αναπόφευκτων, γεγονότων: Ασυνέχειες φάσης, κατά την εξαγωγή των παραθύρων (Phase mismatch) Διαφορετική τονικότητα, των ηχογραφημένων έμφωνων φθόγγων (Pitch mismatch) Ασυνέχειες φασματικού φακέλου (Spectral envelope mismatch) Ο συνθέτης διφώνων MBROLA, διανέμεται δωρεάν από το TCTS Lab του Facultι Polytechnique de Mons. Προσοχή όμως θέλει το γεγονός ότι μπορεί να χρησιμοποιηθεί μόνο με βάσεις διφώνων ειδικά κωδικοποιημένες από τους κατασκευαστές της. 110

111 3.12 Μοντελοποίηση φαινομένων επιτονισμού με μεθόδους μηχανικής μάθησης Όπως έχει γίνει κατανοητό από τα προηγούμενα κεφάλαια, για την ακουστική απόδοση της πληροφορίας του επιτονισμού θα πρέπει το κείμενο εισόδου να μεταβεί από μία αλυσίδα σύνθετων διαδικασιών. Οι διαδικασίες αυτές περιλαμβάνουν την ανάλυση διαφόρων γλωσσολογικών και ακουστικών φαινομένων. Έτσι λοιπόν ξεκινώντας από το προς σύνθεση κείμενο και προχωρώντας σε διαδικασίες όπως η δημιουργία συντακτικών/γραμματικών δομών, φραστικών δομών και προσωδιακών δομών (επιτονισμός και διάρκεια) καταλήγουμε στην δημιουργία της συνθετικής καμπύλης τονικότητας. Καθένα από τα προαναφερθέντα στάδια έχει σαν αποτέλεσμα την δημιουργία ενός συνόλου από χαρακτηριστικά (features) που εμπλουτίζουν το μορφολογικό δέντρο του κειμένου εισόδου και τα οποία χρησιμοποιούνται από τα επόμενα στάδια της αλυσίδας σύνθεσης ενός συστήματος ΜΚσΟ. Οι διαδικασίες που λαμβάνουν χώρα για την εξαγωγή αυτών των χαρακτηριστικών μπορεί να είναι, (α) βασισμένη σε κανόνες (rulebased), (β) βασισμένη σε αλγορίθμους μηχανικής μάθησης (machine learning), (γ) βασισμένη σε επιλογή και αντιγραφή από μεγάλα σώματα κειμένων ή ομιλίας (corpus-based) και (δ) οποιοσδήποτε συνδυασμός των παραπάνω. Σχετικά με την εξαγωγή κανόνων βασιζόμενοι σε προσεγγίσεις που πραγματοποιούνται είτε με εμπειρικούς είτε με αυτοματοποιημένους τρόπους από ένα σύνολο παρατηρήσεων, αν και παρέχουν αξιόλογα αποτελέσματα με σχετική μικρή προσπάθεια, συνήθως αποτυγχάνουν στο να ξεφύγουν από κάποιες επαναλαμβανόμενες συμπεριφορές όσο και να συλλάβουν τον πλούτο των συστατικών της ανθρώπινης ομιλίας. Έτσι καταλήγουν στην παραγωγή μονότονης ή βαρετής συνθετικής ομιλίας. Πέραν τούτου είναι δύσκολο να εξαχθούν καθώς και να προσαρμοστούν σε νέα κειμενικά πεδία και νέα σύνολα χαρακτηριστικών. Οι προσεγγίσεις που βασίζονται σε μηχανική μάθηση μπορεί να αποδώσουν πιο ρεαλιστικά αποτελέσματα, εφόσον υπάρχει σημαντικός αριθμός σωστά ζυγισμένων παρατηρήσεων, αριθμός ο οποίος αυξάνει με το μέγεθος των επιλεγμένων χαρακτηριστικών εκπαίδευσης καθώς και με την μεταβλητότητα τους (Taylor, Black, 1998). Η επιλογή του κατάλληλου συνόλου χαρακτηριστικών εκπαίδευσης καθώς και η κατανομή τους επηρεάζει σε μεγάλο βαθμό την απόδοση των μοντέλων αυτών. Το μεγαλύτερο πρόβλημα είναι συνήθως η αξιολόγηση της επίδρασης του κάθε χαρακτηριστικού ώστε να επιλεγεί με αυτόματο τρόπο το βέλτιστο σύνολο. 111

112 Όσον αφορά τα συστήματα που βασίζονται σε προσεγγίσεις επιλογής μονάδων από μεγάλα σώματα ηχογραφήσεων, αυτά συντηρούν μία βάση με αναλύσεις πραγματικών εκφωνημάτων, αναλύουν την κάθε νέα φράση συνδυάζοντας αποσπάσματα των αναλύσεων από τη βάση. Η συχνότητα εμφάνισης αυτών των αποσπασμάτων χρησιμοποιείται για να εκτιμηθεί ποια ανάλυση είναι και η πιο πιθανή. Αυτές οι προσεγγίσεις είναι στην παρούσα φάση και οι πιο αποτελεσματικές στο πεδίο της σύνθεσης ομιλίας καθώς διατηρούν σε μεγάλο βαθμό τα φυσικά χαρακτηριστικά της ομιλίας Μοντελοποίηση καμπύλης τονικότητας Το τονικό ύψος (pitch) στον προφορικό λόγο ορίζεται ως ο λογάριθμος της θεμελιώδους συχνότητα του σήματος ομιλίας. Ο τύπος του επιτονικού μοντέλου που χρησιμοποιείται επηρεάζει άμεσα τον τρόπο με τον οποίο εξάγεται η θεμελιώδης συχνότητα F0. Με σκοπό την γεφύρωση του κενού μεταξύ της συντακτικήςπροσωδιακής περιγραφής μίας φράσης καθώς και της πραγματικής της μελωδίας απαιτείται αρχικά η δημιουργία της σχέσης ανάμεσα στις παραμέτρους του μοντέλου και της συντακτικής-προσωδιακής περιγραφής και έπειτα η γέννηση της τελικής μελωδικής καμπύλης από την παραμετρική της αναπαράσταση στο μοντέλο. Στις περιπτώσεις των ακουστικών και αντιληπτικών μοντέλων το δεύτερο βήμα αποτελεί απλά την εφαρμογή κάποιων μαθηματικών τύπων, καθώς αυτά είναι εγγενώς πιο κοντά στα πραγματικά δεδομένα από ότι τα γλωσσολογικά μοντέλα. Ωστόσο, αυτό εξισορροπείται από την πολυπλοκότητα του πρώτου βήματος, στο οποίο τα γλωσσολογικά μοντέλα είναι πιο κοντά. Και οι δύο διαδικασίες ανήκουν σε αυτό που ονομάζεται μοντέλο τονικότητας ή μοντέλο F0. Το μοντέλο F0 παράγει μία συνεχή τονική καμπύλη από αυτά τα επιτονικά γεγονότα, δηλαδή τον τόπο και τον τύπο του τόνου. Ο βαθμός της ακουστικής φυσικότητας του συνθετικού τόνου που επιτυγχάνεται, σχετίζεται άμεσα με την ποιότητα αυτών των γεγονότων. Σχετικά με την παραγωγή και απόδοση της, όπως αναφέραμε και σε προηγούμενη ενότητα, έτσι και εδώ ισχύουν και οι τρεις προσεγγίσεις για τη γένεση και την απόδοση της F0. Αυτές που βασίζονται σε κανόνες έχουν δώσει τη θέση τους σε μοντέλα μηχανικής μάθησης. Η πιο κοινά χρησιμοποιούμενες μέθοδοι για τον σκοπό αυτό είναι η Γραμμική Παλινδρόμηση (Linear Regression) και τα δέντρα CART, που προσφέρουν ικανοποιητικά αποτελέσματα ιδίως όταν οι συνθήκες λειτουργίας μοιάζουν με τις συνθήκες της 112

113 εκπαίδευσης. Στο σχήμα 3.17 φαίνεται το διάγραμμα ροής ενός μοντέλου F0 με χρήση μοντέλων μηχανικής μάθησης για την εξαγωγή των κανόνων από το κείμενο εισόδου. Εικόνα Διάγραμμα ροής ενός μοντέλου F0 σε σύστημα ΜΚσΟ Σε πρώτο στάδιο στο σχήμα 3.17 βλέπουμε την εξαγωγή επισημειωμένης πληροφορίας από το προσωδιακό σώμα ομιλίας για την εκπαίδευση των μοντέλων αυτόματης εξαγωγής πληροφορίας επιτονισμού (στην περίπτωση μας σημαδιών ToBI) καθώς και αυτά της αυτόματης εκτίμησης των τιμών της F0 για την αρχή, την μέση και το τέλος μιας συλλαβής με προσωδιακή πληροφορία. Αυτό κάνει φανερό την μεγάλη σημασία, για την επιτυχία ενός στατιστικού μοντέλου, που έχει η μέθοδος που θα εφαρμοστεί και αφετέρου το σύνολο των χαρακτηριστικών εκπαίδευσης σε συνδυασμό με την κατανομή τους μέσα στο σύνολο των δεδομένων εκπαίδευσης (προσωδιακή βάση ομιλίας). Η γέννηση τόνων και προσωδιακών φράσεων από πλούσια γλωσσολογικά δεδομένα μπορεί να παράγει καλύτερη προσωδία από ότι τα απλά κείμενα (Black, Taylor, 1994) [19]. Παλαιότερες εργασίες έχουν αποδείξει ότι κάποιες σχέσεις μπορούν να επηρεάσουν τον τύπο και την θέση των μελωδικών τόνων, όπως είναι η δομή του λόγου (discourse structure) (Grosz, Hirschberg, 1992) [46], η πρότερη ή καινούργια πληροφορία (Hirschberg, 1993) [48] και η αντίθεση (Prevost, 1995). Ωστόσο, είναι δύσκολη ακόμα η εξαγωγή πλούσιων γλωσσολογικών στοιχείων, όπως η εστιακή κορύφωση (focus prominence) και οι ρητορικές σχέσεις από απλά κείμενα. Έχει παρατηρηθεί ότι η ακριβής τοποθεσία των τοπικών τονικών καμπύλων που συνδέονται με προσωδιακά τονισμένες συλλαβές μπορεί να έχουν σημαντικές επιδράσεις στον τρόπο με τον οποίο οι ακροατές ερμηνεύουν ένα εκφώνημα. Στην εργασία (Kohler, 1990) [61] αποδείχτηκε ότι σχετικά μικρές μεταβολές στην 113

114 ευθυγράμμιση (της τάξης των 100 ms) είναι όχι μόνο ακουστές αλλά αλλάζουν ακόμα και το επιτονικό νόημα του εκφωνήματος. Ωστόσο, η επιλογή και αντιγραφή περιγραμμάτων του τονικού ύψους μεταξύ φωνητικά ετερογενών τονικών ομάδων μπορεί να επηρεάσει τη φυσικότητα της τελικής συνθετικής ομιλίας. Στις εργασίες των (Aulanko, 1985) [7], (Whalen, Levitt, 1995), (Monaghan, 1992) και (Vainio, 2001) [80] επισημάνθηκε ο ρόλος της τεμαχιακής (segmental) προσωδίας στην επιφάνεια της F0, όπως η διαφορά της θεμελιώδους συχνότητας ανάμεσα σε ανοικτά και κλειστά φωνήεντα. Σχετικά με την Ελληνική γλώσσα, οι διαφορές της F0 που οφείλονται στο φωνηματικό περιεχόμενο και δεν ακολουθούν τις καθολικές (universal) τάσεις (Fourakis, et al., 1999) [39]. Στην εργασία (Arvaniti, et al., 1998) [6] δείχθηκε επίσης ότι η ευθυγράμμιση (alignment) του H στον προ- πυρηνικό προσωδιακό τόνο L*+H επηρεάζεται επίσης από τον τύπο του φωνήματος (εκρηκτικό, δασύ, έρρινο) που προηγείται του μετα-τονισμένου (post-accentual) φωνήεντος. Με βάση τα παραπάνω, είναι ξεκάθαρο ότι ένα επιτονικό μοντέλο πρέπει να εκμεταλλεύεται και να διαχειρίζεται τη φωνηματική πληροφορία προκειμένου να πετύχει σωστή ευθυγράμμιση (alignment), ή αλλιώς χρονική τοποθέτηση, και τονική τοποθέτηση (positioning) των τονικών προτύπων. Ωστόσο, τέτοιες μικρο-προσωδιακές παραλλαγές συνήθως αγνοούνται κατά τη γένεση του τόνου, καθώς από τη μία η σύνθεση ομιλίας με επιλογή μονάδας δε ξεχωρίζει τη τονική από τη φασματική διάσταση (οπότε δεν έχουμε προσαρμογή του τόνου σε ετερογενές φωνητικό περιβάλλον) και από την άλλη, άλλες προσεγγίσεις δύσκολα μπορούν να διαχειριστούν την επιβάρυνση που επιφέρει στο μέγεθος της βάσης δεδομένων η προσπάθεια να εξυπηρετηθούν όλα τα φαινόμενα και οι συνδυασμοί στην ομιλία Αλγόριθμοι μηχανικής μάθησης Διάφορες προσεγγίσεις με σκοπό την αυτόματη εξαγωγή κανόνων από σώμα δεδομένων έχουν αναπτυχθεί (Witten, Frank, 2005) με διαφορετική συμπεριφορά και απόδοση η καθεμία σχετικά με το είδος των στοιχείων προς εκπαίδευση, ή την συνάφεια των χαρακτηριστικών με την προς μοντελοποίηση κλάση, ή τέλος με το πρόβλημα των ελλιπών δεδομένων. Για το λόγω αυτό είναι προτιμότερο να εξετάζονται τα δεδομένα μας με αλγόριθμους διαφορετικών οικογενειών όσον αφορά το τρόπο χειρισμού των δεδομένων από τα οποία θα προκύψουν οι κανόνες των μοντέλων για την εκτίμηση των προσωδιακών παύσεων. 114

115 Δένδρα απόφασης Το πρόβλημα της μάθησης από ανεξάρτητα στιγμιότυπα με εφαρμογή της προσέγγισης "διαίρει και βασίλευε" ("divide-and-conquer") οδηγεί σε ένα είδος αναπαράστασης που καλείται δέντρο απόφασης (decision tree).τα δέντρα απόφασης θεωρούνται από τις πιο πρακτικές και απλές προσεγγίσεις μηχανικής μάθησης (Breiman et al., 1984, Quinlan 1986). [22,] Ένα δέντρο απόφασης ουσιαστικά είναι μια δομή στην οποία κάθε κόμβος αντιπροσωπεύει μια επιλογή μεταξύ διάφορων εναλλακτικών λύσεων, και κάθε κόμβος φύλλων αντιπροσωπεύει μια ταξινόμηση ή μια απόφαση. Η προσέγγιση του δένδρου απόφασης είναι πολύ χρήσιμη στα προβλήματα κατηγοριοποίησης. Υπάρχουν δύο βασικά βήματα στην τεχνική αυτή: α) η κατασκευή του δένδρου και β) η εφαρμογή του στη βάση δεδομένων. Η χρήση των δένδρων απόφασης παρουσιάζει αρκετά πλεονεκτήματα αλλά και μειονεκτήματα σε προβλήματα ταξινόμησης. Βασικό τους πλεονέκτημα έναντι άλλων προσεγγίσεων είναι ότι παρέχουν ευκολία στην χρήση και δημιουργούν κανόνες οι οποίοι είναι εύκολο να γίνουν κατανοητοί και να ερμηνευτούν από τον χρήστη (κάθε διαδρομή από τη ρίζα του δέντρου σε κάποιο φύλλο αντιστοιχεί σε μια ένωση των χαρακτηριστικών, ενώ κάθε διακλάδωση σε μια διάζευξη αυτών των συζεύξεων). Ένα άλλο πλεονέκτημα τους είναι ότι το μέγεθος τους είναι ανεξάρτητο της βάσης δεδομένων. Αυτό μεταφράζεται στο γεγονός ότι μπορούμε να κατασκευάσουμε δένδρα για δεδομένα με πολλά χαρακτηριστικά (μεγάλο διάνυσμα εκπαίδευσης). Πέραν όμως τον πλεονεκτημάτων έχουν και κάποια μειονεκτήματα βασικό εκ των οποίων είναι το γεγονός ότι παρουσιάζουν αστάθεια σε μικρές παραλλαγές στα δεδομένα εκπαίδευσης οδηγώντας σε διαφορετικά μονοπάτια (διαφορετικές επιλογές παραμέτρων) σε κάθε σημείο επιλογής μέσα στην δενδρική δομή. Τέλος είναι δύσχρηστα στις περιπτώσεις όπου κάποια από τα χαρακτηριστικά εκπαίδευσης είναι συνεχή δεδομένα γιατί οδηγούν στην δημιουργία σύνθετων δενδρικών δομών λόγο του γεγονότος ότι προέρχονται από δυαδικές διαιρέσεις των αριθμητικών δεδομένων. Η αυτόματη εξαγωγή κανόνων από σώμα δεδομένων με δένδρα απόφασης έχει εφαρμοστεί επιτυχώς στους χώρους της επεξεργασίας φυσικής γλώσσας (ΕΦΓ), στην αποσαφήνιση ορίων πρότασης (Palmer, et al., 1997) [88], στην αυτόματη εξακρίβωση μέρους του λόγου λέξεις (Brill, 1995) και στην ανάπτυξη εργαλείων συντακτικής ανάλυσης (Hagerman, 1995). 115

116 Στον τομέα της μετατροπής κειμένου σε ομιλία, έχουν χρησιμοποιηθεί στην ανίχνευση πληροφορίας επιτονισμού από κείμενο (Black, et al., 1994) [19] καθώς και στην πρόβλεψη της διάρκειας φωνημάτων (Lee, Oh, 1999) [67] Μπαεϋζιανή μάθηση Η Μπαεϋζιανή ανάλυση μπορεί να εφαρμοστεί για την μοντελοποίηση των φραστικών παύσεων και τονικών υψών εφαρμόζοντας μορφολογικά και γλωσσολογικά χαρακτηριστικά μέσα από τους αλγόριθμους. Υπάρχουν δύο πιθανές υποθέσεις που μπορούν να εξεταστούν, σχετικά με το αν τα χαρακτηριστικά γνωρίσματα εκπαίδευσης θεωρούνται ανεξάρτητα το ένα από το άλλο ή λαμβάνεται υπόψη ένα είδος εξάρτησης μεταξύ όλων ή ενός συγκεκριμένου υποσυνόλου. Στην περίπτωση που θεωρήσουμε ότι κάθε χαρακτηριστικό εκπαίδευσης είναι ανεξάρτητο από όλα τότε υιοθετούμε την προσέγγιση του αφελή ταξινομητή Bayes, ενώ στην άλλη περίπτωση αυτή των Μπαεϋζιανών δικτύων Μάθηση βασισμένη σε στιγμιότυπα Οι μέθοδοι για την αυτόματη εξαγωγή κανόνων με χρήση σώματος δεδομένων που εξετάσαμε μέχρι τώρα είχαν σαν κοινό χαρακτηριστικό το γεγονός ότι κατασκεύαζαν ένα μοντέλο από τα δεδομένα εκπαίδευσης, και μετά το εφάρμοζαν, στα δεδομένα εξέτασης για την ταξινόμηση ονοματικών (nominal) ή την πρόβλεψη συνεχών (continiues) κατηγοριών. Αυτές οι μέθοδοι αναφέρονται μερικές φορές ως πρόθυμη εκμάθηση (eager learning) (δεδομένου ότι είναι πρόθυμες να χτίσουν σε πρώτο στάδιο ένα μοντέλο). Εντούτοις, υπάρχει μια ομάδα αλγορίθμων μηχανικής μάθησης οι οποίες δεν κατασκευάζουν αρχικά κάποιο μοντέλο, αυτού του είδους η μάθηση καλείται μάθηση βασισμένη-σε-περίπτωση (Ιnstance Βased learning, ΙΒ), ή οκνηρή εκμάθηση (Lazy Learning). Οι βασισμένοι-σε-περίπτωση μέθοδοι εκμάθησης αποθηκεύουν απλά τα παραδείγματα κατάρτισης και αναβάλλουν τη γενίκευση (που χτίζει ένα μοντέλο) έως ότου πρέπει να ταξινομηθεί μια νέα περίπτωση ή να γίνει μια πρόβλεψη. (Αυτό εξηγεί ένα άλλο όνομα για τις μεθόδους IB - οκνηρή εκμάθηση - δεδομένου ότι αυτές οι μέθοδοι καθυστερούν την επεξεργασία έως ότου πρέπει να ταξινομηθεί μια νέα περίπτωση). Το πρότυπο που χτίζεται με την IB διαδικασία δεν είναι ένα γενικό μοντέλο που χρησιμοποιεί όλα τα στοιχεία κατάρτισης, αλλά μάλλον ένα τοπικό πρότυπο που περιλαμβάνει μόνο μερικές από τις περιπτώσεις. Οι μέθοδοι IB 116

117 χρησιμοποιούνται τόσο για ταξινόμηση όσο και για παλινδρόμηση (regression) σε συνεχή δεδομένα. Οι πιο σημαντικές μέθοδοι αυτής της κατηγορίας είναι η μέθοδος κοντινών γειτόνων (nearest neighbors), η τοπικά σταθμισμένη παλινδρόμηση (locally weighted regression), και o συλλογισμός κατά-περίπτωση (case-base reasoning). Ένα παράδειγμα αλγορίθμου αυτής της ομάδας αλγορίθμων, ο οποίος μπορεί να χρησιμοποιηθεί αποτελεί ο αλγόριθμος Κ περιπτώσεων μάθησης (Ibk), ο οποίος αναπαριστά την αποκτηθείσα γνώση ως συλλογή περιπτώσεων εκπαίδευσης ή αλλιώς στιγμιοτύπων (instances). Είναι μια μορφή μάθησης με επόπτευση (supervised learning) από τα στιγμιότυπα εκπαίδευσης. Κρατά μια πλήρη μνήμη των στιγμιοτύπων κατάρτισης και ταξινομεί τις νέες περιπτώσεις χρησιμοποιώντας τις πιο παρόμοιες περιπτώσεις κατάρτισης. Μια νέα περίπτωση ταξινομείται έπειτα από την εύρεση της περίπτωσης με την υψηλότερη ομοιότητα και την χρησιμοποίηση της κατηγορίας της ως πρόβλεψη. Για αυτό το λόγο, ο IBk χαρακτηρίζεται από μια πολύ χαμηλή προσπάθεια εκπαίδευσης από τα δεδομένα. Αυτό οδηγεί από την μια μεριά σε ανάγκη για μεγάλο χώρο αποθήκευση λόγο του ότι διατηρεί όλα τα στιγμιότυπα κατάρτισης στην μνήμη. Επιπλέον, λαμβάνει χώρα η σύγκριση μιας νέας υπόθεσης με όλες τις ήδη υπάρχουσες, το οποίο οδηγεί σε ένα υψηλό κόστος υπολογισμού για την ταξινόμηση. Ο αλγόριθμος αυτός χρησιμοποιεί ένα μέτρο απόστασης για να προβλέψει, σαν κατηγορία του στιγμιότυπου εξέτασης, την κατηγορία του κοντινότερου στιγμιότυπου εκπαίδευσης που θα βρει. Η συνάρτηση ομοιότητας (similarity function) που χρησιμοποιεί ο IΒk για k στιγμιότυπα είναι, (1) Όσον αφορά την περίπτωση συνεχών χαρακτηριστικών η συνάρτηση f παίρνει την μορφή, (2) όπου κάθε στιγμιότυπο περιγράφεται από n χαρακτηριστικά. Η IBk μέθοδος ταξινόμησης είναι όμοια με την κοντινότερου-γείτονα εκτός από το γεγονός ότι κανονικοποιεί τα χαρακτηριστικά των στιγμιοτύπων, επεξεργάζεται τις περιπτώσεις επαυξητικά, και έχει μια απλή πολιτική για την ανοχή των ελλειπουσών τιμών (missing values). Επιπλέον, ο IBk σώζει μόνο τις λανθασμένα-ταξινομημένες περιπτώσεις και υιοθετεί μια πολιτική αναμονή και βλέπει για την συλλογή των στοιχείων σχετικά με τον καθορισμό του ποια από τα χαρακτηριστικά αναμένεται να 117

118 αποδώσουν καλύτερα κατά τη διάρκεια της ταξινόμησης. Το μόνο όριο στην πολυπλοκότητα αυτής της μεθόδου αυτόματης εκμάθησης από δεδομένα είναι το όριο στη δυνατότητα να αποθηκευτούν οι περιπτώσεις Μοντέλα μηχανικής μάθησης για την ανίχνευση προσωδιακών παύσεων Η προσωδιακή φρασιοποίηση διαχωρίζει τις εκφωνήσεις σε τμήματα τα οποία περιέχουν κομμάτια πληροφορίας (Bolinger, 1989). Αυτά τα προσωδιακά προτασιακά τμήματα δημιουργούνται καθώς ο ομιλητής εισάγει παύσεις σε διάφορα σημεία μεταξύ των λέξεων μιας έκφρασης. Τέτοιες μικρές διακοπές είναι γνωστές ως προσωδιακές φρασιακές παύσεις (prosodic phrase breaks). Δεδομένου ότι οι φρασιακές παύσεις διαμορφώνουν την πληροφορία του προφορικού μηνύματος, η σωστή εισαγωγή τους στην κατάλληλη συμβολή λέξεων θεωρείται σημαντικό μέρος ενός συστήματος ΜKσΟ. Η ακριβής ανίχνευση των φρασιακών παύσεων έχει στις βαθμίδες της, την εύρεση διάρκειας φωνημάτων, την καμπύλη ενέργειας του συνθετικού σήματος καθώς και την δημιουργία της τονικής καμπύλης της προς εκφώνησης πρότασης (Τaylor et al., 1998). Λάθη σε αυτό το επίπεδο προκαλούν την απώλεια φυσικότητας και σαφήνειας που οδηγεί στην αλλαγή της φέρουσας πληροφορίας μιας πρότασης. Στο παρελθόν, για την πρόβλεψη των φρασιακών παύσεων γινόταν χρήση απλών αλγορίθμων διατύπωσης (Aderson et al., 1984) οι οποίοι στηρίζονταν σε ορθογραφικό δείκτες, στην επισήμανση κάποιων λέξεων κλειδιά και στο μέρος του λόγου (POS). Η έρευνα για τη εξακρίβωση της θέσης των φραστικών παύσεων μέσα σε μια πρόταση βασίστηκε στη σχέση των προσωδιακών και των συντακτικών δομών. Οι βασισμένες σε κανόνες προσεγγίσεις (Prieto, Hirschberg, 1996) παρουσίασαν μεγάλη ακρίβεια σε περιπτώσεις όπου συντακτικές και σημασιολογικές πληροφορίες ήταν διαθέσιμες κατά τη διάρκεια της διαδικασίας ανίχνευσης. Οι με το χέρι γραπτοί κανόνες θεωρούνται ως η απλούστερη προσέγγιση για την εξακρίβωση των προσωδιακών ορίων φράσης. Συγκεκριμένα ακόμη και ένα μοντέλο το οποίο παρεμβάλλει φραστικές παύσεις ανάλογα με το σημείο στίξης κάνει λάθος σπάνια, αλλά εισάγει μαζικά σφάλματα σε περίπτωση μακροσκελών φράσεων όπου το κείμενο δεν περιέχει καμία στίξη. Επιπλέον, μοντέλα με σύνθετους κανόνες (Bachenko, Fitzpatrick, 1990) περιλαμβάνουν τους πιο λεπτομερείς κανόνες και απαιτούν στο κείμενο που εισάγεται να εφαρμοστεί ανάλυση. Μια άλλη αδυναμία αυτής της προσέγγισης είναι ότι ακόμα κι αν έχουμε στη διάθεση μας συντακτικές και σημασιολογικές πληροφορίες σχετικά με 118

119 το κείμενο εισόδου οι οποίες θα μπορούσαν να ληφθούν αυτόματα και σε πραγματικό χρόνο σε ένα σύστημα ΜΚσΟ, θα ήταν εξαιρετικά δύσκολο να αναπτυχθούν και να διατηρηθούν. Η έρευνα για την εξακρίβωση της προσωδιακής δομής μιας φράσης έχει στραφεί στην δημιουργία μοντέλων από επισημειωμένα σώματα κειμένου και ομιλίας με χρήση μεθόδων μηχανικής μάθησης. Στα πλαίσια αυτής της προσέγγισης προσφέρεται το πλεονέκτημα της αυτόματης κατασκευής των κανόνων διατύπωσης (Ostendorf et al., 1989) [85] με συνέπεια την απόκτηση μεγαλύτερης ευελιξίας και ευκολίας όσον αφορά την προσαρμογή των κανόνων σε μια νέα κειμενική περιοχή ή γλώσσα. Στα πλαίσια της μοντελοποίησης των προσωδιακών παύσεων με αλγόριθμους μηχανικής μάθησης έχουν πραγματοποιηθεί διάφορες εργασίες όπου έχουν χρησιμοποιηθεί δένδρα απόφασης (Riley, 1992), νευρωνικά δίκτυα (Muller et al., 1996) [82], μετασχηματισμό μάθησης με κανόνες (transformational rule-based learning) (Fordyce, Osterdorf, 1998) [38], κρυμμένα μοντέλα Markov (Tokuda et al., 1999), εκμάθηση με αποθήκευση στη μνήμη (Busser et al., 2001) καθώς και αλγόριθμους βασισμένους στην Μπαεϋζιανή εκμάθηση (Zervas et al., 2003) Αξιολόγηση επιτονικών χαρακτηριστικών για την αναγνώριση συναισθημάτων Εισαγωγή Είναι η αλληλεπίδραση μεταξύ ανθρώπου και μηχανής ολοκληρωμένη χωρίς τη δυνατότητα των μηχανών να αντιλαμβάνονται αλλά και να φανερώνουν συναισθηματική πληροφορία; Θεωρούμε ότι κάποιος ή κάτι μας καταλαβαίνει εάν δεν μπορεί να κατανοήσει την συναισθηματική μας κατάσταση; Η έρευνα σχετικά με την επικοινωνία ανθρώπου μηχανής, είτε αυτή είναι στα πλαίσια της αναγνώρισης ομιλίας είτε σε αυτή της σύνθεσης, έχει προσανατολιστεί κατά ένα μεγάλο μέρος της στην μελέτη και αξιοποίηση της συναισθηματικής πληροφορίας. Σχετικά με εφαρμογές τεχνητής νοημοσύνης η ύπαρξη μιας βαθμίδας ικανής να αναγνωρίσει την συναισθηματική κατάσταση του χρήστη ή την πρόσθεση συναισθηματικής πληροφορίας στην δημιουργία συνθετικής ομιλίας, αποτελεί ουσιαστικό βήμα το οποίο έχει πρακτική αλλά και εσωτερική επίδραση στον χρήστη. Ο βασικός λόγος ύπαρξης τέτοιων μονάδων είναι η αύξηση της ευκολίας χρήσης και της 119

120 αποτελεσματικότητας μιας σειράς προϊόντων όπως, εικονικοί οδηγοί, εκπαιδευτικό λογισμικό (π.χ., δυνατότητα αναγνώρισης του ενδιαφέροντος ή όχι του χρήστη), συστήματα υποστήριξης-ζωής (π.χ., ανίχνευση πανικού, φόβου, ακόμα και θλίψης), τηλεφωνικά κέντρα, περίπτερα πληροφοριών, ή ακόμα και έξυπνα σπίτια (smart homes) (π.χ., δυνατότητα επιλογής ενός συγκεκριμένου χρώματος στον φωτισμό για την χαλάρωση του κατοίκου, αλλαγή της ροής του διαλόγου ενός διαλογικού συστήματος σε περίπτωση κακής διάθεσης του χρήστη, ενίσχυση της επικοινωνίας ανθρώπουμηχανής βελτιώνοντας την βαθμίδα αναγνώρισης φωνής, παρουσιάζοντας ένα πιο φιλικό και ευπροσάρμοστο στις εκάστοτε απαιτήσεις πληροφοριακό σύστημα). Στην ανθρώπινη επικοινωνία, η έκφραση της συναισθηματικής κατάστασης εκτελείται αρχικά με τη διαμόρφωση των εκφράσεων του προσώπου (Ekman, 1982) [35] και αφετέρου με την προσωδία της ομιλίας (Banse, et al., 1996). Κατά συνέπεια για την εύρωστη αναγνώριση της συναισθηματικής κατάστασης, οι ερευνητές εκτελούν συνήθως είτε την ανάλυση της έκφρασης του προσώπου (Samal, Iyengar, 1992) είτε ανάλυση ακουστικών χαρακτηριστικών της ομιλίας (Oudeyer, 2003) [86]. Ένας εκτενής αριθμός πειραμάτων έχει πραγματοποιηθεί χρησιμοποιώντας τεχνικές επεξεργασίας σήματος με σκοπό την αξιολόγηση ακουστικών χαρακτηριστικών του σήματος ομιλίας τα οποία συνεισφέρουν στην αναγνώριση της συναισθηματικής κατάστασης του ομιλητή. Τα αποτελέσματα αυτής της έρευνας έδειξαν ότι τα σημαντικότερα χαρακτηριστικά ήταν εκείνα τα οποία περιείχαν προσωδιακή πληροφορία του προφορικού λόγου (Murray, Arnott, 1993), (Cowie, Douglas, 1998) [83,28] (καμπύλη τονικότητας, ένταση, ενέργεια και διάρκεια τμημάτων ομιλίας). Επιπλέον, η ποιότητα (Gobl, Chasaide, 2000) [43] φωνής και ορισμένα φαινόμενα συνάρθρωσης (Kienast, Sendlmeier, 2000) έχουν υψηλό βαθμό συσχέτισης με διάφορες συναισθηματικές καταστάσεις. Όπως είδαμε, η έρευνα στο χώρο της σύνθεσης ομιλίας και η μελέτη της έκφρασης μέσα από τον προφορικό λόγο φανερώνει ότι έχουμε φτάσει σε ένα ώριμο επίπεδο ώστε να αποζητούμε πλέον την εφαρμογή στον συνθετικό προφορικό λόγο μεταπληροφορίας όπως η συναισθηματική κατάσταση του ομιλητή. Άλλοι ερευνητές, πηγαίνοντας ένα βήμα παρακάτω θεωρούν ότι τα συστήματα σύνθεσης ομιλίας θα τύχουν μεγαλύτερης αποδοχής όταν γίνει εφικτή η δυνατότητα έκφρασης συναισθηματικής κατάστασης μέσω του τεχνητού προφορικού λόγου. Ειδικότερα η ανάγκη αυτή είναι φανερή κατά την σύνθεση μεγάλων φράσεων ή σε διαλογικά συστήματα. Υπάρχει λοιπόν ανάγκη για την εύρεση τρόπων για την περιεκτική περιγραφή των συγκινήσεων που κρύβονται 120

121 μέσα στο ακουστικό σήμα. Μόνο τότε θα είναι δυνατή η εύρεση μιας συσχέτισης ικανή να κάνει εφικτή την αναδημιουργία τους στο συνθετικό σήμα. Στις επόμενες παραγράφους περιγράφουμε υπάρχουσες προσεγγίσεις σχετικά με την αναγνώριση συναισθημάτων από σήμα ομιλίας Συναισθηματική ομιλία Τα συναισθήματα μπορούν να ταξινομηθούν σε δύο ευρείς κατηγορίες τα βασικά και τα μη- βασικά. Όσον αφορά τα μη-βασικά συναισθήματα, ταξινομούνται ποικιλοτρόπως σε μείγματα, συνδυασμούς και δευτερεύουσες κατηγορίες. Οι συναισθηματικές καταστάσεις μπορούν να ταξινομηθούν ως διαστάσεις ως προς την ένταση του συναισθήματος που περιγράφουν, παραδείγματος χάριν, η ενόχληση μπορεί να πραγματωθεί ως ήπιος θυμός μέχρι το βαθμό της οργής (Tatham, Morton, 2004). Λαμβάνοντας υπόψη το προηγούμενο παράδειγμα γίνεται σαφής ο κύριος στόχος σχετικά με την έρευνας της συναισθηματικής ομιλία. Για την απλοποίηση του προβλήματος της αναγνώρισης συναισθήματος η κατηγορίες των συναισθημάτων έχουν συμπιεστεί σε τέσσερα με οκτώ βασικές καταστάσεις. Στα πλαίσια της έρευνας του ο Tomkins (Tomkins, 1962) πρότεινε την θεώρηση ότι υπάρχουν οκτώ κατηγορίες συναισθημάτων. Μια γραφική αντιπροσώπευση οκτώ αρχικών συναισθημάτων και της μεταξύ τους σχέσης αναφορικά με την συσχέτιση που μπορεί να έχουν μεταξύ τους αλλά και την ένταση τους παρουσιάστηκε από Plutchik, (Plutchik, 1984) [95]. Εντούτοις σε μια πιο πρόσφατη μελέτη (Plutchik, 1994) [94] ο αριθμός των βασικών συναισθημάτων μειώθηκε σε έξι. Οι (Johnson-Laird, Oatley, 1992) [56] εξέτασαν το είδος των λέξεων που έχουμε για την έκφανση των συγκινησιακών καταστάσεων και κατάληξαν σε πέντε βασικά συναισθήματα (παρόμοια με τον κατάλογο του Ekman (Ekman, 1994) [34]), εκτός από την έκπληξη, όμως σε μεταγενέστερη μελέτη αναθεώρησαν τον αριθμό αυτό σε τέσσερα τα οποία είναι, χαρά, θυμός, θλίψη, και φόβος (Oatley, Johnson-Laird, 1998) [84] Δεδομένα συναισθηματικής ομιλίας Ένα σημαντικό πρόβλημα που αντιμετωπίζει κάποιος που ασχολείται με την αναγνώριση συναισθημάτων από σήματα ομιλίας είναι η διαθεσιμότητα και η ανάπτυξη τέτοιου είδους ηχογραφήσεων. Για το λόγο αυτό η έρευνα που πραγματοποιείται σε αυτό το ερευνητικό πεδίο γίνεται με ηχογραφήσεις ομιλίας που προέρχονται από 121

122 αυθόρμητο λόγο (spontaneous speech) ο οποίος προέρχεται από καθημερινές δραστηριότητες του ανθρώπου (όπως τηλεφωνικά κέντρα κ.α.), από υποκριτική ομιλία (acted speech) όπου ηθοποιοί (επαγγελματίες ή όχι) καλούνται να εκφράσουν ένα συγκεκριμένο σώμα κειμένου με διαφορετικές συναισθηματικές καταστάσεις και τέλος η εκμαιευμένη ομιλία (elicited speech) κατά την οποία επιτυγχάνουμε την εισαγωγή μιας συγκεκριμένης συναισθηματικής πληροφορίας αφού προηγουμένως υποβάλουμε τον ομιλητή σε κάποια εικονική κατάσταση η οποία θα μπορούσε να προκαλέσει το επιθυμητό συναίσθημα. Όλες οι προαναφερθείσες προσεγγίσεις για την ανάπτυξη των συναισθηματικών δεδομένων ομιλίας έχουν πλεονεκτήματα και μειονεκτήματα, και καμία από αυτές δεν θα μπορούσε να θεωρηθεί ως βέλτιστη για την προσομοίωση πραγματικών συνθηκών. 122

123 4 Τεχνολογίες Υλοποίησης Στο κεφάλαιο αυτό περιγράφονται οι τεχνολογίες που χρησιμοποιήθηκαν για την υλοποίηση της εφαρμογής της εργασίας. Αρχικά, παρουσιάζονται κάποια στοιχεία για τη γλώσσα Java και τον Apache Tomcat Web Server. Έπειτα παρουσιάζεται το περιβάλλον ανάπτυξης IDE (Integrated Development Environment) Netbeans, με την βοήθεια του οποίου πραγματοποιήθηκε η υλοποίηση της όλης εφαρμογής, και επιπρόσθετα παρουσιάζεται εν συντομία η πλατφόρμα JavaEE του περιβάλλοντος ανάπτυξης NetBeans. Ενώ στη συνέχεια παρουσιάζεται η τεχνολογία της Sun JavaServer Pages η οποία βοήθησε στη δημιουργία των δυναμικών ιστοσελίδων. Τέλος, παρουσιάζεται η βιβλιοθήκη Java Speech API, η οποία περιέχει αλγορίθμους για την χρήση και υλοποίηση συστημάτων μετατροπής κειμένου σε ομιλία. 4.1 Java H Java είναι η γλώσσα προγραμματισμού που επιλέχθηκε για την εργασία. Η Java είναι μια αντικειμενοστραφής γλώσσα ανοιχτού κώδικα. Το συντακτικό της βασίζεται στο συντακτικό της C++. [55] Εικόνα 4.1. Java Κύρια χαρακτηριστικά της Java είναι τα εξής: Η μεταγλώττιση δεν γίνεται σε εκτελέσιμο native κώδικα αλλά σε ενδιάμεσο κώδικα που έχει την ονομασία bytecode. Ο bytecode εκτελείται μέσω interpreter ή με just-intime compilation από το runtime μέρος της Java το Java Virtual Machine. Αυτό έχει ως μειονέκτημα την απώλεια ταχύτητας καθώς δε γίνεται απευθείας εκτέλεση του κώδικα αλλά πλεονέκτημα το ότι οποιαδήποτε υλοποίηση JVM σε οποιαδήποτε αρχιτεκτονική μπορεί να τρέξει κάποιο bytecode αρχείο. Δηλαδή επιτρέπει το ίδιο το πρόγραμμα να μπορεί να εκτελεστεί σε πολλά διαφορετικά λειτουργικά συστήματα. Η Java παρέχει την δυνατότητα να εκτελεστεί κώδικας Java από απομακρυσμένες πηγές με ασφάλεια. 123

124 Η γλώσσα έχει σχεδιαστεί για να προσφέρει ευκολία και μεγαλύτερη παραγωγικότητα στον προγραμματιστή. Η Java είναι γενικά εύκολη στη χρήση χρησιμοποιώντας τα καλά στοιχεία άλλων αντικεμενοστραφών γλωσσών προγραμματισμού και επίσης προσπαθεί να κάνει πιο εύκολη ιδιαίτερα την ανάπτυξη διαδικτυακών εφαρμογών. Η Java εκμεταλλεύεται την ύπαρξη του virtual machine ώστε να προσφέρει πιο εξελιγμένες runtime υπηρεσίες πχ το reflection. Η Java προσφέρει βιβλιοθήκες για μεγάλο πλήθος αναγκών, ως μέρος του Java platform. Κατ' αρχήν χωρίς η Java να αποτελεί κάποιο πρότυπο για διαδικτυακές εφαρμογές αποτελεί ίσως την πιο δημοφιλή λύση. Μεγάλο μέρος από ανάλογα προγράμματα χρησιμοποιούν αυτήν τη γλώσσα. Σε πρώτη φάση η επιλογή της "πιο διαδεδομένης" γλώσσας προγραμματισμού γίνεται κυρίως για λόγους οικονομικούς. Είναι πιο εύκολο να βρεθούν προγραμματιστές που θα γνωρίζουν τη Java ώστε να προγραμματίσουν και εν συνεχεία να συντηρήσουν κάποια εφαρμογή. Η διάδοση της Java στην ανάπτυξη ανάλογων εφαρμογών εξασφαλίζει ότι θα υπάρχει ήδη εμπειρία και τεχνικές και σε τελική φάση ακόμα και χρησιμοποιήσιμος έτοιμος κώδικας που θα βοηθήσουν στην ανάπτυξη του προγράμματος. Σε μια διπλωματική άσκηση δεν τίθενται παράγοντες οικονομικοί ή εύρεσης προγραμματιστών όμως σε αντιστοιχία με το τι θα γινόταν κατά την ανάπτυξη μιας εμπορικής εφαρμογής πρέπει η διάδοση της Java να ληφθεί υπόψη. Πέραν της διάδοσης της σε ανάλογες εφαρμογές, άλλα χαρακτηριστικά της Java για τα οποία έγινε η επιλογή της είναι η ευκολία στη χρήση και η αυξημένη παραγωγικότητα που παρέχει η Java μέσω χαρακτηριστικών της γλώσσας (όπως το αυτόματο garbage collection) και των βιβλιοθηκών της. Πρέπει να σημειωθεί ότι στην εργασία χρησιμοποιήθηκε η 1.6 έκδοση της Java. 124

125 4.2 Αpache Tomcat Ο Αpache Tomcat είναι ένας εξυπηρέτης εφαρμογών (Application Server) που αναπτύχθηκε από την Apache Software Foundation (ASF). Ο Tomcat, υλοποιεί τις προδιαγραφές των servlets και JavaServer Pages (JSP) που έχει θέσει η Sun Microsystems προσφέροντας ένα περιβάλλον για εκτέλεση Java κώδικα σε συνεργασία με ένα web server. Παρέχει εργαλεία στο γραφικό του περιβάλλον για ρύθμιση και διαχείριση αλλά το ίδιο μπορεί επίσης να γίνει από αρχεία ρυθμίσεων (configuration files) που είναι συνήθως σε μορφή XML. To tomcat περιέχει επίσης ενσωματωμένο έναν HTTP server. Εικόνα 4.2. Apache Tomcat Στην εργασία χρησιμοποιήθηκε η έκδοση του Apache Tomcat, η οποία ικανοποιεί τις προδιαγραφές των Servlet 2.5 και JSP 2.1. Η έκδοση αυτή εγκαθίσταται αυτόματα με το εργαλείο NetBeans (έκδοση 6.8), το οποίο χρησιμοποιήθηκε για την υλοποίηση της εργασίας. 4.3 NetBeans H υλοποίηση της εφαρμογής TTSApp πραγματοποιήθηκε στο περιβάλλον NetBeans (Εικόνα 4.3). Το NetBeans αποτελεί μια ανοιχτή πλατφόρμα ανάπτυξης λογισμικού σε γλώσσες Java, Javascript, PHP, Python, Ruby, Groovy, C και C++. Επίσης αποτελεί και ένα ολοκληρωμένο περιβάλλον ανάπτυξης (Integrated Development Environment - IDE) και προσφέρει εργαλεία εύκολα στη χρήση. Τα εργαλεία αυτά καλύπτουν όλα τα στάδια: από την υλοποίηση και τη μεταγλώττιση έως την εφαρμογή του λογισμικού που παράχθηκε. Για την παρούσα εφαρμογή έγινε χρήση της έκδοσης NetBeans IDE 6.8. Το NetBeans 6.8 αποτελεί το βασικό περιβάλλον ανάπτυξης προγραμματιστικού κώδικα και πολύπλοκων εφαρμογών με βάση την πλατφόρμα JavaEE στο πλαίσιο του GlassFish ESB. Οι εφαρμογές που μπορούν να αναπτυχθούν στο περιβάλλον ανάπτυξης NetBeans περιλαμβάνουν από απλές Java εφαρμογές επιπέδου κλάσεων και κονσόλας μέχρι πολύπλοκες διαδικτυακές και επιχειρηματικές εφαρμογές με γραφικό περιβάλλον 125

126 και διαδικτυακές υπηρεσίες. Επομένως γίνεται κατανοητό ότι αποτελεί το περιβάλλον στο οποίο στηρίχθηκε η ανάπτυξη, η υλοποίηση, η ενορχήστρωση, η εκτέλεση και η αποθήκευση/δημοσίευση των διαδικτυακών υπηρεσιών και των σύνθετων επιχειρηματικών διαδικασιών. Εικόνα 4.3. Το περιβάλλον NetBeans IDE JavaEE 6 Η ανάπτυξη της εφαρμογής έχει στηριχτεί στην πλατφόρμα JavaEE που αποσκοπεί στην υιοθέτηση ενός μεταφέρσιμου, πολύπλευρου και ασφαλούς πρότυπου υλοποίησης επιχειρησιακών εφαρμογών μεγάλης κλίμακας με βάση την προγραμματιστική γλώσσα της Java. Η πλατφόρμα JavaEE κατόρθωσε μέσω του οργανωμένου συνόλου από APIs και της ευελιξίας των εργαλείων ανάπτυξης προγραμματιστικού κώδικα, να εκπληρώσει το σκοπό υλοποίησης της που ήταν ο μειωμένος χρόνος ανάπτυξης εφαρμογών, η μείωση της πολυπλοκότητας των εφαρμογών και η βελτίωση της απόδοσης. [127] Η πλατφόρμα JavaEE πρόκειται ουσιαστικά για ένα σύνολο προδιαγραφών και στηρίζεται στα παρακάτω δομικά στοιχεία : 1) Προδιαγραφές: Κάθε API στο περιβάλλον JavaEE έχει τις δικές του προδιαγραφές οι οποίες είναι διαθέσιμες μέσω του Java Community Process, και οι οποίες πρέπει να ακολουθηθούν κατά την ανάπτυξη JavaEE πλατφορμών. Το γεγονός αυτό αυξάνει τη δυνατότητα μεταφοράς μίας εφαρμογής μεταξύ περιβαλλόντων υλοποιημένων από διαφορετικούς παρόχους, μίας και κάθε πάροχος δεσμεύεται για την έκδοση της προδιαγραφής την οποία έχει ακολουθήσει. 2) Δοκιμαστικά περιβάλλοντα: Η Sun παρέχει ένα σύνολο δοκιμαστικών κριτηρίων (Test Compatibility Kit) με τα οποία κάποιος πάροχος μπορεί να επαληθεύσει τη συμβατότητα της πλατφόρμας του με συγκεκριμένη έκδοση των προδιαγραφών. Αν 126

127 κάποια υλοποίηση περάσει επιτυχώς τις δοκιμές, η Sun παρέχει ένα JavaEE πιστοποιητικό, ώστε να ενημερώσει τους πελάτες ότι η συγκεκριμένη πλατφόρμα εξυπηρετητή είναι JavaEE συμβατή. 3) Υλοποιήσεις αναφοράς: Για να διευκολύνει τους προγραμματιστές να αναπτύξουν κώδικα συμβατό με μία πλατφόρμα JavaEE, η Sun παρέχει τις δικές της υλοποιήσεις αναφοράς, χωρίς χρέωση, για κάθε έκδοση του προτύπου JavaEE. Σχήμα 4.4.: 3-Tier Αρχιτεκτονική Πλατφόρμας Java EE Η JavaEE ορίζει μία ισχυρή σουίτα middleware υπηρεσιών που παρέχουν όλη την απαιτούμενη λειτουργικότητα για την ανάπτυξη multi-tier, server-side εφαρμογών. Στηρίζεται σε αρχιτεκτονική τριών επιπέδων, με βάση τον διαχωρισμό των εφαρμογών σε επίπεδο παρουσίασης, επιχειρηματικής λογικής και αποθήκευσης των δεδομένων. Η JavaEE επεκτείνει την τεχνολογία J2SE, η οποία καθορίζει τη χρήση των βασικών χαρακτηριστικών της γλώσσας προγραμματισμού Java καθώς και των διαφόρων βιβλιοθηκών που έχουν χτιστεί με βάση τη Java (.net,.awt,.io κ.τ.λ.). Για την υιοθέτηση ευελιξίας και για την απλοποίηση του προγραμματιστικού κώδικα κατά την ανάπτυξη εφαρμογών, ο Java EE Server έχει σχεδιαστεί με τέτοιο τρόπο ώστε να παρέχει λανθάνουσες υπηρεσίες υπό τη μορφή containers για την υποστήριξη και τη διαχείριση των διαφόρων δομικών στοιχείων της πλατφόρμας. Οι containers είναι μια μορφή διεπαφής (interface) μεταξύ του δομικού στοιχείου και της χαμηλού επιπέδου και συγκεκριμένης πλατφόρμας λειτουργικότητας που υποστηρίζει το συγκεκριμένο στοιχείο. 127

128 Εικόνα 4.5.: Java EE Server και Containers Οι σημαντικότεροι containers είναι οι : 1) Java EE server: Πρόκειται για το μέσο στο οποίο εκτελούνται οι εφαρμογές και παρέχει τους EJB και web containers. 2) Enterprise JavaBeans (EJB) container: Διαχειρίζεται την εκτέλεση των enterprise beans. 3) Web container: Διαχειρίζεται την εκτέλεση των JSP σελίδων και των servlet components. 4) Application client container: Διαχειρίζεται την εκτέλεση των application client συστατικών και τρέχει στην πλευρά του πελάτη (client). 5) Applet container: Διαχειρίζεται την εκτέλεση των applets. Περιλαμβάνει έναν web browser και ένα Java Plug-in που τρέχουν στην πλευρά του πελάτη. Κάποιες βασικές τεχνολογίες οι οποίες ορίζονται από το JavaEE και παρέχονται από τις JavaEE -συμβατές υλοποιήσεις, είναι οι ακόλουθες: 1) Enterprise Java Beans: Το πρότυπο των EJB ορίζει τη δομή των μονάδων λειτουργικότητας που εγκαθίστανται στους J2EE εξυπηρετητές εφαρμογών και χαρακτηρίζεται από μεθόδους για την υλοποίηση της επιχειρηματικής λογικής. Παρέχει ένα standard πρωτόκολλο επικοινωνίας μεταξύ των μονάδων λειτουργικότητας και των εξυπηρετητών που τις διαχειρίζονται. Τα EJB είναι ο ακρογωνιαίος λίθος των JavaEE server-side εφαρμογών και χρησιμοποιούν μία σειρά άλλων JavaEE τεχνολογιών. 2) Java Persistence API: Το Java Persistence API είναι νέο στοιχείο της JavaEE 5 πλατφόρμας και χρησιμοποιεί ένα είδος αντικειμενο-σχεσιακής προσέγγισης 128

129 προκειμένου να γεφυρώσει το χάσμα μεταξύ ενός αντικειμενοστραφούς προτύπου (όπως είναι η προγραμματιστική προσέγγιση της γλώσσας Java) και μιας σχεσιακής βάσης δεδομένων. Το Java Persistence API αποτελείται από τρία στοιχεία: Το Java Persistence API Την σχεσιακή γλώσσα ερωτήσεων σε βάσεις δεδομένων Τα metadata (δεδομένα σχετικά με τα δεδομένα που χρησιμοποιεί η εφαρμογή) της αντικειμενο-σχεσιακής συσχέτισης. 3) Java API for XML WS (JAX-WS): Είναι η κύρια τεχνολογία που παρέχει την υποστήριξη για την ανάπτυξη Διαδικτυακών Υπηρεσιών, σε μία πλατφόρμα JavaEE. Καθορίζει δύο μοντέλα υλοποίησης των Διαδικτυακών Υπηρεσιών, ένα με βάση την τεχνολογία των Servlets και ένα με βάση την τεχνολογία των EJB, καθώς και μία σειρά απαιτήσεων τόσο στον τρόπο με τον οποίο πρέπει να αναπτύσσονται και να διαμορφώνονται οι Διαδικτυακές Υπηρεσίες, όσο και στον τρόπο με τον οποίο πρέπει αυτά να υποστηρίζονται από την JavaEE πλατφόρμα. 4) Java Remote Method Invocation (RMI): Αποτελεί τον βασικό τρόπο με τον οποίο η Java καθορίζει την επικοινωνία μεταξύ κατανεμημένων αντικειμένων, όπως για παράδειγμα μεταξύ διαφορετικών αντικειμένων σε διαφορετικά μηχανήματα. 5) Java Naming and Directory Interface: Η τεχνολογία JNDI χρησιμοποιείται για την πρόσβαση σε ονοματικά συστήματα και συστήματα διευθύνσεων. Από τον κώδικα μίας εφαρμογής η τεχνολογία JNDI μπορεί να χρησιμοποιηθεί για πολλαπλούς λόγους, όπως επικοινωνία με μία μονάδα λειτουργικότητας EJB, ή με άλλους πόρους στο δίκτυο, ή για την πρόσβαση σε δεδομένα που έχει αποθηκεύσει ο χρήστης σε μία άλλη υπηρεσία λογισμικού. 6) Java Database Connectivity: Πρόκειται για ένα API για την πρόσβαση σε σχεσιακές βάσεις δεδομένων. Η αξία του JDBC έγκειται στο ότι η πρόσβαση σε οποιαδήποτε σχεσιακή βάση μπορεί να επιτευχθεί μέσω ενός και μόνο API. 7) Java Servlets: Τα Servlets είναι δομικά στοιχεία που χρησιμοποιούνται για να επεκτείνουν τη λειτουργικότητα ενός Εξυπηρετητή Διαδικτύου. Τα Servlets είναι προσανατολισμένα στη λήψη αιτήσεων από κάποια εφαρμογή πελάτη, όπως ένας Φυλλομετρητής Διαδικτύου, και στην παροχή της απόκρισης στην ίδια εφαρμογή πελάτη. Το γεγονός αυτό καθιστά τα Servlets ιδανικά για την εκτέλεση λειτουργιών που αφορούν το Διαδίκτυο, όπως η κατασκευή μίας HTML διεπαφής. 8) JavaServer Pages: Η τεχνολογία των JSP είναι παρόμοια με αυτή των Servlets. Στην πραγματικότητα, ο κώδικας των JSP μεταγλωττίζεται σε Servlets. Η μεγαλύτερη 129

130 διαφορά μεταξύ των JSP και των Servlets είναι ότι ο κώδικας των JSP δεν αποτελείται από καθαρή Java, αλλά επικεντρώνεται περισσότερο σε θέματα εμφάνισης και αισθητικής. 9) JavaServer Faces: Πρόκειται για μια τεχνολογία που παρέχει ένα πλαίσιο εργασίας διεπαφής χρήστη (user interface framework) για την ανάπτυξη διαδικτυακών εφαρμογών με την παροχή γραφικών εργαλείων και τη δυνατότητα σχηματοποίησης των δεδομένων διαφορετικών δηλωτικών γλωσσών (markup languages) και HTML τεχνολογιών. 10) Java Transaction API: Το Java Transaction API υπαγορεύει ένα πρότυπο περιβάλλον διεπαφής για την οροθέτηση των συναλλαγών. Η αρχιτεκτονική της πλατφόρμας Java EE επιτρέπει την ύπαρξη ενός αυτοματοποιημένου τρόπου επικύρωσης (commit) και αποζημίωσης των συναλλαγών (rollback compensation). 11) SOAP with Attachments API for Java: Πρόκειται για ένα χαμηλού επιπέδου API από το οποίο εξαρτώνται οι τεχνολογίες των Διαδικτυακών Υπηρεσιών και της καταγραφής των XML εφαρμογών (XML registry). Η πλατφόρμα J2EE εγκαθίσταται μαζί με το περιβάλλον ανάπτυξης NetBeans IDE. 4.5 JavaServer Pages Η Java είναι μια αντικειμενοστραφής γλώσσα προγραμματισμού που σχεδιάστηκε από την εταιρεία πληροφορικής Sun Microsystems. Ένα από τα βασικά πλεονεκτήματα της Java έναντι των περισσότερων άλλων γλωσσών είναι η ανεξαρτησία του λειτουργικού συστήματος και πλατφόρμας. Τα προγράμματα που είναι γραμμένα σε Java τρέχουνε ακριβώς το ίδιο σε όλα τα λειτουργικά συστήματα χωρίς να χρειαστεί να ξαναγίνει μεταγλώττιση (compiling) ή να αλλάξει ο πηγαίος κώδικας για κάθε λειτουργικό σύστημα. Αυτό γίνεται με την ανάπτυξη της Εικονικής Μηχανής (Virtual Machine), πρόγραμμα το οποίο πρέπει να είναι εγκατεστημένο στο σύστημα, και το οποίο διαβάζει τα μεταγλωρισμένα αρχεία.class της java εφαρμογής και τα μεταφράζει σε κώδικα μηχανής (assembly) που υποστηρίζει το εκάστοτε λειτουργικό σύστημα και ο επεξεργαστής του συστήματός μας. Εκμεταλλευόμενες τα πλεονεκτήματα της java, οι σελίδες java server (Java Server Pages JSP) είναι ιστοσελίδες που έχουν ενσωματωμένα δυναμικά έγγραφα java (jsp scriptlets). Ένα scriptlet είναι ένα μικρό κομμάτι εκτελέσιμου κώδικα που βρίσκεται σε μια σελίδα html. Οι σελίδες java server εκτελούνται δυναμικά στο διακομιστή (server), 130

131 όπου βρίσκεται και η σχετική σελίδα, και ακολούθως ο πελάτης (client) λαμβάνει μια ιστοσελίδα στον φυλλομετρητή. Εκτελούνται δηλαδή από την πλευρά του διακομιστή (server side application), που σημαίνει ότι δέχονται μια αίτηση (request) και παράγουν μια απόκριση ή απάντηση (response). Οι σελίδες java server έχουν πρόσβαση σε πηγές που βρίσκονται στην πλευρά του server (server-side resources), όπως είναι τα Servlets αλλά και οι βάσεις δεδομένων (databases). Η τεχνολογία JSP προστέθηκε από τη Sun Microsystems στο πακέτο Enterprise Java (Java 2 Enterprise Edition J2EE) το Όπως αναφέρθηκε παραπάνω και θα εξηγηθεί παρακάτω, οι JavaServer Pages είναι χτισμένες πάνω στα Java Servlets και σχεδιασμένες έτσι ώστε να βελτιωθεί ο τρόπος με τον οποίο οι προγραμματιστές αλλά και οι απλοί κατασκευαστές ιστοσελίδων δημιουργούν δυναμικό διαδικτυακό περιεχόμενο [57] Βασικές Έννοιες Συνήθως η JSP ορίζεται ως μία τεχνολογία για ανάπτυξη διαδικτυακών σελίδων που περιέχουν δυναμικό περιεχόμενο. Σε αντίθεση με τις απλές HTML σελίδες όπου το περιεχόμενό τους είναι στατικό και μόνο, μία σελίδα JSP μπορεί να τροποποιεί το περιεχόμενό της ανάλογα με ένα αριθμό παραμέτρων, όπως είναι η ταυτότητα του χρήστη ή ο τύπος του φυλλομετρητή που χρησιμοποιεί, πληροφορίες που δίνει ο χρήστης ή ακόμη και επιλογές που έχει κάνει στο παρελθόν. Αυτές οι λειτουργίες είναι ζωτικής σημασίας για διαδικτυακές εφαρμογές όπως ένα ηλεκτρονικό κατάστημα, ένας κατάλογος υπαλλήλων αλλά και για σελίδες που παρέχουν προσωποποιημένο (personalized) περιεχόμενο. Μία σελίδα JSP περιέχει σταθερά στοιχεία γλωσσών markup, όπως είναι τα tags της HTML όπως μία οποιαδήποτε συνηθισμένη σελίδα. Επιπλέον όμως, μπορεί να περιέχει και ειδικά στοιχεία JSP (JSP elements) που θα επιτρέψουν στο server (διακομιστή) να εισάγει δυναμικό περιεχόμενο στη σελίδα. Tα στοιχεία της JSP μπορεί να χρησιμοποιηθούν για διάφορους σκοπούς όπως είναι η ανάκτηση κάποιας πληροφορίας σε βάση δεδομένων, ή την αποθήκευση των προτιμήσεων ενός χρήστη. Όταν ο χρήστης ζητά μία JSP σελίδα, ο server εκτελεί αυτά ακριβώς τα JSP στοιχεία, ενώνει τα αποτελέσματα με το στατικό περιεχόμενο και στέλνει τη σελίδα που προκύπτει στο browser του χρήστη (Εικόνα 4.6.). 131

132 Εικόνα 4.6. Δημιουργία δυναμικού περιεχομένου με στοιχεία JSP H JSP ορίζει ένα αριθμό από στοιχεία τα οποία είναι χρήσιμα για οποιοδήποτε διαδικτυακή εφαρμογή όπως η πρόσβαση στα λεγόμενα JavaBeans τα οποία δίνουν τη δυνατότητα για μεταφορά του ελέγχου μεταξύ σελίδων, να μοιραστούν πληροφορίες μεταξύ αιτήσεων, σελίδων και χρηστών. Οι προγραμματιστές μπορούν επίσης να επεκτείνουν τη σύνταξη της JSP υλοποιώντας εξειδικευμένα για κάθε εφαρμογή ξεχωριστά elements τα οποία πραγματοποιούν διεργασίες όπως πρόσβαση σε βάσεις δεδομένων και Enterprise JavaBeans, αποστολή , δημιουργία HTML για παρουσίαση ειδικών δεδομένων. Ένα τέτοιο σύνολο από συχνά χρησιμοποιημένων στοιχείων ορίζεται από την ίδια τη JSP και αποτελούν τη βιβλιοθήκη JSP Standard Tag Library (JSTL). Ο συνδυασμός των έτοιμων στοιχείων με τη δυνατότητα για κατασκευή νέων επιτρέπει τη δημιουργία ιδιαίτερα ισχυρών διαδικτυακών εφαρμογών Επιλογή της JSP Στα αρχικά στάδια του παγκόσμιου ιστού, η τεχνολογία Common Gateway Interface (CGI) ήταν το μόνο εργαλείο για ανάπτυξη δυναμικού περιεχομένου. Το CGI όμως δεν ήταν ποτέ αποδοτική λύση. Για κάθε αίτηση, ο web server έπρεπε να δημιουργήσει μία νέα διεργασία λειτουργικού συστήματος, να φορτώσει έναν interpreter (διερμηνέα) και να εκτελέσει το script. Στη συνέχεια έπρεπε να αναλάβει το κλείσιμο αυτών των διεργασιών. Παρόλο που εμφανίστηκαν βελτιώσεις του CGI δεν έχει δοθεί ολοκληρωτική λύση στο πρόβλημα αφού οι περισσότερες συστάσεις ενσωμάτωναν δυνατότητες παραγωγής HTML κατευθείαν στις γλώσσες προγραμματισμού, γεγονός που καθιστούσε δύσκολο το χειρισμό από ένα απλό σχεδιαστή σελίδων που δεν είναι έμπειρος προγραμματιστής. Τα elements της JSP δίνουν μία αρκετά κομψή λύση στο πρόβλημα αυτό. Η JSP αντί να ενσωματώνει HTML στο κώδικα μιας γλώσσας προγραμματισμού, δίνει τη δυνατότητα να ενσωματωθούν κάποια «ενεργά» στοιχεία σε μία HTML σελίδα. Αυτά τα στοιχεία μάλιστα, μοιάζουν αρκετά με HTML αλλά πίσω από αυτά κρύβονται προγράμματα java που εκτελούνται όταν ο χρήστης ζητήσει τη σελίδα. Παρακάτω φαίνεται ένα παράδειγμα JSP που εκφράζει καλύτερα αυτή την ιδιότητα. 132

133 taglib prefix="c" uri=" %> <html> <body bgcolor="white"> <jsp:usebean id="clock" class="java.util.date" /> <c:choose> <c:when test="${clock.hours < 12}"> <h1>good morning!</h1> </c:when> <c:when test="${clock.hours < 18}"> <h1>good day!</h1> </c:when> <c:otherwise> <h1>good evening!</h1> </c:otherwise> </c:choose> Welcome to our site, open 24 hours a day. </body> </html> Εικόνα 475. Τυπική χρήση στοιχείων JSP Αυτή η σελίδα εισάγει διαφορετικό μήνυμα ανάλογα με την ώρα της ημέρας. Όταν ο χρήστης ζητάει αυτή τη σελίδα, ο web server με δυνατότητες JSP, εκτελεί τους ελέγχους που υπάρχουν στο παραπάνω κώδικα, δημιουργεί το αντίστοιχο HTML έγγραφο και το στέλνει στον browser του χρήστη. Για παράδειγμα αν η ώρα που ζητάει ο χρήστης τη σελίδα είναι 8.35 P.M., το HTML έγγραφο που προκύπτει είναι το παρακάτω. <html> <body bgcolor="white"> <h1>good evening!</h1> Welcome to our site, open 24 hours a day. </body> </html> Εικόνα 4.8. Η HTML σελίδα που φθάνει στο browser του χρήστη Η ομοιότητα των elements της JSP με τα tags της HTML είναι φανερή. Εκτός όμως από αυτά μία σελίδα JSP μπορεί να περιέχει και κώδικα Java ενσωματωμένο σε αυτά που ονομάζονται στοιχεία scripting (scripting elements). Ένα άλλο πλεονέκτημα της JSP είναι ότι η μεταγλώττιση (compilation) γίνεται πριν την επεξεργασία από τον server. Συγκεκριμένα, η JSP μεταγλωττίζεται και μετατρέπεται σε εκτελέσιμο τη πρώτη φορά που θα ζητηθεί και στη συνέχεια ο ίδιος κώδικας χρησιμοποιείται και για τις υπόλοιπες αιτήσεις. Τέλος, το γεγονός ότι οι JavaServer Pages είναι ανεπτυγμένες πάνω από το API των Java Servlets μας δίνει τη δυνατότητα να έχουμε πρόσβαση σε πολλά Enterprise APIs της Java όπως είναι το JDBC, Enterprise JavaBeans (EJB), JMS, (Java Message Service), JavaMail κτλ. 133

134 Ενδεικτικά αναφέρουμε ότι εναλλακτικές λύσεις για την υλοποίηση του συστήματος θα ήταν οι Active Server Pages (ASP.net) και PHP Αρχιτεκτονική JSP Οι σελίδες JSPs χτίζονται πάνω από την τεχνολογία servlet της εταιρείας SUN Microsystems. Οι σελίδες JSPs είναι ουσιαστικά μια σελίδα HTML με ενσωματωμένες ειδικές ετικέττες JSP. Αυτές οι ετικέττες JSP μπορούν να περιέχουν κώδικα σε γλώσσα προγραμματισμού Java. Η επέκταση αρχείων JSP είναι.jsp και όχι.htm ή.html. Η μηχανή JSP δέχεται ως είσοδο το source αρχείο.jsp και δημιουργεί ένα Java servlet source file. Έπειτα μεταγλωττίζει το source αρχείο σε ένα class αρχείο, αυτό γίνεται την πρώτη φορά και εξαιτίας αυτού του γεγονότος η σελίδα JSP προσεγγίζεται πιο αργά την πρώτη φορά. Σε κάθε επόμενη προσπάθεια προσέγγισης της Jsp σελίδας εκτελείται αυτό το ειδικό μεταγλωττισμένο servlet και είναι επομένως η σελίδα προσεγγίζεται γρηγορότερα. Εικόνα 4.9. Αρχιτεκτονική JSP σελίδας Απαιτούμενα βήματα για ένα αίτημα JSP: 1. Ο χρήστης πηγαίνει σε έναν ιστοχώρο υλοποιημένο με τεχνολογία JSP. Ο χρήστης πηγαίνει σε μια σελίδα JSP (που τελειώνει σε.jsp). Ο web browser υποβάλλει το αίτημα μέσω του Διαδικτύου. 2. Το αίτημα JSP στέλνεται στον κεντρικό υπολογιστή δικτύου. 3. Ο κεντρικός υπολογιστής δικτύου αναγνωρίζει ότι το αρχείο που απαιτείται είναι ειδικό (.jsp), επομένως προωθεί το αρχείο JSP στη μηχανή JSP Servlet. 134

135 4. Εάν το αρχείο JSP έχει κληθεί για πρώτη φορά, το αρχείο JSP αναλύεται, διαφορετικά το αίτημα πηγαίνει στο βήμα Το επόμενο βήμα είναι να παραχθεί ένα ειδικό Servlet από το αρχείο JSP. Όλος ο κώδικας HTML που απαιτείται μετατρέπεται σε δηλώσεις println. 6. Ο Servlet source code μεταγλωττίζεται σε ένα αρχείο class. 7. Το Servlet αρχικοποιείται, καλώντας την μέθοδο init και μεθόδους υπηρεσιών. 8. Ο κώδικας HTML από το παραγώμενο Servlet στέλνεται μέσω του Διαδικτύου. 9. Τα αποτελέσματα HTML εμφανίζονται στον web browser του χρήστη Ανατομία μίας σελίδας JSP Παρακάτω φαίνεται μια τυπική σελίδα JSP. Παρατηρούμε ότι η δομή και τα html tags παραμένουν τα ίδια. Η διαφορά εντοπίζεται στα jsp tags, που και αυτά όμως έχουν τη μορφή tags. Εικόνα Δομή JSP σελίδας Οτιδήποτε υπάρχει στη σελίδα και δεν είναι στοιχείο JSP ονομάζεται template text. Αυτό, μπορεί να είναι οτιδήποτε, HTML, WML, XML, ή απλό κείμενο Στάδια επεξεργασίας σελίδας JSP Οι φάσεις επεξεργασίας που περνάει μία JSP σελίδα είναι οι παρακάτω: Φάση μετάφρασης (Translation Phase): Όπου η JSP σελίδα μετατρέπεται σε servlet το οποίο αμέσως μεταγλωττίζεται. 135

136 Φάση επεξεργασίας αίτησης (Request Processing Phase): Κλήση της κλάσης που υλοποιεί τη σελίδα JSP έτσι ώστε να ικανοποιηθεί η αίτηση και να δημιουργηθεί η απάντηση. Οι δύο φάσεις φαίνονται στη παρακάτω εικόνα. Εικόνα Στάδια επεξεργασίας σελίδας JSP Όσο μία JSP σελίδα δεν έχει δεχτεί αλλαγές, κάθε επόμενη αίτηση πηγαίνει κατευθείαν στη δεύτερη φάση Στοιχεία JSP Yπάρχουν τρία βασικά στοιχεία (elements) JSP που μπορούμε να χρησιμοποιήσουμε: α) directive elements, β) action elements, και γ) scripting elements. Μία καινούργια δομή που προστέθηκε στη JSP 2.0 είναι η Expression Language (EL). Α) Directive Tags ( <%@ directive... %> ) Οι directive ετικέτες φαίνονται στο Πίνακα 2 και ορίζουν πληροφορία σχετικά με την ίδια τη σελίδα η οποία μάλιστα μένει ίδια κατά τη διάρκεια των αιτήσεων. Πίνακας 5 Directive Elements Directive Element <%@ page... %> <%@ include... %> <%@ taglib... %> Περιγραφή Ορίζει μεταβλητές όπως παρακολούθηση συνεδρίας (session tracking), τη σελίδα σφαλμάτων (error page), και απαιτήσεις σε προσωρινή αποθήκευση (buffering) Συμπεριλαμβάνει ένα αρχείο κατά τη φάση μετάφρασης Δηλώνει μία βιβλιοθήκη από tags Β) Standard Action Elements Aυτά τα στοιχεία συνήθως πραγματοποιούν μία ενέργεια βασισμένη σε πληροφορία που δίνεται την ώρα που η JSP σελίδα ζητείται από τον browser. Μία ενέργεια μπορεί για παράδειγμα να έχει πρόσβαση σε παραμέτρους που έρχονται από μια αίτηση για ένα ερώτημα σε βάση δεδομένων. Μπορεί ακόμα να δημιουργήσει αυτόματα HTML 136

137 περιεχόμενο όπως ένας πίνακας με δεδομένα που έχουν αποκτηθεί από ένα απομακρυσμένο πληροφοριακό σύστημα. Οι τρείς κύριοι ρόλοι των action στοιχείων είναι οι εξής: α) Επιτρέπουν την χρήση Javabeans στον server, β) Μεταφέρουν τον έλεγχο ανάμεσα στις σελίδες, γ) Παρέχουν υποστήριξη ανεξαρτήτου browser για τα applet. Κάποια από αυτά τα action στοιχεία φαίνονται στον παρακάτω πίνακα. Πίνακας 6 Action Elements Action Element <jsp:usebean> <jsp:getproperty> <jsp:setproperty> <jsp:include> <jsp:forward> <jsp:param> <jsp:plugin> Περιγραφή Κάνει ένα JavaBean στοιχείο διαθέσιμο στη σελίδα Παίρνει μία τιμή ιδιότητας από ένα JavaBean και το προσθέτει στην απάντηση Θέτει μία τιμή σε μία ιδιότητα ενός JavaBean Περιλαμβάνει την απάντηση από μία JSP σελίδα κατά την διάρκεια της επεξεργασίας αιτήματος Προωθεί την επεξεργασία ενός αιτήματος σε μία άλλη JSP σελίδα Προσθέτει μία τιμή παραμέτρου σε ένα αίτημα που έχει προωθηθεί σε μία άλλη JSP σελίδα μέσω των <jsp:include> και <jsp:forward> Δημιουργεί HTML που περιέχει κατάλληλα ανεξάρτητα από τον browser στοιχεία που χρειάζονται για να εκτελεστεί ένα applet με το λογισμικό Java Plugin Γ) Custom Action Elements και JSP Standard Tag Library Εκτός από τα Standard Action Elements που περιγράψαμε παραπάνω, τα specifications της JSP ορίζουν πώς κάποιος μπορεί να αναπτύξει τα δικά του action elements έτσι ώστε να επεκτείνει τη JSP, είτε σαν κλάσεις Java είτε σαν αρχεία κειμένου που περιέχουν JSP elements. H JSP Standard Tag Library (JSTL) είναι μία τέτοια επέκταση, με την ιδιαιτερότητα όμως ότι έχει δημιουργηθεί επίσημα από την Sun και είναι πλέον κομμάτι της JSP. H JSTL περιέχει action elements για τους τύπους επεξεργασίας που χρειάζεται για τις περισσότερες εφαρμογές JSP όπως υποθετικές συστάσεις, πρόσβαση σε βάση δεδομένων και άλλα. Αν και η JSTL δεν είναι αρκετή ή κάποια άλλη βιβλιοθήκη, τότε οποιοσδήποτε μπορεί να δημιουργήσει και να χρησιμοποιήσει επιπλέον τα δικά του actions elements. Δ) Scripting Elements Τα Scripting elements, που φαίνονται και στο παρακάτω πίνακα, επιτρέπουν να προσθέσουμε μικρά τμήματα κώδικα (συνήθως Java) σε μία σελίδα JSP όπως μία υποθετική δήλωση για να δημιουργήσουμε διαφορετικά κομμάτια HTML ανάλογα με το αν ισχύει ή όχι μία συνθήκη. Όπως και τα actions, εκτελούνται όταν γίνεται αίτηση για τη σελίδα. Πίνακας 7 Scripting Elements Scripting Element Περιγραφή <%... %> Scriptlet, χρησιμοποιείται για να ενσωματωθεί κώδικας <%=... %> Expression, χρησιμoποιείται για να προστεθούν εκφράσεις κώδικα όπου τα 137

138 αποτελέσματα θα μπουν στην απάντηση <%!... %> Declaration, χρησιμοποιούνται για να δηλώσουν στιγμιότυπα μεταβλητών και μεθόδους σε μία κλάση υλοποίησης JSP σελίδας E) Expression Language expressions Ένα καινούργιο χαρακτηριστικό που προστέθηκε στη JSP 2.0 η Expression Language (EL), που αρχικά είχε αναπτυχθεί ως τμήμα της JSTL. Η EL είναι μία απλή γλώσσα για πρόσβαση σε δεδομένα αιτήματος και δεδομένα που έχουν γίνει διαθέσιμα μέσω κλάσεων της εφαρμογής. Οι εκφράσεις EL μπορούν να χρησιμοποιηθούν κατευθείαν στο template text που αναφέρθηκε παραπάνω για να αναθέτουμε τιμές σε ιδιότητες των action elements. ΣΤ) JavaBeans Components Τα στοιχεία JSP όπως τα action elements και τα scripting elements χρησιμοποιούνται συχνά για να έχουμε πρόσβαση στα JavaBeans components. Oυσιαστικά, ένα JavaBean είναι μία Java κλάση που ο κώδικας της είναι γραμμένος έτσι ώστε να συμφωνεί με κάποιες προδιαγραφές. Συνήθως χρησιμοποιούνται για να αποθηκευτεί πληροφορία η οποία περιγράφει οντότητες της κάθε εφαρμογής όπως «πελάτης», ή «παραγγελία». 4.6 Java Speech API Το Java Speech API καθορίζει μια τυποποιημένη, εύχρηστη, cross-platform διεπαφή λογισμικού στην τεχνολογία ομιλίας. Δύο βασικές τεχνολογίες ομιλίας υποστηρίζονται μέσω του Java Speech API: αναγνώριση ομιλίας και σύνθεση ομιλίας. Η αναγνώριση ομιλίας παρέχει στους υπολογιστές τη δυνατότητα να ακούν την προφορική γλώσσα και να καθορίζουν τι έχει ειπωθεί. Με άλλα λόγια, επεξεργάζεται την ακουστική εισαγωγή που περιέχει την ομιλία μετατρέποντάς την σε κείμενο. Η σύνθεση ομιλίας παρέχει την αντίστροφη διαδικασία, της παραγωγής συνθετικής ομιλίας από το κείμενο που παράγεται από μια εφαρμογή, ένα applet ή έναν χρήστη. Αναφέρεται συχνά ως τεχνολογία text-to-speech. Οι επιχειρήσεις και τα άτομα μπορούν να ωφεληθούν από ένα ευρύ φάσμα εφαρμογών της τεχνολογίας ομιλίας χρησιμοποιώντας το Java Speech API. Παραδείγματος χάριν, η τεχνολογία ομιλίας βελτιώνει τη δυνατότητα πρόσβασης στους υπολογιστές για πολλούς ανθρώπους με φυσικούς περιορισμούς. Το Java Speech API είναι μια open-source βιβλιοθήκη, της οποίας η πρώτη έκδοση δημιουργήθηκε από την εταιρεία Sun το 1998 και περιείχε αλγορίθμους τόσο για 138

139 αναγνώριση όσο και για σύνθεση ομιλίας. Είναι μια επέκταση στην πλατφόρμα της Java. Οι επεκτάσεις είναι πακέτα κλάσεων που γράφονται στη γλώσσα προγραμματισμού της Java (και σε οποιοδήποτε σχετικό εγγενή κώδικα) και τα οποία οι προγραμματιστές μπορούν να χρησιμοποιήσουν για να επεκτείνουν τη λειτουργικότητα του πυρήνα της πλατφόρμας της Java Εφαρμογές Java με χρήση Τεχνολογίας Ομιλίας Οι υπάρχουσες δυνατότητες της πλατφόρμας της Java την καθιστούν ελκυστική για την ανάπτυξη ενός ευρέος φάσματος εφαρμογών. Με την προσθήκη της βιβλιοθήκης Java Speech API, οι υπεύθυνοι για την ανάπτυξη εφαρμογών στη γλώσσα προγραμματισμού της Java μπορούν να επεκτείνουν και να συμπληρώσουν υπάρχουσες διεπαφές χρήστη με την εισαγωγή και εξαγωγή ομιλίας. Για τους υπάρχοντες υπεύθυνους για την ανάπτυξη των εφαρμογών ομιλίας, η πλατφόρμα της Java προσφέρει τώρα μια ελκυστική εναλλακτική λύση με: Φορητότητα: η γλώσσα προγραμματισμού της Java, τα APIs και η εικονική μηχανή είναι διαθέσιμες για μια ευρεία ποικιλία τω πλατφορμών υλικού και λειτουργικών συστημάτων και υποστηρίζονται από σημαντικούς web browsers. Ισχυρό και συμπαγές περιβάλλον: η πλατφόρμα της Java παρέχει στους προγραμματιστές μια ισχυρή, αντικειμενοστρεφή, που συλλέγει τα απορρίματα γλώσσα η οποία επιτρέπει τη γρήγορη ανάπτυξη και τη βελτιωμένη αξιοπιστία. Δίκτυο ενήμερο και ασφαλές: από την έναρξή της, η πλατφόρμα της Java είναι ενήμερη δικτύου και έχει συμπεριλάβει ισχυρή ασφάλεια Java APIs (Ομιλίας και μη) Το Java Speech API είναι ένα από τα Java Media APIs, ένα πακέτο από διεπαφές λογισμικού που παρέχουν cross-platform πρόσβαση σε ήχο, βίντεο και άλλου είδους αναπαραγωγή πολυμέσων, δισδιάστατη και τρισδιάστατη γραφική παράσταση, animation, τηλεφωνία, προηγμένη απεικόνιση, και άλλα. Το Java Speech API, σε συνδυασμό με τα άλλα Java Media APIs, επιτρέπουν στους προγραμματιστές να εμπλουτίσουν τις εφαρμογές και τα applets της Java με πλούσιες δυνατότητες πολυμέσων και επικοινωνίας που ικανοποιούν τις προσδοκίες των σημερινών χρηστών, και μπορούν να ενισχύσουν την διαπροσωπική επικοινωνία. 139

140 Το Java Speech API εκμεταλλεύεται τις δυνατότητες άλλων Java APIs. Τα χαρακτηριστικά γνωρίσματα διεθνοποίησης της γλώσσας προγραμματισμού της Java συν τη χρήση του συνόλου χαρακτήρων Unicode απλοποιούν την ανάπτυξη πολύγλωσσων εφαρμογών ομιλίας. Οι κλάσεις και οι διεπαφές του Java Speech API ακολουθούν τα πρότυπα σχεδιασμού του JavaBeans. Τέλος, τα γεγονότα του Java Speech API ενωποιούνται με τους μηχανισμούς γεγονότων των AWT, JavaBeans και Java Foundation Classes (JFC) Προϋποθέσεις του Java Speech API Για να χρησιμοποιήσει το Java Speech API, ένας χρήστης πρέπει να έχει διαθέσιμα ορισμένα ελάχιστα στοιχεία λογισμικού και υλικού. Στη συνέχεια περιγράφεται ένα ευρύ δείγμα των απαιτήσεων. Οι μεμονωμένες απαιτήσεις των συνθετών ομιλίας και των συστημάτων αναγνώρισης ομιλίας μπορούν να ποικίλουν αρκετά και οι χρήστες πρέπει να ελέγξουν προσεκτικά τις απαιτήσεις των προϊόντων. Λογισμικό ομιλίας: Απαιτείται ένα σύστημα αναγνώρισης ομιλίας συμβατό με το Jsapi ή ένας συνθέτης. Απαιτήσεις συστημάτων: τα περισσότερα συστήματα αναγνώρισης ομιλίας επιτραπέζιων υπολογιστών και μερικοί συνθέτες ομιλίας απαιτούν τους σχετικά ισχυρούς υπολογιστές για να τρέξουν αποτελεσματικά. Συνεπώς ο χρήστης θα πρέπει να ελέγξει τις ελάχιστες και συνιστώμενες απαιτήσεις για την ΚΜΕ, τη μνήμη και τη χωρητικότητα δίσκου κατά τον αγορά ενός προϊόντος ομιλίας. Ακουστικό υλικό: Οι συνθέτες ομιλίας απαιτούν έξοδο ήχου. Τα συστήματα αναγνώρισης ομιλίας απαιτούν είσοδο ήχου. Οι περισσότεροι επιτραπέζιοι και φορητοί υπολογιστές που πωλούνται στις μέρες μας έχουν ικανοποιητική υποστήριξη ήχου. Τα περισσότερα συστήματα υπαγόρευσης αποδίδουν καλύτερα με κάρτες ήχου καλής ποιότητας. Μικρόφωνο: Τα συστήματα αναγνώρισης ομιλίας επιτραπέζιων υπολογιστών λαμβάνουν την είσοδο του ήχου μέσω ενός μικροφώνου. Μερικά συστήματα αναγνώρισης, ειδικά τα συστήματα υπαγόρευσης, είναι ευαίσθητα ως προς το μικρόφωνο και τα περισσότερα προϊόντα αναγνώρισης συστήνουν συγκεκριμένα μικρόφωνα. Τα μικρόφωνα κεφαλής παρέχουν συνήθως την καλύτερη απόδοση, ειδικά σε θορυβώδη περιβάλλοντα. Τα 140

141 επιταπέζια μικρόφωνα μπορούν να χρησιμοποιηθούν σε ορισμένα μόνο περιβάλλοντα για ορισμένες εφαρμογές. 5 Το Σύστημα TTSApp To σύστημα TTSApp σχεδιάστηκε με σκοπό την μελέτη και την παρουσίαση της τεχνολογίας της ομιλίας με εφαρμογή στην σύνθεση ομιλίας. Το σύστημα χρησιμοποιεί αλγορίθμους του συστήματος FreeTTS και του Java Speech API. Παρακάτω περιγράφουμε αρχικά εν συντομία το σύστημα FreeTTS και στην συνέχεια συνοπτικά την αρχιτεκτονική και στη συνέχεια τη λειτουργικότητα του συστήματος TTSApp. 5.1 Σύστημα FreeTTS Το FreeTTS είναι ανοικτού κώδικα σύστημα ερευνητικό σύστημα ΜΚσΟ γραμμένο εξ ολοκλήρου στη γλώσσα προγραμματισμού της Java. Αναπτύχθηκε από την ομάδα Ενσωμάτωσης Ομιλίας των εργαστηρίων της εταιρείας Sun Microsystems και είναι βασισμένο σε δύο συστήματα για φωνητική σύνθεση: Στο σύστημα Festival [έκδοση του 2001] που αναπτύχθηκε στο πανεπιστήμιο του Εδιμβούργου. Το σύστημα αυτό χρηματοδοτήθηκε από την εταιρεία Sun Microsystems και αναπτύχθηκε μέσω συνεργατικής μελέτης. Είναι ένα ευέλικτο ανοικτού κώδικα ερευνητικό σύστημα ΜΚσΟ γραμμένο στην γλώσσα προγραμματισμού C++. Στο σύστημα Flite [έκδοση του 2001] που αναπτύχθηκε στο πανεπιστήμιο Carnegie και βασίζεται στο σύστημα Festival. Είναι γραμμένο στην γλώσσα προγραμματισμού C και δίνει έμφαση στο μέγεθος και στην απόδοση στις ενσωματωμένες πλατφόρμες (embedded platforms). Οι απαιτήσεις μεγέθους και απόδοσης του συστήματος Flite, εντούτοις, μείωσαν δραστικά την ευελιξία του. Συνεπώς προκειμένου να χρησιμοποιήσουν το βέλτιστο και των δύο κόσμων, οι δημιουργοί του συστήματος FreeTTS βάσισαν τους αλγορίθμους του συστήματος FreeTTS στο σύστημα Flite, αλλά την αρχιτεκτονική του στο σύστημα Festival. [40] 141

142 Αξίζει να σημειωθεί ότι το σύστημα περιλαμβάνει μια μηχανή φωνητικής σύνθεσης που υποστηρίζει έναν ορισμένο αριθμό φωνών (γυναικείων και ανδρικών) σε διάφορες συχνότητες. (Walket et all, 2002) Περίληψη της ιαδικασίας Σύνθεσης Ομιλίας Για να συνθέσει την ομιλία, το σύστημα FreeTTS διασπά το κείμενο εισαγωγής σε σύνολα φωνημάτων και έπειτα τα μετατρέπει σε ευδιάκριτη ομιλία, μέσω της εκτέλεσης διαδοχικών διαδικασιών στο κείμενο εισαγωγής. Το FreeTTS αποθηκεύει τα συσσωρευτικά αποτελέσματα κάθε λειτουργίας σε μια δομή έκφρασης που κρατά την πλήρη ανάλυση του κειμένου. Το σχήμα 5.1 παρουσιάζει την γενική αρχιτεκτονική του συστήματος FreeTTS. Ο πυρήνας του συστήματος είναι μια μηχανή που περιέχει μια φωνή και ένα νήμα παραγωγής. Η φωνή αποτελείται από ένα σύνολο επεξεργαστών έκφρασης που δημιουργούν, επεξεργάζονται, και σχολιάζουν μια δομή έκφρασης. Συνδεμένο με την φωνή είναι ένα σύνολο στοιχείων που χρησιμοποιείται από κάθε έναν από τους επεξεργαστές έκφρασης. Το νήμα παραγωγής είναι υπεύθυνο για δύο ενέργειες: την σύνθεση μιας έκφρασης στα ακουστικά στοιχεία και έπειτα την κατεύθυνση αυτού του στοιχείου στον κατάλληλο μηχανισμό ακουστικής αναπαραγωγής ήχου. Εικόνα 5.1. Οι δομές φωνής και έκφρασης 142

143 Η καρδιά του συστήματος FreeTTS βρίσκεται στις δομές της φωνής και της έκφρασης. Η φωνή διατηρεί σφαιρικές πληροφορίες για τη διαδικασία της σύνθεσης: το σύνολο τοπικής προσαρμογής, το λεξικό προφοράς, την βάση δεδομένων μονάδων, και τον συνθέτη κυμάτων ήχου. Η φωνή διατηρεί επίσης το σύνολο των επεξεργαστών έκφρασης που χρησιμοποιείται για να δημιουργηθεί και να σχολιαστεί η δομή έκφρασης. Η δομή έκφρασης είναι ένα προσωρινό αντικείμενο που η φωνή το δημιουργεί για κάθε ακουστικό κύμα που παράγει. Η φωνή αρχικοποιεί τη δομή έκφρασης με το κείμενο εισαγωγής και έπειτα περνάει την δομή έκφρασης σε ένα σύνολο συσχετιστικών επεξεργαστών έκφρασης. Μόλις επεξεργαστεί το κείμενο εισαγωγής (π.χ., στάλθηκε σε μια ακουστική συσκευή παραγωγής), η φωνή απορρίπτει τη δομή έκφρασης. Κάθε επεξεργαστής έκφρασης προσθέτει πρόσθετα στοιχεία στη δομή έκφρασης με ιεραρχική και σχετική μέθοδο. Παραδείγματος χάριν, ένας επεξεργαστής έκφρασης δημιουργεί μια σχέση στη δομή έκφρασης που αποτελείται από τα στοιχεία που ενώνουν τις λέξεις του κειμένου εισαγωγής. Ένας άλλος επεξεργαστής έκφρασης δημιουργεί μια σχέση που αποτελείται από αντικείμενα που περιγράφουν συλλαβές για τις λέξεις, με κάθε στοιχείο συλλαβών να δείχνει πίσω στη μεμονωμένη λέξη η οποία δημιουργήθηκε από άλλον επεξεργαστή έκφρασης. Με την οργάνωση της δομής έκφρασης μέσω της χρήσης σχέσεων, οι επεξεργαστές έκφρασης μπορούν να εκτελέσουν περίπλοκες ερωτήσεις συσχέτισης στη δομή έκφρασης. Για παράδειγμα ένα κείμενο ερώτησης είναι το εξής: "R:SylStructure.parent.parent.word_numsyls." Διαβάζοντας από δεξιά προς αριστερά αυτό σημαίνει "βρες τον αριθμό των συλλαβών στη λέξη που ο γονέας του γονέα της σχέσης συλλαβών για το αντικείμενο που μας ενδιαφέρει. Αυτοί οι τύποι ερωτήσεων χρησιμοποιούνται σε όλο το σύστημα FreeTTS από τους διάφορους επεξεργαστές έκφρασης. 143

144 Βήματα της Λειτουργίας της Σύνθεσης Υπάρχουν διάφορα βήματα στη διαδικασία της σύνθεσης. Τα βασικά βήματα της λειτουργίας της σύνθεσης του συστήματος FreeTTS απεικονίζονται στο Σχήμα 5.2. Πολλά από αυτά τα βήματα πρέπει να υποστούν τοπική προσαρμογή και προσαρμογή στον τύπο της σύνθεσης που χρησιμοποιείται. Μια χαρακτηριστική φωνή του συστήματος FreeTTS θα εκτελέσει τα ακόλουθα βήματα για να μετατρέψει το γραπτό κείμενο σε ομιλία: Κανονικοποίηση Κειμένων Εκτελείται μέσω ενός επεξεργαστή έκφρασης που μετατρέπει το κείμενο εισόδου σε μια ροή λέξεων. Παραδείγματος χάριν, το κείμενο "ο κ.παπαδόπουλος διαμένει στην οδό Υμηττού 33" θα μετατρεπόταν στο κείμενο " ο κ.παπαδόπουλος διαμένει στην οδό Υμηττού τριάντα τρία". Η διαδικασία κανονικοποίησης κειμένου εξετάζει μια ευρεία ποικιλία περιπτώσεων συμπεριλαμβανομένων αριθμών, ημερομηνιών, στοιχείων χρόνου, τίτλων και ονομάτων τοποθεσιών. Γλωσσική ανάλυση Εκτελείται μέσω ενός επεξεργαστή έκφρασης που καθορίζει σημασιολογικές πληροφορίες όπως οι πληροφορίες διατύπωσης και μέρους του λόγου. Λεξικολογική ανάλυση Εκτελείται μέσω ενός επεξεργαστή έκφρασης που καθορίζει την προφορά, τον προσδιορισμό των συλλαβών, και τον τονισμό της κάθε λέξης της έκφρασης. Το σύστημα FreeTTS θα χρησιμοποιήσει ένα λεξικό για να καθορίσει αυτές τις πληροφορίες. Εάν εντούτοις μια λέξη δεν είναι μέσα στο λεξικό, το σύστημα απευθύνεται σε ένα σύνολο περίπλοκων κανόνων γραμμάτων σε ήχο. Παραγωγή Προσωδίας Εκτελείται μέσω ενός επεξεργαστή έκφρασης που καθορίζει τις παραμέτρους των παύσεων, των θεμελιωδών συχνοτήτων (pitches), της διάρκειας, του τόνου, της έντασης, και του εύρους. Αυτοί οι επεξεργαστές θα χρησιμοποιήσουν ιδιαίτερα δέντρα ταξινόμησης και κατηγοριοποίησης (CARTS) για να παράγουν της πληροφορίες της προσωδίας. Σύνθεση Ομιλίας παράγει ακουστικά δεδομένα, τυπικά μέσω της σύνδεσης των λεκτικών μονάδων με βάση τα δίφωνα ή άλλες μονάδες της ομιλίας. Η διαδικασία της σύνθεσης μπορεί να κάνει ιδιαίτερα εντατική χρήση της μνήμης δεδομένου ότι περιλαμβάνει έναν μεγάλο αριθμό διαδικασιών κινητής υποδιαστολής. Όταν διασπάται σε αυτά τα ξεχωριστά βήματα, η διαδικασία 144

145 σύνθεσης είναι σχετικά απλή. Η διαδικασία, εντούτοις, ωθεί τα όρια απόδοσης σε δύο διαστάσεις. Κατ' αρχάς, υπάρχουν μεγάλα σύνολα δεδομένων για να συσχετιστούν με το λεξικό και την βάση δεδομένων μονάδων, αποτελώντας το μέγιστο πλήθος δεδομένων. Δεύτερον, εμπλέκεται ένας σημαντικός αριθμός υπολογισμών κινητής υποδιαστολής. Συνεπώς όπως ήταν αναμενόμενο, η επεξεργασία σύνθεσης ήχου διαρκεί περισσότερο από τα άλλα βήματα. Εικόνα 5.2. Βήματα της Λειτουργίας της Σύνθεσης του συστήματος FreeTTS 5.2 Αρχιτεκτονική Συστήματος TTSApp Το υλοποιημένο σύστημα TTSApp είναι ένα σύστημα ΜΚσΟ (text-to-speech system), ο πυρήνα του οποίου αποτελείται από μια βιβλιοθήκη γραμμένη εξ ολοκλήρου στη γλώσσα προγραμματισμού της Java και η οποία βασίζεται στο σύστημα FreeTTS και χειρίζεται την μετατροπή κειμένου σε ομιλία μέσω διαφόρων μορφών εισόδου κειμένου (όπως από αρχείο, από πεδίο κειμένου, από Url) και διαφόρων παραμέτρων εισόδου, όπως φωνή, προσωδία. Το σύστημα αποτελείται επίσης από java-server pages μέσω των οποίων ολοκληρώνεται το σύστημα ώστε να παρουσιάσουμε ορισμένες από τις δυνατότητες του υλοποιημένου συστήματος Κατασκευή υναμικών Ιστοσελίδων Η δημιουργία των δυναμικών σελίδων σε συνεργασία με τη βάση δεδομένων γίνεται σε με χρήση JSP (Java Server Pages βλέπε προηγούμενο κεφάλαιο). Οι σελίδες αυτές δημοσιεύονται στο παγκόσμιο διαδίκτυο μέσω του Apache Web Server (βλέπε προηγούμενο κεφάλαιο) Βασική ομή υναμικών Ιστοσελίδων Όλες οι δυναμικές σελίδες JSP (Java Server Pages) του συστήματος ακολουθούν την ίδια δομή. Στην κορυφή τους εισάγουν το περιεχόμενο της δυναμικής σελίδας 145

146 επικεφαλίδα (header.jsp), στο αριστερό τμήμα τους εισάγουν το περιεχόμενο της δυναμικής σελίδας που περιέχει το menu επιλογών (sidebar.jsp) και στην βάση τους εισάγουν το περιεχόμενο της δυναμικής σελίδας υποσέλιδο (footer.jsp). (Εικόνα 5.3) Η μορφοποίηση των δυναμικών σελίδων πραγματοποιείται σύμφωνα με ένα cascading style sheet, το mycss.css. Εικόνα 5.3 Βασική Δομή Δυναμικών Σελίδων Συστήματος 146

147 5.3 Λειτουργικότητα Συστήματος Στην παράγραφο αυτή περιγράφονται σύντομα οι βασικές λειτουργίες του συστήματος όπως είναι η μετατροπή κειμένου σε ομιλία μέσω πεδίου κειμένου και η μετατροπή κειμένου σε ομιλία μέσω αρχείου εισόδου. Η αρχική σελίδα του συστήματος φαίνεται στην παρακάτω εικόνα. Εικόνα 5.4 Αρχική Σελίδα Συστήματος 147

148 5.3.1 Μετατροπή Κειμένου σε Ομιλία (Μέσω Πεδίου Κειμένου) Όπως φαίνεται και στην εικόνα 5.5, ο χρήστης μπορεί να εισάγει στο πλαίσιο κειμένου το επιθυμητό κείμενο στην αγγλική γλώσσα και πατώντας το κουμπί Speak το σύστημα μετατρέπει το εισαχθέν κείμενο σε ομιλία. Πατώντας το κουμπί Reset, σβήνει το πεδίο εισαγωγής κειμένου. Εικόνα 5.5 Σελίδα Μετατροπή Κειμένου σε Ομιλία (Μέσω Πεδίου Κειμένου) 148

149 5.3.2 Μετατροπή Κειμένου σε Ομιλία (Μέσω Αρχείου) Όπως φαίνεται και στην εικόνα 5.6 ο χρήστης μπορεί να επιλέξει μέσω του κουμπιού Browse το αρχείο κειμένου το κείμενο του οποίου επιθυμεί να μετατραπεί σε ομιλία. Σημειώνεται ότι το αρχείο κειμένου θα πρέπει να είναι γραμμένο στην αγγλική γλώσσα. Έπειτα πατώντας το κουμπί Speak το σύστημα μετατρέπει το κείμενο του εισαχθέντος αρχείου σε ομιλία. Επίσης εμφανίζεται το περιεχόμενο του αρχείου και η διαδρομή στο filesystem του υπολογιστή του χρήστη, στην οποία βρίσκεται το αρχείο. Πατώντας το κουμπί Reset, σβήνει το πεδίο της διαδρομής του αρχείου εισόδου. Εικόνα 5.6 Σελίδα Μετατροπή Κειμένου σε Ομιλία (Μέσω Αρχείου) 149

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ

Διαβάστε περισσότερα

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής Συστήματα αναγνώρισης ομιλίας και χρήση τους Αναστάσιος Φραντζής ΓΤΠ 61 0/0/202 01/04/2012 Συσκευές αλληλεπίδρασης εισόδου 1. Εισαγωγής κειμένου 3. Αναγνώριση κειμένου, χειρογράφου, φωνής Πληκτρολόγιο

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ

ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ Διδακτορική Διατριβή του Ιωσήφ Αναστασίου Μπόρα Διπλωματούχου Ηλεκτρολόγου Μηχανικού

Διαβάστε περισσότερα

Θέµα 5 ο Σύνθεση Οµιλίας

Θέµα 5 ο Σύνθεση Οµιλίας Θέµα 5 ο Σύνθεση Οµιλίας Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή ενός κειµένου εισόδου (που αποτελείται από

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Ψυχογλωσσολογία Ενότητα 3 : Αντίληψη προφορικού λόγου Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Σκοποί ενότητας Αντίληψη λόγου Προσωδία Θεωρίες για την αντίληψη του λόγου Ακουστική Κινητική

Διαβάστε περισσότερα

Τεχνολογία σύνθεσης φωνής από κείμενο

Τεχνολογία σύνθεσης φωνής από κείμενο Τεχνολογία σύνθεσης φωνής από κείμενο Ηεξέλιξησεδιεθνέςεπίπεδο Πρώτο σύστημα ~1939 Ταχύτερη εξέλιξη δεκαετία 70 με την ανάπτυξη των υπολογιστών Πρώτα χρήσιμα συστήματα τέλη δεκαετίας 80 Ωρίμανση της τεχνολογίας

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 1: Επικοινωνία, Λόγος, Ομιλία (2ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Ενότητα 2: Βασικά χαρακτηριστικά της ομιλίας Γ ε ώ ρ γ ι ο ς Κ ο υ ρ ο υ π έ τ ρ ο γ λ ο υ koupe@di.uoa.gr

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 4: Χαρακτηριστικά της Ομιλίας Φωνητική και Φωνολογία (2ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προηγµένη ιασύνδεση µε τοπεριβάλλον Προηγµένη ιασύνδεση µε τοπεριβάλλον! Επεξεργασία φυσικής γλώσσας # Κατανόηση φυσικής γλώσσας # Παραγωγή φυσικής γλώσσας! Τεχνητή όραση! Ροµποτική Κατανόηση Φυσικής Γλώσσας! Αναγνώριση οµιλίας (Speech recognition)!

Διαβάστε περισσότερα

Sub4All: Υποσύστηµα Αναγώρισης Φωνής

Sub4All: Υποσύστηµα Αναγώρισης Φωνής Sub4All: Υποσύστηµα Αναγώρισης Φωνής ΙΕΛ Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 1 Υποσύστηµα Αναγνώρισης Φωνής Συνοπτική περιγραφή συστήµατος Εξαγωγή παραµέτρων Φωνητική Μετεγγραφή Ελληνικών Ακουστική Μοντελοποίηση

Διαβάστε περισσότερα

Η ΓΛΩΣΣΙΚΗ ΑΝΑΠΤΥΞΗ ΤΩΝ ΠΑΙΔΙΩΝ ΓΕΝΝΗΣΗ 6 ΕΤΩΝ ΓΛΩΣΣΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ

Η ΓΛΩΣΣΙΚΗ ΑΝΑΠΤΥΞΗ ΤΩΝ ΠΑΙΔΙΩΝ ΓΕΝΝΗΣΗ 6 ΕΤΩΝ ΓΛΩΣΣΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ Η ΓΛΩΣΣΙΚΗ ΑΝΑΠΤΥΞΗ ΤΩΝ ΠΑΙΔΙΩΝ ΓΕΝΝΗΣΗ 6 ΕΤΩΝ ΗΛΙΚΙΑ γέννηση ΓΛΩΣΣΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ Αναγνωρίζει και προτιμά τη φωνή της μητέρας καθώς και ήχους της γλώσσας. Μιμείται ήχους της γλώσσας. 2 μηνών Συνδυάζει

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

Κεφάλαιο 7 Σύνθεση Οµιλίας

Κεφάλαιο 7 Σύνθεση Οµιλίας Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.235 Κεφάλαιο 7 Σύνθεση Οµιλίας 7.1 Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Αναπτυξιακά ορόσημα λόγου

Αναπτυξιακά ορόσημα λόγου Αναπτυξιακά ορόσημα λόγου 0-6 μηνών 7-12 μηνών 13-18 μηνών 19-24 μηνών 2-3 ετών 3-4 ετών 4-5 ετών 5-6 ετών 6-7 ετών 0-6 μηνών Επαναλαμβάνει τους ίδιους ήχους Συχνά μουρμουρίζει, γελά και παράγει ευχάριστους

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 2015-16 Παρουσίαση Νο. 1 Εισαγωγή Τι είναι η εικόνα; Οτιδήποτε μπορούμε να δούμε ή να απεικονίσουμε Π.χ. Μια εικόνα τοπίου αλλά και η απεικόνιση

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες Η διάγνωση των διαταραχών λόγου πρέπει να γίνεται έγκαιρα, μόλις οι γονείς αντιληφθούν οτι κάτι ισως δεν πάει καλά και πρέπει να παρουσιάσουν το παιδί τους στον ειδικό. Ο ειδικός θα λάβει μέτρα για την

Διαβάστε περισσότερα

Φωνολογική Ανάπτυξη και Διαταραχές

Φωνολογική Ανάπτυξη και Διαταραχές 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Φωνολογική Ανάπτυξη και Διαταραχές Ενότητα 1: Εισαγωγικές Επισημάνσεις Ζακοπούλου Βικτωρία 2 Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ηπείρου Τμήμα

Διαβάστε περισσότερα

Keywords λέξεις κλειδιά:

Keywords λέξεις κλειδιά: ΑΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΕΠΙΣΤΗΜΩΝ Τμήμα Μηχανικών Μουσικής Τεχνολογίας & Ακουστικής ''Κοχλιακά εμφυτεύματα: προσομοίωση της ακοής μέσω εφαρμογής και απεικόνιση της διασποράς ηλεκτρικού πεδίου με

Διαβάστε περισσότερα

ΘΕΜΑ : ΨΗΦΙΑΚΑ ΗΛΕΚΤΡΟΝΙΚΑ DIGITAL ELECTRONICS

ΘΕΜΑ : ΨΗΦΙΑΚΑ ΗΛΕΚΤΡΟΝΙΚΑ DIGITAL ELECTRONICS ΘΕΜΑ : ΨΗΦΙΑΚΑ ΗΛΕΚΤΡΟΝΙΚΑ DIGITAL ELECTRONICS ΔΙΑΡΚΕΙΑ: 1 περιόδους 16/11/2011 10:31 (31) καθ. Τεχνολογίας ΚΑΤΗΓΟΡΙΕΣ ΜΕΓΕΘΩΝ ΑΝΑΛΟΓΙΚΟ (ANALOGUE) ΨΗΦΙΑΚΟ (DIGITAL) 16/11/2011 10:38 (38) ΕΙΣΑΓΩΓΗ ΣΤΑ

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 1: Επικοινωνία, Λόγος, Ομιλία (1 ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Αντίληψη της ομιλίας Απεικόνιση της πρότασης «θα σας διηγηθώ την ιστορία των δύο νέων» κυματομορφή Φασματόγραμμα Συνάρθρωση Οι φθόγγοι αλληλεπικαλύπτονται μέσα

Διαβάστε περισσότερα

Αρθρωτικές-Φωνολογικές διαταραχές Αποκατάσταση φωνημάτων /f/ - /v/

Αρθρωτικές-Φωνολογικές διαταραχές Αποκατάσταση φωνημάτων /f/ - /v/ Αρθρωτικές-Φωνολογικές διαταραχές Αποκατάσταση φωνημάτων /f/ - /v/ Φοιτήτρια : Τεκτονίδου Βαρβάρα (12871) Καθηγήτρια: Παίλα Νικολέτα T.E.I Ηπείρου, 2014 Ταξινόμηση φωνολογικών/αρθρωτικών διαταραχών Αναπτυξιαξή

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΙΣΑΓΩΓΗ Γενικά οι τεχνολογίες είναι επιστήμες που αξιοποιούν τις γνώσεις, τα εργαλεία και τις δεξιότητες για επίλυση προβλημάτων με πρακτική εφαρμογή. Η Τεχνολογία

Διαβάστε περισσότερα

13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο

13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο 13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο «Δυσλεξία: Μια λέξη δύσκολη και μόνο να την πεις φαντάσου το μαρτύριο όμως να τη ζεις» Μαρία Χριστοπούλου, Ευρωπαϊκό Πανεπιστήμιο Κύπρου,

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας Επιµορφωτικό Σεµινάριο Ξενοδοχείο Caravel, 10-11 Μαΐου 2003 Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της Γεράσιµος Ξύδας Πληροφορίας BSc, MSc Πληροφορικής, υποψ. διδάκτωρ Εθνικό και

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Καθηγητής Πληροφορικής ΠΕ19 1 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΚΕΦΑΛΑΙΟ 6 ο : ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΙΣΤΟΣΕΛΙΔΑ ΜΑΘΗΜΑΤΟΣ: http://eclass.sch.gr/courses/el594100/ Η έννοια του προγράμματος

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης ιαθεµατική Εργασία µε Θέµα: Οι Φυσικές Επιστήµες στην Καθηµερινή µας Ζωή Ο Ήχος Τµήµα: β1 Γυµνασίου Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης Συντακτική Οµάδα: Γεώργιος Ελευθεριάδης Ο Ήχος Έχει σχέση ο

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Στοιχεία επεξεργασίας σημάτων

Στοιχεία επεξεργασίας σημάτων Στοιχεία επεξεργασίας σημάτων ΕΜΠ - ΣΧΟΛΗ ΑΤΜ Ακ. Έτος 2004-2005 Β.Βεσκούκης, Δ.Παραδείσης, Δ.Αργιαλάς, Δ.Δεληκαράογλου, Β.Καραθανάση, Β.Μασσίνας Γενικά στοιχεία για το μάθημα Εισάγεται στα πλαίσια της

Διαβάστε περισσότερα

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές Eλένη Ευθυµίου eleni_e@ilsp.gr Οµάδα Υποστηρικτικών Τεχνολογιών Ινστιτούτο Επεξεργασίας Λόγου

Διαβάστε περισσότερα

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο 1.1 Στόχοι Οι σπουδαστές στο Επίπεδο 1 του ICCLE είναι ικανοί να κατανοούν βασικά γλωσσικά στοιχεία που σχετίζονται με συνήθη καθημερινά θέματα. Είναι ικανοί

Διαβάστε περισσότερα

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Πίνακας περιεχομένων Τίτλος της έρευνας (title)... 2 Περιγραφή του προβλήματος (Statement of the problem)... 2 Περιγραφή του σκοπού της έρευνας (statement

Διαβάστε περισσότερα

- Καθυστέρηση λόγου (LLI)

- Καθυστέρηση λόγου (LLI) Πολλά άτομα με βαρηκοΐα/κώφωση (Είναι η μερική ή ολική απώλεια των ηχητικών ερεθισμάτων μέσω της ακουστικής οδού. Γίνεται λοιπόν κατανοητό πως προκύπτει δυσκολία επεξεργασίας και παραγωγής των ήχων συνεπώς

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» «ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ Ψ.Ε.Σ. (ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ)

Διαβάστε περισσότερα

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων Διάλεξη 9 Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Ανασκόπηση της Διάλεξης 8 Εξετάσαμε την αντίληψη του ύψους ενός καθαρού

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Στάδια Ανάπτυξης Λόγου και Οµιλίας

Στάδια Ανάπτυξης Λόγου και Οµιλίας Στάδια Ανάπτυξης Λόγου και Οµιλίας Το παιδί ξεδιπλώνει τις γλωσσικές ικανότητες του µε το χρόνο. Όλα τα παιδιά είναι διαφορετικά µεταξύ τους και το κάθε ένα έχει το δικό του ρυθµό. Τα στάδια ανάπτυξης

Διαβάστε περισσότερα

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ Η γλώσσα ως σύστημα και ως χρήση Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ 2009-10 Τι είναι γλώσσα; Γλώσσα είναι το σύστημα ήχων ( φθόγγων ) και εννοιών που χρησιμοποιούν οι ανθρώπινες κοινότητες για

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Βασικά στοιχεία της ψηφιακής επεξεργασίας και

Διαβάστε περισσότερα

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια πρώτη ιδέα για το μάθημα χωρίς καθόλου εξισώσεις!!! Περίγραμμα του μαθήματος χωρίς καθόλου εξισώσεις!!! Παραδείγματα από πραγματικές εφαρμογές ==

Διαβάστε περισσότερα

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου 1. Τι ονομάζουμε κόμβο και τι σύνδεσμο σε μια μη γραμμικά διαρθρωμένη ύλη; Με την έννοια σύνδεσμος (link) σε μια μη γραμμικά διαρθρωμένη

Διαβάστε περισσότερα

Βασικές Έννοιες Πληροφορικής

Βασικές Έννοιες Πληροφορικής Βασικές Έννοιες Πληροφορικής 1. Τι είναι ο Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι οποιαδήποτε συσκευή μεγάλη ή μικρή που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με

Διαβάστε περισσότερα

Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής. ΕΥΤΕΧΝΟΣ, Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών

Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής. ΕΥΤΕΧΝΟΣ, Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής Εισαγωγή E-Commerce V-Commerce Σύνθεση Φωνής, Αναγνώριση Φωνής, Αναγνώριση Οµιλητή Προοπτικές και δυνατότητες εφαρµογής των τεχνολογιών

Διαβάστε περισσότερα

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΣΠΟΥ ΑΣΤΗΣ: Γιαννόπουλος Γεώργιος ΕΠΙΒΛΕΠΩΝ: Καθ. Ι. Βασιλείου ΒΟΗΘΟΙ: Α. ηµητρίου, Θ. αλαµάγκας Γενικά Οι µηχανές αναζήτησης

Διαβάστε περισσότερα

PRAAT -- ΟΔΗΓΟΣ ΓΙΑ ΤΑ ΠΡΩΤΑ ΒΗΜΑΤΑ Ανθή Χαϊδά

PRAAT -- ΟΔΗΓΟΣ ΓΙΑ ΤΑ ΠΡΩΤΑ ΒΗΜΑΤΑ Ανθή Χαϊδά PRAAT -- ΟΔΗΓΟΣ ΓΙΑ ΤΑ ΠΡΩΤΑ ΒΗΜΑΤΑ Ανθή Χαϊδά Το λογισμικό Praat ένα εργαλείο για φωνητική ανάλυση και επεξεργασία ηχητικών αρχείων, το οποίο διατίθεται δωρεάν στο διαδίκτυο. Το Praat δημιουργήθηκε από

Διαβάστε περισσότερα

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής Ηλίας Παπαθανασίου Αν Καθηγητής Τμήμα Λογοθεραπείας, ΤΕΙ Πάτρας Επιστημ. Συνεργάτης Α Πανεπιστημιακής ΩΡΛ Κλινικής Ιατρική Σχολή, ΕΚΠΑ 1 3/23/15 Ακουστική

Διαβάστε περισσότερα

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου Από το προηγούμενο μάθημα... Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Δάλ Διάλεξη 4 η : «Επεξεργαστές Ε ξ έ Δυναμικής Περιοχής (Mέρος έ ΙΙ)» Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Προγραμματισμός Η/Υ Προτεινόμενα θέματα εξετάσεων Εργαστήριο Μέρος 1 ό ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Ιανουάριος 2011 Καλογιάννης Γρηγόριος Επιστημονικός/ Εργαστηριακός

Διαβάστε περισσότερα

Μουσική Ακουστική Οργανολογία. Επανάληψη στο Εργαστήριο

Μουσική Ακουστική Οργανολογία. Επανάληψη στο Εργαστήριο Μουσική Ακουστική Οργανολογία Επανάληψη στο Εργαστήριο Συντονιστής Helmholtz 1. Τι είναι ο παράγοντας ποιότητας ενός συντονισμού; 2. Πως ορίζεται το σχετικό σφάλμα μιας πειραματικής μέτρησης; 3. Τι είναι

Διαβάστε περισσότερα

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Διπλωματική Εργασία Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Από Διονύσιο Κ. Παπαϊωάννου (Α.Μ.

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης Κεφάλαιο 7 1. Σε τι διαφέρει ο Η/Υ από τις υπόλοιπες ηλεκτρικές και ηλεκτρονικές συσκευές; Που οφείλεται η δυνατότητά του να κάνει τόσο διαφορετικές

Διαβάστε περισσότερα

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System)

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System) Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System) Εισαγωγή Η μελέτη των συστημάτων ενίσχυσης ήχου αρχίζει με μια ανάλυση ενός απλού συστήματος εξωτερικού χώρου (outdoor system).

Διαβάστε περισσότερα

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001 Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία Αναστασία Λαµπρινού Δεκέµβριος 2001 Γλώσσα- είναι µία ταξινοµική αρχή, ένας κώδικας επικοινωνίας, ένα κοινωνικό φαινόµενο έξω από το άτοµο. Οµιλία-

Διαβάστε περισσότερα

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες:

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες: Πρόταση Διδασκαλίας Ενότητα: Τάξη: 7 η - Τέχνη: Μια γλώσσα για όλους, σε όλες τις εποχές Γ Γυμνασίου Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος Α: Στόχοι Οι μαθητές/ τριες: Να

Διαβάστε περισσότερα

Ε Ι Α Γ Ω Γ Η Σ Ο Ν Π Ρ Ο Γ Ρ Α Μ Μ Α Σ Ι Μ Ο Κ Ε Υ Α Λ Α Ι Ο 6. Σο πρόγραμμα γράφεται σε κάποια γλώσσα προγραμματισμού.

Ε Ι Α Γ Ω Γ Η Σ Ο Ν Π Ρ Ο Γ Ρ Α Μ Μ Α Σ Ι Μ Ο Κ Ε Υ Α Λ Α Ι Ο 6. Σο πρόγραμμα γράφεται σε κάποια γλώσσα προγραμματισμού. Κεφάλαιο 6 6.1 Η έννοια του προγράμματος Η επίλυση ενός προβλήματος με τον υπολογιστή περιλαμβάνει τρία σημαντικά στάδια : Σον ακριβή προσδιορισμό του προβλήματος Σην ανάπτυξη του αντίστοιχου αλγορίθμου

Διαβάστε περισσότερα

2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ

2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ 2. ΣΥΝΟΠΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΓΡΑΜΜΑΤΩΝ ΣΠΟΥΔΩΝ ΕΝΓ 2.1. Πρόγραμμα Σπουδών Ελληνικής Νοηματικής Γλώσσας του Νηπιαγωγείου Στόχοι - Άξονες Περιεχομένου Κατανόηση θέματος που εκφέρεται στην ΕΝΓ.

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου

Διαβάστε περισσότερα

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος Η έννοια του προβλήματος 1. Αναφέρετε μερικά από τα προβλήματα που συναντάτε στην καθημερινότητά σας. Απλά προβλήματα Ποιο δρόμο θα ακολουθήσω για να πάω στο σχολείο; Πως θα οργανώσω μια εκδρομή; Πως θα

Διαβάστε περισσότερα

Αιτία παραποµπής Ε Ω ΣΥΜΠΛΗΡΩΝΕΤΕ ΣΤΟΙΧΕΙΑ ΤΟΥ ΙΣΤΟΡΙΚΟΥ ΤΟΥ ΠΑΙ ΙΟΥ ΚΑΙ ΤΟ ΛΟΓΟ ΤΗΣ ΠΑΡΑΠΟΜΠΗΣ.

Αιτία παραποµπής Ε Ω ΣΥΜΠΛΗΡΩΝΕΤΕ ΣΤΟΙΧΕΙΑ ΤΟΥ ΙΣΤΟΡΙΚΟΥ ΤΟΥ ΠΑΙ ΙΟΥ ΚΑΙ ΤΟ ΛΟΓΟ ΤΗΣ ΠΑΡΑΠΟΜΠΗΣ. Στοιχεία εξέτασης Στοιχεία εξεταζοµένου παιδιού Ονοµατεπώνυµο: 1043 1043 (1043) Φύλο: Αγόρι Ηµ/νια γέννησης: 16-07-2011 Μητρική γλώσσα: Ελληνικά Προτίµηση χεριού: εξί Ηµ/νια εξέτασης: 21-11-2016 Χρονολογική

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Τι είναι η Λογοθεραπεία. Φωνής Ομιλίας. Εξελικτική. Ο ρόλος του. λογοθεραπευτή, αξιολόγησης, του. αντιμετώπισης

Τι είναι η Λογοθεραπεία. Φωνής Ομιλίας. Εξελικτική. Ο ρόλος του. λογοθεραπευτή, αξιολόγησης, του. αντιμετώπισης ΛΟΓΟΘΕΡΑΠΕΙΑ Τι είναι η Λογοθεραπεία Λογοθεραπείαα είναι ο επιστημονικός κλάδος που ασχολείται με τιςς διαταραχές: Λόγου (τη γενικότερη λεκτική επικοινωνία) Φωνής (το επίπεδο του λάρυγγα και των φωνητικών

Διαβάστε περισσότερα

ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN

ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN Το φαινόμενο Gunn, ή το φαινόμενο των μεταφερόμενων ηλεκτρονίων, που ανακαλύφθηκε από τον Gunn το 1963 δηλώνει ότι όταν μια μικρή τάση DC εφαρμόζεται κατά μήκος του

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ ΘΕΜΑ: ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΩΝ ΔΙΕΠΙΚΟΙΝΩΝΙΑΣ (USER INTERFACES) ΜΕΣΩ ΔΙΑΔΡΑΣΗΣ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης) ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ Ακαδημαϊκή Μονάδα: Τομέας: Εργαστήριο/Σπουδαστήριο/Κλινική: Τίτλος Μαθήματος / Θέμα Εργασίας: Κωδικός Μαθήματος: Τύπος Μαθήματος: ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ:

ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ: ΔΙΟΙΚΗΣΗ ΤΟΥ ΤΥΠΟΥ «ΑΠΟ ΤΟ ΜΕΣΟ ΠΡΟΣ ΤΗΝ ΚΟΡΥΦΗ ΚΑΙ ΠΡΟΣ ΤΗ ΒΑΣΗ» ΚΕΦΑΛΑΙΟ: 5 Μέρος 1 Εισαγωγή Το παρόν κεφάλαιο επικεντρώνεται στη διαδικασία διοίκησης που μπορεί να διευκολύνει περισσότερο τη δημιουργία

Διαβάστε περισσότερα

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19 Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών Κεφ. 2 Θεωρητική Επιστήμη Υπολογιστών 2.3.1.1 Έννοια προγράμματος Τι είναι πρόγραμμα και τι προγραμματισμός; Πρόγραμμα είναι το σύνολο εντολών που χρειάζεται

Διαβάστε περισσότερα

5. Λόγος, γλώσσα και ομιλία

5. Λόγος, γλώσσα και ομιλία 5. Λόγος, γλώσσα και ομιλία Στόχοι της γλωσσολογίας Σύμφωνα με τον Saussure, βασικός στόχος της γλωσσολογίας είναι να περιγράψει τις γλωσσικές δομές κάθε γλώσσας με στόχο να διατυπώσει θεωρητικές αρχές

Διαβάστε περισσότερα

ΠΑΡΕΜΒΑΣΗ ΣΤΙΣ ΠΡΟ ΓΛΩΣΣΙΚΕΣ ΚΑΙ ΓΛΩΣΣΙΚΕΣ ΔΕΞΙΟΤΗΤΕΣ

ΠΑΡΕΜΒΑΣΗ ΣΤΙΣ ΠΡΟ ΓΛΩΣΣΙΚΕΣ ΚΑΙ ΓΛΩΣΣΙΚΕΣ ΔΕΞΙΟΤΗΤΕΣ ΠΑΡΕΜΒΑΣΗ ΣΤΙΣ ΠΡΟ ΓΛΩΣΣΙΚΕΣ ΚΑΙ ΓΛΩΣΣΙΚΕΣ ΔΕΞΙΟΤΗΤΕΣ Μαρίτσα Καμπούρογλου, Λογοπεδικός Ίδρυμα για το Παιδί «Η Παμμακάριστος» ΑΝ ΜΠΟΡΟΥΣΕ ΝΑ ΜΙΛΗΣΕΙ... Η γλωσσική παρέμβαση Είναι η διαδικασία μέσω της

Διαβάστε περισσότερα

Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών

Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών 1 η Τάξη Στόχοι Τα παιδιά: Αναπτύσσουν, σε κάθε ευκαιρία, τον προφορικό λόγο. Ως ομιλητές απαντούν σε απλές ερωτήσεις, ανακοινώνουν, περιγράφουν,

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής Ο ήχος Ο ήχος είναι μια μορφή ενέργειας Είναι οι παλμικές δονήσεις που δημιουργούνται από ένα οποιοδήποτε σώμα, όταν τεθεί σε κίνηση, σε κραδασμό Την κίνηση σε ένα σώμα που βρίσκεται σε αδράνεια, μπορεί

Διαβάστε περισσότερα

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΕΠΙΜΟΡΦΩΣΗ ΤΩΝ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΓΙΑ ΤΗΝ ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΩΝ ΤΠΕ ΣΤΗ ΔΙΔΑΚΤΙΚΗ ΠΡΑΞΗ ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΟΡΙΟ ΣΥΝΑΡΤΗΣΗΣ ΕΞ ΑΡΙΣΤΕΡΩΝ ΚΑΙ ΕΚ ΔΕΞΙΩΝ ΣΥΓΓΡΑΦΕΑΣ: ΚΟΥΤΙΔΗΣ ΙΩΑΝΝΗΣ

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΜΕΤΑΤΡΟΠΕΙΣ ΣΥΝΕΧΟΥΣ ΡΕΥΜΑΤΟΣ

ΜΕΤΑΤΡΟΠΕΙΣ ΣΥΝΕΧΟΥΣ ΡΕΥΜΑΤΟΣ ΜΑΘ.. 12 ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΜΕΤΑΤΡΟΠΕΙΣ ΣΥΝΕΧΟΥΣ ΡΕΥΜΑΤΟΣ 1. ΓΕΝΙΚΑ Οι μετατροπείς συνεχούς ρεύματος επιτελούν τη μετατροπή μιας τάσης συνεχούς μορφής, σε συνεχή τάση με ρυθμιζόμενο σταθερό πλάτος ή και πολικότητα.

Διαβάστε περισσότερα

Πολυπλεξία. http://diktya-epal-b.ggia.info Creative Commons License 3.0 Share-Alike

Πολυπλεξία. http://diktya-epal-b.ggia.info Creative Commons License 3.0 Share-Alike Πολυπλεξία Ανάλυση σημάτων στο πεδίο χρόνου, συχνότητας, πολυπλεξία διαίρεσης συχνότητας, πολυπλεξία διαίρεσης χρόνου (1.6 ενότητα σελ 19-20, 29-30 και στοιχεία από 2.1 ενότητα σελ. 52-58). http://diktya-epal-b.ggia.info

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα

Σχεδιασμός εκτυπώσεων ERG

Σχεδιασμός εκτυπώσεων ERG Σχεδιασμός εκτυπώσεων ERG Περιεχόμενα Δημιουργία και διαχείριση εκτυπώσεων ERG... 3 Επιλογή πεδίων... 4 Λεπτομέρειες... 6 Καθορισμός φίλτρων... 6 Ταξινόμηση και ομαδοποίηση... 7 Εξαγόμενο εκτύπωσης...

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα