ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»



Σχετικά έγγραφα
Θέµα 5 ο Σύνθεση Οµιλίας

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αναπτυξιακά ορόσημα λόγου

Αναγνώριση Προτύπων Ι

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

MULTICOM 112. Οδηγίες χρήσης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου

Κεφάλαιο 7 Σύνθεση Οµιλίας

Φωνολογική Ανάπτυξη και Διαταραχές

- Καθυστέρηση λόγου (LLI)

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3)

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Φωνολογική Ανάπτυξη και Διαταραχές

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Ε Ι Α Γ Ω Γ Η Σ Ο Ν Π Ρ Ο Γ Ρ Α Μ Μ Α Σ Ι Μ Ο Κ Ε Υ Α Λ Α Ι Ο 6. Σο πρόγραμμα γράφεται σε κάποια γλώσσα προγραμματισμού.

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Δημιουργία προσβάσιμων παρουσιάσεων με χρήση MS-PowerPoint 2010

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Ο γραπτός λόγος στην αναπηρία. Ε. Ντεροπούλου

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

E [ -x ^2 z] = E[x z]

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

Οδηγός γρήγορης εκκίνησης του PowerSuite

Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1

E[ (x- ) ]= trace[(x-x)(x- ) ]

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Ο Οδηγός γρήγορης εκκίνησης

Η ΓΛΩΣΣΙΚΗ ΑΝΑΠΤΥΞΗ ΤΩΝ ΠΑΙΔΙΩΝ ΓΕΝΝΗΣΗ 6 ΕΤΩΝ ΓΛΩΣΣΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ

Τι μαθησιακός τύπος είναι το παιδί σας;

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Τεχνολογία σύνθεσης φωνής από κείμενο

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Πρόβλημα είναι μια κατάσταση η οποία χρήζει αντιμετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή, ούτε προφανής.

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Keywords λέξεις κλειδιά:

Ψευδοκώδικας. November 7, 2011

ΕΙΔΗ,ΤΕΧΝΙΚΕΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΑ ΠΡΟΓΡΑΜΜΑΤΙ- ΣΜΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Επεξεργασία Ερωτήσεων

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ενότητα 1η. Εισαγωγή στην Πληροφορική

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΥΠΟΛΟΓΙΣΤΩΝ

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

Βασίλειος Κοντογιάννης ΠΕ19

Διαχείριση Βάσης Δεδομένων (dbadmin)

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 8 η : Κατάτμηση Εικόνας

Επεξεργασία Ερωτήσεων

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail:

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΟΙ ΕΡΩΤΗΣΕ1Σ III: ΟΙ ΚΛΙΜΑΚΕΣ]

Παρεμβάσεις για τις μαθησιακές δυσκολίες

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Κεφ. 2 Θέματα Θεωρητικής Επιστήμης Υπολογιστών. Κοντογιάννης Βασίλειος ΠΕ19

Δειγματοληψία στην Ερευνα. Ετος

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2

Κεφάλαιο 4: Λογισμικό Συστήματος

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Διακριτός Μετασχηματισμός Fourier

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΑΘΗΜΑ 8 Ο. Ταξινόμηση και Αναζήτηση Συναρτήσεις χειρισμού οθόνης ΣΙΝΑΤΚΑΣ Ι. ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τεχνικές σχεδίασης προγραμμάτων, Προγραμματιστικά Περιβάλλοντα

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης

Πέντε Προτάσεις Αντιμετώπισης των υσκολιών στην Ανάγνωση

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Δομές Δεδομένων & Αλγόριθμοι

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» «ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ Ψ.Ε.Σ. (ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ) ΣΥΣΤΗΜΑΤΟΣ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ ΜΕ ΒΑΣΗ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ΗΝΜ» ΒΑΣΙΛΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ ΠΤΥΧΙΟΥΧΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΡΙΘΜΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ... ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: κ. ΦΑΚΩΤΑΚΗΣ ΝΙΚΟΛΑΟΣ ΤΡΙΜΕΛΗΣ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: κ. ΣΤΟΥΡΑΪΤΗΣ ΑΘΑΝAΣΙΟΣ κ. ΦΑΚΩΤΑΚΗΣ ΝΙΚΟΛΑΟΣ κ. ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ ΟΚΤΩΒΡΙΟΣ 2005

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ... 1 1.1 ΤΙ ΕΙΝΑΙ ΕΝΑ TEXT TO SPEECH (TTS) ΣΥΣΤΗΜΑ... 1 1.2 ΑΠΟ ΤΙ ΑΠΟΤΕΛΕΙΤΑΙ Ο ΗΧΟΣ... 3 1.3 ΠΕΡΙΓΡΑΦΗ ΕΝΟΣ TEXT TO SPEECH (TTS) ΣΥΣΤΗΜΑΤΟΣ... 4 1.3.1 Βαθμίδα Επεξεργασίας Φυσικής Γλώσσας... 5 (Natural Language Proceng - NLP)... 5 1.3.2 Βαθμίδα Ψηφιακής Επεξεργασίας Σήματος... 11 (Dgtal Sgnal Proceng - DSP)... 11 ΚΕΦΑΛΑΙΟ 2 ΤΕΧΝΙΚΕΣ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ... 18 2.1 ΚΑΤΗΓΟΡΙΕΣ ΤΕΧΝΙΚΩΝ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ... 18 2.1.1 ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΣΗΜΑΤΩΝ... 18 2.1.2 ΣΥΝΘΕΣΗ ΒΑΣΙΣΜΕΝΗ ΣΕ ΚΑΝΟΝΕΣ ΚΑΙ ΣΥΝΘΕΣΗ ΜΕ ΣΥΝΕΝΩΣΗ... 18 2.1.3 ΣΥΝΘΕΣΗ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ ΚΑΙ PSOLA ΣΥΝΘΕΣΗ... 19 2.2 FORMANT ΣΥΝΘΕΣΗ... 19 2.3 ΣΥΝΘΕΣΗ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ... 20 2.4 PSOLA ΣΥΝΘΕΣΗ... 21 2.4.1 ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΤΗΣ PSOLA ΣΥΝΘΕΣΗΣ... 21 2.4.2 TD-PSOLA... 22 ΚΕΦΑΛΑΙΟ 3 Ο ΑΛΓΟΡΙΘΜΟΣ PSOLA... 23 3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ... 23 3.1.1 ΗΧΗΡΟΙ ΚΑΙ ΑΗΧΟΙ ΗΧΟΙ... 23 3.1.2 ΥΨΟΣ ΦΩΝΗΣ (PITCH)... 24 3.1.3 ΠΕΡΙΒΑΛΛΟΥΣΑ ΥΨΟΥΣ ΦΩΝΗΣ (PITCH CONTOUR)... 24 3.2 TD-PSOLA ΑΡΧΙΤΕΚΤΟΝΙΚΗ... 25 3.2.1 ΑΝΑΛΥΣΗ ΟΜΙΛΙΑΣ... 26 3.2.2 ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ... 27 3.2.1 ΜΕΤΑΒΟΛΕΣ ΣΤΗΝ ΣΥΝΘΕΤΙΚΗ ΟΜΙΛΙΑ... 27 3.3 ΠΕΡΙΟΡΙΣΜΟΙ ΤΟΥ ΒΑΣΙΚΟΎ ΑΛΓΟΡΙΘΜΟΥ PSOLA... 28 3.4 ΒΕΛΤΙΏΣΕΙΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ PSOLA... 29 3.4.1 FD-PSOLA... 29 3.4.2 LP-PSOLA... 30 3.4.3 MBR-PSOLA... 30 ΚΕΦΑΛΑΙΟ 4 Ο ΑΛΓΟΡΙΘΜΟΣ HNM (HARMONIC PLUS NOISE MODEL)... 31 4.1 ΕΙΣΑΓΩΓΗ... 31 4.2 ΠΕΡΙΓΡΑΦΗ ΤΟΥ HNM... 31 4.3 ΥΠΟΛΟΓΙΣΜΟΣ ΠΑΡΑΜΕΤΡΩΝ HNM... 34 4.3.1 PITCH, VOICING ΚΑΙ ΜΕΓΙΣΤΗ ΗΧΗΡΗ ΣΥΧΝΟΤΗΤΑ... 34 4.3.1.1 ΑΡΧΙΚΗ ΕΚΤΙΜΗΣΗ PITCH... 35 4.3.1.2 VOICED / UNVOICED ΑΠΟΦΑΣΗ... 37 4.3.1.3 ΥΠΟΛΟΓΙΣΜΟΣ ΜΕΓΙΣΤΗΣ ΗΧΗΡΗΣ ΣΥΧΝΟΤΗΤΑΣ... 38 4.3.1.4 ΒΕΛΤΙΩΣΗ ΑΡΧΙΚΗΣ ΕΚΤΙΜΗΣΗ.PITCH... 40 4.3.1.5 ΑΛΓΟΡΙΘΜΟΣ ΑΝΙΧΝΕΥΣΗΣ PITCH... 42 4.3.2 ΥΠΟΛΟΓΙΣΜΟΣ ΠΛΑΤΟΥΣ ΚΑΙ ΦΑΣΗΣ... 44 4.3.3 ΥΠΟΛΟΓΙΣΜΟΣ ΠΑΡΑΜΕΤΡΩΝ ΘΟΡΥΒΟΥ... 47 4.4 ΥΠΟΛΟΓΙΣΜΟΣ ΠΕΡΙΒΑΛΛΟΥΣΩΝ ΠΛΑΤΟΥΣ ΚΑΙ ΦΑΣΗΣ... 48 4.4.1 ΥΠΟΛΟΓΙΣΜΟΣ ΠΕΡΙΒΑΛΛΟΥΣΑΣ ΦΑΣΗΣ... 48 4.4.2 ΥΠΟΛΟΓΙΣΜΟΣ ΠΕΡΙΒΑΛΛΟΥΣΑΣ ΠΛΑΤΟΥΣ... 50 4.5 ΣΥΝΘΕΣΗ ΧΩΡΙΣ ΜΕΤΑΒΟΛΕΣ... 56

4.5.1 ΣΥΝΘΕΣΗ ΤΟΥ ΑΡΜΟΝΙΚΟΥ ΜΕΡΟΥΣ... 56 4.5.2 ΣΥΝΘΕΣΗ ΤΟΥ ΜΕΡΟΥΣ ΘΡΥΒΟΥ... 59 4.6 ΜΙΑ ΕΝΑΛΛΑΚΤΙΚΗ ΜΕΘΟΔΟΣ ΓΙΑ ΤΟ ΜΕΡΟΣ ΘΟΡΥΒΟΥ... 61 4.7 ΠΡΟΣΩΔΙΑΚΕΣ ΜΕΤΑΒΟΛΕΣ... 63 4.7.1 ΥΠΟΛΟΓΙΣΜΟΣ ΧΡΟΝΙΚΩΝ ΣΤΙΓΜΩΝ ΣΥΝΘΕΣΗΣ... 63 4.7.1.1 ΧΡΟΝΙΚΕΣ ΜΕΤΑΒΟΛΕΣ... 63 4.7.1.2 ΜΕΤΑΒΟΛΕΣ PITCH... 65 4.7.1.3 ΣΥΝΔΥΑΣΜΟΣ ΧΡΟΝΙΚΩΝ PITCH ΜΕΤΑΒΟΛΩΝ... 67 4.7.1.4 ΑΝΤΙΣΤΟΙΧΙΣΗ ΧΡΟΝΙΚΩΝ ΣΤΙΓΜΩΝ ΣΥΝΘΕΣΗΣ ΣΤΙΣ ΧΡΟΝΙΚΕΣ ΣΤΙΓΜΕΣ ΑΝΑΛΥΣΗΣ... 67 4.7.2 ΥΠΟΛΟΓΙΣΜΟΣ ΠΛΑΤΟΥΣ ΚΑΙ ΦΑΣΗΣ ΣΤΙΣ ΜΕΤΑΒΛΗΘΕΙΣΕΣ ΑΡΜΟΝΙΚΕΣ ΣΥΧΝΟΤΗΤΕΣ... 68 4.7.2.1 ΣΥΝΘΕΣΗ ΜΕ ΤΗ ΧΡΗΣΗ ΤΩΝ ΤΡΟΠΟΠΟΙΗΜΕΝΩΝ ΠΑΡΑΜΕΤΡΩΝ ΗΜΙΤΟΝΩΝ... 69 4.7.2.2 ΜΕΤΑΒΟΛΕΣ ΕΝΤΑΣΗΣ... 70 4.7.2.3 ΑΛΛΟΥ ΕΙΔΟΥΣ ΜΕΤΑΒΟΛΕΣ... 70 4.7.2.4 ΣΧΗΜΑ ΣΥΝΘΕΣΗΣ ΓΙΑ ΠΡΟΣΩΔΙΑΚΕΣ ΜΕΤΑΒΟΛΕΣ... 71 ΚΕΦΑΛΑΙΟ 5 ΥΛΟΠΟΙΗΣΗ ΤΟΥ TEXT TO SPEECH ΣΥΣΤΗΜΑΤΟΣ... 73 5.1 ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ... 73 5.1.1 ΟΡΓΑΝΩΣΗ ΗΧΗΤΙΚΗΣ ΒΑΣΗΣ... 73 5.1.2 ΛΕΙΤΟΥΡΓΙΑ ΒΑΘΜΙΔΑΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ... 77 5.2 ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ... 79 5.2.1 ΑΝΑΛΥΣΗ ΗΝΜ... 79 5.2.1.1 ΗΝΜParametrzeFle.m... 80 5.2.1.2 CenterSgnal.m... 80 5.2.1.3 SgToFrame.m... 81 5.2.1.4 FFTFrame.m... 81 5.2.1.5 ComputeHarmErrorFFT.m... 81 5.2.1.6 FndBetPathInMnma.m... 82 5.2.1.7 CreatePtchT.m... 84 5.2.1.8 CreateMaxFreqTHard.m... 84 5.2.1.9 GetCplxAmpl.m... 84 5.2.1.10 UnWrapPhae.m... 85 5.2.1.11 GetCeptrCoefFromAmpl.m... 85 5.2.1.12 GetLPCAmplNoe.m... 86 5.2.2 ΣΥΝΘΕΣΗ ΗΝΜ... 86 5.2.2.1 ΗΝΜSynthezeFle.m... 89 5.2.2.2 InvereFunc.m... 90 5.2.2.3 GetNewAk.m... 90 5.2.2.4 GetNewAkFromAmpltudeEnvelope.m... 90 5.2.2.5 GetNewFkFromPhaeEnvelope.m... 91 5.2.2.6 GetNewAkFromAmpltudeEnvelopeIn.m... 91 5.2.2.7 GetNewFkFromPhaeEnvelopeIn.m... 92 5.2.2.8 UnWrapPhaeIn.m... 93 ΚΕΦΑΛΑΙΟ 6 ΠΟΙΟΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΣΜΑΤΩΝ...94 ΠΑΡΑΠΟΜΠΕΣ...114

ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Σκοπός αυτής της διπλωματικής εργασίας είναι η εξέταση της βαθμίδας ΨΕΣ (Ψηφιακής Επεξεργασίας Σήματος) ενός TTS (Τext-To-Speech) Συστήματος και πως μπορεί να χρησιμοποιηθεί ο αλγόριθμος HNM (Harmonc plu Noe Model) για να υλοποιήσουμε ένα σύστημα σύνθεσης ομιλίας. Θα αναφερθούν μερικά εισαγωγικά στοιχεία για τα TTS συστήματα, τη λειτουργία τους και τη χρήση τους καθώς και τις καινοτομίες που εισάγει ο αλγόριθμος HNM τόσο στην κωδικοποίηση του ηχητικού σήματος ομιλίας όσο και στις τεχνικές που χρησιμοποιεί για την επανασύνθεση και την τροποποίηση της διάρκειας και του ptch του αρχικού σήματος. 1.1 ΤΙ ΕΙΝΑΙ ΕΝΑ TEXT TO SPEECH (TTS) ΣΥΣΤΗΜΑ Aπο καιρό υπήρχε η επιθυμία των ανθρώπων να δημιουργήσουν ένα μηχάνημα το οποίο θα μπορούσε να μιλά όπως ο άνθρωπός. Ήδη από τον 18 ο αιώνα είχαν ξεκινήσει τέτοιου είδους προσπάθειες. Τα πρώτα συστήματα παραγωγής ομιλίας ήταν κατασκευασμένα με μηχανικά ή ηλεκτρονικά μέσα [1]. Αν και είχαν γίνει παρά πολλές προσπάθειες, να επιτευχθεί υψηλής ποιότητας ήχος,αυτό μπόρεσε να γίνει εφικτό μόνο μετά την ανακάλυψη των ψηφιακών Η/Υ και αυτό γιατί τα σύγχρονα συστήματα παραγωγής ομιλίας χρησιμοποιούν ψηφιακά μέσα. Λόγω της ευχρηστίας των ψηφιακών μεθόδων μπορούν να εφαρμοστούν πιο περίπλοκοι αλγόριθμοι και έτσι να επιτευχθεί μια αρκετή καλή ποιότητα ομιλίας.[1,2] Πριν γίνει λόγος για τη σύνθεση της ομιλίας θα εξεταστεί πρώτα το τι είναι ένα πλήρες Text To Speech (TTS) σύστημα. Μια απλή παρουσίαση είναι ότι ένα Text To Speech (TTS) είναι σύστημα το οποίο μετατρέπει το γραπτό λόγο σε προφορικό.[3] Ένας αναλυτικότερος και πιο ολοκληρωμένος ορισμός, όμως, θα μπορούσε να είναι ο εξής : ένα Text To Speech (TTS) σύστημα είναι ένα βασισμένο σε υπολογιστή σύστημα που πρέπει να είναι σε θέση να διαβάσει οποιοδήποτε κείμενο μεγαλοφώνως, εάν εισήχθη άμεσα στον υπολογιστή από έναν χειριστή ή εισήχθη με τη βοήθεια canner και έπειτα σε ένα σύστημα οπτικής αναγνώρισης χαρακτήρων (Optcal Character Regognton - OCR).[3] Υπάρχει μια θεμελιώδης διαφορά μεταξύ του συστήματος που συζητείται εδώ και οποιασδήποτε άλλης ομιλούσας μηχανής ( κασετόφωνο παραδείγματος χάριν) υπό την έννοια ότι ο βασικός σκοπός είναι η αυτόματη παραγωγή νέων προτάσεων.[4] Αυτός ο ορισμός χρειάζεται ακόμα μερικούς καθορισμούς. Τα συστήματα που απλά συνενώνουν απομονωμένες λέξεις ή μέρη προτάσεων, που αναφέρονται ως Συστήματα Απόκρισης Φωνής, μπορούν να χρησιμοποιηθούν μόνο όταν απαιτείται ένα περιορισμένο λεξιλόγιο (χαρακτηριστικά μερικές εκατοντάδες λέξεων), και όταν οι προτάσεις έχουν μια πολύ περιορισμένη δομή, όπως συμβαίνει για την ανακοίνωση των αφίξεων στους σταθμούς τραίνων παραδείγματος χάριν[4]. Στα πλαίσια της TTS σύνθεσης, είναι αδύνατο (και ευτυχώς άχρηστο) να καταγραφούν και να αποθηκευτούν όλες οι λέξεις της 1

γλώσσας. Είναι έτσι καταλληλότερο να καθοριστεί ένα Text To Speech (TTS) ως σύστημα αυτόματη παραγωγή ομιλίας, μέσω μετατροπής των στοιχείων γραφής (grapheme) των προτάσεων που θα ειπωθούν σε φωνήματα. Η ανάγνωση θα πρέπει να είναι καταληπτή και φυσική, διότι σε τέτοια συστήματα δεν ενδιαφέρει η απλή αναπαραγωγή της προηχογραφημένης ομιλίας, αλλά κυρίως η φυσικότητα και η καταληπτότητα της ομιλίας[5]. Κάθε προσπάθεια σύνθεσης είναι το αποτέλεσμα μιας ιδιαίτερης και αρχικής μίμησης της ανθρώπινης ικανότητας ανάγνωσης, που υπόκειται στους τεχνολογικούς και επινοητικούς περιορισμούς που είναι χαρακτηριστικοί του χρόνου δημιουργίας της. Η έννοια της υψηλής ποιότητας TTS σύνθεσης εμφανίστηκε στα μέσα της δεκαετία του '80, ως αποτέλεσμα των σημαντικών εξελίξεων στις τεχνικές λεκτικής σύνθεσης και επεξεργασίας φυσικής γλώσσας, που οφείλονται κυρίως στην εμφάνιση των νέων τεχνολογιών[6].οι πιθανές εφαρμογές των υψηλής ποιότητας TTS συστημάτων είναι πράγματι πολυάριθμες. Παρακάτω παρουσιάζονται μερικά παραδείγματα: Τηλεπικοινωνιακές υπηρεσίες. Τα TTS συστήματα καθιστούν πιθανό να έχει κανείς πρόσβαση σε πληροφορίες με μορφή κειμένου από το τηλέφωνο. Οι πληροφορίες σε μορφή κειμένου μπορεί να ειναι από απλά μηνύματα, όπως οι τοπικές πολιτιστικές εκδηλώσεις (κινηματογράφοι, θέατρα...), στις τεράστιες βάσεις δεδομένων που μπορούν μετά βίας να διαβαστούν και να αποθηκευτούν ως ψηφιοποιημένη ομιλία. Οι ερωτήσεις ανάκτησης σε τέτοια συστήματα πληροφοριών θα μπορούσαν να τεθούν μέσω της φωνής του χρήστη (με τη βοήθεια ενός λεκτικού συστήματος αναγνώρισης), ή μέσω του τηλεφωνικού πληκτρολογίου (με τα συστήματα DTMF). Μερικές τηλεφωνικές υπηρεσίες που μπορούν να υλοποιηθούν με τη χρήση TTS συστημάτων είναι: Ηχητική αναγνώριση κλήσεων (μπορεί κανείς να ακούσει το όνομα του καλούντος πριν συνδεθεί η κλήση και την αποφύγει), ολοκληρωμένο μήνυμα (μπορεί κανείς να ακούσει το ηλεκτρονικό ταχυδρομείο ή το facmle αυτόματα από το τηλέφωνο). Αυτές οι εφαρμογές έχουν αποδειχθεί αποδεκτές, και ακόμα και δημοφιλείς, υπό τον όρο ότι η σαφήνεια των συνθετικών εκφράσεων είναι αρκετά υψηλή. Η φυσικότητα δεν ήταν ένα σημαντικό ζήτημα στις περισσότερες περιπτώσεις. Γλωσσική εκπαίδευση. Η υψηλής ποιότητας TTS σύνθεση μπορεί να συνδυαστεί με ένα σύστημα εκμάθησης με βοήθεια υπολογιστή, και να παρέχει ένα χρήσιμο εργαλείο για να μάθει κανείς μια νέα γλώσσα. Κάτι που δεν έχει υλοποιηθεί πλήρως ακόμα, λαμβάνοντας υπόψη τις κρίσιμες απαιτήσεις τέτοιων σκοπών σε αντιδιαστολή με τη σχετικά κακή ποιότητα, που είναι διαθέσιμη στα εμπορικά συστήματα. Βοήθεια στους ανθρώπους με ειδικές ανάγκες. Οι αναπηρίες φωνής δημιουργούνται από διανοητικές ή σωματικές διαταραχές. Οι μηχανές μπορούν να είναι μια ανεκτίμητη βοήθεια στην τελευταία περίπτωση: με τη βοήθεια ενός ειδικά σχεδιασμένου πληκτρολογίου και ενός γρήγορου προγράμματος σύνθεσης προτάσεων, η συνθετική ομιλία μπορεί να παραχθεί σε μερικά δευτερόλεπτα για να ξεπεράσει τέτοιου είδους εμπόδια. Όσοι άνθρωποι επίσης πάσχουν από 2

προβλήματα όρασης μπορούν να ωφεληθούν από TTS συστήματα, τα οποία μπορούν να συνδεθούν με τα οπτικά συστήματα αναγνώρισης (OCR) και να προσφέρουν πρόσβαση σε γραπτές πληροφορίες. Ομιλούντα βιβλία και παιχνίδια. Η αγορά παιχνιδιών έχει αγγιχτεί ήδη από τη λεκτική σύνθεση. Πολλά παιχνίδια ομιλίας έχουν εμφανιστεί, η κακή ποιότητα των οποίων αναπόφευκτα σταματά την εκπαιδευτική φιλοδοξία τέτοιων προϊόντων. Η υψηλής ποιότητας σύνθεση όμως σε προσιτές τιμές μπορεί να ανατρέψει κάτι τέτοιο. Φωνητικός έλεγχος. Σε μερικές περιπτώσεις, οι προφορικές πληροφορίες είναι αποδοτικότερες από τα γραπτά μηνύματα. Η φωνητική έκκληση είναι ισχυρότερη, ενώ η προσοχή μπορεί να εστιάσει και σε άλλες οπτικές πηγές πληροφοριών. Πολυμέσα, επικοινωνία ανθρώπου-μηχανής. Μακροπρόθεσμα, η ανάπτυξη των υψηλής ποιότητας TTS συστημάτων είναι ένα απαραίτητο βήμα (όπως είναι η αύξηση των λεκτικών συστημάτων αναγνώρισης) προς τους πληρέστερους τρόπους επικοινωνίας μεταξύ των ατόμων και των υπολογιστών. Τα πολυμέσα είναι μια πρώτη αλλά ελπιδοφόρος κίνηση σε αυτήν την κατεύθυνση. Βασική και εφαρμοσμένη έρευνα. Τα Text To Speech (TTS) συστήματα έχουν ένα πολύ ιδιαίτερο χαρακτηριστικό γνώρισμα που τα κάνει θαυμάσια εργαστηριακά εργαλεία για τους γλωσσολόγους: είναι πλήρως ελεγχόμενα, έτσι ώστε όταν επαναλαμβάνεται η ίδια διαδικασία να μπορεί να παρέχει τα ίδια αποτελέσματα (κάτι που δεν συμβαίνει με τους ανθρώπους). Ένας ιδιαίτερος τύπος TTS συστημάτων, που είναι βασισμένα σε μια περιγραφή του φωνητικού σήματος μέσω των ηχηρών συχνοτήτων του (formant) έχει επίσης χρησιμοποιηθεί εκτενώς από επιστήμονες στην μελέτη της ομιλία σε σχέση με τους ακουστικούς κανόνες. 1.2 ΑΠΟ ΤΙ ΑΠΟΤΕΛΕΙΤΑΙ Ο ΗΧΟΣ Για να επιτευχθεί φυσική ομιλία χρειάζεται να βαθύτερη γνώση για την ίδια τη φύση της ομιλίας. Πολλές έρευνες που διεξήχθησαν για εκατοντάδες χρόνια δείχνουν ότι η ομιλία είναι ένα πολύ περίπλοκο φαινόμενο. Για να μπορέσει κανείς να έχει μια πλήρη εικόνα της ομιλίας, πρέπει να τη δει σε διάφορα επίπεδα, το οποία ονομαστικά είναι τα εξής: το ακουστικό, το φωνητικό το φωνολογικό το μορφολογικό, το συντακτικό, το σημασιολογικό και το πραγματικό[7]. Στο ακουστικό επίπεδο η ομιλία είναι ένα σύνολο σημάτων των οποίων το πλάτος μεταβάλλεται με το χρόνο. Αν γίνει ανάλυση σε αυτά τα σήματα το καθένα μπορεί να αναγνωριστεί από τη θεμελιώδη συχνότητα, την ένταση και τις κατανομές της φασματικής ενέργειας. Κάθε ακουστικό γνώρισμα σχετίζεται με μια ποσότητα, 3

αντιληπτή από τον άνθρωπο: το ύψος της φωνής (ptch), την ένταση της φωνής (loudne) και τη χροιά (tmbre)[7,8]. Η παρατήρηση της χρονικής κυματομορφής της ομιλίας εμφανίζει μια εναλλαγή μεταξύ παύσεων και τμημάτων που μπορούν να θεωρηθούν περιοδικά ή τμημάτων θορύβου, τα οποία τμήματα ονομάζονται αντίστοιχα ηχηρά (voce) και άηχα (unvoced). Για τα ηχηρά τμήματα η θεμελιώδης συχνότητα της ανθρώπινης φωνής έχει έκταση από 70 μέχρι 200 Hz για τους άνδρες, από 150 μέχρι 400 Hz για τις γυναίκες και από 200 μέχρι 600 Hz για τα παιδία[8]. Στο φωνητικό επίπεδο η ομιλία μπορεί να διαιρεθεί σε μικρά κομμάτια, τα οποία μπορούν να ομαδοποιηθούν σε φωνητικές κλάσεις ανάλογα με το τρόπο άρθρωσης τους. Στην νεοελληνική γλώσσα χωρίζουμε τριάντα ομάδες, στα οποία περιλαμβάνονται πέντε φωνήεντα, δεκαοχτώ σύμφωνα και επτά αλλόφωνα[8]. Τα φωνήεντα χωρίζονται σε 3 κατηγορίες τα πρόσθια φωνήεντα τα πίσω φωνήεντα και τα κεντρικά φωνήεντα. Μπορούμε επίσης να ορίσουμε μια τέταρτη κατηγορία φωνηέντων που να περιλαμβάνει τους δίφθογγούς. Τα σύμφωνα χωρίζονται σε εκρηκτικά, τυρβώδη, ένρινα, ημιφωνήεντα και μη τυρβώδη[7] Στο φωνολογικό επίπεδο διαχωρίζουμε φωνήματα, ενώ στο μορφολογικό λέξεις. Το συντακτικό επίπεδο ασχολείται με τη γραμματική, το σημασιολογικό δίνει έμφαση στο νόημα και τέλος το πραγματικό επίπεδο καλύπτει κάποια υπονοούμενα της ομιλίας 1.3 ΠΕΡΙΓΡΑΦΗ ΕΝΟΣ TEXT TO SPEECH (TTS) ΣΥΣΤΗΜΑΤΟΣ Τα μοντέρνα Text To Speech (TTS) συστήματα αποτελούνται από δύο κύρια μέρη : το επίπεδο Επεξεργασίας Φυσικής Γλώσσας (Natural Language Proceng - NLP) και το επίπεδο Ψηφιακής Επεξεργασίας Σήματος (Dgtal Sngle Proceng DSP)[3]. Το Σχήμα 1.1 δείχνει το λειτουργικό διάγραμμα ενός πολύ γενικού Text To Speech (TTS) συστήματος. Για την λειτουργία που αντιστοιχεί στη ανθρώπινη ανάγνωση, περιλαμβάνει την βαθμίδα Επεξεργασίας Φυσικής Γλώσσας [5] (Natural Language Proceng - NLP), η οποία αποδίδει μια φωνητική γραφή του κειμένου που διαβάζεται μαζί με τον επιθυμητό τονισμό και την επιθυμητή ταχύτητα του κειμένου (που καλούνται συχνά και προσωδία) -η διαδικασία καθορισμού της προσωδίας είναι πολύ σημαντική διότι περεχεί της απαραίτητες πληροφορίες για την παραγωγής μιας φυσικής ομιλίας - και μια βαθμίδα Ψηφιακής Επεξεργασίας Σήματος[5] (Dgtal Sngle Proceng DSP), που μετατρέπει τις συμβολικές πληροφορίες που λαμβάνει σε ομιλία. Σχήμα 1.1. Ένα απλό λειτουργικό διάγραμμα ενός Text To Speech (TTS) 4

Πολλές φορές οι φορμαλισμοί και οι αλγόριθμοι που εφαρμόζονται πετυχαίνουν, λόγω των μαθηματικών και γλωσσικών μοντέλων γνώσης που χρησιμοποιούνται, να βραχυκυκλώσουν ορισμένα βήματα επεξεργασίας. Αυτό επιτυγχάνεται, περιστασιακά, εις βάρος μερικών περιορισμών στο προς ανάγνωση κείμενο, ή αλλιώς οδηγεί σε κάποια μείωση της "συναισθηματικής δυναμικής" της συνθετικής φωνής (τουλάχιστον σε σύγκριση με την ανθρώπινη απόδοση), αλλά γενικά επιτρέπει τη λύση του προβλήματος σε πραγματικό χρόνο με τις περιορισμένες απαιτήσεις για μνήμη. 1.3.1 Βαθμίδα Επεξεργασίας Φυσικής Γλώσσας (Natural Language Proceng - NLP) Το Σχήμα 1.2 παρουσιάζει γενικά το διάγραμμα μιας NLP βαθμίδας σε ένα TTS σύστημα. Κάτι που γίνεται αμέσως φανερό είναι ότι, επιπλέον από τις αναμενόμενες δομές μετατροπής των γραμμάτων σε ήχους και προσωδίας, περιλαμβάνει έναν μορφοσυντακτικό αναλυτή, ο οποίος αναδύει έμμεσα την ανάγκη για συντακτική επεξεργασία, σε ένα υψηλής ποιότητας Text To Speech σύστημα.[9] Πράγματι, το να μπορεί να καταμερισθεί μια δεδομένη πρόταση σε μικρότερα μέρή, π.χ. στα μέρη του λόγου που την αποτελούν, και να μπορεί να περιγραφεί περαιτέρω υπό μορφή συντακτικού δέντρου, το οποίο να παρουσιάζει την εσωτερική δομή της πρότασης, απαιτείται για τουλάχιστον δύο λόγους: 1. Η ακριβής φωνητική μετατροπή μπορεί να επιτευχθεί μόνο υπό τον όρο ότι είναι διαθέσιμες κατηγορίες μέρων του λόγου, καθώς επίσης και εάν είναι γνωστή η σχέση εξάρτησης μεταξύ των διαδοχικών λέξεων. 2. Η φυσική προσωδία στηρίζεται σε μεγάλο ποσοστό στη σύνταξη. Προφανώς έχει επίσης, να κάνει πολύ με τη σημασιολογία και την πραγματολογία, αλλά δεδομένου ότι πολύ λίγα στοιχεία είναι διαθέσιμα σήμερα για αυτά τα θέματα τα TTS συστήματα επικεντρώνονται μόνο στη σύνταξη και προς το παρόν, μόνο σε λίγα τέτοια συστήματα παρέχονται πραγματικά οι πλήρεις ικανότητες αποσαφήνισης και διάρθρωσης. Στο Σχήμα 1.2 βλέπουμε επίσης τη βαθμίδα NLP να είναι σαφώς διαχωρισμένη σε 3 τμήματα, αυτά είναι το τμήμα Ανάλυσης Κειμένου (Text Analy), Αυτόματης Φωνοποίησης (Automatc Phonetzaton ) και Παραγωγής Προσωδίας (Proody Generaton), τα οποία εξετάζονται συνοπτικά παρακάτω[10]. 5

Σχήμα 1.2. Γενικό διάγραμμα βαθμίδας NLP Τμήμα Ανάλυσης Κειμένου (Text Analy) To τμήμα ανάλυσης κειμένού αποτελείται από: μια ενότητα προεπεξεργασίας (pre-proceng module), η οποία οργανώνει τις προτάσεις εισαγωγής σε εύχρηστους καταλόγους λέξεων. Προσδιορίζει τους αριθμούς, τις συντμήσεις, τα αρκτικόλεξα και τους ιδιωματισμούς και τους μετασχηματίζει σε πλήρες κείμενο όταν αυτό απαιτείται. Ένα σημαντικό πρόβλημα παρουσιάζεται με την ασάφεια των σημείων στίξης (συμπεριλαμβανομένης της κρίσιμης περίπτωσης που αναζητείται το τέλος μια πρότασης).το παραπάνω πρόβλημα μπορεί να λυθεί, ως ένα ορισμένο βαθμό, με τις στοιχειώδεις κανονικές γραμματικές. 6

μια ενότητα μορφολογικής ανάλυσης (morphologcal analy module), ο στόχος της οποίας είναι να προταθούν όλες οι πιθανές κατηγορίες των μέρων του λόγου που μπορεί να ανήκει η κάθε λέξη ξεχωριστά, ανάλογα με την ορθογραφία της. Κλιμένες, παραγόμενες, και σύνθετες λέξεις αποσυντίθενται στις βασικές γραφηματικές μονάδες τους (τα morph) από λεξικά που χρησιμοποιούν απλούς κανόνες γραμματικής η ενότητα ανάλυσης συμφραζόμένων (contextual analy module), εξετάζει το περιεχόμενο των λέξεων με σκοπό να μειώσει τον κατάλογο των πιθανών κατηγοριών μέρους του λόγου, που μπορεί να ανήκει η κάθε λέξη, σε έναν πολύ περιορισμένο αριθμό ιδιαίτερα πιθανών υποθέσεων, λαμβάνοντας υπόψη τα αντίστοιχα πιθανά μέρη του λόγου των γειτονικών λέξεων. Αυτό μπορεί να επιτευχθεί είτε με n-gram, που περιγράφουν τις τοπικές συντακτικές εξαρτήσεις με τη μορφή πιθανολογικών αυτομάτων πεπερασμένων καταστάσεων (δηλ. ως μοντέλο Μarkov), σε μικρότερη έκταση με πολυεπίπεδα perceptron (δηλ. νευρικά δίκτυα) που εκπαιδεύονται σε κανόνες συμφραζομένων, ή με τοπικές, μη-στοχαστικές γραμματικές που παρέχονται από τους ειδικούς γλωσσολόγους ή που προκύπτουν αυτόματα από ένα σύνολο στοιχείων με τεχνικές δέντρων ταξινόμησης και οπισθοδρόμησης (Clafcaton And Regreon Tree- CART) και τελικά, ένας συντακτικός-προσωδιακός αναλυτής (Syntactc-Proodc Parer), ο οποίος εξετάζει το υπόλοιπο διάστημα αναζήτησης και βρίσκει τη δομή κειμένων (δηλ. την οργάνωσή του στην πρόταση και τα φρασεολογικά συστατικά) που συσχετίζεται περισσότερο με την αναμενόμενη προσωδία του. Τμήμα Αυτόματης Φωνοποίησης (Automatc Phonetzaton ) Η μονάδα Letter To Sound (LTS) είναι αρμόδια για τον αυτόματο καθορισμό της φωνητικής μετατροπής του κειμένου εισόδου. Εκ πρώτης όψεως φαίνεται, ότι ο στόχος της είναι το ίδιο απλός με το να ψάχνεις μια λέξη σε ένα λεξικό! Από μια βαθύτερη εξέταση, όμως, γρήγορα συνειδητοποιεί κανείς ότι οι περισσότερες λέξεις εμφανίζονται σε φυσική ομιλία με διάφορες φωνητικές μετατροπές, πολλές από τις οποίες δεν αναφέρονται ακόμη και στα λεξικά προφοράς. Δηλαδή: 1. τα λεξικά προφοράς αναφέρονται μόνο στη ρίζα της λέξης. Δεν συμπεριλαμβάνουν μορφολογικές παραλλαγές (δηλ. πληθυντικός, θηλυκός, κλίσεις, που πρέπει να εξεταστούν από ένα συγκεκριμένο κλάδο της φωνολογίας, αποκαλούμενο, μορφοφωνολογία). 2. μερικές λέξεις αντιστοιχούν σε διαφορετικά λήμματα στο λεξικό, ή γενικότερα σε διάφορες μορφολογικές αναλύσεις, με διαφορετικές προφορές. Αυτή είναι χαρακτηριστικά η περίπτωση των ετερόφωνων ομογράφων, δηλ. λέξεις που προφέρονται διαφορετικά ακόμα κι αν έχουν την ίδια ορθογραφία. Η σωστή προφορά τους εξαρτάται γενικά από τι μέρος του λόγου είναι, αν και μπορεί επίσης να βασιστεί στα συντακτικά γνωρίσματα, 7

3. δεν μπορούν όλες οι λέξεις να βρεθούν σε ένα φωνητικό λεξικό: η προφορά των νέων λέξεων και πολλών ονομάτων πρέπει να μπορεί να προκύψει από τις προφορές των ήδη γνωστών λέξεών. Είναι επίσης δυνατό ο στόχος της ενότητας LTS να οργανωθεί από πολλές απόψεις (Σχήμα 1.3), συχνά όμως ταξινομείται χοντρικά σε στρατηγικές βασισμένες σε λεξικά[9] και στρατηγικές βασισμένες σε κανόνες[11], αν και υπάρχουν πολλές ενδιάμεσες λύσεις. Σχήμα 1.3. Στρατηγικές βασισμένες σε λεξικά και στρατηγικές βασισμένες σε κανόνες, Οι λύσεις βασισμένες σε λεξικά προτείνουν την αποθήκευση μιας πολύ μεγάλης ποσότητας της φωνολογικής γνώσης σε ένα λεξικό. Προκειμένου να κρατηθεί το μέγεθός της εύλογα μικρό, οι καταχωρήσεις είναι γενικά περιορισμένες στα μορφήματα, και η προφορά επιτυγχάνεται από κλιτικούς, παραγωγικούς, και συνθετικούς μορφοφωνητικόυς κανόνες που περιγράφουν πώς τροποποιούνται οι φωνητικές μετατροπές των μορφηματικών συστατικών τους όταν συνδυάζονται σε λέξεις. Τα μορφήματα που δεν μπορούν να βρεθούν στο λεξικό μετατρέπονται από κανόνες. Αφού έχει ληφθεί μια πρώτη φωνητική μετατροπή κάθε λέξης, εφαρμόζεται κάποια φωνητική μετα-επεξεργασία, ώστε να εξομαλύνει τα φαινόμενα συνάρθρωσής. Αυτή η προσέγγιση έχει ακολουθηθεί από το σύστημα MITTALK [1] και ένα λεξικό μέχρι 12.000 μορφημάτων κάλυψε περίπου 95% των λέξεων εισαγωγής. Μια μάλλον διαφορετική στρατηγική υιοθετείται στα βασισμένα σε κανόνες συστήματα [11], τα οποία μεταφέρουν το μεγαλύτερο μέρος της φωνολογικής «αξίας» των λεξικών σε ένα σύνολο letter to ound (ή grapheme to phoneme) κανόνων. Αυτή τη φορά,μόνο εκείνες οι λέξεις που προφέρονται με έναν τέτοιο ιδιαίτερο τρόπο, ώστε να αποτελούν έναν κανόνα από μόνες τους, αποθηκεύονται σε ένα λεξικό εξαιρέσεων. Στα αγγλικά, παραδείγματος χάριν, 2000 λέξεις αρκούν χαρακτηριστικά να καλύψουν το 70% των λέξεων σε ένα κείμενο Τα πρώτα χρόνια των παντοδύναμων μεθόδων βασισμένων σε λεξικά είχε υποστηριχτεί ότι ήταν ικανές να πετύχουν μεγαλύτερη ακρίβεια από τις μεθόδους βασισμένες σε κανόνες, δεδομένης της δυνατότητας πολύ μεγάλων φωνετικών λεξικών σε Η/Υ. Αφ' ετέρου, ιδιαίτερες προσπάθειες έχουν καταβληθεί πρόσφατα για το σχεδιασμό συνόλων κανόνων με μια πολύ ευρεία κάλυψη (που αρχίζουν από τα 8

αυτοματοποιημένα λεξικά,που προσθέτουν κανόνες και εξαιρέσεις έως ότου καλύπτονται όλες οι λέξεις. Είναι προφανές πως σε αυτές τις δύο τάσεις θα πρέπει να υπάρξει κάποιος συμβιβασμός και αυτός ο συμβιβασμός είναι εξαρτώμενος από τη φύση της γλώσσα που μας ενδιαφέρει σε κάθε περίπτωση[10]. Παραγωγή Προσωδίας (Proody Generaton) Ο όρος προσωδία αναφέρεται σε ορισμένες ιδιότητες του σήματος ομιλίας που συσχετίζονται με τις ευδιάκριτες αλλαγές στο ύψος και στην ένταση της φωνής, στο μήκος συλλαβών κτλ [13]. Τα προσωδιακά γνωρίσματα έχουν συγκεκριμένες λειτουργίες στη λεκτική επικοινωνία (βλ. Σχήμα 1.4). Η προφανέστερη επίδραση της προσωδίας είναι αυτή της εστίασης. Παραδείγματος χάριν, υπάρχουν ορισμένες περιπτώσεις ύψους φωνής που κάνουν μια συλλαβή να ξεχωρίσει μέσα στη φράση, και έμμεσα, η λέξη ή η συντακτική ομάδα που ανήκει, θα τονιστεί ως σημαντικό ή νέο συστατικό της έννοιας αυτής της φράσης. Το που θα τονιστεί μια φράση μπορεί να έχει διάφορα αποτελέσματα, όπως να παρουσιάζει αντίθεση ή να αλλάζει το σημασιολογικό πλαίσιο της φράσης. Σχήμα 1.4. Διαφορετικά είδη πληροφορίας που παρέχονται από την προσωδία (οι γραμμές δείχνουν τις μετακινήσεις του ύψους φωνής- οι έντονες γραμμές δείχνουν τον τονισμό ). a. Εστίαση ή δεδομένες/ νέες πληροφορίες b. Σχέσεις μεταξύ των λέξεων (aw-yeterday; I-yeterday; I-hm) c. Σκοπός (κορυφή) ή συνέχεια (κατώτατο σημείο), όπως εμφανίζεται στην τελευταία συλλαβή d. Κατάτμηση της πρότασης σε ομάδες συλλαβών. 9

Τα προσωδιακά χαρακτηριστικά γνωρίσματα δημιουργούν μια κατάτμηση της λεκτικής αλυσίδας σε ομάδες συλλαβών, ή αντίθετα, προκαλούν την ομαδοποίηση των συλλαβών και των λέξεων σε μεγαλύτερα κομμάτια. Επιπλέον, υπάρχουν προσωδιακά χαρακτηριστικά γνωρίσματα που υποδεικνύουν τις σχέσεις μεταξύ τέτοιων ομάδων, που δείχνουν δηλαδή ότι δύο ή περισσότερες ομάδες συλλαβών συνδέονται με κάποιο τρόπο. Αυτή η επίδραση ομαδοποίησης είναι ιεραρχική, αν και όχι απαραιτήτως ίδια με τη συντακτική δόμηση της έκφρασης. Αυτό δεν σημαίνει ότι τα TTS συστήματα είναι καταδικασμένα σε μια "ρομπότικη" προσωδία, αν δεχτεί κανείς έναν σημαντικό περιορισμό στη φυσικότητα της συνθετικής φωνής, δηλ. ότι η προσωδία της διατηρείται σε ένα "αποδεκτά ουδέτερο" επίπεδο: "Η αποδεκτή προσωδία πρέπει να είναι εύλογη, αλλά δεν χρειάζεται να είναι η καταλληλότερη προσωδία για μια συγκεκριμένη έκφραση:δεν χρειάζεται να γίνει καμία υπόθεση της κατανόησης ή της παραγωγής της, από τη μηχανή. Η ουδέτερη προσωδία δεν εκφράζει ασυνήθιστη έμφαση, συγκριτικό τονισμό ή υφολογικά στυλ: είναι η προσωδία που θα χρησιμοποιηθεί για μια έκφραση χωρίς νόημα (...) Αυτή η προσέγγιση αφαιρεί την ανάγκη για την αναφορά στο νόημα της φράσης ή την παγκόσμια γνώση ενώ διατηρεί τους φιλόδοξους γλωσσικούς στόχους της."[14] Η βασική ιδέα είναι ότι η "σωστή" συντακτική δομή, αυτή που απαιτεί ακριβώς κάποια σημασιολογική και πραγματική διορατικότητα, δεν είναι ουσιαστική για την παραγωγή μιας τέτοιας προσωδίας. Έχοντας υπ όψιν αυτές τις εκτιμήσεις, δεν είναι προκαλεί έκπληξη το γεγονός ότι τα εμπορικά αναπτυγμένα σύστημα έχουν επικεντρωθεί στην εμπορική κάλυψη παρά στη γλωσσική εκλέπτυνση, με τη συγκέντρωση των προσπαθειών τους στις στρατηγικές ανάλυσης κειμένων που στοχεύουν να τμηματοποιήσουν τη δομή επιφάνειας των προτάσεων εισόδου, σε αντιδιαστολή με τη συντακτικά, σημασιολογικά, και πρακτικά βαθιά δομή. Με άλλα λόγια, εστιάζουν στη λήψη μιας αποδεκτής κατάτμησης και το μεταφράζουν σε σημεία συνέχειας ή σκοπού του Σχήματος 1.4.c, αλλά αγνοούν τις σχέσεις ή τη συγκριτική έννοια του Σχήματος 1.4.a και b. Άλλες, περιπλοκότερες προσεγγίσεις περιλαμβάνουν τα βασισμένα στη σύνταξη έμπειρα συστήματα και τις μεθόδους βασισμένες σε αυτόματη συλλογή ηχητικών στοιχείων γλώσσας. Μόλις παραχθεί η συντακτική-προσωδιακή δομή μιας πρότασης, χρησιμοποιείται για να ληφθεί η ακριβής χρονική διάρκεια κάθε φωνήματος (και των παύσεων), καθώς επίσης και της προσωδίας που θα εφαρμοστεί σε αυτή. Εντούτοις ούτε αυτό το τελευταίο βήμα, δεν είναι απλό Απαιτεί να τυποποιηθεί πολύ μεγάλη ποσότητα φωνητικών ή φωνολογικών δεδομένων, που είτε λαμβάνεται από τους εμπειρογνώμονες είτε αποκτάται αυτόματα από δεδομένα με στατιστικές μεθόδους. 10

1.3.2 Βαθμίδα Ψηφιακής Επεξεργασίας Σήματος (Dgtal Sgnal Proceng - DSP) Εύκολα μπορεί να καταλάβει κανείς ότι οι διαδικασίες που περιλαμβάνονται στην ενότητα DSP θα είναι το υπολογιστικό ανάλογο του δυναμικού ελέγχου των μυών άρθρωσής και της συχνότητας διέγερσης των φωνητικών χορδών έτσι ώστε το σήμα εξόδου να έχει τα επιθυμητά χαρακτηριστικά. Προκειμένου να μπορέσει να το επιτύχει αυτό, η ενότητα DSP πρέπει να λάβει με κάποιο τρόπο υπόψη, τους περιορισμούς στην άρθρωση, μιας και εδώ και πολύ καιρό είναι γνωστό ότι οι φωνητικές μεταβάσεις είναι σημαντικότερες από τις σταθερές καταστάσεις για την κατανόηση της ομιλίας. Αυτό, στη συνέχεια, μπορεί να γίνει εφικτό με δύο τρόπους: Με τη μορφή μιας σειράς κανόνων που περιγράφουν τυπικά την επιρροή ενός φωνήματος σε ένα άλλο Mε την αποθήκευση παραδειγμάτων των φωνητικών μεταβάσεων και των συναρθρώσεων σε μια βάση δεδομένων τμημάτων ομιλίας, και τη χρήση τους ακριβώς στη μορφή που είναι, δηλαδή ως απόλυτες ακουστικές μονάδες (αντί των φωνημάτων). Δύο κύριες κατηγορίες Text To Speech (TTS) συστημάτων έχουν προκύψει από τους δυο παραπάνω τρόπους, οι οποίες μετατράπηκαν γρήγορα σε φιλοσοφίες σύνθεσης, δεδομένου των αποκλίσεων που παρουσιάζουν στα μέσα και τους στόχους τους: σύνθεση με κανόνες και σύνθεση με συνένωση. Σύνθεση με κανόνες Οι βασισμένοι σε κανόνες ynthezer προτιμούνται συνήθως από φωνητιστές και φωνολόγους, δεδομένου ότι αποτελούν μια γνωστική και παραγωγική προσέγγιση του μηχανισμού φώνησης. Η ευρεία διάδοση του Klatt ynthezer [15], παραδείγματος χάριν, οφείλεται κυρίως στην ανεκτίμητη βοήθειά του στη μελέτη των χαρακτηριστικών της φυσικής ομιλίας, αφού παρείχε τη δυνατότητα λεπτομερής ακρόασης ομιλίας συνθεμένης με κανόνες. Επίσής η ύπαρξη των παραμέτρων άρθρωσης και των εισόδων του μοντέλου Klatt το καταστά ένα πρακτικό εργαλείο για τη διερεύνηση των περιορισμών φυσιολογίας Για ιστορικούς και πρακτικούς λόγους (κυρίως η ανάγκη για μια φυσική ερμηνεία του προτύπου), οι βασισμένοι σε κανόνες ynthezer εμφανίζονται πάντα με τη μορφή formant ynthezer.formant ή συντονισμοί ονομάζονται οι φυσικές συχνότητες του φωνητικού καναλιού. Αυτοί περιγράφουν την ομιλία ως τη δυναμική εξέλιξη μέχρι και 60 παραμέτρων, οι οποίες συνήθως σχετίζονται με τις formant και αντί-formant 11

συχνότητες και εύρη ζώνης καθώς και με γλωττιδικές κυματομορφές. Σαφώς, ο μεγάλος αριθμός παραμέτρων περιπλέκει το στάδιο ανάλυσης και τείνει να παραγάγει λάθη ανάλυσης καθώς επίσης και οτι οι formant συχνότητες και εύρη ζώνης είναι από τη φύση τους δύσκολο να υπολογιστούν από τα δεδομένα ομιλίας. Η ανάγκη για εντατικές δοκιμές και λάθη προκειμένου να αντιμετωπιστούν τα σφάλματα ανάλυσης, κάνει την ανάπτυξη τέτοιων συστημάτων αρκετά χρονοβόρα Ακόμα, η ποιότητα σύνθεσης που έχει επιτευχθεί έως τώρα εισάγει χαρακτηριστικά προβλήματα θορύβου τα οποία προέρχονται από τους ίδιους τους κανόνες που χρησιμοποιούνται για τη σύνθεση: η εισαγωγή ενός υψηλού βαθμού φυσικότητας είναι θεωρητικά δυνατή, αλλά οι κανόνες που θα το καταφέρουν αυτό δεν έχουν ακόμα οριστεί. Παρόλα αυτά οι βασισμένοι σε κανόνες ynthezer παραμένουν, εντούτοις, μια ισχυρή και με πολλές δυνατότητες προσέγγιση στη σύνθεση ομιλίας. Επιτρέπουν, παραδείγματος χάριν, να μελετηθούν γνωρίσματα φωνής που εξαρτώνται από τον ομιλητή έτσι ώστε η μετατροπή από μια συνθετική φωνή σε μια άλλη να μπορεί να επιτευχθεί με τη βοήθεια εξειδικευμένων κανόνων στη βάση δεδομένων κανόνών. Με την ίδια λογική, η σύνθεση με κανόνες φαίνεται να είναι ένας φυσικός τρόπος χειρισμού των αλλαγών, λόγω άρθρωσης, στις μορφές ομιλίας (σε αντιπαράθεση με το προσωδιακό τους συμπλήρωμα, το οποίο μπορεί να επεξεργαστεί από τους ynthezer βασισμένους σε συνένωση). Δεν αποτελεί έκπληξη λοιπόν το γεγονός ότι τέτοιοι ynthezer έχούν ενσωματωθεί ευρέως σε TTS συστήματα (MITTALK [1] και ο JSRU ynthezer [11] για τα αγγλικά, το πολύγλωσσο σύστημα INFOVOX [12], και το σύστημα I.N.R.S [16] για τα γαλλικά). Σύνθεση με συνένωση Σε αντιδιαστολή με τους βασισμένους σε κανόνες ynthezer, οι ynthezer με συνένωση κατέχουν μια πολύ περιορισμένη γνώση των στοιχείων που χειρίζονται: το μεγαλύτερο μέρος της οποίας ενσωματώνεται στα τμήματα που θα συνενωθούν[17]. Αυτό φαίνεται καθαρά στο Σχήμα 1.5, όπου όλες οι διαδικασίες που εκτελούνται θα μπορούσαν πολύ άνετα να χρησιμοποιηθούν και στα πλαίσια ενός μουσικού ynthezer (δηλ. χωρίς να γίνεται οποιαδήποτε αναφορά στην εσωτερική φύση των ήχων που υποβάλλονται σε επεξεργασία) έχουν ομαδοποιηθεί σε μια πλήρης επεξεργαστική μονάδα, σε αντίθεση με την προαναφερθείσα μονάδα επεξεργασίας ομιλίας, της οποίας ο σχεδιασμός απαιτεί τουλάχιστον κάποια κατανόηση της φωνολογίας 12

Σχήμα 1.5. Το διάγραμμα ενός γενικού ynthezer σύνθεσης με συνένωση. Οι διαδικασίες και τα δεδομένα που εξαρτώνται από τη γλώσσα υποδεικνύονται από μια σημαία Προετοιμασία Της Βάσης Δεδομένων Μια σειρά προκαταρκτικών βημάτων πρέπει να εκπληρωθεί προτού να μπορέσει να παραγάγει ο ynthezer την πρώτη του έκφρασή[18]. Αρχικά, τα τμήματα ομιλίας επιλέγονται έτσι ώστε να ελαχιστοποιηθούν τα μελλοντικά προβλήματα στη συνένωση. Ένας συνδυασμός διφώνων (δηλ. μονάδων που αρχίζουν στη μέση της σταθερής κατάστασης ενός φωνήματος και τελειώνουν στη μέση του επόμενου), οι μισές 13

συλλαβές, και τρίφωνα (που διαφέρουν από τα δίφωνα στο ότι περιλαμβάνουν ένα πλήρες κεντρικό φώνημα) επιλέγονται συχνά ως λεκτικές μονάδες, δεδομένου ότι περιλαμβάνουν τις περισσότερες από τις μεταβάσεις και τις συναρθρώσεις απαιτώντας για την αποθήκευσή τους μια λογική ποσότητα μνήμης. Όταν συμπληρωθεί ένας πλήρης κατάλογος τμημάτων ομιλίας, ένας αντίστοιχος κατάλογος λέξεων δημιουργείται, κατά τέτοιο τρόπο ώστε κάθε τμήμα να εμφανίζεται τουλάχιστον μία φορά (αν και δύο φορές είναι καλύτερα, για λόγους ασφάλειας). Ανεπιθύμητα μέρη, όπως εσωτερικά τονισμένες συλλαβές, αποκλείονται. Στη συνέχεια ένα κυρίως σώμα, μια συλλογή ηχητικών στοιχείων από τα παραπάνω τμήματα ομιλίας, καταγράφεται ψηφιακά και αποθηκεύεται, και τα επιλεγμένα τμήματα εντοπίζονται, είτε χειροκίνητα με τη βοήθεια εργαλείων απεικόνισης σημάτων, είτε αυτόματα χάρη στους αλγορίθμους κατάτμησης, οι αποφάσεις των οποίων ελέγχονται και διορθώνονται αμφίδρομα. Μια βάση δεδομένων τμημάτων ομιλίας συγκεντρώνει τελικά τα αποτελέσματα, με μορφή των ονομάτων, των κυματομορφών, των διαρκειών, και των εσωτερικών υποδιαιρέσεων των τμημάτων που περιέχει. Στην περίπτωση των διφώνων, παραδείγματος χάριν, πρέπει να αποθηκευτεί η θέση των ορίων μεταξύ των φωνημάτων που αποτελούν το δίφωνο, ώστε να είναι σε θέση να τροποποιηθεί διάρκεια του ενός φωνήματος του διφώνου χωρίς να αλλοιωθεί το άλλο φώνημα. Στα τμήματα έπειτα δίνεται μια παραμετρική έκφραση, με τη μορφή μιας προσωρινής ακολουθίας διανυσμάτων από παραμέτρους που συλλέγονται στην έξοδο ενός αναλυτή ομιλίας και που αποθηκεύονται σε μια παραμετρική βάση δεδομένων τμημάτων. Το πλεονέκτημα από τη χρήση ενός πρότυπου ομιλίας έγκειται στο γεγονός ότι: τα καλά επιλεγμένα λεκτικά πρότυπα επιτρέπουν τη μείωση μεγέθους στοιχείων, ένα πλεονέκτημα καθόλου ευκαταφρόνητο στη σύνθεση με συνένωση δεδομένου της ποσότητας των στοιχείων που χρειάζονται να αποθηκευτούν. Συνεπώς, η συσκευή ανάλυσης ομιλίας συχνά ακολουθείται από έναν παραμετρικό κωδικοποίητη ομιλίας. Διάφορα πρότυπα διαχωρίζουν ξεκάθαρα τις συνεισφορές της ηχητικής πηγής και της φωνητικής οδού, μια λειτουργία χρήσιμη για τις διαδικασίες πριν τη σύνθεση: την επίτευξη της επιθυμητής προσωδίας και την συνένωση των τμημάτων ομιλίας Όντως, ο πραγματικός στόχος του ynthezer είναι να παράγει, σε πραγματικό χρόνο, μια ικανοποιητική ακολουθία τμημάτων, τα οποία εξάγονται από την παραμετρική βάση δεδομένων τμημάτων. Το δεύτερο στοιχείο που πρέπει να παράγει είναι η προσωδία, οποία προκύπτει από τη ρύθμιση των αρχικών τιμών του ύψους φωνής (ptch) και της διάρκειας των τμημάτων ομιλίας που υπάρχουν στην βάση, στις τιμές που προέκυψαν από την ενότητα επεξεργασίας γλώσσας. Συνεπώς, οι αντίστοιχες εργασίες που εκτελούνται από τις ενότητες συνένωσης και καθορισμού προσωδίας διευκολύνονται αρκετά όταν τα τμήματα εισόδου παρουσιάζονται σε μια μορφή που επιτρέπει την εύκολη τροποποίηση του ύψους φωνής (ptch), της διάρκειας, και της φασματικής περιβάλλουσας τους σε αντίθεση με την απλή χρήση των μη επεξεργασμένων δειγμάτων κυματομορφής. 14

Δεδομένου ότι τα τμήματα που θα χρησιμοποιηθούν για τη σύνθεση έχουν εξαχθεί από διαφορετικές λέξεις, δηλαδή από διαφορετικά φωνητικά πλαίσια, παρουσιάζουν συχνά προβλήματα ομαλού ταιριάσματος εύρους και χροιάς μεταξύ των τμημάτων. Ακόμη και στην περίπτωση των στάσιμων φωνηεντικών ήχων, μια ακατέργαστη συνένωση των παραμέτρων παρουσιάζει ευδιάκριτες ηχητικές ασυνέχειες. Αυτά τα προβλήματα μπορούν να αντιμετωπιστούν κατά τη διάρκεια της δημιουργίας της βάσης δεδομένων τμημάτων σύνθεσης, με μια ισοστάθμιση στην οποία εφαρμόζονται παρόμοια φάσματα εύρους σε σχετιζόμενες άκρες των τμημάτων. Στην πράξη, εντούτοις, αυτή η λειτουργία, είναι περιορισμένη στις παραμέτρους εύρους: το στάδιο ισοστάθμισης τροποποιεί ομαλά τα ενεργειακά επίπεδα στην αρχή και στο τέλος των τμημάτων, με τέτοιο τρόπο ώστε να απομακρύνεται οποιοδήποτε μη σωστό ταίριασμα εύρους (με το να τεθεί η ενέργεια όλων των μερών ενός δεδομένου φωνήματος στη μέση τιμή των ενεργειών τους). Αντίθετα, οι διαφορές στη χροιά αντιμετωπίζονται καλύτερα στο χρόνο εκτέλεσης, με την εξομάλυνση μεμονωμένων ζευγών τμημάτων όταν χρειάζεται, παρά με την άπαξ ισοστάθμισή τους, έτσι ώστε να διατηρείται μέρος της φωνητικής μεταβλητότητας, που εισάγεται φυσικά από την συνάρθρωση. Στην πράξη, η ισοστάθμιση του εύρους μπορεί να εκτελεσθεί είτε πριν είτε μετά από τη ανάλυση ομιλίας (δηλ. στα ακατέργαστα δείγματα ή στις λεκτικές παραμέτρους). Εφ όσον έχει ολοκληρωθεί η παραμετρική βάση διδόμενων, η διαδικασία της σύνθεση μπορεί πλέον να ξεκινήσει. Σύνθεση Της Ομιλίας Μια ακολουθία τμημάτων συνάγεται αρχικά από τη φθογγική εισόδο του ynthezer, σε μια μονάδα που καλείται παραγωγή λίστας τμημάτων, η οποία φαίνεται στο Σχήμα 1.5, και διασύνδεει τις NLP και DSP ενότητες. Μόλις οριστούν σωστά τα προσωδιακά χαρακτηριστικά στα μεμονωμένα τμήματα, η ενότητα καθορισμού προσωδίας ρωτά τη βάση δεδομένων τμημάτων σύνθεσης για τις πραγματικές παραμέτρους, των βασικών ήχων που θα χρησιμοποιηθούν, και τα προσαρμόζει ενα προς ένα στην επιθυμητή προσωδία. Στη συνέχει η ενότητα συνένωσης τμημάτων αναλαμβάνει το δυναμικό ταίριασμα των τμημάτων, με τη εξομάλυνση των συνεχειών. Εδώ πάλι, μια επαρκής μοντελοποίηση της ομιλίας είναι ιδιαίτερα επιθυμητή, υπό τον όρο ότι τα πρότυπα παρεμβολής που εφαρμόζονται στις παραμέτρους, αντιστοιχούν, χοντρικά, σε ομαλές ακουστικές μεταβάσεις μεταξύ των ήχων. Η προκύπτουσα σειρά των παραμέτρων εφαρμόζεται τελικά στην εισαγωγή μια μονάδας σύνθεσης, με στόχο να παράγει την ομιλία. 15

Ποιότητα Τμημάτων Ομιλίας Η αποδοτικότητα των ynthezer συνένωσης για την παραγωγή υψηλής ποιότητας ομιλίας υπόκειται κυρίως: 1. στον τύπο των τμημάτων που επιλέγονται. Τα τμήματα πρέπει προφανώς να παρουσιάζουν μερικές βασικές ιδιότητες: θα πρέπει να μπορούν να επιτρέψουν όσο το δυνατόν περισσότερο την εμφάνιση της επίδρασης της συνάρθρωσης δεδομένου των περιορισμένων ικανοτήτων εξομάλυνσης της μονάδας συνένωσης πρέπει να είναι εύκολα συνδέσιμα. ο αριθμός και το μήκος τους πρέπει να κρατηθούν όσο το δυνατόν μικρότερο. αφ' ετέρου, οι μακρύτερες μονάδες μειώνουν την πυκνότητα των σημείων συνένωσης, παρέχοντας επομένως καλύτερη ποιότητα ομιλίας. Ομοίως, ένας προφανής τρόπος για να συμπεριληφθούν διαφορετικά φαινόμενα άρθρωσης είναι να παρασχεθούν πολλές παραλλαγές για κάθε φώνημα, το οποίο είναι σαφώς σε αντίφαση με τον περιορισμό για χρήση ελάχιστης μνήμης. Δίφωνα επιλέγονται συχνά γι αυτό το σκοπό και χρησιμοποιούνται εκτενώς. Ο αριθμός τους δεν είναι πολύ μεγάλος, (π.χ. περίπου 1200 για τα γαλλικά, συμπεριλαμβανομένων και ακολουθιών φωνήματος που βρίσκονται μόνο στα όρια λέξεων, για 3 λεπτά ομιλίας χρειάζονται περίπου 5 Mbyte σε ρυθμό δειγματοληψίας 16 khz και ανάλυση 16 bt) και ενσωματώνουν τις περισσότερες φωνητικές μεταβάσεις Εντούτοις, εμπεριέχουν μια υψηλή πυκνότητα των σημείων συνένωσης (ένα ανά φώνημα), η οποία ενισχύει τη σημασία ενός αποδοτικού αλγορίθμου συνένωσης. Εκτός αυτού, μπορούν μόνο μερικώς να συμπεριλάβουν τα πολλά αποτελέσματα συνάρθρωσης του προφορική λόγου, δεδομένου ότι αυτά συχνά επιδρούν σε ολόκληρο το φώνημα παρά μόνο στο δεξιό ή αριστερό μισό του. Τέτοια αποτελέσματα αντιμετωπίζονται ειδικά όταν ημι-μεταβατικά φωνήματα, όπως τα υγρά και (τα χειρότερα όλων) τα ημίφωνα, πρόκειται να συνδεθούν το ένα με το άλλο. Έτσι δικαιολογείται και η χρήση μερικών μεγαλύτερων μονάδων όπως τα τρίφωνα. 2. το μοντέλο του σήματος ομιλίας στο οποίο ανάγονται οι αλγόριθμοι ανάλυσης και σύνθεσης Τα πρότυπα που χρησιμοποιούνται στα πλαίσια της σύνθεσης με συνένωση μπορούν να ταξινομηθούν κατά προσέγγιση σε δύο ομάδες, ανάλογα με τη σχέση τους με την πραγματική διαδικασία φώνησης. Τα πρότυπα παραγωγής παρέχουν τα μαθηματικά ισοδύναμα του ρόλού που παίζούν η φωνητική οδός, τα ρινικά και φωνητικά μέρη, και η χειλική ακτινοβολία. Τα αντιπροσωπευτικότερα μέλη τους είναι ynthezer κωδικοποίησης γραμμικής πρόβλεψης (LPC) [20], και οι formant ynthezer που 16

αναφέρθηκάν σε προηγούμενη παράγραφο (Σύνθεση Με Κανόνες). Αντίθετα, τα φαινομενολογικά πρότυπα απορρίπτουν σκόπιμα οποιαδήποτε αναφορά στον ανθρώπινο μηχανισμό παραγωγής. Μεταξύ αυτών των καθαρών εργαλείων ψηφιακής επεξεργασίας σήματος, οι φασματικές προσεγγίσεις και οι προσεγγίσεις στο πεδίο του χρόνου συναντούνται όλο και περισσότερο στα TTS συστήματα. Υπάρχουν δύο τέτοια πρότυπα: το υβριδικό αρμονικό/στοχαστικό πρότυπο (Harmonc/Stochatc H/S) [21] και το Tme-Doman Ptch-Synchronou-Over Lap-Add - TD-PSOLA) [19] Το τελευταίο πρότυπό είναι ένας αλγόριθμος στο πεδίο του χρόνου και ουσιαστικά δεν χρησιμοποιεί κανένα πρότυπο ομιλίας. Παρουσιάζει πολύ ενδιαφέροντα πρακτικά χαρακτηριστικά γνωρίσματα: μια πολύ υψηλή ποιότητα ομιλίας, συνδυασμένη με ένα πολύ χαμηλό υπολογιστικό κόστος (7 διαδικασίες ανά δείγμα στο μέσο όρο). Το υβριδικό αρμονικό/στοχαστικό πρότυπο είναι πραγματικά ισχυρότερο από το TD- PSOLA, αλλά είναι επίσης περίπου δέκα φορές υπολογιστικά απαιτητικότερο. Οι PSOLA ynthezer χρησιμοποιούνται πλέον ευρέως στην σύνθεση ομιλίας. Ο πρόσφατα αναπτυγμένος αλγόριθμος MBROLA [18,3] παρέχει ακόμα έναν αλγόριθμο στο πεδίο του χρόνου που παρουσιάζει πολύ αποδοτικές ικανότητες εξομάλυνσης σε σχέση με το πρότυπο H/S (για τα μη ταιριαστά σημεία συνένωσης της φασματικής περιβάλλουσας) καθώς επίσης και πολύ υψηλές αναλογίες συμπίεσης δεδομένων (μέχρι 10 με σχεδόν κανένα επιπλέον υπολογιστικό κόστος) ενώ διατηρεί την υπολογιστική πολυπλοκότητα του αλγορίθμου PSOLA. Θα δούμε αναλυτικότερα το PSOLA αλγόριθμο σε επόμενο κεφάλαιο. 17

ΚΕΦΑΛΑΙΟ 2 ΤΕΧΝΙΚΕΣ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ 2.1 ΚΑΤΗΓΟΡΙΕΣ ΤΕΧΝΙΚΩΝ ΣΥΝΘΕΣΗΣ ΟΜΙΛΙΑΣ 2.1.1 ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΣΗΜΑΤΩΝ Η ευρύτερη υποδιαίρεση των στρατηγικών που χρησιμοποιούνται για τη σύνθεση ομιλίας στους υπολογιστές είναι στα μοντέλα συστημάτων, τα οποία προσπαθούν να μοντελοποιήσουν ανθρώπινα σύστημα παραγωγής ομιλίας και στα μοντέλα σημάτων, τα οποία προσπαθούν να μοντελοποιήσουν μόνο το προκύπτον σήμα ομιλίας. Η προσέγγιση των μοντέλων συστημάτων είναι γνωστή και ως αρθρωτική σύνθεση. Η προσέγγιση μοντέλων σημάτων είναι ίσως η απλούστερη των δύο, και υπό αυτήν τη μορφή και έχει ερευνηθεί πιο λεπτομερώς, και επιτυχώς. 2.1.2 ΣΥΝΘΕΣΗ ΒΑΣΙΣΜΕΝΗ ΣΕ ΚΑΝΟΝΕΣ ΚΑΙ ΣΥΝΘΕΣΗ ΜΕ ΣΥΝΕΝΩΣΗ Η προσέγγιση μοντέλων μπορεί να υποδιαιρεθεί περαιτέρω στις μεθόδους που περιγράφονται ευρέως ως βασισμένη σε κανόνες formant σύνθεση και σύνθεση συνένωσης, τις οποίες είδαμε αναλυτικότερα σε προηγούμενο κεφάλαιο. Αναφέρονται πάλι εδώ σύντομα για λόγους πληρότητας. Τα βασισμένα στους κανόνες formant συστήματα σύνθεσης ήταν για πολλά χρόνια οι επιτυχέστερες μέθοδοι την ομιλία. Οι formant ynthezer χρησιμοποιούν ένα σήμα διέγερσης για να διεγείρουν ένα ψηφιακό φίλτρο, το οποίο κατασκευάζεται έτσι ώστε να προσεγγίζει την διαμόρφωση της φωνητικής οδού. Ο χωρισμός της συνάρτησης μεταφοράς της φωνητικής οδού και του σήματος διέγερσης είναι γνωστός ως η θεωρία πηγή-φίλτρού της παραγωγής ομιλίας. Η σύνθεση συνένωσης λειτουργεί με τη σύνδεση των κατάλληλων μονάδων σύνθεσης ώστε να κατασκευαστεί η απαραίτητη ομιλία. Σε αυτό το είδος συστημάτων σύνθεσης ομιλίας, πρέπει να εφαρμοστεί επεξεργασία σήματος για να αλλάξει τις θεμελιώδεις συχνότητες και τις διάρκειες των μονάδων σύνθεσης σε εκείνές που είναι επιθυμητές για την συνθετική ομιλία. Επιπλέον, εκτός και αν οι μονάδες επιλέγονται πολύ προσεκτικά, η επεξεργασία σήματος πρέπει επίσης να είναι σε θέση να εξομαλύνει τυχόν φασματικές ασυνέχειες μεταξύ των μονάδων. 18

2.1.3 ΣΥΝΘΕΣΗ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ ΚΑΙ PSOLA ΣΥΝΘΕΣΗ Δύο μορφές επεξεργασίας σήματος, και οι παραλλαγές τους, έχουν χρησιμοποιηθεί εκτενώς στα συστήματα συνένωσης. Αυτές είναι η σύνθεση γραμμική πρόβλεψης (Lnear Predcton - LP) και (Ptch-Synchronou-Over Lap-Add - PSOLA).Η LP σύνθεση είναι μια προσέγγιση βασισμένη στο μοντέλο πηγής-φίλτρου.η PSOLA προσέγγιση αντίθετα δεν είναι και λειτουργεί απλά με την παραθυροποίηση και την επανασύνδεση ήδη υπαρχόντων κυματομορφών σύνθεσης Θα συζητήσουμε τις προαναφερθείσες τεχνικές σύνθεσης στις ακόλουθες παραγράφους. 2.2 FORMANT ΣΥΝΘΕΣΗ Η formant σύνθεση είναι μια μέθοδος πηγής-φίλτρου παραγωγής ομιλίας, στην οποία το φίλτρο φωνητικού καναλιού κατασκευάζεται έτσι ώστε να είναι παρόμοιο με τα formant της φυσικής ομιλίας. Γενικά απαιτούνται μέχρι τρία formant για να συνθέσουν καταληπτή ομιλία, τέσσερα ή πέντε όμως επαρκούν για να παραγάγουν υψηλής ποιότητας ομιλία. Κάθε formant διαμορφώνεται συνήθως χρησιμοποιώντας ένα φίλτρο δύο-πόλων, το οποίο επιτρέπει να καθοριστεί η formant συχνότητα και το εύρος ζώνης του. Υπάρχουν δύο μέθοδοι συνδυασμού των formant για να παραχθεί ένα πρότυπο του φωνητικού καναλιού. Στον παράλληλο formant ynthezer η διέγερση εφαρμόζεται σε όλα formant παράλληλα και οι έξοδοί αθροίζονται, επιτρέποντας να καθοριστεί το κέρδος (gan) του κάθε formant ξεχωριστά. Στο σειριακό formant ynthezer η έξοδος ένα formant εφαρμόζεται στην είσόδο του επόμενου. Οι δύο μορφές παρουσιάζονται στο Σχήμα 2.1 19

Σχήμα 2.1. Γενικό σχεδιάγραμμα formant ynthezer 2.3 ΣΥΝΘΕΣΗ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ Η σύνθεση γραμμικής πρόβλεψης (LP) είναι μια άλλη μέθοδος πηγής-φίλτρού σύνθεσης ομιλίας. Το ψηφιακό φίλτρο υπολογίζεται αυτόματα από ένα πλαίσιο της φυσικής ομιλίας χρησιμοποιώντας έναν αποδοτικό αλγόριθμο. Η LP σύνθεση έχει χρησιμοποιηθεί εκτενώς στα συστήματα συνένωσης, δεδομένου ότι επιτρέπει τη γρήγορη κωδικοποίηση των μονάδων συνένωσης. Δεν ανήκει ουσιαστικά σε συστήματα βασισμένα σε κανόνες, μια και οι κανόνες καθορίζονται ευκολότερα με χρήση των formant, και η σχέση μεταξύ των συντελεστών που χρησιμοποιούνται για να καθορίσουν το φίλτρο LP και των formant δεν είναι απλή. Η βάση της θεωρίας γραμμικής πρόβλεψης είναι η υπόθεση ότι το τρέχον δείγμα ομιλίας y(n) μπορεί να προβλεφθεί ως γραμμικός συνδυασμός των P προηγούμενων δειγμάτων ομιλίας, συν έναν μικρό όρο λάθους e (n). Κατά συνέπεια, e P ( n) = a( ) y( n ) όπου α(0) =1 = 0 20

O όρος a() ονομάζεται γραμμικός συντελεστής πρόβλεψης, και το P τάξη γραμμικής πρόβλεψης. Οι συντελεστές LP, a() υπολογίζονται με την ελαχιστοποίηση του αθροίσματος των τετραγώνων των λαθών σε όλο το πλαίσιο της ομιλίας που εφαρμόζεται η ανάλυση. Δύο μέθοδοι εκτέλεσης αυτών των πράξεων χρησιμοποιούνται συνήθως. Ονομάζονται μέθοδος συνδιακύμανσης και μέθοδος αυτοσυσχέτισης και διαφέρουν στο n, στο οποίο το λάθος ελαχιστοποιείται. Οι συντελεστές, που υπολογίζονται χρησιμοποιώντας τη μέθοδο αυτοσυσχέτισης, έχουν το πλεονέκτημα ότι το φίλτρο που καθορίζουν είναι εγγυημένα σταθερό 2.4 PSOLA ΣΥΝΘΕΣΗ 2.4.1 ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΤΗΣ PSOLA ΣΥΝΘΕΣΗΣ Ο αλγόριθμος PSOLA αναπτύχθηκε από τη France Telecom στο CNET. Η τεχνική δεν συνθέτει την ομιλία αυτή καθ εαυτή, αλλά ενώνει ομαλά ηχογραφημένα εκ των προτέρων τμήματα ομιλίας, επιτρέποντας ταυτόχρονα τη μεταβολή τη διάρκειας και του ύψους φωνής (ptch) αυτών των τμημάτων. Είναι επομένως χρησιμότερος στη σύνθεση συνένωσης αντί της γραμμικής πρόβλεψης, η οποία χρησιμοποιήθηκε παραδοσιακά για να εκτελέσει αυτόν τον ρόλο. Το πλεονέκτημα της σύνθεσης PSOLA σε σχέση με τη σύνθεση LP είναι ότι η παραγόμενη ομιλία είναι πολύ υψηλότερης ποιότητας. Όλες οι εκδόσεις του αλγορίθμου PSOLA λειτουργούν ουσιαστικά με τον ίδιο τρόπο. Ένα τμήμα φυσικής ομιλίας τεμαχίζεται από ένα παράθυρο Hannng σε πολλά μικρότερα βραχύχρονα τμήματα ομιλίας - σήματα.όταν υπάρχουν ηχηρές (voced) περιοχές στο σήμα τότε εφαρμόζεται σύγχρονη ανάλυση ύψους φωνής (ptch ynchronou analy), ενώ στις άηχες (unvoced) περιοχές η ανάλυση γίνεται σε σταθερά διαστήματα. Τα βραχύχρονα τμήματα επανασυνδέονται έπειτα για να παράξουν τη συνθετική ομιλία. Το μέγεθος του παραθύρου Hannng που χρησιμοποιείται επηρεάζει την ποιότητα της συνθετικής ομιλίας. Το ύψος φωνής αυξάνει ή μειώνεται από την μεταβολή της απόστασης των βραχύχρονων σημάτων κατά τη σύνθεση και η διάρκεια μεταβάλλεται ταυτόχρονα με την επανάληψη ή τη διαγραφή των βραχύχρονων σημάτων από τη συνθετική ομιλία. Η επανασύνθεση εκτελείται χρησιμοποιώντας τη μέθοδο επικάλυψης και πρόσθεσης (overlap-add), η οποία προσθέτει τα νέα βραχύχρονα σήματα, που προέκυψαν μετά την επεξεργασία, στα νέα διαστήματα. Αυτή η διαδικασία αντισταθμίζει τον αριθμό και το εύρος των παραθύρων Hannng που συνεισφέρουν στο συνθετικό σήμα σε κάθε χρονικό σημείο. Η πιο περίπλοκη από αυτές, η μέθοδος των ελάχιστων τετραγώνων προσπαθεί να ελαχιστοποιήσει το λάθος μεταξύ των φασμάτων των βραχύχρονων σημάτων και των αντίστοιχων βραχύχρονων φασμάτων της συνθετικής ομιλίας. 21

2.4.2 TD-PSOLA Η απλούστερη έκδοση PSOLA είναι αυτή στο πεδίο του χρόνου (tme-doman), ή TD- PSOLA, η οποία περιγράφεται παρακάτω. Η TD-PSOLA είναι η ο πιο αποδοτική, υπολογιστικά, έκδοση PSOLA. Η ποιότητα συνθετικής ομιλίας που προκύπτει από την TD-PSOLA σύνθεση είναι σαφώς ανώτερη από αυτήν που λαμβάνεται με τη LP σύνθεση. Εντούτοις, αυτή η βελτίωση δεν είναι χωρίς κάποιο κόστος. Όλες οι εκδόσεις PSOLA απαιτούν μεγάλα ποσά μνήμης για την αποθήκευση της βάσης δεδομένων των κυματομορφών που χρησιμοποιούνται ως μονάδες συνένωσης, αν και στην πράξη αυτό το πρόβλημα μπορεί να περιοριστεί με συμπίεση της ομιλίας χρησιμοποιώντας, παραδείγματος χάριν, mult-pule codng (mpc). H TD-PSOLA σύνθεση έχει επίσης το μειονέκτημα, συγκριτικά με την LP σύνθεση, ότι δεν μπορεί να εκτελέσει φασματική εξομάλυνση στα όρια των μονάδων συνένωσης. Οι μονάδες σύνθεσης πρέπει επομένως να επιλεχτούν πολύ προσεκτικά ώστε αποφευχθούν οι formant ασυνέχειες κατά τη διάρκεια της σύνθεσης. 22

ΚΕΦΑΛΑΙΟ 3 Ο ΑΛΓΟΡΙΘΜΟΣ PSOLA 3.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πριν παρουσιαστούν αναλυτικότερα οι λεπτομέρειές του αλγορίθμου PSOLA, γίνεται μια γρήγορη αναφορά σε μερικές βασικές έννοιες που αφορούν τον αλγόριθμο 3.1.1 ΗΧΗΡΟΙ ΚΑΙ ΑΗΧΟΙ ΗΧΟΙ Ηχηρή ομιλία (voced): Πρόκειται για ένα περιοδικό τμήμα ομιλίας. Παράγεται όταν εκφέρεται ένας ήχος με διέγερση των φωνητικών χορδών. Συνήθως, τα φωνήεντα και μερικά σύμφωνα είναι ηχηρά και μπορεί κανείς να δει σαφή περιοδικότητα στην ηχηρή ομιλία. Μερικά ηχηρά φωνήματα είναι το α, το μ, κτλ. Άηχη ομιλία (unvoced): Τυχαίο τμήμα σημάτων της ομιλίας. Παράγεται χωρίς διέγερσή των φωνητικών χορδών. Μερικά σύμφωνα ανήκουν σε αυτό το είδος, όπως το π, το τ, το σ, κτλ. Σχήμα 3.1 Άηχα και ηχηρά τμήματα ομιλίας 23

3.1.2 ΥΨΟΣ ΦΩΝΗΣ (PITCH) Ύψος Φωνής (Ptch) : Το ύψος φωνής είναι η θεμελιώδης συχνότητα ομιλίας. Αναλύοντας το σήμα ομιλίας στην περιοχή συχνοτήτων, μπορούμε να δούμε πολλά στοιχεία συχνότητας. Το πρώτο formant είναι η θεμελιώδης συχνότητα και συμβολίζεται συνήθως ως F0. Το ύψος φωνής έχει νόημα μόνο σε ηχηρές περιοχές ομιλίας και αυτό γιατί η άηχη ομιλία δεν έχει καμία περιοδικότητα, και ως εκ τούτου δεν έχει ύψος φωνής. Εξετάζοντας τη κυματομορφής ενός ηχηρού τμήματος ομιλίας, μια ptch περίοδος είναι μια ολόκληρη περίοδος του σήματος, όπως φαίνεται στο Σχήμα 3.2 Σχήμα 3.2. Απεικόνιση του ύψους φωνής (ptch) 3.1.3 ΠΕΡΙΒΑΛΛΟΥΣΑ ΥΨΟΥΣ ΦΩΝΗΣ (PITCH CONTOUR) Περιβάλλουσα ύψους φωνής (Ptch Contour) : Η περιβάλλουσα του ύψούς φωνής είναι οι μεταβολές του ύψους φωνής στο χρόνο. Προκύπτει ουσιαστικά αν συμβολίσει κανείς με σημεία τις μεταβολές στο ύψος φωνής που συμβαίνουν με το πέρασμα του χρόνο στο κομμάτι ομιλίας που εξετάζεται και στη συνέχεια ενώσει αυτά τα σημεία. Μια τέτοια διαδικασία παρουσιάζεται στο Σχήμα 3.3 Από αυτό το σημείο και πέρα οι αναφορές στα μεγέθη και έννοιες που εξετάστηκαν μέχρι τώρα ( ηχηρά κα άηχα κομμάτια ομιλίας, ύψος φωνής, περιβάλλουσα ύψους φωνής, διάρκεια τμημάτων ομιλίας) θα γίνεται σύμφωνα με τις διεθνείς ονομασίες τους ( voced και unvoced peech, ptch, ptch contour και duraton) 24