Κεφάλαιο 7 Σύνθεση Οµιλίας

Σχετικά έγγραφα
Θέµα 5 ο Σύνθεση Οµιλίας

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Τεχνολογία σύνθεσης φωνής από κείμενο

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

δ[n kp ], k Z (1) 1 cos πn, N 1 n N 1 + N 2 2N

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

ΕΝ ΕΙΚΤΙΚΑ ΠΑΡΑ ΕΙΓΜΑΤΑ ΚΡΙΤΗΡΙΩΝ ΑΞΙΟΛΟΓΗΣΗΣ. Κεφάλαιο 17

«Επικοινωνίες δεδομένων»

Πολυπλεξία. Creative Commons License 3.0 Share-Alike

Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής. ΕΥΤΕΧΝΟΣ, Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Εισαγωγή στα Προσαρµοστικά Συστήµατα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Η ΓΛΩΣΣΙΚΗ ΑΝΑΠΤΥΞΗ ΤΩΝ ΠΑΙΔΙΩΝ ΓΕΝΝΗΣΗ 6 ΕΤΩΝ ΓΛΩΣΣΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

ΤεχνολογίαΕπικοινωνιών 1οΚεφάλαιο. Β Ενιαίου Λυκείου

Περίληψη ιπλωµατικής Εργασίας

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προϊόντα και υπηρεσίες συνθετικής φωνής

Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems)

Φωνολογική Ανάπτυξη και Διαταραχές

«ΜΕΛΕΤΗ ΙΑΤΑΞΕΩΝ ΦΩΤΟΝΙΚΩΝ ΚΡΥΣΤΑΛΛΩΝ ΓΙΑ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΕΣ ΕΦΑΡΜΟΓΕΣ»

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

«Επικοινωνίες δεδομένων»

ΔΙΓΛΩΣΣΙΑ ΜΕ ΣΤΟΙΧΕΙΑ ΔΙΑΤΑΡΑΧΩΝ ΛΟΓΟΥ -ΟΜΙΛΙΑΣ ΚΑΙ ΜΑΘΗΣΙΑΚΩΝ ΔΥΣΚΟΛΙΩΝ : ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΕΩΝ

Αρθρωτικές-Φωνολογικές διαταραχές Αποκατάσταση φωνημάτων /f/ - /v/

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Πάτρα 2005 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εργαστήριο Επεξεργασίας Σηµάτων Τηλεπικοινωνιών & ικτύων

ΑΓΓΛΙΚΑ ΣΑΒΒΑΤΟ 12 ΜΑΪΟΥ 2012

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Κωδικοποίηση βίντεο (MPEG)

Επιµέλεια Θοδωρής Πιερράτος

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΓΓΛΙΚΑ Σ Α Β Β Α Τ Ο 1 0 Μ Α Ϊ Ο Υ

Κεφάλαιο 3 Πολυπλεξία

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ψηφιακή Επεξεργασία Σηµμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Επιµέλεια Θοδωρής Πιερράτος

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ιεθνής Αερολιµένας Αθηνών Τεχνολογίες ροής δεδοµένων σε ΙΡ δίκτυα: Ένας δρόµος προς τα συστήµατα πληροφόρησης επιβατών επόµενης γενιάς

Βελτίωση της ποιότητας συνθετικής φωνής και εφαρμογή σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και υπηρεσίες ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

Keywords λέξεις κλειδιά:

TΕΧΝΟΛΟΓΙΑ DSL (DSL TUTORIAL) (Πηγή: Τηλεπικοινωνιακό κέντρο Α.Π.Θ.: )

Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

ÔÏÕËÁ ÓÁÑÑÇ ÊÏÌÏÔÇÍÇ

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System)

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ. Παράδοση Ασκήσεων Κεφάλαιο 2 Ασκήσεις 3,6,8,9,15,22,24,26. Γεωργόπουλος Άλκης Α.Μ.: 39 Κοντογιώργης Αναστάσιος A.M.

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

Κεφάλαιο 4: Λογισμικό Συστήματος

ΤΕΙ Κρήτης, Παράρτηµα Χανίων

Ιόνιο Πανεπιστήμιο Τμήμα Τεχνών Ήχου και Εικόνας. Ακαδημαϊκό Έτος

Οδηγός διαφοροποίησης για την πρωτοβάθµια

ΕΛΛΗΝΙΚΟ ΕΓΧΕΙΡΙ ΙΟ ΧΡΗΣΗΣ

Συνεχής ροή πολυµέσων

ΦΥΛΛΟ ΠΛΗΡΟΦΟΡΙΩΝ. Μονάδες μέτρησης χωρητικότητας μνήμης - Η περιφερειακή μνήμη

Συστήµατα DAQ. 6.1 Εισαγωγή

ΚΕΦΑΛΑΙΟ 2. Οι Μεταβολές ως Χαρακτηριστικό Γνώρισµα της Τεχνολογίας Επικοινωνιών

ΠΤΥΧΙΑΚΗ. Θέμα πτυχιακής: Voice over IP. Ονοματεπώνυμο: Κόκκαλη Αλεξάνδρα

Η εκμάθηση μιας δεύτερης/ξένης γλώσσας. Ασπασία Χατζηδάκη, Επ. Καθηγήτρια Π.Τ.Δ.Ε

Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου

Αναπτυξιακά ορόσημα λόγου

Συστήματα πολυμέσων. Εισαγωγή Υλικό συστημάτων πολυμέσων Λογισμικό συστημάτων πολυμέσων Συστήματα πραγματικού χρόνου Χρονοπρογραμματισμός

Sub4All: Υποσύστηµα Αναγώρισης Φωνής

Μορφές των χωρικών δεδομένων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ

- Καθυστέρηση λόγου (LLI)

of Cognition, Brain, and Language, Spain.

Γ ΚΟΙΝΟΤΙΚΟ ΠΛΑΙΣΙΟ ΣΤΗΡΙΞΗΣ

ΚΕΦΑΛΑΙΟ 2: Χειρισµός εδοµένων

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος;

ΚΕΦΑΛΑΙΟ 4ο : Θεωρητική προσέγγιση της FDTD

Transcript:

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.235 Κεφάλαιο 7 Σύνθεση Οµιλίας 7.1 Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή ενός κειµένου εισόδου (που αποτελείται από λέξεις ή προτάσεις) σε κυµατοµορφές οµιλίας χρησιµοποιώντας αλγορίθµους και κάποιο τύπο δεδοµένων τα οποία έχουν κωδικοποιηθεί και αποθηκευτεί. Το κείµενο εισόδου µπορεί να προέρχεται είτε από κάποια υπάρχουσα βάση δεδοµένων, είτε από κάποιο σύστηµα οπτικής αναγνώρισης χαρακτήρων. Υπάρχει µια θεµελιώδης διαφορά µεταξύ του συστήµατος για το οποίο συζητάµε και οποιασδήποτε άλλης µηχανής οµιλίας (όπως για παράδειγµα ένα κασετόφωνο) διότι ουσιαστικά αναφερόµαστε στην αυτόµατη παραγωγή µιας καινούργιας πρότασης. Για να έχουµε ένα ηχητικό αποτέλεσµα ποιότητας όσο το δυνατό πλησιέστερο στην ποιότητα του φυσικά παραγόµενου λόγου, η οµιλία που παράγεται από τον συνθέτη µας θα πρέπει να περιέχει προσωδιακό χαρακτήρα. 7.2 Χρησιµότητα ενός συστήµατος σύνθεσης οµιλίας Ένα µεγάλο ερώτηµα που τίθεται είναι το ποια είναι η χρησιµότητα ενός συστήµατος παραγωγής οµιλίας και αν υπάρχει ουσιαστικός λόγος για να γίνεται έρευνα πάνω σε αυτό το ζήτηµα. Οι πιθανές εφαρµογές συστηµάτων σύνθεσης οµιλίας υψηλής ποιότητας είναι πολυάριθµες: -Βοήθεια σε ανθρώπους που έχουν προβλήµατα οµιλίας. Για παράδειγµα ο Stephen Hawking πραγµατοποιεί όλες του τις διαλέξεις µε αυτόν τον τρόπο. Οι τυφλοί µπορούν να ωφεληθούν από ένα τέτοιο TTS σύστηµα το οποίο µπορεί να τους δώσει πρόσβαση σε γραπτές πληροφορίες (ιδιαιτέρως µε την βοήθεια ενός οπτικού συστήµατος αναγνώρισης). -Υπηρεσίες τηλεπικοινωνιών, µέσω των TTS συστηµάτων, µπορούν να πετύχουν την πρόσβαση γραπτών πληροφοριών µέσω του τηλεφώνου. Τα κείµενα ποικίλουν από απλά µηνύµατα, όπως τοπικές ψυχαγωγικές εκδηλώσεις (σινεµά, θέατρο κ.λ.π.) έως τεράστιες βάσεις δεδοµένων που δεν µπορούν εύκολα να διαβαστούν και να αποθηκευτούν ως ψηφιακά αρχεία ήχου.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.236 -Εργαλείο στην εκµάθηση µιας ξένης γλώσσας. Κάτι τέτοιο όµως δεν έχει πραγµατοποιηθεί ακόµα λόγω της υψηλής ποιότητας συνθετικής οµιλίας που απαιτείται για ένα τέτοιο εγχείρηµα. -Βελτίωση της επικοινωνίας ανθρώπου-µηχανής. Η ανάπτυξη συστηµάτων σύνθεσης οµιλίας υψηλής ποιότητας αποτελεί ένα απαραίτητο βήµα (όπως επίσης και των συστηµάτων αναγνώρισης οµιλίας) όσον αφορά την πιο ολοκληρωµένη επικοινωνία ανθρώπου και ηλεκτρονικού υπολογιστή. -Καταπληκτικό εργαλείο για τους γλωσσολόγους. Για παράδειγµα ένας συγκεκριµένος τύπος TTS συνθέτη, του formant συνθέτη χρησιµοποιείται από αυτούς που ασχολούνται µε την φωνολογία και τους ακουστικούς κανόνες που διέπουν την οµιλία. 7.3 Συστήµατα παραγωγής οµιλίας Ανάλογα µε την µέθοδο που χρησιµοποιούµε το µέγεθος των µονάδων οµιλίας ή τις παραµέτρους που ο συνθέτης κωδικοποιεί, αποθηκεύει και συνθέτει τελικά οµιλία διαφέρει. Όταν χρησιµοποιούνται µεγάλες µονάδες (ολόκληρες λέξεις ή φράσεις), έχουµε πολύ καλή ποιότητα οµιλίας αλλά απαιτείται µεγάλη µνήµη. Αν πάλι µειώσουµε την απαιτούµενη µνήµη µέσω κάποιας µεθόδου κωδικοποίησης η ποιότητα οµιλίας σαφώς υποβιβάζεται. Για να πετύχουµε µέγιστη φυσικότητα πρέπει η κάθε λέξη ή φράση να έχει καταχωρηθεί µε όλους τους δυνατούς τρόπους που ενδέχεται να προφέρεται, (ανάλογα µε το νόηµα, τον τονισµό ή την σύνταξη). Αν αντίθετα η σύνθεση πραγµατοποιηθεί µε απλή σύνδεση αποθηκευµένων λέξεων υποβιβάζεται η καταληπτότητα. Επίσης η διάρκεια των µονάδων (κυρίως όταν έχουµε µονάδες που είναι µικρότερες από µία λέξη) πρέπει να προσαρµόζεται συνεχώς αφού ποικίλει ανάλογα µε το περιβάλλον της µονάδας. Ουσιαστικά έχουµε δύο ειδών συστήµατα σύνθεσης. Τα voice response συστήµατα και τα textto speech (TTS) συστήµατα. Τα voice response συστήµατα συνενώνουν ολόκληρες λέξεις ή φράσεις και το κείµενο εισόδου έχει περιορισµένο λεξιλόγιο και σύνταξη. Χρησιµοποιούνται δηλαδή όταν η πρόταση που πρέπει να παραχθεί ακουστικά έχει περιορισµένο λεξιλόγιο και πολύ συγκεκριµένη δοµή(σύνταξη) όπως για παράδειγµα στις ανακοινώσεις των αφίξεων και των αναχωρήσεων σε έναν σιδηροδροµικό σταθµό. Αντίθετα τα TTS συστήµατα µπορούν να έχουν ως είσοδο στην οποία κάνουν εκτενή γλωσσολογική ανάλυση, οποιοδήποτε κείµενο και αποθηκεύουν σαφώς µικρότερες µονάδες οµιλίας. Το σύστηµα στο οποίο αναφερόµαστε στην παρούσα εργασία είναι ένα TTS σύστηµα. Για σύνθεση µε απεριόριστο λεξιλόγιο οι απαιτήσεις για µνήµη µειώνονται δραστικά αφού τα βασικά σύνολα ήχων που αρκούν για να περιγραφεί µια γλώσσα δεν ξεπερνούν τα 30-40 φωνήµατα. Άλλες µονάδες εκτός από τα φωνήµατα που µπορούν να χρησιµοποιηθούν είναι οι συλλαβές (αποτελούνται συνήθως από έναν πυρήνα που είναι φωνήεν ή δίφθογγος και µερικά γειτονικά σύµφωνα), οι ηµισυλλαβές (προκύπτουν από την διαίρεση συλλαβών στη µέση µε ένα κόψιµο κατά την διάρκεια του φωνήεντος στο σηµείο που οι επιδράσεις της συνάρθρωσης είναι ελάχιστες) και τα δίφωνα (προκύπτουν από την διαίρεση της κυµατοµορφής της οµιλίας σε µονάδες µεγέθους φωνήµατος, µε τα κοψίµατα στο µέσον κάθε φωνήµατος ώστε να αποθηκευτούν οι µεταβάσεις από το ένα φωνητικό τµήµα στο άλλο). Τα φασµατικά χαρακτηριστικά αυτών των µονάδων πρέπει να εξοµαλύνονται στα σηµεία συνένωσης (boundaries) τους για να αποφευχθούν οι ασυνέχειες στην έξοδο. Η εξοµάλυνση αυτή είναι πιο

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.237 σηµαντική όσον αφορά στις µικρές µονάδες λόγω της αύξησης του αριθµού των boundaries ανά δευτερόλεπτο στη συνθετική οµιλία. Στην περίπτωση των ηµισυλλαβών και των διφώνων, η εξοµάλυνση είναι πιο απλή αφού στα «όρια» τους περιλαµβάνουν παρόµοια τµήµατα από δύο υλοποιήσεις του ίδιου φωνήµατος. Τέλος µπορούµε να χρησιµοποιήσουµε και τρίφωνα(πολλαπλά δίφωνα) ανάλογα µε το περιβάλλον. Προφανώς η χρήση συλλαβών, ηµισυλλαβών, διφώνων και τριφώνων αυξάνουν τις απαιτήσεις σε αποθήκευση. 7.4 Text Τo Speech (TTS) σύστηµα 7.4.1 Τί είναι ένα TTS σύστηµα Τα κείµενο-σε-οµιλία (ΤΤS: Text-To-Speech) συστήµατα πραγµατοποιούν τη µετατροπή του γραπτού λόγου σε προφορικό. Πιο συγκεκριµένα, δέχονται ως είσοδο κείµενο και παράγουν συνθετική οµιλία, παρέχοντας µε αυτόν τον τρόπο στους ανθρώπους πληροφορίες κειµένου µέσω φωνητικών µηνυµάτων. Το κείµενο µπορεί να εισάγεται απευθείας στον υπολογιστή από κάποιον χρήστη ή να σκανάρεται και στην συνέχεια να περνάει από ένα σύστηµα οπτικής αναγνώρισης χαρακτήρων (Optical Character Recognition system OCR). Στο παρακάτω σχήµα περιγράφεται το γενικό µοντέλο ενός TTS συστήµατος. Εικόνα 7.1: Γενικό µοντέλο ενός TTS συστήµατος. Το προς σύνθεση κείµενο εισέρχεται στο στάδιο της ανάλυσης κειµένου και της γλωσσικής ανάλυσης, το οποίο παράγει την φωνητική πληροφορία και το πρότυπο της προσωδίας για το συνθετικό σήµα οµιλίας. Στο επόµενο στάδιο λαµβάνει χώρα η επεξεργασία σήµατος κατά την οποία παράγεται το σήµα της οµιλίας. Οι καρποί της συστηµατικής και συνεχόµενης έρευνας επί χρόνια στον τοµέα της TTS σύνθεσης και η ανάπτυξη της τεχνολογίας νέας γενιάς, έχουν ως αποτέλεσµα τη βελτίωση της ποιότητας της συνθετικής οµιλίας πετυχαίνοντας ταυτόχρονα χαµηλό κόστος. Το γεγονός αυτό, σε συνδυασµό µε τις ολοένα αυξανόµενες ανάγκες σε έναν κόσµο διακίνησης τεράστιου όγκου πληροφορίας, όπου πολλές από αυτές είναι πληροφορίες κειµένου, έδωσαν το κίνητρο για την ευρεία εξάπλωση των ΤΤS εφαρµογών. Τέτοιες εφαρµογές συναντούµε στις επικοινωνίες, όπου µηνύµατα βασισµένα σε κείµενο, όπως τα email ή τα fax, ή πληροφορίες που συνδυάζουν κείµενο και εικόνα, όπως oι ιστοσελίδες, αποδίδονται φωνητικά. Υπάρχει επίσης, το πρόγραµµα VoiceXML που παρέχει interactive υπηρεσίες οµιλίας διαµέσου του διαδικτύου. Γενικότερα, τα TTS συστήµατα καλύπτουν την ανάγκη για φωνητική απόδοση πληροφοριών, όλων των ειδών,

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.238 που βρίσκονται αποθηκευµένες στις βάσεις δεδοµένων, όπως για παράδειγµα τηλεφωνικοί αριθµοί, διευθύνσεις ή πληροφορίες πλοήγησης αυτοκινήτων. Ακόµη, βρίσκουν εφαρµογή στις αυτόµατες υπηρεσίες πληροφόρησης, που παρέχουν για παράδειγµα πληροφορίες για τοποθεσίες και µενού εστιατορίων ή πραγµατοποιούν αυτόµατη εκφώνηση δελτίων καιρού και ειδήσεων µέσω τηλεφωνού. ίνουν επίσης λύσεις και σε πιο κλασικές ανάγκες του ανθρώπου, όπως είναι η αυτόµατη ανάγνωση εντύπων από µια µηχανή (οµιλούντα βιβλία), που εξυπηρετεί ιδιαίτερα άτοµα µε προβλήµατα όρασης. 7.4.2 Χαρακτηριστικά της ποιότητας ενός TTS συστήµατος Η ποιότητα της συνθετικής οµιλίας και συνεπώς η επιτυχία ενός ΤΤS συστήµατος εξαρτάται από δύο σηµαντικούς παράγοντες, την καταληπτότητα και την φυσικότητα του λόγου. Όταν λέµε φυσικότητα δεν εννοούµε απαραίτητα ότι η συνθετική φωνή πρεπει να ακούγεται όπως η αληθινή φωνή ενός ανθρώπου. Αντίθετα µάλιστα, είναι συχνά επιθυµητό, αυτός που ακούει την συνθετική φωνή να είναι σε θέση να διακρίνει οτι η οµιλία που ακούει, παράγεται απο ένα µηχάνηµα, οτι είναι δηλαδή τεχνητή και όχι προερχόµενη απο κάποιον άνθρωπο. Αυτό που εννοούµε στην ουσία µε τον όρο φυσικότητα, είναι οτι επιθυµούµε η συνθετική φωνή να είναι το ίδιο εύκολο να ακουστεί όσο και η φυσική φωνή, όταν ακούγονται υπο τις ίδιες συνθήκες. Τα τελευταία 30 χρόνια, η βελτίωση της καταληπτότητας υπήρξε ο αντικειµενικός στόχος στον σχεδιασµό και την υλοποίηση των TTS συστηµάτων, αφού χωρίς υψηλό βαθµό καταληπτότητας τα συστήµατα αυτά δεν θα εξυπηρετούσαν κανέναν σκοπό. Ως εκ τούτου, τα περισσότερα σύγχρονα TTS συστήµατα παρέχουν ιδιαίτερα καταληπτή οµιλία, µε τα επίσηµα τεστ να αποδεικνύουν ότι σε επίπεδο καταληπτότητας, πλησιάζουν σε µεγάλο βαθµό τον φυσικό λόγο. Από την άλλη, έως και τα µέσα της δεκαετίας του '90, η εξέλιξη σε επίπεδο φυσικότητας της παραγόµενης οµίλιας δεν υπήρξε ικανοποιητική. Η χαµηλού βαθµού φυσικότητα, ιδιαίτερα µε την έννοια της ευκολίας στην ακοή, όπως αναφέρθηκε παραπάνω, υποβαθµίζει αισθητά την συνολική απόδοση ενός ΤΤS συστήµατος. Σε αυτήν την περίπτωση, οι άνθρωποι χρειάζεται να είναι ιδιαίτερα συγκεντρωµένοι και να καταβάλουν ιδιαίτερη προσπάθεια όταν ακούνε συνθετική οµιλία, µε αποτέλεσµα να κουράζονται εύκολα και να εγκαταλείπουν γρήγορα. Πρέπει συνεπώς να εξασφαλίζεται ένα ελάχιστο επίπεδο ακουστικής ποιότητας προτού αποδεκτούν οι καταναλωτές να ακούνε συνθετική οµιλία σε τακτική βάση. Ως εκ τούτου ο στόχος των σύγχρονων ερευνών είναι να συνεχίσουν µεν να παρέχουν TTS συστήµατα µε υψηλή καταληπτότητα, αλλά, την ίδια στιγµή, να πετυχαίνουν και υψηλή φυσικότητα στην οµιλία, ανεβάζοντας µε αυτόν τον τρόπο την ποιότητα των συστηµάτων σε τέτοιο επίπεδο ώστε να καταφέρνουν να ανταποκρίνονται στις απαιτήσεις των καταναλωτών. Αυτό που καθίσταται σίγουρα σαφές, είναι ότι τα σηµερινά ΤΤS συστήµατα δεν είναι «τέλεια». εν είναι σε θέση να αντιµετωπίσουν επιτυχώς όλα τα προβλήµατα, για όλες τις πιθανές εφαρµογές και δεν µπορούν να εκφράσουν όλα τα ανθρώπινα συναισθήµατα. Σε πρακτικό επίπεδο όµως, µπορούν να προσφέρουν ικανοποιητική απόδοση για κάποιες εφαρµογές, εφόσον η σηµερινή τεχνολογία ικανοποιεί τις απαιτήσεις των συγκεκριµένων εφαρµογών. Για παράδειγµα, αν µια εφαρµογή απαιτεί την προφορική σύνθεση τηλεφωνικών αριθµών, είναι δυνατόν να επιτευχθούν σχεδόν τέλεια αποτελέσµατα µε σχετική ευκολία. Από την άλλη, για πιο απαιτητικές εφαρµογές, όπως είναι η αυτόµατη ανάγνωση εφηµερίδας, αν και υπάρχει πολύ υψηλό επίπεδο, θα ήταν υπερβολικό να ισχυριστεί κανείς ότι είναι σήµερα δυνατό να παραχθεί συνθετική οµιλία που να ακούγεται εντελώς φυσική.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.239 7.4.3 Κατηγορίες TTS συστηµάτων Οι τεχνικές σύνθεσης οµιλίας χωρίζονται σε δύο µεγάλες κατηγορίες: 1. System models, που επιχειρούν να µοντελοποιήσουν το ανθρώπινο σύστηµα παραγωγής οµιλίας. Στην κατηγορία system model ανήκει η - Αρθρωτική σύνθεση (articulatory synthesis), η οποία επιχειρεί να µοντελοποιήσει άµεσα το ανθρώπινο σύστηµα παραγωγής οµιλίας, 2. Signal models, που επιχειρούν να µοντελοποιήσουν µόνο το παραγώµενο σήµα οµιλίας. Στην κατηγορία signal model ανήκουν οι - Formant σύνθεση, η οποία µοντελοποιεί τη συνάρτηση µεταφοράς του φωνητικού καναλιού. H Formant σύνθεση βασίζεται σε κανόνες (rule-based). - Σύνθεση µε συνένωση (concatenative synthesis), η οποία χρησιµοποιεί προηχογραφηµένα τµήµατα οµιλίας διαφόρων µεγεθών, τα οποία συνενώνει στο πεδίο του χρόνου. Η formant µαζί µε την concatenative µέθοδο αποτελούν τις δύο πιο συχνά χρησιµοποιούµενες µεθόδους στα παρόντα συστήµατα σύνθεσης. Η formant σύνθεση ήταν κυρίαρχη για πολύ καιρό, αλλά σήµερα η concatenative µέθοδος γίνεται όλο και περισσότερο δηµοφιλής. Η αρθρωτική µέθοδος είναι ακόµα πάρα πολύ περίπλοκη για υψηλής ποιότητας εφαρµογές, αλλά µπορεί να εξελιχθεί και να χρησιµοποιηθεί εκτενέστερα στο µέλλον. 7.4.3.1 Αρθρωτική σύνθεση Εικόνα 7.2: Κατηγορίες ΤΤS σύνθεσης. Άρθρωση (articulation) είναι η διαδικασία µε την οποία τροποποιείται η µορφολογία του φωνητικού καναλιού για να παράγει τους ξεχωριστούς ήχους οµιλίας. Επί του παρόντος, η σύνθεση άρθρωσης θεωρείται από πολλούς ότι χρησιµοποιείται περισσότερο ως εργαλείο έρευνας της κατανόησης της παραγωγής οµιλίας, παρά ως µία µέθοδος παραγωγής οµιλίας για εµπορικά εκµεταλλεύσιµες εφαρµογές. Παραταύτα, είναι βέβαιο ότι µε την καλύτερη κατανόηση του µηχανισµού παραγωγής οµιλίας, η σύνθεση άρθρωσης έχει την µακροπρόθεσµη προοπτική να επιλύσει τα προβλήµατα, τα οποία αυτή τη στιγµή υπάρχουν στις τρέχουσες προσεγγίσεις της σύνθεσης οµιλίας.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.240 Ο πρωταρχικός στόχος ενός µοντέλου σύνθεσης άρθρωσης, είναι να αναπαράγει το σήµα οµιλίας µέσω της µοντελοποίησης του φωνητικού καναλιού και των µηχανισµών που λαµβάνουν χώρα κατά τη φυσική του παραγωγή. Αυτή είναι µια προφανής προσέγγιση και συνεπώς έχει απασχολήσει τους ερευνητές από τα πρώτα κιόλας βήµατα στο πεδίο της παραγωγής συνθετικής οµιλίας. Η οµιλία παράγεται στην ανθρώπινη φωνητική οδό και είναι το αποτέλεσµα της δόνησης των φωνητικών χορδών καθώς και των κινήσεων της γλώσσας, των χειλιών και των άλλων µέσων άρθρωσης. Η µοντελοποίηση όµως ολόκληρης αυτής της διεργασίας είναι ένα πολύ περίπλοκο έργο, λόγω της ύπαρξης πολύ µεγάλου αριθµού οστών, µυών, κοιλοτήτων, σκληρών και µαλακών τοιχωµάτων κ.λ,π. Για το λόγο αυτό είναι απαραίτητο να γίνουν κάποιες απλουστεύσεις. Κατά καιρούς έχουν προταθεί πολλά διαφορετικά µοντέλα, βασιζόµενα τις περισσότερες φορές στις ίδιες και λίγες φορές σε τελείως διαφορετικές υποθέσεις. Τα περισσότερα από τα προτεινόµενα µοντέλα άρθρωσης, θεωρούν το σχήµα του φωνητικού καναλιού ως µια συνάρτηση της θέσης των φωνητικών οργάνων (χείλη, σαγόνι, γλώσσα, κ.α). Ο υπολογισµός του σήµατος πραγµατοποιείται µε µαθηµατική εξοµοίωση της ροής του αέρα µέσω της φωνητικής οδού. Οι παράµετροι ελέγχου ενός τέτοιου συνθέτη είναι η υπογλωττιδική πίεση, η τάση των φωνητικών χορδών και η σχετική θέση των διαφόρων οργάνων άρθρωσης. Τα δεδοµένα για την κατασκευή του αρθρωτικού µοντέλου προέρχονται συνήθως από ανάλυση µε ακτίνες X της φωνητικής οδού κατά την διάρκεια φυσικής οµιλίας. Σε αυτήν την περίπτωση, τα δεδοµένα είναι συνήθως διδιάστατα και υπάρχει σαφές έλλειµα πληροφορίας, εφόσον το πραγµατικό φωνητικό κανάλι είναι τρισδιάστατο. Για αυτόν τον λόγο έχουν ξεκινήσει προσπάθειες για πιο λεπτοµερή µοντελοποίηση του συστήµατος παραγωγής οµιλίας µέσω τρισδιάστατων µοντέλων. Τα δεδοµένα σε αυτήν την περίπτωση παρέχονται µέσω µαγνητικών τοµογράφων. Εικόνα 7.3: Τρισδιάστα µοντέλα της φωνητικής οδού Συνοψίζοντας, η αρθρωτική σύνθεση, αν και χρησιµοποιείται σπάνια στα παρόντα συστήµατα, είναι µία πολλά υποσχόµενη µέθοδος για το µέλλον, καθώς η έρευνα γύρω από το θέµα συνεχίζεται µε εντατικούς ρυθµούς, οι υπολογιστικοί πόροι αυξάνονται επίσης γρήγορα και επιπλέον αποτελεί την µέθοδο που προσεγγίζει µε τον καλύτερο τρόπο το σύστηµα παραγωγής της ανθρώπινης οµιλίας.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.241 7.4.3.2 Formant σύνθεση H formant σύνθεση χρησιµοποιεί ένα σύνολο κανόνων (rule-based), οι οποίοι ελέγχουν ένα γραµµικό µοντέλο παραγωγής οµιλίας (source-filter model). Σύµφωνα µε το µοντέλο αυτό, η πηγή διέγερσης είναι απολύτως ανεξάρτητη από την µορφή του φωνητικού καναλιού. Το φίλτρο του φωνητικού καναλιού καθορίζεται από τις παραµέτρους ελέγχου, όπως οι συχνότητες και τα εύρη ζώνης των formants, που υπολογίζονται για κάθε φώνηµα. Τα συστήµατα formant σύνθεσης εµπεριέχουν κανόνες µοντελοποίησης των φαινοµένων συνάρθρωσης, σύµφωνα µε τους οποίους γίνεται ο υπολογισµός των παραµέτρων ελέγχου για κάθε φώνηµα. Η πηγή διέγερσης µοντελοποιείται µε µια περιοδική ακολουθία για ηχηρή οµιλία και από ψευδοτυχαίο θόρυβο για άηχη οµιλία. Η formant σύνθεση παράγει οµιλία, ιδιαίτερα καταληπτή, αλλά όχι απολύτως φυσική. Εντούτοις, έχει το πλεονέκτηµα των χαµηλών απαιτήσεων σε µνήµη και υπολογιστική ισχύ. Οι formant συνθέτες χωρίζονται σε δύο κατηγορίες µε βάση τον τρόπο σχηµατισµού του φίλτρου του φωνητικού καναλιού, στους σειριακούς και τους παράλληλους formant συνθέτες. Σειριακή formant σύνθεση Ένας σειριακός formant συνθέτης (σχήµα 7.3) αποτελείται από band-pass συντονιστές (φίτρα) συνδεδεµένους σε σειρά έτσι ώστε η έξοδος από τον ένα formant συντονιστή να µπαίνει ως είσοδος στον επόµενο. Με αυτήν την σειριακή δοµή, απαιτείται η γνώση µόνο των συχνοτήτων των formants ως πληροφορία ελέγχου. Εικόνα 7.4: Βασική δοµή ενός σειριακού formant συνθέτη Η σειριακή δοµή έχει αποδειχτεί ότι είναι καλύτερη για τους µη-ένρινους ηχηρούς ήχους και επειδή απαιτεί λιγότερες πληροφορίες ελέγχου σε σχέση µε την παράλληλη δοµή, είναι πολύ εύκολη στην υλοποίηση. Ωστόσο, αντιµετωπίζει πρόβληµα στην παραγωγή τυρβώδων και εκρηκτικών ήχων. Παράλληλη formant σύνθεση Ένας παράλληλος formant συνθέτης (σχήµα 7.4) αποτελείται απο συντονιστές συνδεδεµένους µε παράλληλο τρόπο. Το σήµα διέγερσης εφαρµόζεται σε όλους τους συντονιστές ταυτόχρονα και τα αποτελέσµατά τους αθροίζονται όλα µαζί. Οι έξοδοι των παρακείµενων συντονιστών πρέπει να αθροίζονται σε αντίθετη φάση, προς αποφυγή ανεπιθύµητων µηδενικών (αντισυντονισµών) στην απόκριση συχνότητας. Η παράλληλη δοµή επιτρέπει τον έλεγχο του εύρους ζώνης και του

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.242 κέρδους για κάθε formant χωριστά, και για αυτόν τον λόγο χρειάζεται περισσότερες πληροφορίες ελέγχου. Εικόνα 7.5: Βασική δοµή ενός παράλληλου formant συνθέτη Η παράλληλη δοµή έχει αποδειχτεί ότι είναι καλύτερη για τους ένρινους, τυρβώδεις και εκρηκτικούς ήχους, αλλά κάποιοι ηχηροί ήχοι δεν µπορούν να µοντελοποιηθούν µε τον παράλληλο formant συνθέτη, τόσο καλά όσο µε τον σειριακό. 7.4.3.3 Σύνθεση µε συνένωση (concatenative synthesis) Η σύνθεση προηχογραφηµένων τµηµάτων οµιλίας είναι πιθανώς ο ευκολότερος τρόπος να παράγει κανείς συνθετική οµιλία µε υψηλό επίπεδο καταλληπτότητας και φυσικότητας. Όµως, οι µε-συνένωση συνθέτες συνήθως περιορίζονται σε έναν οµιλητή και µια φωνή και απαιτούν µεγαλύτερη χωρητικότητα µνήµης σε σχέση µε άλλες µεθόδους. Ένα απο τα σηµαντικότερα ζητήµατα στην µε-συνένωση σύνθεση οµιλίας είναι η επιλογή της καταλληλότερης δοµικής µονάδας. Η επιλογή αυτή είναι στην πραγµατικότητα µια ανταγωνιστική διαδικασία ανάµεσα στις µακρύτερες και στις συντοµότερες µονάδες. Με την χρήση των µακρύτερων µονάδων επιτυγχάνεται υψηλό επίπεδο φυσικότητας, λιγότερα σηµεία συνένωσης και καλός έλεγχος της συνάρθρωσης, αλλά αυξάνεται το πλήθος των απαιτούµενων µονάδων και συνεπώς οι απαιτήσεις σε µνήµη. Από την άλλη, µε την χρήση των συντοµότερων µονάδων µειώνονται οι απαιτήσεις σε µνήµη, αλλά η συλλογή δειγµάτων και οι διάφορες διαδικασίες που εφαρµόζουµε σε αυτά, ( π.χ segmentation) γίνονται πιο πολύπλοκες. Οι µονάδες που χρησιµοποιήθηκαν τα προηγούµενα χρόνια στα διάφορα εµπορικά συστήµατα, ήταν συνήθως λέξεις, συλλαβές, ηµισυλλαβές, φωνήµατα, δίφωνα ή τρίφωνα. Η κατασκευή της βάσης δεδοµένων µε τις ακουστικές µονάδες αποτελείται από τρεις κύριες φάσεις. Κατ' αρχάς, πρέπει να επιλεγούν προσεκτικά οι ηχογραφηµένες φράσεις έτσι ώστε να συµπεριλαµβάνονται όλα τα φωνήµατα. Στην συνέχεια, πρέπει να γίνει η διαδικασία του segmentation, δηλαδή ο καθορισµός των ορίων των φωνηµάτων και τελικά, οι πιό κατάλληλες

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.243 µονάδες πρέπει να επιλεχτούν. Η συλλογή των δειγµάτων από τη τις ηχογραφηµένες φράσεις είναι συνήθως πολύ χρονοβόρα. Υπάρχουν διάφορα προβλήµατα στην concatenative σύνθεση έναντι άλλων µεθόδων. Η παραµόρφωση από τις ασυνέχειες στα σηµεία συνένωσης, η οποία µπορεί να µειωθεί χρησιµοποιώντας µεθόδους εξοµάλυνσης. Οι απαιτήσεις µνήµης είναι συνήθως πολύ υψηλές, ειδικά όταν χρησιµοποιούνται µονάδες µεγάλου µήκους, όπως οι συλλαβές ή οι λέξεις. Η συλλογή των µονάδων είναι συνήθως χρονοβόρα διαδικασία. Θεωρητικά, όλα τα πιθανά allophones πρέπει να περιληφθούν, αλλά στην πράξη γίνεται ένας συµβιβασµός ανάµεσα στην ποιότητα και τον αριθµό των χρησιµοποιούµενων δειγµάτων. Αφού γίνει η συνένωση των κατάλληλων µονάδων, το παραγώµενο σήµα υποβάλλεται σε περαιτέρω επεξεργασία, προκειµένου να αποκτήσει τα επιθυµητά προσωδιακά χαρακτηριστικά και πιθανόν να γίνει κάποια εξοµάλυνση των ασυνεχειών του. Κάποιες απο αυτές τις µεθόδους επεξεργασίας είναι οι (Pitch Synchronous Overlap-Add) PSOLA τεχνικές (ΤD-PSOLA, FD- PSOLA, LP_PSOLA, MBR-PSOLA), η Linear Predictive (LP) τεχνική κ.α. Η LP τεχνική έχει χρησιµοποιηθεί ευρύτατα τα προηγούµενα χρόνια, αλλά τώρα προτιµάται περισσότερο ο TD- PSOLA αλγόριθµος ο οποίος έχει ιδιαίτερα απλή και εύκολη υλοποίηση. 7.4.4 ιάφορα TTS συστήµατα Σε αυτή την παράγραφο γίνεται αναφορά στα πιο αξιόλογα συστήµατα σύνθεσης οµιλίας που κυκλοφορούν σήµερα. Τα συστήµατα αυτά είναι : AT&T Bell Labs Eloquent (IBM) Festival Telia Infovox Lernout and Hauspie RealSpeak Microsoft Οι παρακάτω πίνακες περιέχουν πληροφορίες σχετικά µε την συµβατότητα των συστηµάτων αυτών µε τα διάφορα λειτουργικά συστήµτα και το εύρος γλωσσών που καλύπτουν.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.244 Πίνακας 7.1 : Συµβατότητα µε τα διάφορα συστήµατα Πίνακας 7.2 : Κάλυψη γλωσσών Το AT&T σύστηµα αποτελεί τους καρπούς πολλών ετών έρευνας στα εργαστήρια Bell Labs και στα ATR στην Ιαπωνία από τους Hunt and Black. Πρόκειται για ένα σύστηµα µε πολύ καλή απόδοση και σχεδόν ποτέ δεν προφέρει λάθος µια λέξη. Είναι ένα σύστηµα που στηρίζεται στην σύνθεση µε συνένωση και χρησιµοποιεί ένα µεγάλο corpus από το οποίο βρίσκει τις µεγαλύτερες ακουστικές µονάδες που µπορούν να χρησιµοποιηθούν κατά την σύνθεση. Αυτό έχει σαν αποτέλεσµα να παράγεται συνθετική οµιλία µε υψηλό βαθµό φυσικότητας. Οι λέξεις οι οποίες δεν υπάρχουν στο corpus, συντίθονται χρησιµοποιώντας δίφωνα. Μέχρι στιγµής καλύπτει τις ανάγκες για σύνθεση µόνο στα Αγγλικά, αλλά αναµένεται να είναι σε θέση σύντοµα να καλύπτει και άλλες γλώσσες. Το Bell Labs TTS σύστηµα αναπτύσσεται τα τελευταία 30 χρόνια. Η εξέλιξη αυτή έχει οδηγήσει σε ένα σύστηµα µε πολύ υψηλό βαθµό καταλληπτότητας. Χρησιµοποιεί δίφωνα και µεγαλύτερες µονάδες. Η µη σωστή προφορά λέξεων είναι σπάνιο φαινόµενο και έχει γίνει πολή καλή δουλειά στην προφορά συντοµεύσεων. Η οµιλία που παράγει ακούγεται σαν βουητό µε αποτέλεσµα να µην έχει πολή καλό βαθµό φυσικότητας. Καλύπτει τις εξής γλώσσες : Αγγλικά, Γερµανικά, Γαλλικά, Ιταλικά, Ιαπωνικά, Ισπανικά, Μανταρινικά Κινεζικά, και Ρουµανικά, γεγονός που το κάνει πολύ ελκυστικό για Ευρωπαικά projects. To Eloquent κατά την διάρκεια των 30 τελευταίων ετών και τώρα διανέµεται από την IBM. To σύστηµα διαθέτει πολύ καλούς κανόνες προφοράς και για τον λόγο αυτό γενικά διαθέτει καλή προφορά. Παρέχει λίγοτερο φυσική οµιλία από ότι το σύστηµα των εργαστηρίων Bell Labs system και η προσωδία είναι επίσης κάπως αφύσικη. Το Eloquent καλύπτει τα Γερµανικά, Γαλλικά, Ισπανικά, Ιταλικά και άλλες γλώσσες. Η IBM έκδοσή του τρέχει σε Windows NT και Linux. Το Festival σύστηµα αναπτύχθηκε στο Centre for Speech Technology Research του Πανεπιστηµίου του Εδιµβούργου τα τελευταία 7 χρόνια και είναι αποτέλεσµα της εργασίας των Alan Black and Paul Taylor οι οποίοι ήταν επίσης υπεύθυνοι για την ανάπτυξη του συστήµατος CHATR για τα Ιαπωνικά και τα Αγγλικά. Το Festival έχει αρκετά διαφορετικό σχεδιασµό από το CHATR και είναι ένα project το οποίο είναι ανοιχτό στην συµµετοχή ερευνητών από όλον τον κόσµο. Προς το παρόν καλύπτει τα Βρετανικά Αγγλικά, τα Ισπανικά, τα Γαλλικά και τα Γερµανικά. Οι τελευταίες εξελίξεις στο Festival περιλαµβάνουν µεγάλου µήκους ακουστικές µονάδες. Το Festival επίσης επιτρέπει την τροποποίηση της προσωδίας. Τρέχει σε Linux, Solaris και Windows. To Infovox σύστηµα είναι το αποτέλεσµα της έρευνας πολλών ετών στο Royal Institute of Technology της Στοκχόλµης. Το σύστηµα αυτό έχει µεταβληθεί µε τα χρόνια από έναν formant συνθέτη (ο οποίος αναπτύχθηκε από τον Dennis Klatt), σε ένα diphone συνθέτη και στην

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.245 συνέχεια σε έναν συνθέτη που χρησιµοποιεί µεγάλες µονάδες. Οι προσδοκίες των υπευθύνων είναι να αναπτύξουν το Infovox σε τέτοιο βαθµό που να παρέχει συνθετική οµιλία τόσο φυσική όσο το AT&T σύστηµα. Το Infovox τρέχει µόνο σε Windows. Oι Lernout και Hauspie έχουν αναπτύξει ένα σύστηµα που ονοµάζεται Real Speak και το όποιο βασίζεται σε συνένωση µεγάλων ακουστικών µονάδων. Καλύπτει τα Αγγλικά, Γερµανικά, Νορβηγικά και Ισπανικά. Η προφορά των λέξεων δεν έιναι υψηλού επιπέδου όπως στο Bell Labs σύστηµα. Real Speak τρέχει µόνο σε Windows. Η Microsoft έχει αναπτύξει ένα σύστηµα που στηρίζεται σε συνένωση µεγάλων ακουστικών µονάδων και ονοµάζεται Whistler. Το Whistler επιτρέπει την δηµιουργία του δικού σου συστήµατος σύνθεσης οµιλίας µε την δική σου φωνή. Χρησιµοποιεί ένα σύστηµα αναγνώρισης οµιλίας για να κάνει αυτόµατο segmantation διφώνων και τριφώνων από ένα µικρό corpus. To Whistler τρέχει µόνο σε Windows.

Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.246

Τεχνολογία Οµιλίας Βιβλιογραφία σελ.247 ΒΙΒΛΙΟΓΡΑΦΙΑ 1. Τεχνολογία Οµιλίας, Κοκκινάκης, Φακωτάκης 2. Discrete Time Processing of Speech Signals, Deller, Proakis, Hansen 3. Spoken Language Processing, Huang, Acero, Hon 4. A Tutorial on Support Vector Machines for Pattern Recognition, Burges 5. Statistical Learning and Kernel Methods, Scholkopf 6. ιπλωµατική Εργασία Μοντελοποίηση Πράξεων ιαλόγου στα πλαίσια επικοινωνίας Ανθρώπου-Μηχανής, Μπόρας Ιωσήφ 7. Dynamic Time Warping, available at http://www.cse.unsw.edu.au/~waleed/phd/html/node38.html 8. Dynamic Time Warping, available at http://www.ics.edu.au/~cassidy/comp449/html/ch11s02.html 9. Spectrogtrams, UCL, Phonetics & Linguistics, Acoustics of Speech and Hearing, B214/WEEK1-9/040914/1 10. Μεταπτυχιακή ιατριβή Ανάπτυξη ενός TTS συστήµατος σύνθεσης οµιλίας µε συνένωση ακουστικών µονάδων στο πεδίο του χρόνου, Ντόκος Ευάγγελος 11. ιπλωµατική Εργασία Ανάπτυξη βάσης ηµισυλλάβων για σύστηµα σύνθεσης οµιλίας στο πεδίο του χρόνου και αξιολόγησή του, Καµπάνη Άννα 12. Speech Recognition and Synthesis, CS 2245/LINGUIST 236, Jurafsky 13. Μεταπτυχιακή ιατριβή Κωδικοποίηση οµιλίας βάση του πρωτοκόλλου ISO-14496-3(MPEG-4), Ζέρβας Παναγιώτης 14. ιπλωµατική Εργασία Αναγνώριση φωνηµάτων Αγγλικής παρουσία θορύβου µε χρήση νευρωνικών δικτύων χρονικής καθυστέρησης, Ζέρβας Παναγιώτης