ΗΜΟΣΘέΝΗΣ: Μία νέα προσέγγιση για την παραγωγή βελτιωµένης συνθετικής οµιλίας από ηλεκτρονικά έγγραφα

Σχετικά έγγραφα
Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

Φωνητικές Διεπαφές Χρήστη- Τεχνολογίες Φωνής

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Γλώσσες Σήµανσης (Markup Languages) Τεχνολογία ιαδικτύου και Ηλεκτρονικό Εµπόριο

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τεχνολογία σύνθεσης φωνής από κείμενο

ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΝΤUA. Τεχνολογία Πολυμέσων

Ανάπτυξη καθολικά σχεδιασμένου ψηφιακού εκπαιδευτικού υλικού για τα Μαθηματικά της Ε τάξης Δημοτικού, για μαθητές γενικής και ειδικής εκπαίδευσης

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Κωδικοποίηση βίντεο (MPEG)

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

PRAAT -- ΟΔΗΓΟΣ ΓΙΑ ΤΑ ΠΡΩΤΑ ΒΗΜΑΤΑ Ανθή Χαϊδά

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

ιδάσκων: ηµήτρης Ζεϊναλιπούρ

Περιεχόµενα. Ανασκόπηση - Ορισµοί. Ο κύκλος ανάπτυξης προγράµµατος. Γλώσσες Προγραµµατισµού Ασκήσεις

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Θέµα 2: Φασµατογράφηµα στενής και ευρείας ζώνης, ενός σήµατος οµιλίας. Προέµφαση της οµιλίας. Παράµετροι οµιλίας (Ενέργεια, Pitch, Formants, LPC.

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

ΝΤUA. Τεχνολογία Πολυμέσων

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Εισαγωγή στον Παγκόσμιο ιστό και στη γλώσσα Html. Χρ. Ηλιούδης

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

SGML (Standard Generalized Markup Language) HTML (HyperText Markup Language) XML (extensible Markup Language)

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

BibConvert μετατροπές LOM

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Κεφάλαιο 7 Σύνθεση Οµιλίας

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ενιαίο Σύστημα Ψηφιακής Βιβλιοθήκης του Πανεπιστημίου Αθηνών

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ. Π.Μ.Σ. στην ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ. κατεύθυνση: Συστήματα Υπολογιστών. Διπλωματική Εργασία. Μυρωνίδης Θεόδωρος

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Προσβασιµότητα στους διαδικτυακούς κόµβους

Θέµα 5 ο Σύνθεση Οµιλίας

ΤΟΜΟΣ Α : Συμβολικός Προγραμματισμός

Singular Report Generator. Σχ 1 ηµιουργία Καταστάσεων SRG

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Τίτλος Πακέτου Certified Computer Expert-ACTA

Οπτική αντίληψη. Μετά?..

Semantic-based Querying of Tree-Structured Data. Οργάνωση εδοµένων µε ενδρικές οµές

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Ενότητες Α και Β (Α' Μέρος). Από τη γραμμικότητα στη συστατικότητα. Δομή και συστατικότητα. Δομικοί κανόνες.

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Άσκηση 1. Απάντηση Άσκησης 1

Γενική εικόνα τι είναι σήµα - Ορισµός. Ταξινόµηση σηµάτων. Βασικές ιδιότητες σηµάτων. Μετατροπές σήµατος ως προς το χρόνο. Στοιχειώδη σήµατα.

Αρχιτεκτονική του πληροφοριακού συστήµατος Cardisoft Γραµµατεία 2003 ιαχείριση Προσωπικού

Αποτελεί την πρόταση του GUnet. ασύγχρονης τηλεκπαίδευσης. Είναι ένα ανοικτό αρθρωτό σύστημα διαχείρισης ηλεκτρονικών μαθημάτων

Πέργαµος: Το Σύστηµα Ψηφιακής Βιβλιοθήκης του Πανεπιστηµίου Αθηνών

Συγχρονισµός πολυµέσων

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε το εργαλείο

Προηγµένη ιασύνδεση µε τοπεριβάλλον

ΚΕΦΑΛΑΙΟ Web Services

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε τα εργαλεία

G. Kokkinankis, E. Dermatas, E. Coutsogeorgopoulos

Αναλυτικές λειτουργίες ΣΓΠ

Διπλωματική Εργασία. Σχεδιασμός & Ανάπτυξη ενός πληροφοριακού συστήματος διαχείρισης θέσεων πρακτικής άσκησης για το Πανεπιστήμιο Δυτικής Μακεδονίας

Σημασιολογικός Ιστός (Semantic Web) - XML

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Τίτλος Πλατφόρµα Ασύγχρονης Τηλεκπαίδευσης. Συντάκτης. Ακαδηµαϊκό ιαδίκτυο GUnet Οµάδα Ασύγχρονης Τηλεκπαίδευσης

ΨΗΦΙΑΚΗ ΛΟΓΙΚΗ ΣΧΕΔΙΑΣΗ

Φωνολογική Ανάπτυξη και Διαταραχές

Υπηρεσία φωνητικής υποστήριξης των ιστοτόπων της ΕΡΤ Α.Ε.

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ

ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού

Σύνοψη Προηγούµενου. Κανονικές Γλώσσες (1) Προβλήµατα και Γλώσσες. Σε αυτό το µάθηµα. ιαδικαστικά του Μαθήµατος.

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

Μαθηματικά Λογισμικά και Γλώσσες Αναπαράστασης Γνώσης

κεφάλαιο 3 Η ΓΛΩΣΣΑ XML Εισαγωγή

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Γλώσσα : Ορισμός, Ανάπτυξη & Διαταραχές. Μαρίτσα Καμπούρογλου Λογοπεδικός Ίδρυμα για το Παιδί «Η Παμμακάριστος»

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

ΔΕ10: Πληροφοριακά Συστήματα Διοίκησης IΙ Εργαστήριο # 2

Browsers. Λειτουργικότητα και Παραμετροποίηση

Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής. ΕΥΤΕΧΝΟΣ, Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών

Έκδοση: Μάρτιος Συνήθεις Ερωτήσεις και Απαντήσεις

A systematic study of the universal properties and of the structure of cartographical language is still at an elementary stage. The fundamental basis

GoDigital.CMS Content Management System. Πλήρης διαχείριση περιεχομένου ιστοσελίδας

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

Από το χαρτί στις ψηφιακές ευκολίες

Εγχειρίδιο Ζωντανών Μεταδόσεων Υπηρεσιών Βίντεο. Πανεπιστημίου Κρήτης. Εγχειρίδιο τεχνικού μετάδοσης

Διαδίκτυο: Ιστορία, Δομή, Υπηρεσίες

ΕΛΑΧΙΣΤΕΣ ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΠΛΙΣΜΟΥ ΕΠΙΚΟΙΝΩΝΙΑ... 23

Περίληψη ιπλωµατικής Εργασίας

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Μελέτη και Ανάπτυξη ενός Εργαλείου Υποβοήθησης στη Σχεδίαση µίας Βάσης εδοµένων Τύπου Graph από Τελικούς Χρήστες

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

ΕΙΣΑΓΩΓΗ ΣΤΟ MATLAB- SIMULINK

ΠΕ 2.3 Εξελιγμένες υπηρεσίες Βίντεο ΠΣΔ

Μια εισαγωγή στην XSL

Ειδικό Τεύχος : Linux και Ηχος. Η Υποδοµή

Transcript:

ΗΜΟΣΘέΝΗΣ: Μία νέα προσέγγιση για την παραγωγή βελτιωµένης συνθετικής οµιλίας από ηλεκτρονικά έγγραφα Γεράσιµος Ξύδας Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών Τµήµα Πληροφορικής και Τηλεπικοινωνιών gxydas@di.uoa.gr

οµή παρουσίασης Μετατροπή κειµένου σε οµιλία ΗΜΟΣΘέΝΗΣ Φωνητική αναπαράσταση ηλεκτρονικών εγγράφων

Μετατροπή Κειµένου σε Οµιλία Ανάλυση Κειµένου Επεξεργασία Φυσικής Γλώσσας Επεξεργασία Σήµατος οµιλία Αλίευση Κειµένου από αλφαριθµητικά και σύµβολα σε λέξεις από λέξεις σε προφορά και προσωδία από προφορά και προσωδία σε σήµα

Ανάλυση κειµένου (προ-επεξεργασία) Εντοπισµός και ανάπτυξη κωδικοποιηµένων ή συνεπτυγµένων µη-λεξικών πληροφοριών Αριθµητικά «των 102 Ολυµπιακών Αγώνων» Ηµεροµηνίες και ώρες «22/2/2002», «16:45», «22-2-2002» Συντµίσεις «η κ. Πέτρου», «1,25 µ.» Ακρώνυµα, αρκτικόλεξα ΙΚΑ, Ι.Κ.Α. Ειδικές περιπτώσεις Greeklish, χηµικά σύµβολα,...

Ανάλυση κειµένου Τεχνικές Λεξικό 1-1 αντιστοίχιση Αποτυγχάνει σε περιπτώσεις αµφισηµιών: «1,2 εκ.» (εκατοµµύρια ή εκατοστά;) «.» (δυτικά, δυτικός, δύση, ιονύσης, ηµήτρης, ηµοσθένης,...) «κ.» (κύριος, κυρίου, κυρία,...) «12/2» (δώδεκα δεύτερα, δώδεκα δευτέρου) «5-3» (πέντε τρία, πέντε τρίτου, πέντε µείον τρία, πέντε µέχρι τρία) Αυτόµατα Πεπερασµένων Καταστάσεων Έλεγχος του περιβάλλοντος µίας οντότητας Εκπαιδευόµενα ή εµπειρικά Υβριδικές Μοντέλα κανόνων ή εκπαιδευόµενα συνοδεύουν το λεξικό για τις περιπτώσεις αµφισηµιών

Επεξεργασία Φυσικής Γλώσσας Εξαγωγή συντακτικής, εννοιολογικής και φωνολογικής πληροφορίας µε σκοπό την φωνητική αναπαράσταση του κειµένου και την πρόβλεψη της κατάλληλης προσωδίας. Παράγει µία ακολουθία φωνηµάτων (πληροφορία) και τρία διανύσµατα: τονισµού, διάρκειας και έντασης (µέτα-πληροφορία)

Μετατροπή σε φωνήµατα Αντιστοίχιση της γραπτής αναπαράστασης µε την προφορική. Μετατροπή γραµµάτων σε διεθνές φωνητικό αλφάβητο (IPA, SAMPA) «Τα παιδιά είδαν για µιά στιγµή τον Κώστα και την Χαρά σε µία ταβέρνα.» «ta ped ßDan a M a sti mß ton gýsta KE tiì xar se mßa tav rna»

Προσωδία Ηπροσωδία διαµορφώνει το µήνυµα των δεδοµένων της οµιλίας. «εν είναι το τι λες αλλά ο τρόπος που το λές» Η προσωδία είναι η µετα-πληροφορία των φωνηµάτων. «Σήµερα περάσαµε ωραία» «Σήµερα περάσαµε ωραία» «Σήµερα περάσαµε ωραία» «Σήµερα περάσαµε ωραία» 3 διανύσµατα: τόνος, διάρκεια και ένταση.

ΗΜΟΣΘέΝΗΣ Αναπτύχθηκε εξ ολοκλήρου στο εργαστήριο της Οµάδας Φωνής του ΕΚΠΑ. Σύνθετο σύστηµα, κατάλληλο για έρευνα σε διάφορα επίπεδα. Βαθµωτό: µπορεί να µικρύνει σε όγκο και απαιτήσεις CPU ανάλογα µε την εφαρµογή ή να µεγαλώσει ώστε να πραγµατοποιούνται πειράµατα. Ανοικτό, πολυγλωσσικό (multilingual και polyglot) σύστηµα. Αρθρωτή αρχιτεκτονική => Επεκτάσιµο. Κάθε άρθρωµα ρυθµίζεται εξωτερικά από τον σχεδιαστή ή τον τελικό χρήστη.

ΗΜΟΣΘέΝΗΣ Πυρήνας βασισµένος σε Γράφους Ετερογεννών Σχέσεων (HRG) (Black et. al, 2000). Συµβατότητα µε το Festival και τα εργαλεία αυτού. Η διαδικασία της σύνθεσης ορίζεται από Φωνητικούς Χαρακτήρες (VoiceFonts) Φωνή Λεξικά Αλυσίδα αρθρωµάτων και παράµετροι αυτών.

Αρθρώµατα - 1 Ανάλυση κειµένου Αριθµητικά, ηµεροµηνίες, ώρες, ακρώνυµα, συντµίσεις Υποστήριξη αγγλικών (120.000 λέξεις) Μετατροπή σε φωνήµατα Μηχανή αυτοµάτων (568 + 123 περιπτώσεις) Γραµµατική ανάλυση: εύρεση µερών του λόγου Αντίστροφο λεξικό (4.000 κανόνες + 3.000 εξαιρέσεις) Λεξικό (1.070.000 λέξεις)

Αρθρώµατα -2 Προσωδία ιάρκεια (επίπεδο φωνηµάτων) Εκπαιδευόµενα µοντέλα 3 καταστάσεων (+ρύθµιση) Εκπαιδευόµενα δέντρα παλινδρόµησης (CART), για συγκεκριµένα πεδία κειµένων. Επιτονισµός (πρόβλεψη επιτονικών γεγονότων) Μοντέλο 58-προτύπων (πρώτυπη πρόταση για τα Ελληνικά) H S1 T1 S2 T2 S3 T3 T Εκπαιδευόµενα CART δέντρα αποφάσεων για τόνους συλλαβής και φράσεων Επιτονισµός (απόδοση καµπύλης F0) Μοντέλο Fujisaki Μοντέλο γραµµικής πρόβλεψης f2b (Black & Hunt, 1996)

Αρθρώµατα -3 Παραγωγή σήµατος οµιλίας Formant συνθέτης Συνθέτες διφώνων Αντρικές και γυναικείες φωνές (1081 δίφωνα, αλφάβητο UoA-TtS-PA) Εργαλείο αναγνώρισης φωνής (HTK) για αυτοµατοποίηση της διαδικασίας παραγωγής νέων φωνών. LPC σύνθεση PSOLA, MBROLA σύνθεση 2 Ελληνικές MBROLA φωνές που αναπτύξαµε διατίθονται ελεύθερα από το site του ΗΜΟΣΘέΝΗ και του MBROLA. Unit Selection

ΗΜΟΣΘέΝΗΣ Υλοποίηση C/C++ from scratch, thread safe Αποδοτική υλοποίηση, 200*realtime (P4, 1.6GHz) Win32, αλλά γίνεται προσπάθεια µετεγγραφής σε ANSI C. ActiveX control (απλές διεπαφές) Server (socket based), Win32 και Linux clients

ηµοσθένης ιαθέσιµος από την σελίδα http://demosthenes.di.uoa.gr (προς ανανέωση...)

Γράφος Ετερογεννών Σχέσεων (HRG) συντακτικό δέντρο λέξη [ συνθέτης] [ οµιλίας ] συλλαβή [ συν] [ θέ ] [ της] [ ο ] [ µι ] [ λί ] [ ας]

HRG Κάθε κόµβος ανήκει σε µία ή περισσότερες σχέσεις. Τα περιεχόµενα του κάθε κόµβου είναι λίστες µε πρωτογεννείς τύπους δεδοµένων, µε δείκτες σε αντικείµενα οποιουδήποτε τύπου ή ακόµα και δείκτες σε συναρτήσεις. Είναι δυνατή η πλοήγηση σε όλες τις διαστάσεις του γράφου, ακολουθώντας σχετικά ή απόλυτα µονοπάτια.

HRG Όλη η πληροφορία Συντακτική Φωνολογική Ακουστική Γλωσσολογική Σήµατα οµιλίας (π.χ. ίφωνα) που γεννάται κατά την µετατροπή του κειµένου σε οµιλία αποθηκεύεται και χειρίζεται µέσω αυτών των γράφων.

Το πρόβληµα: Φωνητική αναπαράσταση ηλεκτρονικών εγγράφων Τα ηλεκτρονικά έγγραφα φέρουν κωδικοποιηµένη πληροφορία σηµαντική για την σηµασιολογία του περιεχόµενου κειµένου. Η πληροφορία αυτή δεν αξιοποιείται από τα συστήµατα µετατροπής κειµένου σε οµιλία. Το αποτέλεσµα είναι τα κείµενα αυτά να αποδίδονται µερικές φορές µε µειωµένη σηµασιολογία.

Ηφύση των ηλεκτρονικών εγγράφων Ενδιαφερόµαστε για «machine readable» έγγραφα (όχι κωδικοποιηµένες µορφές π.χ. jpeg) που περιέχουν κείµενο+µέτα πληροφορία Κείµενο Επεξεργάζεται από τα συστήµατα κειµένου σε οµιλία. Η ακουστική αναπαράσταση ποικίλει ανάλογα µε τις τεχνολογίες και τους πόρους του κάθε συστήµατος. εν υπάρχει ποτέ κοινή αντιµετώπιση των κειµένων. ιαφορετικό σύστηµα = διαφορετική ποιότητα και εκφορά. Μέτα-πληροφορία σχετική µε το κείµενο Αγνοείται από τα συστήµατα κειµένου σε οµιλία Προβλήµατα: αδυναµία σωστής απόδοσης του κειµένου (MathML, HTML, )

Κατηγορίες µετα-πληροφορίας Οδηγίες οπτικοποίησης: έντονα γράµµατα, πλάγια, πίνακες, bullets, µέγεθος γραµµάτων κλπ (π.χ. HTML, MS-Word) Οδηγίες δοµής: επικεφαλίδα, τίτλος, παράγραφος, record content (π.χ. HTML, XML, SQL), σύνθετα συνολα (π.χ. µαθηµατικές πράξεις MathML) Γλωσσολογική πληροφορία: γραµµατική, σύνταξη, µορφολογία, ρητορικές σχέσεις (π.χ. SOLE-ML, plain κείµενο) οµή κειµένου: παρενθέσεις, σηµάδια, κλπ Οδηγίες οµιλίας: <prosody>, <emp>, <rate>, <pitch> κλπ (π.χ. SABLE, VoiceXML, SSML, ACSS)

Ποιά είναι η ακουστική αξία της µετα-πληροφορίας; Ανάλογα µε τον τύπο του εγγράφου αλλάζει και ο ρόλος της µετα-πληροφορίας. Σε κείµενα µε οπτική διαµόρφωση βοηθάει στον εντοπισµό εστιακών (focus) σηµείων. Σε έγγραφα µε ιεραρχική δοµή βοηθάει στην απόδοση του σωστού νοήµατος προς τον ακροατή. Η µετα-πληροφορία µπορεί να αποδοθεί µε έλεγχο προσωδιακών χαρακτηριστικών, αλλαγή οµιλητή, παρεµβολή άλλων ήχων.

W3C Οι συστάσεις της W3C (ACSS, VoiceXML) αποτελούν οδηγό για κάποιον που θέλει να συµπεριλάβει συγκεκριµένα φωνητικά χαρακτηριστικά στα έγγραφά του. Όµως: η πλειονότητα των κειµένων είναι και εξακολουθεί να γράφεται χωρίς φωνητική αντίληψη (εξοικίωση συγγραφέων µε οπτικά εφφέ). Οι συστάσεις αφορούν το Web ή έγγραφα σε SGML µορφή. εν χειρίζονται φωνητικά της συστάδες µε την ιεραρχική δοµή µε την οποία έχουν γραφεί (ακολουθεί παράδειγµα).

Σκοπός Να προσδώσουµε ελεγχόµενα προσωδιακά χαρακτηριστικά σε συστάδες µέτα-πληροφορίας, ώστε αυτές να αποκτήσουν διακριτή ακουστική αναπαράσταση κατά την µετατροπή του εγγράφου σε οµιλία. Να προσδώσουµε σε έγγραφα χωρίς φωνητική αντίληψη ένα φωνητικό τρόπο αναπαράστασης, συµβατό ή όχι µε W3C σε περιπτώσεις που δεν γίνεται. Να ενισχύσουµε την «µνήµη» του ακροατή κατά την ακρόαση ενός εγγράφου (στην οπτική µορφή ο αναγνώστης µπορεί γρήγορα να µεταφερθεί µπροςπίσω. Στην ακουστική...;).

Document-to-Speech (D-t-S) Μία προσέγγιση για την ακουστική αξιοποίηση της µετα-πληροφορίας στα κείµενα. Χαρακτηριστικά Ανοικτό και επεκτάσιµο ύναται να προσαρµοστεί «σφικτά» σε συγκεκριµένες υλοποιήσεις TtS (για καλύτερα αποτελέσµατα) ή «χαλαρά» σε οποιαδήποτε υλοποίηση (*). Παρέχει µία script γλώσσα για τον έλεγχο της προσωδίας. Βασισµένο σε XML (θετικά/αρνητικά). Ενεργοποιεί ένα φωνητικό/ακουστικό κανάλι επικοινωνίας σε έγγραφα χωρίς φωνητική αντίληψη.

Αρχιτεκτονική Document to cxml cxml to dtsxml dtsxml to Speech Clusters Auditory Definition Cluster Identification Composer TtS Engine Speech Document Cluster document (cxml) DtS document (dtsxml)

Εντοπισµός και οργάνωση συστάδων Document to cxml cxml to dtsxml dtsxml to Speech Clusters Auditory Definition Cluster Identification Composer TtS Engine Speech Document Cluster document (cxml) DtS document (dtsxml)

Εντοπισµός συστάδων Document to cxml Cluster Identification Document Cluster document (cxml) RTF HTML SOLE VXML

Εντοπισµός συστάδων Κάθε τύπος εγγράφου έχει ένα προσαρµοστή που το διαχειρίζεται προκειµένου να εντοπίσει και να οργανώσει τις συστάδες που το αποτελούν. ηµιουργία δέντρου φράσεων και χαρακτηρισµός κάθε κόµβου Τεχνικές προσαρµοστών: Finite-state transducers ή γλώσσες µετασχηµατισµού. Σε κάθε τύπο συστάδας παραχωρείται µία µοναδική διαδροµή (XPath).

Οργάνωση συστάδων Οι συστάδες στα αρχεία που µας ενδιαφέρουν φέρουν οργάνωση δέντρου ή λίστας. Στην περίπτωση του δέντρου πρέπει η φωνητική αναπαράσταση να υπενθυµίζει/τονίζει την ιεραρχία, για λόγους νοήµατος.

Συστάδα λίστας <html><title></title><body> <b>πρέπει</b> να αγοράσουµε: <ul> <li>τυρί</li> <li>µακαρόνια</li> <li>φρούτα</li> </ul> για το αυριανό τραπέζι. </body> </html> 5 καταφατικές προτάσεις-φράσεις. ΛΑΘΟΣ 1 πρόταση µε 5 δευτερεύουσες φράσεις. ΣΩΣΤΟ

Οργάνωση συστάδων <paragraph> <group> <emph href= cluster(1) >Πρέπει</emph> <semicolon href= cluster(2) >να αγοράσουµε</semicolon> <list href= cluster(3)..cluster(5) > <lelem href= cluster(3) >τυρί</lelem> <lelem href= cluster(4) >µακαρόνια</lelem> <lelem href= cluster(5) >φρούτα</lelem> </list> <plain href= cluster(6) >για το αυριανό τραπέζι</plain> </paragraph>

HRG I:paragraph format I:group I:list phrase I:lelem I:lelem I:bold I:semicolon I:lelem cluster πρέπει να αγοράσουµε τυρί µακαρόνια φρούτα για το αυριανό τραπέζι

Συστάδα δέντρου <table> <tr><td>όνοµα</td><td>μοντέλο</td><td>κυβικά</td><td>ίπποι</td><td>abs</td><td>imm obilizer</td><td>αερόσακος οδηγού</td><td>αερόσακος συνοδηγού</td><td> ερµάτινο σαλόνι</td></tr> <tr><td>megane</td><td>2000</td><td>1400</td><td>101</td><td>ναι</td><td>ναι</td>< td>ναι</td><td>ναι</td><td>όχι</td></tr> <tr><td>sl300</td><td>1997</td><td>2200</td><td>148</td><td>ναι</td><td>ναι</td> <td>ναι</td><td>ναι</td><td>ναι</td></tr> <tr><td>ibiza</td><td>1998</td><td>1400</td><td>96</td><td>όχι</td><td>ναι</td><td >Ναι</td><td>Όχι</td><td>Όχι</td></tr> <tr><td>amazon</td><td>1969</td><td>2000</td><td>98</td><td>όχι</td><td>όχι</td><t d>όχι</td><td>όχι</td><td>ναι</td></tr> </table>

HRG+format Element table Name Κυβικά Element col Name Μοντέλο Element col Name Ίπποι Element col Name Abs Element col format Name Immobilizer Element col Name Αερόσακος οδηγού Element col Name Αερόσακος συνοδηγού Element col Name ερµάτινο σαλόνι Element col row cluster Phrase Ibiza 1998 1400 96 Όχι Ναι Ναι Όχι Όχι

Στοιχειοθεσία Document to cxml cxml to dtsxml dtsxml to Speech Clusters Auditory Definition Cluster Identification Composer TtS Engine Speech Document Cluster document (cxml) DtS document (dtsxml)

Στοιχειοθεσία Cluster document (cxml) Περιγραφή παραµέτρων που επηρεάζουν την συµπεριφορά cxml to dtsxml Clusters Auditory Definition (CAD) Composer Modules properties (DTD) Text, linguistic, prosody, speech, audio related modules DtS document (dtsxml)

DTD αρθρωµάτων Για κάθε παράµετρο Pxi τύπου T x µε πεδίο τιµών V={V x1, V x2,, V xn } ορίζουµε: <!ELEMENT P xi ( )> <!ATTLIST P xi (V x1 V x2 V xn )> TtS Module Parameters: T i P ik = V im T q P qj = V qn function1() function2() TtS Module DTD <!ELEMENT P ik > <!ELEMENT P qj > <!ATTLIST P ik (V i1 V i2 V im )> <!ATTLIST P qj (V q1 V q2 V qn )>

Παράδειγµα Το άρθρωµα RHYTHMIC στον ΗΜΟΣΘέΝΗ µπορεί (α) να εφαρµόζει διάφορα tempo εκφοράς και (β) να τροποποιεί την διάρκεια των συλλαβών σε συνάρτηση µε την θέση τους µέσα σε µία φράση. <!ELEMENT RHYTHMIC (Tempo*, Syllable*)> <!ELEMENT Tempo (#PCDATA?)> <!ATTLIST Tempo speed (lento andante allegro)> <!ATTLIST Tempo acc_var (legato staccato)> <!ELEMENT Syllable (#PCDATA?)> <!ATTLIST Syllable place (begin end)> <!ATTLIST Syllable ratio (#PCDATA)>

Εφαρµογή των προσωδιακών σεναρίων cxml to dtsxml Clusters Auditory Definition (CAD) Composer Cluster document (cxml) Modules properties (DTD) DtS document (dtsxml) Text, linguistic, prosody, speech, audio related modules

Cluster Auditory Definition (CAD) Βασισµένα στη XSL (extensible Stylesheet Language) Αναθέτουν σε µία πηγαία συστάδα <xsl:template match=cluster_xpath> µία επιθυµητή προσωδιακή συµπεριφορά <MODULE a :FUNCTION k ATTRIBUTE=VALUE u > <MODULE b :FUNCTION m ATTRIBUTE=VALUE w > <MODULE c :FUNCTION n ATTRIBUTE=VALUE v > Παράδειγµατα: /paragraph/table/tr: «Εισήγαγε ένα βόµβο 220Hz Hz» /paragraph/table/tr/td: «ιάβασε τον τίτλο της κολώνας µε γυναικεία φωνή και διάβασε το κείµενο µε ανοδικό τονισµό»

Παράδειγµα plain µε D-t-S

paragraph.table.cad <xsl:template match= */table/tr > <Wave:Insert file= 220hz-1sec.wav /> <xsl:apply-template/> <xsl:template/> <xsl:template match= */table/tr/td > <VoiceFont:Select name= female.vof > <HRG:item_prepend name= R:Format.parent.name /> <HRG:item_set_feat path_to_item= previous name= endtone value= H- /> </VoiceFont:Select> <Intonation:Assign endtone= L-L% > <xsl:apply-template/> </Intonation:Assign> <xsl:template/>

D-t-S Το υπο-σύστηµα D-t-S του ΗΜΟΣΘέΝΗ επιτρέπει την επαυξηµένη σε ποιότητα και πληροφορία ακουστική αναπαράσταση εγγράφων. Πεδία εφαρµογής: τηλεφωνική πρόσβαση σε ηλεκτρονικές βάσεις ή στο Web, πιστότερη απεικόνιση εγγράφων σε άτοµα µε προβλήµατα όρασης, συστήµατα IVR, υπηρεσίες καταλόγου, e-mail µέσω τηλεφώνου,...

Συµπεράσµατα ΗΜΟΣΘέΝΗΣ: Μία νέα αρχιτεκτονική συστήµατος µετατροπής κειµένου σε οµιλία ου µπορεί να φιλοξενήσει τις παραδοσιακές τεχνικές σύνθεσης καθώς και καινοτόµες. ΗΜΟΣΘέΝΗΣ: Ανοιχτό εργαλείο για έρευνα στη σύνθεση οµιλίας. Μία προσέγγιση για D-t-S: οµηµένα Έγγραφα ή Έγγραφα µε οπτική πληροφορία µπορούν να αναπαρασταθούν ακουστικά µε µεγαλύτερη ακρίβεια.