Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

Σχετικά έγγραφα
Φωνητικές Διεπαφές Χρήστη- Τεχνολογίες Φωνής

ΗΜΟΣΘέΝΗΣ: Μία νέα προσέγγιση για την παραγωγή βελτιωµένης συνθετικής οµιλίας από ηλεκτρονικά έγγραφα

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Ανάπτυξη καθολικά σχεδιασμένου ψηφιακού εκπαιδευτικού υλικού για τα Μαθηματικά της Ε τάξης Δημοτικού, για μαθητές γενικής και ειδικής εκπαίδευσης

2. Αλγόριθμοι, δομές δεδομένων και πολυπλοκότητα

Τεχνολογίες Φωνής στο Ηλεκτρονικό Εμπόριο και τις Υπηρεσίες Διαμεταγωγής. ΕΥΤΕΧΝΟΣ, Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών

Υπηρεσία φωνητικής υποστήριξης των ιστοτόπων της ΕΡΤ Α.Ε.

PDF created with pdffactory trial version

ΜΑΘΗΜΑΤΑ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ ΠΑΡΑ ΟΣΕΙΣ ΑΣΚΗΣΕΙΣ ΚΑΘΗΓΗΤΕΣ/ΤΡΙΕΣ

Προσβασιµότητα στους διαδικτυακούς κόµβους

1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΟΛΟΓΙΑ ΠΟΛΥΜΕΣΩΝ

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Θέµα 5 ο Σύνθεση Οµιλίας

Κεφάλαιο 7 Σύνθεση Οµιλίας

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Ανοικτά Ακαδημαϊκά Μαθήματα: Κανόνες Προσβασιμότητας Έκδοση 1.0

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε τα εργαλεία

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Τεχνολογία σύνθεσης φωνής από κείμενο

Όταν αποθηκεύετε μία παρουσίαση, την ονομάζετε και καθορίζετε πού θα την αποθηκεύσετε

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Ασύρµατη λειτουργία (µόνο σε επιλεγµένα µοντέλα)

Εφαρμογές. Αποτελέσματα. Η Εταιρεία. Ταυτότητα Δραστηριότητες Συνεργασίες

Εισαγωγή στην επικοινωνία ανθρώπου υπολογιστή. Νικόλαος Αβούρης Eκδόσεις ΔΙΑΥΛΟΣ, Αθήνα ΠΡΟΛΟΓΟΣ Περιεχόμενα Εγχειριδίου

7.11 Πρωτόκολλα Εφαρµογής Βασικές και Προηγµένες Υπηρεσίες ιαδικτύου. Ηλεκτρονικό Ταχυδροµείο. Τεχνολογία ικτύων Επικοινωνιών ΙΙ

Συγχρονισµός πολυµέσων

ΠΕΡΙΕΧΟΜΕΝΑ Χρήση Ηλεκτρονικού Υπολογιστή

της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο ΠανελλήνιοΣυνέδριοΑκαδημαϊκών Βιβλιοθηκών - Κέρκυρα 2004

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό (Hardware) - Λογισµικό (Software) 23 Ιστορική Εξέλιξη

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

1. ΠΑΡΟΥΣΙΑΣΗ 1.1 ΟΠΤΙΚΕΣ ΠΑΡΟΥΣΙΑΣΕΙΣ

ΕΡΓΟ Υλοποίηση Επιµόρφωσης εκπαιδευτικών Πληροφορικής

Keywords λέξεις κλειδιά:

ΠΡΟΓΡΑΜΜΑ ΤΕΛΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

Ανοικτά Ακαδηµα κά Μαθήµατα. ιαδικτυακές εφαρµογές ιαχείριση µαθηµάτων µε ηλεκτρονικό τρόπο Πρόγραµµα σπουδών διδακτική ενότητα

1 Εισαγωγή στην Πληροφορική

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

«Επικοινωνίες δεδομένων»

Σειρά «ΘΥΜΗΣΙΣ» : Αρχαίος Ελληνικός Πολιτισμός και Γλώσσα

ΙΝΣΤΙΤΟΥΤΟ ΛΙΜΕΝΙΚΗΣ ΚΑΤΑΡΤΙΣΗΣ «ΕΞΑΝΤΑΣ» ΑΣΤΙΚΗ ΜΗ ΚΕΡΔΟΣΚΟΠΙΚΗ ΕΤΑΙΡΕΙΑ

ιεθνής Αερολιµένας Αθηνών Τεχνολογίες ροής δεδοµένων σε ΙΡ δίκτυα: Ένας δρόµος προς τα συστήµατα πληροφόρησης επιβατών επόµενης γενιάς


Διαδραστικός ηχητικός χάρτης σε περιβάλλον διαδικτύου. Εφαρμογή: Χάρτης θορύβου της πόλης της Βέροιας

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε το εργαλείο

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Προσβασιμότητα Περιεχομένου στα Ανοικτά Μαθήματα

e-κπαίδευση Πλατφόρµα Ασύγχρονης Τηλε-κπαίδευσης Οδηγίες χρήσης για τους σπουδαστές του ΤΕΙ Αθήνας και τους επισκέπτες της δικτυακής πύλης e-κπαίδευση

Στάδια Ανάπτυξης Λόγου και Οµιλίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΑΣ ΥΠΟΔΟΜΩΝ, ΝΑΥΤΙΛΙΑΣ & ΤΟΥΡΙΣΜΟΥ ΑΠΟΦΑΣΗ ΕΠΙ ΔΗΛΩΣΗΣ ΣΗΜΑΤΟΣ ΑΠΟΦΑΣΗ ΕΞ 3113/

Σχεδιασμός στο Διαδίκτυο και ηλεκτρονική προσβασιμότητα e-inclusion

ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΣΤΗΝ Ι ΑΚΤΙΚΗ

ΠΟΛΥΤΡΟΠΙΚΕΣ ΙΕΠΑΦΕΣ (MULTIMODAL INTERFACES) Μαρία Φούσκη

PAVIRO 1. PAVIRO Σύστημα ανακοινώσεων και εκκένωσης χώρων μέσω φωνητικής αναγγελίας με επαγγελματική ποιότητα ήχου Ευελιξία από την πρώτη στιγμή

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Διατάξεις Ημιαγωγών. Ηλ. Αιθ Αριθμητικές Μέθοδοι Διαφορικών Εξισώσεων Ηλ. Αιθ. 013

ΓΙΑ ΤΗΝ ΕΞΑΣΦΑΛΙΣΗ ΠΡΟΣΒΑΣΙΜΟΤΗΤΑΣ ΣΤΑ ΑΤΟΜΑ ΜΕ ΑΝΑΠΗΡΙΑ ΤΗΡΗΣΗ ΤΩΝ ΚΑΝΟΝΩΝ ΓΙΑ ΤΗΝ ΕΞΑΣΦΑΛΙΣΗ ΠΡΟΣΒΑΣΙΜΟΤΗΤΑΣ ΣΤΑ ΑΤΟΜΑ ΜΕ ΑΝΑΠΗΡΙΑ

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

14PROC

Ελεγχος Πρόσβασης (Access Control)

ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ ΑΡΙΘΜΗΤΙΚΗ ΤΟΥ ΥΠΟΑΟΓΙΣΤΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ...3-1

A8-0188/298. Morten Løkkegaard Απαιτήσεις προσβασιμότητας για τα προϊόντα και τις υπηρεσίες COM(2015)0615 C8-0387/ /0278(COD)

Σχολή Προγραµµατιστών Ηλεκτρονικών Υπολογιστών (ΣΠΗΥ) Τµήµα Προγραµµατιστών Σειρά 112

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

Περίληψη ιπλωµατικής Εργασίας

Δημιουργία προσβάσιμων παρουσιάσεων με χρήση MS-PowerPoint 2010

Information Technology for Business

Κωδικοποίηση βίντεο (MPEG)

ΕΝ ΕΙΚΤΙΚΑ ΠΑΡΑ ΕΙΓΜΑΤΑ ΚΡΙΤΗΡΙΩΝ ΑΞΙΟΛΟΓΗΣΗΣ. Κεφάλαιο 17

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) Ηλ. Αμφ. 1, 2, 3. Ηλεκτρομαγνητικά Πεδία Β. Ηλ. Αμφ.

Οπτική αντίληψη. Μετά?..

επίσης, τηλεφωνική συσκευή και να εξασφαλίζεται η πρόσβαση στο διαδίκτυο.

Public Address (PA) Ενίσχυση Συναυλιών. Κύκλος Διαλέξεων Ηλεκτρακουστικής 20/2/2012. Δευτέρα, 20 Φεβρουαρίου 12

ΚΕΝΤΡΟ ΕΚΠΑΙ ΕΥΣΗΣ ΕΝΗΛΙΚΩΝ ΣΑΜΟΥ. ΙΕΥΘΥΝΣΗ ΚΑΡΜΑΝΙΟΛΩΝ. ΠΟΛΗ ΚΑΡΛΟΒΑΣΙ. Τ.Κ83200 ΤΗΛ , FAX ,

Στρατηγικό Σχέδιο Για τη Βιώσιµη Ανάπτυξη της Θεσσαλονίκης (ΣΣΒΑΘ) 1 η Ενδιάµεση Έκθεση 3. ηµιουργία και Λειτουργία Web site

Σχεδίαση και Ανάπτυξη Ιστότοπων

ΠΡΟΓΡΑΜΜΑ ΕΠΑΝΑΛΗΠΤΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

Ανάλυση Απαιτήσεων Απαιτήσεις Λογισµικού

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) (επί πτυχίω) Ηλ. Αμφ. 1, 2, 3

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) (επί πτυχίω) Ηλ. Αμφ. 1, 2, 3

Οδηγός Ψηφιακών Υπηρεσιών Κινητής Τηλεφωνίας

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εφαρμοσμένος & Υπολογιστικός Ηλεκτρομαγνητισμός Ηλ. Αιθ. 012, 013. Στοχαστικά Συστήματα & Επικοινωνίες Ηλ. Αμφ.

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εφαρμοσμένος & Υπολογιστικός Ηλεκτρομαγνητισμός Ηλ. Αιθ. 012, 013. Εργαστήριο Ψηφιακών Συστημάτων Ηλ. Εργ.

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εργαστηριακή και Βιομηχανική Ηλεκτρονική Ηλ. Αμφ. 2, 3. Γλώσσες Προγραμματισμού Ι. Ηλ. Αμφ. 1, 2, 3, 4, 5

Sub4All: Υποσύστηµα Αναγώρισης Φωνής

ΜΑΘΗΜΑ 3 ΛΟΓΙΣΜΙΚΟ (SOFTWARE)

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Αρχιτεκτονική Υπολογιστών Ηλ. Αιθ. 001, 002. Ηλ. Αιθ. 003, 004 Ηλεκτρονική ΙΙΙ Ηλ. αιθ. 003, 004. Θεωρία Δικτύων & Κυκλωμάτων

Προϊόντα και υπηρεσίες συνθετικής φωνής

Ασύρµατη λειτουργία Οδηγός χρήσης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Γλώσσες υψηλού επιπέδου Περιέχουν περισσότερες εντολές για την εκτέλεση πολύπλοκων εργασιών Τα προγράµµατα µεταφράζονται σε γλώσσα µηχανής είτε από το

Εκπαιδευτικές εφαρµογές εργαλείων τεχνολογίας φωνής στη διδασκαλία της ξένης γλώσσας

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

1.1 Βασικές Έννοιες της Πληροφορικής Εισαγωγή 21 Τι είναι ο Ηλεκτρονικός Υπολογιστής 22 Υλικό - Λογισµικό 23 Ιστορική Εξέλιξη των Η/Υ 23 Γενιές

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Ηλ. Αιθ. 003, 004 Ηλεκτρονική ΙΙΙ Ηλ. αιθ. 003, 004

ΚΕΦΑΛΑΙΟ 6 - ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Μαθηματικά Λογισμικά και Γλώσσες Αναπαράστασης Γνώσης

Transcript:

Επιµορφωτικό Σεµινάριο Ξενοδοχείο Caravel, 10-11 Μαΐου 2003 Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της Γεράσιµος Ξύδας Πληροφορίας BSc, MSc Πληροφορικής, υποψ. διδάκτωρ Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών, Τµήµα Πληροφορικής και Τηλεπικοινωνιών, gxydas@di.uoa.gr

οµή Μηχανισµός παραγωγής οµιλίας Τι είναι η συνθετική οµιλία; Μετατροπή κειµένου σε οµιλία - ΗΜΟΣΘέΝΗΣ Προσεγγίσεις στην ακουστική αναπαράσταση εγγράφων

Μηχανισµός Παραγωγής Οµιλίας πηγές ηχεία

Μοντέλο Πηγής-Φίλτρου

Τι είναι η «συνθετική οµιλία» Οµιλία που παράγεται µε αυτόµατες διαδικασίες από έναν ηλεκτρονικό υπολογιστή και προσοµοιάζει την συµπεριφορά της ανθρώπινης οµιλίας. Σαν τεχνολογία υφίσταται πειραµατικά από τα τέλη 50 και εµπορικά από το 70. ιεπαφή µε τον χρήστη τελευταίας γενιάς. Από hardware (κουτάκια, χαµηλή ροµποτική ποιότητα) σε software (ευέλικτα, υψηλή ποιότητα)

Ποιότητα συνθετικής οµιλίας Καταληπτότητα: ήταν κατανοητό το περιεχόµενο της οµιλίας; Φυσικότητα: πόσο κοντά στην φυσική χροιά ήταν η οµιλία; Επιπλέον, µεταδόθηκε σωστά η πληροφορία;

Συνθέτης Φωνοσυντονισµών Οµιλίας Ελέγχεται από έναν πίνακα 40 παραµέτρων που ανανεώνουν την συµπεριφορά πηγών και φίλτρων κάθε 5 msec. «Είµαι ο πρώτος συνθέτης οµιλίας του Πανεπιστηµίου Αθηνών» (1998) Μέτρια καταληπτότητα Χαµηλή φυσικότητα

Βελτιώνοντας την ποιότητα Οι παράµετροι της οµιλίας εµπεριέχονται σε µικρά ηχογραφηµένα τµήµατα (φωνήµατα, δίφωνα, λέξεις, φράσεις). «Είµαι η πρώτη φωνητική βάση διφώνων του Πανεπιστηµίου Αθηνών» (2001) Υψηλή καταληπτότητα Μέτρια φυσικότητα

Πληροφορία στην οµιλία «Ο Νίκος ήρθε από τη Νάξο µε πλοίο» «Ο Νίκος ήρθε από τη Νάξο µε πλοίο» «Ο Νίκος ήρθε από τη Νάξο µε πλοίο» «Ο Νίκος ήρθε από τη Νάξο µε πλοίο»

Από τον συνθέτη οµιλίας στο σύστηµα µετατροπής κειµένου σε οµιλία (ΜΚσΟ) Ο συνθέτης οµιλίας αποτελεί πλέον το τελικό στάδιο σε µία πληθώρα διαδικασιών. Η είσοδος σε ένα σύστηµα ΜΚσΟ είναι κείµενο και όχι παράµετροι: Ηλεκτρονικές εφηµερίδες, e-mail, επεξεργαστής κειµένου, ηλεκτρονικά βιβλία, σελίδες διαδικτύου,... Το ΜΚσΟ ανάλογα µε το κείµενο, συνθέτει την κατάλληλη εκφορά λόγου (προφορά & προσωδία)

Μετατροπή κειµένου σε οµιλία από αλφαριθµητικά και σύµβολα σε λέξεις από λέξεις σε προφορά και προσωδία από προφορά και προσωδία σε σήµα ΕΛΕΓΧΟΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΒΑΣΙΚΗ ΜΕΤΑΤΡΟΠΗ Χειρισµός Μετα-πληροφορίας Κανονικοποίηση Κειµένου Κανονικοποιηµένο Κείµενο Επεξεργασία Φυσικής Γλώσσας Επεξεργασία Σήµατος (συνθέτης οµιλίας) Σήµα Οµιλίας

ΗΜΟΣΘέΝΗΣ (1/5) Σύστηµα µετατροπής κειµένου σε οµιλία. Εξ ολοκλήρου ανάπτυξη από την Οµάδα Φωνής του ΕΚΠΑ. Υποστηρίζει την ελληνική γλώσσα και την αγγλική.

ΗΜΟΣΘέΝΗΣ (2/5) http://demosthenes.di.uoa.gr ιατίθενται ελεύθερα (για µη εµπορικούς σκοπούς): κάποιες εκδόσεις του ΗΜΟΣΘέΝΗ, φωνητικοί & γλωσσολογικοί πόροι για τα Ελληνικά. Λίστα συζητήσεως ηλεκτρονικού ταχυδροµείου

ΗΜΟΣΘέΝΗΣ (3/5) Κανονικοποίηση κειµένου «οι 3 γυναίκες» Πρόβλεψη προσωδίας Αναγνώριση φράσεων Μορφολογικό δέντρο Μετατροπή σε φωνήµατα «οι τρία γυναίκες» Σύνθεση χρονικού διανύσµατος «οι τρεις γυναίκες» Σύνθεση τονικού διανύσµατος Σύνθεση κυµατοµορφής

ΗΜΟΣΘέΝΗΣ (4/5) «Η θέλησή του ηµοσθένη ήταν τόσο µεγάλη, ώστε, όπως µας αναφέρει ο Πλούταρχος, έβαζε στο στόµα του µικρά χαλίκια την ώρα που απήγγειλε λόγους, προκειµένου να βελτιώσει την άρθρωσή του. Οι προσπάθειες του αυτές, απέδωσαν καρπούς και εξελίχθηκε σε σπουδαίο ρήτορα και πολιτικό.» Από εµπειρικά µοντέλα... σε εκπαιδευόµενα... (2002) (2003)

ΗΜΟΣΘέΝΗΣ (5/5) Βαθµωτό σύστηµα, ευέλικτο σε µετατροπές, τόσο για πειράµατα όσο και για εφαρµογές. Server mode (200*realtime) Συνεργάζεται µε τρίτες εφαρµογές (MS-OFFICE, Internet Explorer, ) Συµβατό µε το πρωτόκολλο Microsoft SAPI 4 & 5 (σύνδεση µε screen-readers, talking agents, συστήµατα IVR,...)

Εφαρµογές Πολυµέσα: παιχνίδια, εκπαιδευτικό λογισµικό, λεξικά, εγκυκλοπαίδειες, ηλεκτρονικά βιβλία, εκµάθηση ξένων γλωσσών. Τηλεπικοινωνίες: αλληλεπιδραστικά συστήµατα απόκρισης µε φωνή -IVR, κέντρα εξυπηρέτησης κλήσεων Call Centers, υπηρεσίες καταλόγων, ανάγνωση e-mail µέσω τηλεφώνου, µετατροπή SMS σε οµιλία, φωνητικές πύλες (voice portals) Βιοµηχανία: συστήµατα διάγνωσης βλαβών, συστήµατα ροµποτικής, παρακολούθηση παραγωγής ηµόσιοι χώροι: περιηγήσεις µουσείων-αρχαιολογικών χώρωνεκθέσεων, ηλεκτρονικά κιόσκια ενηµέρωσης για αεροδρόµια, εµπορικά κέντρα Άτοµα µε ειδικές ανάγκες: αναγνώστες οθόνες (screen readers) για άτοµα µε τύφλωση ή χαµηλή όραση, τεχνητά στόµατα για περιπτώσεις αλαλίας/ δυσαρθρίας, συστήµατα ανάγνωσης εφηµερίδων βιβλίων για ηλικιωµένους, βοηθήµατα διαπροσωπικής επικοινωνίας

Ποιότητα Μετατροπής Κειµένου σε Οµιλία Η ποιότητα της εξαρτάται κυρίως από το µέγεθος του θεµατικού πεδίου το οποίο προσοµοιάζεται. 141 (ώρα), αποτελέσµατα ΟΠΑΠ, δροµολόγια, υπηρεσίες καταλόγου, εκφώνηση δελτίου καιρού,... Πολιτικές ειδήσεις, αθλητικές ειδήσεις, πολιτιστικά, νοµικά κείµενα, τεχνικά κείµενα,... Λογοτεχνικά κείµενα,...

Ηλεκτρονικά Έγγραφα Εµπλουτισµένο κείµενο Απλό κείµενο

Κατηγορίες µετα-πληροφορίας Οδηγίες οπτικοποίησης: έντονα γράµµατα, πλάγια, πίνακες, bullets, µέγεθος γραµµάτων κλπ (π.χ. HTML, MS-Word) Οδηγίες δοµής: επικεφαλίδα, τίτλος, παράγραφος, record content (π.χ. HTML, XML, SQL), σύνθετα συνολα (π.χ. µαθηµατικές πράξεις MathML) Γλωσσολογική πληροφορία: γραµµατική, σύνταξη, µορφολογία, ρητορικές σχέσεις (π.χ. SOLE-ML, plain κείµενο) οµή κειµένου: παρενθέσεις, σηµάδια, κλπ Φωνητικές Οδηγίες: <prosody>, <emp>, <rate>, <pitch> κλπ (π.χ. SABLE, VoiceXML, SSML, ACSS)

Ποιά είναι η ακουστική αξία της µετα-πληροφορίας; Ανάλογα µε τον τύπο του εγγράφου αλλάζει και ο ρόλος της µετα-πληροφορίας. Σε κείµενα µε οπτική διαµόρφωση βοηθάει στον εντοπισµό εστιακών (focus) σηµείων. Σε έγγραφα µε ιεραρχική δοµή βοηθάει στην απόδοση του σωστού νοήµατος προς τον ακροατή. Η µετα-πληροφορία µπορεί να αποδοθεί µε έλεγχο προσωδιακών χαρακτηριστικών, αλλαγή οµιλητή, παρεµβολή άλλων ήχων κλπ.

World Wide Web Consortium (W3C) Οι συστάσεις της W3C (ACSS, VoiceXML) αποτελούν οδηγό για κάποιον που θέλει να συµπεριλάβει συγκεκριµένα φωνητικά χαρακτηριστικά στα έγγραφά του. Όµως: η πλειονότητα των κειµένων είναι και εξακολουθεί να γράφεται χωρίς φωνητική αντίληψη (εξοικίωση συγγραφέων µε οπτικά εφφέ). Οι συστάσεις αφορούν το Web. εν χειρίζονται φωνητικά τη µετα-πληροφορία µε την ιεραρχική δοµή µε την οποία έχει συντεθεί.

Σκοπός Προκειµένου η µετα-πληροφορία να έχει διακριτή ακουστική αναπαράσταση, αναθέτουµε ελεγχόµενα προσωδιακά χαρακτηριστικά σε αυτή. Έγγραφα χωρίς φωνητική αντίληψη αποκτούν ένα φωνητικό τρόπο αναπαράστασης. Ενισχύεται η «µνήµη» του ακροατή κατά την ακρόαση ενός εγγράφου (στην οπτική µορφή ο αναγνώστης µπορεί γρήγορα να µεταφερθεί µπρος-πίσω. Στην ακουστική...;).

Document-to-Speech (1/2) Υπο-σύστηµα ενός συστήµατος µετατροπής κειµένου σε οµιλία που: Αναγνωρίζει την µετα-πληροφορία Επιτρέπει την συγγραφή σεναρίων ακουστικής συµπεριφοράς ανάλογα µε την µετα-πληροφορία Επαυξηµένη σε ποιότητα και πληροφορία ακουστική αναπαράσταση εγγράφων. Πεδία εφαρµογής: τηλεφωνική πρόσβαση σε ηλεκτρονικές βάσεις ή στο Web, πιστότερη απεικόνιση εγγράφων σε άτοµα µε προβλήµατα όρασης, συστήµατα IVR, υπηρεσίες καταλόγου, e-mail µέσω τηλεφώνου,...

Document-to-Speech (2/2) Document to cxml cxml to dtsxml dtsxml to Speech Clusters Auditory Definition Cluster Identification Composer TtS Engine Speech Document Cluster document (cxml) DtS document (dtsxml)

Παράδειγµα Text-to-Speech Doc-to-Speech

Συµπεράσµατα Ποιότητα συνθετικής οµιλίας: Καταληπτότητα, φυσικότητα και µετάδοση πληροφορίας. Εξαρτάται από το µέγεθος του θεµατικού πεδίου. ΗΜΟΣΘέΝΗΣ: Μία νέα αρχιτεκτονική συστήµατος µετατροπής κειµένου σε οµιλία που µπορεί να φιλοξενήσει τις παραδοσιακές τεχνικές σύνθεσης καθώς και καινοτόµες. Μία προσέγγιση για D-t-S: οµηµένα Έγγραφα ή Έγγραφα µε οπτική πληροφορία µπορούν να αναπαρασταθούν ακουστικά µε µεγαλύτερη ακρίβεια.

http://www.di.uoa.gr/speech http://www.di.uoa.gr/~gxydas