Τεχνολογία σύνθεσης φωνής από κείμενο



Σχετικά έγγραφα
Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Φωνητικές Διεπαφές Χρήστη- Τεχνολογίες Φωνής

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ

Εισαγωγή στις Αρχές της επιστήμης των ΗΥ

Προϊόντα και υπηρεσίες συνθετικής φωνής

Σειρά «ΘΥΜΗΣΙΣ» : Αρχαίος Ελληνικός Πολιτισμός και Γλώσσα

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ. Π.Μ.Σ. στην ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ. κατεύθυνση: Συστήματα Υπολογιστών. Διπλωματική Εργασία. Μυρωνίδης Θεόδωρος

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

Υπηρεσία φωνητικής υποστήριξης των ιστοτόπων της ΕΡΤ Α.Ε.

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Θέµα 5 ο Σύνθεση Οµιλίας

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Κεφάλαιο 7 Σύνθεση Οµιλίας

Β ΠΕΡΙΦΕΡΕΙΑ ΠΕΙΡΑΙΩΣ ΠΑΣΟΚ EK. T ΖΑΧΑΡΟΠΟΥΛ ΟΣ ΠΡΟΔΡΟΜΟΣ ΜΥΡΓΙΑΛΗ ΧΡΥΣΟΥΛΑ (ΧΡΥΣΑ) ΜΑΓΙΑΤΗΣ ΙΩΑΝΝΗΣ ΧΑΤΖΗΜΑΝΩΛ ΗΣ ΕΥΑΓΓΕΛΟΣ ΔΙΑΜΑΝΤΙΔΗΣ ΙΩΑΝΝΗΣ

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον. ΚΕΦΑΛΑΙΟ 2 Βασικές Έννοιες Αλγορίθμων

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

Βασίλειος Κοντογιάννης ΠΕ19

Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

ΑΕΠΠ Ερωτήσεις θεωρίας

MULTICOM 112. Οδηγίες χρήσης

ΠΡΟΣΧΕΔΙΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ. Α τάξης Γυμνασίου

Αναπαράσταση Μη Αριθμητικών Δεδομένων

! Δεδομένα: ανεξάρτητα από τύπο και προέλευση, στον υπολογιστή υπάρχουν σε μία μορφή: 0 και 1

Περιεχόμενα. Κεφάλαιο 1 Γνωριμία με το Excel... 9

of Cognition, Brain, and Language, Spain.

Βελτίωση της ποιότητας συνθετικής φωνής και εφαρμογή σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και υπηρεσίες ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Για μια αποτελεσματική Παρουσίαση

Περιεχόμενα. Κεφάλαιο 1 Γνωριμία με το Excel...9

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Βιομηχανικοί Ελεγκτές. Ενότητα: ΕΡΓΑΣΤΗΡΙΟ 1 ΕΛΕΓΧΟΣ ΣΥΣΤΗΜΑΤΟΣ ΜΕΤΑΦΟΡΑΣ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις

ΑΔΑ: ΒΕΖΡΟΞΛΔ-Η7Ι ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔIΚΤYΟ. Αθήνα, Αρ. Πρωτ. 3010

PRAAT -- ΟΔΗΓΟΣ ΓΙΑ ΤΑ ΠΡΩΤΑ ΒΗΜΑΤΑ Ανθή Χαϊδά

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Επιστήμη της Πληροφορικής. Εργασία του μαθητή Δημήτρη Τσιαμπά του τμήματος Α4

ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΠΑΡΑΓΩΓΗ ΔΙΑΦΗΜΙΣΗΣ

ΕΙΣΑΓΩΓΗ ΣΤOΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

Επεξεργασία Ερωτήσεων

Ξεκινώντας από το μηδέν Η Νέα Μέθοδος για Ear Training

Μάθετε πώς λειτουργούν στην πραγµατικότητα οι κοινοβουλευτικές επιτροπές στο

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

ΥΛΟΠΟΙΗΣΗ ΦΩΝΗΤΙΚΗΣ ΠΥΛΗΣ ΠΟΛΥΤΕΧΝΕΙΟΥ ΚΡΗΤΗΣ

Συστήματα Υποστήριξης Αποφάσεων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΜΑΘΗΜΑ / ΤΑΞΗ : ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ / ΕΠΑΛ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 02/11/2014 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: Ι. ΜΙΧΑΛΕΑΚΟΣ Α. ΙΛΕΡΗ

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems)

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ιόνιο Πανεπιστήμιο Τμήμα Τεχνών Ήχου και Εικόνας. Ακαδημαϊκό Έτος

Θέµατα Μορφολογίας της Νέας Ελληνικής Ι. Κώστας Δ. Ντίνας Πανεπιστήµιο Δυτικής Μακεδονίας

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Προκλήσεις κατά την ένταξή τους

Ημιτονοειδή σήματα Σ.Χ.

Sub4All: Υποσύστηµα Αναγώρισης Φωνής

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

Εκπαιδευτικές εφαρµογές εργαλείων τεχνολογίας φωνής στη διδασκαλία της ξένης γλώσσας

ΣΥΣΤΗΜΑ ΔΙΠΛΗΣ ΑΥΤΟΜΑΤΗΣ ΚΟΠΗΣ ΜΕ ΤΕΧΝΟΛΟΓΙΑ ΥΔΡΟΒΟΛΗΣ (WATERJET) Η ΤΕΛΕΙΑ ΛΥΣΗ ΓΙΑ ΑΠΟΤΕΛΕΣΜΑΤΙΚΗ ΚΑΙ ΑΚΡΙΒΗΣ ΚΟΠΗ ΓΙΑ ΟΛΑ ΤΑ ΓΝΩΣΤΑ ΥΛΙΚΑ!

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Βιομηχανικοί Ελεγκτές. Ενότητα: ΕΡΓΑΣΤΗΡΙΟ 7 ΜΕΣΗ ΤΙΜΗ ΑΝΑΛΟΓΙΚΟΥ ΣΗΜΑΤΟΣ

ΚΩΝΣΤΑΝΤΙΝΟΣ ΤΑΜΒΑΚΗΣ ΒΑΣΙΚΗ ΘΕΩΡΙΑ ΤΗΣ ΜΟΥΣΙΚΗΣ ΒΙΒΛΙΟ ΑΣΚΗΣΕΩΝ

OMICRON SYSTEMS ΕΤΑΙΡΙΚΟ ΠΡΟΦΙΛ. Σεπτέμβριος 2018

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 7: Αλγόριθμοι για επεξεργασία ερωτήσεων και βελτιστοποίηση

Υλοποίηση των Σχεσιακών Τελεστών. 6/16/2009 Μ.Χατζόπουλος 1

Δηµήτρης Παπαζαχαρίου

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

«Επικοινωνίες δεδομένων»

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Αναλώσιμα. Κατάλογος γνήσιων αναλώσιμων 2018 ALIVE WITH COLOUR

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»

Russian for Tourism. ΟΔΗΓΟΣ ΧΡΗΣΗΣ του ΠΡΟΣΩΠΙΚΟΥ ΧΩΡΟΥ ΤΟΥ RETOUR

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Στόχος του βιβλίου αυτού είναι να κατακτήσουν οι μικροί μαθητές

Ψηφιακή Επεξεργασία Εικόνας

Εισαγωγή στην επιστήμη των υπολογιστών. ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ και Μετατροπές Αριθμών

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να:

5. Λόγος, γλώσσα και ομιλία

Ο κώδικας Nemeth για τα Μαθηματικά Λυκείου (σύμβολα και σύνταξη)

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΚΕΦΑΛΑΙΟ ΟΙ ΥΠΟΛΟΓΙΣΤΕΣ ΑΠΟ ΤΗΝ ΑΡΧΑΙΟΤΗΤΑ ΜΕΧΡΙ ΣΗΜΕΡΑ Ιστορική αναδρομή Υπολογιστικές μηχανές

σόκ. Σιώπησε και έφυγε μετανιωμένος χωρίς να πει τίποτα, ούτε μια λέξη.» Σίμος Κάρμιος Λύκειο Λειβαδιών Σεπτέμβριος 2013

Ακουστική φωνητική μελέτη της παραγωγής και αναγνώρισης των φωνηέντων σε βαρήκοα άτομα

Επεξεργασία Ερωτήσεων

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

Μάθημα 2: Παράσταση της Πληροφορίας

Αντώνης Μποτίνης 1. 3 International Phonetic Association. Η Διεθνής Φωνητική Εταιρία διατηρεί ιστοσελίδα στη

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών.

Στοιχεία επεξεργασίας σημάτων

Transcript:

Τεχνολογία σύνθεσης φωνής από κείμενο

Ηεξέλιξησεδιεθνέςεπίπεδο Πρώτο σύστημα ~1939 Ταχύτερη εξέλιξη δεκαετία 70 με την ανάπτυξη των υπολογιστών Πρώτα χρήσιμα συστήματα τέλη δεκαετίας 80 Ωρίμανση της τεχνολογίας δεκαετία 90 Πρώτα δειλά βήματα στην αγορά τέλη δεκαετίας 90 Ώριμη πλέον τεχνολογία σε συνεχή εξέλιξη

ΗεξέλιξηστηνΕλλάδα 1998: Εκφωνητής (1 η γενιά) Σύνθεση με formants Πρόκειται για το πρώτο εμπορικά διαθέσιμο σύστημα για τα Ελληνικά. 2002: Εκφωνητής+ (2 η γενιά) Σύνθεση στο πεδίο του χρόνου 2006: Νέα γενιά σύνθεσης (3 η γενιά) Σύνθεση με αλγορίθμους επιλογής βέλτιστων Σύνθεση φωνής κορυφαίας ποιότητας για τα Ελληνικά. Πολύ υψηλή καταληπτότητα και μοναδική φυσικότητα, που σχεδόν δεν ξεχωρίζει από έναν φυσικό ομιλητή.

Τα βασικά στάδια της επεξεργασίας Δύο βασικά στάδια κατά την επεξεργασία: Στάδιο επεξεργασίας κειμένου εισόδου Στάδιο επεξεργασίας σήματος και παραγωγής συνθετικού σήματος εξόδου

Τα βασικά στάδια της επεξεργασίας Λεξικό Κανόνες φωνητικής μεταγραφής Κανονικοποίηση κειμένου Φωνητική μεταγραφή Πηγαίο κείμενο εισόδου ("Ιδρύθηκε στις 10/3/98") «Κανονικοποιημένο» κείμενο ("Ιδρύθηκε στις δέκα Μαρτίου ενενήντα οκτώ") Φωνητική μεταγραφή κανόνων Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων Συνθετική φωνή

Κανονικοποίηση κειμένου Σκοπός: Πλήρης ανάπτυξη κειμένου σε απλή μορφή Βασικά θέματα: Ακρωνύμια (εξαρτώμενα από την εκάστοτε υπο γλώσσα) Αριθμοί, ημερομηνίες, τακτικά αριθμητικά, Συνήθεις συντομογραφίες και συνεπτυγμένες μορφές (πχ "κ.", "κ.λπ.", "π.χ.") Κλίση Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων

Φωνητική μεταγραφή Σκοπός Μετατροπή γραμμάτων σε φωνήματα Βασικά θέματα Αλλόφωνα Συμπλέγματα CIV Ουρανικοποιήσεις και λοιπές αλλοιώσεις ανάλογα με το περιβάλλον Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων

Προσωδία Σκοπός "Υπολογισμός" της μελωδίας μιας πρότασης Βασικά θέματα: Κατάλληλος χειρισμός τονισμού, σημείων στίξης κ.λπ. Κατάλληλη εκφορά καταφατικών, ερωτηματικών προτάσεων Δεν υπάρχει ένα γενικευμένο μοντέλο που να μπορεί να αναπαραστήσει επαρκώς κάθε ομιλητή Δεν υπάρχει μοναδική "σωστή" προσωδία για μια πρόταση, μόνο "πειστικές" πραγματώσεις της Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων

Οι ιδιαιτερότητες της σύνθεσης φωνής γιαταελληνικά Ελληνικά Συνεπής γραφή/προφορά Ύπαρξη συμβόλου τόνου Δεν υπάρχει δευτερεύων τόνος αλλά είναι πολύ συχνή η χρήση εμβόλιμων Αγγλικών λέξεων και φράσεων Αγγλικά Ιδιαίτερα ασυνεπής προφορά Έλλειψη τονικού συμβόλου Ύπαρξη δευτερεύοντος τόνου

Υποσύστημα επεξεργασίας σήματος Ποικίλες προσεγγίσεις: αρθρωτική vocoders με βάση formants (rule based) με βάση διφωνήματα (concatenative/diphone) > βέλτιστης επιλογής διφωνημάτων (unit selection) με βάση hidden Markov models

ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεση με βάση formants (1/2)

ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεση με βάση formants (2/2) Σειριακό Τμήμα Πηγή Εμφώνων AV + RNP RNZ R5 R4 R3 R2 R1 F0, Rg, Rk, Ta FNP, BNP FNZ, BNZ F5, B5 F4, B4 F3, B3 F2, B2 F1, B1 Πηγή Θορύβου ιαμόρφωση Πλάτους AH AF + AB A2 R2 + Βηματική Plos A3 A4 R3 R4 + A5 R5 A6 R6 Παράλληλο Τμήμα

ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεσημεβάσηδιφωνήματα (concatenative/diphone) βάση ηχογραφήσεων με "υποδειγματικά" διφωνήματα κατάλληλη μεταβολή κάθε διφωνήματος συρραφή διφωνημάτων

Επιλογή και συρραφή (unit selection) (2/2) Σκοπός: Η επιλογή κατάλληλου υποσυνόλου των προηχογραφημένων ακουστικών μονάδων και η συνένωσή τους Βασικά θέματα: Δύο ζητούμενα για κάθε λογάτομο, τα οποία θα πρέπει να βελτιστοποιούνται συνδυαστικά: να ταιριάζει στο σημείο που προορίζεται στην πρόταση συνθέτουμε (target cost) να ταιριάζει με τα γειτονικά του (join cost) Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων

Επιλογή και συρραφή (unit selection) (1/2)