Τεχνολογία σύνθεσης φωνής από κείμενο
Ηεξέλιξησεδιεθνέςεπίπεδο Πρώτο σύστημα ~1939 Ταχύτερη εξέλιξη δεκαετία 70 με την ανάπτυξη των υπολογιστών Πρώτα χρήσιμα συστήματα τέλη δεκαετίας 80 Ωρίμανση της τεχνολογίας δεκαετία 90 Πρώτα δειλά βήματα στην αγορά τέλη δεκαετίας 90 Ώριμη πλέον τεχνολογία σε συνεχή εξέλιξη
ΗεξέλιξηστηνΕλλάδα 1998: Εκφωνητής (1 η γενιά) Σύνθεση με formants Πρόκειται για το πρώτο εμπορικά διαθέσιμο σύστημα για τα Ελληνικά. 2002: Εκφωνητής+ (2 η γενιά) Σύνθεση στο πεδίο του χρόνου 2006: Νέα γενιά σύνθεσης (3 η γενιά) Σύνθεση με αλγορίθμους επιλογής βέλτιστων Σύνθεση φωνής κορυφαίας ποιότητας για τα Ελληνικά. Πολύ υψηλή καταληπτότητα και μοναδική φυσικότητα, που σχεδόν δεν ξεχωρίζει από έναν φυσικό ομιλητή.
Τα βασικά στάδια της επεξεργασίας Δύο βασικά στάδια κατά την επεξεργασία: Στάδιο επεξεργασίας κειμένου εισόδου Στάδιο επεξεργασίας σήματος και παραγωγής συνθετικού σήματος εξόδου
Τα βασικά στάδια της επεξεργασίας Λεξικό Κανόνες φωνητικής μεταγραφής Κανονικοποίηση κειμένου Φωνητική μεταγραφή Πηγαίο κείμενο εισόδου ("Ιδρύθηκε στις 10/3/98") «Κανονικοποιημένο» κείμενο ("Ιδρύθηκε στις δέκα Μαρτίου ενενήντα οκτώ") Φωνητική μεταγραφή κανόνων Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων Συνθετική φωνή
Κανονικοποίηση κειμένου Σκοπός: Πλήρης ανάπτυξη κειμένου σε απλή μορφή Βασικά θέματα: Ακρωνύμια (εξαρτώμενα από την εκάστοτε υπο γλώσσα) Αριθμοί, ημερομηνίες, τακτικά αριθμητικά, Συνήθεις συντομογραφίες και συνεπτυγμένες μορφές (πχ "κ.", "κ.λπ.", "π.χ.") Κλίση Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων
Φωνητική μεταγραφή Σκοπός Μετατροπή γραμμάτων σε φωνήματα Βασικά θέματα Αλλόφωνα Συμπλέγματα CIV Ουρανικοποιήσεις και λοιπές αλλοιώσεις ανάλογα με το περιβάλλον Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων
Προσωδία Σκοπός "Υπολογισμός" της μελωδίας μιας πρότασης Βασικά θέματα: Κατάλληλος χειρισμός τονισμού, σημείων στίξης κ.λπ. Κατάλληλη εκφορά καταφατικών, ερωτηματικών προτάσεων Δεν υπάρχει ένα γενικευμένο μοντέλο που να μπορεί να αναπαραστήσει επαρκώς κάθε ομιλητή Δεν υπάρχει μοναδική "σωστή" προσωδία για μια πρόταση, μόνο "πειστικές" πραγματώσεις της Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων
Οι ιδιαιτερότητες της σύνθεσης φωνής γιαταελληνικά Ελληνικά Συνεπής γραφή/προφορά Ύπαρξη συμβόλου τόνου Δεν υπάρχει δευτερεύων τόνος αλλά είναι πολύ συχνή η χρήση εμβόλιμων Αγγλικών λέξεων και φράσεων Αγγλικά Ιδιαίτερα ασυνεπής προφορά Έλλειψη τονικού συμβόλου Ύπαρξη δευτερεύοντος τόνου
Υποσύστημα επεξεργασίας σήματος Ποικίλες προσεγγίσεις: αρθρωτική vocoders με βάση formants (rule based) με βάση διφωνήματα (concatenative/diphone) > βέλτιστης επιλογής διφωνημάτων (unit selection) με βάση hidden Markov models
ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεση με βάση formants (1/2)
ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεση με βάση formants (2/2) Σειριακό Τμήμα Πηγή Εμφώνων AV + RNP RNZ R5 R4 R3 R2 R1 F0, Rg, Rk, Ta FNP, BNP FNZ, BNZ F5, B5 F4, B4 F3, B3 F2, B2 F1, B1 Πηγή Θορύβου ιαμόρφωση Πλάτους AH AF + AB A2 R2 + Βηματική Plos A3 A4 R3 R4 + A5 R5 A6 R6 Παράλληλο Τμήμα
ΗΤεχνολογίαΣύνθεσηςΦωνήςΗ Σύνθεσημεβάσηδιφωνήματα (concatenative/diphone) βάση ηχογραφήσεων με "υποδειγματικά" διφωνήματα κατάλληλη μεταβολή κάθε διφωνήματος συρραφή διφωνημάτων
Επιλογή και συρραφή (unit selection) (2/2) Σκοπός: Η επιλογή κατάλληλου υποσυνόλου των προηχογραφημένων ακουστικών μονάδων και η συνένωσή τους Βασικά θέματα: Δύο ζητούμενα για κάθε λογάτομο, τα οποία θα πρέπει να βελτιστοποιούνται συνδυαστικά: να ταιριάζει στο σημείο που προορίζεται στην πρόταση συνθέτουμε (target cost) να ταιριάζει με τα γειτονικά του (join cost) Λεξικό Κανόνες φωνητικής μεταγραφής κανόνων Κανονικοποίηση κειμένου Φωνητική μεταγραφή Υπολογισμός Επιλογή βέλτιστων Συρραφή επιλεγμένων
Επιλογή και συρραφή (unit selection) (1/2)