ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ του ΠΑΝΑΓΙΩΤΗ ΓΡ. ΖΕΡΒΑ Διπλωματούχου Ηλεκτρολόγου Μηχανικού Μεταπτυχιακό Συστήματα Επεξεργασίας Σημάτων και Εικόνων Αρ. Διδ. 195 ΠΑΤΡΑ, ΝΟΕΜΒΡΙΟΣ 2007

2

3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διατριβή που υποβλήθηκε στο ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ και ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ της ΠΟΛΥΤΕΧΝΙΚΗΣ ΣΧΟΛΗΣ από τον ΠΑΝΑΓΙΩΤΗ ΓΡ. ΖΕΡΒΑ Διπλωματούχο Ηλεκτρολόγο μηχανικό και τεχνολογίας υπολογιστών Πολυτεχνικής Σχολής Πανεπιστημίου Πατρών ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΠΡΟΣΩΔΙΑΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ Αρ. Διδ. 195 ΠΑΤΡΑ 2007

4

5

6

7 Περιεχόμενα Ευχαριστίες......xiv Εισαγωγή......xv Kεφάλαιο 1ο Γραπτός και προφορικός λόγος Εισαγωγή Η σύνθεση φωνής Δομή και οργάνωση συστημάτων μετατροπής κειμένου σε ομιλία Επεξεργασία φυσικής γλώσσας Παραγωγή συνθετικής ομιλίας Σύνθεση ομιλίας με μοντελοποίηση άρθρωσης Σύνθεση ομιλίας με κανόνες Σύνθεση ομιλίας με συνένωση μονάδων Ποιότητας ενός συστήματος μετατροπής κειμένου σε ομιλία Συστήματα μετατροπής κειμένου σε ομιλία...19 Kεφάλαιο 2ο Προσωδιακή πληροφορία στον προφορικό λόγο Προσωδία Βασικά συστατικά της προσωδίας Η έννοια της προσωδίας Μοντέλα επιτονισμού Ακουστικά μοντέλα επιτονισμού Αντιληπτικά μοντέλα επιτονισμού Γλωσσολογικά μοντέλα επιτονισμού Kεφάλαιο 3ο Προσωδιακή βάση ομιλίας (WCL-1)...36

8 3.1 Ανάπτυξη γλωσσικών πόρων για την έρευνα της σύνθεσης ομιλίας Θεωρητική σύνδεση προσωδίας και σύνταξης Η φωνητική βάση διφώνων της WCL Επιλογή των δομικών ακουστικών μονάδων Λίστα δομικών μονάδων φωνητικής βάσης Λεκτικοί φορείς δομικών μονάδων φωνητικής βάσης Το προσωδιακό σώμα ομιλίας της WCL Επιλογή ύφους ομιλίας και σύνοδος ηχογράφησης Η GRToBI προσωδιακή επισημείωση της WCL Το συναισθηματικό σώμα ομιλίας της WCL Ανάπτυξη τεχνικής για την αυτόματη τεμαχιοποίηση ηχογραφήσεων...66 Kεφάλαιο 4ο Σύστημα μετατροπής κειμένου σε ομιλία Αρχιτεκτονική συστήματος μετατροπής κειμένου σε ομιλία Βαθμίδα επεξεργασίας φυσικής γλώσσας Επίπεδο επεξεργασίας σήματος Kεφάλαιο 5ο Μοντελοποίηση φαινομένων επιτονισμού με μεθόδους μηχανικής μάθησης Μοντελοποίηση καμπύλης τονικότητας Αλγόριθμοι μηχανικής μάθησης Δένδρα απόφασης Μπαεϋζιανή μάθηση Μάθηση βασισμένη σε στιγμιότυπα Μέτρα αξιολόγησης των αλγορίθμων μηχανικής μάθησης Μοντέλα μηχανικής μάθησης για την ανίχνευση προσωδιακών παύσεων Χαρακτηριστικά και μοντέλα εκτίμησης προσωδιακών παύσεων για την Ελληνική Κειμενικά χαρακτηριστικά για την ανίχνευση φραστικών παύσεων Πλαίσιο εργασίας για την μελέτη των χαρακτηριστικών εκπαίδευσης Αξιολόγηση χαρακτηριστικών εκπαίδευσης Πειραματικό πλαίσιο εργασίας

9 5.4 Μοντέλα εξακρίβωσης προσωδιακών παύσεων με χρήση δένδρων απόφασης Δεδομένα και χαρακτηριστικά εκπαίδευσης Αξιολόγηση μοντέλων προσωδιακών παύσεων Συμπεράσματα Μοντέλα εξακρίβωσης φρασιακών παύσεων με χρήση Μπαϋεζιανών δικτύων Μοντέλα αυτόματης ανίχνευσης τονικών υψών Δεδομένα εκπαίδευσης Αξιολόγηση μοντέλων γενικού και περιορισμένου κειμενικού πεδίου Συμπεράσματα Kεφάλαιο 6ο Αξιολόγηση επιτονικών χαρακτηριστικών για την αναγνώριση συναισθημάτων Εισαγωγή Συναισθηματική ομιλία Δεδομένα συναισθηματικής ομιλίας Πόροι ομιλίας για την διεξαγωγή πειραμάτων Πλαίσιο διεξαγωγής πειραμάτων Συμπεράσματα Βιβλιογραφία Ευρετήριο πινάκων Πίνακας 1 Επίδραση των ομοιοτήτων ή των διαφορών μεταξύ ζευγαριών πιθανών λέξεων..9 Πίνακας 2: Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων...22 Πίνακας 3 Η μελωδίες σε διάφορα είδη πρότασης στα Ελληνικά...34 Πίνακας 4: Μέρη του λόγου των νέων ελληνικών...51 Πίνακας 5: Αριθμός εμφανίσεως τονικών υψών Πίνακας 6: Επιτρεπτοί συνδυασμοί φραστικών και οριακών τόνων στο πλαίσιο του GRToBI Πίνακας 7: Αριθμός εμφανίσεως οριακών τόνων

10 Πίνακας 8: Δείκτες παύσεων και ισοδυναμία με προσωδιακά συστατικά...57 Πίνακας 9: Αριθμός εμφάνισεως δεικτών παύσεων...58 Πίνακας 10: Συγχώνευση τονικών υψών χαμηλής συχνότητας εμφάνισης με βασικές κατηγορίες Πίνακας 11: Συγχώνευση οριακών τόνων χαμηλής συχνότητας εμφάνισης με βασικές κατηγορίες Πίνακας 12: Αξιολόγηση των ηχογραφήσεων από ακροατές...66 Πίνακας 13: Χαρακτηριστικά φωνημάτων Πίνακας 14: Κατάταξη των χαρακτηριστικών με βάση το πληροφοριακό κέρδος τους Πίνακας 15: Πίνακας σύγχησης για τα μοντέλα εκπαιδευμένα με τα CFS υποσύνολα χαρακτηριστικών Πίνακας 16: Τιμές TP και FP για τα μοντέλα εκπαιδευμένα με τα CFS υποσύνολα χαρακτηριστικών Πίνακας 17: Συνολική ακρίβεια των μοντέλων των βάσεων γενικού και περιορισμένου πεδίου Πίνακας 18:Πίνακες σύγχησης των μοντέλων γενικού πεδίου Πίνακας 19: Τιμές TP και FP των μοντέλων γενικού πεδίου Πίνακας 20: Πίνακας σύγχησης των μοντέλων περιορισμένου πεδίου Πίνακας 21: Τιμές TP και FP των μοντέλων περιορισμένου πεδίου Πίνακας 22: Συνολική ακρίβεια (A) και Κάπα στατιστικό (K) των προσωδιακών μοντέλων φράσιοποίησης Πίνακας 23: Ακρίβεια, ανάκληση και μέτρηση-f για εκπαίδευση με παράθυρο [-3,+1] Πίνακας 24: Κατανομή κατηγοριών τονικών υψών στα προσωδιακά δεδομένα Πίνακας 25: Προσωδιακά πλαίσια κατηγοριοποίησης των τονικών υψών Πίνακας 26: Ποσοστά εκτίμησης συναισθημάτων από ακροατές για την GrES Πίνακας 27: Ποσοστά εκτίμησης συναισθημάτων από ακροατές για την DES Πίνακας 28: Πλαίσια εργασίας για την διεξαγωγή της αξιολόγησης των χαρακτηριστικών. 152 Πίνακας 29: Συνολική ακρίβεια των μοντέλων αναγνώρισης συναισθημάτων της GrES Πίνακας 30: Πίνακας σύγχισης των μοντέλων GrES Πίνακας 31: Συνολική ακρίβεια DES μοντέλων αναγνώρισης συναισθηματικής κατάστασης Πίνακας 32:Πίνακας σύγχισης των μοντέλων DES...158

11 Ευρετήριο σχημάτων και εικόνων Εικόνα 1. Το σύστημα ομιλητή ακροατή (Stevens, 98)...1 Εικόνα 2. Σύστημα αμφίδρομης φωνητικής απόκρισης - ΑΦΑ, (Interactive Voice Response IVR) Εικόνα 3. Οι ακουστικοί ταλαντωτές του Christian Kratzenstein, Εικόνα 4. Η μηχανές των (α) Wolfgang von Kempelen και (β) Charles Wheatstone...4 Εικόνα 5 Ιστορικό χρονοδιάγραμμα της σύνθεσης φωνής...5 Εικόνα 6 Λειτουργικό διάγραμμα συστήματος ΜκσΟ....7 Εικόνα 7. Δομικό διάγραμμα του επιπέδου ΕΦΓ ενός συστήματος ΜκσΟ...8 Εικόνα 8 Βαθμίδα φωνητικής γραφής (α) βασισμένη σε λεξικό και (β) με κανόνες...12 Εικόνα 9. Διάγραμμα της βαθμίδας δημιουργίας προσωδιακής πληροφορίας...14 Εικόνα 10. Μοντελοποίηση κίνησης γλωττίδας με ένα σύστημα ελατηρίου-μάζας...16 Εικόνα 11 Δομικό διάγραμμα ενός συστήματος σύνθεσης ομιλίας με κανόνες...17 Εικόνα 12. Αλλαγές στην καμπύλη F0 ανάλογα με την θέση του τόνου επιτονισμού στη φράση Εικόνα 13. Καμπύλη F0 της φράσης Χλόμιασαν με τις μανούβρες του καραβιού α) σε κατάσταση θυμού και β) σε κατάσταση στεναχώριας...24 Εικόνα 14. Φασματική και ακουστική αναπαράσταση κυματομορφής σε συνάρτηση με το χρόνο Εικόνα 15: Γραμμές κλίσης οι οποίες έχουν ληφθεί έπειτα από ακουστική ανάλυση. ΑΣ, ΤΑ, Εx, Mx και μx αντίστοιχα, αναφέρονται στην αρχική συχνότητα, τελική συχνότητα, ελάχιστα, μέγιστα και μικροπροσωδιακές μεταβολές Εικόνα 16 Η γραμματική του ΤΟΒΙ Εικόνα 17 Τονικά ύψη και η ευθυγράμμιση τους με την τονισμένη συλλαβή (Baltazani, 2002) Εικόνα 18. H κωδικοποίηση ToBI. Παράδειγμα της κυματομορφής της φράσης Τους έλεγχε με το καμτσίκι όπου φαίνονται, τα επίπεδα του φωνήματος (phones), λέξης (Ws), τα επίπεδα του ToBI: προσωδιακή λέξη (IWs), δείκτης παύσης (BreakIndex) και τόνων (PitchAccents, PhraseAccents) Εικόνα 19 Δομικό διάγραμμα διαδικασίας ανάπτυξης φωνητικής βάσης...41 Εικόνα 20 Μοντέλο φωνήματος, διφώνου και τριφώνου...43 Εικόνα 21. Κυματομορφή και καμπύλη F0 της λέξης /tarara/...45

12 Εικόνα 22 Πλάτος, καμπύλη ενέργειας, θεμελιώδους συχνότητας και όρια διφώνου /n-e/...47 Εικόνα 23 α) Αριστερό, β) κεντρικό και γ) δεξί όριο του διφώνου /n-e/...48 Εικόνα 24 Κατανομή των α) μέρος λόγου και β) των συντακτικών ορίων φράσεων στη προσωδιακή βάση ομιλίας WCL Εικόνα 25 Κατανομή των τονικών υψών στο προσωδιακό σώμα ομιλίας μας...55 Εικόνα 26 Παράδειγμα GRToBI τόνων (τονικά ύψη και οριακοί τόνοι)...56 Εικόνα 27 Κατανομή οριακών τόνων στην WCL Εικόνα 28. Κατανομή δεικτών παύσεων στην WCL Εικόνα 29. Επίπεδα περιγραφής του GRToBI, καμπύλη F0 και κυματομορφή μιας φράσης της WCL-1 με το πρόγραμμα επισημείωσης EMU...59 Εικόνα 30. Κατανομή των τονικών υψών σε συνάρτηση με το ΜΛ...61 Εικόνα 31. Κατανομή των τονικών υψών πάνω σε λειτουργικές και λέξεις περιεχομένου...61 Εικόνα 32. Κατανομή των τονικών υψών σε συνάρτηση με το είδος της συντακτικής ενδοπεριόδου που ανήκουν Εικόνα 33. Κατανομή των δεικτών παύσεων σε συνάρτηση με το ΜΛ της λέξης...62 Εικόνα 34. Κατανομή δεικτών παύσεων σε συνάρτηση με το είδος της συντακτικής ενδοπεριόδου που ανήκουν Εικόνα 35. Κατανομή των δεικτών παύσεων σε συνάρτηση με τονικό ύψος της λέξης που εμφανίζονται Εικόνα 36. Δομικό διάγραμμα συστήματος κατάτμησης φωνημάτων...68 Εικόνα 37. Εξακρίβωση τον οριακών σημείων ανιχνεύοντας τις κορυφές της συνάρτησης κόστους Εικόνα 38. Ακρίβεια ευρείας φωνημικής κατάτμησης σε συνάρτηση με την τιμή της υπερκατάτμησης για διαφορετικούς δείκτες εξομάλυνσης (S) (S1=1, S2=50, S3=80, S4=130)...70 Εικόνα 39. Μπλοκ διάγραμμα συστήματος ανάπτυξης μοντέλων προσωδίας και ΜΚσΟ...72 Εικόνα 40. Στάδιο επεξεργασίας φυσικής γλώσσας...73 Εικόνα 41. Δενδρική μορφή μορφοσυντακτικών χαρακτηριστικών του κειμένου εισόδου...75 Εικόνα 42. Δενδρική μορφή προσημειωμένων χαρακτηριστικών των ηχογραφήσεων της προσωδιακής βάσης Εικόνα 43. Μπλοκ διάγραμμα εξαγωγής καμπύλης F0 με χρήση γραμμικής παλινδρόμησης...78 Εικόνα 44. Μπλοκ διάγραμμα εξαγωγής διάρκειας φωνημάτων...78

13 Εικόνα 45. FR=L/To=2, αφού εξαχθούν 2 βασικοί περίοδοι ανά παράθυρο, κάθε παράθυρο μετατοπίζεται κατά Τ-Το, έτσι ώστε να επιτευχθεί κατά την άθροιση, περίοδος Τ. (Dutoit & Leich, 1993) Εικόνα 46. Διάγραμμα ροής ενός μοντέλου F0 σε σύστημα ΜΚσΟ...84 Εικόνα 47 Παράδειγμα Μπαεζιανού δικτύου Εικόνα 48. (α) Αριθμός προτάσεων ανά ηχογράφηση (b) αριθμός λέξεων ανά πρόταση...99 Εικόνα 49. Κατανομή ΜΛ στο σώμα κειμένου των δεδομένων εκπαίδευσης/αξιολόγησης. 100 Εικόνα 50. Κατανομή συντακτικών φράσεων στο σώμα κειμένου των δεδομένων εκπαίδευσης/αξιολόγησης Εικόνα 51. Συχνότητα εμφάνισης των προσωδιακών παύσεων σε συνάρτηση με τα σημεία στίξης Εικόνα 52. Συνολική ακρίβεια μοντέλων προσωδιακών παύσεων εκπαιδευμένων με ταξινομημένα χαρακτηριστικά βάση της πληροφορίας κέρδους Εικόνα 53. Μετρήσεις-F για τις κλάσεις (α) b0, (β) b1, (γ) b2, και (δ) b Εικόνα 54. Μέτρηση-F για τα μοντέλα εκπαιδευμένα με τα CFS υποσύνολα χαρακτηριστικών Εικόνα 55. Μέτρηση-F των μοντέλων γενικού πεδίο με το πρακτικά βέλτιστο υποσύνολο χαρακτηριστικών Εικόνα 56. Μέτρηση-F των μοντέλων περιορισμένου πεδίου εκπαιδευμένα με το πρακτικά βέλτιστο υποσύνολο χαρακτηριστικών Εικόνα 57. Κατανομή προσωδιακών παύσεων στο γενικού και περιορισμένου πεδίου προσωδιακό σώμα δεδομένων Εικόνα 58.: Μέσο σφάλμα (MAE) και τετραγωνική ρίζα μέσου σφάλματος (RMSE) και για τα δύο μοντέλα Εικόνα 59. Μέτρηση-F για τα μοντέλα περιορισμένου πεδίου Εικόνα 60. Μέτρηση-F για τα μοντέλα γενικού πεδίου Εικόνα 61. Ακρίβεια, ανάκληση και μέτρηση-f για (α) [-2,1], (β) [-2,2], (γ)[ -3,1] Εικόνα 62. Απόδοση των μοντέλων δικτύων Bayes ως συνάρτηση του μέγεθους παραθύρου Εικόνα 63. Αποτελέσματα ταξινόμησης τονικών υψών για δεδομένα εκπαίδευσης και αξιολόγησης γενικού πεδίου Εικόνα 64. Αποτελέσματα ταξινόμησης τονικών υψών για δεδομένα εκπαίδευσης και αξιολόγησης περιορισμένου πεδίου Εικόνα 65. Αποτελέσματα ταξινόμησης τονικών υψών για δεδομένα εκπαίδευσης γενικού πεδίου και αξιολόγησης περιορισμένου πεδίου...138

14 Εικόνα 66. Αποτελέσματα ταξινόμησης τονικών υψών για δεδομένα εκπαίδευσης περιορισμένου πεδίου και αξιολόγησης γενικού πεδίου Εικόνα 67. Συνολική ακρίβεια, μέση ακρίβεια και ανάκληση για τα μοντέλα γενικού πεδίου Εικόνα 68. Συνολική ακρίβεια, μέση ακρίβεια και ανάκληση για τα μοντέλα περιορισμένου πεδίου Εικόνα 69 : Μοντέλο Fujisaki για την ανάλυση και σύνθεση καμπύλων F Εικόνα 70 : Κρουστική απόκριση του μηχανισμού ελέγχου φρασιοποίησης για τιμές πλάτους Ap ίσες με 0.6, 0.45, 0.3 και Εικόνα 71 : Κρουστική απόκριση μηχανισμού ελέγχου τονικών υψών διάρκειας 250ms και τιμές Aa 1.0, 0.75, 0.5 και Εικόνα 72 : Κρουστική απόκριση μηχανισμού ελέγχου τονικών υψών διάρκειας 250ms και τιμές Aa 1.0, 0.75, 0.5 και Εικόνα 73 : Μέτρηση-F των μοντέλων C4.5 εκπαιδευμένων με δεδομένα από την GrES Εικόνα 74 : Μέτρηση-F των μοντέλων ΙΒ5 εκπαιδευμένων με δεδομένα από την GrES Εικόνα 75 : Μέτρηση-F των μοντέλων Μπαεΰζιανών δικτύων εκπαιδευμένων με δεδομένα από την GrES Εικόνα 76 : Μέτρηση-F των μοντέλων C4.5 εκπαιδευμένων με δεδομένα από την DES Εικόνα 77 : Μέτρηση-F των μοντέλων IB5 εκπαιδευμένων με δεδομένα από την DES Εικόνα 78 : Μέτρηση-F των μοντέλων Μπαεΰζιανών δικτύων εκπαιδευμένων με δεδομένα από την DES

15

16

17 Ευχαριστίες Η διατριβή αυτή πραγματοποιήθηκε στο Εργαστήριο Ενσύρματης Τηλεπικοινωνίας του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών. Θα ήθελα να ευχαριστήσω όσους συνέβαλλαν με άμεσο ή έμμεσο τρόπο στην ολοκλήρωση της: Τον καθηγητή κ. Νικόλαο Φακωτάκη, διευθυντή του Εργαστηρίου και πρόεδρο της τριμελούς συμβουλευτικής επιτροπής, για την διάθεση του εξοπλισμού και την πολύτιμη βοήθεια του, καθοδήγηση και υποστήριξη τόσο κατά την υλοποίηση όσο και κατά την συγγραφή της εργασίας. Τα μέλη της τριμελούς επιτροπής, τον καθηγητή κ. Ιωάννη Μουρτζόπουλο και τον αναπληρωτή καθηγητή κ. Ευάγγελο Δερματά, για τις συμβουλές και την καθοδήγηση τους σε διάφορα τμήματα της εργασίας. Ευχαριστώ θερμά έναν βασικό συμπαραστάτη μου, τον ομότιμο καθηγητή κ. Γεώργιο Κοκκινάκη για την βοήθεια του και τις πολύτιμες συμβουλές του. Ευχαριστώ την Ειρήνη Γεουργά (Πανεπιστήμιο Πατρών), τον Γεράσιμο Ξύδα (Πανεπιστήμιο Αθηνών) και τον Γεώργιο Γιαννόπουλο (Εθνικό Μετσόβιο Πολυτεχνείο), καθώς και όλους εκείνους τους πολύτιμους φίλους που με βοήθησαν με τον τρόπο σε αυτή μου την προσπάθεια.

18

19 Εισαγωγή Αντικείμενο της παρούσας εργασίας είναι η μελέτη των φαινομένων επιτονισμού της Ελληνικής γλώσσας με εφαρμογές στη σύνθεση ομιλίας. Για την επίτευξη του συγκεκριμένου σκοπού αναπτύχθηκαν στα πλαίσια της διδακτορικής διατριβής γλωσσικοί πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη τον προσωδιακών παραγόντων του προφορικού λόγου. Με τον όρο προσωδιακός παράγοντας μιας εκφώνησης αναφερόμαστε στις πτυχές του προφορικού λόγου που σχετίζονται με την ποιότητα και τη χροιά της ανθρώπινης ομιλίας. Μέσω των παραγόντων αυτών μεταφέρεται πληροφορία η οποία δεν περιέχεται αρχικά στην λεξιλογική μορφή μιας έκφρασης. Την τελευταία πενταετία έχει σημειωθεί αλματώδης βελτίωση στο χώρο της σύνθεση ομιλίας μετά την υιοθέτηση της προσέγγισης Σύνθεση με Συνένωση Μονάδων Φυσικής Ομιλίας. Καρπός της προσέγγισης αυτής είναι συστήματα τα οποία παράγουν ομιλία από κείμενο απεριορίστου λεξιλογίου, με υψηλή καταληπτότητα και φυσικότητα. Έτσι, στα πλαίσια της παρούσας διατριβής αρχικά σχεδιάζονται, αναπτύσσονται και ηχογραφούνται πόροι ομιλίας για την Ελληνική γλώσσα (WCL-1) με σκοπό την έρευνα της προσωδίας στην Ελληνική γλώσσα. Οι πόροι αυτοί αποτελούνται από τρία μέρη: (α) τη βάση διφώνων, (β) τη βάση προσωδιακής ομιλίας και (γ) τη βάση συναισθηματικής ομιλίας. Η βάση διφώνων, η οποία αποτελεί βασικό συστατικό ενός συστήματος σύνθεσης ομιλίας με συνένωση μονάδων, προέκυψε από την ηχογράφηση και σχολιασμό ασυνάρτητων λέξεων, οι οποίες λειτουργούν ως φορείς διφώνων. Όσον φορά τη προσωδιακή και την συναισθηματική βάση ομιλίας, και για τις δύο χρησιμοποιήθηκε αρχικά το ίδιο σώμα κειμένων όμως κατά την πορεία εκπόνησης της διατριβής το πρώτο εμπλουτίσθηκε με περισσότερες ηχογραφήσεις. Όσον αφορά την προσωδιακή βάση ομιλίας, έπειτα από διάφορα στάδια επεξεργασίας των λεξιλογικών και προφορικών δεδομένων, πραγματοποιήθηκε σχολιασμός τόσο στο σώμα κειμένων της βάσης όσο και στις αντίστοιχες ηχογραφήσεις. Συγκεκριμένα, στο σώμα κειμένων εφαρμόστηκε μορφοσυντακτική και φωνολογική ανάλυση και επισημειώθηκε πληροφορία όπως μέρος του λόγου, λήμμα, γένος, αριθμός, πτώση, όρια συντακτικών φράσεων κ.α., καθώς και μια σειρά από χαρακτηριστικά τα οποία συνδυάζουν την παραπάνω πληροφορία με την μορφολογία της πρότασης. Όσον αφορά το σχολιασμό και την επεξεργασία του σώματος ηχογραφήσεων, έλαβε χώρα: (α) η τεμαχιοποίηση των ηχογραφήσεων σε επίπεδο

20 των φαινομένων επιτονισμού που εμφανίζονται κατά την προφορά του κειμένου σε ρυθμό ανάγνωσης με χρήση της μεθόδου GRToBI. Ο σχολιασμός αυτός θα χρησιμοποιηθεί στην συνέχεια για την εξαγωγή πληροφορίας η οποία έπειτα από επεξεργασία θα σχηματίσει σύνολα χαρακτηριστικών για την δημιουργία μοντέλων μηχανικής μάθησης με σκοπό την αυτόματη εξαγωγή προσωδιακής πληροφορίας από κείμενο. Τέλος η βάση συναισθηματικής ομιλίας περιέχει ηχογραφημένες πέντε συναισθηματικές καταστάσεις, αυτές της χαράς, λύπης, θυμού, φόβου καθώς και μια ουδέτερη. Για την διαχείριση και επεξεργασία όλων των παραπάνω υλοποιήθηκε μια πλατφόρμα μετατροπής κειμένου σε ομιλία. Το πλαίσιο αυτό αποτελείται ουσιαστικά από τρία μέρη: (α) την επεξεργασία φυσικής γλώσσας όπου εξάγονται τα χαρακτηριστικά τα οποία θα χρησιμοποιηθούν για την εκπαίδευση μοντέλων μηχανικής μάθησης, (β) το στάδιο της κατασκευής μοντέλων επιτονισμού για την εξαγωγή της προσωδιακής πληροφορίας και (γ) την βαθμίδα σύνθεσης με συνένωση δομικών μονάδων ομιλίας. Κάποια από τα χαρακτηριστικά του συστήματος μας είναι η ύπαρξη ενός υποσυστήματος για την κανονικοποίηση των μη-κοινών λέξεων για κλιτές γλώσσες και την υποστήριξη πολυγλωσσικών κειμένων. Για την μελέτη και τη δημιουργία μοντέλων μηχανικής μάθησης, στην αυτόματη εξαγωγή πληροφορίας επιτονισμού, χρησιμοποιήθηκε η γλωσσολογική αναπαράσταση των επιτονικών φαινομένων με την ονομασία GRToBI. Σκοπός της αναπαράστασης αυτής είναι η κωδικοποίηση πληροφορίας σχετικά με τα τονικά ύψη και τις προσωδιακές παύσεις μιας εκφώνησης. Προσεγγίσεις μηχανικής μάθησης οι οποίες υιοθετήθηκαν ήταν τα δένδρα απόφασης, οι Μπαϋεζιανοί ταξινομητές όπως ο αφελής Bayes και τα Μπαεϋζιανά δίκτυα καθώς και αυτή των κ-πλησιέστερων γειτόνων. Στα πλαίσια της μοντελοποίησης των φαινομένων αυτών χρησιμοποιήθηκαν μόνο χαρακτηριστικά τα οποία μπορούσαν να εξαχθούν από κείμενο τα οποία στη συνέχεια αξιολογήθηκαν για την συνεισφορά τους σχετικά με την ανίχνευση των προσωδιακών παύσεων και των τονικών υψών. Τα χαρακτηριστικά αυτά αξιολογήθηκαν εκτενώς και εφαρμόστηκαν για την δημιουργία μοντέλων από δεδομένα γενικού κειμενικού πεδίου (όπως είναι η βάση που αναπτύχθηκε στα πλαίσια της διατριβής) καθώς και από δεδομένα περιορισμένου κειμενικού πεδίου για τα Ελληνικά. Έρευνες στα πλαίσια της αναγνώρισης της συναισθηματικής κατάστασης ενός ανθρώπου από την ομιλία έχει δείξει ότι η πληροφορία αυτή σε ένα μεγάλο ποσοστό περιέχεται στην μεταβολή χαρακτηριστικών όπως η ενέργεια, η τονικότητα, οι αρμονικές συχνότητες ταλάντωσης καθώς και η διάρκεια των φωνημάτων. Ουσιαστικά δηλαδή

21 μεταβολές που περιγράφουν την προσωδιακή πληροφορία από την ακουστική πλευρά του σήματος ομιλίας. Λαμβάνοντας λοιπόν υπόψη αυτή την διαπίστωση, προτείναμε τη χρήση του μοντέλου Fujisaki για την μοντελοποίηση της καμπύλης επιτονισμού μιας φράσης με σκοπό την εύρωστη αναγνώριση συναισθηματικής πληροφορίας από σήματα ομιλίας.

22 Πρωτότυπα στοιχεία Στην εργασία αυτή αναπτύσσονται πόροι, υλοποιούνται εργαλεία όπως και αξιολογούνται και παρουσιάζονται χαρακτηριστικά εκπαίδευσης που εφαρμόζονται σε αλγόριθμους μηχανικής μάθησης για την ταξινόμηση φαινομένων επιτονισμού. Συγκεκριμένα: Σχεδιάζονται, ηχογραφούνται και επισημειώνονται πόροι για την σύνθεση ομιλίας στην Ελληνική γλώσσα. Συγκεκριμένα, κατασκευάστηκε μια βάση διφώνων, προσωδιακό σώμα ομιλίας, συναισθηματικό σώμα ομιλίας για την μοντελοποίηση συναισθηματικών καταστάσεων (συναισθηματική σύνθεση ομιλίας) και την αναγνώριση συναισθημάτων. Πραγματοποιήθηκε στατιστική ανάλυση και συσχέτιση προσωδιακών φαινομένων και μορφοσυντακτικών χαρακτηριστικών για την Ελληνική γλώσσα. Υλοποιούνται εργαλεία για την προεπεξεργασία, επεξεργασία και επισημείωση προσωδιακών βάσεων για τα Ελληνικά καθώς και για το προς σύνθεση κείμενο. Αξιολογούνται χαρακτηριστικά που εξάγονται μόνο από κείμενο για το πρόβλημα της μοντελοποίηση της πληροφορίας επιτονισμού. Προτείνονται και αξιολογούνται πρωτότυπα χαρακτηριστικά τα οποία συνδυάζουν την πληροφορία της συντακτική φρασιοποίησης μια πρότασης με την μορφολογία της πρότασης. Ανάμεσα από άλλες τεχνικές μηχανικής μάθησης, προτείνεται και εφαρμόζεται με επιτυχία η χρήση των Μπαεϋζιανών δικτύων για την δημιουργία μοντέλων ταξινόμησης των προσωδιακών παύσεων και των τονικών υψών. Επίσης, Προτείνεται και αξιολογείται η χρήση των παραμέτρων Fujisaki, για την μοντελοποίηση της καμπύλης επιτονισμού μιας φράσης, με σκοπό την αυτόματη ανίχνευση της συναισθηματικής κατάστασης του ομιλητή από σήμα ομιλίας.

23 Διάρθρωση της εργασίας Η παρούσα διδακτορική διατριβή αποτελείται από 12 κεφάλαια με το εξής περιεχόμενο: Στο κεφάλαιο 1, ορίζεται το πρόβλημα το οποίο οριοθετεί τα κίνητρα και τους στόχους της διατριβής. Στη συνέχεια γίνεται μια εισαγωγή στο πρόβλημα της σύνθεσης ομιλίας και της μετατροπής κειμένου σε ομιλία ειδικότερα. Στο κεφάλαιο 2, παρουσιάζεται και αναλύεται η προσωδιακή πληροφορία στον προφορικό λόγο. Ορίζονται τα βασικά συστατικά της προσωδίας του προφορικού λόγου και γίνεται ανάλυση της σημασίας εννοιών όπως επιτονισμός, και η τεμαχιακή διάρκεια στη λεκτική αναπαράσταση της πληροφορίας. Στο τέλος του κεφαλαίου γίνεται ενδελεχής ανάλυση των μοντέλων που έχουν προταθεί για την περιγραφή της πληροφορίας επιτονισμού. Στο κεφάλαιο 3, ορίζεται η έννοια και η χρησιμότητα μιας προσωδιακής βάσης ομιλίας, δίνονται οι προδιαγραφές που θα πρέπει να πληροί και μελετάτε η θεωρητική σύνδεση της προσωδίας και σύνταξης. Στη συνέχεια παρατίθενται πληροφορίες σχετικά με τον σχεδιασμό και την ανάπτυξη των γλωσσικών πόρων της προσωδιακής βάσης (WCL-1) που υλοποιήθηκαν στα πλαίσια της διδακτορικής διατριβής. Συγκεκριμένα, περιγράφεται η φωνητική βάση διφώνων όπου δίνονται λεπτομέρειες σχετικά με την επιλογή των δομικών ακουστικών μονάδων και της επιλογής των λεκτικών φορέων τους. Κατά δεύτερο λόγο περιγράφεται το προσωδιακό σώμα ομιλίας όπου γίνεται λεπτομερής σχολιασμός σχετικά με την επιλογή του ύφους του καθώς και της συνεδρίας καταγραφής του. Τέλος περιγράφονται τα χαρακτηριστικά του συναισθηματικού σώματος ομιλίας της προσωδιακής βάσης ομιλίας. Στα πλαίσια της ανάπτυξης των πόρων περιγράφεται τεχνική που αναπτύχθηκε και υλοποιήθηκε για την αυτόματη εύρεση ορίων μεταξύ των ηχηρών (φωνήεντα και συμπλέγματα μη ηχηρών ήχων) τμημάτων μιας ηχογράφησης. Στο κεφάλαιο 4, περιγράφονται εργαλεία που υλοποιήθηκαν στα πλαίσια της διατριβής για την αυτόματη ανάλυση του προς σύνθεση κειμένου σε φωνολογικό, γλωσσολογικό, μορφοσυντακτικό και μορφολογικό επίπεδο. Τέλος περιγράφονται οι βαθμίδες ενός συστήματος μετατροπής κειμένου σε ομιλίας που αναπτύχθηκε με σκοπό την έρευνα της μοντελοποίησης της προσωδίας της Ελληνικής γλώσσας.

24 Στο κεφάλαιο 5, περιγράφεται το πρόβλημα της μοντελοποίησης φαινομένων επιτονισμού της Ελληνικής γλώσσας με χρήση μεθόδων μηχανικής μάθησης. Γίνεται ενδελεχής αναφορά στους αλγόριθμους που επιλέχθηκαν για τον σκοπό αυτό. Μελετάται η συμβολή των μορφοσυντακτικών χαρακτηριστικών που εξάγονται από το κείμενο για να αποτελέσουν την πληροφορία που θα εκπαιδεύσει τους αλγόριθμους μηχανικής μάθησης για την αυτόματη δημιουργία κανόνων ταξινόμησης των χαρακτηριστικών ToBI από πληροφορία που έχει εξαχθεί από την προσωδιακή βάση ομιλίας WCL-1. Αναλύεται η συμβολή μορφοσυντακτικών χαρακτηριστικών με την εφαρμογή των φίλτρων πληροφορίας κέρδους και επιλογής υποσυνόλου χαρακτηριστικών με βάση την συσχέτιση. Τέλος, προτείνεται σύνολο χαρακτηριστικών τα οποία προέκυψαν με την μελέτη των αποτελεσμάτων αξιολόγησης των μοντέλων που προέκυψαν με τα προαναφερθέντα φίλτρα και η συμβολή του εκτιμάται με την εφαρμογή του σε δύο προσωδιακές βάσεις ομιλίας της Ελληνικής γλώσσας. Συγκεκριμένα ασχολούμαστε με την ανάπτυξη και αξιολόγηση μοντέλων μηχανικής μάθησης για την ανίχνευση προσωδιακών παύσεων και τονικών υψών με χρήση δένδρων απόφασης, Bayesian μάθησης και κ-κοντινότερων γειτόνων. Στο κεφάλαιο 6, προτείνεται και αξιολογείται η εφαρμογή χαρακτηριστικών επιτονισμού για την αναγνώριση συναισθημάτων από σήμα ομιλίας. Συγκεκριμένα προτείνεται και εφαρμόζεται με επιτυχία η χρήση των χαρακτηριστικών Fujisaki για την μοντελοποίηση της καμπύλης επιτονισμού μιας φράσης. Η αξιολόγηση των προτεινόμενων χαρακτηριστικών πραγματοποιείται με την εφαρμογή τους στο συναισθηματικό μέρος ηχογραφήσεων της WCL-1 καθώς και σε μια Δανέζικη βάση συναισθηματικής ομιλίας.

25 Γραπτός και προφορικός λόγος Kεφάλαιο 1ο Γραπτός και προφορικός λόγος 1.1 Εισαγωγή Ένας καταλυτικός παράγοντας στην ανάπτυξη του ανθρώπινου πολιτισμού είναι η ομιλία. Η ανταλλαγή εμπειριών, ιδεών, αλλά και η μεταφορά γνώσης από τη μια γενιά ανθρώπων στην επόμενη πραγματώθηκε σε μεγάλο βαθμό προφορικά. Αν και ο όγκος των βιβλίων, των εφημερίδων και όλων των άλλων εντύπων που τυπώνονται σήμερα είναι τεράστιος, ωστόσο η ποσότητα της πληροφορίας που ανταλλάσσεται με την προφορική ομιλία είναι πολύ μεγαλύτερη. Η ομιλία, μέσα από την ακατάπαυστη χρήση της στην καθημερινή ζωή ως εργαλείο επικοινωνίας αναπτύχθηκε σε ένα εξαιρετικό αποδοτικό σύστημα επικοινωνίας με στόχο την ανταλλαγή ακόμα και των πιο πολυσήμαντων ιδεών. Σ' αυτό βοήθησε το γεγονός ότι η προφορική ομιλία παραμένει λειτουργικά ανεπηρέαστη από την διαφορετικότητα της φωνής των ανθρώπων, των ιδιαιτεροτήτων ομιλίας, των διαφορών στη προφορά που μπορούν να εμφανιστούν, όταν εκατομμύρια άνθρωποι χρησιμοποιούν την ίδια γλώσσα. Εικόνα 1. Το σύστημα ομιλητή ακροατή (Stevens, 98) 1

26 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Ένα απλός τρόπος για να μελετήσουμε τι συμβαίνει κατά τη διάρκεια της ομιλίας είναι η απλή περίπτωση δύο ανθρώπων που συνομιλούν, εικόνα 1. Ένας από αυτούς, ο ομιλητής μεταδίδει μηνύματα και πληροφορία στον άλλο, τον ακροατή. Το πρώτο πράγμα που οφείλει να κάνει ο ομιλητής είναι να οργανώσει τις σκέψεις του, να αποφασίσει ποιες πληροφορίες θέλει να μεταδώσει και να τοποθετήσει αυτές τις πληροφορίες σε γλωσσολογική μορφή. Το μήνυμα τοποθετείται σε γλωσσολογική μορφή με την κατάλληλη επιλογή των λέξεων και φράσεων για την ορθή έκφραση του νοήματός του και με την τοποθέτηση αυτών των λέξεων και φράσεων σε κατάλληλη σειρά, όπως επιβάλλουν οι γραμματικοί κανόνες της εκάστοτε γλώσσας. Η διαδικασία σχετίζεται με την εγκεφαλική δραστηριότητα του ομιλητή, καθώς ο εγκέφαλος δίνει κατάλληλες οδηγίες, υπό τη μορφή κρουστικών παλμών στα νεύρα κίνησης, οι οποίοι μεταδίδονται στους μύες των φωνητικών οργάνων, τη γλώσσα, τα χείλη και τις φωνητικές χορδές. Τα νευρικά ερεθίσματα θέτουν σε κίνηση τους φωνητικούς μύες, οι οποίοι με τη σειρά τους προκαλούν μεταβολές πίεσης στον περιβάλλοντα αέρα. Αυτές οι μεταβολές πίεσης ονομάζονται κύματα ήχου ή φωνή. Η κίνηση των φωνητικών οργάνων δημιουργεί ένα ηχητικό κύμα ομιλίας (σήμα φωνής) που ταξιδεύει διαμέσου του αέρα μεταξύ του ομιλητή και του ακροατή. Οι μεταβολές πίεσης στο αυτί του ακροατή ενεργοποιούν τον ακουστικό μηχανισμό και παράγουν νευρικά ερεθίσματα τα οποία με τη σειρά τους μεταφέρονται μέσω του ακουστικού νεύρου στον εγκέφαλο του ακροατή. Μέσω της εγκεφαλικής δραστηριότητας γίνεται η αναγνώριση του μηνύματος που μετέδωσε ο ομιλητής. Διαπιστώνουμε επομένως ότι η επικοινωνία μέσω της ομιλίας απαρτίζεται από μια αλυσίδα γεγονότων τα οποία συνδέουν τον εγκέφαλο του ομιλητή με αυτόν του ακροατή. Αυτή η αλυσίδα γεγονότων ονομάζεται αλυσίδα της ομιλίας, (Stevens, 98). Κείμενο Κείμενο Υπηρεσία ΜΚσΟ Δεδομένα ομιλίας ΑΦΑ Εξυπηρετητής Δεδομένα ομιλίας Εικόνα 2. Σύστημα αμφίδρομης φωνητικής απόκρισης - ΑΦΑ, (Interactive Voice Response IVR) Λόγω λοιπόν του ότι η ομιλία ανέκαθεν υπήρξε ο βασικός τρόπος επικοινωνίας μεταξύ των ανθρώπων, εκτενής έρευνα έχει πραγματοποιηθεί για την κατανόηση και παραγωγή της από 2

27 Γραπτός και προφορικός λόγος μηχανές. Η κατανόηση από της μηχανές αφορά το πρόβλημα της αναγνώρισης ομιλίας (speech recognition) ενώ το πρόβλημα της παραγωγής καλείται σύνθεση ομιλίας (speech synthesis). Ένα σύστημα το οποίο μπορεί να συνδυάζει και τις δύο τεχνολογίες καλείται σύστημα αμφίδρομης φωνητικής απόκρισης (ΑΦΑ) και το διάγραμμα λειτουργίας του παρουσιάζεται στην εικόνα 2. Στα πλαίσια του παρόντος διδακτορικού δίνεται έμφαση στην εξαγωγή πληροφορίας σχετικής με την προσωδία της ομιλίας αποσκοπώντας στην εφαρμογή της σε συστήματα μετατροπής κειμένου σε ομιλίας. Επίσης προσπαθούμε μέσα από χαρακτηριστικά που σχετίζονται με τον επιτονισμό μιας φράσης να εξάγουμε πληροφορία σχετική με την συναισθηματική κατάσταση ενός ομιλητή, δύο προβλήματα τα οποία έχουν άμεση εφαρμογή σε ένα σύστημα αμφίδρομης φωνητικής απόκρισης. 1.2 Η σύνθεση φωνής Η δημιουργία μιας μηχανής ικανής να παράγει τεχνητή ομιλία, ήταν το όνειρο του ανθρώπου για αιώνες. Οι πρώτες προσπάθειες για δημιουργία συνθετικής ομιλίας έγιναν πριν δύο αιώνες. Στην Αγία Πετρούπολη το 1779 ο Ρώσος καθηγητής Christian Kratzenstein εξήγησε τις διαφορές μεταξύ 5 φωνηέντων «/a/, /e/, /i/, /o/,/u/» και έφτιαξε μια συσκευή για να τα παράγει τεχνητά. Κατασκεύασε ακουστικούς ταλαντωτές, εικόνα 3, παρόμοιους με την ανθρώπινη φωνητική οδό τους οποίους τους ενεργοποιούσε με αέρα όπως τα πνευστά μουσικά όργανα. Εικόνα 3. Οι ακουστικοί ταλαντωτές του Christian Kratzenstein, 1779 Λίγα χρόνια αργότερα στην Βιέννη το 1791 ο Wolfgang von Kempelen εισήγαγε την ακουστικομηχανική μηχανή φωνής η οποία μπορούσε να παράγει απλούς ήχους και μερικούς συνδυασμούς. Στην πραγματικότητα ο Kempelen ξεκίνησε την εργασία του πριν τον 3

28 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Kratzenstein, το 1769, και μετά από 20 χρόνια έρευνας εξέδωσε βιβλίο που περίγραφε τις μελέτες του στην παραγωγή ανθρώπινης φωνής και τα πειράματά του με το μηχάνημα παραγωγής φωνής. Το μηχάνημα του von Kempelen μοντελοποιούσε τους πνεύμονες με μια φυσούνα, τις φωνητικές χορδές με ένα παλλόμενο έλασμα και τη φωνητική οδό με ένα δερμάτινο σωλήνα, εικόνα 4. Αλλάζοντας το σχήμα του δερμάτινου σωλήνα μπορούσε να παράγει τα φωνήεντα. Η παραγωγή συμφώνων γινόταν ελέγχοντας με τα δάχτυλα τέσσερα διαφορετικά περάσματα αέρα. Η μελέτη του δημιούργησε την θεωρία ότι η φωνητική οδός είναι το κυριότερο μέρος της συνάρθρωσης. Μέχρι τότε θεωρείτο μόνο ο λάρυγγας ως το κέντρο της παραγωγής φωνής. Στα μέσα του 1800 ο Charles Wheatstone επέκτεινε την μηχανή του Kempelen η οποία τώρα μπορούσε να παράγει πιο πολύπλοκα σύμφωνα; μπορούσε να παράγει συνδυασμούς ήχων αλλά ακόμη και ολόκληρες λέξεις. (α) (β) Εικόνα 4. Η μηχανές των (α) Wolfgang von Kempelen και (β) Charles Wheatstone 4

29 Γραπτός και προφορικός λόγος Η σχέση ενός συγκεκριμένου φωνήεντος με τη γεωμετρία της φωνητικής οδού μελετήθηκε από τον Willis το Έκανε συνθέσεις διαφορετικών φωνηέντων χρησιμοποιώντας ταλαντωτές που έμοιαζαν με σωληνοειδή πνευστά όργανα. Παρατήρησε ότι η ποιότητα των φωνηέντων εξαρτάται μόνο από το μήκος των σωλήνων και όχι από τη διάμετρο. Η έρευνα και τα πειράματα με μηχανικά και ημι-ηλεκτρικά συστήματα συνεχίστηκε μέχρι το 1960 χωρίς αξιοσημείωτα αποτελέσματα. Διάσημος επιστήμονας που ασχολήθηκε με ημι-ηλεκτρικά συστήματα παραγωγής φωνής ήταν και ο Herman von Helmhotz. Ο πρώτος ηλεκτρικός συνθέτης δημιουργήθηκε από τον Stewart το Σαν διέγερση είχε ένα βομβητή και δύο κυκλώματα συντονισμού τα οποία μοντελοποιούσαν τους ακουστικούς συντονισμούς της φωνητικής οδού. Το μηχάνημα μπορούσε να παράγει μεμονωμένα φωνήεντα με τα δυο πρώτα formants, αλλά όχι σύμφωνα ή ολοκληρωμένες εκφωνήσεις. Παρόμοια δουλειά έκανε και ο Wagner βάζοντας 4 ηλεκτρικούς συντονιστές παράλληλα. Το 1932 οι Ιάπωνες ερευνητές Obata και Teshima ανακάλυψαν και τρίτο formant στα φωνήεντα. Εικόνα 5 Ιστορικό χρονοδιάγραμμα της σύνθεσης φωνής Η πρώτη συσκευή που θεωρήθηκε ως συνθέτης φωνής ήταν ο VODER (Voice Operating Demonstrator) από τον Homer Dudley που παρουσιάστηκε στην διεθνή έκθεση της Νέας Υόρκης το Ο VODER δημιουργήθηκε εμπνευσμένος από τον VOCODER (Voice Coder) που αναπτύχθηκε στα Bell Laboratories στα μέσα του '30. Ο VODER ήτανε μια μηχανή η οποία ανέλυε την φωνή σε ακουστικές παραμέτρους και κατόπιν οδηγούσε τα αποτελέσματα σε ένα συνθέτη ο οποίος επαναδημιουργούσε μια προσέγγιση του αρχικού σήματος. Ο VODER δεχόταν χειροκίνητα τις παραμέτρους για τη σύνθεση και μπορούσε να παράγει προτάσεις. Ο έλεγχος της F 0 γινόταν με ένα πετάλ! Η ποιότητα της φωνής δεν ήταν καλή αλλά αυτή η μηχανή αποτέλεσε την αρχή για παραγωγή τεχνητής ομιλίας. Οι επιστήμονες μετά τον VODER άρχισαν να ενδιαφέρονται περισσότερο για τη σύνθεση φωνής. 5

30 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Ο πρώτος συνθέτης με κανόνες (formant) ήταν ο PAT (Parametric Artificial Talker) που παρουσιάστηκε από τον Walter Lawrence το Ο συνθέτης PAT είχε τρεις συντονιστές συνδεδεμένους παράλληλα (για κάθε αρμονική). Η είσοδός του ήταν βόμβος ή θόρυβος. Με τη χρησιμοποίηση μιας κινούμενης διαφάνειας μετατρέπονταν οι ζωγραφισμένες πατέντες της σε έξι συναρτήσεις χρόνου, οι οποίες διαμόρφωναν τις τρεις αρμονικές συχνότητες, την ένταση, την F0 και τα επίπεδα θορύβου. Την ίδια περίοδο ο Gunnar παρουσίασε τον πρώτο τύπου με κανόνες συνθέτη (OVE --- Orator Verbis Electris) με συντονιστές σε σειρά. Δέκα χρόνια αργότερα, το 1962 παρουσιάστηκε ο OVE II από τους Fant και Martony ενώ στη συνέχεια ο OVE III και GLOVE στο Kungliga Tekniska Hogskolan της Σουηδίας. Ο πρώτος συνθέτης συνάρθρωσης (articulatory synthesizer) παρουσιάστηκε το 1958 από τον George Rosen στο Massachusetts Institute of Technology ή MIT. Τα σήματα ελέγχου του συνθέτη DAVO (Dynamic Analog of the VOcal tract) περιέχονταν σε μια ηχογράφηση. Τα σήματα αυτά εισάγονταν χειρονακτικά. To 1979 οι Allen, Hunnicutt και Klatt παρουσίασαν το MITalk (Allen et al., 1987), ένα εργαστηριακό σύστημα σύνθεσης φωνής από κείμενο το οποίο αναπτύχθηκε στο Massachusetts Institute of Technology. Αργότερα ο D. Klatt παρουσίασε το Klattalk (Klatt, 1982), μια επέκταση του MITalk. Η τεχνολογία που χρησιμοποιήθηκε στο MITalk και Klattalk αποτέλεσε την βάση για την ανάπτυξη συνθετών όπως ο DECtalk και ο Prose Την περίοδο παρουσιάστηκαν αρκετά εμπορικά συστήματα μετατροπής κειμένου σε ομιλία. Το πρώτο ολοκληρωμένο κύκλωμα για σύνθεση φωνής ήτανε το Votrax chip το οποίο αποτελούνταν από έναν συνθέτη με κανόνες και απλά χαμηλοδιαβατά φίλτρα. 1.3 Δομή και οργάνωση συστημάτων μετατροπής κειμένου σε ομιλία Τα συστήματα μετατροπής κειμένου-σε-ομιλία (ΜΚσΟ) δέχονται ως είσοδο κείμενο και παράγουν συνθετικό προφορικό λόγο, παρέχοντας με αυτόν τον τρόπο στους ανθρώπους πληροφορίες κειμένου μέσω φωνητικών μηνυμάτων. Το κείμενο μπορεί να εισάγεται απευθείας στον υπολογιστή από κάποιον χρήστη ή να σαρώνεται και στην συνέχεια να περνάει από ένα σύστημα οπτικής αναγνώρισης χαρακτήρων (Optical Character Recognition system OCR). Στο παρακάτω σχήμα περιγράφεται το γενικό μοντέλο ενός συστήματος ΜκσΟ. Αρχικά το προς σύνθεση κείμενο εισέρχεται στο στάδιο της επεξεργασίας φυσικής γλώσσας όπου υφίσταται μορφολογική, λεξιλογική και γλωσσολογική ανάλυση. Η ανάλυση αυτή οδηγεί στην απόκτηση της απαραίτητης πληροφορίας για την δημιουργία των προσωδιακών 6

31 Γραπτός και προφορικός λόγος προδιαγραφών του συνθετικού λόγου. Σαν επόμενο στάδιο έχοντας μια λεπτομερή φωνητική και γλωσσολογική αναπαράσταση του κειμένου εισόδου καθώς και την προσωδία των φωνημάτων προχωράμε στην ψηφιακή επεξεργασία του σήματος που θα δώσει σαν έξοδο την ομιλία. Κ ε ί μ ε ν ο Ε π ε ξ ε ρ γ α σ ί α Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Λ ε π τ ο μ ε ρ ή ς Φ ω ν η τ ι κ ή Μ ε τ α γ ρ α φ ή Π ρ ο σ ω δ ί α Φ ω ν η μ ά τ ω ν Σ ύ ν θ ε σ η Ο μ ι λ ί α ς ( Ψ η φ ι α κ η Ε π ε ξ ε ρ γ α σ ί α Σ ή μ α τ ο ς ) Ο μ ι λ ί α Εικόνα 6 Λειτουργικό διάγραμμα συστήματος ΜκσΟ Οι καρποί της συστηματικής και συνεχόμενης έρευνας στον τομέα της ΜΚσΟ έχει ως αποτέλεσμα τη βελτίωση της ποιότητας της συνθετικής ομιλίας πετυχαίνοντας ταυτόχρονα χαμηλό κόστος. Το γεγονός αυτό, σε συνδυασμό με τις ολοένα αυξανόμενες ανάγκες σε έναν κόσμο διακίνησης τεράστιου όγκου πληροφορίας, όπου πολλές από αυτές είναι πληροφορίες κειμένου, έδωσαν το κίνητρο για την ευρεία εξάπλωση των ΜΚσΟ εφαρμογών. Τέτοιες εφαρμογές συναντούμε στις επικοινωνίες, όπου μηνύματα βασισμένα σε κείμενο, όπως τα ή τα fax, ή πληροφορίες που συνδυάζουν κείμενο και εικόνα, όπως oι ιστοσελίδες, αποδίδονται φωνητικά. Υπάρχει επίσης, το πρόγραμμα VoiceXML που παρέχει interactive υπηρεσίες ομιλίας διαμέσου του διαδικτύου. Γενικότερα, τα συστήματα ΜΚσΟ συστήματα καλύπτουν την ανάγκη για φωνητική απόδοση πληροφοριών, όλων των ειδών, που βρίσκονται αποθηκευμένες στις βάσεις δεδομένων, όπως για παράδειγμα τηλεφωνικοί αριθμοί, διευθύνσεις ή πληροφορίες πλοήγησης αυτοκινήτων. Ακόμη, βρίσκουν εφαρμογή στις αυτόματες υπηρεσίες πληροφόρησης, που παρέχουν για παράδειγμα πληροφορίες για τοποθεσίες και μενού εστιατορίων ή πραγματοποιούν αυτόματη εκφώνηση δελτίων καιρού και ειδήσεων μέσω τηλεφώνου. Δίνουν επίσης λύσεις και σε πιο κλασικές ανάγκες του ανθρώπου, όπως είναι η αυτόματη ανάγνωση εντύπων από μια μηχανή (ομιλούντα βιβλία), που εξυπηρετεί ιδιαίτερα άτομα με προβλήματα όρασης. Επιπλέον, η έρευνα στρέφεται και στην δημιουργία συστημάτων που αποσκοπούν στην μετατροπή εννοιών σε ομιλία (Concept to speech systems) όπου στην περίπτωση αυτή ο συνθέτης δέχεται ως είσοδο την έξοδο ενός συστήματος δημιουργίας φυσικής γλώσσας (Theune et al., 2001). Το πλεονέκτημα που έχουν τέτοιου είδους συστήματα είναι ότι παρέχουν στον συνθέτη περισσότερη πληροφορία για την δημιουργία του τεχνητού λόγου. Έτσι μαζί με τις λέξεις που θα εκφωνηθούν, μπορεί να δοθεί συντακτική, σημασιολογική και προσωδιακή πληροφορία που αλλιώς ο συνθέτης θα έπρεπε να εξάγει ή να προβλέψει ο ίδιος. 7

32 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Επεξεργασία φυσικής γλώσσας Προχωρώντας ένα βήμα στην περιγραφή ενός συστήματος μετατροπής κειμένου σε ομιλία συναντάμε το επίπεδο επεξεργασίας φυσικής γλώσσας. (ΕΦΓ). Στην πραγματικότητα, μπορούμε να τον χωρίσουμε, χωρίς απώλεια της γενικότητας σε τρία τμήματα: τον αναλυτή κειμένου (ΑΚ), τον μετατροπέα της λεξικής σε φωνητική γραφή (ΜΛσΦΓ), και της γεννήτρια προσωδίας (ΓΠ). Κείμενο Επεξεργασία φυσικής γλώσσας Αναλυτής Κειμένου Φωνητική Μεταγραφή Φ ωνήματα Γεννήτρια Προσωδίας Φωνήματα & Προσωδία Εικόνα 7. Δομικό διάγραμμα του επιπέδου ΕΦΓ ενός συστήματος ΜκσΟ Αναλυτής κειμένου Ο βασικός σκοπός λειτουργίας του αναλυτή κειμένου ενός συστήματος ΜΚσΟ είναι η μετατροπή του κειμένου εισόδου σε μια μορφή καταλληλότερη για την εφαρμογή γλωσσολογικής επεξεργασίας. Αυτό μπορεί να θεωρηθεί ως μια λειτουργία κατά την οποία προσπαθούμε, το ακατέργαστο κείμενο, να το κάνουμε πιο κατανοητό στον υπολογιστή. Στα πλαίσια της ανάλυσης αυτής πραγματοποιείται κατάτμηση του κειμένου σε λέξεις, σύμβολα και σύνολα λέξεων συνδεδεμένα μεταξύ τους καθώς και η αποβολή μη χρήσιμων χαρακτήρων (όπως κενά, χαρακτήρες αλλαγής γραμμής, κ.α.). Η προεπεξεργασία, είναι ως επί το πλείστον μια πολύπλοκη διαδικασία κατά την οποία μπορούν να παρουσιαστούν προβλήματα τα οποία σχετίζονται άμεσα με την γλώσσα στην οποία δουλεύουμε (Sproat, 1996). Για παράδειγμα ας θεωρήσουμε την παρακάτω πρόταση ότι είναι είσοδος σε έναν αναλυτή κειμένου, Στείλε ηλεκτρονικά στον κ. Ζέρβα μια απόδειξη με κωδικό AC (κωδικός ) στην διεύθυνση με ημερομηνία 12/12/2006, αλλιώς!!!!,παρατηρούμε ότι αυτή η πρόταση είναι γεμάτη με χαρακτήρες (Ελληνικούς και Λατινικούς), σύμβολα και αριθμούς που πρέπει να διερμηνευτούν και να προφερθούν με σωστό τρόπο. Ψηφία, αριθμοί, ημερομηνίες, σύμβολα, ακρώνυμα πρέπει να αναπτυχθούν σε πλήρης λέξεις. 8

33 Γραπτός και προφορικός λόγος Σε σχέση με το μοντέλο επικοινωνίας μεταξύ ανθρώπων, που ορίσαμε στο προηγούμενο κεφάλαιο, θα λέγαμε ότι η μονάδα ανάλυσης κειμένου λαμβάνει την γραπτή πληροφορία σαν είσοδο και με βάση το είδος σημειολογίας που αναγνωρίζει (φυσική γλώσσα ή άλλος, π.χ. μια ημερομηνία), αποκωδικοποιεί το γραπτό σήμα σε μια σαφή, δομημένη, αναπαράσταση, και στην περίπτωση αναπαράσταση της πληροφορίας με χρήση μη-φυσικής γλώσσας, συνθέτει φράσεις για την απόδοση αυτής. Είναι σημαντικό να σημειώσουμε ότι η ανάλυση κειμένου περιλαμβάνει μόνο την ανακάλυψη της αρμόζουσας λέξης (και στην αρμόζουσα μορφή) που περιγράφει την πληροφορία στο κείμενο εισόδου και δεν γίνεται προσπάθεια για την σημασιολογική και εννοιολογική ανάλυση του. Μια γενική επισκόπηση των διαδικασιών που λαμβάνουν χώρα κατά την ανάλυση του κειμένου δίνεται παρακάτω: Προ-επεξεργασία: πιθανός προσδιορισμός του ύφους του κειμένου, ζητήματα σχετικά με το είδος κωδικοποίησης των χαρακτήρων, πιθανά πολυγλωσσικά ζητήματα. Διαχωρισμός προτάσεων: κατάτμηση του κειμένου εισόδου σε προτάσεις. Κατάτμηση προτάσεων: κατάτμηση των προτάσεων που αναγνωρίστηκαν στο προηγούμενο στάδιο σε δείγματα (λέξεις, συμβολοσειρές, κ.λ.π.) Ανάλυση κειμένου: αυτό το στάδιο της επεξεργασίας απαρτίζεται από τις παρακάτω διεργασίες και καλείται να αποσαφηνίσει τις περιπτώσεις που φαίνονται στον Πίνακας 1. Λαμβάνει χώρα δηλαδή μια συσχέτιση μεταξύ του νοήματος, της γλωσσική και φωνητικής μορφής των λέξεων. Σημειολογική κατηγοριοποίηση: ταξινόμηση κάθε δείγματος σε μια από τις σημειολογικές κατηγορίες της φυσικής γλώσσας π.χ., σύντμησης, ποσότητας, ημερομηνίας, χρόνου κ.λπ. Αποκωδικοποίηση δειγμάτων: εύρεση της ταυτότητας ενός δείγματος κάνοντας χρήση ενός αποκωδικοποιητή σύμφωνα με την προηγούμενη σημειολογική ταξινόμηση του. Φραστική απόδοση/ρηματοποίηση: φραστική απόδοση δειγμάτων που δεν ανήκουν στη φυσική γλώσσα &, κ.λ.π.) Μορφολογική ανάλυση: προσδιορισμό γραμματικών χαρακτηριστικών των δειγμάτων, όπως μέρος του λόγου, γένος, κ.λ.π. Συντακτική ανάλυση: εύρεση της συντακτικής δομής μιας πρότασης. Πίνακας 1 Επίδραση των ομοιοτήτων ή των διαφορών μεταξύ ζευγαριών πιθανών λέξεων Ίδιο νόημα Γλωσσική μορφή Φωνητική μορφή Διαφοροποίηση Ονομασία Παράδειγμα Όχι Διαφορετική Διαφορετική Ναι Διαφορετικά άσπρο, μαύρο Όχι Διαφορετική Ίδια Ναι Ομόηχα λίρα, λύρα Όχι Ίδια Διαφορετική Ναι Ομόγραφα Ναι Διαφορετική Διαφορετική Ναι Συνώνυμα αέρας, άνεμος Όχι Ίδια Ίδια Όχι Ομώνυμα μία μοίρα, κακή μοίρα Ναι Διαφορετική Ίδια Όχι Φωνητικά διαφοροποιημένα άγγελος, /a g e l o s/, /a n g e l o s/ Ναι Ίδια Διαφορετική Όχι Λεξικά διαφοροποιημένα Ναι Ίδια Ίδια Όχι Ίδια 9

34 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Αυτόματη φωνητική μεταγραφή Το τμήμα ΜΛσΦΓ ενός συστήματος ΜΚσΟ ευθύνεται για τον αυτόματο προσδιορισμό της φωνητικής μεταγραφής του κειμένου εισόδου. Τα προβλήματα που συναντάμε σε αυτό το στάδιο είναι εξαρτώμενα από τη γλώσσα. Στις ακόλουθες παραγράφους, τα παραδείγματα δίνονται για τα Ελληνικά αλλά τα περισσότερα από τα συμπεράσματα μπορούν να προέλθουν, τηρουμένων των αναλογιών, από άλλες γλώσσες. Είναι γνωστό ότι η προφορά μιας λέξεις γενικά διαφέρει από την ορθογραφία της. Αυτό το γεγονός κατά ένα μέρος οφείλεται στην εξέλιξη (και αλλοίωση) που υφίσταται η προφορική γλώσσα σε σχέση με την, πιο άκαμπτη γραπτή. Αποτέλεσμα τούτου είναι ότι η αρχή ένας χαρακτήρας = ένα φώνημα συχνά να μην ακολουθείται. Έτσι, ένας χαρακτήρας μπορεί να αντιστοιχεί σε δύο φωνήματα όπως το ξ /ks/, περισσότεροι του ενός χαρακτήρες μπορεί να παράγουν ένα φώνημα όπως το εί, οί, υί που αντιστοιχούν στο /i/. Ακόμα ένας ή μια σειρά από χαρακτήρες μπορούν αν προφερθούν με διαφορετικούς τρόπους ανάλογα με το λεξικό ή φωνητικό περιβάλλον στο οποίο βρίσκονται (παράδειγμα). Όπως είδαμε στην αρχή της παρούσης παραγράφου η βαθμίδα ΜΛσΦΓ είναι υπεύθυνη για την αυτόματη παραγωγή της φωνητικής μεταγραφής του κειμένου εισόδου. Αν και κάποιος θα μπορούσε αρχικά να ισχυριστεί ότι η υλοποίηση αυτής της διαδικασίας είναι τόσο απλή όσο η διαδικασία αναζήτησης σε ένα λεξικό, μια βαθύτερη εξέταση του προβλήματος κάνει αντιληπτό ότι οι περισσότερες λέξεις μπορεί να έχουν πολλές διαφορετικές εκφάνσεις κατά την χρήση τους στον προφορικό λόγο όπου πολλές από τις οποίες δεν αναφέρονται στα λεξικά. Πέραν τούτου, πολλές υποψήφιες προφορές μιας λέξης μπορεί να είναι προαιρετικές στη χρήση τους εννοώντας με αυτό ότι μπορεί να χρησιμοποιηθεί η μία στην θέση της άλλης χωρίς αλλοίωση του νοήματος ή της φυσικότητας της φράσης. Πολλές φορές όμως αυτό δεν είναι εφικτό αφού υπάρχει το ενδεχόμενο η χρήση κάποιας συγκεκριμένης μία εκ των πιθανών προφορών μιας λέξης να είναι απαραίτητη για την διατήρηση του επιθυμητού νοήματος (παράδειγμα). Συνοψίζοντας θα λέγαμε ότι η διαδικασία αντιστοίχησης μιας (και ακριβής) φωνητικής μεταγραφής σε κάθε λέξη μιας πρότασης δεν είναι ανάλογη με μια σειρά αναζητήσεων σε ένα λεξικό (μια για κάθε λέξη) για τους ακόλουθους λόγους, Συνήθως τα λεξικά αναφέρονται στην προφορά του λήμματος μιας λέξης και δεν αναφέρονται στις πιθανές, λόγω συγκεκριμένης μορφολογίας της φράσης, διαφοροποίηση τους. Κάποιες λέξεις αντιστοιχούν σε περισσότερες από μια εγγραφές σε ένα λεξικό. 10

35 Γραπτός και προφορικός λόγος Η προφορά μιας λέξης σε ένα λεξικό είναι περισσότερο φωνημική παρά φωνητική. 1 Λέξεις οι οποίες βρίσκονται μέσα σε προτάσεις προφέρονται με διαφορετικό τρόπο από την μεμονωμένη προφορά τους. Στρατηγικές υλοποίηση βαθμίδας ΜΛσΦΓ Οι προσεγγίσεις για την φωνητική μεταγραφή ενός κειμένου ουσιαστικά χωρίζονται σε δύο κατηγορίες, τις βασισμένες σε λεξικό (dictionary based) και με κανόνες (rule based), αν και υπάρχουν και κάποιες υβριδικές λύσεις όπου χρησιμοποιούνται και οι δύο τεχνικές. Διαγράμματα των δύο παραπάνω τεχνικών φαίνονται στο σχήμα 8. Με στόχο τον σχεδιασμό και την υλοποίηση ενός λεξικού εύλογου μεγέθους, οι καταχωρήσεις είναι ως επί το πλείστον περιορισμένες στα μορφήματα, και η προφορά των επιφανειακών μορφών (surface forms) αποτελείται από κλιτικούς, παραγωγικούς και συνθετικούς μορφωνεμικούς κανόνες που περιγράφουν πως οι φωνητικές μεταγραφές των μορφηματικών συστατικών μιας λέξεις πραγματώνονται για τον σχηματισμός τους. Μορφήματα που δεν μπορούν να βρεθούν στο λεξικό μεταγράφονται με χρήση κανόνων. Έτσι, αφότου έχει ληφθεί μια πρώτη φθογγική μεταγραφή μιας λέξης, εφαρμόζεται μια φωνητική μετα-επεξεργασία, με σκοπό την εξομάλυνση φαινόμενων συνάρθρωσης. Αυτή η προσέγγιση για την επίλυση του προβλήματος της φωνητικής μεταγραφής του κειμένου έχει ακολουθηθεί από το σύστημα MITALK, συγκεκριμένα η βαθμίδα ΜΛσΦΓ αυτού του συστήματος αποτελείται από ένα λεξικό μορφημάτων τα οποία καλύπτουν το 95% του κειμένου εισόδου. Ένα άλλο γνωστό σύστημα ΜΚσΟ το οποίο ακολουθεί επίσης το ίδιο μονοπάτι επίλυσης είναι το σύστημα σύνθεσης ομιλίας των AT&T Labs (Beutnagel, et al., 1999), το οποίο διαθέτει ένα λεξικό μορφημάτων. 1 Υπάρχουν διάφορα είδη γραφής και κάποια από αυτά αποτελούν στάδια της ανάπτυξης της. Σημαντικότερα όλων είναι η αλφαβητική, η φωνημική ή φωνολογική, η φωνητική και η ιστορική γραφή ή χρήσης. Η πρώτη αποτελείται από ένα σύνολο γραφικών σημείων που ονομάζονται γράμματα και όπου το καθένα μπορεί να αναπαραστήσει έναν ή περισσότερους φθόγγους μιας συγκεκριμένης γλώσσας, ενώ η δεύτερη αναπαριστά μέσω των γραφικών σημείων της φωνήματα και όχι φθόγγους. Η φωνητική γραφή είναι το τελευταίο στάδιο της εξέλιξης της γραφής όπου υπάρχει ένα μόνο γραφικό σημείο για κάθε φθόγγο της συγκεκριμένης γλώσσας. Τέλος, στην ιστορική γραφή ή χρήσης, τα γραφικά σύμβολα έχουν μικρή σχέση με τα φωνήματα της λέξης, τα φωνήματα αναπαριστώνται με περισσότερα γραφικά σύμβολα με σκοπό να δηλώσουν την γραμματική ποιότητα της λέξης ή την ετυμολογική της καταγωγή (Ζάχος 1991, Δημητρίου 1994). 11

36 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Λεξικό μορφημάτων Μ ορφοφωνημικοί κανόνες Φ ωνητικοί κανόνες Κανόνες συνάρθρωσης Άγνωστα μορφήματα Μ ορφοφωνημικό τμήμα Διάταξη μετατροπής σε φωνητική γραφή Φ ωνήματα Μ ορφήματα Φ ωνήματα Φ ωνήματα Φ ωνητική μετα-επεξεργασία Φωνητική γραφή έπειτα από αρθρωτική εξομάλυνση Εσωτερική δομή δεδομένων (α) Φ ωνητικοί κανόνες Εξαιρέσεις Κανόνες Διάταξη μετατροπής γραμμάτων σε ήχους Φ ωνητική μετα-επεξεργασία Συλλαβές Μ ορφοσυντακτικά χαρακτηριστικά Γραφήματα Φ ωνητική γραφή Φ ωνητική γραφή Φωνητική γραφή έπειτα από αρθρωτική εξομάλυνση Ε σωτερική δομή δεδομένων (β) Εικόνα 8 Βαθμίδα φωνητικής γραφής (α) βασισμένη σε λεξικό και (β) με κανόνες Μια διαφορετική στρατηγική υλοποίησης της βαθμίδας ΜλσΦΓ είναι αυτή της φωνητικής μεταγραφής με κανόνες. Σύμφωνα με αυτή την τεχνική η απαιτούμενη φωνολογική πληροφορία λαμβάνεται από κανόνες μετατροπής γραμμάτων σε ήχους (letter to sound) αντί από κάποιο 12

37 Γραπτός και προφορικός λόγος λεξικό. Σε αυτή την τεχνική, μόνο εκείνες οι λέξεις που δεν προφέρονται με ιδιαίτερο τρόπο, ο οποίος δεν καλύπτεται από τους κανόνες, αποθηκεύονται σε ένα λεξικό εξαιρέσεων. Ένα τυπικό μέγεθος ενός τέτοιου λεξικού για τα αγγλικά είναι 2000 λέξεις καλύπτοντας το 70% των περιπτώσεων (Hunnicat, 1980). Ήδη από τις πρώιμες μέρες των συστημάτων ΜΛσΦΓ με λεξικό υποστηριζόταν ότι μπορούν πετύχουν μεγαλύτερη ακρίβεια φωνητικής μεταγραφής σε σχέση με εκείνα που στηρίζονται σε σύνολα κανόνων, δεδομένης της ύπαρξης μεγάλων φωνητικών λεξικών σε ηλεκτρονική μορφή. Από την άλλη μεριά βέβαια, ιδιαίτερες προσπάθειες έχουν γίνει για τον σχεδιασμό συνόλου κανόνων οι οποίοι θα έχουν ευρεία κάλυψη. Από όλα τα παραπάνω είναι ξεκάθαρο ότι κάποιος συμβιβασμός στο επιθυμητό στόχο, που είναι 100% κάλυψη μιας γλώσσας, είναι αναπόφευκτος. Η έκταση του συμβιβασμού εξαρτάται από την γλώσσα, δεδομένων των προφανών διαφορών στην αξιοπιστία των κανόνων φωνητικής μεταγραφής για διαφορετικές γλώσσες Δημιουργία Προσωδίας Όλες οι υπομονάδες της βαθμίδας επεξεργασίας φυσικής γλώσσας που μελετήσαμε ως τώρα έχουν σαν βασικό σκοπό την εξαγωγή πληροφορίας, από το κείμενο εισόδου ενός συστήματος ΜΚσΟ, η οποία θα χρησιμοποιηθεί για την εξαγωγή των προσωδιακών προδιαγραφών που θα εφαρμοστούν στο συνθετικό σήμα ομιλίας. Πολλές φορές έχουμε ακούσει την φράση Δεν είναι τι είπες, αλλά πως το είπες!. Στην εργασία (Sheridan, 1775) έχει επισημανθεί η σημασία της προσωδίας εδώ και περισσότερο από 200 χρόνια. Συγκεκριμένα αναφέρετε ότι, Τα παιδιά μαθαίνουν να διαβάζουν προτάσεις, τις οποίες δεν καταλαβαίνουν, και όπως είναι αδύνατον να τοποθετήσουν την έμφαση σωστά, χωρίς να καταλαβαίνουν πλήρως το νόημα, έχουν την συνήθεια είτε να διαβάζουν μονότονα, είτε στην προσπάθεια τους να ξεχωρίσουν μια λέξη από τις υπόλοιπες, να τοποθετούν την έμφαση τυχαία αλλοιώνοντας έτσι το έννοια αυτού που διαβάζουν. Η προσωδία είναι μια πολύπλοκη σύνθεση φυσιολογικών (άρθρωση, μηχανισμός παραγωγής ομιλίας) και φωνητικών διεργασιών τα οποία υιοθετούνται από τον ομιλητή προκειμένου να εκφράσει την διάθεση του, να εκφέρει τις υποθέσεις και την προσοχή του. Αποτελεί ουσιαστικά ένα παράλληλο κανάλι πληροφορίας της καθημερινής λεκτικής επικοινωνίας του. Το σημασιολογικό περιεχόμενο ενός γραπτού ή προφορικού μηνύματος καλείται ως δήλωση (denotation), ενώ το συναισθηματικό και η πληροφορία μέσω της έμφασης που προσδίδονται από τον ομιλητή, ή αντιλαμβάνονται από τον ακροατή συγκροτούν το συμπέρασμα (connotation) του μηνύματος. Από την οπτική γωνία του ακροατή, η προσωδία 13

38 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας πραγματώνεται μέσα από την συστηματική αντίληψη και ανάκτηση των προθέσεων του ομιλητή βασιζόμενος στα παρακάτω ερεθίσματα: Παύσεις: για να ορισθούν οι ενδοπεριοδικές φράσεις και για την αποφυγή ελλείψεως αέρα Τονικότητα: η αντίληψη του ρυθμού ταλάντωσης των φωνητικών χορδών (θεμελιώδης συχνότητα F0) σε συνάρτηση με το χρόνο από τον ακροατή. Κατανομή/σχετική διάρκεια: διάρκειες φωνημάτων, συγχρονισμός και ρυθμός Ένταση: σχετικό πλάτος ήχου. Κανονικοποιημένο κείμενο και αλληλουχία φωνημάτων Εισαγωγή παύσεων και προσωδιακός σχηματισμός φράσεων Διάρκειες Θεμελιώδης συχνότητα (F0) Έμφαση Εμπλουτισμένη προσωδιακή αναπαράσταση Εικόνα 9. Διάγραμμα της βαθμίδας δημιουργίας προσωδιακής πληροφορίας Η τονικότητα είναι εκείνο το συστατικό της προσωδία που μεταφέρει το μεγαλύτερο νοηματικό φορτίο. Καθώς μιλάμε, συστηματικά μεταβάλουμε την θεμελιώδη συχνότητα προκειμένου να εκφράσουμε τα συναισθήματα μας για αυτό το οποίο αναφερόμαστε, ή για να κατευθύνουμε την προσοχή του ακροατή σε συγκεκριμένα σημεία του μηνύματος που εκφέρει. Αν προσπαθήσουμε να εκφέρουμε ένα γραπτό μήνυμα με σταθερή τονικότητα και σταθερές παύσεις (ή χωρίς παύσεις) μεταξύ των λέξεων, το αποτέλεσμα είναι αφύσικο. Η εικόνα 9 αποτελεί σχηματική αναπαράσταση των στοιχείων της βαθμίδας δημιουργίας προσωδιακών προδιαγραφών ενός συστήματος ΜΚσΟ. Η είσοδος της βαθμίδας είναι το κανονικοποιημένο κείμενο μαζί με την συμβολοσειρά που παριστάνει την φωνητική μεταγραφή του μεταγραφή. Η έξοδος του περιέχει πλήρως ορισμένη πληροφορία σχετικά με την διάρκεια των φωνημάτων και την τονικότητα του προς σύνθεση σήματος ομιλίας. 14

39 Γραπτός και προφορικός λόγος 1.4 Παραγωγή συνθετικής ομιλίας Η διαδικασία δημιουργίας συνθετικής ομιλίας, έχοντας σαν βάση την προσωδιακή πληροφορία που προκύπτει από το στάδιο της επεξεργασία φυσικής γλώσσας, μπορεί να χαρακτηριστεί ως η προσπάθεια συσχέτισης μιας αφηρημένης και συνοπτικής συμβολικής αναπαράστασης της γλώσσας σε μια άλλη παραμετρική και συνεχή περιγραφή. Αυτή η αντιστοιχία απεικονίζει τον διαχωρισμό μεταξύ των διαδικασιών που λαμβάνουν χώρα από την μία για την περιγραφή της γλώσσας και από την άλλη για την παραγωγή της ομιλίας σε ένα σύστημα ΜΚσΟ. Η κωδικοποιημένη (παραμετρική) πληροφορία χρησιμοποιείται για να οδηγήσει κάποιο είδος μοντέλου παραγωγής ομιλίας. Οι μέθοδοι παραγωγής ομιλίας αρχικά μπορούν να χωριστούν σε δύο ευρείες κατηγορίες, αυτές που κατά κύριο λόγο διαμορφώνουν το σήμα ομιλίας και εκείνες που κωδικοποιούν πτυχές του. Στην δεύτερη κατηγορία συστημάτων ανήκουν η αρθρωτική σύνθεση (articulatory synthesis) και η σύνθεση με κανόνες (formant synthesis). Και οι δύο στηρίζονται πλήρως στην δημιουργία συνθετικού σήματος ομιλίας χρησιμοποιώντας παραμετρική πληροφορία ή οποία οδηγεί ένα θεωρητικό μοντέλο παραγωγής. Στην πρώτη κατηγορία ανήκουν εκείνες οι τεχνικές που βασίζονται στην συνένωση κομματιών πραγματικής ομιλίας πάνω στα οποία «προστίθεται» προσωδιακή πληροφορία Σύνθεση ομιλίας με μοντελοποίηση άρθρωσης Κατά την αρθρωτική σύνθεση επιχειρείται να προσομοιωθεί η νευροφυσιολογία και η βιομηχανική (biomechanic) του μηχανισμού παραγωγής ομιλίας του ανθρώπου, όπως απεικονίζεται στην εικόνα 10. Αποτελεί μία πολύπλοκη διεργασία, αφενός λόγω της δυσκολίας να μετρηθεί η πραγματική διαδικασία της άρθρωσης καθώς παράγεται η φυσική ομιλία, και αφετέρου λόγω της μαθηματικής και υπολογιστικής πολυπλοκότητας που απαιτείται για αυτά τα μοντέλα. Έτσι παρότι από πλευράς πιστότητας είναι, ίσως, η πιο αποτελεσματική μέθοδος παραγωγής ομιλίας, είναι η λιγότερο ανεπτυγμένη τεχνική. Υπάρχουν μερικά συστήματα που έχουν επιδείξει κάποια ενθαρρυντικά αποτελέσματα (Rubin et al., 1981), (Browman, Goldstein, 1986), με πιο πρόσφατο το HLSyn (Stevens, 2002). Πρόοδος επίσης επιτελείται στις μετρήσεις της διαδικασίας άρθρωσης με διάφορες τεχνικές όπως το ηλεκτροπαλατογράφημα (electropalletography), οι μικροδέσμες ακτίνων-χ (x-ray microbeam) και το ηλεκτρομαγνητικό αρθρωγράφημα (ElectroMagnetic Articulograph). Όσο εξελίσσεται η τεχνολογία και βελτιώνεται 15

40 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας η ικανότητα μας να μοντελοποιήσουμε τέτοιες διαδικασίες, η σύνθεση με μοντελοποίηση άρθρωσης θα καταστεί πιο διαδεδομένη. Προς το παρόν όμως στερείται πρακτικότητας στη χρήση. Εικόνα 10. Μοντελοποίηση κίνησης γλωττίδας με ένα σύστημα ελατηρίου-μάζας Σύνθεση ομιλίας με κανόνες Όσον αφορά τα συστήματα σύνθεσης ομιλίας με κανόνες, αυτά βασίζουν την λειτουργία τους σε ένα θεωρητικό μοντέλο εξομοίωσης του ανθρώπινου μηχανισμού παραγωγής ομιλίας. Σύμφωνα με το μοντέλο αυτό η στοματική κοιλότητα μπορεί να αναπαρασταθεί με ένα σύστημα χρονικά μεταβαλλόμενων ψηφιακών φίλτρων, σύμφωνα με κανόνες, τα οποία διεγείρονται από ένα σήμα που αντιστοιχεί στη μεταβολή της πίεσης του αέρα που ρέει μέσα σε αυτή. Τα συστήματα αυτά παράγουν ομιλία πολύ καλής φυσικότητας, μικρότερης όμως καταληπτότητας από αυτή των συστημάτων συνένωσης. Το γεγονός αυτό οφείλεται αφενός στην έλλειψη ακόμα επαρκούς γνώσης για την λειτουργία του ανθρώπινου μηχανισμού παραγωγής ομιλίας και αφετέρου στην δυσκολία εξαγωγής των παραμέτρων του μοντέλου αυτού μελετώντας μόνο το σήμα ομιλίας. Έχει αποδειχθεί ότι συστήματα βασισμένα σε σύνθεση με κανόνες παράγουν φυσική ομιλία καλής ποιότητας με την προϋπόθεση βέβαια ότι προηγουμένως έχουν εξαχθεί κατάλληλοι παράμετροι για την οδήγηση του μοντέλου. Θεωρητικά, η σύνθεση με κανόνες είναι σε θέση να συνθέσει τους περισσότερους από τους ήχους που χρησιμοποιούνται στον προφορικό λόγο έχοντας όμως το μειονέκτημα ότι ο τεχνητός προφορικός λόγος που παράγουν, αν και καταληπτός, ακούγεται μηχανικός. Το άγιο δισκοπότηρο στην έρευνα της σύνθεσης με κανόνες είναι η δημιουργία μιας γενικευμένης χαρτογράφησης της ομιλίας σε ένα σύνολο παραμέτρων. 16

41 Γραπτός και προφορικός λόγος Ακολουθία φωνημάτων και προσωδία Ψηφιακή επεξεργασία σήματος Φωνητική/ Φωνολογία Σώμα Ομιλίας Π αραμετοποιημένο Σώμα Ομιλίας Σώμα Ομιλίας Εναρμονισμός κανόνων Ανάλυση ομιλίας Εύρεση κανόνων Επεξεργασία σήματος Σύνθεση σήματος Ομιλία Εικόνα 11 Δομικό διάγραμμα ενός συστήματος σύνθεσης ομιλίας με κανόνες Τα σημαντικότερα πλεονεκτήματα αυτής της μεθόδου είναι ότι παράγουν αρκετά καλή ποιότητα ομιλίας με σχετικά μικρές απαιτήσεις σε αποθηκευτικό χώρο και δίνουν μεγάλη ευχέρεια στην μετατροπή του κωδικοποιημένου σήματος ομιλίας (αλλαγή χροιάς, ταχύτητας ομιλίας κ.α.). Το βασικότερο μειονέκτημα τους είναι ότι η παραγωγή συνθετικής ομιλίας υψηλής ποιότητας είναι μια χρονοβόρα διαδικασία, κάνοντας την δημιουργία μεγάλων βάσεων ομιλίας δύσκολη Σύνθεση ομιλίας με συνένωση μονάδων Η τρίτη, και κατά την παρούσα περίοδο η πιο αποτελεσματική, μορφή σύνθεσης ομιλίας είναι αυτή η οποία στηρίζεται στην συνένωση δομικών μονάδων ομιλίας (ή αλλιώς συρραφής κυματομορφών). Περιλαμβάνει την κατάτμηση προ-ηχογραφημένης πραγματικής ομιλίας και τη μετέπειτα συγκόλληση των κατάλληλων λεκτικών τμημάτων, για την παραγωγή ενός συνθετικού εκφωνήµατος. Συχνά χρησιμοποιούνται τεχνικές επεξεργασίας για να μεταβάλουν τα χαρακτηριστικά των τμημάτων, ώστε να παρέχουν πιο ομαλές μεταβάσεις ανάμεσα στα συγκολλημένα τµήµατα. Το μήκος των τμημάτων μπορεί να κυμαίνεται από ολόκληρες 17

42 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας προτάσεις ή λέξεις μέχρι συλλαβές ή φωνήματα. Γενικά, όσο μεγαλύτερη είναι η επεξεργασία σήματος που απαιτείται για την παραγωγή τμημάτων που συνδέονται µε συνέπεια, τόσο μειώνεται η ποιότητα της παραγόμενης ομιλίας. Τα πιο διαδεδομένα δομικά στοιχεία είναι τα δίφωνα (diphones), που αποτελούν μονάδες που αρχίζουν από το κέντρο της σταθερής κατάστασης ενός φωνήµατος και τελειώνουν στο αντίστοιχο κέντρο του επόμενου. Σύμφωνα µε τη θεωρία, αυτές οι µονάδες είναι πιο εύκολο να συρραφθούν απ ότι χωριστά φωνήµατα λόγω της σταθερής κατάστασης στα δύο άκρα. Η τρέχουσα έρευνα επιδιώκει την χρήση διφώνων, τριφώνων αλλά και πιο γενικών τµηµάτων µε διάφορα µήκη και περισσότερα στιγμιότυπα από κάθε τµήµα, καθώς αυτό μπορεί να μειώσει το ποσό της επεξεργασίας σήµατος που απαιτείται για τη συρραφή των μονάδων. Ο όρος επιλογή μονάδας (unit selection) χρησιμοποιείται συχνά για να περιγράψει αυτόν τον τύπο σύνθεσης. Οι προσεγγίσεις επιλογής μονάδας προσφέρουν τα πιο φυσικά ακουστικά αποτελέσματα, επειδή ελαχιστοποιούν την επεξεργασία του σήματος ομιλίας τόσο κατά τη δημιουργία του αποθέµατος των δειγµάτων όσο και κατά τη σύνθεση. Τις περισσότερες φορές η συνθετική ομιλία που παράγεται από τέτοια συστήματα δεν ξεχωρίζει από την φυσική ομιλία. Ωστόσο, η μέγιστη φυσικότητα επιτυγχάνεται µε πολύ μεγάλα αποθέματα που κυμαίνονται σε δεκάδες ώρες συνεχούς ομιλίας. Παραδείγματα σύνθεσης µε συρραφή είναι τα εξής: FESTIVAL (Black et al., 1998), (Taylor et al., 1998), Laureate (Page, Breen, 1996) και AT&T NextGen (Syndral et al., 2000). 1.5 Ποιότητας ενός συστήματος μετατροπής κειμένου σε ομιλία Εκείνοι οι παράγοντες που εξετάζονται για τον έλεγχο της ποιότητας ενός συστήματος μετατροπής κειμένου σε ομιλία είναι η καταληπτότητα και η φυσικότητα του. Για να δώσουμε έναν ορισμό στην έννοια της φυσικότητας θα λέγαμε ότι περιγράφει την ανάγκη η συνθετική φωνή να είναι το ίδιο εύκολο να ακουστεί (όσο και η φυσική φωνή) υπό τις ίδιες συνθήκες. Από την άλλη μεριά η βελτίωση της καταληπτότητας υπήρξε ο αντικειμενικός στόχος στον σχεδιασμό και την υλοποίηση των ΜΚσΟ, αφού χωρίς υψηλό βαθμό καταληπτότητας τα συστήματα αυτά δεν θα εξυπηρετούσαν κανέναν σκοπό. Ως εκ τούτου, τα περισσότερα σύγχρονα ΜΚσΟ συστήματα παρέχουν ιδιαίτερα καταληπτή ομιλία, με τα επίσημα τεστ να αποδεικνύουν ότι σε επίπεδο καταληπτότητας, πλησιάζουν σε μεγάλο βαθμό τον φυσικό λόγο. Από την άλλη, έως και τα μέσα της δεκαετίας του '90, η εξέλιξη σε επίπεδο φυσικότητας της παραγόμενης ομιλίας δεν υπήρξε ικανοποιητική. Η χαμηλού βαθμού φυσικότητα, ιδιαίτερα με την έννοια της ευκολίας στην 18

43 Γραπτός και προφορικός λόγος ακοή, υποβαθμίζει αισθητά την συνολική απόδοση ενός ΜΚσΟ συστήματος. Σε αυτήν την περίπτωση, οι άνθρωποι χρειάζεται να είναι ιδιαίτερα συγκεντρωμένοι και να καταβάλουν ιδιαίτερη προσπάθεια όταν ακούνε συνθετική ομιλία, με αποτέλεσμα να κουράζονται εύκολα και να εγκαταλείπουν γρήγορα. Πρέπει συνεπώς να εξασφαλίζεται ένα ελάχιστο επίπεδο ακουστικής ποιότητας προτού αποδεχτούν οι καταναλωτές να ακούνε συνθετική ομιλία σε τακτική βάση. Ως εκ τούτου ο στόχος των σύγχρονων ερευνών είναι να συνεχίσουν μεν να παρέχουν ΜΚσΟ συστήματα με υψηλή καταληπτότητα, αλλά, την ίδια στιγμή, να πετυχαίνουν και υψηλή φυσικότητα στην ομιλία, ανεβάζοντας με αυτόν τον τρόπο την ποιότητα των συστημάτων σε τέτοιο επίπεδο ώστε να καταφέρνουν να ανταποκρίνονται στις απαιτήσεις των καταναλωτών. 1.6 Συστήματα μετατροπής κειμένου σε ομιλία Τα συστήματα ΜΚσΟ της βιβλιογραφίας έχουν σαν κοινό τόπο το διαχωρισµό και την αυτονοµία των επιμέρους γλωσσικών διαδικασιών. Αυτά διαφοροποιούνται σε δύο θέματα: α) στον τρόπο διαχείρισης και αναπαράστασης της γνώσης που κατ επέκταση οριοθετεί την ευελιξία ανάπτυξης γλωσσικών διεργασιών, και β) στα θεμελιώδη γλωσσικά συστατικά και εργαλεία τα οποία προσφέρουν για την υποστήριξη γλωσσολογικών και φωνολογικών επεξεργασιών. Το FESTIVAL είναι ένα ανοικτού κώδικα ερευνητικό σύστημα ΜΚσΟ, η ευρεία διάδοση του οποίου οφείλεται κατά ένα μεγάλο μέρος στο γεγονός ότι αποτελεί ένα πλαίσιο εργασίας με μια πληθώρα εργαλείων απαραίτητων για την ανάπτυξη συνθετικών φωνών (Black, Lenzo, 2003). Η αναπαράσταση και διαχείριση της γνώσης από το FESTIVAL πραγματοποιείται με την χρήση των Ετερογενών Σχεσιακών Γράφων (Heterogeneous Relation Graph HRG) (Black et al., 1998), οι οποίοι αναπαριστούν τόσο λίστες όσο και δεντρικές δοµές, ενώ στα ζεύγη ιδιοτήτων-τιμών των κόμβων, οι τιµές µπορεί να είναι δείκτες σε συναρτήσεις, καθιστώντας τον φορµαλισµό πολύ ευέλικτο. Από το FESTIVAL υποστηρίζεται τόσο η δυνατότητα σύνθεσης ομιλίας από κείμενο με χρήση της τεχνικής συρραφής καθώς και με επιλογής μονάδων. Τα εργαλεία για την ανάπτυξη νέων γλωσσών παρέχονται από την βιβλιοθήκη Edinburgh Speech Tools (Taylor et al., 1998) η οποία παρέχει µία σειρά από εργαλεία όπως: το wagon (για τη δημιουργία λιστών και δέντρων CART), εργαλεία (για τη δηµιουργία µοντέλων γραµµικής παλινδρόµησης) κ.α. Το FLITE (Black, Lenzo, 2001) αποτελεί μία μικρότερη έκδοση του FESTIVAL, που έχει σαν χαρακτηριστικό το µικρότερο µέγεθος του συστήµατος, αλλά και την βελτιστοποίηση του 19

44 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας κώδικα ώστε να µπορεί να εκτελεστεί στις όλο και αυξανόµενες συσκευές χαμηλών συνθηκών (small-footprint). Περιλαμβάνει έναν αλγόριθμο Huffman (Huffman, 1952) για τη συμπίεση των λεξικών, καθώς και έναν συνθέτη γραµµικής πρόβλεψης για υψηλότερη συµπίεση των φωνητικών δειγμάτων. Το σύστημα FreeTTS αποτελεί µία εναλλακτική έκδοση του FLITE σε γλώσσα προγραμματισμού Java (σε αντίθεση µε το FLITE που είναι σε C). Το ProSynth (Huckvale, 1999) είναι ένα σύστηµα ΜΚσΟ το οποίο χρησιµοποιεί τη µεταγλώσσα XML για την αναπαράσταση της γνώσης, σε ένα σχήµα που ονοµάζεται ProXML. Το ProSynth αξιοποιεί τις ευκολίες που παρέχονται µέσω της ProXML για την αναπαράσταση των φωνολογικών χαρακτηριστικών μιας έκφρασης σε µετρικές προσωδιακές δοµές (metrical prosodic structures), δηλαδή ιεραρχίες από κόµβους που περιγράφονται από ζεύγη ιδιοτήτωντιµών. Επιπλέον, ο φορµαλισµός της ProXML επιτρέπει την αναπαράσταση ενός δηλωτικού φωνολογικού περικειμένου µε βάση την οποία εφαρµόζεται η φωνητική διερμηνεία (interpretation) του κειμένου. Στο EULER (Dutoit, et al., 2000), η αναπαράσταση γνώσης γίνεται µέσω των Πολυεπίπεδων Δομών Δεδομένων (Multilayer Data Structures MLDS). Πρόκεται για στιβάδες λιστών, οι οποίες ευθυγραμμίζονται μεταξύ τους µε βάση έναν κοινό χρονικό άξονα. Το EULER αξιοποιεί το συνθέτη διφώνων MBROLA (Multiband Resynthesis OverLap Add) (Dutoit, Leich, 1993) (Dutoit et al., 1996), ο οποίος έχει προέρθει από την ίδια ερευνητική ομάδα. 20

45 Προσωδιακή πληροφορία στον προφορικό λόγο Kεφάλαιο 2ο Προσωδιακή πληροφορία στον προφορικό λόγο 2.1 Προσωδία Στον προφορικό λόγο, μέρος του εκφωνηθέντος μηνύματος καταλήγει στον ακροατή μέσω της εκδήλωσης συγκεκριμένων φαινόμενων τα οποία συγκροτούν τη λεκτική ροή. Τέτοια γεγονότα συσχετίζονται με αλλαγές ορισμένων ιδιοτήτων του σήματος ομιλίας όπως μεταβολές στην τονικότητα (διακυμάνσεις της θεμελιώδους συχνότητας), στην διάρκεια των φωνημάτων, στις παύσεις, στην ηχηρότητα και στην ποιότητα της φωνής. Οι τονικές πτυχές της προσωδίας περιγράφονται από τον όρο επιτονισμός. Διάφοροι φορμαλισμοί και μέθοδοι περιγραφής των προσωδιακών φαινομένων έχουν αναπτυχθεί κατά τη διάρκεια των ετών. Η αξιολόγηση της ακρίβειας αναπαράστασης αυτών των μοντέλων στηρίζεται στη δυνατότητά τους να αναδημιουργήσουν την προσωδία μιας έκφρασης και πόσο καλά οι παράμετροι του μοντέλου εξηγούν τη σχέση μεταξύ προσωδίας και σύνταξης. Η περιγραφή της προσωδίας μπορεί να γίνει σε ακουστική, αντιληπτική ή γλωσσολογική βάση. Καθεμία από αυτές τις προσεγγίσεις αντιστοιχεί σε ένα διαφορετικό επίπεδο επεξεργασίας των προσωδιακών πληροφοριών στην προφορική γλωσσική αλληλεπίδραση. Η ακουστική απόδοση των προσωδιακών φαινομένων (θεμελιώδης συχνότητα, πλάτος, και διάρκεια), μπορεί να μετρηθεί απευθείας κάνοντας χρήση ειδικών μηχανημάτων ή αλγορίθμων (όπως αλγόριθμοι για την αυτόματη εκτίμηση της τονικότητας). Το αντιληπτικό επίπεδο αναπαράστασης περιγράφει τα προσωδιακά φαινόμενα μιας φράσης όπως αντιλαμβάνονται από τον (μέσο) ακροατή. Τέλος, το γλωσσολογικό επίπεδο κωδικοποιεί την προσωδία μιας φράσης σαν μια αλληλουχία από αφηρημένες μονάδες (τελεστές, σύμβολα), κάποια από τα οποία εμπεριέχουν προσωδιακή πληροφορία ενώ κάποια άλλα απλά πληρούν κάποιες απαιτήσεις της συντακτικής δομής της φράσης. Ένα γλωσσολογικό μοντέλο αποτελεί μια δομημένη αναπαράσταση της πληροφορίας, η οποία είναι αποτέλεσμα της στατιστικής και ποσοτικής μελέτης των δεδομένων από κάποιον γλωσσολόγο και όχι κάποια κρυμμένη πληροφορία η οποία μπορεί να εξαχθεί αρχικά με έναν αυτόματο τρόπο. 21

46 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Αντίθετα με τις άλλες δύο αναπαραστάσεις, η γλωσσολογική αναπαράσταση δεν είναι «μετρήσιμη», δεν μπορεί να ελεγχθεί παρά μόνο μπορεί να επαληθευτεί η περιγραφική της ακρίβεια. Εντούτοις, είναι δυνατό να υλοποιηθούν συστήματα αναγνώρισης που παράγουν μια μεταγραφή της προσωδιακής πληροφορίας μιας άγνωστης έκφρασης σύμφωνα με κάποιο συγκεκριμένο γλωσσικό πρότυπο της προσωδίας. Πίνακας 2: Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων Ακουστικό Αντιληπτικό Γλωσσολογικό Θεμελιώδης συχνότητα (F0) Ύψος φωνής Επιτονισμός, Πλευρές τονισμού, τονικά φαινόμενα Πλάτος, Ενέργεια, Ένταση Ηχηρότητα, Πλευρές τονισμού Πλευρές τονισμού Διάρκεια Διάρκεια Πλευρές τονισμού Δυναμική πλάτους Δύναμη Πλευρές τονισμού Βασικά συστατικά της προσωδίας Μεταξύ των προσωδιακών φαινομένων, το πιο προφανές είναι οι αλλαγές στην τονικότητα (της τάξεως των πέντε semitones ή περισσότερων), τα οποία συνολικά δημιουργούν την προσωδιακή καμπύλη ή αλλιώς καμπύλη τονικότητας. Η ανάλυση των προσωδιακών καμπύλων μεγάλων προτάσεων φανερώνει ότι αυτές μπορούν να χωριστούν σε μια ακολουθία στοιχειωδών καμπύλων, οι οποίες με την σειρά τους μπορούν περαιτέρω να διαιρεθούν σε συλλαβικά περιγράμματα ή ακόμα μικρότερες διακυμάνσεις οι οποίες συνδέονται με τις συλλαβές ή μέρη αυτών. Με τον όρο συλλαβικά περιγράμματα εννοούμε τις μορφές που λαμβάνει καμπύλη τονικότητας σε επίπεδο συλλαβής όταν αυτή φέρει τόνο επιτονισμού. Ο τόνος (προσωδιακός τόνος ή τόνου επιτονισμού) αποτελεί εκείνο το κομμάτι της προσωδιακής πληροφορίας το οποίο έχει επισημανθεί από τις πρώτες κιόλας εργασίες προσωδίας και φωνητικής. Η μελέτη του προσωδιακού τόνου μπορεί να πραγματοποιηθεί με εξέταση της αντιληπτικής μεριάς περιγραφής της προσωδίας και σχετίζεται άμεσα με την ηχηρότητα και τη φωνητική δύναμη που καταβάλει σε συγκεκριμένα σημεία ο ομιλητής. Η συλλαβή στην οποία πραγματώνεται ο προσωδιακός τόνος διακρίνεται, σε σχέση με τις γειτονικές της, είτε λόγο της μεγαλύτερης ηχηρότητα της (loudness) είτε λόγω των εν γένει δυναμικών ιδιοτήτων της (συνάρθρωσης, διάρκειας φωνημάτων, κ.α.). Για παράδειγμα στις 22

47 Προσωδιακή πληροφορία στον προφορικό λόγο λέξεις <νόμος> και <νομός> μπορούμε να δούμε τις παραπάνω διαφοροποιήσεις που υφίστανται οι τονισμένες συλλαβές. Σημαντικό ρόλο στην ένδειξη των προσωδιακών ορίων και του τόνου παίζει η τμηματική διάρκεια (segmental duration). Αν και η απόλυτη διάρκεια ενός γεγονότος μπορεί εύκολα να μετρηθεί, αυτή είναι μόνο μια τετριμμένη πτυχή της μέτρησης της διάρκειας. Καταρχήν, δεν είναι προφανές ποια γεγονότα θα πρέπει να μετρηθούν: ολόκληρες συλλαβές, ηχηρά μέρη, συλλαβικοί πυρήνες, κ.λ.π. Δεύτερον, η διάρκεια των συλλαβών και γενικότερα της ομιλίας εξαρτάται από διάφορους παράγοντες όπως ο ρυθμός ομιλίας, η φύση των φωνημάτων κ.α. Οι ακουστικοί παράγοντες που σχετίζονται με την προσωδία (κυρίως η F0, η ένταση, και η διάρκεια), παρουσιάζουν βραχύχρονες μεταβολές οι οποίες μπορούν να μετρηθούν (δεδομένης της ύπαρξης κατάλληλων οργάνων ακριβείας), αλλά δεν μπορούν να γίνουν αντιληπτές και έτσι δεν έχουν καμία συμβολή στην δημιουργία της καμπύλης επιτονισμού (αν και μπορεί να συμβάλουν στην διαφοροποίηση των φωνημάτων). Αυτού του είδους οι διαφοροποιήσεις αποτελούν την μικροπροσωδία. Για παράδειγμα, το τμήμα της καμπύλης F0 που ανήκει σε ρινικά ή υγρά σύμφωνα μερικές φορές παρουσιάζει πολύ μικρές διακυμάνσεις. Τα περισσότερα από αυτά τα φαινόμενα μπορούν να εξηγηθούν από την αεροδυναμική της παραγωγής ομιλίας Η έννοια της προσωδίας Η προσωδία έχει διάφορες λειτουργίες στην επικοινωνία με ομιλία. Η πιο προφανής επίδραση της προσωδίας στην επικοινωνία είναι αυτή της εστίασης (focus). Για παράδειγμα, συγκεκριμένα τονικά φαινόμενα κάνουν μια συλλαβή να ξεχωρίζει μέσα σε μια φράση, και επομένως να αναδεικνύεται είτε η λέξη είτε η συντακτική κλάση στην οποία ανήκει σαν ένα κομμάτι της φράσης το οποίο περιέχει μια νέα ή σημαντική πληροφορία. Τα προσωδιακά χαρακτηριστικά δημιουργούν ένα καταμερισμό της αλυσίδας της ομιλίας σε ομάδες συλλαβών, με άλλα λόγια ομαδοποιούν νοηματικά συλλαβές ή λέξεις. Πέραν τούτου, υπάρχουν προσωδιακά φαινόμενα τα οποία ορίζουν σχέσεις μεταξύ τέτοιων ομάδων. Η ομαδοποίηση που προκαλείται από τα προσωδιακά φαινόμενα έχει ιεραρχική δομή, και δεν είναι αναγκαίο να ακολουθεί την συντακτική δομή της φράσης. Η πολύ γνωστή μορφή δηλωτικού επιτονισμού (ή το τέλος της καμπύλης επιτονισμού μιας πρότασης), χαρακτηρίζεται, σε πολλές γλώσσες, από πολύ χαμηλή τιμή τονικότητας (κοντά στα όρια της τονικής κλίμακας του ομιλητή), έτσι συχνά θεωρείται ως μια προσωδιακή ένδειξη που παριστάνει το τέλος της πρότασης. Από την άλλη μεριά, υψηλή τιμή τονικότητας στο τέλος 23

48 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας μια φράσης δηλώνει την ύπαρξη ερώτησης. Σε σχέση με τα προσωδιακά χαρακτηριστικά που αναφέραμε παραπάνω, τα φαινόμενα αυτά μπορούν να θεωρηθούν αποτελέσματα της προσωδιακής ιεραρχίας. Η προσωδιακή δομή έχει ολοκληρωθεί όταν ο τελικός τόνος της πρότασης έχει βρεθεί, η δομή είναι ατελείς ή έχει μείνει ανοιχτεί από τον ομιλητή, δηλώνοντας μια σύνδεση με αυτά που θα ακολουθήσουν Αυτή είναι η πορτοκαλάδα Αυτή είναι η πορτοκαλάδα Αυτή είναι η πορτοκαλάδα. Εικόνα 12. Αλλαγές στην καμπύλη F0 ανάλογα με την θέση του τόνου επιτονισμού στη φράση Όλες αυτές οι πλευρές του επιτονισμού μπορούν να ομαδοποιηθούν κάτω από τον τίτλο, γλωσσολογική πλευρά του επιτονισμού. Αποτελούν μέρος της δομής μια γλώσσας ακριβώς όπως η μορφολογία ή η σύνταξη της. Υπάρχει, εντούτοις, μια άλλη σειρά φαινομένων που εκφράζονται επίσης με τα προσωδιακά μέσα (όπως η τονικότητα), αλλά είναι ανεξάρτητα από τις λειτουργική πλευρά της προσωδίας. Θα μπορούσαν να οριστούν ως συναισθηματικές πτυχές της προσωδίας αφού μεταβιβάζουν τις πληροφορίες για τη συναισθηματική ή φυσική κατάσταση του ομιλητή. Παραδείγματος χάριν, η ομιλία σε θυμωμένη συναισθηματική κατάσταση συνήθως παρουσιάζει τονικότητα με γρηγορότερες αλλαγές και μεγαλύτερο εύρος και πλάτος τιμών (η ομιλία σε καταθλιπτική συναισθηματική κατάσταση παρουσιάζει αντίθετη τάση) F0 (Herz) F0 (Herz) Time Χρόνος (s) (s) Χρόνος Time (s) (s) (α) Εικόνα 13. Καμπύλη F0 της φράσης Χλόμιασαν με τις μανούβρες του καραβιού α) σε κατάσταση θυμού και β) σε κατάσταση στεναχώριας (β) 24

49 Προσωδιακή πληροφορία στον προφορικό λόγο Όμως παρότι η πραγμάτωση της τονικότητας μπορεί να επηρεαστεί από τέτοιους συναισθηματικούς παράγοντες, οι βασικές λειτουργικές μορφές της και οι διαμορφώσεις της παραμένουν απρόσβλητες. Το συναισθηματικό φορτίο λοιπόν δεν αλλάζει το γλωσσικό κώδικα (την επιλογή δηλαδή των φωνημάτων που απαρτίζουν το μήνυμα) αλλά έχει επιπτώσεις μόνο στην πραγματοποίησή του. Για αυτό τέτοιες πτυχές καλούνται μερικές φορές παραγλωσσολογικές, μαζί με άλλα φαινόμενα όπως η π.χ. η ποιότητα της φωνής. 2.2 Μοντέλα επιτονισμού Διάφοροι φορμαλισμοί και μέθοδοι μεταγραφής του επιτονισμού έχουν αναπτυχθεί κατά τη διάρκεια των ετών. Η ταξινόμηση των φορμαλισμών αυτών ταυτίζεται με αυτή που περιγράψαμε στην προηγούμενη παράγραφο σχετικά με τα επίπεδα αναπαράστασης της προσωδίας, (πίνακας 2: Αντιστοιχίες μεταξύ επιπέδων αναπαράστασης προσωδιακών φαινομένων) έτσι και αυτά μπορεί με την σειρά τους να ταξινομηθούν σε ακουστικά, αντιληπτικά και γλωσσολογικά μοντέλα Ακουστικά μοντέλα επιτονισμού Όπως είναι δυνατή η περιγραφή των τεμαχιακών χαρακτηριστικών της ομιλίας με την μορφή σειράς φασματικών διανυσμάτων σχετιζομένων με κάποιο ακουστικό μοντέλο, είναι δυνατό να δημιουργήσουμε μια αριθμητική αναπαράσταση της προσωδίας, με την μορφή τιμών τονικότητας (π.χ. μια τιμή κάθε 10 ms), με την βοήθεια αλγορίθμων ανάλυσης τονικότητας (εικόνα 14). Μια τέτοια περιγραφή βέβαια έχει περιορισμένη εφαρμογή. Στα πλαίσια της ΜΚσΟ, μπορεί στην καλύτερη περίπτωση να χρησιμοποιηθεί σαν προσωδιακή πληροφορία ενός συνθέτη ο οποίος θα αναπαράγει την φράσεις ενός ομιλητή με συνθετική φωνή (copy synthesizer), διατηρώντας την αρχική προσωδία. Μια πλήρης ακουστική αναπαράσταση της προσωδίας δεν είναι πολύ περιοριστική επίσης, δεδομένου ότι η σειρά των ακουστικών γεγονότων που δύναται να περιγράψει είναι πάρα πολύ μεγάλη για μια περιγραφή της ανθρώπινης προσωδίας. Όχι όλες οι καμπύλες τονικότητας αντιστοιχούν σε φυσικά ούτε ακόμη και φυσικά ευκολοπρόφερτα δεδομένα. Ως εκ τούτου, δεν ενδείκνυται για προσωδιακές τροποποιήσεις ακόμα και για έναν συνθέτη αναπαραγωγής (copy synthesizer), πόσο μάλλον για την χρήση της σε ένα σύστημα ΜΚσΟ. 25

50 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας 500 Τονικότητα F0 (Herz) (Hz) Χρόνος Time (s) (s) (s) a p a n t i u n t e s t i l i m n o Χρόνος Time (s) Εικόνα 14. Φασματική και ακουστική αναπαράσταση κυματομορφής σε συνάρτηση με το χρόνο. Στην πραγματικότητα, η τροποποίηση της προσωδίας μιας έκφρασης μεταφράζεται σαν την τροποποίηση χαρακτηριστικών τιμών της F0 ομοιογενώς. Αυτό μπορεί μόνο να επιτευχθεί, σε έναν βαθμό, με τη βοήθεια ενός πλήρους ακουστικού προτύπου προσωδίας (σε αντιδιαστολή με την περιγραφή ανωτέρω), το οποίο εξετάζει τα προσωδιακά στοιχεία σε πιο υψηλό επίπεδο αναπαράστασης και περιγράφει τις καμπύλες F0 με έναν περιορισμένο αριθμό παραμέτρων, μια αλλαγή των οποίων δύναται να προκαλέσει ένα ευρύ φάσμα προσωδιακών αποτελεσμάτων. Τέτοια πρότυπα υπάρχουν, τα πιο γνωστά εκ των οποίων είναι το μοντέλο Fujisaki και τα μοντέλα ακουστικής τυποποίησης Ακουστικό μοντέλο επιτονισμού Fujisaki Το πρότυπο του Fujisaki, είναι η συνέχεια εργασίας του Ohman (Ohman, 1967) για την προσωδία των λέξεων. Είναι βασισμένο στη θεμελιώδη υπόθεση ότι οι καμπύλες προσωδίας, αν και συνεχείς και στο χρόνο και στη συχνότητα, δημιουργούνται σε ιδιαίτερα γεγονότα που προκαλούνται από τον αναγνώστη και είναι η αιτία των φυσιολογικών μηχανισμών σχετικών με 26

51 Προσωδιακή πληροφορία στον προφορικό λόγο τον έλεγχο της F0. Στο μοντέλο αυτό θα αναφερθού αναλυτικότερα στο κεφάλαιο 6 της παρούσης διδακτορικής διατριβής Μέθοδοι ακουστικής τυποποίησης Μια άλλη προσέγγιση για την περιγραφή της πληροφορίας που περιέχεται σε μια καμπύλη F0, με κατανοητό τρόπο, είναι με την επισήμανση των ακουστικών παραλλαγών που ενδεχομένως να περιέχει υπολογίζοντας της γραμμές κλίσης (declination lines) και (ή) προσεγγίζοντας την καμπύλη με μια σειρά από συγκεκριμένα σημεία στόχους (target points). Έχει αποδειχθεί για πολλές γλώσσες ότι καμπύλη F0 έχει την τάση να παίρνει τιμές μεταξύ κάποιων μέσων τιμών οι οποίες μειώνονται με τον χρόνο (Vaissiere, 1983). Αν υπολογίσουμε την μέση τιμή της θεμελιώδους συχνότητας μια καμπύλης, τότε παρατηρούμε ότι οι τιμές της είναι μεγαλύτερες από την τιμή αυτή στο αρχικό σημείο της και μικρότερες στο τελικό. Αυτή η γενική τάση των τιμών της F0 καλείται απόκλιση (declination). Εικόνα 15: Γραμμές κλίσης οι οποίες έχουν ληφθεί έπειτα από ακουστική ανάλυση. ΑΣ, ΤΑ, Εx, Mx και μx αντίστοιχα, αναφέρονται στην αρχική συχνότητα, τελική συχνότητα, ελάχιστα, μέγιστα και μικροπροσωδιακές μεταβολές. Ένας απλός τρόπος για την μαθηματική απόδοση της θεωρίας απόκλισης είναι το να υπολογίσουμε τις γραμμές κλίσης σαν την καλύτερη γραμμική παλινδρόμηση όλων των τοπικών ακρότατων (μέγιστα και ελάχιστα) της καμπύλης F0. Ένα παράδειγμα του παραπάνω φαίνεται στην Εικόνα 15, όπου τα τοπικά μέγιστα και ελάχιστα της καμπύλης προσεγγίζονται με δύο ευθείες, πάνω (topline) και κάτω (baseline). Στην πραγματικότητα αυτή η διαδικασία δυσκολεύει από το γεγονός ότι οι ομιλητές συνηθίζουν να αρχικοποιούν την φωνητική τους κατάσταση μετά από την παραγωγή μιας σχετικά χαμηλής τιμής F0 (συγκεκριμένα μετά από παύσεις που χωρίζουν μεγάλες ενδοπεριοδικές φράσεις) ( t Hart et al., 1991) 27

52 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Αντιληπτικά μοντέλα επιτονισμού Όπως είδαμε στην προηγούμενη ενότητα, τα ακουστικά μοντέλα επιτονισμού μπορούν με μεγάλη δυσκολία να χρησιμοποιηθούν υπό αυτήν τη μορφή για μια γλωσσική, λειτουργική μελέτη της προσωδίας, η οποία πρέπει τουλάχιστον να λάβει την αντίληψη υπόψη. Παρέχουν προσεγγίσεις της καμπύλης F0, αλλά δεδομένου ότι οι αλγόριθμοι εκτίμησης παραμέτρων λαμβάνουν τα ακουστικά χαρακτηριστικά της ομιλίας ως δεδομένα εισόδου, δεν μπορούν να εγγυηθούν ότι οι λεπτομέρειες που παραλείπονται κατά την εκτίμηση δεν είναι πραγματικά ακουστές, και αντιθέτως ότι αυτές που παραμένουν μπορούν πραγματικά να ακουστούν. Τα αντιληπτικά πρότυπα αφ' ετέρου στοχεύουν στην παραγωγή μιας ποσοτικής αλλά συμπαγούς περιγραφή των προσωδιακών ιδιοτήτων του σήματος που γίνονται αντιληπτές από τον ακροατή. Θα εξετάσουμε εν συντομία δύο τέτοια πρότυπα: το πρότυπο IPO και ένα αυτόματο αντιληπτικό πρότυπο τυποποίησης επιτονισμού Το IPO μοντέλο επιτονισμού Το πρότυπο επιτονισμού IPO αναπτύσσεται από τη δεκαετία του '60, στο Ινστιτούτο Έρευνας Αντίληψης (Instituut voor Perceptieonderzoek, IPO). Το μοντέλο αυτό είναι βασισμένο σε μια μέθοδο ανάλυση-μέσω-σύνθεσης κατά την οποία οι φράσεις αναλύονται και συνθέτονται σε μια τυποποιημένη καμπύλη τονικότητας, αποτελούμενη από μια ακολουθία ευθειών γραμμών (σε λογαριθμική κλίμακα), ώστε να ελεγχθεί η αντιληπτική ισοδυναμία μεταξύ της αρχικής και της παραγώμενης (στιλιζαρισμένης) καμπύλης επιτονισμού ( t Hart et al., 1991). Αρχικά η προσέγγιση αυτή μοιάζει με ένα μη αυτόματο ισοδύναμο της διαδικασίας που είδαμε στην προηγούμενη ενότητα, ή σαν μια αντιληπτικά προσανατολισμένη τεχνική σαν αυτή που εξετάσαμε στη παράγραφο Αυτή η ομοιότητα ενισχύεται περαιτέρω από το γεγονός ότι η IPO τυποποίηση του επιτονισμού χρησιμοποιεί επίσης τις γραμμές κλίσης (που καθορίζονται αυτή τη φορά με αντηλιπτικές υποθέσεις και περιορισμούς) ( t Hart et al., 1991), (Collier 1991) Αυτόματη αντιληπτική τυποποίηση Σε εργασίες τους οι Mertens και d'alessandro προτείνουν μεθόδους για την αυτόματη τυποποίηση της καμπύλης τονικότητας βάση του ανθρώπινου μηχανισμού αντίληψης αυτών των φαινομένων (Mertens, 1987), (d'allessandro, Mertens, 1995). Τα μοντέλα αυτά βασίζονται στην προϋπόθεση ότι οι καμπύλες F0 πρέπει να μελετώνται σε συνάρτηση με άλλα φωνητικά και προσωδιακά χαρακτηριστικά του σήματος ομιλίας (Kohler, 1991). Συγκεκριμένα, οι συλλαβής (ή γενικότερα μονάδες σε επίπεδο συλλαβής) συχνά εμφανίζονται ως δομικά στοιχεία όσον αφορά την αντίληψη του επιτονισμού. Πέραν τούτου, οι καμπύλες επιτονισμού που πραγματώνονται 28

53 Προσωδιακή πληροφορία στον προφορικό λόγο μέσα σε μια συλλαβή μπορούν να αναλυθούν περαιτέρω σε στοιχειώδεις καμπύλες που καλούνται τονικά τεμάχια (tonal segments), ο αριθμός των οποίων εξαρτάται από ιδιότητες εξαρτώμενες από την γλώσσα που μελετάμε. Εδώ θα πρέπει να επισημάνουμε την διαφορά των τονικών τεμαχίων στα οποία αναφέρεται η μέθοδος της αντιληπτικής τυποποίησης επιτονισμού και στα γλωσσικά τονικά τμήματα που προτείνονται από πολλές φωνολογικές θεωρίες του (όπως θα δούμε στην επόμενη ενότητα) Γλωσσολογικά μοντέλα επιτονισμού Η εξαγωγή της φωνολογικής φύσης των προσωδιακών δεδομένων (με τη σύγχυση στοιχείων που μεταβιβάζουν την ίδια πληροφορία) είναι πιο προβληματική από την εξαγωγή των αντίστοιχων ακουστικών ή αντιληπτικών χαρακτηριστικών. Θα μπορούσε εδώ να ισχυριστεί κάποιος ότι η αποκωδικοποίηση της προσωδιακής πληροφορίας είναι μια διαδικασία κατά κάποιο τρόπο υποκειμενική (σε αντιδιαστολή με την ακουστική πληροφορία ενός τμήματος ομιλίας). Έτσι λοιπόν η προσωδιακή πληροφορία δεν αντιστοιχεί σε απόλυτες τιμές διάρκειας, έντασης ή θεμελιώδους συχνότητας (F0) ούτε και σε απόλυτες τιμές τονικότητας, ηχηρότητας, μήκους, ή συλλαβικής διάρκειας. Άλλωστε, για τα ίδια ακουστικά ή αντιληπτικά δεδομέναα μπορούν να γίνουν κατανοητοί πολύ διαφορετικά από τον ακροατή, ανάλογα με το προσωδιακό πλαίσιο. Κατά συνέπεια, η εφαρμογή γλωσσολογικά προσανατολισμένων υποθέσεων ενός συστήματος μεταγραφής για την προσωδία αποσκοπεί σε έναν ταυτόχρονο καθορισμό κάποιου "προσωδιακού λεξιλογίου" για να περιγράψει τα επιτονικά φαινόμενα που προκύπτουν από την ακουστική ή αντιληπτική ανάλυση καθώς και κάποιας γραμματικής με σκοπό την διευθέτησει ασαφειών που προκύπτουν κατά την χρήση αυτών των συμβόλων σε διαφορετικές εννοιολογικά περιπτώσεις. Σε μια λέξη, είναι απαραίτητη η ανάπτυξη μιας εκτενούς γλωσσικής θεωρίας υπερτεμαχίων (παραπάνω από ένα τεμάχια), ανάλογη με αυτή περί τεμαχίων αλλά όχι όμως απαραίτητα σχετική με αυτή. Τα υπερτεμάχια δεν χρειάζονται να αναλυθούν συστηματικά με βάση την τεμαχιακή οργάνωση των προτάσεων, των μορφημάτων, των φράσεων κ.α. Στην εργασία του (Selkirk, 1984), παρουσιάζεται μια φωνολογική ιεραρχία που περιέχει τη συλλαβή, την προσωδιακή λέξη, τη φωνολογική φράση και τη φράση επιτονισμού. Μια τέτοια αυτόνομη ανάλυση μπορεί να επιτευχθεί με πέραν τις μιας προσεγγίσεις. Με αυτή μπορεί να αποκαλυφθούν χαρακτηριστικά όπως η ύπαρξη των λειτουργικών προσωδιακών μονάδων (που παριστάνονται από τα σύμβολα του προαναφερθέντος λεξιλογίου) και οργανώνονται στις φράσεις και τις προτάσεις (η σύνταξη των οποίων αποτελείται από την προαναφερθείσα 29

54 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας γραμματική). Ακριβώς όπως για το αποσπασματικό επίπεδο, οι λειτουργικές προσωδιακές μονάδες (ή αλλιώς προσωδήματα) δεν έχουν καμία ανεξάρτητη ύπαρξη: αποτελούν ένα δομημένο σύνολο στο οποίο κάθε στοιχείο μπορεί να αντιπαραβληθεί με το σύνολο-η αντικατάσταση ή η λάθος εκτίμηση ενός στοιχείου με κάποιο μέσα σε μια προσωδιακή συμβολοσειρά μπορεί να οδηγήσει σε μια αλλαγή στην κατανόηση της συμβολοσειράς (όπως η αλλαγή της θέσης της εστίασης, παραδείγματος χάριν). Η σύνταξη των προσωδιακών συμβολοσειρών, έχει σαν αποτέλεσμα τον περιορισμό του πλήθους των αποδεκτών προσωδιακών συμβολοσειρών για μια δεδομένη γλώσσα και περιγράφεται με τους κανόνες μιας γραμματικής. Μια τέτοια γραμματική δεν είναι μοναδική. Οι κανόνες της εξαρτώνται από το γενικό φορμαλισμό που υιοθετείται για την περιγραφή και, το πιο σημαντικό σε αυτήν την περίπτωση, από τα γλωσσικά χαρακτηριστικά γνωρίσματα του κειμένου. Η ουσία είναι ότι ο επιτονισμός σχετίζεται σε μεγάλο βαθμό με την σημασιολογία και την πραγματολογία. Έχουμε αναφέρει επίσης ότι εκθέτει τις συναισθηματικές, παραγλωσσολογικές πτυχές της ομιλίας. Κατά συνέπεια, αν και το διεθνές φωνητικό αλφάβητο (IPA) έχει εμφανιστεί περισσότερο από έναν αιώνα πριν, το προσωδιακό αντίστοιχό του δεν έχει πλήρως οριστεί ακόμα. Καμία παγκοσμίως υιοθετημένη προσωδιακή σύνταξη δεν έχει ακόμα καθιερωθεί πλήρως. Είναι εντούτοις μια θεμελιώδης απαίτηση για την ανάπτυξη των γλωσσικών θεωριών και για την απόφυση των λεκτικών εφαρμογών (είτε για αναγνώριση είτε για σύνθεση ομιλίας). Τα φωνολογικά μοντέλα του επιτονισμού μπορούν να ταξινομηθούν με βάση διάφορες οπτικές ανάλυσης, κυρίως ανάλογα με το βαθμό κατάτμησης που προκαλούν (σε ποια σημεία μιας φράσης εισάγουν τα προσωδιακά σύμβολα), η θέση του τόνου (εάν χρησιμοποιείται ή όχι ρητά), και η ιεραρχία, ή οι προσωδικές περιοχές που οριίζουν. Στη συνέχεια θα αναλύσουμε περιφραστικά το μοντέλο επιτονισμού ToBI το οποίο βασίζεται στην εφαρμογή σημαδιών τα οποία κωδικοποιούν την κίνηση της καμπύλης F0 κατά την παραγωγή του προφορικού μηνύματος Μοντέλο επιτονισμού ΤοΒΙ Σε αυτό το κεφάλαιο θα αναλύσουμε το σύστημα ToBI, καθώς αποτελεί τη βάση για τη μοντελοποίηση του επιτονισμού που ακολουθούμε σε αυτή τη διατριβή (κεφάλαια 4 και 5). Το ΤοΒΙ (Tones and Break Indices) είναι ένα πλαίσιο για την ανάπτυξη συμβάσεων ευρείας αποδοχής σχετικές με την μετεγγραφή της επιτονικής δομής των εκφωνημάτων. Το ToBI υποθέτει μία στενή σχέση ανάμεσα στον επιτονισμό και σε ένα ιεραρχικό μοντέλο από προσωδιακές συνιστώσες (Pierrehumbert, 1980), (Pierrehumbert, Beckman, 1988), (Beckman, Pierrehumbert, 1986). Δεν αποτελεί ένα διεθνές προσωδιακό αλφάβητο, καθώς η προσωδιακή 30

55 Προσωδιακή πληροφορία στον προφορικό λόγο οργάνωση διαφέρει από γλώσσα σε γλώσσα και συχνά από διάλεκτο σε διάλεκτο μέσα στην ίδια γλώσσα. Έτσι, υπάρχουν διαφορετικά συστήματα ToBI για κάθε γλώσσα και διάλεκτο. Π.χ. Αγγλικά (Silverman, et al., 1992), Γερμανικά (GToBI) (Baumann, et al., 2000), Ιαπωνέζικα (J_ToBI) (Venditti, 2004), Κορεάτικα (K-ToBI) (Jun, 2000), Ελληνικά (GR-ToBI) (Arvaniti, Baltazani, 2000). Εικόνα 16 Η γραμματική του ΤΟΒΙ Το σύστημα αποτελείται από μία σειρά από παράλληλα επίπεδα (tiers). Το πρώτο είναι ένα τονικό διάζωμα που περιέχει τονικά γεγονότα (pitch events) βασισμένα στην θεωρία της Pierrehumbert. Η Pierrehumbert διέκρινε μόνο δύο τονικά επίπεδα, ένα υψηλό H και ένα χαμηλό L, τα οποία δεν αντιπροσωπεύουν απόλυτες τιμές (π.χ. σε Hz) αλλά αντιπαραβάλλονται μεταξύ τους: το H είναι υψηλότερο στο εύρος του ομιλητή απ ότι θα ήταν το L στην ίδια θέση. Οι πιθανές ακολουθίες από τόνους H και L περιορίζονται από μία γραμματική πεπερασμένης κατάστασης (Σχήμα 7), που με τη σειρά της διαχωρίζει τέσσερις κατηγορίες τόνων στη βάση των ιδιοτήτων κατανομής: αρχικοί οριακοί τόνοι (initial boundary tones), επιτονικό ύψος (pitch accent tones), φραστικοί τόνοι (phrase accent tones) και καταληκτικοί οριακοί τόνοι (final boundary tones). Αυτή η γραμματική εισάγει ρητά μία ιεραρχική περιγραφή του επιτονισμού τριών επιπέδων πάνω από το επίπεδο της λέξης: η προσωδιακή λέξη ΠΛ (Prosodic Word), η μεσαία φράση ΜΦ (intermediate phrase) και η επιτονική φράση ΕΦ (Intonational Phrase). Στα τονικά γεγονότα συχνά περιλαμβάνονται και οι ετικέτες `HiF0` για να σημειώσουν την μέγιστη τιμή της F0 σε μία φράση. Μία ΜΦ περιλαμβάνει τουλάχιστον ένα επιτονικό ύψος και οριοθετείται τονικά με έναν φραστικό τόνο, είτε H- είτε L- στη δεξιά του πλευρά. Μία ΕΦ περιλαμβάνει τουλάχιστον μία ΜΦ και οριοθετείται τονικά με έναν οριακό τόνο, όπως H% ή L%. Επειδή οι φραστικοί και οι οριακοί 31

56 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας τόνοι δεν μπορούν να συμβαίνουν ταυτόχρονα, έχει καθιερωθεί να ονομάζονται και οι δύο σαν τελικοί τόνοι (endtones). Τα εκφωνήματα αναλύονται σε προσωδιακές λέξεις οι οποίες δέχονται έναν και μόνο έναν μονό (στατικό) ακουστικό τόνο (H* ή L*) ή έναν διπλό (δυναμικό) τόνο (H*+L, H+L*, L*+H, L+H*), όπου ο τόνος που συσχετίζεται με την τονισμένη συλλαβή συμβολίζεται με το διακριτικό του αστερίσκου (*). Οι προσωδιακές λέξεις συνδυάζονται σε ενδιάμεσες φράσεις που με τη σειρά τους δημιουργούν τις επιτονικές φράσεις. Ο τόνος κλεισίματος (offset pitch) των ενδιάμεσων φράσεων δηλώνεται από έναν φραστικό τόνο που φέρει το διακριτικό της παύλας (-). Οι τόνοι ανοίγματος (onset) και κλεισίματος (offset) των επιτονικών φράσεων δηλώνονται μέσω των αρχικών και τελικών οριακών τόνων που φέρουν το διακριτικό του επί τοις εκατό (%). Το Σχήμα 8 δείχνει μία αναπαράσταση της καμπύλης που αντιπροσωπεύει κάθε επιτονικό ύψος. Εικόνα 17 Τονικά ύψη και η ευθυγράμμιση τους με την τονισμένη συλλαβή (Baltazani, 2002). Το διάζωμα των δεικτών παύσης (break indices) χρησιμοποιείται για να σημειώσει παύσεις στη κλίμακα 0 μέχρι 4 (ή 6 ή 3, ανάλογα με τη γλώσσα), που δείχνει την ένταση του συνδέσμου ανάμεσα σε δύο παρακείμενες λέξεις. Τέλος, για να σημειωθούν ενδοιασμοί, δυσχέρειες λόγου, μη-ομιλία κλπ., χρησιμοποείται ένα διάζωμα διαφόρων ποικιλιών (miscellaneous). Το μοντέλο ToBI είναι ένα γλωσσολογικό μοντέλο το οποίο αν και έχει μελετηθεί ευρέως, παρουσιάζει μεγάλες αποκλίσεις ως προς την σημειογραφία του, ενώ όπως όλα τα γλωσσολογικά μοντέλα δεν περιγράφει το τονικό περίγραμμα αλλά τη δομή του. Το σχήμα του τόνου μέσα σε μία κλάση έχει δειχθεί ότι μπορεί να ποικίλει με βάση το φωνηματικό περιεχόμενο το οποίο τους φέρει. Ο (Grabe, 1998), για παράδειγμα, έδειξε ότι ο προσωδιακός τόνος συμπιέζεται όταν υπάρχει λιγότερο ηχηρό (sonorant) φωνηματικό υλικό. Μέρος της φιλοσοφίας του ToBI είναι το γεγονός ότι παρέχει ένα πλαίσιο σημειογραφίας μέσα στο οποίο διαφορετικοί σχολιαστές (labelers) γλωσσολόγοι, δύνανται να είναι συνεπείς κατά το δικό τους χαρακτηρισμό. Αυτή η συνέπεια είναι σημαντική για τη σύνθεση ομιλίας, για παράδειγμα, για την εκπαίδευση ενός στατιστικού μοντέλου. 32

57 Προσωδιακή πληροφορία στον προφορικό λόγο Το βασικότερο πρόβλημα της σημειογραφίας του ToBI είναι ότι ενώ στη γραπτή αναπαράσταση μπορεί να είναι ξεκάθαρη η διαφορά των τόνων που ορίζει, η απόδοση τους στο φυσικό σήμα ομιλίας εμφανίζει πολλές ομοιότητες. Η F0 από μόνη της δεν δείχνει πάντα τις ξεκάθαρες καμπύλες που αναμένονται, οπότε και δεν είναι σαφές τι είδους τύπου είναι ένας τόνος ή αν υπάρχει τόνος. Στην εργασία των (Syrdal, McGory, 2000) αποδεικνύεται ότι αν και οι σχολιαστές γενικώς συμφωνούν στο σημείο εμφάνισης ενός τόνου, εμφανίζουν χαμηλό ποσοστό συμφωνίας στο είδος του τόνου πράγμα το οποίο μπορεί να αποβεί σημαντική εμπέδηση για την εκπαίδευση των μοντέλων Το σύστημα Gr-ToBI Το GR-ToBI είναι η προσαρμογή του συστήματος ToBI στα Ελληνικά (Arvaniti, Baltazani, 2000). Στηρίζεται πάνω στο Αγγλικό ToBI, αλλά έχει προσαρμοστεί στα Ελληνικά λαμβάνοντας υπόψη μερικά πρόσθετα στοιχεία της Ελληνικής προσωδίας, όπως για παράδειγμα τα εκτενή sandhi. Για τα Ελληνικά ορίζονται πέντε προσωδιακοί τόνοι: L*, L*+H, L+H*, H* και H*+L. Αν δούμε μερικά παραδείγματα της γλωσσολογικής λειτουργίας των παραπάνω τόνων, το L+H* σηματοδοτεί στενή εστιακή κορύφωση, ενώ το H* ευρεία. Η διαφοροποίηση του L*+H και του L+H* έγκειται στην ευθυγράμμιση του τόνου H ο τόνος H του L+H* βρίσκεται σαφώς μέσα στη περιοχή του τονούμενου φωνήεν, ενώ ο τόνος H του L*+H ευθυγραμμίζεται νωρίς στο πρώτο φωνήεν μετά το τονούμενο (post-accentual). Επίσης, όλοι οι τόνοι μπορεί να εμφανίζονται με χαμηλότερη κλιμάκωση απ ό,τι τονίζονται τυπικώς αυτό το παρατηρούμενο γεγονός ονομάζεται αποκλιμάκωση (downstep). Υπάρχουν τρεις τύπου φραστικοί τόνοι στα Ελληνικά, H-, L- και!h- και τρεις τύποι οριακών τόνων, H%, L% και!h%. Οι τρεις οριακοί τόνοι συνδυάζονται με τους φραστικούς τόνους σε οκτώ διαφορετικές διατάξεις που εμφανίζονται να έχουν συγκεκριμένες πραγματολογικές λειτουργίες. Ένα σημαντικό πρόβλημα στη σημειογραφία του ToBI είναι η τοποθέτηση του κατάλληλου τύπου ακουστικού τόνου, φραστικού τόνου και οριακού τόνου. Τέλος, ορίζονται τέσσερις τύποι δεικτών παύσης: 0, 1, 2 και 3. Ο δείκτης 0 δείχνει έντονη συνεκτικότητα ανάμεσα σε δύο ορθογραφικές λέξεις. Συνεχόμενες λέξεις με ενδιάμεσους δείκτες 0 αποτελούν μία προσωδιακή λέξη και λαμβάνουν έναν μόνο προσωδιακό τόνο (ή δύο στις περιπτώσεις εγκλιτικού τόνου). Ο δείκτης 1 σημειώνει τα όρια των προσωδιακών λέξεων, ενώ οι δείκτες 2 και 3 τα όρια των ενδιάμεσων και των επιτονικών φράσεων αντίστοιχα. Ο Πίνακας 3 παρουσιάζει τις ακολουθίες των τόνων στα ελληνικά για διάφορα είδη προτάσεων (Baltazani, 2002). 33

58 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Πίνακας 3 Η μελωδίες σε διάφορα είδη πρότασης στα Ελληνικά. Είδος πρότασης Μελωδία θέματος Μελωδία Έμφασης Πυρηνικός τόνος Οριακός τόνος Πυρηνικός τόνος Οριακός τόνος Καταφατική L* H- L+H*, ή Η*, ή Η*+L L-L% Αρνητική L* H- L*+Η L-!H% Ερώτηση ολικής L+H* L- L* H-L% άγνοιας Ερώτηση μερικής άγνοιας L* H- L*+Η L-!H% 34

59 Εικόνα 18. H κωδικοποίηση ToBI. Παράδειγμα της κυματομορφής της φράσης Τους έλεγχε με το καμτσίκι όπου φαίνονται, τα επίπεδα του φωνήματος (phones), λέξης (Ws), τα επίπεδα του ToBI: προσωδιακή λέξη (IWs), δείκτης παύσης (BreakIndex) και τόνων (PitchAccents, PhraseAccents).

60 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Kεφάλαιο 3ο Προσωδιακή βάση ομιλίας (WCL-1) 3.1 Ανάπτυξη γλωσσικών πόρων για την έρευνα της σύνθεσης ομιλίας Η επιτυχία της σύνθεσης ομιλίας με συνένωση δομικών στοιχείων καθώς και η μετάβαση του ενδιαφέροντος των ερευνητών, από μοντέλα εξαγωγής προσωδιακής πληροφορίας με κανόνες σε μοντέλα μηχανικής μάθησης (όπου η προσωδιακή πληροφορία εξάγεται έπειτα από στατιστική επεξεργασία ενός σώματος κειμένου με διάφορα επίπεδα επισημείωσης), οδήγησαν την έρευνα στο χώρο της ΜΚσΟ σε μοντέλα που παράγονται από μεθόδους οδηγούμενες από δεδομένα. Ειδικότερα, η σύνθεση ομιλίας με συνένωση μονάδων στηρίζεται στην ύπαρξη μιας αυτόματης διαδικασίας επιλογής κατάλληλων δομικών στοιχείων από μια ηχογραφημένη βάση δεδομένων ομιλίας. Επιπλέον, η κατασκευή αξιόπιστων μοντέλων εκτίμησης προσωδιακών φαινομένων οδηγούμενων από δεδομένα απαιτεί την ύπαρξη καλά σχεδιασμένων σωμάτων ομιλίας (με επισημειωμένη πληροφορία σε διάφορα επίπεδα). Χαρακτηριστικά του σώματος ομιλίας που παίζουν σημαντικό ρόλο στην αξιοπιστία των παραγόμενων μοντέλων προσωδίας είναι το μέγεθος τους (quantity), το πληροφοριακό εύρος που καλύπτει η πληροφορία που περιέχουν (domain coverage) και η συμφωνία των σχολιαστών κατά την επισημείωση της προσωδιακής πληροφορίας (annotator consistency). Κατά συνέπεια, η διαδικασία της συλλογής δεδομένων και οι προδιαγραφές που χαρακτηρίζουν ένα προσωδιακό σώμα ομιλίας επηρεάζουν άμεσα την ποιότητα του παραγόμενου συνθετικού σήματος ομιλίας. Παρόλα αυτά όμως, εκτός από την ελάχιστη απαίτηση να έχουμε αρκετά δεδομένα για την εκπαίδευση και τον έλεγχο μιας στατιστικής πρότυπης διαδικασίας εκτίμησης, δεν υπάρχουν κάποιοι τυποποιημένοι κανόνες για την σχεδίαση και δημιουργία των βάσεων προσωδιακής πληροφορίας. Κατά την ανάπτυξη μιας προσωδιακής βάσης δεδομένων, μία εκ των σημαντικότερων διαδικασιών είναι αυτή της επιλογής του κατάλληλου σώματος κειμένου. Διάφορες προσεγγίσεις έχουν προταθεί για την κατάλληλη επιλογή του. Συγκεκριμένα μπορεί να αποτελείται είτε από μια λίστα ειδικά σχεδιασμένων λέξεων χωρίς-νόημα (nonsense words), είτε να είναι ένα σώμα ασυσχέτιστων και μεμονωμένων προτάσεων, είτε κείμενο ραδιοφωνικών μεταδόσεων ειδήσεων, είτε αποσπάσματα λογοτεχνικών βιβλίων (Bellegarda et al., 2001: 52-66). Το επόμενο βήμα 36

61 Προσωδιακή βάση ομιλίας (WCL-1) είναι η ηχογράφηση του επιλεγμένου σώματος κειμένων που μπορεί να πραγματοποιηθεί από έναν ή περισσότερους ομιλητές και μπορεί να λάβει χώρα σε μια ή περισσότερες συνόδους κατά την διάρκεια μιας εκτεταμένης χρονικής περιόδου. Τέλος, ένα ακόμα εξίσου σημαντικό θέμα που πρέπει να ληφθεί υπόψη κατά τον σχεδιασμό και δημιουργία μιας προσωδιακής βάσης ομιλίας είναι η επιλογή ενός κατάλληλου ύφους ομιλίας το οποίο έχει άμεση σχέση με την εμφάνιση των προσωδιακών φαινόμενων στο σώμα ομιλίας. Σε αυτό το κεφάλαιο αναλύουμε και παρουσιάζουμε τον σχεδιασμό και την ανάπτυξη ενός σώματος ομιλίας για την Ελληνική γλώσσα (WCL-1 prosodic corpus). Κατά τον σχεδιασμό της συγκεκριμένης βάσης ομιλίας δόθηκε βάρος στην κάλυψη όσο το δυνατόν περισσοτέρων εκ των φαινομένων επιτονισμού της Ελληνικής γλώσσας. Λόγω του γεγονότος ότι η Ελληνική είναι μια γλώσσα η οποία χρησιμοποιείται από ένα μικρό σχετικά αριθμό ομιλητών (σε σχέση με γλώσσες όπως τα Αγγλικά, Κινέζικα, κ.α.) έχει πραγματοποιηθεί περιορισμένη έρευνα όσον αφορά την μελέτη των φαινομένων προσωδίας. Έτσι παρατηρείται έλλειψη βάσεων δεδομένων ομιλίας με ανάλογη πληροφορία καθώς και εργαλείων για την αυτόματη ανάπτυξη διεξαγωγή απαραίτητων διαδικασιών όπως αυτόματοι αναγνωριστές ομιλίας, συστήματα αυτόματης εξαγωγής μορφολογικής, συντακτικής και σημασιολογικής πληροφορίας από κείμενο κ.λ.π. Πληροφορία δηλαδή η οποία περιέχει σημαντική ποσότητα γνώσης για την δημιουργία των προσωδιακών προδιαγραφών ενός κειμένου. Για το λόγο αυτό στα πλαίσια της παρούσας διδακτορικής διατριβής αναπτύχθηκαν εργαλεία, σχεδιάστηκε και υλοποιήθηκε μια προσωδιακή βάση ομιλίας με σκοπό την χρήση της για την σύνθεση ομιλίας. Η πληροφορία αυτή όπως θα δούμε και παρακάτω μπορεί να αποτελέσει πηγή γνώσης για την δημιουργία μοντέλων επιτονισμού και διάρκειας φωνημάτων μέσα από τεχνικές μηχανικής μάθησης. Για την κωδικοποίηση των προσωδιακών φαινόμενων που παρατηρήθηκαν στην WCL-1 ακολουθήσαμε την εργασία της Pierrehumbert για τα Αγγλικά (όπως ομιλούνται στην Αμερική) (Pierrehumbert 1981: ). Πέραν αυτής της πληροφορίας, στο προσωδιακό πλαίσιο εργασίας περιλαμβάνεται και η πληροφορία διάρκειας σε επίπεδο φωνήματος. Η πληροφορία που περιεχόταν στο προσωδιακό σώμα ομιλίας επεξεργάσθηκε με τον ακόλουθο τρόπο: 1. Επιλογή ενός αντιπροσωπευτικού σώματος κειμένων που να περιέχει τα πιο κοινά προσωδιακά φαινόμενα της ελληνικής γλώσσας. 2. Επιλογή του ύφους ομιλίας για την ηχογράφηση του σώματος κειμένου. 3. Τεμαχιοποίηση σε επίπεδο φωνήματος και επισημείωση. 4. Ανεύρεση και επισημείωση των τόνων επιτονισμού και των προσωδιακών ορίων με βάση το σύστημα σχολιασμού ToBI (Silverman et al., 1992). Η σύμβαση σχολιασμών ΤΟΒΙ υιοθέτησε για τα ελληνικά από τις (Arvaniti, Baltazani, 2000). 37

62 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Το υπόλοιπο αυτού του κεφαλαίου ασχολείται με την περιγραφεί και ανάλυση των προσωδιακών πόρων ομιλίας WCL-1. Συγκεκριμένα στην ενότητα 3.2 εξηγήται η θεωρητική σύνδεση προσωδίας και σύνταξης. Έπειτα στην 3.3 περιγράφεται ενδελεχώς η διαδικασία σχεδιασμού και ανάπτυξης της φωνητικής βάσης διφώνων της WCL-1. Ο σχεδιασμός και η κατασκευή του προσωδιακού σώματος ομιλίας μαζί με την μελέτη της κατανομής των φαινομένων επιτονισμού που εμφανίστηκαν περιγράφεται στην ενότητα 3.4. Το συναισθηματικό σώμα ομιλίας της WCL-1 μας απασχολεί στην παράγραφο 3.5 και τέλος στην παράγραφο 3.6 περιγράφουμε ένα εργαλείο για την γρήγορη επισημείωση δεδομένων ομιλίας στα πλαίσια της ανάπτυξης προσωδιακών πόρων για την μελέτη της σύνθεσης ομιλίας. 3.2 Θεωρητική σύνδεση προσωδίας και σύνταξης Με σκοπό την καλύτερη κατανόηση των παρακάτω ποσοτικών πληροφοριών που προέκυψαν από την ανάλυση της προσωδιακής βάσης ομιλίας WCL-1, στην παράγραφο αυτή θα αναπτύξουμε την θεωρητική σύνδεση μεταξύ της προσωδιάς του προφορικού λόγου με την σύνταξη του γραπτού λόγου. Η θεωρία ότι η προσωδία της ομιλίας συσχετίζεται με τη συντακτική δομή της έκφρασης δεν είναι μια πρόσφατη διαπ ίστωση. Το 1970 o Laver σημείωσε ότι οι τονικές ομάδες (tone groups) λαμβάνουν χώρα με μια τονικά προεξέχουσα συλλαβή σε μια ακολουθία περίπου επτά συλλαβών. Τα όρια αυτών των μονάδων συχνά συμπίπτουν με εκείνων της συντακτικής πρότασης (Laver, 1970). Στην εργασία του ο Chafe παρατηρεί ότι στον γραπτό λόγο, οι άνθρωποι γράφουν σκεπτόμενοι τον τρόπο με τον οποίο το κείμενο θα μιλιόνταν υποθέτοντας ότι ο πιθανός αναγνώστης θα πρόφερε το κείμενο τον ίδιο τρόπο και θα ερμήνευε την έννοια με βάση αυτόν τον εσωτερικό διάλογο (Chafe, 1994). Κατά αυτόν τον τρόπο, ο αναγνώστης και ο συγγραφέας είναι σε θέση να αντιλαμβάνονται ακουστικές πληροφορίες ακόμα και σε σημεία όπου στο γραπτό λόγο δεν είναι εμφανή. Ένας απλός τρόπος για να γίνει αντιληπτή αυτή η σχέση είναι με το να ζητήσουμε την ανάγνωση του κειμένου μεγαλοφώνως, με την προειδοποίηση ότι αυτό δεν αντιστοιχεί ακριβώς σε φυσική ομιλία. Μια προσθήκη στην ήδη υπάρχουσα δυσκολία συσχέτισης προφορικού και γραπτού λόγου είναι το γεγονός ότι διαφορετικοί αναγνώστες προσδιορίζουν διαφορετικές προσωδιακές πληροφορίες σε ίδια γραπτά κείμενα. Προσφάτως η έρευνα στην προσωδία έχει στραφεί στην βελτίωση της καταληπτότητας και φυσικότητας της ομιλίας σε συστήματα ΜΚσΟ. Στα πλαίσια αυτής της έρευνας έχει 38

63 Προσωδιακή βάση ομιλίας (WCL-1) αποδειχθεί ότι ο τόνος επιτονισμού συνδέεται σε πολλές περιπτώσεις με το είδος του μέρους του λόγου της λέξης στην οποία εμφανίζεται, ή γενικότερα με το αν η λέξη είναι λειτουργική (function word) ή περιεχομένου (content word). Στα πλαίσια αυτής της έρευνας έχει βρεθεί ότι σε πολλές περιπτώσεις η έμφαση σχετίζεται με πληροφορίες όπως μέρους του λόγου ή γενικότερα να επηρεάζεται από των διαχωρισμό των λέξεων σε λειτουργικές και περιεχομένου (Arnfield, 1994), (Black, Taylor, 1994). Περισσότερα σχετικά με τον ορισμό και τις διαφορές που διέπουν τις λειτουργικές λέξεις και τις λέξεις περιεχομένου μπορεί κάποιος να ανακαλύψει στο βιβλίο του Lee (Lee, 1980) και όσον αφορά τα Ελληνικά στο βιβλίο (Πετρούνιας, 1984). Στην εργασία του ο Lee διαπίστωσε ότι οι σημαντικές λέξεις στην ομιλία έτειναν να τονιστούν. Οι τονισμένες λέξεις ήταν κατά κύριο λόγο ρήματα, επίθετα, επιρρήματα, και ουσιαστικά ενώ οι μη-τονισμένες ήταν άρθρα και προθέσεις. Η πρώτη κατηγορία περιέχει τις λέξεις περιεχομένου ενώ η δεύτερη περιέχει τις λειτουργικές λέξεις. Οι (Swerts, Geluykens, 1994) διαπίστωσαν ότι τα προσωδιακά χαρακτηριστικά μιας έκφρασης είχαν σαν αποτέλεσμα την αποσαφήνιση και τον διαχωρισμό διαφόρων ομάδων πληροφορίας. Αυτό επιτρέπει στους ομιλητές να σηματοδοτήσουν την έναρξη και το τέλος των μονάδων αυτών μέσω του τρόπου με τον οποίο μιλούν. Αυτή η άποψη υποστηρίζεται επίσης και στην εργασία των (Shattuck, Hufnagel, 2000) όπου η σύνδεση μεταξύ προσωδίας και σύνταξης φανερώνεται σε σημεία όπου γίνεται χρήση προσωδιακών φαινομένων για την διαφοροποίηση συντακτικά διφορούμενων φράσεων και σε περιπτώσεις όπου παρατηρείται απόκλιση των επιτονικών φράσεων από την συνηθισμένη θέση τους σχετικά με τις περιβάλλουσες τους λέξεις. Οι σύνδεσμοι (πχ., και, αλλά, επομένως) χρησιμοποιούνται για να συνδέσουν τμήματα του κειμένου. Συχνά οι σύνδεσμοι συνοδεύονται με την ύπαρξη τονικών ορίων και γενικά πριν ή μετά από την πραγμάτωση τους λαμβάνουν χώρα μικρές παύσεις. Λόγω αυτού, οι σύνδεσμοι τείνουν να εμφανιστούν με τα προσωδιακά γεγονότα, το οποίο έχει νόημα δεδομένου ότι και τα δύο παρέχουν πρόσθετες πληροφορίες. Οι παύσεις μεταξύ των ουσιαστικών είναι άτυπες, αλλά σε ορισμένες δομές, όπως πολλά ουσιαστικά στη σειρά, οι προσωδιακές παύσεις είναι πιθανότερο να υπάρξουν (Black, Taylor, 1997). Μεγάλες προσωδιακές παύσεις συσχετίζονται επίσης με διακοπές της ομιλίας λόγο της αναπνοής (Price, et al., 1989). Σε μια περιορισμένη μελέτη πάνω σε ραδιοφωνικές εκφωνήσεις το 85% των ορίων πρότασης εμφανίστηκε κατά τη διάρκεια των περιόδων όπου ο ομιλητής πήρε μια αναπνοή. Επιπλέον, 53% των επιτονικών ορίων φράσης χαρακτηρίζονταν από την συνύπαρξη τους με αναπνοή. Παρά την ύπαρξη αυτού του υψηλού συσχετισμού, η παρουσία οποιασδήποτε μικρής διακοπής δεν σηματοδοτεί απαραιτήτως την ύπαρξη μιας προσωδιακής 39

64 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας παύσης (Lee, 1980), (Wightman, Ostendorf, 1994) αλλά αντ' αυτού μπορεί να είναι αποτέλεσμα δισταγμού. Σε μια δοκιμή που συγκρίνει την ανθρώπινη απόδοση σχετικά την δυνατότητα εξακρίβωσης των ορίων μιας πρότασης δεδομένου του κειμένου και της αντίστοιχης ηχογράφησης σε αντίθεση με το κείμενο μόνο, μπορεί να μετρηθεί η δυνατότητα ανίχνευσης των ορίων με χρήση μόνο λεξιλογικής (μορφολογικής) πληροφορίας. Στο πείραμα για την Ολλανδική ομιλία, όλη η στίξη αφαιρέθηκε και στους σχολιαστές ζητήθηκε να ανιχνεύσουν τα όρια των παραγράφων, χωρίς να τους έχει δοθεί κάποιος καθορισμός αυτών. Διαπιστώθηκε ότι και οι δύο ομάδες ανεκπαίδευτων σχολιαστών είχαν τους δείκτες παραγράφου σε παρόμοιες θέσεις, αν και η συμφωνία μεταξύ των ήταν υψηλότερη στην ομάδα θεμάτων που παρέχονταν και η ηχογράφηση του κειμένου (Swerts, 1997). Τα αποτελέσματα αυτής της έρευνας έδειξαν ότι είναι δυνατό να αποκτηθεί αρκετά υψηλή ακρίβεια στην αυτόματη πρόβλεψη ορίων χρησιμοποιώντας μεθόδους που στηρίζονται εξ ολοκλήρου μόνο στο κείμενο, αν και η αναμενόμενη απόδοση θα αυξανόταν με την χρήση και της ακουστικής πληροφορίας. 3.3 Η φωνητική βάση διφώνων της WCL-1 Στην ενότητα αυτή περιγράφεται η διαδικασία σχεδιασμού και ανάπτυξης της φωνητικής βάσης διφώνων (WCL-1-dph). Πρώτο βήμα της διαδικασίας ήταν η επιλογή των συμβόλων που αποτελούν το φωνητικό αλφάβητο που χρησιμοποιήσαμε. Για την αντιμετώπιση φαινομένων ουρανικοποίησης (π.χ. /λιώνω/, /λυπάμαι/), όπως και άλλες περιπτώσεις διφθόγγων της Ελληνικής έγινε μια συγχώνευση (ως προς τον συμβολισμό αυτών) ώστε να αντιμετωπίζονται ως μία μονάδα και όχι ως δύο χωριστά φωνήματα στις διάφορες φάσεις επεξεργασίας. Αυτό αποσκοπούσε στην επίτευξη μιας ευελιξίας του συστήματος ΜΚσΟ αφού η αναζήτηση των φωνημάτων και η εξαγωγή σχετικών πληροφοριών από αυτά είναι πάρα πολύ συχνή. Έτσι λοιπόν ορίστηκε τέτοια κωδικοποίηση των φθόγγων όπου να γίνεται αντιστοιχία ενός και μόνο χαρακτήρα σε κάθε φώνημα. Έτσι, κατά την αναζήτηση φωνημάτων από το σύστημα, όλες οι συγκρίσεις και οι αναζητήσεις γίνονται πιο απλά, άρα και πιο γρήγορα (πάνω σε 1 byte αντί σε περισσότερα). Την επιλογή του φωνητικού αλφάβητου ακολούθησαν οι εξής διαδικασίες, (α) επιλογή του μεγέθους των δομικών μονάδων (δίφωνα και τρίφωνα ή μεγαλύτερα τμήματα ομιλίας) που θα αποτελέσουν την βάση, (β) λίστα των δομικών μονάδων (διφώνων και τριφώνων) ώστε να καλύπτεται το μεγαλύτερο μέρος της Ελληνικής γλώσσας, (γ) σχεδιασμός φράσεων οι οποίοι θα 40

65 Προσωδιακή βάση ομιλίας (WCL-1) είναι οι φορείς των δομικών μονάδων, (δ) επιλογή κατάλληλου ομιλητή και ηχογράφηση, (στ) τεμαχιοποίηση των δομικών ακουστικών μονάδων, (ζ) έλεγχος ποιότητας δομικών μονάδων και (η) κανονικοποίηση του σήματος ομιλίας. Στη συνέχεια της παραγράφου θα περιγράψουμε τα σημαντικότερα σημεία των παραπάνω διαδικασιών. Η διαδικασία σχεδιασμού και ανάπτυξης της φωνητικής βάσης διφώνων απεικονίζεται σχηματικά στην εικόνα 19. Σώμα κειμένων Γλωσσικό μοντέλο Κατάλογος δομικών μονάδων Ηχογράφηση Τεμαχιοποίηση Φωνητική βάση Φωνητική βάση WCL-1 Εικόνα 19 Δομικό διάγραμμα διαδικασίας ανάπτυξης φωνητικής βάσης Επιλογή των δομικών ακουστικών μονάδων Το φώνημα είναι η πιο συχνά χρησιμοποιούμενη συμβολική αναπαράσταση του ήχου στα συστήματα ΜΚσΟ. Ανάλογα με την φωνολογική ανάλυση που εφαρμόζεται, υπάρχουν μέχρι 44 φωνήματα στα Ελληνικά (Πετρούνιας, 1984) και αυτό το σύνολο αντιπροσωπεύει τον ελάχιστο αριθμό συμβόλων που απαιτείται για να περιγράφει μεμονωμένα οποιαδήποτε λέξη σε συγκεκριμένη διάλεκτο. Εν τούτοις, απλά αποθηκεύοντας ένα φθόγγο για κάθε φώνημα δεν θα μας δώσει συνθετική ομιλία καλής ποιότητας. Φαινόμενα όπως η συνάρθρωση έχουν σαν αποτέλεσμα η παραγωγή ενός φθόγγου να επηρεάζεται σημαντικά από το περιβάλλον στο οποίο βρίσκεται. Ένα από τα σημαντικότερα ζητήματα στην τεχνική σύνθεσης με συνένωση μονάδων είναι η επιλογή της καταλληλότερης φωνητικής μονάδας που θα αποτελέσει το δομικό στοιχείο για την δημιουργία της συνθετικής φωνής. Η επιλογή αυτή είναι στην πραγματικότητα μια 41

66 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας ανταγωνιστική διαδικασία ανάμεσα στις μακρύτερες και στις συντομότερες χρονικά φωνητικές μονάδες. Με την χρήση των μεγαλύτερων μονάδων επιτυγχάνεται υψηλό επίπεδο φυσικότητας, λιγότερα σημεία συνένωσης και καλός έλεγχος της συνάρθρωσης, αλλά αυξάνεται το μέγεθος του καταλόγου των απαιτούμενων μονάδων και συνεπώς οι απαιτήσεις σε μνήμη. Από την άλλη, με την χρήση συντομότερων μονάδων μειώνονται οι απαιτήσεις σε μνήμη, αλλά η συλλογή δειγμάτων και επεξεργασία σήματος που πρέπει να εφαρμοστεί σε αυτά, γίνονται περισσότερες και πολυπλοκότερες. Οι μονάδες που έχουν χρησιμοποιηθεί μέχρι σήμερα σε διάφορα ερευνητικά και εμπορικά συστήματα είναι συνήθως λέξεις, συλλαβές, ημισυλλαβές, φωνήματα, δίφωνα ή τρίφωνα. Η λέξη αποτελεί μια φυσική δομική μονάδα σε γραπτό κείμενο και χρησιμοποιείται με επιτυχία σε συστήματα που υποστηρίζουν πολύ περιορισμένο λεξιλόγιο. Η συνένωση λέξεων εφαρμόζεται σχετικά εύκολα και οι επιδράσεις της συνάρθρωσης είναι περιορισμένες στο «εσωτερικό» των μονάδων και όχι στα σημεία συνένωσης. Ωστόσο, η συνένωση «απομονωμένων» λέξεων έχει σαν αποτέλεσμα ο τεχνητός συνεχόμενος λόγος να στερείται φυσικότητας. Επίσης, επειδή υπάρχουν εκατοντάδες χιλιάδες λέξεις σε κάθε γλώσσα, η επιλογή της λέξης ως δομική μονάδα, αντενδεικνύεται για συστήματα που υποστηρίζουν απεριόριστο λεξιλόγιο. Από την άλλη μεριά, οι συλλαβές, δεν αποτελούν επίσης κατάλληλη επιλογή, καθώς είναι πάρα πολλές (περισσότερες από στην Ελληνική γλώσσα) και επιπλέον επιφέρουν, σε μεγάλο βαθμό, επιδράσεις συνάρθρωσης. Οι ημισυλλαβές, όπως φαίνεται απο την λέξη, είναι μισές συλλαβές και αντιστοιχούν στα αρχικά και στα τελικά τμήματα των συλλαβών. Ένα πλεονέκτημα που έχουν είναι το σχετικά μικρό πλήθος αυτών (χρειάζονται περίπου για να παράγουν τις συλλαβές που διαθέτει η Ελληνική γλώσσα). Επιπλέον, οι ημισυλλαβές περιλαμβάνουν ένα μεγάλο πλήθος πιθανών μεταβάσεων και συνεπώς έναν μεγάλο αριθμό φαινόμενων συνάρθρωσης κάνοντας έτσι τις απαιτήσεις σε μνήμη να είναι σε υψηλό μεν αλλά ανεκτό επίπεδο. Τέλος τα φωνήματα είναι από τις πιο συχνά χρησιμοποιημένες μονάδες στη σύνθεση ομιλίας επειδή αποτελούν την πιο απλή γλωσσική αναπαράσταση της ομιλίας. Σε αυτήν την περίπτωση, ο κατάλογος των βασικών μονάδων περιλαμβάνει συνήθως φωνήματα (σαφώς μικρότερο πλήθος έναντι άλλων μονάδων). Η χρησιμοποίηση των φωνημάτων δίνει μέγιστη ευελιξία στα συστήματα που είναι βασισμένα σε κανόνες. Εντούτοις, μερικά φωνήματα, όπως τα εκρηκτικά, είναι δύσκολο να δημιουργηθούν. Από τα παραπάνω γίνεται κατανοητό ότι το δίφωνο αποτελεί τον ιδανικότερο, υπολογιστικά, συμβιβασμό μεταξύ του προβλήματος της συνάρθρωσης και της ανάγκης για όσο το δυνατόν μικρότερο αριθμό δειγμάτων προς αποθήκευση. Θεωρητικά, το πλήθος των διφώνων ισούται με το τετράγωνο του πλήθους των φωνημάτων της γλώσσας (συν τα 42

67 Προσωδιακή βάση ομιλίας (WCL-1) αλλόφωνα), αλλά στην πράξη δεν χρησιμοποιούνται όλοι οι συνδυασμοί φωνημάτων με αποτέλεσμα τον περιορισμό του τελικού αριθμού των μονάδων. Η υιοθέτηση των διφώνων ως θεμελιώδη δομική μονάδα κάνει εξ αρχής δύο πρακτικές υποθέσεις σχετικά με το σήμα ομιλίας, οι οποίες εμπεριέχουν ένα σφάλμα αλλά διευκολύνουν την διαδικασία συλλογής και διαχείρισης της πληροφορίας των καταλόγων ηχητικής πληροφορίας. Η πρώτη υπόθεση είναι ότο πο φθόγγοι θεωρείται ότι αποτελούνται από τρία τμήματα την έμβαση (onset), την σταθερή κατάσταση (steady state) και την έκβαση (offset). Η δεύτερη πρακτική υπόθεση είναι ότι το φαινόμενο της συνάρθρωσης μπορεί να παγιδευτεί στα πλαίσια της μετάβαση από τον ένα φθόγγο στον άλλο. Κατά αυτό τον τρόπο λοιπόν, ένα δίφωνο θεωρείται ότι περιέχει την μετάβαση από την σταθερή κατάσταση του ενός φθόγγου στην σταθερή κατάσταση του άμεσου γείτονα του. αρχικό τμήμα τμήμα σταθερής κατάστασης αρχικό τμήμα αρχικό τμήμα Αριστερό φώνημα (ΑΦ) τμήμα σταθερής κατάστασης ΑΦ περιοχή μετάβασης Δεξιό φώνημα (ΑΦ) τμήμα σταθερής κατάστασης ΔΦ τελικό τμήμα Μοντέλο φωνήματος Δίφωνο αρχικό τμήμα Αριστερό φώνημα (ΑΦ) Κεντρικό φώνημα (ΚΦ) Δεξιό φώνημα (ΔΦ) τμήμα σταθερής κατάστασης ΑΦ περιοχή μετάβασης τμήμα σταθερής κατάστασης ΚΦ Εικόνα 20 Μοντέλο φωνήματος, διφώνου και τριφώνου Τρίφωνο περιοχή μετάβασης τμήμα σταθερής κατάστασης ΔΦ τελικό τμήμα Μια καλύτερη προσέγγιση όσον αφορά την πιο ακριβή αναπαράσταση του σήματος ομιλίας μπορεί να ληφθεί με τον καθορισμό μιας μονάδας που περιέχει τις μεταβάσεις από τις σταθερές καταστάσεις γειτονικών φθόγγων προς και από ένα φθόγγο. Αυτές οι μονάδες καλούνται τρίφωνα. Η Εικόνα 20 παρουσιάζει το μοντέλο ενός φωνήματος, ενός διφώνου και ενός τριφώνου. Μακρύτερα τμήματα ομιλίας, όπως τρίφωνα ή τετράφωνα χρησιμοποιούνται πιο σπάνια. Τα τρίφωνα είναι σαν τα δίφωνα μόνο που περιέχουν ένα φώνημα στην μέση ( δηλ., είναι στη σειρά : μισό φώνημα ένα φώνημα μισό φώνημα ). Με άλλα λόγια ένα τρίφωνο είναι ένα φώνημα με ένα συγκεκριμένο αριστερό και δεξί φωνητικό περιβάλλον. Ενδεικτικά, η αγγλική γλώσσα απαιτεί περίπου τρίφωνα. Όπως είπαμε και παραπάνω υπήρξε η ανάγκη για χρήση ενός περιορισμένου αριθμού τριφώνων, για να καλύψουμε κάποιες περιπτώσεις κατά τις οποίες παρουσιάζονται ιδιαίτερα έντονα φαινόμενα συνάρθρωσης, σε μια ευρύτερη περιοχή ( που καλύπτει 3 φωνήματα ) και όχι μόνο στα σημεία μετάβασης από φώνημα σε φώνημα. Παραδείγματος χάρην, έστω ότι θέλουμε 43

68 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας να συνθέσουμε την λέξη «πάπια» η οποία προφέρεται <παπγια>. Στην περιοχή του σήματος ομιλίας που αντιστοιχεί στο πγια και συγκεκριμένα στην μεσαίο τμήμα, λαμβάνουν χώρα έντονα φαινόμενα συνάρθρωσης. Για τον λόγο αυτό, είναι σκόπιμο να υπάρχει ένα τρίφωνο που να φέρει την μετάβαση πγια, δηλαδή οι δομικές μονάδες που συνθέτουν την λέξη να είναι: pau-p / pa / ap / pia / a-pau, και όχι δύο δίφωνα ως εξής: pau-p / pa / ap / pi / ia / a-pau Λίστα δομικών μονάδων φωνητικής βάσης Για την δημιουργία της λίστας των διφώνων και τριφώνων που αποτελούν την φωνητική βάση μας δημιουργήσαμε ένα γλωσσικό μοντέλο για την Ελληνική χρησιμοποιώντας ενός μεγάλο σώμα κειμένων για την Ελληνική γλώσσα καθώς και το εργαλείο μοντελοποίησης γλώσσας ανοιχτού κώδικα SRILM (Stolcke, 2002). Με αυτό τον τρόπο ανιχνεύσαμε τις συχνότητες εμφάνισης των διφώνων στο κείμενο μας και ακολούθως, με χειρωνακτική εργασία, ελέγξαμε τα αποτελέσματα για την εξακρίβωση τυχόν παραλήψεων και σφαλμάτων. Έτσι από τους 1156 (=34 2 ) συνδυασμούς που προκύπτουν από το συνολικό πλήθος φθόγγων του φωνητικού αλφαβήτου μας καταλήξαμε σε 645. Η λίστα που κατασκευάστηκε με την παραπάνω διαδικασία καλύπτει πλήρως τις ανάγκες για απεριόριστο λεξιλόγιο και μικρές απαιτήσεις σε αποθηκευτικό χώρο Λεκτικοί φορείς δομικών μονάδων φωνητικής βάσης Η εξαγωγή των δομικών μονάδων της φωνητικής βάσης έγινε από ηχογραφήσεις μη φυσικών λέξεων (nonsence words). Γενικά, οι δομικές μονάδες σε ένα σύστημα ΜκσΟ με συρραφή κυματομορφών μπορεί να εξαχθούν είτε από δόκιμες φράσεις (από βιβλία, εφημερίδες κ.α. Όπου είτε εκφράζονται είτε όχι διάφορες συναισθηματικές καταστάσεις) ή φράσεις με λέξεις χωρίς νόημα (nonsense carrier words) (Black, Taylor, 1997). Καταλήξαμε στην επιλογή του δεύτερου τρόπου δημιουργίας του σώματος κειμένου αφού βασικό μειονέκτημα της πρώτης προσέγγισης είναι το γεγονός ότι ο εκφωνητής μπορεί εύκολα να χάσει την προσοχή και την συγκέντρωση του με αποτέλεσμα οι λέξεις φορείς να περιέχουν μεγάλες διαφοροποιήσεις στην θεμελιώδη συχνότητα. Επίσης ένα σημαντικό πρόβλημα είναι λόγο της δυσκολίας στον έλεγχο του λεξιλογικού περιβάλλοντος των διφώνων έχουμε εντονότερο το πρόβλημα της συνάρθρωσης στην τελική βάση. Κατά τον σχεδιασμό των λέξεων φορέων φροντίζαμε ώστε το αριστερό φώνημα να συνορεύει με φωνήεν και το δεξί με εκρηκτικό (ώστε να μπορούν να 44

69 Προσωδιακή βάση ομιλίας (WCL-1) διαχωριστούν πιο εύκολα). Το τελευταίο έχει σαν αποτέλεσμα η διαδικασία εξαγωγής των διφώνων και τριφώνων να είναι λιγότερο χρονοβόρα και κουραστική εξασφαλίζοντας ταυτόχρονα μεγαλύτερη συμβατότητα των διφώνων μεταξύ τους όσον αφορά το φασματικό περιεχόμενο τους. Κατά τον σχεδιασμό των λέξεων φορέων φροντίζαμε ώστε το αριστερό φώνημα να συνορεύει με φωνήεν και το δεξί με εκρηκτικό (ώστε να μπορούν να διαχωριστούν πιο εύκολα). Για αυτό το λόγο, πρέπει να αποφεύγεται η εξαγωγή των ζητούμενων μονάδων από την αρχή ή το τέλος μιας λέξης, εκτός αν η εν λόγω μονάδα περιέχει μια μετάβαση από ή πρός την σιωπή (οι λέξεις φορείς δημιουργούνται έτσι ώστε τα ζητούμενα δίφωνα και τρίφωνα να βρίσκονται, όποτε είναι εφικτό, στην κεντρική περιοχή των λέξεων). Σε αυτήν την περίπτωση, είναι σίγουρο ότι οι εξαγόμενες μονάδες θα είναι πλήρως αρθρωμένες. Παραδείγματος χάριν, από την λέξη : pau t a z a z a pau εξάγουμε τα δίφωνα /za/ και /az/, και από pau t a t a e t a pau παίρνουμε μόνο το δίφωνο /ae/ (καθώς τα /ta/ και /et/ λαμβάνονται από αλλού, αν και θα μπορούσαμε πράγματι να πάρουμε και τα τρία δίφωνα από την ίδια λέξη). Εικόνα 21. Κυματομορφή και καμπύλη F0 της λέξης /tarara/. Οι λέξεις πρέπει να προφέρονται με σταθερή φωνητική προσπάθεια και όσο το δυνατόν μικρότερη προσωδιακή διακύμανση. Δηλαδή να υπάρχει σταθερή ένταση της φωνής καθόλη την φάση της ηχογράφησης και επίσης να υπάρχει ένας σταθερός ρυθμός και τονικότητα κατά την εκφορά. Στο σχήμα 21 φαίνεται η κυματομορφή και η μεταβολή της καμπύλης F0 μιας τέτοιας ηχογράφησης όπου βλέπουμε καθαρά αυτά που αναφέραμε παραπάνω. 45

70 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Επιλογή του κατάλληλου ομιλητή και ηχογράφηση Έχει παρατηρηθεί ότι η επιλογή του σωστού ομιλητή που θα εκτελέσει τις υπαγορεύσεις κατα την φάση της ηχογράφησης, είναι μια πολύ σημαντική διαδικασία που επηρεάζει ουσιαστικά την απόδοση του συστήματος. Είναι αλήθεια ότι κάποιοι άνθρωποι έχουν φωνές που προσφέρονται για σύνθεση ομιλίας περισσότερο απο ότι κάποιοι άλλοι. Γενικότερα, οι καθαρές και σταθερές φωνές ενδείκνυνται για σύνθεση, αλλά δυστυχώς δεν φτάνει μόνο αυτό. Οι επαγγελματίες ομιλητές θεωρούνται γενικά προτιμότεροι για αυτό σκοπό σε σχέση με τους μη επαγγελματίες, παρόλο που δεν είναι κατάλληλες οι φωνές όλων των επαγγελματιών και υπάρχουν και φωνές μη επαγγελματιών που παράγουν ικανοποιητικά αποτελέσματα. Όπως προαναφέρθηκε, ο κατάλληλος ομιλητής πρέπει να διαθέτει καθαρή φωνή, δηλαδή να έχει καλή άρθρωση ώστε να είναι σωστή η αποτύπωση των φωνημάτων. Επίσης καλό θα ήταν να είναι σχετικός με την τεχνολογία ομιλίας, π.χ. να έχει μια γενική ιδέα της έννοιας του φωνήματος. Ακόμη, ο ομιλητής είναι ανάγκη να διατηρεί σταθερή ένταση στη φωνή του καθ όλη την διάρκεια της ηχογράφησης και να προφέρει τις προτάσεις αποφεύγοντας επιμελώς να χρωματίζει την φωνή του, ώστε να ελαχιστοποιείται η προσωδιακή πληροφορία που φέρουν οι λέξεις, ή αλλιώς να έχουν σταθερή τονικότητα και σταθερή διάρκεια φωνημάτων. Αυτές τις απαιτήσεις συνήθως μπορεί κάποιος να τις επιτύχει με επαγγελματίες εκφωνητές (ιδιαίτερα με ηθοποιούς ραδιοφώνου). Άλλωστε οι περισσότεροι άνθρωποι δεν είναι σε θέση να ομιλούν για μακρύ διάστημα αν δεν είναι εξασκημένοι σε αυτό. Τέλος, υπάρχουν κάποιοι συγκεκριμένοι κανόνες που πρέπει να ληφθούν υπόψη και τους οποίους εφαρμόσαμε στην φάση της ηχογράφησης. Είναι σημαντικό η ηχογράφηση να γίνει με ενιαίο τρόπο, δηλαδή να πραγματοποιηθεί μέσα σε μια μέρα, επειδή είναι δύσκολο να στηθεί ξανά το ίδιο περιβάλλον ηχογράφησης ακόμη και αν αυτό γίνει με ιδιαίτερη προσοχή. Επίσης, προτείνεται να λάβει χώρα κάποια στιγμή το πρωί (όχι αμέσως μετά το ξύπνημα) και σε περίπτωση που χρειαστεί επανηχογράφηση να συμβεί την ίδια περίοδο της ημέρας όπως και η πρώτη. Εννοείται επίσης, ότι η ηχογράφηση πρέπει να αποφεύγεται σε περίπτωση που ο ομιλητής έχει κάποιο κρύωμα ή βρίσκεται σε κακή πνευματική και σωματική κατάσταση. Στην συγκεκριμένη περίπτωση επιλέχθηκε για την ηχογράφηση μια γυναικεία φωνή που συγκέντρωνε κατά το δυνατό τα παραπάνω χαρακτηριστικά. Η ηχογράφηση των χωρίς-νόημα λέξεων έγινε σε επαγγελματικό στούντιο, με μηδενικό θόρυβο, με συχνότητα δειγματοληψίας 44KHz. Η κάθε ηχογραφημένη φράση αποθηκεύτηκε σε ένα αρχείο ήχου με το όνομα nonsense_(<αύξων_αριθμός_ηχογράφησης>).wav. 46

71 Προσωδιακή βάση ομιλίας (WCL-1) Κατάτμηση ηχογραφήσεων και έλεγχος Το στάδιο της κατάτμησης των ηχογραφήσεων περιλαμβάνει την διαδικασία καθορισμού των ορίων των δομικών μονάδων της φωνής (διφώνων και τριφώνων). Η κατάτμηση των μονάδων μπορεί να πραγματοποιηθεί με δύο τρόπους, χειρωνακτικά (manually), και ημι-αυτόματα (semiautomatic). Στην πρώτη περίπτωση κατάτμηση πραγματοποιείται με επισκόπηση της κυματομορφής στο πεδίο του χρόνου, την συχνότητα και εξετάζοντας το ενεργειακό περιεχόμενο των υποψήφιων περιοχών. Όσον αφορά την ημι-αυτόματη κατάτμηση μονάδων αρχικά χρησιμοποιείται ένα πρόγραμμα αυτόματης εξακρίβωσης ορίων τεμαχίων (automatic segmentation procedure), και στη συνέχεια πραγματοποιείται έλεγχος και διόρθωση των αποτελεσμάτων. Για την κατάτμηση των ηχογραφήσεων μας, ακολουθήσαμε την ημι-αυτόματη προσέγγιση. Αρχικά τα κανονικοποιημένα ηχητικά δεδομένα εισήχθησαν σε αυτόματο αναγνωριστή ομιλίας εκπαιδευμένο για τα Ελληνικά, ο οποίος βασίζεται στην τεχνική των κρυμμένων μοντέλων Markov και έχει εκπαιδευτεί με το σώμα ομιλίας SPEECHDAT, με αποτέλεσμα την κατάτμηση των ηχογραφήσεων σε επίπεδο φωνήματος. Σε επόμενο στάδιο πραγματοποιήθηκε χειρωνακτική μετακίνηση των ορίων στα επιθυμητά όρια που περιγράψαμε στην προηγούμενη παράγραφο. Επίσης για κάθε μονάδα ομιλίας, εκτός από τα όρια της, καθορίστηκε και το/τα (ανάλογα αν πρόκειται για δίφωνο ή τρίφωνο) σημείο μετάβασης από το ένα φώνημα στο άλλο. Εικόνα 22 Πλάτος, καμπύλη ενέργειας, θεμελιώδους συχνότητας και όρια διφώνου /n-e/. 47

72 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Για την καλύτερη κατανόηση της διαδικασίας παραθέτουμε παρακάτω τους κανόνες που πρέπει να ακολουθηθούν: I. Η έμβαση (onset) και η έκβαση (offset) του κάθε διφώνου λαμβάνεται στην κεντρική περιοχή κάθε φωνήματος, εικόνα 20, όπου το φασματογράφημα παρουσιάζει σταθερά χαρακτηριστικά, (βλ. εικόνες 21 και 22). II. Στα σημειά που λαμβάνονται τα όρια, το πλάτος του σήματος πρέπει να έιναι μηδέν (zero-crossings). Με αυτή την απαίτηση εξασφαλίζεται το γεγονός στο σημείο συνένωσης δύο μονάδων να έχουμε μικρότερα ποσοστά ασυνέχειας. Η συγκεκριμένη απαίτηση έχει νόημα μόνο για όρια που λαμβάνονται σε ηχηρές περιοχές (σε μη ηχηρή περιοχή, δεν υπάρχει λόγος να εφαρμοστεί η παραπάνω απαίτηση εξαιτίας της θορυβώδους φύσης αυτών). III. Προκειμένου να αποφευχθούν ασυνέχειες φάσης κατά την συνένωση τοποθετούμε τα όρια των ηχηρών τμημάτων των διφώνων σε σημεία τέτοια ώστε η έκβαση του αριστερής μονάδας να είναι συμπληρωματική της έμβασης της δεξιάς. (α) (β) (γ) Εικόνα 23 α) Αριστερό, β) κεντρικό και γ) δεξί όριο του διφώνου /n-e/. Εμπειρικά για τα Ελληνικά παρατηρήθηκε ότι η διάρκεια των διφώνων πρέπει να είναι μεταξύ δείγματα, ενώ η διάρκεια των τριφώνων γύρω στα 4000 δείγματα. IV. Όταν πρόκειται για εκρηκτικά φωνήματα, η «έκρηξη» πρέπει να περιέχεται ολόκληρη είτε στην αριστερή είτε στην δεξιά μονάδα κατά την συνένωση. Π.χ είτε όλα τα δίφωνα /*-k/ ( * σημαίνει οποιοδήποτε φώνημα) θα περιέχουν την έκρηξη του /k/ είτε όλα τα /k-*/. V. Λαμβάνεται υπόψη η ενέργεια του τμήματος ομιλίας κατά τέτοιο τρόπο ώστε να μοιάζει με την ενέργεια των ήδη έτοιμων μονάδων με τις οποίες πρόκειται να γίνει συνένωση. Με αυτόν τον τρόπο επιχειρείται να μην υπάρχει μεγαλή διαφορά ανάμεσα στις ενέργειες των μονάδων που συνενώνονται. Αφού γίνει ο καθορισμός των ορίων για μία μονάδα, ακολουθεί ακουστικός έλεγχος για να διαπιστωθεί πόσο καλά μπορεί να συνενώνεται η τρέχουσα μονάδα με τις ήδη έτοιμες μονάδες. Στην περίπτωσή μας, αυτό έγινε με την βοήθεια μιας αρχικής έκδοσης του συνθέτη μας (για 48

73 Προσωδιακή βάση ομιλίας (WCL-1) κάθε μονάδα τρέχαμε το πρόγραμμα για τους διάφορους δυνατούς συνδυασμούς και ελέγχαμε τα αποτελέσματα) Κανονικοποίηση σήματος ομιλίας Μετά το πέρας των ηχογραφήσεων και της επισημείωσης των ορίων των διφώνων γίνεται εξαγωγή των pitchmarks και κανονικοποίηση της φωνητικής βάσης. Για την εξακρίβωση των pitchmarks κάναμε χρήση της αυτόματης διαδικασίας που περιέχεται στο πακέτο Edinburgh Speech Tools (ο βέλτιστος βέβαια τρόπος για την εξαγωγή των pitchmarks είναι η εξαγωγή αυτών μέσω ηλεκτρογραφήματος (EGG σήμα)). Για όλα τα ηχηρά τμήματα ομιλίας εισάγουμε τα pitchmarks στο μέγιστο κάθε τονικής περιόδου (pitch period).για τα μη-ηχηρά τμήματα, εισάγουμε ένα pitchmark ανά τακτά χρονικά διαστήματα. Δεδομένου ότι οι τεχνικές επεξεργασίας σήματος που χρησιμοποιήσαμε για την τροποποίηση της τονικότητας και της διάρκειας των διφώνων της φωνητικής βάσης πραγματοποιήται σε συνάρτηση με την μεταβολή της θεμελιώδου συχνότητας (pitch synchronous), η ορθή εξαγωγή των pitchmarks είναι κρίσιμη για την ποιότητα της συνθετικής ομιλίας. Σε πολλά σημεία αυτής της ενότητας έχει τονιστεί η ανάγκη για την εξασφάλιση ηχογραφήσεων με όσο το δυνατόν μεγαλύτερη ομοιότητα στα ακουστικά και φασματικά χαρακτηριστικά τους. Συνήθως αυτή η απαίτηση δεν είναι δυνατόν να τηρηθεί στο ακέραιο, και αυτό γιατί καταρχήν η διαδικασία δεν μπορεί να λάβει χώρα σε μια συνεδρία, με αποτέλεσμα οι επόμενες συνεδρίες λόγω ή διαφορετικού στησίματος της διαδικασίας (π.χ. διαφορετική θέση μικροφώνου) ή μεταβολής στην προσπάθεια του ομιλητή (π.χ. απώλειας συγκέντρωσης, κόπωσης, λάθος ανάγνωσης κειμένου κ.α.). Για να αντιμετωπίσουμε τις διακυμάνσεις που προκύπτουν στο σώμα των ηχογραφήσεων μας εφαρμόζουμε ένα στάδιο κανονικοποίησης αυτών. Έτσι λοιπόν, δεδομένου ότι κάποια δίφωνα έχουν διαφορετικές τιμές ενέργειας υπολογίζουμε την ενέργεια για όλα τα φωνήεντα κάθε χωρίς-νόημα λέξης, στη συνέχεια βρίσκουμε την μέση τιμή ως προς όλα τα αρχεία, και υπολογίζουμε ένα συντελεστή κανονικοποίησης για κάθε λέξη με τον οποίο θα πραγματοποιηθεί η κανονικοποίηση. 3.4 Το προσωδιακό σώμα ομιλίας της WCL-1 Η πραγματοποίηση εκτενούς έρευνας στον τομέα της σύνθεσης ομιλίας έχει δείξει ότι οι μονάδες ενός συστήματος ΜΚσΟ περιλαμβάνουν μοντέλα των οποίων η έξοδος είναι είτε συνεχής (μονάδα εκτίμησης διάρκειας φωνημάτων) είτε διακριτές τιμές (όπως τα φαινόμενα επιτονισμού 49

74 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας και οι ενδοπεριοδικές προσωδιακές παύσεις) απαιτούν την ύπαρξη βάσεων δεδομένων εκπαίδευσης που να καλύπτουν αποτελεσματικά την περιοχή που ανήκει το κείμενο εισόδου τo οποίο θέλουμε να μετατρέψουμε σε ομιλία. Εξαιτίας λοιπόν της απαίτησης για πιο ολοκληρωμένη κάλυψη του θεματικού πεδίου του κειμένου, δύο συμπληρωματικές προσεγγίσεις θα μπορούσαν να ακολουθηθούν (Santen, Sproat, 1998). Η πρώτη προσέγγιση προτείνει ότι τα δεδομένα εκπαίδευσης θα πρέπει να επιλεχτούν από ένα μεγάλο αρχικό σώμα κειμένου, ενώ η δεύτερη προτείνει τη χρήση προτύπων και κανόνων που είναι βασισμένοι στις γενικές τακτικότητες ή τη σταθερότητα στοχεύοντας στη γενίκευση από τα επιλεγμένα δεδομένα εκπαίδευσης στην πλήρη περιοχή εφαρμογής. Στην περίπτωσή μας έχουμε ακολουθήσει την πρώτη μεθοδολογία δεδομένου ότι είχαμε στην διάθεση μας μεγάλα σώματα κειμένου. Αρχικά, πήραμε την κατανομή συχνοτήτων εμφάνισης των συλλαβών της Ελληνικής γλώσσας έπειτα από ανάλυση ενός μεγάλου σώματος κειμένου. Κατόπιν, για κάθε πρόταση του αρχικού σώματος κειμένου, ένα αποτέλεσμα για την καταλληλότητα της για να περιληφθεί στο τελικό σύνολο προτάσεων λήφθηκε με βάση εμπειρικά κριτήρια σχετικά με την ελληνική γλώσσα. Μετά από το φιλτράρισμα του αρχικού σώματος προτάσεων υπολογίστηκε εκ νέου η συχνότητα εμφάνισης των συλλαβών. Κατά το στάδιο σχεδιασμού μιας βάσης δεδομένων ομιλίας για την μελέτη προσωδίας δύο βασικές απαιτήσεις που πρέπει να πληρούνται όσο το δυνατόν με τον καλύτερο τρόπο, είναι η επαρκής φωνητική και προσωδιακή κάλυψη του επιλεγμένου σώματος κειμένων. Λέγοντας επαρκής φωνητική κάλυψη εννοούμε το κάθε φώνημα να βρίσκεται σε όλες τις δυνατές θέσεις μέσα σε μια λέξη (αρχή, μέση, τέλος), καθώς και με διαφορετικά γειτονικά φωνήματα. Ένα σώμα κειμένων που τηρεί αυτές τις προϋποθέσεις χαρακτηρίζεται ως "φωνητικά πλούσιο" (phonetically rich) (Black, Taylor, 1997). Αυτή η συγκεκριμένη απαίτηση επιτεύχθηκε στο σώμα κειμένων μας με την εφαρμογή αυτόματης επιλογής αυτών μέσα από ένα αρχικά μεγάλο σώμα. Έτσι, αρχικά ένα μεγάλο σώμα κειμένου συλλέγεται από άρθρα εφημερίδων και παραγράφους λογοτεχνίας στη συνέχεια εφαρμόζεται ως είσοδος στη μονάδα μετατροπής κειμένου σε φωνητική γραφή του συστήματος μας δίνοντας μας σαν έξοδο την λίστα με τις προτάσεις καθώς και μια δεύτερη λίστα με τα δίφωνα που το απαρτίζουν. Στο τέλος, εφαρμόσαμε την λίστα προτάσεων που προέκυψε στον πλεονεκτικό αλγόριθμο (Cormen, Leiserson 1990) με σκοπό την επιλογή ενός βέλτιστου υποσύνολου προτάσεων που να περιέχει όλα τα ελληνικά φωνήματα και τα αλλόφωνα σε διαφορετικές θέσεις στην δομή μιας λέξης. Αφετέρου, σχετικά με τον σχεδιασμό μιας πλούσιας προσωδιακά βάσης δεδομένων ομιλίας, το σώμα κειμένου που έχει εκφωνηθεί για την ηχογράφηση της μπορεί να επιλεχθεί αυτόματα από ένα μεγάλο ευρύτερο σώμα προτάσεων. Η επιλογή αυτή θα γίνει με σκοπό το 50

75 Προσωδιακή βάση ομιλίας (WCL-1) τελικό σετ προτάσεων να καλύπτει συγκεκριμένες απαιτήσεις. Το σημαντικότερο εμπόδιο για την επίτευξη του στόχου για ένα πλούσιο προσωδιακά σώμα ηχογραφήσεων είναι η έλλειψη ενός σαφούς καθορισμού των απαιτήσεων που πρέπει να πληρούνται. Σε σχέση με την απαίτηση για φωνητική πληρότητα, υπάρχει περιορισμένη βιβλιογραφία για την προσωδιακή κάλυψη, ιδιαίτερα για την ελληνική γλώσσα. Επομένως, βασιζόμενοι στην υπόθεση ότι ο σχηματισμός των προσωδιακών γεγονότων συσχετίζεται σε μεγάλο βαθμό με την συντακτική δομή μιας πρότασης (Price, et al., 1991), επικεντρώσαμε την προσοχή μας στην κατάλληλη επιλογή τύπων πρότασης καθώς και στην εσωτερική συντακτική δομή τους. Για την αντιμετώπιση περιπτώσεων σπάνιων επιτονικών και φωνολογικών φαινόμενων, κατάλληλο κείμενο συντέθηκε από γλωσσολόγο. Ακολουθώντας αυτή την προσέγγιση αντιμετώπισης των μη συχνά εμφανιζόμενων περιπτώσεων η ανάγκη ενός φωνητικά και προσωδιακά πλούσιου σώματος, κατά ένα σημαντικό μέρος, επιτεύχθηκε. Η εφαρμογή των παραπάνω διαδικασιών είχε σαν αποτέλεσμα την δημιουργία ενός σώματος κειμένων το οποίο αποτελείται από λέξεις που διανέμονται σε 500 παραγράφους, καθεμία των οποίων μπορεί να είναι μια μεμονωμένη λέξη, μια σύντομη πρόταση, μια περίοδος, ή μια ακολουθία προτάσεων. Όσον αφορά το είδος των προτάσεων που απαρτίζουν το τελικό σώμα κειμένων είναι, 390 δηλωτικές προτάσεις, 44 προτάσεις θαυμαστικών, 36 ερωτήσεις απόφασης και 24 ερωτηματικές προτάσεις (Wh-questions). Πίνακας 4: Μέρη του λόγου των νέων ελληνικών. Κατηγορία ΜΛ Χαρακτηριστικά ΜΛ Κοινά Επίθετο (ADJ) Ουσιαστικό (N) Αντωνυμία (PN) Μετοχή (PRT) Άρθρο (ART) Αριθμηικό (NUM) Ρήμα (V) Σύνδεσμος (CON) Πρόθεση (PRE) Βαθμός απλά, κύρια ονόματα Προσωπικές, Γένος αναφορικές, Αριθμός ερωτιματικές Πτώση Υποκατηγορία ρημάτων οριστικά, αόριστα τακτικά, απόλυτα Φωνή,κατάσταση,πρόσωπο,αριθμός Επίρρημα (ADV) Εκτός από τους τύπους πρότασης που θα μπορούσαν να καθορίσουν το σχέδιο προσωδίας μιας πρότασης, και άλλοι παράγοντες που καθορίζουν την προσωδιακή δομή της θα πρέπει επίσης να εξεταστούν. Η μελέτη των παραγόντων που επηρεάζουν την προσωδιακή δομή μιας φράσης είναι ένα πολύ σύνθετο πρόβλημα εξαιτίας του γεγονότος ότι η εξαγωγή των κατάλληλων χαρακτηριστικών γνωρισμάτων απαιτεί την ανάλυση σε συντακτικό, σημασιολογικό ή πραγματολογικό επίπεδο. Στην περίπτωσή μας το μόνο επίπεδο που θα μπορούσε να 51

76 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας εξεταστεί χωρίς την εφαρμογή χειρωνακτικής επισημείωσης ήταν η ανεύρεση των μορφολογικών και συντακτικών ιδιοτήτων μιας πρότασης. Ως εκ τούτου, επιλέξαμε το μέρος του λόγου (ΜΛ) καθώς επίσης και τα συντακτικά όρια φράσης (ΣΟΦ) ως τους σημαντικότερους συντακτικούς παράγοντες που πρέπει να εξεταστούν. Οι διαδικασίες ανίχνευσης του μέρους του λόγου (POS tagging) των λέξεων και των ορίων φράσεων έγινε με εφαρμογή αυτόματων διαδικασιών, και στη συνέχεια έγινε χειροκίνητη διόρθωση των αποτελεσμάτων. Στον πίνακα 4 βλέπουμε τις κατηγορίες ΜΛ που χρησιμοποιήσαμε για την επισημείωση του σώματος κειμένου της WCL F r e q u e n c y o f o c c u r r e n c e ( % ) Σ υ χ ν ό τ η τ α ε μ φ ά ν ι σ η ς ( % ) A R T C O N P R T P R E V P N A D V N A D J N U M PΜ a έr ρt - οo fς - Sτ οp eυ e λc hό γ ο υ (α) F r Σ e υ q χ u ν e ό n τ c η y τ o α f ε o μ c c φ u ά r ν e ι n σ c η e ς ( ( % ) ) N P V P P P A P Σ υ Sν τyαn κt aτ cι κt i ά c a όl ρc ι hα u φn ρk άs σ ε ω ν (β) Εικόνα 24 Κατανομή των α) μέρος λόγου και β) των συντακτικών ορίων φράσεων στη προσωδιακή βάση ομιλίας WCL-1 52

77 Προσωδιακή βάση ομιλίας (WCL-1) Υπάρχουν 11 διαφορετικές κατηγορίες ΜΛ από τις οποίες τα άρθρα, ουσιαστικά, επίθετα, αντωνυμίες, ρήματα και αριθμητικά κλίνονται ενώ τα επιρρήματα, οι προθέσεις, οι αντωνυμίες, οι σύνδεσμοι και τα επιφωνήματα όχι. Στο στάδιο ανάπτυξης της WCL-1 η εξακρίβωση των ΜΛ έγινε με την εφαρμογή ενός μορφολογικού αναλυτή 2-επιπέδων (Sgarbas, et al., 1999). Η εικόνα 24.α. Παρουσιάζει την κατανομή των ΜΛ όπως βρέθηκαν στο σώμα κειμένου της προσωδιακής βάσης WCL-1. Η λειτουργία του ανιχνευτή ορίων φράσεων (Stamatatos et al., 2000), βασίζεται σε περιορισμένους γλωσσολογικούς πόρους. Το αποτέλεσμα της εφαρμογής του είναι η διάκριση τεσσάρων βασικών ειδών φράσεων: ονοματικές φράσεις (noun phrases ή Nps), ρηματικές φράσεις (verb phrases ή Vps), προθετικές φράσεις (prepositional phrases ή Pps) και επιρρηματικές φράσεις (adverbial phrases ή Aps). Επιπλέον, δύο φράσεις μπορεί να συνδέονται μέσω μίας συνδετικής φράσεις (connectional phrase ή CON). Το επόμενο παράδειγμα είναι ένα δείγμα μιας φρασιοποιημένης πρότασης: VP [Ανακοινώνεται] PP [από την εταιρία] VP [ότι ολοκληρώθηκε ] NP [η διαδικασία της αυξήσεως του κεφαλαίου της.] Επιλογή ύφους ομιλίας και σύνοδος ηχογράφησης Ένα άλλο σημαντικό πρόβλημα στην ανάπτυξη μιας προσωδιακής βάσης δεδομένων είναι η επιλογή του επιθυμητού ύφους ομιλίας. Δεδομένου ότι ο κύριος στόχος ενός συστήματος ΜΚσΟ είναι η ανάγνωση ενός γραπτού κειμένου, φάνηκε πιο σωστό να παραχθεί και να αποτυπωθεί η προσωδία από την ανάγνωση κειμένων. Κατά συνέπεια, μια γυναίκα επαγγελματίας ηθοποιός ραδιοφώνου, με ηλικία 30 χρονών περίπου με Αθηναϊκή προφορά, καθοδηγήθηκε για να διαβάσει τις επιλεγμένες προτάσεις με ύφος ανάγνωσης σε ένα κανονικό ρυθμό ομιλίας. Για την καταγραφή και τον συγχρονισμό του κειμένου με την ηχογράφηση αναπτύχθηκε ειδικό πρόγραμμα σε περιβάλλον Matlab. Τα προς εκφώνηση κείμενα παρουσιάζονταν στην οθόνη του υπολογιστή και η ηχογράφηση ξεκινούσε την στιγμή που ο εκφωνήτρια ξεκινούσε να διαβάζει. Σε περίπτωση δισταγμών ή λαθών, η ομιλήτρια κλήθηκε να επαναλάβει την πρόταση έως ότου αυτή λεχθεί ολόκληρη χωρίς σφάλματα. Kατά αυτό τον τρόπο επιτεύχθηκε μείωση των λαθών και των ασαφειών στη διαδικασία μαρκαρίσματος της πληροφορίας. Η σύνοδος καταγραφής πραγματοποιήθηκε σε μια ανηχοεική αίθουσα ενός επαγγελματικού στούντιο και διάρκεσε περίπου 2 ώρες. Η καταγραμμένη ομιλία αποθηκεύτηκε άμεσα σε μια ταινία DAT χρησιμοποιώντας συχνότητα δειγματοληψίας 44,1 khz. Τελικά τα δεδομένα ηχογράφησης 53

78 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας αποτελούνταν από 50 λεπτά καθαρής ομιλίας, τα οποία αποθηκεύτηκαν στην συνέχεια για επεξεργασία σε σκληρό δίσκο με συχνότητα δειγματοληψίας 16 khz και ακρίβεια 16 μπιτ Η GRToBI προσωδιακή επισημείωση της WCL-1 Το GRToBI (Arvaniti and Baltazani 2000: ) κωδικοποιεί προσωδιακή και φωνητική πληροφορία σε Ελληνικά σώματα ομιλίας. Συγκεκριμένα, είναι σχεδιασμένο με βάση την Αθηναϊκή διάλεκτο. Η GRToBI μεταγραφή μιας φράσης αποτελείται από το αρχείο της ηχογράφησης, το αρχείο με την καμπύλη F0 και τέλος ένα αρχείο που περιέχει την προσωδιακή κωδικοποίηση στα επίπεδα που ορίζονται από αυτό. Για τις ηχογραφήσεις της WCL-1 επιλέχθηκε συγκεκριμένη δομή αναφορικά με τα επίπεδα επισημείωσης της προσωδιακής πληροφορίας του GRToBI. Συγκεκριμένα αποτελείται από πέντε επίπεδα, το επίπεδο επισημείωσεις τονικών φαινομένων (tone tier) για την μελέτη του επιτονισμού, το επίπεδο προσωδιακών λέξεων (prosodic words tier) σε φωνητική γραφή, το επίπεδο λέξεων (word tier) σε λεξιλογική γραφή, το επίπεδο ενδοπεριοδικών προσωδιακών παύσεων (break index tier) και ένα επίπεδο πικοίλης πληροφορίας (miscellaneous tier) με πληροφορίες όπως αναπνοή, θόρυβος, βήχας κ.α. Και τα πέντε επίπεδα επισημείωσης είναι στοιχισμένα σε έναν κοινό άξονα χρόνου. Η επισημείωση των φαινομένων στα διάφορα επίπεδα της δομής ToBI έγινε με βάση το πως ακούγεται η φράση σε συνάρτηση με την ακουστική και φασματική αναπαράσταση της εκάστοτε ηχογράφησης στο χρόνο καθώς και την καμπύλη F Επίπεδο πληροφορίας τονικών φαινομένων της WCL-1 Όπως είδαμε και σε προηγούμενο κεφάλαιο, ο κατάλογος επιτονικών υψών που συναντούνται στον Ελληνικό προφορικό λόγο αποτελείται από τα L*+H, L+H*, H*,!H* and L*. Το πιο σύνηθες από αυτά είναι το L*+H, το οποίο είναι γνωστό και ως Ελληνικός τόνος (Greek accent) (Arvaniti and Baltazani 2000: ). Γενικώς εμφανίζεται στην pre-nuclear θέση. Ο τόνος L βρίσκεται ακριβώς ή λίγο πριν την έμβαση της τονισμένης συλλαβής, και ο τόνος H βρίσκεται στην αρχή του πρώτου φωνήεντος μετά την τονισμένη συλλαβή (Arvaniti and Ladd, 1995: ). Ακολουθώντας την δουλειά των (Arvaniti and Baltazani 2000: ) επισημείωσαμε τις περιπτώσεις του τονικού ύψους L*+H σε περιπτώσεις επιτοντονικού συνωστισμού (tonal crowding) χρησιμοποιώντας ένα από τα τρία διακριτικά: το wl*+h χρησιμποιήθηκε σε περιπτώσεις όπου ο τόνος L είναι επιμηκυμένος (undershot), το >L*+H χρησιμοποιήθηκε σε περιπτώσεις όπου ο τόνος εμφανίζεται νωρίτερα από ότι κανονικά αναμενώταν και το <L*+H 54

79 Προσωδιακή βάση ομιλίας (WCL-1) όταν εμφανίζεται αργότερα. Η κατανομή εμφάνισης των επιτονικών υψών στη βάση δεδομένων μας απεικονίζεται στην είκόνα 25 που σαφώς παρουσιάζει ότι η μεγαλύτερη μερίδα αυτών ανήκει στην κατηγορία L*+H με τις παραλλαγές της. Ο πίνακας 5 παραθέτει τον αριθμό εμφανίσεως κάθε τονικού ύψους της WCL-1. F r Σ e q υ χ u ν e ό n τ c η y τ o α f ε o μ c φ c ά u ν r ι r σ e η n ς c ( e % ( % ) ) PΚ i tα c τh η γa ο cρ c ί eε ς n tτ s ο νc ι κa ώt eν g υo ψr ώi e νs Εικόνα 25 Κατανομή των τονικών υψών στο προσωδιακό σώμα ομιλίας μας Σε σχέση με τις εμφάσεις φράσης και τους τόνους ορίου, αυτοί συνδέονται φωνολογικώς με τα προσωδικά όρια, όπως το τέλος μιας έκφρασης. Στην ελληνική γλώσσα δεχόμαστε την ύπαρξη τριών ειδών φραστικών τόνων (phrase accents), H-, L-,!H- και τρεις τύπους οριακών τόνων (boundary tones), H%, L%,!H%. Οι οριακοί και οι φραστικοί τόνοι δημιουργούν συνδιασμούς με συγκεκριμένες λειτουργίες L * + H H * L * L + H * H * + L! H * w L * + H L * + H a c c C L Πίνακας 5: Αριθμός εμφανίσεως τονικών υψών. Τονικά ύψη Αριθμός εμφανίσεων L*+H 1170 H* 514 L* 291 L+H* 276 H*+L 178!H* 145 wl*+h 59 L*+H acccl 40!H*+L 38 >L*+H 20 L+!H* 16 H* acccl 10 L*+!H 8 L*+H encla 4 wl*+h acccl 4 Στον πίνακα 6 παραθέτουμε την λίστα επιτρεπτών συνδιασμών των φραστικών και οριακών τόνων, γνωστών και ώς τελικοί τόνοι (endtones). Οι φραστικοί τόνοι H- και L- εμφανίζονται συνήθως στην δεξιά ακμή των ενδιάμεσων φράσεων (ips). Αφ' ετέρου, οι τόνοι!h -, λαμβάνουν! H * + L > L * + H L +! H * H * a c c C L L * +! H L * + H e n c l A w L * + H a c c C L 55

80 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας χώρα χρησιμοποιείται μόνο σε ορισμένους τύπους τυποποιημένων προσωδιών και μόνο σε τελικές ενδιάμεσες φράσεις (utternance-final ips). Πίνακας 6: Επιτρεπτοί συνδυασμοί φραστικών και οριακών τόνων στο πλαίσιο του GRToBI. Συνδιασμοί τόνων L-L% L-H% H-L% H-H% L-!H% H-!H%!H-!H%!H-H% Στο ακόλουθο σχήμα παρουσιάζουμε ένα παράδειγμα μιας φράσης του σώματος κειμένου της WCL-1 η οποία σχολιάζεται με τους GRToBI τόνους. Στο σχήμα αυτό απεικονίζεται η τονική ακολουθία (τονικά ύψη και οριακοί τόνοι) σε συνάρτηση με την συντακτική κατάτμηση. L*+H L+H* L- L*+H L*+H H* H* H* L-L% H- [ siginiqike Ke Eklapse Otan EmaQe ] VP [ tin kakometaxirisi ] NP [ stin opia ] PP [ ipokidan ] VP [ i romni ] NP Εικόνα 26 Παράδειγμα GRToBI τόνων (τονικά ύψη και οριακοί τόνοι) Συνοπτικά, το σχήμα 27 απεικονίζει τη κατανομή των φραστικών και των οριακών τόνων στην WCL-1 δείχνοντας ότι η πιο συχνά εμφανιζόμενες κατηγορίες είναι οι H- και!h- με συχνότητα εμφάνισης 25% και 13% αντίστοιχα. Επιπλέον, ο οριακός τόνος L-L% έχει συχνότητα εμφάνισης 34% που είναι ένα αποτέλεσμα της εμφάνισης του σε δηλωτικές, προστακτικές και σε ερωτηµατικές προτάσεις (wh- questions). 4 0 F Σ r υ e χ q ν u ό e τ n η c τ y α o ε f μ o c φ c ά u ν r ι r σ e η n ς c e ( % ( % ) ) L - L % H -! H - L - L - H % L -! H % H - L % H - H % H -! H %! H -! H % H! - H % Κ α τe ηn γd οt oρn ί e ε ς C οa tρ e ιgα oκ rώi eν s τ ό ν ω ν Εικόνα 27 Κατανομή οριακών τόνων στην WCL-1 56

81 Προσωδιακή βάση ομιλίας (WCL-1) Πίνακας 7: Αριθμός εμφανίσεως οριακών τόνων Οριακοί τόνοι Αριθμός εμφανίσεων L-L% 442 H- 327!H- 154 L- 117 L-H% 79 L-!H% 77 H-L% 75 H-H% 28 H-!H% 6!H-!H% 4 H!-H% 2 Ο πίνακας 7 δείχνει τον αριθμό εμφανίσεων των διαφόρων φραστικών και οριακών τόνων του σώματος ομιλίας Επίπεδο πληροφορίας δεικτών παύσεων της WCL-1 Όπως είδαμε στο δεύτερο κεφάλαιο για την περιγραφή της δύναμης συμβολής μεταξύ κάθε ζευγαριού λέξεων το ToBI χρησιμοποιεί μια σειρά δεικτών παύσεων (phrase breaks). Πίνακας 8: Δείκτες παύσεων και ισοδυναμία με προσωδιακά συστατικά. Δείκτες Περιγραφή παύσεων b0 Κλιτική ομάδα b1 Όριο μεταξύ προσωδιακών λέξεων b2 Μεσαία φράση (ΜΦ) b3 Επιτονική φράση (ΕΦ) Υπάρχουν τέσσερις διαφορετικοί δείκτες που αντιπροσωπεύουν των βαθμό συνεκτικότητας μεταξύ δύο γειτονικών λέξεων μιας φράσεις που κυμαίνεται από 0 (πιο αδύνατη παύση) ως 3 (ισχυρότερη παύση), δείκτης παύσεως 0 (b0): χρησιμοποιείται για να δείξει την πλήρη συνοχή μεταξύ των ορθογραφικών λέξεων. Η παρουσία ενός b0 δείκτη παύσεως δείχνει την παρουσία μιας ενιαίας προσωδιακής λέξης (PrWord). Τα φαινόμενα συνάρθρωσης κατά μήκος του δείκτη παύσεως. δείκτης παύσεως 1 (b1): η παρουσία του σηματοδοτεί το όριο μεταξύ δύο προσωδιακών λέξεων. Δομές λέξεων που χωρίζονται από δείκτη παύσεως b1 φέρουν το πολύ ένα τονικό ύψος. δείκτης παύσεως (b2): δείχνει τα όρια μιας ενδιάμεσης φράσης. δείκτης παύσεως (b3): δείχνει τα όρια μιας επιτονικής φράσεως. 57

82 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Ο πίνακας 8 παρουσιάζει την ισοδυναμία μεταξύ των δεικτών παύσεων και των συστατικών της προσωδικής ιεραρχίας μιας έκφρασης. Επιπλέον, το σχήμα 28 παρουσιάζει στη διανομή των δεικτών σπασιμάτων στο προσωδικούς σώμα και τον πίνακα 9 αντίστοιχο αριθμό περιστατικών. F r e Σ q υ u χ e ν ό n τ c η y τ α o f ε o μ c φ c ά u ν r ι σ r η e ς n ( c % e ) ( % ) Εικόνα 28. Κατανομή δεικτών παύσεων στην WCL-1. b 0 b 1 b 2 b 3 B Κr αe aτ ηk γ Iο nρ dί ε iς c eδ s ε ιcκ τaώt ν e gπ oα rύ iσe εsω ν Πίνακας 9: Αριθμός εμφάνισεως δεικτών παύσεων. Δείκτες παύσεων Αριθμός εμφανίσεων b b b2 602 b Διαχείριση πόρων Όλες οι ηχογραφημένες φράσεις της βάσης δεδομένων συνοδεύονται από ένα σετ αρχείων τα οποία περιέχουν πληροφορίες σχετικά α) με την ορθογραφική αναπαράσταση της, β) με την αντίστοιχη καμπύλη F0, γ) με τα κωδικοποιημένα επιτονικά φαινόμενα σύμφωνα με το μοντέλο GRToBI και δ) με την πληροφορία των ορίων των φωνημάτων, λέξεων και συλλαβών. Για την διαχείρηση αυτής της πληροφορίας χρησιμοποιείσαμε τα προγράμματα EMU (Cassidy 1999: ) και PRAAT (Boersma and Weenink 2005). H ανάπτυξη της WCL-1 έγινε με την χρήση του προγράμματος EMU αφού παρέχει ένα σύνολο εργαλείων σχετικά με την αποθήκευση και εξαγωγή στοιχείων από λεκτικές βάσεις δεδομένων. Η βάση που προέκυψε από αυτή την διαδικασία αποτελούνταν από τα αρχεία κυματομορφών, τα αντίστοιχα αρχεία F0 και άλλα αρχεία τα οποία περιείχαν πληροφορίες σχετικά με τα φαινόμενα επιτονισμού, την διάρκεια καθώς και διάφορα συμβάντα που έλαβαν χώρα κατά την διάρκεια της ηχογράφησης. Ένα παράδειγμα αναπαράστασης αυτής της πληροφορίας μέσω του EMU φαίνεται στο σχήμα 29, όπου παρουσιάζονται τα πέντε επίπεδα επισημείωσης του GRToBI, η καμπύλη F0 και η κυματομορφή. 58

83 Εικόνα 29. Επίπεδα περιγραφής του GRToBI, καμπύλη F0 και κυματομορφή μιας φράσης της WCL-1 με το πρόγραμμα επισημείωσης EMU.

84 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Σχετικά με την εξαγωγή της καμπύλης F0 από τα αρχεία ηχογραφήσεων, χρησιμοποιήσαμε την υλοποίηση του αλγορίθμου του (Boersma, 1993) από το πακέτο εργαλείων επεξεργασίας ομιλίας PRAAT. Ένα πρόγραμμα σε γλώσσα Perl αναπτύχθηκε για την αυτόματη επεξεργασία όλων των ηχογραφήσεων και την εξαγωγή της πληροφορίας επιτονισμού, της ενέργειας και των καμπυλών συντονισμού. Η μέγιστη και ελάχιστη τιμή της F0 που χρησιμοποιήθηκαν κατά την εξαγωγή της καμπύλης F0 ήταν Hz με βήμα 0.01 δευτερόλεπτα Κατανομή επιτονικών γεγονότων Σε αυτή την παράγραφο παρουσιάζουμε το συσχετισμό των τονικών γεγονότων ToBI και των δεικτών παύσης με τις μορφο-συντακτικές ιδιότητες (μέρος του λόγου και συντακτική φρασιοποίηση) της WCL-1 προσωδιακής βάσης δεδομένων. Δεδομένου ότι μερικά φαινόμενα του GRToBI είχαν χαμηλή συχνότητα εμφάνισης στο σώμα ομιλίας της βάσης μας περάσαμε στην συγχώνευση τους με άλλες όμοιες κατηγορίες με αυτές. Πέραν τούτο λόγω της σχετικά περιορισμένης έκτασης των ηχογραφήσεων της WCL-1 η ομαδοποίηση κάποιων φαινομένων με όμοια συμπεριφορά βοηθάει και στην φάση της δημιουργίας μοντέλων μηχανικής μάθησης αφού μεγάλος αριθμός κατηγοριών προς εκτίμηση σε συνάρτηση με περιορισμένο αριθμό δεδομένων εκπαίδευσης και εξέτασης θα οδηγούσε σε ασταθή μοντέλα με χαμηλά αποτελέσματα σε ακρίβεια εκτίμησης. Βέβαια η ύπαρξη της λεπτομερούς καταγραφής των φαινομένων (πριν την συγχώνευση) μπορεί να φανεί χρήσιμη για περαιτέρω γλωσσολογική έρευνα αλλά και χρήση τους σε μοντέλα μηχανικής μάθησης όταν περισσότερη πληροφορία (νέες επισημειωμένες ηχογραφήσεις) θα είναι διαθέσιμη. Αποτέλεσμα των παραπάνω είναι η ύπαρξη 5 κατηγοριών όσων αφορά τα τονικά ύψη και οι τελικοί τόνοι από 8 (π.χ. οι φρασιακοί τόνοι και οι οριακοί τόνοι ενοποιήθηκαν αφού η γραμματική του ToBI δεν επιτρέπει την ταυτόχρονη εμφάνιση τους). Πίνακας 10: Συγχώνευση τονικών υψών χαμηλής συχνότητας εμφάνισης με βασικές κατηγορίες. Χαρακτηριστικά Τόνος 1 Τόνος 2 Τόνος 3 Τόνος 4 Τόνος 5 Βασικός τόνος L* H* L*+H L+H* H*+L 60

85 Προσωδιακή βάση ομιλίας (WCL-1) Διακριτικά κλιτικός τόνος L* acccl H* acccl L*+H H*+L acccl acccl αποκλιμάκωση!h* L*+!H L+!H*!H*+L πρώιμος >L*+H εγκλιτικό 2 H* encla L*+H acccl οψιγενής <L*+H κάθοδος wl*+h encla αδύναμος wl*+h # Γεγονότων (%) 10,7 24, ,5 7,7 Πίνακας 11: Συγχώνευση οριακών τόνων χαμηλής συχνότητας εμφάνισης με βασικές κατηγορίες. Χαρακτηριστικά Οριακός Οριακός Οριακός Οριακός Οριακός Οριακός Οριακός Οριακός τόνος 1 τόνος 2 τόνος 3 τόνος 4 τόνος 5 τόνος 6 τόνος 7 τόνος 7 Βασικός τόνος L- H-!H- L-!H% L-L% L-H% H-L% H-H% Διακριτικά αποκλιμάκωσης!h-h%!h-!h% H-!H% # Γεγονότων (%) 7,1 27,8 11,3 5,7 33,7 6,4 5,9 2,0 Η συγχώνευση των κατηγοριών με χαμηλή συχνότητα εμφάνισης με κατηγορίες με όμοια συμπεριφορά στον επιτονισμό μιας φράσης αλλά μεγάλη συχνότητα εμφάνισης στα δεδομένα μας, οδήγησε σε μικρότερο αριθμό κατηγοριών με κατανομές που φαίνονται στους πίνακες 10 και 11. Από τις προκύπτουσες 5 κατηγορίες τονικών υψών αυτές με την μεγαλύτερη συχνότητα εμφάνισης ήταν η L*+H (47%) ακολουθούμενη από την H* (24,1%). Όσονα αφορά τους οριακούς τόνους είχαμε την L-L% (33,7%) και την H- (27,8%). F Σ r υ e χ q ν u ό e n τ η c y τ α o f ε o μ c c φ u ά r ν r ι e σ n η c e ς ( ( % ) ) L + H * L * + H H * L * H * + L U N A 0 A R T C O N P R T P R E V P N A D J N A D J N U M P O S Κ Cα τa ηt eγg οo ρr i ίeε sς Μ Λ Εικόνα 30. Κατανομή των τονικών υψών σε συνάρτηση με το ΜΛ. 2 O τόνος στην τελευταία συλλαβή μιας προπαροξύτονης λέξης όταν η λέξη αυτή ακολουθείται από εγκλιτικό τύπο. Π.χ. O άνθρωπός μου. 61

86 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας F Σ r υ e χ q ν u ό e τ n η c τ y α o ε f μ o φ c ά c u ν ι r σ r η e n ς c ( e % ( % ) ) F ΛW ε oι τ rοd υ ρ γ ι κ έ ς CΠW ε oρ rιdε χ ο μ έ ν ο υ U N A L + H * L * + H H * L * H * + L Κ αp τiηt cγh ο Aρ ίc εc ς e nτ οt Cν ι κl aώs ν s eυsψ ώ ν Εικόνα 31. Κατανομή των τονικών υψών πάνω σε λειτουργικές και λέξεις περιεχομένου. Η εμφάνιση διαφόρων κατηγοριών τονικών υψών και UNA σε λειτουργικές και λέξεις περιεχομένου παρουσιάζονται στην εικόνα 31. Στην εικόνα αυτή αξίζει να σημειωθεί η διαπίστωση ότι το 88% των λειτουργικών λέξεων δεν φέρουν κάποιο τονικό ύψος αλλά είναι άτονες (UNA). Επίσης, κάποιες λειτουργικές λέξεις που φαίνεται να έχουν τόνους επιτονισμού είναι αποτέλεσμα της ύπαρξης του φαινομένου σάντι 3 (sandhi). Τέλος, το 29% των λέξεων περιεχομένου δεν φέρει τόνο επιτονισμού. Η συσχέτιση των τονικών υψών με το είδος της συντακτικής ενδοπεριόδου που ανήκουν (syntactical chunks) όπως προέκυψαν από την προεπεξεργασία του σώματος κειμένου της WCL-1 παρουσιάζεται στην εικόνα 32. Στο σχήμα αυτό φαίνεται ότι το 61% των λέξεων χωρίς τόνο επιτονισμού βρίσκεται σε PP syntactical chunks. F Σ r e υ q χ u ν e ό n τ c η y τ α o f ε o μ c φ c ά u ν r ι r σ e η n ς c ( e % ( % ) U N A L + H * L * + H H * L * H * + L Κ αp τi tη c γh ο Aρ cί εc ς e nτ t ο Cν ιlκa ώs sν e υs ψ ώ ν N P V P P P A P Εικόνα 32. Κατανομή των τονικών υψών σε συνάρτηση με το είδος της συντακτικής ενδοπεριόδου που ανήκουν. 3 Όρος που χρησιμοποιείται στη σύνταξη και την μορφολογία και αναφέρεται στην φωνολογική τροποποίηση γραμματικών τύπων οι οποίοι έχουν αντιπαρατεθεί. Η αφομοίωση και η ανομοίωση είναι δύο διαδεδομένες λειτουργίες που μπορούν να τιτλοφορηθούν έτσι. 62

87 Προσωδιακή βάση ομιλίας (WCL-1) F Σ r e υ q χ u ν ό e n τ η c τ y α o ε f μ o φ c c ά u ν r ι σ r η e n ς c ( e % ( % ) b 0 b 1 b 2 b A R T C O N P R T P R E V P N A D J N N U M P OΚ αs τ Cη γa οt eρ gί εo ς r iμe s Λ Εικόνα 33. Κατανομή των δεικτών παύσεων σε συνάρτηση με το ΜΛ της λέξης. Επιπλέον, η L*+H κατηγορία τονικού ύψους εμφανίζεται σε VP συντακτική φράση. Η κατανομή των δεικτών παύσεων σε σχέση με το μέρος του λόγου της λέξης φαίνεται στο σχήμα 33. Από εκεί φαίνεται ότι ο δείκτης b0 εμφανίζεται κατά 50% σε άρθρα, 22% σε προθέσεις και 13% σε συνδέσμους b 0 b 1 b 2 b 3 F Σ r e υ q χ u ν e ό n τ c η y τ α o f ε o μ c φ c ά u ν r ι r σ e η n ς c e ( % ( % ) Εικόνα 34. Κατανομή δεικτών παύσεων σε συνάρτηση με το είδος της συντακτικής ενδοπεριόδου που ανήκουν. Όσον αφορά τις κατηγορίες δεικτών παύσης b2 και b3, οι περισσότερες εμφανίσεις τους πραγματοποιούνται σε ουσιαστικά, ενώ όσον αφορά την κατηγορία b1 εμφανίζεται ως επί το πλείστον σε ρήματα, επίθετα και ουσιαστικά. N P V P P P A P Κ α Sτ yη nγ οt aρc ίtεi cς aσl υ Cν τhα uκ nτ ιk κ ώc ν a οt eρgί oω rνi e s 63

88 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας F Σ r e υ q χ u ν e ό n τ c η y τ o α f ε o μ c c φ u ά r ν r ι e σ n η c ς e ( ( % ) b 0 b 1 b 2 b 3 0 U N A L + H * L * + H H * L * H * + L ΚP iα t cτ ηh γaο cρc ίeε nς t τcο aν tι eκ gώ oν r iυ eψs ώ ν Εικόνα 35. Κατανομή των δεικτών παύσεων σε συνάρτηση με τονικό ύψος της λέξης που εμφανίζονται. Η κατανομή των δεικτών παύσεων σε συνάρτηση με το είδος των συντακτικών ενδοπεριόδων στις οποίες ανήκουν παρουσιάζεται στην εικόνα 34. Τέλος, η εικόνα 35 δείχνει την συσχέτιση που υπάρχει μεταξύ των τονικών υψών και των δεικτών παύσεων στις λέξεις της βάσης μας. Αξίζει να σημειωθεί ότι το 95% των εμφανίσεων της κλάσης b0 βρέθηκε σε άτονες λέξεις. Επίσης, το 61% των άτονων λέξεων κατείχαν δείκτη παύσης b3, το 50% των b1 δεικτών βρίσκονται σε λέξεις που κατέχουν τονικό ύψος L*+H και μόνο το 10% βρίσκεται σε άτονες λέξεις. 3.5 Το συναισθηματικό σώμα ομιλίας της WCL-1 Είναι η επικοινωνία ανθρώπου μηχανής ολοκληρωμένη χωρίς την ικανότητα των μηχανών να αντιλαμβάνονται και να εκφράζονται τα συναισθήματα; Αισθανόμαστε κάποιον ή κάτι ότι μας καταλαβαίνει αν δεν κατανοεί την συναισθηματική μας κατάσταση; Όπως είδαμε και σε προηγούμενα κεφάλαια η συνθετική ομιλία υστερεί σε σχέση με την πραγματική όσον αφορά την σαφήνεια στην απόδοση καθώς και στην ανεπαρκή εκφραστικότητα, τα οποία αποτελούν βασικά μειονεκτήματά όταν εφαρμόζεται σε ένα πλαίσιο επικοινωνίας ανθρώπου-μηχανής. Μετα-πληροφορία όπως ο επιτονισμός, η τεμαχιακή διάρκεια και ο ρυθμός αποσκοπούν στην διευκρίνηση των συντακτικών δομών αποσαφηνίζει το φέρον μήνυμα και βοηθούν στον έλεγχο της ροής της ομιλίας. Πέραν αυτών όμως υπάρχουν και άλλες 64

89 Προσωδιακή βάση ομιλίας (WCL-1) πτυχές της ομιλίας η οποίες φέρουν πληροφορίες σχετικά με τις προθέσεις και την διανοητική κατάσταση του ομιλητή. Αυτές οι πτυχές της ομιλίας είναι η εκφραστικότητα και η συναισθηματική φόρτιση του. Τα τελευταία χρόνια έχει δοθεί μεγάλη ερευνητική έμφαση στις περιοχές της αναγνώρισης ομιλίας, η οποία περιέχει συναισθηματικό φορτίο, σύνθεση συναισθηματικής ομιλίας από κείμενο και στην αναγνώριση συναισθημάτων. Όσον αφορά τις εφαρμογές τεχνητής νοημοσύνης, η ύπαρξη ενός σταδίου το οποίο θα αναγνωρίζει και θα παράγει συναισθηματική πληροφορία θεωρείται απαραίτητο. Μια τέτοια βαθμίδα έχει τόσο πρακτικό όσο και ψυχολογικό αντίκτυπο στον χρήστη. Ο βασικός στόχος ανάπτυξης ενός τέτοιου σταδίου είναι η αύξηση της χρησιμότητας και λειτουργικότητας μιας πληθώρας εφαρμογών τεχνητής νοημοσύνης όπως, εικονικοί ξεναγοί, εκπαιδευτικό λογισμικό (π.χ. ανίχνευση αν ο χρήστης ενδιαφέρεται ή όχι), συστήματα στήριξης (π.χ. ανίχνευση πανικού, φόβου, ακόμα και λύπης), τηλεφωνικά κέντρα, κέντρα πληροφοριών, έξυπνα σπίτια (π.χ. επιλογή ένος χρώματος στο φωτισμό τέτοιο ώστε να ηρεμήσει τον κάτοικο, αλλαγή της ροής διαλόγου ενός διαλογικού συστήματος ανάλογα με την συναισθηματική κατάσταση του χρήστη) (Ekman, 1982). Έχοντας υπόψη τα παραπάνω προχωρήσαμε στην ηχογράφηση του σώματος κειμένου της WCL-1 και σε διαφορετικές συναισθηματικές καταστάσεις του ομιλητή Κατηγορίες συναισθημάτων Τα συναισθήματα μπορούν να χαρακτηριστούν ως βασικά και μη-βασικά. Από την πλευρά τους τα μη-βασικά, μπορούν περαιτέρω να ταξινομηθούν σε κατηγορίες όπως μείγματα, συνδυασμούς, ανάμεικτα, ή δευτερεύοντα. Το γεγονός ότι ορισμένες καταστάσεις μπορεί να θεωρηθούν ως επικαλυπτόμενες, έχει ως αποτέλεσμα η εξακρίβωση της συναισθηματικής κατάστασης ενός ομιλητή να ανάγεται στην αναγνώριση τεσσάρων μέχρι οκτώ βασικών καταστάσεων. Ένα σημαντικό πρόβλημα που μπορεί να αντιμετωπίσει κάποιος είναι η ύπαρξη κατάλληλων (αξιόπιστων) ηχογραφήσεων για την εξαγωγή κανόνων. Οι βάσεις συναισθηματικής ομιλίας κατατάσσονται σε δύο κατηγορίες, αυτές που περιέχουν αυθόρμητο προφορικό λόγο, ο οποίος είναι αντιπροσωπευτικός της καθημερινής ζωής (πολύ δύσκολη η συλλογή του) και σε αυτές που περιέχουν υποκριτικό προφορικό λόγο. Η συλλογή του αυθόρμητου συναισθηματικού προφορικού λόγου μπορεί να προέρχεται είτε από πραγματικά γεγονότα (π.χ. τηλεφωνικά κέντρα, τηλεοπτικές εκπομπές) είτε από συγκεκριμένες συνθήκες στις οποίες υποβάλλεται ο ομιλητής προκειμένου να ηχογραφηθούν οι επιθυμητές καταστάσεις. 65

90 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Στην τελευταία περίπτωση υπάρχουν πολλοί ηθικοί προβληματισμοί όσον αφορά την ψυχολογία του ομιλητή. Έχει δειχθεί στην εργασία του (Montero et al., 1998) ότι οι ηχογραφήσεις συναισθημάτων με πραγματικούς ηθοποιούς είναι μια πολύ καλή προσέγγιση της αντίστοιχης πραγματικής συναισθηματικής ομιλίας Χαρακτηριστικά ηχογραφήσεων συναισθηματικής ομιλίας Η Ελληνική βάση συναισθηματικής ομιλίας (GrES) η οποία έχει αναπτυχθεί στο εργαστήριο ενσύρματης τηλεπικοινωνίας του πανεπιστημίου Πατρών αποτελεί κομμάτι της προσωδιακής βάσης ομιλίας WCL-1 για την έρευνα της σύνθεσης ομιλίας (Zervas et al., 2003). Η τελική επιλογή των συναισθηματικών καταστάσεων που ηχογραφήθηκαν έγινε με βάση τα αποτελέσματα της έρευνας του Οάτλεϊ (Oatley, et al., 1998). Έτσι οι πραγματοποιηθείσες ηχογραφήσεις περιλαμβάνουν συναισθήματα θυμού, χαράς, λύπης, φόβου καθώς και μιας ουδέτερης συγκινησιακής κατάστασης. Για την εκφώνηση του σώματος κειμένου επιλέχθηκε η ίδια εκφωνήτρια που χρησιμοποιήθηκε και για το προσωδιακό σώμα ομιλίας της WCL-1. Το κείμενο που χρησιμοποιήθηκε για τις ηχογραφήσεις ήταν το ίδιο για όλες τις συναισθηματικές καταστάσεις χωρίς να εμπεριέχει κάποιο συγκεκριμένο συναισθηματικό φορτίο. Η επιλογή του να χρησιμοποιήσουμε το ίδιο κείμενο για όλες τις συναισθηματικές συνόδους ηχογραφήσεων έγινε προκειμένου να εξομαλύνουμε την επίδραση της σημασιολογίας των εκφράσεων στην απόδοση των συναισθημάτων από τον εκφωνητή. Συγκεκριμένα ζητήθηκε μια συνήθη έκφραση των επιλεχθέντων καταστάσεων χωρίς θεατρικές υπερβολές. Αφού εξέφραζε όλο το σώμα κειμένου με μια συναισθηματική κατάσταση τότε προχωρούσε στο επόμενο. Με αυτό τον τρόπο είχε Πίνακας 12: Αξιολόγηση των ηχογραφήσεων από ακροατές Ερέθισμα Απόκριση (%) Θυμός Χαρά Λύπη Φόβος Ουδέτερη Θυμός Χαρά Λύπη Φόβος Ουδέτερη εξασφαλισθεί το ότι δεν θα άλλαζε συναισθηματική έκφραση περισσότερες από τόσες φορές όσες ήταν τα συναισθήματα της βάσης ομιλίας. Το τελικό σώμα ομιλίας αποτελούνταν από 10 φράσεις με μία λέξη, 20 μικρές προτάσεις, 25 περιόδους και 12 παραγράφους συνεχούς λόγου (από 3 μέχρι 5 προτάσεις η κάθε μία). Μετά τον σχεδιασμό και την δημιουργία της βάσης ακολούθησε η αξιολόγηση των ηχογραφήσεων από ακροατές. Τα αποτελέσματα της αξιολόγησης παρουσιάζονται στον πίνακα 12. Από το πίνακα βλέπουμε ότι συναισθήματα όπως 66

91 Προσωδιακή βάση ομιλίας (WCL-1) ο θυμός και η χαρά παρουσίασαν μεγάλο ποσοστό αναγνώρισης. Από την άλλη μεριά, στις περιπτώσεις των κατηγοριών του φόβου και της λύπης τα ποσοστά αναγνώρισης είναι χαμηλότερα, φανερώνοντας την δυσκολία αναγνώρισης κάποιων ηχογραφήσεων. Σκοπός της δουλειάς μας είναι η συστηματική έρευνα της ομιλίας με συναισθηματικό περιεχόμενο με σκοπό την μοντελοποίηση των συναισθημάτων σε ακουστικό επίπεδο. Με απώτερο σκοπό την δυνατότητα αυτή την πληροφορία να μπορεί να εφαρμοστεί σε ένα σύστημα ΜΚσΟ Ανάπτυξη τεχνικής για την αυτόματη τεμαχιοποίηση ηχογραφήσεων Η κατάτμηση της συνεχούς ομιλίας σε γλωσσολογικά καθορισμένα τμήματα, όπως τα φωνήματα, είναι ένα πολύ σημαντικό ζήτημα για διάφορες περιοχές επεξεργασίας του λόγου. Σήματα ομιλίας υποσημειωμένα σε φωνητικό επίπεδο είναι απαραίτητα για την έρευνα στους χώρους της αναγνώρισης και σύνθεσης ομιλίας. Ειδικά στην περίπτωση της σύνθεσης ομιλίας είδαμε ότι είναι βασική προϋπόθεση για την δημιουργία νέων φωνών σε συστήματα σύνθεσης με κανόνες και συρραφής κυματομορφών όπως και για την ανάπτυξη μοντέλων επιτονισμού (προσωδιακές βάσεις ομιλίας, διάρκειες). Υπάρχουν δύο προσεγγίσεις στις τεχνικές κατάτμησης φωνημάτων, οι εξαρτώμενες και οι μη-εξαρτώμενες από κείμενο. Στις εξαρτώμενες από κείμενο προσεγγίσεις λαμβάνει χώρα μια διαδικασία αντιστοίχισης της φωνητικής μεταγραφής του κειμένου με την αντίστοιχη κυματομορφή σε επίπεδο ορίων φωνήματος. Οι εξαρτώμενες από κείμενο προσεγγίσεις επιτυγχάνουν μεγάλα ποσοστά ακρίβειας και είναι ιδανικές για την αυτόματη αντιστοίχηση κειμένου και ηχογράφησης, όπου η φωνητική μεταγραφή είναι συνήθως γνωστή. Όσον αφορά τις μη-εξαρτώμενες από κείμενο προσεγγίσεις, τα όρια των φωνημάτων ανιχνεύονται χωρίς γνώση του κειμένου που αντιστοιχεί στο προς επεξεργασία λεκτικό σήμα. Πολλές προσεγγίσεις αυτόματης κατάτμησης φωνημάτων χρησιμοποιούν τις φασματικές παραμέτρους για να την ανίχνευση των ορίων. Οι δημοφιλέστεροι παράμετροι που χρησιμοποιούνται είναι η καμπύλη F0, η καμπύλη ενέργειας, ο ρυθμός μεταβολής της εντροπίας στο επίπεδο του χρόνο και τα παράγωγά τους όπως τα λογαριθμικά και τα δέλτα περιγράμματα, (Essa, 1998), (Wokurek, 2000), (Wang, et al., 2003), (Adami, Hermansky, 2003). Στην εργασία των (Aversano et al., 2001) προτείνεται μια μέθοδος κατάτμησης η οποία στηρίζεται στην αντιληπτική ανάλυση των κρίσιμων φασματικών ζωνών σήματος ομιλίας και εισάγοντας το ως είσοδο σε μια συνάρτηση απόφασης δίνοντας ακρίβεια 73,58% σε χρονικό παράθυρο ±20 msec στην DARPA-TIMIT. Σε μια άλλη εργασία (Suh, Lee, 1996) προτείνουν μια 67

92 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας δομή η οποία βασίζεται σε ένα νευρωνικό δίκτυο (multi-layer perceptron) και αναφέρουν απόδοση 87% με διάστημα ανοχής 15msec και σε περίπτωση βάσεων ομιλίας εξαρτωμένων από ομιλητή η απόδοση ανεβαίνει κατά 3.4%. Οι (Svendsen, Kvale, 1990) προτείνουν μια διαδικασία κατάτμησης φωνημάτων η οποία πραγματοποιήται σε δύο επίπεδα και βασίζεται στην μηχανισμό εκπαίδευσης ΗΜΜ, και εκθέτουν ακρίβεια 80-85% για τέσσερις γλώσσες με χρονική ανοχή 20 msec. Τέλος οι (Grayden, Scordilis, 1994) προτείνουν μια Μπαεϋζιανή επιφάνεια απόφασης για τη διαίρεση της ομιλίας σε ευδιάκριτες ηχηρές και μη ηχηρές περιοχές εφαρμόζοντας σε κάθε μια από αυτές παρουσιάζοντας 80% ακρίβειας αναφέρεται με ένα ποσοστό εισαγωγής (insertion rate) 12% Επισκόπηση συστήματος Η προτεινόμενη μέθοδος για την αυτόματη κατάτμηση της ομιλίας σε επίπεδο φωνημάτων βασίζεται στην υπόθεση ότι κάθε φώνημα αποτελείται από μια ακολουθία στοιχειωδών σημάτων που παράγονται από την κίνηση της γλωττίδας (περιοδική κίνηση όταν πρόκειται για ηχηρούς ήχους μη-περιοδική για μη-ηχηρούς). Τα χρονικά σημεία στα οποία κλείνει η γλωττίδα κατά την παραγωγή ενός ήχου καλούνται τονικά-σημάδια (pitchmarks). Ξεκινώντας από αυτή την υπόθεση και δεδομένου ότι τα χαρακτηριστικά άρθρωσης ενός φωνήματος αλλάζουν σημαντικά στην έμβαση (onset) και έκβαση (offset) αυτού και διατηρούνται σταθερά στο ενδιάμεσο διάστημα όπως είδαμε και στο σχήμα 20, καταλήγουμε στο συμπέρασμα ότι τα όρια του φωνήματος θα μπορούσαν να εξακριβωθούν αν μετρούσαμε το πόσο διαφέρει γεωμετρικά πλέον το κάθε διάστημα (που ορίζεται από την θέση των τονικών σημείων) από το επόμενο του. Άλλωστε η υπόθεση αυτή είναι βασική στον χώρο της σύνθεση ομιλίας τόσο για την ανάπτυξη και τεμαχιοποίηση βάσεων διφώνων όσο και κατά την επεξεργασία του σήματος ομιλίας για τροποποίηση των προσωδιακών χαρακτηριστικών με τεχνικές όπως η TD-PSOLA (όπως θα δούμε και στο κεφάλαιο 4). Σ ή μ α Κ α τ ά τ μ η σ η ο μ ιλ ί α ς α π ό τ α τ ο ν ι κ ά σ η μ ά δ ι α ο μ ι λ ία ς Ε ξ α γ ω γ ή τ ο ν ι κ ώ ν - Ε ξ ο μ ά λ υ ν σ η Ό ρ ια Σ ύ γ κ ρ ι σ η τ μ η μ ά τ ω ν Α ν ί χ ν ε υ σ η μ ε γ ί σ τ ω ν σ η μ α δ ι ώ ν τ μ η μ ά τ ω ν Εικόνα 36. Δομικό διάγραμμα συστήματος κατάτμησης φωνημάτων. Κ α τ ώ φ λ ι α ν ο χ ή ς Την κατάτμηση του σήματος ομιλίας με βάση την θέση των τονικών σημαδιών (pitch synchronously) ακολουθεί η εφαρμογή ενός φίλτρου το οποίο θα απομακρύνει από το σήμα (στο πεδίο του χρόνου) μικρές διακυμάνσεις που λαμβάνουν χώρα και δεν επηρεάζουν την καμπύλη ταλάντωσης σε μιας τονικής περιόδου (pitch period). Τελικά, το τμήματα ομιλίας Σ υ ν ά ρ τ η σ η κ ό σ τ ο υ ς 68

93 Προσωδιακή βάση ομιλίας (WCL-1) εισάγονται ως είσοδο σε ένα αλγόριθμο σύγκρισης όπου μετράτε η απόσταση μεταξύ των παρακείμενων πλαισίων. Τα αποτελέσματα της σύγκρισης μας οδηγούν στην ανίχνευση των ορίων των φωνημάτων. Στην εικόνα 36 παρουσιάζεται ένα δομικό διάγραμμα της προτεινόμενης διαδικασίας για την αυτόματη κατάτμηση του σήματος ομιλίας Ανίχνευση ορίων φωνημάτων Όπως αναφέρεται ανωτέρω, τα όρια ενός φωνήματος παρατηρούνται στα διαστήματα συνάρθρωσης κατά την παραγωγή του λόγου. Δεδομένου ότι ο τρόπος της άρθρωσης είναι σχεδόν σταθερός κατά τη διάρκεια παραγωγής ενός συγκεκριμένου φωνήματος, τα πλαίσια που βρίσκονται στο ίδιο φώνημα και μακρυά από τις περιοχές συνάρθρωσης θα έχουν όμοιο περίγραμμα. Σε αντίθεση με αυτό, πλαίσια τα οποία βρίσκονται σε περιοχές με ισχυρά φαινόμενα συνάρθρωσης (όρια φωνημάτων) θα έχουν διαφορετικά περιγράμματα καθώς ο τρόπος της άρθρωσης αλλάζει. Για να υπολογίσουμε τη διαφορά μεταξύ του περιγράμματος κάθε πλαισίου και των παρακείμενων αυτών της χρησιμοποιήσαμε την μέθοδο Δυναμικής Περιτύλιξης του Χρόνου, ΔΠΧ (Dynamic Time Warping DTW) (Suh, Lee, 1996). Όσο πιο όμοια είναι τα παρακείμενα περιγράμματα πλαισίων, δηλαδή τα πλαίσια στο ίδιο φώνημα, τόσο το μονοπάτι απόστασης είναι κοντά στο μηδέν. Αντίστοιχα, όσο πιο ανόμοια είναι τα παρακείμενα περιγράμματα πλαισίων, δηλαδή πλαίσια κοντά στα όρια φωνήματος, τόσο το μονοπάτι απομακρύνεται από το μηδέν. Μια χαρακτηριστική μορφή της υπολογισμένης συνάρτησης κόστους παρουσιάζεται στο σχήμα 37. 0, 3 0, 2 5 Τ ι μ ή Σ c o υ s ν t ά f ρ u τ η n σ c t η i ς o Κ n ό σ τ ο υ ς 0, 2 0, 1 5 0, 1 0, Τ p οi tν cι κh ο- mί πa αr λk μs ο ί Εικόνα 37. Εξακρίβωση τον οριακών σημείων ανιχνεύοντας τις κορυφές της συνάρτησης κόστους. 69

94 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Το τελικό στάδιο στην διαδικασία μας είναι η τοποθέτηση ενός ορίου φωνήματος σε κάθε πλαίσιο που αντιστοιχεί σε μια αιχμή της συνάρτησης κόστους. Για να αποφασίσουμε ποιες από τις αιχμές της καμπύλης κόστους αντιστοιχούν σε όρια εφαρμόζουμε μια λειτουργική παράμετρο, το κατώφλι (thr). Αφού υπολογίσουμε τα τοπικά μέγιστα της συνάρτησης κόστους μια αιχμή ανιχνεύεται ως όριο φωνήματος εάν η απόσταση μεταξύ της και του ελάχιστου των παρακείμενων ελάχιστων τιμών είναι μεγαλύτερη από την τιμή thr Δεδομένα εξέτασης και πειράματα Για να μετρήσουμε την απόδοση της προτινόμενης αυτόματης διαδικασίας για την εύρεση των ορίων φωνημάτων, χρησιμοποιήσαμε τις επισημειωμένες βάσης ομιλίας WCL-1 (Mporas, Zervas, et al., 2006) και TIMIT (Mporas, Zervas, et al., 2006). Καταλήξαμε στην επιλογή των βάσεων αυτών για τους εξής λόγους: α) όσον αφορά την WCL-1 επειδή είναι μια ελληνική βάση ομιλίας σχεδιασμένη για την μελέτη της σύνθεσης ομιλίας και β) την TIMIT γιατί είναι μια πάρα πολύ διαδεδομένη βάση η οποία έχει χρησιμοποιηθεί επανειλημμένος για τέτοιες εφαρμογές οπότε θα είμαστε σε θέση να συγκρίνουμε τα αποτελέσματα μας με προηγούμενες σχετικές εργασίες. Στα πλαίσια της παρούσας διατριβής θα ασχοληθούμε μόνο με τα αποτελέσματα της εφαρμογής της μεθόδου στην βάση προσωδιακής ομιλίας WCL Αποτελέσματα Κάθε μια από τις ηχογραφήσεις και για τις δύο βάσεις ομιλίας συνοδεύονται και από ένα αρχείο το οποίο περιέχει την πληροφορία των ορίων των φωνημάτων που την απαρτίζουν. Όπως εξηγήσαμε και στην παράγραφο 3.6.1, το σήμα ομιλίας είναι χωρισμένο σε διαστήματα (ή πλαίσια) με βάση την ακολουθία των τονικών-σημαδιών. Εν συνεχεία μέσω μιας συνάρτησης κόστους υπολογίζεται το ποσό ομοιότητας των περιγραμμάτων των παρακείμενων πλαισίων. Σαν συνέπεια, κάθε όριο που ανιχνεύεται από την συνάρτηση κόστους θεωρούμε ότι βρίσκεται στο μέσον της περιοχής μεταξύ δύο των γειτονικών τονικών-σημαδιών. Ένα όριο το οποίο βρέθηκε με αυτή την διαδικασία θεωρούμε ότι είναι σωστό όταν η απόσταση του από το πραγματικό όριο (επισημειωμένο) είναι μικρότερο από έναν χρόνο t msec. Για τον υπολογισμό της απόδοσης του συστήματος μας χρησιμοποιούμε την έννοια της ακρίβειας (accuracy) και υπερ-κατάτμησης (over-segmentation). Ως ακρίβεια ορίζουμε το ποσοστό των σωστά ανιχνευθέντων ορίων P c προς τον συνολικό αριθμό των πραγματικών ορίων κατάτμησης P t. Ακρίβεια= P c P t 100 (1) 70

95 Προσωδιακή βάση ομιλίας (WCL-1) A C Α C κ U ρ R ί β A ε C ι α Y ( ( % % ) ) S S 2 S 3 S O Υ V π E ε R ρ τ - S ε μ E α G χ M ι ο E π N ο T ί η A σ T η I O N Εικόνα 38. Ακρίβεια ευρείας φωνημικής κατάτμησης σε συνάρτηση με την τιμή της υπερκατάτμησης για διαφορετικούς δείκτες εξομάλυνσης (S) (S1=1, S2=50, S3=80, S4=130). Για την αξιολόγηση της προτεινόμενης τεχνικής διάφορα πειράματα πραγματοποιήθηκαν. Ο κύριος σκοπός μας ήταν η βελτίωση ακρίβειας κρατώντας τον παράγοντα υπερ-κατάτμησης κοντά στην τιμή 1. Κατά συνέπεια, μια πληθώρα παραγόντων υπερ-κατάτμησης εξετάστηκε. Επιπλέον, ερευνήσαμε την ακρίβεια της διαδικασίας μας για t=25msec. Το σχήμα 38 δείχνει την σχέση ακρίβειας και υπερ-κατάτμησης για διάφορες τιμές παραγόντων εξομάλυνσης Τα καλύτερα αποτελέσματα που επιτεύχθηκαν ήταν 76,1% χωρίς την εμφάνιση υπερκατάτμησης με έναν συντελεστή εξομάλυνσης ίσο με 80 και τιμή κατωφλίου ίση με Thr=2,5 10-4, (υπερ-κατάτμηση<1,05). Η ακρίβεια της μεθόδου μπορεί να βελτιωθεί αν αποδεκτούμε μεγαλύτερες τιμές υπερ-κατάτμησης. Για τιμή υπερ-κατάτμησης ίση με 1,6 η μέθοδος πετυχαίνει ακρίβεια μεγαλύτερη από 90%, όπως φανερώνει η εικόνα38. 71

96 Μοντελοποίηση και ψηφιακή επερξεργασία προσωδιακών φαινομένων της Ελληνικής με εφαρμογή στη σύνθεση ομιλίας Kεφάλαιο 4ο Σύστημα μετατροπής κειμένου σε ομιλία 4.1 Αρχιτεκτονική συστήματος μετατροπής κειμένου σε ομιλία Ένα σύστημα ΜΚσΟ αποτελείται κατά κύριο λόγο από δύο βασικές διαδικασίες/συστατικά (Dutoit, 1997), (Sproat, 1998): την Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing NLP) και την Επεξεργασία Σήματος (Signal Processing SP2). Η πρώτη ασχολείται με (α) τη διαμόρφωση της προσωδιακής συμπεριφοράς ενός κείμενου (Text-to- Prosody TtP) καθώς και (β) της κατάλληλης φωνηματικής ροής (phonetic transcription) για το δοθέν κείμενο, τροφοδοτώντας τη δεύτερη διαδικασία (DSP) με επαρκή φωνητική και προσωδιακή πληροφορία για τη γένεση ενός ακουστικού σήματος ομιλίας. Στα πλαίσια του παρόντος διδακτορικού αναπτύχθηκε ένα ερευνητικό σύστημα μετατροπής κειμένου σε ομιλία για την Ελληνική γλώσσα. Βασικός σκοπός του είναι η δυνατότητα επεξεργασίας του κειμένου εισόδου, η δημιουργία διανυσμάτων με χαρακτηριστικά τα οποία θα χρησιμοποιηθούν για την δημιουργία προσωδιακών μοντέλων και στη συνέχεια η δυνατότητα χρήσης των προσωδιακών προδιαγραφών που προκύπτουν για την δημιουργία συνθετικού λόγου. Εικόνα 39. Μπλοκ διάγραμμα συστήματος ανάπτυξης μοντέλων προσωδίας και ΜΚσΟ 72

Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems)

Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Συστήματα Μετατροπής Κειμένου σε Ομιλία (TTS Systems) ιπλωματική

Διαβάστε περισσότερα

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής Συστήματα αναγνώρισης ομιλίας και χρήση τους Αναστάσιος Φραντζής ΓΤΠ 61 0/0/202 01/04/2012 Συσκευές αλληλεπίδρασης εισόδου 1. Εισαγωγής κειμένου 3. Αναγνώριση κειμένου, χειρογράφου, φωνής Πληκτρολόγιο

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Τεχνολογία σύνθεσης φωνής από κείμενο

Τεχνολογία σύνθεσης φωνής από κείμενο Τεχνολογία σύνθεσης φωνής από κείμενο Ηεξέλιξησεδιεθνέςεπίπεδο Πρώτο σύστημα ~1939 Ταχύτερη εξέλιξη δεκαετία 70 με την ανάπτυξη των υπολογιστών Πρώτα χρήσιμα συστήματα τέλη δεκαετίας 80 Ωρίμανση της τεχνολογίας

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 1: Επικοινωνία, Λόγος, Ομιλία (2ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Ενότητα 2: Βασικά χαρακτηριστικά της ομιλίας Γ ε ώ ρ γ ι ο ς Κ ο υ ρ ο υ π έ τ ρ ο γ λ ο υ koupe@di.uoa.gr

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΝΟΤΗΤΑ 1 1.0 ΤΕΧΝΟΛΟΓΙΑ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΙΣΑΓΩΓΗ Γενικά οι τεχνολογίες είναι επιστήμες που αξιοποιούν τις γνώσεις, τα εργαλεία και τις δεξιότητες για επίλυση προβλημάτων με πρακτική εφαρμογή. Η Τεχνολογία

Διαβάστε περισσότερα

13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο

13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο 13 ο ΠΑΓΚΥΠΡΙΟ ΣΥΝΕΔΡΙΟ ΔΥΣΛΕΞΙΑΣ Σάββατο 6 Οκτωβρίου 2010 Εργαστήριο «Δυσλεξία: Μια λέξη δύσκολη και μόνο να την πεις φαντάσου το μαρτύριο όμως να τη ζεις» Μαρία Χριστοπούλου, Ευρωπαϊκό Πανεπιστήμιο Κύπρου,

Διαβάστε περισσότερα

Θέµα 5 ο Σύνθεση Οµιλίας

Θέµα 5 ο Σύνθεση Οµιλίας Θέµα 5 ο Σύνθεση Οµιλίας Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή ενός κειµένου εισόδου (που αποτελείται από

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 4: Χαρακτηριστικά της Ομιλίας Φωνητική και Φωνολογία (2ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ

Η γλώσσα ως σύστημα και ως χρήση. Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ Η γλώσσα ως σύστημα και ως χρήση Ασπασία Χατζηδάκη, Επίκουρη καθηγήτρια ΠΤΔΕ 2009-10 Τι είναι γλώσσα; Γλώσσα είναι το σύστημα ήχων ( φθόγγων ) και εννοιών που χρησιμοποιούν οι ανθρώπινες κοινότητες για

Διαβάστε περισσότερα

- Καθυστέρηση λόγου (LLI)

- Καθυστέρηση λόγου (LLI) Πολλά άτομα με βαρηκοΐα/κώφωση (Είναι η μερική ή ολική απώλεια των ηχητικών ερεθισμάτων μέσω της ακουστικής οδού. Γίνεται λοιπόν κατανοητό πως προκύπτει δυσκολία επεξεργασίας και παραγωγής των ήχων συνεπώς

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου

Επαναληπτικές Ασκήσεις. Κάτια Κερμανίδου Επαναληπτικές Ασκήσεις Κάτια Κερμανίδου kerman@ionio.gr Διαδίκτυο Tι από τα παρακάτω αποτελεί χαρακτηριστικό της web 2.0 φάσης της εξέλιξης του ιστού, και δεν υπήρχε στην φάση web 1.0 ιστοσελίδες με δυνατότητες

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 8 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ Μαρία Θ. Παπαδοπούλου, PhD Σχολική Σύμβουλος 6ης Περιφέρειας Π.Ε. ν. Λάρισας Ελασσόνα, 19 Νοεμβρίου 2012 Επιμέρους τομείς στο γλωσσικό μάθημα 1. Προφορικός Λόγος

Διαβάστε περισσότερα

Δραστηριότητες γραμματισμού: Σχεδιασμός

Δραστηριότητες γραμματισμού: Σχεδιασμός Δραστηριότητες γραμματισμού: Σχεδιασμός Αφροδίτη Οικονόμου Νηπιαγωγός afoikon@uth.gr Μαρία Παπαδοπούλου Αν. Καθηγήτρια, Π.Τ.Π.Ε., Π.Θ. mariapap@uth.gr Η παρουσίαση αναπτύχθηκε για την πλατφόρμα Ταξίδι

Διαβάστε περισσότερα

Φωνολογική Ανάπτυξη και Διαταραχές

Φωνολογική Ανάπτυξη και Διαταραχές 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Φωνολογική Ανάπτυξη και Διαταραχές Ενότητα 1: Εισαγωγικές Επισημάνσεις Ζακοπούλου Βικτωρία 2 Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ηπείρου Τμήμα

Διαβάστε περισσότερα

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3)

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3) Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (3) Δυσκολίες στην ανάγνωση Τα θεωρητικά μέρη του δικτύου οπτικής αναγνώρισης λέξεων και οι εκτιμώμενες θέσεις τους στο αριστερό ημισφαίριο του εγκεφάλου του έμπειρου

Διαβάστε περισσότερα

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001 Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία Αναστασία Λαµπρινού Δεκέµβριος 2001 Γλώσσα- είναι µία ταξινοµική αρχή, ένας κώδικας επικοινωνίας, ένα κοινωνικό φαινόµενο έξω από το άτοµο. Οµιλία-

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 5 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

Προηγµένη ιασύνδεση µε τοπεριβάλλον

Προηγµένη ιασύνδεση µε τοπεριβάλλον Προηγµένη ιασύνδεση µε τοπεριβάλλον! Επεξεργασία φυσικής γλώσσας # Κατανόηση φυσικής γλώσσας # Παραγωγή φυσικής γλώσσας! Τεχνητή όραση! Ροµποτική Κατανόηση Φυσικής Γλώσσας! Αναγνώριση οµιλίας (Speech recognition)!

Διαβάστε περισσότερα

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Αντίληψη της ομιλίας Απεικόνιση της πρότασης «θα σας διηγηθώ την ιστορία των δύο νέων» κυματομορφή Φασματόγραμμα Συνάρθρωση Οι φθόγγοι αλληλεπικαλύπτονται μέσα

Διαβάστε περισσότερα

5. Λόγος, γλώσσα και ομιλία

5. Λόγος, γλώσσα και ομιλία 5. Λόγος, γλώσσα και ομιλία Στόχοι της γλωσσολογίας Σύμφωνα με τον Saussure, βασικός στόχος της γλωσσολογίας είναι να περιγράψει τις γλωσσικές δομές κάθε γλώσσας με στόχο να διατυπώσει θεωρητικές αρχές

Διαβάστε περισσότερα

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας Επιµορφωτικό Σεµινάριο Ξενοδοχείο Caravel, 10-11 Μαΐου 2003 Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της Γεράσιµος Ξύδας Πληροφορίας BSc, MSc Πληροφορικής, υποψ. διδάκτωρ Εθνικό και

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Ψυχογλωσσολογία Ενότητα 3 : Αντίληψη προφορικού λόγου Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Σκοποί ενότητας Αντίληψη λόγου Προσωδία Θεωρίες για την αντίληψη του λόγου Ακουστική Κινητική

Διαβάστε περισσότερα

Keywords λέξεις κλειδιά:

Keywords λέξεις κλειδιά: ΑΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΕΠΙΣΤΗΜΩΝ Τμήμα Μηχανικών Μουσικής Τεχνολογίας & Ακουστικής ''Κοχλιακά εμφυτεύματα: προσομοίωση της ακοής μέσω εφαρμογής και απεικόνιση της διασποράς ηλεκτρικού πεδίου με

Διαβάστε περισσότερα

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ. 1) Στάση του μαθητή/τριας κατά τη διάρκεια του μαθήματος: Δεν την κατέχει. Την κατέχει μερικώς. επαρκώς ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ Όνομα μαθητή/μαθήτριας:... Ισχύουσα Διάγνωση:... Στήριξη από ειδικό εκπαιδευτικό προσωπικό (ψυχολόγο, λογοθεραπευτή, εργοθεραπευτή, κτλ.):... Σχολικό Έτος:... Σχολείο:.... Τάξη/Τμήμα:...

Διαβάστε περισσότερα

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να:

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Ο ΑΝΘΡΩΠΟΣ ΚΑΙ Η ΤΑΥΤΟΤΗΤΑ ΤΟΥ ΠΟΛΥΤΡΟΠΙΚΑ ΚΕΙΜΕΝΑ ΜΑΘΗΣΙΑΚΟΙ ΣΤΟΧΟΙ Ανταποκρίνονται στην ακρόαση του προφορικού

Διαβάστε περισσότερα

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες Η διάγνωση των διαταραχών λόγου πρέπει να γίνεται έγκαιρα, μόλις οι γονείς αντιληφθούν οτι κάτι ισως δεν πάει καλά και πρέπει να παρουσιάσουν το παιδί τους στον ειδικό. Ο ειδικός θα λάβει μέτρα για την

Διαβάστε περισσότερα

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων Διάλεξη 9 Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Ανασκόπηση της Διάλεξης 8 Εξετάσαμε την αντίληψη του ύψους ενός καθαρού

Διαβάστε περισσότερα

«Δοκιμασία Εκφραστικού Λεξιλογίου σε τυπικά αναπτυσσόμενα παιδιά ηλικίας 6 8 ετών»

«Δοκιμασία Εκφραστικού Λεξιλογίου σε τυπικά αναπτυσσόμενα παιδιά ηλικίας 6 8 ετών» «Δοκιμασία Εκφραστικού Λεξιλογίου σε τυπικά αναπτυσσόμενα παιδιά ηλικίας 6 8 ετών» Γλώσσα: Το φυσικό εκείνο σύστημα επικοινωνίας που χρησιμοποιείται από τον άνθρωπο και έχει ως βάση του τον έναρθρο λόγο.

Διαβάστε περισσότερα

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο

Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο Κεφάλαιο Ένα Επίπεδο 1 Στόχοι και Περιεχόμενο 1.1 Στόχοι Οι σπουδαστές στο Επίπεδο 1 του ICCLE είναι ικανοί να κατανοούν βασικά γλωσσικά στοιχεία που σχετίζονται με συνήθη καθημερινά θέματα. Είναι ικανοί

Διαβάστε περισσότερα

Τα ηλεκτρονικά σήματα πληροφορίας διακρίνονται ανάλογα με τη μορφή τους σε δύο κατηγορίες : Αναλογικά σήματα Ψηφιακά σήματα

Τα ηλεκτρονικά σήματα πληροφορίας διακρίνονται ανάλογα με τη μορφή τους σε δύο κατηγορίες : Αναλογικά σήματα Ψηφιακά σήματα ΕΝΟΤΗΤΑ 2 2.0 ΗΛΕΚΤΡΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΑΡΧΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΕΙΣΑΓΩΓΗ Ηλεκτρικό σήμα ονομάζεται η τάση ή το ρεύμα που μεταβάλλεται ως συνάρτηση του χρόνου. Στα ηλεκτρονικά συστήματα επικοινωνίας, οι πληροφορίες

Διαβάστε περισσότερα

Γλώσσα : Ορισμός, Ανάπτυξη & Διαταραχές. Μαρίτσα Καμπούρογλου Λογοπεδικός Ίδρυμα για το Παιδί «Η Παμμακάριστος»

Γλώσσα : Ορισμός, Ανάπτυξη & Διαταραχές. Μαρίτσα Καμπούρογλου Λογοπεδικός Ίδρυμα για το Παιδί «Η Παμμακάριστος» Γλώσσα : Ορισμός, Ανάπτυξη & Διαταραχές Μαρίτσα Καμπούρογλου Λογοπεδικός Ίδρυμα για το Παιδί «Η Παμμακάριστος» Προϋποθέσεις Προγράμματος Παρέμβασης Η καλή κατανόηση της φύσης της διαταραχής Η σε βάθος

Διαβάστε περισσότερα

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Ενότητα 2: Ο Άνθρωπος Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 2015-16 Παρουσίαση Νο. 1 Εισαγωγή Τι είναι η εικόνα; Οτιδήποτε μπορούμε να δούμε ή να απεικονίσουμε Π.χ. Μια εικόνα τοπίου αλλά και η απεικόνιση

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής Ο ήχος Ο ήχος είναι μια μορφή ενέργειας Είναι οι παλμικές δονήσεις που δημιουργούνται από ένα οποιοδήποτε σώμα, όταν τεθεί σε κίνηση, σε κραδασμό Την κίνηση σε ένα σώμα που βρίσκεται σε αδράνεια, μπορεί

Διαβάστε περισσότερα

Αναπτυξιακά ορόσημα λόγου

Αναπτυξιακά ορόσημα λόγου Αναπτυξιακά ορόσημα λόγου 0-6 μηνών 7-12 μηνών 13-18 μηνών 19-24 μηνών 2-3 ετών 3-4 ετών 4-5 ετών 5-6 ετών 6-7 ετών 0-6 μηνών Επαναλαμβάνει τους ίδιους ήχους Συχνά μουρμουρίζει, γελά και παράγει ευχάριστους

Διαβάστε περισσότερα

Ο γραπτός λόγος στην αναπηρία. Ε. Ντεροπούλου

Ο γραπτός λόγος στην αναπηρία. Ε. Ντεροπούλου Ο γραπτός λόγος στην αναπηρία Ε. Ντεροπούλου ΘΕΩΡΗΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Η εκμάθηση, η κατανόηση, η κατάκτηση της αναγνωστικής διαδικασίας και η πολυπλοκότητα του αναγνωστικού μηχανισμού απασχολεί ένα ευρύ

Διαβάστε περισσότερα

ΟΡΓΑΝΩΣΙΑΚΗ ΣΥΜΠΕΡΙΦΟΡΑ

ΟΡΓΑΝΩΣΙΑΚΗ ΣΥΜΠΕΡΙΦΟΡΑ ΟΡΓΑΝΩΣΙΑΚΗ ΣΥΜΠΕΡΙΦΟΡΑ Γκορέζης Παναγιώτης Επιστημονικός Συνεργάτης ΑΠΘ Μπέλλου Βικτώρια Επίκ. Καθηγήτρια ΠΘ 2 Επικοινωνία Κανένα άτομο, ομάδα ή οργανισμός δε υφίσταται χωρίς την επικοινωνία Σημαντικό

Διαβάστε περισσότερα

ΔΙΓΛΩΣΣΙΑ ΜΕ ΣΤΟΙΧΕΙΑ ΔΙΑΤΑΡΑΧΩΝ ΛΟΓΟΥ -ΟΜΙΛΙΑΣ ΚΑΙ ΜΑΘΗΣΙΑΚΩΝ ΔΥΣΚΟΛΙΩΝ : ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΕΩΝ

ΔΙΓΛΩΣΣΙΑ ΜΕ ΣΤΟΙΧΕΙΑ ΔΙΑΤΑΡΑΧΩΝ ΛΟΓΟΥ -ΟΜΙΛΙΑΣ ΚΑΙ ΜΑΘΗΣΙΑΚΩΝ ΔΥΣΚΟΛΙΩΝ : ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΕΩΝ ΔΙΓΛΩΣΣΙΑ ΜΕ ΣΤΟΙΧΕΙΑ ΔΙΑΤΑΡΑΧΩΝ ΛΟΓΟΥ -ΟΜΙΛΙΑΣ ΚΑΙ ΜΑΘΗΣΙΑΚΩΝ ΔΥΣΚΟΛΙΩΝ : ΘΕΩΡΗΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΚΑΙ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΕΩΝ Σπουδάστρια: Αθηνά Κατσαντώνη (9923) Εποπτεύων καθηγητής: κ ος Πέσχος Δημήτριος. Τριμελής

Διαβάστε περισσότερα

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (1)

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (1) Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (1) Ποιοι μιλούν Η γλώσσα των ζώων Είναι αυτόγλώσσα; Η Dr Pepperberg και ο Alex (ο παπαγάλος) 3 Δομή της γλώσσας Πώς μελετούν τη γλώσσα η γνωστική ψυχολογία, η νευροψυχολογία

Διαβάστε περισσότερα

Στοιχεία Επιτονισμού. Μαρία Μπαλτατζάνη

Στοιχεία Επιτονισμού. Μαρία Μπαλτατζάνη Στοιχεία Επιτονισμού Μαρία Μπαλτατζάνη Α. Εμπειρικά Φαινόμενα Ο επιτονισμός κάνει τη διαφορά Σε ποια περικείμενα ταιριάζει κάθε μελωδία Α: Δεν πίνει γιατί είναι δυστυχισμένος. Β: Δεν πίνει γιατί είναι

Διαβάστε περισσότερα

Παρεμβάσεις για τις μαθησιακές δυσκολίες

Παρεμβάσεις για τις μαθησιακές δυσκολίες Παρεμβάσεις για τις μαθησιακές δυσκολίες α) Εξατομικευμένα προγράμματα Μοντέλα με στόχο τις φωνολογικές δεξιότητες Μοντέλα με στόχο την αποκωδικοποίηση και την ευχέρεια Μοντέλα με έμφαση στις δεξιότητες

Διαβάστε περισσότερα

Επεξεργαςία πειραματικών δεδομζνων

Επεξεργαςία πειραματικών δεδομζνων Επεξεργαςία πειραματικών δεδομζνων Επεξεργασία μετρήσεων. Στα θέματα που ακολουθούν, η επεξεργασία των μετρήσεων στηρίζεται στη δημιουργία γραφημάτων α βαθμού, δηλαδή της μορφής ψ=α χ+β,και στην εξαγωγή

Διαβάστε περισσότερα

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Σημειώσεις Δικτύων Αναλογικά και ψηφιακά σήματα Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Χαρακτηριστικά

Διαβάστε περισσότερα

Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών

Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών Το Μάθημα της Γλώσσας στο Δημοτικό του Κολλεγίου Αθηνών 1 η Τάξη Στόχοι Τα παιδιά: Αναπτύσσουν, σε κάθε ευκαιρία, τον προφορικό λόγο. Ως ομιλητές απαντούν σε απλές ερωτήσεις, ανακοινώνουν, περιγράφουν,

Διαβάστε περισσότερα

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Διπλωματική Εργασία Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Από Διονύσιο Κ. Παπαϊωάννου (Α.Μ.

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5. 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5. 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8 ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8 1.1. Περιοδική κίνηση Περιοδικά φαινόμενα 9 1.2. Ταλάντωση - Ταλαντούμενα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6

ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος 6 ΓΑΛ 103 Γραπτός λόγος I 6 ΓΑΛ 170 e-french 6 ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής 6 πρώτο δεύτερο ΠΡΟΓΡΑΜΜΑ ΓΑΛΛΙΚΩΝ ΣΠΟΥΔΩΝ ΓΑΛ 102 Προφορικός λόγος ΓΑΛ 103 Γραπτός λόγος I ΓΑΛ 170 e-french ΓΑΛ 100-299 Μάθημα περιορισμένης επιλογής ΓΑΛ 104 Γραπτός λόγος II ΓΑΛ 111 Φωνητική ΓΑΛ 1 Από

Διαβάστε περισσότερα

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ Μάθηµα 1ο Θέµα Εισαγωγή στις τηλεπικοινωνίες 1. Τι ορίζουµε µε τον όρο τηλεπικοινωνία; 2. Ποιες οι βασικότερες ανταλλασσόµενες πληροφορίες, ανάλογα µε τη φύση και το χαρακτήρα τους; 3. Τι αποκαλούµε ποµπό

Διαβάστε περισσότερα

Κεφάλαιο 7 Σύνθεση Οµιλίας

Κεφάλαιο 7 Σύνθεση Οµιλίας Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.235 Κεφάλαιο 7 Σύνθεση Οµιλίας 7.1 Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή

Διαβάστε περισσότερα

Παρουσιάσεις των εργασιών

Παρουσιάσεις των εργασιών Τμήμα Επιστήμης & Τεχνολογίας Τηλεπικοινωνιών Ειδικά Θέματα Δικτύων Επικοινωνιών, Υπηρεσιών & Εφαρμογών Παρουσιάσεις των εργασιών Μιχάλης Ανδριανόπουλος 1 μετασχηματισμος και προσαρμογή της εργασίας σε

Διαβάστε περισσότερα

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Πίνακας περιεχομένων Τίτλος της έρευνας (title)... 2 Περιγραφή του προβλήματος (Statement of the problem)... 2 Περιγραφή του σκοπού της έρευνας (statement

Διαβάστε περισσότερα

ΣΥΜΒΟΛΙΣΜΟΣ ΧΑΡΤΟΓΡΑΦΙΚΩΝ ΟΝΤΟΤΗΤΩΝ

ΣΥΜΒΟΛΙΣΜΟΣ ΧΑΡΤΟΓΡΑΦΙΚΩΝ ΟΝΤΟΤΗΤΩΝ ΣΥΜΒΟΛΙΣΜΟΣ ΧΑΡΤΟΓΡΑΦΙΚΩΝ ΟΝΤΟΤΗΤΩΝ Χαρτογραφία Ι 1 ΟΡΙΣΜΟΙ Φαινόμενο: Ο,τιδήποτε υποπίπτει στην ανθρώπινη αντίληψη Γεωγραφικό (Γεωχωρικό ή χωρικό) φαινόμενο: Ο,τιδήποτε υποπίπτει στην ανθρώπινη αντίληψη

Διαβάστε περισσότερα

Εισαγωγή στη Γλωσσολογία Ι

Εισαγωγή στη Γλωσσολογία Ι ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στη Γλωσσολογία Ι Εισαγωγικά: τι είναι γλώσσα, τι είναι γλωσσολογία Διδάσκοντες: Επίκ. Καθ. Μαρία Λεκάκου, Λέκτορας Μαρία Μαστροπαύλου Άδειες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» «ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ Ψ.Ε.Σ. (ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ)

Διαβάστε περισσότερα

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Η ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΛΕΞΙΛΟΓΙΟΥ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ Περιεχόμενα ΠΡΟΛΟΓΟΣ 13 1. ΛΕΞΙΛΟΓΙΟ: ΕΙΣΑΓΩΓΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΚΑΙ ΔΙΔΑΚΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ 17 ΣΗΜΑΝΤΙΚΗ ΟΡΟΛΟΓΙΑ ΚΕΦΑΛΑΙΟΥ 17 1.1 Η αξία του λεξιλογίου και η θέση του στο γλωσσικό μάθημα 18 1.2 Εμπόδια στη

Διαβάστε περισσότερα

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω

29. Βοηθητικό ρόλο στους μαθητές με δυσγραφία κατέχει η χρήση: Α) ηλεκτρονικών υπολογιστών Β) αριθμομηχανών Γ) λογογράφων Δ) κανένα από τα παραπάνω ΔΥΣΓΡΑΦΙΑ Ερωτήσεις 1. Η δυσγραφία μπορεί να χωριστεί στις δύο ακόλουθες κατηγορίες: Α) γενική και μερική Β) γενική και ειδική Γ) αναπτυξιακή και επίκτητη Δ) αναπτυξιακή και μαθησιακή 2. Η αναπτυξιακή

Διαβάστε περισσότερα

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές

υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές υναµική σύνθεση νοηµάτων µε χρήση εικονικού βοηθού για την υποστήριξη της διδασκαλίας γλώσσας σε κωφούς µαθητές Eλένη Ευθυµίου eleni_e@ilsp.gr Οµάδα Υποστηρικτικών Τεχνολογιών Ινστιτούτο Επεξεργασίας Λόγου

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

8. Η γλώσσα ως κώδικας επικοινωνίας

8. Η γλώσσα ως κώδικας επικοινωνίας 8. Η γλώσσα ως κώδικας επικοινωνίας Η επικοινωνία είναι σημαντική Η επικοινωνία στη σύγχρονη κοινωνία θεωρείται δεξιότητα που αναπτύσσεται συνεχώς και επηρεάζει τις ικανότητες και τις γνώσεις μας. Θεωρείται

Διαβάστε περισσότερα

E [ -x ^2 z] = E[x z]

E [ -x ^2 z] = E[x z] 1 1.ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτήν την διάλεξη θα πάμε στο φίλτρο με περισσότερες λεπτομέρειες, και θα παράσχουμε μια νέα παραγωγή για το φίλτρο Kalman, αυτή τη φορά βασισμένο στην ιδέα της γραμμικής

Διαβάστε περισσότερα

Γραμματισμός στο νηπιαγωγείο. Μαρία Παπαδοπούλου

Γραμματισμός στο νηπιαγωγείο. Μαρία Παπαδοπούλου Γραμματισμός στο νηπιαγωγείο Μαρία Παπαδοπούλου ΠΩΣ ΜΑΘΑΙΝΟΥΝ ΤΑ ΠΑΙΔΙΑ; ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΠΑΡΑΔΟΣΙΑΚΗΣ ΑΝΤΙΛΗΨΗΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ Η διδακτέα ύλη αντιμετωπίζεται με «ακαδημαϊκό» τρόπο. Θεωρητική προσέγγιση

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες:

Πρόταση Διδασκαλίας. Ενότητα: Γ Γυμνασίου. Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος. Α: Στόχοι. Οι μαθητές/ τριες: Πρόταση Διδασκαλίας Ενότητα: Τάξη: 7 η - Τέχνη: Μια γλώσσα για όλους, σε όλες τις εποχές Γ Γυμνασίου Θέμα: Δραστηριότητες Παραγωγής Λόγου Διάρκεια: Μία διδακτική περίοδος Α: Στόχοι Οι μαθητές/ τριες: Να

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Στοιχεία επεξεργασίας σημάτων

Στοιχεία επεξεργασίας σημάτων Στοιχεία επεξεργασίας σημάτων ΕΜΠ - ΣΧΟΛΗ ΑΤΜ Ακ. Έτος 2004-2005 Β.Βεσκούκης, Δ.Παραδείσης, Δ.Αργιαλάς, Δ.Δεληκαράογλου, Β.Καραθανάση, Β.Μασσίνας Γενικά στοιχεία για το μάθημα Εισάγεται στα πλαίσια της

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ 26-2-2015 (2 Ο ΜΑΘΗΜΑ)

ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ 26-2-2015 (2 Ο ΜΑΘΗΜΑ) ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΕΙΔΙΚΗΣ ΑΓΩΓΗΣ ΔΙΔΑΚΤΙΚΕΣ ΠΑΡΕΜΒΑΣΕΙΣ ΣΤΙΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ ΜΑΘΗΜΑ ΕΠΙΛΟΓΗΣ 6 ΟΥ ΕΞΑΜΗΝΟΥ 26-2-2015 (2 Ο ΜΑΘΗΜΑ) Σωτηρία Τζιβινίκου Λέκτορας ΠΤΕΑ Γραφικός χώρος

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης ιαθεµατική Εργασία µε Θέµα: Οι Φυσικές Επιστήµες στην Καθηµερινή µας Ζωή Ο Ήχος Τµήµα: β1 Γυµνασίου Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης Συντακτική Οµάδα: Γεώργιος Ελευθεριάδης Ο Ήχος Έχει σχέση ο

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 1 η : Εισαγωγή Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Βασικά στοιχεία της ψηφιακής επεξεργασίας και

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Ανάλυση ποιοτικών δεδομένων Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Δεοντολογία και ανάλυση ποιοτικών δεδομένων Αξιολογώντας την ποιότητα των ποιοτικών ερευνών Εισαγωγή

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Οδηγός Εκπόνησης Διπλωματικής Εργασίας ΣΠΑΡΤΗ 2010-11 Περιεχόμενα 1.ΔΟΜΗ ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΟ Της ΔΙΠΛΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 12 Ανάλυση ποιοτικών δεδομένων 12-1 Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Προγράμματα ηλεκτρονικού υπολογιστή

Διαβάστε περισσότερα

Στάδια Ανάπτυξης Λόγου και Οµιλίας

Στάδια Ανάπτυξης Λόγου και Οµιλίας Στάδια Ανάπτυξης Λόγου και Οµιλίας Το παιδί ξεδιπλώνει τις γλωσσικές ικανότητες του µε το χρόνο. Όλα τα παιδιά είναι διαφορετικά µεταξύ τους και το κάθε ένα έχει το δικό του ρυθµό. Τα στάδια ανάπτυξης

Διαβάστε περισσότερα

ΤΟ ΜΑΥΡΟ ΚΟΥΤΙ. 1. Το περιεχόμενο του μαύρου κουτιού. 2. Είσοδος: σήματα (κυματομορφές) διέγερσης 3. Έξοδος: απόκριση. (απλά ηλεκτρικά στοιχεία)

ΤΟ ΜΑΥΡΟ ΚΟΥΤΙ. 1. Το περιεχόμενο του μαύρου κουτιού. 2. Είσοδος: σήματα (κυματομορφές) διέγερσης 3. Έξοδος: απόκριση. (απλά ηλεκτρικά στοιχεία) ΤΟ ΜΑΥΡΟ ΚΟΥΤΙ Είσοδος ΜΑΥΡΟ ΚΟΥΤΙ Έξοδος 1. Το περιεχόμενο του μαύρου κουτιού (απλά ηλεκτρικά στοιχεία) 2. Είσοδος: σήματα (κυματομορφές) διέγερσης 3. Έξοδος: απόκριση 2019Κ1-1 ΚΥΜΑΤΟΜΟΡΦΕΣ 2019Κ1-2 ΤΙ

Διαβάστε περισσότερα

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής

Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής Εργαστήριο φωνής: Ακουστική ανάλυση ομιλίας και φωνής Ηλίας Παπαθανασίου Αν Καθηγητής Τμήμα Λογοθεραπείας, ΤΕΙ Πάτρας Επιστημ. Συνεργάτης Α Πανεπιστημιακής ΩΡΛ Κλινικής Ιατρική Σχολή, ΕΚΠΑ 1 3/23/15 Ακουστική

Διαβάστε περισσότερα

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη

Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μοντέλα γλωσσικής επεξεργασίας: σύνταξη Μάθημα: Εισαγωγή στις επιστήμες λόγου και ακοής Ιωάννα Τάλλη, Ph.D. Σύνταξη Είναι ο τομέας της γλώσσας που μελετά τη δομή των προτάσεων, δηλαδή ποια είναι η σειρά

Διαβάστε περισσότερα

Η γλωσσική ανάπτυξη των παιδιών.

Η γλωσσική ανάπτυξη των παιδιών. Η γλωσσική ανάπτυξη των παιδιών. Κανείς δεν φαντάζεται ότι ο λόγος θα εμφανισθεί απότομα, στην τελική του μορφή μ ένα χτύπημα μιας μαγικής ράβδου, σαν μια μηχανή έτοιμη για χρήση. Η εγκατάσταση του πολύπλοκού

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας Μάθηση και κατάκτηση των Μαθηματικών ΑΡΙΘΜΗΤΙΚΗ 1/2 Με τον όρο αριθμητική νοείται η μάθηση πρόσθεσης, αφαίρεσης,

Διαβάστε περισσότερα

Επίδραση του θεραπευτικού προγράμματος <<Ασκήσεις λόγου>> σε ηλικιωμένους με Ήπια Νοητική Διαταραχή

Επίδραση του θεραπευτικού προγράμματος <<Ασκήσεις λόγου>> σε ηλικιωμένους με Ήπια Νοητική Διαταραχή lysitsas.kon@gmail.com 9th Panhellenic Conference on Alzheimer's Disease and 1st Mediterranean on Neurodegenerative Diseases Επίδραση του θεραπευτικού προγράμματος σε ηλικιωμένους με

Διαβάστε περισσότερα

Ανάγνωση. Ικανότητα γρήγορης και αυτόματης αναγνώρισης λέξεων. Γνώση γραμμάτων και αντιστοιχίας γραμμάτων φθόγγων. Κατανόηση κειμένου

Ανάγνωση. Ικανότητα γρήγορης και αυτόματης αναγνώρισης λέξεων. Γνώση γραμμάτων και αντιστοιχίας γραμμάτων φθόγγων. Κατανόηση κειμένου Ανάγνωση Ικανότητα γρήγορης και αυτόματης αναγνώρισης λέξεων Γνώση γραμμάτων και αντιστοιχίας γραμμάτων φθόγγων Γνώση σημασίας λέξεων (λεξιλόγιο πρόσληψης) Κατανόηση κειμένου Οικειότητα με γραπτέςλέξειςκαι

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΗ ΜΕΛΕΤΗ ΣΤΑΣΙΜΩΝ ΗΧΗΤΙΚΩΝ ΚΥΜΑΤΩΝ ΣΕ ΣΩΛΗΝΑ KUNDT

ΕΡΓΑΣΤΗΡΙΑΚΗ ΜΕΛΕΤΗ ΣΤΑΣΙΜΩΝ ΗΧΗΤΙΚΩΝ ΚΥΜΑΤΩΝ ΣΕ ΣΩΛΗΝΑ KUNDT ΕΚΦΕ Χανίων ΕΡΓΑΣΤΗΡΙΑΚΗ ΜΕΛΕΤΗ ΣΤΑΣΙΜΩΝ ΗΧΗΤΙΚΩΝ ΚΥΜΑΤΩΝ ΣΕ ΣΩΛΗΝΑ KUNDT Κώστας Θεοδωράκης Νίκος Αναστασάκης Φυσικοί 10 ο Συνέδριο ΕΕΦ & ΕΚΦ Κέρκυρα 3 Μαρτίου 2007 Θεωρία: Το αποτέλεσμα της συμβολής δύο

Διαβάστε περισσότερα