ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ Διδακτορική Διατριβή του Ιωσήφ Αναστασίου Μπόρα Διπλωματούχου Ηλεκτρολόγου Μηχανικού και Τεχνολογίας Υπολογιστών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Αρ. Διατριβής: 228 Πάτρα, Ιούλιος 2009
ii
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Διδακτορική Διατριβή του Ιωσήφ Αναστασίου Μπόρα Διπλωματούχου Ηλεκτρολόγου Μηχανικού και Τεχνολογίας Υπολογιστών που υποβλήθηκε στο ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ με τίτλο ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ Πάτρα, Ιούλιος 2009 iii
iv
ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται οτι η παρούσα διδακτορική διατριβή με τίτλο: ΑΥΤΟΜΑΤΟΣ ΤΕΜΑΧΙΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ, ΑΝΑΓΝΩΡΙΣΗ ΟΜΙΛΙΑΣ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗ ΓΛΩΣΣΑΣ του Ιωσήφ Μπόρα του Αναστασίου, διπλωματούχου Ηλεκτρολόγου Μηχανικού και Τεχνολογίας Υπολογιστών, παρουσιάστηκε δημοσίως στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών στις 02/07/2009 και εξετάστηκε και εγκρίθηκε από την ακόλουθη Εξεταστική Επιτροπή: o Νίκος Φακωτάκης, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών, Δ/ντης Τομέα Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας (Επιβλέπων Καθηγητής). o Ιωάννης Μουτζόπουλος, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Συμβουλευτικής Επιτροπής). o Ευάγγελος Δερματάς, Αναπληρωτής Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Συμβουλευτικής Επιτροπής). o Βασίλειος Αναστασόπουλος, Καθηγητής Σχολής Θετικών Επιστημών (Τμ. Φυσικής) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής) o Νικόλαος Γαλατσάνος, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής) o Κωνσταντίνος Μπερμπερίδης, Καθηγητής Πολυτεχνικής Σχολής (Τμ. Μηχ. Η/Υ & Πληρ/κης) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής) o Βασίλειος Παλιουράς, Επίκουρος Καθηγητής Πολυτεχνικής Σχολής (Τμ. Ηλ/γων Μηχ. & Τεχν. Υπολ.) του Πανεπιστημίου Πατρών (Μέλος Εξεταστικής Επιτροπής) Πάτρα, 02 Ιουλίου 2009 Ο Επιβλέπων Καθηγητής Ο Πρόεδρος του Τμήματος Ν. Φακωτάκης?????????? Καθηγητής Καθηγητής v
vi
ΜΕΛΗ ΕΞΕΤΑΣΤΙΚΗΣ ΕΠΙΤΡΟΠΗΣ o Νίκος Φακωτάκης, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, Δ/ντης Τομέα Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας, (Επιβλέπων Καθηγητής). o Ιωάννης Μουτζόπουλος, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, (Μέλος Συμβουλευτικής Επιτροπής). o Ευάγγελος Δερματάς, Αναπληρωτής Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, (Μέλος Συμβουλευτικής Επιτροπής). o Βασίλειος Αναστασόπουλος, Καθηγητής Τμήματος. Φυσικής του Πανεπιστημίου Πατρών, (Μέλος Εξεταστικής Επιτροπής) o Νικόλαος Γαλατσάνος, Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, (Μέλος Εξεταστικής Επιτροπής) o Κωνσταντίνος Μπερμπερίδης, Καθηγητής Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών, (Μέλος Εξεταστικής Επιτροπής) o Βασίλειος Παλιουράς, Επίκουρος Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών, (Μέλος Εξεταστικής Επιτροπής) vii
viii
Αφιερώνεται στους γονείς μου, Τάσο και Φραντζέσκα, και στον αδερφό μου Φώτη ix
x
ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα διδακτορική διατριβή εκπονήθηκε στο Εργαστήριο Ενσύρματης Τηλεπικοινωνίας του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών. Θα ήθελα να ευχαριστήσω θερμά για την άμεση ή έμμεση συμβολή τους στην ολοκλήρωση αυτής της εργασίας: Καταρχάς, τον Δ/ντή του Τομέα Τηλεπικοινωνιών και Τεχνολογίας Πληροφορίας, Δ/ντή του Εργαστηρίου Ενσύρματης Τηλεπικοινωνίας και Επιβλέπων, Καθηγητή Νίκο Φακωτάκη, για την πολύτιμη επιστημονική καθοδήγησή που μου προσέφερε, για την διάθεση τεχνολογικού εξοπλισμού καθώς επίσης και για την συμβολή του κατά την συγγραφή της εργασίας. Ευχαριστώ θερμά τα μέλη της Τριμελούς Συμβουλευτικής Επιτροπής, Καθηγητή Ιωάννη Μουρτζόπουλο και Αναπληρωτή Καθηγητή Ευάγγελο Δερματά, για την καθοδήγησή τους κατά την διάρκεια της εκπόνησης της διατριβής αυτής. Θα ήθελα επίσης να ευχαριστήσω τον συνάδελφο Δρ. Todor Ganchev, του οποίου η βοήθεια και συνεργασία ήταν πολύτιμη. Ακόμη, θα ήθελα να ευχαριστήσω όλους τους συναδέλφους μου στην Ομάδα Τεχνητής Νοημοσύνης του Εργαστηρίου Ενσύρματης Τηλεπικοινωνίας για το κλίμα συνεργασίας στο οποίο έχουν συμβάλει. Επιπλέον, ευχαριστώ την Βασιλική Χαρίτου για την συμπαράστασή της. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου, που με στηρίζει σε κάθε βήμα της ζωής μου. xi
xii
ABSTRACT The present dissertation entitled automatic segmentation of digital speech signals, and application to speech synthesis, speech recognition and, language recognition was submitted to the University of Patras in partial fulfillment of the requirements for the degree Doctor of Philosophy. The dissertation is outlined as follows: In Chapter 1, an introduction to the problem of speech segmentation is offered. The importance as well as the necessity of algorithms and methods for automatic speech segmentation for the applications of the area of speech technology is presented. In addition, the main directions found in the literature and the present state of the art, are provided. In Chapter 2, the reader can find a detailed description of the task of speech segmentation. Specifically, different categories and targets in this area are analyzed. Furthermore, the two most widely and successfully used methods, namely the hidden Markov model based and the dynamic time warping based (or speech synthesis based) methods, are presented. These two methods are appraised for their contribution to the problem of speech segmentation, with respect to their advantages and disadvantages. In Chapter 3, four recently proposed novel methods for the task of speech segmentation are described. The first method, which lies in the implicit segmentation category, utilizes automatically extracted pitchmark locations, in order to find possible phonetic boundary positions. The second method, which is based on hidden Markov models, utilizes both embedded and isolated-unit training methods, for the construction of phonetic models, appropriate to segment the speech signal with high accuracy. The third method, uses boundary predictions, produced from different segmentation engines, fusing them with a regression technique, and produces more accurate predictions of the boundary positions. Finally, the forth method is o modification of the Viterbi algorithm, for the utilization of multiple speech parameterization techniques in the task of speech segmentation. In Chapter 4, application of the proposed speech segmentation methods on several tasks of speech technology is provided. Specifically, the advantage that the segmentation methods can offer in the tasks of speech synthesis, speech recognition and language recognition is examined. Finally, in Chapter 5, a summary and conclusion of the work together with future directions is offered. xiii
xiv
ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ... - 1-1. ΕΙΣΑΓΩΓΗ... - 3-1.1. Επισκόπηση κύριων κατευθύνσεων στην διεθνή βιβλιογραφία... - 4-1.2. Συνεισφορά της διατριβής... - 6-1.3. Δομή και παρουσίαση της διατριβής... - 7-2. ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΑΥΤΟΜΑΤΟ ΤΕΜΑΧΙΣΜΟ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ... - 9-2.1. Εισαγωγή... - 9-2.2. Μέθοδος τεμαχισμού με σύνθεση ομιλίας και δυναμική παραμόρφωση χρόνου... - 17-2.3. Μέθοδος τεμαχισμού ομιλίας με κρυμμένα μοντέλα Markov... - 21-2.3.1. Μέθοδοι εκπαίδευσης μονάδων αναγνώρισης φωνημάτων βασισμένες σε κρυμμένα μοντέλα Markov... - 26-2.4. Βελτίωση τεμαχισμού σημάτων ομιλίας με μετα-επεξεργασία... - 27-2.5. Παράλληλος συνδυασμός ανεξάρτητων συστημάτων τεμαχισμού ομιλίας - 29-2.6. Αξιολόγηση τεχνικών τεμαχισμού σημάτων ομιλίας... - 30-3. ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΜΕΘΟΔΟΙ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ... - 35-3.1. Αυτόματος τεμαχισμός σημάτων ομιλίας με χρήση των pitchmarks... - 35-3.1.1. Διαχωρισμός ηχηρών-άηχων τμημάτων ομιλίας και εξαγωγή των pitchmarks... - 39-3.1.2. Εξομάλυνση των εξαχθέντων τμημάτων... - 41-3.1.3. Εντοπισμός θέσεων των ορίων ευρέων φωνητικών κλάσεων... - 41-3.1.4. Πειραματικά αποτελέσματα... - 43-3.1.5. Συμπεράσματα... - 48-3.2. Αυτόματος τεμαχισμός σημάτων ομιλίας με υβριδική εκπαίδευση κρυμμένων μοντέλων Markov... - 49-3.2.1. Εισαγωγή... - 49-3.2.2. Mέθοδοι εκπαίδευσης μονάδων αναγνώρισης φωνημάτων βασισμένα σε κρυμμένα μοντέλα Markov... - 52-3.2.2. Υβριδική μέθοδος εκπαίδευσης μονάδων αναγνώρισης φωνημάτων βασισμένα σε κρυμμένα μοντέλα Markov... - 53-3.2.3. Πειραματικά αποτελέσματα... - 55-3.2.3. Συμπεράσματα... - 60-3.3. Συνδυασμός ανεξάρτητων συστημάτων τεμαχισμού σημάτων ομιλίας με μεθόδους παλινδρόμησης... - 60-3.3.1. Εισαγωγή... - 61-3.3.2. Συνδυασμός πολλαπλών προβλέψεων ορίων φωνημάτων με χρήση μαθηματικής παλινδρόμησης... - 66-3.3.3. Πειραματική αξιολόγηση της μεθόδου... - 72-3.3.4. Συμπεράσματα... - 87-3.4. Αυτόματος τεμαχισμός σημάτων ομιλίας με χρήση του Viterbi αλγορίθμου για πολλαπλές παραμέτρους ομιλίας... - 89-3.4.1. Εισαγωγή... - 89-3.4.2. Αυτόματος τεμαχισμός σημάτων ομιλίας με χρήση του Viterbi αλγορίθμου για πολλαπλές παραμέτρους ομιλίας... - 93-3.4.3. Τεχνικές παραμετροποίησης ομιλίας που χρησιμοποιήθηκαν... - 98-3.4.4. Πειραματική αξιολόγηση της μεθόδου... - 100-3.4.5. Συμπεράσματα... - 110 - - 1 -
4. ΕΦΑΡΜΟΓΕΣ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ... - 111-4.1. Εφαρμογή στη Σύνθεση Ομιλίας... - 111-4.1.1. Εισαγωγή... - 112-4.1.2. Εφαρμογή των μεθόδων τεμαχισμού... - 114-4.1.3. Πειραματικά αποτελέσματα... - 115-4.1.4. Συμπέρασμα... - 120-4.2. Εφαρμογή στην Αναγνώριση Ομιλίας... - 121-4.2.1. Σύγκριση μεταξύ αναγνώρισης ομιλίας και τεμαχισμού ομιλίας... - 124-4.2.2. Πειραματική εφαρμογή... - 125-4.2.2. Συμπεράσματα... - 128-4.3. Εφαρμογή στην Αναγνώριση Γλώσσας... - 129-4.3.1. Σύστημα αναγνώρισης γλώσσας από ομιλία... - 131-4.3.2. Αναγνώριση ομιλίας με την μέθοδο τεμαχισμού με pitchmarks... - 134-4.3.3. Πειραματικά αποτελέσματα... - 136-4.3.3. Συμπεράσματα... - 138-5. ΕΠΙΣΚΟΠΗΣΗ ΔΙΑΤΡΙΒΗΣ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ... - 141-5.1. Τελική εκτίμηση... - 142-5.2. Μελλοντικές κατευθύνσεις... - 143 - ΠΑΡΑΡΤΗΜΑ... - 145 - Π1. Λεξικό τεχνικών όρων... - 145 - Π2. Αποτελέσματα ερευνητικής δραστηριότητας... - 146 - ΒΙΒΛΙΟΓΡΑΦΙΑ... - 153 - - 2 -
1. ΕΙΣΑΓΩΓΗ Η ομιλία αποτελεί τον πιο φυσικό και πλέον διαδεδομένο τρόπο επικοινωνίας μεταξύ των ανθρώπων. Η εξέλιξη διαφόρων τομέων της τεχνολογίας και της επιστήμης επέτρεψε την ανάπτυξη συστημάτων και εργαλείων με τα οποία μπορούν να αυτοματοποιηθούν διαδικασίες που σχετίζονται με την ομιλία. Για παράδειγμα, η χρήση ανθρώπων τηλεφωνητών σε τηλεφωνικά κέντρα, έχει αντικατασταθεί από αυτόματα συστήματα εξυπηρέτησης μέσω τηλεφώνου. Ειδικά για την περίπτωση των εφαρμογών που λειτουργούν υπό στάσιμες συνθήκες θορύβου ή τρόπου ομιλίας, η σύγχρονη τεχνολογία ομιλίας επιτρέπει την αντικατάσταση ανθρώπων-υπαλλήλων συνομιλητών από διαλογικά συστήματα. Τις τελευταίες δεκαετίες η ανάπτυξη συστημάτων που αφορούν την φωνητική αλληλεπίδραση μεταξύ ανθρώπου και μηχανής έχει αυξηθεί σημαντικά. Η επικοινωνία ανθρώπου μηχανής περιλαμβάνει την μετάδοση μηνυμάτων από τον άνθρωπο στην μηχανή, δηλαδή την μετατροπή φυσικής ομιλίας σε κείμενο (ή αναγνώριση ομιλίας), και την μετάδοση μηνυμάτων από την μηχανή στον άνθρωπο, δηλαδή την μετατροπή ενός αυτομάτως παραγόμενου κειμένου σε συνθετική ομιλία (ή σύνθεση ομιλίας). Η αυξημένη ανάπτυξη τέτοιων συστημάτων και λειτουργιών οφείλεται κατά κύριο λόγο στην δημιουργία βάσεων δεδομένων με ηχογραφήσεις ομιλίας μεγάλου όγκου, δηλαδή αρκετών ωρών ομιλίας. Η εξάρτηση της ανάπτυξης συστημάτων τεχνολογίας ομιλίας από μεγάλες βάσεις δεδομένων ομιλίας οφείλεται στα ιδιαίτερα χαρακτηριστικά που παρουσιάζει η ομιλία σε σχέση με άλλα βιομετρικά χαρακτηριστικά. Για παράδειγμα, τα δακτυλικά αποτυπώματα ενός ανθρώπου παραμένουν σταθερά μετά την ηλικία των 10 ετών και είναι μοναδικά για κάθε άνθρωπο (Φακωτάκης, 2007). Αντίθετα με τα δακτυλικά αποτυπώματα, η ομιλία παρουσιάζει μεγάλη ευαισθησία στην μίμηση, στη συναισθηματική κατάσταση του ομιλητή, στην υγεία του φωνητικού συστήματος κ.λπ. Έτσι, είναι προφανές ότι από ομιλητή σε ομιλητή, ή ακόμη και σε διαφορετικές συνθήκες του ίδιου ομιλητή, η ομιλία παρουσιάζει μεγάλες αποκλίσεις. Οι αποκλίσεις αυτές σε συνδυασμό με το ότι η τεχνολογία ομιλίας βασίζεται κατά κόρον σε στατιστικές μεθόδους, προαπαιτεί μεγάλο εύρος δεδομένων εκπαίδευσης ούτως ώστε να καλυφθούν όσο το δυνατό περισσότερες από τις αποκλίσεις αυτές. Η δημιουργία μεγάλων βάσεων δεδομένων με ηχογραφήσεις ομιλίας από διαφορετικούς ομιλητές και σε διαφορετικές συνθήκες και περιβάλλοντα εργασίας - 3 -
επέτρεψε την ανάπτυξη συστημάτων αυτόματης αναγνώρισης ομιλίας ανεξάρτητα του ομιλητή, και μεγάλου λεξιλογίου, σε αντίθεση με παλιότερα συστήματα που περιορίζονταν συνήθως σε ένα ομιλητή και σε περιορισμένο λεξιλόγιο (π.χ. αναγνώριση ψηφίων, ή μεμονωμένων λέξεων). Ένα πρόβλημα που υπάρχει με τις βάσεις δεδομένων ομιλίας είναι ότι για να μπορεί να τις εκμεταλλευθεί κατάλληλα ένα σύστημα θα πρέπει να υποστούν προεπεξεργασία. Η προ-επεξεργασία αυτή περιλαμβάνει συνήθως την ακολουθία των λέξεων που αντιστοιχούν στο φωνητικό μήνυμα που ειπώθηκε. Εκτός από αυτό τα συστήματα τεχνολογίας ομιλίας εκμεταλλεύονται πληροφορία η οποία βρίσκεται και σε χαμηλότερα επίπεδα, όπως για παράδειγμα η ακολουθία φωνημάτων που αντιστοιχούν στο φωνητικό σήμα, οι συλλαβές των λέξεων, η προσωδία της ομιλίας και οι θέσεις των φωνητικών μεταβάσεων. Η προ-επεξεργασία των βάσεων στα διάφορα επίπεδα πληροφορίας μπορεί να γίνει με το χέρι, συνήθως από κάποιο φωνολόγο. Ωστόσο, σε περίπτωση που η βάση αποτελείται από μερικές ώρες ηχογραφήσεων ομιλίας είναι προφανές ότι η λύση αυτή είναι απαγορευτική. Ενώ τα περισσότερα από τα προαναφερθέντα επίπεδα πληροφορίας μπορούν να εξαχθούν με ικανοποιητική ποιότητα και ακρίβεια, με αυτόματες μεθόδους, η εύρεση των θέσεων των φωνητικών μεταβάσεων αποτελεί σήμερα ένα σημαντικό πεδίο έρευνας, αφού θεωρείται η πιο δύσκολα εξαγόμενη πληροφορία, από μια βάση ομιλίας. Μάλιστα, η δυσκολία του προβλήματος σε συνδυασμό με την αναγκαιότητα εξαγωγής των θέσεων των ορίων των φωνημάτων για εφαρμογές όπως η σύνθεση ομιλίας, αυξάνει την σπουδαιότητα του προβλήματος αυτού. 1.1. Επισκόπηση κύριων κατευθύνσεων στην διεθνή βιβλιογραφία Σημαντικά βήματα έχουν γίνει στην ανάπτυξη συστημάτων τεμαχισμού της ομιλίας στις αντίστοιχες φωνητικές τους μονάδες. Ωστόσο, η απόδοση των συστημάτων αυτών δεν είναι ικανοποιητική, ώστε να μην απαιτείται καμία διόρθωση των εξαχθέντων αποτελεσμάτων με το χέρι. - 4 -
Το πρόβλημα του τεμαχισμού της ομιλίας μπορεί να χωριστεί σε δύο μεγάλες κατηγορίες: το γλωσσολογικά περιορισμένο πρόβλημα τεμαχισμού και το μηγλωσσολογικά περιορισμένο. Στην πρώτη περίπτωση ο αριθμός των φωνημάτων κάθε ηχογράφησης, η σειρά τους και το κάθε φώνημα της ακολουθίας είναι εκ των προτέρων γνωστά. Έτσι, το πρόβλημα περιορίζεται στον εντοπισμό των θέσεων των ορίων των φωνημάτων. Στην δεύτερη περίπτωση, δεν υπάρχει καμία εκ των προτέρων πληροφορία για το γλωσσικό μήνυμα, κι έτσι το πρόβλημα περιλαμβάνει τόσο τον εντοπισμό της ακολουθίας των φωνημάτων όσο και των θέσεων των φωνητικών μεταβάσεων. Σε ότι αφορά την γλωσσολογικά περιορισμένη περίπτωση, οι σύγχρονές μέθοδοι τεμαχισμού ομιλίας στην περίπτωση μικροφωνικής ομιλίας χωρίς την παρουσία θορύβου καταφέρνουν ακρίβεια 85-95% για ένα ομιλητή, και 75-85% για πολλούς ομιλητές, χωρίς την χρησιμοποίηση ηχογραφήσεων με επισημειώσεις ορίων φωνημάτων. Η απόδοση αυτή αντιστοιχεί στο ποσοστό των ορίων φωνημάτων, των οποίων οι θέσεις βρέθηκαν σε απόσταση λιγότερη από 20 χιλιοστα του δευτερολέπτου από τα όρια που επισημειώθηκαν με το χέρι (πρόκειται για όρια αναφοράς που υπάρχουν σε μικρές βάσεις και χρησιμοποιούνται για την αξιολόγηση μεθόδων τεμαχισμού ομιλίας). Στην γλωσσολογικά μη-περιορισμένη περίπτωση οι αποδόσεις είναι αρκετά χαμηλότερες. Οι κυριότερες μέθοδοι τεμαχισμού ομιλίας παρουσιάζονται στο επόμενο κεφάλαιο αναλυτικά. Αξίζει να αναφερθεί ότι στο πρόβλημα του τεμαχισμού της ομιλίας η μέθοδος που κυριαρχεί είναι βασισμένη στα κρυμμένα μοντέλα Markov. Η ευκολία προσαρμογής της μεθόδου αυτής, την έκανε να κυριαρχεί συνολικά στο χώρο της τεχνολογίας ομιλίας, και συγκεκριμένα στο πρόβλημα του τεμαχισμού της ομιλίας σε φωνητικές μονάδες. - 5 -
1.2. Συνεισφορά της διατριβής Οι τεχνικές που παρουσιάζονται στην παρούσα διατριβή μοιράζονται μεταξύ των δύο κατηγοριών που αναφέρθηκαν προηγουμένως, δηλαδή της γλωσσολογικά περιορισμένης και της μη-περιορισμένης περίπτωσης. Πιο συγκεκριμένα, o Η πρώτη τεχνική που προτείνεται δεν χρησιμοποιεί καμία πληροφορία σχετικά με το φωνητικό μήνυμα. Εξάγει τα όρια των φωνημάτων εκτελώντας σύγκριση γειτονικών τμημάτων ομιλίας, τα όποια ορίζονται από τις θέσεις των pitchmarks ομιλίας. Η μέθοδος αυτή εφαρμόζεται απευθείας στο πεδίο του χρόνου, με αποτέλεσμα να μην παρουσιάζει καμία εξάρτηση ή ευαισθησία σε παραμετρικές τεχνικές που χρησιμοποιούνται για την μετάβαση στο πεδίο της συχνότητας. Συγκριτικό πλεονέκτημα της μεθόδου αυτής σε σχέση με άλλες τεχνικές τεμαχισμού ομιλίας είναι ότι δεν προ-απαιτεί καμία εκπαίδευση μοντέλων. o Η δεύτερη τεχνική που παρουσιάζεται βασίζεται στα κρυμμένα μοντέλα Markov. Πρόκειται για μια αρχιτεκτονική εκπαίδευσης των κρυμμένων μοντέλων Markov, η οποία προσφέρει ιδιαιτέρως ανταγωνιστική απόδοση χωρίς να απαιτεί ενδιάμεσα μοντέλα τα οποία είναι δύσκολο να υλοποιηθούν. Η μέθοδος αυτή αξιολογήθηκε πειραματικά, και βρέθηκε να παρουσιάζει απόδοση σημαντικά υψηλότερη από την βασική απόδοση των κρυμμένων μοντέλων Markov, χωρίς να απαιτείται καμία γνώση ορίων φωνημάτων εκ των προτέρων. Η μέθοδος αυτή μπορεί να εφαρμοστεί τόσο στην γλωσσολογικά περιορισμένη όσο και στην μηπεριορισμένη περίπτωση. o Η τρίτη τεχνική που παρουσιάζεται είναι μια μέθοδος για τον συνδυασμό ανεξάρτητων τεχνικών τεμαχισμού ομιλίας. Η μέθοδος αυτή χρησιμοποιεί τα προβλεφθέντα όρια των φωνητικών μεταβάσεων από πολλές τεχνικές τεμαχισμού, οι οποίες λειτουργούν παράλληλα και ανεξάρτητα μεταξύ τους, για να εξάγει μια νέα πιο ακριβή συνδυαστική πρόβλεψη. Ο συνδυασμός των μεθόδων επιτυγχάνεται με μαθηματική παλινδρόμηση, και η εφαρμογή του αποδεικνύει την υπεροχή της - 6 -
μεθόδου σε σχέση με άλλες συνδυαστικές μεθόδους για τον τεμαχισμό της ομιλίας. o Η τέταρτη τεχνική που παρουσιάζεται, είναι μια γλωσσολογικά περιορισμένη μέθοδος, που λειτουργεί με χρήση πολλών παραμετρικών μεθόδων ταυτόχρονα. Η μέθοδος αυτή εφαρμόζει τον αλγόριθμο Viterbi, μεταξύ σημείων που προκύπτουν με βάση την ακρίβεια των παραμέτρων ομιλίας σε συγκεκριμένα όρια φωνημάτων. Η περιορισμένη αυτή εφαρμογή του αλγορίθμου Viterbi, μεταξύ συγκεκριμένων χρονικών σημείων οδηγεί στην πρόβλεψη θέσεων ορίων φωνημάτων με μεγαλύτερη ακρίβεια. Οι προτεινόμενες μέθοδοι τεμαχισμού σημάτων ομιλίας αξιολογήθηκαν εκτός από το ίδιο το πρόβλημα του τεμαχισμού της ομιλίας και σε εφαρμογές της τεχνολογίας ομιλίας. Συγκεκριμένα, εξετάστηκε η βελτίωση της ποιότητας της παραγόμενης συνθετικής ομιλίας με χρήση των ορίων των φωνημάτων όπως αυτά προβλέφθηκαν από τις προτεινόμενες μεθόδους. Μελετήθηκε η συνεισφορά των μεθόδων αυτών στην ανάπτυξη πιο εύρωστων ακουστικών μοντέλων για αναγνώριση ομιλίας και τέλος, εξετάσθηκε η δυνατότητα βελτίωσης της ακρίβειας ενός συστήματος αναγνώρισης γλώσσας με χρήση τεχνικών τεμαχισμού της ομιλίας. 1.3. Δομή και παρουσίαση της διατριβής Η δομή της παρούσας διατριβής έχει ως ακολούθως. Στο Κεφάλαιο 2 γίνεται μια εκτενής παρουσίαση των μεθόδων τεμαχισμού σημάτων ομιλίας, που έχουν παρουσιαστεί στην διεθνή βιβλιογραφία. Οι μέθοδοι αυτοί αναλύονται και περιγράφονται τα πλεονεκτήματα και μειονεκτήματα κάθε μεθόδου. Στο Κεφάλαιο 3 παρουσιάζονται τέσσερις νέες μέθοδοι για τον αυτόματο τεμαχισμό σημάτων ομιλίας. Για κάθε μέθοδο παρέχεται εκτενής παρουσίασή της, καθώς επίσης και πειραματικά αποτελέσματα για την αξιολόγησή τους. Στο Κεφάλαιο 4 παρουσιάζονται εφαρμογές των μεθόδων τεμαχισμού σημάτων ομιλίας, στο πρόβλημα της σύνθεσης ομιλίας, της αναγνώρισης ομιλίας και της - 7 -
αναγνώρισης γλώσσας. Πειραματικά αποτελέσματα υποδεικνύουν την δυνατότητα συμβολής των μεθόδων τεμαχισμού σε αυτά τα προβλήματα. Τέλος, στο Κεφάλαιο 5 γίνεται μια γενική επισκόπηση της διατριβής και δίνονται μελλοντικές κατευθύνσεις για την περαιτέρω βελτίωση της απόδοσης του τεμαχισμού της ομιλίας. - 8 -
2. ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΑΥΤΟΜΑΤΟ ΤΕΜΑΧΙΣΜΟ ΣΗΜΑΤΩΝ ΟΜΙΛΙΑΣ Στο παρών κεφάλαιο κάνουμε μια ανασκόπηση των μεθόδων τεμαχισμού ομιλίας που έχουν παρουσιαστεί στην διεθνή βιβλιογραφία και χρησιμοποιούνται σε εφαρμογές του χώρου της τεχνολογίας ομιλίας. Οι μέθοδοι αυτοί περιλαμβάνουν ευρέως χρησιμοποιούμενες τεχνικές και μαθηματικά μοντέλα, όπως τα κρυμμένα μοντέλα Markov (Rabiner, 1989), η δυναμική παραμόρφωση χρόνου (Rabiner and Juang, 1993) και μεθόδους μηχανικής μάθησης. Επιπλέον αξιολογούμε τις μεθόδους αυτές με αναφορά στην απόδοσή τους στο πρόβλημα του τεμαχισμού σημάτων ομιλίας. 2.1. Εισαγωγή Η ομιλία αποτελεί τον βασικό τρόπο επικοινωνίας μεταξύ των ανθρώπων και μαζί με τον γραπτό λόγο αποτελούν τα δύο κύρια μέσα ανταλλαγής απόψεων, ιδεών, γνώσης και πολιτισμού. Παρόλο το γεγονός ότι ο όγκος πληροφορίας που ανταλλάσσεται σε καθημερινή βάση ή αποθηκεύεται σε γραπτή μορφή είναι τεράστιος, ο όγκος δεδομένων που ανταλλάσσονται προφορικά είναι κατά πολύ μεγαλύτερος. Επιπλέον, η προφορική επικοινωνία είναι ταχύτερη και πιο εύχρηστη από την γραπτή. Αυτά τα δεδομένα καθιστούν την ομιλία και ότι σχετίζεται με αυτή απαραίτητα, από την πιο απλή επικοινωνία μεταξύ δύο ανθρώπων, έως την επικοινωνία μέσα σε διοικητικές δομές ή ακόμη και κράτη. Η ανάπτυξη της τεχνολογίας των τελευταίων δεκαετιών, επέτρεψε την δημιουργία συστημάτων, κυρίως εξειδικευμένων σε συγκεκριμένες αρμοδιότητες, τα οποία είναι σε θέση να αντικαταστήσουν τον άνθρωπο. Για παράδειγμα, η κατασκευή χειροποίητων αυτοκινήτων έχει πλέον σχεδόν εξολοκλήρου αντικατασταθεί από αυτόματες ή ημιαυτόματες γραμμές παραγωγής αυτοκινήτων. Είναι προφανές ότι τα συστήματα που έχουν να κάνουν με άμεση επικοινωνία ή συνδιαλλαγή με τον άνθρωπο, για να είναι φιλικά προς τον χρήστη, θα πρέπει να αντιγράψουν τον τρόπο επικοινωνίας μεταξύ των ανθρώπων. Τέτοια συστήματα μπορεί να είναι αυτόματα τηλεφωνικά κέντρα, υπηρεσίες πληροφόρησης (για - 9 -
παράδειγμα τουριστικά κιόσκια), υπηρεσίες εξυπηρέτησης (για παράδειγμα κράτηση εισιτηρίων), έλεγχος χώρων/εισόδων με ομιλία, έξυπνα σπίτια, έξυπνα αυτοκίνητα κ.λπ.. Η τεχνολογία ομιλίας είναι ο τομέας της επιστήμης που ασχολείται με την επικοινωνία μεταξύ ανθρώπου και μηχανής (human-computer interaction HCI) με τον πλέον φυσικό τρόπο, δηλαδή την ομιλία. Επιπλέον, η τεχνολογία ομιλίας ενδιαφέρεται για τον αρμονικό συνδυασμό της ομιλίας με άλλα είδη επικοινωνίας, όπως οπτική επαφή, χειρονομίες κ.λπ. Εικόνα 2.1. Η αλυσίδα επικοινωνίας από άνθρωπο σε άνθρωπο μέσω ομιλίας (Denes and Pinson, 1993). Στην Εικόνα 2.1 φαίνεται η «αλυσίδα ομιλίας», δηλαδή η από τον ομιλητή έως τον ακροατή διαδρομή μετάδοσης ενός δεδομένου (νοήματος). Αρχικά κάποια νοήματα (semantics) παράγονται από τον εγκέφαλο. Τα νοήματα αυτά μεταφράζονται από τον εγκέφαλο σε προτάσεις φυσικής ομιλίας και μέσα από τους νευρώνες του νευρικού συστήματος, δίνεται εντολή σε όλους τους μύες που εμπλέκονται μέσα από το φωνητικό κανάλι στην παραγωγή ομιλίας να παράξουν το κύμα αέρα που αντιστοιχεί στην ομιλία της αντίστοιχης πρότασης. Συγκεκριμένα, οι μύες των πνευμόνων δημιουργούν μια πίεση αέρα που διέρχεται διαμέσου των φωνητικών χορδών, δηλαδή διαμέσου της γλωττίδας. Ανάλογα με το αν εκείνη την στιγμή παράγεται ηχηρή (voiced) ή άηχη (unvoiced) ομιλία οι φωνητικές χορδές βρίσκονται αντίστοιχα σε ταλάντωση ή χαλάρωση, δημιουργώντας μια ροή αέρα με παλμική ή τυρβώδη μορφή αντίστοιχα. Στη συνέχεια, η εξερχομένη της γλωττίδας ροή αέρα - 10 -
διέρχεται μέσα από τον φάρυγγα και τον λάρυγγα, και στη συνέχεια διαμέσου της στοματικής κοιλότητας, σε σύζευξη ή όχι με την ρινική κοιλότητα, εξέρχεται διαμορφωμένη με την μορφή του σήματος ομιλίας. Ανάλογα με το τι προφέρεται ανά χρονική στιγμή η φωνητική οδός μαζί με την σιαγώνα και την γλώσσα παίρνουν την κατάλληλη θέση άρθρωσης ώστε να παραχθεί ο κατάλληλος ήχος. Από την μεριά του ακροατή, το αυτί λαμβάνει το σήμα ομιλίας και αισθητήρια όργανα το μετατρέπει στα αντίστοιχα νευρικά σήματα. Στη συνέχεια τα νεύρα μεταφέρουν την πληροφορία αυτή στον εγκέφαλο, ο οποίος με την σειρά του την μετατρέπει σε νοήματα τα οποία και επεξεργάζεται αναλόγως. Η ομιλία είναι στην πραγματικότητα ένα σύνολο από στοιχειώδης ήχους. Οι ήχοι αυτοί ονομάζονται φωνήματα και είναι διαφορετικοί για κάθε γλώσσα. Κάθε φώνημα από μόνο του δεν έχει καμία νοηματική αντιστοίχηση, ωστόσο συνδυασμοί αυτών των ήχων και μάλιστα σε συγκεκριμένη σειρά αντιστοιχούν σε νοήματα, δηλαδή τις λέξεις κάθε γλώσσας. Μάλιστα το νόημα που αντιστοιχίζεται σε κάθε λέξη μπορεί να διαφοροποιείται για την ίδια ακολουθία φωνημάτων, σύμφωνα με το που τονίζεται η λέξη, ή σύμφωνα με τις λέξεις που προηγούνται ή ακολουθούν. Παρόλο που κάθε γλώσσα αποτελείται από το δικό της σύνολο φωνημάτων, όλες οι ομιλούμενες γλώσσες θεωρούνται υποσύνολα ενός υπερσυνόλου φωνημάτων που ονομάζεται διεθνές φωνητικό αλφάβητο (international phonetic alphabet IPA) (IPA, 1999). Η τεχνολογία ομιλίας προσπαθεί να αντιγράψει ή ακόμα και να βελτιώσει τις διαδικασίες που λαμβάνουν χώρα κατά την διάρκεια της προφορικής επικοινωνίας μεταξύ δύο ανθρώπων. Η διαδικασία επικοινωνίας ανθρώπου-μηχανής παρουσιάζεται στην Εικόνα 2.2, και αποτελεί την βασική δομή ενός τυπικού διαλογικού συστήματος. - 11 -
Εικόνα 2.2. Μπλοκ διάγραμμα ενός τυπικού διαλογικού συστήματος. Όπως φαίνεται στην Εικόνα 2.2, το σήμα ομιλίας από τον άνθρωπο-χρήστη επεξεργάζεται και οδηγείται σε ένα σύστημα αυτόματης αναγνώρισης ομιλίας (automatic speech recognizer ASR), όπου το μετατρέπει στην ακολουθία των αναγνωρισμένων λέξεων. Στη συνέχεια ένα σύστημα επεξεργασίας φυσικής γλώσσας, το οποίο αποτελεί και την καρδιά του διαλογικού συστήματος θα επεξεργαστεί τα δεδομένα εισόδου. Η επεξεργασία αυτή αποτελείται από μετατροπή από κείμενο σε νοήματα, με ένα σύστημα αντίληψης φυσικής ομιλίας (natural language understanding NLU), την επεξεργασία των νοημάτων και την δημιουργία νέων νοημάτων, δηλαδή της κατάλληλης απόκρισης του συστήματος, την μετατροπή των νέων αυτών νοημάτων σε φυσική ομιλία με ένα σύστημα δημιουργίας φυσικής ομιλίας (natural language generation NLG), και τέλος, την μετατροπή του κειμένου που αντιστοιχεί στην απόκριση του συστήματος προς τον άνθρωπο-χρήστη σε συνθετική ομιλία, με ένα σύστημα μετατροπής από κείμενο σε ομιλία (text-to-speech TTS). - 12 -
Είναι προφανές ότι η τεχνολογία ομιλίας περιλαμβάνει ένα πλήθος από συστήματα και υπο-συστήματα, για την πλήρη εκτέλεση της επικοινωνία ανθρώπουμηχανής. Η τεχνολογία ομιλίας μπορεί να χωριστεί σε διάφορες κατηγορίες και υποκατηγορίες όπως φαίνεται στην Εικόνα 2.3. Εικόνα 2.3. Κατηγορίες της τεχνολογίας ομιλίας. Παρότι η τεχνολογία ομιλίας έχει περισσότερα από πενήντα χρόνια ζωής μόνο τα τελευταία είκοσι χρόνια παρουσιάστηκε ραγδαία εξέλιξη στο χώρο, τόσο σε ερευνητικό όσο και σε εμπορικό επίπεδο. Στην Εικόνα 2.4 παρουσιάζεται η εξέλιξη της τεχνολογίας ομιλίας στον χρόνο παράλληλα με την διαθεσιμότητα βάσεων δεδομένων με ηχογραφήσεις ομιλίας. Είναι προφανές από την εικόνα ότι η δημιουργία βάσεων δεδομένων με ηχογραφήσεις ομιλίας μεγάλου όγκου (ώρες ομιλίας), από πολλούς ομιλητές και με φυσικό τρόπο ομιλίας, έπαιξε καθοριστικό ρόλο στην ανάπτυξη συστημάτων και εργαλείων στο χώρο της τεχνολογίας ομιλίας. Πράγματι, οι μικρές βάσεις δεομένων με ηχογραφήσεις ομιλίας από συνήθως ένα ομιλητή, ο οποίος διάβαζε ένα περιορισμένου λεξιλογίου κείμενο, ή ακόμα και μεμονωμένες λέξεις, σε συνδυασμό με τις περιορισμένες δυνατότητες των - 13 -
μικροεπεξεργαστών και υπολογιστικών συστημάτων των μέσων του προηγούμενου αιώνα, αποτέλεσαν τροχοπέδη για την εξέλιξη της τεχνολογίας ομιλίας. Εικόνα 2.4. Εξέλιξη της τεχνολογίας ομιλίας. Τα νέα δεδομένα των τελευταίων ετών, όπου ηχογραφήσεις αρκετών ωρών από πολλούς ομιλητές και με φυσικό τρόπο ομιλίας είναι διαθέσιμα, οδήγησαν τόσο στην βελτίωση των συστημάτων τεχνολογίας ομιλίας όσο και στην δημιουργία νέων τεχνικών που βασίζονται στην εκμετάλλευση του όγκου των διαθέσιμων ηχογραφήσεων. Για παράδειγμα στο χώρο της αναγνώρισης ομιλίας, η μετάβαση από μικρό όγκο ηχογραφήσεων σε μεγάλες βάσεις αρκετών ωρών ομιλίας επέτρεψε την μετάβαση από τεχνικές σύγκρισης προτύπων (template matching) σε στατιστικά μοντέλα ομιλίας και την εκπαίδευση εύρωστων ακουστικών μοντέλων ειδικού ή ακόμα και γενικού σκοπού για εφαρμογές μεγάλου λεξικού (large vocabulary speech recognition). Ένα χαρακτηριστικό παράδειγμα επίδρασης της ανάπτυξης βάσεων δεδομένων ομιλίας είναι η σύνθεση ομιλίας, όπου η δημιουργία μεγάλων βάσεων επέτρεψε την ανάπτυξη νέων τεχνικών. Συγκεκριμένα, σήμερα η πιο επιτυχημένη και συχνά χρησιμοποιούμενη μέθοδος σύνθεσης ομιλίας είναι αυτή της συνένωσης μονάδων με επιλογή τους από μια διαθέσιμη βάση (concatenative unit-selection). Η επιτυχία της μεθόδου αυτής οφείλεται στην απευθείας χρησιμοποίηση κατάλληλων τμημάτων ομιλίας χωρίς να έχουν υποστεί κάποια προ-επεξεργασία, με αποτέλεσμα η προκύπτουσα συνθετική ομιλία να είναι πολύ κοντά στην αυθεντική προηχογραφημένη ομιλία, σε αντίθεση με παλαιότερες μεθόδους όπως για παράδειγμα η formant σύνθεση (Allen et al., 1987; Dutoit, 1997; Huang et al. 2001) και η diphone - 14 -
σύνθεση (Moulines and Charpentier, 1990; Dutoit et al. 1996; Dutoit, 1997; Huang et al. 2001). Οι βάσεις δεδομένων ομιλίας που δημιουργούνται αποτελούνται από μια γενικά τυποποιημένη δομή. Πιο συγκεκριμένα, για κάθε ηχογράφηση ομιλίας υπάρχει το αντίστοιχο αρχείο ήχου. Οι ηχογραφήσεις ομαδοποιούνται και κατατάσσονται ανάλογα με τον ομιλητή, την διάλεκτο, τη γλώσσα, το περιεχόμενο, κ.λπ. Μαζί με κάθε αρχείο ήχου υπάρχει και ένα σύνολο επισημειώσεων της ομιλίας, που σε κάθε βάση καλύπτει διαφορετικά επίπεδα, όπως το περιεχόμενο της ομιλίας σε επίπεδο λέξεων, σημειώσεις ως προς την εμφάνιση ηχητικών φαινόμενων (για παράδειγμα κάποιος θόρυβος από το περιβάλλον, από τον ομιλητή, λανθασμένη προφορά κ.λπ.), σημειώσεις της ακολουθίας των φωνημάτων που αντιστοιχούν σε αυτή την πρόταση ομιλίας, κ.λπ. Η ποιότητα των επισημειώσεων που συνοδεύουν ένα σύνολο ηχογραφήσεων είναι πολύ σημαντική σε ότι αφορά την εκμετάλλευση της βάσης από μια τεχνική ή ένα σύστημα, ώστε να επιτευχθεί ανταγωνιστική απόδοση. Ένα από τα πιο σημαντικά επίπεδα επισημείωσης βάσεων ομιλίας είναι η καταγραφή των ορίων των φωνημάτων. Μάλιστα, τα υπόλοιπα στάδια κατασκευής της βάσης δεν απαιτούν ιδιαίτερο κόπο, αφού το κείμενο λέξεων συνήθως είναι έτοιμο, από τις υπαγορεύσεις των ομιλητών από συγκεκριμένα κείμενα, ή αν δεν είναι διαθέσιμο μπορεί να εξαχθεί αυτόματα από έτοιμα συστήματα, και στη συνέχεια να διορθωθεί από ακροατήδιορθωτή ημιαυτόματα. Σε ότι αφορά την εξαγωγή των αντίστοιχων φωνημάτων, αυτές συνήθως εξάγονται από λεξικά προφοράς, ή αν δεν υπάρχουν τέτοια διαθέσιμα από κανόνες μετατροπής γραμμάτων στην αντίστοιχη φωνητική τους γραφή (grapheme-to-phone ή αλλιώς letter-to-sound κανόνες). Σε αντίθεση με τα παραπάνω επίπεδα επισημείωσης, η καταγραφή των χρονικών στιγμών των ορίων των φωνημάτων είναι μια ιδιαίτερα δύσκολη εργασία. Σήμερα, η πιο ακριβής μέθοδος εντοπισμού των ορίων των φωνημάτων είναι με το χέρι. Η εργασία αυτή γίνεται συνήθως από έμπειρους φωνολόγους, οι οποίοι με την βοήθεια λογισμικών εργαλείων, όπως για παράδειγμα (Boersma and Weenink, 2005), ακούν το σήμα ομιλίας βλέποντας ταυτόχρονα την κυματομορφή του, προσπαθώντας έτσι να βρουν τις θέσεις των ορίων των φωνημάτων. Γίνεται αντιληπτό πως η διαδικασία αυτή είναι ιδιαίτερα χρονοβόρα και επίπονη μεν, ακριβή σε κόστος δε. Ένα επιπλέον πρόβλημα που εισάγει αυτή η διαδικασία είναι τα προσωπικά κριτήρια κάθε φωνολόγου. Πράγματι, σε παλαιότερες έρευνες (Eisen, 1991; Eisen et al. 1992; - 15 -
Wesenick and Kipp, 1996; van Hemert 1991; Pellom and Hansen 1998) έχει δειχθεί ότι για την ίδια φωνητική μετάβαση διαφορετικοί φωνολόγοι τοποθετούν σε διαφορετικές θέσεις το αντίστοιχο όριο. Μάλιστα, σε πολλές περιπτώσεις δεν υπάρχει καν συμφωνία για την τελική «σωστή» θέση του φωνητικού ορίου. Οι βάσεις δεδομένων με ηχογραφήσεις ομιλίας, που περιέχουν τις θέσεις των φωνητικών μεταβάσεων είναι καθοριστικής σημασίας σήμερα για την ανάπτυξη συστημάτων, όπως για παράδειγμα text-to-speech με συνένωση μονάδων. Ωστόσο, οι δυσκολίες που αναφέρθηκαν πιο πάνω καθιστούν σαφές ότι η χρήση φωνολόγων για την επισημείωση βάσεων δεδομένων μεγάλου όγκου, για παράδειγμα μερικών ωρών ομιλίας είναι απαγορευτική. Με αυτά τα δεδομένα γίνεται σαφές ότι η εκμετάλευση των υπαρχόντων και μεγάλου μεγέθους βάσεων δεδομένων ομιλίας, οι οποίες έχουν αποδειχθεί υπεύθυνες σε μεγάλο βαθμό για την ραγδαία εξέλιξη της τεχνολογίας ομιλίας εξαρτάται άμεσα από την ανάπτυξη μεθόδων για τον αυτόματο τεμαχισμό σημάτων ομιλίας. Υπάρχουν δύο σημαντικές κατηγορίες μεθόδων για αυτόματο τεμαχισμό σε φωνήματα: implicit και explicit (van Hemert, 1991). Στις implicit (ή ανεξάρτητες κειμένου) τεχνικές, το σήμα ομιλίας χωρίζεται σε τεμάχια, που αντιστοιχούν σε φωνήματα (ή σε συλλαβές), χωρίς οποιαδήποτε γνώση της αντίστοιχης φωνητικής ακολουθίας του σήματος ομιλίας. Στις explicit (ή εξαρτώμενες κειμένου) μεθόδους το σήμα ομιλίας είναι χωρίζεται και χρονικά ευθυγραμμίζεται σε σχέση με μια γνωστή φωνητική ακολουθία. Γενικά, οι explicit τεχνικές επιτυγχάνουν υψηλότερη απόδοση, δεδομένου ότι ο αριθμός ανιχνευμένων τμημάτων είναι ίσος με αυτόν στην φωνητική ακολυθία που αντιστοιχεί στο αρχείο, σε αντίθεση με την implicit περίπτωση όπου ο αριθμός προβλεφθέντων ορίων δεν είναι πάντα ο σωστός. Έως σήμερα, οι δύο πιο ευρέως χρησιμοποιούμενες μέθοδοι για τον αυτόματο τεμαχισμό ομιλίας στις αντίστοιχες φωνητικές μονάδες είναι η χρήση ενός συνθέτη ομιλίας σε συνδυασμό με τον αλγόριθμο δυναμικής παραμόρφωσης χρόνου και τα κρυμμένα μοντέλα Markov. Στις επόμενες παραγράφους γίνεται μια παρουσίαση των μεθόδων αυτών, καθώς επίσης και διαφόρων παραλλαγών τους, με τεχνικές μεταεπεξεργασίας ή παράλληλου συνδυασμού τους, όπως έχουν παρουσιαστεί στη διεθνή βιβλιογραφία. - 16 -
2.2. Μέθοδος τεμαχισμού με σύνθεση ομιλίας και δυναμική παραμόρφωση χρόνου Η μέθοδος τεμαχισμού σημάτων ομιλίας σε φωνητικές μονάδες με χρήση ενός συνθέτη ομιλίας και του αλγορίθμου δυναμικής παραμόρφωσης χρόνου προτάθηκε στις εργασίες (Bajwa et al., 1996; Deroo et al., 1998). Το μπλοκ διάγραμμα της παρούσας μεθόδου παρουσιάζεται στην Εικόνα 2.5. Εικόνα 2.5. Μπλοκ διάγραμμα της μεθόδου τεμαχισμού σημάτων ομιλίας με χρήση ενός συνθέτη ομιλίας και του αλγορίθμου δυναμικής παραμόρφωσης (Deroo et al., 1998). Όπως το μπλοκ διάγραμμα της πιο πάνω εικόνας παρουσιάζει το κείμενο των λέξεων που αντιστοιχεί στο περιεχόμενο του σήματος ομιλίας που επιθυμούμε να τεμαχίσουμε εισάγεται σε ένα μοντέλο μετατροπής κειμένου σε φωνήματα (text-tospeech phonetizer). Η δημιουργία τέτοιων μοντέλων γίνεται είτε βάσει κανόνων (rulebased) είτε από δεδομένα εκπαίδευσης (data-driven). Στην πρώτη περίπτωση, - 17 -
φωνολόγοι καταγράφουν κανόνες για την αντιστοίχηση γραμμάτων μέσα σε συγκεκριμένο περιεχόμενο, δηλαδή τα γειτονικά γράμματα, με φωνήματα. Στην δεύτερη περίπτωση (data-driven), χρησιμοποιούνται έτοιμες φωνητικές προφορές λέξεων, από λεξικά, για να εκπαιδεύσουν στατιστικά μοντέλα ή μοντέλα με μηχανική μάθηση. Στη συνέχεια η ακολουθία των φωνημάτων που αντιστοιχεί στο σήμα ομιλίας που επιθυμούμε να τεμαχίσουμε οδηγείται ως είσοδος σε ένα σύστημα σύνθεσης ομιλίας. Όπως φαίνεται από την Εικόνα 2.5, η μέθοδος βασίζεται στην χρησιμοποίηση ενός προϋπάρχοντος συστήματος σύνθεσης ομιλίας. Η προϋπόθεση της ύπαρξης ενός συστήματος σύνθεσης ομιλίας δεν είναι ιδιαιτέρως απαιτητική, δεδομένου ότι μπορεί για παράδειγμα να καλυφθεί από ένα diphone συνθέτη ομιλίας, ο οποίος έχει μεν μειωμένη απόδοση στην παραγόμενη συνθετική ομιλία σε σχέση με ένα corpus-based σύστημα σύνθεσης ομιλίας (Dutoit, 1997; Huang et al., 2001; Black and Lenzo, 2007), ωστόσο δεν απαιτεί την ύπαρξη ή την δημιουργία μιας βάσης δεδομένων ομιλίας, αφού μια συλλογή από non-sense λέξεις που να περιέχουν τα δίφωνα της γλώσσας μας μπορεί να θεωρηθεί έως ένα βαθμό ικανοποιητική. Επίσης παρόλο που για την δημιουργία φυσικής ομιλίας απαιτείται προσωδιακή πληροφορία για την πρόταση, μια προσεγγιστική εκτίμηση της προσωδίας επαρκεί για την δημιουργία του συνθετικού σήματος ομιλίας, αφού μόνο τα φασματικά χαρακτηριστικά που έχουν σχέση με τα όρια των φωνημάτων θα χρησιμοποιηθούν. Η διάρκεια των φωνημάτων και οι καμπύλες του επιτονισμού της ομιλίας επιλέγονται έτσι ώστε να εξυπηρετούν την διαδικασία αντιστοίχησης. Έτσι, από την στιγμή που δεν μπορεί να γίνει κάποια θεώρηση για τον ομιλητή, η καμπύλη της συνθετικής F 0 (όπου F 0 είναι η θεμελιώδης συχνότητα συντονισμού των φωνητικών χορδών) επιλέγεται όσο πιο απλή γίνεται, δηλαδή με μια σταθερή τιμή σε όλο το μήκος της. Θεωρώντας ότι η τεχνική παραμετροποίησης που θα χρησιμοποιηθεί στη συνέχεια δεν σχετίζεται με την F 0 καμπύλη, η επιλογή αυτή δεν έχει σημαντική επίπτωση στην ακρίβεια του τεμαχισμού της ομιλίας στα αντίστοιχα φωνήματα. Το σύστημα σύνθεσης ομιλίας θα δώσει ως έξοδο ένα συνθετικό σήμα ομιλίας (synthetic reference) το οποίο θα αντιστοιχεί στην φωνητική ακολουθία εισόδου. Στο συνθετικό σήμα ομιλίας οι θέσεις των φωνητικών μεταβάσεων είναι προκαθορισμένες και άρα γνωστές (Black and Lenzo, 2007). Στην συνέχεια μια τεχνική παραμετροποίησης σημάτων ομιλίας θα εφαρμοστεί με τον ίδιο ακριβώς τρόπο τόσο στο σήμα ομιλίας που θέλουμε να τεμαχίσουμε όσο - 18 -
και στο συνθετικό σήμα ομιλίας που δημιουργήθηκε προηγουμένως. Έπειτα από την εφαρμογή της τεχνικής παραμετροποίησης ομιλίας τα δύο σήματα ομιλίας θα αποσυντεθούν το καθένα σε μια ακολουθία από χαρακτηριστικά παραμετρικά διανύσματα. Το τελικό στάδιο της μεθόδου είναι η εφαρμογή του αλγορίθμου δυναμικής παραμόρφωσης του χρόνου (dynamic time warping DTW) στις δυο ακολουθίες παραμετρικών διανυσμάτων. Κατά την εφαρμογή της μεθόδου δυναμικής παραμόρφωσης χρόνου ελαχιστοποιείται η επισωρευμένη απόσταση ανάμεσα στα δύο σήματα ομιλίας. Η απόσταση που χρησιμοποιείται για την σύγκριση μεταξύ δύο διανυσμάτων r(i), με i=1,,i, και t(j), με j=1,,j, του συνθετικού σήματος ομιλίας και σήματος προς τεμαχισμού αντίστοιχα είναι η ευκλείδεια απόστασή τους L 2 (2.1) l = 1 dri ((),()) t j = ( rl() i tl() i ) Όπου L είναι το μήκος του κάθε παραμετρικού διανύσματος. Στη συνέχεια ορίζονται περιορισμοί για τα αρχικά και τελικά σημεία να είναι τα ( ( 1, ) ( 1) ) ( 0,0) ( r( I), t( J) ) ( I J) r t = και =, αντίστοιχα, όπως τοποθετούνται σε ένα δι-διάστατο πλέγμα, με τα διανύσματα r στον οριζόντιο άξονα και τα διανύσματα t στον κατακόρυφο. Τέλος, αναζητείται μέσα στο πλέγμα αυτό το μονοπάτι εκείνο που ταιριάζει καλύτερα τις δύο ακολουθίες διανυσμάτων. Στην αναζήτηση αυτή εισάγονται γενικοί περιορισμοί, που αφορούν την περιοχή των κόμβων στην οποία επιτρέπεται να γίνει η αναζήτηση, και τοπικοί περιορισμοί, που ορίζουν για κάθε κόμβο μεταβάσεις από επιτρεπόμενους κόμβους αφετηρίες. Τέτοιοι περιορισμοί έχουν οριστεί για το ταίριασμα προτύπων ομιλίας από τους Itakura (Itakura, 1975), και Shakoe και Chiba (Sakoe and Chiba, 1978). Το μονοπάτι ταιριάσματος βρίσκεται με δυναμικό προγραμματισμό υπολογίζοντας για κάθε επιτρεπόμενο κόμβο τη επισωρευμένη απόσταση που προκύπτει ως η απόσταση μεταξύ των δυο διανυσμάτων που αντιστοιχούν στον κόμβο αυτό συν την ελάχιστη από τις επισωρευμένες αποστάσεις των κόμβων (αφετηρίες) από τους οποίους επιτρέπεται η μετάβαση στον τρέχοντα κόμβο. Στην Εικόνα 2.6 φαίνονται δύο περιορισμοί, Α και Β, για τις μεταβάσεις από κόμβο σε κόμβο. - 19 -
Εικόνα 2.6. Παραδείγματα δύο τοπικών περιορισμών μεταβάσεων μεταξύ κόμβων στον αλγόριθμο δυναμικής παραμόρφωσης χρόνου. Για αυτούς τους περιορισμούς Α και B που φαίνονται στην Εικόνα 2.6, οι αναδρομικές σχέσεις υπολογισμού των επισωρευμένων αποστάσεων θα είναι αντίστοιχα (, ) (, ) min{ ( 1, 1 ), ( 1, ), (, 1) } D i j = d i j + D i j D i j D i j (2.2) (, ) (, ) min{ ( 1, 1 ), ( 1, 2 ), ( 2, 1) } D i j = d i j + D i j D i j D i j (2.3) Το μονοπάτι ταιριάσματος των δύο ακολουθιών παραμετρικών διανυσμάτων θα είναι η διαδρομή κόμβων εκείνη που οδηγεί στο ελάχιστο D(I,J). Η διαδρομή αυτή μπορεί να βρεθεί με οπισθόδρομη αναζήτηση του βέλτιστου μονοπατιού. Ένα από τα μειονεκτήματα της παρούσας μεθόδου τεμαχισμού σημάτων ομιλίας με χρήση συνθέτη ομιλίας είναι η εξάρτηση στον ομιλητή του συστήματος, δηλαδή το text-to-speech μετατροπέα. Αυτό συμβαίνει διότι η ίδια reference φωνή χρησιμοποιείται για τεμαχισμό, σε οποιονδήποτε test ομιλητή. Αυτό θα μπορούσε να μειωθεί εφόσον χρησιμοποιούνταν τεχνικές κανονικοποίησης ομιλητή, ωστόσο μελέτες που έχουν γίνει στο παρελθόν (Malfrere et al., 2003), έδειξαν ότι η κατεύθυνση αυτή δεν είναι μεγάλης σπουδαιότητας. - 20 -
2.3. Μέθοδος τεμαχισμού ομιλίας με κρυμμένα μοντέλα Markov Η χρήση των κρυμμένων μοντέλων Markov (Rabiner, 1989) για την μοντελοποίηση φωνημάτων έχει καθιερωθεί στο χώρο της τεχνολογίας ομιλίας (Young et al., 2006; Lee et al., 1990). Τα κρυμμένα μοντέλα Markov χρησιμοποιούνται τόσο στην αναγνώριση ομιλίας (Young et al., 2006; Lee et al., 1990), όσο και στην σύνθεση ομιλίας (Lee et al., 2001; Kawahara et al., 2000). Η γνωστή δομή τους σε συνδυασμό με την προσαρμοστικότητά τους οδήγησε στην χρήση τους για το πρόβλημα του τεμαχισμού της ομιλίας. Ο τεμαχισμός ομιλίας με κρυμμένα μοντέλα Markov είναι η πλέον ευρέως χρησιμοποιούμενη μέθοδος (Ljolje and Riley, 1991; Brugnara et al., 1993; Ljolje et al., 1997; Pellom and Hansen, 1998; Mporas et al., 2008) τεμαχισμού ομιλίας. Αυτή η μέθοδος έγινε δημοφιλής δεδομένου ότι είναι λιγότερο επιρρεπής σε μεγάλα λάθη (gross errors) (Kominek et al., 2003) και λόγω της γνωστής αρχιτεκτονικής της. Στην Εικόνα 2.7 παρουσιάζεται το μπλοκ διάγραμμα της μεθόδου τεμαχισμού σημάτων ομιλίας με κρυμμένα μοντέλα Markov. Εικόνα 2.7: Μπλοκ διάγραμμα της μεθόδου τεμαχισμού ομιλίας με χρήση των κρυμμένων μοντέλων Markov. Σε αυτήν την μέθοδο κάθε σήμα ομιλίας αποσυντίθεται αρχικά σε μια ακολουθία παραμετρικών διανυσμάτων, χρησιμοποιώντας μια τεχνική παραμετροποίησης ομιλίας. Κατόπιν, ένα σύστημα αναγνώρισης φωνημάτων με κρυμμένα μοντέλα Markov χρησιμοποιείται για να αναγνωρίσει και ευθυγραμμίσει χρονικά τη διανυσματική ακολουθία των παραμετρικών χαρακτηριστικών ομιλίας με - 21 -
την αντίστοιχη φωνητική ακολουθία μέσω του αλγορίθμου Viterbi (Viterbi, 1967). Η έκβαση αυτής της διαδικασίας είναι οι χρονικές θέσεις των φωνητικών μεταβάσεων. Όπως έχει ήδη αναφερθεί, ο τεμαχισμός μπορεί να είναι explicit ή implicit, ανάλογα με το αν υπάρχει κάποιος περιορισμός στην ακολουθία των φωνημάτων που αντιστοιχούν στο σήμα ομιλίας που πρόκειται να τεμαχιστεί. Έτσι στην περίπτωση του implicit τεμαχισμού στην πραγματικότητα η μέθοδος ανάγεται σε αναγνώριση φωνημάτων, ενώ στην explicit περίπτωση η μέθοδος ανάγεται σε χρονική ευθυγράμμιση των καταστάσεων των κρυμμένων μοντέλων Markov των εμπλεκομένων φωνημάτων με τα αντίστοιχα παραμετρικά διανύσματα ομιλίας. Εισάγουμε μαθηματικό φορμαλισμό για την μέθοδο τεμαχισμού με κρυμμένα μοντέλα Markov ως ακολούθως. Θεωρούμε μια τυχαία τεχνική παραμετροποίησης σημάτων ομιλίας η οποία αποσυνθέτει το σήμα ομιλίας σε μια ακολουθία παρατηρήσεων O αποτελούμενη από χαρακτηριστικά διανύσματα βραχύχρονης ανάλυσης. Θεωρώντας ένα συγκεκριμένο μήκος παραθύρου και ενιαίο ρυθμό πλαισίων για την τεχνική παραμετροποίησης ομιλίας που χρησιμοποιούμε εδώ ορίζουμε { 1, 2,..., t,..., T} O= o o o o, 1 t T (2.4) Όπου T είναι ο αριθμός των παρατηρήσεων. Κατά την διάρκεια της χρονικής ευθυγράμμισης με χρήση του αλγορίθμου Viterbi η ακολουθία παρατηρήσεων O αντιστοιχίζεται στην ακολουθία παρατηρήσεων L των P το πλήθος φωνημάτων { 1, 2,..., p,... P} L= l l l l, 1 p P (2.5) και ένα σύνολο κρυμμένων μοντέλων Markov φωνημάτων. Συγκεκριμένα, κάθε φώνημα μοντελοποιείται από ένα κρυμμένο μοντέλο Markov S καταστάσεων με διάταξη από αριστερά προς τα δεξιά, με non-emitting την πρώτη και τελευταία κατάσταση. Ένα παράδειγμα ενός τέτοιου κρυμμένου μοντέλου Markov, τυπικό για εφαρμογές τεχνολογίας ομιλίας φαίνεται στην Εικόνα 2.8. - 22 -
Εικόνα 2.8: Τυπική αρχιτεκτονική κρυμμένου μοντέλου Markov για την μοντελοποίηση φωνήματος ομιλίας, με 3 καταστάσεις χωρίς skipping μεταβάσεις. Αυτή η αρχιτεκτονική των κρυμμένων μοντέλων Markov, χρησιμοποιείται για να μοντελοποιήσει τα φασματικά χαρακτηριστικά στην αρχή, την μέση και το τέλος της διάρκειας κάθε φωνήματος, αφού αυτά δεν διατηρούνται σταθερά, καθώς επηρεάζονται από τα φασματικά χαρακτηριστικά του τέλους του προηγούμενου φωνήματος και της αρχής του επόμενου φωνήματος, λόγω της παρουσίας της συνάρθρωσης (Lee and Hon, 1989). Στην περίπτωση όπου η ακολουθία φωνημάτων είναι γνωστή, δηλαδή την explicit περίπτωση, τα μοντέλα που αντιστοιχούν στα φωνήματα της ακολουθίας των φωνημάτων του σήματος ομιλίας που πρόκειται να τεμαχιστεί καταστρώνουν ένα δίκτυο. Το δίκτυο αυτό αποτελείται από τα κρυμμένα μοντέλα Markov των φωνημάτων που αντιστοιχούν στην ακολουθία L, και κατασκευάζεται ενώνοντας την τελική non-emitting κατάσταση του μοντέλου l k με την πρώτη non-emitting κατάσταση του l k+1 μοντέλου. Ένα παράδειγμα υλοποίησης ενός τέτοιου δικτύου φαίνεται στην Εικόνα 2.9. Εικόνα 2.9: Δίκτυο κρυμμένων μοντέλων Markov, όπου φαίνεται η συνένωση τους για μια ακολουθία δύο λέξεων (one two) που αντιστοιχεί στην ακολουθία φωνημάτων /W/ - /AX/ - /N/ - /T/ - /OO/ (SPHINX, 2008). Αφού κατασκευαστεί το δίκτυο των κρυμμένων μοντέλων Markov, εφαρμόζεται ο αλγόριθμος Viterbi, για να ευθυγραμμίσει χρονικά την ακολουθία των παραμετρικών διανυσμάτων με τις καταστάσεις των μοντέλων του δικτύου. H - 23 -
πιθανότητα () t παρατήρησης των διανυσμάτων από o έως o και τερματισμού στο φ j 1 κρυμμένο μοντέλο Markov j την χρονική στιγμή t υπολογίζεται επαναληπτικά ως { φ, } φ () t = max ( t 1) a b ( o ) j N j i i j j t i T, 1 (3.14) όπου N είναι ο συνολικός αριθμός καταστάσεων στο δίκτυο που περιέχει τα κρυμμένα μοντέλα Markov, δηλαδή N = P( S 1) + 1. Οι αρχικές συνθήκες για τον υπολογισμό των φ j () t είναι φ =, φ (1) = a b ( o ) (3.15) 1 (1) 1 j 1, j j 1 Και οι τελικές συνθήκες είναι { φi T, } φ ( T) max ( ) N = i N i a (3.16) Εδώ το a 1, j αναπαριστά την πιθανότητα μετάβασης από την κατάσταση i στην κατάσταση j, το ( ) αναπαριστά την πιθανότητα παρατήρησης της o δεδομένης bj o1 1 της κατάστασης j του κρυμμένου μοντέλου Markov, για την παραμετρική τεχνική r. Η ακολουθία καταστάσεων με την μέγιστη πιθανοφάνεια (maximum likelihood) εξάγεται με τον εντοπισμό της κατάστασης i η οποία μεγιστοποιεί την εξίσωση (3.14) για κάθε t. Τα διανύσματα παρατηρήσεων που αντιστοιχίζονται με τις αρχικές και τελικές καταστάσεις δύο ακολούθων κρυμμένων μοντέλων Markov υποδυκνύουν τα προβλεφθέντα φωνητικά όρια B. Ένα σχηματικό παράδειγμα του αλγορίθμου Viterbi για ένα κρυμμένο μοντέλο Markov έξι καταστάσεων με τις ακραίες καταστάσεις nonemitting και skipping μεταβάσεις φαίνεται στην Εικόνα 2.10. - 24 -
Εικόνα 2.10: Παράδειγμα εφαρμογής του Viterbi αλγορίθμου σε 6 παραμετρικά διανύσματα ομιλίας και ένα κρυμμένο μοντέλο Markov 6 καταστάσεων (Young et al., 2006). Όπως φαίνεται στην Εικόνα 2.10, δημιουργείται ένα πλέγμα αντιστοίχησης μεταξύ των παραμετρικών διανυσμάτων και των καταστάσεων του κρυμμένου μοντέλου Markov. Η ακολουθία κόμβων με την μέγιστη πιθανοφάνεια ορίζει την κατάσταση στην οποία αντιστοιχίζεται κάθε παραμετρικό διάνυσμα. Με αυτό τον τρόπο, η θέση μιας φωνητικής μετάβασης μπορεί να οριστεί από το τελευταίο παραμετρικό διάνυσμα που αντιστοιχίζεται στην τελευταία κατάσταση ενός κρυμμένου μοντέλου Markov του προηγούμενου φωνήματος, ή ισοδύναμα, από το πρώτο διάνυσμα που αντιστοιχίζεται στην πρώτη κατάσταση του κρυμμένου μοντέλου Markov του επόμενου φωνήματος, στην συγκεκριμένη φωνητική μετάβαση. Το κύριο πλεονέκτημα της μεθόδου τεμαχισμού σημάτων ομιλίας με κρυμμένα μοντέλα Markov είναι ότι η εκπαίδευση μοντέλων φωνημάτων είναι απλή και εύκολη διαδικασία. Μάλιστα δεδομένης της ύπαρξης συστημάτων αυτόματης αναγνώρισης ομιλίας, τα υπάρχοντα ακουστικά μοντέλα, δηλαδή τα μοντέλα των φωνημάτων της αντίστοιχης γλώσσας, μπορούν να χρησιμοποιηθούν ως phone recognizers. Η ευελιξία αυτή καθιέρωσε τα κρυμμένα μοντέλα Markov ως την κύρια μέθοδο για τον αυτόματο τεμαχισμό σημάτων ομιλίας στις αντίστοιχες φωνητικές τους μονάδες. - 25 -
Εκτός από τα παραπάνω πλεονεκτήματα της μεθόδου τεμαχισμού με κρυμμένα μοντέλα Markov, ένα επιπλέον χαρακτηριστικό της μεθόδου είναι η δυνατότητα προσαρμογής των φωνητικών μοντέλων που υπάρχουν στις ανάγκες κάθε εφαρμογής. Πιο συγκεκριμένα, τα κρυμμένα μοντέλα Markov μπορούν να προσαρμοστούν σε συγκεκριμένο φύλο ομιλητή, σε συγκεκριμένο ομιλητή, ή σε συγκεκριμένη διάλεκτο ομιλίας. Αυτό μπορεί να γίνει με τεχνικές προσαρμογής όπως η μέθοδος μέγιστης πιθανοφάνειας (maximum a-posteriori MAP) (Gauvain and Lee, 1994), η μέθοδος μέγιστης πιθανοφάνειας (maximum likelihood estimation MLE), (Wald, 1949; Liporace, 1982) και η μέθοδος μέγιστης πιθανοφάνειας με γραμμική παλινδρόμηση (maximum likelihood linear regression MLLR), (Leggetter and Woodland, 1995). Με αυτό τον τρόπο τα μοντέλα των φωνημάτων μοντελοποιούν με μεγαλύτερη ακρίβεια τα φασματικά χαρακτηριστικά ενός συγκεκριμένου ομιλητή για παράδειγμα, του οποίου τις ηχογραφήσεις θέλουμε να τεμαχίσουμε, με αποτέλεσμα την βελτίωση της ακρίβειας του τεμαχισμού των σημάτων ομιλίας (Toledano and Gomez, 2003). Τέλος, σε περίπτωση τεμαχισμού βάσης δεδομένων ομιλίας, όπου είναι γνωστό το κείμενο λέξεων που αντιστοιχεί σε κάθε ηχογράφηση, τα κρυμμένα μοντέλα Markov για κάθε φώνημα μπορούν να εκπαιδευθούν αποκλειστικά από τα ίδια δεδομένα ομιλίας που πρόκειται να τεμαχιστούν σε φωνητικές μονάδες. 2.3.1. Μέθοδοι εκπαίδευσης μονάδων αναγνώρισης φωνημάτων βασισμένες σε κρυμμένα μοντέλα Markov Η εκπαίδευση κάθε μονάδας αναγνώρισης φωνημάτων (phone recognizer) βασισμένη σε κρυμμένα μοντέλα Markov αποτελείται από τα δύο βασικά βήματα, την αρχικοποίηση και τον καθορισμό των τιμών των παραμέτρων των μοντέλων. Αρχικά, ένα κρυμμένο μοντέλο Markov που αντιστοιχεί σε κάθε φώνημα, καθορίζεται και οι παράμετροί τους αρχικοποιούνται. Έπειτα, οι παράμετροι κάθε κρυμμένου μοντέλου Markov υπολογίζονται επαναληπτικά προκειμένου να καθοριστούν τα αντίστοιχα στατιστικά χαρακτηριστικά των φωνημάτων. Οι Viterbi (Viterbi, 1967) και Baum-Welch (Baum et al., 1970) αλγόριθμοι έχουν χρησιμοποιηθεί επιτυχώς για αυτό τον σκοπό. Τυπικά, τα μοντέλα των φωνημάτων κατασκευάζονται από υποσύνολα βάσεων δεδομένων, ή δεδομένα εκκίνησης - 26 -