Συστήματα αναγνώρισης ομιλίας και χρήση τους Αναστάσιος Φραντζής ΓΤΠ 61 0/0/202 01/04/2012
Συσκευές αλληλεπίδρασης εισόδου 1. Εισαγωγής κειμένου 3. Αναγνώριση κειμένου, χειρογράφου, φωνής Πληκτρολόγιο 2. Δεικτικές / επιλογής Οθόνες επαφής Πίνακας ψηφιοποίησης Χειριστήριο (joystick) Ποντίκι Άλλες δεικτικές συσκευές Αναγνώριση κειμένου OCR Αναγνώριση χειρογράφου, Χαρακτήρων,, πίεσης γραφής, κλπ Αναγνώριση φωνής π.χ. Dragon ή Λογογράφος
Άνθρωπος vs Μηχανή Λέξεις που ταιριάζουν στο γενικότερο πλαίσιο συζήτησης Συγκεκριμένοι κανόνες σχετικά με δομή πρότασης Παρανοήσεις διορθώνονται γρήγορα ρ Συγκρίνει και ταιριάζει την είσοδο με αποθηκευμένα μοντέλα ήχων, ομιλίας, λέξεων, προφορών Δεν έχει επίγνωση της πραγματικότητας Οι παρανοήσεις δεν είναι εύκολο να διορθωθούν
Δυσκολίες στην αναγνώριση ομιλίας Λόγω της πολυπλοκότητας της ανθρώπινης ομιλίας Μεταφορικός λόγος Επαναλαμβανόμενα μ νοήματα Μη δομημένος λόγος Λόγω ιδιαιτερότητας στη χροιά της φωνής διαφορετικών ομιλητών
Προσδοκίες των χρηστών Αναγνώριση κατά την υπαγόρευση με κανονικό τόνο Ομαλή ροή διαλόγου και ανταπόκριση του συστήματος Υψηλή ποιότητα Έξυπνα, φιλικά και ανθρώπινα συστήματα
Τεχνολογία της διεπαφής (interface) Η τεχνολογία που υποστηρίζει την φωνητική διεπαφή χρήστη είναι η αυτόματη αναγνώριση ομιλίας (ASR: Automatic Speech Recognition) Έχει συνήθως δυνατότητα ομιλίας IVR (Interactive Voice Response), μπορεί όμως να είναι επίσης και ένας Η/Υ, ένα σύστημα πλοήγησης αυτοκινήτου ή άλλη φορητή συσκευή με δυνατότητα ομιλίας Το φωνητικό σήμα εισόδου 1.Συλλαμβάνεται 2.Ψηφιοποιείται 3.Κατακερματίζεται 4.Συγκρίνεται με ένα σύνολο αποθηκευμένων ηχητικών μοντέλων από ήχους ομιλίας 5.Οι ήχοι τότε δημιουργούν πιθανές λέξεις οι οποίες συγκρίνονται με τη γραμματική των λέξεων που θα πρέπει να έχουν αναγνωριστεί μέχρι εκείνο το σημείο του διαλόγου
Διαδικασία αναγνώρισης Το σήμα ψηφιοποιείται και διαιρείται σε ένα σύνολο από μικρά τμήματα για ανάλυση (κατακερματισμός) Κάθε τμήμα μετατρέπεται σε ένα χαρακτηριστικό διάνυσμα, δηλαδή μια αριθμητική αναπαράσταση του σήματος ομιλίας που περιέχει πληροφορίες σχετικές με την αναγνώριση Η αλληλουχία των διανυσμάτων αποτελεί τη βάση για την αναγνώριση σε επίπεδο λέξεων
Κατηγορίες συστημάτων Τα συστήματα ομιλίας μπορούν να κατηγοριοποιηθούν με διάφορους τρόπους και βάσει διαφορετικών παραμέτρων 1. Είδος ομιλίας 2. Μοντέλο ομιλητή 3. Μέγεθος λεξιλογίου 4. Τεχνική αναγνώρισης Είδη Ομιλίας 1. Συστήματα αναγνώρισης διακριτής ομιλίας (μεμονωμένες λέξεις) 2. Συστήματα αναγνώρισης διασυνδεδεμένων λέξεων. 3. Συστήματα αναγνώρισης συνεχούς ομιλίας. Τα πιο σύγχρονα συστήματα αναγνώρισης ομιλίας.
Μέγεθος λεξιλογίου Το μέγεθος του λεξιλογίου επηρεάζει την πολυπλοκότητα, τις υπολογιστικές απαιτήσεις και την ακρίβεια του συστήματος. o Σύστημα μικρού λεξιλογίου (μερικές έως 100 λέξεις) o Μεσαίου λεξιλογίου λ (από 100 μέχρι 1000 λέξεις) άλ λ ξ λ ί ό ό o Μεγάλου λεξιλογίου (περισσότερες από 1000 λέξεις)
Δομή συστημάτων Τα συστήματα αναγνώρισης ομιλίας ταξινομούνται σε κατηγορίες ανάλογα με τις τεχνικές που υλοποιούνται στις επιμέρους βαθμίδες τους Μέθοδοι και τεχνικές για την αναγνώριση ομιλίας Ψηφιοποίηση και δειγματοληψία της ομιλίας. Επεξεργασία (φασματική ανάλυση, LPC ανάλυση, μετασχηματισμός Fourier, μετασχηματισμός cepstral, κτλ). Αναγνώριση φωνημάτων, ομάδων φωνημάτων ή λέξεων Αλγόριθμος DTW (Dynamic Time Warping) HMM (Ηidden Markov modelling) NNs (Νευρωνικά Δίκτυα) Έμπειρα συστήματα
Εφαρμογές Εμπορικά Προγράμματα Τηλεφωνία Στα ηλεκτρονικά παιχνίδια Συστήματα Φωνητικού Ταχυδρομείου (Voicemail) Στο αυτοκίνητο Στα μαχητικά αεροσκάφη Στις προσομοιώσεις Στους προσωπικούς υπολογιστές Αυτοματισμοί Σπιτιού ύ( (Home Automation)
Τηλεφωνία Η τεχνολογία αναγνώρισης φωνής διαδέχτηκε δέ τα συστήματα touch tone IVR Διευκόλυνε εργασίες και αλληλεπιδράσεις στις οποίες τα μάτια και τα χέρια είναι απασχολημένα Επέτρεψε λειτουργίες που είναι δύσκολες με τη χρήση συστημάτων touch tone Καινοτομίες Εισαγωγή συμβολοσειρών που περιέχουν γράμματα και ψηφία Επιλογή από μακροσκελείς λίστες επιλογών Μεταφορά ποσών μεταξύ τραπεζικών λογαριασμών (Voice Banking) Ταξιδιωτικές κρατήσεις
Κινητά τηλέφωνα Siri στο iphone 4S αποστολή μηνυμάτων υπενθυμίσεις τηλεφωνικές κλήσεις αναζήτηση στο διαδίκτυο δί εκκίνηση προγραμμάτων και άλλα
Στο αυτοκίνητο Συστήματα πλοήγησης επικοινωνίας Έλεγχος ηχοσυστήματος, κλιματισμού κλπ. Κλήσεις σε επαφές στο κινητό τηλέφωνο Πληροφορίες ρ για τη κίνηση η και τον καιρό Μετατροπή γραπτών μηνύματα sms σε ακουστικό κείμενο, ώστε να μην απασχολεί τα χέρια του
Σε παιχνίδια Αναγνώριση φωνής σε XBOX 360 Χειρισμός κονσόλας χρησιμοποιώντας φωνητικές εντολές Αρχικά ο χρήστης εκφωνεί τη λέξη "Xbox" και, στη συνέχεια, διαβάζει δυνατά μία από τις επιλογές που εμφανίζονται στην οθόνη Βίντεο
Σύγχρονες τεχνολογίες Chrome 11: Σταθερή έκδοση με αναγνώριση φωνής μέσω HTML5 Πρόκειται για ένα χαρακτηριστικό που προς το παρόν αξιοποιείται από ελάχιστους ιστοχώρους. Υποστήριξη αγγλικής γλώσσας LG 3D Smart TV και τηλεχειριστήριο με αναγνώριση φωνής Magic Remote: σημαδεύοντας την οθόνη μπορείς να επιλέξεις τις λειτουργίες Σε επόμενη έκδοση τηλεοράσεων η LG θα προσθέσει σε αυτό αναγνώριση φωνής και wheel για γρήγορο scrolling! Πλοήγηση με χρήση φωνητικών εντολών
Βιβλιογραφία http://ahci.wikispaces.com/voice h iki /V i http://pgaval.wordpress.com/category/τεχνολογία/ Αναγνώριση Ομιλίας http://abnet.agrino.org/htmls/t/t009.htm http://techblog.gr/homecinema/lg 3d smart tv tv voice recognition remote control 5622/ http://techblog.gr/homecinema/lg 3d smart tv g g voice recognition remote control 5622/ http://www.apple.com/iphone/features/siri.html http://support.xbox.com/el GR/kinect/voice/speech h recognition