ΜΕΛΕΤΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΟΝ ΕΛΕΓΧΟ ΡΟΜΠΟΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΜΕΣΩ ΦΩΝΗΤΙΚΩΝ ΕΝΤΟΛΩΝ

Σχετικά έγγραφα
Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

ΛΑΠΑΡΟΣΚΟΠΙΚΗ ΡΟΜΠΟΤΙΚΗ ΧΕΙΡΟΥΡΓΙΚΗ «ΤΑ ΝΥΣΤΕΡΙΑ ΣΤΑ ΧΕΙΡΑ ΤΩΝ ΡΟΜΠΟΤ»

BY THE MYSTERY MACHINE ΣΤΈΛΛΑ ΠΑΠΑΔΟΠΟΎΛΟΥ, ΦΩΤΕΙΝΉ ΠΑΝΤΟΚΡΆΤΟΡΑ, ΜΑΡΊΑ ΞΕΝΙΤΟΠΟΎΛΟΥ, ΠΈΤΡΟΣ ΠΑΠΑΠΈΤΡΟΥ, ΆΓΓΕΛΟΣ ΣΤΑΘΕΡΌΠΟΥΛΟΣ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΕΦΑΡΜΟΓΗ 1 ΤO ΡΟΜΠΟΤ INTELLITEK ER-2u

Ενότητα 1η. Εισαγωγή στην Πληροφορική

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΕΙΚΟΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ. Γάντι δεδομένων. Το γάντι δεδομένων είναι. Τρισδιάστατος ήχος

Μοντελοποίηση τρισδιάστατου κόσμου σε πραγματικό κόσμο: το παράδειγμα του Kinect. ιδάσκων: Φ. Αζαριάδης Φοιτήτρια: Άρτεμις-Αγγελική Σφύρη

RobotArmy Περίληψη έργου

Βοηθήματα για Άτομα με Κινητικά Προβλήματα

Αυτοματισμοί και Συστήματα Αυτομάτου Ελέγχου. Ενότητα 2

Μέρος Α Γνωριμία με το περιβάλλον προγραμματισμού του ρομπότ OTTO

Επιμέλεια παρουσίασης: Αριστείδης Παλιούρας ΤΙ ΕΊΝΑΙ ΈΝΑ ΡΟΜΠΟΤ (ROBOT)?

Τα Robot. Από τον Τάλω στα σύγχρονα προγραμματιζόμενα Robot. Κούρογλου Αλέξανδρος. Μαθητής Γ3 Γυμνασίου, Ελληνικό Κολλέγιο Θεσσαλονίκης

Προγραμματισμός. Το περιβάλλον του scratch

Ιστορική Αναδρομή Λειτουργικών Συστημάτων (ΛΣ) Εισαγωγή : ο πυρήνας (kernel) / ο φλοιός (shell) Β ΕΠΑΛ

Μάθημα 10 ο ΔΙΑΧΕΙΡΙΣΗ ΕΙΣΟΔΟΥ ΕΞΟΔΟΥ (INPUT/OUTPUT)

Εναλλακτικές στρατηγικές, Πρακτικές και Προσεγγίσεις για κατάκτηση πυρηνικών γνώσεων και ορολογίας

Μεγάφωνο HP UC. Οδηγός χρήσης

Πτυχιακή Εργασία Οδηγώντας ένα Ρομποτικό Αυτοκίνητο με το WiFi. Η Ασύρματη Επικοινωνία, χρησιμοποιώντας

Προεπισκόπηση Παρουσίασης Διαδραστικοί Πίνακες

Πολυτεχνείο Κρήτης Τμήμα ΗΜΜΥ Χειμερινό Εξάμηνο Intelligence Lab. Αυτόνομοι Πράκτορες. Κουσανάκης Βασίλης

C6T ΣΥΝΔΕΘΕΊΤΕ ΆΨΟΓΑ ΣΤΟ ΣΠΊΤΙ, ΤΟ ΓΡΑΦΕΊΟ, ΤΟ ΚΑΤΆΣΤΗΜΆ ΣΑΣ. ΕΠΙΚΟΙΝΩΝΉΣΤΕ ΜΕ ΤΗΝ ΟΙΚΟΓΈΝΕΙΑ ΚΑΙ ΠΑΡΑΚΟΛΟΥΘΉΣΤΕ ΤΑ ΚΑΤΟΙΚΊΔΙΆ ΣΑΣ.

Έγγραφο Προδιαγραφών Απαιτήσεων Λογισμικού για το παιχνίδι: Asylum : The Escape

Ο Οδηγός γρήγορης εκκίνησης

Σχεδιαστικά Προγράμματα Επίπλου

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Ελληνικά. Εγχειρίδιο χρήσης του BT-02N

Slalom Race Computer Game on Scratch

Αναπτυξιακά ορόσημα λόγου

Κεφάλαιο 1.5: Τα βασικά μέρη ενός υπολογιστή

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Πακέτο Lego Mindstorms

Ανάπτυξη δικτυακών εκπαιδευτικών παιχνιδιών πολλών χρηστών. Δ. Μετάφας. (Android, ipad κ.α.). Το παιχνίδι που θα επιλεγεί για την

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΣΥΝΔΕΘΕΙΤΕ ΑΨΟΓΑ ΣΤΟ ΣΠΙΤΙ, ΤΟ ΓΡΑΦΕΙΟ ΣΑΣ ΚΑΙ ΤΟ ΚΑΤΑΣΤΗΜΑ ΣΑΣ. ΕΠΙΚΟΙΝΩΝΗΣΤΕ ΜΕ ΤΗΝ ΟΙΚΟΓΕΝΕΙΑ ΣΑΣ ΚΑΙ ΠΑΡΑΚΟΛΟΥΘΗΣΤΕ ΤΑ ΚΑΤΟΙΚΙΔΙΑ ΖΩΑ ΣΑΣ.

Κεφάλαιο 3 Λειτουργικά Συστήματα Β ΕΠΑΛ

Διπλωματική Εργασία. Επιβλέπων καθηγητής: Δρ. Μηνάς Δασυγένης. Πανεπιστήμιο Δυτικής Μακεδονίας Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ CD-PLUS/4+N

Ασύρματη ψηφιακή συσκευή παρακολούθησης και αμφίδρομης επικοινωνίας για μωρό VB601

ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ

Σχεδιασμός και κατασκευή ενός υβριδικού αμυντικού αυτοματοποιημένου ρομποτικού συστήματος

Ανακύκλωσε το Computer Game σε Scratch

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι

Εισαγωγή στη Ρομποτική και τον Προγραμματισμό με τη χρήση του ρομπότ Thymio & του λογισμικού Aseba

Κεφάλαιο 1.6: Συσκευές αποθήκευσης

Δύο αυτιά καλύτερα από ένα. Ακοή, όπως έχει προβλέψει η φύση

Παρουσιάσεις με Αντίκτυπο (High Impact Presentations) Χαρίκλεια Τσαλαπάτα 11/10/2017

PAVIRO 1. PAVIRO Σύστημα ανακοινώσεων και εκκένωσης χώρων μέσω φωνητικής αναγγελίας με επαγγελματική ποιότητα ήχου Ευελιξία από την πρώτη στιγμή

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

A7.2 Δημιουργία Απλής Γραφικής Εφαρμογής σε Περιβάλλον Scratch

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ

Αρχιτεκτονική σχεδίαση με ηλεκτρονικό υπολογιστή

UTECO ABEE ΒΙΟΜΗΧΑΝΙΚΟΣ & ΝΑΥΤΙΛΙΑΚΟΣ ΑΥΤΟΜΑΤΙΣΜΟΣ

Μάθημα 4.1 Βασικές μονάδες προσωπικού υπολογιστή

Breakdance Computer Game σε Scratch.

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Αρχιτεκτονική Η/Υ Το chipset ενός υπολογιστικού συστήματος. Δρ. Μηνάς Δασυγένης

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Εγχειρίδιο Χρήσης. Χαρακτηριστικά προϊόντος. Φόρτιση: Οδηγίες Λειτουργίας. Εναλλαγή λειτουργιών. Κουμπιά Λειτουργιών

11/1/18. Κεφάλαιο 2. Κατανόηση των ψηφιακών εξαρτηµάτων. Εξέταση του υπολογιστή: Από τι αποτελείται. Στόχοι. Κατανόηση του υπολογιστή σας

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Σύγχρονες διαδικασίες σχεδιασμού, Ανάπτυξης και Παραγωγής προϊόντων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

12/5/18. συστημάτων. Το λογισµικό συστηµάτων. Κεφάλαιο 5

Λογισμικό - Προγράμματα

Ενημέρωση σε Windows 8.1 από τα Windows 8

Εισαγωγή στην Αρχιτεκτονική Η/Υ

Copyright 2016 HP Development Company, L.P.

Εκτέλεση προγράμματος

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΚΕΦΑΛΑΙΟ 5 ΠΡΟΣΟΜΟΙΩΤΗΣ PLC SIMATIC S7-300

ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Α Γενικού Λυκείου (Μάθημα Επιλογής)

29-30 ΜΑΡΤΙΟΥ Περιφερειακός Σχεδιασµός Διαχείρισης Στερεών Αποβλήτων ΠΟΡΕΙΑ ΠΡΟΣ ΤΗΝ ΚΥΚΛΙΚΗ ΟΙΚΟΝΟΜΙΑ

ΡΟΜΠΟΤΙΚΗ. ΕΡΓΑΣΙΑ ΠΑΝΩ ΣΤΗΝ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΝΧΤ ΚΑΙ ΤΑ ΠΡΩΤΟΚΟΛΛΑ ΕΠΙΚΟΙΝΩΝΙΑΣ BLUETOOTH, I2C και serial communication

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Αρχιτεκτονική Υπολογιστών

Kιτ επίδειξης συσκευής ανάγνωσης και αισθητήρα. Οδηγός γρήγορης έναρξης

Β1.1 Δημιουργία Εφαρμογής στο Περιβάλλον Προγραμματισμού EdScratch του Edison ρομπότ

Εισαγωγή. Τεχνολογία Πολυµέσων 01-1

Lab 1: Experimenting on Arduino & AI Sense

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας

Συστήματα πολυμέσων. Εισαγωγή Υλικό συστημάτων πολυμέσων Λογισμικό συστημάτων πολυμέσων Συστήματα πραγματικού χρόνου Χρονοπρογραμματισμός

Ο Οδηγός γρήγορης εκκίνησης

Λειτουργίες CNC-DNC. Επισκόπηση λειτουργιών CNC Επισκόπηση λειτουργιών DNC Επικοινωνίες. Λειτουργίες CNC-DNC. Γ.Βοσνιάκος-ΕΡΓΑΛΕΙΟΜΗΧΑΝΕΣ

Cubitech Hellas Ακροπόλεως 24, Καλλιθέα, Αθήνα Τ.Κ , Ελλάδα, Τηλ Φαξ

ΕΙΣΑΓΩΓΗ ΣΤOΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) MASTER IN OFFICE microsoft power point ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ

MULTICOM 112. Οδηγίες χρήσης

η φυση μας εχει δωσει δυο αυτια σχεδιασμενα να δουλευουν μαζι

Ενότητα 4. Εισαγωγή στην Πληροφορική. Αναπαράσταση δεδοµένων. Αναπαράσταση πληροφορίας. υαδικοί αριθµοί. Χειµερινό Εξάµηνο

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Αρχιτεκτονική Λογισμικού

Εγχειρίδιο χρήσης. Ασύρματο εσωτερικό ραντάρ GSC-P829

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

αντίστοιχο γεγονός. Όταν όντως το κουμπί

Ενότητα 12 (κεφάλαιο 28) Αρχιτεκτονικές Εφαρμογών

Μηχανολόγος Μηχανικός στο Α.Π.Θ.

Transcript:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΒΙΟΜΗΧΑΝΙΚΗ ΠΛΗΡΟΦΟΡΙΚΗ ΜΕΛΕΤΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΟΝ ΕΛΕΓΧΟ ΡΟΜΠΟΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΜΕΣΩ ΦΩΝΗΤΙΚΩΝ ΕΝΤΟΛΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κρούστη Αικατερίνη ΑΕΜ: 980 Νάσου Αικατερίνη ΑΕΜ: 982 Επιβλέπων Καθηγητής Δρ. Θεόδωρος Παχίδης Καβάλα, 2009

ΕΥΧΑΡΙΣΤΙΕΣ Αρχικά θα θέλαμε να ευχαριστήσουμε τον κύριο Καμπουρλάζο Βασίλειο του τμήματος Βιομηχανικής Πληροφορικής του ΤΕΙ Καβάλας, ο οποίος μας εφοδίασε με τις βασικές αρχές της ρομποτικής που η πλήρης κατανόηση τους αποδείχτηκε απαραίτητη στην πορεία. Στη συνέχεια θα θέλαμε να αναφερθούμε ξεχωριστά στον επιβλέποντα καθηγητή μας, Δρ. Θεόδωρο Παχίδη για την εμπιστοσύνη που μας έδειξε και την υποστήριξη του. Τέλος, θα θέλαμε να ευχαριστήσουμε τον κύριο Χάλδα Παναγιώτη για την αμέριστη υποστήριξη του για την ολοκλήρωση αυτής της πτυχιακής εργασίας. Επίσης, ιδιαίτερα ευχαριστούμε τις οικογένειες μας, την Κατερίνα, τον Μηνά Παγιαύλα και τον Αλέξανδρο Μανελίδη, για την υπομονή τους και τη ψυχολογική στήριξή τους όταν αυτή χρειάστηκε. 2

ΠΕΡΙΕΧΟΜΕΝΑ 1. ΥΦΙΣΤΑΜΕΝΑ ΡΟΜΠΟΤ ΕΛΕΓΧΟΜΕΝΑ ΜΕ ΦΩΝΗΤΙΚΕΣ ΕΝΤΟΛΕΣ... 13 1.1 Γενικά... 13 1.2 Έλεγχος ρομποτικού συστήματος μέσω φωνητικών εντολών... 13 1.2.1 Ρομπότ CORA... 13 1.2.1.1 Αναγνώριση χειρονομίας...14 1.2.2 Ρομπότ ASIMO... 15 1.2.2.1 Η ιστορία της εξέλιξης του ASIMO... 15 1.2.2.2 Ποιοτικός έλεγχος λογισμικού HARK...18 1.2.2.3 Οχτώ «Αυτιά»...18 1.2.2.4 Μικρό λεξιλόγιο...18 1.2.3 Ρομπότ AIBO...18 1.2.3.1 Το εξωτερικό του... 19 1.2.3..2 Η όραση του ρομπότ... 19 1.2.3.3 Αναγνώριση ήχου... 20 1.2.3.4 Αφή... 20 1.2.3.5 Κίνηση...21 1.2.4 Biped robot STABO...22 1.2.5 Ρομπότ ΠΡΟΜΗΘΕΑΣ... 23 1.2.6 Ανθρωποειδή ρομπότ ACTROID... 24 1.2.7 Ρομποτικό σύστημα AESOP...26 1.2.8 Ρομπότ ApriPoko... 27 1.2.6 Ρομπότ Kismet...28 2. ΥΦΙΣΤΑΜΕΝΑ ΛΟΓΙΣΜΙΚΑ ΑΝΑΓΝΩΡΙΣΗΣ ΦΩΝΗΣ...30 2.1 Γενικά... 30 2.2 Ελεύθερα Λογισμικά... 31 3

2.2.1 CMU Sphinx. 31 2.2.1.1 Sphinx... 31 2.2.1.2 Sphinx 2...31 2.2.1.3 Sphinx 3...32 2.2.1.4 Sphinx 4...32 2.2.2 Julius...33 2.2.2.1 Σχετικά με τα μοντέλα... 33 2.3 Δωρεάν κώδικες ομιλίας και ακουστικά μοντέλα...34 2.3.1 VoxForge... 34 2.4 Ιδιόκτητα Λογισμικά... 34 2.4.1 AT&T WATSON... 34 2.4.2 ΗΤΚ...35 2.4.3 CSLU Toolkit...35 2.4.4 Dragon NaturallySpeaking... 36 2.4.4.1 Ιστορική αναδρομή... 36 2.4.4.2 Διάφορα ζητήματα...37 2.4.4.3 Εκδόσεις...38 2.4.5 IBM ViaVoice...38 2.4.5.1 Ιστορική αναδρομή... 38 2.4.5.2 Εκδόσεις...39 2.4.6 MacSpeech... 39 2.4.7 Microsoft Windows Speech Recognition... 39 2.4.7.1 Χαρακτηριστικά...39 2.4.7.2 Ιστορική αναδρομή...40 2.4.7.3 Αξιοσημείωτο περιστατικό...40 2.4.7.4 Τεχνικές Λεπτομέρειες... 41 2.4.7.5 Θέματα ασφαλείας...41 4

2.4.8 Microsoft Speech API 41 2.4.8.1 Βασική Αρχιτεκτονική... 42 2.4.8.2 Εκδόσεις...43 2.4.9 SAPI 1-4 οικογένειας API... 43 2.4.9.1 SAPI 1... 43 2.4.9.2 SAPI 2... 44 2.4.9.3 SAPI 3... 44 2.4.9.4 SAPI 4... 44 2.4.10 SAPI 5 της οικογένειας API...44 2.4.10.1 SAPI 5.0...45 2.4.10.2 SAPI 5.1...45 2.4.10.3 SAPI 5.2...46 2.4.10.4 SAPI 5.3...46 2.4.11 Philips SpeechMagic...47 2.4.12 Proteus Conversational Interface... 47 2.4.13 Simmortel voice... 47 2.4.14 Quack.com... 48 2.4.15 Speech Works...49 2.4.16 TellMe Networks... 49 2.4.16.1 Ιστορική αναδρομή... 49 3. ΑΝΑΓΝΩΡΙΣΗ ΦΩΝΗΣ...50 3.1 Πως λειτουργεί η αναγνώριση φωνής... 50 3.2 Ιστορική αναδρομή...50 3.3 Γενικοί Ορισμοί σχετικά με την αναγνώριση ομιλίας... 51 3.3.1 Άρθρωση... 51 3.3.2 Εξάρτηση από τον ομιλητή...51 3.3.3 Λεξιλόγια... 51 5

3.3.4 Ακρίβεια... 52 3.3.5 Εκπαίδευση... 52 3.4 Τύποι αναγνώρισης φωνής...52 3.4.1 Συστήματα Αναγνώρισης Μεμονωμένων Λέξεων... 52 3.4.2 Συστήματα Αναγνώρισης Συνδεδεμένων Λέξεων... 53 3.4.3 Συστήματα Αναγνώρισης Συνεχόμενου Λόγου...53 3.4.4 Συστήματα Αναγνώρισης Αυθόρμητου Λόγου...53 3.5 Γενική αρχιτεκτονική του συστήματος... 53 3.6 Εξαγωγή χαρακτηριστικών... 54 3.6.1 MFCC (Mel Frequency Cepstral Coefficients)...55 3.6.2 Frame Blocking... 56 3.6.3 Windowing... 56 3.6.4 Μετασχηματισμός Fourier... 57 3.6.5 Mel-Frequency Wrapping... 57 3.6.6 Cepstrum... 57 3.7 Πρόβλημα στην αναγνώριση φωνής... 58 3.8 Περιοχές εφαρμογής της αναγνώρισης ομιλίας... 60 3.8.1 Υγεία και Περίθαλψη...60 3.8.2 Στρατός...60 3.8.3 Ελικόπτερα... 61 3.8.4 Διαχείριση μάχης... 62 3.8.5 Εκπαίδευση ελεγκτών εναέριας κυκλοφορίας...63 3.8.6 Τηλεφωνία και άλλοι τομείς...63 3.8.7 Άτομα με ειδικές ανάγκες... 64 3.8.8 Υπαγόρευση...64 3.8.9 Εντολή και έλεγχος...64 3.8.10 Εντολές με τη χρήση τηλεφώνου... 64 6

3.8.11 Πλοηγοί οδήγησης. 65 3.8.12 Ενσωματωμένες εφαρμογές...66 4. ΡΟΜΠΟΤ...67 4.1 Ιστορική Αναδρομή...67 4.2 Scorbot - ER Vplus...70 4.2.1 Δομή ρομποτικού βραχίονα...70 4.2.2 Ρομποτικός χώρος εργασίας...72 4.2.3 Κινητήρες... 73 4.2.4 Κωδικοποιητές (encoders)... 74 4.2.5 Μικροδιακόπτες (Micro-switches)... 74 4.2.6 Μετάδοση της κίνησης...75 4.2.7 Αρπάγη ( gripper )... 76 4.2.8 Ρομποτικός Ελεγκτής (Controller)... 77 4.2.8.1 Λειτουργίες του ρομποτικού ελεγκτή Τύπου Α...78 4.3 Μέθοδοι και περιβάλλον λειτουργίας του ρομπότ...84 4.3.1 Γλώσσα Προγραμματισμού ACL (Advanced Control Language)... 85 4.3.1.1 Κατηγορίες εντολών της γλώσσας ACL...86 4.3.1.2 Τύποι εντολών... 87 4.3.1.3 Συστήματα συντεταγμένων... 87 4.3.1.4 Τύποι δεδομένων...88 4.3.1.5 Μεταβλητές... 89 4.3.1.6 Γραμμές - Σχόλια...89 4.3.1.7 Μεταβλητές Θέσεων... 90 4.3.1.8 Παράμετροι... 92 5. ΣΕΙΡΙΑΚΗ ΕΠΙΚΟΙΝΩΝΙΑ...93 5.1 Συγχρονισμός μετάδοσης...93 5.1.1 Σύγχρονη μετάδοση...93 7

5.1.2 Ασύγχρονη μετάδοση 94 5.2 Ενσωματωμένα συστήματα...94 5.2.1 SPI (Serial Peripheral Interface)... 95 5.2.2 I2C (Inter IC)...97 5.3 Σειριακή μετάδοση εκτός τυπωμένου κυκλώματος...99 5.3.1 Διαφορική σειριακή μετάδοση... 101 6. SCORBOT VOICE COMMANDER... 103 6.1 Γενικά...103 6.2 Προγράμματα που αναπττύχθηκαν στην ACL... 106 6.3 Στατιστικά αποτελέσματα αναγνώρισης φωνής...124 6.4 Διαγράμματα αποτελεσμάτων...127 7. ΣΥΜΠΕΡΑΣΜΑΤΑ-ΠΡΟΤΑΣΕΙΣ...130 8. ΠΑΡΑΡΤΗΜΑ...131 9. ΒΙΒΛΙΟΓΡΑΦΙΑ...146 8

ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ Σχημα 1 : Ρομποτικος βοηθός Cora... 14 ΣΧΗΜΑ 2: ΑΝΑΓΝΩΡΙΣΗ ΧΕΙΡΟΝΟΜΙΑΣ...15 Σχημα 3: Το ρομποτ ASIMO... 16 Σχημα 4: Η έγχρωμη CCD βιντεοκαμερα του AIBO...20 Σχημα 5: Τα μικρόφωνα που ειναι τοποθετημένα ςτον αξονα των αυτιων...20 Σχημα 6: Το μπλε κουμπι ειναι ο διακόπτης με ευαισθησία ςτην πιεςη... 21 Σχημα 7: Ένα μέρος από το πόδι του A IBO... 22 Σχημα 8: Η ουρα του AIBO... 22 Σχημα 9: B iped Ro bo t... 23 Σχημα 10: Promethee... 24 Σχημα 11: Το Actroid που παρουσιάστηκε στην έκθεση EXPO 2005 στην Ιαπωνία... 25 Σχημα 12: AESOP 3000... 27 Σχημα 13: ApriPo k o...27 Σχημα 14: Το ρομπότ Kismet βρίσκεται στο μουσείο MIT στο Cam bridge...28 Σχημα 15: Διαδικασία μετατροπής της ομιλίας σε κειμενομε το λογισμικό AT&T WATSON. 34 Σχήμα 16: Το διάγραμμα της διεργασίας MFCC... 56 Σχήμα 17: Ελικόπτερο PU M A...62 Σχήμα 18: Ελεγκτές εναέριας κυκλοφορίας...63 Σχήμα 19: PBX Phone... 65 Σχήμα 20: GPS...65 Σχήμα 21: Κινητό τηλέφωνο...66 Σχήμα 22: Karel Capek...67 Σχήμα 23: Ταλως... 68 Σχήμα 24: Robodoc...69 Σχήμα 25: Zeus...70 Σχήμα 26: Ονομασίες συνδέσμων και αρθρώσεων του ρομπότ... 71 Σχήμα 27: Κάτοψη του ρομποτικού χώρου... 72 Σχήμα 28: Πλαγιά οψη του ρομποτικού χώρου... 73 Σχήμα 29: Λ επτομέρεια απο το σύστημα κινητήρα, μειωτηρα, και κωδικοποιητη για εναν άξονα κίνησης...73 Σχήμα 30: Εσωτερική δομή των κςδικοποιητων που χρησιμοποιούνται στο SCORBOT-ER Vp l u s... 74 Σχήμα 31: Μορφή ενός απο τους πέντε μικροδιακοπτες που υπάρχουν επάνω στο σώμα του ρομποτικού βραχίονα... 75 Σχήμα 32: Μέθοδοι μετάδοσης της κίνησης ςτης αρθρώσεις του ρομπότ... 76 Σχήμα 33: Η αρπαγή που χρησιμοποιείται στο ρομποτικό σύστημα... 77 Σχήμα 34: Εξωτερική μορφή του ρομποτικού ελεγκτή Α... 77 Σχήμα 35: Οι διακόπτες, οι ακροδέκτες εισόδων / εξόδων και ενδεικτικά Leds που υπάρχουν στην μπροστινή και πλάγιά πλευρά του ελεγκτή...78 Σχήμα 36: Είσοδοι και γειώσεις που παρέχονται από τον ρομποτικό ελεγκτή... 80 Σχήμα 37: Ακροδέκτες εξόδου των τεσσάρων ρελε...81 Σχήμα 38: Καταςταςη των επαφών τους σε σχέση με το σήμα εξόδου...82 Σχήμα 39: Ακροδέκτες εξόδων ανοικτού συλλέκτη... 82 Σχήμα 40: Στο σχήμα αυτό απεικονίζεται ο αριθμός με τον οποίο πρέπει να συνδέεται το φορτίο όταν η έξοδος είναι αρνητικής λογικής. Στα άκρα του φορτίου συνδέεται και η δίοδος προστασίας...83 9

ΣΧΗΜΑ 41: ΕΔΩ ΑΠΕΙΚΟΝΙΖΕΤΑΙ Ο ΤΡΟΠΟΣ ΜΕ ΤΟΝ ΟΠΟΙΟ ΠΡΕΠΕΙ ΝΑ ΣΥΝΔΕΕΤΑΙ ΤΟ ΦΟΡΤΙΟ ΟΤΑΝ Η ΕΞΟΔΟΣ ΕΙΝΑΙ ΘΕΤΙΚΗΣ ΛΟΓΙΚΗΣ...83 Σχ η μ α 42: Πα ρ ο υ σ ιά ζ ε τ α ι τ ο π ε ρ ιβ α λ λ ο ν τ ο υ λ ο γ ισ μ ικ ο υ ATS π ο υ ε π ιτ ρ ε π ε ι το ν ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΚΑΙ ΤΟΝ ΕΛΕΓΧΟ ΤΟΥ ΡΟΜΠΟΤ... 85 Σχ η μ α 43: Δ ο μ η ΤΟΥ ΡΟΜΠΟΤΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ α π ο ΤΗΝ ΟΠΟΙΑ ΦΑΙΝΕΤΑΙ Η ΣΥΝΔΕΣΗ τ ο υ ΠΡΟΣΩΠΙΚΟΥ ΥΠΟΛΟΓΙΣΤΗ ΜΕ ΤΟΝ ΕΛΕΓΚΤΗ ΤΥΠΟΥ Α ΜΕΣΩ ΤΗΣ ΣΕΙΡΙΑΚΗΣ ΘΥΡΑΣ ΕΠΙΚΟΙΝΩΝΙΑΣ R S232...86 Σχ η μ α 44: Στ ο σ χ η μ α φ α ίν ε τ α ι τ ο κ α ρ τ ε σ ια ν ό σ ύ σ τ η μ α σ υ ν τ ε τ α γ μ έ ν ω ν ο π ω σ α υ τ ο ε π ισ υ ν ά π τ ε τ α ι ΣΤΗ ΒΑΣΗ ΤΟΥ ΡΟΜΠΟΤΙΚΟΥ ΒΡΑΧΙΟΝΑ SCORBOT- ER V p l u s...88 Σχ η μ α 45: Σύ γ χ ρο ν η μ ε τ ά δ ο σ η...93 Σχ η μ α 46: Ασ ύ γ χ ρ ο ν η μ ε τ ά δ ο σ η... 94 Σχ η μ α 47: Η α ρ χ η μ ε τ ά δ ο σ η ς τ ο υ SPI...95 Σχ η μ α 48: Ο χ ρ ο ν ισ μ ό ς τ ω ν b it s γ ίν ετα ι μ ε β ά σ η τ ο SCK κ α ι είν α ι δ υ ν α τ η η ε π ιλ ο γ ή τη ς ΣΧΕΣΗΣ ΑΚΜΗΣ SCK-ΔΕΔΟΜΕΝΩΝ ΑΛΛΑ ΚΑΙ ΤΗΣ ΑΝΕΝΕΡΓΗΣ ΣΤΑΘΜΗΣ ΤΟΥ SCK...96 Σχ ή μ α 49: Δ ια σ ύ ν δ ε σ η μ ια ς σ ε ιρ ια κ ή ς φ ε ρ ρ ο η λ ε κ τ ρ ικ η ς μ ν ή μ η ς τ υ χ α ία ς π ρ ο σ π έ λ α σ η ς (FRAM) ΜΕ SPI INTERFACE ΜΕ ΤΟΝ ΜΙΚΡΟΕΛΕΓΚΤΗ PIC16C62B... 97 Σχ ή μ α 50: Ο δ ία υ λ ο ς I2C...97 Σχ ή μ α 51: Χ ρή ση ε ιδ ικ ώ ν κ α τ α σ τ ά σ ε ω ν START κ α ι STOP γ ια τ η σ η μ α τ ο δ ό τ η σ η τ η ς έ ν α ρξ η ς κ α ι ΤΗΣ ΛΗΞΗΣ ΚΑΘΕ ΜΕΤΑΦΟΡΑΣ... 98 Σχ ή μ α 52: Η α ν ά γ ν ω σ η δ ε δ ο μ έ ν ω ν α π ό μ ια μ ν ή μ η EEPROM σ ε έ ν α ν μ ικ ρ ο ε λ ε γ κ τ η...99 Σχ ή μ α 53: Η μ ε τ ά δ ο σ η μ έ σω τη ς θ υ ρ α ς R S-232... 100 Σχ ή μ α 54: Το MAX232. Ειδ ικ ό κ ύ κ λ ω μ α ο δ ή γ η σ η ς...101 Σχ ή μ α 55: Με τ ά δ ο σ η τη ς π λ η ρ ο φ ο ρ ία ς μ ε δ ια φ ο ρ ικ ή μ έ θ ο δ ο...101 Σχ ή μ α 56: κ ε ν τ ρ ικ ό π α ρ ά θ υ ρ ο Sc o r b o t V o ic e Co m m a n d e r...103 Σχ ή μ α 57: π α ρ ά θ υ ρ ο γ ια τ η ν α ν τ ις τ ο ιχ ις η τ ο ν ε ν τ ο λ ώ ν... 105 Σχ ή μ α 58: Δ ιά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν h o m e, CONFIGURATION ON, CONFIGURATION OFF, SPEED FIVE, SPEED TEN, ABORD, UP ONE, UP TWO, UP THREE, UP FIVE, UP TEN ΑΠΟ ΓΥΝΑΙΚΕΙΑ ΦΩΝΗ...127 Σχ ή μ α 59: Δ ιά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν d o w n o n e, d o w n TWO, DOWN THREE, DOWN FIVE, DOWN TEN, RIGHT ONE, RIGHT TWO, RIGHT THREE, RIGHT FIVE, RIGHT TEN, LEFT ONE, LEFT TWO, LEFT THREE, LEFT FIVE, LEFT TEN, LEFT HUNDRED ΑΠΟ ΓΥΝΑΙΚΕΙΑ ΦΩΝΗ... 127 Σχ ή μ α 60: Δ ιά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν c u b e s e v e n, CUBE FIFTEEN, SQUARE SEVEN, SQUARE FIFTEEN, CIRCLE, TRIANGLE, TAF, OPEN, CLOSE, SEMI CIRCLE TEN ΑΠΟ ΓΥΝΑΙΚΕΙΑ ΦΩΝΗ... 128 Σχ ή μ α 61 Δ ιά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν h o m e, CONFIGURATION ON, CONFIGURATION OFF, SPEED FIVE, SPEED TEN, ABORD, UP ONE, UP TWO, UP THREE, UP FIVE, UP TEN ΑΠΟ ΑΝΤΡΙΚΗ ΦΩΝΗ... 128 Σχ ή μ α 62: Διά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν d o w n o n e, d o w n TWO, DOWN THREE, DOWN FIVE, DOWN TEN, RIGHT ONE, RIGHT TWO, RIGHT THREE, RIGHT FIVE, RIGHT TEN, LEFT ONE, LEFT TWO, LEFT THREE, LEFT FIVE, LEFT TEN, LEFT HUNDRED ΑΠΟ ΑΝΤΡΙΚΗ ΦΩΝΗ...129 Σχ ή μ α 63: Δ ιά γ ρ α μ μ α α π ο τ ε λ ε σ μ ά τ ω ν α ν α γ ν ώ ρ ισ η ς τ ω ν φ ω ν η τ ικ ώ ν ε ν τ ο λ ώ ν c u b e s e v e n, CUBE FIFTEEN, SQUARE SEVEN, SQUARE FIFTEEN, CIRCLE, TRIANGLE, TAF, OPEN, CLOSE, SEMI CIRCLE TEN ΑΠΟ ΑΝΤΡΙΚΗ ΦΩΝΗ...129 10

ΛΙΣΤΑ ΠΙΝΑΚΩΝ ΠΙΝΑΚΑΣ 1: ΠΡΟΔΙΑΓΡΑΦΕΣ ΤΟΥ ΡΟΜΠΟΤ ASIMO...17 Πίνακας 2: Εκδοςεις του D r a g o n N a t u r a l l y Sp e a k in g...38 ΠΙΝΑΚΑΣ 3: ΠΟΣΟΣΤΑ ΕΠΙΤΥΧΙΑΣ ΑΝΑΓΝΩΡΙΣΗΣ ΦΩΝΗΣ ΒΑΣΙΣΜΕΝΑ ΣΕ ΤΕΧΝΙΚΕΣ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ... 55 Πίνακας 4: Ποσοστά επιτυχίας αναγνωριςης φωνημάτων βασισμένα σε τεχνικες εξαγωγης ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ... 55 Πίνακας 5: Ονομασίες και κινήσεις των αρθρώσεων...71 Πίνακας 6: Οριςμος μεταβλητών η διανυςματων θέσεων... 92 Πίνακας 7: Εντολή ABORT...106 Πίνακας 8: Εντολή Se m i Ci r c l e...106 Πίνακας 9: Εντολή CONFIGURATION OFF...106 Πίνακας 10: Εντολή CONGIGURATION O N...107 Πίνακας 11: Εντολή DOWN ONE...107 Πίνακας 12: Εντολή DOWN TWO...108 Πίνακας 13: Εντολή DOWN THREE... 108 Πίνακας 14: Εντολή DOWN FIVE...109 Πίνακας 15: Εντολή DOWN TEN...109 Πίνακας 16: Εντολή HOME... 110 Πίνακας 17: Εντολή LEFT O N E...110 Πίνακας 18: Εντολή LEFT TWO...111 Πίνακας 19: Εντολή LEFT THREE... 111 Πίνακας 20: Εντολή LEFT FIVE...112 Πίνακας 21: Εντολή LEFT TEN... 112 Πίνακας 22: Εντολή RIGHT ONE...113 Πίνακας 23: Εντολή RIGHT TWO...113 Πίνακας 24: Εντολή RIGHT THREE... 114 Πίνακας 25: Εντολή RIGHT FIVE...114 Πίνακας 26: Εντολή RIGHT TEN...115 Πίνακας 27: Εντολή SPEED FIVE...115 Πίνακας 28: Εντολή SPEED TEN...115 Πίνακας 29: Εντολή UP ONE...116 Πίνακας 30: Εντολή UP TWO... 116 Πίνακας 31: Εντολή UP THREE...117 Πίνακας 32: Εντολή UP FIVE... 117 Πίνακας 33: Εντολή UP FIVE... 118 Πίνακας 34: Εντολή CUBE SEVEN...119 Πίνακας 35: Εντολή CUBE FIFTEEN... 120 Πίνακας 36: Εντολή SQUARE SEVEN...121 Πίνακας 37: Εντολή SQUARE FIFTEEN... 122 Πίνακας 38: Εντολή TRIANGLE...122 Πίνακας 39: Εντολή T A F...123 Πίνακας 40: Επιτυχία αναγνώρισης φωνητικών εντολών απο γυναικεία φωνή...125 Πίνακας 41: Επιτυχία αναγνώρισης φωνητικών εντολών απο αντρική φωνή... 126 11

Περίληψη Το θέμα της πτυχιακής εργασίας αφορά τον έλεγχο ρομποτικών συστημάτων με φωνητικές εντολές. Στα πλαίσια της θεωρητικής μελέτης αναλύονται τα υφιστάμενα διαδραστικά ρομποτικά συστήματα που αναγνωρίζουν τόσο φωνητικές εντολές όσο και χειραψίες καθώς και τα υπάρχοντα λογισμικά ελέγχου συστημάτων. Στη συνέχεια, παρουσιάζονται θεωρητικά στοιχεία και μαθηματικές σχέσεις για τον τρόπο που γίνεται η επεξεργασία της φωνής και η μετατροπή του λόγου σε λέξεις αλλά και σχέσεις που αφορούν την σειριακή σύνδεση του ρομποτικού συστήματος με τον ηλεκτρονικό υπολογιστή. Παρουσιάζεται, επίσης, λεπτομερώς ο ρομποτικός βραχίονας Scorbot - ER Vplus της εταιρίας Intelitek αλλά και η γλώσσα ACL πάνω στα οποία βασίστηκε η υλοποίηση του πρακτικού μέρους της παρούσας πτυχιακής εργασίας. Το πρακτικό μέρος της πτυχιακής περιλαμβάνει την υλοποίηση ενός λογισμικού αναγνώρισης ομιλίας (Scorbot Voice Commander) και συγκεκριμένα της αντιστοίχισης 20 φωνητικών εντολών στην αγγλική γλώσσα σε ACL προγράμματα, τα οποία στη συνέχεια μετατρέπονται σε κίνηση του ρομποτικού βραχίονα Scorbot - ER Vplus. Για τη δημιουργία του interface μεταξύ του ρομπότ και του ηλεκτρονικού υπολογιστή χρησιμοποιήθηκε Visual Basic 6 Service Pack 3. 12

1. ΥΦΙΣΤΑΜΕΝΑ ΡΟΜΠΟΤ ΕΛΕΓΧΟΜΕΝΑ ΜΕ ΦΩΝΗΤΙΚΕΣ ΕΝΤΟΛΕΣ 1.1 Γενικά Η φωνή, είναι ο πιο συνηθισμένος και εύχρηστος τρόπος επικοινωνίας μεταξύ των ανθρώπων. Ήδη, από τη παιδική μας ηλικία μαθαίνουμε να μιλάμε και να επικοινωνούμε με τους ανθρώπους γύρω μας. Με την πρόσφατη ανάπτυξη των τηλεπικοινωνιών, η φωνή ξεκίνησε να αποτελεί μια βασική μέθοδο σε πολλά συστήματα, καθώς είναι ένας σχετικά εύκολος τρόπος επικοινωνίας με υπολογιστές στους οποίους εκτελούνται πολύπλοκες εφαρμογές. 1.2 Έλεγχος ρομποτικού συστήματος μέσω φωνητικών εντολών 1.2.1 Ρομπότ CORA Στις μέρες μας απαιτούνται ακόμη διεπαφές χρήστη ώστε να δίνονται εντολές σε ένα κινούμενο ρομπότ - βοηθό. Ένας πιο φυσικός τρόπος για την διαταγή ενός ρομπότ είναι μέσω φωνητικών εντολών ή μέσω εντολών που βασίζονται στις κινήσεις των χεριών μας ή αλλιώς στις χειρονομίες μας. Σήμερα η διαχείριση των περισσότερων κινούμενων ρομπότ γίνεται μέσω γραφικών περιβαλλόντων τα οποία είναι εγκατεστημένα σε έναν απλό ηλεκτρονικό υπολογιστή. Τα τελευταία χρόνια έχουν γίνει πολλές σοβαρές έρευνες για τη δημιουργία μεθόδων άμεσης επικοινωνίας του ανθρώπου με τα ρομπότ. Αυτές οι έρευνες βασίζονται σε προγράμματα που βοηθούν την αλληλεπίδραση ανθρώπου-ρομπότ μέσω φωνητικών εντολών και χειρονομιών. Ένα παράδειγμα διαδραστικού ρομποτικού συστήματος είναι το ρομπότ βοηθός CORA. [1]. Έχει την ικανότητα να παρατηρεί «δεικτικές» χειρονομίες και να υπακούει σε φωνητικές εντολές. Η συμπεριφορά του ρομπότ μοντελοποιείται με ένα σύστημα που κάνει χρήση των Arami Neural Networks [2]. Όπως συμβαίνει με το CORA (Σχήμα 1), έτσι και πολλά διαδραστικά ρομποτικά συστήματα κάνουν χρήση τόσο της φωνής όσο και της αναγνώρισης αντικειμένων και χειρονομιών. 13

Σχήμα 1 : Ρομποτικός βοηθός Cora 1.2.1.1 Αναγνώριση χειρονομίας. Προτεινόμενοι αισθητήρες για την ανίχνευση χειρονομιών είναι τα συστήματα όρασης. Μία γενική επισκόπηση για διάφορα συστήματα αναγνώρισης χειρονομιών έχει συνταχθεί από τον Kohler [3]. Εδώ δίνεται σημασία μόνο σε συστήματα που βασίζονται σε όραση. Οι κινήσεις των χεριών μπορούν να χωριστούν σε στατικές και δυναμικές χειρονομίες. Ο διαχωρισμός γίνεται ανάλογα με το αν κινείται ολόκληρο το χέρι ή αν υπάρχει κίνηση μόνο των δαχτύλων. Ο Kestler [4] χρησιμοποιεί εικόνες τραβηγμένες από φωτογραφική μηχανή ώστε να αναγνωρίσει και να ταξινομήσει τις στατικές χειρονομίες του χεριού (Σχήμα 2). Έχοντας γίνει η προεργασία των εικόνων, οι πρότυπες χειρονομίες συγκρίνονται με τις νέες πραγματικές εικόνες που έχουν ληφθεί. Για την επεξεργασία της εισόδου της φωνής, η μηχανή υπαγόρευσης του συστήματος αναγνώρισης φωνής «Viavoice», χρησιμοποιείται για τη γερμανική γλώσσα. Δεδομένου ότι η πρόταση που δίνεται ως εντολή μπορεί να εξαρτάται από το γλωσσικό περιβάλλον και τις προτιμήσεις του χρήστη, η είσοδος της φωνής δεν μπορεί να χρησιμοποιηθεί άμεσα για την παραγωγή μιας μη αμφίβολης αντίδρασης. Για αυτό το λόγο, χρησιμοποιείται ένα πρόγραμμα το οποίο ελέγχει και βελτιστοποιεί τις προτάσεις που δίνονται ως εντολές. Οπότε η έξοδος του προγράμματος, δηλαδή η εντολή η οποία θα εκτελεστεί, αποτελείται από ένα ρήμα σίγουρα και από κάποιο αντικείμενο εάν υπάρχει, ενώ σε κάποιες περιπτώσεις συμπληρώνεται και με κάποιον εμπρόθετο προσδιορισμό για την καλύτερη σύνταξη της εντολής. Δεδομένου ότι το ρομπότ βοηθός θα εργάζεται σε διαφορετικούς τομείς, είναι δυνατό να του παρέχονται διάφορα είδη γλωσσών ώστε να μπορεί να κάνει εναλλαγές μεταξύ αυτών αν είναι απαραίτητο. 14

Σχήμα 2: Αναγνώριση χειρονομίας 1.2.2 Ρομπότ ASIMO Το ρομπότ ASIMO (Σχήμα 3) είναι ένα ανθρωποειδές ρομπότ που κατασκευάστηκε από τη HONDA. Έχει ύψος 130 εκατοστά και βάρος 54 κιλά, μοιάζει με έναν μικρό αστροναύτη που φοράει σακίδιο πλάτης και μπορεί να περπατήσει ή να τρέξει με τα δύο του πόδια με ταχύτητα που πλησιάζει τα 6 χλμ/ώρα. Το ASIMO [5] δημιουργήθηκε στο Honda's Research & Development Wako Fundamental Technical Research Center, στην Ιαπωνία. Έχουν δημιουργηθεί διάφορες εκδόσεις αυτού του ρομπότ, από τις οποίες η πρώτη ήταν το 1986 με το ρομπότ Ε0. Το όνομα του είναι ένα ακρωνύμιο που προέρχεται από τις λέξεις «Advanced Step in Innovative Mobility». Η HONDA με επίσημες δηλώσεις αρνείται ότι το όνομα του ρομπότ έχει προέλθει από τον συγγραφέα επιστημονικής φαντασίας και εφευρέτη των τριών νόμων της ρομποτικής [6], τον Isaac Asimov [7]. 1.2.2.1 Η ιστορία της εξέλιξης του ASIMO Πειραματικά μοντέλα o Ε0, το οποίο παρουσιάστηκε το 1986. o Ε1, το οποίο παρουσιάστηκε το 1987. o Ε2, το οποίο παρουσιάστηκε το 1987. o Ε3, το οποίο παρουσιάστηκε το 1987. o Ε4, το οποίο παρουσιάστηκε το 1991. 15

o Ε5, το οποίο παρουσιάστηκε το 1991. o Ε6, το οποίο παρουσιάστηκε το 1991. Πρότυπα ανθρωποειδή μοντέλα o P1, το οποίο παρουσιάστηκε το 1993. o P2, το οποίο παρουσιάστηκε το 1996. o P3, το οποίο παρουσιάστηκε το 1997. ASIMO o ASIMO, το οποίο παρουσιάστηκε το 2000. o ASIMO for hire, το οποίο παρουσιάστηκε το 2001. o intelligent ASIMO, το οποίο παρουσιάστηκε το 2002. o next-gen ASIMO, το οποίο παρουσιάστηκε το 2004. o New ASIMO, το οποίο παρουσιάστηκε το 2005. Σχήμα 3: Το ρομπότ ASIMO Το ρομπότ ASIMO μπορεί να το διαχειριστεί ο χρήστης από ένα σταθμό εργασίας αλλά επίσης και από ένα τηλεχειριστήριο. Στο ρομπότ ASIMO, από την πρώτη του κατασκευή μέχρι και σήμερα, έχουν προστεθεί πολλά καινούργια χαρακτηριστικά ώστε να μπορεί να αλληλεπιδρά καλύτερα με τους ανθρώπους. Αυτά τα χαρακτηριστικά είναι η αναγνώριση των κινούμενων αντικειμένων, η αναγνώριση χειρονομιών, η αναγνώριση του περιβάλλοντος, ο διαχωρισμός των ήχων και η αναγνώριση προσώπων. Η πιο 16

εξελιγμένη έκδοση του ρομπότ ASIMO έχει την ικανότητα να καταλαβαίνει τρεις διαφορετικές ανθρώπινες φωνές ταυτόχρονα. Προς το παρόν, η τροποποιημένη καινούργια ικανότητα του ASIMO χρησιμοποιείται και ελέγχεται μέσω του γνωστού παιχνιδιού πέτρα - ψαλίδι - χαρτί, όπου οι τρεις διαγωνιζόμενοι εκφωνούν την επιλογή τους ταυτόχρονα. Όμως οι δυνατότητες του προγράμματος, που θα μπορούν να ανταποκριθούν στην πολυπλοκότητα των προτάσεων και στον αριθμό των φωνών θα εξελιχθούν στο μέλλον. Το νέο λογισμικό HARK [8], για αυτή την καινούργια «ικανότητα» του ASIMO σχεδιάστηκε από τον Hiroshi Okuno στο Πανεπιστήμιο Kyoto και από τον Kazuhiro Nakadai στο Honda Research Institute στην Saitama. Πίνακας 1: Προδιαγραφές του ρομπότ ASIMO 2000 2004 2005 Βάρος 52kg 54kg Ύψος 120 cm 130 cm Πλάτος 45 cm 45 cm Βάθος 44 cm 37 cm Ταχύτητα Βαδίσματος Ταχύτητα Τρεξίματος Χρόνος αερομεταφοράς 1.6 km/hour 2.5 km/hour 2.7 km/hour 1.6 km/hour (μεταφορά βάρους 1 kg) 3 km/hour 6 km/hour (ευθεία) 5 km/hour (κυκλικά) 0.05 δευτερόλεπτα 0.08 δευτερόλεπτα Μπαταρία Nickel metal hydride 38.4 V / 10 Ah / 7.7 kg 4 ώρες για πλήρη φόρτιση Lithium ion 51.8 V / 6kg 3 ώρες για πλήρη φόρτιση Χρόνος συνεχόμενης λειτουργίας 30 λεπτά 40 λεπτά με 1 ώρα (περπάτημα) Βαθμοί ελευθερίας 26 (δύο στο κεφάλι, πέντε σε κάθε βραχίονα, έξι σε κάθε πόδι, ένα σε κάθε χέρι) 34 (τρεις στο κεφάλι, εφτά σε κάθε βραχίονα, δύο σε κάθε χέρι, 17

1.2.2.2 Ποιοτικός έλεγχος λογισμικού HARK Το HARK χρησιμοποιεί ένα τόξο από οχτώ μικρόφωνα για να καταφέρει να εντοπίσει από πού προέρχεται η κάθε φωνή και να την απομονώσει από τις άλλες πηγές ήχων. Έπειτα το λογισμικό ασχολείται με το πόσο αξιόπιστα έχει εξαχθεί η μεμονωμένη φωνή προτού περάσει από το λογισμικό αναγνώρισης φωνής για αποκωδικοποίηση. Αυτό το βήμα, του ποιοτικού ελέγχου είναι πολύ σημαντικό, γιατί οι άλλοι ήχοι ή οι φωνές είναι πιθανόν να μπερδέψουν το λογισμικό της αναγνώρισης φωνής. Έτσι οποιαδήποτε τμήματα του αρχείου του ήχου που περιέχουν πολύ θόρυβο σε ένα φάσμα συχνοτήτων αυτόματα αγνοούνται όταν η ηχογράφηση της κάθε φωνής περνάει προς το σύστημα αναγνώρισης φωνής. 1.2.2.3 Οχτώ «Αυτιά» Αν και το HARK δεν μπορεί να κατανοήσει δέκα φωνές ταυτόχρονα, ο Okuno και ο Nakadai πιστεύουν ότι μπορεί να ακολουθήσει τρεις ομιλητές που μιλάνε ταυτόχρονα με ακρίβεια που αγγίζει το 70%-80%, όταν εγκατασταθεί σε ένα ASIMO ρομπότ. Το τόξο των οχτώ μικροφώνων τοποθετείται γύρω από το πρόσωπο και το σώμα του ASIMO, τα οποία τον βοηθούν να εντοπίσει με ακρίβεια και να απομονώσει φωνές που ακούγονται ταυτόχρονα. 1.2.2.4 Μικρό λεξιλόγιο Η επιτυχημένη απόδοση του ASIMO οφείλεται στο ότι το παιχνίδι πέτρα - ψαλίδι - χαρτί χρησιμοποιεί περιορισμένο λεξιλόγιο. Στην πραγματικότητα όταν δοκιμάστηκε με πιο περίπλοκες φράσεις, συγκεκριμένα με τις παραγγελίες τριών ατόμων σε ένα εστιατόριο, η απόδοση του λογισμικού μειώθηκε στο 30%-40%. 1.2.3 Ρομπότ AIBO Τα ζώα έχουν αισθήσεις όπως, την ακοή, την όραση, την αφή και την οσμή για να περιηγούνται, να προσλαμβάνουν και να αλληλεπιδρούν με το περιβάλλον. Το AIBO περιλαμβάνει hardware και software που το καθιστούν ικανό να μιμηθεί κάποιες από αυτές τις αισθήσεις ώστε να μπορεί να περιηγηθεί στον περιβάλλοντα χώρο και να αλληλεπιδρά με τους χρήστες. Το AIBO [9] έχει σύστημα ελέγχου επεξεργασίας μνήμης. Το σύστημα αυτό χρησιμοποιεί μικροεπεξεργαστές για την παρακολούθηση των εισόδων από τις συσκευές του hardware συμπεριλαμβανομένων των παρακάτω: 18

Έγχρωμη βιντεοκάμερα CCD (Σχήμα 4) Στερεοφωνικό μικρόφωνο (Σχήμα 5) Θερμομετρικό αισθητήρα Αισθητήρα υπερύθρων Αισθητήρα επιτάχυνσης με δυνατότητα ελέγχου της επιτάχυνσης σε τρεις άξονες. Το AIBO πρέπει να ελέγχει τους διάφορους ρομποτικούς κινητήρες, την έξοδο του ήχου και να αποσαφηνίζει τους δείκτες, όλα δηλαδή εκείνα τα στοιχεία που παρέχουν πληροφορίες προς τον ιδιοκτήτη ή τον διαχειριστή για την επίδοση και τα «αισθήματα» του AIBO. 1.2.3.1 Το εξωτερικό του Το κέλυφος του AIBO είναι πλαστικό. Χρησιμοποιείται αυτού του είδους το υλικό γιατί είναι ελαφρύ. Η SONY προσπάθησε να διατηρήσει το βάρος του AIBO όσο μικρότερο γινόταν ώστε να χρειάζεται λιγότερη ισχύς για τη κίνηση του ρομπότ, έτσι ώστε η λειτουργία της μπαταρίας του να μπορεί να επιμηκυνθεί. Μια μεγάλη μπαταρία ιόντων λιθίου μπορεί να τροφοδοτεί το AIBO για περίπου τρεις ώρες. Αν και το περίβλημά του είναι πλαστικό, οι σχεδιαστές του κατάφεραν να σχεδιάσουν μια ελκυστικά ζωντανή εμφάνιση. Ωστόσο, η απομυθοποίηση των πληροφοριών αυτού του καινούριας τεχνολογίας προϊόντος δεν είναι εύκολη. Ο λόγος που συμβαίνει αυτό θα φανεί παρακάτω. 1.2.3..2 Η όραση του ρομπότ Το AIBO έχει μια έγχρωμη ψηφιακή βιντεοκάμερα τοποθετημένη στο σημείο της κεφαλής του. Τα δεδομένα της εικόνας από αυτή τη βιντεοκάμερα είναι ζωτικής σημασίας για τη δημιουργία μιας διαδραστικής εμπειρίας με το AIBO (για παράδειγμα ο εντοπισμός μιας ροζ μπάλας που έρχεται προς το AIBO). Η είσοδος της κινούμενης εικόνας αναλύεται ώστε να προσδιοριστεί αν είναι η μπάλα του AIBO ή απλώς ένα σημείο. Οι ρομποτικοί κινητήρες στρέφουν τη κεφαλή του ρομπότ ώστε να δίνεται η εντύπωση ότι το AIBO παρακολουθεί τη μπάλα και θα προχωρήσει προς αυτήν. Το AIBO είναι επίσης εξοπλισμένο με έναν υπέρυθρο αισθητήρα απόστασης για να εντοπίζει εμπόδια μπροστά του και να τα αποφεύγει. 19

Σχήμα 4: Η έγχρωμη CCD βιντεοκάμερα του AIBO 1.2.3.3 Αναγνώριση ήχου Το AIBO είναι εξοπλισμένο με ένα ζευγάρι μικροφώνων, ένα σε κάθε πλευρά της κεφαλής του. Αυτά δημιουργούν μια στερεοφωνική εικόνα των ήχων που ελήφθησαν από το ρομπότ, που το βοηθούν στον εντοπισμό της πηγής του ήχου. Οι εντολές που μπορεί να αναγνωρίσει το AIBO προέρχονται από ένα τηλεχειριστήριο. Με το πάτημα ενός κουμπιού, το τηλεχειριστήριο στέλνει αυτούς τους ήχους στο ρομπότ, που τους αναγνωρίζει ως φωνητικές εντολές. Τα μικρόφωνά του είναι μονίμως έτοιμα να λάβουν αυτούς τους ήχους εντολές. Σχήμα 5: Τα μικρόφωνα που είναι τοποθετημένα στον άξονα των αυτιών 1.2.3.4 Αφή Στο πάνω μέρος της κεφαλής του, το AIBO, έχει έναν άλλον μηχανισμό από τον οποίο μπορεί να λάβει πληροφορίες. Αυτό είναι ένα μαξιλαράκι ευαίσθητο στην αφή (Σχήμα 6). Ανάλογα με τον τρόπο που αγγίζεται το μαξιλαράκι αυτό από έναν 20

χρήστη, το AIBO το δέχεται ως θετικό ή αρνητικό ανάλογα με την προηγούμενη συμπεριφορά του, και μιμείται κάποια εκδήλωση αγάπης ή επίπληξης. Σχήμα 6: Το μπλε κουμπί είναι ο διακόπτης με ευαισθησία στην πίεση 1.2.3.5 Κίνηση Πολλές από τις κινήσεις ενός ΑΙΒΟ είναι παρόμοιες με αυτές ενός κατοικίδιου, είτε μιας γάτας είτε ενός σκύλου. Αυτή είναι μια πτυχή του σχεδιασμού του προϊόντος που παίζει ρόλο κατά την ταυτοποίηση του με τα κατοικίδια ζώα και βελτιώνει περαιτέρω την αναγνώριση το προϊόντος. Ένα AIBO προβαίνει και τρέχει αρχεία κίνησης που υπαγορεύουν την κίνηση των άκρων του με τον έλεγχο βηματικών κινητήρων, στα πόδια (Σχήμα 7), στο κεφάλι και στην ουρά του (Σχήμα 8). Στην αυτόνομη λειτουργία, το AIBO περνάει από διάφορα στάδια κατά τη διάρκεια μιας χρονικής περιόδου. Όταν ένα AIBO «γεννηθεί» έχει πρόσβαση σε μια σειρά κινήσεων και αρχεία ήχου που προσομοιώνουν μια πολύ νεανική συμπεριφορά. Όταν σημειωθεί μια ώρα λειτουργίας του AIBO από τον διαχειριστή, θα ξεκινήσει να μπαίνει σε καινούρια και πιο πολύπλοκα αρχεία κίνησης και θα εμφανιστεί σαν ένα κατοικίδιο με πρόοδο στη μάθηση και στην εξέλιξή του. 21

Σχήμα 7: Ένα μέρος από το πόδι του AIBO Σχήμα 8: Η ουρά του AIBO 1.2.4 Biped robot STABO Η αλληλεπίδραση ενός ρομπότ με το περιβάλλον αφορά πολλά επιμέρους βήματα, όπως για παράδειγμα την κίνηση του μέχρι κάποιο σημείο ώστε να εκτελέσει μία εργασία και να μπορεί να αποφεύγει τυχόν εμπόδια. Κατά συνέπεια, είναι εξαιρετικά περίπλοκο αυτού του τύπου συστήματα να ανταποκριθούν σε υψηλότερα επίπεδα αναγνώρισης φωνής. Είναι πιο εύκολο να κατανοηθεί απλουστευμένη ομιλία που σχετίζεται με την αλλαγή της παρούσας κατάστασης του ρομποτικού συστήματος. Στην προκειμένη περίπτωση η προσπάθεια που έγινε, ήταν η αναγνώριση απλουστευμένων φωνητικών εντολών οι οποίες επηρεάζουν μόνο την κατάσταση του ρομπότ. Το μικρόφωνο που λειτουργεί ως αισθητήρας αναγνώρισης φωνής και έχει εφαρμοστεί στο ανθρωποειδές ρομπότ Stabo [10], το καθιστά ικανό να δέχεται απλές προτάσεις - εντολές τόσο από ενήλικες όσο και από παιδιά στην αγγλική γλώσσα. Αυτές οι εντολές βοηθούν το ρομπότ να πλοηγηθεί και να επιδείξει ορισμένες προκαθορισμένες ενέργειες. Ο αισθητήρας αναγνώρισης φωνής χρησιμοποιεί τον αποκωδικοποιητή viterbi [11] και εφαρμόζει τον αλγόριθμο για τη μπροστινή και την 22

πίσω κίνηση μέσω του HMM Tool Kit, το οποίο κυκλοφόρησε από το τμήμα μηχανικών του Cambridge. Οι φωνητικές εντολές για τον έλεγχο ενός ρομπότ μπορεί να χωριστούν σε εντολές συστήματος και σε εντολές καθορισμένες από χρήστη. Οι εντολές συστήματος αποτελούνται από λέξεις, οι οποίες θέτουν τις λειτουργικές παραμέτρους, όπως για παράδειγμα την ταχύτητα του περπατήματος. Οι εντολές που καθορίζονται από τον χρήστη είναι εντολές που κινούν το ρομπότ με ένα καθορισμένο τρόπο όπως για παράδειγμα μπροστά, πίσω, κτλ. Το ρομπότ σχεδιάστηκε με τέτοιο τρόπο ώστε να εκτελεί συνδυασμό εντολών, για παράδειγμα step left, move forward κτλ. Η εκπαίδευση έγινε με 2880 φράσεις, τρία (3) άτομα και πλέον μετά από την εκπαίδευση, αναγνωρίζονται αγγλικές λέξεις και φράσεις από ενήλικες αλλά και από παιδιά. Σε περίπτωση που κάποια λέξη δεν αναγνωριστεί από τον επεξεργαστή φωνής δεν στέλνει καμία εντολή στον κεντρικό ελεγκτή, αλλά εμφανίζει ένα μήνυμα ότι η λέξη δεν αναγνωρίστηκε. Σχήμα 9: Biped Robot 1.2.5 Ρομπότ ΠΡΟΜΗΘΕΑΣ Στο εθνικό ινστιτούτο προηγμένης βιομηχανικής επιστήμης και τεχνολογίας, ένα ανεξάρτητο διοικητικό τμήμα έχει αναπτύξει μια λειτουργία αναγνώρισης φωνής σε πραγματικό περιβάλλον, χρησιμοποιώντας μια σειρά από μικρόφωνα διευρύνοντας με επιτυχία την αισθητήρια ικανότητα των ανθρωποειδών ρομπότ στο πλαίσιο του έργου HRP-2 "Promethee" [12]. Η συστοιχία των μικροφώνων αποτελείται από οχτώ (8) κατευθυντικά μικρόφωνα τοποθετημένα γύρω από το κεφάλι του ρομπότ όπως φαίνεται στην παρακάτω εικόνα (Σχήμα 10) 23

Σχήμα 10: Promethee Η πηγή του ήχου βασίζεται στη διαφορά των χρόνων άφιξης του κάθε ξεχωριστού μικροφώνου και την ίδια στιγμή, η κάμερα που είναι τοποθετημένη στο κεφάλι του ρομπότ ανιχνεύει τη θέση του ανθρώπου που δίνει τις φωνητικές οδηγίες. Η σταθερότητα της αναγνώρισης φωνής προέρχεται από το συνδυασμό πληροφοριών που πηγάζουν από τη συστοιχία των μικροφώνων και την κάμερα, καθώς και από την απομόνωση και εξάλειψη των θορύβων. Έχει αναπτυχθεί υλικό για την εξάλειψη των θορύβων σε πραγματικό χρόνο, και έχει ενσωματωθεί στο ρομπότ, επιτρέποντας στον άνθρωπο να του δώσει φωνητικές οδηγίες αλλά και να χειρίζεται συσκευές μέσω αυτού, ακόμα και σε έναν χώρο όπου υπάρχουν πολλές πηγές θορύβου, όπως για παράδειγμα η τηλεόραση. 1.2.6 Ανθρωποειδή ρομπότ ACTROID Το Actroid είναι ένα ανθρωποειδές ρομπότ με μεγάλη ομοιότητα στα ανθρώπινα χαρακτηριστικά, το οποίο αναπτύχθηκε αρχικά από την εταιρία Kokoro και στη συνέχεια από το Πανεπιστήμιο της Οσάκα και την εταιρία Advanced Media Inc., η οποία εξειδικεύεται στην τεχνολογία της επεξεργασίας φωνής. Παρουσιάστηκε για πρώτη φόρα το 2003 στην διεθνή ρομποτική έκθεση στο Τόκιο της Ιαπωνίας. Πολλές διαφορετικές εκδόσεις του συγκεκριμένου προϊόντος έχουν παραχθεί από τότε. Στις περισσότερες περιπτώσεις, το ρομπότ έχει την μορφή μίας μέσης γυναίκας ιαπωνικής καταγωγής. 24

Σχήμα 11: Το Actroid που παρουσιάστηκε στην έκθεση EXPO 2005 στην Ιαπωνία Το Actroid [13] υπήρξε ένα πρωτοποριακό παράδειγμα κατασκευής ενός πραγματικού ρομπότ που πλησιάζει την εικόνα των φανταστικών ρομπότ, των λεγόμενων ανδροειδών όπως αυτά ορίζονται από την επιστημονική φαντασία. Το ρομπότ Actroid μπορεί να μιμηθεί πολλές από τις ζωτικές λειτουργίες, όπως το άνοιγμα και το κλείσιμο των ματιών, την αναπνοή αλλά και την ομιλία. Το αρχικό μοντέλο Actroid DER είχε σχεδιαστεί έτσι ώστε να μιλάει Ιαπωνικά, Αγγλικά, Κορεάτικα και Κινέζικα και να απαντάει σε 500 ερωτήσεις με τη βοήθεια ενός προγραμματισμένου μενού που περιελάμβανε 1000 απαντήσεις. Κάποια από τα θέματα στα οποία μπορούσε το ρομπότ να ανταποκριθεί αφορούν τον καιρό αλλά και την ιδιαίτερη προτίμηση σε κάποιο φαγητό. Όταν το Actroid αντιμετώπιζε δυσκολία σε κάποια ερώτηση, προσπαθούσε να αλλάξει θέμα ή ακόμα και να ενθαρρύνει τον συνομιλητή να εκφράσει τη δική του άποψη. Αυτό το μοντέλο ενώ διαθέτει μεγάλο πλήθος εκφράσεων αντιμετώπιζε προβλήματα στον διαχωρισμό της φωνής από τον θόρυβο ακόμα και όταν αυτός κυμαινόταν σε μέτρια επίπεδα. Αντίθετα, τα μοντέλα "Repliee" είναι διαδραστικά ρομπότ τα οποία έχουν μεγαλύτερη ικανότητα να αναγνωρίζουν και να επεξεργάζονται την ομιλία αλλά και να ανταποκρίνονται, επιτυγχάνοντας έτσι την επικοινωνία σε ένα υποτυπώδες επίπεδο με τους ανθρώπους. Ενσωματωμένα μικρόφωνα επιτρέπουν στα Actroids να ηχογραφούν την ανθρώπινη ομιλία και στη συνέχεια να τη φιλτράρουν για να αφαιρεθεί ο θόρυβος - συμπεριλαμβάνοντας και τους θορύβους που προκαλούνται από την ίδια τη λειτουργία του ρομπότ. Το λογισμικό αναγνώρισης φωνής τότε 25

χρησιμοποιείται για να μετατρέψει τον ήχο σε λέξεις και φράσεις, οι οποίες θα μπορούν να επεξεργαστούν από το Actroid's A.I. Μία φωνητική απάντηση θα δοθεί στη συνέχεια μέσω ηχείων. Επιπλέον διαδραστικότητα επιτυγχάνεται με μη φωνητικές μεθόδους. 1.2.7 Ρομποτικό σύστημα AESOP Η εισαγωγή στην κλινική πράξη ρομποτικών βραχιόνων ελεγχόμενων από ενσωματωμένο υπολογιστή που συγκρατούν το λαπαροσκόπιο και υπακούουν πιστά στις επιθυμίες του χειρουργού παρείχε ικανοποιητικές λύσεις στο πρόβλημα της διαχείρισης της λαπαροενδοσκοπικής εικόνας. Αν και αναπτύχθηκαν αρκετά πρωτότυπα συστήματα, τρία από αυτά γνώρισαν ευρύτερη αποδοχή και ουσιαστικά δημιούργησαν μια νέα αγορά ρομποτικών βραχιόνων προορισμένων για τη χειρουργική αίθουσα. Το σύστημα AESOP (Automated Endoscopic System for Optimal Positioning, Computer Motion Goleta CA USA) [14], to σύστημα Endoassist (Armstrong Health Care, UK) και το σύστημα Fips Endoarm (Kard Storz Endoscope). Όλα τα παραπάνω συστήματα προσαρμόζονται είτε στη ράγα του χειρουργικού τραπεζιού, είτε φέρονται επάνω σε κινούμενη βάση. Στο άκρο τους φέρουν ειδικό εξάρτημα στο οποίο εφαρμόζεται το άκαμπτο ενδοσκόπιο και συνοδεύονται πάντα από μια κεντρική μονάδα που περικλείει τον υπολογιστή, το σύστημα παροχής ενέργειας, τον διακόπτη και τις ενδείξεις λειτουργίας. Ο σωστός τρόπος επικοινωνίας του χειρουργού με το βραχίονα είναι απαραίτητος για την καλή λειτουργική του απόδοση. Η ιδεώδης λειτουργία ενός ρομποτικού βραχίονα που κινεί τη λαπαροσκοπική κάμερα θα πρέπει να βασίζεται στην άμεση αντίληψη της εντολής και ακόμη καλύτερα της επιθυμίας του χειρουργού και τη σταθερή, ομαλή, ταχεία και ακριβή εκτέλεση της κίνησης. Το σύστημα AESOP 3000 (Σχήμα 12) αναγνωρίζει 20 φωνητικές εντολές χωρίς να επηρεάζεται η απόδοση του από την αλλαγή του χειρουργού χρήστη, από τον περιβάλλοντα χώρο αλλά και από τους υπολοίπους ήχους και φωνές που είναι δυνατό να ακούγονται μέσα σε μια χειρουργική αίθουσα. Η φωνητικές εντολές μετατρέπονται σε εντολές κατεύθυνσης, ταχύτητας αλλά και επανάκλησης αποθηκευμένων θέσεων λήψης της εικόνας από την μνήμη του συστήματος. 26

Σχήμα 12: AESOP 3000 1.2.8 Ρομπότ ApriPoko Το ρομπότ ApriPoko (σχήμα 13) είναι ένα μικρό ρομπότ, το οποίο μπορεί να αποθηκεύσει όλες τις λειτουργίες ενός τηλεχειριστήριου και στη συνέχεια να το αντικαταστήσει. Αφότου αποθηκευτούν οι εντολές, μπορεί να ανταποκριθεί στη φωνή ενός χρήστη παρακάμπτοντας τη χρήση του τηλεχειριστηρίου. Το ApriPoko για να αποθηκεύσει όλες τις εντολές του τηλεχειριστηρίου, θα πρέπει να εκπαιδευτεί. Το ρομπότ είναι αρκετά έξυπνο, ώστε να αντιληφθεί και να αποθηκεύσει όλες τις εντολές ανιχνεύοντας και συλλαμβάνοντας όλα τα σήματα που εκπέμπονται από το τηλεχειριστήριο κάθε φορά που έστω και ένα από αυτά περάσει από κοντά του. Στην περίπτωση αυτή το ρομπότ ζητάει επιβεβαίωση για να καταχωρήσει την νέα εντολή, καθώς επίσης και τις λεπτομέρειες του σήματος, το οποίο μπορεί να χρησιμοποιηθεί και κάποια άλλη στιγμή [15]. Σχήμα 13: ApriPoko 27

1.2.6 Ρομπότ Kismet Το ρομπότ Kismet, είναι ένα ρομπότ το οποίο κατασκευάστηκε στο ΜΙΤ στα τέλη του 1990, με ακουστικά, οπτικά και εκφραστικά συστήματα με σκοπό να προσομοιώσει τις ανθρώπινες εκφράσεις και να συμμετέχει στην κοινωνική ανθρώπινη αλληλεπίδραση. Το όνομα Kismet έχει τούρκικες και αραβικές ρίζες και σημαίνει μοίρα, ενώ κάποιες φορές σημαίνει και τύχη. Σχήμα 14: Το ρομπότ Kismet βρίσκεται στο μουσείο MIT στο Cambridge Προκειμένου το ρομπότ Kismet (Σχήμα 14) να αλληλεπιδρά σωστά με τους ανθρώπους, έχει ενσωματωμένες συσκευές εισόδου οι οποίες του δίνουν ακουστικές και οπτικές ικανότητες. Το Kismet [16] εξομοιώνει τα ανθρώπινα συναισθήματα μέσω εκφράσεων του προσώπου, φωνημάτων και κίνησης. Οι εκφράσεις του προσώπου επιτυγχάνονται με την κίνηση των αυτιών, των φρυδιών, των βλεφάρων, των χειλιών, του σαγονιού και του κεφαλιού. Τέσσερις έγχρωμες κάμερες CCD τοποθετημένες σε ένα στερεοσκοπικά ενεργό κεφάλι καθώς και δύο κάμερες ευρέως φάσματος, επιτρέπουν στο Kismet να αποφασίσει που πρέπει να στρέψει την προσοχή του αλλά και να υπολογίσει τις αποστάσεις. Μία φωτογραφική μηχανή των πέντε ιντσών και με 8 mm εστιακό μήκος φακού χρησιμοποιείται για μεγαλύτερη ανάλυση, και εξομοιώνει τη διαδικασία ανίχνευσης από το μάτι. 28

Επίσης, σερβοκινητήρες συνεχούς ρεύματος με οπτικούς κωδικοποιητές υψηλής ανάλυσης είναι τοποθετημένοι για να δίνουν στο μάτι τρεις βαθμούς κίνησης, που του επιτρέπουν να ελέγχει την κατεύθυνση του βλέμματος με αποτέλεσμα το Kismet να κινεί και να κατευθύνει τα μάτια του σαν άνθρωπος, δηλαδή του επιτρέπει να εξομοιώνει την ανθρώπινη όραση. Φορώντας ένα μικρό μικρόφωνο, ο χρήστης μπορεί να επηρεάσει τη συμπεριφορά του Kismet. Ένα ακουστικό μήνυμα μεταφέρεται σε έναν υπολογιστή των 500 MHz, ο οποίος «τρέχει» Linux και έχει εγκατεστημένο λογισμικό που αναπτύχθηκε από το τμήμα Spoken Language Systems του ΜΙΤ, μπορεί να επεξεργαστεί χαμηλού επιπέδου πρότυπα ομιλίας σε πραγματικό χρόνο, και επίσης έχει τη δυνατότητα να διαχωρίζει τους ανθρώπινους ήχους από τους υπόλοιπους (όπως για παράδειγμα το χτύπημα ενός κουδουνιού). Ένας υπολογιστής των 450 MHz, ο οποίος «τρέχει» Windows NT, επεξεργάζεται αυτά τα χαρακτηριστικά σε πραγματικό χρόνο, για να αναγνωριστεί η συναισθηματική πρόθεση του χρήστη. Ο Jim Glass και ο Lee Hetherington προσάρμοσαν τον κώδικα στις ανάγκες και τις ιδιαιτερότητες του Kismet και του ενσωμάτωσαν το σύστημα αναγνώρισης φωνής. Το λογισμικό χρησιμοποιεί ένα πλήθος πληροφοριών για το διαχωρισμό της ομιλίας από οποιονδήποτε άλλον ήχο, την αναγνώριση φωνητικών επιρροών και τη ρύθμιση της επιστρεφόμενης φωνητικής συμπεριφοράς. Οι φωνητικές πληροφορίες μπορούν τελικά να χρησιμοποιηθούν για να διαμορφωθεί η εκφώνηση από το ρομπότ μέσω μιμητικών διαδικασιών και να του επιτρέψει να αποκτήσει μία πρώτης μορφής γλώσσα μέσω μακρόχρονων αλληλεπιδράσεων με τους χρήστες. Εκτός από τους υπολογιστές που αναφέρθηκαν παραπάνω, υπάρχουν επιπλέον τέσσερεις Motorola 68332s, εννιά υπολογιστές των 400 MHz και ακόμη ένας υπολογιστής των 500 MHz. 29

2. ΥΦΙΣΤΑΜΕΝΑ ΛΟΓΙΣΜΙΚΑ ΑΝΑΓΝΩΡΙΣΗΣ ΦΩΝΗΣ 2.1 Γενικά Τα σύγχρονα λογισμικά αναγνώρισης φωνής επιτρέπουν στο χρήστη ενός υπολογιστή να εκφωνεί ένα κείμενο και να δίνει εντολές στον υπολογιστή, παρακάμπτοντας σε μεγάλο βαθμό τη χρήση του πληκτρολογίου και του ποντικιού. Οι πρώτες προσπάθειες για την ανάπτυξη λογισμικού αναγνώρισης φωνής ξεκίνησαν περίπου το 1950. Αποδείχθηκε ότι χρειαζόταν τόσο μεγάλη υπολογιστική δύναμη που μόνο οι πιο σύγχρονοι υπολογιστές έχουν τη δυνατότητα να εκτελούν τις λειτουργίες που απαιτούνται σε πραγματικό χρόνο. Τα πρώτα εμπορικά προϊόντα διατέθηκαν γύρω στο 1990, (π.χ. το Voice Navigator, ένας αυτόνομος υπολογιστής αφιερωμένος 100% στην αναγνώριση ομιλίας) και χρησιμοποιούσαν όλη την υπολογιστική δύναμη του μηχανήματος. Δεν ήταν ιδιαίτερα ακριβή και μπορούσαν να καταλάβουν μόνο ένα άτομο τη φορά, απαιτούσαν επανεκπαίδευση, όχι από τον διαχειριστή αλλά από το ίδιο το μηχάνημα, ώστε να λειτουργήσει για άλλο άτομο. Παρά τους περιορισμούς, η μετατροπή σε κείμενο γινόταν τόσο γρήγορα που ακόμα και υπολογίζοντας τον χρόνο που χρειαζόταν για να γίνουν οι διορθώσεις, ένα άτομο με ειδικές ανάγκες θα μπορούσε εύκολα να πραγματοποιήσει περισσότερη δουλειά με τη βοήθεια του μηχανήματος παρά χωρίς αυτό. Για παράδειγμα, ένας συγγραφέας που πάσχει από τη νόσο του πάρκινσον και ο οποίος μετά βίας μπορεί να ελέγξει τα χέρια του, ήταν πλέον σε θέση να εργαστεί. Υπάρχουν και άλλα σενάρια τα οποία αποδεικνύουν τη χρησιμότητα αυτών των συστημάτων. Για παράδειγμα, μία εγκατάσταση στην οποία οι εργαζόμενοι διαχειρίζονται διαβρωτικά υλικά ή μηχανήματα υψηλής τάσης, η χρήση των προστατευτικών γαντιών, που είναι απαραίτητα για τέτοιου είδους δουλειές, συνήθως αποκλείουν τη χρήση πληκτρολογίου. Τα σύγχρονα τηλέφωνα επίσης περιλαμβάνουν πλέον την δυνατότητα της φωνητικής κλήσης. Με την απλούστευση των απαιτήσεων που σχετίζονται με τη φωνητική κλήση, επιτυγχάνεται εύκολα χωρίς να είναι απαραίτητη η εκπαίδευση για κάποιον συγκεκριμένο χρήστη. Σύμφωνα με τα τελευταία δεδομένα, ένας σωστά εκπαιδευμένος υπολογιστής με CPU Intel Core Duo 1.5 GHz (ή και πιο γρήγορη), διαχειριζόμενος από έναν υγιή ενήλικα (π.χ. χωρίς δυσλειτουργία στην ομιλία), μπορεί να ανταποκριθεί με ακρίβεια περίπου 99%, και ενώ εγγράφονται περίπου 150 λέξεις το λεπτό. 30

Πρέπει να επισημανθεί επίσης ότι η σταθερότητα της φωνής είναι απαραίτητη. Ένας ομιλητής του οποίου η φωνή αναγνωρίζεται με επιτυχία από τον υπολογιστή, κατά τη διάρκεια ενός κρυολογήματος, ο ίδιος υπολογιστής μπορεί να μην αναγνωρίσει καθόλου τη φωνή του. Τα μηχανήματα επίσης δεν έχουν αρκετή νοημοσύνη ακόμη ώστε να επεξεργαστούν σωστά τη φωνή ενός παιδιού. Αυτό οφείλεται στο γεγονός ότι τα περισσότερα παιδιά δεν χρησιμοποιούν τη γλώσσα σωστά (π.χ. δεν μπορούν να δημιουργήσουν μία σωστή ολοκληρωμένη πρόταση) και στο ότι η φωνή τους μεταβάλλεται συνεχώς όσο μεγαλώνουν. Υπάρχουν τόσο ελεύθερα όσο και ιδιόκτητα λογισμικά αναγνώρισης φωνής. 2.2 Ελεύθερα Λογισμικά 2.2.1 CMU Sphinx To CMU SPHINX [17] αποκαλούμενο επίσης sphinx περιγράφει μια ομάδα συστημάτων αναγνώρισης φωνής που αναπτύσσονται στο πανεπιστήμιο Carnegie Mellon. Περιλαμβάνουν μια σειρά συστημάτων αναγνώρισης ομιλίας και ενός ακουστικού πρότυπου εκπαιδευτή. Το 2000, η ομάδα sphinx στο Carnegie Mellon δεσμέυτηκε να «ανοίξει» τον κώδικα των διάφορων συστημάτων αναγνώρισης φωνής, συμπεριλαμβανομένων του sphinx 2 και του πιο πρόσφατου sphinx 3 (το 2001). Οι αποκωδικοποιητές φωνής συνοδεύονται από ακουστικά πρότυπα και εφαρμογές δειγμάτων. Οι διαθέσιμες πηγές περιλαμβάνουν επιπλέον λογισμικό για την εκπαίδευση του ακουστικού μοντέλου, το συντακτικό και το λεξικό. 2.2.1.1 Sphinx Το sphinx αναπτύχθηκε από τον - Fu Lee είναι ένα σύστημα αναγνώρισης φωνής που κάνει χρήση του ακουστικού μοντέλου HMM. Έχει δυνατότητα αναγνώρισης συνεχούς ομιλίας, είναι ανεξάρτητο από τον ομιλητή και αναγνωρίζει ένα ευρύ λεξιλόγιο, μια δυνατότητα που δεν υπήρχε μέχρι τότε (το 1986). 2.2.1.2 Sphinx 2 Ένα γρήγορο προς την απόδοση σύστημα αναγνώρισης φωνής, που αναπτύχθηκε αρχικά από τον Χ-D Huang στο Carnegie Mallon και στη συνέχεια διατέθηκε ως ανοικτό λογισμικό (open source) στο SourceForge. Το Sphinx 2 εστιάζει στην 31

αναγνώριση φωνής σε πραγματικό χρόνο και χρησιμοποιείται στα συστήματα διαλόγου και τα συστήματα εκμάθησης γλωσσών. Μπορεί να χρησιμοποιηθεί σε υπολογιστές βασισμένους σε συστήματα PBX, όπως το Asterisk. Ο κώδικας του Sphinx 2 έχει ενσωματωθεί επίσης σε διάφορα εμπορικά προϊόντα. 2.2.1.3 Sphinx 3 Το Sphinx 3 υιοθέτησε το συνεχές ακουστικό μοντέλο HMM και έχει χρησιμοποιηθεί κατά κύριο λόγο για υψηλής ακρίβειας και όχι σε πραγματικό χρόνο αναγνώριση φωνής. Οι πρόσφατες εξελίξεις (σε αλγόριθμους και hardware) έχουν κάνει το Sphinx 3 σχεδόν κατάλληλο για χρήση σε πραγματικό χρόνο, αν και δεν είναι ακόμη κατάλληλο για κρίσιμες διαδραστικές εφαρμογές. Το Sphinx 3 είναι υπό ενεργό ανάπτυξη και σε συνδυασμό με το SphinxTrain παρέχει πρόσβαση σε μια σειρά από σύγχρονες τεχνικές μοντελοποίησης, όπως το LDA / MLLT, το MLLR και το VTLN, τα οποία βελτιώνουν την ακρίβεια αναγνώρισης φωνής. 2.2.1.4 Sphinx 4 Το Sphinx 4 είναι μια πλήρης αναδιατύπωση της μηχανής Sphinx με στόχο την παροχή ενός πιο ευέλικτου πλαισίου για την έρευνα στην αναγνώριση ομιλίας, γραμμένο εξ ολοκλήρου στη γλώσσα προγραμματισμού Java. Η Sun Microsystems υποστήριξε την ανάπτυξη του Sphinx 4 και συνεισφέρει τεχνογνωσία μηχανικής λογισμικού στο έργο. Μεταξύ των συμμετεχόντων υπάρχουν άτομα του MERL, MIT και CMU. Τρέχοντες αναπτυξιακοί στόχοι: Ανάπτυξη ενός νέου (ακουστικό μοντέλο) εκπαιδευτή. Εφαρμογή της προσαρμογής ηχείων (π.χ. MLLR). Βελτίωση της διαχείρισης της διάρθρωσης. Δημιουργία ενός γραφήματος με βάση το γραφικό περιβάλλον εργασίας για το σχεδιασμό του συστήματος. 32

2.2.2 Julius Το Julius είναι ένα υψηλής απόδοσης λογισμικό αποκωδικοποίησης της φωνής με δυνατότητα αναγνώρισης ενός μεγάλου λεξιλογίου (συνεχόμενου λόγου). Βασισμένο σε λέξεις των τριών γραμμάτων και στο πλαίσιο ΗΜΜ, μπορεί να αποκωδικοποιήσει μια λέξη των 60k σχεδόν σε πραγματικό χρόνο, στους περισσότερους υπάρχοντες υπολογιστές. Έχουν ενσωματωθεί οι περισσότερες τεχνικές αναζήτησης. Έχει επίσης δημιουργηθεί προσεκτικά ώστε να είναι ανεξάρτητο από τις μοντελοποιημένες δομές, και οι διάφοροι τύποι ΗΜΜ όπως τρισύλλαβες λέξεις, υποστηρίζονται με οποιοδήποτε συνδυασμό, προτάσεις και φωνήματα. Το Julius δούλευε άριστα στα λειτουργικά συστήματα Linux και Unix, αλλά δουλεύει με επιτυχία και σε Windows. Το Julius είναι λογισμικό ανοικτού κώδικα και διανέμεται με άδεια BSD. Το Julius αναπτύχθηκε από το 1997 για την ιαπωνική έρευνα LVCSR ως μέρος μίας δέσμης λογισμικών, και οι εργασίες συνεχίστηκαν στο Continuous Speech Recognition Consortium (CSRC), στην Ιαπωνία, από το 2000 έως το 2003. Στις τελευταίες εκδόσεις ενσωματώθηκε στο Julius ένας αναλυτής αναγνώρισης φωνής που βασίζεται στη γραμματική, με το όνομα Julian. Το Julian είναι μία τροποποιημένη έκδοση του Julius που χρησιμοποιεί τη γραμματική ως πρότυπο γλώσσας. Μπορεί να χρησιμοποιηθεί για να δημιουργηθεί ενός είδους συστήματος φωνητικών εντολών με τη βοήθεια ενός μικρού λεξιλογίου. 2.2.2.1 Σχετικά με τα μοντέλα Για να εκτελεστεί το Julius, χρειάζεται ένα μοντέλο γλώσσας και ένα ακουστικό μοντέλο για τη γλώσσα που θέλουμε να δημιουργήσουμε τις φωνητικές εντολές (π.χ. αγγλικά). Το Julius υιοθετεί ακουστικά μοντέλα σε μορφή ASCII HTK, λεξικό για την προφορά σε μορφή ΗΤΚ, και ένα μοντέλο τρισύλλαβων λέξεων σε μορφή ARPA. Παρόλο που το Julius διανέμεται μόνο με τα ιαπωνικά μοντέλα, το project VoxForge εργάζεται στη δημιουργία αγγλικών ακουστικών μοντέλων για τη χρήση με την μηχανή αναγνώριση φωνής Julius. 33

2.3 Δωρεάν κώδικες ομιλίας και ακουστικά μοντέλα 2.3.1 VoxForge Το VoxForge [18] δημιουργήθηκε για να συλλέξει μεταγραφή ομιλίας (transcription) για τη χρήση της από εργαλεία αναγνώρισης ομιλίας του ελεύθερου και ανοικτού κώδικα λογισμικού (Open Source) για Linux / Unix, Windows και Mac. Όλα τα αρχεία ήχου που έχουν υποβληθεί υπό την άδεια GPL [19] θα συγκεντρωθούν σε ακουστικά μοντέλα για χρήση από λογισμικό ανοιχτού κώδικα για αναγνώριση ομιλίας, όπως το Sphinx, το ISIP, το Julius και το HTK (σημείωση: το HTK έχει περιορισμούς διανομής). Το VoxForge άρχισε πρόσφατα να χρησιμοποιεί το LibriVox ως πηγή ηχητικών δεδομένων. 2.4 Ιδιόκτητα Λογισμικά 2.4.1 AT&T WATSON Σχήμα 15: Διαδικασία μετατροπής της ομιλίας σε κείμενομε το λογισμικό AT&T WATSON Ο ομιλητής είναι ελεύθερος να χρησιμοποιήσει οποιουδήποτε μεγέθους λεξιλόγιο για την μηχανή αναγνώρισης φωνής. Η αρχιτεκτονική client-server τρέχει σε περιβάλλον Linux και Windows. Περιλαμβάνει τις πιο πρόσφατες εξελίξεις και καινοτομίες στο τομέα της ομιλίας, σήματος και επεξεργασίας της γλώσσας. 34

Επαλήθευση των χαρακτηριστικών του ομιλητή, πολύγλωσσου ASR, λειτουργεί με Natural Voices TTS. Έχει πλούσιο σύνολο εργαλείων για τη δημιουργία γραμματικής φυσικής γλώσσας, λεξικού και ακουστικών μοντέλων. Interfaces με WebLogic Content Server μέσω VXML. Έχει παγκοσμίου επιπέδου μηχανισμό αναγνώρισης φωνής όσον αφορά τη ταχύτητα και την ακρίβεια. Χρησιμοποιείται τόσο για Gold όσο και για Platinum VoiceTone εφαρμογές. 2.4.2 ΗΤΚ Το ΗΤΚ (Hidden Markov Model Toolkit) είναι ένα λογισμικό εργαλείο για τον χειρισμό HMMs. Προορίζεται κυρίως για την αναγνώριση φωνής, αλλά έχει χρησιμοποιηθεί σε πολλές άλλες εφαρμογές αναγνώρισης προτύπων που απασχολούν HMMs. 2.4.3 CSLU Toolkit Το CSLU Toolkit είναι μία βιβλιοθήκη λογισμικού που περιλαμβάνει μια ολοκληρωμένη σουίτα εργαλείων που επιτρέπουν την εξερεύνηση, τη μάθηση και την έρευνα μεταξύ της αλληλεπίδρασης της ομιλίας και του ανθρώπου με τον υπολογιστή. Τα εργαλεία περιλαμβάνουν: Ήχο. Προβολή. Αναγνώριση φωνής. Γ εννήτρια φωνής. Εφέ. 35

2.4.4 Dragon NaturallySpeaking Το Dragon NaturallySpeaking [20] είναι ένα λογισμικό αναγνώρισης φωνής που αναπτύχθηκε από τη Dragon Systems, και πωλείται από τη Nuance Communications για προσωπικούς υπολογιστές με Windows λογισμικό. Ήταν ένα από τα πρώτα προγράμματα που έκαναν πρακτική την αναγνώριση φωνής σε προσωπικούς υπολογιστές. Το NaturallySpeaking χρησιμοποιεί μια απλή οπτική διεπαφή. Οι λέξεις που υπαγορεύονται εμφανίζονται σε ένα πλωτό tooltip καθώς εκφωνούνται, και όταν ο ομιλητής κάνει παύση, το πρόγραμμα μεταφέρει τις λέξεις στο ενεργό παράθυρο στη τοποθεσία του κέρσορα. Όπως και άλλα λογισμικά αναγνώρισης φωνής, το NaturallySpeaking έχει τρεις βασικούς τομείς λειτουργικότητας: την υπαγόρευση, όπου ο προφορικός λόγος μεταφέρεται σε γραπτό κείμενο, τις εντολές ελέγχου, όπου ο προφορικός λόγος αναγνωρίζεται ως εντολές και τελικά το text-to-speech, όπου το γραπτό κείμενο μετατρέπεται σε σύνθεση ροής ήχου. Οι αρχικές εκδόσεις αυτού του λογισμικού έπρεπε να εκπαιδευτούν για περίπου 10 λεπτά ώστε να αναγνωρίζουν τη φωνή του ομιλητή, ωστόσο στην έκδοση 9 αυτή η απαίτηση εγκαταλείφθηκε. Τα προφίλ της φωνής μπορούν να προσεγγιστούν από διαφορετικούς ηλεκτρονικούς υπολογιστές σε ένα δικτυωμένο περιβάλλον, ωστόσο και σε όλους τους υπολογιστές το hardware για τον ήχο και οι ρυθμίσεις του προγράμματος πρέπει να είναι πανομοιότυπες. Η Nuance ισχυρίζεται ότι χρησιμοποιώντας το NaturallySpeaking, για την εγγραφή μιας έκθεσης 900 λέξεων θα χρειαζόταν 6 λεπτά, ενώ η εγγραφή μιας έκθεσης ίδιου μεγέθους με ταχύτητα πληκτρολόγησης 40 λέξεων το λεπτό, θα έπαιρνε 22 λεπτά. Η Nuance κυκλοφόρησε το Dragon NaturallySpeaking 10.1, που υποστηρίζεται σε περιβάλλον Windows Vista 64-bit, στο τέλος του Μαρτίου του 2009. 2.4.4.1 Ιστορική αναδρομή Το NaturallySpeaking πέρασε από τέσσερις εταιρείες και εξελίχθηκε σε μεγάλο βαθμό από τα πρώτα του βήματα στις αρχές τις δεκαετίας του 1980, ως ένα ερευνητικό πρότυπο που ονομάστηκε Dragon. Ο Dr. James Baker και η Dr. Janet Baker, ένα παντρεμένο ζευγάρι, θεμελίωσαν το 1982, τη Dragon Systems, αποφασίζοντας να εκμεταλλευθούν εμπορικά το Dragon όταν η χρηματοδότησή τους κόπηκε από τη DARP [21]. Το πρώτο τους προϊόν, το DragonDictate, πωλήθηκε για πολλά χρόνια. Ο Dr. James Baker αποχώρησε από το συμβατικο AI, και ήταν ένας πρωτοπόρος στα HMM μοντέλα, μια μέθοδο χρήσης στατιστικών για την αναγνώριση φωνής. Η Dr. Janet Baker ανέπτυξε ένα έμπειρο σύστημα, που το ονόμασε Hearsay. Τον Μάρτιο του 1990, η Dragon Systems ξεκίνησε να πουλάει το DragonDictate, για χρήση σε περιβάλλον DOS, στην τιμή των 9000 δολαρίων για μια άδεια χρήστη. Όσο το 36