Τεχνολογία Ομιλίας. Ενότητα 2: Βασικές Έννοιες. Νικόλαος Φακωτάκης Ευάγγελος Δερματάς. Πολυτεχνική Σχολή

Σχετικά έγγραφα
Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Διοικητική Λογιστική

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Βέλτιστος Έλεγχος Συστημάτων

Κβαντική Επεξεργασία Πληροφορίας

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Εισαγωγή στους Αλγορίθμους

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Κβαντική Επεξεργασία Πληροφορίας

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Ψηφιακή Επεξεργασία Εικόνων

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 3. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Προγραμματισμός Η/Υ. Αλγόριθμοι. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Διδακτική Πληροφορικής

Συστήματα Επικοινωνιών

Βάσεις Περιβαλλοντικών Δεδομένων

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

Κβαντική Επεξεργασία Πληροφορίας

Ιστορία της μετάφρασης

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Διοικητική Λογιστική

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Ψηφιακή Λογική Σχεδίαση

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Τεχνικό Σχέδιο - CAD

Ευφυής Προγραμματισμός

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Εισαγωγή στους Υπολογιστές

Διδακτική Πληροφορικής

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Συστήματα Επικοινωνιών

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Βάσεις Δεδομένων Ενότητα 1

Ηλεκτρικά Κινητήρια Συστήματα

Ηλεκτρικά Κινητήρια Συστήματα

Τηλεματική και Νέες Υπηρεσίες

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Νέες Τεχνολογίες και Καλλιτεχνική Δημιουργία

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Μάθημα: Εργαστηριακά Συστήματα Τηλεπικοινωνιών

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Αερισμός. Ενότητα 1: Αερισμός και αιμάτωση. Κωνσταντίνος Σπυρόπουλος, Καθηγητής Σχολή Επιστημών Υγείας Τμήμα Ιατρικής

Διοίκηση Επιχειρήσεων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Ενδεικτικές λύσεις ασκήσεων διαγραμμάτων περίπτωσης χρήσης (1ο Μέρος)

Διοικητική Λογιστική

Βέλτιστος Έλεγχος Συστημάτων

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Ψηφιακή Επεξεργασία Εικόνων

Κβαντική Επεξεργασία Πληροφορίας

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Προηγμένος έλεγχος ηλεκτρικών μηχανών

ΛΟΓΙΚΟ-ΜΑΘΗΜΑΤΙΚΕΣ ΣΧΕΣΕΙΣ & ΑΡΙΘΜΗΤΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΕΚΠΑΙΔΕΥΣΗ

Διδακτική των εικαστικών τεχνών Ενότητα 1

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Διδακτική των εικαστικών τεχνών Ενότητα 3

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Δομές Δεδομένων Ενότητα 1

ΠΛΗΡΟΦΟΡΙΚΗ Ι Ενότητα 8: Συστήματα αρίθμησης

Συστήματα Επικοινωνιών

Εισαγωγή στην Πληροφορική

ΔΡΔ: Διαγράμματα Ροής Δεδομένων

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Διδακτική των εικαστικών τεχνών Ενότητα 2

Εισαγωγή στη Μουσική Τεχνολογία Ενότητα: Ελεγκτές MIDI μηνυμάτων (Midi Controllers)

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 10 η : Ανάλυση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Πρακτική Άσκηση σε σχολεία της δευτεροβάθμιας εκπαίδευσης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Συστήματα Επικοινωνιών

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

Κβαντική Επεξεργασία Πληροφορίας

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 2. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Transcript:

Τεχνολογία Ομιλίας Ενότητα 2: Βασικές Έννοιες Νικόλαος Φακωτάκης Ευάγγελος Δερματάς Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών

Σκοπός ενότητας Παρουσίαση εισαγωγικών εννοιών τεχνολογίας ομιλίας 2

Περιεχόμενα ενότητας Πολυεπιστημονική συμβολή Τι είναι η Τεχνολογία Ομιλίας 3

Hal 9000 vs Dave: I know that you and Frank were planning to disconnect me, and I'm afraid that's something I cannot allow to happen. 2001: A Space Odyssey (1968) 4

Πολυεπιστημονική συμβολή (Multidisciplinary contribution)

Πεδίο επεξεργασίας ομιλίας (Speech processing disciplines) Επεξεργασία σήματος: Φασματική ανάλυση, κωδικοποίηση Μοντελοποίηση ομιλίας Φυσική (Ακουστική): Μελέτες ανθρώπινης ακοής Αναγνώριση προτύπων: Data clustering Θεωρία πληροφοριών και τηλεπικοινωνιών: Στατιστικά μοντέλα, αλγόριθμοι Viterbi, μετάδοση, κλπ. Γλωσσολογία: Φωνητική, φωνολογία, δομή γλώσσας (language structure), έννοια/νόημα (meaning) Επιστήμη των υπολογιστών/πληροφορική (Computer science): Τεχνητή Νοημοσύνη: Αλγόριθμοι αναζήτησης, λογική, ευρετική (heuristics), μηχανική μάθηση (machine learning) Αλγόριθμοι, γλώσσες προγραμματισμού (C, C++) 6

Τι είναι η Τεχνολογία Ομιλίας

Τι είναι η Τεχνολογία Ομιλίας: Αναγνώριση Ομιλίας (Automatic Speech Recognition) Κατανόηση Ομιλίας (Speech Understanding) Σύνθεση Ομιλίας (TTS) Αναγνώριση Ομιλητή (Speaker Recognition) Κωδικοποίηση Ομιλίας (Speech Coding) Δυσλεξία & Προβλήματα Ακοής (Dyslexia&Auditory Problems) Άλλα Συστήματα Αναγνώρισης Πολυτροπική Αλληλεπίδραση (Multimodal Interaction) Διαλογικά Συστήματα 8

Τι είναι η Τεχνολογία Ομιλίας: Αναγνώριση Ομιλίας (ASR)

Αναγνώριση Ομιλίας (ASR) Υπολογιστική αναγνώριση ομιλίας (Ομιλία Κείμενο) Speech-to-Text (STT) ή αλλιώς Αυτόματη αναγνώριση ομιλίας (ASR). Μετατροπή ενός ακουστικού σήματος X σε μία ακολουθία λέξεων W, ανεξάρτητα από ομιλητή και περιβάλλον. Input: Speech Output: Text (Τελική έξοδος ή Είσοδος σε μονάδα επεξεργασίας Φυσικής Γλώσσας (Κατανόηση Ομιλίας). Το πιο Σημαντικό Αντικείμενο του χώρου της Τεχνολογίας Ομιλίας. 10

Αναγνώριση Ομιλίας (ASR) Είδη Συστημάτων ΑSR (1/3) Τρόπος Ομιλίας (Mode of speaking) Διακριτών Λέξεων (Isolated Words): Κάθε λέξη υποτίθεται ότι περιβάλλεται από σιγή, e.g. this...is...isolated...word...recognition. Connected-Word Recognition: Ακολουθία λέξεων που υπακούουν σε μια συγκεκριμένη Γραμματική, π.χ. νούμερα τηλεφώνου. Word Spotting: Εντοπισμός λέξεων που περιβάλλονται από λέξεις, πχ. Παρακαλώ τον κύριο Παπαγεωργίου. Συνεχούς Ομιλίας (Continuous Speech): Αδιάκοπτη συνεχή ομιλία. Τυχαίας Ομιλίας (Spontaneous Speech): Δισταγμοί (Disfluencies, e.g. "huh", "uh","well"), ελλιπείς προτάσεις, νέες λέξεις. 11

Αναγνώριση Ομιλίας (ASR) Είδη Συστημάτων ΑSR (2/3) Μέγεθος Λεξιλογίου (Vocabulary) Μικρού Λεξιλογίου (<50 λέξεις) Μεσαίου Λεξιλογίου (<1000 λέξεις) Μεγάλου Λεξιλογίου (<10.000 λέξεις) Πολύ Μεγάλου Λεξιλογίου (>10.000 λέξεις) Πλήθος Ομιλητών (Speaker set) Εξαρτημένα Ομιλητή (Speaker Dependent) Προσαρμοζόμενα Ομιλητή (Adaptive) Ανεξάρτητα Ομιλητή (Independent) Ταυτόχρονη Ομιλία από πολλούς Ομιλητές (Multi-speaker) 12

Αναγνώριση Ομιλίας (ASR) Είδη Συστημάτων ΑSR (3/3) Περιβάλλον Θορύβου (Environment) Ανηχοϊκός Θάλαμος (noise free) Περιβάλλον Γραφείου (office) Τηλεφωνικού Δικτύου (telephone) Βιομηχανικό Περιβάλλον (high noise) Βασική Μονάδα Αναγνώρισης Φώνημα Τμήματα Λέξεων Λέξεις Τεχνική Ταξινόμησης Συστήματα Σύγκρισης Προτύπων Πιθανοτικά Συστήματα (HMM) Συστήματα Νευρωνικών Δικτύων (ANN) 13

Αναγνώριση Ομιλίας (ΑSR) Αξιοπιστία ΑSR (Lippmann, 1997) Corpus Speech Type Lex. Size WER (%) Word Error Rate Digit Strings (phone) Resource Management ATIS (Air Travel Information Systems) Wall Street Journal spontaneous 10 0.3 0.009 read 1000 3.6 0.1 spontaneous 2000 2 -- read ~20K 6.6 1 Broadcast News mixed ~64K 9.4 -- Switchboard (phone) conversation ~25K 13.1 4 Meetings conversation ~25K 30 -- HER(%) High Error Rate 14

Αναγνώριση Ομιλίας (ASR) Γιατί η ASR είναι δύσκολη (1/3) Αστάθεια στους Ομιλητών (Speaker variability): Φυσικές Διαφορές: Ανατομία, ηλικία, κλπ. Κοινωνικό-γλωσσολογικοί παράγοντες: Διάλεκτος, προφορά, κλπ. Συναισθηματική Κατάσταση: Στρες, emotion, περιβάλλον (φαινόμενο Lombard*), κλπ. Τρόπος Ομιλίας: (Read vs spontaneous speech) Ανάγνωση, συνεχή ομιλία, τυχαία ομιλία, κλπ. Αποκλίσεις στη χρήση της Γλώσσας: Σύνταξη (Syntax), σημασιολογία (semantics), ομιλία (discourse), κλπ. Μέγεθος Λεξικού *Φαινόμενο Lombard: Αλλάζει όταν μιλάμε σε περιβάλλον με θόρυβο. 15

Αναγνώριση Ομιλίας (ASR) Γιατί η ASR είναι δύσκολη (2/3) Όρια Λέξεων (Word Boundaries): Δεν είναι ξεκάθαρα. Ρυθμός Ομιλίας (Speaking Rate): Μη συγκεκριμένη συνάρθρωση. Προβλήματα στην Πηγή και στο Κανάλι Μετάδοσης: Μικρόφωνα (close-mic, throat-mic, microphone array, etc), Band-limited, Telephone channel, etc. Περιβάλλον Background noise, αντήχηση (reverberation) Φαινόμενο cocktail party Διαφορές Μεταξύ Δεδομένων Εκπαίδευσης και Έλεγχου Head-mounted vs desktop mic 16

Αναγνώριση Ομιλίας (ASR) Γιατί η ASR είναι δύσκολη (3/3) Automatic Speech Recognition: An Overview, Prof.Julia Hirschberg, Dep. Of Computer Science, Columbia University http://www.cs.columbia.edu/~julia/courses/cs4706/asr.pdf 17

Αναγνώριση Ομιλίας (ASR) Πως δουλεύει ένα ASR (1/2) 18

Αναγνώριση Ομιλίας (ASR) Πως δουλεύει ένα ASR (2/2) Acoustic Models: Μοντελοποίηση των Φωνημάτων (γνώσεις σε ακουστική και φωνητική) Lexicon: Πως σχηματίζονται οι λέξεις από τα συστατικά τους Language Model: Ποιες λέξεις πιθανά περιλαμβάνονται σε ποια πρόταση 19

Τι είναι η Τεχνολογία Ομιλίας: Κατανόηση Ομιλίας (SU)

Κατανόηση Ομιλίας (SU) Ακουστικό σήμα με ομιλία (Audio) => Νόημα ή Δράση Input: Speech Output: Meaning Βαθμίδες που περιλαμβάνει: Αναγνώριση Ομιλίας, Μορφολογική Ανάλυση, Συντακτική Ανάλυση, Σημασιολογική Ανάλυση, Πραγματολογική Ανάλυση. 21

Τι είναι η Τεχνολογία Ομιλίας: Σύνθεση Ομιλίας (TTS)

Σύνθεση Ομιλίας (TTS) (1/4) Τεχνητή παραγωγή της ανθρώπινης ομιλίας (Κείμενο Ομιλία) Text-To-Speech (TTS) Input: Text (a string of words) Output: Speech (a wavefile) Τεχνικές: στο πεδίο του χρόνου (PSOLA, LPC-Vocoders, κλπ.) στο πεδίο της συχνότητας (Formants) 23

Σύνθεση Ομιλίας (TTS) (2/4) Βαθμίδες : Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ): Ανάδειξη της προσωδιακής πληροφορίας Μετατροπής Κειμένου σε Φωνητική Μορφή, (G2P): o Text => symbolic speech representation Ψηφιακή Επεξεργασία Σήματος (Σύνθεσης): Symbolic speech representation => speech 24

Σύνθεση Ομιλίας (TTS) (3/4) Επεξεργασία Φυσικής Γλώσσας Λεπτομερή Φωνητική μεταγραφή Ψηφιακή Επεξεργασία Σήματος Κείμενο Μορφοσυντακτική Ανάλυση Letter-to-Sound Δημιουργία Προσωδίας Προσωδία Φωνημάτων Μαθηματικά Μοντέλα Αλγόριθμοι Υπολογισμοί Ομιλία TTS Συνθέτης 25

Σύνθεση Ομιλίας (TTS) (4/4) Παραγωγή Ομιλίας Text-To-Speech (TTS) Μεγάλη ευελιξία σε εφαρμογές Προμαγνητοφωνημένα Μηνύματα Αύξηση της καταληπτότητας Μείωση της ευελιξίας και της γενικότητας της εφαρμογής Υβριδικά Συστήματα Προμαγνητοφωνημένα, όπου μπορούν να προβλεφτούν TTS, όπου η πρόβλεψη είναι αδύνατη (π.χ. ονοματεπώνυμα) 26

Τι είναι η Τεχνολογία Ομιλίας: Αναγνώριση Ομιλητή (SR)

Αναγνώριση Ομιλητή (SR) (1/6) Αναγνώριση Ομιλητή Αφορά Βιομετρική Ταυτοποίηση Χρήστη (Biometrics) NIST 2007, Forensic 2009 28

Αναγνώριση Ομιλητή (SR) (2/6) Τύποι Αυτόματης αναγνώρισης ομιλητή Εξακρίβωση Ομιλητή (Speaker Identification) Αναγνώριση της ταυτότητας ενός ατόμου: o o κλειστού συνόλου ανοικτού συνόλου Speech => person identity Επιβεβαίωση Ομιλητή (Speaker Verification) Επιβεβαίωση της Ταυτότητας ενός ατόμου, Δυαδική Απόφαση (Speech + claimed identity => Boolean) 29

Αναγνώριση Ομιλητή (SR) (3/6) Προβλήματα: Αστάθεια Ομιλητών (Speaker variability): Εντός Ομιλητή (Intra-speaker variability) o Συναισθηματική Κατάσταση (Stress, emotion, περιβάλλον (φαινόμενο Lombard) Μεταξύ Ομιλητών διακύμανση (Inter-speaker variability) o o Φυσικές Διαφορές: Ανατομία, ηλικία, κλπ. Κοινωνικό-γλωσσολογικές παράγοντες: Διάλεκτος, προφορά, κλπ. 30

Αναγνώριση Ομιλητή (SR) (4/6) Διάκριση Συστημάτων : Ανάλογα με το κείμενο o o Αναγνώριση Εξαρτημένη Κειμένου (Text Depended) Αναγνώριση Ανεξάρτητη Κειμένου (Text Independed) Πλήθος Ομιλητών (Speaker Set) Διάκριση Περιβάλλοντος (Environment) o o Καθαρό Περιβάλλον Περιβάλλον Θορύβου Αξιοπιστία o 75%-99% 31

Αναγνώριση Ομιλητή (SR) (5/6) Επιβεβαίωση Ομιλητή (Speaker Verification) 32

Αναγνώριση Ομιλητή (SR) (6/6) Εξακρίβωση Ομιλητή (Speaker Identification) 33

Τι είναι η Τεχνολογία Ομιλίας: Κωδικοποίηση Ομιλίας (Speech Coding)

Κωδικοποίηση Ομιλίας (Speech Coding) Συμπίεση Δεδομένων Ομιλίας (Speech Compression) Συμπίεση του όγκου των δεδομένων (encoding): Μείωση του αναγκαίου χώρου αποθήκευσης δεδομένων. 64 κbits/sec -> 6.4kbits/sec, 3.2kbits/sec, ή και >1kbits/sec. Μείωση του εύρους ζώνης για την αποστολή δεδομένων: Δορυφορικές επικοινωνίες Κινητή τηλεφωνία Αξιοπιστία Μειώνοντας το bit rate ελαττώνεται η καταληπτότητα και η ποιότητα της αναπαραγόμενης ομιλίας στον δέκτη. 35

Τι είναι η Τεχνολογία Ομιλίας: Δυσλεξία & Προβλήματα Ακοής (Dyslexia & Auditory problems)

Δυσλεξία & Προβλήματα Ακοής (Dyslexia & Auditory problems) Μελέτη Προβλημάτων σε Ομιλία και Ακοή Ανικανότητα σε Ομιλία (e.g. Steven Hawking) Προβλήματα Ακοής ή Κώφωσης Προβλήματα σε Όραση (e.g. screen readers) Ανάπτυξη βελτιωμένων υποκατάστατων Ακοής Εμφυτεύματα Κοχλία (Cochlear Implant) 37

Τι είναι η Τεχνολογία Ομιλίας: Άλλα Συστήματα Αναγνώρισης

Άλλα Συστήματα Αναγνώρισης Αναγνώριση Γλώσσας (Language Recognition) Αναγνώριση Φύλου Αναγνώριση Διαλέκτου (Dialect Recognition) Αναγνώριση Συναισθημάτων (Emotion Recognition) Αναγνώριση Ηλικίας 39

Τι είναι η Τεχνολογία Ομιλίας: Πολυτροπική Αλληλεπίδραση (Multimodal Interaction)

Πολυτροπική Αλληλεπίδραση (Multimodal Interaction) Πληκτρολόγιο, Ποντίκι, Επαφή (Touch), Γραφίδα (Pen), Ομιλία (Speech), μαζί με: Γλώσσα Σώματος (Head and Body movements) Χειρονομίες (Manual gestures) Νεύμα (Gaze) Ανάγνωση Χειλιών (Lip Reading): 41

Τι είναι η Τεχνολογία Ομιλίας: Διαλογικά Συστήματα (Spoken Dialog Systems): 1)Human-Human Interaction 2)Human-Machine Interaction

Διαλογικά Συστήματα: 1) Human-Human Interaction Αυτόματη Μετάφραση (Speech-to-Speech Translation), π.χ. νους υγιής εν σώματι υγιεί (a healthy mind in a healthy body) 43

Διαλογικά Συστήματα: 2) Human-Machine Interaction Αλληλεπίδραση Ανθρώπου Μηχανής (HMI) 44

Διαλογικά Συστήματα: 2) Human-Machine Interaction Oλοκλήρωση των επιμέρους τομέων της ΓΤ Αναγνώριση Γλώσσας (Language Recognition) Επιβεβαίωση Ομιλητή (Speaker Verification) Αναγνώριση Ομιλίας (Speech-to-Text) Κατανόηση Ομιλίας (Speech => Meaning or Action) Γέννηση Φυσικής Γλώσσας (NLG) (Meaning => Speech) Παραγωγή Ομιλίας (Text-to-Speech) Βαθμίδες Ελεγκτή Διαλόγου Κεντρικού Ελεγκτή Σύνδεσης με τηλεφωνικό δίκτυο ή mic 45

Διαλογικά Συστήματα: 2) Human-Machine Interaction: Δομή Χρήστης Αναγνώριση Ομιλίας Ενεργοποίηση Λεξικών Αποτέλεσμα Αναγνώρισης Σημασιολογικός Αναλυτής PBX Είσοδος Ομιλίας Διεπαφή Γραμμής Κεντρικός Ελεγχος Dialogue Expectation Ελεγκτής Διαλόγου Σημασιολογική Αναπαράσταση Χρήστης Έξοδος Ομιλίας Δημιουργία Ομιλίας Γεννήτρια Φυσ. Γλώσσας ΧΕΙΡΙΣΤΗΣ 46

Διαλογικά Συστήματα: Τρόποι Αλληλεπίδρασης Τρείς ουσιώδεις Τρόποι Αλληλεπίδρασης: 1. Πρωτοβουλίας συστήματος (Direct Dialog): o Ο χρήστης οφείλει να απαντά στις ερωτήσεις του συστήματος με ακρίβεια. 2. Μικτής πρωτοβουλίας (Mixed Initiative Dialog): o παρόμοια, αλλά έχει ένα σχετικό βαθμό ελευθερίας. 3. Πρωτοβουλίας Χρήστη (Natural dialog): o Μεγάλη ελευθερία στο τρόπο που θα αποκριθεί ο χρήστης. Όσο μεγαλύτερη ελευθερία απολαμβάνει ο χρήστης στην αλληλεπίδραση με το σύστημα, τόσο μεγαλύτερη η πολυπλοκότητα του συστήματος για την ολοκλήρωση του (και όχι γραμμικά). 47

Διαλογικά Συστήματα: Τρόπος Αλληλεπίδρασης: 1. Direct Dialog Σύστημα: Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας. Χρήστης: Νικόλαος Χατζηγεωργίου Σύστημα: Παρακαλώ πείτε μου τον αριθμό λογαριασμού σας. Χρήστης: 3214-555-1257-1863 Σύστημα: Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας? Χρήστης: Μεταφορά., κλπ 48

Σύστημα: Διαλογικά Συστήματα: Τρόπος Αλληλεπίδρασης: 2. Mixed Initiative Dialog Καλώς ήρθατε στην Τράπεζα Ελλάδος, υπηρεσία εξυπηρέτηση πελατών. Παρακαλώ πείτε μου το όνομα σας. Παρακαλώ πείτε μου το όνομα σας. Χρήστης: Ονομάζομαι Χατζηγεωργίου Νικόλαος και ο Τραπεζικός μου λογαριασμός είναι: 3214-555-1257-1863 Σύστημα: Θα θέλατε να κάνετε μεταφορά χρημάτων ή να δείτε το υπόλοιπό σας? Χρήστης: Πες μου σε παρακαλώ πρώτα το υπόλοιπο και μετά θα κάνω μεταφορά χρημάτων., κλπ. 49

Σύστημα: Διαλογικά Συστήματα: Τρόπος Αλληλεπίδρασης: 3. Natural Dialog Καλώς ήρθατε στην Τράπεζα Ελλάδος, Παρακαλώ πως μπορώ να σας βοηθήσω? Χρήστης: Ονομάζομαι Χατζηγεωργίου Νικόλαος με Τραπεζικό λογαριασμό: 3214-555-1257-1863, και θα δω το υπόλοιπό μου Σύστημα: Το Υπόλοιπο σας, κύριε Χατζηγεωργίου, είναι: 37.617Ευρώ. Μπορώ να σας εξυπηρετήσω σε κάτι άλλο? Χρήστης: Ναι,. 50

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στο πλαίσιο του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 52

Σημειώματα

Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0. 54

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Πατρών, Νίκος Φακωτάκης, Ευάγγελος Δερματάς. «Τεχνολογία Ομιλίας. Βασικές Έννοιες». Έκδοση: 1.0. Πάτρα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: https://eclass.upatras.gr/courses/ee699/. 55

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 56

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους. 57