ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΡΟΥΣΟΥ ΑΙΚΑΤΕΡΙΝΗ ΘΕΜΑ: ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΩΝ ΔΙΕΠΙΚΟΙΝΩΝΙΑΣ (USER INTERFACES) ΜΕΣΩ ΔΙΑΔΡΑΣΗΣ ΜΕ ΣΥΝΘΕΤΙΚΗ ΨΗΦΙΑΚΗ ΦΩΝΗ Επιβλέπων καθηγητής: Μητράκος Δημήτριος ΘΕΣΣΑΛΟΝΙΚΗ,2011

2 «Να κάνεις αυτά που νομίζεις πως είναι σωστά, έστω και αν κάνοντας αυτά πρόκειται να σε κακολογήσουν. Γιατί ο όχλος είναι κακός κριτής κάθε καλού πράγματος» Πυθαγόρας 2

3 Πρόλογος Η παρούσα εργασία ασχολείται με το θέμα της σύνθεσης ομιλίας, speech synthesis και πιο συγκεκριμένα της Text-to-speech synthesis, δηλαδή της σύνθεσης από κείμενο σε ομιλία. Σκοπός της εργασίας είναι να δώσει μια παρουσίαση των τεχνικών που χρησιμοποιούνται σήμερα στη σύνθεση ομιλίας αλλά και αυτών πάνω στις οποίες στηρίχτηκαν οι σημερινές τεχνικές. Επίσης, παρουσιάζεται μια εφαρμογή σύνθεσης φωνής, που υλοποιήθηκε με χρήση προγραμματισμού σε java και εφαρμόζεται μέσω του διαδικτύου. Στο πρώτο κεφάλαιο, γίνεται αναφορά σε κάποιες εισαγωγικές έννοιες που αφορούν την ομιλία, στις ιδιότητες και την ανάλυση του σήματος ομιλίας, στη μαθηματική τεχνική της παρεμβολής κυματομορφής και τέλος, στην ανθρώπινη παραγωγή ομιλίας. Στο δεύτερο κεφάλαιο, γίνεται μια παρουσίαση των συστημάτων Text-to-speech synthesis. Περιγράφεται η χρήση τους και ο σκοπός τους και γίνεται αναφορά σε ένα άλλο είδος σύνθεσης, της «canned speech synthesis». Έπειτα, γίνεται ανάλυση των κυρίαρχων τεχνικών σύνθεσης. Περιγράφονται οι έννοιες της προσωδίας, του τονισμού και του συγχρονισμού και αναλύεται η μέθοδος της «συνένωσης τμημάτων». Στη συνέχεια, δίνεται μια εκτενής περιγραφή δύο βασικών μεθόδων σύνθεσης, αυτής με «Hidden Markov Models» και αυτής της «Επιλογής Μονάδων». Στο τρίτο κεφάλαιο, γίνεται παρουσίαση της εφαρμογής. Δίνεται η περιγραφή του προγράμματος κατά τμήματα πάνω στο οποίο βασίστηκε η εφαρμογή. Τέλος, στο τέταρτο κεφάλαιο αναφέρονται κάποιες σημερινές εφαρμογές της σύνθεσης ομιλίας και της σύνθεσης Text-to-speech και δίνονται κάποια συμπεράσματα. Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή κ. Δημήτρη Μητράκο για την ανάθεση της εργασίας και την πολύτιμη καθοδήγησή του κατά τη διάρκειά της. Ακόμη, ευχαριστώ κι όλους τους φίλους μου για την κατανόηση και την υποστήριξή τους. 3

4 4

5 Περιεχόμενα Πρόλογος 3 Κεφάλαιο 1- Εισαγωγικές έννοιες Εισαγωγή Ιδιότητες σήματος ομιλίας Ανάλυση σήματος ομιλίας Παρεμβολή κυματομορφής (Waveform Interpolation) Φωνητική και παραγωγή ομιλίας Πηγές ήχου Μοντελοποίηση της πηγής διέγερσης του σήματος ομιλίας 13 Κεφάλαιο 2- Σύνθεση Text-To-Speech Τα συστήματα Text-To-Speech Synthesis (TTS) Ποια είναι η χρήση τους Ποιοι είναι οι στόχοι της ανάπτυξης συστημάτων TTS Canned speech and limited-domain synthesis Μία προσέγγιση της text-to-speech synthesis Ανάλυση κειμένου και γλωσσική ανάλυση Σύνθεση ομιλίας Παραμετρική αναπαράσταση ομιλίας (προσέγγιση της «συνένωσης») Μετατροπή φωνημάτων σε ακουστικά στοιχεία καταλόγου (acoustic inventory elements) Μετατροπή ακουστικών στοιχείων καταλόγου σε παραμέτρους Text-to-speech Δομή προσωδίας και τονισμός φωνής Παραγωγή της προσωδιακής δομής Παραγωγή της μελωδικής δομής Τονισμός (accentuation) ή prominence Πραγματοποίηση της προσωδιακής και της μελωδικής δομής Υπολογισμός του συγχρονισμού (timing) στη σύνθεση TTS Η επίδραση της διάρκειας στη φυσική ομιλία 26 5

6 Αναπαράσταση του συγχρονισμού Προσεγγίσεις για την πρόβλεψη του συγχρονισμού ομιλίας Βελτιστοποίηση του ελέγχου προσωδίας Στοχαστική μοντελοποίηση του ελέγχου τμημάτων Έλεγχος θεμελιώδους συχνότητας Προσωδία και εκλογή των μονάδων πηγής για σύνθεση «συνένωσης» Καθορίζοντας τις μονάδες στη Βάση Δεδομένων (ΒΔ) Τύποι και τεκμήρια τμημάτων Καθορίζοντας τις μονάδες Κατάτμηση της ΒΔ Επιλογή μονάδων βάσει προσωδίας Αυτόματη διαίρεση της ομιλίας σε τμήματα για σύνθεση συνένωσης Αλγόριθμος αυτόματης αντιγραφής Φωνοτακτικά μοντέλα Μοντέλα διάρκειας Ακουστικά μοντέλα φωνημάτων Αλγόριθμος χωρισμού σε τμήματα Ευθυγράμμιση (alignment) Text-to-Speech με χρήση μοντέλων Marcov Λειτουργία ευθυγραμμιστή Παράγοντας την ακολουθία φωνημάτων Ευθυγράμμιση της Αντιγραφής Σύνθεση με Hidden Marcov Models Κατανομή Gauss (ή κανονική κατανομή) Καταστάσεις και μεταβάσεις Χρησιμοποιώντας τα HMMs Σύνθεση Επιλογής Μονάδων (Unit selection) Αλγόριθμος Αλγόριθμος αναζήτησης επιλογής μονάδων Σχεδίαση ενός συνόλου μονάδων σύνθεσης Αλγόριθμος Hunt και Black Χαρακτηριστικά 47 6

7 2.5.4 Η συνάρτηση στόχου Η συνάρτηση σύνδεσης Αναζήτηση επιλογής μονάδων 51 Κεφάλαιο 3 Προγραμματιστικό μέρος Εισαγωγή Περιγραφή κώδικα 52 Κεφάλαιο 4 Παραδείγματα εφαρμογών- Συμπεράσματα Παραδείγματα εφαρμογής Speech Synthesis και Text-to-Speech Synthesis Συμπεράσματα 62 Βιβλιογραφία 64 Κεφάλαιο 1- Εισαγωγικές έννοιες 1.1 Εισαγωγή Η ομιλία αποτελεί ένα από τα βασικά μέσα επικοινωνίας μεταξύ των ανθρώπων και μαζί με τον γραπτό λόγο παίζει καθοριστικό ρόλο στην ανταλλαγή απόψεων, ιδεών και γνώσεων. Παρότι ο όγκος των βιβλίων, των εφημερίδων και όλων των άλλων τύπων γραπτού λόγου είναι τεράστιος, η ανταλλαγή ιδεών, αλλά και η μεταφορά των γνώσεων ανά τις γενιές των ανθρώπων έγινε σε μεγάλο βαθμό με την 7

8 ομιλία. Ακόμη και σήμερα που υπάρχει ένα πλήθος τρόπων επικοινωνίας, όπως το τηλέφωνο ή το διαδίκτυο, η ομιλία αποτελεί τον βασικό τρόπο μετάδοσης της πληροφορίας. Επίσης, η προφορική επικοινωνία είναι πιο γρήγορη και χρησιμοποιείται ευκολότερα από κάθε άλλο μέσο. Όλα αυτά καθιστούν την ομιλία απαραίτητη σε όλα τα επίπεδα επικοινωνίας των ανθρώπων. Η γρήγορη εξέλιξη σε διάφορους τομείς της τεχνολογίας και ειδικά της πληροφορικής βοήθησε στην ανάπτυξη αυτόματων συστημάτων και εργαλείων που σχετίζονται με την ομιλία. Τα συστήματα αυτά που έχουν να κάνουν με την άμεση επικοινωνία με τον άνθρωπο, έπρεπε να αντιγράψουν τον τρόπο με τον οποίο επικοινωνεί ώστε να είναι εύκολα στη χρήση. Τις τελευταίες δεκαετίες η ανάπτυξη συστημάτων που αφορούν τη φωνητική αλληλεπίδραση μεταξύ ανθρώπου και μηχανής έχει αυξηθεί σημαντικά. Η αλληλεπίδραση αυτή περιλαμβάνει τη μετάδοση μηνυμάτων από τον άνθρωπο στη μηχανή, δηλαδή τη μετατροπή φυσικής ομιλίας σε κείμενο (αναγνώριση ομιλίας), και τη μετάδοση μηνυμάτων από τη μηχανή στον άνθρωπο, δηλαδή τη μετατροπή ενός κειμένου σε σύνθετο λόγο (σύνθεση ομιλίας). Γενικά με τον όρο «σύνθεση ομιλίας» εννοούμε την αυτόματη παραγωγή κυματομορφής ενός σήματος ομιλίας, δηλαδή αναφερόμαστε στη μετατροπή ενός κειμένου εισόδου (που αποτελείται από λέξεις, φράσεις ή προτάσεις) σε κυματομορφή ομιλίας χρησιμοποιώντας κάποιον αλγόριθμο και κάποιο τύπο δεδομένων τα οποία έχουν κωδικοποιηθεί και αποθηκευτεί. Το κείμενο εισόδου μπορεί να προέρχεται είτε από κάποια υπάρχουσα βάση δεδομένων, είτε από κάποιο σύστημα οπτικής αναγνώρισης χαρακτήρων. Υπάρχει μια θεμελιώδης διαφορά μεταξύ του συστήματος σύνθεσης και οποιασδήποτε άλλης μηχανής ομιλίας, όπως για παράδειγμα ενός συστήματος αναπαραγωγής ήχου (CD player), διότι ουσιαστικά αναφερόμαστε στην αυτόματη παραγωγή μιας καινούργιας πρότασης. 8

9 Εικόνα 1.1 Η αλυσίδα επικοινωνίας από άνθρωπο σε άνθρωπο μέσω της ομιλίας 1.2 Ιδιότητες σήματος ομιλίας Για τη μετάδοση, αποθήκευση, επεξεργασία ακόμη και δημιουργία ομιλίας μέσω μηχανών, το σήμα ομιλίας αναπαρίσταται σε ψηφιακή μορφή. Αυτή η μορφή βοηθά στην αποφυγή παραμόρφωσης της ομιλίας και στην επεξεργασία της. Σημαντικό χαρακτηριστικό της ψηφιακής αναπαράστασης είναι ο ρυθμός bits (bit rate). Το (short time) power spectrum (φάσμα ισχύος μικρής διάρκειας, msec) αφορά τα τμήματα του σήματος ομιλίας. Ιδιότητες φάσματος ισχύος: α)περιβάλλουσα (envelope): Βασικός παράγοντας που καθορίζει τη γλωσσική ερμηνεία των ήχων ομιλίας. β)άρτια δομή Στα εύφωνα τμήματα ομιλίας (voiced) παρουσιάζεται αρμονική δομή, η οποία χαρακτηρίζεται από αιχμές στο φάσμα ισχύος ανά διαστήματα συχνότητας των Hz. Η αρμονική δομή του φάσματος αντιστοιχεί σε ένα περιοδικό σήμα στο πεδίο του χρόνου. Στα άφωνα τμήματα ομιλίας (unvoiced) παρουσιάζεται μη αρμονική δομή 9

10 (μη περιοδικό σήμα). Το φάσμα ισχύος περιοδικού τμήματος ερμηνεύεται ως αρμονική άρτια δομή με περιβάλλουσα φάσματος, ενώ το φάσμα ισχύος μη περιοδικού τμήματος ερμηνεύεται ως αυτό ενός σήματος λευκού θορύβου. Τα αρμονικά τμήματα κυριαρχούν στις χαμηλότερες συχνότητες, ενώ ο θόρυβος στις υψηλότερες. Για παρόμοια ποιότητα λήψης ομιλίας απαιτείται χαμηλότερος ρυθμός bits για την άφωνη απ ότι για την εύφωνη ομιλία. Ρυθμός bits: C= Wlog 2 (1+P/G), όπου C: μέγιστος ρυθμός πληροφορίας (bits/sec), P: μέση ισχύς σήματος, W: εύρος ζώνης, G: ισχύς προσθετικού θορύβου (Γκαουσιανού λευκού). Σηματοθορυβικός λόγος: SNR=P/G 1.3 Ανάλυση σήματος ομιλίας Το σημείο έναρξης στην ανάλυση ομιλίας είναι η εύρεση του φάσματος πλάτους από ένα σήμα ομιλίας. Είναι χρήσιμο αυτό να είναι σε μία διακριτή μορφή ώστε να είναι εύκολο να υπολογιστεί και να αποθηκευτεί σε υπολογιστή. Για το λόγο αυτό χρησιμοποιείται ο Διακριτός Μετασχηματισμός Fourier (DFT) ως βασικός αλγόριθμος. (i) «παραθυροποίηση» (windowing): Υποθέτουμε ότι το σήμα ομιλίας είναι στάσιμο αν θεωρηθεί για ένα σύντομο χρονικό διάστημα. Μοντελοποιούμε μία ολοκληρωμένη κυματομορφή ομιλίας ως μία σειρά πλαισίων μικρού μεγέθους, καθένα από τα οποία θεωρείται ως ένα στάσιμο χρονικά αμετάβλητο σύστημα. Ένα πλαίσιο ομιλίας x[n] προκύπτει από το γινόμενο της κυματομορφής s[n] και ενός παραθύρου w[n] στο πεδίο του χρόνου. x[n]= w[n]s[n]. (ii) Χρησιμοποιώντας την «παραθυροποίηση» ακολουθούμενη από έναν DFT, παράγουμε φάσματα μικρής διάρκειας από τις κυματομορφές ομιλίας. Τα φάσματα αναπαρίστανται από το φάσμα πλάτους και το φάσμα φάσης. Όμως, καθώς το ανθρώπινο αυτί δεν είναι ευαίσθητο στην πληροφορία της φάσης, χρησιμοποιείται το φάσμα πλάτους για την αναπαράσταση στο πεδίο της συχνότητας. 10

11 1.4 Παρεμβολή κυματομορφής (Waveform Interpolation) Η εύφωνη ομιλία, που εξελίσσεται αργά, αναπαρίσταται ως επιφάνεια δύο διαστάσεων u(t,φ), όπως και η μη περιοδική, ως άφωνη ομιλία που εξελίσσεται γρήγορα. Η κυματομορφή αναπαρίσταται κατά τον άξονα φ και η χρονική εξέλιξή της κατά τον άξονα t. Η κυματομορφή κατά τον άξονα φ αναφέρεται ως χαρακτηριστική κυματομορφή. Υπάρχουν δύο τύποι φάσματος Fourier: α)μετασχηματισμός Fourier κατά τον άξονα φ για δοσμένη χρονική στιγμή t. β) Μετασχηματισμός Fourier κατά τον άξονα t για δοσμένο φ. Εύρος ζώνης εξέλιξης=1/(2p(t)), p(t): περίοδος θεμελιώδους συχνότητας (pitch). Ο ρυθμός bits ανακατασκευής της u(t,φ) με γραμμική παρεμβολή κυματομορφής είναι από 2,4 ως 4 kbits/sec. 1.5 Φωνητική και παραγωγή ομιλίας Το θέμα της παραγωγής λόγου (speech production) ερευνά τις διαδικασίες με τις οποίες οι άνθρωποι μετατρέπουν τα γλωσσικά μηνύματα σε ομιλία. Η αντίστροφη διαδικασία, με την οποία οι άνθρωποι αποκωδικοποιούν το μήνυμα από την ομιλία, λέγεται αντίληψη ομιλίας (speech perception). Αυτές μαζί σχηματίζουν τη βάση του πεδίου που ονομάζεται «φωνητική». Όσων αφορά την παραγωγή λόγου, σε γενικές γραμμές είναι γνωστό το πώς οι άνθρωποι χρησιμοποιούν την άρθρωσή τους για να παράγουν διάφορους ήχους ομιλίας. Παρόλα αυτά, η γνώση πάνω σε αυτό είναι πολύ προσεγγιστική, καθώς κανένα μοντέλο δεν μπορεί να προβλέψει με ακρίβεια πώς θα μοιάζει η κυματομορφή ομιλίας που παράγεται από ένα συγκεκριμένο ομιλητή με δεδομένη κάποια εκφορά. Η αιτία είναι ότι οι λεπτομέρειες της διαδικασίας παραγωγής είναι περίπλοκες. Η πρόοδος στην αντίληψη (αναγνώριση) ομιλίας υπήρξε σημαντικά πιο αργή. Αυτό οφείλεται στη δυσκολία της εξαγωγής πληροφορίας για τη διαδικασία. Αυτό 11

12 εξηγεί γιατί η φωνητική γενικά προσεγγίζεται από την πλευρά της παραγωγής λόγου Πηγές ήχου Σχεδόν όλοι οι ήχοι παράγονται με τη διέλευση του αέρα από τους πνεύμονες μέσω των φωνητικών οργάνων στα χείλη και έπειτα έξω. Κατά τη διέλευση της ροής αέρα, συμβαίνουν μία ή περισσότερες «συσφίξεις» («constrictions»), αποτέλεσμα των οποίων είναι η παραγωγή ήχου. Η σύσφιξη που προκαλεί τον ήχο λέγεται «πηγή». Εικόνα 1.2 Διάγραμμα του ανθρώπινου μηχανισμού παραγωγής ομιλίας Δίνονται οι παρακάτω ορισμοί: Γλωττίδα: το κενό ανάμεσα στις φωνητικές χορδές κατά μήκος του λάρυγγα. Ο τύπος παραγωγής ήχου που προέρχεται από τη γλωττίδα λέγεται «γλωττιδική πηγή». Φωνητική οδός: το σύνολο του φάρυγγα, της στοματικής και της ρινικής κοιλότητας. Μεταβάλλουν τη βασική πηγή ήχων και δημιουργούν μεγάλη ποικιλία από ήχους. Θεμελιώδης συχνότητα (F0): ο ρυθμός δόνησης των φωνητικών χορδών κατά το πέρασμα του ρεύματος αέρα από αυτές. Pitch: (περίπου ίδιο με τη θεμελιώδη συχνότητα) ο ρυθμός δόνησης που αντιλαμβάνεται ο ακροατής. 12

13 Ο ρυθμός αυτός σε έναν άνδρα ομιλητή κυμαίνεται από 80 ως 250 Hz και σε μία γυναίκα ομιλητή από 120 ως 400 Hz. Φασματική περιβάλλουσα (spectral envelope): το σχήμα του πλάτους των αρμονικών. Καθορίζεται από τη φωνητική οδό. Το περιοδικό σήμα συνήθως παρουσιάζει ενέργεια εκτός από την F0 και σε άλλες συχνότητες, τις αρμονικές, που βρίσκονται ως πολλαπλάσια της F0. Αν η γλωττίδα είναι ελάχιστα παραπάνω ανοιχτή, ένα μη περιοδικό ρεύμα αέρα θα δημιουργηθεί, το οποίο παράγει έναν διαφορετικό τύπο ήχου, τον «θόρυβο». Αυτός είναι ο τρόπος με τον οποίο λειτουργεί ο ψίθυρος. Υπάρχουν τέτοιοι ήχοι που δημιουργούνται κρατώντας τα δόντια κοντά στα χείλη. Σε αυτούς δεν υπάρχει περιοδική δόνηση της γλωττίδας και λέγονται «άφωνοι» Μοντελοποίηση της πηγής διέγερσης του σήματος ομιλίας Η πηγή διέγερσης περιλαμβάνει τη γλωττιδική πηγή, το θόρυβο στα σύμφωνα όπως το «φ» και την εκτόνωση του αέρα. Στη σύνθεση «με βάση κανόνες» ( formant ) και σε αυτή της «συνένωσης» ( concatenative ) είναι σημαντικό να αναπτυχθούν μέθοδοι αναπαράστασης σήματος που θα αντιμετωπίσουν τις φυσικές πηγές διέγερσης. Η ανάλυση κι η σύνθεση της θορυβικής συνιστώσας ομιλίας έχει υπάρξει κέντρο ενδιαφέροντος. Αποτελέσματα υποδεικνύουν ότι η ξεχωριστή επεξεργασία της περιοδικής κα μη περιοδικής συνιστώσας μπορεί να βελτιώσει την ποιότητα της σύνθετης ομιλίας στο πλαίσιο της «συνένωσης». Το ακουστικό μοντέλο της παραγωγής ομιλίας είναι ένα μοντέλο «πηγής/ φίλτρου», με διέγερση πηγής e(t) και φίλτρο v(t). Η πηγή διέγερσης μπορεί να αποσυντεθεί σε μία ημι-περιοδική συνιστώσα p(t) και μία μη περιοδική a(t). s(t)= e(t)*v(t)= [p(t)+a(t)]*v(t) Όπου η p(t) αντιπροσωπεύει το κανονικό πρότυπο δονήσεων των φωνητικών χορδών και η a(t) τις ανωμαλίες στους εύφωνους και άφωνους ήχους. Κεφάλαιο 2- Σύνθεση Text-To-Speech 13

14 2.1 Τα συστήματα Text-To-Speech Synthesis (TTS) Ποια είναι η χρήση τους Τα συστήματα Text-To-Speech έχουν ένα τεράστιο εύρος εφαρμογών. Η πρώτη τους πραγματική χρήση ήταν στα συστήματα ανάγνωσης για τυφλούς, όπου ένα σύστημα διάβαζε ένα κείμενο από βιβλίο και το μετέτρεπε σε ομιλία. Σήμερα, υπάρχουν πιο εξελιγμένα συστήματα που διευκολύνουν την αλληλεπίδραση ανθρώπου-υπολογιστή για τους τυφλούς, στα οποία το σύστημα TTS βοηθά τον χρήστη να πλοηγηθεί σε ένα σύστημα παραθύρων (windows system). Οι καρποί της συστηματικής και συνεχόμενης έρευνας επί χρόνια στον τομέα της TTS σύνθεσης και η ανάπτυξη της τεχνολογίας νέας γενιάς, έχουν ως αποτέλεσμα τη βελτίωση της ποιότητας της σύνθετης ομιλίας πετυχαίνοντας ταυτόχρονα χαμηλό κόστος. Το γεγονός αυτό έδωσε το κίνητρο για την ευρεία εξάπλωση των ΤΤS εφαρμογών. Τέτοιες εφαρμογές συναντούμε στις επικοινωνίες, όπου μηνύματα βασισμένα σε κείμενο, όπως τα ή τα fax, ή πληροφορίες που συνδυάζουν κείμενο και εικόνα, όπως οι ιστοσελίδες, αποδίδονται φωνητικά. Υπάρχει επίσης, το πρόγραμμα VoiceXML που παρέχει interactive υπηρεσίες ομιλίας διαμέσου του διαδικτύου. Γενικότερα, τα TTS συστήματα καλύπτουν την ανάγκη για φωνητική απόδοση πληροφοριών, όλων των ειδών, που βρίσκονται αποθηκευμένες στις βάσεις δεδομένων, όπως για παράδειγμα τηλεφωνικοί αριθμοί, διευθύνσεις ή πληροφορίες πλοήγησης αυτοκινήτων. Ακόμη, βρίσκουν εφαρμογή στις αυτόματες υπηρεσίες πληροφόρησης, που πραγματοποιούν εκφώνηση δελτίων καιρού και ειδήσεων μέσω τηλεφώνου ή σε ένα αυτόματο τηλεφωνικό κέντρο, όπου ο χρήστης καλεί για να κάνει κάποια κράτηση και καθοδηγεί όλη τη συναλλαγή μέσω ενός αυτόματου συστήματος διαλόγου. Δίνουν επίσης λύσεις και σε πιο κλασικές ανάγκες του ανθρώπου, όπως είναι η αυτόματη ανάγνωση εντύπων από μια μηχανή (ομιλούντα βιβλία), που εξυπηρετεί ιδιαίτερα άτομα με προβλήματα όρασης. Άλλες πιθανές εφαρμογές συστημάτων σύνθεσης ομιλίας υψηλής ποιότητας είναι: Βοήθεια σε ανθρώπους που έχουν προβλήματα ομιλίας. Για παράδειγμα, ο Stephen Hawking πραγματοποιεί όλες του τις διαλέξεις με αυτόν τον τρόπο. Εργαλείο στην εκμάθηση μιας ξένης γλώσσας. Κάτι τέτοιο όμως δεν έχει πραγματοποιηθεί ακόμα λόγω της υψηλής ποιότητας συνθετικής ομιλίας που 14

15 απαιτείται για ένα τέτοιο εγχείρημα. Καταπληκτικό εργαλείο για τους γλωσσολόγους. Για παράδειγμα, ένας συγκεκριμένος τύπος TTS συνθέτη, του formant συνθέτη, χρησιμοποιείται από αυτούς που ασχολούνται με την φωνολογία και τους ακουστικούς κανόνες που διέπουν την ομιλία Ποιοι είναι οι στόχοι της ανάπτυξης συστημάτων TTS Ανεξάρτητα με τον σκοπό της χρήσης ενός τέτοιου συστήματος, είναι απαραίτητο η ποιότητα να είναι υψηλή και η φωνή να ακούγεται σαν ανθρώπινη. Έτσι, οι στόχοι κατασκευής ενός τέτοιου συστήματος είναι πρώτα απ όλα η μετάδοση του μηνύματος (κατανόηση) και δεύτερον η πραγματοποίησή της με τη χρήση μιας φωνής που να μοιάζει με ανθρώπου (φυσικότητα). Επίσης, ακόμη ένας στόχος είναι η δυνατότητα εισόδου οποιασδήποτε πρότασης Canned speech and limited-domain synthesis Σήμερα, πολλές εφαρμογές που χρησιμοποιούν δεδομένα ομιλίας ως έξοδο δεν χρησιμοποιούν text-to-speech, αλλά ένα σύνολο εγγραφών ομιλίας οι οποίες αναπαράγονται όταν αυτό απαιτείται. Αυτές λέγονται «canned speech» ή αλλιώς «prerecorded prompts» ανάλογα με την εφαρμογή. Ο τυπικός τρόπος που αναπτύσσονται είναι με τη δημιουργία μιας λίστας προτάσεων οι οποίες απαιτούνται για την εφαρμογή. Αυτές είναι συγκεκριμένες για την κάθε εφαρμογή και ένα καινούριο σύνολο εγγραφών δημιουργείται για μία διαφορετική. Μόλις δημιουργηθούν οι προτάσεις, ο ομιλητής τις διαβάζει και αυτές εγγράφονται και αποθηκεύονται ως αρχεία κυματομορφής. Η εφαρμογή αναπαράγει το απαιτούμενο αρχείο την απαιτούμενη στιγμή. Ένα τυπικό σύστημα της μορφής αυτής είναι αυτό της αναγγελίας στη στάση του λεωφορείου ή το σύστημα αυτόματων κρατήσεων. Με αυτό το είδος speech synthesis ασχολείται και το πρακτικό μέρος της εργασίας. Τα συστήματα αυτά αρχικά συγκρίνονται με τα TTS και θεωρούνται λιγότερο χρηστικά, αφού απαιτούν καινούριο σύνολο προτάσεων για κάθε εφαρμογή, ενώ τα TTS σχεδιάζονται μια φορά και χρησιμοποιούνται για κάθε εφαρμογή. Παρόλα αυτά, η 15

16 ομιλία αυτή είναι εντελώς φυσική. Αντιμέτωποι με την επιλογή μεταξύ μιας φυσικής αλλά μη ευέλικτης ομιλίας και μίας λιγότερο φυσικής αλλά πλήρως ευέλικτης text-tospeech, κάποιοι ερευνητές έχουν προτείνει τα «limited-domain synthesis systems» που συνδυάζουν και τα δύο. 2.2 Μία προσέγγιση της text-to-speech synthesis Πρώτα, είναι απαραίτητο να δοθούν οι παρακάτω ορισμοί: Φώνημα (phoneme): (σε πλήθος) μονάδες που συνδυάζονται για το σχηματισμό μιας λέξης. Συλλαβές: δομικές μονάδες ήχων που χρησιμοποιούνται για την ομαδοποίηση των φωνημάτων. Allophones: διαφορετικές εκδοχές ενός φωνήματος. Phonetic context: φωνητικό περιβάλλον, το σύνολο φωνημάτων που πλαισιώνουν ένα συγκεκριμένο φώνημα. Token: τεκμήριο, γραπτή κωδικοποίηση λέξεων, αριθμών και ημερομηνιών. Το σύστημα TTS αποτελεί ένα πλήρως αυτοματοποιημένο σύστημα για τη μετατροπή κειμένου σε ομιλία. Πιο συγκεκριμένα, δέχεται ως είσοδο ένα κείμενο και παράγει σύνθετη ομιλία, παρέχοντας με αυτόν τον τρόπο στον χρήστη πληροφορίες κειμένου μέσω φωνητικού μηνύματος. Το κείμενο μπορεί να εισάγεται απευθείας στον υπολογιστή από τον χρήστη ή να σκανάρεται και στη συνέχεια να περνάει από ένα σύστημα οπτικής αναγνώρισης χαρακτήρων (Optical Character Recognition system OCR). Η AT&T Bell Laboratories ανέπτυξε το σύστημα TTS για τα αγγλικά και έχουν αναπτυχθεί συστήματα για πολλές άλλες γλώσσες. Η δυσκολία στην ανάγνωση ενός κειμένου από έναν συνθέτη ομιλίας και η μετατροπή του σε ομιλία που ακούγεται σαν φυσική έγκειται στο γεγονός ότι τα συστήματα γραφής δεν προσδιορίζουν πληροφορίες σημαντικές για την ομιλία. Ο γραπτός λόγος καθορίζει μόνο μερικώς τον τονισμό των φράσεων χρησιμοποιώντας τη στίξη, αλλά δεν προσδιορίζει ποιες λέξεις θα τονιστούν και ποιες όχι, ποια θα είναι η διάρκεια του κάθε τμήματος λέξης και η ποιότητα της φωνής. Ο άνθρωπος τα κατορθώνει όλα αυτά επειδή εκτός από το να γνωρίζει τη γραμματική της γλώσσας, 16

17 κατανοεί και το περιεχόμενο του κειμένου που διαβάζει. Έτσι, η δουλειά ενός συστήματος TTS είναι πολύπλοκη καθώς χρειάζεται να μιμηθεί τον άνθρωπο-αναγνώστη. Όμως, οι μηχανές δε γνωρίζουν τέλεια τους γραμματικούς κανόνες μιας γλώσσας και δεν κατανοούν τίποτα από όλα αυτά που διαβάζουν. Έτσι, οι αλγόριθμοι TTS πρέπει να καταφέρουν στο μέγιστο δυνατό να χρησιμοποιούν, όπου γίνεται, την καθαρά γραμματική πληροφορία ώστε να καθορίσουν στοιχεία όπως ο τονισμός, η προφορά και να δώσουν ένα μέσου επιπέδου αποτέλεσμα στις πτυχές της εξόδου που στηρίζονται στην κατανόηση. Το πρόβλημα TTS περιλαμβάνει: α) τη μετατροπή του κειμένου σε γλωσσική αναπαράσταση, που περιλαμβάνει πληροφορίες για τα φωνήματα που θα παραχθούν, τη διάρκειά τους, την τοποθέτηση παύσης και την περιφέρεια της F0 που θα χρησιμοποιηθεί. β) τη σύνθεση ομιλίας, δηλαδή μετατροπή της αναπαράστασης της πληροφορίας σε κυματομορφή ομιλίας. Εικόνα 2.1 : Γενικό μοντέλο ενός TTS συστήματος α) Η μετατροπή του κειμένου σε γλωσσική αναπαράσταση αποτελείται από τα ακόλουθα: - προεπεξεργασία του κειμένου - καθορισμός τονισμού - προφορά λέξης - τονικός διαχωρισμός σε φράσεις - διάρκειες τμημάτων 17

18 - υπολογισμός της περιφέρειας της F0. β) Η σύνθεση ομιλίας αποτελείται από τα εξής βήματα: i) Επιλογή των μονάδων που θα συνενωθούν (concatenative units) με δεδομένη τη σειρά φωνημάτων που πρέπει να συντεθεί. ii) Συνένωση (concatenation) των μονάδων αυτών. iii) Σύνθεση μιας κυματομορφής ομιλίας με δεδομένα τις μονάδες και το μοντέλο «γλωττιδικής πηγής» Ανάλυση κειμένου και γλωσσική ανάλυση α) Προεπεξεργασία κειμένου: Το κείμενο εισάγεται στον συνθέτη σε κωδικοποιημένη μορφή (format, π.χ.unicode). Γίνεται διαίρεση των δεδομένων εισόδου σε τμήματα, π.χ. προτάσεις. Το κείμενο τεκμηριώνεται σε λέξεις (οι συντομογραφίες γίνονται λέξεις) και οι αριθμοί μετατρέπονται επίσης σε λέξεις. Το TTS σύστημα πραγματοποιεί γραμματικό προσδιορισμό των μερών του λόγου. β) Τονισμός (accentuation): συχνότητας. accent: η προς τα πάνω ή προς τα κάτω μετακίνηση της θεμελιώδους Μερικές λέξεις τονίζονται και άλλες δεν τονίζονται. Υπάρχουν τρία επίπεδα τονισμού των λέξεων: Οι τονισμένες (όπως ρήματα, επίθετα, ουσιαστικά), οι μη τονισμένες (όπως προθέσεις) και οι μη τονισμένες και μικρές σε διάρκεια (όπως προθέματα). Ο τονισμός εξαρτάται από τη συντακτική δομή, τη σημασιολογία και τις ιδιότητες της ομιλίας. γ) Προφορά λέξης: Ξεχωρίζουν δύο προσεγγίσεις. Η μία είναι η απλή και στηρίζεται στον κανόνα «γράμμα σε ήχο» και η άλλη περιλαμβάνει λεξικό με λέξεις που η προφορά τους δεν προβλέπεται από γενικούς κανόνες. δ) Τονικός διαχωρισμός σε φράσεις: Η πρόταση χωρίζεται σε μία ή περισσότερες φράσεις, που με βάση τους κανόνες στίξης βρίσκονται ανάμεσα σε κόμματα, τελείες, άνω τελείες. ε) Διάρκειες τμημάτων: Υπολογίζεται πρώτα ποια φωνήματα θα παραχθούν από τον συνθέτη και αποφασίζεται πόσο θα διαρκέσει το καθένα. Στα συστήματα AT&T TTS το κομμάτι 18

19 κειμένου διαβάζεται από έναν ομογενή ομιλητή και η ομιλία χωρίζεται σε τμήματα τα οποία επισημαίνονται. Χρησιμοποιώντας μονάδες ανάλυσης κειμένου του συστήματος υπολογίζονται η αλληλουχία των φωνημάτων και τα διανύσματα χαρακτηριστικών (όπως ο τονισμός) των φωνημάτων και εκτιμώνται οι τιμές της διάρκειας των τμημάτων. στ) Τονισμός φωνής (intonation): Μία συνάρτηση χρονισμού τόνου (tone-timing function) δημιουργεί ονομαστικές χρονικές τιμές για κάθε τονισμό (accent) σε μία πρόταση. Οι ονομαστικές χρονικές τιμές τονισμού μετατρέπονται σε ζευγάρια «F0-χρόνου» από άλλη συνάρτηση. Η περιφέρεια της F0 (F0 contour) παράγεται με παρεμβολή των υπολογισμένων ζευγαριών τόνου-χρόνου Σύνθεση ομιλίας Οι τεχνικές σύνθεσης ομιλίας χωρίζονται σε δύο μεγάλες κατηγορίες: Τα system models, που επιχειρούν να μοντελοποιήσουν το ανθρώπινο σύστημα παραγωγής ομιλίας και τα signal models, που επιχειρούν να μοντελοποιήσουν μόνο το παραγόμενο σήμα ομιλίας. Στην πρώτη κατηγορία ανήκει η «αρθρωτική» σύνθεση (articulatory synthesis), η οποία μοντελοποιεί άμεσα το ανθρώπινο σύστημα παραγωγής ομιλίας. Στη δεύτερη κατηγορία ανήκουν: α) Η formant σύνθεση, που βασίζεται σε κανόνες (rule-based). β) Η σύνθεση με «συνένωση» (concatenative synthesis), που χρησιμοποιεί προηχογραφημένα μικρά τμήματα ομιλίας, τα οποία συνενώνει στο πεδίο του χρόνου. Η σύνθεση με «βάση κανόνες» μαζί με τη σύνθεση με «συνένωση» αποτελούν τις δύο πιο συχνά χρησιμοποιούμενες μεθόδους στα παρόντα συστήματα σύνθεσης. Η πρώτη ήταν κυρίαρχη για πολύ καιρό, αλλά σήμερα η σύνθεση με «συνένωση» είναι πιο δημοφιλής. Η «αρθρωτική» μέθοδος είναι ακόμα πάρα πολύ περίπλοκη για υψηλής ποιότητας εφαρμογές, αλλά μπορεί να εξελιχθεί και να χρησιμοποιηθεί εκτενέστερα στο μέλλον. α) Από τους δύο κυρίαρχους τύπους σύνθεσης, ο πρώτος χρησιμοποιεί ένα σύνολο κανόνων (rule-based), οι οποίοι ελέγχουν ένα γραμμικό μοντέλο παραγωγής 19

20 ομιλίας, «πηγής- φίλτρου» (source-filter model). Σύμφωνα με το μοντέλο αυτό, η πηγή διέγερσης είναι απολύτως ανεξάρτητη από τη μορφή του φωνητικού καναλιού. Το φίλτρο του φωνητικού καναλιού καθορίζεται από τις παραμέτρους ελέγχου, όπως οι συχνότητες και το εύρος ζώνης των formants, που υπολογίζονται για κάθε φώνημα. Τα συστήματα αυτής της σύνθεσης εμπεριέχουν κανόνες μοντελοποίησης των φαινομένων συνάρθρωσης, σύμφωνα με τους οποίους γίνεται ο υπολογισμός των παραμέτρων ελέγχου για κάθε φώνημα. Η πηγή διέγερσης μοντελοποιείται με μια περιοδική ακολουθία για ηχηρή ομιλία και με θόρυβο για άηχη ομιλία (βλέπε παράγραφο 1.5.2). Αυτός ο τύπος σύνθεσης είναι πιο αποδοτικός σε χώρο αλλά πιο δύσκολος και προσφέρει χαμηλότερης ποιότητας ομιλία. β) Στον δεύτερο κυρίαρχο τύπο σύνθεσης, ο οποίος χρησιμοποιείται από τα AT&T TTS συστήματα, παραμετροποιημένα σύντομα τμήματα φυσικής ομιλίας συνενώνονται, δηλαδή συνδέονται, σε μία αναπαράσταση σύνθετης ομιλίας με σκοπό τη δημιουργία προτάσεων. Με τον όρο «τμήματα ομιλίας» (speech segments) εννοούνται κυρίως φωνήματα ή δυάδες φωνημάτων. Τα χαρακτηριστικά φάσματος ενός τμήματος ομιλίας διαφέρουν από το φωνητικό του περιβάλλον, το οποίο καθορίζεται από τα γειτονικά του φωνήματα, τον τονισμό και τις διαφορές στις θέσεις. Η συνένωση είναι πιο εύκολη και προσφέρει καλύτερης ποιότητας ήχο. Όμως, είναι αδύνατη η μεταβολή των φασματικών παραμέτρων κι επίσης, οι συνθέτες συνήθως περιορίζονται σε έναν ομιλητή και μια φωνή κι έτσι απαιτούν μεγαλύτερη χωρητικότητα μνήμης. Ακολουθούνται δύο στάδια για την επιλογή των ακουστικών στοιχείων. Πρώτα, η μετατροπή της αναπαράστασης φωνημάτων σε μία αναπαράσταση με τα απαιτούμενα στοιχεία ομιλίας κι έπειτα, η σύνδεση και η παρεμβολή των παραμέτρων Παραμετρική αναπαράσταση ομιλίας (προσέγγιση της «συνένωσης») Τα δείγματα ομιλίας είναι αποθηκευμένα σε παραμετρική αναπαράσταση. Γίνεται σύνδεση των δειγμάτων και μεταβολή των παραμέτρων (χαρακτηριστικών) του σήματος, όπως η ένταση ή η θεμελιώδης συχνότητα. 20

21 Μετατροπή φωνημάτων σε ακουστικά στοιχεία καταλόγου (acoustic inventory elements) Τα ακουστικά στοιχεία καταλόγου αποτελούνται από μεταβάσεις μεταξύ φωνημάτων. Αντιστοιχίζεται η μεγαλύτερη δυνατή σειρά φωνημάτων της εισόδου σε ένα στοιχείο του καταλόγου Μετατροπή ακουστικών στοιχείων καταλόγου σε παραμέτρους Τα ακουστικά στοιχεία ανακτώνται από τον κατάλογο και γίνεται η προετοιμασία τους για τη σύνθεση. Η προετοιμασία περιλαμβάνει τη σύνδεση των στοιχείων με τη διαδικασία παρεμβολής, την προσαρμογή της διάρκειας κάθε φωνήματος και την τοποθέτηση τιμής της F0 σε κάθε περίοδο της ομιλίας. Αφού γίνει η συνένωση, το παραγόμενο σήμα υποβάλλεται σε περαιτέρω επεξεργασία, προκειμένου να αποκτήσει τα επιθυμητά προσωδιακά χαρακτηριστικά και πιθανόν να γίνει κάποια εξομάλυνση των ασυνεχειών του στα σημεία συνένωσης. Κάποιες από αυτές τις μεθόδους επεξεργασίας είναι οι PSOLA (Pitch Synchronous Overlap-Add) τεχνικές, ΤD-PSOLA, FDPSOLA, LP_PSOLA, MBR-PSOLA και η Linear Predictive (LP) τεχνική. Εικόνα 2.2 : Παράδειγμα σύνθεσης φωνής με συνένωση φωνημάτων 21

22 2.3 Text-to-speech Το σύστημα AT&T TTS αποτελείται από δεκατρείς μονάδες, καθεμία από τις οποίες είναι υπεύθυνη για ένα τμήμα του προβλήματος της μετατροπής text-tospeech, δηλαδή: 1)επεξεργασία κειμένου, 2)μετατροπή λέξεων σε λήμματα, 3)τονισμός, 4)προφορά λέξης, 5)καθορισμός ορίων τονικών φράσεων, 6)καθορισμός τονισμού φράσης, 7)διάρκεια τμήματος, 8)τονισμός φωνής, 9)πλάτος, 10)γλωττιδική πηγή, 11)επιλογή δυάδας φωνημάτων, 12)σύνδεση δυάδας, 13)σύνθεση. Η πληροφορία μεταφέρεται από μονάδα σε μονάδα πρόταση- προς- πρόταση και αποτελείται από ένα σύνολο πινάκων γλωσσικών δομών. Ο πίνακας δομής περιέχει ως επικεφαλίδες τον τύπο Τ της δομής (π.χ. λέξη), τον αριθμό Ν των Τ της πρότασης και το μέγεθος S του κάθε Τ. Οπότε για Ν δομές τύπου Τ έχουμε πίνακες τύπου byte μεγέθους NxS. Κάθε μονάδα διαβάζει στις δομές μια πρόταση κάθε φορά, επεξεργάζεται τα δεδομένα εισόδου και καταγράφει τις δομές για την επόμενη μονάδα. Κάθε μονάδα προσθέτει πληροφορία. Ένα πλεονέκτημα είναι η σταθερή παρατήρηση, πολλά άτομα δουλεύουν σε διαφορετικές μονάδες ανεξάρτητα το ένα από το άλλο. Επίσης, η μορφή της δομής διευκολύνει τη διακοπή της επεξεργασίας σε οποιοδήποτε σημείο. Ακόμη είναι εύκολο να εισαχθούν σε οποιοδήποτε σημείο της δομής προγράμματα που μεταβάλλουν τις παραμέτρους του TTS. Μπορεί να εισαχθεί μια εφαρμογή, όπως μια μονάδα μελωδίας που αντικαθιστά τη μονάδα τονισμού φωνής και προκαλεί το σύστημα να μελοποιεί το κείμενο σύμφωνα με έναν γραμμένο ρυθμό Δομή προσωδίας και τονισμός φωνής Προσωδία (prosody): σύνολο ιδιοτήτων του ήχου που περικλείει μεγάλες μονάδες, όπως συλλαβές ή λέξεις. Αφορά στις μεταβολές στη συχνότητα (pitch), στη διάρκεια και στην ένταση ήχου, που υπογραμμίζουν την αντίληψη της μελωδίας, του ρυθμού, του τονισμού και της ποιότητας φωνής. Η προσωδιακή μεταβολή αφορά στο πώς αναπαράγονται τα τμήματα. Η πρόσθετη πληροφορία της προσωδίας μπορεί να επηρεάσει τη λογική ερμηνεία του μηνύματος 22

23 με πολλούς τρόπους. Επίσης, επηρεάζει και την ερμηνεία των εκφράσεων που αναφέρονται. Για παράδειγμα, στη φράση «τα παιδιά έφυγαν για το σχολείο. Τα κορίτσια ξέχασαν το κολατσιό τους.», η απουσία του τονισμού στο «τα κορίτσια» υπονοεί ότι «τα παιδιά» αποτελούνται μόνο από κορίτσια, ενώ ο τονισμός στα «κορίτσια» τα ξεχωρίζει από τα υπόλοιπα παιδιά. Εν ολίγοις, τα γνωρίσματα προσωδίας της φυσικής ομιλίας φέρουν πληροφορίες που δεν εμφανίζονται ούτε στη σημασία των λέξεων, ούτε στη συντακτική τους σχέση. Η καλή προσωδία είναι απαραίτητη. Έτσι, στη σύνθεση ομιλίας σκοπός είναι η καταγραφή τη περισσότερης προσωδιακής πληροφορίας. Γι αυτό κανείς χρειάζεται παραμετρική περιγραφή του φωνητικού περιεχομένου (phonetic substance) των προσωδιακών μεταβλητών και επίγνωση της επικοινωνιακής λειτουργίας τους (communicative function). Ο καθορισμός του τονισμού, του ρυθμού, του τονισμού φωνής κλπ. περιλαμβάνει δύο στάδια: i) Ανάλυση του κειμένου που διαβάστηκε, έχοντας υπόψη τη σύνταξη, τη σημασιολογία και το φραστικό περιβάλλον, με σκοπό να καθοριστεί η προσωδιακή του δομή. ii) Η προσωδιακή δομή πρέπει να γίνει ακουστή Παραγωγή της προσωδιακής δομής Η σύνθεση προσωδίας είναι μια διαδικασία στην οποία αρχικά εξάγεται μια αναπαράσταση της προσωδιακής μορφής από το κείμενο και έπειτα συντίθεται μία ακουστική αναπαράσταση της μορφής. Η προσοχή επικεντρώνεται στη σύνθεση του τονισμού φωνής (intonation), ο οποίος αποτελεί το βασικό μέσο με το οποίο εκφράζονται το συναίσθημα και η διάθεση. Υπάρχουν άλλες δύο βασικές πτυχές της προσωδίας, το phrasing και ο τονισμός (accentuation) Παραγωγή της μελωδικής δομής Intonation: αναφέρεται στις μελωδικές ιδιότητες της πρότασης. Η κύρια ακουστική αναπαράσταση του intonation είναι η θεμελιώδης συχνότητα (F0). α) Analysis-by-synthesis(ανάλυση μέσω σύνθεσης): Μέθοδος που καθορίζει τις φωνητικές ιδιότητες των τονικών συστημάτων. Η 23

24 περιφέρεια της F0 μιας πρότασης αντικαθίσταται από μία απλουστευμένη συνθετική περιφέρεια με όμοιες γλωσσικές ιδιότητες. β) Προσέγγιση σύνθεσης (compositional approach): Η περιφέρεια της θεμελιώδους συχνότητας αναλύεται σαν να αποτελείται από μία ακολουθία συμβάντων συχνότητας που αντιπροσωπεύουν φωνολογικές κατηγορίες. Phrasing: Είναι ο τρόπος που διαμελίζεται η πρόταση σε μικρότερες οντότητες, δηλαδή φράσεις. Υπάρχουν θεωρίες (αλγόριθμοι) που χρησιμοποιούν τη συντακτική πληροφορία για το χωρισμό της πρότασης σε φράσεις (phrasing). Παρόλα αυτά, η αυτόματη συντακτική ανάλυση είναι κάποιες φορές αναξιόπιστη, τουλάχιστον στην TTS σύνθεση Τονισμός (accentuation) ή prominence prominence: (ή emphasis) Η σχέση δύναμης μεταξύ δύο στοιχείων (λέξεων ή συλλαβών) για έναν συγκεκριμένο τομέα, σχετική με τον ρυθμό και τον τονισμό. Είναι μία ιδιότητα μέσω της οποίας τα στοιχεία, οι συλλαβές της πρότασης, είναι συγγενή με τα γειτονικά τους. Η παρουσία του τόνου κάνει τις συλλαβές πιο εμφανώς συγγενείς (prominent relative) με τις γειτονικές τους. Ο τονισμός αφορά τον προσδιορισμό της προσωδιακής σχέσης δύναμης. Όσων αφορά τους παράγοντες για τον καθορισμό των τόνων στις λέξεις, κυριαρχούν δύο θέσεις. Η μία προσδιορίζει τους τόνους σύμφωνα με το σημασιολογικό περιεχόμενο της πρότασης. Η δεύτερη τους καθορίζει με βάση τις γραμματικές ιδιότητες. Οι δύο θεωρίες συμβιβάζονται χρησιμοποιώντας την εξής πρόταση: ο καθορισμός τόνων υπολογίζεται με μία «μετρική» αναπαράσταση της πρότασης, δηλαδή μία αναπαράσταση των σχέσεων δύναμης μεταξύ των συλλαβών, που εξαρτάται από τις συντακτικές ιδιότητες της πρότασης. Και το phrasing και η prominence εξαρτώνται από τη γλώσσα. 24

25 2.3.2 Πραγματοποίηση της προσωδιακής και της μελωδικής δομής pitch range: εύρος συχνότητας, η απόσταση μεταξύ τοπικών μεγίστων και ελαχίστων της F0. pitch register: καταχώρηση συχνότητας, τοποθέτηση μίας περιφέρειας F0 ως σχετικά υψηλή ή χαμηλή στο συνολικό εύρος συχνότητας του ομιλητή. Τόσο το εύρος όσο και η καταχώρηση συχνότητας μπορεί να διαφέρουν στον ίδιο ομιλητή ως συνάρτηση της συναισθηματικής του κατάστασης, αλλά και σε σχέση με τη δομή της συζήτησης. Θεωρούμε ότι στο στάδιο αυτό η προσωδιακή δομή, δηλαδή οι θέσεις των τόνων και των προσωδιακών ορίων, καθώς και η μελωδία της πρότασης έχουν καθοριστεί. Ο καθορισμός έχει γίνει έχοντας υπόψη την prominence, το εύρος και την καταχώρηση τόνου. Φωνητική εφαρμογή: Πρώτα απ όλα, το μέγεθος των αλλαγών της συχνότητας είναι σχετικό με την αντίληψη της prominence των τονισμένων συλλαβών. Δεύτερον, η θέση των αλλαγών συχνότητας στο συνολικό εύρος του ομιλητή είναι σχετική με την αντίληψη της καταχώρησης συχνότητας. Μπορούμε να εκτιμήσουμε κατάλληλες τιμές και να μοντελοποιήσουμε τη χρονική εξέλιξη των μεγίστων κι ελαχίστων της F0 μέσα στις φράσεις. Κυριαρχούν δύο προσεγγίσεις: α) Η superpositional (υψηλής θέσης) και β) η γραμμική (linear ή autosegmental-metrical). α) Σύμφωνα με την προσέγγιση του Hart, αυτή αποτελείται από δύο συνιστώσες, το επίπεδο φράσης και αυτό που ασχολείται με τα τοπικά συμβάντα συχνότητας (pitch events). Το επίπεδο φράσης μοντελοποιείται ως μονή ευθεία γραμμή στο πεδίο «logf0-χρόνος», που βαθμιαία μειώνεται (γραμμή μείωσης). Τα συμβάντα συχνότητας επιβάλλονται στη γραμμή αυτή, το μέγεθός τους προσαρμόζεται να εφαρμοστούν το κατάλληλο εύρος συχνότητας και η prominence. Τα συμβάντα συχνότητας εξαρτώνται σε κάποιο βαθμό από την προσωδιακή δομή της πρότασης. Γενικά, το μέγεθος των αλλαγών συχνότητας μειώνεται από την αρχή προς το τέλος της φράσης. β) Η μείωση της F0 μοντελοποιείται απευθείας κατά τη διάρκεια της φράσης. Για παράδειγμα, στην προσέγγιση του Pierrehumbert ο συνδυασμός της ευθείας βάσης και της ευθείας κορυφής καθορίζει το εύρος συχνότητας σε κάθε σημείο της πρότασης. Τα μέγιστα της F0 τοποθετούνται μέσα στο τρέχον εύρος συχνότητας. 25

26 2.3.3 Υπολογισμός του συγχρονισμού (timing) στη σύνθεση TTS Τα συστήματα TTS αποτελούνται από μονάδες μέτρησης που μετατρέπουν την είσοδο (τους χαρακτήρες) σε σήμα ομιλίας. Μία μονάδα υπολογίζει τον συγχρονισμό της ομιλίας (speech timing). Στη φυσική ομιλία, η διάρκεια ενός φωνήματος, μιας συλλαβής κλπ ποικίλει. Η ποικιλία αυτή εξαρτάται από κάποιους παράγοντες που προκύπτουν από το κείμενο, για παράδειγμα ο τονισμός συλλαβής. Αυτή η ποικιλία πρέπει να γίνει μιμητή ώστε η σύνθετη ομιλία να ακούγεται σαν φυσική. Η είσοδος της μονάδας συγχρονισμού (timing module) αποτελείται από διανύσματα χαρακτηριστικών, τα οποία έχουν υπολογιστεί από τις μονάδες ανάλυσης κειμένου που προηγούνται. Η έξοδος μπορεί να πάρει πολλές μορφές. Η συνήθης αναπαράσταση είναι στη μορφή της διάρκειας διαδοχικών φωνητικών τμημάτων που αποτελούν την πρόταση. Η εργασία της μονάδας συγχρονισμού είναι να αντιστοιχεί έναν χώρο χαρακτηριστικών σε διάρκειες έτσι ώστε να μιμηθεί τον συγχρονισμό της φυσικής ομιλίας. Η κατασκευή μιας μονάδας συγχρονισμού είναι μια εξάσκηση στην στατιστική πρόβλεψη που περιλαμβάνει την κατασκευή στατιστικού μοντέλου, την εκτίμηση παραμέτρων και τη δοκιμή δεδομένων (training data) Η επίδραση της διάρκειας στη φυσική ομιλία Υπάρχουν παράγοντες που επιδρούν στη διάρκεια των τμημάτων, όπως ο τονισμός συλλαβών, ο τονισμός λέξεων ή η θέση της συλλαβής στη λέξη ή στη φράση Αναπαράσταση του συγχρονισμού Υπάρχουν δύο εναλλακτικές για τις διάρκειες τμημάτων: α) Προσωρινές μονάδες που διαφέρουν σε μέγεθος από τα τμήματα. β) Χρονική πορεία των παραμέτρων, δηλαδή προσδιορισμός του πώς μεταβάλλονται οι τιμές των παραμέτρων με τον χρόνο. Το σήμα ομιλίας υπολογίζεται από τις τιμές των παραμέτρων. 26

27 α) Η πρώτη εναλλακτική λέγεται και «σύγχρονη» και χρησιμοποιείται στη σύνθεση της «συνένωσης». Σε αυτήν χρησιμοποιείται μέγεθος προσωρινής μονάδας. Ο όρος μονάδα έχει δύο εκδοχές. Σύμφωνα με την πρώτη, πρόκειται για φωνητική οντότητα που υπολογίζεται από τον αναλυτή κειμένου και εισάγεται στη μονάδα συγχρονισμού, όπου χρησιμοποιείται για να υπολογιστεί ο συγχρονισμός της ομιλίας εξόδου. Σύμφωνα με τη δεύτερη εκδοχή, είναι το διάστημα ομιλίας που ανταποκρίνεται σε ένα συγκεκριμένο τύπο φωνητικής οντότητας. Η κύρια διαφωνία ανάμεσα στις δύο εναλλακτικές αφορά στο μέγεθος της προσωρινής μονάδας. Εδώ θεωρούμε ότι το σήμα ομιλίας είναι μια ακολουθία από κομμάτια διαφορετικού μεγέθους και ο συγχρονισμός τους χαρακτηρίζεται ως συρρίκνωση ή επέκταση των κομματιών. β) Η δεύτερη εναλλακτική λέγεται «ασύγχρονη» και χρησιμοποιείται στη σύνθεση «βάσει κανόνων». Εδώ η ομιλία παράγεται με υπολογισμό της χρονικής πορείας των παραμέτρων, που έπειτα συνδυάζονται και δίνουν την ομιλία εξόδου Προσεγγίσεις για την πρόβλεψη του συγχρονισμού ομιλίας Η μονάδα συγχρονισμού παράγει μία αντιστοίχηση ανάμεσα στον χώρο χαρακτηριστικών και σε μία αναπαράσταση του συγχρονισμού. Υπάρχουν τρεις μέθοδοι αντιστοίχησης, ο ακολουθιακός κανόνας, η πρόβλεψη γενικού σκοπού και τα μοντέλα διάρκειας. Η πρώτη μέθοδος αποτελείται από κανόνες διάρκειας που εφαρμόζονται διαδοχικά, ξεκινώντας από μία υπάρχουσα διάρκεια. Οι κανόνες έχουν το πλεονέκτημα της εύκολης κατανόησης αλλά περιπλέκουν το σύστημα. Στη δεύτερη μέθοδο μία μεγάλη βάση δεδομένων κωδικοποιείται σε διανύσματα χαρακτηριστικών και αυτά με τις αντίστοιχες διάρκειες υφίστανται επεξεργασία από στατιστικές μεθόδους γενικού σκοπού, όπως δέντρα CART. Η εφαρμογή της μεθόδου είναι εξολοκλήρου αυτόματη και οι προβλεπόμενες διάρκειες είναι πιο ακριβείς για τα δεδομένα δοκιμής (training data) της βάσης απ ότι στην πρώτη μέθοδο. Όμως, έχει το μειονέκτημα της αδυναμίας υπολογισμού της διάρκειας για τύπους δεδομένων που δεν περιέχονται στη βάση. Η τρίτη μέθοδος στηρίζεται στην υπόθεση ότι η διάρκεια τμημάτων παρουσιάζει κάποιες κανονικότητες και είναι δυνατό να καθοριστούν στατιστικές μέθοδοι που βασίζονται σε αυτές. Αν τα δεδομένα παρουσιάζουν ένα συγκεκριμένο μοτίβο από ανισοτικούς περιορισμούς, τότε είναι βέβαιο ότι το προσθετικό μοντέλο, δηλαδή αυτό 27

28 του «συνόλου προïόντων» ( sum-of-products model) θα ταιριάζει. Αυτό σημαίνει ότι όταν τα δεδομένα παρουσιάσουν τους τύπους μοτίβων που παρατηρούνται στις διάρκειες των τμημάτων, κάποια μοντέλα «συνόλου προïόντων» θα ταιριάζουν στα δεδομένα δοκιμής. Μόλις βρεθεί το μοντέλο «συνόλου προïόντων», η εκτίμηση παραμέτρων είναι απλή υπολογιστικά. Όμως, αυτή η μέθοδος απαιτεί περισσότερη επίβλεψη από τη δεύτερη. Η τρίτη μέθοδος χρησιμοποιείται στην αγγλική γλώσσα Βελτιστοποίηση του ελέγχου προσωδίας Είναι απαραίτητο να ελέγχεται η προσωδία για σύνθεση ομιλίας που ακούγεται σαν φυσική. Απαιτείται έλεγχος της διάρκειας τμημάτων ώστε να μοντελοποιηθούν τα προσωρινά χαρακτηριστικά. Πολλές ποσοτικές αναλύσεις έχουν διεξαχθεί για τον έλεγχο της προσωδίας. Είναι δυνατό να προσδιοριστούν πιο ακριβείς διάρκειες εφαρμόζοντας στατιστικά μοντέλα στην πρόβλεψη της διάρκειας τμημάτων Στοχαστική μοντελοποίηση του ελέγχου τμημάτων Η εξέλιξη στη μοντελοποίηση των χαρακτηριστικών των τμημάτων που έγινε για την αναγνώριση ομιλίας (π.χ. με χρήση του Hidden Markov Model, HMM) χρησιμοποιεί προσεγγίσεις που μπορούν να βρουν άμεση χρήση στη σύνθεση ομιλίας Έλεγχος θεμελιώδους συχνότητας Η θεμελιώδης συχνότητα (F0) είναι ένα χαρακτηριστικό της σύνθετης ομιλίας που παίζει σημαντικό ρόλο στη φυσική προσωδία. Είναι απαραίτητο να οριστεί μια ενδιάμεση προσωδιακή δομή. Η παραμετρική περιγραφή της προσωδιακής δομής εξαρτάται από μοντέλα, αλλά υπάρχουν διάφορα ιεραρχικά επίπεδα ελέγχου (για παράδειγμα, φώνημα, μικρή φράση, μεγαλύτερη φράση) σε κάθε μοντέλο. Το μοντέλο superpositional χρησιμοποιείται για να περιγράψει αυτό το ιεραρχικό χαρακτηριστικό. Έχουν χρησιμοποιηθεί στατιστικά μοντέλα για να συνδέσουν μοτίβα της F0, με είσοδο πληροφορίας της γλώσσας, χωρίς εκτίμηση της ενδιάμεσης προσωδιακής δομής. Έχουν χρησιμοποιηθεί τα ίδια μαθηματικά πλαίσια που χρησιμοποιήθηκαν και στον έλεγχο διάρκειας. 28

29 2.3.5 Προσωδία και εκλογή των μονάδων πηγής για σύνθεση «συνένωσης» token: τεκμήριο, στιγμιότυπο ενός τύπου (τμήμα κυματομορφής) Τα συστήματα της «συνένωσης» χρησιμοποίησαν μικρό αριθμό μονάδων πηγής και παρήγαγαν καταληπτή ομιλία χρησιμοποιώντας μικρό μέγεθος υπολογιστικής μνήμης και επεξεργασίας. Παρόλα αυτά, δεν κατάφεραν να παράγουν ομιλία που να ακούγεται σαν φυσική. Αυτό οφείλεται εν μέρει στο ότι οι μονάδες πηγής αποκόβονται από την εγγραφή της ομιλίας εργαστηρίου (lab speech), που είναι ουδέτερη όσων φορά την προσωδία. Επίσης, μόνο ένας περιορισμένος αριθμός τεκμηρίων ομιλίας χρησιμοποιούνται στην παραγωγή πολλών προτάσεων και μπορεί να προκύψει υποβάθμιση από τη συνολική επεξεργασία σήματος, η οποία απαιτείται για τη μεταβολή της προσωδίας. Η λύση που προτάθηκε απαιτεί μεγαλύτερο αριθμό τεκμηρίων για τις μονάδες πηγής δίνοντας πολλά τεκμήρια για κάθε τύπο μονάδας έτσι ώστε να χρησιμοποιηθεί το τεκμήριο που πλησιάζει περισσότερο στο φραστικό περιβάλλον του στόχου. Αναπτύχθηκαν εργαλεία για επεξεργασία των τμημάτων φυσικής ομιλίας και εξαγωγή μονάδων για τη σύνθεση «συνένωσης». Η εξαγωγή του συνόλου διαφόρων τεκμηρίων από μία δοσμένη πηγή ομιλίας απαιτεί τρία στάδια επεξεργασίας: i) τμηματική και προσωδιακή επισήμανση του τμήματος ομιλίας ii) ανάλυση συχνοτήτων και διανομή κάθε τύπου τμήματος iii) επιλογή ενός μειωμένου μεγέθους αλλά αντιπροσωπευτικού συνόλου τεκμηρίων πηγής που καλύπτει τις διαφορές σε κάθε τύπο. Θα αναλύσουμε το πρώτο στάδιο. Για να γίνει επεξεργασία μιας συλλογής ομιλίας χρειάζεται να συνοδεύεται από ένα αντίγραφο ορθογραφίας. Αυτό μπορεί να ευθυγραμμιστεί (aligned) τμηματικά ενεργοποιώντας την ακολουθία φωνημάτων που θα χρησιμοποιηθεί για τη σύνθεσή του και χρησιμοποιώντας τα μοντέλα Markov για τη διαίρεση σε τμήματα. Για την τμηματική επισήμανση χρειάζεται και η ανθρώπινη παρέμβαση. Η προσωδιακή επισήμανση είναι αυτόματη, με δοσμένη την ακολουθία των επιγραφών των φωνημάτων και την κυματομορφή ομιλίας. Για το κάθε τμήμα γίνονται μετρήσεις των προσωδιακών μεγεθών και οι επιγραφές είναι: διάρκεια, θεμελιώδης 29

30 συχνότητα, πλάτος περιβάλλουσας, φάσμα ενέργειας στη θεμελιώδη, λόγος αρμονίας, βαθμός φασματικής κλίσης. Οι τιμές αυτές κανονικοποιούνται κατά z για κάθε κλάση φωνήματος και οι πρώτες διαφορές των τιμών αυτών λαμβάνονται σε ένα παράθυρο τριών φωνημάτων στα αριστερά και στα δεξιά κάθε τμήματος Καθορίζοντας τις μονάδες στη Βάση Δεδομένων (ΒΔ) Ο σκοπός κατά την επεξεργασία μιας συλλογής ομιλίας για την παραγωγή μονάδων είναι η διατήρηση των τεκμηρίων που αντιστοιχούν σε σπάνιους τύπους και η αφαίρεση των διπλών τεκμηρίων από τους πιο συνηθισμένους τύπους. Είναι απαραίτητο να γίνει μια αποτελεσματική κατάτμηση της συλλογής ομιλίας έτσι ώστε να ελεγχθεί το μέγεθος της ΒΔ, όσο αυξάνει η ποικιλία των τεκμηρίων Τύποι και τεκμήρια τμημάτων Δεν είναι εύκολο να εκτιμηθούν ποσοτικά οι διαφορές του τρόπου φώνησης (phonation) στην ποιότητα φωνής απευθείας από την κυματομορφή ομιλίας, όμως οι διαφορές σχετίζονται με τα χαρακτηριστικά προσωδίας, όπως η prominence. Για την επιλογή ενός υποσυνόλου τεκμηρίων που κωδικοποιεί τις διαφορές του τρόπου φώνησης κάθε τύπου υιοθετείται μια λειτουργική προσέγγιση. Αιχμαλωτίζονται οι μεταβολές στη φώνηση από τις πιο χονδρικές και ανιχνεύσιμες διαφορές στην F0 και στη διάρκεια ώστε να κωδικοποιηθούν τα τμήματα ομιλίας Καθορίζοντας τις μονάδες Όταν παράγονται οι μονάδες πηγής, απαιτείται η αποθήκευση των πιο αντιπροσωπευτικών τεκμηρίων για κάθε τύπο. Πρώτα, καθορίζεται ένα σύνολο τύπων που περιγράφει τα χαρακτηριστικά κατανομής των φωνημάτων στη συλλογή ομιλίας Κατάτμηση της ΒΔ Για να εξασφαλιστεί καλύτερη κάλυψη του προσωδιακού χώρου (prosodic space) επιλέγονται τα n διαφορετικά τεκμήρια για να εκπροσωπήσουν κάθε τύπο μονάδας. Συλλέγονται όλα τα τεκμήρια κάθε τύπου και για κάθε τύπο, τα τεκμήρια που είναι πιο κοντά στο «κεντροειδές» κάθε συλλογής θεωρούνται τα πιο αντιπροσωπευτικά. Το n 30

31 καθορίζει το βάθος στο οποίο πρέπει να κατατμηθεί η ΒΔ Επιλογή μονάδων βάσει προσωδίας Κάθε μονάδα επισημαίνεται με ένα σύνολο χαρακτηριστικών, φωνητικών, προσωδιακών και ακουστικών. Αυτά είναι εξαρτώμενα από τη ΒΔ. Για την επιλογή μονάδων τα τμήματα-στόχοι καθορίζονται από ένα υποσύνολο αυτών των χαρακτηριστικών ώστε να καθοριστούν τα χαρακτηριστικά της πρότασης και η προσωδία της. Δεν χρησιμοποιούνται όλες οι ακουστικές μετρήσεις για την επιλογή Αυτόματη διαίρεση της ομιλίας σε τμήματα για σύνθεση συνένωσης Μία αυτόματη διαδικασία για την αντιγραφή της ομιλίας μπορεί να μειώσει τον χρόνο και την προσπάθεια. Μπορεί να εκμεταλλευτεί το γεγονός ότι οι διαδικασίες δοκιμών και πειραματισμού περιλαμβάνουν έναν μόνο ομιλητή. Επίσης, μία αυτόματη διαδικασία εξασφαλίζει συνέπεια στην τοποθέτηση των ορίων των φωνημάτων μέσα στους περιορισμούς που θέτουν οι γνώσεις της για το σήμα ομιλίας. Παρόλα αυτά, εξαιτίας της περιορισμένης ποσότητας ομιλίας που χρησιμοποιείται στη δοκιμή του αλγόριθμου η ακρίβεια της αντιγραφής είναι υποδεέστερη από αυτή ενός ανθρώπου Αλγόριθμος αυτόματης αντιγραφής Το σύστημα αντιγραφής που χρησιμοποιείται βασίζεται σε ένα μόνο εργοδικό Συνεχώς Μεταβαλλόμενης Διάρκειας Hidden Markov Model (Continuously Variable Duration Hidden Marcov Model, CVDHMM) στο οποίο κάθε κατάσταση είναι ένα διαφορετικό φώνημα. Κάθε κατάσταση του CVDHMM μοντελοποιείται ως ένα συμβατικό από-αριστερά-προς-δεξιά ΗΜΜ τριών καταστάσεων χρησιμοποιώντας μια ξεχωριστή συνεχή συνάρτηση πυκνότητας πιθανότητας (ΣΠΠ) για καθεμία από τις τρεις καταστάσεις. Κάθε ΣΠΠ αποτελείται από μία περιστροφή χώρου παραμέτρων (parameter space rotation) και ένα μείγμα σταθμισμένων (weighted) Γκαουσιανών ΣΠΠ. Αυτός ο τύπος ΗΜΜ επιτρέπει επίσης τη χρήση μοντέλων σαφούς διάρκειας. Χρησιμοποιούνται κατανομές Γάμμα δύο παραμέτρων για τη μοντελοποίηση των διαρκειών των φωνημάτων. Το σύστημα αντιγραφής λειτουργεί ως ένα σύστημα 31

32 αναγνώρισης φωνήματος περιορισμένο από ένα φωνοτακτικό μοντέλο Φωνοτακτικά μοντέλα Η δοκιμή του ακουστικού μοντέλου και ο αλγόριθμος χωρισμού της ομιλίας σε τμήματα απαιτούν ένα ξεχωριστό φωνοτακτικό μοντέλο για κάθε πρόταση. Το μοντέλο αυτό είναι σε μορφή δικτύου τελικής κατάστασης και μπορεί να δεχτεί ένα δίκτυο πιθανών φωνητικών πραγματοποιήσεων. Επίσης, επιτρέπει να προσδιοριστούν πιθανότητες σε διαφορετικές φωνητικές πραγματοποιήσεις όταν δεν υπάρχουν λεπτομερή αντίγραφα των δεδομένων ομιλίας. Με αυτόν τον τρόπο, ο αλγόριθμος χωρισμού σε τμήματα, λειτουργώντας σαν αναγνώριση ομιλίας, επιλέγει την πιο πιθανή φωνητική πραγματοποίηση και συγχρόνως πραγματοποιεί τον χωρισμό σε τμήματα Μοντέλα διάρκειας Κάθε ακουστικό φωνητικό μοντέλο έχει ένα μοντέλο διάρκειας. Το μοντέλο είναι μία κατανομή γάμα δύο παραμέτρων, που βασίζεται σε παραμέτρους που υπολογίζονται από τα δεδομένα δοκιμών, τη μέση διάρκεια παρακολούθησης και τη διακύμανση διάρκειας. Μια τρίτη παράμετρος χρησιμοποιείται για τον περιορισμό του αλγόριθμου αναζήτησης αναγνώρισης. Το 99ό ποσοστό επί τοις εκατό της κατανομής διάρκειας δίνει τη μεγαλύτερη υποτιθέμενη διάρκεια για το φώνημα Ακουστικά μοντέλα φωνημάτων Η καλύτερη εκτέλεση χωρισμού σε τμήματα επιτυγχάνεται με χρήση φωνητικών μοντέλων ανεξάρτητων του περιβάλλοντος. Τα μοντέλα έχουν πολλές διαφορετικές εκδόσεις που επιλέγονται με βάση το αριστερό ή δεξιό φωνηματικό περιβάλλον του φωνήματος που μοντελοποιείται. Οι ευθυγραμμίσεις (alignments) των μοντέλων οδηγούνται από ακουστικές επιρροές. Κάθε φωνητικό μοντέλο οπτικοποιείται ως ένα από-αριστερά-προς-δεξιά ΗΜΜ τριών καταστάσεων. Κάθε κατάσταση του μοντέλου αντιπροσωπεύεται από μία ΣΠΠ. Χρησιμοποιούνται μείγματα Γκαουσιανών. Οι παράμετροι ομιλίας συσχετίζονται και η αποσυσχέτιση βάσει κατανομής βελτιώνει σημαντικά την ακρίβεια των μοντέλων. Έτσι, κάθε κατανομή αποτελείται από έναν πίνακα αποσυχέτισης και ένα συμβατικό σταθμισμένο μείγμα Γκαουσιανών (weighted 32

33 Gaoussian mixture) Αλγόριθμος χωρισμού σε τμήματα Αυτή είναι μία τροποποιημένη έκδοση του αλγόριθμου Viterbi, που λειτουργεί για σαφή μοντέλα διάρκειας. Υπολογίζεται η πιθανότητα P j, που μία κατάσταση-φώνημα CVDHMM q j ανταποκρίνεται στις παρατηρήσεις κατά τον χρόνο φ από t-τ+1 ως t (t :τωρινή θέση στην πρόταση, τ: υποτιθέμενο μέγεθος του φωνήματος, ρ: δείκτης χρόνου στην εσωτερική αναδρομή). t τ + 1 ρ < t P τ ) (2.1) jρ+ 1( m, ) = Pjρ( l, τ) bjl ( Oρ+ 1 l Lm b jl ( O ) ρ+ 1 : πιθανότητα που η παρατήρηση Ο σε χρόνο ρ+1 παρήχθη από την l-ή κατανομή (κατάσταση φωνήματος ΗΜΜ) του j-οστού φωνητικού μοντέλου. Διαφορετικά, P jt ( M, τ) : πιθανότητα που τα διανύσματα παρατήρησης Ο t-τ+1,, Ο t παρήχθησαν από τις κατανομές 1,, Μ. Έπειτα καθορίζεται η συμβατική αναδρομή για ένα δεύτερης σειράς CVDHMM (εξίσωση (2.1)), όπου α t (j,k): η πιθανότητα του πιο αποτελεσματικού μονοπατιού από την αρχή της πρότασης ως προς τον χρόνο t, καταλήγοντας στο φώνημα j, υποθέτοντας ότι το φώνημα k είναι το δεξιό περιβάλλον που αρχίζει στον χρόνο t+1. P jt ( M, τ) : πιθανότητα παρατήρησης ενός φωνήματος j κατά την περίοδο από t-τ+1 ως t. 1 t Τ a t ( max τ j, k) = α t τ ( j) a jkd j ( τ ) Pjt ( M, ) (2.2) τ Μπορούμε να ανακτήσουμε την πιο πιθανή ακολουθία καταστάσεων αν θυμηθούμε ποια j και τα μεγιστοποιούν την ποσότητα στη σχέση (2.2) και ανιχνεύοντας προς τα πίσω όταν φτάνουμε το τέλος της αναδρομής. 33

34 2.3.8 Ευθυγράμμιση (alignment) Text-to-Speech με χρήση μοντέλων Marcov Η χρήση των μεθόδων που βασίζονται στα τμήματα της ομιλίας και στις οποίες η γνώση εξάγεται αυτόματα από τα μοτίβα που εντοπίζονται σε μεγάλες συλλογές δεδομένων ομιλίας αποτελεί τη βασική μεθοδολογία σήμερα. Η πρακτική εκδήλωση των αλλαγών που έχουν συμβεί παρουσιάζεται με τη μορφή νέων προϊόντων ομιλίας και βελτιωμένης επίδοσης των συστημάτων αναγνώρισης ομιλίας εργαστηρίου. Η τεχνολογία σύνθεσης έχει ωφεληθεί αυτών των αλλαγών. Για παράδειγμα, εντυπωσιακή πρόοδος έχει γίνει στα συστήματα TTS ως αποτέλεσμα εμπειρικής μελέτης των προϊόντων φυσικής ομιλίας. Για να χρησιμοποιηθούν οι μέθοδοι βασισμένες σε συλλογές ομιλίας είναι απαραίτητη η πρόσβαση σε μεγάλη ΒΔ στην οποία τα φαινόμενα που ενδιαφέρουν έχουν αντιγραφεί με ακρίβεια και συνέπεια. Συγκεκριμένα, οι προγραμματιστές των συστημάτων TTS δουλεύουν με υπομονάδες λέξεων, όπως φωνήματα. Η ανάπτυξη των μοντέλων μεταβολής της διάρκειας των τμημάτων ως συνάρτηση του περιβάλλοντός τους παίζει σημαντικό ρόλο στην κατασκευή συστημάτων TTS υψηλής ποιότητας. Ακόμη, οι συλλογές ομιλίας με ακριβείς, χρονικά ευθυγραμμισμένες (timealigned), φωνητικές αντιγραφές είναι απαραίτητες στην ανάπτυξη αυτών των μοντέλων. Η ανάπτυξη των συνθετών συνένωσης επίσης βασίζεται στη διαθεσιμότητα μεγάλων αντιγραμμένων συλλογών. Η φωνητική αντιγραφή της ομιλίας γινόταν με το χέρι και συνεπώς χρονικά ευθυγραμμισμένες φωνητικές αντιγραφές προέκυπταν αργά και με κόστος. Προκειμένου να μειωθεί ο χρόνος και το κόστος, απαιτούνταν κάποια αυτόματη διαδικασία. Ο αυτόματος αυτός μηχανισμός θα παρείχε: 1. Προσβασιμότητα στους περισσότερους σταθμούς εργασίας. 2. Ευκολία στη χρήση. 3. Καλή ακρίβεια ευθυγράμμισης και λειτουργία ανεξάρτητα από τον ομιλητή. Η λύση σε αυτές τις απαιτήσεις θα ήταν ένα ιδανικό σύστημα αναγνώρισης ομιλίας. Τα συστήματα αναγνώρισης που βασίζονται σε υπομονάδες λέξεων, όπως φωνήματα, πραγματοποιούν αναγνώριση της ακολουθίας φωνημάτων μιας πρότασης αλλά γενικά αναφέρουν μόνο τα αποτελέσματα σε επίπεδο λέξης. Ένας ανθρώπινος αντιγραφέας μπορεί να προσδιορίσει την ακολουθία λέξεων για την πρόταση. Με δεδομένη τη σωστή σειρά λέξεων, η ακολουθία φωνημάτων είναι σχεδόν καθορισμένη (εκτός από πιθανές διαφορές στην προφορά λέξεων). Αυτό σημαίνει ότι η μόνη σημαντική αβεβαιότητα είναι η ευθυγράμμιση της αντιγραφής με 34

35 την κυματομορφή ομιλίας. Έτσι, τα συστήματα αναγνώρισης μπορούν να χρησιμοποιηθούν για την ευθυγράμμιση της αντιγραφής με την πρόταση. Αυτή η διαδικασία λέγεται «ευθυγράμμιση» ( aligning ) της πρότασης και της αντιγραφής της. Ένα εργαλείο αυτόματης ευθυγράμμισης, ο «ευθυγραμμιστής» ( aligner ) καθορίζει την ακολουθία φωνημάτων και τα όρια αυτόματα από τη δοσμένη ακολουθία λέξεων και το σήμα ομιλίας ενώ δουλεύει σε σχεδόν πραγματικό χρόνο (real time) σε κοινούς σταθμούς εργασίας. Εικόνα 2.3:Διάγραμμα της μεθόδου χωρισμού ομιλίας σε τμήματα με χρήση των Hidden Markov Models Λειτουργία ευθυγραμμιστή Ο χρήστης χρειάζεται να προσδιορίσει τη σωστή ακολουθία λέξεων για την πρόταση ομιλίας. Το λογισμικό πρέπει να παρέχει μία εύκολη μέθοδο εισόδου της ακολουθίας λέξεων και μία εύλογη έκθεση αποτελεσμάτων ώστε να μπορέσουν αυτά να αναθεωρηθούν και ίσως να τροποποιηθούν. Ο «ευθυγραμμιστής» είναι αποτέλεσμα ενσωμάτωσης τεχνολογιών και βάσεων δεδομένων από πολλές πηγές κάτω από μία ομοιόμορφη Γραφική Διεπαφή Χρήστη (Graphical User Interface, GUI) Παράγοντας την ακολουθία φωνημάτων Η διαδραστική λειτουργία του ευθυγραμμιστή ξεκινάει με χρήση των «κυμάτων» και του λογισμικού για την παρουσίαση της κυματομορφής ομιλίας. Ο χρήστης μπορεί 35

36 τότε να οριοθετήσει ένα τμήμα της πρότασης, να το ακούσει και να πληκτρολογήσει την ακολουθία λέξεων για αυτό το τμήμα σε ένα παράθυρο εισόδου αντιγραφής. Έπειτα, ο ευθυγραμμιστής αυτόματα παράγει ένα δίκτυο προφοράς που περιέχει τις πιο κοινές ακολουθίες φωνημάτων για τη δοσμένη ακολουθία λέξεων. Η διαδραστική λειτουργία δουλεύει μόνο σε αυτό το τμήμα καθορισμένο από τον χρήστη παρά σε ολόκληρη την πρόταση. Το δίκτυο προφοράς παράγεται από την αναζήτηση κάθε λέξης σε λεξικό. Οι αλγόριθμοι πρόσβασης στο λεξικό επεκτείνουν το αποτελεσματικό μέγεθος του λεξικού, αντιμετωπίζοντας τους πληθυντικούς, τα κτητικά κλπ. Κατά την κατασκευή του δικτύου προφοράς περιλαμβάνονται μεταξύ των λέξεων προαιρετικά διαστήματα σιγής. Αν βρεθούν πολλαπλές προφορές για μία λέξη, θα περιληφθεί ένας προαιρετικός κλάδος για κάθε πρόσθετη προφορά. Τα διαστήματα σιγής και οι προφορές που αντιπροσωπεύουν καλύτερα το προϊόν ακολουθίας λέξεων του ομιλητή θα καθοριστούν αυτόματα ως μέρος της διαδικασίας αναγνώρισης. Αν ο ευθυγραμμιστής συναντήσει μία λέξη που δεν υπάρχει στο λεξικό, απαιτείται η είσοδος από τον χρήστη πρόσθετων δεδομένων. Όταν δε βρίσκεται μία λέξη, παρουσιάζεται στον χρήστη το αντίγραφο που εισήχθη, η λέξη που δε βρέθηκε και μία λίστα των πενήντα εισόδων του λεξικού στη θέση της λέξης. Σε αυτή την περίπτωση ο χρήστης μπορεί να διορθώσει το αντίγραφο ή να δημιουργήσει μία νέα είσοδο. Επίσης μπορεί να περιλάβει συγκεκριμένα φωνήματα στο αντίγραφο Ευθυγράμμιση της Αντιγραφής Αφού παραχθεί το δίκτυο προφοράς για ένα τμήμα της πρότασης, πραγματοποιείται μια αναζήτηση για να καθορίσει το καλύτερο μονοπάτι μέσα από το δίκτυο και την καλύτερη ευθυγράμμιση ανάμεσα στο μονοπάτι και την αρχική κυματομορφή ομιλίας. Ο αλγόριθμος Viterbi που χρησιμοποιείται για να κάνει αυτή την αναζήτηση απαιτεί τρεις εισόδους: το δίκτυο προφοράς, τα ακουστικά μοντέλα, που περιγράφουν στατιστικά τα ακουστικά γνωρίσματα κάθε φωνήματος και μία σειρά παρατηρήσεων, που στην περίπτωση του ευθυγραμμιστή είναι διανύσματα γνωρισμάτων που παράγονται από την κυματομορφή ομιλίας. Αντί να υποστεί επεξεργασία το ίδιο το σήμα ομιλίας, χρησιμοποιείται μια αναπαράσταση στην οποία αναπαρίστανται η πληροφορία για το περιεχόμενο συχνότητας και η ενέργεια. Αυτό πραγματοποιείται με τον χωρισμό του σήματος 36

37 ομιλίας σε μια ακολουθία υπερκαλυμμένων πλαισίων και την εξαγωγή ενός συνόλου γνωρισμάτων βασισμένα στο σήμα που περιέχει κάθε πλαίσιο. Έτσι, μία ακολουθία διανυσμάτων γνωρισμάτων παράγεται από το αρχικό σήμα. Στον ευθυγραμμιστή κάθε πλαίσιο περιέχει 25,6 msec σήματος και διαδοχικά πλαίσια αντισταθμίζονται με 10 msec. Τα γνωρίσματα κάθε πλαισίου παράγονται εφαρμόζοντας ένα παράθυρο Hamming. Τα ακουστικά μοντέλα είναι Hidden Markov Models τριών καταστάσεων που τοποθετούνται από- αριστερά-προς-δεξιά χωρίς παραλείψεις. Τα μοντέλα δοκιμάστηκαν ως μονοφωνήματα ανεξάρτητα του φραστικού περιβάλλοντος. Κάθε κατανομή κατάστασης αναπαρίσταται ως ένα μείγμα πέντε Γκαουσιανών. Τα μοντέλα για κάθε σύμβολο δοκιμάστηκαν. Ο αποκωδικοποιητής Viterbi βρίσκει την ακολουθία των καταστάσεων στο δίκτυο προφοράς που είναι πιθανότερο να έχει παράξει την ακολουθία των παρατηρούμενων διανυσμάτων γνωρισμάτων. Καθορίζεται η βέλτιστη ευθυγράμμιση μεταξύ των καταστάσεων και των διανυσμάτων. Έτσι, ο χρόνος λήξης για κάθε φώνημα μπορεί να βρεθεί αναζητώντας τον χρόνο που σχετίζεται με το τελευταίο διάνυσμα που εκχωρήθηκε στην τελευταία κατάσταση δικτύου για αυτό το φώνημα. Ο ευθυγραμμιστής χρειάζεται 201 sec για μία πρόταση 222 λέξεων διάρκειας 87 sec, που δειγματοληπτήθηκε στα 16 Hz. Το δοκιμαστικό ακουστικό μοντέλο και ο αποκωδικοποιητής Viterbi βασίζονται στο HTK HMM Toolkit από τους Young και Woodland. 2.4 Σύνθεση με Hidden Marcov Models Οι στατιστικές μέθοδοι του Markov παρουσιάστηκαν και μελετήθηκαν στα τέλη της δεκαετίας του 1960 και έγιναν ιδιαίτερα δημοφιλείς στη δεκαετία του 80. Αυτό συνέβη για δυο βασικούς λόγους. Πρώτον, τα μοντέλα αυτά είναι πολύ πλούσια σε μαθηματική δομή κι έτσι μπορούν να αποτελέσουν θεωρητική βάση σε ένα μεγάλο εύρος εφαρμογών και δεύτερον, όταν εφαρμόζονται σωστά προσφέρουν πολύ καλή λειτουργία σε πολλές εφαρμογές. Τα κρυμμένα μοντέλα Markov (Hidden Marcov Models) αποτελούν μια διπλή στοχαστική διαδικασία που περιλαμβάνει μια υποκειμενική στοχαστική διαδικασία η οποία δεν είναι παρατηρήσιμη (είναι κρυμμένη), αλλά μπορεί να παρατηρηθεί έμμεσα 37

38 από άλλες που παράγουν την ακολουθία των παρατηρούμενων συμβόλων. Η σύνθεση με Hidden Markov Models μπορεί να οριστεί ως οδηγούμενη από δεδομένα (data-driven). Αυτή μαζί με την τεχνική της «επιλογής μονάδων» ( unit selection ) ονομάζονται τρίτης γενιάς Κατανομή Gauss (ή κανονική κατανομή) Η Κατανομή Gauss έχει δύο παραμέτρους: i) μ :μέση τιμή ii) σ 2 : διακύμανση ή σ: τυπική απόκλιση. Κανονική κατανομή: N ( ο µ ) 1 2 2σ ( o; µ, σ) = e σ 2π 2 Εδώ, κάθε παρατήρηση ο j είναι ένα ακουστικό πλαίσιο ομιλίας, δηλαδή ένα διάνυσμα συνεχών τιμών. Εικόνα 2.4 : Κανονική κατανομή για διάφορες τιμές των μ και σ 2 38

39 Επειδή οι παρατηρήσεις είναι διανύσματα, χρειάζεται Γκαουσιανή πολλαπλών μεταβλητών που χρησιμοποιεί έναν πίνακα διακύμανσης Σ. Κατανομή Gauss Ν διαστάσεων: N( o; µ, Σ) = 1 (2π) Ν e Σ 1 ( ο µ )' Σ 1 ( ο µ ) 2 όπου μ διάνυσμα μέσων τιμών. Εδώ, έχουμε ένα μοντέλο για κάθε φώνημα, καθένα από τα οποία περιγράφεται από μία Γκαουσιανή. Για μία άγνωστη πρόταση, αν γνωρίζουμε τα όρια των φωνημάτων, δοκιμάζουμε το κάθε μοντέλο και βρίσκουμε ποιο από αυτά δίνει τη μέγιστη πιθανότητα για τα πλαίσια παρατηρήσεων. Έτσι εξάγουμε την ακολουθία των φωνημάτων που είναι πιθανότερο ότι οδήγησαν στις παρατηρήσεις για αυτή την πρόταση. Προκειμένου να βελτιωθεί η ακρίβεια των μοντέλων, χρησιμοποιείται ένα μείγμα Γκαουσιανών που δίνονται από: M b( o ) = c N( o ; µ, Σ t m= 1 c m : βάρος (weight) μείγματος, που χρησιμεύει στο να προσδιοριστεί η σχετική σημασία της κάθε Γκαουσιανής. Έχουμε Μ Γκαουσιανές, κάθε μία με διάνυσμα μέσης τιμής μ m και πίνακα διακύμανσης Σ m. m t m m ) Καταστάσεις και μεταβάσεις Είναι φυσιολογικό να διαχωριστεί κάθε μοντέλο φωνήματος σε έναν αριθμό καταστάσεων, καθεμία από τις οποίες αντιπροσωπεύει ένα διαφορετικό μέρος του φωνήματος. Συνηθίζεται να χρησιμοποιούνται τρεις καταστάσεις, καθεμία με τη δικιά της πιθανότητα παρατήρησης. Οι «πιθανότητες μετάβασης» δίνουν την πιθανότητα 39

40 της μετάβασης από τη μία κατάσταση στην επόμενη και για μία κατάσταση φωνήματος καθορίζουν τα χαρακτηριστικά διάρκειας του φωνήματος Χρησιμοποιώντας τα HMMs Κάθε κατάσταση ΗΜΜ χαρακτηρίζεται από μία συνάρτηση πυκνότητας πιθανότητας (ΣΠΠ), οπότε για κάθε παρατήρηση ο t βρίσκουμε την κατάσταση της οποίας η ΣΠΠ δίνει τη μέγιστη πιθανότητα για αυτήν. Βέβαια, δεν έχουμε μόνο μία παρατήρηση αλλά μία ακολουθία από αυτές. Έτσι, καθεμία από τις πιθανές ακολουθίες καταστάσεων μπορεί να τις έχει παράγει, κάποιες πιθανότερο από άλλες. Λόγω αυτού, δε γίνεται να βρεθεί ντετερμινιστικά η ακολουθία καταστάσεων από τις παρατηρήσεις, γι αυτό αποκαλούνται «κρυμμένα» (Hidden) Μοντέλα Marcov. Γενικά, για μία ακολουθία καταστάσεων Q=<q 1, q 2, q t >, η πιθανότητα του μοντέλου Μ είναι: Τ ( O, Q M ) = aq( 0) q(1) bq ( t) ( ot ) aq( t) q( t + 1) t 1 P (2.3), =Π όπου q(0) μία κατάσταση εισόδου, q(t+1) μία κατάσταση εξόδου. Στη (2.3) οι υπολογισμένες τιμές μπορεί να είναι μικρές, επομένως συνηθίζεται να χρησιμοποιούνται πιθανότητες «log»: (2.3) => log( P( O, Q M )) = aq( 0) q(1) + bq ( t) ( ot ) + aq( t) q( t + 1) (2.4) T t = 1 Για να χρησιμοποιηθούν αυτές οι εξισώσεις για αναγνώριση, χρειάζεται να συνδέσουμε τις ακολουθίες καταστάσεων με αυτό που επιθυμούμε να βρούμε, τις ακολουθίες λέξεων. Αυτό πραγματοποιείται με τη χρήση του λεξικού ( lexicon ), έτσι ώστε για κάθε λέξη να δημιουργηθεί ένα μοντέλο συνενώνοντας τα αυτόνομα ΗΜΜ για τα φωνήματα της λέξης. Αφού το μοντέλο φωνήματος δημιουργήθηκε από καταστάσεις, μία ακολουθία από μοντέλα συνενωμένων φωνημάτων παράγει ένα νέο μοντέλο λέξης με περισσότερες καταστάσεις. Στη συνέχεια, μπορούμε να ενώσουμε λέξεις μέσω συνένωσης, που δίνει ως αποτέλεσμα ένα μοντέλο πρότασης, το οποίο 40

41 δημιουργήθηκε και αυτό από μία ακολουθία καταστάσεων. Για μία δοσμένη ακολουθία παρατηρήσεων εισόδου Ο=<ο 1, ο 2,, ο Τ > και για μία ακολουθία λέξεων W=<w 1, w 2,, w N >, χρησιμοποιούμε την εξίσωση (2.4) για να βρούμε την πιθανότητα που αυτή η ακολουθία λέξεων παρήγαγε τις παρατηρήσεις. Ο στόχος του αναγνωριστή είναι να εξετάσει όλες τις πιθανές ακολουθίες λέξεων και να βρει τη μία, W, η οποία δίνει τη μέγιστη πιθανότητα W = arg max { w P( W O)} To ΗΜΜ για μία λέξη w i, η οποία έχει συνενωθεί από μοντέλα μονοφωνημάτων είναι της μορφής P(O w i ), που είναι η πιθανότητα παρατήρησης μιας ακολουθίας πλαισίων με δοσμένη μία λέξη. Όμως αυτό που απαιτείται είναι η πιθανότητα παρατήρησης της λέξης με δοσμένα τα πλαίσια: P( wi O) = Ο αλγόριθμος τότε μετατρέπεται σε: P( wi ) P( O wi ) P( O) W = arg max { w P( W ) P( O W )} Το κλειδί στην αναγνώριση είναι να βρεθεί το μοναδικό μονοπάτι με τη μέγιστη πιθανότητα. Για να βρεθεί αυτό το μονοπάτι, χρειάζεται να ελέγξουμε κάθε ακολουθία καταστάσεων. Χρησιμοποιούμε τον αλγόριθμο «Viterbi», ο οποίος βοηθάει στο να βρούμε το μονοπάτι σε γραμμικό χρόνο. (Viterbi, A. J., Error bounds for convolutional codes and an asymptotically optimum decoding algorithm ) Για τον καθορισμό των ορίων φωνημάτων μία προσέγγιση είναι αυτή με διπλό «πέρασμα» ( two-pass ), η οποία χρησιμοποιεί έναν αναγνωριστή γενικού σκοπού που ακολουθείται από ένα δεύτερο στάδιο ομαλού τονισμού. 41

42 2.5 Σύνθεση Επιλογής Μονάδων (Unit selection) Η σύνθεση «επιλογής μονάδων» ( unit selection ) αποτελεί την κύρια μέθοδο σύνθεσης σήμερα (σύνθεση τρίτης γενιάς) και θεωρείται επέκταση της συνένωσης. Η μέθοδος της επιλογής μονάδων χρησιμοποιεί μια μεγαλύτερη ποικιλία δεδομένων ομιλίας, με σκοπό να πετύχει πιο φυσική ποικιλομορφία εξαρτώμενη λιγότερο από την επεξεργασία σήματος. Η κεντρική ιδέα είναι ότι για κάθε βασικό γλωσσικό τύπο έχουμε έναν αριθμό μονάδων, οι οποίες ποικίλουν όσων αφορά την προσωδία και άλλα χαρακτηριστικά. Κατά τη διάρκεια της σύνθεσης ένας αλγόριθμος επιλέγει μία από τις πιθανές μονάδες σε μια προσπάθεια να βρει τη βέλτιστη συνολική ακολουθία μονάδων, η οποία ταιριάζει στην προδιαγραφή. Σε σύγκριση με τη σύνθεση της συνένωσης, η εφαρμογή με μία μόνο μονάδα για κάθε φώνημα ή δίφωνο περιόριζε την ποιότητα, οπότε η φυσική εξέλιξη ήταν η αποθήκευση περισσότερων της μιας μονάδων. Ο πιο λογικός τρόπος να γίνει αυτό είναι να ληφθούν υπόψη χαρακτηριστικά πέραν της συχνότητας και του συγχρονισμού, όπως τονισμός και χωρισμός σε φράσεις, και να θεωρηθεί μία μονάδα για καθένα από αυτά τα γνωρίσματα. Αντί να εγγράψουμε και να αναλύσουμε μία έκδοση κάθε φωνήματος ή διφώνου, εγγράφουμε και αναλύουμε μία έκδοση για κάθε συνδυασμό των παραπάνω γνωρισμάτων. Στην «επιλογή μονάδων» έχουμε μια Βάση Δεδομένων και κάνουμε την ανάλυση έτσι ώστε ολόκληρη η ΒΔ να χρησιμοποιηθεί όπως οι μονάδες στη σύνθεση. Τα συστήματα ποικίλουν όσων αφορά το βαθμό στον οποίο σχεδιάζεται το περιεχόμενο της ΒΔ. Η «επιλογή μονάδων» πραγματοποιείται με τη βοήθεια μιας ΒΔ μεγαλύτερης από αυτήν της συνένωσης. Χρησιμοποιώντας μια μεγάλη ΒΔ, συχνά βρίσκουμε ότι επιλέγονται μεγάλα συνεχόμενα τμήματα ομιλίας και αυτό αποτελεί έναν από τους βασικούς παράγοντες που ευθύνονται για την υψηλή ποιότητα των προτάσεων. Συχνά δεν πραγματοποιούνται τροποποιήσεις με επεξεργασία σήματος και αυτό αποκαλείται «καθαρή επιλογή μονάδων» (pure unit selection). Μια εναλλακτική οπτική της επιλογής μονάδων είναι ότι αποτελεί έναν αλγόριθμο ο οποίος «τεμαχίζει» την ομιλία και την αναδιατάσσει. Αυτό οδηγεί σε μια βασική αρχή, δηλαδή να πετύχουμε την προδιαγραφή με αναδιάταξη των αρχικών δεδομένων, με όσο το δυνατόν λιγότερα μέσα, έτσι ώστε να προσπαθήσουμε να διατηρήσουμε την ποιότητα της αρχικής ομιλίας. 42

43 2.5.1 Αλγόριθμος Στη σύνθεση «επιλογής μονάδων» οι μονάδες ομιλίας εξάγονται αλγοριθμικά από ένα σύνολο δεδομένων ομιλίας κάνοντας χρήση αντικειμενικών μετρήσεων. Το φωνητικό περιβάλλον των μονάδων και η θέση τους σε μια βάση δεδομένων καθορίζονται αυτόματα μέσα από διαδικασία επιλογής για κάθε συμβολοσειρά εισόδου. Πρώτα, χρησιμοποιείται ένα μεγάλο σύνολο προτάσεων που έχουν ηχογραφηθεί σε ιδανικές συνθήκες περιορισμένου θορύβου και οι οποίες επιλέγονται προσεκτικά έτσι ώστε να συμπεριλαμβάνονται όλα τα φωνήματα. Έπειτα, οι προτάσεις αυτές διαχωρίζονται σε τμήματα, που μπορεί να είναι φωνήματα, δίφωνα ή και συλλαβές, και δημιουργείται μια βάση δεδομένων. Τέλος, ακολουθεί η επιλογή των κατάλληλων τμημάτων κι η συνένωσή τους για τη σύνθεση μιας νέας πρότασης. Το γεγονός ότι χρησιμοποιούνται ηχογραφημένα τμήματα ανθρώπινης ομιλίας, που δεν έχουν υποστεί επεξεργασία σήματος, καθιστά το αποτέλεσμα ιδιαίτερα φυσικό. Η ποιότητα τμημάτων της ομιλίας εξόδου καθορίζεται από μετρήσεις επιλογής μονάδων, αλγόριθμους αναζήτησης επιλογής μονάδων και τη βάση δεδομένων ομιλίας Αλγόριθμος αναζήτησης επιλογής μονάδων Η επιλογή μιας ακολουθίας κατάλληλων τμημάτων ομιλίας από ένα υποψήφιο σύνολο θεωρείται ως ένα συνδυαστικό πρόβλημα αναζήτησης. Χρησιμοποιείται ο δυναμικός προγραμματισμός. Στην αναζήτηση επιλογής μονάδων οι αλλοιώσεις, που επηρεάζουν την ποιότητα, μειώνονται σταδιακά και αποτελεσματικά από μια διαδικασία τριών βημάτων. Βήμα 1: Ο χώρος αναζήτησης μειώνεται απορρίπτοντας όλα τα ασυνήθιστα τμήματα δειγμάτων φωνηέντων. Βήμα 2: Ένας βέλτιστος συνδυασμός κατάλληλων μη ομοιόμορφων μονάδων καθορίζεται για να μειώσει τον αριθμό υποψηφίων. Έπειτα, επιλέγονται τα πιθανά υποψήφια τμήματα για κάθε είσοδο μονάδας της ακολουθίας. 43

44 Βήμα 3: Η βέλτιστη ακολουθία τμημάτων επιλέγεται από το περιορισμένο σύνολο υποψηφίων Σχεδίαση ενός συνόλου μονάδων σύνθεσης Η σύνθεση επιλογής μονάδων θεωρείται ως μία μέθοδος σύνθεσης που χρησιμοποιεί μία μεγάλη βάση δεδομένων, αφού η προκύπτουσα ποιότητα ομιλίας μειώνεται σε αναλογία με τη μείωση του μεγέθους της βάσης. Η σχεδίαση μιας βάσης δεδομένων για επιλογή μονάδων είναι σημαντική για μια καλή ποιότητα ομιλίας σύνθεσης με μικρή ποσότητα δεδομένων. Αποτελεσματική σχεδίαση του συνόλου μονάδων μπορεί να σημαίνει τη μείωση της ποικιλίας που έχει το φωνητικό περιβάλλον ώστε να μειωθεί η αλλοίωση φάσματος λόγω της διαφοράς του περιβάλλοντος. Για αυτή τη μείωση, ξεκινάμε επιλέγοντας τη φωνητική ποικιλία ενός αρχικού συνόλου για να υπολογίσουμε τη φασματική αλλοίωση. Αφού τα γειτονικά φωνήματα αποτελούν σημαντικό παράγοντα που καθορίζει τα φασματικά χαρακτηριστικά των τμημάτων φωνημάτων, προτείνεται ένας αλγόριθμος που να βρίσκει ένα σύνολο, το οποίο μεγιστοποιεί τις διαφοροποιήσεις του περιβάλλοντος σε ένα σταθερού μεγέθους σύνολο, μόνο παίρνοντας ως δεδομένο τις γειτονικές φωνητικές διαφορές. Στον αλγόριθμο αυτό ένα σύνολο μη ομοιόμορφων μονάδων κατασκευάζεται χρησιμοποιώντας μέτρηση εντροπίας. Η ακολουθία μονάδων θεωρείται ως μια διαδικασία Markov και η εντροπία ενός συνόλου μονάδων S= s i (i=1,2,n) υπολογίζεται από: H ( S) = Ν i= 1 p N i j= 1 q ij log( q ij ) όπου, s i : μονάδα της ακολουθίας φωνημάτων (phoneme sequence unit) ως κατάσταση σε πηγή Markov p i : πιθανότητα ύπαρξης της s i q ij : πιθανότητα μετάβασης από s i σε s j. 44

45 ΝΑΙ Αλγόριθμος: (αρχικό σύνολο μονάδων) Υπολογισμός της H(s) Αναζήτηση για μονάδες ενός παραπάνω φωνήματος, ως υποψήφιες Υπολογισμός ΔΗ(S)= H(S)- H(S+{x}) για όλες τις υποψήφιες Καταχώρηση της μονάδας x που δίνει maxδη(s) σε όλες τις υποψήφιες ΟΧΙ Αρκετές μονάδες? ΝΑΙ (επιθυμητό σύνολο μονάδων) 45

46 Ο αλγόριθμος προεπιλέγει μόνο ένα αρχικό σύνολο σειρών φωνημάτων που συναντώνται συχνά στη γλώσσα. Γι αυτό μια καλύτερη επιλογή δεδομένων βασισμένη σε ακουστικά κριτήρια πρέπει να χρησιμοποιηθεί σε ακόλουθο βήμα Αλγόριθμος Hunt και Black Το 1996 ο A.Hunt και ο A. Black πρότειναν μια μέθοδο. Σε αυτή την εργασία διατύπωσαν ένα γενικό πλαίσιο για την «επιλογή μονάδων» και συγκεκριμένους αλγόριθμους για τον υπολογισμό των συνιστωσών του πλαισίου. Θεωρούμε τη χρήση διφώνων. Η προδιαγραφή αποτελείται από ένα σύνολο στοιχείων διφώνων S=<s 1, s 2,, s n > το καθένα από τα οποία περιγράφεται από μια δομή χαρακτηριστικών γνωρισμάτων. Η Βάση Δεδομένων είναι ένα σύνολο μονάδων διφώνων U={u 1, u 2,, u M } καθένα από τα οποία περιγράφεται κι αυτό από δομή χαρακτηριστικών γνωρισμάτων. Ο στόχος του αλγόριθμου «επιλογής μονάδων» είναι να βρεθεί η καλύτερη ακολουθία των μονάδων U από τη ΒΔ U που ικανοποιεί την προδιαγραφή S. Στο πλαίσιο Hunt και Black, η επιλογή μονάδων ορίζεται ως μια αναζήτηση ανάμεσα σε κάθε πιθανή ακολουθία μονάδων για να βρεθεί η καλύτερη. Με τον όρο «καλύτερη» εννοείται αυτή με το χαμηλότερο κόστος, που υπολογίζεται από δύο συνιστώσες: Κόστος στόχου (target cost) T(u t, s t ): είναι η απόσταση μεταξύ της προδιαγραφής s t και της μονάδας u t στη ΒΔ. Υπολογίζεται με συγκεκριμένες τιμές στη δομή γνωρισμάτων της κάθε μονάδας. Κόστος σύνδεσης (join cost) J(u t, s t ): είναι το μέγεθος που δείχνει πόσο καλά δύο μονάδες συνδέονται (οι χαμηλές τιμές δείχνουν καλή σύνδεση). Υπολογίζεται για ένα ζεύγος μονάδων της ΒΔ με συγκεκριμένες τιμές στη δομή γνωρισμάτων των μονάδων. Το συνολικό κόστος για μια πρόταση δίνεται: C( U, S) = N t= 1 T ( u, s ) + t t N 1 t= 1 J ( u, u t t + 1 ) 46

47 Ο σκοπός της αναζήτησης είναι να βρεθεί η μόνη ακολουθία μονάδων U η οποία ελαχιστοποιεί το κόστος: N N 1 U = arg min T ( ut, st ) + J ( ut, u t= 1 t = 1 u t+ 1 ) Η αναζήτηση μπορεί να εκτελεστεί ως ένας αλγόριθμος Viterbi. Μπορούν να γενικευτούν οι έννοιες του κόστους στόχου και του κόστους σύνδεσης σε συναρτήσεις στόχου και σύνδεσης αντίστοιχα. Η συνάρτηση στόχου δίνει ένα μέγεθος του πόσο καλά μια μονάδα της ΒΔ ταιριάζει στον στόχο της προδιαγραφής. Η συνάρτηση σύνδεσης περιλαμβάνει διάφορες μαθηματικές διατυπώσεις που περικλείουν την έννοια του πόσο καλά συνδέονται δύο μονάδες. Τέλος, η διατύπωση του αλγόριθμου ως αναζήτηση μέσα στο χώρο των μονάδων επιτρέπει να γίνει βέβαιο ότι βρέθηκε το βέλτιστο σύνολο μονάδων για τους ορισμούς των συναρτήσεων που δόθηκαν Χαρακτηριστικά i) Τύποι βάσης: Αποτελούν τους τύπους των μονάδων που χρησιμοποιούνται στον συνθέτη. Θεωρούμε Ν μοναδικά φωνήματα και Μ μοναδικές συλλαβές. πλαίσια (frames): πλαίσια ομιλίας συνδυασμένα με οποιαδήποτε σειρά. καταστάσεις: τμήματα φωνημάτων, που συχνά καθορίζονται από την ευθυγράμμιση των καταστάσεων ΗΜΜ. ημι- φωνήματα (half-phones): μονάδες με το μισό μέγεθος του φωνήματος. Υπάρχουν 2Ν διαφορετικοί τύποι ημι-φωνημάτων. δίφωνα (diphones): μονάδες που εκτείνονται από τη μέση του ενός φωνήματος ως τη μέση του επόμενου. φωνήματα (phonemes): Υπάρχουν Ν τύποι φωνημάτων. ημι-συλλαβές: συλλαβές αντίστοιχες με τα ημι-φωνήματα. Υπάρχουν 2Μ τύποι. δι-συλλαβές (di-syllables): μονάδες που εκτείνονται από το μέσο της μιας συλλαβής ως το μέσο της επόμενης. Υπάρχουν Μ² τύποι. Τέλος, υπάρχουν οι συλλαβές, οι λέξεις και οι φράσεις όπως ορίζονται συνήθως. 47

48 Στις ευρωπαϊκές γλώσσες χρησιμοποιούνται συνήθως τα φωνήματα, τα δίφωνα και τα ημι-φωνήματα. Εδώ, στην επεξήγηση θα χρησιμοποιούμε τα δίφωνα. ii) Γλωσσικά και ακουστικά χαρακτηριστικά: Κάθε μονάδα αναπαρίσταται με μία κυματομορφή, που προέρχεται από τις εγγραφές του ομιλητή, και αποτελεί τη βασική αναπαράσταση της μονάδας. Επιπλέον, μπορεί να υπάρχουν μία ή περισσότερες γλωσσικές αναπαραστάσεις, όπως για παράδειγμα ένα κείμενο που διαβάζει ο ομιλητής κατά τη διάρκεια της εγγραφής. Η κυματομορφή και οι γραπτές αναπαραστάσεις αποτελούν τα αρχικά χαρακτηριστικά. Από αυτά μπορούν να εξαχθούν τα παράγωγα χαρακτηριστικά. Συγκεκριμένα, από την κυματομορφή μπορούν να εξαχθούν οι ακουστικές αναπαραστάσεις χρησιμοποιώντας αλγόριθμους επεξεργασίας σημάτων, ενώ το κείμενο εισάγεται στο σύστημα TTS και μέσω της ανάλυσης κειμένου παράγονται οι γλωσσικές αναπαραστάσεις. Σε αντίθεση με τις μονάδες, τα στοιχεία προδιαγραφών (specification items) δεν έχουν ακουστική αναπαράσταση. Τα στοιχεία προδιαγραφών και οι μονάδες έχουν μια δομή χαρακτηριστικών στόχου (target feature structure) που χρησιμοποιείται στη συνάρτηση στόχου. Επιπλέον, οι μονάδες έχουν μία δομή χαρακτηριστικών σύνδεσης (join feature structure) ή σαφέστερα μια αριστερή δομή χαρακτηριστικών σύνδεσης και μια δεξιά δομή χαρακτηριστικών σύνδεσης, μία για κάθε πλευρά της μονάδας. iii) Επιλογή χαρακτηριστικών Στην επιλογή χαρακτηριστικών, υπάρχει η ελευθερία στην επιλογή οποιωνδήποτε χαρακτηριστικών που μπορούν να προέλθουν από τη δομή της πρότασης. Πρέπει να σκεφτούμε τη διαδικασία ως μία διαδικασία απόφασης για το ποια χαρακτηριστικά χρειαζόμαστε στην «επιλογή μονάδων», εύρεσης των χαρακτηριστικών που μπορούμε να εξάγουμε από το κείμενο εισόδου και κατάλληλης διατύπωσης του υπόλοιπου συστήματος ώστε να τα παρέχουμε. Γενικά, όσων αφορά τη συνάρτηση στόχου, όσο πιο πλούσια είναι τα χαρακτηριστικά που χρησιμοποιούμε, τόσο πιο ακριβείς γινόμαστε στις απαιτήσεις μας. Έτσι, για ένα απλό σύστημα μπορεί να έχουμε μόνο ένα χαρακτηριστικό για τον τόνο, ενώ για ένα πιο λεπτομερές σύστημα μπορούμε να έχουμε χαρακτηριστικά για τον τόνο, τον τονισμό φωνής, το συναίσθημα, τον τρόπο ομιλίας κ.λπ. Παρόλα αυτά, 48

49 αν έχουμε ένα μικρό σύνολο χαρακτηριστικών, θα μπορούμε συνήθως να πάρουμε τον ακριβή συνδυασμό χαρακτηριστικών που θέλουμε, ενώ με ένα μεγάλο λεπτομερές σύστημα χαρακτηριστικών σπάνια θα έχουμε ακριβείς αντιστοιχίες. Τότε, η συνάρτηση στόχου θα πρέπει να είναι «εξυπνότερη», δηλαδή να βρίσκει κοντινές αντιστοιχίες. iv) Τύποι χαρακτηριστικών: Ένα βασικό πρόβλημα στην «επιλογή μονάδων» είναι ότι τα στοιχεία προδιαγραφών υπολείπονται ακουστικής αναπαράστασης, κάτι που θα έκανε πιο εύκολη την αντιστοίχησή τους με τις μονάδες. Η προσέγγιση του προβλήματος γίνεται με δύο τρόπους: α) Αγνοούμε το γεγονός ότι οι μονάδες έχουν και ακουστικά χαρακτηριστικά και αντιστοιχίζουμε μόνο τα γλωσσικά χαρακτηριστικά. β) Προσπαθούμε να πραγματοποιήσουμε μια «μερική σύνθεση» (partial synthesis), όπου επιχειρούμε να παράγουμε ορισμένα ή όλα τα ακουστικά χαρακτηριστικά κι έπειτα να τα αντιστοιχίσουμε με αυτά που παράγονται με την επεξεργασία σήματος στις κυματομορφές. Η επιλογή της μιας ή της άλλης μεθόδου σημαίνει επιλογή μεταξύ της μείωσης διαστάσεων και της ακρίβειας Η συνάρτηση στόχου Η λειτουργία της συνάρτησης στόχου είναι η αξιολόγηση της καταλληλότητας μιας μονάδας. Αυτό διατυπώνεται σαν μία συνάρτηση η οποία για ένα δεδομένο στοιχείο προδιαγραφής και μία μονάδα δίνει το κόστος. Με τη γενική έννοια, η συνάρτηση επιστρέφει μία λίστα μονάδων της Βάσης, καθεμία με ένα υπολογισμένο κόστος. Στην πράξη, απορρίπτεται κάθε μονάδα που δεν ταιριάζει στον τύπο βάσης της προδιαγραφής. Το σύνολο των μονάδων που ταιριάζει στον τύπο βάσης λέγεται «σύνολο υποψηφίων». Το μέγεθος του συνόλου αυτού ποικίλει, μία μέση τιμή μεγέθους μπορεί να φτάνει τις 500 μονάδες. Μερικές φορές, ένα υποσύνολο αυτού του συνόλου μπορεί να χρησιμοποιείται στην αναζήτηση το οποίο λέγεται «σύνολο αναζήτησης υποψηφίων». Όταν εξετάζεται το «σύνολο υποψηφίων», μπορεί να βρεθούν οι μονάδες που αντιστοιχούν ακριβώς στην προδιαγραφή και που έχουν μηδενικό κόστος στόχου. Τις περισσότερες φορές, όμως, βρίσκονται ανεπαρκείς ή καθόλου μονάδες με ακριβή 49

50 αντιστοίχηση στην προδιαγραφή. Αυξάνοντας τον αριθμό των χαρακτηριστικών που επιθυμούμε να ληφθεί υπόψη, είναι φυσικό να οδηγούμαστε στην ανεπαρκή αντιστοίχηση, οπότε δεν παίρνουμε τις μονάδες που επιθυμούμε, αλλά καταλήγουμε να παίρνουμε υπόψη αυτές που δεν αντιστοιχούν στην προδιαγραφή. Τότε, χρειάζεται η συνάρτηση στόχου. Παρόλο που δύο μονάδες μπορεί να έχουν διαφορετικό συνδυασμό χαρακτηριστικών από την προδιαγραφή, έχουν την ίδια ακουστική αναπαράσταση. Έτσι, η συνάρτηση στόχου μπορεί να θεωρηθεί ως ένα μέτρο του πόσο όμοιες ακούγονται δύο μονάδες. Αν δύο μονάδες ακούγονται το ίδιο σε έναν ακροατή, τότε μπορεί να χρησιμοποιηθεί η μία αντί της άλλης. Παρόλα αυτά, συχνά δε θα έχουμε ούτε ακριβείς αντιστοιχίες ούτε μονάδες με διαφορετικά χαρακτηριστικά αλλά ίδια ακουστική. Τότε, αναγκαστικά θα χρησιμοποιήσουμε μονάδες που θα διαφέρουν ακουστικά από την προδιαγραφή, οπότε θα ψάχνουμε να βρούμε μονάδα που είναι διαφορετική αλλά «αποδεκτή». Έτσι, μια γενική εικόνα της συνάρτησης στόχου είναι ότι μετράει πόσο καλά μπορεί ένας συνδυασμός χαρακτηριστικών να αντικαταστήσει έναν άλλον Η συνάρτηση σύνδεσης Ο σκοπός της συνάρτησης σύνδεσης είναι να δώσει ένα μέτρο του πόσο καλά συνδέονται δύο μονάδες κατά τη συνένωσή τους. Η συνάρτηση δίνει ένα κόστος, μιλάμε δηλαδή για «κόστος σύνδεσης». Το να γνωρίζουμε αν δύο μονάδες συνδεθούν καλά ή όχι είναι αρκετά περίπλοκο. Παρόλα αυτά, συχνά πετυχαίνουμε μια «τέλεια» σύνδεση, που δε γίνεται αντιληπτή ακουστικά. Το θέμα της συνάρτησης σύνδεσης είναι πιο απλό από αυτό της συνάρτησης στόχου. Πρώτον, έχουμε πρόσβαση τόσο στα γλωσσικά όσο και στα ακουστικά χαρακτηριστικά. Δεύτερον, όλες οι μονάδες έχουν υπολογισμένα τα χαρακτηριστικά τους κατά τον ίδιο τρόπο, οπότε δε συγκρίνουμε παράγωγα ακουστικά μεγέθη με μεγέθη που προέκυψαν από επεξεργασία σήματος. Έτσι, η σύνδεση μονάδων πρακτικά είναι ευκολότερη. Η βασική ιδέα είναι να χρησιμοποιηθούν τα χαρακτηριστικά από δύο μονάδες στο να αποφασιστεί αν η σύνδεση που θα προκύψει θα είναι καλή ή όχι. Συχνά, χρησιμοποιούμε μία τεχνική με την οποία αντιστοιχίζουμε μηδενικό κόστος σύνδεσης σε δύο οποιεσδήποτε μονάδες που είναι γειτονικές στο αρχικό σύνολο δεδομένων. Εφόσον οι μονάδες αυτές συνδέονταν αρχικά, θα δίνουν μια τέλεια σύνδεση και το 50

51 αντίστοιχο κόστος θα είναι μηδενικό. Η ιδιότητα αυτή οδηγεί την αναζήτηση σε μονάδες που ήταν αρχικά συνενωμένες Αναζήτηση επιλογής μονάδων Η αναζήτηση επιλογής μονάδων αφορά τον τρόπο του πώς θα βρεθεί η καλύτερη ακολουθία μονάδων από το σύνολο των πιθανών μονάδων. Χρησιμοποιούμε τον αλγόριθμο Viterbi ο οποίος ολοκληρώνεται σε χρόνο Μ 2 Ν, όπου Μ, το πλήθος των μονάδων και Ν, το μήκος της ακολουθίας της προδιαγραφής. Όπως είδαμε στη ο αλγόριθμος Viterbi αναζητά το μονοπάτι μέγιστης πιθανότητας μέσα από ένα δίκτυο HMM. Η διαφορά με την επιλογή μονάδων είναι ότι εδώ προσπαθούμε να βρούμε το μονοπάτι χαμηλότερου κόστους, δηλαδή ουσιαστικά χρησιμοποιούμε τον αλγόριθμο Viterbi για να βρούμε την ακολουθία μονάδων χαμηλότερου κόστους. Τέλος, αναφέρουμε μερικά γνωστά συστήματα επιλογής μονάδων: Οικογένεια ATR και CHATR Laureate AT&T NextGen Cambridge University και IBM RealSpeak rvoice 51

52 Κεφάλαιο 3 Προγραμματιστικό μέρος 3.1 Εισαγωγή Εδώ θα παρουσιαστεί το προγραμματιστικό κομμάτι της εργασίας. Ο σκοπός της εφαρμογής είναι η σύνδεση με μια διεύθυνση στο Διαδίκτυο, η ανάγνωση του αρχείου τύπου text που περιέχεται σε αυτήν και η αυτόματη εκφώνηση των στοιχείων του. Η εφαρμογή βασίστηκε στην ανάγνωση του αρχείου βλαβών φωταγώγησης που δίνεται από τον server του «Συστήματος Ηλεκτροφωτισμού Εθνικού Οδικού Δικτύου της Περιφέρειας Κεντρικής Μακεδονίας». Η εφαρμογή διαβάζει τα στοιχεία του αρχείου και εκφωνεί αυτόματα τους κωδικούς βλαβών (σφαλμάτων) (automatic fault announcement) κάνοντας χρήση ηχογραφημένων αρχείων φωνής (όπως αναφέρθηκε και στη 2.1.3), τα οποία περιέχουν αριθμούς. Τα αρχεία φωνής που ηχογραφήθηκαν και χρησιμοποιήθηκαν είναι τύπου PCM (Pulse Code Modulation), που αποτελεί το πιο συνηθισμένο πρότυπο ήχου στους υπολογιστές. Ο ρυθμός δειγμάτων που επιλέχθηκε είναι 12 khz (12000 samples/sec). Πρακτικά μπορεί να χρησιμοποιηθεί ρυθμός 8 khz για εξοικονόμηση χώρου, όμως στην παρούσα εφαρμογή τα 12 khz προσφέρουν καλύτερη ποιότητα ήχου. Το μέγεθος των δειγμάτων είναι 16 bits/sample και η ηχογράφηση έγινε με δύο κανάλια (στερεοφωνικά). Το format των αρχείων είναι wav (Waveform Audio File Format) και αποθηκεύονται στον φάκελο workspace του προγράμματος. 3.2 Περιγραφή κώδικα Ο κώδικας του προγράμματος γράφτηκε σε γλώσσα Java, έχει ονομασία audioapp.java και η σύνταξή του έγινε με το πρόγραμμα Eclipse. Αρχικά, να αναφερθεί ότι χρησιμοποιήθηκαν τα πακέτα java.net, java.io και javax.sound.sampled. Το java.net παρέχει κλάσεις για εφαρμογές διαδικτύου (network applications), το java.io παρέχει κλάσεις για τη διαχείριση ρευμάτων δεδομένων (data streams) και 52

53 αρχείων δεδομένων (data files) και το javax.sound.sampled παρέχει διεπαφές και κλάσεις για την εγγραφή, επεξεργασία και αναπαραγωγή δεδομένων ήχου (audio data). Δημιουργείται, λοιπόν, το αντικείμενο PCMobject τύπου AudioFormat, με τα χαρακτηριστικά των ηχογραφημένων αρχείων: samples/sec (12 khz), 16 bits/sample, δύο κανάλια, προσήμανση και σειρά bytes little-endian. Δημιουργείται επίσης ο πίνακας audioout δεδομένων byte για την αποθήκευση αργότερα των δεδομένων ήχου. public class audioapp { AudioFormat PCMobject=new AudioFormat(12000,16,2,true,false); byte[] audioout=new byte[40000]; Η συνάρτηση playermethod Ακολούθως, δημιουργείται η συνάρτηση playermethod με τη βοήθεια της οποίας αναπαράγονται τα αρχεία φωνής. Η συνάρτηση παίρνει ένα όρισμα, το filenum. Αυτό αντιπροσωπεύει τον αριθμό του κάθε αρχείου φωνής ανάλογα με τον αριθμό που διαβάζεται. Έτσι, για παράδειγμα για τον αριθμό 0, ανοίγει το αρχείο file0.wav. Μέσα στη συνάρτηση ορίζουμε πρώτα το ρεύμα εισόδου (input stream) audioinput τύπου FileInputStream, το οποίο ανοίγει το αρχείο file_filenum_.wav" ανάλογα με την τιμή της παραμέτρου filenum και το συνδέει με το ρεύμα. Έπειτα, δημιουργούμε το ρεύμα αποθήκευσης audiobuf του περιεχομένου του αρχείου και το ρεύμα εισόδου audiodata των δεδομένων του audiobuf. Οι εντολές αυτές φαίνονται παρακάτω. public void playermethod(int filenum){ try{ FileInputStream audioinput=new FileInputStream("file"+fileNum+".wav"); BufferedInputStream audiobuf=new BufferedInputStream(audioInput); DataInputStream audiodata=new DataInputStream(audioBuf); 53

54 Στη συνέχεια, καθορίζεται η πηγή εξόδου του ήχου με τη μέθοδο AudioSystem.getSourceDataLine η οποία επιστρέφει το αντικείμενο output τύπου SourceDataLine. Η γραμμή εξόδου ήχου ανοίγει με τη μέθοδο open(), η οποία δέχεται ως ορίσματα το αντικείμενο τύπου AudioFormat, PCMobject και το μέγεθος της εσωτερικής μνήμης (audio buffer). try{ SourceDataLine output=audiosystem.getsourcedataline(pcmobject); output.open(pcmobject,8000); Κατόπιν, σε έναν βρόχο while που διαρκεί όσο και το ρεύμα εισόδου δεδομένων audiodata διαβάζονται τα δεδομένα του μέσω της εντολής readfully και αποθηκεύονται στον πίνακα audioout. Η έξοδος ήχου ξεκινάει με τη μέθοδο start() για το αντικείμενο output και ακολουθεί η αναπαραγωγή με τη μέθοδο write() η οποία εγγράφει τα δεδομένα του πίνακα audioout στην εσωτερική μνήμη της εξόδου ξεκινώντας από την αρχή της μνήμης. while(audiodata.available()>0){ audiodata.readfully(audioout); output.start(); output.write(audioout,0,40000); } Τέλος, η γραμμή εξόδου κλείνει με τη μέθοδο close() και με την ίδια μέθοδο κλείνει και το ρεύμα για το αντικείμενο audiodata. output.close(); audiodata.close(); Σύνδεση με τη σελίδα και ανάγνωση των στοιχείων αρχείου 54

55 Στο κύριο μέρος του προγράμματος, στο σώμα δηλαδή της συνάρτησης main, δημιουργείται αρχικά το αντικείμενο ob για την κλάση audioapp. audioapp ob=new audioapp(); Στη συνέχεια, δημιουργείται το αντικείμενο τύπου URL, errurl. Η κλάση URL αντιπροσωπεύει έναν Uniform Resource Locator (Ομοιόμορφο Εντοπιστή Πόρων), δηλαδή έναν δείκτη σε «πόρο» του Παγκόσμιου Ιστού (World Wide Web). Ο «πόρος» μπορεί να είναι ένα αρχείο ή ένα πιο περίπλοκο αντικείμενο. Το όρισμα που παίρνει το αντικείμενο της κλάσης είναι τύπου String και αποτελείται από τη διεύθυνση της σελίδας που επιθυμούμε. (Εδώ για τη 18 η μέρα του 10 ου μήνα). URL errurl=new URL(" M=10&D=18"); 55

56 Εικόνα 3.1: Παράδειγμα της σελίδας που περιέχει τους κωδικούς βλαβών για συγκεκριμένη μέρα και μήνα Έπειτα, δημιουργείται το αντικείμενο τύπου InputStreamReader, readinput, το οποίο διαβάζει το stream από bytes και το μετατρέπει σε stream χαρακτήρων. Ταυτόχρονα εκτελείται η εντολή openstream(), που δηλώνεται ως όρισμα στο αντικείμενο και με την οποία ανοίγει το stream του αντικειμένου errurl. Το αντικείμενο readinput παίρνει ως όρισμα κι ένα string που αποτελεί το charset, δηλαδή την κωδικοποίηση των χαρακτήρων. Εδώ το χρησιμοποιούμε για την ανάγνωση των 56

57 ελληνικών. InputStreamReader readinput=new InputStreamReader(errUrl.openStream(),"windows-1253"); Κατόπιν, φτιάχνουμε το αντικείμενο τύπου BufferedReader, inputbuf, το οποίο διαβάζει το κείμενο από το stream χαρακτήρων readinput και το αποθηκεύει. BufferedReader inputbuf=new BufferedReader(readInput); Στη συνέχεια, σε έναν βρόχο while, γίνεται ανάγνωση της κάθε σειράς του αρχείου που υπάρχει στο inputbuf, μέσω της εντολής readline() και αποθήκευσή της στο αντικείμενο τύπου string, charstring. try{ while(true){ charstring=inputbuf.readline(); Έπειτα, σε έναν βρόχο, ο οποίος χρησιμοποιεί ως μεταβλητή ελέγχου έναν μετρητή-δείκτη placeofchar για τους χαρακτήρες του charstring και επαναλαμβάνεται για το μήκος του charstring, γράφεται μια εντολή if η οποία έχει ως συνθήκη «αν ο χαρακτήρας στη θέση του μετρητή είναι ο ελληνικός χαρακτήρας Δ», χαρακτήρας που καθορίζει μέσα στο κείμενο ότι ακολουθεί κωδικός σφάλματος. for(placeofchar=0;placeofchar<charstring.length();placeofchar++){ if(charstring.charat(placeofchar)=='δ'){ Ακολούθως, ο δείκτης αυξάνεται κατά μία θέση ώστε να δείχνει στον πρώτο αριθμό του κωδικού. placeofchar+=1; Εκφώνηση των κωδικών Κατόπιν, ανοίγει πάλι ένας βρόχος for που επαναλαμβάνεται για όλους τους αριθμούς του κωδικού, συγκεκριμένα τέσσερις. Τότε, σε έναν πίνακα numarray που 57

58 έχει οριστεί με δεδομένα char, αποθηκεύονται από το charstring οι αριθμοί του κωδικού ως χαρακτήρες. for(int i=0;i<numarray.length;i++){ numarray[i]=charstring.charat(placeofchar); Στη συνέχεια, εκτελείται η εντολή switch με την οποία, ανάλογα με τον αριθμό που διαβάζεται από τον πίνακα numarray, καλείται για το αντικείμενο ob η συνάρτηση playermethod() με τιμή ορίσματος τον αντίστοιχο αριθμό. Έτσι, αναπαράγεται το αντίστοιχο αρχείο φωνής. switch(numarray[i]){ case '0':ob.playerMethod(0);break; case '1':ob.playerMethod(1);break; case '2':ob.playerMethod(2);break; case '3':ob.playerMethod(3);break; case '4':ob.playerMethod(4);break; case '5':ob.playerMethod(5);break; case '6':ob.playerMethod(6);break; case '7':ob.playerMethod(7);break; case '8':ob.playerMethod(8);break; case '9':ob.playerMethod(9);break; } Τέλος, μετά τον βρόχο while (και μετά το try) κλείνει το inputbuf. inputbuf.close(); 58

59 Κεφάλαιο 4 Παραδείγματα εφαρμογών- Συμπεράσματα 4.1 Παραδείγματα εφαρμογής Speech Synthesis και Text-to- Speech Synthesis Σε αυτή την παράγραφο θα αναφέρουμε ορισμένα παραδείγματα σημερινών εφαρμογών, τα οποία χρησιμοποιούνε σύνθεση ομιλίας (speech synthesis) ή συγκεκριμένα text-to-speech synthesis. α) «Διαλογικό σύστημα αναγνώρισης - σύνθεσης ομιλίας για πρόσβαση στο WEB» Στο πλαίσιο του Έργου ΕΣΤΙΑ αναπτύχθηκε ένα διαλογικό σύστημα επικοινωνίας με ομιλία, από το Ινστιτούτο Πληροφορικής. Σκοπός του είναι ο έλεγχος των τυπικών λειτουργιών ενός φυλλομετρητή (browser) για πρόσβαση στον Παγκόσμιο Ιστό (Word Wide Web - WWW). Το σύστημα αυτό εξυπηρετεί τόσο άτομα με απώλεια των άνω άκρων ή με δυσκολία χρήσης του πληκτρολογίου και του ποντικού, όσο και άτομα με μειωμένη ή καθόλου όραση. (Πηγή: β) «Σύστημα ηχητικής αναγγελίας των διερχόμενων λεωφορείων» Πρόκειται για ένα σύστημα που έχει ήδη ξεκινήσει να λειτουργεί πιλοτικά από τον ΟΑΣΘ για την αναγγελία των αστικών λεωφορείων σε διάφορες στάσεις της Θεσσαλονίκης. Το έργο έγινε σε συνεργασία με τον Πανελλήνιο Σύνδεσμο Τυφλών με στόχο να εξυπηρετούνται καλύτερα τα άτομα με προβλήματα όρασης. Το σύστημα ενημερώνει φωνητικά τα άτομα ποιο λεωφορείο πλησιάζει στη στάση και σε πόσα λεπτά της ώρας θα φθάσει. (Πηγή: γ) «On-line Text-to-Speech Demo (SitePal TTS Demo)» 59

60 Πρόκειται για ένα διαδικτυακό (on-line) σύστημα TTS στο οποίο εισάγει ο χρήστης μία λέξη και εκείνη αναπαράγεται από την ηχογραφημένη φωνή. Η εφαρμογή λειτουργεί για πολλές γλώσσες, πέρα από τα αγγλικά, όπως και για τα ελληνικά. Υπάρχει η δυνατότητα επιλογής ομιλητή και φύλου. Ακόμη, υπάρχει η δυνατότητα εισαγωγής κάποιου «εφέ», όπως η εφαρμογή ηχούς ή η αύξηση ταχύτητας. Εικόνα 4.1: Χρήση του «SitePal TTS Demo» με λέξη στα ελληνικά ( 60

61 Αυτή είναι μία από τις πολλές εφαρμογές TTS στο διαδίκτυο. Στις περισσότερες υπάρχει η λειτουργία για τις περισσότερο ομιλούμενες ευρωπαϊκές γλώσσες, όπως αγγλικά, γαλλικά, γερμανικά κλπ. δ) «Text-to-Voice» Πρόκειται για ένα πρόσθετο του Mozilla Firefox, το οποίο λειτουργεί ως ένα σύστημα text-to-speech. Αφού γίνει λήψη του πρόσθετου από το διαδίκτυο και η εγκατάστασή του στον υπολογιστή, μπορεί ο χρήστης, όταν επισκέπτεται μια ιστοσελίδα, να ακούσει πώς προφέρεται μία λέξη ή φράση. Απλά την επιλέγει και πατάει το εικονίδιο της εφαρμογής που βρίσκεται στο κάτω μέρος του browser. Τότε εμφανίζεται ένα εικονίδιο το οποίο την αναπαράγει. Υπάρχει η δυνατότητα μετατροπής της ηχητικής λέξης ή φράσης σε αρχείο με format mp3 και η λήψη του στον υπολογιστή. Εικόνα 4.2 : Χρήση «Text-to-Voice» σε κείμενο ιστοσελίδας ( 61

Θέµα 5 ο Σύνθεση Οµιλίας

Θέµα 5 ο Σύνθεση Οµιλίας Θέµα 5 ο Σύνθεση Οµιλίας Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή ενός κειµένου εισόδου (που αποτελείται από

Διαβάστε περισσότερα

Τεχνολογία σύνθεσης φωνής από κείμενο

Τεχνολογία σύνθεσης φωνής από κείμενο Τεχνολογία σύνθεσης φωνής από κείμενο Ηεξέλιξησεδιεθνέςεπίπεδο Πρώτο σύστημα ~1939 Ταχύτερη εξέλιξη δεκαετία 70 με την ανάπτυξη των υπολογιστών Πρώτα χρήσιμα συστήματα τέλη δεκαετίας 80 Ωρίμανση της τεχνολογίας

Διαβάστε περισσότερα

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Ενότητα 2: Βασικά χαρακτηριστικά της ομιλίας Γ ε ώ ρ γ ι ο ς Κ ο υ ρ ο υ π έ τ ρ ο γ λ ο υ koupe@di.uoa.gr

Διαβάστε περισσότερα

Κεφάλαιο 7 Σύνθεση Οµιλίας

Κεφάλαιο 7 Σύνθεση Οµιλίας Κεφάλαιο 7 Σύνθεση Οµιλίας σελ.235 Κεφάλαιο 7 Σύνθεση Οµιλίας 7.1 Εισαγωγή Γενικά µε τον όρο σύνθεση οµιλίας εννοούµε την αυτόµατη παραγωγή κυµατοµορφών οµιλίας. Ουσιαστικά αναφερόµαστε στην µετατροπή

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

Πολυπλεξία. http://diktya-epal-b.ggia.info Creative Commons License 3.0 Share-Alike

Πολυπλεξία. http://diktya-epal-b.ggia.info Creative Commons License 3.0 Share-Alike Πολυπλεξία Ανάλυση σημάτων στο πεδίο χρόνου, συχνότητας, πολυπλεξία διαίρεσης συχνότητας, πολυπλεξία διαίρεσης χρόνου (1.6 ενότητα σελ 19-20, 29-30 και στοιχεία από 2.1 ενότητα σελ. 52-58). http://diktya-epal-b.ggia.info

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση Μετάδοση πληροφορίας - Διαμόρφωση MYE006: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διάρθρωση μαθήματος Μετάδοση Βασικές έννοιες Διαμόρφωση ορισμός είδη

Διαβάστε περισσότερα

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής Συστήματα αναγνώρισης ομιλίας και χρήση τους Αναστάσιος Φραντζής ΓΤΠ 61 0/0/202 01/04/2012 Συσκευές αλληλεπίδρασης εισόδου 1. Εισαγωγής κειμένου 3. Αναγνώριση κειμένου, χειρογράφου, φωνής Πληκτρολόγιο

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μετάδοση πληροφορίας - Διαμόρφωση MYE006-ΠΛΕ065: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου Διάρθρωση μαθήματος Βασικές έννοιες μετάδοσης Διαμόρφωση ορισμός

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια πρώτη ιδέα για το μάθημα χωρίς καθόλου εξισώσεις!!! Περίγραμμα του μαθήματος χωρίς καθόλου εξισώσεις!!! Παραδείγματα από πραγματικές εφαρμογές ==

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος Εισαγωγή στην Επεξεργασία Σήματος Νόκας Γιώργος Βιβλιογραφία στον εύδοξο 1. Γ. Β. Μουστακίδης, Βασικές Τεχνικές Ψηφιακής Επεξεργασίας Σημάτων και Συστημάτων, εκδόσεις Α. Τζιόλα & Υιοί Ο.Ε., Θεσσαλονίκη,

Διαβάστε περισσότερα

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Σημειώσεις Δικτύων Αναλογικά και ψηφιακά σήματα Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Χαρακτηριστικά

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεράστιες ανάγκες σε αποθηκευτικό χώρο ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα: CD-ROM έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου, αλλά 30 sec ασυμπίεστου βίντεο. Μαγνητικοί δίσκοι χωρητικότητας

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Τηλεπικοινωνιακά Συστήματα ΙΙ

Τηλεπικοινωνιακά Συστήματα ΙΙ Τηλεπικοινωνιακά Συστήματα ΙΙ Διάλεξη 1: Χωρητικότητα Καναλιών Το θεώρημα Shannon - Hartley Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα 1. Δυαδική σηματοδοσία 2. Μορφές δυαδικής σηματοδοσίας 3.

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001

Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία. Αναστασία Λαµπρινού Δεκέµβριος 2001 Οι διαταραχές του λόγου και τις οµιλίας στην παιδική ηλικία Αναστασία Λαµπρινού Δεκέµβριος 2001 Γλώσσα- είναι µία ταξινοµική αρχή, ένας κώδικας επικοινωνίας, ένα κοινωνικό φαινόµενο έξω από το άτοµο. Οµιλία-

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες

Πότε πρέπει να αρχίζει η λογοθεραπεία στα παιδιά - λόγος και μαθησιακές δυσκολίες Η διάγνωση των διαταραχών λόγου πρέπει να γίνεται έγκαιρα, μόλις οι γονείς αντιληφθούν οτι κάτι ισως δεν πάει καλά και πρέπει να παρουσιάσουν το παιδί τους στον ειδικό. Ο ειδικός θα λάβει μέτρα για την

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Πίνακας περιεχομένων Τίτλος της έρευνας (title)... 2 Περιγραφή του προβλήματος (Statement of the problem)... 2 Περιγραφή του σκοπού της έρευνας (statement

Διαβάστε περισσότερα

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.83 Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας 3.1 Eισαγωγή Τα στάδια που προηγούνται της βασικής διαδικασίας αναγνώρισης, αναφέρονται σαν στάδια προεπεξεργασίας

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο

Διαβάστε περισσότερα

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό

[2] Υπολογιστικά συστήματα: Στρώματα. Τύποι δεδομένων. Μπιτ. επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό Υπολογιστικά συστήματα: Στρώματα 1 ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό δεδομένα Αναπαράσταση δεδομένων 2 Τύποι δεδομένων Τα δεδομένα

Διαβάστε περισσότερα

Στοιχεία επεξεργασίας σημάτων

Στοιχεία επεξεργασίας σημάτων Στοιχεία επεξεργασίας σημάτων ΕΜΠ - ΣΧΟΛΗ ΑΤΜ Ακ. Έτος 2004-2005 Β.Βεσκούκης, Δ.Παραδείσης, Δ.Αργιαλάς, Δ.Δεληκαράογλου, Β.Καραθανάση, Β.Μασσίνας Γενικά στοιχεία για το μάθημα Εισάγεται στα πλαίσια της

Διαβάστε περισσότερα

Κεφάλαιο 3 ο Ακολουθιακά Κυκλώματα με ολοκληρωμένα ΤΤL

Κεφάλαιο 3 ο Ακολουθιακά Κυκλώματα με ολοκληρωμένα ΤΤL Κεφάλαιο 3 ο Ακολουθιακά Κυκλώματα με ολοκληρωμένα ΤΤL 3.1 Εισαγωγή στα FLIP FLOP 3.1.1 Θεωρητικό Υπόβαθρο Τα σύγχρονα ακολουθιακά κυκλώματα με τα οποία θα ασχοληθούμε στο εργαστήριο των Ψηφιακών συστημάτων

Διαβάστε περισσότερα

Συστήματα Επικοινωνιών ΙI

Συστήματα Επικοινωνιών ΙI + Διδάσκων: Δρ. Κ. Δεμέστιχας e-mail: cdemestichas@uowm.gr Συστήματα Επικοινωνιών ΙI FSK, MSK Πυκνότητα φάσματος ισχύος βασικής ζώνης + Ιστοσελίδα nιστοσελίδα του μαθήματος: n https://eclass.uowm.gr/courses/icte302/

Διαβάστε περισσότερα

Ανάλυση ποσοτικών δεδομένων

Ανάλυση ποσοτικών δεδομένων Εισαγωγή στην κοινωνική έρευνα Earl Babbie Κεφάλαιο 13 Ανάλυση ποσοτικών δεδομένων 13-1 Σύνοψη κεφαλαίου Ποσοτικοποίηση δεδομένων Μονομεταβλητή ανάλυση Σύγκριση υποομάδων Διμεταβλητή ανάλυση Εισαγωγή στην

Διαβάστε περισσότερα

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας

Ψυχογλωσσολογία. Ενότητα 3 : Αντίληψη προφορικού λόγου. Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Ψυχογλωσσολογία Ενότητα 3 : Αντίληψη προφορικού λόγου Χριστίνα Μανουηλίδου, Επίκουρη Καθηγήτρια Τμήμα Φιλολογίας Σκοποί ενότητας Αντίληψη λόγου Προσωδία Θεωρίες για την αντίληψη του λόγου Ακουστική Κινητική

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

Φωνολογική Ανάπτυξη και Διαταραχές

Φωνολογική Ανάπτυξη και Διαταραχές 1 Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Φωνολογική Ανάπτυξη και Διαταραχές Ενότητα 1: Εισαγωγικές Επισημάνσεις Ζακοπούλου Βικτωρία 2 Ανοιχτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ηπείρου Τμήμα

Διαβάστε περισσότερα

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 5 : Θόρυβος Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Είδη θορύβου Περιγραφή θορύβου Θεώρημα Shannon Hartley Απόδοση ισχύος και εύρους

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Αναπαράσταση δεδομένων ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Αναπαράσταση δεδομένων Υπολογιστικά συστήματα: Στρώματα 1 επικοινωνία εφαρμογές λειτουργικό σύστημα προγράμματα υλικό δεδομένα Τύποι δεδομένων 2 Τα δεδομένα

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης Πιθανότητες & Τυχαία Σήματα Διγαλάκης Βασίλης Τυχαία Σήματα Γενίκευση τυχαίων διανυσμάτων Άπειρο σύνολο πιθανά αριθμήσιμο από τυχαίες μεταβλητές Παραδείγματα τυχαίων σημάτων: Τηλεπικοινωνίες: Σήμα πληροφορίας

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Κωδικοποίηση εντροπίας Διαφορική κωδικοποίηση Κωδικοποίηση μετασχηματισμών Στρωματοποιημένη κωδικοποίηση Κβαντοποίηση διανυσμάτων Τεχνολογία

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 7: Μετατροπή Σήματος από Αναλογική Μορφή σε Ψηφιακή Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετατροπή Αναλογικού Σήματος σε Ψηφιακό Είδη Δειγματοληψίας: Ιδανική

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ Ενότητα 1: Επικοινωνία, Λόγος, Ομιλία (2ο Μέρος) Οκαλίδου Αρετή Τμήμα Εκπαιδευτικής και Κοινωνικής Πολιτικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Αναπτυξιακά ορόσημα λόγου

Αναπτυξιακά ορόσημα λόγου Αναπτυξιακά ορόσημα λόγου 0-6 μηνών 7-12 μηνών 13-18 μηνών 19-24 μηνών 2-3 ετών 3-4 ετών 4-5 ετών 5-6 ετών 6-7 ετών 0-6 μηνών Επαναλαμβάνει τους ίδιους ήχους Συχνά μουρμουρίζει, γελά και παράγει ευχάριστους

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Διαδικασιακός Προγραμματισμός

Διαδικασιακός Προγραμματισμός Τμήμα ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ ΤΕΙ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ Διαδικασιακός Προγραμματισμός Διάλεξη 2 η Τύποι Δεδομένων Δήλωση Μεταβλητών Έξοδος Δεδομένων Οι διαλέξεις βασίζονται στο βιβλίο των Τσελίκη και Τσελίκα

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα : ΑΝΑΛΥΣΗ FOURIER (H ΣΕΙΡΑ FOURIER ΚΑΙ Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER) Aναστασία Βελώνη Τμήμα Η.Υ.Σ 1 Άδειες

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα 1, Μέρος 2ο: ΠΕΡΙ ΣΗΜΑΤΩΝ Aναστασία Βελώνη Τμήμα Η.Υ.Σ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2)

Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Γνωστική Ψυχολογία ΙΙ (ΨΧ 05) Γλώσσα (2) Αντίληψη της ομιλίας Απεικόνιση της πρότασης «θα σας διηγηθώ την ιστορία των δύο νέων» κυματομορφή Φασματόγραμμα Συνάρθρωση Οι φθόγγοι αλληλεπικαλύπτονται μέσα

Διαβάστε περισσότερα

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής

Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Διπλωματική Εργασία Βέλτιστη Επιλογή Κειμένου για Σύστημα Σύνθεσης Φωνής Από Διονύσιο Κ. Παπαϊωάννου (Α.Μ.

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Δρ. Στέλιος Τιμοθέου ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ ΜΑΣ ΣΗΜΕΡΑ Αναλογικά και ψηφιακά συστήματα Μετατροπή

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α)

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α) ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ - PCM (ΜΕΡΟΣ Α) 3.1. ΣΚΟΠΟΣ ΑΣΚΗΣΗΣ Σκοπός της εργαστηριακής αυτής άσκησης είναι η μελέτη της παλμοκωδικής διαμόρφωσης που χρησιμοποιείται στα σύγχρονα τηλεπικοινωνιακά

Διαβάστε περισσότερα

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας

Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της. Πληροφορίας Επιµορφωτικό Σεµινάριο Ξενοδοχείο Caravel, 10-11 Μαΐου 2003 Η Ποιότητα της Συνθετικής Οµιλίας στην Ακουστική Αναπαράσταση της Γεράσιµος Ξύδας Πληροφορίας BSc, MSc Πληροφορικής, υποψ. διδάκτωρ Εθνικό και

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΠΡΟΣΧΕΔΙΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ. Α τάξης Γυμνασίου

ΠΡΟΣΧΕΔΙΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ. Α τάξης Γυμνασίου ΠΡΟΣΧΕΔΙΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Α τάξης Γυμνασίου 1 Η ΜΟΡΦΗ ΤΟΥ ΑΝΑΛΥΤΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ Γενικοί Στόχοι Ειδικοί Στόχοι Α. ΣΤΟΧΟΙ Β. ΟΔΗΓΙΕΣ ΓΙΑ ΤΟΝ/ ΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΟ και Γ. ΜΕΘΟΔΟΛΟΓΙΑ Δ. ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ Ε.

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Τύπων. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος

Διαβάστε περισσότερα

Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η

Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η Αρχές Δικτύων Επικοινωνιών Σελ. 9-50 Γεώργιος Γιαννόπουλος ΠΕ19, ggiannop (at) sch.gr http://diktya-epal-b.ggia.info/ Creative Commons License 3.0 Share-Alike Σύνδεση από σημείο

Διαβάστε περισσότερα

Η πρώτη παράμετρος είναι ένα αλφαριθμητικό μορφοποίησης

Η πρώτη παράμετρος είναι ένα αλφαριθμητικό μορφοποίησης Η συνάρτηση printf() Η συνάρτηση printf() χρησιμοποιείται για την εμφάνιση δεδομένων στο αρχείο εξόδου stdout (standard output stream), το οποίο εξ ορισμού συνδέεται με την οθόνη Η συνάρτηση printf() δέχεται

Διαβάστε περισσότερα

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να:

Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Αξιολογήστε την ικανότητα του μαθητή στην κατανόηση των προφορικών κειμένων και συγκεκριμένα να: Ο ΑΝΘΡΩΠΟΣ ΚΑΙ Η ΤΑΥΤΟΤΗΤΑ ΤΟΥ ΠΟΛΥΤΡΟΠΙΚΑ ΚΕΙΜΕΝΑ ΜΑΘΗΣΙΑΚΟΙ ΣΤΟΧΟΙ Ανταποκρίνονται στην ακρόαση του προφορικού

Διαβάστε περισσότερα

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 Εισαγωγή Η βασική ιδέα στην ανάλυση των κυματομορφών με την βοήθεια της μεθόδου Fourier συνίσταται στο ότι μία κυματομορφή μιας οποιασδήποτε

Διαβάστε περισσότερα

Κεφάλαιο 3 Πολυπλεξία

Κεφάλαιο 3 Πολυπλεξία Κεφάλαιο 3 Πολυπλεξία Μάθημα 3.1: Μάθημα 3.2: Μάθημα 3.3: Πολυπλεξία επιμερισμού συχνότητας χρόνου Συγκριτική αξιολόγηση τεχνικών πολυπλεξίας Στατιστική πολυπλεξία Μετάδοση Δεδομένων Δίκτυα Υπολογιστών

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα ομιλίας Είδη /Κατηγορίες Σημάτων Στοιχειώδη

Διαβάστε περισσότερα

Συστήματα Επικοινωνιών

Συστήματα Επικοινωνιών Συστήματα Επικοινωνιών Ενότητα 11: Ψηφιακή Διαμόρφωση Μέρος Α Μιχαήλ Λογοθέτης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σκοποί ενότητας Περιγραφή διαμόρφωσης παλμών κατά

Διαβάστε περισσότερα

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο

Μοντέλο Επικοινωνίας Δεδομένων. Επικοινωνίες Δεδομένων Μάθημα 6 ο Μοντέλο Επικοινωνίας Δεδομένων Επικοινωνίες Δεδομένων Μάθημα 6 ο Εισαγωγή Με τη βοήθεια επικοινωνιακού σήματος, κάθε μορφή πληροφορίας (κείμενο, μορφή, εικόνα) είναι δυνατόν να μεταδοθεί σε απόσταση. Ανάλογα

Διαβάστε περισσότερα

3. Προσομοίωση ενός Συστήματος Αναμονής.

3. Προσομοίωση ενός Συστήματος Αναμονής. 3. Προσομοίωση ενός Συστήματος Αναμονής. 3.1. Διατύπωση του Προβλήματος. Τα συστήματα αναμονής (queueing systems), βρίσκονται πίσω από τα περισσότερα μοντέλα μελέτης της απόδοσης υπολογιστικών συστημάτων,

Διαβάστε περισσότερα

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης

Κεφάλαιο 7. ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης ΕΠΑΛ Σύμης Εφαρμογές πληροφορικής Ερωτήσεις επανάληψης Κεφάλαιο 7 1. Σε τι διαφέρει ο Η/Υ από τις υπόλοιπες ηλεκτρικές και ηλεκτρονικές συσκευές; Που οφείλεται η δυνατότητά του να κάνει τόσο διαφορετικές

Διαβάστε περισσότερα

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM). Μνήμες Ένα από τα βασικά πλεονεκτήματα των ψηφιακών συστημάτων σε σχέση με τα αναλογικά, είναι η ευκολία αποθήκευσης μεγάλων ποσοτήτων πληροφοριών, είτε προσωρινά είτε μόνιμα Οι πληροφορίες αποθηκεύονται

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ Ι Μπατιστάτος Μιχάλης Εργαστήριο ο : Διαμόρφωση ΑΜ Βασική Θεωρία Εισαγωγή

Διαβάστε περισσότερα

Μορφές των χωρικών δεδομένων

Μορφές των χωρικών δεδομένων Μορφές των χωρικών δεδομένων Eάν θελήσουμε να αναπαραστήσουμε το περιβάλλον με ακρίβεια, τότε θα χρειαζόταν μιά απείρως μεγάλη και πρακτικά μη πραγματοποιήσιμη βάση δεδομένων. Αυτό οδηγεί στην επιλογή

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα ομιλίας Είδη /Κατηγορίες Σημάτων Στοιχειώδη Σήματα Χαρακτηριστικές Τιμές Σημάτων Τεχνικές

Διαβάστε περισσότερα

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 9 : Κανάλι-Σύστημα Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Χωρητικότητα Χ ό καναλιού Το Gaussian κανάλι επικοινωνίας Τα διακριτά

Διαβάστε περισσότερα

3-Φεβ-2009 ΗΜΥ 429. 4. Σήματα

3-Φεβ-2009 ΗΜΥ 429. 4. Σήματα 3-Φεβ-2009 ΗΜΥ 429 4. Σήματα 1 Σήματα Σήματα είναι: σχήματα αλλαγών που αντιπροσωπεύουν ή κωδικοποιούν πληροφορίες σύνολο πληροφορίας ή δεδομένων σχήματα αλλαγών στο χρόνο, π.χ. ήχος, ηλεκτρικό σήμα εγκεφάλου

Διαβάστε περισσότερα

Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ζ διακριτές σήματα και συστήματα διακριτού χρόνου χρονοσειρές (time series)

Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ζ διακριτές σήματα και συστήματα διακριτού χρόνου χρονοσειρές (time series) Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ζ Είναι σύνηθες να μελετάμε διάφορα φαινόμενα σε διακριτές (και όχι συνεχείς) τιμές της μεταβλητής του χρόνου, οπότε, μιλάμε για για σήματα και συστήματα διακριτού χρόνου. Τα σήματα διακριτού

Διαβάστε περισσότερα

Συστήματα Επικοινωνιών ΙI

Συστήματα Επικοινωνιών ΙI + Διδάσκων: Δρ. Κ. Δεμέστιχας e-mail: cdemestichas@uowm.gr Συστήματα Επικοινωνιών ΙI Ψηφιακή μετάδοση στη βασική ζώνη + Ιστοσελίδα nιστοσελίδα του μαθήματος: n https://eclass.uowm.gr/courses/icte302/ +

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. 1 Εισαγωγή Αναλογικό σήμα (analog signal): συνεχής συνάρτηση στην οποία η ανεξάρτητη μεταβλητή και η εξαρτημένη μεταβλητή (π.χ.

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης Δομές Δεδομένων και Αλγόριθμοι Λουκάς Γεωργιάδης loukas@cs.uoi.gr www.cs.uoi.gr/~loukas Στόχοι Μαθήματος Η σχεδίαση και ανάλυση αλγορίθμων και δομών δεδομένων αποτελεί σημαντικό τμήμα της πληροφορικής.

Διαβάστε περισσότερα

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ Μαρία Θ. Παπαδοπούλου, PhD Σχολική Σύμβουλος 6ης Περιφέρειας Π.Ε. ν. Λάρισας Ελασσόνα, 19 Νοεμβρίου 2012 Επιμέρους τομείς στο γλωσσικό μάθημα 1. Προφορικός Λόγος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΕ «ΣΥΣΤΗΜΑΤΑ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΕΙΚΟΝΩΝ: ΘΕΩΡΙΑ, ΥΛΟΠΟΙΗΣΕΙΣ, ΕΦΑΡΜΟΓΕΣ» «ΥΛΟΠΟΙΗΣΗ ΒΑΘΜΙΔΑΣ Ψ.Ε.Σ. (ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΟΣ)

Διαβάστε περισσότερα

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Τμήμα Μηχανικών Η/Υ και Πληροφορικής Τμήμα Μηχανικών Η/Υ και Πληροφορικής Εργαστήριο Επεξεργασίας Σημάτων και Τηλεπικοινωνιών Κινητά Δίκτυα Επικοινωνιών Μέρος Α: Τηλεπικοινωνιακά Θέματα: Τεχνικές Κωδικοποίησης Πηγής Η Περίπτωση της Φωνής

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 5 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων Βασίλης Κόμης, Επίκουρος Καθηγητής Ερευνητική Ομάδα «ΤΠΕ στην Εκπαίδευση» Τμήμα Επιστημών της Εκπαίδευσης και της

Διαβάστε περισσότερα

Απόδοση θεματικών δεδομένων

Απόδοση θεματικών δεδομένων Απόδοση θεματικών δεδομένων Ποιοτικές διαφοροποιήσεις Σημειακά Γραμμικά Επιφανειακά Ποσοτικές διαφοροποιήσεις Ειδικές θεματικές απεικονίσεις Δασυμετρική Ισαριθμική Πλάγιες όψεις Χαρτόγραμμα Χάρτης κουκίδων

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

Παναγιώτης Μαθιόπουλος Ph.D.

Παναγιώτης Μαθιόπουλος Ph.D. ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Παναγιώτης Μαθιόπουλος Ph.D. Καθηγητής Ψηφιακών Επικοινωνιών Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΚΠΑ Professor (1989 2003) Department of Electrical and Computer Engineering The

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

METROPOLIS. Ένα περιβάλλον σχεδιασμού για ετερογενή συστήματα

METROPOLIS. Ένα περιβάλλον σχεδιασμού για ετερογενή συστήματα METROPOLIS Ένα περιβάλλον σχεδιασμού για ετερογενή συστήματα Ενσωματωμένα συστήματα Ορίζονται ως ηλεκτρονικά συστήματα τα οποία χρησιμοποιούν υπολογιστές και ηλεκτρονικά υποσυστήματα για να εκτελέσουν

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 1: Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Εισαγωγή στα Σήματα 1. Σκοποί της Θεωρίας Σημάτων 2. Κατηγορίες Σημάτων 3. Χαρακτηριστικές Παράμετροι

Διαβάστε περισσότερα

Ενότητα 4: Δειγματοληψία - Αναδίπλωση

Ενότητα 4: Δειγματοληψία - Αναδίπλωση Ενότητα 4: Δειγματοληψία - Αναδίπλωση Σήματα και Συστήματα Τα συστήματα επεξεργάζονται ένα ή περισσότερα σήματα: Το παραπάνω σύστημα μετατρέπει το σήμα x(t) σε y(t). π.χ. Σε ένα σήμα ήχου μπορεί να ενισχύσει

Διαβάστε περισσότερα