ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΕΡΓΑΛΕΙΩΝ ΚΑΙ ΔΙΕΡΕΥΝΗΣΗ ΤΕΧΝΙΚΩΝ ΕΚΤΙΜΗΣΗΣ ΤΩΝ ΣΥΝΤΟΝΙΣΜΩΝ ΤΟΥ ΣΤΟΜΑΤΟΦΑΡΥΓΓΙΚΟΥ ΦΙΛΤΡΟΥ ΣΤΗΝ ΤΡΑΓΟΥΔΙΣΤΗ ΦΩΝΗ ΕΠΙΒΛΕΠΩΝ : ΚΩΝΣΤΑΝΤΙΝΟΣ ΠΑΣΤΙΑΔΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2009

2 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ 2 ΠΕΡΙΛΗΨΗ 4 ABSTRACT 5 ΚΕΦΑΛΑΙΟ 1 6 ΕΙΣΑΓΩΓΗ 6 ΚΕΦΑΛΑΙΟ 2 11 ΦΥΣΙΟΛΟΓΙΑ ΑΝΘΡΩΠΙΝΗΣ ΦΩΝΗΣ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ ΟΡΓΑΝΑ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ ΔΙΑΔΙΚΑΣΙΑ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ ΔΟΜΗ ΤΟΥ ΛΟΓΟΥ ΓΡΑΜΜΙΚΟ ΔΙΑΧΩΡΙΣΙΜΟ ΜΟΝΤΕΛΟ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ 14 ΚΕΦΑΛΑΙΟ 3 24 ΜΕΘΟΔΟΙ ΥΠΟΛΟΓΙΣΜΟΥ ΤΩΝ ΣΥΝΤΟΝΙΣΜΩΝ ΜΕΘΟΔΟΣ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ (LINEAR PREDICTIVE CODING) ΜΕΘΟΔΟΣ CEPSTRUM ΣΥΖΗΤΗΣΗ-ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ 34 ΚΕΦΑΛΑΙΟ 4 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΜΟΝΤΕΛΟ ΓΛΩΤΤΙΔΙΚΩΝ ΠΑΛΜΩΝ ΧΡΟΝΙΚΕΣ ΜΕΤΑΒΟΛΕΣ ΠΑΡΑΜΕΤΡΩΝ ΚΑΙ ΘΟΡΥΒΟΣ ΕΛΕΓΧΟΣ ΤΩΝ FORMANTS ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ- ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΕΡΓΑΛΕΙΟΥ 48 ΚΕΦΑΛΑΙΟ 5 49 ΤΡΟΠΟΠΟΙΗΜΕΝΗ ΜΕΘΟΔΟΣ CEPSTRUM 49 ΚΕΦΑΛΑΙΟ 6 54 ΠΡΟΣΟΜΟΙΩΣΕΙΣ - ΑΠΟΤΕΛΕΣΜΑΤΑ 54 ΚΕΦΑΛΑΙΟ 7 79 ΣΥΜΠΕΡΑΣΜΑΤΑ - ΠΡΟΟΠΤΙΚΕΣ 79

3 ΠΑΡΑΡΤΗΜΑ Α 84 Εγχειρίδιο Χρήσης Εφαρμογής Παραγωγής Φωνής 84 Α.1 Γενικά 84 Α.2 Εγκατάσταση 85 Α.3 Τα μέρη της διεπαφής χρήστη 85 Α.4 Γραμμή Μενού Labview 86 Α.5 Στοιχεία Ελέγχου Εφαρμογής 87 Α.6 Οθόνη Απεικόνισης Σημάτων 90 Α.7 Χώρος Ελέγχου Παραμέτρων 91 ΒΙΒΛΙΟΓΡΑΦΙΑ 102

4 ΠΕΡΙΛΗΨΗ Σκοπός της παρούσας εργασίας είναι η μελέτη του προβλήματος υπολογισμού μιας ακριβούς αναπαράστασης της μορφής των συντονισμών της στοματοφαρυγγικής κοιλότητας σε σήματα φωνής, τα οποία έχουν υψηλή θεμελιώδη συχνότητα, εστιάζοντας στις μεθόδους που χρησιμοποιούνται για το σκοπό αυτό και την αξιολόγηση τους. Τέτοιες φωνές, όπως για παράδειγμα οι τραγουδιστές, παρουσιάζουν ιδιαιτερότητες οι οποίες καθιστούν τον υπολογισμό δυσκολότερο σε σχέση με τη φωνή ομιλίας. Κατά τη διάρκεια της εκπόνησης της εργασίας αναπτύχθηκε μία εφαρμογή παραγωγής τεχνητών σημάτων φωνής, βασισμένη στο γραμμικό διαχωρίσιμο μοντέλο, με εκτενέστατη παραμετροποίηση ώστε να μπορούν να προσομοιωθούν από αυτή κατά το δυνατόν περισσότερα φαινόμενα που συμβαίνουν στην πράξη κατά την παραγωγή έμφωνων ήχων. Τρεις μέθοδοι υπολογισμού των συντονισμών του στοματοφάρυγγα, η LPC Covariance, η cepstrum και μία νέα παραλλαγή της cepstrum αξιολογήθηκαν μέσω προσομοιώσεων ως προς την απόδοσή τους σε σήματα φωνής υψηλής θεμελιώδους συχνότητας. Τα σήματα αυτά παράχθηκαν από την εφαρμογή η οποία αναπτύχθηκε. Τα αποτελέσματα παρατίθενται και βάση αυτών γίνεται η αξιολόγηση. Λέξεις κλειδιά: γραμμική πρόβλεψη, γραμμικό διαχωρίσιμο μοντέλο, συντονισμοί στοματοφάρυγγα, φωνές υψηλής θεμελιώδους συχνότητας.

5 ABSTRACT The purpose of this work is to study the problem of an accurate estimation of the formant frequencies that correlate with the vocal tract, from high-pitched speech signals. The study focuses on the methods used for this purpose and their evaluation. High-pitched voices, such as singing voices, present particularities that make this estimation more difficult compared to common speech voices. During this study software was developed for the production of artificial voice signals. The parameterization of this software is as extensive as possible in order to exceed its ability to simulate a plead of natural voiced sounds effects. Three formant estimation methods, i.e. LPC Covariance, cepstrum and a new modified cepstrum version, are evaluated through simulations for their effectiveness when high-pitched voices are used. These voice signals are produced by the voiced sounds production software that has been developed. The results are presented and discussed. Key words: cepstrum, formant estimation, high pitched voices, linear separable model, LPC Covariance..

6 ΚΕΦΑΛΑΙΟ 1 6 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Ο υπολογισμός των συντονισμών του στοματοφάρυγγα (αναφέρονται και ως formants) είναι δημοφιλές πρόβλημα στο χώρο της επεξεργασίας φωνής. Ο όρος formant αρχικά ορίστηκε από τον Fant: Οι φασματικές αιχμές του ακουστικού φάσματος P(f) ονομάζονται formants [1]. Παρόμοιος είναι και ο ορισμός του Benade: Τα μέγιστα που προκύπτουν στον φασματικό φάκελο ονομάζονται formants [2]. Ο ίδιος ο Fant στη συνέχεια ορίζει τις συχνότητες συντονισμού της στοματοφαρυγγικής κοιλότητας (resonances), αν θεωρήσουμε ότι αυτή, ως σύστημα, έχει μια συνάρτηση μεταφοράς. Σε πολλές περιπτώσεις καθημερινής ομιλίας τα μέγιστα του φάσματος της παραγόμενης φωνής συμπίπτουν με τις συχνότητες συντονισμού του στοματοφάρυγγα και οι δύο έννοιες χρησιμοποιούνται συχνά ως ταυτόσημες [1]. Υπάρχει, εξάλλου, και τρίτη έννοια που συνδέεται με τις παραπάνω. Κατά τη μοντελοποίηση της στοματοφαρυγγικής κοιλότητας, χρησιμοποιείται φίλτρο του οποίου οι πόλοι θεωρείται ότι αντιστοιχούν στα formants. Εμείς, στη συνέχεια, θα διατηρήσουμε τη διάκριση μεταξύ των formants και των συχνοτήτων συντονισμού, λόγω της φύσης του προβλήματος που μελετούμε. Συγκεκριμένα, όταν η θεμελιώδης συχνότητα της φωνής είναι υψηλή (αυτό συμβαίνει στα σήματα ενδιαφέροντός μας) μπορεί να υπάρχει συντονισμός του στοματοφάρυγγα σε θέση στην οποία δεν υπάρχει αιχμή του φάσματος της φωνής. Η μελέτη των συντονισμών της στοματοφαρυγγικής κοιλότητας είναι πρωταρχικής σημασίας για την επεξεργασία φωνής. Αυτό συμβαίνει γιατί συνδέονται ευθέως με τη διαδικασία άρθρωσης και την καταληπτότητα της ομιλίας [3]. Οι δύο πρώτοι συντονισμοί, για παράδειγμα, μπορούν να ορίσουν σε μεγάλο βαθμό το φωνήεν που παράγεται κατά την ομιλία. Η πληροφορία των συντονισμών χρησιμοποιείται ευρέως στην κωδικοποίηση της φωνής, όταν πρόκειται για εφαρμογές μεταφοράς ή αναγνώρισης αυτής. Σε άλλες περιπτώσεις αποκτούν σημασία σε συνάρτηση με το γεγονός ότι η θέση τους στο φάσμα εξαρτάται από το σχήμα και τις διαστάσεις του στοματοφάρυγγα. Η σχέση αυτή αποκτά ενδιαφέρον σε εφαρμογές ανίχνευσης παθολογικών καταστάσεων στα όργανα που εμπλέκονται με οποιονδήποτε τρόπο στη διαδικασία παραγωγής φωνής.

7 ΚΕΦΑΛΑΙΟ 1 7 Για τον ακριβή υπολογισμό των συχνοτήτων συντονισμού έχουν προταθεί διάφορες μέθοδοι τις οποίες περιγράφουμε σε επόμενο κεφάλαιο. Και ενώ τα αποτελέσματα αυτών δείχνουν ικανοποιητικά όταν η θεμελιώδης συχνότητα της φωνής είναι χαμηλή (low-pitched voices), η εκτίμησή συντονισμών για φωνές υψηλής θεμελιώδους συχνότητας (high-pitched voices) γίνεται δυσκολότερη, κυρίως λόγω της μεγάλης απόστασης μεταξύ των αρμονικών [4]. Το φάσμα της ανθρώπινης φωνής αποτελείται από αιχμές στα ακέραια πολλαπλάσια της θεμελιώδους συχνότητας, τις αρμονικές (harmonics). Όταν τα πολλαπλάσια αυτά έχουν μικρή απόσταση μεταξύ τους, δηλαδή όταν η θεμελιώδης συχνότητα της φωνής είναι χαμηλή, είναι σχετικά εύκολο να εντοπίσουμε τα μέγιστα του φασματικού φακέλου. Αντίθετα, όταν οι αποστάσεις μεταξύ των αρμονικών είναι μεγάλες, ο εντοπισμός των συντονισμών γίνεται εξαιρετικά δύσκολος, αφού φασματικά, κοντά στη συχνότητα συντονισμού μπορεί να μην υπάρχει αρμονική Οι Lindblom και Sundberg [5] αναφέρουν ότι το σφάλμα μέτρησης της συχνότητας συντονισμού μπορεί να φτάσει και το fo/4 (fo:η θεμελιώδης συχνότητα). Οι Monsen και Engebretson δείξανε ότι τέτοιες μετρήσεις, οι οποίες γίνονται με την μέθοδο LPC (Linear Predictive Coding), γίνονται ανακριβείς όταν η θεμελιώδης συχνότητα ξεπερνά τα 350Hz. Οι Traunmuller και Eriksson αναφέρουν πως το πρόβλημα γίνεται πιο δύσκολο σε υψηλές συχνότητες, όταν έχουμε απότομες μετατοπίσεις στις θέσεις των συντονισμών, όπου εμφανίζεται και ένα πρόβλημα συγχρονισμού. Σε αυτή την περίπτωση, για να εξαχθούν ικανοποιητικά αποτελέσματα θα πρέπει να κάνουμε υπολογισμούς σε κάθε περίοδο φωνής χωριστά, αφού πρώτα έχουμε αξιόπιστη αναγνώριση περιόδων[6]. Με δεδομένη την μείωση της διάρκειας της περιόδου με την αύξηση της συχνότητας, αντιλαμβάνεται κανείς ότι για ένα τέτοιο υπολογισμό είναι πιθανό να έχουμε στη διάθεσή μας ελάχιστα δείγματα. Μια τέτοια μέθοδος επεξεργασίας φωνής θα πρέπει να είναι σε θέση να εξάγει αποτελέσματα με πολύ σύντομη είσοδο σήματος. Το γεγονός αυτό καθιστά το πρόβλημα ακόμη πιο δυσεπίλυτο. Πρακτικά, οι φωνές οι οποίες ανήκουν στην παραπάνω κατηγορία είναι οι αντρικές φωνές τραγουδιού στο μέσω και άνω τμήμα της έκτασής τους, οι γυναικείες φωνές τραγουδιού σε μέσες και υψηλές συχνότητες, και οι παιδικές φωνές τραγουδιού ή ομιλίας [7].

8 ΚΕΦΑΛΑΙΟ 1 8 Όταν ο υπολογισμός των συντονισμών του στοματοφάρυγγα μεταφερθεί σε τραγουδιστές φωνές μία σειρά από φαινόμενα τα οποία είναι πολύ κοινά σε αυτές τις περιπτώσεις, διαμορφώνουν διαφορετικά το πρόβλημα. Ο κάθε συντονισμός του στοματοφάρυγγα κατά τη διάρκεια της προφοράς ενός φωνήεντος στην ομιλία μπορεί να βρίσκεται εντός μίας συγκεκριμένης περιοχής του φάσματος. Σε τραγουδιστές φωνές, ωστόσο, μπορούν να παρατηρηθούν μεγαλύτερες διακυμάνσεις στις θέσεις των συντονισμών. Ένας τραγουδιστής όπερας είναι δυνατόν να μεταβάλει τόσο τις θέσεις αυτές, ώστε να εισέλθουν πλήρως στην περιοχή ενός διαφορετικού φωνήεντος. Παρόλα αυτά μπορούμε και αντιλαμβανόμαστε το συγκεκριμένο φωνήεν [8]. Η μετακίνηση αυτή των συχνοτήτων συντονισμού επιδιώκεται τις περισσότερες φορές από τους ίδιους τους τραγουδιστές, ειδικά στη περίπτωση της όπερας. Η δυνατότητα μεταφοράς ήχου του στοματοφάρυγγα για κάθε συχνότητα εξαρτάται από τις θέσεις των συντονισμών, και είναι μέγιστη σε αυτές και ελάχιστη ανάμεσά τους. Αν σε υψηλής συχνότητας φωνή τραγουδιστή οι συντονισμοί παρέμεναν στα σημεία των συντονισμών της ομιλίας, θα ήταν δυνατό να εμφανίζεται η θεμελιώδης συχνότητα πολύ πάνω από τον πρώτο συντονισμό και πιθανά σε σημείο όπου η μεταφορά ήχου της οδού θα ήταν ελάχιστη. Οι τραγουδιστές εκπαιδεύονται ν α μεταφέρουν τη συχνότητα του πρώτου συντονισμού κοντά στη θεμελιώδη, ώστε να επιτύχουν μέγιστη ένταση της φωνής τους. Αυτή την εξαρτώμενη από το pitch στρατηγική τοποθέτησης του πρώτου συντονισμού χρησιμοποιούν κυρίως οι soprano, αλλά και όσοι τραγουδιστές τραγουδούν σε υψηλά pitch [9]. Η προσέγγιση αυτή θεμελιώδους και πρώτου συντονισμού δυσχεραίνει την αναγνώριση του τελευταίου. Εξάλλου, στην πλειοψηφία των περιπτώσεων οι τραγουδιστές καλούνται να ακουστούν με συνοδεία ορχήστρας. Το γεγονός αυτό τους αναγκάζει να αντιμετωπίσουν το φαινόμενο masking της ορχήστρας. Το masking εμφανίζεται όταν το κύριο μέρος της ενέργειας του φάσματος φωνής εντοπίζεται στην ίδια περιοχή με το αυτό της ορχήστρας. Για να αντιμετωπίσουν αυτή την κατάσταση, μπάσοι, βαρύτονοι και alto τραγουδιστές παράγουν φωνές οι οποίες παρουσιάζουν φασματικές συνιστώσες ιδιαίτερα ισχυρές στην περιοχή των khz. Πρόκειται για το formant του τραγουδιστή (singer s formant) [10]. Αυτό επιτυγχάνεται με την προσέγγιση του τρίτου, τέταρτου και πέμπτου συντονισμού, αυξάνοντας την ικανότητα του στοματοφάρυγγα να μεταφέρει ήχο σε αυτή την περιοχή. Με την μετακίνηση αυτή επιτυγχάνουν το διαχωρισμό της φωνής τους από τον ήχο της

9 ΚΕΦΑΛΑΙΟ 1 9 ορχήστρας. Η παρουσία του singer s formant σε υψηλές συχνότητες αποτελεί ακόμη ένα σημείο δυσκολίας στον υπολογισμό των συντονισμών. Είναι πλέον φανερό ότι και η θεμελιώδης συχνότητα διαδραματίζει πολύ σημαντικό ρόλο στον εντοπισμό των συντονισμών, ιδιαίτερα στο τραγούδι. Το vibrato [11], η ταχεία και συστηματική, δηλαδή, διακύμανση της θεμελιώδους συχνότητας το οποίο είναι εξαιρετικά διαδεδομένο στη δυτική μουσική παράδοση είναι ένας ακόμη παράγοντας διαφοροποίησης του προβλήματος στο τραγούδι σε σχέση με την ομιλία. Η συσχέτισή του περιγράφεται στη συνέχεια. Από τη μία, το πρόβλημα εστιάζεται στον εντοπισμό των συχνοτήτων συντονισμού από την πληροφορία των φασματικών συνιστωσών, δηλαδή τη θέση και το πλάτος τους. Από την άλλη το πλάτος της καθεμίας εξαρτάται από την απόστασή της από την κοντινότερη θέση συντονισμού. Κατά τη διάρκεια του vibrato η μεταβολή των θέσεων των αρμονικών μεταβάλλει συγχρόνως και το πλάτος τους, προκαλώντας έτσι ταχύτατη μεταβολή όλων των δεδομένων του προβλήματος. Οι παραπάνω παρατηρήσεις όσον αφορά τις ιδιαιτερότητες της τραγουδιστής φωνής αναδεικνύουν το ευρύτατο πεδίο έρευνας και τις δυσκολίες υπολογισμού των συντονισμών του στοματοφάρυγγα σε αυτές τις περιπτώσεις. Αντικείμενο της εργασίας αποτελεί η αξιολόγηση των υπαρχόντων τεχνικών υπολογισμού των συντονισμών του στοματοφάρυγγα, καθώς και μίας νέας, σε φωνές υψηλής θεμελιώδους συχνότητας. Για να είναι, ωστόσο, τα αποτελέσματά της αξιολόγησης αξιόπιστα, θα πρέπει η ίδια να πραγματοποιηθεί με σήματα τα οποία έχουν προκαθορισμένα χαρακτηριστικά. Η προσομοίωση είναι απαραίτητη για μία τέτοια προσπάθεια αξιολόγησης. Για το λόγο αυτό μέρος της εργασίας αποτελεί η ανάπτυξη ενός εργαλείου δημιουργίας τέτοιων σημάτων, το οποίο χρησιμοποιεί μεγάλο αριθμό παραμέτρων. Η εργασία, στη συνέχεια, είναι οργανωμένη σε έξι κεφάλαια, εκτός του παρόντος. Το δεύτερο κεφάλαιο, αναφέρεται στη φυσιολογία της ανθρώπινης φωνής, περιγράφεται ο μηχανισμός παραγωγής της φωνής από τον άνθρωπο, και παρουσιάζεται το γραμμικό μοντέλο προσέγγισης (μοντέλο πηγής-φίλτρου). Στο τρίτο κεφάλαιο περιγράφονται οι κυριότερες τεχνικές υπολογισμού των συντονισμών του στοματοφάρυγγα που έχουν χρησιμοποιηθεί στο παρελθόν, και γίνεται σχολιασμός των μεθόδων αξιολόγησης των τεχνικών αυτών και της ανάγκης ανάπτυξης ενός εργαλείου μοντελοποίησης της φωνής. Στο τέταρτο κεφάλαιο, παρουσιάζεται το μαθηματικό μοντέλο στο οποίο στηρίχθηκε η ανάπτυξη του

10 ΚΕΦΑΛΑΙΟ 1 10 εργαλείου για την παραγωγή συνθετικής φωνής, περιγράφονται τα κυριότερα χαρακτηριστικά του, και δίνονται παραδείγματα παραγόμενων ήχων. Στο πέμπτο κεφάλαιο περιγράφεται μία νέα μέθοδος υπολογισμού των συντονισμών του στοματοφάρυγγα, η οποία αποτελεί παραλλαγή μίας εκ των δύο μεθόδων που αναφέρθηκαν στο τρίτο κεφάλαιο της cepstrum. Στο έκτο κεφάλαιο, ελέγχονται οι τρεις τεχνικές υπολογισμού των formants με σήματα που παρήχθησαν από τη δική μας εφαρμογή. Τέλος, στο έβδομο κεφάλαιο εξάγονται συμπεράσματα και αναφέρονται προοπτικές περαιτέρω έρευνας, ενώ σε παράρτημα δίνεται ένα σύντομο εγχειρίδιο της εφαρμογής παραγωγής σημάτων φωνής.

11 ΚΕΦΑΛΑΙΟ 2 11 ΚΕΦΑΛΑΙΟ 2 ΦΥΣΙΟΛΟΓΙΑ ΑΝΘΡΩΠΙΝΗΣ ΦΩΝΗΣ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ 2.1 ΟΡΓΑΝΑ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ Πριν προχωρήσουμε στην περιγραφή των σημάτων της ανθρώπινης φωνής, θα ήταν χρήσιμο να παρουσιάσουμε το μηχανισμό που τα παράγει. Γνωρίζοντας τη φυσιολογία του συστήματος ομιλίας είναι πιο εύκολο να κατανοήσουμε τα χαρακτηριστικά αυτής. Η φωνή παράγεται από συγχρονισμένες κινήσεις των ανώτερων οργάνων της πεπτικής κοιλότητας, δηλαδή της γλωττίδας, της γλώσσας, των χειλιών, του υπερώιου ιστίου και της κάτω γνάθου [12]. Αυτές οι κινήσεις συγχρονίζονται με κινήσεις του αναπνευστικού συστήματος για να δημιουργήσουν βασικές μορφές ήχου, διαμορφώνοντας τη ροή του αέρα από τους πνεύμονες. Στην βιβλιογραφία, όταν αναφέρεται ο όρος φωνητική οδός ή vocal tract, εννοείται το σύνολο των οργάνων του λάρυγγα, του στόματος και της μύτης [13]. Στην παρακάτω εικόνα φαίνεται μία αναπαράσταση των οργάνων που συντελούν στην παραγωγή της φωνής. Εικόνα 2. 1 Η Φωνητική Οδός (vocal tract)

12 ΚΕΦΑΛΑΙΟ ΔΙΑΔΙΚΑΣΙΑ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ Κατά την παραγωγή της φωνής, ο αέρας που βρίσκεται στους πνεύμονες, πιέζεται από τους ιστούς του στήθους και των πνευμόνων προς τα έξω δημιουργώντας μια ροή η οποία ονομάζεται αναπνευστική ροή [13], [14]. Αν η φωνητική οδός είναι ανοιχτή, η ροή αέρα δεν συναντά κανένα εμπόδιο προς την έξοδο. Σε αυτή την περίπτωση ο ανθρώπινος οργανισμός βρίσκεται στην κατάσταση αναπνοής και ο αέρας εξέρχεται από το στόμα και τη μύτη. Αντίθετα, όταν στη φωνητική οδό παρουσιαστεί μία στένωση, ο εξερχόμενος αέρας δεν μπορεί να διέλθει, αυξάνοντας έτσι την πίεση στην τραχεία. Αυτή η αύξηση της τραχειακής πίεσης οδηγεί στην παραγωγή ήχων [15]. Συγκεκριμένα, οι ήχοι παράγονται λόγω των διακυμάνσεων της ροής αέρα από την τραχεία προς τα έξω. Η ροή του αέρα, φυσικά, δεν είναι μονόδρομη, αποκλειστικά προς τα έξω. Όταν το διάφραγμα, το οποίο διαχωρίζει τους πνεύμονες από την κοιλιακή χώρα, μετακινείται προς τα επάνω, ο αέρας που βρίσκεται στους πνεύμονες πιέζεται προς τα έξω, αφού ο διαθέσιμος χώρος εκεί μικραίνει. Κατά την αντίθετη κίνηση, το διάφραγμα μετακινείται προς τα κάτω, προκαλώντας εισροή αέρα προς τους πνεύμονες [16]. Η πίεση στην τραχεία, καθώς και η ροή του αέρα είναι μεγαλύτερη όταν φωνάζουμε, μικρότερη κατά τη διάρκεια της κανονικής ομιλίας, και ακόμη μικρότερη όταν ψιθυρίζουμε ή όταν καταβάλουμε ελάχιστη προσπάθεια. Σε περιπτώσεις όπου απαιτείται μεγάλη διάρκεια ομιλίας χωρίς ενδιάμεση εισπνοή, συνήθως πραγματοποιείται μεγάλη εισροή αέρα στην αρχή. Η πίεσή του, και σε αυτή την περίπτωση, πρέπει να διατηρηθεί σε κανονικές τιμές για κανονική ένταση ομιλίας. Τη ρύθμιση αυτή της πίεσης του αέρα την αναλαμβάνουν οι μύες που συμβάλουν στην εισροή αέρα στους πνεύμονες. Οι ήχοι που παράγονται από την φωνητική οδό χωρίζονται σε τρεις κύριες κατηγορίες: τους περιοδικούς ήχους ή ακουστούς (voiced), τους μη περιοδικούς ήχους ή ταραγμένους (turbulent) και τους ήχους που παράγονται κατά τη διάρκεια μίας απότομης μεταβολής (transient). Οι περισσότεροι ήχοι ανήκουν στην πρώτη κατηγορία και παράγονται από την περιοδική κίνηση του αέρα υπό την επίδραση της κίνησης της γλωττίδας [17]. Κατά το άνοιγμα και κλείσιμο αυτής ανάμεσα στις φωνητικές χορδές διέρχεται αέρας της τραχείας και δημιουργούνται παλμοί αέρα. Ο ήχος αυτός είναι άχρωμος και

13 ΚΕΦΑΛΑΙΟ 2 13 ακούγεται σαν ένα βούισμα. Η διέλευσή του από τα υπόλοιπα όργανα έως ότου βγει από τη στοματική κοιλότητα, δημιουργεί τους ήχους που γνωρίζουμε, μεταξύ αυτών και όλα τα φωνήεντα. Οι ήχοι τους οποίους μελετάμε σε αυτή την εργασία, προέρχονται από αυτή την κατηγορία. Οι μη περιοδικοί ήχοι της δεύτερης κατηγορίας παράγονται όταν η ροή αέρα διέλθει μέσα από ένα στενό πέρασμα της φωνητικής οδού. Ακούγονται σαν ένα σφύριγμα και δεν έχουν καμία περιοδικότητα. Χαρακτηριστικό παράδειγμα φωνήματος που προκύπτει από τέτοιους ήχους είναι το ς στη λέξη λάθος. Τέλος, όταν ο αέρας που εξέρχεται συναντήσει μία απότομη μεταβολή της διατομής της φωνητικής οδού, όπως για παράδειγμα στα χείλη, παράγεται ο ήχος της τελευταίας κατηγορίας. Παράδειγμα τέτοιου ήχου είναι το π. 2.3 ΔΟΜΗ ΤΟΥ ΛΟΓΟΥ Τυπικά, ο ανθρώπινος λόγος αποτελείται από σειρά φωνημάτων, δηλαδή στοιχειωδών ήχων [18]. Είναι τμήματα της ανθρώπινης ομιλίας. Παραδείγματα φωνημάτων είναι το [i] στην λέξη ρήμα και το [e] στη λέξη λέξη. Οι συλλαβές προκύπτουν από ένα ή περισσότερα φωνήματα. Μία ή περισσότερες συλλαβές δημιουργούν μία λέξη, για να δημιουργηθούν με τη σειρά τους οι προτάσεις και τέλος η ολοκληρωμένη ομιλία. Σύμφωνο Φωνήεν Σύμφωνο Φωνήεν Ανοιχτή κατάσταση Κλειστή κατάσταση Εικόνα 2. 2 Καταστάσεις φωνητικής οδού κατά την προφορά συμφώνων και φωνηέντων Στο παραπάνω σχήμα φαίνονται οι ανοιχτές και οι κλειστές καταστάσεις της φωνητικής οδού κατά τη διαδοχή ενός συμφώνου και ενός φωνήεντος

14 ΚΕΦΑΛΑΙΟ 2 14 επαναλαμβανόμενα.οι συλλαβές στην ομιλία συμβαίνουν κατά μέσο όρο 2 έως 5 το δευτερόλεπτο, ανάλογα με το είδος την ομιλίας. Στις περισσότερες περιπτώσεις δεν υπάρχει χρονικό κενό μεταξύ των συλλαβών ή των φωνημάτων, με αποτέλεσμα να μπορεί να θεωρηθεί ότι κατά την ομιλία έχουμε απλά συνεχείς αλλαγές της φωνητικής οδού. Η τελευταία είναι συνήθως στενή κατά την προφορά των συμφώνων και ανοιχτή στα φωνήεντα. 2.4 ΓΡΑΜΜΙΚΟ ΔΙΑΧΩΡΙΣΙΜΟ ΜΟΝΤΕΛΟ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ Όπως είπαμε παραπάνω, το σύστημα παραγωγής φωνής στον άνθρωπο αποτελείται από δύο κύρια μέρη: τη γλωττίδα ανάμεσα στις φωνητικές χορδές, η οποία παράγει την πηγή του ήχου, και τα υπόλοιπα όργανα της φωνητικής οδού (το λάρυγγα, τη στοματική και τη ρινική κοιλότητα). Τα τελευταία διαμορφώνουν κατάλληλα τον ήχο που παράγει η γλωττίδα, για να παραχθούν τελικά οικείοι σε εμάς ήχοι, όπως τα σύμφωνα και τα φωνήεντα. Ο τρόπος προσέγγισης του μηχανισμού παραγωγής φωνής που θεωρεί το σήμα φωνής ως το αποτέλεσμα μιας διαδικασίας φιλτραρίσματος της γλωττιδικής διέγερσης από τον στοματοφάρυγγα (ο οποίος παριστάνεται από ένα γραμμικό φίλτρο) αποτελεί το γραμμικό διαχωρίσιμο μοντέλο, το οποίο εισήχθη αρχικά από τον Fant το 1960 [19], και περιγράφεται από την παρακάτω εξίσωση: Sz ( ) = GzH ( ) Rz ( ) (2.1) VT όπου το S(z) αντιστοιχεί στο σήμα φωνής, το G(z) στην ταχύτητα όγκου της γλωττιδικής διέγερσης, το H VT αντιστοιχεί στη συνάρτηση μεταφοράς του στοματοφαρυγγικού φίλτρου, και ο όρος R(z) αντιστοιχεί στην λειτουργία των χειλιών ως σύνθετης ακουστικής αντίστασης. Με δεδομένο ότι η σύνθετη ακουστική αντίσταση εκφράζεται ως ο λόγος της ακουστικής πίεσης προς την ταχύτητα όγκου του αέρα, γίνεται αντιληπτό ότι η επίδραση του όρου R(z) συνδέει την ακουστική πίεση του εκπεμπόμενου σήματος φωνής με την ταχύτητα όγκου στα χείλη. Έτσι το μοντέλο αυτό μπορεί διαφορετικά να περιγραφεί και ως:

15 ΚΕΦΑΛΑΙΟ 2 15 Sz ( ) = G'( zh ) ( z) (2.2) VT όπου ο όρος G (z) περιλαμβάνει την επίδραση των χαρακτηριστικών της αντίστασης ακτινοβολίας των χειλιών, και έχει μονάδες Διαφορισμένης Ταχύτητας Όγκου της Γλωττίδας. Εικόνα 2. 3 Το γραμμικό μοντέλο παραγωγής φωνής ΓΛΩΤΤΙΔΙΚΗ ΔΙΕΓΕΡΣΗ Η κύρια λειτουργία των φωνητικών χορδών είναι η διαμόρφωση της ροής του εκπεμπόμενου από τους πνεύμονες αέρα με διαρκές ανοιγο-κλείσιμο, τουλάχιστον στην περίπτωση των έμφωνων ήχων. Το αποτέλεσμα αυτής της κίνησης ονομάζεται φώνηση (phonation). Κατά τη διάρκεια της αναπνοής η γλωττίδα παραμένει διαρκώς ανοιχτή. Εικόνα 2. 4 Οι δύο καταστάσεις της γλωττίδας ανοιχτή και κλειστή Κύριος ρόλος των φωνητικών χορδών είναι να προστατεύουν τον μηχανισμό αναπνοής από εισβολή σωματιδίων. Γι αυτό και στην ήρεμή τους κατάσταση,

16 ΚΕΦΑΛΑΙΟ 2 16 φράσσουν μερικώς την αναπνευστική οδό, παρόλο που η γλωττίδα είναι ανοιχτή για να επιτελείται η λειτουργία της αναπνοής. Ωστόσο, η φώνηση με την πρόοδο του ανθρώπου εξελίχθηκε σε εξίσου σημαντική λειτουργία με αυτή της προστασίας του αναπνευστικού συστήματος. Η γλωττιδική ροή (glottal flow) θεωρείται ότι είναι μηδενική, υπό φυσιολογικές συνθήκες, όταν η γλωττίδα είναι κλειστή. Κατά το άνοιγμα αυτής, η ροή αέρα αυξάνεται, λόγω της ύπαρξης υπογλωττιδικής πίεσης στην τραχεία, για να φτάσει στη μέγιστη τιμή της περίπου τη στιγμή που το άνοιγμα είναι μέγιστο ή λίγο μετά από αυτό το σημείο [13]. Στη συνέχεια η γλωττίδα αρχίζει να κλείνει μειώνοντας τη ροή αέρα μέχρι, σε φυσιολογικές καταστάσεις, αυτή να φτάσει στη μηδενική τιμή, την οποία διατηρεί για όση ώρα η γλωττίδα είναι κλειστή. Υπάρχει μία ελάχιστη τιμή της υπογλωττιδικής πίεσης για την έναρξη των ταλαντώσεων της γλωττίδας (phonation threshold), η οποία διαφέρει από άτομο σε άτομο και επηρεάζεται από διάφορους παράγοντες, μεταξύ των οποίων είναι η ενυδάτωση του βλεννογόνου των φωνητικών χορδών και η κόπωσή τους (πιθανώς από παθολογικούς λόγους). Παρακάτω φαίνεται η τυπική μορφή της ταχύτητας όγκου μιας σειράς γλωττιδικών παλμών. Εικόνα 2. 5 Σειρά δύο γλωττιδικών παλμών (ταχύτητα όγκου) Με ευθείες γραμμές διαχωρίζονται οι παλμοί μεταξύ τους και με τη διακεκομμένη διακρίνεται η ανοιχτή από την κλειστή γλωττιδική περίοδο. Στο σχήμα είναι διακριτό και το σημείο μέγιστης γλωττιδικής ροής, το οποίο είναι σημαντικό για τη συνέχεια αφού αποτελεί βασικό χαρακτηριστικό οποιουδήποτε μοντέλου προσομοιώνει τη διαδικασία παραγωγής γλωττιδικών παλμών. Στη βιβλιογραφία συχνά συναντούμε αντί για την ταχύτητα όγκου της γλωττιδικής διέγερσης, την παράγωγό της (glottal flow derivative). Η χρήση αυτού του μεγέθους έχει επικρατήσει γιατί είναι ευκολότερη η καταγραφή του από το σήμα

17 ΚΕΦΑΛΑΙΟ 2 17 φωνής σε σχέση με τη ροή, και επιπλέον γιατί οι παράμετροι που χρησιμοποιούμε για τη μοντελοποίηση της τελευταίας είναι πιο ευδιάκριτοι και κατανοητοί στην παράγωγό της [20]. Στο παρακάτω σχήμα φαίνεται η τυπική μορφή της παραγώγου μιας σειράς γλωττιδικών παλμών (μεταβολές πίεσης). Εικόνα 2. 6 Παράγωγος ταχύτητας όγκου αλληλουχίας γλωττιδικών παλμών Ξεκινώντας την παρατήρηση του σχήματος από την πρώτη κατακόρυφη γραμμή (σημείο έναρξης γλωττιδικού παλμού), συναντάμε τη συνεχόμενη αύξηση της γλωττιδικής ροής, μέχρι το σημείο όπου η παράγωγος μηδενίζεται (πρώτη κατακόρυφος με παύλες) και έχουμε το σημείο μέγιστης ροής. Στη συνέχεια η ροή μειώνεται σε όλη τη διάρκεια κατά την οποία η παράγωγος παραμένει αρνητική (έως δεύτερη κατακόρυφος με παύλες). Σε αυτό το σημείο έχουμε το τέλος της ανοιχτής γλωττιδικής περιόδου. Το υπόλοιπο τμήμα, μέχρι το τέλος της περιόδου αντιστοιχεί στην κλειστή γλωττιδική περίοδο [21]. Στη συνέχεια φαίνεται η χρονική αντιστοίχηση των δύο μεγεθών. Εικόνα 2. 7 Χρονική αντιστοίχηση σήματος γλωττιδικής ροής και παραγώγου της

18 ΚΕΦΑΛΑΙΟ 2 18 Αυτή την ιδανική μορφή των γλωττιδικών παλμών έρχονται να μεταβάλλουν φαινόμενα που συμβαίνουν στην πράξη. Κατά το κλειστό τμήμα της γλωττιδικής περιόδου, είναι δυνατό να συμβαίνει διαρροή αέρα μέσω της γλωττίδας (leakage). Σε αυτή την περίπτωση, το τμήμα του γλωττιδικού παλμού όπου στο παραπάνω σχήμα η γλωττιδική ροή φαίνεται να είναι στο μηδέν, έχει κάποια μη μηδενική τιμή. Επίσης, φαινόμενα που συμβαίνουν στα όρια των φωνητικών χορδών, λόγω της διέλευσης του αέρα, τόσο όταν η γλωττίδα ανοίγει ή κλείνει όσο και στις σταθερές φάσεις, είναι δυνατό να προσθέσουν θόρυβο σε όλες τις φάσεις της γλωττιδικής περιόδου. Η φασματική αναπαράσταση της ταχύτητας όγκου των γλωττιδικών παλμών, στην ιδανική περίπτωση είναι μία σειρά μονοσυχνοτικών παραγόντων (ώσεων), οι οποίες ισαπέχουν φασματικά, ενώ παρουσιάζουν απόσβεση -12dB ανά οκτάβα. Αντίστοιχα η παράγωγός της ταχύτητας όγκου, εξαιτίας της διαφόρισης, παρουσιάζει απόσβεση 6dB/οκτάβα. Στο παρακάτω σχήμα παρουσιάζεται μία τέτοια αναπαράσταση. -12dB/οκτάβα ΠΛΑΤΟΣ ΣΥΧΝΟΤΗΤΑ Εικόνα 2. 8 Αναπαράσταση φασματικών συνιστωσών ταχύτητας όγκου Δύο χαρακτηριστικά του φάσματος της γλωττιδικής πηγής είναι πολύ σημαντικά: Η απόσταση μεταξύ της θεμελιώδους συχνότητας και των αρμονικών και η μεταβολή του πλάτους των αρμονικών με την αύξηση της συχνότητας. Η συχνοτική απόσταση εξαρτάται από το ρυθμό επανάληψης των παλμών στο γλωττιδικό κύμα. Η περιβάλλουσα του φάσματος εξαρτάται από το ακριβές σχήμα των παλμών. Η απόσταση μεταξύ των αρμονικών στο παραπάνω σχήμα είναι 100Hz. Η απόσταση αυτή αντιστοιχεί στο ρυθμό επανάληψης των γλωττιδικών παλμών, δηλαδή στη θεμελιώδη συχνότητα του γλωττιδικού κύματος. Άρα, στη συγκεκριμένη

19 ΚΕΦΑΛΑΙΟ 2 19 περίπτωση, ο ρυθμός εμφάνισης των γλωττιδικών παλμών είναι 100 παλμοί ανά δευτερόλεπτο, η θεμελιώδης συχνότητα είναι 100Hz, και απόσταση μεταξύ δύο διαδοχικών αρμονικών είναι 100Hz. Πρόκειται για τυπική μορφή φάσματος γλωττιδικής ροής ενός ενήλικα άντρα. Η θεμελιώδης συχνότητα εξαρτάται κυρίως από την τάση των φωνητικών χορδών, την κατανομή μάζας σε αυτές, και την πίεση του αέρα κάτω από τη γλωττίδα. Η τάση και η κατανομή μάζας των φωνητικών χορδών με τη σειρά τους εξαρτώνται από την ηλικία, το φύλο και τα ιδιαίτερα χαρακτηριστικά του ατόμου. Συνήθως, η θεμελιώδης συχνότητα αυξάνεται καθώς εξετάζουμε αντρικές, γυναικείες και παιδικές φωνές κατά σειρά. Για πραγματικά γλωττιδικά σήματα, υπάρχουν διακυμάνσεις στα πλάτη των συνιστωσών του φάσματος. Αυτά σχετίζονται με το κατά πόσο ομαλός είναι ο παλμός στα χρονικά σημεία ανοίγματος και κλεισίματος της γλωττίδας, με τη διάρκεια της κλειστής γλωττιδικής περιόδου, καθώς και με άλλες λεπτομέρειες της γλωττιδικής κυματομορφής. Αυτά σχετίζονται με το ύφος και την ένταση της ομιλίας καθώς και με φυσιολογικά χαρακτηριστικά των φωνητικών χορδών Ο ΣΤΟΜΑΤΟΦΑΡΥΓΓΑΣ ΩΣ ΑΚΟΥΣΤΙΚΟ ΦΙΛΤΡΟ Το δεύτερο σκέλος του μοντέλου πηγής - φίλτρου είναι ο στοματοφάρυγγας. Όπως ήδη αναφέραμε, ο ήχος της γλωττίδας διαμορφώνεται κατά τη διέλευσή του από το στοματοφάρυγγα. Κάθε ξεχωριστή διάταξη των οργάνων του αντιστοιχεί σε διαφορετική συνάρτηση μεταφοράς και διαμορφώνει ένα διαφορετικό φωνήεν ή σύμφωνο στην έξοδο. Για τη μελέτη του σχηματισμού των φωνηέντων και της επίδρασης της φωνητικής οδού στη γλωττιδική διέγερση, έχει χρησιμοποιηθεί για τη στοματοφαρυγγική κοιλότητα το μοντέλο ενός ομοιόμορφης διατομής κυλινδρικού τμήματος. Ήχοι που παράχθηκαν από τέτοια μοντέλα παρουσίαζαν χαρακτηριστικές ομοιότητες με φυσικούς ήχους ανθρώπινης φωνής [19], [22]. Στο μοντέλο αυτό θεωρείται ότι ο στοματοφάρυγγας έχει την ίδια διατομή σε όλο το μήκος του. Στην πραγματικότητα υπάρχουν μεταβολές, οι οποίες, όμως έχουν μικρή επίδραση στο αποτέλεσμα. Το μήκος του σωλήνα, για την περίπτωση ενός μέσου ενήλικα θεωρείται ότι είναι ίσο με 17,5cm. Αυτό είναι και το μέσο μήκος του στοματοφάρυγγα μεταξύ γλωττίδας και χειλιών για έναν ενήλικα.

20 ΚΕΦΑΛΑΙΟ 2 20 Το χαρακτηριστικό της φωνητικής οδού που μεταβιβάζεται ως πληροφορία στο κύμα της γλωττιδικής διέγερσης, με συνέπεια να παράγεται το τελικό ακουστικό αποτέλεσμα της φωνής είναι οι συντονισμοί της (resonanses) [23]. Κατά τη διέλευση αυτού του κύματος, πραγματοποιείται μια διαδικασία φιλτραρίσματος ενίσχυσης του σε ορισμένες συχνότητες. Στη φασματική περιβάλλουσα δημιουργούνται κοιλότητες και κορυφές (formants) [24]. Η προσέγγιση του στοματοφάρυγγα με περισσότερα του ενός κυλινδρικά τμήματα διαφορετικών διατομών, προσεγγίζει καλύτερα την ανομοιόμορφη κατανομή των συχνοτήτων συντονισμού. Τα εύρη ζώνης των formants είναι της τάξης των Hz για τα πρώτα formants και αυξάνουν με την τάξη του formant. Στο παρακάτω σχήμα φαίνεται μία τυπική μορφή της συνάρτησης μεταφοράς του στοματοφάρυγγα, όπου ο πρώτος συντονισμός είναι ισχυρότερος από τους υπόλοιπους. ΠΛΑΤΟΣ(dB) ΣΥΧΝΟΤΗΤΑ (KHz) Εικόνα 2. 9 Παράδειγμα συνάρτησης μεταφοράς του στοματοφάρυγγα Η χρήση του γραμμικού διαχωρίσιμου μοντέλου παραγωγής φωνής προϋποθέτει ένα σύνολο από θεωρήσεις, όπως: Ο στοματοφάρυγγας και η γλωττίδα δεν εμφανίζουν καμία μορφή σύζευξης (επιτρέποντας έτσι το διαχωρισμό τους). Η ροή αέρα στο στοματοφάρυγγα και τη γλωττίδα είναι στρωτή. Οι φωνητικές χορδές ταλαντώνονται με τον ίδιο τρόπο συνεχώς κατά τη διάρκεια της φώνησης. Δεν εμφανίζονται αποκλίσεις από την σταθερή συμπεριφορά του στοματοφάρυγγα. Στην πραγματικότητα μη γραμμικά φαινόμενα στη διαδικασία παραγωγής φωνής μπορεί να παρατηρηθούν λόγω σύζευξης μεταξύ γλωττίδας και

21 ΚΕΦΑΛΑΙΟ 2 21 στοματοφάρυγγα μιας και η ακουστική ακουστική αντίσταση της γλωττίδας μειώνεται κατά την ανοιχτή γλωττιδική περίοδο, λόγω εμφάνισης τυρβώδους ροής στην περιοχή της γλωττίδας, καθώς και μη γραμμικών παραγόντων στην ελαστικότητα των φωνητικών χορδών. Για να παραχθεί, λοιπόν, οποιοδήποτε φωνήεν κατά το γραμμικό μοντέλο, μπορούμε να χρησιμοποιήσουμε, θεωρητικά, την ίδια διέγερση, ενώ μεταβάλλεται η συνάρτηση μεταφοράς του στοματοφάρυγγα, δηλαδή οι θέσεις των συντονισμών, το ύψος των μεγίστων και το εύρος ζώνης τους (bandwidth). Για να ελέγξουμε πλήρως ένα φωνήεν θα πρέπει να έχουμε ελέγξει και τα τρία στοιχεία. Στο παρακάτω σχήμα απεικονίζεται η διαδικασία φιλτραρίσματος των γλωττιδικών παλμών για δύο σήματα θεμελιωδών συχνοτήτων 100Hz και 200Hz. Η συνάρτηση μεταφοράς είναι η ίδια και στις δύο περιπτώσεις. Οι συντονισμοί παρουσιάζονται στα 500Hz, 1000Hz, 1500Hz και 2000Hz. Τα δύο αριστερά διαγράμματα παρουσιάζουν το φάσμα του σήματος εισόδου στο σύστημα, δηλαδή του κύματος των γλωττιδικών παλμών, όταν αυτοί παράγονται με ρυθμό 100 παλμοί /δευτερόλεπτο (pitch=100hz) στην πρώτη σειρά και 200 παλμοί /δευτερόλεπτο (pitch=200hz) στη δεύτερη σειρά. Τα δύο μεσαία διαγράμματα απεικονίζουν τη συνάρτηση μεταφοράς του φίλτρου στοματοφάρυγγα, που είναι ίδια και στις δύο περιπτώσεις, ενώ τα τελευταία διαγράμματα δείχνουν το φάσμα της φιλτραρισμένης γλωττιδικής διέγερσης, δηλαδή το φάσμα της φωνής. Εικόνα Διαδικασία φιλτραρίσματος της γλωττιδικής διέγερσης από το στοματοφάρυγγα

22 ΚΕΦΑΛΑΙΟ 2 22 Υπάρχουν δύο χαρακτηριστικά του φάσματος φωνής που παρουσιάζουν ιδιαίτερο ενδιαφέρον. Το πρώτο είναι ότι ο φασματικός φάκελος που προκύπτει στο τελικό σήμα εξόδου από το σύστημα είναι ίδιος και στις δύο περιπτώσεις. Δεν εξαρτάται, λοιπόν από τη θεμελιώδη συχνότητα παρά μόνο από τη συνάρτηση μεταφοράς του στοματοφάρυγγα, και από τα σημεία στα οποία παρουσιάζει αυτή μέγιστα. Αποτέλεσμα αυτής της παρατήρησης είναι ότι φωνές με διαφορετικά τονικά ύψη μπορούν να προφέρουν τα ίδια φωνήεντα. Αυτό συμβαίνει γιατί το τονικό ύψος εξαρτάται από τη συχνότητα των γλωττιδικών παλμών, ενώ το πιο φωνήεν προφέρεται εξαρτάται μόνο από τη συνάρτηση μεταφοράς του συστήματος του στοματοφάρυγγα. Η δεύτερη παρατήρηση στα παραπάνω διαγράμματα αφορά την αύξηση της απόστασης μεταξύ των αρμονικών στη δεύτερη περίπτωση συγκριτικά με την πρώτη, όπου η θεμελιώδης συχνότητα είναι μικρότερη. Τα πολλαπλάσια της θεμελιώδους συχνότητας εμφανίζονται ανά 200Hz, σε αντίθεση με την πρώτη περίπτωση, όπου οι αρμονικές απέχουν 100Hz μεταξύ τους. Το γεγονός αυτό δημιουργεί δυσκολία στον εντοπισμό των συντονισμών, καθώς με την μείωση των αρμονικών μειώνεται η διαθέσιμη για τον εντοπισμό τους πληροφορία. Ενώ, για παράδειγμα, στη δεύτερη περίπτωση, ο πρώτος συντονισμός βρίσκεται στα 500Hz, σύμφωνα με τη συνάρτηση μεταφοράς, στο τελικό φάσμα, το αντίστοιχο μέγιστο του φασματικού φακέλου βρίσκεται σε λίγο μικρότερη συχνότητα. Μπορεί κανείς να αντιληφθεί την έκταση του προβλήματος όταν μιλάμε για τραγουδιστές φωνές, όπως η φωνή της soprano, όπου η θεμελιώδης συχνότητα και κατ επέκταση η απόσταση των αρμονικών μεταξύ τους βρίσκεται στα 1000Hz. Ένας συντονισμός στα 1500Hz δεν θα είναι καθόλου ορατός. Αν παρατηρήσουμε τη μορφή ενός κύματος φωνής στο χρόνο, θα παρατηρήσουμε ότι οι γλωττιδικοί παλμοί έχουν διαμορφωθεί για να περιέχουν και την πληροφορία των συντονισμών του στοματοφάρυγγα. Φαίνονται καθαρά οι χρονικές στιγμές των γλωττιδικών παλμών και μπορούμε με ασφάλεια να υποθέσουμε ότι στα τμήματα του σήματος που βρίσκονται στα τέλη των γλωττιδικών περιόδων (εκεί όπου η γλωττιδική διέγερση είχε μηδενική τιμή), η κυματομορφή αποτελείται από την καθαρή απόκριση του στοματοφάρυγγα στην διέγερση των παλμών. Αν οι παλμοί αυτοί ήταν μικροί σε διάρκεια, ώστε να προσεγγίζουν ώσεις, τότε μιλάμε για την ελεύθερη απόκριση του στοματοφάρυγγα, σε αυτά τα σημεία.

23 ΚΕΦΑΛΑΙΟ 2 23 Εικόνα Παράδειγμα σήματος φωνής Στη συνέχεια, παρουσιάζουμε τις κυριότερες μεθόδους που χρησιμοποιούνται για τον υπολογισμό των συντονισμών του στοματοφάρυγγα, όπως την μέθοδο της μάσκας του Rothenberg [25], τη μέθοδο που κάνει χρήση της ανάλυσης του Prony [26], τη μέθοδο των νευρωνικών δικτύων [27] και εμβαθύνουμε σε δύο από αυτές, τη μέθοδο της γραμμική πρόβλεψης και τη μέθοδο Cepstrum, οι οποίες χρησιμοποιούνται σε αυτή την εργασία.

24 ΚΕΦΑΛΑΙΟ 3 24 ΚΕΦΑΛΑΙΟ 3 ΜΕΘΟΔΟΙ ΥΠΟΛΟΓΙΣΜΟΥ ΤΩΝ ΣΥΝΤΟΝΙΣΜΩΝ Όπως έχουμε ήδη αναφέρει, ένας βασικός στόχος της επεξεργασίας φωνής είναι η εξαγωγή από την κυματομορφή της χρήσιμων χαρακτηριστικών του μηχανισμού παραγωγής της. Το σημαντικότερο από αυτά είναι οι συντονισμοί της στοματοφαρυγγικής κοιλότητας, οι οποίοι εμφανίζονται στη φασματική αναπαράσταση της παραγόμενης φωνής, συνήθως, ως μέγιστα του φασματικού φακέλου. Οι περισσότερες από τις υπάρχουσες μεθόδους κάνουν χρήση του μοντέλου πηγής-φίλτρου για να διαχωρίσουν την επίδραση στο τελικό αποτέλεσμα, της στοματοφαρυγγικής κοιλότητας, που παίζει το ρόλο του φίλτρου, από αυτή της γλωττίδας, που παίζει το ρόλο της πηγής. Στην ουσία προσπαθούν να διαχωρίσουν τις δύο αυτές επιδράσεις από το τελικό σήμα, και να κρατήσουν μόνο τα χαρακτηριστικά εκείνα που έχουν κάποιο νόημα στο λόγο, δηλαδή τη φασματική θέση των συντονισμών και το εύρος ζώνης τους. Κατά την υλοποίηση των μεθόδων πρέπει να ληφθεί υπόψη η καταλληλότητα και η αποτελεσματικότητα τους σε διαφορετικά είδη φωνής, όπως για παράδειγμα αν πρόκειται για τραγούδι ή ομιλία, για ανδρική ή παιδική φωνή (επίδραση της θεμελιώδους συχνότητας), για φωνήεντα ή σύμφωνα. Διαφορετικές μέθοδοι εστιάζουν σε διαφορετικά είδη φωνής. Εφαρμογές των μεθόδων υπάρχουν σε τομείς όπου απαιτείται μεταφορά ή αποθήκευση φωνής, η οποία πρέπει προηγουμένως να κωδικοποιηθεί, όπως στην κινητή τηλεφωνία. Σε αυτό το κεφάλαιο θα ασχοληθούμε με την εξαγωγή πληροφορίας για τους συντονισμούς του στοματοφάρυγγα, από σήματα φωνής που αναπαριστούν φωνήεντα. Εστιάζουμε, δηλαδή, σε ήχους που έχουν παραχθεί από το γραμμικό μοντέλο το οποίο περιγράψαμε αναλυτικά στο προηγούμενο κεφάλαιο. Διάφορες μέθοδοι έχουν χρησιμοποιηθεί κατά καιρούς στην υλοποίηση του αντίστροφου φιλτραρίσματος του σήματος φωνής, οι οποίες βασίζονται στη γραμμική πρόβλεψη [28], τη θεωρία του Cepstrum [29], τη μάσκα του Rothenberg [30], την ανάλυση του Prony [31], και τα νευρωνικά δίκτυα [32].

25 ΚΕΦΑΛΑΙΟ 3 25 Οι μέθοδοι οι οποίες χρησιμοποιούν τη μάσκα του Rothenberg, βασίζονται σε μετρήσεις της ροής αέρα στα χείλη μέσω μίας Περιμετρικά αεριζόμενης πνευμοταχογραφικής μάσκας, η οποία σχεδιάστηκε από τον ίδιο το Η συγκεκριμένη μάσκα χρησιμοποιήθηκε για την μέτρηση της ροής αέρα σε διάφορα πειράματα [33], [34], [35]. Η αρχή στην οποία στηρίζεται η λειτουργία της μάσκας είναι η μέτρηση της πτώσης πίεσης κατά μήκος μίας λεπτής μεταλλικής ή νάιλον επιφάνειας, γνωστής ακουστικής αντίστασης, αποτελούμενης από σύρματα μέσω της οποίας οδηγείται η ροή. Η μάσκα του Rothenberg είναι μία μάσκα προσώπου στην οποία έχει ανοιχθεί ένας αριθμός οπών. Οι τρύπες καλύπτονται από ένα μεταλλικό πλέγμα. Ελαστικό υλικό τοποθετείται στην άκρη της μάσκας για να αποφευχθεί η διαρροή. Ένα διαφορικό μικρόφωνο με τη μία είσοδο κοντά στην οπή στο εσωτερικό της μάσκας και την άλλη επίσης κοντά στην οπή αλλά στο εξωτερικό της μάσκας μετρά την πτώση πίεσης που οφείλεται στην ακουστική αντίσταση. O Rothenberg επιχείρησε να λύσει το πρόβλημα του υπολογισμού των συχνοτήτων συντονισμού με ταυτόχρονες μετρήσεις της ροής αέρα και ηλεκτρο-γλωττιδο-γραφικές (EGG) μετρήσεις [36]. Χρησιμοποίησε ως κριτήρια αντιστρόφου φιλτραρίσματος της ροής αέρα, δεδομένα από τις EGG μετρήσεις. Άλλες εργασίες κάνουν χρήση νευρωνικών δικτύων για να υλοποιήσουν μη γραμμικές προβλέψεις. Κατά τη διαδικασία παραγωγής φωνής στον άνθρωπο, συμβαίνουν μη γραμμικά φαινόμενα, και η επιτυχία μεθόδων οι οποίες στηρίζονται στο γραμμικό μοντέλο εξαρτάται από τη γραμμικότητα που υπάρχει μεταξύ διαδοχικών δειγμάτων στο σήμα ομιλίας. Η ανάπτυξη των νευρωνικών δικτύων επέτρεψε την υλοποίηση μη γραμμικών τεχνικών. Μεταξύ αυτών περιλαμβάνονται ένα νευρωνικό δίκτυο χρονικής καθυστέρησης (TDNN, Time-Delay Neural Network) [37], ένα ακτινικής βάσης δίκτυο (RBF, Radial Basis Function network) [38], και ένα επαναληπτικό νευρωνικό δίκτυο (RNN, Recurrent Neural Network) [39]. Τέλος ο Markel [40] εφάρμοσε τη μέθοδο του Prony [41] στην ανάλυση του σήματος ομιλίας. Η μέθοδος αυτή, η οποία πήρε το όνομά της από τον βαρόνο του Prony Gaspard Riche, στηρίζεται στην ανάλυση του σήματος σε σειρά ημιτόνων, όπως και ο μετασχηματισμός Fourier, με τη διαφορά ότι τα ημίτονα είναι εκθετικά αποσβενήμενα. Παρόλα αυτά οι δύο μέθοδοι που χρησιμοποιούνται στην παρούσα εργασία είναι αυτή της γραμμικής πρόβλεψης με συμμεταβλητότητα, και η μέθοδος Cepstrum, οι οποίες αναλύονται παρακάτω.

26 ΚΕΦΑΛΑΙΟ ΜΕΘΟΔΟΣ ΓΡΑΜΜΙΚΗΣ ΠΡΟΒΛΕΨΗΣ (LINEAR PREDICTIVE CODING) Με τη μέθοδο αυτή επιθυμούμε να υπολογίσουμε την κρουστική απόκριση της στοματοφαρυγγικής κοιλότητας h(n) ή ισοδύναμα του μετασχηματισμού Fourier αυτής H(ω). Χρησιμοποιούμε το μοντέλο πηγής-φίλτρου, θεωρώντας ότι η φωνητική οδός μπορεί ακουστικά να προσεγγιστεί, για ήχους φωνηέντων, από μία αλληλουχία σωλήνων ίσου πάχους, οι οποίοι δεν παρουσιάζουν σημαντική σύζευξη μεταξύ τους ή με άλλα μέρη του στοματοφάρυγγα (π.χ ρινική κοιλότητα). Συνεπώς, στη θέση της τοποθετούμε ένα ολοπολικό φίλτρο με συνάρτηση μεταφοράς[42]: H ( ω) = 1 A M k k = 1 ae ω j k (3. 1) όπου το A είναι το κέρδος της φωνητικής οδού, Μ είναι η τάξη του φίλτρου, και α κ είναι οι συντελεστές του πολυωνύμου που χρησιμοποιείται για τον καθορισμό των πόλων του συστήματος. Θεωρούμε ότι οι θέσεις των συντονισμών καθορίζονται από τις θέσεις των πόλων του συστήματος για ένα φωνήεν. Στην προσπάθειά μας, λοιπόν, να εντοπίσουμε τις θέσεις των συντονισμών, χρησιμοποιούμε τη μέθοδο Linear Predictive Coding Covariance [28], και εκτιμούμε τους συντελεστές γραμμικής πρόβλεψης από μία δεδομένη κυματομορφή φωνής. Υποθέτουμε ότι το παρόν δείγμα φωνής μπορεί να προβλεφθεί από τα προηγούμενα Μ δείγματα φωνής έτσι ώστε x% ( n) = axn ( 1) + axn ( 2) a xn ( M) = axn ( i) (3. 2) 1 2 M M i= 1 i όπου x% (n) είναι η πρόβλεψη του x(n), x(n-i) είναι το i-στό προηγούμενο δείγμα, και {α i } είναι οι συντελεστές γραμμικής πρόβλεψης. Το σφάλμα μεταξύ του πραγματικού δείγματος και της πρόβλεψης μπορεί να εκφραστεί ως:

27 ΚΕΦΑΛΑΙΟ 3 27 M ε ( n) = x( n) x% ( n) = x( n) a x( n i) (3. 3) i= 1 i Το άθροισμα του τετραγωνικού σφάλματος το οποίο πρέπει να ελαχιστοποιήσουμε εκφράζεται ως: ( ) ( ) ( ) M 2 E = ε n = x n ai x n i n n i= 1 (3. 4) 2 Θέτοντας την παράγωγο του Ε ως προς α ι ίση με μηδέν, χρησιμοποιώντας τον κανόνα αλυσίδας, έχουμε: M 2 xn ( k) xn ( ) axn i ( i) = 0 n i= 1 για k=1, 2, 3, M. (3. 5) Η παραπάνω εξίσωση καταλήγει σε Μ εξισώσεις με Μ αγνώστους ως εξής: a x( n k) x( n 1) + a x( n k) x( n 2) a x( n k) x( n M) i 2 M n n n = xn ( kxn ) ( ) n για k=1, 2, 3,, M. (3. 6) Αν για παράδειγμα θέλουμε να γράψουμε τις παραπάνω εξισώσεις για N = 5 και Μ = 2, τότε θα έχουμε: Οι εξισώσεις σφάλματος θα είναι: ε (0) = x(0) ε (1) = x(1) a x(0) 1 ε (2) = x(2) ax(1) ax(0) 1 2 ε (3) = x(3) ax(2) ax(1) 1 2 ε (4) = x(4) ax(3) ax(2) 1 2 (3. 7) Οι τρεις τελευταίες εξισώσεις μπορούν να γραφτούν ως:

28 ΚΕΦΑΛΑΙΟ 3 28 ε (2) x(2) x(1) x(0) a1 ε (3) x(3) x(2) x(1) = a 2 ε (4) x(4) x(3) x(2) (3. 8) ή και ε = x Xa (3. 9) Για να ελαχιστοποιήσουμε το τετραγωνικό σφάλμα, ε Τ ε, πρέπει να θέσουμε ίση με μηδέν την παράγωγό του ως προς α, δηλαδή, T T ε ε = ( x Xa) ( x Xa) T ε ε T = 2 X ( x Xa) = 0 a (3. 10) Τώρα πρέπει να λύσουμε το ακόλουθο σύστημα 2x2 για να υπολογίσουμε τα α 1 και α 2 : T X Xa T = X x (3. 11) το οποίο είναι: x( n) xnxn ( ) ( + 1) xnxn ( ) ( + 1) a n= 1 n= 0 1 n= = 2 2 a 2 xnxn ( ) ( 1) x( n) + xnxn ( ) ( + 1) n= 0 n= 0 n= 0 (3. 12) Λύνοντας το παραπάνω σύστημα υπολογίζονται οι συντελεστές της μεθόδου γραμμικής πρόβλεψης συμμεταβλητότητας (LPC Covariance). Το επόμενο βήμα είναι να υπολογιστούν οι συχνότητες συντονισμού και τα εύρη ζώνης κάθε συντονισμού. Έστω ότι από τα δείγματα φωνής έχουμε υπολογίσει τους 2 πίνακες στα αντίστοιχα μέλη της παραπάνω εξίσωσης την οποία γράφουμε ως:

29 ΚΕΦΑΛΑΙΟ 3 29 Aa = B (3. 13) όπου Α είναι ο πίνακας του πρώτου μέλους, α είναι το διάνυσμα με τους συντελεστές α 1, α 2,,α Μ, και Β είναι ο πίνακας του δεύτερου μέλους. Υπολογίζουμε τον αντίστροφο πίνακα του Α, Α -1, και έχουμε: 1 1 A Aa = A B (3. 14) Τελικά, οι συντελεστές συμμεταβλητότητας που μας ενδιαφέρουν είναι ίσοι με: a 1 = A B (3. 15) Έχοντας υπολογίσει τους συντελεστές, επιστρέφουμε στην αρχική εξίσωση του κεφαλαίου, όπου μπορούμε να τοποθετήσουμε αυτούς τους συντελεστές ως συντελεστές του πολυωνύμου του παρονομαστή της συνάρτησης μεταφοράς της στοματοφαρυγγικής οδού. Έτσι έχουμε: H ( ω) = 1 A M k k = 1 ae ω j k (3. 16) Σε αυτό το σημείο θα ήταν χρήσιμο να αναφέρουμε ότι το παραπάνω φίλτρο θεωρούμε ότι είναι η υπέρθεση αριθμού φίλτρων ίσου με τον αριθμό των συντονισμών που θέλουμε να υπολογίσουμε. Καθένα από αυτά έχει δύο συζυγείς πόλους και συνάρτηση μεταφοράς: H ( ω ) = k 1 * ( z zk)( z zk ), (3. 17) όπου k= 1, 2,, p και p ο αριθμός των συντονισμών. Η υπέρθεση των επιμέρους φίλτρων, το γινόμενο των συναρτήσεων μεταφοράς τους δηλαδή, παράγει το συνολικό φίλτρο [43], [44].

30 ΚΕΦΑΛΑΙΟ 3 30 p H( ω) = H ( ω) (3. 18) k = 1 k Έχοντας σχηματίσει τον παρονομαστή του φίλτρου αυτού, ως επόμενο βήμα, υπολογίζουμε τις ρίζες του. Το φίλτρο που προκύπτει δεν είναι πάντα ευσταθές, αν και τις περισσότερες φορές είναι. Για τους πόλους που βρίσκονται στο πρώτο τεταρτημόριο του μιγαδικού επιπέδου ακολουθούμε την παρακάτω διαδικασία. Αν ο πόλος είναι ευσταθής, δηλαδή βρίσκεται εντός του μοναδιαίου κύκλου, παραμένει ως έχει. Αν βρίσκεται εκτός του μοναδιαίου κύκλου, τότε τον αντικαθιστούμε με τον 1/z *. Η διαδικασία αυτή πολλαπλασιάζει την απόκριση με μία σταθερά, ίση με το μέτρο του πόλου, αλλά αφήνει τη μορφή της ίδια. Τέλος, από κάθε πόλο που έχει προκύψει, υπολογίζουμε την αντίστοιχη συχνότητα συντονισμού και το εύρος ζώνης του συντονισμού k ως εξής. f k = BW k farcz s k 2π fs ln z = π k (3. 19) για k=1, 2,.., p, όπου f s η συχνότητα δειγματοληψίας του σήματος φωνής. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε τμήμα (frame) φωνής. 3.2 ΜΕΘΟΔΟΣ CEPSTRUM Με την λέξη Cepstrum [45], εννοούμε το αποτέλεσμα του αντίστροφου μετασχηματισμού Fourier του λογαρίθμου του φάσματος (Spectrum) θεωρώντας το τελευταίο ως σήμα. Το όνομα αυτό προήλθε από τον αναγραμματισμό της λέξης Spectrum, αντιστρέφοντας τα τέσσερα πρώτα γράμματά της. Μπορούμε να μιλήσουμε για μιγαδικό και πραγματικό Cepstrum. Το μιγαδικό cepstrum χρησιμοποιεί ως φάσμα το αποτέλεσμα του μιγαδικού μετασχηματισμού Fourier

31 ΚΕΦΑΛΑΙΟ 3 31 διατηρώντας πληροφορία για το πλάτος και τη φάση του φάσματος, και επιτρέποντας την πλήρη ανακατασκευή του αρχικού σήματος. ( ) Cepstrum = FT 1 log( FT ( x) (3. 20) όπου x το σήμα φωνής. Το πραγματικό cepstrum χρησιμοποιεί ως φάσμα το μέτρο του μετασχηματισμού fourier του σήματος, και κρατά πληροφορία για το πλάτος του φάσματος. Το τελευταίο είναι αυτό στο οποίο θα αναφερθούμε στη συνέχεια. ( ) Cepstrum FT 1 log ( FT ( x) = (3. 21) Η ανάλυση ξεκινά και πάλι από το γραμμικό μοντέλο πηγής φίλτρου και έχει ως στόχο τον διαχωρισμό της επίδρασης της πηγής, δηλαδή της γλωττιδικής διέγερσης, από την αντίστοιχη του φίλτρου, δηλαδή, της στοματοφαρυγγικής οδού. Αν υποθέσουμε ότι s(n) είναι το σήμα φωνής μετά τη δειγματοληψία, g(n) είναι το σήμα των παλμών διέγερσης της γλωττίδας και h(n) η κρουστική απόκριση του στοματοφάρυγγα, τότε σύμφωνα με το μοντέλο θα ισχύει [46], [47], [48]: sn ( ) = gn ( )* hn ( ) (3. 22) Ο μετασχηματισμός Ζ της παραπάνω εξίσωσης μας επιτρέπει να μετατρέψουμε τη συνέλιξη σε γινόμενο: Sz ( ) = GzHz ( ) ( ) (3. 23) Αν πάρουμε το λογάριθμο κάθε μέλους της παραπάνω εξίσωσης, το γινόμενο θα μετατραπεί σε άθροισμα και θα έχουμε: log S( z) = log G( z) + log H( z) (3. 24)

32 ΚΕΦΑΛΑΙΟ 3 32 Στη συνέχεια, για να υπολογίσουμε το cepstrum, υπολογίζουμε τον αντίστροφο μετασχηματισμό Fourier. Στην πράξη, ο μετασχηματισμός Fourier αντικαθιστάται από τον FFT, ο οποίος προσφέρει τα ίδια χαρακτηριστικά γραμμικότητας με τον Ζ. Τελικά, η χρησιμοποιούμενη έκφραση του cepstrum είναι: ( ) 1 c( n) = FFT log( FFT ( s( n))) (3. 25) Το cepstrum ενός τμήματος σήματος φωνής φαίνεται στην παρακάτω εικόνα. Η ανεξάρτητη μεταβλητή σε ένα τέτοιο διάγραμμα ονομάζεται quefrencies κατ αντιστοιχία με τη λέξη frequencies στο φάσμα. Η μονάδα μέτρησης των quefrencies είναι το sec. Εικόνα 3. 1 Διάγραμμα Cepstrum Στο παραπάνω διάγραμμα το πρώτο δείγμα αποτελεί μέγιστη τιμή και δεν λαμβάνεται υπόψη στην παρακάτω ανάλυση. Το αμέσως επόμενο (σε τιμή) μέγιστο που παρουσιάζεται αντιστοιχεί στη θεμελιώδη συχνότητα του σήματος φωνής, ή ισοδύναμα στο ρυθμό επανάληψης των γλωττιδικών παλμών στο σήμα διέγερσης. Διαιρώντας τη συχνότητα δειγματοληψίας (f s ) με τη θέση (x) στην οποία παρουσιάζεται το μέγιστο αυτό στο Cepstrum υπολογίζουμε την θεμελιώδη συχνότητα: f 0 f s = (3. 26) x

33 ΚΕΦΑΛΑΙΟ 3 33 Στα ακέραια πολλαπλάσια αυτού του συντελεστή παρουσιάζονται, επίσης, τοπικά μέγιστα τα οποία ονομάζονται rahmonics κατ αντιστοιχία με τη λέξη harmonics που δηλώνει τις αρμονικές στο φάσμα. Με τον υπολογισμό του cepstrum έχουμε καταφέρει να έχουμε αθροιστικά και όχι σε γινόμενο, την γλωττιδική επίδραση και την επίδραση του στοματοφάρυγγα στο σήμα φωνής σε ένα κοινό διάγραμμα. Η σημαντικότερη, ίσως, ιδιότητα του cepstrum είναι ότι οι δύο αυτοί παράγοντες εντοπίζονται σε διαφορετικά τμήματα του. Συγκεκριμένα, η επίδραση της θεμελιώδους συχνότητας εντοπίζεται σε περιοχές γύρω από τα rahmonics, ενώ η επίδραση του στοματοφάρυγγα εντοπίζεται κυρίως στα πρώτα δείγματα. Τα υπόλοιπα δείγματα είναι αποτέλεσμα κυρίως του φασματικού θορύβου [29], [49], [50]. Αξίζει, εδώ, να σημειωθεί ότι με την αύξηση της θεμελιώδους συχνότητας τα rahmonics μετατοπίζονται προς την αρχή του cepstrum και από ένα σημείο και μετά μπορεί να εισέρχονται στην περιοχή που αντιστοιχεί στην επίδραση του στοματοφάρυγγα. Για να εξάγουμε από αυτό το διάγραμμα την πληροφορία που αφορά το φασματικό φάκελο και επομένως τους συντονισμούς, εφαρμόζουμε ένα τετραγωνικό χρονικό παράθυρο. Η διαδικασία αυτή ονομάζεται Liftering σε αντιστοιχία με το filtering του φάσματος. Με αυτόν τον τρόπο απομονώνουμε τα πρώτα δείγματα του cepstrum. Στη συνέχεια εφαρμόζουμε μετασχηματισμό fourier σε αυτά, για να πάρουμε τελικά το διάγραμμα που στη βιβλιογραφία αναφέρεται ως smoothed spectrum [46]. Εικόνα 3. 2 Διαδικασία υπολογισμού εξομαλυσμένου φάσματος Αυτό αποτελεί προσέγγιση του φασματικού φακέλου του σήματος φωνής. Εντοπίζοντας τα τοπικά του μέγιστα ή το μέγιστο σε κάποια περιοχή του φάσματος

34 ΚΕΦΑΛΑΙΟ 3 34 που μας ενδιαφέρει, έχουμε εξάγει τη θέση των συντονισμών. Αν το μέγιστο αυτό εντοπίζεται στο x-στο δείγμα από την αρχή του εξομαλυσμένου φάσματος το οποίο προήλθε από τα y πρώτα δείγματα του cepstrum, τότε η αντίστοιχη συχνότητα συντονισμού θα είναι: f = x f s 2Μ (3. 27) όπου M το ο αριθμός δειγμάτων του μονόπλευρου cepstrum. Τέλος, σημειώνουμε ότι αρχικά, κατά την ανάλυση κάθε κομματιού δειγμάτων του σήματος φωνής, εφαρμόζουμε ένα χρονικό παράθυρο Hamming σε όλα τα κομμάτια (frames) δειγμάτων ώστε να έχουμε ένα εξομαλυσμένο τμήμα φωνής προς επεξεργασία. Το παράθυρο χρησιμοποιείται, για να αποφύγουμε την παραμόρφωση του φάσματος λόγω της απότομης έναρξης και λήξης του τμήματος δειγμάτων. 3.3 ΣΥΖΗΤΗΣΗ-ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ Στο κεφάλαιο αυτό παρουσιάσαμε τις κυριότερες μεθόδους εξαγωγής των συντονισμών του στοματοφάρυγγα από φωνητικά σήματα, τη μέθοδο γραμμικής πρόβλεψης (LPC Covariance) και τη μέθοδο Cepstrum. Η αξιολόγηση της αποτελεσματικότητάς τους απαιτεί ως είσοδο του συστήματος σήματα φωνής με γνωστά χαρακτηριστικά. Είναι απαραίτητη, για παράδειγμα, η εκ των προτέρων αξιόπιστη γνώση των θέσεων των συντονισμών στο φάσμα και του εύρους ζώνης κάθε συντονισμού. Μία λύση στο συγκεκριμένο πρόβλημα προσφέρουν οι βάσεις δεδομένων φωνητικών σημάτων, όπως η βάση TIMIT, οι οποίες περιλαμβάνουν δείγματα φωνής που έχουν ηχογραφηθεί από άτομα διαφορετικής ηλικίας και φύλου. Οι θέσεις των συντονισμών αυτών των σημάτων είναι γνωστές. Ο εντοπισμός των θέσεων των συντονισμών του στοματοφάρυγγα, ωστόσο, είναι πρόβλημα που εξαρτάται από πολλές παραμέτρους, όπως το pitch, το σχήμα των γλωττιδικών παλμών, την απόσταση μεταξύ των συντονισμών καθώς και από το

35 ΚΕΦΑΛΑΙΟ 3 35 θόρυβο. Τόσο κατά την αξιολόγηση όσο και κατά την βελτίωση μεθόδων επίλυσής του θα ήταν χρήσιμο να μπορούν να ελεγχθούν κατά το δυνατόν περισσότερες παράμετροι οι οποίες εμπλέκονται. Είναι προφανής, λοιπόν, η ανάγκη μοντελοποίησης της φωνής και η χρήση τεχνητών σημάτων για προσομοίωση πριν κάποιος προχωρήσει στη χρήση πραγματικών φωνών [51], [52]. Η παραμετροποίηση ενός τέτοιου μοντέλου θα πρέπει να είναι εκτενέστατη, ώστε να ενισχύεται το συγκριτικό πλεονέκτημά του σε σχέση με τα αληθινά δείγματα φωνής. Στο επόμενο κεφάλαιο περιγράφεται το μοντέλο που χρησιμοποιήθηκε για την κατασκευή ενός εργαλείου παραγωγής τεχνητών φωνητικών σημάτων. Τα σήματα αυτά προορίζονται για την μελέτη μεθόδων υπολογισμού των συντονισμών του στοματοφάρυγγα, αλλά μπορούν να χρησιμοποιηθούν και στην μελέτη άλλων μεθόδων επεξεργασίας φωνής.

36 ΚΕΦΑΛΑΙΟ 4 36 ΚΕΦΑΛΑΙΟ 4 ΜΟΝΤΕΛΟΠΟΙΗΣΗ Όπως αναφέραμε σε προηγούμενο κεφάλαιο, για να αξιολογήσουμε μεθόδους επεξεργασίας φωνής, είναι χρήσιμο κάποιες φορές να έχουμε τον πλήρη έλεγχο των σημάτων με τα οποία τις τροφοδοτούμε. Αυτό συμβαίνει όταν, για παράδειγμα, πρόκειται να μελετήσουμε την επίδραση των μεταβολών ενός συγκεκριμένου χαρακτηριστικού στο αποτέλεσμα μίας μεθόδου. Σε αυτές τις περιπτώσεις καταφεύγουμε στη διαδικασία της μοντελοποίησης. Προσομοιώνουμε, χρησιμοποιώντας κάποιο μοντέλο, το σύστημα παραγωγής φωνής και παράγουμε σήματα των οποίων τα χαρακτηριστικά γνωρίζουμε για να τροφοδοτήσουμε τη μέθοδό μας. Φυσικά, δεν πρέπει να παραγνωρίζουμε τη χρησιμότητα του ελέγχου των τεχνικών επεξεργασίας με πραγματικές φωνές. Με αυτές, όμως, δεν μπορούμε να εξασφαλίσουμε για τη μέθοδό μας ένα περιβάλλον πλήρως ελεγχόμενο από εμάς, κάτι που είναι ιδιαίτερα χρήσιμο, στα στάδια της ανάπτυξης αλλά και του πρώτου ελέγχου μιας τεχνικής. Φυσικά σήματα θα ήταν αποτελεσματικότερο να χρησιμοποιήσουμε στο τελικό στάδιο αξιολόγησης. Ο μηχανισμός παραγωγής της φωνής, που ήδη έχουμε περιγράψει, είναι ένα πολύπλοκο σύστημα, όπως είναι εξάλλου και κάθε μηχανισμός του ανθρώπινου σώματος. Από την άλλη, πολλά χαρακτηριστικά του σήματος φωνής μπορεί να επηρεάσουν την αξιοπιστία μίας μεθόδου. Για να ελεγχθούν κατά το δυνατόν περισσότερα τέτοια χαρακτηριστικά θα πρέπει η διαδικασία της προσομοίωσης να είναι πολυπαραμετρική. Αρχικά, είναι απαραίτητη η χρήση μεταβλητών που αφορούν στη μορφή του σήματος γλωττιδικών παλμών. Ακόμη, τα χαρακτηριστικά των συντονισμών της στοματοφαρυγγικής κοιλότητας έχουν ιδιαίτερη σημασία, λόγω και του προβλήματος το οποίο μελετούμε. Τέλος, παράμετροι προσθετικού θορύβου, ο οποίος εμφανίζεται στα σήματα φωνής, λόγω φαινομένων που συμβαίνουν στην φωνητική οδό δεν πρέπει να παραληφθούν. Στην παρακάτω εικόνα φαίνεται η διεπαφή χρήστη της εφαρμογής που αναπτύχθηκε για την παραγωγή τεχνητών σημάτων φωνής, της οποίας το πλήρες εγχειρίδιο χρήσης μπορεί να βρεθεί στο Παράρτημα Α.

37 ΚΕΦΑΛΑΙΟ 4 37 Εικόνα 4. 1 Διεπαφή εφαρμογής προσομοίωσης σημάτων φωνής Στη συνέχεια του κεφαλαίου παρουσιάζονται τα μοντέλα τα οποία χρησιμοποιήθηκαν για την παραγωγή των γλωττιδικών παλμών και για τη διαμόρφωσή τους κατά τη διέλευση από τη στοματοφαρυγγική οδό, στην ανάπτυξη του εργαλείου παραγωγής συνθετικών σημάτων φωνής. 4.1 ΜΟΝΤΕΛΟ ΓΛΩΤΤΙΔΙΚΩΝ ΠΑΛΜΩΝ Το γραμμικό μοντέλο παραγωγής φωνής που εισήχθηκε από τον Fant το 1960 [53], συνέβαλε στην πρόοδο της ανάλυσης, της σύνθεσης και κωδικοποίησης της φωνής. Αρχικά, η έρευνα που αφορούσε αυτό το μοντέλο είχε επικεντρωθεί στα χαρακτηριστικά του φίλτρου της φωνητικής οδού. Αντίθετα, δεν είχε δοθεί σημαντική προσοχή στα μοντέλα της πηγής, αν και η έρευνα είχε δείξει ότι το σχήμα των γλωττιδικών παλμών ήταν σημαντικό για την παραγωγή φωνηέντων τα οποία θα ακούγονταν φυσικά [54],[55]. Σταθμός στην ανάπτυξη μοντέλων γλωττιδικών παλμών υπήρξε η ανάπτυξη του LF μοντέλου από τους Liljencrants, Fant και Lin το 1985 [56]. Έπειτα από αυτό αρκετές εργασίες παρουσιάστηκαν από τους Childers, Klatt, Velduis, Rosenberg, οι οποίες είτε εξέλυσαν ή χρησιμοποιούσαν το LF μοντέλο [57], [58], [59], [60].

38 ΚΕΦΑΛΑΙΟ 4 38 Μία διαφορετική προσέγγιση του προβλήματος είναι το πολυωνυμικό μοντέλο που προτάθηκε από τον Milenkovic το 1993 [61] και χρησιμοποιήθηκε από τον Childers το 1994 [58]. Σύμφωνα με το μοντέλο αυτό η παράγωγος της γλωττιδικής ροής προσεγγίζεται με ένα πολυώνυμο έκτου βαθμού ως εξής: p() t = c + ct + c t + c t + c t + c t + c t (4. 1) όπου τ =1/Τ, t είναι η ανεξάρτητη μεταβλητή και Τ είναι η περίοδος του γλωττιδικού παλμού. Οι συντελεστές στην παραπάνω εξίσωση, σε αντίθεση με τους αντίστοιχους που παρουσιάζονται στο LF μοντέλο, δεν έχουν καμία προφανή φυσική σημασία ή ερμηνεία που να σχετίζεται με τη φυσιολογία, αλλά μπορεί να αποδειχθούν κατάλληλες για σύνθεση υψηλής ποιότητας λόγου [61]. Μία τρίτη λύση στην παραγωγή γλωττιδικών παλμών είναι αυτή που προτάθηκε από τον Klatt το 1990 [59]. Σύμφωνα με αυτή αρκεί να παραχθεί μία σειρά ώσεων με συχνότητα ίση με τη θεμελιώδη συχνότητα του σήματος φωνής που επιθυμούμε. Αυτός ο συρμός ώσεων στη συνέχεια πρέπει να διέλθει από ένα φίλτρο, το οποίο να εισάγει στο σήμα τα χαρακτηριστικά που αντιστοιχούν στην συγκεκριμένη, σε κάθε περίπτωση, λειτουργία των φωνητικών χορδών. Στην απλούστερη περίπτωση, το φίλτρο αυτό θα είναι ένα χαμηλοπερατό φίλτρο, του οποίου η συνάρτηση μεταφοράς θα μπορεί να μεταβάλλεται. Από τις τρεις κατηγορίες γλωττιδικών μοντέλων, στην παρούσα εργασία χρησιμοποιήθηκε μια παραλλαγή του μοντέλου του Fant. Στην περιγραφή του μαθηματικού μοντέλου των γλωττιδικών παλμών θα χρησιμοποιήσουμε, αντί για τη ροή αέρα μέσω της γλωττίδας, την παράγωγό της. Αυτή εκφράζει το αποτέλεσμα του συνδυασμού της γλωττιδικής ροής και ενός διαφορικού παράγοντα ο οποίος προκύπτει από την μετατροπή της ροής σε ακουστική πίεση στα χείλη. Η επιλογή αυτή γίνεται γιατί η παράγωγος προκύπτει πιο εύκολα από το σήμα ομιλίας, και γιατί κάποιες από τις γλωττιδικές παραμέτρους μπορούν να εξαχθούν πιο εύκολα από αυτή. Το πρώτο σχήμα δείχνει το πραγματικό μοντέλο της φωνητικής οδού, με το διαφορικό παράγοντα στο τέλος. Στο δεύτερο, φαίνεται το ισοδύναμο μοντέλο που χρησιμοποιούμε στην δημιουργία των γλωττιδικών παλμών.

39 ΚΕΦΑΛΑΙΟ 4 39 g(t) γλωττιδικοί παλμοί h(t) φίλτρο στοματοφάρυγγα d dt διαφορικός παράγοντας στα χείλη s(t) σήμα φωνής Εικόνα 4. 2 Μοντέλο φωνητικής οδού g (t) παράγωγος γλωττιδικών παλμών h(t) φίλτρο στοματοφάρυγγα s(t) σήμα φωνής Εικόνα 4. 3 Ισοδύναμο μοντέλο φωνητικής οδού Το LF μοντέλο [56] εισάγει για τη γλωττιδική κυματομορφή τις παραμέτρους t 0, t e, t a, t p, U 0, E e, που φαίνονται στο παρακάτω σχήμα. Το μήκος του γλωττιδικού κύκλου είναι t 0. Η μέγιστη ροή U 0 συμβαίνει τη χρονική στιγμή t p και η μέγιστη διέγερση με πλάτος Ε e συμβαίνει τη χρονική στιγμή t e, η οποία αντιστοιχεί τη χρονική στιγμή κατά την οποία οι φωνητικές χορδές έρχονται σε επαφή. Το χρονικό διάστημα πριν το t e ονομάζεται ανοιχτή φάση. Το διάστημα αμέσως μετά τη μέγιστη διέγερση με μήκος περίπου t a =E e /g (t e ) ονομάζεται φάση επιστροφής. Το υπόλοιπο διάστημα μέχρι το τέλος του παλμού ονομάζεται κλειστή φάση. Κατά τη διάρκεια αυτής της φάσης οι φωνητικές χορδές παρουσιάζουν μέγιστη σύγκλιση, και η ροή παίρνει την ελάχιστη τιμή της. Ελάχιστη τιμή της ροής μεγαλύτερη του μηδενός ονομάζεται διαρροή. Αυτή μπορεί να επηρεάζει την παραγόμενη φωνή, είτε μεταβάλλοντας τους συντονισμούς, λόγω δημιουργίας σύζευξης της φωνητικής οδού με την τραχεία, είτε δημιουργώντας προσθετικό θόρυβο στην κυματομορφή των γλωττιδικών παλμών.

40 ΚΕΦΑΛΑΙΟ 4 40 Εικόνα 4. 4 Παράμετροι του LF μοντέλου Οι παράμετροι που προαναφέραμε ονομάζονται και T παράμετροι. Στην ίδια εργασία [4] ορίζονται και οι ισοδύναμοι R παράμετροι ως εξής: te r0 = t r r a k 0 t = t = a 0 ( te tp) t p (4. 2) Το κύριο μειονέκτημα του LF μοντέλου είναι ότι για να υπολογιστεί η συνάρτηση της κυματομορφής του γλωττιδικού παλμού θα πρέπει να υπολογιστεί μια επιπλέον παράμετρος από μια μη γραμμική εξίσωση συνέχειας [56]. Αυτό οδηγεί σε πολύπλοκους υπολογισμούς και μεγάλη επεξεργαστική φόρτιση. Για την επίλυση αυτού του προβλήματος ο Rosenberg [55] προτείνει ένα νέο μοντέλο το οποίο ορίζεται από τις παρακάτω εξισώσεις:

41 ΚΕΦΑΛΑΙΟ 4 41 gt () = 0 te t t 2 At ( te t) 0 t te 0 (4. 3) 2 3 At( te t) 0 t t g'( t) = 3 0 te t t e 0 (4. 4) όπου Α είναι το πλάτος του γλωττιδικού παλμού. Το μοντέλο του Rosenberg δεν έχει φάση επιστροφής και πάντα ισχύει t p =2t e /3. Αυτό μειώνει την ευελιξία του. Κάποιες φορές εισάγεται μια ψευδο-φάση επιστροφής εφαρμόζοντας ένα πρώτης ή δεύτερης φάσης χαμηλοπερατό φίλτρο στην κυματομορφή της παραγώγου, αλλά αυτό έχει επίδραση στην τιμή της παραγώγου t p [59]. To μοντέλο που χρησιμοποιούμε στη δική μας εφαρμογή προτάθηκε από τον Velduis [60]. Ο ίδιος το ονομάζει Rosenberg++ μοντέλο προσθέτοντας ένα + για κάθε επέκταση που εφαρμόζει στο μοντέλο του Rosenberg. Η πρώτη προσθήκη είναι η εισαγωγή μιας φάσης επιστροφής. Η δεύτερη είναι η προσθήκη ενός ακόμη παράγοντα στον πρώτο κλάδο της συνάρτησης, έτσι ώστε να μπορούμε να καθορίσουμε την παράμετρο t p Η πρώτη προσθήκη είναι μία συνάρτηση εκθετικής απόσβεσης στον κλάδο επιστροφής του παλμού που οδηγεί στην παρακάτω εξίσωση: f () t 0 t te t te t0 te g'( t) = ta ta e e f ( te) t t < t 1 e t0 te e 0 ta (4. 5) Η συνάρτηση f(t) στην πρώτη γραμμή περιγράφει την παράγωγο του γλωττιδικού παλμού μέχρι τη στιγμή της μέγιστης διέγερσης. Η δεύτερη γραμμή προσομοιώνει τη φάση επιστροφής. Η δεύτερη προσθήκη οδηγεί στην παρακάτω εξίσωση: f () t = 4 At( t t)( t t) (4. 6) p Η εξίσωση συνέχειας για τους δύο κλάδους έχει τη μορφή: x

42 ΚΕΦΑΛΑΙΟ 4 42 με t e f ( τ) d τ + t f a ( t e) D ( t 0, t e, t a) = 0 (4. 7) 0 Dt (, t, t) = 1 0 a e a t0 te ta e t 0 t t e 1 (4. 8) Οποιεσδήποτε παράμετροι της f(t) επιλεγούν θα πρέπει να ικανοποιούν την παραπάνω εξίσωση. Η παράμετρος t x προκύπτει από την επίλυση της εξίσωσης συνέχειας, και έχει την ακόλουθη μορφή: t x = te 1 t t t 2 e e p te 3 tetp + 6 ta ( te tp ) D ( t0, te, ta ) (4. 9) Ο παρονομαστής μηδενίζεται όταν: t p 2 te + 3 tad( t0, te, ta) = te 3 t + 2 t D( t, t, t ) e a 0 e a (4. 10) Σε αυτή την περίπτωση το R++ μοντέλο εκφυλίζεται σε ένα R+ μοντέλο t 2 3 f () t = 3 A( tp t) f( τ) dτ = At tp t 2 0 (4. 11) το οποίο είναι το μοντέλο Rosenberg επεκταμένο με μία φάση επιστροφής. Η επίδραση του παράγοντα t x -t στο σχήμα της παραγώγου του γλωττιδικού παλμού μειώνεται όταν αυξάνεται το t x. Για τιμές του t x αρκετά μεγάλες, το μοντέλο R++ μπορεί να αντικατασταθεί από το R+. Η επόμενη συνθήκη εξασφαλίζει ότι είτε t x t e είτε t x 0:

43 ΚΕΦΑΛΑΙΟ te + 4 tad( t0, te, ta) te tp te 2 4 te + 3 tad( t0, te, ta) (4. 12) Αυτή εξασφαλίζει ότι η g(t) είναι μη αρνητική, δηλαδή ότι ο γλωττιδικός παλμός παίρνει μη αρνητικές τιμές. Το αριστερό σκέλος της παραπάνω εξίσωσης δίνει ένα κατώτατο όριο στην κλίση του γλωττιδικού παλμού, το οποίο τον κάνει συμμετρικό όταν αγνοούμε τη φάση επιστροφής. Το μοντέλο που χρησιμοποιούμε προσεγγίζει έντονα το LF μοντέλο όταν r k <0.5. Για υψηλότερες τιμές η προσέγγιση είναι ελαφρώς χειρότερη. Μια ψυχοακουστική σύγκριση του μοντέλου R++ με το LF [60], έδειξε ότι είναι δυνατόν κάποιες φορές να διακρίνουμε φωνήεντα που δημιουργήθηκαν από τα δύο μοντέλα, χρησιμοποιώντας τις ίδιες παραμέτρους, αλλά κάτι τέτοιο είναι πολύ δύσκολο να συμβεί σε πρακτικές περιπτώσεις σύνθεσης φωνής. Ακόμη και αν υπάρξουν διαφορές που μπορούν να γίνουν ακουστές, αυτό δεν σημαίνει ότι κάποιο από τα δύο μοντέλα προσεγγίζει καλύτερα τον φυσικό λόγο, αφού πρόκειται για απλά μοντέλα μίας πολύπλοκης κυματομορφής, και οι διαφορές μεταξύ μοντέλων και πραγματικών κυματομορφών είναι πολύ μεγαλύτερες σε σχέση με αυτές μεταξύ των δύο μοντέλων. Λαμβάνοντας υπόψη τα παραπάνω, καθώς και την υπολογιστική απλότητα του R++ μοντέλου, αυτό επιλέχθηκε για την κατασκευή της εφαρμογής μας, εξασφαλίζοντας στο χρήστη ότι τηρούνται όλοι οι περιορισμοί που οδηγούν σε παλμούς που μοιάζουν φυσικοί. 4.2 ΧΡΟΝΙΚΕΣ ΜΕΤΑΒΟΛΕΣ ΠΑΡΑΜΕΤΡΩΝ ΚΑΙ ΘΟΡΥΒΟΣ Έχοντας έτοιμο το μοντέλο του γλωττιδικού παλμού, θα έπρεπε να μοντελοποιήσουμε και άλλα φαινόμενα που συμβαίνουν κατά τη διάρκεια της φώνησης. Ένα φαινόμενο, το οποίο θα έπρεπε να ληφθεί υπόψη, είναι αυτό της παρουσίας θορύβου στο σήμα του γλωττιδικού παλμού. Όταν, για παράδειγμα, κατά τη φώνηση η γλωττίδα παραμένει περισσότερο ανοιχτή από όσο μένει φυσιολογικά, τότε παράγεται φωνή που έχει έντονη χροιά αναπνοής (breathy voice) [59]. Η ύπαρξη τέτοιων περιπτώσεων συνεπάγεται την παρουσία θορύβου. Για να είναι δυνατή η

44 ΚΕΦΑΛΑΙΟ 4 44 μοντελοποίηση οποιουδήποτε είδους θορύβου, εισήχθη στην εφαρμογή προσθετικός θόρυβος. Λευκός, ροζ, αλλά και φιλτραρισμένος λευκός θόρυβος μπορεί να προστεθεί σε κάθε γλωττιδική περίοδο. Χρονικά, υπάρχουν τρεις φάσεις εισαγωγής του: κατά την κλειστή γλωττιδική περίοδο, κατά την ανοιχτή, ή στο σύνολο της διάρκειας του παλμού. Οι ακριβείς χρονικές στιγμές έναρξης και παύσης του θορύβου και η σηματοθορυβική σχέση μπορούν να αλλάζουν από περίοδο σε περίοδο για να μπορεί να μελετηθεί η επίδρασή τους στο αποτέλεσμα κάποιας μεθόδου. Τέλος, υπάρχει η δυνατότητα να προστεθούν χρονικά παράθυρα στο θόρυβο, τα οποία είναι της μορφής: τετραγωνικό, Gaussian, Blackman, Hamming, Hanning, με επίπεδη μέση φάση, και τριών φάσεων. Αναλυτικά, οι παράμετροι θορύβου περιγράφονται στο εγχειρίδιο χρήσης, στο παράρτημα Α. Ένα ακόμη φαινόμενο που μοντελοποιήθηκε είναι το ότι διαδοχικές περίοδοι του σήματος φωνής μπορεί να μην είναι πανομοιότυπες ακόμη και όταν ένα μόνο φωνήεν προφέρεται[59]. Στη βιβλιογραφία αναφέρονται όροι όπως jitter και shimmer, για να δηλώσουν την μεταξύ των περιόδων σήματος φωνής διακύμανση της διάρκειας της περιόδου, και την μεταξύ των περιόδων διακύμανση του πλάτους των γλωττιδικών παλμών [62], [63]. Μάλιστα, θα πρέπει να αποφεύγονται πανομοιότυπες γλωττιδικές περίοδοι στη σύνθεση φωνής, αφού το αποτέλεσμα σε αυτή την περίπτωση μοιάζει μηχανικό. Στη δική μας εφαρμογή έγινε προσπάθεια να δοθεί η μεγαλύτερη δυνατή ελευθερία στην επιλογή των παραμέτρων διακύμανσης των χαρακτηριστικών των γλωττιδικών παλμών από περίοδο σε περίοδο. Όλα τα χαρακτηριστικά τους έχουν τη δυνατότητα διακύμανσης, ακολουθώντας ημιτονοειδή, ράμπας, πριονωτή ή τυχαία μεταβολή, καθεμία με προκαθορισμένες παραμέτρους. Μπορεί, λοιπόν, ο χρήστης να μεταβάλει τα t 0, t e, t a, t p, το πλάτος, καθώς και τα σημεία έναρξης και παύσης του προσθετικού θορύβου. 4.3 ΕΛΕΓΧΟΣ ΤΩΝ FORMANTS Για την εισαγωγή στο παραγόμενο σήμα φωνής των χαρακτηριστικών εκείνων που οφείλονται στη συνεισφορά του στοματοφάρυγγα έχουν αναπτυχθεί διάφορα μοντέλα. Κάποια από αυτά έχουν ως σκοπό να προσομοιώσουν τη φυσική συμπεριφορά της διάταξης παραγωγής φωνής [64], [65]. Πρόκειται για τα αρθρωτικά

45 ΚΕΦΑΛΑΙΟ 4 45 (Articulatory) μοντέλα, τα οποία αναπαριστούν μηχανικά, το σχήμα της φωνητικής οδού ως συνάρτηση της θέσης των φωνητικών οργάνων (χείλη, γλώσσα, φάρυγγας κλπ). Το σήμα υπολογίζεται από μαθηματική προσομοίωση της ροής αέρα από τη φωνητική οδό. Οι παράμετροι ελέγχου ενός τέτοιου μοντέλου είναι η υπο-γλωττιδική πίεση, η τάση των φωνητικών χορδών και η σχετική θέση των οργάνων της περιοχής. Βασικό μειονέκτημα αυτών των μοντέλων είναι το γεγονός ότι τα δεδομένα που λαμβάνουμε, από κινηματογραφικές μεθόδους, για τη σχετική θέση των οργάνων δεν οδηγούν σε πλήρη αναπαράσταση των χαρακτηριστικών των πραγματικών διατάξεων. Από την άλλη, η παραγωγή γλωττιδικής διέγερσης με ένα αρθρωτικό μοντέλο είναι εξαιρετικά δύσκολη για τα φωνήεντα [66]. Η παρακάτω εικόνα δίνει ένα παράδειγμα αρθρωτικού μοντέλου. Εικόνα 4. 5 Παράδειγμα Αρθρωτικού μοντέλου. Η πλέον συνήθης μέθοδος προσομοίωσης της επίδρασης της φωνητικής οδού στο παραγόμενο σήμα είναι η εφαρμογή φίλτρου, που προσομοιώνει τους συντονισμούς της στοματοφαρυγγικής κοιλότητας, στο σήμα διέγερσης. Η εφαρμογή του φίλτρου θα πρέπει να δημιουργεί στην περιβάλλουσα της φασματικής αναπαράστασης του σήματος φωνής, κορυφές στις συχνότητες των συντονισμών και κοιλάδες στις υπόλοιπες συχνότητες. Ο Klatt [67] ανέπτυξε ένα σύστημα που

46 ΚΕΦΑΛΑΙΟ 4 46 αποτελείται από ένα σύνολο συντονιστών σε σειρά και παράλληλα. Το σύστημα διεγείρεται από κατάλληλη είσοδο η οποία προσεγγίζει το εκάστοτε γλωττιδικό σήμα. Ένα σύνολο σαράντα παραμέτρων καθορίζει το τελικό αποτέλεσμα. Τριάντα τέσσερις από αυτές μπορούν να μεταβάλλονται δυναμικά, ενώ οι υπόλοιπες παραμένουν σταθερές. Παρακάτω φαίνεται το μπλοκ διάγραμμα του συνθέτη φωνής του Klatt. Εικόνα 4. 6 Συνθέτης Φωνής του Klatt (1980) Στο μοντέλο Πηγής-Φίλτρου που χρησιμοποιήσαμε στην συγκεκριμένη εργασία, η συνολική συνάρτηση μεταφοράς του φίλτρου θα πρέπει να έχει τη μορφή [68]: H( z) = G p 1 (1 pi z ) i= 1 (4. 13) όπου p είναι ο αριθμός των πόλων της συνάρτησης, και G το συνολικό κέρδος.

47 ΚΕΦΑΛΑΙΟ 4 47 Για να επιτευχθεί αυτό χρησιμοποιείται μία σειρά διπολικών φίλτρων [69], καθένα από τα οποία προσομοιώνει έναν συντονισμό, όπως φαίνεται στην επόμενη εικόνα: H 1 (z) H 2 (z) H q (z) Εικόνα 4. 7 Μοντέλο στοματοφαρυγγικού φίλτρου από σειρά q διπολικών φίλτρων Ένα ζεύγος συζυγών πόλων χρησιμοποιείται για κάθε συντονισμό [68]. Άρα η συνάρτηση μεταφοράς του κάθε φίλτρου θα είναι: 1 1 H( z) = = 1 + az + az (1 Re z )(1 Re z ) 1 2 iθ 1 iθ (4. 14) όπου z=re iθ είναι ο ένας εκ των δύο μιγαδικών πόλων. Αν θεωρήσουμε ότι f s είναι η συχνότητα δειγματοληψίας, f r είναι η κεντρική συχνότητα του συντονισμού και BW το εύρος ζώνης του, τότε προκύπτουν [68] οι παρακάτω σχέσεις: R= e π BW fs 2π f θ = f s r (4. 15) από τις σχέσεις αυτές μπορούμε να δημιουργήσουμε τη συνάρτηση μεταφοράς κάθε φίλτρου μεμονωμένου συντονισμού, ορίζοντας μόνο την κεντρική του συχνότητα και το εύρος ζώνης του. Το τελευταίο βήμα είναι να εφαρμόσουμε σε σειρά τα φίλτρα στο σήμα των γλωττιδικών παλμών, οπότε προκύπτει η συνολική συνάρτηση μεταφοράς του στοματοφάρυγγα ως εξής: H( z) = H ( z) H ( z)... H ( z) (4. 16) 1 2 q

48 ΚΕΦΑΛΑΙΟ 4 48 όπου q είναι ο αριθμός των συντονισμών που εισάγουμε. Η συγκεκριμένη εφαρμογή έχει τη δυνατότητα εισαγωγής μέχρι έξι συντονισμούς. 4.4 ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ- ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΕΡΓΑΛΕΙΟΥ Η ανάπτυξη της εφαρμογής έχει, όπως αναφέραμε, σκοπό την κατασκευή ενός εργαλείου δημιουργίας σημάτων, χρήσιμων στην αξιολόγηση των τεχνικών επεξεργασίας φωνής. Δεν έχει ως κύριο σκοπό την παραγωγή σημάτων φωνής τα οποία θα ακούγονται φυσικά, όπως για παράδειγμα ένα vocoder. Για αυτό το λόγο και δεν πραγματοποιήθηκε κανένα ψυχοακουστικό πείραμα που να μελετά την φυσικότητα των παραγόμενων ήχων. Αντίθετα, στόχος είναι να παράγει τέτοια σήματα, τα οποία να μας επιτρέπουν να εξετάζουμε την επίδραση κάθε φαινομένου, που η βιβλιογραφία αναφέρει ότι συμβαίνει κατά τη διάρκεια της ομιλίας, ξεχωριστά. Να επιτρέπεται, δηλαδή, η ξεχωριστή μελέτη σε όσο το δυνατόν μεγαλύτερο φάσμα παραγόντων που συνυπάρχουν κατά τη δημιουργία της φωνής, διατηρώντας τους υπόλοιπους σταθερούς. Πρόκειται, αποκλειστικά, για το αποτέλεσμα ανάγκης να αξιολογηθούν τα αποτελέσματα μεθόδων επεξεργασίας φωνής. Στην πραγματικότητα, μοντελοποιεί τα φαινόμενα που συμβαίνουν κατά τη διάρκεια της φώνησης χωρίς να εισάγει κάποιο καινούριο μοντέλο. Το καινοτόμο στοιχείο της είναι ότι συγκεντρώνει έναν εξαιρετικά μεγάλο αριθμό παραγόντων μεταβλητών του σήματος φωνής. Εξάλλου, η αναζήτηση τέτοιων εργαλείων, με τόσο εκτεταμένη παραμετροποίηση, δεν έφερε αποτελέσματα. Η ύπαρξή του, τελικά, και η περαιτέρω εξέλιξή του είναι στενά συνδεδεμένες με τις διαδικασίες εξέλιξης και αξιολόγησης των τεχνικών επεξεργασίας φωνής, και της χρησιμότητας την οποία θα έχει σε αυτόν τον τομέα.

49 ΚΕΦΑΛΑΙΟ 5 49 ΚΕΦΑΛΑΙΟ 5 ΤΡΟΠΟΠΟΙΗΜΕΝΗ ΜΕΘΟΔΟΣ CEPSTRUM Στο παρόν κεφάλαιο εισάγεται μία τροποποίηση της μεθόδου Cepstrum που παρουσιάστηκε προηγουμένως. Η πρόταση αφορά την προσπάθεια βελτίωσης της μεθόδου στον υπολογισμό των συχνοτήτων συντονισμού, όταν η θεμελιώδης συχνότητα του σήματος φωνής είναι υψηλή, όπως συμβαίνει πολύ συχνά στο τραγούδι. Όπως ήδη έχουμε εξηγήσει, η πληροφορία που αφορά το φασματικό φάκελο του σήματος φωνής, περιορίζεται στα αρχικά δείγματα του Cepstrum, ενώ αυτή των αρμονικών εντοπίζεται σε περιοχές του όπου παρατηρούνται αιχμές. Τα σημεία αυτά, τα οποία ονομάζονται rahmonics ισαπέχουν μεταξύ τους απόσταση ίση σε δείγματα με αυτή του πρώτου rahmonics από την αρχή του cepstrum. Η απόσταση μεταξύ των rahmonics δίνεται από τη σχέση: f s s = (5. 1) f 0 όπου f s είναι η συχνότητα δειγματοληψίας του σήματος φωνής, και f 0 η θεμελιώδης συχνότητα. To πλάτος τους εξαρτάται από το αντίστοιχο πλάτος των αρμονικών συνιστωσών του φάσματος του σήματος φωνής και μπορεί να παίρνει τιμές από 1 δείγμα μέχρι κάποιες δεκάδες. Για χαμηλές τιμές της f 0 τα rahmonics παραμένουν εκτός της αρχικής περιοχής του cepstrum από την οποία, συνήθως, προκύπτει ο φασματικός φάκελος.

50 ΚΕΦΑΛΑΙΟ 5 50 Εικόνα 5. 1 Μορφή cepstrum για f 0 =100Hz Με την αύξηση, ωστόσο της f 0 τα rahmonics εντοπίζονται πιο κοντά στην αρχή του cepstrum. Από ένα σημείο και έπειτα, με την αύξηση του pitch εισέρχονται στην περιοχή των συντελεστών οι οποίοι χρησιμοποιούνται από τη μέθοδο cepstrum για τον υπολογισμό της φασματικής περιβάλλουσας. Εικόνα 5. 2 Cepstrum για f 0 =900Hz Ο μηδενισμός αυτών των περιοχών, κατά την καταστολή των rahmonics, όπως επιβάλλει η μέθοδος, συνεπάγεται απώλεια πληροφορίας που αφορά τον φασματικό φάκελο.

51 ΚΕΦΑΛΑΙΟ 5 51 Στην προτεινόμενη μέθοδο στις περιοχές των rahmonics οι συντελεστές cepstrum δεν μηδενίζονται. Αντί του μηδενισμού, εφαρμόζεται στην περιοχή του κάθε rahmonic ένα αντίστροφο gaussian παράθυρο, το οποίο επιβάλλει μέγιστη καταστολή στο κέντρο του παραθύρου (αιχμή του rahmonic) και ελάχιστη στα άκρα. Έχει επιλεγεί το πλάτος του παραθύρου να είναι μεγαλύτερο από το πλάτος του rahmonic και η τυπική απόκλιση του να είναι μικρή έτσι ώστε να συμβαίνει μέγιστη καταστολή της αιχμής του rahmonic και ελάχιστη επίδραση στους γειτονικούς συντελεστές. Στη συνέχεια, επιλέγονται οι πρώτοι συντελεστές του cepstrum που προκύπτει προσθέτοντας στο τέλος τους έναν επιπλέον αριθμό συντελεστών σε σχέση με αυτούς της αρχικής μεθόδου cepstrum. Αυτοί οι νέοι συντελεστές πολλαπλασιάζονται με μία συνάρτηση αντίστροφης ράμπας, ώστε οι τελευταίοι να εξασθενούν περισσότερο. Πρόκειται, ουσιαστικά, για μία διαδικασία τριπλού liftering. Το πρώτο lifter έχει τη μορφή ανεστραμμένου gaussian παραθύρου και καταστέλλει τα rahmonics. Το δεύτερο έχει τετραγωνική μορφή και αποκόπτει τους συντελεστές του cepstrum από τους οποίους θα προκύψει με μετασχηματισμό Fourier η εκτίμηση του φασματικού φακέλου. Τέλος, το τρίτο lifter έχει τη μορφή ανεστραμμένης συνάρτησης ράμπας, για να εξομαλύνει το τέλος του cepstrum. Εικόνα 5. 3Διαδικασία τριπλού liftering: 1. Αντίστροφο Gaussian παράθυρο για την καταστολή των rahmonics 2. Τετραγωνικό παράθυρο για την αποκοπή των χρήσιμων στον υπολογισμό του φασματικού φακέλου συντελεστών του cepstrum. 3. Γραμμική μείωση της βαρύτητας των τελευταίων συντελεστών cepstrum στον υπολογισμό. Η καταστολή των rahmonics προϋποθέτει ακριβή υπολογισμό της θέσης του πρώτου rahmonic, αφού τα υπόλοιπα εντοπίζονται σε αποστάσεις (σε δείγματα) που είναι ακέραια πολλαπλάσια της απόστασης του πρώτου από την αρχή. Για σήματα

52 ΚΕΦΑΛΑΙΟ 5 52 φωνής χαμηλού pitch, ο εντοπισμός του πρώτου rahmonic και συνεπώς ο υπολογισμός της f 0 πραγματοποιείται εύκολα, μη λαμβάνοντας υπόψη τους πρώτους συντελεστές Cepstrum, οι οποίοι έχουν μεγάλες τιμές, πιθανώς μεγαλύτερες από το μέγιστο του rahmonic. Για υψηλά pitch, ωστόσο, αυτή η διαδικασία γίνεται δύσκολη αφού παραβλέποντας τους πρώτους συντελεστές του cepstrum μπορεί να χαθεί και το πρώτο rahmonic που πιθανώς βρίσκεται μέσα σε αυτούς. Στο σημείο αυτό εισάγεται το δεύτερο σημείο τροποποίησης της μεθόδου cepstrum. Κατά τον υπολογισμό της f 0, δεν απαιτείται ο εντοπισμός του πρώτου rahmonic, αλλά χρησιμοποιείται η συνάρτηση αυτοσυσχέτισης του cepstrum. Μηδενίζοντας τους αρχικούς πολύ ισχυρούς συντελεστές του cepstrum, και λαμβάνοντας τη συνάρτηση αυτοσυσχέτισης προκύπτουν σε αυτή πολύ ισχυρές αιχμές λόγω της ίσης απόστασης μεταξύ των rahmonics στο αρχικό cepstrum. Ο υπολογισμός του αριθμού των δειγμάτων που παρεμβάλλονται μεταξύ δύο διαδοχικών κορυφών στη συνάρτηση αυτοσυσχέτισης είναι ίσος με αυτή την απόσταση. Παρακάτω φαίνεται ένα παράδειγμα συνάρτησης αυτοσυσχέτισης cepstrum. Εικόνα 5. 4 Παράδειγμα συνάρτησης αυτοσυσχέτισης cepstrum Για την υπολογισμό των τελικών εκτιμήσεων των τιμών των συντονισμών εφαρμόστηκε στον φασματικό φάκελο ένα παράθυρο ελαφράς εξομάλυνσης (moving

53 ΚΕΦΑΛΑΙΟ 5 53 average window), ώστε να μην ληφθούν υπόψη τοπικά μέγιστα του φακέλου αλλά μόνο οι ισχυροί συντονισμοί. Και στις τρεις μεθόδους, στο σήμα φωνής εφαρμόστηκε χαμηλοπερατό φίλτρο, για να αποφευχθούν φαινόμενα rippling. Τέλος, αξίζει να σημειωθεί ότι στο αρχικό σήμα φωνής εφαρμόστηκε σε όλες τις προσομοιώσεις παράθυρο, το οποίο για τη νέα μέθοδο ήταν Blackman ενώ για τη μέθοδο cepstrum ήταν αρχικά Hamming και στη συνέχεια Blackman. Στη μέθοδο LPC δεν εφαρμόστηκε παραθύρωση του σήματος. Το παρακάτω διάγραμμα συνοψίζει τη νέα μέθοδο: Σήμα φωνής LPF Blackman window Υπολογισμός f 0 με αυτοσυσχέτιση Υπολογισμός cepstrum Τριπλό liftering FFT formants Εικόνα 5. 5 Διάγραμμα τροποποιημένης μεθόδου Cepstrum

54 ΚΕΦΑΛΑΙΟ 6 54 ΚΕΦΑΛΑΙΟ 6 ΠΡΟΣΟΜΟΙΩΣΕΙΣ - ΑΠΟΤΕΛΕΣΜΑΤΑ Στο παρόν κεφάλαιο, οι τρεις μέθοδοι που ήδη περιγράφηκαν παραπάνω ελέγχονται ως προς την αποτελεσματικότητά τους σε σειρά προσομοιώσεων για τον υπολογισμό των συχνοτήτων συντονισμού του στοματοφάρυγγα. Τα σήματα που χρησιμοποιήθηκαν ως είσοδοι του συστήματος στις προσομοιώσεις παράχθηκαν από την Εφαρμογή Παραγωγής Φωνής. Κατά τη διέλευση του σήματος των γλωττιδικών παλμών από τα IIR φίλτρα τα οποία μοντελοποιούν τους συντονισμούς του στοματοφάρυγγα, δημιουργείται μία αρχική μεταβατική κατάσταση στο παραγόμενο σήμα πριν αυτό εισέλθει σε μία σταθερή κατάσταση. Για να προσομοιώσουμε κατά το δυνατόν πραγματικές συνθήκες, όπου τυχαία κομμάτια (frames) λαμβάνονται από μεγαλύτερης διάρκειας σήματα φωνής, σε όλες τις προσομοιώσεις παράχθηκαν αρχικά σήματα μεγαλύτερης διάρκειας από αυτή των 50 ms που αναγράφεται και στη συνέχεια διατηρήθηκαν για την προσομοίωση τα τελευταία 50 ms του σήματος. Έτσι αποφύγαμε το μεταβατικό φαινόμενο στην αρχή κάθε σήματος. Οι επόμενες εικόνες εμφανίζουν ένα σήμα που παράγεται από την Εφαρμογή Παραγωγής Φωνής και το αντίστοιχο σήμα χωρίς την αρχική μεταβατική φάση. Εικόνα 6. 1 Σήμα φωνής με την αρχική φάση

55 ΚΕΦΑΛΑΙΟ 6 55 Εικόνα 6. 2 Σήμα φωνής σε σταθερή κατάσταση 1 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 100Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 = 350Hz (BW 1 =60Hz), F 2 =2000Hz (BW 2 =100Hz), F 3 =2800Hz (BW 3 =120Hz). Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο στη μέθοδο cepstrum ήταν Hamming ενώ στη νέα μέθοδο ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). Η εικόνα του σήματος φαίνεται στο παρακάτω διάγραμμα:

56 ΚΕΦΑΛΑΙΟ 6 56 Εικόνα 6. 3 Σήμα φωνής f 0 = 100Hz Από την εικόνα του cepstrum που παρουσιάζεται στην επόμενη εικόνα φαίνεται ότι υπάρχει ένα ισχυρό rahmonic έξω από την περιοχή των 132 ( % για τη νέα μέθοδο) πρώτων συντελεστών του cepstrum, οι οποίοι χρησιμοποιήθηκαν στη συγκεκριμένη περίπτωση από τις μεθόδους για τον υπολογισμό του φασματικού φακέλου. Εικόνα 6. 4 Cepstrum Εξαιτίας του γεγονότος ότι τo rahmonic είναι ισχυρό και βρίσκεται εκτός της περιοχής των πρώτων συντελεστών του cepstrum, η f 0 εντοπίζεται σωστά και από τις δύο μεθόδους, ενώ το rahmonic καταστέλλεται. Στον υπολογισμό του φασματικού φακέλου, ωστόσο, στη συγκεκριμένη περίπτωση δεν έχει σημασία ο τρόπος

57 ΚΕΦΑΛΑΙΟ 6 57 καταστολής του rahmonic. Παρακάτω φαίνεται η περιοχή του cepstrum όπου έχει κατασταλεί το rahmonic και για τις δύο μεθόδους. Η αιχμή βρισκόταν κοντά στο 441 ο δείγμα. Εικόνα 6. 5 Περιοχή 1 ου rahmonic μετά το liftering από τη μέθοδο Cepstrum Εικόνα 6. 6 Περιοχή 1 ου rahmonic μετά το liftering από την τροποποιημένη μέθοδο Cepstrum Από τις παραπάνω εικόνες γίνεται φανερή η ομαλότερη καταστολή του rahmonic στην προτεινόμενη μέθοδο, μιας και η χρήση του gaussian παραθύρου καταστέλλει και τα πλευρικά δείγματα του rahmonic.

58 ΚΕΦΑΛΑΙΟ 6 58 Έτσι, λαμβάνοντας το μετασχηματισμό Fourier των πρώτων 132 δειγμάτων του cepstrum (εντός των οποίων δεν βρίσκεται η περιοχή του πρώτου rahmonic), προκύπτουν οι παρακάτω φασματικοί φάκελοι (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα 6. 7 Φασματικοί φάκελοι μεθόδου cepstrum(κόκκινο) και modified cepstrum (μπλε). Οι φασματικοί φάκελοι στην περίπτωση αυτού του σήματος, προσεγγίζουν πολύ ο ένας τον άλλο, αφού το pitch είναι χαμηλό και τα rahmonics διαχωρίζονται καθαρά (η θέση του είναι στο 440 ο δείγμα) από τα αρχικά (132) δείγματα του cepstrum. Η διαφοροποίηση στο φάκελο προέρχεται από το διαφορετικού τύπου παράθυρο το οποίο εφαρμόστηκε στις δύο μεθόδους, καθώς και στην εξασθένηση που εισάγει η προτεινόμενη μέθοδος στα τελευταία δείγματα του cepstrum που χρησιμοποιούνται. Οι τιμές που προκύπτουν από τις τρεις μεθόδους για τις θέσεις των συντονισμών φαίνονται στον παρακάτω πίνακα:

59 ΚΕΦΑΛΑΙΟ 6 59 f 0 F1 F2 F3 Πραγματικές τιμές 100Hz 350Hz 2000Hz 2800Hz LPC 348Hz 1988Hz 2778Hz Cepstrum 100Hz 332Hz 2013Hz 2756Hz Modified 100Hz 332Hz 1974Hz 2756Hz Cepstrum Πίνακας 6. 1 Θεμελιώδης συχνότητα και formants για τις τρεις μεθόδους Η ανάγνωση των πινάκων με τις εκτιμώμενες θέσεις των formants θα πρέπει να γίνει σε συνδυασμό με τις αντίστοιχες εκτιμήσεις των φασματικών φακέλων, καθώς στους πίνακες αυτούς καταγράφονται τα μέγιστα αυτών που είναι κοντά σε θέσεις formants. Η ύπαρξη τοπικών μεγίστων σε άλλα σημεία, θα πρέπει να ληφθεί υπόψη ως επιπλέον δυσκολία στη διαδικασία εξαγωγής των πραγματικών formants. Για την μέθοδο LPC, τέλος, οι τιμές των συντονισμών που αναγράφονται προέκυψαν έπειτα από αναζήτηση του βέλτιστου αριθμού συντελεστών για κάθε περίπτωση. Όταν η προσομοίωση επαναλήφθηκε με ίδια παράθυρα (Blackman) και για τις δύο μεθόδους cepstrum, η εικόνα των φασματικών φακέλων ήταν (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα 6. 8 Φασματικές περιβάλλουσες χρησιμοποιώντας παράθυρα Blackman

60 ΚΕΦΑΛΑΙΟ 6 60 Η αρχική μέθοδος cepstrum τώρα προσεγγίζει το αποτέλεσμα της νέας μεθόδου. Η χρήση του παραθύρου Βlackman στο σήμα εισόδου αποδεικνύεται καλύτερη από του Hamming σε περιπτώσεις σημάτων που έχουν αποκοπεί τυχαία από μεγαλύτερης διάρκειας σήματα. Οι εντονότερη καταστολή των άκρων του σήματος περιορίζει τα αρνητικά φαινόμενα που οφείλονται στην πεπερασμένη διάρκειά του. Και σε αυτή την περίπτωση, ωστόσο, εμφανίζονται τοπικά μέγιστα στο φασματικό φάκελο της αρχικής cepstrum σε συχνότητες όπου δεν υπάρχει συντονισμός (1376Hz). Η απόσβεση των τελευταίων συντελεστών του cepstrum στη νέα μέθοδο, διαφοροποίησε τους δύο φασματικούς φακέλους. Η χρήση ενός moving average window ελαχιστοποιεί την εμφάνιση ανεπιθύμητων τοπικών μεγίστων όταν οι συντονισμοί είναι ισχυροί, όπως σε αυτό το παράδειγμα. 2 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 400Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 = 700Hz (BW 1 =80Hz), F 2 =1200Hz (BW 2 =90Hz), F 3 =2100Hz (BW 3 =100Hz). Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο).

61 ΚΕΦΑΛΑΙΟ 6 61 Σε αυτή την προσομοίωση μελετούμε τη συμπεριφορά των τριών μεθόδων όταν η είσοδος είναι σήμα μέσου pitch και τα formants έχουν τυχαία κατανομή η οποία μπορεί να συναντηθεί στην πράξη. Το σήμα εισόδου φαίνεται παρακάτω: Εικόνα 6. 9 Σήμα φωνής Το cepstrum στις δύο μεθόδους φαίνεται παρακάτω: Εικόνα Cepstrum Αξίζει σε αυτό το σημείο να παραθέσουμε το cepstrum το οποίο υπολογίζεται όταν το παράθυρο το οποίο εφαρμόζεται στο σήμα εισόδου είναι Hamming:

62 ΚΕΦΑΛΑΙΟ 6 62 Εικόνα Εικόνα cepstrum όταν το παράθυρο είναι Hamming Οι ώσεις στο πρώτο κομμάτι του cepstrum οι οποίες εμφανίζονται σε αυτή την περίπτωση, καταδεικνύουν την ανάγκη όλες οι προσομοιώσεις στο εξής να διεξάγονται με τη χρήση παραθύρου Blackman. Η εμφάνιση τέτοιων ώσεων στο αρχικό ειδικά τμήμα του cepstrum είναι φυσικό να επηρεάζει αρνητικά τις δύο μεθόδους οι οποίες στηρίζονται στους πρώτους αυτούς συντελεστές του. Ειδικότερα δε μειώνει την αποτελεσματικότητα της αρχικής μεθόδου cepstrum, λόγω του υπολογισμού του pitch από το μέγιστο του cepstrum, που συμβαίνει σε αυτή. Επιπλέον της επίδρασης αυτών των ώσεων στην υπολογιζόμενη φασματική περιβάλλουσα, ο λαθεμένος υπολογισμός της f 0 οδηγεί σε καταστολές εσφαλμένων τμημάτων συντελεστών για τα rahmonics. Επιστρέφοντας στο πρώτο cepstrum, το πρώτο rahmonic έχει εισέλθει στην περιοχή των πρώτων 132 δειγμάτων που χρησιμοποιούμε για τον υπολογισμό του φασματικού φακέλου. Οι θεμελιώδεις συχνότητες που υπολογίζουν οι δύο μέθοδοι είναι f 0 =400,9Ηz και για τις δύο. Οι τελικές φασματικές περιβάλλουσες που προέκυψαν είναι (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum):

63 ΚΕΦΑΛΑΙΟ 6 63 Εικόνα Φασματικοί φάκελοι που προέκυψαν από τις δύο μεθόδους Οι τιμές των formants που υπολογίστηκαν είναι: f 0 F1 F2 F3 Πραγματικές τιμές 400Hz 700Hz 1200Hz 2100Hz LPC 787Hz 1198Hz 2029Hz Cepstrum 401Hz 725Hz 1281Hz 2002Hz Modified Cepstrum 401Hz 801Hz 1201Hz 2003Hz Πίνακας 6. 2 Εκτιμώμενες θέσεις formants Από τα παραπάνω αποτελέσματα προκύπτει ότι ο φασματικός φάκελος της νέας μεθόδου μοιάζει πιο «καθαρός» σε σχέση με αυτόν της μεθόδου cepstrum, μιας και ο τελευταίος παρουσιάζει τοπικά μέγιστα σε σημεία όπου δεν υφίσταται συντονισμός. Παρόλα αυτά, η αρχική cepstrum είναι η μόνη μέθοδος η οποία εντοπίζει τον πρώτο συντονισμό αρκετά καλά. Οι άλλες δύο βρίσκουν μάλλον την δεύτερη αρμονική στα 800Hz παρά το formant στα 700Hz. Με τη συγκεκριμένη

64 ΚΕΦΑΛΑΙΟ 6 64 παραμετροποίηση δε και οι τρεις μέθοδοι αποτυγχάνουν να εντοπίσουν το τρίτο formant. Η αποτυχία σωστού εντοπισμού των formants που βρίσκονται κοντά σε αρμονικές, μας οδήγησε στη διεξαγωγή προσομοιώσεων οι οποίες μελετούν το συγκεκριμένο πρόβλημα. 3 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 700Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 = 1000Hz (BW 1 =90Hz). Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). Σε αυτή την προσομοίωση, εξετάστηκε η περίπτωση όπου το μοναδικό formant βρίσκεται ανάμεσα στη θεμελιώδη συχνότητα (700Hz) και την επόμενη αρμονική (1400Hz). Η εικόνα του σήματος και οι φασματικές περιβάλλουσες που προέκυψαν φαίνονται παρακάτω (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum):

65 ΚΕΦΑΛΑΙΟ 6 65 Εικόνα Σήμα τεχνητής φωνής Εικόνα Φασματικοί φάκελοι μεθόδων cepstrum Και οι δύο μέθοδοι αποτυγχάνουν να εντοπίσουν αποτελεσματικά το ένα formant με τη συγκεκριμένη παραμετροποίηση. Το παραπάνω διάγραμμα, ωστόσο, υποδηλώνει ότι έχουν εντοπίσει την συγκέντρωση ενέργειας περίπου γύρω από τα 1000Hz, χωρίς, ωστόσο, ένδειξη για formant στο σωστό σημείο. Στο συγκεκριμένο παράδειγμα, μέσα στο εύρος των 132 συντελεστών του cepstrum που χρησιμοποιείται, εντοπίζονται δύο rahmonics. Η καταστολή αυτών σε

66 ΚΕΦΑΛΑΙΟ 6 66 σχέση με το ένα των προηγούμενων περιπτώσεων, καθιστά την καταστολή τους σημαντικότερη. Η επανάληψη της προσομοίωσης με επιλογή κατάλληλου αριθμού συντελεστών για τον υπολογισμό της φασματικής περιβάλλουσας, ώστε να υπάρχει ένα μόνο rahmonic εκεί (ο αριθμός αυτός προήλθε από εξέταση του cepstrum ίσος με %=88 συντελεστές) και με αύξηση του πλάτους και της τυπικής απόκλισης του παραθύρου οδήγησαν στο παρακάτω αποτέλεσμα (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα Φασματικές περιβάλλουσες έπειτα από ελάττωση των συντελεστών cepstrum και αύξηση του πλάτους και της τυπικής απόκλισης του gaussian παραθύρου. Οι εκτιμώμενες θέσεις των formants είναι: Πραγματικές τιμές 700Hz 1000Hz LPC 920Hz Cepstrum 700Hz 575Hz Modified Cepstrum 700Hz 1012Hz Πίνακας 6. 3 Εκτιμώμενες θέσεις formants μετά την τροποποίηση f 0 F1

67 ΚΕΦΑΛΑΙΟ 6 67 Η νέα μέθοδος εντοπίζει το formant σωστά, σε αντίθεση με την αρχική μέθοδο, η οποία παρά τη μείωση των συντελεστών cepstrum και την αποτροπή της αρνητικής επίδρασης του δεύτερου rahmonic, δεν καταφέρνει να εντοπίσει το formant. Από το συγκεκριμένο παράδειγμα γίνεται φανερή η δυσκολία εντοπισμού των παραμέτρων οι οποίες θα ήταν γενικές και θα εντόπιζαν τους συντονισμούς σε οποιαδήποτε θέση και αν ήταν αυτοί. Η τροποποιημένη μέθοδος, ωστόσο, φαίνεται να ευνοείται από την πιο εκτεταμένη παραμετροποίησή της. Αποτελεί πλεονέκτημα το γεγονός ότι μπορούν να μεταβληθούν οι παράμετροι του gaussian παραθύρου καταστολής των rahmonics. Τέλος, η αύξηση του αριθμού των συντελεστών cepstrum που χρησιμοποιούνται στον τελικό Fourier, και συνεπώς η προσπάθεια καταστολής περισσότερων του ενός rahmonic, εισάγει πολύ μεγάλο σφάλμα στο αποτέλεσμα. Παρόλα αυτά, η ύπαρξη περισσότερων formants από ένα, διαμοιράζει την πληροφορία του φασματικού φακέλου σε συντελεστές του cepstrum που βρίσκονται πιο δεξιά. Αυτό έχει ως αποτέλεσμα να είναι αναγκαίος ο συνυπολογισμός μεγαλύτερου αριθμού συντελεστών και απαραίτητη η καταστολή περισσότερων του ενός rahmonic. Στο 6 ο παράδειγμα διερευνάται μία τέτοια δύσκολη περίπτωση, με τρία formants σε κοντινές αποστάσεις, όπου η φασματική πληροφορία της περιβάλλουσας έχει διαμοιραστεί σε ανώτερους συντελεστές του cepstrum. Στο 3 ο και 4 ο παράδειγμα εξετάζεται η επίδραση του jitter και του shimmer στις μεθόδους, χρησιμοποιώντας σήμα f 0 =700Hz και F 1 =1000Hz, 4 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 700Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 = 1000Hz (BW 1 =90Hz).

68 ΚΕΦΑΛΑΙΟ 6 68 Shimmer: 10%. Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). Η πειραματική συνθήκη αυτής της προσομοίωσης είναι ίδια με αυτή της τρίτης, με τη διαφορά της εισαγωγής shimmer 10% στο σήμα φωνής. Η εικόνα του σήματος με shimmer είναι η παρακάτω: Εικόνα Παραγόμενο σήμα φωνής με shimmer Η τυχαία μεταβολή του πλάτους του σήματος φωνής στο χρόνο είναι κάτι που συμβαίνει συνεχώς στις πραγματικές φωνές αφού δεν είναι δυνατόν από τον άνθρωπο να παραχθούν συνεχείς πανομοιότυπες περίοδοι. Με αυτό το παράδειγμα εξετάζουμε την επίδραση των μεθόδων σε όχι τόσο ιδανικά σήματα, όπως στις προηγούμενες περιπτώσεις, χωρίς να φτάνουμε, όμως, σε πραγματικά σήματα. Οι φασματικές περιβάλλουσες που προέκυψαν από τις δύο μεθόδους cepstrum είναι οι παρακάτω (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum):

69 ΚΕΦΑΛΑΙΟ 6 69 Εικόνα Εκτίμηση φασματικού φακέλου σε σήμα με shimmer Οι εκτιμώμενες θέσεις των συντονισμών είναι οι παρακάτω: f 0 F1 Πραγματικές τιμές 700Hz 1000Hz LPC 783Hz Cepstrum 700Hz 575Hz Modified Cepstrum 700Hz 998Hz Πίνακας 6. 4 Εκτιμώμενες θέσεις συντονισμών Από τα αποτελέσματα της προσομοίωσης προκύπτει ότι η νέα μέθοδος συμπεριφέρεται πολύ καλύτερα από την αρχική cepstrum. Η μεγάλη διαφορά απόδοσης στον υπολογισμό του φασματικού φακέλου οφείλεται στον λανθασμένο υπολογισμό της θεμελιώδους συχνότητας από την πρώτη μέθοδο. Δεν εντοπίζεται το μέγιστο του cepstrum στο πρώτο rahmonic αλλά στο δεύτερο, το οποίο τυχαίνει να έχει λίγο μεγαλύτερο μέγιστο από το πρώτο. Αυτό σημαίνει ότι τελικά καταστέλλονται τα άρτια rahmonics και παραμένουν τα περιττά, με αποτέλεσμα να εμφανίζονται ουσιαστικά οι αρμονικές στον φασματικό φάκελο. Αντίθετα, η

70 ΚΕΦΑΛΑΙΟ 6 70 τροποποιημένη cepstrum υπολογίζει μέσω αυτοσυσχέτισης σωστά τη θεμελιώδη, εντοπίζοντας τελικά και το formant. Τελικά, η εισαγωγή shimmer στο σήμα φωνής ευνόησε τον υπολογισμό της θέσης του συντονισμού, αφού με τους 132 συντελεστές της αρχικής παραμετροποίησης (2 rahmonics σε καταστολή), πέτυχε το αποτέλεσμα για το οποίο στο προηγούμενο παράδειγμα απαιτήθηκε ελάττωση του αριθμού των συντελεστών (80, ένα rahmonic σε καταστολή). 5 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 700Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 = 1000Hz (BW 1 =90Hz). jitter: 2%. Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). Η προσομοίωση αυτή κλείνει τη σειρά της περίπτωσης του ενός formant με την εισαγωγή ενός φαινομένου που συμβαίνει τόσο στην καθημερινή ομιλία, όσο κυρίως στο τραγούδι. Πρόκειται για την τυχαία μικρή μεταβολή του pitch μεταξύ διαδοχικών περιόδων του σήματος. Συγγενής περίπτωση είναι αυτή του vibrato, δηλαδή της εκούσιας γρήγορης μεταβολής της θεμελιώδους συχνότητας από τον τραγουδιστή.

71 ΚΕΦΑΛΑΙΟ 6 71 Το σήμα φωνής με jitter καθώς και οι φασματικές περιβάλλουσες φαίνονται στα παρακάτω σχήματα (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα Σήμα φωνής με jitter Εικόνα Φασματικοί φάκελοι σήματος με jitter

72 ΚΕΦΑΛΑΙΟ 6 72 Και σε αυτή την περίπτωση η αρχική μέθοδος cepstrum αποτυγχάνει να εντοπίσει την f 0 με αποτέλεσμα να εμφανίζονται στο φασματικό φάκελο ξεκάθαρα αρμονικές. Ισχύουν όσα αναφέρθηκαν στην προηγούμενη περίπτωση. Η παρουσία, τελικά jitter και shimmer ευνόησε τη νέα μέθοδο, λόγω του τρόπου υπολογισμού της θεμελιώδους συχνότητας. 6 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 700Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 =750Hz (BW 1 =80Hz), F 2 =1000Hz (BW 2 =90Hz), F 3 =1250Hz (BW 3 =100Hz),. Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). H έκτη προσομοίωση αφορά την αναζήτηση συντονισμών στην περίπτωση η θεμελιώδης συχνότητα είναι υψηλή, τα δε formants έχουν την εξής κατανομή: το πρώτο βρίσκεται κοντά αλλά δεν συμπίπτει με τη θεμελιώδη συχνότητα, το τρίτο βρίσκεται κοντά αλλά δε συμπίπτει με την πρώτη αρμονική, ενώ υπάρχει και ένα ενδιάμεσο formant. Πρόκειται για τη δυσκολότερη από τις περιπτώσεις που έχουν εξεταστεί παραπάνω, καθώς οι μέθοδοι καλούνται να διαχωρίσουν τη θέση των συνιστωσών του φάσματος από τους πολύ κοντινούς σε αυτές συντονισμούς. Η εικόνα του σήματος το υπολογιζόμενο cepstrum καθώς και οι φασματικοί φάκελοι που

73 ΚΕΦΑΛΑΙΟ 6 73 προέκυψαν φαίνονται παρακάτω (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα Σήμα εισόδου Εικόνα Υπολογιζόμενο cepstrum

74 ΚΕΦΑΛΑΙΟ 6 74 Εικόνα Υπολογιζόμενες φασματικές περιβάλλουσες Οι τιμές που προκύπτουν για τους συντονισμούς είναι οι εξής: f 0 F1 F2 F3 Πραγματικές τιμές 700Hz 750Hz 1000Hz 1250Hz LPC 700Hz Hz Cepstrum 350Hz 704Hz Hz Modified Cepstrum 700Hz 646Hz Hz Πίνακας 6. 5 Εκτιμώμενες θέσεις συντονισμών Και σε αυτό το παράδειγμα, η νέα μέθοδος με τη χρήση της αυτοσυσχέτισης του cepstrum υπολογίζει σωστά τη θεμελιώδη συχνότητα. Αντίθετα, η αρχική μέθοδος εντοπίζει ως μέγιστο του cepstrum το δεύτερο rahmonic με αποτέλεσμα να υπάρχει λάθος στην f 0. Επιπλέον, αιχμές που οφείλονται στην αποκοπή που έγινε για τη λήψη του τμήματος 50 ms του σήματος είναι ορατές στo πρώτο τμήμα του cepstrum.

75 ΚΕΦΑΛΑΙΟ 6 75 Και οι τρεις μέθοδοι επηρεάζονται από τη μικρή απόσταση μεταξύ των συνιστωσών του φάσματος και των συντονισμών και εντοπίζουν τους τελευταίους στις θέσεις της θεμελιώδους συχνότητας και της πρώτης αρμονικής. Ο ενδιάμεσος συντονισμός στα 1000Hz απουσιάζει από και από τις εκτιμήσεις και των τριών. H αναζήτηση των βέλτιστων τιμών των παραμέτρων των μεθόδων (fine tuning) για τη συγκεκριμένη περίπτωση, οδήγησε στη μείωση της συχνότητας αποκοπής του χαμηλοπερατού φίλτρου στα 2000Hz και στην αύξηση των συντελεστών cepstrum που χρησιμοποιούνται (120 συντελεστές και 120 επιπλέον αποσβενύμενοι ) και της τυπικής απόκλισης του gaussian παραθύρου στο 0,2. Η εικόνα των φασματικών φακέλων φαίνεται στο παρακάτω διάγραμμα (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα Εικόνα φασματικών φακέλων έπειτα από fine tuning Τα formants εντοπίστηκαν στα 760Hz και 1330Hz για τη νέα μέθοδο, ενώ με την αρχική cepstrum δεν επιτεύχθηκε πρόοδος. Από τα παραπάνω γίνεται φανερή η χρησιμότητα της πιο λεπτομερούς παραμετροποίησης που προσφέρει η νέα μέθοδος. Παρόλο που δεν εντοπίστηκε τελικά ο ενδιάμεσος συντονισμός, οι δύο ακραίοι

76 ΚΕΦΑΛΑΙΟ 6 76 προσεγγίστηκαν με μεγαλύτερη ακρίβεια όταν λήφθηκαν περισσότεροι συντελεστές του cepstrum, λόγω της βελτιωμένης καταστολής των rahmonics. 7 η Προσομοίωση Πειραματική Συνθήκη : Τύπος Σήματος: Τεχνητό σήμα το οποίο έχει παραχθεί από την εφαρμογή παραγωγής φωνής. Διάρκεια: 50 ms. Θεμελιώδης συχνότητα: 700Hz. Open Quotient(OQ): 50% Συντονισμοί: F 1 =750Hz (BW 1 =80Hz), F 2 =1000Hz (BW 2 =90Hz), F 3 =1250Hz (BW 3 =100Hz). Shimmer: 10%. Παραμετροποίηση μεθόδων: Το φίλτρο από το οποίο διήλθαν τα σήματα είναι χαμηλοπερατό 25 ης τάξης, στα 10000Hz. Το παράθυρο και στις δύο μεθόδους cepstrum ήταν Blackman. Στον τελικό υπολογισμό του φασματικού φακέλου συμπεριλήφθηκαν 132 συντελεστές του cepstrum ( % με απόσβεση για τη νέα μέθοδο). Σε αυτή την προσομοίωση επιχειρείται να επιβεβαιωθεί η ένδειξη ότι η παρουσία shimmer στο σήμα εισόδου διευκολύνει τον εντοπισμό των formants. Η εικόνα του σήματος είναι η παρακάτω:

77 ΚΕΦΑΛΑΙΟ 6 77 Εικόνα Σήμα εισόδου με shimmer Οι φασματικοί φάκελοι που προκύπτουν από τις μεθόδους cepstrum είναι οι εξής (με την κόκκινη γραμμή φαίνεται ο φασματικός φάκελος που προκύπτει από την cepstrum και με μπλε αυτός της τροποποιημένης cepstrum): Εικόνα Προκύπτοντες φασματικοί φάκελοι μεθόδων cepstrum Οι τιμές των συντονισμών για όλες τις μεθόδους είναι οι παρακάτω:

78 ΚΕΦΑΛΑΙΟ 6 78 f 0 F1 F2 F3 Πραγματικές τιμές 700Hz 750Hz 1000Hz 1250Hz LPC 701Hz 1059Hz 1391Hz Cepstrum 350Hz 763Hz Hz Modified Cepstrum 848Hz 724Hz 1037Hz 1351Hz Πίνακας 6. 6 Αποτελέσματα εντοπισμού συχνοτήτων συντονισμού Σύμφωνα με τα παραπάνω, η τροποποιημένη cepstrum και η LPC εντοπίζουν τον ενδιάμεσο συντονισμό όταν υπάρχει shimmer στο σήμα φωνής σε αντίθεση με την αρχική cepstrum η οποία και σε αυτή την περίπτωση δεν τον εντοπίζει. Μειονεκτούν, ωστόσο, στον εντοπισμό της θέσης του τρίτου συντονισμού, σε σχέση με τη μέθοδο cepstrum αφού αυτή τον προσεγγίζει καλύτερα από όλες. Βελτιωμένος είναι και ο εντοπισμός του πρώτου formant, από τις δύο cepstrum με την αρχική μέθοδο να αποκλίνει πλήρως από τη θεμελιώδη. Συνολικά, υπάρχει βελτίωση στην απόδοση όλων των μεθόδων με την παρουσία του shimmer. Παρόλα αυτά, εξακολουθούν οι υπολογιζόμενες τιμές των συντονισμών που βρίσκονται κοντά σε φασματικές συνιστώσες να τείνουν προς τις τελευταίες.

79 ΚΕΦΑΛΑΙΟ 7 79 ΚΕΦΑΛΑΙΟ 7 ΣΥΜΠΕΡΑΣΜΑΤΑ - ΠΡΟΟΠΤΙΚΕΣ Κατά την εκπόνηση αυτής της εργασίας, επιχειρήθηκε η ανάπτυξη ενός συστήματος για την αξιολόγηση μεθόδων υπολογισμού των θέσεων των συντονισμών της στοματοφαρυγγικής κοιλότητας. Το κύριο ενδιαφέρον εστιαζόταν στα σήματα τραγουδιστής φωνής υψηλής θεμελιώδους συχνότητας, όπου οι δυσκολίες εντοπισμού των formants είναι πιο έντονες. Επιπλέον, η κατανομή των θέσεων των συντονισμών στο φάσμα μπορεί να ποικίλει σε πολύ μεγαλύτερο βαθμό σε σχέση με τα σήματα ομιλίας. Δεν χρησιμοποιήθηκαν πραγματικά σήματα φωνής τραγουδιστών κατά τη διάρκεια της εργασίας. Αντίθετα, έγινε εξ αρχής ορατή η ανάγκη μοντελοποίησης των φαινομένων που συμβαίνουν κατά τη διάρκεια της ομιλίας, και προσομοιώσεων με τη χρήση τεχνητών σημάτων φωνής, σε ένα πρώιμο στάδιο ελέγχου της απόδοσης των μεθόδων. Αυτό συνέβη λόγω της ποικιλίας των παραγόντων από τις οποίες εξαρτώνται τα αποτελέσματα τους, καθιστώντας δύσκολο το διαχωρισμό της επίδρασης καθενός από αυτούς όταν χρησιμοποιούνται φυσικές φωνές. Για την εξασφάλιση των σημάτων εισόδου των προσομοιώσεων απαιτήθηκε η ανάπτυξη ολοκληρωμένης εφαρμογής παραγωγής φωνής στο περιβάλλον LabVIEW. Η υλοποίησή της στηρίχθηκε στο γραμμικό μοντέλο παραγωγής φωνής, με τη δημιουργία του σήματος των γλωττιδικών παλμών και το φιλτράρισμά τους από τα φίλτρα των συντονισμών. Η εκτεταμένη παραμετροποίηση της εφαρμογής, η οποία αποτελεί το κύριο πλεονέκτημά της, (πολλές παράμετροι για θόρυβο και διακυμάνσεις στα περισσότερα μεγέθη) έχει στόχο την προσομοίωση κατά το δυνατόν περισσότερων φαινομένων που εντοπίζονται σε πραγματικά σήματα φωνής και υπάρχει ανάγκη ελέγχου της επίδρασης του καθενός ξεχωριστά, ή κάποιου συνδυασμού τους. Ένα άλλο πλεονέκτημα της εφαρμογής είναι ότι κατά τη διάρκεια ανάπτυξής της δημιουργήθηκε μία βιβλιοθήκη συναρτήσεων καθεμία από τις οποίες πραγματοποιεί μια συγκεκριμένη λειτουργία, όπως παραγωγή παλμών, προσθήκη θορύβου κ.α. Το σύνολο αυτών αποτελεί ένα επιπλέον εργαλείο ανάπτυξης εφαρμογών (development kit) αυτή τη φορά, το οποίο μπορεί να χρησιμοποιηθεί στο

80 ΚΕΦΑΛΑΙΟ 7 80 μέλλον για τη βελτίωση της χρηστικότητας και της απόδοσης της εφαρμογής, ή και για την ανάπτυξη κάποιας νέας η οποία θα καλύπτει συγκεκριμένες ανάγκες. Ένα τέτοιο παράδειγμα είναι η υλοποίηση ενός συστήματος μεγάλου αριθμού προσομοιώσεων που θα διεξάγονται αυτόματα χωρίς την παρέμβαση του χρήστη, οποίος θα συλλέγει στο τέλος μόνο το αποτέλεσμα των προσομοιώσεων. Για κάτι τέτοιο απαιτείται αυτόματη παραγωγή μεγάλου αριθμού σημάτων φωνής με συγκεκριμένο εύρος τιμών για κάθε παράμετρο. Η εφαρμογή παρόλο το γεγονός ότι είναι απολύτως χρηστική και έχει καταβληθεί μεγάλη προσπάθεια να είναι φιλική προς το χρήστη, δεν έχει ολοκληρώσει την εξέλιξή της. Επιδέχεται βελτιώσεις οι οποίες αφορούν μελλοντική εργασία, όπως ο έλεγχος της σχετικής στάθμης των συντονισμών και η ενσωμάτωση προτάσεων από τους χρήστες, αφού μέχρι τώρα δεν έχει δοκιμαστεί από πολλά διαφορετικά άτομα. Για την εξέλιξή της, λοιπόν, είναι απαραίτητη η διεύρυνση της βάσης των χρηστών της. Το δεύτερο μέρος της εργασίας αφορούσε την αξιολόγηση τριών μεθόδων εντοπισμού των συντονισμών της στοματοφαρυγγικής οδού. Η Linear Predictive Covariance, η μέθοδος Cepstrum, και μία παραλλαγή της χρησιμοποιήθηκαν για τον υπολογισμό των formants τεχνητών σημάτων, των οποίων τα χαρακτηριστικά ήταν γνωστά από την αρχή. Οι τροποποιήσεις της τελευταίας σε σχέση με τη δεύτερη, εστιάζονται στα παρακάτω σημεία. Πρώτον, ο υπολογισμός της θεμελιώδους συχνότητας γίνεται από τη συνάρτηση αυτοσυσχέτισης του cepstrum και όχι από το μέγιστό του. Επιπλέον, η καταστολή των rahmonics πραγματοποιείται με τη χρήση ενός gaussian παραθύρου μεγαλύτερου εύρους από το εύρος του rahmonic. Ως τρίτη τροποποίηση αναφέρουμε οτι κατά τον υπολογισμό του φασματικού φακέλου από το μετασχηματισμό Fourier των πρώτων συντελεστών του cepstum, δεν έχουν όλοι οι συντελεστές την ίδια βαρύτητα αλλά αυτή φθίνει από κάποιο σημείο και έπειτα καθώς πλησιάζουμε προς το τέλος. Τέλος, χρησιμοποιήθηκε το παράθυρο Blackman στην αρχική παραθύρωση του σήματος έναντι του Hamming. Από τα αποτελέσματα της πρώτης προσομοίωσης προέκυψε το συμπέρασμα ότι η χρήση του παραθύρου Blackman μπορεί να ευνοήσει τις μεθόδους. Τα εντονότερα κατασταλμένα άκρα του παραθύρου περιορίζουν φαινόμενα που οφείλονται στην τυχαία αποκοπή του δείγματος φωνής από μεγαλύτερα σήματα. Οι επαναλαμβανόμενες πολύ στενές ώσεις, πλάτους ακόμη και ενός δείγματος, που εμφανίζονται στο cepstrum όταν το σήμα εισόδου είναι ένα μικρό τμήμα (frame) της

81 ΚΕΦΑΛΑΙΟ 7 81 φωνής επηρεάζουν αρνητικά τις εκτιμήσεις. Το παράθυρο Blackman φαίνεται να καταφέρνει αποτελεσματικότερη καταστολή αυτών σε σχέση με το παράθυρο Hamming. Τελικά, οι υπόλοιπες προσομοιώσεις, πλην της πρώτης διεξήχθησαν με παράθυρα Blackman στην είσοδο και των δύο μεθόδων cepstrum. Με την αύξηση της θεμελιώδους συχνότητας τα rahmonics εντοπίζονται συνεχώς πιο κοντά στην αρχή του cepstrum. Όλο και περισσότερα από αυτά εισβάλουν στην αρχική περιοχή από όπου προκύπτει ο φασματικός φάκελος και απαιτείται να κατασταλούν για να μην εμφανίζονται στη φασματική περιβάλλουσα στοιχεία των αρμονικών. Κατά την αναζήτηση ενός formant το οποίο βρίσκεται μεταξύ υψηλής θεμελιώδους συχνότητας και πρώτης αρμονικής, αποκαλύφθηκε η δυνατότητα καλύτερης καταστολής των rahmonics που προσφέρει το gaussian παράθυρο. Όταν στο τμήμα του cepstrum από το οποίο λαμβάνεται ο φασματικός φάκελος υπήρχαν δύο rahmonics, ο συντονισμός δεν εντοπίζονταν, ενώ τα μέγιστα της φασματικής περιβάλλουσας έτειναν προς τις φασματικές συνιστώσες. Η καταστολή μονάχα των αιχμών των rahmonics την οποία κάνει η αρχική μέθοδος δεν είναι τελικά αρκετή, αλλά απαιτείται καταστολή και γειτονικών συντελεστών οι οποίοι εμπεριέχουν πληροφορία των αρμονικών. Σε αυτό το σημείο η νέα μέθοδος προσφέρει μεγαλύτερη ευελιξία, καθώς καταστέλλονται από τη μία και γειτονικοί συντελεστές, από την άλλη, όμως, όσο απομακρυνόμαστε από το κέντρο του rahmonic η καταστολή αυτή γίνεται ηπιότερη με αποτέλεσμα να διατηρείται πληροφορία που μπορεί να αφορά το φασματικό φάκελο. Είναι δυνατή, βέβαια, η αύξηση του εύρους καταστολής και στην αρχική μέθοδο, όπως συμβαίνει και στην τροποποιημένη. Κάτι τέτοιο, ωστόσο, εμπεριέχει τον κίνδυνο πλήρους απώλειας πληροφορίας που αφορά το φασματικό φάκελο και με την αύξηση του pitch έχει αποθηκευτεί όλο και πιο κοντά σε rahmonics. Όταν μειώθηκε ο αριθμός των συντελεστών του cepstrum που χρησιμοποιούνται στον υπολογισμό της περιβάλλουσας ώστε να εντοπίζεται μόνο ένα rahmonic μέσα σε αυτούς η νέα μέθοδος εντόπισε σωστά ένα έντονο formant. Βέλτιστα αποτελέσματα είχε η τροποποιημένη μέθοδος cepstrum στον υπολογισμό του pitch σε περιπτώσεις όπου το πρώτο rahmonic του cepstrum δεν είχε μέγιστο πλάτος σε σχέση με τα υπόλοιπα ή κάποια αιχμή λόγω rippling με μεγάλη τιμή εμφανιζόταν. Τότε μέσω της συνάρτησης αυτοσυσχέτισης υπολογιζόταν η σωστή τιμή της θεμελιώδους, ενώ η αρχική μέθοδος μέσω της αναζήτησης του μεγίστου του cepstrum παρουσίαζε πολύ μεγάλο σφάλμα. Αυτό, τελικά, οδηγεί σε μη

82 ΚΕΦΑΛΑΙΟ 7 82 σωστή καταστολή των rahmonics και εμφάνιση αντίστοιχα μεγάλου σφάλματος στις τιμές των formants. Η προσομοιώσεις στις οποίες το σήμα εισόδου είχε jitter ή shimmer κατέδειξαν τη βελτιωμένη συμπεριφορά των μεθόδων και μάλιστα της νέας μεθόδου όταν το σήμα δεν παρουσιάζει την περιοδικότητα των πρώτων προσομοιώσεων. Ακόμη και με δύο rahmonics στο αρχικό τμήμα του cepstrum η εκτίμηση της μεθόδου ήταν σωστή. Το γεγονός αυτό οφείλεται στην αύξηση του εύρους των rahmonics, που συμβαίνει σε αυτή την περίπτωση, με αποτέλεσμα η πληροφορία των αρμονικών να περιορίζεται περισσότερο μέσα σε αυτά και τελικά να καταστέλλεται καλύτερα. Πρόκειται για μία ενθαρρυντική παρατήρηση, καθώς τα πραγματικά σήματα φωνής εμπεριέχουν τέτοια χαρακτηριστικά. Η τελευταία προσομοίωση αποτελεί και τη δυσκολότερη περίπτωση. Ο αριθμός των συντονισμών έχει αυξηθεί και η κατανομή τους σε μικρότερη αποστάσεις μεταξύ τους από ότι οι αρμονικές (οι δύο συντονισμοί βρίσκονται κοντά στις δύο πρώτες αρμονικές συνιστώσες και ο τρίτος ενδιάμεσα) δυσκολεύει τόσο τον διαχωρισμό των δύο από τις αρμονικές στις οποίες προσεγγίζουν, όσο και τον εντοπισμό του ενδιάμεσου. Οι μέθοδοι LPC και cepstrum αποτυγχάνουν εντελώς να εντοπίσουν οποιονδήποτε συντονισμό, καθώς αναδεικνύουν τις δύο φασματικές συνιστώσες, τη θεμελιώδη και την πρώτη αρμονική. Η τροποποιημένη μέθοδος cepstrum έπειτα από εκτεταμένη αναζήτηση των βέλτιστων παραμέτρων για προσεκτική καταστολή των rahmonics αναδεικνύει τον πρώτο και τρίτο συντονισμό. Η καταστολή αυτή φαίνεται να είναι πολύ δύσκολη και επιτυγχάνεται μόνο λόγω της ευελιξίας που παρέχει ή πληθώρα παραμέτρων της νέας μεθόδου. Δεν βρέθηκε, ωστόσο, κάποιος συνδυασμός αυτών, ο οποίος να είναι αποτελεσματικός σε όλες τις προσομοιώσεις. Γενικά, η αύξηση του αριθμού των formants διαμοιράζει την πληροφορία του φασματικού φακέλου σε ανώτερους συντελεστές του cepstrum με αποτέλεσμα να υπεισέρχονται περισσότερα rahmonics στους υπολογισμούς. Επιπλέον, ο παρόμοιος ρυθμός εμφάνισης αρμονικών και συντονισμών έρχεται σε αντίθεση με τη βασική αρχή στην οποία στηρίζεται η χρήση του cepstrum σύμφωνα με την οποία μπορεί να επιτευχθεί διαχωρισμός αρμονικών και φασματικού φακέλου λόγω διαφορετικού ρυθμού μεταβολής τους. Αναφορικά με την απόδοση της μεθόδου LPC Covariance στις προσομοιώσεις, υπήρχε άμεση εξάρτηση των αποτελεσμάτων της και των

83 ΚΕΦΑΛΑΙΟ 7 83 συντελεστών που χρησιμοποιούταν. Λίγα formants απαιτούν μικρό αριθμό συντελεστών, ο οποίος πρέπει να αυξάνει με την αύξηση του αριθμού των συντονισμών. Σε κάθε περίπτωση δεν ενδείκνυται για την υλοποίηση μίας γενικής μεθόδου υπολογισμού αγνώστου αριθμού formants. Τα αποτελέσματα των προσομοιώσεων οδηγούν σε αναζήτηση άλλων τρόπων χρήσης της θεωρίας του cepstum, οι οποίοι μπορεί να αποδειχθούν αποτελεσματικοί σε σήματα φωνής υψηλών συχνοτήτων, όπως οι φωνές των τραγουδιστών. Ενισχύεται, τελικά, η εκτίμηση ότι μία επαναληπτική μέθοδος διαδοχικής εξαγωγής συντονισμών με υπολογισμό ενός συντονισμού σε κάθε επανάληψη και φιλτράρισμα του σήματος με ζωνοφρακτικό φίλτρο κεντρικής συχνότηταw ίσηw με αυτής του υπολογισμένου formant μεταξύ των επαναλήψεων θα επιφέρει καλύτερα αποτελέσματα.

84 ΠΑΡΑΡΤΗΜΑ Α 84 ΠΑΡΑΡΤΗΜΑ Α ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΕΦΑΡΜΟΓΗΣ ΠΑΡΑΓΩΓΗΣ ΦΩΝΗΣ Α.1 ΓΕΝΙΚΑ Η Εφαρμογή Παραγωγής Φωνής έχει ως σκοπό την παραγωγή συνθετικών ήχων με χαρακτηριστικά ανθρώπινης φωνής, οι οποίοι θα χρησιμεύσουν, κυρίως, στον έλεγχο μεθόδων επεξεργασίας φωνής. Είναι σε θέση να παράγει ακουστούς ήχους μόνο. Ανάμεσα στις δυνατότητές της είναι να παράγει ήχους με προκαθορισμένα χαρακτηριστικά και να τους αποθηκεύει σε αρχεία.wav. Επίσης, μπορεί να τους αναπαράγει επαναλαμβανόμενα, χωρίς να χρειάζεται απαραίτητα να αποθηκευτούν. Για τη μεταφορά των ήχων από χρήστη σε χρήστη έχει αναπτυχθεί μία μορφή αρχείου xml, όπου αποθηκεύονται όλα τα χαρακτηριστικά του ήχου, έτσι ώστε να είναι δυνατή η ακριβής επαναδημιουργία του χωρίς να χρειάζεται να μεταφερθεί ολόκληρο το αρχείο ήχου. Η βασική ιδέα είναι ότι παράγουμε γλωττιδικούς παλμούς αφού έχουμε ορίσει προηγουμένως τα χαρακτηριστικά τους και στη συνέχεια να τους φιλτράρουμε με φίλτρα που προσομοιώνουν τους συντονισμούς της στοματοφαρυγγικής κοιλότητας. Έγινε προσπάθεια να εισαχθούν στη διαδικασία παραγωγής, όσο το δυνατόν περισσότερες παράμετροι που αφορούν χαρακτηριστικά της φωνής, με σκοπό να έχουμε κατά το δυνατόν μεγαλύτερο έλεγχο στο παραγόμενο αποτέλεσμα. Ο χρήστης έχει τη δυνατότητα να ορίσει πάνω από 55 παραμέτρους, ανάμεσα στις οποίες η διάρκεια του γλωττιδικού παλμού, οι συντονισμοί της στοματοφαρυγγικής κοιλότητας, παράμετροι θορύβου κ.α., και οι οποίες αναφέρονται με λεπτομέρεια στη συνέχεια. Το πρόγραμμα αναπτύχθηκε στο περιβάλλον Labview 8.0 και είναι διαθέσιμο για περιβάλλον Microsoft Windows XP ως εκτελέσιμο αρχείο. Διαθέσιμες, επίσης, είναι και οι συναρτήσεις που το αποτελούν για πιθανή αλλαγή κάποιων χαρακτηριστικών της δομής ή επανασχεδίασης της διεπαφής χρήστη στο μέλλον.

85 ΠΑΡΑΡΤΗΜΑ Α 85 Εικόνα Α. 1 Κεντρική οθόνη προγράμματος Α.2 ΕΓΚΑΤΑΣΤΑΣΗ Για την εκτέλεση του προγράμματος, θα πρέπει να εγκατασταθεί πρώτα η runtime engine του Labview 8.0. Αυτό γίνεται κάνοντας διπλό κλικ στο αρχείο lvruntimeeng.exe που βρίσκεται στο CD που συνοδεύει την εργασία. Στη συνέχεια, το μόνο που πρέπει να γίνει είναι να αντιγραφεί ο φάκελος VSA που περιέχει το εκτελέσιμο αρχείο VSA.exe στο σκληρό δίσκο. Κάνοντας διπλό κλικ στο εκτελέσιμο VSA.exe, το πρόγραμμα εκτελείται ως εγκατεστημένη εφαρμογή. Α.3 ΤΑ ΜΕΡΗ ΤΗΣ ΔΙΕΠΑΦΗΣ ΧΡΗΣΤΗ Η διεπαφή της εφαρμογής αποτελείται από: τη γραμμή μενού του Labview(1), τα στοιχεία ελέγχου της εφαρμογής(2), την οθόνη απεικόνισης των σημάτων(3), και το χώρο ελέγχου των παραμέτρων του παραγόμενου ήχου(4).

86 ΠΑΡΑΡΤΗΜΑ Α Εικόνα Α. 2 Κύρια μέρη της βασικής οθόνης Α.4 ΓΡΑΜΜΗ ΜΕΝΟΥ LABVIEW Η γραμμή μενού του Labview περιέχει τα κουμπιά εκκίνησης και τερματισμού της εκτέλεσης της εφαρμογής. Στην exe εκδοχή της εφαρμογής η γραμμή μενού του LabVIEW δεν υπάρχει αφού η εφαρμογή εκτελείται συνεχώς. Στη βιβλιοθήκη, ωστόσο, με τις συναρτήσεις η γραμμή μενού υπάρχει. Η συνέχεια αυτής της παραγράφου δεν αναφέρεται στην.exe μορφή. Από τη στιγμή που θα εμφανιστεί η οθόνη του προγράμματος, μπορούμε να εκκινήσουμε την εφαρμογή με το κουμπί εκκίνησης και να μην την τερματίσουμε ενώ εκτελούμε άλλες εργασίες στον υπολογιστή, αφού εάν δεν παράγουμε κάποιο σήμα, η φόρτιση του επεξεργαστή είναι αμελητέα. Αμέσως μετά την εκκίνηση μπορούμε να επιλέξουμε διαδοχικά λειτουργίες από το μενού Actions χωρίς να τερματίζουμε ενδιάμεσα την εφαρμογή. Όταν το πρόγραμμα δεν πραγματοποιεί καμία λειτουργία, βρίσκεται σε εκτέλεση, αλλά στα Actions είναι επιλεγμένο το No action.

87 ΠΑΡΑΡΤΗΜΑ Α 87 Α.5 ΣΤΟΙΧΕΙΑ ΕΛΕΓΧΟΥ ΕΦΑΡΜΟΓΗΣ Τα στοιχεία ελέγχου της εφαρμογής περιλαμβάνουν το στοιχείο ελέγχου πτυσσόμενης λίστας (dropdownlist) Actions, με το οποίο επιλέγουμε ποια λειτουργία θέλουμε να εκτελέσει η εφαρμογή. Η προεπιλεγμένη λειτουργία είναι το No Action το οποίο δηλώνει ότι βρίσκεται σε αδράνεια, και το οποίο επιλέγεται από το πρόγραμμα αυτόματα μετά το πέρας κάθε άλλης λειτουργίας. Με τη σειρά που εμφανίζονται, οι υπόλοιπες επιλογές του Actions είναι: ΕΠΙΛΟΓΗ ΕΠΕΞΗΓΗΣΗ ΛΕΙΤΟΥΡΓΙΑΣ Test Pulse Parameters Read pulse parameters from xml Write pulse parameters to xml Test Pattern Parameters Παράγει το σχήμα ενός γλωττιδικού παλμού με βάση τις παραμέτρους που έχει εισάγει ο χρήστης και ισχύουν εκείνη τη στιγμή, και τον εμφανίζει στην Οθόνη απεικόνισης σημάτων. Ζητά τη θέση ενός αρχείου xml που περιέχει τις παραμέτρους δημιουργίας ενός γλωττιδικού παλμού (pulse parameters) και τις χρησιμοποιεί σε όλες τις μετέπειτα ενέργειες του χρήστη, μέχρι να αλλαχθεί από αυτόν κάποια παράμετρος, ή μέχρι να διαβαστεί ένα άλλο αρχείο xml παλμού. Επίσης, παράγει τον παλμό και τον εμφανίζει στην οθόνη απεικόνισης. Ζητά τη θέση ενός αρχείου xml (το οποίο θα πρέπει να έχει δημιουργηθεί από τον χρήστη πιο πριν ως έγγραφο κειμένου με επέκταση.xml κάπου στο δίσκο), και αποθηκεύει σε αυτό τις τιμές των παραμέτρων παλμού (pulse parameters) που ισχύουν εκείνη τη στιγμή (tab Pulse της εφαρμογής). Παράγει ένα σήμα φωνής (σειρά γλωττιδικών

88 ΠΑΡΑΡΤΗΜΑ Α 88 παλμών ή chunk) σύμφωνα με τις τιμές που έχουν τα στοιχεία ελέγχου παραμέτρων παλμού (pulse parameters), παραμέτρων διακύμανσης μεταξύ παλμών (pattern parameters) και συντονισμών στοματοφαρυγγικής κοιλότητας (formants) και το εμφανίζει στην οθόνη απεικόνισης. Read Pattern parameters from xml Ζητά τη θέση ενός αρχείου xml που περιέχει τις παραμέτρους διακύμανσης των χαρακτηριστικών των γλωττιδικών παλμών (pattern parameters) και τις χρησιμοποιεί σε όλες τις μετέπειτα ενέργειές μας, μέχρι να αλλάξουμε εμείς κάποια παράμετρο, ή μέχρι να διαβάσει ένα άλλο αρχείο xml διακύμανσης χαρακτηριστικών. Επίσης, παράγει τη σειρά παλμών (chunk) και την εμφανίζει στην οθόνη απεικόνισης. Write Pattern parameters to xml Ζητά τη θέση ενός αρχείου xml(το οποίο θα πρέπει να έχει δημιουργηθεί από τον χρήστη πιο πριν ως έγγραφο κειμένου με επέκταση.xml κάπου στο δίσκο), και αποθηκεύει σε αυτό τις παραμέτρους διακύμανσης των χαρακτηριστικών των γλωττιδικών παλμών (pattern parameters) που ισχύουν εκείνη τη στιγμή (tab Patterns της εφαρμογής). Create wav with current parameters Δημιουργεί ένα αρχείο ήχου (.wav) χρησιμοποιώντας όλες τις παραμέτρους που ισχύουν εκείνη τη στιγμή στη διεπαφή της εφαρμογής. Το αρχείο αποθηκεύεται στη θέση που έχει προηγουμένως οριστεί στο wav path. Επίσης, δημιουργεί ένα αρχείο Excel με τις θέσεις των δειγμάτων που διαχωρίζουν τις περιόδους, όπως αναφέρεται εκτενέστερα

89 ΠΑΡΑΡΤΗΜΑ Α 89 Play sound from wav file Play continuous sound(output loop) παρακάτω. Αναπαράγει το αρχείο ήχου που αντιστοιχεί στη διαδρομή που αναγράφεται στο wav path. Η αναπαραγωγή του αρχείου σταματά με το τέλος αυτού. Αναπαράγει το σήμα που φαίνεται στην οθόνη απεικόνισης. Αυτό πρέπει να είναι συνήθως το αποτέλεσμα του Test Pattern Parameters. Η αναπαραγωγή είναι επαναλαμβανόμενη, και για να διακοπεί πρέπει να πατηθεί το κουμπί Stop Continuous Play, που βρίσκεται πάνω από την οθόνη απεικόνισης. Πίνακας Α. 1 Επεξήγηση επιλογών Actions Τα στοιχεία επιλογής αρχείων wav File και Time stamps File ορίζουν τη θέση στο δίσκο και τα ονόματα των αρχείων στα οποία καταγράφονται το παραγόμενο αρχείο ήχου και ένα βοηθητικό αρχείο Excel. Το βοηθητικό αυτό αρχείο δημιουργείται κάθε φορά που αποθηκεύεται ένα αρχείο ήχου και περιέχει τις τιμές των δειγμάτων στις οποίες αρχίζει και τελειώνει κάθε γλωττιδικός παλμός καθώς και το δείγμα στο οποίο διαχωρίζεται η ανοιχτή από τη κλειστή γλωττιδική φάση, σε κάθε περίοδο στο συγκεκριμένο αρχείο ήχου. Περιέχει τρεις γραμμές: Στην πρώτη γραμμή αναγράφονται οι αύξοντες αριθμοί των δειγμάτων στα οποία ξεκινάνε οι περίοδοι του σήματος. Στη δεύτερη γραμμή αναγράφονται οι αύξοντες αριθμοί των δειγμάτων στα οποία διαχωρίζεται η ανοιχτή από την κλειστή γλωττιδική φάση σε κάθε περίοδο. Στην τρίτη γραμμή αναγράφονται οι αύξοντες αριθμοί των δειγμάτων στα οποία τερματίζονται οι περίοδοι.

90 ΠΑΡΑΡΤΗΜΑ Α 90 Εικόνα Α. 3 Παράδειγμα Παραγόμενου Φύλλου Excel Τέλος, με το Number of chunks in wav έχουμε τη δυνατότητα να επαναλάβουμε πανομοιότυπα τμήματα σήματος στο τελικό αποτέλεσμα, και με αυτό το στοιχείο ελέγχου δηλώνουμε τον αριθμό τους. Αν για παράδειγμα έχουμε δηλώσει στο tab Patterns ότι θέλουμε να παράγουμε ένα σήμα με 10 περιόδους, μπορούμε να δηλώσουμε να επαναληφθούν k φορές αυτές οι 10 περίοδοι στο τελικό σήμα πανομοιότυπα, θέτοντας Numbers of chunks in wav ίσο με k. Το Stop Continuous Play διακόπτει την αναπαραγωγή ( Play continuous sound(output loop) ) του ήχου όταν αυτή δεν έχει φτάσει στο τέλος του. Α.6 ΟΘΟΝΗ ΑΠΕΙΚΟΝΙΣΗΣ ΣΗΜΑΤΩΝ Στην οθόνη απεικόνισης των σημάτων εμφανίζονται όλα τα σήματα τα οποία παράγουμε. Συγκεκριμένα, εκεί ελέγχουμε τη μορφή του γλωττιδικού παλμού και τη μορφή της παραγόμενης περιόδου, αφού ο γλωττιδικός παλμός περάσει από τα φίλτρα της στοματοφαρυγγικής κοιλότητας, καθώς και την επίδραση των patterns των παραμέτρων στη μεταβολή των χαρακτηριστικών του παλμού μεταξύ των περιόδων. Το περιεχόμενο αυτής της οθόνης αναπαράγεται από την κάρτα ήχου όταν από τα Actions επιλεχθεί το Play continuous sound(output loop).

91 ΠΑΡΑΡΤΗΜΑ Α 91 Α.7 ΧΩΡΟΣ ΕΛΕΓΧΟΥ ΠΑΡΑΜΕΤΡΩΝ Τέλος, το σημαντικότερο κομμάτι είναι αυτό του ορισμού των παραμέτρων της παραγόμενης φωνής. Ο χώρος που περιέχει αυτά τα στοιχεία ελέγχου είναι χωρισμένος σε τρεις υποπεριοχές: Αυτή που αφορά τα χαρακτηριστικά του γλωττιδικού παλμού, Αυτή που αφορά τη διακύμανση των χαρακτηριστικών των γλωττιδικών παλμών στο χρόνο και Αυτή που αφορά τα φίλτρα που προσομοιώνουν τη στοματοφαρυγγική κοιλότητα. Επιλέγοντας το πρώτο Tab (με όνομα Pulse), ορίζουμε τις παραμέτρους του γλωττιδικού παλμού. Υπάρχουν 5 γενικές παράμετροι που εμφανίζονται στο πάνω μέρος του πάνελ, ενώ οι υπόλοιπες είναι παράμετροι προσθετικού, στον παλμό, θορύβου και χωρίζονται σε τρία πλαίσια (Open Phase, Mixed Phase, Closed Phase). Σε κάθε πλαίσιο επαναλαμβάνονται οι ίδιες παράμετροι με τα άλλα δύο, με τη διαφορά ότι στο πρώτο πλαίσιο αναφερόμαστε στην ανοιχτή φάση του γλωττιδικού παλμού και οι παράμετροι έχουν την κατάληξη _o, στο τρίτο πλαίσιο αναφερόμαστε στην κλειστή φάση του γλωττιδικού παλμού και οι παράμετροι έχουν την κατάληξη _c, ενώ στο δεύτερο αναφερόμαστε στη συνολική διάρκεια του παλμού και οι παράμετροι έχουν την κατάληξη _m. Όταν αναφερόμαστε σε ποσοστιαία διάρκεια πχ duration(%), εννοούμε ποσοστιαία χρονική διάρκεια επί του συνόλου του χρονικού διαστήματος στο οποίο αναφέρεται η παράμετρος (Ανοιχτή φάση, Ολόκληρος παλμός, κλειστή φάση). Για παράδειγμα, όταν η παράμετρος είναι η start_point_o(%), αναφερόμαστε στο χρονικό σημείο στο οποίο ξεκινά ο θόρυβος(start_point) της ανοιχτής φάσης(_o), ως ποσοστό επί της συνολικής διάρκειας της ανοιχτής φάσης. Αν η τιμή της παραμέτρου είναι 10, ο θόρυβος που θα προστεθεί στην ανοιχτή φάση του γλωττιδικού παλμού θα ξεκινάει στο σημείο 0,1*διάρκεια ανοιχτής φάσης. Ανάλογα αν θέσουμε και την παράμετρο start_point_m(%) ίση με 10, θα προστεθεί επιπλέον θόρυβος (από αυτόν που αναφέραμε πριν), ο οποίος θα ξεκινάει από το σημείο 0,1*συνολική διάρκεια παλμού. Αναλυτικά, οι παράμετροι φαίνονται στην παρακάτω εικόνα και επεξηγούνται στον

92 ΠΑΡΑΡΤΗΜΑ Α 92 ακόλουθο πίνακα. Οι παράμετροι θορύβου που περιέχονται στον πίνακα αναφέρονται στην ανοιχτή φάση(_o). Αναλογικά, ισχύουν για την κλειστή φάση(_c) και για τη συνολική διάρκεια του παλμού(_m) αντικαθιστώντας τη φράση «ανοιχτή φάση» με «κλειστή φάση» και «συνολική διάρκεια παλμού» αντίστοιχα: Εικόνα Α. 4 H Καρτέλα Pulse αναφέρεται στα χαρακτηριστικά του γλωττιδικού παλμού ΠΑΡΑΜΕΤΡΟΣ ΕΠΕΞΗΓΗΣΗ ΠΑΡΑΜΕΤΡΟΥ Sampling Frequency Ορίζει τη συχνότητα δειγματοληψίας του παραγόμενου σήματος. Η προεπιλεγμένη τιμή είναι 44100Hz. t0 Ορίζει τη διάρκεια του γλωττιδικού παλμού σε sec(δες παρακάτω εικόνα). tp Ορίζει το ανώτερο σημείο του γλωττιδικού παλμού ή ισοδύναμα το σημείο πρώτου μηδενισμού της

93 ΠΑΡΑΡΤΗΜΑ Α 93 παραγώγου της συνάρτησης του γλωττιδικού παλμού(δες παρακάτω εικόνα). te Ορίζει το σημείο στο οποίο ξεκινά η φάση επιστροφής της παραγώγου της συνάρτησης του γλωττιδικού παλμού.(δες παρακάτω εικόνα). ta Ορίζει το χρονικό διάστημα μεταξύ του t e και του σημείου που η εφαπτομένη στην παράγωγο στο σημείο t e συναντά τον οριζόντιο άξονα.(δες παρακάτω εικόνα). Εμμέσως καθορίζει την κλίση του κλάδου επιστροφής της συνάρτησης του μοντέλου. Noise_type_o Ορίζει τον τύπο του προσθετικού θορύβου που θα προστεθεί στην ανοιχτή φάση του παλμού. Οι επιλογές είναι λευκός, ροζ, ή λευκός στον οποίο έχει εφαρμοστεί IIR φίλτρο. Οι παράμετροι του φίλτρου δίνονται στη συνέχεια(noise filter forward coefficients_o, Noise filter reverse coefficients_o). Window_o Ορίζει τον τύπο του χρονικού παραθύρου που θα εφαρμοστεί στον προσθετικό θόρυβο. Οι επιλογές είναι: Τετραγωνικό(κανένα παράθυρο), Hanning, Hamming, Blackman, gaussian, flat top(τραπέζιο) και παράθυρο τριών φάσεων. Το τελευταίο παράθυρο αποτελείται (εικόνα παρακάτω) έχει παραμέτρους που ορίζονται από τις επόμενες 4 μεταβλητές Rising_part_duration(%)_o Είναι η ποσοστιαία χρονική διάρκεια της

94 ΠΑΡΑΡΤΗΜΑ Α 94 Rising_part_end_value(%)_o Falling_part_duration(%)_o Falling_part_end_value(%)_o SNR_o Noise filter forward coefficients_o Noise filter reverse coefficients_o φάσης ανόδου του παραθύρου t1 σε σχέση με τη συνολική διάρκεια του παραθύρου (παρακάτω εικόνα). Πρόκειται για την τιμή με την οποία θα πολλαπλασιαστεί η τελευταία τιμή του σήματος που ανήκει στον κλάδο ανόδου (Α στην παρακάτω εικόνα). Είναι η ποσοστιαία χρονική διάρκεια της φάσης καθόδου του παραθύρου σε σχέση με τη συνολική διάρκεια του παραθύρου (παρακάτω εικόνα). Πρόκειται για την τιμή με την οποία θα πολλαπλασιαστεί η πρώτη τιμή του σήματος που ανήκει στον κλάδο καθόδου (Β στην παρακάτω εικόνα). Ορίζει τη σηματοθορυβική σχέση στην ανοιχτή φάση. Ορίζει τους ευθείς συντελεστές του φίλτρου θορύβου (αυτού από το οποίο θα διέλθει ο λευκός θόρυβος), μόνο όταν έχουμε επιλέξει noise_type=custom. Ορίζει τους ανάστροφους συντελεστές του φίλτρου θορύβου (αυτού από το οποίο θα διέλθει ο λευκός θόρυβος), μόνο όταν έχουμε επιλέξει noise_type=custom. Έτσι αν x είναι ο πίνακας με τα δεδομένα εισόδου στο φίλτρο, και y είναι ο φιλτραρισμένος θόρυβος, τότε τα y προκύπτουν από τα x σύμφωνα με τον τύπο: y b x a y Nb 1 Na 1 1 i = j i j k i k a0 j= 0 j= 1

95 ΠΑΡΑΡΤΗΜΑ Α 95 όπυ N b είναι ο αριθμός των ευθέων συντελεστών του φίλτρου,b j είναι οι ευθείς συντελεστές, N a είναι ο αριθμός των ανάστροφων συντελεστών του φίλτρου, και a k είναι οι ανάστροφοι συντελεστές του φίλτρου. Start point_o(%) End point_o(%) Ορίζει ποσοστιαία (σε σχέση με τη συνολική διάρκεια της ανοιχτής φάσης) σε ποιο δείγμα θα αρχίσει να προστίθεται ο θόρυβος στον παλμό. Ορίζει ποσοστιαία (σε σχέση με τη συνολική διάρκεια της ανοιχτής φάσης) σε ποιο δείγμα θα τελειώσει η πρόσθεση θορύβου στον παλμό. Πίνακας Α. 2 Επεξήγηση παραμέτρων παλμού Εικόνα Α. 5 Αναπαράσταση γλωττιδικού παλμού

96 ΠΑΡΑΡΤΗΜΑ Α 96 Εικόνα Α. 6 Παράμετροι παραθύρου τριών φάσεων. Επιλέγοντας τη δεύτερη καρτέλα, με το όνομα Patterns, μπορεί ο χρήστης να ορίσει τους κανόνες που θα ακολουθούν οι παράμετροι των γλωττιδικών παλμών από περίοδο σε περίοδο. Ουσιαστικά, μπορεί να φτιάξει έναν οδηγό σταθερού μήκους για κάθε παράμετρο και σύμφωνα με αυτόν να μεταβάλλεται κάποια παράμετρος του γλωττιδικού παλμού. Το μήκος του οδηγού ορίζεται στο Periods per Pattern.Πρόκειται για τον αριθμό των περιόδων που θα αποτελούν ένα Pattern στην εφαρμογή. Αν για παράδειγμα θελήσουμε να μεταβάλλεται το t e από μία τιμή 0,005sec σε 0,008sec γραμμικά σε διάστημα 10 περιόδων τότε ορίζουμε Periods per Pattern ίσο με 10. Το σήμα που θα παραχθεί θα αποτελείται από 10 περιόδους, και για τη συνέχεια θα αποτελεί ένα κομμάτι chunk. Για να παράγουμε μεγαλύτερης διάρκειας επαναλαμβανόμενα, όμως, σήματα, θα πρέπει να αυξήσουμε την τιμή του chunks in wav, όπως είπαμε παραπάνω.

97 ΠΑΡΑΡΤΗΜΑ Α 97 Εικόνα Α. 7 Καρτέλα Οδηγών Παραμέτρων (Pattern Parameters) Οι παράμετροι των οποίων οι τιμές μπορούν να ακολουθούν κάποιον οδηγό (Pattern) είναι οι παρακάτω: t 0 t p t e t a Amplitude %start point open %end point open SNR open %start point closed %end point closed SNR closed %start point mixed %end point mixed

98 ΠΑΡΑΡΤΗΜΑ Α 98 SNR mixed Οι παράμετροι αφορούν χαρακτηριστικά δημιουργίας των γλωττιδικών παλμών και έχουν οριστεί σε προηγούμενο πίνακα για τις τρεις φάσεις του παλμού(ανοιχτή, κλειστή, συνολική διάρκεια). Καθεμία από αυτές τις παραμέτρους μπορεί να μεταβάλλεται από περίοδο σε περίοδο, ακολουθώντας έναν οδηγό από αυτούς που αναφέρονται στον παρακάτω πίνακα. Κάθε οδηγός δέχεται έναν πίνακα από παραμέτρους που ορίζουν το ακριβές σχήμα του οδηγού, πχ το ύψος της ράμπας, ή τη συχνότητα του ημιτονοειδούς οδηγού. Για κάθε παράμετρο του παλμού ορίζεται το είδος του Pattern στο Pattern Type, και τα στοιχεία, ή ιδιαίτερα χαρακτηριστικά του Pattern στον πίνακα Pattern Parameters που ακολουθεί κάθε Pattern Type. Οι τύποι των οδηγών καθώς και οι παράμετροι που απαιτεί ο καθένας από αυτούς (σύμφωνα με τις θέσεις τους στον πίνακα παραμέτρων) φαίνονται στον παρακάτω πίνακα: ΟΝΟΜΑ ΠΕΡΙΓΡΑΦΗ ΑΠΑΙΤΟΥΜΕΝΕΣ ΠΑΡΑΜΕΤΡΟΙ none Αποτελεί την προεπιλεγμένη Δεν δέχεται καμία παράμετρο επιλογή. Όταν επιλεχθεί για κάποια παράμετρο αυτός ο κανόνας, σημαίνει ότι η παράμετρος θα έχει την ίδια τιμή (αυτή που ορίζεται στην καρτέλα Pulse) σε όλες τις περιόδους του κομματιού (chunk) Sine Ορίζει για μία παράμετρο του 0. α: είναι η επί τοις εκατό

99 ΠΑΡΑΡΤΗΜΑ Α 99 ramp saw παλμού, ημιτονοειδή μεταβολή μεταξύ των περιόδων. Ορίζει για μία παράμετρο του παλμού, μεταβολή συνάρτησης ράμπας μεταξύ των περιόδων. Ορίζει για μία παράμετρο του παλμού, πριονωτή μεταβολή μεταβολή του πλάτους του ημιτόνου σε σχέση με την τιμή που έχει η παράμετρος στην καρτέλα Pulse. 1. f: Ορίζει τη συχνότητα της ημιτονοειδούς μεταβολής. Έτσι, αν x είναι η τιμή της παραμέτρου (π.χ. SNR) στην καρτέλα Pulse, τότε το ημιτονοειδές Pattern δίνεται από τον τύπο: x 2π fi yi () = x+ a sin 100 ppp,0 i ppp-1 όπου ppp είναι η τιμή που έχει το periods per pattern. 0. α: ορίζει την μέγιστη τιμή της παραμέτρου, στην οποία θα φτάσει η ράμπα στο τέλος της, ως ποσοστό της τιμής που έχει η παράμετρος στην καρτέλα Pulse. Έτσι, αν x είναι η τιμή που έχει η παράμετρος στην καρτέλα Pulse, τότε η συνάρτηση του Pattern θα είναι: yi () = x+ x a i 100 ppp 1,0 i ppp-1 όπου ppp είναι η τιμή που έχει το periods per pattern. 0. tooths: είναι ο αριθμός των μεγίστων που θα έχει ο οδηγός,

100 ΠΑΡΑΡΤΗΜΑ Α 100 random μεταξύ των περιόδων. Ορίζει για μία παράμετρο του παλμού, τυχαία μεταβολή μεταξύ των περιόδων. δηλαδή ο αριθμός των δοντιών του πριονιού. 1. α: ορίζει την μέγιστη τιμή της παραμέτρου, στην οποία θα φτάσει το κάθε δόντι στο τέλος του, ως ποσοστό της τιμής που έχει η παράμετρος στην καρτέλα Pulse. Έτσι, αν x είναι η τιμή της παραμέτρου (π.χ. SNR) στην καρτέλα Pulse, τότε το πριονωτό Pattern δίνεται από τον τύπο: ppp 1 i mod x tooths yi () = x+ a 100 ppp tooths,0 i ppp-1 όπου ppp είναι η τιμή που έχει το periods per pattern. 0. α: Ορίζει την επί τοις εκατό μέγιστη απόκλιση της παραμέτρου από την τιμή της στην καρτέλα Pulse κατά την διακύμανσή της μεταξύ τυχαίων τιμών. Χρησιμοποιείται η συνάρτηση τυχαίων αριθμών μεταξύ 0 και 1 του Labview. Αν x είναι η τιμή της παραμέτρου στην καρτέλα Pulse και rn ο τυχαίος αριθμός από 0 έως 1 που παράγει το Labview, ο τύπος που παράγει το Pattern είναι:

101 ΠΑΡΑΡΤΗΜΑ Α 101 x yi () = x+ 2a rn [ ],0 i ppp-1 όπου ppp είναι η τιμή που έχει το periods per pattern. Πίνακας Α. 3 Επεξήγηση παραμέτρων Patterns Η τελευταία καρτέλα, που φαίνεται στην παρακάτω εικόνα, ορίζει τους συντονισμούς του στοματοφάρυγγα. Μπορούν να ορισθούν οι κεντρικές συχνότητες και τα εύρη ζώνης μέχρι έξι συντονισμών. Για να εισάγει ο χρήστης λιγότερους από έξι συντονισμούς, απλώς θέτει 0 τις κεντρικές συχνότητες και τα εύρη ζώνης των υπολοίπων. Για να εισάγονται συντονισμοί σε κάθε σήμα που παράγεται θα πρέπει να είναι αναμμένη η πράσινη λυχνία στο κουμπί Enable Formants που βρίσκεται στην καρτέλα. Εικόνα Α. 8 Καρτέλα Εισαγωγής συντονισμών στοματοφάρυγγα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Ειδικά Θέματα Ηλεκτρονικών 1

Ειδικά Θέματα Ηλεκτρονικών 1 Ειδικά Θέματα Ηλεκτρονικών 1 ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3...2 ΑΠΟΚΡΙΣΗ ΣΥΧΝΟΤΗΤΑΣ ΕΝΙΣΧΥΤΩΝ...2 3.1 Απόκριση συχνότητας ενισχυτών...2 3.1.1 Παραμόρφωση στους ενισχυτές...5 3.1.2 Πιστότητα των ενισχυτών...6 3.1.3

Διαβάστε περισσότερα

Ο μετασχηματισμός Fourier

Ο μετασχηματισμός Fourier Ο μετασχηματισμός Fourier είναι από τα διαδεδομένα εργαλεία μετατροπής δεδομένων και συναρτήσεων (μιας ή περισσοτέρων διαστάσεων) από αυτό που ονομάζεται περιοχή χρόνου (time domain) στην περιοχή συχνότητας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙςΤΗΜΗς & ΤΕΧΝΟΛΟΓΙΑς ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΜΔΕ Προηγμένα Τηλεπικοινωνιακά Συστήματα και Δίκτυα Διάλεξη 2 η Νικόλαος Χ. Σαγιάς Επίκουρος Καθηγητής Webpage: http://eclass.uop.gr/courses/tst233

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

Χάλκινα Πνευστά. Δρ. Χρυσούλα Αλεξανδράκη ΤΕΙ Κρήτης Σχολή Εφαρμοσμένων Επιστημών Τμήμα Μηχανικών Μουσικής Τεχνολογίας και Ακουστικής

Χάλκινα Πνευστά. Δρ. Χρυσούλα Αλεξανδράκη ΤΕΙ Κρήτης Σχολή Εφαρμοσμένων Επιστημών Τμήμα Μηχανικών Μουσικής Τεχνολογίας και Ακουστικής Χάλκινα Πνευστά Δρ. Χρυσούλα Αλεξανδράκη ΤΕΙ Κρήτης Σχολή Εφαρμοσμένων Επιστημών Τμήμα Μηχανικών Μουσικής Τεχνολογίας και Ακουστικής Τα Βασικά Όργανα Τρομπέτα Τρομπόνι Τούμπα Κόρνο Flugelhorn Γαλλικό Κόρνο

Διαβάστε περισσότερα

ΘΕΜΑ Α ΕΡΩΤΗΣΕΙΣ ΘΕΜΑ Α

ΘΕΜΑ Α ΕΡΩΤΗΣΕΙΣ ΘΕΜΑ Α ΘΕΜΑ Α 1. Να επιλέξετε τη σωστή απάντηση. Μηχανικό ονομάζεται το κύμα στο οποίο: α. Μεταφέρεται ύλη στον χώρο κατά την κατεύθυνση διάδοσης του κύματος. β. Μεταφέρεται ορμή και ενέργεια στον χώρο κατά την

Διαβάστε περισσότερα

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 Εισαγωγή Η βασική ιδέα στην ανάλυση των κυματομορφών με την βοήθεια της μεθόδου Fourier συνίσταται στο ότι μία κυματομορφή μιας οποιασδήποτε

Διαβάστε περισσότερα

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail:

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail: Ιατρικά Ηλεκτρονικά Δρ. Π. Ασβεστάς Τμήμα Μηχανικών Βιοϊατρικής Τεχνολογίας Τ.Ε Χρήσιμοι Σύνδεσμοι Σημειώσεις μαθήματος: http://medisp.bme.teiath.gr/eclass/courses/tio127/ E mail: pasv@teiath.gr 2 1 Περιοδικά

Διαβάστε περισσότερα

ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN

ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN ΠΑΡΑΓΩΓΗ ΜΙΚΡΟΚΥΜAΤΩΝ ΜΕ ΔΙΟΔΟ GUNN Το φαινόμενο Gunn, ή το φαινόμενο των μεταφερόμενων ηλεκτρονίων, που ανακαλύφθηκε από τον Gunn το 1963 δηλώνει ότι όταν μια μικρή τάση DC εφαρμόζεται κατά μήκος του

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Εισαγωγή στις Τηλεπικοινωνίες Εφαρμογές της Ανάλυσης Fourier Αθανάσιος

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης 6 Nv 6 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Εισαγωγή στις Τηλεπικοινωνίες Ανάπτυξη σε Σειρές Furier Αθανάσιος

Διαβάστε περισσότερα

x[n] = e u[n 1] 4 x[n] = u[n 1] 4 X(z) = z 1 H(z) = (1 0.5z 1 )(1 + 4z 2 ) z 2 (βʹ) H(z) = H min (z)h lin (z) 4 z 1 1 z 1 (z 1 4 )(z 1) (1)

x[n] = e u[n 1] 4 x[n] = u[n 1] 4 X(z) = z 1 H(z) = (1 0.5z 1 )(1 + 4z 2 ) z 2 (βʹ) H(z) = H min (z)h lin (z) 4 z 1 1 z 1 (z 1 4 )(z 1) (1) Ασκήσεις με Συστήματα στο Χώρο του Ζ Επιμέλεια: Γιώργος Π. Καφεντζης Δρ. Επιστήμης Η/Υ Πανεπιστημίου Κρήτης Δρ. Επεξεργασίας Σήματος Πανεπιστημίου Rennes 1 7 Νοεμβρίου 015 1. Υπολόγισε τον μετ. Ζ και την

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier 1. Μετασχηματισμός Fourier

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 10: Διακριτός Μετασχηματισμός Fourier (DFT) Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετασχηματισμός Fourier Διακριτού Χρόνου Διακριτός Μετασχηματισμός Fourier (DFT)

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

Θεώρημα δειγματοληψίας

Θεώρημα δειγματοληψίας Δειγματοληψία Θεώρημα δειγματοληψίας Ένα βαθυπερατό σήμα πεπερασμένης ενέργειας που δεν περιέχει συχνότητες μεγαλύτερες των W Hertz μπορεί να περιγραφθεί πλήρως από τις τιμές του σε χρονικές στιγμές ισαπέχουσες

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Οικονομίας Διοίκησης και Πληροφορικής Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Αρχές Τηλ/ων Συστημάτων Εργαστήριο 7 ο : Δειγματοληψία και Ανασύσταση Βασική

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Εισαγωγή στις Τηλεπικοινωνίες Διάλεξη 3 η Τα Συστήματα στις Τηλεπικοινωνίες

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 3: Συστήματα Διακριτού Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Συστήματα Διακριτού Χρόνου Εισαγωγή στα Συστήματα Διακριτού Χρόνου Ταξινόμηση Συστημάτων ΔΧ

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 6: Απόκριση Συχνότητας Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετασχηματισμός Fourier Διακριτού Χρόνου Η έννοια της Απόκρισης Συχνότητας Ιδιότητες της Απόκρισης

Διαβάστε περισσότερα

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Σημειώσεις Δικτύων Αναλογικά και ψηφιακά σήματα Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Χαρακτηριστικά

Διαβάστε περισσότερα

Διακριτός Μετασχηματισμός Fourier

Διακριτός Μετασχηματισμός Fourier Διακριτός Μετασχηματισμός Fourier 1 Διακριτός Μετασχηματισμός Fourier Ο μετασχηματισμός Fourier αποτελεί τον ακρογωνιαίο λίθο της επεξεργασίας σήματος αλλά και συχνή αιτία πονοκεφάλου για όσους πρωτοασχολούνται

Διαβάστε περισσότερα

ΔΙΑΓΩΝΙΣΜΑ 05 ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Διάρκεια: 3 ώρες ΣΥΝΟΛΟ ΣΕΛΙ ΩΝ: ΠΕΝΤΕ (5) U β A

ΔΙΑΓΩΝΙΣΜΑ 05 ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Διάρκεια: 3 ώρες ΣΥΝΟΛΟ ΣΕΛΙ ΩΝ: ΠΕΝΤΕ (5) U β A Σελίδα 1 από 5 ΔΙΑΓΩΝΙΣΜΑ 05 ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Διάρκεια: 3 ώρες ΣΥΝΟΛΟ ΣΕΛΙ ΩΝ: ΠΕΝΤΕ (5) ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ερωτήσεις Α1- Α και

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 13: Ανάλυση ΓΧΑ συστημάτων (Ι) Περιγραφές ΓΧΑ συστημάτων Έχουμε δει τις παρακάτω πλήρεις περιγραφές ΓΧΑ συστημάτων: 1. Κρυστική απόκριση (impulse

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος Εισαγωγή στην Επεξεργασία Σήματος Νόκας Γιώργος Βιβλιογραφία στον εύδοξο 1. Γ. Β. Μουστακίδης, Βασικές Τεχνικές Ψηφιακής Επεξεργασίας Σημάτων και Συστημάτων, εκδόσεις Α. Τζιόλα & Υιοί Ο.Ε., Θεσσαλονίκη,

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER Ανάλυση σημάτων και συστημάτων Ο μετασχηματισμός Fourier (DTFT και DFT) είναι σημαντικότατος για την ανάλυση σημάτων και συστημάτων Εντοπίζει

Διαβάστε περισσότερα

δ[n kp ], k Z (1) 1 cos πn, N 1 n N 1 + N 2 2N

δ[n kp ], k Z (1) 1 cos πn, N 1 n N 1 + N 2 2N ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών HY-370: Ψηφιακή Επεξεργασία Σήµατος Χειµερινό Εξάµηνο 2015 ιδάσκοντες : Γ. Στυλιανού - Γ. Καφεντζής Τέταρτο Εργαστήριο - Ηµεροµηνία : 27/11/2015 Σηµείωση

Διαβάστε περισσότερα

Εφαρμογή στις ψηφιακές επικοινωνίες

Εφαρμογή στις ψηφιακές επικοινωνίες Δειγματοληψία Εφαρμογή στις ψηφιακές επικοινωνίες Γεννήτρια σήματος RF, (up converter Ενισχυτής) Προενισχυτής down-converter Ψηφιοποιητής σήματος RF Μονάδα ψηφ. επεξεργασίας Μονάδα ψηφ. επεξεργασίας 100

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) Εισαγωγή Μέχρι στιγμής έχουμε δει το Μετασχηματισμό Fourier Διακριτού

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 1: Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Εισαγωγή στα Σήματα 1. Σκοποί της Θεωρίας Σημάτων 2. Κατηγορίες Σημάτων 3. Χαρακτηριστικές Παράμετροι

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας Διανύσματα Καστοριά,

Διαβάστε περισσότερα

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα Εθνκό & Καποδιστριακό Πανεπιστήμιο Αθηνών Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα Βασικές Έννοιες Θάνος Μπίμπας Επ. Καθηγητής ΕΚΠΑ Hon. Reader UCL Ear InsUtute Διαταραχές Φωνής & Ακοής στις Ερμηνευτικές

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Στοιχειώδη Σήματα Συνεχούς Χρόνου 1. Μοναδιαία Βηματική Συνάρτηση 2. Κρουστική Συνάρτηση ή

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 9 ο : Δειγματοληψία και Ανασύσταση

Διαβάστε περισσότερα

5. (Λειτουργικά) Δομικά Διαγράμματα

5. (Λειτουργικά) Δομικά Διαγράμματα 5. (Λειτουργικά) Δομικά Διαγράμματα Γενικά, ένα λειτουργικό δομικό διάγραμμα έχει συγκεκριμένη δομή που περιλαμβάνει: Τις δομικές μονάδες (λειτουργικά τμήματα ή βαθμίδες) που συμβολίζουν συγκεκριμένες

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier 1. Ανάπτυγμα σήματος σε Σειρά Fourier

Διαβάστε περισσότερα

5 η ενότητα ΑΝΑΤΡΟΦΟΔΟΤΗΣΗ ΣΤΟΥΣ ΕΝΙΣΧΥΤΕΣ

5 η ενότητα ΑΝΑΤΡΟΦΟΔΟΤΗΣΗ ΣΤΟΥΣ ΕΝΙΣΧΥΤΕΣ ρ. Λάμπρος Μπισδούνης Καθηγητής 5 η ενότητα ΑΝΑΤΡΟΦΟΔΟΤΗΣΗ ΣΤΟΥΣ ΕΝΙΣΧΥΤΕΣ T.E.I. ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Τ.Ε. 1 Περιεχόμενα 5 ης ενότητας Στην πέμπτη ενότητα θα μελετήσουμε την ανατροφοδότηση

Διαβάστε περισσότερα

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων Διάλεξη 9 Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους Ανασκόπηση της Διάλεξης 8 Εξετάσαμε την αντίληψη του ύψους ενός καθαρού

Διαβάστε περισσότερα

1. Η συχνότητα αρμονικού κύματος είναι f = 0,5 Hz ενώ η ταχύτητα διάδοσης του υ = 2 m / s.

1. Η συχνότητα αρμονικού κύματος είναι f = 0,5 Hz ενώ η ταχύτητα διάδοσης του υ = 2 m / s. 1. Η συχνότητα αρμονικού κύματος είναι f = 0,5 Hz ενώ η ταχύτητα διάδοσης του υ = 2 m / s. Να βρεθεί το μήκος κύματος. 2. Σε ένα σημείο του Ειρηνικού ωκεανού σχηματίζονται κύματα με μήκος κύματος 1 m και

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μετάδοση πληροφορίας - Διαμόρφωση MYE006-ΠΛΕ065: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου Διάρθρωση μαθήματος Βασικές έννοιες μετάδοσης Διαμόρφωση ορισμός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2ο: ΜΗΧΑΝΙΚΑ- ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΑ ΚΥΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ.

ΚΕΦΑΛΑΙΟ 2ο: ΜΗΧΑΝΙΚΑ- ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΑ ΚΥΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ. ΤΟ ΥΛΙΚΟ ΕΧΕΙ ΑΝΤΛΗΘΕΙ ΑΠΟ ΤΑ ΨΗΦΙΑΚΑ ΕΚΠΑΙΔΕΥΤΙΚΑ ΒΟΗΘΗΜΑΤΑ ΤΟΥ ΥΠΟΥΡΓΕΙΟΥ ΠΑΙΔΕΙΑΣ http://www.study4exams.gr/ ΕΧΕΙ ΤΑΞΙΝΟΜΗΘΕΙ ΑΝΑ ΕΝΟΤΗΤΑ ΚΑΙ ΑΝΑ ΤΥΠΟ ΓΙΑ ΔΙΕΥΚΟΛΥΝΣΗ ΤΗΣ ΜΕΛΕΤΗΣ ΣΑΣ ΚΑΛΗ ΕΠΙΤΥΧΙΑ ΣΤΗ

Διαβάστε περισσότερα

Μουσική Ακουστική Οργανολογία. Επανάληψη στο Εργαστήριο

Μουσική Ακουστική Οργανολογία. Επανάληψη στο Εργαστήριο Μουσική Ακουστική Οργανολογία Επανάληψη στο Εργαστήριο Συντονιστής Helmholtz 1. Τι είναι ο παράγοντας ποιότητας ενός συντονισμού; 2. Πως ορίζεται το σχετικό σφάλμα μιας πειραματικής μέτρησης; 3. Τι είναι

Διαβάστε περισσότερα

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ. 10.0-10.2 Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ. 10.0-10.2 Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε University of Cyprus Biomedical Imaging & Applied Optics Διάλεξη (Επανάληψη Κεφ. 10.0-10. Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων Τι πρέπει να προσέξουμε Επαρκής ψηφιοποίηση στο χρόνο (Nyquist) Αναδίπλωση (aliasing)

Διαβάστε περισσότερα

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ. ΘΕΜΑ 1 ο Στις ερωτήσεις 1-4 να γράψετε τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση.

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ. ΘΕΜΑ 1 ο Στις ερωτήσεις 1-4 να γράψετε τον αριθμό της ερώτησης και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση. ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ ΕΞΕΤΑΣΕΙΣ ΠΡΟΣΟΜΟΙΩΣΗΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ 11 ΑΠΡΙΛΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΦΥΣΙΚΗ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΞΙ (6) ΘΕΜΑ 1 ο Στις ερωτήσεις 1-4 να γράψετε

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς Καστοριά, Ιούλιος 14 A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση Μετάδοση πληροφορίας - Διαμόρφωση MYE006: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διάρθρωση μαθήματος Μετάδοση Βασικές έννοιες Διαμόρφωση ορισμός είδη

Διαβάστε περισσότερα

3-Φεβ-2009 ΗΜΥ 429. 4. Σήματα

3-Φεβ-2009 ΗΜΥ 429. 4. Σήματα 3-Φεβ-2009 ΗΜΥ 429 4. Σήματα 1 Σήματα Σήματα είναι: σχήματα αλλαγών που αντιπροσωπεύουν ή κωδικοποιούν πληροφορίες σύνολο πληροφορίας ή δεδομένων σχήματα αλλαγών στο χρόνο, π.χ. ήχος, ηλεκτρικό σήμα εγκεφάλου

Διαβάστε περισσότερα

α. 0cm. β. 10cm. γ. 20cm. δ. 40cm.

α. 0cm. β. 10cm. γ. 20cm. δ. 40cm. ΘΕΜΑ A Α. Ερωτήσεις πολλαπλής επιλογής. Δύο όμοιες πηγές κυμάτων Α και Β στην επιφάνεια μιας ήρεμης λίμνης βρίσκονται σε φάση και παράγουν υδάτινα αρμονικά κύματα. Η καθεμιά παράγει κύμα (πρακτικά) αμείωτου

Διαβάστε περισσότερα

Αριθμητικές μέθοδοι σε ταλαντώσεις μηχανολογικών συστημάτων

Αριθμητικές μέθοδοι σε ταλαντώσεις μηχανολογικών συστημάτων ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Καθηγητής κ. Σ. Νατσιάβας Αριθμητικές μέθοδοι σε ταλαντώσεις μηχανολογικών συστημάτων Στοιχεία Φοιτητή Ονοματεπώνυμο: Νατσάκης Αναστάσιος Αριθμός Ειδικού Μητρώου:

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα ομιλίας Είδη /Κατηγορίες Σημάτων Στοιχειώδη Σήματα Χαρακτηριστικές Τιμές Σημάτων Τεχνικές

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Ε π ε ξ ε ρ γ α σ ί α ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ε π ε ξ ε ρ γ α σ ί α ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ε π ε ξ ε ρ γ α σ ί α ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Ενότητα 5: Ανάλυση κωδικοποίησης γραμμικής πρόβλεψης (LPC) Γ ε ώ ρ γ ι ο ς Κ ο υ ρ ο υ π έ τ

Διαβάστε περισσότερα

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.83 Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας 3.1 Eισαγωγή Τα στάδια που προηγούνται της βασικής διαδικασίας αναγνώρισης, αναφέρονται σαν στάδια προεπεξεργασίας

Διαβάστε περισσότερα

Κλινική χρήση των ήχων

Κλινική χρήση των ήχων Κλινική χρήση των ήχων Ήχοι και ακουστότητα Κύματα υπερήχων Ακουστικά κύματα, Ήχοι, Είδη ήχων Ήχους υπό την ευρεία έννοια καλούμε κάθε κύμα πίεσης που υπάρχει και διαδίδεται στο εσωτερικό των σωμάτων.

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 10: Γραμμικά Φίλτρα. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 10: Γραμμικά Φίλτρα. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 10: Γραμμικά Φίλτρα Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Γραμμικά Φίλτρα 1. Ιδανικά Γραμμικά Φίλτρα Ιδανικό Κατωδιαβατό Φίλτρο Ιδανικό Ανωδιαβατό Φίλτρο Ιδανικό Ζωνοδιαβατό

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΦΥΣΙΚΗ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Γ ΛΥΚΕΙΟΥ (ΘΕΡΙΝΑ) ΗΜΕΡΟΜΗΝΙΑ: 28/12/2016 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΑΡΧΩΝ ΜΑΡΚΟΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΦΥΣΙΚΗ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Γ ΛΥΚΕΙΟΥ (ΘΕΡΙΝΑ) ΗΜΕΡΟΜΗΝΙΑ: 28/12/2016 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΑΡΧΩΝ ΜΑΡΚΟΣ ΜΑΘΗΜΑ / ΤΑΞΗ : ΦΥΣΙΚΗ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Γ ΛΥΚΕΙΟΥ (ΘΕΡΙΝΑ) ΗΜΕΡΟΜΗΝΙΑ: 28/12/2016 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΑΡΧΩΝ ΜΑΡΚΟΣ ΘΕΜΑ Α Οδηγία: Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ερωτήσεις

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες

Εισαγωγή στις Τηλεπικοινωνίες ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Εισαγωγή στις Τηλεπικοινωνίες Ενότητα 3: Δειγματοληψία και Ανακατασκευή Σημάτων Όνομα Καθηγητή: Δρ. Ηρακλής Σίμος Τμήμα: Ηλεκτρονικών

Διαβάστε περισσότερα

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς Ενότητα 2: Βασικά χαρακτηριστικά της ομιλίας Γ ε ώ ρ γ ι ο ς Κ ο υ ρ ο υ π έ τ ρ ο γ λ ο υ koupe@di.uoa.gr

Διαβάστε περισσότερα

6. ΚΕΦΑΛΑΙΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ LAPLACE

6. ΚΕΦΑΛΑΙΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ LAPLACE 6. ΚΕΦΑΛΑΙΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ APACE Σκοπός του κεφαλαίου είναι να ορίσει τον αμφίπλευρο μετασχηματισμό aplace ή απλώς μετασχηματισμό aplace (Μ) και το μονόπλευρο μετασχηματισμό aplace (ΜΜ), να περιγράψει

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα ομιλίας Είδη /Κατηγορίες Σημάτων Στοιχειώδη

Διαβάστε περισσότερα

Φυσική για Μηχανικούς

Φυσική για Μηχανικούς Φυσική για Μηχανικούς Απλή Αρμονική Ταλάντωση Εικόνα: Σταγόνες νερού που πέφτουν από ύψος επάνω σε μια επιφάνεια νερού προκαλούν την ταλάντωση της επιφάνειας. Αυτές οι ταλαντώσεις σχετίζονται με κυκλικά

Διαβάστε περισσότερα

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο

Διαβάστε περισσότερα

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση ΗΜΥ 429 7. Ιδιότητες Συνέλιξης Συσχέτιση 1 Μαθηματικές ιδιότητες Αντιμεταθετική: a [ * b[ = b[ * a[ παρόλο που μαθηματικά ισχύει, δεν έχει φυσικό νόημα. Προσεταιριστική: ( a [ * b[ )* c[ = a[ *( b[ * c[

Διαβάστε περισσότερα

Παράδειγμα 14.2 Να βρεθεί ο μετασχηματισμός Laplace των συναρτήσεων

Παράδειγμα 14.2 Να βρεθεί ο μετασχηματισμός Laplace των συναρτήσεων Κεφάλαιο 4 Μετασχηματισμός aplace 4. Μετασχηματισμός aplace της εκθετικής συνάρτησης e Είναι Άρα a a a u( a ( a ( a ( aj F( e e d e d [ e ] [ e ] ( a e (c ji, με a (4.9 a a a [ e u( ] a, με a (4.3 Η σχέση

Διαβάστε περισσότερα

Σύστημα και Μαθηματικά μοντέλα συστημάτων

Σύστημα και Μαθηματικά μοντέλα συστημάτων Σύστημα και Μαθηματικά μοντέλα συστημάτων Όταν μελετούμε έναν συγκεκριμένο μηχανισμό η μια φυσική διεργασία επικεντρώνουμε το ενδιαφέρον μας στα φυσικά μεγέθη του μηχανισμού τα οποία μας ενδιαφέρει να

Διαβάστε περισσότερα

Φυσική Ο.Π. Γ Λυκείου

Φυσική Ο.Π. Γ Λυκείου Φυσική Ο.Π. Γ Λυκείου ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ερωτήσεις (Α-Α) και δίπλα το γράμμα που αντιστοιχεί στη σωστή απάντηση. Α) Δύο σώματα συγκρούονται κεντρικά

Διαβάστε περισσότερα

3. ΑΠΟΚΡΙΣΗ ΚΑΤΑ ΣΥΧΝΟΤΗΤΑ

3. ΑΠΟΚΡΙΣΗ ΚΑΤΑ ΣΥΧΝΟΤΗΤΑ 3. 3. ΑΠΟΚΡΙΣΗ ΚΑΤΑ ΣΥΧΝΟΤΗΤΑ 3. Εισαγγή Στην μελέτη τν συστημάτν, μία από τις μεθόδους που χρησιμοποιούνται είναι η απόκριση κατά συχνότητα ή η συχνοτική απόκριση. Η μέθοδος αυτή μελετά την συμπεριφορά

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 7: Μετατροπή Σήματος από Αναλογική Μορφή σε Ψηφιακή Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετατροπή Αναλογικού Σήματος σε Ψηφιακό Είδη Δειγματοληψίας: Ιδανική

Διαβάστε περισσότερα

Ακουστική φωνητική μελέτη της παραγωγής και αναγνώρισης των φωνηέντων σε βαρήκοα άτομα

Ακουστική φωνητική μελέτη της παραγωγής και αναγνώρισης των φωνηέντων σε βαρήκοα άτομα Ωτορινολαρυγγολογία - Χειρουργική Κεφαλής & Τραχήλου: τεύχος 35, Ιανουάριος - Φεβρουάριος - Μάρτιος 2009, σελίδες 42-47 ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Ακουστική φωνητική μελέτη

Διαβάστε περισσότερα

Συστήματα Αυτομάτου Ελέγχου

Συστήματα Αυτομάτου Ελέγχου ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Συστήματα Αυτομάτου Ελέγχου Ενότητα Α: Γραμμικά Συστήματα Όνομα Καθηγητή: Ραγκούση Μαρία Τμήμα: Ηλεκτρονικών Μηχανικών Τ.Ε. Άδειες

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ Ι Μπατιστάτος Μιχάλης Εργαστήριο ο : Διαμόρφωση ΑΜ Βασική Θεωρία Εισαγωγή

Διαβάστε περισσότερα

Άσκηση 36 Μελέτη ακουστικών κυμάτων σε ηχητικό σωλήνα

Άσκηση 36 Μελέτη ακουστικών κυμάτων σε ηχητικό σωλήνα Μιχάλης Καλογεράκης 9 ο Εξάμηνο ΣΕΜΦΕ ΑΜ:911187 Υπεύθυνος Άσκησης: Κος Πέογλος Ημερομηνία Διεξαγωγής:3/11/25 Άσκηση 36 Μελέτη ακουστικών κυμάτων σε ηχητικό σωλήνα 1) Εισαγωγή: Σκοπός και στοιχεία Θεωρίας

Διαβάστε περισσότερα

2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier

2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier 2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier Η βασική ιδέα στην ανάλυση των κυματομορφών με την βοήθεια του μετασχηματισμού Fourier συνίσταται στο ότι μία κυματομορφή

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Τύπων. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος

Διαβάστε περισσότερα

Δυναμική Μηχανών I. Επίλυση Προβλημάτων Αρχικών Συνθηκών σε Συνήθεις. Διαφορικές Εξισώσεις με Σταθερούς Συντελεστές

Δυναμική Μηχανών I. Επίλυση Προβλημάτων Αρχικών Συνθηκών σε Συνήθεις. Διαφορικές Εξισώσεις με Σταθερούς Συντελεστές Δυναμική Μηχανών I Επίλυση Προβλημάτων Αρχικών Συνθηκών σε Συνήθεις 5 3 Διαφορικές Εξισώσεις με Σταθερούς Συντελεστές 2015 Δημήτριος Τζεράνης, Ph.D Τμήμα Μηχανολόγων Μηχανικών Ε.Μ.Π. tzeranis@gmail.com

Διαβάστε περισσότερα

Εισαγωγή στους Ταλαντωτές Οι ταλαντωτές είναι από τα βασικότερα κυκλώματα στα ηλεκτρονικά. Χρησιμοποιούνται κατά κόρον στα τηλεπικοινωνιακά συστήματα

Εισαγωγή στους Ταλαντωτές Οι ταλαντωτές είναι από τα βασικότερα κυκλώματα στα ηλεκτρονικά. Χρησιμοποιούνται κατά κόρον στα τηλεπικοινωνιακά συστήματα Πανεπιστήμιο Θεσσαλίας Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ Υλοποίηση και Εργαστηριακή Αναφορά Ring και Hartley Ταλαντωτών Φοιτητής: Ζωγραφόπουλος Γιάννης Επιβλέπων Καθηγητής: Πλέσσας Φώτιος

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Πεπερασμένες και Διαιρεμένες Διαφορές Εισαγωγή Θα εισάγουμε την έννοια των διαφορών με ένα

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ Γρήγορος Μετασχηματισμός Fourier Το ζεύγος εξισώσεων που ορίζουν το

Διαβάστε περισσότερα

2-1 ΕΙΣΑΓΩΓΗ 2-2 ΜΗΧΑΝΙΚΑ ΚΥΜΑΤΑ

2-1 ΕΙΣΑΓΩΓΗ 2-2 ΜΗΧΑΝΙΚΑ ΚΥΜΑΤΑ ΕΞΩΦΥΛΛΟ 43 Εικ. 2.1 Κύμα στην επιφάνεια της θάλασσας. 2-1 ΕΙΣΑΓΩΓΗ Η έννοια «κύμα», από τις πιο βασικές έννοιες της φυσικής, χρησιμοποιήθηκε για την περιγραφή φαινομένων που καλύπτουν ένα ευρύ φάσμα.

Διαβάστε περισσότερα

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών Δημήτρης Κουτσογιάννης Τομέας Υδατικών Πόρων και Περιβάλλοντος, Σχολή Πολιτικών Μηχανικών, Εθνικό Μετσόβιο Πολυτεχνείο Αθήνα Επανέκδοση

Διαβάστε περισσότερα

0,4 2 t (όλα τα μεγέθη στο S.I.). Η σύνθετη ταλάντωση περιγράφεται (στο

0,4 2 t (όλα τα μεγέθη στο S.I.). Η σύνθετη ταλάντωση περιγράφεται (στο ΚΕΦΑΛΑΙΟ Ο : ΜΗΧΑΝΙΚΕΣ ΗΛΕΚΤΡΙΚΕΣ ΤΑΛΑΝΤΩΣΕΙΣ ΕΝΟΤΗΤΑ 5: ΣΥΝΘΕΣΗ ΤΑΛΑΝΤΩΣΕΩΝ ΘΕΜΑΤΑ ΠΡΟΣ ΕΠΙΛΥΣΗ ΘΕΜΑ Β Ερώτηση. Ένα σώμα εκτελεί κίνηση που προέρχεται από τη σύνθεση δύο απλών αρμονικών ταλαντώσεων, ίδιας

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER Aναστασία Βελώνη Τμήμα Η.Υ.Σ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Αρχές Τηλεπικοινωνιών

Αρχές Τηλεπικοινωνιών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Αρχές Τηλεπικοινωνιών Ενότητα #12: Δειγματοληψία, κβαντοποίηση και κωδικοποίηση Χ. ΚΑΡΑΪΣΚΟΣ Τμήμα Μηχανικών Αυτοματισμών Τ.Ε.

Διαβάστε περισσότερα

ΔΕΙΓΜΑ ΠΡΙΝ ΤΙΣ ΔΙΟΡΘΩΣΕΙΣ - ΕΚΔΟΣΕΙΣ ΚΡΙΤΙΚΗ

ΔΕΙΓΜΑ ΠΡΙΝ ΤΙΣ ΔΙΟΡΘΩΣΕΙΣ - ΕΚΔΟΣΕΙΣ ΚΡΙΤΙΚΗ Συναρτήσεις Προεπισκόπηση Κεφαλαίου Τα μαθηματικά είναι μια γλώσσα με ένα συγκεκριμένο λεξιλόγιο και πολλούς κανόνες. Πριν ξεκινήσετε το ταξίδι σας στον Απειροστικό Λογισμό, θα πρέπει να έχετε εξοικειωθεί

Διαβάστε περισσότερα

Ανάλυση Κυκλωμάτων. Φώτης Πλέσσας Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Ανάλυση Κυκλωμάτων. Φώτης Πλέσσας Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Ανάλυση Κυκλωμάτων Σήματα Φώτης Πλέσσας fplessas@inf.uth.gr Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Εισαγωγή Για την ανάλυση των ηλεκτρικών κυκλωμάτων μαζί με την μαθηματική περιγραφή των

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

Συστήματα Αυτόματου Ελέγχου

Συστήματα Αυτόματου Ελέγχου ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Συστήματα Αυτόματου Ελέγχου Ενότητα : Απόκριση Συχνότητας Αναλογικών Σ.Α.Ε Διαγράμματα BODE Aναστασία Βελώνη Τμήμα Η.Υ.Σ Άδειες

Διαβάστε περισσότερα

3-Μαρτ-2009 ΗΜΥ Γρήγορος Μετασχηματισμός Fourier Εφαρμογές

3-Μαρτ-2009 ΗΜΥ Γρήγορος Μετασχηματισμός Fourier Εφαρμογές ΗΜΥ 429 9. Γρήγορος Μετασχηματισμός Fourier Εφαρμογές 1 Ζεύγη σημάτων Συνάρτηση δέλτα: ΔΜΦ δ[ n] u[ n] u[ n 0.5] (συχνότητα 0-0.5) Figure από Scientist s and engineer s guide to DSP. 2 Figure από Scientist

Διαβάστε περισσότερα

Φυσική ΘΕΜΑ Α. τον πυθμένα του δοχείου μία οπή μικρής διατομής, μέσω της οποίας το υγρό μπορεί να. 2017!!! ευχές & επιτυχίες για τη νέα χρονιά!

Φυσική ΘΕΜΑ Α. τον πυθμένα του δοχείου μία οπή μικρής διατομής, μέσω της οποίας το υγρό μπορεί να. 2017!!! ευχές & επιτυχίες για τη νέα χρονιά! Φυσική προσανατολισμού ΘΕΜΑ Α Στις προτάσεις από Α1 - Α4 να βρείτε τη σωστή απάντηση. Α1. Σε ένα υλικό μέσο δημιουργείται στάσιμο κύμα. Όλα τα σημεία του μέσου που ταλαντώνονται: α) έχουν την ίδια συχνότητα

Διαβάστε περισσότερα

Φυσική Γ Θετ. και Τεχν/κης Κατ/σης ΚΥΜΑΤΑ ( )

Φυσική Γ Θετ. και Τεχν/κης Κατ/σης ΚΥΜΑΤΑ ( ) ΚΥΜΑΤΑ ( 2.1-2.2) Για τη δημιουργία ενός κύματος χρειάζονται η πηγή της διαταραχής ή πηγή του κύματος, δηλαδή η αιτία που θα προκαλέσει τη διαταραχή και ένα υλικό (μέσο) στο οποίο κάθε μόριο αλληλεπιδρά

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ22 ( ) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #1 ΑΠΑΝΤΗΣΕΙΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ22 ( ) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #1 ΑΠΑΝΤΗΣΕΙΣ Θ.Ε. ΠΛΗ (0-3) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ # ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Στόχος της άσκησης είναι η εξοικείωση με γραφικές παραστάσεις βασικών σημάτων και πράξεις, καθώς και τον υπολογισμό ΜΣ Fourier βασικών σημάτων με τη χρήση

Διαβάστε περισσότερα