ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Παπανικολάου Παναγιώτη του Δημητρίου Αριθμός Μητρώου: 5423 Θέμα: Ενίσχυση σημάτων Μουσικής υπό το περιβάλλον θορύβου Επιβλέπων Νικόλαος Φακωτάκης Αριθμός Διπλωματικής Εργασίας: Πάτρα, Ιούλιος 2010
ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα Ενίσχυση σημάτων Μουσικής υπό το περιβάλλον θορύβου του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Παπανικολάου Παναγιώτη του Δημητρίου Αριθμός Μητρώου: 5423 Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις.../07/2010 Ο Επιβλέπων Καθηγητής Νικόλαος Φακωτάκης Καθηγητής Ο Διευθυντής του τομέα Νικόλαος Φακωτάκης Καθηγητής
Αριθμός Διπλωματικής Εργασίας: Θέμα: Ενίσχυση σημάτων Μουσικής υπό το περιβάλλον θορύβου Φοιτητής: Παπανικολάου Παναγιώτης Επιβλέπων: Φακωτάκης Νικόλαος Περίληψη Στην παρούσα εργασία επιχειρείται η εφαρμογή αλγορίθμων αποθορυβοποίησης σε σήματα μουσικής και η εξαγωγή συμπερασμάτων σχετικά με την απόδοση αυτών ανά μουσικό είδος. Η κύρια επιδίωξη είναι να αποσαφηνιστούν τα βασικά προβλήματα της ενίσχυσης ήχων και να παρουσιαστούν οι διάφοροι αλγόριθμοι που έχουν αναπτυχθεί για την επίλυση των προβλημάτων αυτών. Αρχικά γίνεται μία σύντομη εισαγωγή στις βασικές έννοιες πάνω στις οποίες δομείται η τεχνολογία ενίσχυσης ομιλίας. Στην συνέχεια εξετάζονται και αναλύονται αντιπροσωπευτικοί αλγόριθμοι από κάθε κατηγορία τεχνικών αποθορυβοποίησης, την κατηγορία φασματικής αφαίρεσης, την κατηγορία στατιστικών μοντέλων και αυτήν του υποχώρου. Για να μπορέσουμε να αξιολογήσουμε την απόδοση των παραπάνω αλγορίθμων χρησιμοποιούμε αντικειμενικές μετρήσεις ποιότητας, τα αποτελέσματα των οποίων μας δίνουν την δυνατότητα να συγκρίνουμε την απόδοση του κάθε αλγορίθμου. Με την χρήση τεσσάρων διαφορετικών μεθόδων αντικειμενικών μετρήσεων διεξάγουμε τα πειράματα εξάγοντας μια σειρά ενδεικτικών τιμών που μας δίνουν την ευχέρεια να συγκρίνουμε είτε τυχόν διαφοροποιήσεις στην απόδοση των αλγορίθμων της ίδιας κατηγορίας είτε διαφοροποιήσεις στο σύνολο των αλγορίθμων. Από την σύγκριση αυτή γίνεται εξαγωγή χρήσιμων συμπερασμάτων σχετικά με τον προσδιορισμό των παραμέτρων κάθε αλγορίθμου αλλά και με την καταλληλότητα του κάθε αλγορίθμου για συγκεκριμένες συνθήκες θορύβου και για συγκεκριμένο μουσικό είδος. Abstract This thesis attempts to apply Noise Reduction algorithms to signals of music and draw conclusions concerning the performance of each algorithm for every musical genre. The main aims are to clarify the basic problems of sound enhancement and present the various algorithms developed for solving these problems. After a brief introduction to basic concepts on sound enhancement we examine and analyze various algorithms that have been proposed at times in the literature for speech enhancement. These algorithms can be divided into three main classes: spectral subtractive algorithms, statistical-model-based algorithms and subspace algorithms. In order to evaluate the performance of the above algorithms we use objective measures of quality, the results of which give us the opportunity to compare the performance of each algorithm. By using four different methods of objective measures to conduct the experiments we draw a set of values that facilitate us to make within-class algorithm comparisons and across-class algorithm comparisons. From these comparisons we can draw conclusions on the determination of parameters for each algorithm and the appropriateness of algorithms for specific noise conditions and music genre.
Ευχαριστίες Η διαδικασία συγγραφής της παρούσας διπλωματικής εργασίας αποτέλεσε για εμένα ευκαιρία να εμβαθύνω σε ένα νέο γνωσιακό πεδίο προσφέροντας μου ερεθίσματα για περαιτέρω διερεύνηση. Αυτό δεν θα ήταν εφικτό αν δεν μου έδινε την ευκαιρία να ασχοληθώ με το ζήτημα της Ενίσχυσης Ομιλίας ο καθηγητής του τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών κ. Νικόλαος Φακωτάκης τον οποίο και θέλω να ευχαριστήσω καθώς με την καθοδήγηση του συνέβαλλε καθοριστικά στην εκπόνηση της παρούσας εργασίας. Επίσης θέλω να ευχαριστήσω τα μέλη του εργαστηρίου ενσύρματης τηλεπικοινωνίας, Σταύρο Νταλαμπίρα και Θεόδωρο Θεοδώρου για την σημαντική βοήθεια που μου προσέφεραν κατά την διάρκεια συγγραφής αυτής της εργασίας.
Στην Ιόλη
Πίνακας Περιεχομένων Επισκόπηση εργασίας... i Βασικές Αρχές... 1 Μέρος Πρώτο - Θεωρητικό Πλαίσιο Κεφάλαιο 1 ο Εισαγωγή 1.1 Εφαρμογές αλγορίθμων ενίσχυσης ομιλίας... 6 1.2 Θόρυβος... 6 1.2.1 Πηγή θορύβου... 7 1.2.2 Εφαρμογές αλγορίθμων ενίσχυσης ομιλίας... 7 1.3 Κατηγορίες τεχνικών αποθορυβοποίησης - Αλγόριθμοι ενίσχυσης ομιλίας... 8 Κεφάλαιο 2 ο Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα 2.1 Ήχος... 10 2.1.1 Ηχηρότητα... 15 2.1.2 Μουσικό ύψος του ήχου... 17 2.1.3 Χροιά ή Ηχόχρωμα... 17 2.2 Το ανθρώπινο ακουστικό σύστημα... 19 2.2.1 Ευαισθησία του αυτιού... 19 2.2.2 Η ανατομία του αυτιού... 19 2.2.2.1 Το πτερύγιο: Κατευθυντικός κωδικοποιητής ήχου... 20 2.2.2.2 Το κανάλι του αυτιού... 21 2.2.2.3 Το μέσο αυτί... 22 2.2.2.4 Το έσω αυτί... 23 Κεφάλαιο 3 ο Αλγόριθμοι Φασματικής Αφαίρεσης 3.1 Βασικές αρχές Φασματικής Αφαίρεσης... 26 3.2 Ελλείψεις της μεθόδου Φασματικής Αφαίρεσης... 28 3.3 Φασματική Αφαίρεση χρησιμοποιώντας την Υπερ-Αφαίρεση... 30 3.4 Πολυζωνική Φασματική Αφαίρεση... 32 3.5 MMSE αλγόριθμος φασματικής αφαίρεσης... 34 3.6 Φασματική Αφαίρεση χρησιμοποιώντας προσαρμοστικό μέσο κέρδος... 36 3.7 Απόδοση αλγορίθμων Φασματικής Αφαίρεσης... 37 Κεφάλαιο 4 ο Φιλτράρισμα Wiener 4.1 Εισαγωγή στη θεωρία του φίλτρου Wiener... 38 4.2 Φιλτράρισμα Wiener για μείωση θορύβου... 40 4.2.1 Φίλτρο Wiener στο πεδίο του χρόνου... 40 4.2.2 Φίλτρο Wiener στο πεδίο της συχνότητας... 40 4.3 Επαναληπτικό φιλτράρισμα Wiener... 43
4.4 Επιβολή περιορισμών στο επαναληπτικό φιλτράρισμα Wiener... 46 4.4.1 Χρονικοί περιορισμοί... 46 4.4.2 Περιορισμοί στις επαναλήψεις... 47 4.4.3 Επαναληπτικό φιλτράρισμα Wiener με περιορισμούς... 47 4.5 Αλγόριθμος φιλτραρίσματος Wiener βασισμένος σε κυματιδιακή κατωφλίωση του πολυκωνικού φάσματος... 48 4.5.1 Χαμηλής διακύμανσης εκτίμηση φάσματος... 48 4.5.2 Βελτίωση της εκτίμησης του φάσματος μέσω κυματιδιακής κατωφλίωσης... 48 4.5.3 Wiener type STSA estimator... 49 4.6 Ενσωματώνοντας ψυχοακουστικούς περιορισμούς στο φιλτράρισμα Wiener... 50 4.6.1 Διαμόρφωση της παραμόρφωσης θορύβου στο πεδίο της συχνότητας... 50 4.6.2 Κατώφλια επικάλυψης ως περιορισμοί... 51 Κεφάλαιο 5 ο Μέθοδοι βασισμένοι σε Στατιστικά μοντέλα 5.1 Εκτιμητές Μέγιστης Πιθανοφάνειας... 53 5.2 Εκτιμητής Ελάχιστου Μέσου Τετραγωνικού Σφάλματος (MMSE estimator)... 55 5.2.1 Εκτιμητής Μέτρου Ελάχιστου Μέσου Τετραγωνικού Σφάλματος... 56 5.2.2 Εκτιμητής Φάσης Ελάχιστου Μέσου Τετραγωνικού Σφάλματος... 58 5.2.3 Εκτίμηση του a priori SNR... 59 5.2.4 Υλοποίηση του MMSE εκτιμητή... 59 5.3 Λογαριθμικός Εκτιμητής Ελάχιστου Μέσου Τετραγωνικού Σφάλματος... 60 5.4 Εκτιμητές Μεγίστου εκ των υστέρων... 60 5.5 Γενικοί Bayesian εκτιμητές... 62 5.5.1 Σταθμισμένη Ευκλείδεια μέτρηση παραμόρφωσης... 62 5.5.2 Μέτρηση Υπερβολικού Συνημιτόνου... 63 5.5.3 Σταθμισμένος λόγος Πιθανοφάνειας... 65 5.5.4 Τροποποιημένη μέθοδος μέτρησης Itakura-Saito... 65 5.6 Ενσωματώνοντας την αβεβαιότητα παρουσίας σήματος στους Log-MMSE εκτιμητές... 66 Κεφάλαιο 6 ο Αλγόριθμοι Υποχώρου 6.1 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιάζουσας τιμής: Λευκός Θόρυβος... 69 6.1.1 SVD σύνθεση ομιλίας... 69 6.1.2 Καθορισμός αποτελεσματικής τάξης... 70 6.1.3 Αλγόριθμος μείωσης θορύβου... 71 6.2 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιάζουσας τιμής: Χρωματισμένος Θόρυβος... 71 6.3 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιάζουσας τιμής: Ενοποιημένη Θεώρηση... 73 6.4 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιοτιμής: Λευκός Θόρυβος... 74 6.4.1 Ανάλυση Ιδιοτιμής ενθόρυβων μητρών... 74 6.4.2 Μέθοδοι Υποχώρου βασισμένες σε γραμμικούς εκτιμητές... 75 6.4.2.1 Γραμμικός εκτιμητής ελαχίστου τετραγωνικού σφάλματος... 75 6.4.2.2 Εκτιμητής στο πεδίο του χρόνου με περιορισμούς... 76 6.4.2.3 Εκτιμητής στο πεδίο του φάσματος με περιορισμούς... 78 6.5 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιοτιμής: Χρωματισμένος Θόρυβος... 79 6.5.1 Προλεύκανση ενθόρυβου σήματος... 80 6.5.2 Μέθοδος Σήματος/Θορύβου βασισμένη στον μετασχηματισμό Karhunen-Loeve... 81
6.5.3 Προσέγγιση Υποχώρου με ενσωματωμένη Προλεύκανση... 82 6.5.3.1 Εκτιμητής με περιορισμούς στο πεδίο του χρόνου (TDC EW )... 83 6.5.3.2 Εκτιμητής με περιορισμούς στο πεδίο του φάσματος (SDC EW )... 83 6.5.3.3 Υλοποίηση εκτιμητών TDC EW και SDC EW... 85 6.6 Αλγόριθμοι βασισμένοι στην Διάσπαση Ιδιοτιμής: Ενοποιημένη Θεώρηση... 86 6.7 Αντιληπτικοί αλγόριθμοι Υποχώρου... 86 6.7.1 Fourier σε KLT... 87 6.7.2 Ενσωματώνοντας περιορισμούς Ψυχοακουστικού Μοντέλου... 87 Κεφάλαιο 7 ο Αλγόριθμοι Εκτίμησης Θορύβου 7.1 Εισαγωγή στους αλγορίθμους εκτίμησης θορύβου... 89 7.2 Αλγόριθμοι εντοπισμού ελαχίστων... 90 7.2.1 Αλγόριθμος ελαχίστων στατιστικών με χρήση παραθύρου... 90 7.2.2 Αλγόριθμος εντοπισμού ελαχίστων σε συνεχές φάσμα... 91 7.3 Επαναληπτική μέθοδος βασισμένη στο SNR... 92 7.3.1 Επαναληπτική μέθοδος βασισμένη στο SNR... 92 7.3.2 Σταθμισμένος φασματικός μέσος όρος... 92 7.3.3 Επαναληπτικοί αλγόριθμοι που βασίζονται στην αβεβαιότητα παρουσίας σήματος... 93 7.3.3.1 Minima-Controlled Recursive Averaging Algorithm MCRA... 94 7.3.3.2 Minima-Controlled Recursive Averaging Algorithm-2 MCRA-2... 95 7.3.3.3 Improved Minima-Controlled Recursive Averaging Algorithm IMCRA... 96 Κεφάλαιο 8 ο Λοιπές Τεχνικές Αποθορυβοποίησης 8.1 Αποθορυβοποίηση με χρήση κρυμμένων μοντέλων Markov... 98 8.2 Τεχνικές βασισμένες σε Μεταβλητό Φίλτρο-Χτένα και επιλογή αρμονικών... 100 8.3 Άλλες τεχνικές αποθορυβοποίησης... 101 8.4 Αφαίρεση προσθετικού θορύβου με πολλαπλά κανάλια πληροφορίας... 101 Μέρος Δεύτερο - Αξιολόγηση Απόδοσης Αλγορίθμων Κεφάλαιο 9 ο Μέθοδοι Αξιολόγησης Αλγορίθμων 9.1 Αντικειμενικές μετρήσεις ποιότητας... 103 9.1.1 Τμηματική μέτρηση SNR: Χρόνος και Συχνότητα... 104 9.1.2 Μετρήσεις Φασματικής απόστασης βάσει LPC... 104 9.1.3 Μετρήσεις βασισμένες στην Αντίληψη... 105 9.1.3.1 Μέτρηση απόστασης σταθμισμένης φασματικής κλίσης... 106 9.1.3.2 Μετρήσεις παραμόρφωσης Bark... 106 9.1.3.3 Μέτρηση αντιληπτικής εκτίμησης της ποιότητας ομιλίας (PESQ)... 109 9.2 Σύνθετες μετρήσεις... 111 Κεφάλαιο 10 ο Αξιολόγηση και σύγκριση αλγορίθμων με χρήση σημάτων Μουσικής 10.1 GTZAN Genre Collection & noise data sets... 112
10.2 Εκτίμηση Ποιότητας: Διαδικασία... 113 10.3 Εκτίμηση Ποιότητας: Αποτελέσματα... 115 Κεφάλαιο 11 ο Συμπεράσματα 11.1 Συγκρίσεις μεταξύ αλγορίθμων της ίδιας κατηγορίας... 143 11.2 Συγκρίσεις μεταξύ αλγορίθμων στο σύνολο των κατηγοριών... 143 11.3 Σύγκριση της απόδοσης των αλγορίθμων ανά μουσικό είδος... 145 Παράρτημα... 148 Βιβλιογραφία... 169
Ευρετήριο Σχημάτων Κεφάλαιο 2 Σχήμα 2.1 Αραιώσεις και πυκνώσεις κατά την διάδοση ενός κύματος... 10 Σχήμα 2.2 Ο ήχος ως κύμα πίεσης... 11 Σχήμα 2.3 Συχνότητες νοτών στο πιάνο... 11 Σχήμα 2.4 Κυματομορφή στο πεδίο του χρόνου και στο πεδίο της συχνότητας... 12 Σχήμα 2.5 Σύγκριση αρμονικών και οκτάβων....13 Σχήμα 2.6 Μήκος κύματος και πλάτος κυματομορφής... 14 Σχήμα 2.7 Καμπύλες ίσης ηχηρότητας... 15 Σχήμα 2.8 Μηχανισμός αντιστάθμισης του αυτιού... 16 Σχήμα 2.9 Δεσμοί και Αντιδεσμοί... 18 Σχήμα 2.10 Η ανατομία του ανθρώπινου αυτιού... 20 Σχήμα 2.11 Το κανάλι του αυτιού... 21 Σχήμα 2.12 Η συνάρτηση μεταφοράς του καναλιού του αυτιού... 22 Σχήμα 2.13 Το μέσο αυτί... 22 Σχήμα 2.14 Εξιδανίκευση του ανθρώπινου αυτιού... 23 Κεφάλαιο 3 Σχήμα 3.1 Ενίσχυση ήχων με υπολογισμό του μέτρου του φάσματος... 26 Σχήμα 3.2 Γενική μορφή αλγορίθμου Φασματικής Αφαίρεσης... 28 Σχήμα 3.3 Μουσικός Θόρυβος... 29 Σχήμα 3.4 Επίδραση της αύξησης της παραμέτρου β... 31 Σχήμα 3.5 Επίδραση της αύξησης της παραμέτρου α....31 Σχήμα 3.6 Ανομοιόμορφη επίδραση θορύβου στο χρήσιμο σήμα... 32 Σχήμα 3.7 Σχηματικό διάγραμμα αλγορίθμου πολυζωνικής φασματικής αφαίρεσης... 34 Σχήμα 3.8 Σχηματικό διάγραμμα αλγορίθμου φασματικής αφαίρεσης με προσαρμοστικό μέσο κέρδος... 36 Κεφάλαιο 4 Σχήμα 4.1 Σχηματικό διάγραμμα του στατιστικού προβλήματος φιλτραρίσματος... 38 Σχήμα 4.2 Σχηματικό διάγραμμα του προβλήματος του βέλτιστου φιλτραρίσματος... 39 Σχήμα 4.3 Καμπύλη εξασθένησης του φίλτρου Wiener... 42 Σχήμα 4.4 Απόκριση του φίλτρου Wiener... 43 Σχήμα 4.5 Σχηματικό διάγραμμα του επαναληπτικού αλγορίθμου Wiener....46 Σχήμα 4.6 Σχηματικό διάγραμμα του επαναληπτικού WF με περιορισμούς... 47 Σχήμα 4.7 Βασική ιδέα της αντιληπτικής στάθμισης... 50 Κεφάλαιο 6 Σχήμα 6.1 Γενική δομή αλγορίθμων υποχώρου... 68 Κεφάλαιο 9 Σχήμα 9.1 Σχηματικό διάγραμμα BSD μέτρησης... 107 Σχήμα 9.2 Καμπύλες ίσης ηχηρότητας....108 Σχήμα 9.3 Σχηματικό διάγραμμα υπολογισμού της PESQ μέτρησης... 109
Ευρετήριο Πινάκων Πίνακας 2.1 Αρμονικές Δεσμοί και Αντιδεσμοί... 18 Πίνακας 6.1 Σύνοψη SVD μεθόδων... 74 Πίνακας 6.2 Σύνοψη EVD μεθόδων... 86 Πίνακας 10.1 Λίστα αλγορίθμων ενίσχυσης ομιλίας που αξιολογήθηκαν... 113 Πίνακας 11.1 Αποτελέσματα που προέκυψαν από ανάλυση των τιμών συνολικής ποιότητας (ovl scores)... 144 Πίνακας 11.2 Σύγκριση της απόδοσης αλγορίθμων ανά μουσικό είδος... 86
Επισκόπηση της εργασίας Στο κεφάλαιο 1 γίνεται μία εισαγωγή σε ζητήματα σχετικά με τον τομέα Αναβάθμισης Ενθόρυβης Ομιλίας και των εφαρμογών τού στην καθημερινότητα. Επίσης γίνεται μια σύντομη αναφορά στις τεχνικές αποθορυβοποίησης που θα μας απασχολήσουν στα επόμενα κεφάλαια. Το κεφάλαιο 2 εισάγει βασικές έννοιες της ακουστικής και του ανθρώπινου ακουστικού συστήματος, έννοιες που θα χρειαστούμε στην συνέχεια για πληρέστερη κατανόηση των αλγορίθμων που θα παρουσιαστούν. Στο κεφάλαιο 3 παρουσιάζεται η τεχνική της φασματικής αφαίρεσης που αποτελεί μία από τις πιο παλιές και πιο απλές τεχνικές αποθορυβοποίησης. Ιδιαίτερα βάση σε αυτό το κεφάλαιο δίνεται στους αλγορίθμους Πολυζωνικής Φασματικής Αφαίρεσης και Φασματικής Αφαίρεσης χρησιμοποιώντας προσαρμοστικό μέσο κέρδος. Το κεφάλαιο 4 αποτελεί μια παρουσίαση του φιλτραρίσματος Wiener και την εφαρμογή του σε τεχνικές αποθορυβοποίησης. Παρουσιάζεται το επαναληπτικό φιλτράρισμα Wiener και η επιβολή περιορισμών σε αυτό είτε ως προς τον χρόνο είτε ως προς τις επαναλήψεις. Τέλος, γίνεται παρουσίαση της διαδικασίας του φιλτραρίσματος Wiener όταν αυτή ενσωματώνει και ψυχοακουστικούς περιορισμούς. Στο κεφάλαιο 5 το πρόβλημα της αποθορυβοποίησης τοποθετείται στο πλαίσιο της στατιστικής εκτίμησης μέσω εκτιμητών μέγιστης πιθανοφάνειας και Bayesian εκτιμητών. Γίνεται εκτενής αναφορά στον εκτιμητή ελαχίστου μέσου τετραγωνικού σφάλματος (MMSE) και στον λογαριθμικό εκτιμητή ελαχίστου μέσου τετραγωνικού σφάλματος (log-mmse). Ως εναλλακτική επιλογή των MMSE εκτιμητών παρουσιάζονται οι εκτιμητές μεγίστου εκ των υστέρων (MAP), οι οποίοι χρησιμοποιούνται σε περιπτώσεις όπου είναι δύσκολο να υπολογιστεί η εκ των υστέρων συνάρτηση πυκνότητας πιθανότητας σε κλειστή μορφή. Το κεφάλαιο ολοκληρώνεται με την περιγραφή τεσσάρων μεθόδων Bayesian εκτιμητών που ενσωματώνουν την αντίληψη μέσω συναρτήσεων ρίσκου. Το κεφάλαιο 6 παρουσιάζει μία διαφορετική τάξη αλγορίθμων οι οποίοι βασίζονται στην θεωρία γραμμικής άλγεβρας. Παρουσιάζονται αλγόριθμοι βασισμένοι στην διάσπασης ιδιάζουσας τιμής και στην διάσπαση ιδιοτιμής για λευκό και χρωματισμένο θόρυβο, ενώ επιχειρείται η ενσωμάτωση ψυχοακουστικών μοντέλων από την οποία προκύπτουν οι αντιληπτικοί αλγόριθμοι υποχώρου. Σε όλους τους παραπάνω αλγορίθμους έχουμε υποθέσει ότι μία εκτίμηση του φάσματος θορύβου είναι διαθέσιμη, στο κεφάλαιο 7 παρουσιάζονται μέθοδοι εκτίμησης θορύβου ιδανικοί ακόμα και για περιβάλλοντα θορύβου υψηλής μη στασιμότητας. Εκμεταλλευόμενοι διαφορετικές ιδιότητες του φάσματος θορύβου καταλήγουμε στους επαναληπτικούς αλγορίθμους εκτίμησης θορύβου και στους αλγορίθμους εντοπισμού ελαχίστων. Με το κεφάλαιο 8 ολοκληρώνεται το πρώτο μέρος της εργασίας κάνοντας μία σύντομη αναφορά σε τεχνικές αποθορυβοποίησης που κάνουν χρήση κρυμμένων μοντέλων Markov, στο μεταβλητό φίλτρο-χτένα και στην τεχνική πολλών μικροφώνων. Στο δεύτερο μέρος πραγματοποιείται η αξιολόγηση της απόδοσης των αλγορίθμων. Αρχικά στο κεφάλαιο 9 γίνεται η παρουσίαση των μεθόδων αντικειμενικών μετρήσεων που θα χρησιμοποιήσουμε, στη συνέχεια στο κεφάλαιο 10 παρουσιάζονται τα αποτελέσματα των πειραμάτων που μας οδηγούν σε συμπεράσματα σχετικά με την απόδοση των αλγορίθμων, τα οποία παρουσιάζουμε στο κεφάλαιο 11. Για την αξιολόγηση της απόδοσης των αλγορίθμων χρησιμοποιήσαμε την συλλογή GTZAN η οποία αποτελείται από 1000 ηχητικά αποσπάσματα, το καθένα διάρκειας 30 δευτερολέπτων και περιλαμβάνει 10 μουσικά είδη, 100 κομμάτια για το κάθε ένα από αυτά. Με τον τρόπο αυτό επιχειρείται εκτός από την αξιολόγηση και την σύγκριση των αλγορίθμων μεταξύ τους να προκύψουν συμπεράσματα σχετικά με την καταλληλότητα της κάθε μεθόδου αποθορυβοποίησης για το κάθε μουσικό είδος ξεχωριστά. i
Βασικές Αρχές Συνοπτική Επισκόπηση εννοιών επεξεργασίας σημάτων Σε αυτήν την ενότητα θα γίνει μια συνοπτική αναφορά στην επεξεργασία σήματος και στα χαρακτηριστικά που χρησιμοποιούνται στην ακουστική ανάλυση αλλά και σε άλλες ουσιώδεις έννοιες οι οποίες είναι απαραίτητες για την κατανόηση των αλγορίθμων που θα αναλύσουμε και θα χρησιμοποιήσουμε στην συνέχεια. Μετασχηματισμός Fourier (FT) Με τον όρο ανάλυση Φουριέ ουσιαστικά αναφερόμαστε σε ένα σύνολο από μαθηματικές τεχνικές με τις οποίες αναλύουμε ένα σήμα σε συναρτήσεις ημίτονων και συνημίτονων. Ο διαχωρισμός ενός σήματος σε ημιτονοειδείς συναρτήσεις ονομάζεται ανάλυση Φουριέ (Fourier Analysis). Με τη βοήθεια της μπορούμε να μελετήσουμε ποιες συχνότητες εμφανίζονται στο σήμα μας, και κατά πόσο επηρεάζει το σήμα μας κάθε φασματική συνιστώσα. Ο μαθηματικός μετασχηματισμός για τον υπολογισμό της ανάλυσης Φουριέ, ονομάζεται μετασχηματισμός Φουριέ (Fourier Transform), και δίνεται από τη σχέση: ενώ ο αντίστροφος μετασχηματισμός είναι: X(ω) = x(t)e dt x(t) = X(ω)e dω όπου x(t) η συνάρτηση του σήματος στο χρόνο και X ( ω ) η αντίστοιχη συνάρτηση συχνότητας. Εφαρμόζοντας το μετασχηματισμό Fourier, είναι προφανές ότι το σήμα μετατρέπεται από το πεδίο του χρόνου, στο πεδίο της συχνότητας. Είναι σημαντικό να αναφέρουμε ότι ο μετασχηματισμός εφαρμόζεται σε περιοδικά σήματα, ωστόσο σε μη περιοδικά χρειαζόμαστε μια διαφορετική προσέγγιση, τον Μετασχηματισμό Fourier Διακριτού χρόνου. Μετασχηματισμός Fourier Διακριτού Χρόνου (DTFT) Ο Μετασχηματισμός Fourier διακριτού χρόνου (Discrete-Time Fourier transform -DTFT) είναι ίσως η πλέον χρήσιµη εκ των μορφών του μετασχηματισμού Fourier και αναφέρεται σε µη περιοδικά διακριτά σήµατα. Εάν για το σήµα x(n) ισχύει x(n) <, ο μετασχηματισμός DTFT δίνεται από τον τύπο: F[x(n)] = X(ω) = x(n)e ενώ ο αντίστροφος μετασχηματισμός είναι: x(n) = F [X(ω)] = 1 2π X(ω)e dω 1
Βασικές αρχές Μετασχηματισμός Fourier βραχέος χρόνου (STFT) Ο μετασχηματισμός Fourier δεν είναι επαρκής σε περίπτωση που η συχνότητα του σήματος μεταβάλλεται με το χρόνο, δηλαδή είναι μη στάσιμο, καθώς η πληροφορία που μας δίνει αναφέρεται στο αν μια συγκεκριμένη συχνότητα υπάρχει ή δεν υπάρχει στο σήμα, κι όχι σε ποια χρονική στιγμή εμφανίζεται. Ο εντοπισμός στο χρόνο μπορεί σε πρώτη προσέγγιση να επιτευχθεί με την τμηματοποίηση του σήματος σε χρονικά εντοπισμένα τμήματα με τη βοήθεια κατάλληλου παραθύρου. Τα τμήματα αυτά είναι τόσο μικρά ώστε να μπορεί να θεωρηθεί σε κάθε ένα από αυτά ότι το σήμα είναι στατικό, και λαμβάνεται ο FT αυτών. Η τεχνική αποτελεί τον γνωστό Μετασχηματισμό Fourier Βραχέος Χρόνου (STFT) και περιγράφεται από τον τύπο STFT{x(t)} = F (t, ω) = x(u)w (u t)e du όπου w(t) είναι η εκάστοτε παραθυρική συνάρτηση. Καθώς ο πολλαπλασιασμός με το μικρής διάρκειας παράθυρο w*(u-t) καταστέλλει το σήμα έξω από τη γειτονία του σημείου ανάλυσης u=t, o STFT είναι ένα τοπικό φάσμα του σήματος x(t) γύρω από το t. Το δε πλάτος του STFT, που ονομάζεται και φασματόγραμμα (spectrogram), ισούται με: S (t, ω) = x(u)w (u t)e du και εκφράζει την πυκνότητα φασματικής ενέργειας του σήματος x(u)w*(u-t) στο οποίο έχει εφαρμοστεί τοπικά το παράθυρο. Καθώς το παράθυρο w θεωρείται μοναδιαίας ενέργειας, το φασματόγραμμα ικανοποιεί τη συνθήκη: S (t, ω) dtdω = E Οπότε το φασματόγραμμα είναι πράγματι ένα μέτρο της ενέργειας του σήματος που περιέχεται στο πεδίο συχνότητας-χρόνου με κέντρο το σημείο (t,ω). Όσο μικρότερο είναι το εύρος του παραθύρου, τόσο ακριβέστερη είναι και η υπόθεση περί στασιμότητας του θεωρούμενου τμήματος του σήματος, τόσο βελτιώνεται η χρονική ανάλυση, ενώ τόσο ελαττώνεται η συχνοτική ανάλυση και αντιστρόφως. Εάν το παράθυρο έχει άπειρο εύρος, τότε προκύπτει ο μετασχηματισμός fourier, που έχει άριστη συχνοτική αλλά μηδενική χρονική ανάλυση. Διακριτός Μετασχηματισμός Fourier (DFT) Ο μετασχηματισμός Fourier διακριτού χρόνου μιας ακολουθίας διακριτού χρόνου είναι συνεχής συνάρτηση της συχνότητα ω. Στην πραγματικότητα η ακολουθία x(n) είναι πεπερασμένης διάρκειας (π.χ. αποτελείται απο Ν δείγματα) και μπορούμε να πάρουμε δείγματα του DTFT σε N ομοιόμορφα κατανεμημένες συχνότητες ω = αυτή η δειγματοληψία οδηγεί στον Διακριτό μετασχηματισμό Fourier (DFT). Ο DFT του x(n) είναι: X(k) = x(n)e 0 k N 1 2
Βασικές αρχές Με δεδομένο το X(k) μπορούμε να επανακτήσουμε το x(n) μέσω του IDFT x(n) = 1 N X(k)e 0 k N 1 Ο DFT και ο αντίστροφος του μπορούν να υπολογιστούν αποτελεσματικά με χρήση του αλγορίθμου του γρήγορου μετασχηματισμού Fourier (FFT). Αυτό που μας προσφέρει ο FFT είναι μεγαλύτερη ταχύτητα στους υπολογισμούς, καθώς αν υπολογίζαμε τον DFT N σημείων με χρήση του ορισμού θα χρειαζόμασταν O(N ) αριθμητικές πράξεις, ενώ με χρήση του FFT για να καταλήξουμε στο ίδιο αποτέλεσμα χρειάζονται μόλις O(N log Ν) πράξεις. Επεξεργασία βασισμένη σε πλαίσια Οι μέθοδοι ενίσχυσης που χρησιμοποιούνται στο πεδίο της συχνότητας απαιτούν το δειγματοληπτημένο σήμα εισόδου x(n) να είναι αποσυντεθειμένο σε επικαλυπτόμενα πλαίσια όπου το i πλαίσιο προκύπτει από την σχέση: x(n; i) = w(n)x(n + im) για n = 0,1, N 1, w(n) είναι μία συνάρτηση παραθύρωσης και Μ-Ν είναι η χρονική προσαύξηση μεταξύ των πλαισίων (σε δείγματα). Το μήκος του παραθύρου Ν είναι ένας συμβιβασμός ανάμεσα στην ευκρίνεια συχνότητας και την ευκρίνεια του χρόνου και συνήθως επιλέγεται εντός του εύρους 10-30 ms. Η προσαύξηση πλαισίου, Μ, συνήθως ορίζεται ίση με Ν = 2, αν και υπάρχουν θεωρητικοί λόγοι να θεωρήσουμε Μ = Ν = 4, αν και αυτό οδηγεί σε υψηλό υπολογιστικό κόστος. Ο μετασχηματισμός Fourier εφαρμόζεται σε κάθε πλαίσιο για να επιτύχουμε τον Μετασχηματισμό Fourier βραχέος χρόνου (STFT). Αν τα φάσματα πλαισίου δεν υποστούν καμία επεξεργασία το αρχικό σήμα μπορεί να ανακατσκευαστεί ακριβώς με την μέθοδο επικάλυψης άθροισης. Ωστόσο, όταν εφαρμόζεται στα πλαίσια επεξεργασία στο πεδίο της συχνότητας, μπορεί να εισαχθεί παραμόρφωση εξαιτίας ασυνεχειών του σήματος στα όρια του πλαισίου και απικάλυψη εξαιίας των ραγδαία μεταβαλλόμενων φασματικών συντελεστών. Οι ιδιότητες ανακατασκευής ελέγχονται μέσω της επιλογής της συνάρτησης παραθύρωσης και του λόγου Μ/Ν. Τυχαία Σήματα Διακριτού Χρόνου Στην επεξεργασία σημάτων ταξινομούμε τα σήματα ως ντετερμινιστικά ή ως τυχαία. Ένα σήμα καλείται ντετερμινιστικό όταν οι τιμές του σε οποιοδήποτε χρονικό σημείο μπορούν να οριστούν ακριβώς μέσω μίας μαθηματικής εξίσωσης. Αντίθετα τα τυχαία σήματα δεν έχουν βέβαιες τιμές και περιγράφονται συνήθως μέσω των στατιστικών χαρακτηριστικών τους. Ο προσδιορισμός της στατιστικής δομής της τυχαίας διαδικασίας πραγματοποιείται με παρατήρηση της κυματομορφής, για να είναι αυτή η προσέγγιση έγκυρη πρέπει η τυχαία διαδικασία να είναι εργοδική. Η έννοια της εργοδικότητας προϋποθέτει ότι η στατιστική δομή του σήματος είναι ανεξάρτητη του χρόνου της παρατήρησης. Αν τα στατιστικά έως και δεύτερης τάξης μιας τυχαίας διαδικασίας είναι ανεξάρτητα του χρόνου παρατήρησης, την χαρακτηρίζουμε ως στάσιμη με την ευρεία έννοια. Εν συντομία θα αναφέρουμε παρακάτω τα στατιστικά χαρακτηριστικά έως και δεύτερης τάξης ενός στάσιμου σήματος x(n): 3
Βασικές αρχές Μέση τιμή: μ = Ε[x(n)] = lim x(n) Διασπορά: σ = E[(x(n) μ )(x(n) μ )] = E[x (n)] μ Αυτοσυσχέτιση: r (m) = E[x(n + m)x(n)] = lim Ετεροσυσχέτιση: r (m) = E[x(n + m)y(n)] x(n + m)x(n) Φασματική πυκνότητα ισχύος: R e = r (m)e (ορίζεται ως ο DTFT της ακολουθίας αυτοσυσχέτισης) PSD. 4
Μέρος Πρώτο Θεωρητικό Πλαίσιο (Παρουσίαση αλγορίθμων ενίσχυσης ομιλίας Τεχνικές αφαίρεσης προσθετικού θορύβου) ΚΕΦΑΛΑΙΟ 1 ο Εισαγωγή Ο τομέας Ενίσχυσης (Αναβάθμισης, χρησιμοποιείται ως εναλλακτική διατύπωση) Ομιλίας αρχικά είχε επικεντρώσει το ερευνητικό του ενδιαφέρον στην προσπάθεια αύξησης του ποσοστού απόδοσης συστημάτων επικοινωνίας ομιλίας, στα οποία ο θόρυβος εμφανιζόταν είτε ως σήμα εισόδου είτε ως σήμα εξόδου. Με την πάροδο του χρόνου όμως και την ραγδαία εξέλιξη της τεχνολογίας εμφανίστηκε μία πληθώρα εφαρμογών οι οποίες υλοποιούσαν τις διάφορες τεχνικές αποθορυβοποίησης, κάνοντας επιτακτική την ανάγκη για περαιτέρω ανάπτυξη της έρευνας στον συγκεκριμένο τομέα. Η ανάγκη αυτή ικανοποιήθηκε με αποτέλεσμα τις τελευταίες τρείς δεκαετίες να έχουν παρουσιαστεί διάφοροι αλγόριθμοι ενίσχυσης ομιλίας με στόχο την βελτίωση της απόδοσης σύγχρονων τηλεπικοινωνιακών συσκευών σε περιβάλλοντα θορύβου. Στις περισσότερες των περιπτώσεων ο στόχος είναι να μειωθεί ή να αποκοπεί μέχρι σε κάποιο βαθμό ο προσθετικός περιβαλλοντικός θόρυβος βελτιώνοντας με αυτόν τον τρόπο την ποιότητα του υποβαθμισμένου σήματος καθιστώντας ευκολότερη την επικοινωνία. Όπως θα φανεί και παρακάτω ο στόχος της ενίσχυσης ομιλίας ποικίλει εξαρτώμενος από την εφαρμογή στην οποία χρησιμοποιείται. Ιδανικά, θα θέλαμε οι αλγόριθμοι ενίσχυσης ομιλίας να βελτιώνουν τόσο την ποιότητα όσο και την καταληπτότητα του σήματος, γεγονός που δεν μπορεί να επιτευχθεί στην πράξη καθώς μειώνοντας τον περιβαλλοντικό θόρυβο εισάγεται παραμόρφωση της ομιλίας καθιστώντας την λιγότερο κατανοητή. Αυτή είναι η κύρια πρόκληση στην σχεδίαση αποτελεσματικών αλγορίθμων ενίσχυσης ομιλίας, πως θα αποκόψεις τον θόρυβο χωρίς ταυτόχρονα να εισάγεις επιπλέον παραμόρφωση στο χρήσιμο σήμα. Η λύση στο γενικό αυτό πρόβλημα της ενίσχυσης ομιλίας εξαρτάται σημαντικά από τις ιδιαιτερότητες της κάθε εφαρμογής, τα χαρακτηριστικά της πηγής θορύβου, την σχέση (αν υπάρχει) μεταξύ του θορύβου και του καθαρού σήματος και τον αριθμό των μικροφώνων και των αισθητήρων που είναι διαθέσιμοι. Συμπερασματικά μπορούμε να θεωρήσουμε ότι οι βασικοί στόχοι της αποθορυβοποίησης είναι: Η βελτίωση τόσο των υποκειμενικών όσο και των αντικειμενικών μεγεθών. Η αύξηση της σταθερότητας των συστημάτων συμπίεσης ομιλίας. Η αύξηση του ποσοστού απόδοσης των συστημάτων αναγνώρισης ομιλίας. Οι δύο πρώτες κατηγορίες έχουν βασικό σκοπό την βελτίωση των αντιληπτών μεγεθών που καθορίζουν ένα σήμα ομιλίας, δηλαδή την ποιότητα και την καταληπτότητα αυτού. Τα δύο αυτά 5
Κεφάλαιο 1 - Εισαγωγή μεγέθη στην ουσία αποτελούν τα κριτήρια αξιολόγησης ενός συστήματος αποθορυβοποίηση. Η ποιότητα μετράει την καθαρότητα ενός επεξεργασμένου σήματος καθώς και τα επίπεδα του εναπομείναντος θορύβου μέσα σε αυτό. Αξίζει να αναφέρουμε ότι η ποιότητα αποτελεί μία υποκειμενική μέτρηση η οποία φανερώνει μέχρι ποιο σημείο το αποθορυβοποιημένο σήμα είναι υποφερτό στον εκάστοτε ακροατή. Η καταληπτότητα αναφέρεται στο ποσοστό των μονάδων ομιλίας που μπορεί να αναγνωρίσει ένας ακροατής. Φυσικά αυτή η μέτρηση χαρακτηρίζεται από αντικειμενικότητα. 1.1 Εφαρμογές αλγορίθμων ενίσχυσης ομιλίας Η ανάγκη για ενίσχυση σημάτων ομιλίας προκύπτει σε πολλές περιπτώσεις κατά τις οποίες το σήμα ομιλίας προέρχεται από μια θορυβώδη περιοχή ή είναι επηρεασμένο από θόρυβο μέσα από ένα επικοινωνιακό κανάλι. Υπάρχει μια ποικιλία από περιπτώσεις στις οποίες είναι επιθυμητό να εφαρμόσουμε κάποια μέθοδο αποθορυβοποίησης: Στην επικοινωνία μέσω κινητών τηλεφωνικών συστημάτων, για παράδειγμα, συνήθως υποφέρει από περιβαλλοντικό θόρυβο όπως αυτός παρουσιάζεται μέσα σε ένα αυτοκίνητο ή ένα εστιατόριο κτλ., στο άκρο εκπομπής. Οι αλγόριθμοι ενίσχυσης ομιλίας σε αυτήν την περίπτωση μπορούν να χρησιμοποιηθούν για την βελτίωση της ποιότητας ομιλίας στο άκρο λήψης. Στα συστήματα στενής ζώνης επικοινωνιών τα οποία λειτουργούν σε συνθήκες όπου ο θόρυβος είναι ιδιαιτέρως έντονος. Στην επικοινωνία γη-αέρα οι τεχνικές ενίσχυσης ομιλίας είναι απαραίτητες για να ενισχύσουν την ποιότητα και κυρίως την καταληπτότητα της ομιλίας του πιλότου η οποία υπόκειται στα πολύ υψηλά επίπεδα θορύβου που επικρατούν στο πιλοτήριο. Σε αυτήν και άλλες παρόμοιες τηλεπικοινωνιακές εφαρμογές στρατιωτικής φύσεως δίνεται προτεραιότητα στην ενίσχυση της καταληπτότητας της ομιλίας. Στην ασύρματη και ενσύρματη επικοινωνία και ιδιαιτέρως στις περιπτώσεις εκείνες που ο δέκτης βρίσκεται σε θορυβώδες περιβάλλον ή όταν το μέσο μετάδοσης περιέχει υψηλά ποσοστά θορύβου οποιασδήποτε μορφής. Σε ένα σύστημα τηλεδιασκέψεων θα διαπιστώσουμε μεγάλη βελτίωση στην ποιότητα του συστήματος εάν ενισχύσουμε το σήμα πριν την μετάδοση του. Οι άνθρωποι που χρησιμοποιούν βοηθήματα ακοής αντιμετωπίζουν σημαντικά προβλήματα σε θορυβώδη περιβάλλοντα, σε αυτές τις περιπτώσεις μπορούν να χρησιμοποιηθούν οι αλγόριθμοι ενίσχυσης ομιλίας και να προεπεξεργαστούν ή να καθαρίσουν το ενθόρυβο σήμα πριν αυτό ενισχυθεί. Σε συστήματα αναγνώρισης ομιλίας σε θορυβώδες περιβάλλον 1.2 Θόρυβος Ο καλύτερος τρόπος για να πολεμήσεις έναν εχθρό είναι να τον γνωρίσεις και ακριβώς αυτό θα προσπαθήσουμε να επιτύχουμε σε αυτήν την ενότητα. Για να μπορέσουμε να σχεδιάσουμε αλγόριθμους ικανούς να μειώσουν τον θόρυβο είναι ουσιώδες να κατανοήσουμε την συμπεριφορά 6
Κεφάλαιο 1 - Εισαγωγή διάφορων τύπων θορύβου, τις διαφορές μεταξύ των διάφορων πηγών θορύβου όπως αυτές εμφανίζονται στα χρονικά και φασματικά χαρακτηριστικά τους, καθώς και το εύρος των επιπέδων θορύβου που μπορεί να συναντήσουμε στην πραγματική ζωή. 1.2.1 Πηγή Θορύβου Ο θόρυβος μπορεί να είναι περιβαλλοντικός, προερχόμενος από παρεμβαλλόμενες ομιλίες ή από ανακλάσεις δωματίων, μπορεί επίσης να εισάγεται από το σύστημα κβαντισμού, ο θερμικός ή ακόμα και ο ηλεκτρονικός θόρυβος του καναλιού, ενώ μπορεί να είναι σχετιζόμενος ή ασυσχέτιστος με το σήμα ομιλίας. Τέλος ο θόρυβος εμφανίζεται ως προσθετικός, πολλαπλασιαστικός ή συνελικτικός. Σε κάθε καθημερινή μας δραστηριότητα ο θόρυβος είναι παρών έχοντας διάφορες μορφές και σχήματα γεγονός που καταδεικνύεται και στα παρακάτω παραδείγματα. Στον δρόμο (π.χ. κυκλοφοριακή συμφόρηση, εργασίες κατασκευής), στο αυτοκίνητο (π.χ. θόρυβος μηχανής, άνεμος), στο γραφείο (π.χ. ανεμιστήρας υπολογιστή, αεραγωγός), στα εστιατόρια (π.χ. ομιλία από το διπλανό τραπέζι), στα καταστήματα (π.χ. κουδούνισμα τηλεφώνου, ομιλία πωλητή) και σε πολλές ακόμα περιπτώσεις ο θόρυβος συνοδεύει τις δραστηριότητες μας. Ο θόρυβος μπορεί να είναι στάσιμο σήμα που σημαίνει ότι παραμένει αμετάβλητος κατά την πάροδο του χρόνου όπως ο θόρυβος που προέρχεται από τον ανεμιστήρα του υπολογιστή. Επίσης ο θόρυβος μπορεί να εμφανιστεί και ως μη στάσιμο σήμα, όπως ο θόρυβος του εστιατορίου, στον οποίο ομιλίες από το παρασκήνιο μπλέκονται με τον θόρυβο της κουζίνας. Τα φασματικά χαρακτηριστικά του θορύβου του εστιατορίου συνεχώς αλλάζουν καθώς οι άνθρωποι συνεχίζουν να συζητούν στα γειτονικά τραπέζια και οι σερβιτόροι αλληλεπιδρούν με τους πελάτες. Είναι προφανές ότι η διαδικασία της μείωσης του θορύβου όταν αυτός συνεχώς μεταβάλλεται (μη στάσιμος) είναι πολύ πιο δύσκολη από την διαδικασία μείωσης στάσιμου θορύβου. Άλλο ένα χαρακτηριστικό που ξεχωρίζει τους διάφορους τύπους θορύβου είναι η μορφή του φάσματος και πιο συγκεκριμένα η κατανομή της ενέργειας του θορύβου στο πεδίο της συχνότητας. 1.2.2 Επίπεδα Θορύβου Σημαντική για την σχεδίαση αλγορίθμων ενίσχυσης ομιλίας είναι η γνώση του εύρους των επιπέδων έντασης της ομιλίας και του θορύβου σε καταστάσεις πραγματικής ζωής. Με αυτόν τον τρόπο μπορούμε να εκτιμήσουμε το εύρος των επιπέδων του λόγου σήματος προς θόρυβο (Signal Noise Ratio) που συναντάμε σε πραγματικά περιβάλλοντα. Αυτό είναι σημαντικό καθώς οι αλγόριθμοι ενίσχυσης ομιλίας πρέπει να είναι αποτελεσματικοί στην μείωση του θορύβου και την βελτίωση της ποιότητας της ομιλίας μέσα στο εύρος των επιπέδων του SNR όπως αυτό έχει καθοριστεί. Συστηματική ανάλυση και μέτρηση των επιπέδων θορύβου και ομιλίας έχει πραγματοποιηθεί σε άλλες εργασίες. 7
Κεφάλαιο 1 - Εισαγωγή 1.3 Κατηγορίες Τεχνικών αποθορυβοποίησης Αλγόριθμοι ενίσχυσης ομιλίας Η εισαγωγή θορύβου στην ομιλία έχει ως αποτέλεσμα την εμφάνιση δύο βασικών φαινομένων την αλλοίωση του καθαρού σήματος, όπου αυτό συμβαίνει κυρίως στις περιπτώσεις όπου ο θόρυβος είναι προσθετικός και σπανιότερα συνελικτικός και το φαινόμενο Lombart, δηλαδή την αρνητική επίδραση του θορύβου στο κομμάτι της καταληπτότητας. Το ζήτημα αυτό προσεγγίστηκε από τις ακόλουθες οπτικές προκειμένου να επιλυθεί Αναζήτηση χαρακτηριστικών του σήματος ομιλίας τα οποία παρουσιάζουν υψηλότερο βαθμό αντοχής στο θόρυβο (noise resistance). Χρήση σθεναρού ελέγχου. Μείωση του ποσοστού απόκλισης του καθαρού σήματος ομιλίας από το ενθόρυβο, αυτή η εκδοχή οδήγησε σε δύο κατευθύνσεις Απομάκρυνση του θορύβου από το σήμα (Speech Enhancement) Δημιουργία μοντέλων ομιλίας τα οποία παρουσιάζουν προσαρμοστικότητα στον θόρυβο (model compensation for noise). Χρήση προσαρμοστικού ελέγχου. Η λογική που διακατέχει το μοντέλο των σημάτων ομιλίας που παρουσιάζουν ανθεκτικότητα στον θόρυβο έχει ως εξής: αρχικά η θέσπιση παραμέτρων που παρουσιάζουν αυξημένη ευαισθησία στον θόρυβο. Στην συνέχεια η μελέτη του τρόπου με τον οποίο επιδρά ο θόρυβος σε αυτές. Τέλος χρήση χαρακτηριστικών παραμέτρων ή παραπλήσιων μετρήσεων οι οποίες είναι όσο το δυνατόν αναίσθητες στον θόρυβο. Από μαθηματικής απόψεως η όλη διαδικασία στηρίζεται στην βελτιστοποίηση των συντελεστών Cepstrum που είναι στην ουσία ο μετασχηματισμός Fourier του Spectrum. Υλοποίηση αυτής της διαδικασίας αποτελούν οι αλγόριθμοι Φασματικής Επέκτασης οι οποίοι ενισχύουν κυρίως στις φασματικές κορυφές του σήματος και υποβαθμίζουν τις περιοχές χαμηλής συχνότητας. Η μελέτη του τρόπου ενίσχυσης της αντοχής των σημάτων ομιλίας έναντι στον θόρυβο αποτέλεσε το έναυσμα για μία σειρά από καινοτόμες ιδέες, όπως η τεμαχιοποίηση ομιλίας, η δημιουργία υπολογιστικών μοντέλων ομιλίας για ηχητικά συστήματα τα οποία παρουσιάζουν υψηλό βαθμό υπολογιστικής ακρίβειας, συμπιέζουν την μη γραμμικότητα που εμφανίζουν τα ενθόρυβα σήματα ομιλίας προβαίνοντας σε μετασχηματισμό της περιβάλλουσας και σταδιακή προσαρμογή της συχνότητας σύμφωνα με μία ανασταλτική-αναδρομική διαδικασία. Η δεύτερη κατηγορία η οποία αποτελεί και το αντικείμενο της παρούσας εργασίας, είναι η Αναβάθμιση Ενθόρυβης Ομιλίας (Ενίσχυση Ομιλίας) και βασίζεται στην βελτίωση της ποιότητας της ομιλίας. Βρίσκει κατά κύριο λόγο εφαρμογή σε συστήματα αναγνώρισης ομιλίας αποτελώντας στάδιο προεπεξεργασίας. Βέβαια δεν είναι απόλυτο ότι ο ενισχυμένος λόγος σήματος προς θόρυβο (SNR) αυξάνει τον βαθμό απόδοσης των συστημάτων αναγνώρισης ανθρώπινης ομιλίας. Σε αυτόν τον τομέα επικεντρώθηκαν οι προσπάθειες της έρευνας η οποία οδήγησε σε εξελίξεις που άλλαξαν ριζικά τον τρόπο αντιμετώπισης της αποθορυβοποίησης, οι πιο σημαντικές από αυτές είναι τα παραμετρικά μοντέλα τα οποία βασίζονται σε νευρωνικά δίκτυα (Neural Networks -NN), η φασματική αφαίρεση όπου η απομάκρυνση του θορύβου γίνεται από το φάσμα ισχύος, τα Φίλτρα- Χτένα και πολλά άλλα που θα αναφέρουμε εκτενώς στα κεφάλαια που ακολουθούν. Η τελευταία κατηγορία είναι αυτή των μοντέλων που προσαρμόζονται στον θόρυβο, τα γνωστά και ως HMM, καθώς λαμβάνουν υπ όψιν την παρουσία αυτού. Είναι στην ουσία παραμετρικά μοντέλα τα οποία βελτιστοποιούνται κατά την διάρκεια της εκάστοτε λειτουργίας που εκτελούν. 8
Κεφάλαιο 1 - Εισαγωγή Στην κατηγορία αυτή ανήκουν τα εξαρτώμενα-οδηγούμενα από τις καταστάσεις Wiener φίλτρα τα οποία χρησιμοποιούν τον λόγο φασματικής ισχύος του καθαρού σήματος ομιλίας προς το ενθόρυβο. Όπως προαναφέραμε αυτή η εργασία θα επικεντρωθεί στην παρουσίαση και χρησιμοποίηση αλγορίθμων ενίσχυσης ομιλίας έχοντας ως στόχο την εύρεση του πιο αποτελεσματικού από αυτούς όταν τους χρησιμοποιούμε για την ενίσχυση σημάτων μουσικής. Έχουμε ταξινομήσει αυτούς τους αλγορίθμους σε τρείς κατηγορίες : 1. Spectral Subtractive Algorithms: Ιστορικά είναι από τους πρώτους αλγορίθμους που έχουν χρησιμοποιηθεί για την μείωση του θορύβου, ενώ αποτελούν με διαφορά τους πιο απλούς αλγόριθμους που μπορούμε να εκτελέσουμε. Έχουν την βάση τους στο γεγονός ότι ο θόρυβος είναι προσθετικός και κατά συνέπεια μπορεί να υπολογιστεί το φάσμα του όταν δεν εμφανίζεται το σήμα ομιλίας και στην συνέχεια να το αφαιρέσουμε από το ενθόρυβο σήμα. 2. Statistical-model-based Algorithms: Το πρόβλημα της ενίσχυσης ομιλίας τοποθετείται στο πλαίσιο της στατιστικής εκτίμησης. Για παράδειγμα έστω ότι έχουμε ένα σετ μετρήσεων οι οποίες αντιστοιχούν στις παραμέτρους του μετασχηματισμού Fourier του σήματος θορύβου, αυτό που επιθυμούμε να βρούμε είναι ένας γραμμικός (ή μη γραμμικός) εκτιμητής των παραμέτρων που μας ενδιαφέρουν, δηλαδή, τις παραμέτρους του μετασχηματισμού για το καθαρό σήμα. Οι αλγόριθμοι ελάχιστου μέσου τετραγωνικού σφάλματος (MMSE algorithms) και μέγιστης πιθανοφάνειας (MLE) υπάγονται σε αυτήν την κατηγορία, όπως επίσης και το φίλτρο του Wiener που θα το εξετάσουμε σε ξεχωριστό κεφάλαιο. 3. Subspace Algorithms: Σε αντίθεση με τους αλγόριθμους των δυο προηγούμενων κατηγοριών, οι subspace αλγόριθμοι βασίζονται κυρίως στην θεωρία της γραμμικής άλγεβρας. Πιο συγκεκριμένα, αυτοί οι αλγόριθμοι βασίζονται στην αρχή ότι το καθαρό σήμα μπορεί να περιορίζεται σε έναν υποχώρο του ευκλείδειου χώρου όπως αυτός ορίζεται από το ενθόρυβο σήμα. Κατά συνέπεια αν μπορούσαμε να αναπτύξουμε μια μέθοδο αποσύνθεσης του διανύσματος του χώρου του ενθόρυβου σήματος σε έναν υποχώρο ο οποίος καταλαμβάνεται κυρίως από το καθαρό σήμα και αντίστοιχα έναν υποχώρο που καταλαμβάνεται από το σήμα του θορύβου, θα μπορούσαμε να εκτιμήσουμε το καθαρό σήμα απλά ακυρώνοντας την συνιστώσα του ενθόρυβου διανύσματος η οποία αντιστοιχεί στον υποχώρο του θορύβου. Η αποσύνθεση του διανύσματος του χώρου σε υποχώρους σήματος και θορύβου μπορεί να πραγματοποιηθεί χρησιμοποιώντας ευρέως γνωστές τεχνικές παραγοντοποίησης μητρών από την γραμμική άλγεβρα, και πιο συγκεκριμένα την διάσπαση ιδιόμορφων τιμών (Singular Value Decomposition) ή την παραγοντοποίηση ιδιοδιανύσματος-ιδιοτιμής. 9
ΚΕΦΑΛΑΙΟ 2 ο Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα Στο σημείο αυτό πριν ασχοληθούμε με το κύριο αντικείμενο της παρούσας εργασίας παραθέτουμε μερικές βασικές έννοιες μέσω των οποίων θα οδηγηθούμε σε καλύτερη κατανόηση στην συνέχεια της εργασίας. 2.1 Ήχος Ως ήχος μπορεί να οριστεί μια διάδοση κυμάτων στον αέρα ή άλλο ελαστικό μέσο (ερέθισμα) ή ως εκείνη η διέγερση του μηχανισμού ακρόασης που οδηγεί στην αντίληψη ενός ήχου (αίσθηση). Το ποιος ορισμός ισχύει εξαρτάται από το εάν η προσέγγιση είναι φυσική ή ψυχοφυσική. Ο τύπος του προβλήματος υπαγορεύει και την προσέγγιση στον ήχο. Εάν το ενδιαφέρον είναι στη διαταραχή του αέρα που δημιουργείται από ένα μεγάφωνο, τότε η μελέτη του ήχου ανάγεται σε ένα φυσικό πρόβλημα. Εάν το ενδιαφέρον είναι πώς ηχεί σε ένα πρόσωπο πλησίον στο μεγάφωνο, τότε θα πρέπει να χρησιμοποιηθούν ψυχοφυσικές μέθοδοι. Οποιοσδήποτε ήχος, οποιουδήποτε είδους, προκαλείται από μια δόνηση. Χωρίς δόνηση δεν μπορεί να υπάρξει κανένας ήχος. Το δονούμενο σώμα αναγκάζει τα μόρια αέρα γύρω του να δονηθούν και εκείνα με τη σειρά τους μεταδίδουν την δόνηση στα διπλανά τους μόρια. Κατά αυτόν τον τρόπο μια διαταραχή του αέρα κινείται από την πηγή του ήχου και μπορεί τελικά να φθάσει στα αυτιά ενός ακροατή. Όταν ακούμε έναν ήχο, ο αέρας που φτάνει στα τύμπανά μας δονείται αναγκάζοντάς και αυτά να δονηθούν. Αυτές οι δονήσεις ανιχνεύονται και αναλύονται από τον εγκέφαλό μας. Αν και είναι συνήθως ο αέρας που ενεργεί ως διαβιβάζον μέσο, ο ήχος μπορεί να διαβιβαστεί και από άλλα μέσα, π.χ. στερεά, υγρά. Ο ήχος δεν αποτελείται από τον αέρα που κινείται προς εμάς, αλλά ταξιδεύει μέσω του αέρα ως ένα ηχητικό κύμα. Ένα ηχητικό κύμα αποτελείται από μια διαταραχή που κινείται από μια πηγή προς τις περιβάλλουσες θέσεις με αποτέλεσμα η ενέργεια να μεταφέρεται από μια θέση σε άλλη. Καθώς το κύμα μεταδίδεται, η διαταραχή των μορίων είναι στην κατεύθυνση διάδοσης των κυμάτων. Η μετατόπιση των μορίων του μέσου οδηγεί σε περιοχές με εναλλασσόμενη υψηλή πυκνότητα μορίων και χαμηλή πυκνότητα μορίων. Οι περιοχές υψηλής πυκνότητας μορίων καλούνται πυκνώσεις (compressions). Οι περιοχές χαμηλής πυκνότητας μορίων καλούνται αραιώσεις (rarefactions). Σχήμα 2.1 Αραιώσεις και πυκνώσεις κατά τη διάδοση ενός κύματος. 10
Κεφάλαιο 2- Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα Σχήμα 2.2 Ο ήχος ως κύμα πίεσης. Οι αραιώσεις και οι πυκνώσεις κινούνται στην κατεύθυνση διάδοσης των κυμάτων. Τα μόρια του μέσου δεν κινούνται ομαδικά στην κατεύθυνση της μετακίνησης κυμάτων, δονούνται γύρω από τις κανονικές θέσεις τους. Κάθε πλήρης δόνηση ενός μορίου καλείται κύκλος (δηλ. από την αρχική θέση του, σε μια μέγιστη απόσταση σε μια κατεύθυνση, πίσω στην αρχική θέση, έπειτα σε μια μέγιστη μετατόπιση στην αντίθετη κατεύθυνση και πίσω στην αρχική θέση). Ο αριθμός κύκλων που ολοκληρώνονται σε ένα δευτερόλεπτο καλείται συχνότητα της δόνησης. Το φάσμα της ανθρώπινης ακοής εκτείνεται προσεγγιστικά από τα 16Hz έως τα 16kHz. Αυτό το φάσμα συχνοτήτων έχει εύρος ίσο με περίπου 10 οκτάβες από τον χαμηλότερο αντιληπτό τόνο ως τον υψηλότερο. Οι συχνότητες των νοτών που μπορούν να παιχτούν σε ένα πιάνο κυμαίνονται από 27.5 Hz και φτάνουν πάνω από τα 4 khz. Σχήμα 2.3 Συχνότητες νοτών στο πιάνο. Οποιαδήποτε νότα παίζεται σε ένα πιάνο θα ηχήσει διαφορετική σε μια νότα του ίδιου τόνου που παράγεται από έναν άλλο τύπο οργάνου. Η μουσική νότα που παράγεται με έναν συντονισμό καλείται καθαρός τόνος (pure tone) επειδή αποτελείται από έναν τόνο μιας συχνότητας. Μια νότα που παίζεται σε ένα πιάνο, ή στα περισσότερα άλλα όργανα, αποτελείται από διάφορους τέτοιους τόνους που ηχούν μαζί σε διαφορετικές συχνότητες. Αυτές οι συχνότητες συσχετίζονται με τη συχνότητα που δίνει στη νότα το χαρακτηριστικό τόνο της, η οποία είναι συνήθως η χαμηλότερη. Οι κυματομορφές μουσικής ή ομιλίας απέχουν πολύ από τη μορφή του απλού ημιτόνου. Είναι όμως πολύ ενδιαφέρον το γεγονός ότι όσο πολύπλοκο κι αν είναι ένα κύμα, αν είναι περιοδικό, μπορεί να περιγραφεί ως άθροισμα ημιτονικών όρων διαφορετικών συχνοτήτων, φάσεων και πλάτους. Ο ημιτονικός όρος με τη χαμηλότερη συχνότητα καλείται θεμελιώδης (fundamental). Οι άλλοι όροι καλούνται partials (μερικές). Εάν οι αρμονικοί ήχοι έχουν συχνότητες που είναι ακέραια 11
Κεφάλαιο 2- Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα πολλαπλάσια (x2, x3 μέχρι x14) της θεμελιώδους συχνότητας καλούνται αρμονικές (harmonics). Οι μουσικοί συχνά χρησιμοποιούν τον όρο «μερική» αντί του όρου «αρμονική», αλλά θα πρέπει σ αυτό το σημείο να γίνει μία διάκριση μεταξύ των όρων γιατί οι μερικές πολλών οργάνων δεν είναι αρμονικά συσχετιζόμενες με την θεμελιώδη συχνότητα. Δηλαδή μπορεί να μην είναι ακέραια πολλαπλάσια της θεμελιώδους συχνότητας, όπως για παράδειγμα οι μερικές του πιάνου. Επομένως, για την περίπτωση μονοφωνικών ήχων, το σήμα εισόδου περιλαμβάνει μία μοναδική αρμονική δομή, κάποια μη αρμονικά συστατικά και μία επιπρόσθετη ποσότητα ανεπιθύμητου θορύβου. Άρα, το σήμα μπορεί προσεγγιστικά να περιγραφεί ως: x(t) = ka (t) sin( kωt + φ ) + e(t) όπου: x(t) είναι το σήμα εισόδου στο πεδίο του χρόνου ω είναι η θεμελιώδης συχνότητα της τρέχουσας νότας Α k (t) είναι το πλάτος της k-αρμονικής τη χρονική στιγμή t φ k είναι η φάση της k-αρμονικής e(t) είναι οι λοιποί όροι (μη αρμονικά στοιχεία και θόρυβος) Είναι η διαφορά στο αρμονικό περιεχόμενο των νοτών που δίνει σε κάθε μουσικό όργανο το χαρακτηριστικό ήχο του ή χροιά (timbre). Επομένως αν και η υψηλότερη νότα ενός πιάνου έχει μια θεμελιώδη συχνότητα μεγαλύτερη από 4kHz, ο εξοπλισμός που χρησιμοποιείται για να καταγράψει τη μουσική πρέπει να είναι σε θέση να χειριστεί πολύ υψηλότερες συχνότητες για να διατηρήσει τις αρμονικές που συνδέονται με κάθε νότα. Σχήμα 2.4 Κυματομορφή στο πεδίο του χρόνου και στο πεδίο της συχνότητας. Οι ήχοι που παράγονται από κρουστικά αποτελέσματα είναι ιδιαίτερα πλούσιοι σε υψηλές αρμονικές. Αυτοί εμφανίζονται κυρίως στην έναρξη ενός ήχου, π.χ. όταν ακουμπάμε μια χορδή ή όταν χτυπάμε ένα κύμβαλο. Ο εξοπλισμός ηχογράφησης πρέπει να είναι σε θέση να αντιμετωπίσει αυτές τις υψηλές συχνότητες ειδάλλως η τονική ποιότητα των ήχων θα αλλάξει. Τα κύμβαλα, παραδείγματος χάριν, μπορούν να παραγάγουν τις συχνότητες μεταξύ 20kHz και 25kHz. Υπάρχουν δύο τύποι ήχων: ήχοι καθορισμένου τόνου, την οποία οι μουσικοί καλούν νότα και ήχος χωρίς καθορισμένο τόνο, ο θόρυβος. Η μουσική περιλαμβάνει όχι μόνο τις νότες (καθορισμένου τόνου) αλλά επίσης και πολύ θόρυβο, π.χ. κρουστά. Ο θόρυβος είναι ένα αναπόσπαστο τμήμα της μουσικής. Η διαφορά μεταξύ μιας νότας και ενός θορύβου είναι προφανής 12
Κεφάλαιο 2- Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα στο αυτί αλλά τι προκαλεί τη διαφορά; Μια νότα αποτελείται από τις περιοδικές δονήσεις ενώ ένας θόρυβος αποτελείται από μη περιοδικές δονήσεις. Περιοδική κίνηση είναι η μετακίνηση που είναι επαναλαμβανόμενη. Μια μουσική νότα παράγεται από την περιοδική κίνηση σε μια ευδιάκριτη συχνότητα. Η μη περιοδική κίνηση θεωρείται ως θόρυβος. Ως θόρυβος μπορεί να οριστεί ένας ανεπιθύμητος ήχος. Ένας μηχανικός ήχου ενδιαφέρεται για δύο είδη του θορύβου: 1. συστημικός θόρυβος, εισαγόμενος από τα μικρόφωνα, τους ενισχυτές, τα όργανα καταγραφής ταινιών, κ.λπ. 2. περιβαλλοντικός θόρυβος σε μια αίθουσα, ένα στούντιο, ένα δωμάτιο, κ.λπ. Ένας μηχανικός ήχου ενδιαφέρεται επίσης για την αντήχηση. Όλα τα αντικείμενα που μπορούν να δονηθούν έχουν μια ορισμένη συχνότητα στην οποία θα δονηθούν εντονότερα (δηλ. με το μέγιστο εύρος). Εάν ένα σώμα διεγείρεται σε ένα ολόκληρο φάσμα συχνοτήτων θα δονηθεί περίπου εξίσου σε όλες τις συχνότητες εκτός από εκείνες τις συχνότητες που είναι πλησιέστερα στη φυσική συχνότητά του. Σε μια συχνότητα θα δονηθεί εντονότερα. Αυτή η συχνότητα καλείται συχνότητα συντονισμού και ο όρος καλείται αντήχηση. Μια χορδή ενός μουσικού οργάνου θα δονηθεί σε μια συχνότητα, την συχνότητα συντονισμού της. Τα μόρια αέρα έχουν μάζα έτσι οποιοδήποτε εσωκλειόμενο σώμα του αέρα (π.χ. ο σωλήνας ή ο «σωλήνας» ενός κλαρινέτου) έχει μια συχνότητα συντονισμού. Ο αέρας που περιλαμβάνεται σε μια αίθουσα ή ένα στούντιο μπορεί επίσης να έχει την αντήχηση, με συνέπεια ορισμένοι ήχοι να ενισχύονται αδικαιολόγητα. Στη μουσική, η σειρά των ήχων διαιρείται σε τμήματα γνωστά ως οκτάβες. Η οκτάβα είναι μία λογαριθμική σύλληψη που είναι στενά συνδεδεμένη με τις μουσικές κλίμακες και ορολογίες, εξαιτίας της σχέσης της με τα χαρακτηριστικά της ανθρώπινης ακοής. Σχήμα 2.5 Σύγκριση αρμονικών και οκτάβων. Οι αρμονικές είναι γραμμικά συσχετισμένες ενώ οι οκτάβες λογαριθμικά. Κάθε οκτάβα αποτελείται από επτά διαφορετικές νότες και οκτώ διαστήματα μεταξύ των νοτών. Οι επτά νότες ονομάζονται Α-G (Λα-Σολ) και η όγδοη νότα είναι το Α της επόμενης οκτάβας. Κάθε νότα ηχεί πολύ παρόμοια με τη νότα που έχει το ίδιο όνομα σε μια άλλη οκτάβα. Ο λόγος για αυτήν την ομοιότητα είναι ότι μια νότα που μια οκτάβα υψηλότερη από μια άλλη με το ίδιο όνομα έχει δύο φορές τη συχνότητα της (π.χ. ένα Λα έχει συχνότητα 440Hz ενώ το αμέσως υψηλότερο έχει συχνότητα 880Hz). Έτσι, εάν ένα δεδομένο σύστημα ταλαντεύεται δύο φορές στη συχνότητα ενός άλλου συστήματος, οι δύο νότες που παράγονται διαφέρουν στον τόνο κατά μια οκτάβα. 13
Κεφάλαιο 2- Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα Στο σημείο αυτό, στο πλαίσιο των ημιτονικών σημάτων, των αρμονικών κ.τ.λ. πρέπει να ορίσουμε την έννοια του φάσματος (spectrum). Αντίστοιχα με το ορατό φάσμα του φωτός, υπάρχει και το φάσμα του ήχου, το σύνολο των συχνοτήτων που γίνονται αντιληπτά από το ανθρώπινο αυτί. Δεν μπορούμε να αντιληφθούμε την υπεριώδη ακτινοβολία, γιατί η συχνότητα της ηλεκτρομαγνητικής του ενέργειας είναι πέρα από τα όρια που μπορεί να αντιληφθεί το ανθρώπινο μάτι. Επίσης, δεν μπορούμε να δούμε την υπέρυθρη γιατί η συχνότητά του είναι πολύ χαμηλή. Αντίστοιχα, υπάρχουν ήχοι πολύ χαμηλής και πολύ υψηλής συχνότητας που το ανθρώπινο αυτί δεν μπορεί να συλλάβει. Το φάσμα μας δείχνει πώς η ενέργεια του σήματος διαμοιράζεται στις διάφορες συχνότητες. Παρατηρώντας τα φάσματα ημιτονικών σημάτων, τετραγωνικών και τριγωνικών παλμών, παρατηρούμε συγκέντρωση της ενέργειας στις αρμονικές συχνότητες και τίποτα στο ενδιάμεσο αυτών των συχνοτήτων. Τα παραπάνω σήματα είναι χαρακτηριστικά περιοδικών σημάτων. Στην περίπτωση του τυχαίου θορύβου η ενέργεια είναι κατανεμημένη σε όλες τις συχνότητες. Ακόμα όμως και ο θόρυβος μπορεί να θεωρηθεί ως άθροισμα ημιτονικών σημάτων με συνεχώς μεταβαλλόμενη συχνότητα, πλάτος και φάση. Τα μόρια που δονούνται λόγω της μετάβασης ενός κύματος θεωρούνται σε φάση εάν κινούνται προς την ίδια κατεύθυνση και έχουν την ίδια μετατόπιση (δηλ. είναι οι ίδιες αποστάσεις από τις αρχικές θέσεις τους). Το μέτωπο του κύματος είναι μια επιφάνεια στην οποία όλα τα μόρια είναι στην ίδια φάση της δόνησης. Η απόσταση μεταξύ των διαδοχικών κυματομορφών καλείται μήκος κύματος του ήχου. Το μήκος κύματος αναπαριστάνεται με το ελληνικό σύμβολο λάμδα. Σε επίπεδο πυκνώσεων και αραιώσεων το μήκος κύματος είναι η απόσταση μεταξύ των παρακείμενων κέντρων της πύκνωσης ή των παρακείμενων κέντρων αραίωσης. Σχήμα 2.6 Μήκος κύματος και πλάτος κυματομορφής. Ο ήχος διαδίδεται με σταθερή ταχύτητα (ταχύτητα του ήχου) εάν η θερμοκρασία και η πίεση του αέρα είναι σταθερές. Αυτή είναι περίπου 330 μέτρα ανά δευτερόλεπτο. Το μήκος κύματος και η συχνότητα συσχετίζονται με την ταχύτητα του ήχου με την παρακάτω σχέση: Υπάρχουν τρία κύρια χαρακτηριστικά του ήχου: 1. Ηχηρότητα που συσχετίζεται με το πλάτος 2. Τόνος που συσχετίζεται με τη συχνότητα 3. Χροιά που συσχετίζεται με το φάσμα. v = f λ 14
Κεφάλαιο 2- Βασικές έννοιες Ακουστικής & το ανθρώπινο ακουστικό σύστημα 2.1.1 Ηχηρότητα (Loudness) Ένας δυνατός ήχος (νότα ή θόρυβος) παράγεται από δονήσεις ισχυρότερες από εκείνες που παράγουν έναν λιγότερο δυνατό ήχο. Εύρος ενός κύματος είναι η μέγιστη μετατόπιση των δονούμενων μορίων από τις θέσεις ηρεμίας τους. Για να παραχθεί δόνηση, πρέπει να καταναλωθεί ενέργεια. Επομένως, για να παράγουμε ένα πιο δυνατό ήχο περισσότερη ενέργεια πρέπει να δαπανηθεί. Το ποσό της ενέργειας για να παραχθεί ένας ήχος ονομάζεται ισχύς του ήχου και μετριέται σε Watt. Ενώ ο ήχος εκπέμπεται από μια πηγή, η συγκέντρωση ισχύος γίνεται όλο και μικρότερη όσο η απόσταση από την πηγή μεγαλώνει αφού το ίδιο ποσό ισχύος απλώνεται σε μεγαλύτερη επιφάνεια. Το ποσό ισχύος ανά τετραγωνικό μέτρο ονομάζεται ένταση του ήχου (intensity). Οι άνθρωποι δεν αντιλαμβάνονται την ένταση του ήχου γραμμικά. Για έναν ήχο που γίνεται αντιληπτός ως δύο φορές πιο δυνατός, η ένταση πρέπει να είναι δέκα φορές μεγαλύτερη. Εξαιτίας αυτού, το αντιληπτό επίπεδο έντασης ενός ήχου μετριέται σε λογαριθμική κλίμακα χρησιμοποιώντας τη μονάδα του decibel (ή db). Το κατώτατο όριο της ακρόασης ορίζεται ως 0 db. Ένας ήχος που είναι τόσο δυνατός που προκαλεί πραγματικά τον πόνο - το κατώτατο όριο του πόνου - είναι περίπου 120 db. Με τη λογαριθμική κλίμακα στο μυαλό, το κατώτατο όριο του πόνου (120 db) αντιπροσωπεύει μια ένταση 1.000.000.000.000 (1 τρισεκατομμύριο) φορές μεγαλύτερες από το κατώτατο όριο της ακρόασης (0 db)! Σχήμα 2.7 Καμπύλες ίσης ηχηρότητας. Οι ακόλουθες εμπειροτεχνικές μέθοδοι για την ηχηρότητα αποδεικνύονται χρήσιμες: Για να διπλασιαστεί η αντιληπτή ηχηρότητα ενός ήχου, η ισχύς (σε Watt) πρέπει να αυξηθεί δέκα φορές και το επίπεδο πίεσης του ήχου θα αυξηθεί κατά 10 db. Παράδειγμα: Ένα επίπεδο πίεσης (SPL) 90 db που παράγονται με ισχύ 10 Watt θα διπλασιαστεί σε αντιληπτή ηχηρότητα όταν αυξάνεται η δύναμη σε 100 Watt και η SPL αυξηθεί σε 100 db. 15