ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΗΧΗΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΙΑ ΑΝΑΠΑΡΑΓΩΓΗ ΣΕ ΧΩΡΟΥΣ ΜΕ ΑΝΤΗΧΗΣΗ ΘΩΜΑ Σ. ΖΑΡΟΥΧΑ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΗΧΗΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΙΑ ΑΝΑΠΑΡΑΓΩΓΗ ΣΕ ΧΩΡΟΥΣ ΜΕ ΑΝΤΗΧΗΣΗ ΘΩΜΑ Σ. ΖΑΡΟΥΧΑ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ"

Transcript

1 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΗΧΗΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΙΑ ΑΝΑΠΑΡΑΓΩΓΗ ΣΕ ΧΩΡΟΥΣ ΜΕ ΑΝΤΗΧΗΣΗ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΘΩΜΑ Σ. ΖΑΡΟΥΧΑ ΙΠΛ.ΗΛΕΚΤΡΟΛΟΓΟΥ ΜΗΧΑΝΙΚΟΥ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΑΡΙΘΜΟΣ ΙΑΤΡΙΒΗΣ 252 ΠΑΤΡΑ - ΙΟΥΝΙΟΣ 2010

2

3 Αφιερώνεται στους γονείς µου Στέλιο και Ευανθία, στον αδερφό µου ηµήτρη, στην Βασιλική και στον µικρό Στέλιο.

4 Περίληψη ΗδιδακτορικήδιατριβήµελετάϹητήµαταπουαφορούντηνενσωµάτωσηυπολογιστικών µοντέλων ακοής για την µοντελοποίηση και επεξεργασία ηχητικών σηµατών για την ϐέλτιστη αναπαραγωγή τους σε χώρους µε αντήχηση καθώς και την κωδικοποίηση ηχητικών δεδοµένων. Στο πλαίσιο της ϑεωρητικής ανάλυσης που πραγµατοποιήθηκε, αναδείχθηκε η αναγκαιότητα για την υιοθέτηση µιας προσέγγισης εξαρτώµενης του σήµατος σχετικά µε την περιγραφή και επεξεργασία των αντιληπτικών αποτελεσµάτων της αντήχησης. Το κύριο µέρος της διατριβής επικεντρώθηκε στην µοντελοποίηση των αντιληπτικά σηµαντικών αλλοιώσεων λόγω αντήχησης, µε την ϐοήθεια κατάλληλα οριζόµενων µόνο-ωτικών και διαφορικών ενδο-καναλικών παραµέτρων και την απεικόνιση τους µε τη ϐοήθεια χρονο-συχνοτικών 2D αναπαραστάσεων.ολεπτοµερήςεντο- πισµός των αλλοιώσεων στα ηχητικά σήµατα µέσω του προτεινόµενου είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) διαµόρφωσε κατάλληλη µεθοδολογία ανάλυσης-σύνθεσης, για την καταστολή της αντήχησης σε συγκεκριµένες χρονο-συχνοτικές περιοχές, ενσωµατώνοντας παράλληλα κατάλληλες τεχνικές ψηφιακής επεξεργασίας σήµατος. Το κύριο πλεονέκτηµα της προτεινόµενης, εξαρτώµενης του σήµατος, µεθοδολογίας είναι ότι επιτυγχάνεται η καταστολή των, µε σχετική καθυστέρηση, παραµορφώσεων λόγω αντήχησης σε µια µεγαλύτερη κλίµακα, δεδοµένου ότι µόνο οι αντιληπτικά σηµαντικές περιοχές του σήµατος επηρεάζονται από την επεξεργασία. Επιπλέον, το προτεινόµενη πλαίσιο εργασίας λειτουργεί συµπληρωµατικά στο σύνολο των κυρίαρχων (εξαρτώµενων του συστήµατος) µεθόδων αντιστροφής ϕίλτρου που χρησιµοποιούνται σε πολλές εφαρµογές Ψηφιακής Επεξεργασίας Σήµατος για την αντιµετώπιση προ- ϐληµάτων αυτής της κατηγορίας. Στα πλαίσια της διατριβής αναζητήθηκε η δυνατότητα ανάλυσης των ηχητικών δεδοµένων µε ϐάση τις εσωτερικές τους αναπαραστάσεις (όπως δηλαδή τις παρέχει το υπολογιστικό µοντέλο ακοής) µε εφαρµογή στην περιοχή της κωδικοποίησης σηµάτων. Ο προτεινόµενος µη-οµοιόµορφος κβαντιστής που υλοποιήθηκε πραγµατοποιεί τη διαδικασία της κβάντισης χρονο-συχνοτικά και µε κατάλληλη οδήγηση από το υπολογιστικό µοντέλο ακοής, εξασφαλίζοντας καλύτερη υποκειµενική ηχητική ποιότητα, µε µια µέση τιµή ευκρίνειας κβαντισµού 6.7 bits ανά δείγµα, σε σχέση µε ένα οµοιόµορφο 8-bit PCM κβαντιστή. Χρησιµοποιώντας τη ϐασική λειτουργία του µη-οµοιόµορφου κβαντιστή, υλοποιήθηκε ενά κριτήριο αξιολόγησης ηχητικών δεδο- µένων, όπου σε αντίθεση µε καθιερώµενα κριτήρια (όπως το Noise to Mask Ratio, NMR) επιτελεί τις λειτουργίες του στο πεδίο χρόνου-συχνότητας και παρέχει τη δυνατότητα εντοπισµού µε ακρίβεια της υποκειµενικά σηµαντικής παραµόρφωσης µε ϐάση την χρονική εξέλιξη του σήµατος. i

5 Abstract The dissertation studies issues concerning the integration of computational auditory models for modelling and processing of audio signals for optimal reproduction in reverberant spaces as well as topics related to audio coding. Based on the theoretical framework analysis that was established, the necessity of a signaldependent approach was underlined for modelling the perceptually-relevant effects of reverberation. The main part of the dissertation thesis was focused on describing the perceptually-relevant alterations due to reverberation, based on appropriate defined monaural and differential inter-channel parameters and also their representation with well-defined time-frequency 2D maps. The detailed localization of alterations due to reverberation in the acoustic signals via the proposed Reverberation Masking Index (RMI) introduced an analysis-synthesis methodology for the compensation of reverberation in perceptually-significant time-frequency regions incorporating also, well-established digital signal processing techniques. The main advantage of the proposed signal-dependent methodology is that the suppression of reverberant tails can be achieved on a larger scale under practical conditions, since only perceptually significant regions of the signal are affected after processing. Additionally, the proposed framework complements the more traditional systemdependent inverse filtering methods, enabling novel and efficient signal processing schemes to evolve for room dereverberation applications. The thesis examines also the feasibility of the acoustic signal analysis based on the internal representations provided by the computational auditory model, applicable in the area of audio coding. The proposed non-uniform quantizer operates in the time-frequency domain, where a novel quantization process is driven by the computational auditory model, thus enabling an overall better perceptual quality for an average rate of 6.7 bits/sample resolution, with respect to uniform 8-bit PCM quantizer. Considering the fundamental operation of the novel non-uniform quantizer, a criterion for audio quality evaluation was proposed, where contrary to well-established criteria (i.e., Noise to Mask Ratio, NMR) its potential structure performs in the time-frequency domain and provides the detailed localization of perceptually-important distortions based on the input signal s evolution. ii

6 Πρόλογος ΗπαρούσαδιατριβήεκπονήθηκεστηνΟµάδα Τεχνολογίας Ηχου και Ακουστικής του Εργαστηρίου Ενσύρµατης Τηλεπικοινωνίας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στο Πανεπιστήµιο Πατρών, από τον Απρίλιο του 2002 έως το Μάρτιο του Το ϑέµα πρότεινε ο Καθηγητής κ. Ιωάννης Μουρτζόπουλος, ο οποίος προήδρευσε της Τριµελούς Συµβουλευτικής Επιτροπής, µέλη της οποίας ήταν ο Καθηγητής κ. Ν. Φακωτάκης και ο Καθηγητής κ. Αθ. Στουραΐτης. Ιδιαίτερες ευχαριστίες οφείλω στους κ. Ν. Φακωτάκη και Αθ. Στουραΐτη για τις ουσιαστικές και εύστοχες παρατηρήσεις τους κατά τη συγγραφή της διατριβής. Την επταµελή εξεταστική επιτροπή συγκρότησαν τα µέλη της ανωτέρω Συµβουλευτικής Επιτροπής και επιπλέον τα ακόλουθα µέλη της ακαδηµαϊκής κοινότητας του Πανεπιστηµίου Πατρών : Ε. ερµατάς (Αν. Καθ., τµήµα Ηλ. Μηχ. & Τ/Υ ), Κ. Μπερ- µπερίδης (Καθ., τµήµα Μηχ. Η/Υ & Πληρ.),. Σκαρλάτος (Αν. Καθ., τµήµα Μηχ/γων Μηχ. & Αερ.) και Ε. Ψαράκης (Επικ. Καθ., τµήµα Μηχ. Η/Υ & Πληρ.). Τους ευχαριστώ όλους για το ενδιαφέρον τους και τις κρίσιµες υποδείξεις τους καθώς και για την συµµετοχή τους στην δηµόσια παρουσίαση και εξέταση της διατριβής. Στο σηµείο αυτό ϑα ήθελα να ευχαριστήσω όλους αυτούς µε τους οποίους είχα την τύχη και την τιµή να συνεργαστώ και που συνέβαλαν, ο καθένας µε τον τρόπο του, στην επιτυχή ολοκλήρωση της διατριβής : Τον Καθ. Ι. Μουρτζόπουλο, όπου πέρα από το κύριο ϐάρος επίβλεψης της παρούσας διατριβής και την σχεδόν καθηµερινή γόνιµη συνεργασία σε διάφορα τεχνικά ϑέµατα, κατάφερε να εδραιώσει µια ουσιαστική και ειλικρινή σχέση που ξεπερνά τα τυπικά όρια δασκάλου-µαθητή. Τους ρ. Ν.-Α. Τάτλα και Επικ. Καθ. Α. Φλώρο (Ιόνιο Πανεπιστήµιο) για την άψογη συνεργασία που είχαµε κατά την περίοδο εργασίας τους στο εργαστήριο της Οµάδας Τεχνολογίας Ηχου και Ακουστικής καθώς και την δυνατότητα που µου έδωσαν να εργαστώ σε διαφορετικές ερευνητικές περιοχές που οδήγησαν στην εκπόνηση και δη- µοσίευση σχετικών εργασιών σε διεθνή συνέδρια και περιοδικά. Τον ρ. Π. Χατζηαντωνίου για τις συµβουλές του σε ϑέµατα ψηφιακής επεξεργασίας ηχητικών δεδοµένων και την καθοδήγηση του στο χώρο της ψηφιακής ισοστάθµισης. Τον Assoc. Prof. J. Buchholz (Technical University of Denmark), για την διάθεση µέρους των αποτελεσµάτων της ερευνητικής του εργασίας, που αποτέλεσε τη ϐάση για την ϑεωρητική ϑεµελίωση και εξέλιξη της παρούσας διατριβής. Τον Prof. J. Blauert (Ruhr-Universität Bochum), για τις ουσιαστικές παρατηρήσεις σχετικά µε τις ψυχοακουστικές προσεγγίσεις της διατριβής καθώς και για τις καίριες iii

7 επισηµάνσεις του σε ϑέµατα χωρικής ακουστικής αντίληψης, που πραγµατοποιήθηκαν κατά την διάρκεια των επισκέψεων του στο Τµήµα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Υπολογιστών. Τους συναδέλφους µου και υποψήφιους διδάκτορες στο εργαστήριο της Οµάδας Τεχνολογίας Ηχου και Ακουστικής, Φ. Κοντοµίχο, Θ. Αλτάνη, Α. Τσιλφίδη, Ε. Γεωργαντή και Η. Κοκκίνη για την συνεργασία που είχαµε σε συναφή ερευνητικά ϑέµατα καθώς και την σηµαντική ϐοήθεια που µου παρείχαν στην διεξαγωγή των απαραίτητων ακουστικών µετρήσεων. Τέλος, ϑα ήθελα να εκφράσω την αγάπη και ευγνωµοσύνη µου στους γονείς µου Στέλιο και Ευανθία καθώς και στον αδερφό µου ηµήτρη για την ποικιλότροπη υποστήριξη που µου παρείχαν απλόχερα, στην Βασιλική για την συνεχή και αναντικατάστατη παρουσία της όλα αυτά τα χρόνια και στον µικρό Στέλιο, για το λιγοστό χρόνο που του διέθεσα το τελευταίο διάστηµα και υποµονετικά το ανέχτηκε. Θωµάς Σ. Ζαρούχας Πάτρα, Ιούνιος 2010 iv

8 Περιεχόµενα 1 Εισαγωγή Γενικά Αντικείµενο της ιατριβής Βασικές Εννοιες Ενδεικτικές Λειτουργίες του Ακουστικού Συστήµατος Αντήχηση και Χρόνος Αντήχησης Υπολογιστικά Αντιληπτικά Μοντέλα Χωρική ή Αµφιωτική Ακουστική Αντίληψη Καθορισµός Προβλήµατος και Πρόσφατες Ερευνητικές Προσεγγίσεις Αντιληπτική Προσέγγιση Φαινοµένου Αντήχησης Προτεινόµενο πλαίσιο εργασίας Πρωτότυπη Συνεισφορά της ιατριβής Παρουσίαση και οµή της ιατριβής Βασικές Εννοιες - ΤοΥπολογιστικό Μοντέλο Ακουστικής Επικάλυψης Εισαγωγή Ανατοµία του Ακουστικού Συστήµατος Εξωτερικό Αυτί Μέσο Αυτί Εσωτερικό Αυτί Κρίσιµες Περιοχές Συχνότητας Απόλυτο Κατώφλι Ακουστότητας Το Φαινόµενο της Ακουστικής Επικάλυψης Ελάχιστα Αντιληπτή Στάθµη ιαφοράς Θεωρία Εκτίµησης και Ανίχνευσης Χωρική Ακουστική Αντίληψη Εισαγωγή Ενδο-ωτικές Παράµετροι Ενδο-καναλικές Παράµετροι Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης Εισαγωγή Γενική οµή Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης Συµπίεση Εξαρτώµενη Σήµατος Υλοποίηση Σταδίου ΣΕΣ µέσω Ψηφιακής Επεξεργασίας Σήµατος. 35 v

9 vi Περιεχόµενα Στάδιο ιαδικασίας Απόφασης Ενδεικτική Επεξεργασία Σηµάτων µε Χρήση του ΥΜΑΕ Σύνοψη Κεφαλαίου και Συµπεράσµατα Μοντελοποίηση και Στατιστική Ανάλυση του Αντιληπτικού Φαινοµένου της Αντήχησης Εισαγωγή Εσωτερική Αναπαράσταση Ηχητικών Σηµάτων Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης Προ-επισκόπηση Τράπεζα Φίλτρων Το Ψυχοακουστικό Μοντέλο Μοντελοποίηση Μονοκαλικών Παραµέτρων Μοντελοποίηση Ενδο-καναλικών Παραµέτρων ιαφορικές Ενδο-καναλικές Παράµετροι Στατιστική Ανάλυση Παραµέτρων Εξαρτώµενη του Συστήµατος Στατιστική Ανάλυση Εξαρτώµενη του Σήµατος Στατιστική Ανάλυση Μεθοδολογία Μετρήσεων και Αποτελέσµατα Μεθοδολογία Μετρήσεων Συνολικές Μεταβολές των Εξαρτώµενων του Σήµατος Παραµέτρων Μεταβολές των Μονοκαναλικών Παραµέτρων Μεταβολές των ιαφορικών Ενδό-καναλικών Παραµέτρων Στατιστικές Κατανοµές των Εξαρτώµενων του Σήµατος Παραµέτρων Σύνοψη Κεφαλαίου και Συµπεράσµατα Επεξεργασία Ηχητικών εδοµένων µε το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης Εισαγωγή Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα Μοντελοποίηση Εξαρτόµενων του Σήµατος Αλλοιώσεων λόγω Αντήχησης Περιγραφή Μοντέλου είκτης Επικάλυψης λόγω Αντήχησης Επεξεργασία Σήµατος µε Χρήση του είκτη Επικάλυψης λόγω Αντήχησης Μεθοδολογία Μετρήσεων και Αποτελέσµατα Μεθοδολογία Μετρήσεων είκτης Επικάλυψης λόγω Αντήχησης και Κριτήριο NMR 87

10 Περιεχόµενα vii Ελεγχόµενες Ακροάσεις Συµπεράσµατα Κωδικοποίηση Ηχητικών Σηµάτων Εισαγωγή Μη-οµοιόµορφος Κβαντισµός Οδηγούµενος από Ψυχοακουστικό Μοντέλο Προσδιορισµός Κατωφλίων και Κβαντισµός µε Χρήση του ΥΜΑΕ Μετρήσεις και Αποτελέσµατα Χαµηλής Ευκρίνειας Οµοιόµορφος Κβαντισµός Μεταβλητός Μη-οµοιόµορφος Κβαντισµός Αντικειµενική Εκτίµηση του Θορύβου Κβαντισµού Συµπεράσµατα Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων Εισαγωγή Το κριτήριο του λόγου Θορύβου προς Επικάλυψη Μοντελοποίηση Παραµορφώσεων µε Χρήση του ΥΜΑΕ Υλοποίηση και Πειράµατα Αποτελέσµατα Συµπεράσµατα Σύνοψη Κεφαλαίου και Συµπεράσµατα Συµπεράσµατα και Μελλοντικοί Στόχοι 115 Α Τεχνικό Παράρτηµα 121 Α.1 Προδιαγραφές του ϕίλτρου h[n] στο Στάδιο Συµπίεσης Εξαρτώµενης του Σήµατος και Τυπικές Τιµές των Παραµέτρων του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης Α.2 Φίλτρα Τύπου gammatone Α.3 Συσχέτιση των Στατιστικών των ιαφορικών Παραµέτρων και των Ακουστικών Παραµέτρων Α.4 Αλγοριθµική Παρουσίαση του Κριτηρίου Noise to Mask Ratio, (NMR) Α.5 Αποτελέσµατα Ελεγχόµενων Ακροάσεων και Συσχέτιση τους µε το Κριτήριο του Λόγου Θόρυβος προς Επικάλυψη για την Αξιολόγηση της Ψη- ϕιακής Ασύρµατης Μετάδοσης και Αναπαραγωγής Ηχητικών Σηµάτων µέσω Ασύρµατου Τοπικού ικτύου Α.6 Αποτελέσµατα Ελεγχόµενων Ακροάσεων και Συσχέτιση τους µε το Κριτή- ϱιο του Λόγου Θόρυβος προς Επικάλυψη για την Αξιολόγηση Μεθόδων Συγκάλυψης Σφαλµάτων

11 viii Περιεχόµενα Β Βιβλιογραφία 143 Γ ηµοσιευµένο Εργο 161 Γ.1 ηµοσιεύσεις σε ιεθνή Περιοδικά µε Πλήρη Κρίση Γ.2 ηµοσιεύσεις σε ιεθνή Συνέδρια µε Πλήρη Κρίση Γ.3 ηµοσιεύσεις σε ιεθνή Συνέδρια µε Κρίση Εκτεταµένης Περίληψης Γ.4 ηµοσιεύσεις σε Συνέδρια µε Κρίση Απλής Περίληψης Γ.5 Συµβολή σε ηµοσιευµένες Εργασίες Γ.6 Παραποµπές στις ηµοσιευµένες Εργασίες

12 Κατάλογος Σχηµάτων 2.1 Σχηµατικό διάγραµµα του εξωτερικού, µέσου και εσωτερικού αυτιού Προσοµοίωση της απόκρισης συχνότητας του εσωτερικού αυτιού µε χρήση Ϲωνοδιαβατών ϕίλτρων Το απόλυτο κατώφλι ακουστότητας συναρτήσει της συχνότητας Σχηµατικό διάγραµµα για την απεικόνιση και το χαρακτηρισµό χρονικών περιοχών για τις διάφορες περιπτώσεις της ακουστικής επικάλυψης [Zwicker (1999)] Τυπική ψυχοµετρική συνάρτηση που απεικονίζει τη µεταβολή της πι- ϑανότητας να χαρακτηρισθεί ένα σήµα ακουστό, σε συνάρτηση µε την ένταση του σήµατος [Buchholz (2003)] Σχηµατικό διάγραµµα για τις ενέργειες που πραγµατοποιούνται σε µια διαδικασία ανίχνευσης. Η απόφαση επηρεάζεται από δύο προσθετικές πηγές ϑορύβου : εξωτερικός ϑόρυβος n(t), εσωτερικός ϑόρυβος m(t) [Buchholz (2003)] Μοντελοποίηση του παρατηρητή (ϐλ. Σχήµα 2.6). Το ηχητικό σήµα διέρχεται από στάδιο επεξεργασίας και η έξοδος x συγκρίνεται µε ένα στατικό κατώφλι x T [Buchholz (2003)] (a) Μοντελοποίηση των διαφορετικών διαδροµών από την πηγή στις α- κουστικές εισόδους µε χρήση συναρτήσεων HRTF, (b) Συσχέτιση της γωνίας ϕ µε τις αποστάσεις d 1 και d 2 και τη δηµιουργία διαφορετικών χρόνων άφιξης. Επιπρόσθετα, η σκίαση του κεφαλιού επιφέρει διαφορές στις στάθµες των σηµάτων εισόδου ως συνάρτηση της γωνίας ϕ Πειραµατική διάταξη για την δηµιουργία σηµάτων για την αριστερή και δεξιά ακουστική είσοδο µε συγκεκριµένο ITD και ILD [Faller (2003)] (a) Καθορισµός της ϑέσης του ακουστικού γεγονότος στο επάνω µέρος της κεφαλής, όπως προκύπτει από τις παραµέτρους ILD και ITD (b) Το εύρος του ακουστικού γεγονότος αυξάνει (Περιοχές 1-3) καθώς η παράµετρος IC µειώνεται, έως ότου δύο διακριτά ακουστικά γενονότα να δηµιουργηθούν (Περιοχή 4) [Faller (2003)] (a) Ενα Ϲεύγος τιµών των παραµέτρων ICTD και ICLD καθορίζει τη ϑέση του ακουστικού γεγονότος ανάµεσα σε δύο ηχητικές πηγές, (b) Το εύρος του ακουστικού γεγονότος για ένα Ϲεύγος ηλεκτροακουστικών µετατροπεών, αυξάνεται (Περιοχές 1-3) καθώς η παράµετρος ICC για τα δυο ηχητικά σήµατα µειώνεται [Faller (2003)] ix

13 x Κατάλογος Σχηµάτων 2.12 οµικό διάγραµµα του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ) Απεικόνιση της ϐασικής αρχής λειτουργίας της Συµπίεσης Εξαρτώµενης του Σήµατος (ΣΕΣ) [Buchholz (2003)] Σχηµατικό διάγραµµα για την υλοποίηση του σταδίου ΣΕΣ µέσω ψηφιακής επεξεργασίας σήµατος. Τα σήµατα εισόδου-εξόδου υποδηλώνονται µε τους δείκτες x και y αντίστοιχα. Το σήµα n x (n) αναφέρεται σε χαµηλής στάθµης εσωτερικό ϑόρυβο [Buchholz (2003)] Απεικόνιση της επεξεργασίας στο στάδιο Α για τυπικό παράδειγµα µετά-επικάλυψης [Buchholz (2003)] Σήµατα εξόδου στα διάφορα στάδια επεξεργασίας του ΥΜΑΕ για ένα τυπικό σενάριο µετά - επικάλυψης. (a) Εξοδος s x (n) από το στάδιο προ -επεξεργασίας,(b)έξοδοςs y (n) από το στάδιο ΣΕΣ, (c) σήµα s op,x (n) που προσδιορίζει το σηµείο λειτουργίας, (d) έξοδος s z (n) από το στάδιο του ολοκληρωτή w(n) [Buchholz (2003)] Σχηµατική απεικόνιση ενσωµάτωσης του Υπολογιστικού Μοντέλου Α- κουστικής Επικάλυψης (ΥΜΑΕ) σε εφαρµογές επεξεργασίας ηχητικών δεδοµένων Σχηµατικό διάγραµµα για την εξαγωγή των αντιληπτικών παραµέτρων αντήχησης Απόκριση συχνότητας για τις πρώτες 15 συχνοτικές περιοχές της προτεινόµενης τράπεζας ϕίλτρων Απόκριση συχνότητας για τις πρώτες δυο συχνοτικές περιοχές της τράπεζας ϕίλτρων του MPEG-1 προτύπου κωδικοποίησης (a) Σήµα εισόδου s d (n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz, (b) Σήµα εξόδουs (n) από την προτεινόµενη τράπεζα αναλυσης-σύνθεσης, (c) Σήµα διαφοράς d(n), µετις τιµές στον κάθετο άξονα να είναι στην περιοχή [ 0.1, 0.1] (a) Σήµα εισόδου s d (n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz,(b)Σήµαεξόδουs (n) από την MPEG-1 τράπεζα αναλυσης-σύνθεσης, (c) Σήµα διαφοράς d(n), µετιςτιµέςστον κάθετο άξονα να είναι στην περιοχή [ 1, 1] (a) Σήµα εισόδου s(n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s = 44100Hz, (b) Σήµα εξόδου s (n) από τράπεζα ϐασιζόµενη στο ιακριτό Μετασχηµατισµό Fourier, (c) Σήµα διαφοράς d(n), µετιςτιµέςστονκάθετοάξοναναέχουντάξηµεγέθους

14 Κατάλογος Σχηµάτων xi 3.8 Σχηµατικό διάγραµµα του ΥΜΑΕ για την αντιληπτική περιγραφή του ϕαινοµένου της αντήχησης (a) Απόσπασµα σόλο πιάνο ως σήµα αναφοράς, (b) Αντίστοιχο ηχογρα- ϕηµένο σήµα στο χώρο R3 (c) µεταβολή της µέσης τιµής ανά συχνοτική περιοχή του Dk m (n), (d)2 αναπαράστασηµεϐάσητουμαε Μεταβολή του είκτη Επικάλυψης λόγωαντήχησης( ΕΑ)γιαηχητικό σήµα το οποίο έχει ηχογραφηθεί σε τρεις διαφορετικούς χώρους : (a) χώ- ϱος R3 (αθλητική εγκατάσταση), (b) χώρος R2 (αίθουσα διδασκαλίας), (c) χώρος R1 (εργαστήριο Οµάδας Ηχου και Ακουστικής). Η διακεκοµµένη γραµµή αναφέρεται στην µέση τιµή του ΕΑ για την κάθε περίπτωση και για το συνολικό χρονικό διάστηµα παρατήρησης Σχηµατικό διάγραµµα για το Στάδιο Απεικόνισης των Ενδοκαναλικών Παραµέτρων (ΣΑΕΠ). Ο δείκτης υποδηλώνειτηνπαρουσίααντήχησης στα ηχητικά σήµατα και τις αντίστοιχες ενδο-καναλικές παραµέτρους Απεικονίσεις διαφορικών ενδο-καναλικών παραµέτρων. (a) Συνάφεια, (b) ιαφορά στάθµης (db) και (c) Χρονική διαφορά (ms), για τους χώ- ϱους R1 και R3 και για ηχητικό σήµα αναφοράς «µουσική jazz». επισηµανθεί ότι περιοχές µε σκούρο χρώµα σχετίζονται µε µεγαλύτερες αλλοιώσεις λόγω αντήχησης (a) Ιστογράµµατα των Συναρτήσεων Πυκνότητας Πιθανότητας για τις Κρουστικές Αποκρίσεις διαφορετικών Χώρων, (b) Τιµές κύρτωσης για τις αντίστοιχες Κρουστικές Αποκρίσεις Απεικόνιση των Συναρτήσεων Πυκνότητας Πιθανότητας των Κρουστικών Αποκρίσεων για διαφορετικές ϑέσεις του χώρου ακρόασης R2 (Αίθουσα διδασκαλίας) Περιβάλλουσες σε λογαριθµική κλίµακα (µε χρήση χαµηλοδιαβατού ϕίλτρου) των Κρουστικών Απόκρισης των χώρων R1, R2 και R Ιστογράµµατα Συναρτήσεων Πυκνότητας Πιθανότητας για τον είκτη Ε- πικάλυψης λόγω Αντήχησης Dk,n m. (a)-(c) διαφορετικά ηχητικά σήµατα αναφοράς για τους χώρους R1, R2 και R3, (e)-(f) διαφορετικά ηχητικά σήµατα αναφοράς για τον χώρο R2 για 2 ϑέσεις (Θ1: απόσταση πηγής/δέκτη = 6.6m, Θ2: απόσταση πηγής/δέκτη = 2m) Ιστογράµµατα Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές ενδοκαναλικές παραµέτρους D c,l,t k,n,γιαηχητικόσήµααναφοράς«τζαζ» [(a), (c) και (e)] και «καστανιέτα» [(b), (d) και (f)] για τους χώρους ακρόασης R1, R2 και R Να

15 xii Κατάλογος Σχηµάτων 4.1 ιαγραµµατική απεικόνιση µοντελοποίησης και αξιολόγησης των εξαρτώµενων του σήµατος αλλοιώσεων λόγω αντήχησης Σχηµατικό διάγραµµα για το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) για την επεξεργασία δεδοµένων ενός καναλιού (π.χ., αριστερό κανάλι) (a) Σήµα αναφοράς s L (k, n) (για την συχνοτική περιοχή k =2), (b) Σήµα µε αντήχηση s L (k, n), (c) είκτηςεπικάλυψηςλόγωαντήχησηςdl m (k, n) Αναπαράσταση (στο πεδίο χρόνου συχνότητας) για τον είκτη Επικάλυψης λόγω Αντήχησης DL m (k, n) Γενικό διάγραµµα σύνθεσης για την δηµιουργία ηχητικών σηµάτων µε υποκειµενικά συµπιεσµένες παραµορφώσεις λόγω αντήχησης ιάγραµµα προσαρµογής για την µετά-επεξεργασία στερεοφωνικού η- χητικού σήµατος (για χάριν συντοµίας οι δείκτες χρόνου και συχνότητας έχουν παραληφθεί) είκτης Επικάλυψης λόγω Αντήχησης D m (k, n) και οι αντίστοιχες συναρτήσεις κέρδους G L (k, n) για τις συχνοτικές περιοχές της τράπεζας ϕίλτρων, (a) k =8,(b)k = Ηχητικό σήµα ηχογραφηµένο στο χώρο R4 και το αντίστοιχο σήµα που έχει προκύψει από την επεξεργασία µε χρήση του είκτη Επικάλυψης λόγω Αντήχησης (a) είκτης Επικάλυψης λόγω Αντήχησης,(b) Κριτήριο λόγου Θορύβου προς Επικάλυψη (NMR) για διαφορετικούς χώρους και ϑέσεις ακρόασης ιάταξη ελεγχόµενης ακρόασης Μέση τιµή των αποτελεσµάτων των ελεγχόµενων ακροάσεων για το σύνολο των ακροατών : (a) Υποκειµενική αξιολόγηση για την παρουσία αντήχησης στα ηχογραφηµένα (R) σήµατα. Για λόγους σύγκρισης, τα αποτελέσµατα του είκτη Επικάλυψης λόγω Αντήχησης του Σχήµατος 4.9(a) επαναλαµβάνονται µε συνεχείς γραµµές απόχρωσης γκρι. (b) Υ- ποκειµενική αξιολόγηση των επεξεργασµένων (PR) σηµάτων. Αρνητικές τιµές υποδηλώνουν την παρουσία υποκειµενικά λιγότερης αντήχησης Χρήση του ΥΜΑΕ για την υλοποίηση του µη-οµοιόµορφου κβαντιστή Σχηµατικό διάγραµµα για το προτεινόµενο στάδιο κβαντισµού Τυπικά κατώφλια T j (n, b i ) για κεντρική συχνότητα f j =3kHz και για διαφορετικές στάθµες χαµηλής ευκρίνειας οµοιόµορφου κβαντισµού Τυπικά συνολικά κατώφλια T m (n) για κεντρικές συχνότητες f j = 0.5, 1, 3, 5 khz

16 Κατάλογος Σχηµάτων xiii 4.16Μεταβολή της διαφοράς των εσωτερικών αναπαραστάσεων z (n) (ανάµεσα σε ένα µη-οµοιόµορφα κβαντισµένο σήµα και στο PCM σήµα αναφο- ϱάς) σε σχέση µε το κατώφλι T j (n) για 4 επαναλήψεις : (a) οµοιόµορφος κβαντισµός µε 4 bits ανά δείγµα (b) οµοιόµορφος κβαντισµός µε 5 bits ανά δείγµα (c) µη-οµοιόµορφος κβαντισµος µε µέση τιµή 5.3 bits ανά δείγµα (d) µη-οµοιόµορφος κβαντισµός µεµέσητιµή5.6bitsανάδείγµα Ακουστές παραµορφώσεις σε 10 4 ηχητικά δείγµατα µε χρήση της προτεινόµενης (στο πεδίο χρόνου-συχνότητας) παραµέτρου D j (n) (για f j = 3kHz) καιτουκριτηρίουnmr.γιατιςδυοπεριπτώσειςηµέσητιµή είναι 5.6 bit/δείγµα οµικό διάγραµµα του κριτηρίου του Λόγου Θορύβου προς Επικάλυψη (NMR) Υποκειµενική εκτίµηση παραµορφώσεων ιαδικασία ανάλυσης για τον προσδιορισµό της παραµέτρου D k (n) Γραφικό περιβάλλον του κεντρικού µενού της εφαρµογής Πειραµατική διαδικασία σύγκρισης µεθόδων Αξιολόγηση ηχητικής ποιότητας, µε ϐάση το προτεινόµενο κριτήριο D k (n), τωνυπό-εξέτασηκωδικοποιητώνγιαδιαφορετικούςϱυθµούςπα- ϱοχής δεδοµένων : (a) AAC (b) OGG (c) MP3 και (d) WMA Συγκριτική αξιολόγηση ηχητικής ποιότητας µε ϐάση το κριτήριο NMR και το προτεινόµενο κριτήριο D k (n), γιασήµααναφοράς(κρουστό)κωδικοποιηµένο κατά : (a) AAC (b) OGG (c) MP3 και (d) WMA Συγκριτική αξιολόγηση ηχητικής ποιότητας µε ϐάση το κριτήριο NMR και το προτεινόµενο κριτήριο D k (n), γιασήµααναφοράς(ανδρικήϕωνή) κωδικοποιηµένο κατά : (a) AAC (b) OGG (c) MP3 και (d) WMA Σύγκριση των αποτελεσµάτων NMR (πάνω) και ΥΜΑΕ (κάτω), µε χρήση της αναπτυχθείσας εφαρµογής στο προγραµµατιστικό περιβάλλον Matlab [MathWorks (2009)], για κωδικοποίηµένο κατά MPEG-1 Layer III ηχητικό σήµα (καστανιέτες) µε χρήση του ανοιχτού λογισµικού κωδικοποιήσης LAME [LAME (2008)] και ϱυθµό παροχής δεδοµένων 64 kbps. Ησυνεχήςγραµµήαντιστοιχείστηνυπολογιζόµενηµέσητιµήσεκάθε περίπτωση Σύγκριση των αποτελεσµάτων NMR (πάνω) και ΥΜΑΕ (κάτω), µε χρήση της αναπτυχθείσας εφαρµογής στο προγραµµατιστικό περιβάλλον Matlab [MathWorks (2009)], για κωδικοποιηµένο κατά OGG-Vorbis ηχητικό σήµα (ανδρική ϕωνή) και ϱυθµό παροχής δεδοµένων 224 kbps. Ησυνεχήςγραµµήαντιστοιχείστηνυπολογιζόµενηµέσητιµήσεκάθε περίπτωση

17 xiv Κατάλογος Σχηµάτων Α.1 (a) Κρουστική απόκριση και (b) απόκριση συχνότητας του ϕίλτρου h norm [n] Α.2 ιασπορά των διαφορικών παραµέτρων συναρτήσει του Χρόνου Αντήχησης (sec) για (a) ηχητικό σήµα αναφοράς «jazz» και (b) «castanets» Α.3 Βασικό διάγραµµα για την υλοποίηση του κριτηρίου NMR [Herre (1992)].126 Α.4 Υλοποίηση του κριτηρίου NMR µε ϐάση τα ϕάσµατα ισχύος [Herre (1992)].126 Α.5 Κατώφλι επικάλυψης και ϕάσµα του σήµατος εισόδου Α.6 Τιµές NMR για µετάδοση PCM µέσω WLAN: (a) CoDeS απενεργοποιη- µένο, (b) CoDeS ενεργοποιηµένο Α.7 Τιµές NMR για µετάδοση MPEG-1 Layer III µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο Α.8 Αποτελέσµατα ελεγχόµενων ακροάσεων για µετάδοση PCM µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο Α.9 Αποτελέσµατα ελεγχόµενων ακροάσεων για µετάδοση MPEG-1 Layer III µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο. 135 Α.10Τεχνικές συγκάλυψης σφαλµάτων : (a) αρχική ακολουθία, (b) χαµένο πακέτο που αντικαθίσταται µε κενό, (c) χαµένο πακέτο που αντικαθίσταται µε λευκό ϑόρυβο, (d) στρατηγική PR, (e) στρατηγική FPR Α.11Χρήση χρονικών παραθύρων στην τεχνική FPR Α.12Τιµές NMR για τις τεχνικές Silence Substitution (SS), Packet Repetition (PR) και White Noise Substitution (WNS) Α.13Τιµές NMR για την τεχνική FPR και N L = Α.14Τιµές NMR για την τεχνική FPR και N L = Α.15Αποτελέσµατα ελεγχόµενων ακροάσεων για τις τεχνικές SS, PR και WNS. 140 Α.16Αποτελέσµατα ελεγχόµενων ακροάσεων για την τεχνική FPR και για N L =50,

18 Κατάλογος Πινάκων 2.1 Χαρακτηριστικά µεγέθη των κρίσιµων περιοχών συχνότητας [Zwicker (1999), Moore (2003)] Τιµές της κύρτωσης των Κρουστικών Αποκρίσεων για δυο διαφορετικές ϑέσεις του χώρου R2 (Αίθουσα διδασκαλίας) Ιδιότητες των χώρων ακρόασης και των αντίστοιχων Κρουστικών Αποκρίσεων που χρησιµοποιήθηκαν στις µετρήσεις Τιµές του είκτη Επικάλυψης λόγω Αντήχησης Dk,n m για διαφορετικούς χώρους ακρόασης και διαφορετικά ηχητικά σήµατα Τιµές του είκτη Επικάλυψης λόγω Αντήχησης Dk,n m για διαφορετικές ϑέσεις στον χώρο ακρόασης R2 και διαφορετικά ηχητικά σήµατα Τιµές των διαφορικών ενδό-καναλικών παραµέτρων για διαφορετικούς χώρους ακρόασης και για σήµα αναφοράς σόλο πιάνο Παράθεση συµβόλων που χρησιµοποιούνται στο γενικό διάγραµµα επεξεργασίας του Σχήµατος Ιδιότητες των υπό-εξέταση κλειστών χώρωνκαιτωναντίστοιχωνκρουστικών Αποκρίσεων για διαφορετικές ϑέσεις ακρόασης Κλίµακα σύγκρισης 7-ϐαθµίδων για την διαδικασία αξιολόγησης ηχητικών σηµάτων µε ελεγχόµενες ακροάσεις Αποτελέσµατα τυπικών τιµών ανάθεσης bit (για 4 επαναλήψεις) Αποτελέσµατα NMR για µη-οµοιόµορφα κβαντισµένα ηχητικά σήµατα στα 6.7 bits/δείγµα (µέση τιµή) και για τα αντίστοιχα οµοιόµορφα κβαντισµένα 8-bit PCM σήµατα ιαδεδοµένοι τύποι κωδικοποίησης και αντίστοιχοι ϱυθµοί παροχής δεδοµένων Α.1 Τυπικές τιµές των παραµέτρων που χρησιµοποιούνται στο ΥΜΑΕ Α.2 Μέση τιµή µ και διασπορά σ 2 των Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές παραµέτρους για ηχητικό σήµα αναφοράς «jazz» για τους χώρους R1, R2 και R Α.3 Μέση τιµή µ και διασπορά σ 2 των Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές παραµέτρους για ηχητικό σήµα αναφοράς «castanets» για τους χώρους R1, R2 και R xv

19 xvi Κατάλογος Πινάκων Α.4 Κατώτερα όρια και εύρη των παραµέτρων l(m) και u(m) αντίστοιχα, για τις κρίσιµες περιοχές και για συχνότητα δειγµατοληψίας f s =44100Hz. 129 Α.5 Τυπικές συναρτήσεις παραθύρου στην τεχνική FPR (N L =50και 100 δείγµατα)

20 Συντοµεύσεις AAC ASR BCC CAMM D/R DFT DirAC DSP DTD FFT IC ICC ICLD ICMM ICTD IIR ILD ITD kbps MPEG NMR PAQM PCM PDF RIR RMI RT RTF SDC WMA Advanced Audio Coding Automatic Speech Recognition Binaural Cue Coding Computational Auditory Masking Model Direct to Reverberant Ratio (db) Discrete Fourier Transform Directional Audio Coding Digital Signal Processing Decision Threshold Device Fast Fourier Transform Inter-aural Coherence Inter-channel Coherence Inter-channel Level Difference (db) Inter-channel Mapping Module Inter-channel Time Difference (ms) Infinite Impulse Response Inter-aural Level Difference (db) Inter-aural Time Difference (db) kilo bit per second Moving Pictures Experts Group Noise to Mask Ratio Perceptual Audio Quality Measure Pulse Code Modulation Probability Density Function Room Impulse Response Reverberation Masking Index Reverberation Time (sec) Room Transfer Function Signal Dependent Compression Windows Media Audio ΕΑ ΣΑΕΠ ΣΠΠ ΥΜΑΕ είκτης Επικάλυψης λόγω Αντήχησης Στάδιο Απεικόνισης Ενδο-καναλικών Παραµέτρων Συνάρτηση Πυκνότητας Πιθανότητας Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης

21 Σηµειογραφία Τελεστής Συνέλιξης f s Συχνότητα ειγµατοληψίας n είκτης ιακριτού Χρόνου N Αριθµός ειγµάτων k είκτης Συχνοτικής Περιοχής K Αριθµός Συχνοτικών Περιοχών x(n) Σήµα Εισόδου z(n) Εσωτερική Αναπαράσταση Σήµατος Εισόδου ˆx(n) Σήµα µε Αντήχηση Dk,n m είκτης Επικάλυψης λόγω Αντήχησης για την Περιοχή k L TQ Απόλυτο Κατώφλι Ακουστότητας a 1, a 2 Συντελεστές Κλίµακας d 1, d 2 Χρονικές Καθυστερήσεις f g Συχνότητα Αποκοπής Ψ(.) Μη-γραµµική Στατική Συνάρτηση h norm [n] Γραµµικό Φίλτρο h i (n) Κρουστική Απόκριση Χώρου p x R(k, n), p x L(k, n) Βραχύχρονοι Υπολογισµοί Ενέργειας L, R Αριστερό- εξιό Ηχητικό Κανάλι Dk,n l, Dc k,n, Dt k,n ιαφορικές Ενδο-καναλικές Παράµετροι σ Τυπική Απόκλιση µ Μέση Τιµή K h Κύρτωση α Παράµετρος Μορφής β Παράµετρος Κλίµακας Γ(.) Συνάρτηση Γάµµα d l, d r Μέγιστη Υποκειµενική Παραµόρφωση ανά Ηχητικό Κανάλι Q bi [.] Χαµηλής Ευκρίνειας Κβαντιστής ˆb(n) Πίνακας Ανάθεσης bit b m(n) Μέγιστη Τιµή Βέλτιστου Κβαντισµού T k (n) Συνολικό Κατώφλι Επικάλυψης για την Περιοχή k ˆx k,est 2Νx1 ιάνυσµα Εκτίµησης Στερεοφωνικού Σήµατος D m 2ΚxΝ Πίνακας εικτών Επικάλυψης λόγω Αντήχησης T 2ΚxΝ Πίνακας Στατικών Κατωφλίων O ΝxΝ Πίνακας Μηδενικών Στοιχείων G k,est 2Νx2Ν ιαγώνιος Πίνακας Εκτίµησης Υποκειµενικών Συντελεστών Βάρους

22 Κεφάλαιο 1 Εισαγωγή 1.1 Γενικά Τις τελευταίες δεκαετίες, τα αποκαλούµενα ως ψυχοακουστικά (psychoacoustic) ή αντιληπτικά (perceptual) µοντέλα [Zölzer (1998), Zwicker (1999), Moore (1995, 2003)] έχουν ενσωµατωθεί σε διάφορες εφαρµογές ήχου και οµιλίας και λειτουργούν συµπληρωµατικά στις καθιερωµένες µεθόδους ψηφιακής επεξεργασίας σήµατος. Τα πα- ϱαπάνω µοντέλα περιγράφουν ή και προσοµοιώνουν διαφόρους µηχανισµούς και λειτουργίες του ανθρώπινου ακουστικού συστήµατος και ερµηνεύουν διάφορα ακουστικά ϕαινόµενα, ενώ είναι ιδιαιτέρως χρήσιµα σε εφαρµογές όπως η κωδικοποίηση ηχητικών σηµάτων και οµιλίας [Breebaart (2007), van de Par (2008), Plasberg (2007), Brandenburg (1994), Bosi (1997)], η πολυκαναλική αναπαραγωγή, καταγραφή και κωδικοποίηση ηχητικών δεδοµένων [Breebaart (2007), Baumgarte (2003), Faller (2003, 2006), Pulkki (2007)], η ενίσχυση σηµάτων οµιλίας και ήχου [Tsoukalas (1997a, 1997b), Virag (1999)], καθώς και η αναγνώριση οµιλίας σε αντίξοες συν- ϑήκες [Sheikhzadeh (1998)]. Είναι χρήσιµο να επισηµανθεί, ότι η ϑεµελίωση της επιστήµης της ψυχοακουστικής (psychoacoustics) και η δυνατότητα εξαγωγής των αντίστοιχων αντιληπτικών µοντέλων, ϐασίστηκε σε µεγάλο ϐαθµό στις ερευνητικές εργασίες των G. von Bekesy ( , ϐραβείο Nobel 1961), E. Zwicker ( ), M. Schroeder ( ), ενώ ιδιαίτερα σηµαντική είναι η σχετικά πρόσφατη ερευνητική δραστηριότητα από τον J. Blauert στην επιστηµονική περιοχή της χωρικής (spatial) ή αµφιωτικής (binaural) ακουστικής. Επιπρόσθετα, στην εργασία του M. Schroeder [Schroeder (1979)], περιγράφεται για πρώτη ϕορά ένα ϐελτιστοποιηµένο ψηφιακό σύστηµα κωδικοποίησης οµιλίας ϐασισµένο στο ϕαινόµενο επικάλυψης (masking effect) που επιτελείται από το ανθρώπινο ακουστικού συστήµα, η οποία αποτέλεσε ουσιαστικά πρόδροµο και σηµείο αναφοράς για µελλοντικές ερευνητικές εργασίες, µε ενδεικτικές από αυτές να έχουν αναφερθεί παραπάνω. 1.2 Αντικείµενο της ιατριβής Είναι αξιοσηµείωτο το γεγονός οτι οι παραπάνω εργασίες προσέγγισαν επιφανειακά ή δεν σηµείωσαν ιδιαίτερη επιτυχία σχετικά µε την περιγραφή ή και την αντιµετώπιση 1

23 2 Κεφάλαιο 1 του αντιληπτικού ϕαινοµένου της αντήχησης σε χώρους ακρόασης. Θα πρέπει να επισηµανθεί ωστόσο, ότι η αντίληψη του ήχου σε κλειστούς χώρους, όπου το ηχητικό πεδίο περιέχει σηµαντικό αριθµό ανακλάσεων, σχετίζεται µε πολύπλοκους µηχανισµούς του ακουστικού συστήµατος, όπως έχει αποδειχθεί από τα αποτελέσµατα ελεγχόµενων ακροάσεων και υποκειµενικών αξιολογήσεων [Blauert (1997), Toole (2008)]. Συνεπώς, το αντιληπτικό ϕαινόµενο της αντήχησης σε κλειστούς χώρους, το οποίο αποτελεί µια πολύπλοκη διαδικασία για να περιγραφεί αποκλειστικά και επακριβώς από µεθόδους ψηφιακής επεξεργασίας σήµατος και σχετίζεται µε ανώτερες αντιληπτικές διεργασίες, το καθιστά ένα ϕυσικό υποψήφιο για την εξέλιξη αντίστοιχων αντιληπτικών µοντέλων ή µεθοδολογιών. Η παρούσα διατριβή σχετίζεται µε την υλοποίηση αντίστοιχων µεθοδολογιών για την ϐέλτιστη στερεοφωνική αναπαραγωγή ηχητικών ση- µάτων σε χώρους µε αντήχηση. Ειδικότερα, το αντικείµενο της διατριβής αυτής, όπως προσδιορίζεται άλλωστε και από τον τίτλο της, είναι η µελέτη, µοντελοποίηση και επεξεργασία ηχητικών σηµάτων, µε τη χρήση ενός υπολογιστικού αντιληπτικού µοντέλου (computational auditory model), για την αναπαραγωγή τους σε κλειστούς χώρους µε αντήχηση. Επιπλέον, στα πλαίσια των ερευνητικών κατευθύνσεων της παρούσας εργασίας και σχετικά µε το τµήµα της επεξεργασίας ηχητικών σηµάτων, υλοποιήθηκε ένας µη-οµοιόµορφος κβαντιστής και αναπτύχθηκε ένα κριτήριο αξιολόγησης τους, αξιοποιώντας τη ϑεωρητική µεθοδολογία ανάλυσης των εσωτερικών αναπαραστάσεων των σηµάτων εξόδου από το υπολογιστικό αντιληπτικό µοντέλο. 1.3 Βασικές Εννοιες Στις παραγράφους που ακολουθούν επισηµαίνονται επιγραµµατικά ενδεικτικές έννοιες, λειτουργίες και διαδικασίες που σχετίζονται άµεσα ή έµµεσα µε το ερευνητικό ϑέµα της παρούσας διατριβής ή αποτέλεσαν σηµείο αναφοράς και αντικείµενο για πε- ϱαιτέρω ανάλυση και επεξεργασία στα πλαίσια των ερευνητικών στόχων της διατριβής Ενδεικτικές Λειτουργίες του Ακουστικού Συστήµατος Τα εισερχόµενα στο αυτί ακουστικά κύµατα προκαλούν δονήσεις στο ακουστικό τύµπανο που µεταδίδονται στη ϐασική µεµβράνη, η οποία ϐρίσκεται στο εσωτερικό αυτί και συντονίζεται σε διαφορετικό σηµείο ανάλογα µε την συχνότητα του διεγείροντος ακουστικού κύµατος. Οι ταλαντώσεις και τα τοπικά µέγιστα της ϐασικής µεµβράνης ϑέτουν σε διέγερση ένα µεγάλο αριθµό ευαίσθητων τριχοειδών κυττάρων, που ϐρίσκονται τοποθετηµένα κατά µήκος της και οι ηλεκτρικοί παλµοί που παράγονται από τα κύτταρα αυτά µεταδίδονται στα ανώτερα ακουστικά κέντρα από ένα περίπλοκο µη-γραµµικό δίκτυο νευρικών ινών. Η συχνοτική ανάλυση που επιτελείται από το

24 1.3. Βασικές Εννοιες 3 παραπάνω σύστηµα αντιστοιχεί σε ένα σύστηµα παράλληλων και επικαλυπτόµενων Ϲωνοδιαβατών ϕίλτρων [Zwicker (1980, 1999)]. Οπως έχει επισηµανθεί από σχετικά πειράµατα [Zwicker (1980, 1999), Moore (2003)], κάθε ένα από αυτά τα ϕίλτρα έχει εύρος Ϲώνης πάνω από ένα τρίτο της οκτάβας της κεντρικής του συχνότητας και κλίση περισσότερο απότοµη για την κάτω από την κεντρική συχνότητα περιοχή. Επιπλέον, για τονικά σήµατα ή αρµονικές στην περιοχή των 4-5 khz, η συχνοτική επιλεκτικότητα του ακουστικού συστήµατος µπορεί να είναι στενότερη από αυτήν του ενός τρίτου της οκτάβας ϕίλτρου [Moore (1995)]. Επίσης, έχει καταγραφεί ένας χρόνος ολοκλήρωσης της τάξης των 150ms, κάτω από τον οποίο πολύ ϐραχείς και υψηλής στάθµης ήχοι, µε µικρότερο από το ένα τρίτο τηςοκτάβαςεύροςϲώνηςδενδιαχωρίζονται από µεγαλύτερης διάρκειας και χαµηλότερης στάθµης ήχους της ίδιας ενέργειας και συχνοτικού περιεχοµένου [Zwicker (1999)]. Η ιδιάζουσα χρονοσυχνοτική ανάλυση του αυτιού οδηγεί και σε ϕαινόµενα επικάλυψης (masking effects), κατά τα οποία παραµορφώσεις και ϑόρυβοι είναι δυνατό να επικαλυφθούν και να µην είναι ακουστοί, από ισχυρότερα σήµατα της ίδιας ή χαµηλότερης Ϲώνης συχνοτήτων, όταν διεγείρουν το σύστηµα ακοής για το ίδιο περίπου χρονικό διάστηµα [Zwicker (1999), Moore (1995, 2003)]. Θα πρέπει να επισηµανθεί οτι σε διάφορα ακουστικά ϕαινό- µενα, όπως ο προσδιορισµός τη ϑέσης στο χώρο µιας πηγής καθώς και η συµπίεση καθυστερούµενων ανακλάσεων, σχετίζονται µε περισσότερο αντιληπτικές διεργασίες όπως το ϕαινόµενο της προπορείας (precedence effect). Παρόλο που στο ϕαινόµενο της προπορείας, τα απευθείας σήµατα κυριαρχούν σε επακόλουθες ανακλάσεις, οσυγκεκριµένοςµηχανισµόςδενµπορείναϑεωρηθείαυστηράωςένατυπικόϕαινόµενο επικάλυψης σε σήµατα που έχουν αφιχθεί µε σχετική καθυστέρηση [Toole (2008)]. Ωστόσο, ο µηχανισµός της ακουστικής επικάλυψης είναι ιδιαίτερα σηµαντικός σε διάφορες ψηφιακές ηχητικές εφαρµογές, όπως για παράδειγµα στο σύνολο των διαδεδοµένων προτύπων ηχητικής κωδικοποίησης ηχητικών δεδοµένων [ISO/IEC (1993, 1997, 1999, 2004)], όπου έχουν ενσωµατωθεί ψυχοακουστικά µοντέλα που προσοµοιώνουν την παραπάνω λειτουργία, εξασφαλίζοντας υψηλή ηχητική ποιότητα σε αρκετά χαµηλούς ϱυθµούς παροχής ψηφιακών δεδοµένων Αντήχηση και Χρόνος Αντήχησης Ο όρος αντήχηση (reverberation) περιγράφει την παρουσία του ήχου σε ένα κλειστό χώρο λόγω πολλαπλών ανακλάσεων και ενώ η εκποµπή της αντίστοιχης ηχητικής πηγής έχει παύσει. Αντίστοιχα, ο χρόνος αντήχησης (Reverberation Time) αναφέρεται στο χρονικό διάστηµα (σε sec) που µεσολαβεί, ώστε η ένεργεια του ήχου να µειωθεί κατά 60 db από τη χρονική στιγµή που έχει παύσει η εκποµπή της ηχητικής πηγής [Kuttruff (1979)]. Στην ϐιβλιογραφία, ο χρόνος αντήχησης αναφέρεται ως RT ή RT 60.

25 4 Κεφάλαιο 1 Συνεπώς, όσο περισσότερο αντήχηση περιέχει ένας κλειστός χώρος, τόσο µεγαλύτερος είναι ο χρόνος αντήχησης Υπολογιστικά Αντιληπτικά Μοντέλα Το σύνολο των ψυχοακουστικών µοντέλων που αναφέρεται στην διεθνή ϐιβλιογραφία µπορεί να διαχωρισθεί σε τρεις ϐασικές κατηγορίες : (α) τα καθαρά αναλυτικά, (ϐ) τα ϐασιζόµενα στην κυµατοµορφή του σήµατος και (γ) στα επικεντρωµένα σε εφαρµογές µοντέλα. Τα µοντέλα της πρώτης κατηγορίας ϐασίζονται σε µακροσκοπικά στατιστικά µεγέθη του υπό-εξέταση σήµατος και δεν µπορούν να επεκταθούν για οποιοδήποτε αυθαίρετο σήµα. Ωστόσο, παρέχουν ένα ισχυρό πλαίσιο για την κατανόηση ή επι- ϐεβαίωση αρκετών δεδοµένων ακουστικής επικάλυψης από τη σχετική ϐιβλιογραφία, ασχέτως από τις λεπτοµέρειες υλοποίησης [Patterson (1976), Zwicker (1999)]. Τα σχετικά µε τη δεύτερη κατηγορία µοντέλα, λαµβάνουν αυστηρά υπόψη τις κυµατο- µορφές του σήµατος εισόδου και κατ επέκταση µπορούν να επεξεργαστούν οποιοδήποτε σήµα εισόδου. Επιπλέον, τα συγκεκριµένα µοντέλα συχνά παρέχουν ως έξοδο τις εσωτερικές αναπαραστάσεις (internal representations) των σηµάτων εισόδου [Dau (1996a, 1996b), Plack (1998), Buchholz (2004)]. Οι υλοποιήσεις της τρίτης κατηγο- ϱίας, οι οποίες εν γένει προέρχονται από αναλυτικά ή ϐασιζόµενα στην κυµατοµορφή µοντέλα, αλλά εν αντιθέσει µε αυτά προορίζονται κυρίως για ψηφιακές ηχητικές εφαρ- µογές, χωρίς να είναι σε µεγάλο ϐαθµό ψυχοακουστικά ακριβή. Αντιπροσωπευτικό παράδειγµα της κατηγορίας αυτής είναι το αντιληπτικό µοντέλο (perceptual model) που χρησιµοποιείται εκτενώς στα σχήµατα κωδικοποίησης που καθορίζονται από το ISO-MPEG πρότυπο [ISO/IEC (1993, 1997, 1999, 2004)] και το οποίο ϐασίστηκε σε µεγάλο ϐαθµό στις αναλυτικές περιγραφές των E. Zwicker και H. Fastl [Zwicker (1999)]. Ωστόσο, το συγκεκριµένο αντιληπτικό µοντέλο χρησιµοποιεί µια απλοποιη- µένη περιγραφή για το ϕαινόµενο της επικάλυψης [Zolzer (1998)] και σε αντίθεση µε το µοντέλο ακουστικής επικάλυψης [Buchholz (2004a,b)] στο οποίο ϐασίστηκε η πα- ϱούσα διατριβή, δεν αποσκοπεί στην περιγραφή των κύριων ακουστικών µηχανισµών. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (Computational Auditory Masking Model, CAMM) που χρησιµοποιήθηκε στην παρούσα διατριβή εντάσσεται στην δεύτερη κατηγορία, των ϐασιζόµενων στην κυµατοµορφή µοντέλων. Ο όρος «υπολογιστικό» αναφέρεται στην απλή, αναλυτική και ευέλικτη δοµή του µοντέλου, όπου µε τη χρήση ενός σχετικά περιορισµένου αριθµού παραµέτρων είναι εφικτός ο υπολογισµός των κατωφλίων επικάλυψης (µε τη ϐοήθεια κατάλληλων εξισώσεων [Buchholz (2003)] και κατ επέκταση η περιγραφή σχετικών ακουστικών ϕαινοµένων όπως αυτά αναφέ- ϱονται στην σχετική ϐιβλιογραφία. Επιπλέον, ο παραπάνω προσδιορισµός σχετίζεται µε την υπολογιστική ευλιξία για την υλοποίηση του σταδίου Συµπίεσης Εξαρτώµενου

26 1.3. Βασικές Εννοιες 5 του Σήµατος (µια από τις υποθέσεις στις οποίες στηρίζεται το συγκεκριµένο µοντέλο, ϐλ. Κεφάλαιο 2) µετηϐοήθειακατάλληλωντεχνικώνψηφιακήςεπεξεργασίας σήµατος. Θα πρέπει να επισηµανθούν ωστόσο και οι δυνατότητες του σχετικά µε την επιτυχή ενσωµάτωση του σε εφαρµογές επεξεργασίας ηχητικών δεδοµένων, όπως άλλωστε ϑα παρουσιασθεί στα αντίστοιχα κεφάλαια της παρούσας διατριβής Χωρική ή Αµφιωτική Ακουστική Αντίληψη Ηαντίληψητωνακουστικώνσηµάτωνσεκλειστούςχώρουςµεαντήχησηκαιιδίωςκατά την αναπαραγωγή τους από στερεοφωνικές ή πολυκαναλικές ηχητικές πηγές, είναι στενά συνδεδέµενη µε την χωρική ακουστική αντίληψη η οποία σχετίζεται µε την ϑέση του ακουστικού γεγονότος καθώς και το ϕαινόµενο προπορείας (precedence effect ή Haas effect) [Blauert (1997), Toole (2006), Djelani (2001), Litovski (1999)]. Οπως είναι επίσης γνωστό η χωρική ακουστική αντίληψη σε µεγάλο ϐαθµό καθορίζεται α- πό τις ενδό-ωτικές (inter-aural) διαφορές των σηµάτων στις ακουστικές εισόδους του ακροατή (ενδο-ωτικές παράµετροι) και σε κάθε κλειστό χώρο, ανακλάσεις από διαφο- ϱετικές κατευθύνσεις επηρεάζουν τις παραµέτρους αυτές. Ωστόσο, σε αρκετές εφαρ- µογές ψηφιακού ήχου, όπως στην πολυκαναλική κωδικοποίηση ηχητικών σηµάτων [Faller (2006), Avendano (2002)], κωδικοποίηση αµφιωτικών παραµέτρων (Binaural Cue Coding, BCC) [Baumgarte (2003), Faller (2003)], κατευθυντική κωδικοποίηση (Directional Audio coding, DiRaC) [Pulkki (2007)] και παραµετρική κωδικοποίηση στερεοφωνικών ηχητικών σηµάτων [Breebaart (2005)] έχει αποδειχθεί ότι για την τυπική αναπαραγωγή στερεοφωνικών σηµάτων σε κλειστούς χώρους, οι ενδο-καναλικές (inter-channel) παράµετροι ενδυνάµει περιγράφουν αποτελεσµατικά τις ιδιότητες ενός ακουστικού γεγονότος όπως το αντιλαµβάνεται ένας ακροατής. Οπως έχει περιγραφεί ενδεικτικά στην εργασία [Faller (2006)], η χρήση διαφορετικών ενδο-καναλικών πα- ϱαµέτρων για την αναπαράσταση των ιδιοτήτων ενός ακουστικού γεγονότος, µπορεί να ερµηνευθεί ώς : «...το ϕαινόµενο summing localization [Blauert (1997)] υπαγορεύει ότι οι αντιληπτικά σχετικές ενδο-καναλικές διαφορές για ένα Ϲεύγος ηλεκτροακουστικών µετατροπέων είναι οι ενδο-καναλικές χρονικές διαφορές (inter-channel time differences, ICTD) και οι ενδο-καναλικές διαφορές στάθµης (inter-channel level differences, ICLD). Οι παράµετροι ICTD και ICLD µπορούν να συσχετισθούν µε το αντιληπτικό ϕαινόµενο του προσδιορισµού της ϑέσης του ακουστικού γεγονότος». Άλλες ιδιότητες ενός ακουστικού γεγονότος, όπως το apparent source width (asw) [Okano (1998)] και το listener envelopment [Blauert (1986), Griensinger (1992, 1999), Bradley (1994), Kurozumi (1983)] µπορούν να συσχετιστούν µε τον ενδο-ωτικό συντελεστή ετεροσυσχέτισης (inter-aural cross-correlation coefficient, IACC) [Okano (1998), Faller (2006), Bradley (1994)]. Για ένα Ϲεύγος ηλεκτροακουστικών µετατρο-

27 6 Κεφάλαιο 1 πέων (ηχεία) ο συντελεστής IACC συχνά σχετίζεται µε την ενδο-καναλική συνάφεια (inter-channel coherence, ICC) [Faller (2006), Kurozumi (1983)]. Συνεπώς, οι ενδοκαναλικές παράµετροι ICLD, ICTD και ICC που χρησιµοποιήθηκαν στην παρούσα διατριβή, αποτελούν παρόµοιες µετρήσεις µε τις διαδεδοµένες ενδο-ωτικές παραµέτρους ITD, ILD και IC, και υπολογίζονται ανάµεσα σε διακριτά ηχητικά κανάλια και όχι στις ακουστικές εισόδους του ακροατή. 1.4 Καθορισµός Προβλήµατος και Πρόσφατες Ερευνητικές Προσεγγίσεις Αντιληπτική Προσέγγιση Φαινοµένου Αντήχησης Οπως είναι γνωστό, η αντήχηση σε ακουστικούς χώρους περιγράφεται από την γραµ- µική και χρονικά αµετάβλητη κρουστική απόκριση του συστήµατος σε κανονικές συν- ϑήκες. Η παραπάνω προσέγγιση έχει οριοθετήσει µια µεθοδολογία εξαρτώµενη του συστήµατος (system-dependent) για την µοντελοποίηση της αναπαραγωγής ακουστικών σηµάτων σε κλειστούς χώρους, ϐασιζόµενοι σε χαρακτηριστικά που είναι σηµαντικά από τη σκοπιά της επεξεργασίας σήµατος [Schroeder (1961), Atal (1966), Wyber (1974)]. Χρησιµοποιώντας ϐασικές αρχές της ψυχοακουστικής [Blauert (1997)], η αντήχηση χώρου (και οι αντίστοιχες κρουστικές αποκρίσεις RIR), αναλύεται σε τρια διακριτά τµήµατα : (α) το ακουστικό σήµα το οποίο κατευθύνεται απευθείας από την πηγή στον δέκτη (direct sound), (ϐ) οι πρώιµες ανακλάσεις οι οποίες καταφθάνουν µε καθυστέρηση µέχρι 80ms µετά το απευθείας σήµα και είναι σηµαντικές για την αντίληψη της απόστασης και του χώρου [Blauert (1997), Okano (1998), Blauert (1986)], (γ) και το εκθετικά αποσβένων στοχαστικό τµήµα ( «ουρά» της αντήχησης) µε την πυκνότητα των ανακλάσεων (echo density) να αυξάνει µε το τετράγωνο του χρόνου. Με ϐάση την παραπάνω διακριτοποίηση, είναι σύνηθης πρακτική για τους µηχανικούς ήχου να χρησιµοποιούν ευρέως διαδεδοµένες ενεργειακές ακουστικές παραµέτρους όπως ο χρόνος αντήχησης (reverberation time, RT 60 ), η ευκρίνεια (clarity, C 80 )καιη διαύγεια (definition, D 50 ), ϐασιζόµενες στην ανάλυση της κρουστικής απόκρισης χώ- ϱων. Ωστόσο, οι συγκεκριµένες παράµετροι παρέχουν µια περιορισµένη περιγραφή των αντιληπτικών ϕαινοµένων (perceptual effects) που σχετίζονται µε την αναπαραγωγή ηχητικών σηµάτων σε κλειστούς χώρους ακρόασης. Επιπλέον, και λόγω των ενγενών περιορισµών τους, εµφανίζονται ως µη-επαρκώς σθεναροί σε προχωρηµένες µεθόδους ψηφιακής επεξεργασίας σήµατος για εφαρµογές ελέγχου ηχητικού πεδίου (sound field control), διόρθωσης χώρου (room correction) ή µείωσης αντήχησης (reverberation reduction) [Allen (1977), Miyoshi (1988), Haneda (1997), Karjalainen (2005), Flanagan (1985), Mourjopoulos (1985)]. Γενικά, το ϕαινόµενο της αντήχη-

28 1.4. Καθορισµός Προβλήµατος και Πρόσφατες Ερευνητικές Προσεγγίσεις 7 σης αποτελεί µια εξαιρετικά πολυπλοκή αντιληπτική διαδικασία που εξαρτάται από χρονό-συχνοτικές, χωρικές (ϑέση πηγής- δέκτη) και εξαρτώµενες του σήµατος πα- ϱαµέτρους, όπως το ϕασµατικό περιεχόµενο, η στάθµη, η χρονική διάρκεια και το onset-offset της κυµατοµορφής [Bolt (1949), Buchholz (2001), Toole (2006), Djelani (2001)]. Συνεπώς, µια εναλλακτική προσέγγιση για την περιγραφή της αντήχησης λαµβάνοντας ψυχοακουστικές παραµέτρους είναι εφικτή, στηριζόµενη στο γεγονός ο- τι ο άνθρωπος ως ακροατής δεν αντιλαµβάνεται όλη την λεπτοµερή πληροφορία που καταγράφεται σε µια κρουστική απόκριση χώρου. Μια µεθοδολογία, η οποία ενσωµατώνει ένα αντίστοιχο υπολογιστικό αντιληπτικό µηχανισµό, έχει χρησιµοποιηθεί στο πρόσφατο παρελθόν [Buchholz (2001)], ϐασιζόµενη στη διαδικασία της επικάλυψης ανάκλασης (reflection masking), όπου ένα σηµαντικός αριθµός από ανακλάσεις επικαλύπτεται από το απ ευθείας σήµα ή από άλλες ανακλάσεις και κατ επέκταση είναι µη-ακουστές Προτεινόµενο πλαίσιο εργασίας Σε µια προσπάθεια για την περιγραφή τέτοιων αντιληπτικών µηχανισµών, είναι εµ- ϕανής η χρησιµότητα εξαγωγής 2 χαρτών (maps), οι οποίοι αντιστοιχούν σε κάθε µια αντιληπτική παράµετρο. Στο σύνολο των περιπτώσεων, οι παραπάνω χάρτες α- ποτελούν απεικονίσεις των αντιληπτικών παραµέτρων στο πεδίο χρόνου-συχνότητας κατ αντιστοιχία µε τις αναπαραστάσεις του ϕασµατογραφήµατος spectrogram. Στο σηµείο αυτό και για τις µεθόδους εκτίµησης αντίστοιχων χωρικών ακουστικών πα- ϱαµέτρων, είναι χρήσιµο να επισηµανθεί προγενέστερη ερευνητική εργασία για την δηµιουργία απεικονίσεων αµφιωτικής δραστηριότητας (binaural activity maps), µε τη ϐοήθεια ενός αµφιωτικού υπολογιστικού µοντέλου και µε είσοδο αµφιωτικές κρουστικές αποκρίσεις οι οποίες καταγράφηκαν σε κλειστούς χώρους ακρόασης µε την χρήση ϐοηθητικής κεφαλής (dummy head) [Blauert (1986, 1997)]. Οι παραπάνω απεικονίσεις συνδιάζονται σε ένα επόµενο στάδιο µε την χρήση ενός temporal-cluster αλγορίθµου ασαφούς λογικής (fuzzy logic) [Lehn (2000)]. Επακόλουθες ερευνητικές εργασίες από την επιστηµονική κοινότητα της Αναγνώρισης Οµιλίας έχουν ενσωµατώσει επιπρόσθετους αντιληπτικούς µηχανισµούς επεξεργασίας σε παρόµοιες αναπαραστάσεις. Για παράδειγµα, αµφιωτικοί µηχανισµοί στους ανθρώπους προσαρµόζονται κατάλληλα και συµβάλλουν, µέχρι κάποιο ϐαθµό, στην συµπίεση ή και επικάλυψη κάποιων ανακλάσεων. Μια µεθοδολογία για την υπολογιστικη ανάλυση ακουστικών γεγονότων έχει χρησιµοποιηθεί από τους Harding και Brown [Harding (2006), Brown (2006)] και η οποία εκµεταλλεύεται αµφιωτικούς µηχανισµούς για την ϐελτίωση της απόδοσης συστηµάτων αυτόµατης αναγνώρισης οµιλίας σε περιβάλλον µε αντήχηση και παρουσία πολλών πηγών (multi-source).

29 8 Κεφάλαιο 1 Οι συγκεκριµένες µεθοδολογίες, ϐασισµένες σε αντιληπτικά κριτήρια για την ανάλυση και επεξεργασία ηχητικών σηµάτων που έχουν διαµορφωθεί από την παρουσία αντήχησης, αποσκοπούν στην γεφύρωση του χάσµατος ανάµεσα στις µεθοδολογίες εξαρτώµενες του συστήµατος (system-dependent) και σε αυτές που είναι εξαρτώµενες του σήµατος (signal-dependent) και διαµορφώνονται από την εκτενή χρήση ϐασικών αρχών της ψυχοακουστικής. Το προτεινόµενο πλαίσιο εργασίας λειτουργεί συµπλη- ϱωµατικά ως προς αυτές τις µεθόδους και επεκτείνει προγενέστερη εργασία [Buchholz (2001)] µε την εισαγωγή ενός ενιαίου, αποτελεσµατικού και αντιληπτικά συµβατού µοντέλου για την αναπαραγωγή στερεοφωνικών ηχητικών σηµατών σε χώρους µε αντήχηση. Συγκεκριµένα, ένα Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) [Buchholz (2003, 2004a, 2004b)] χρησιµοποιείται για την µοντελοποίηση ϕαινοµένων επικάλυψης λόγω αντήχησης για ηχητικά δεδοµένα ενός καναλιού (µόνο-ωτικά) και το οποίο λειτουργικά υποστηρίζεται µε τη χρήση Σταδίου Απεικονίσεων Ενδοκαναλικών Παραµέτρων (ΣΑΕΠ) [Zarouchas (2007, 2009)] για την περιγραφή των αντιληπτικά σηµαντικών αλλοιώσεων των στερεοφωνικών ηχητικών σηµάτων κατά την αναπαραγωγή τους σε κλειστούς χώρους µε αντήχηση. Θα πρέπει να επισηµανθεί ότι στόχος της παρούσας διατριβής δεν είναι να παρουσιάσει και να αναλύσει επακριβώς τους νευρο-ϕυσιολογικούς µηχανισµούς που αναπτύσσονται στο ανθρώπινο ακουστικό σύστηµα αλλά να δηµιουργήσει ένα αξιόπιστο πλαίσιο επεξεργασίας (ανάλυσης - σύνθεσης), που εντάσεται στο ευρύτερο επιστηµονικό και πρακτικό ενδιαφέρον των µηχανικών ήχου [Toole (2006), Mason (2001)], µε κατάλληλα ϑεµελιωµένο ϑεωρητικό υπόβαθρο, για την ϐέλτιστη, σθεναρή αναπαραγωγή ακουστικών σηµάτων σε κλειστούς χώρους. Ηπροτεινόµενηµεθοδολογίαϐασίζεταιστηχρήσητωναρχικώνσηµάτωναναφοράς και των αντίστοιχων σηµάτων µε αντήχηση όπως έχουν καταγραφεί µε την χρήση παντόκατευθυντικών µικροφώνων ή έχουν προέλθει από ακουστική προσοµοίωση µέσω συνέλιξης µετρούµενων κρουστικών αποκρίσεων χώρων (Room Impulse Responses, RIRs). Με ϐάση την προσέγγιση αυτή, είναι εφικτός ο προσδιορισµός, µε ϐάση τις ε- ξαγόµενες από το Υπολογιστικό Μοντέλο ακουστικής Επικάλυψης (ΥΜΑΕ) εσωτερικές αναπαραστάσεις, χρονο-συχνοτικών περιοχών µε αντιληπτικά σηµαντική παραµόρφωση λόγω αντήχησης. Επιπλέον, η έξοδος από τοστάδιοαπεικόνισηςενδο-καναλικών Παραµέτρων (ΣΑΕΠ), παρέχει τις αλλοιώσεις στις υπό-εξέταση χωρικές παραµέτρους, λόγω αντήχησης. Να επισηµανθεί, ότι και στις δυο περιπτώσεις οι έξοδοι από το ΥΜΑ- ΕκαιτοΣΑΕΠενδυνάµειµπορούννααναπαρασταθούνµετηνϐοήθειακατάλληλων χαρτών [Harding (2006), Zarouchas (2006, 2007, 2009)]. Από τις παραπάνω απεικονίσεις, εξάγονται κατάλληλες µόνο-ωτικές ( είκτης Επικάλυψης λόγω Αντήχησης) και διαφορικές ενδο-καναλικές παράµετροι, οι οποίες είναι εξαρτώµενες του σήµατος και µεταβάλλονται δυναµικά µε το χρόνο. Επιπλέον, ο είκτης Επικάλυψης λόγω

30 1.5. Πρωτότυπη Συνεισφορά της ιατριβής 9 Αντήχησης (Reverberation Masking Index, RMI) µπορεί να σχετισθεί εννοιολογικά µε το ευρέως διαδεδοµένο κριτήριο του Λόγου Θορύβου προς Επικάλυψη (Noise to Mask Ratio, NMR) [Brandenburg (1992)] καθώς και άλλα αλγοριθµικά κριτήρια όπως το Perceptual Audio Quality Measure (PAQM) [Rix (2006)] που χρησιµοποιούνται για την αξιολόγηση ηχητικών δεδοµένων. Η πρωτοτυπία των παραµέτρων αυτών εστιάζεται στο γεγονός ότι µέχρι σήµερα ελάχιστες µεθοδολογίες έχουν προταθεί που να παρέχουν µετρήσεις αλλοιώσεων εξαρτώµενες του σήµατος [Plasberg (2007), Li (1999), Schroeder (1981)] για εφαρµογές που σχετίζονται µε την αξιολόγηση της ακουστικής χώρων καθώς και την ϐέλτιστη ηχητική αναπαραγωγή σε χώρους µε αντήχηση. Επιπλέον, µε κατάλληλη επεξεργασία ϐασιζόµενη στον είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) απεικονίσεων είναι εφικτή η συµπίεση της αντήχησης στα ηχογραφηµένα σήµατα εξασφαλίζοντας ϐέλτιστη ηχητική αναπαραγωγή. Για την αξιολόγηση της απόδοσης των παραµέτρων σε σχέση µε τις ακουστικές ιδιότητες των υπό-εξέταση χώρων και το είδος των ηχητικών σηµάτων, πραγµατοποιήθηκε στατιστική ανάλυση συνεκτι- µώντας σηµαντικές προγενέστερες εργασίες στην ακουστική χώρων όπου πραγµατοποιήθηκαν στατιστικές µετρήσεις στις συναρτήσεις µεταφοράς χώρου (Room Transfer Functions, RTFs) [Schroeder (1987), Waterhouse (1968), Lubman (1968)]. Πρόσφατα και σε εφαρµογές καταστολής αντήχησης για οµιλία καθώς και ηχητικά σήµατα, όλο και πιο συχνά ϐασίζονται σε στατιστικά µοντέλα για την εξαγωγή των διαφορών ανάµεσα στο ηχητικό σήµα ή την οµιλία και στην παρεµβάλλουσα αντήχηση [Yegnanarayana (2000), Gillespie (2001), Martin (2005), Wu (2006), Fee (2006), Furuya (2006)]. Ενδεικτικά, στις εργασίες [Yegnanarayana (2000), Wu (2006)] παρουσιά- Ϲεται µια µεθοδολογία συµπίεσης αντήχησης ϐασιζόµενη σε στατιστική ανάλυση των residual τιµών (που έχουν προκύψει από τεχνικές γραµµικής πρόβλεψης) και εµφανίζουν µικρότερες τιµές κύρτωσης σε σχέση µε το σηµά αναφοράς (µουσική ή οµιλία). Σε µια αντίστοιχη πρόσφατη εργασία [Extra (2006)] παρουσιάζεται ο υπολογισµός της κύρτωσης σε διαδοχικά πλαίσια δειγµάτων σε κρουστικές απόκρισης χώρων για την περίπτωση αξιολόγησης τεχνητών αλγορίθµων προσοµοίωσης αντήχησης. 1.5 Πρωτότυπη Συνεισφορά της ιατριβής Στα πλαίσια της εκπόνησης της παρούσας διατριβής, υλοποιήθηκε ένα ϑεωρητικό µοντέλο για την ανάλυση του αντιληπτικού ϕαινοµένου της αντήχησης και σε ένα περισσότερο πρακτικό επίπεδο µια µεθοδολογία συµπίεσης της αντήχησης σε ηχογραφηµένα σήµατα. Παράλληλα και κυρίως λόγω της υπολογιστικής ευελεξίας του µοντέλου ακουστικής επικάλυψης για την επεξεργασία ηχητικών σηµάτων, υλοποιή- ϑηκε ένας µη-οµοιόµορφος κβαντιστής ηχητικών δεδοµένων ενώ παρουσιάστηκε ένα εναλλακτικό κριτήριο αξιολόγησης ηχητικών σηµάτων. Συγκεκριµένα, η πρωτοτυπία

31 10 Κεφάλαιο 1 της διατριβής επικεντρώνεται στους ακόλουθους τοµείς : 1. Αναπτύχθηκε κατάλληλη µεθοδολογία την ανάλυση σηµάτων (ϐασισµένη στην κυµατοµορφή τους) µέσω των εσωτερικών αναπαραστάσεων που παρέχει το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) και την χρήση της αρχής της Ελάχιστα Αντιληπτής Στάθµης ιαφοράς (ϐλ. Κεφάλαιο 2). Το συγκεκριµένο πλαίσιο εργασίας αποδείχθηκε αξιόπιστο και ευέλικτο εργαλείο για την ποσοτική περιγραφή της αντήχησης µέσω του είκτη Επικάλυψης λόγω Αντήχησης (Reverberation Masking Index, RMI), την συµπίεση της αντήχησης σε ηχογραφηµένα σήµατα σε ένα επόµενο στάδιο επεξεργασίας, την υλοποίηση ενός κβαντιστή ηχητικών δεδοµένων καθώς και ενός κριτηρίου αξιολόγησης ηχητικών σηµάτων που έχουν προκύψει από ψηφιακή επεξεργασία (π.χ., κωδικοποίηση). 2. Εν αντιθέσει µε τις καθιερωµένες τεχνικές εξαρτώµενες του συστήµατος (system-dependent), παρουσιάστηκε µια µεθοδολογία εξαρτώµενης του σήµατος (signal-dependent) για την περιγραφή και συµπίεση της αντήχησης. Τα ϐασικά πλεονεκτήµατα της προτεινόµενης µεθόδου είναι η ενσωµάτωση ενός αντιληπτικού µηχανισµού και η απλοποιηµένη περιγραφή ενός εν γένει πολυδιάστατου αντιληπτικού ϕαινοµένου. Η προτεινόµενη µεθοδολογία δεν λειτουργεί ανταγωνιστικά ως προς τις καθιερωµένες τεχνικές εξαρτώµενες του συστήµατος, αλλά προσπαθεί να γεφυρώσει το χάσµα ανάµεσα στις δύο προσεγγίσεις και να αναδείξει παράλληλα την πολυπλοκότητα του αντιληπτικού ϕαινοµένου της αντήχησης. 3. Υιοθέτηση χρονο-συχνοτικών 2 απεικονίσεων, για τις υποκειµενικά σηµαντικές αλλοιώσεις λόγω αντήχησης, κατά αντιστοιχία µε τα διαδεδοµένα ϕασµατογραφήµατα (spectrograms). Οι παραπάνω απεικονίσεις αναφέρονται τόσο στις µονοκαναλικές παραµέτρους ( είκτης Επικάλυψης λόγω Αντήχησης) όσο και στις διαφορικές ενδοκαναλικές (ICC, ICTD, ICLD) παραµέτρους. 4. Πραγµατοποιήθηκε στατιστική ανάλυση σε παραµέτρους εξαρτώµενες του συστή- µατος (π.χ., κρουστική απόκριση) µε χρήση ανώτερης τάξης στατιστικών µεγεθών (π.χ., κύρτωση) και συσχέτιση τους µε το χρόνο αντήχησης ή και την ϑέση πηγής δέκτη. Θα πρέπει να επισηµανθεί ότι και στο παρελθόν πραγµατοποιήθηκε στατιστική ανάλυση της συνάρτησης µεταφοράς του συστήµατος (χώρος ακρόασης) [Schroeder (1987), Waterhouse (1968)]. Επιπλέον, πραγµατοποιήθηκε στατιστική ανάλυση των µονοκαναλικών και ενδοκαναλικών διαφορικών παραµέτρων εξαρτόµενων του σήµατος, για διαφορετικούς χώρους ακρόασης και διαφορετικά σήµατα εισόδου. 5. Περιγραφή και ποσοτικοποίηση του αντιληπτικού ϕαινοµένου της αντήχησης µέσω του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ). Ο προσδιορισµός του ΕΑ ϐασίζεται στην αρχή της Ελάχιστα Αντιληπτής Στάθµης ιαφοράς και εννοιολογικά µπορεί να συσχετισθεί µε το διαδεδοµένο κριτήριο του λόγου Θορύβου Προς Επικάλυψη (Noise to Mask Ratio, NMR), όπου σε µια απλοποιηµένη αλλά λειτουργική

32 1.6. Παρουσίαση και οµή της ιατριβής 11 υπόθεση η αντήχηση ϑεωρείται ως ένα είδος παρεµβάλλοντος ϑορύβου. Επιπλέον, πραγµατοποιήθηκαν ελεγχόµενες ακροάσεις και συσχέτιση των αποτελεσµάτων µε τις αριθµητικές τιµές του ΕΑ που εκφράζουν ποσοτικά την αντήχηση. 6. Υλοποιήθηκε Στάδιο Απεικόνισης Ενδοκαναλικών Παραµέτρων (ΣΑΕΠ) για την εξαγωγή των διαφορικών ενδοκαναλικών παραµέτρων (ICC, ICTD, ICLD) µε δυνατότητα απεικόνισης των µεταβολών λόγω αντήχησης µε κατάλληλες 2 χρονό-συχνοτικές απεικονίσεις. 7. Αναπτύχθηκε µεθοδολογία συµπίεσης της αντήχησης σε ηχητικά δεδοµένα µε κατάλληλη ψηφιακή επεξεργασία σήµατος ϐασιζόµενη στον ΕΑ. Μέσα από µια διαδικασία ανάλυσης-σύνθεσης, χρονό-συχνοτικές περιοχές µε αντιληπτικά σηµαντικές αλλοιώσεις όπως έχουν προσδιοριστεί από τον ΕΑ, τροποποιούνται κατάλληλα µε επεξεργασία προκειµένου να παραχθεί µια έκδοση «συµπιεσµένης αντήχησης» στο ηχητικό σήµα. Για την επιβεβαίωση της απόδοσης της προτεινόµενης µεθοδολογίας πραγµατοποιήθηκαν ελεγχόµενες ακροάσεις στον κατάλληλα διαµορφωµένο χώρο του Εργαστηρίου της Οµάδας Τεχνολογίας Ηχου και Ακουστικής µε τη συµµετοχή έµπειρων ακροατών. 8. Υλοποιήθηκε µη-οµοιόµορφος κβαντιστή ηχητικών δεδοµένων ϐασισµένος στο ΥΜΑΕ, µε τη δυνατότητα ενσωµάτωσης του σε ενδιάµεσο στάδιο κωδικοποίησης ηχητικών σηµάτων. Η πρωτοτυπία του έγκειται στο γεγονός ότι η κβάντιση των δειγµάτων πραγµατοποιείται χρονό-συχνοτικά και µε τέτοιο τρόπο ώστε η διαφορά των εσωτερικών αναπαραστάσεων των κβαντισµένων σηµάτων εισόδου να ϐρίσκεται κάτω από ένα υπολογισθέν κατώφλι. Επιπλέον, αναπτύχθηκε κριτήριο αξιολόγησης ηχητικών σηµάτων µε δυνατότητα ανίχνευσης ακουστών παραµορφώσεων στο πεδίο χρόνου-συχνότητας και πραγµατοποιήθηκε σύγκριση µε το διαδεδοµένο κριτήριο του λόγου Θόρυβος προς Επικάλυψη (Noise to Mask Ratio, NMR) που λειτουργεί αµιγώς στο πεδίο της συχνότητας. 1.6 Παρουσίαση και οµή της ιατριβής Στα επόµενα κεφάλαια ϑα αναλυθούν ϐασικές έννοιες από την επιστηµονική περιοχή της ψυχοακουστικής και της χωρικής ακουστικής καθώς και οι ενότητες που οριοθετούν την πρωτοτυπία και τις κύριες ερευνητικές κατευθύνσεις της παρούσας διατριβής. Πιο συγκεκριµένα, στο Κεφάλαιο 2 παρουσιάζονται επιγραµµατικά τα ϐασικά χαρακτηριστικά της ανατοµίας και οι µηχανισµοί λειτουργίας του ακουστικού συστήµατος, οι ϑεµελιώδεις αρχές που σχετίζονται µε την ευρύτερη περιοχής της ψυχοακουστικής και της ϑεωρίας ελέγχου και εκτίµησης καθώς και οι ϐασικές παράµετροι που σχετίζονται µε την χωρική ακουστική αντίληψη. Το κεφάλαιο ολοκληρώνεται µε την

33 12 Κεφάλαιο 1 περιγραφή του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ) που χρησι- µοποιήθηκε εκτενώς στις προτεινόµενες µεθοδολογίες, την κύρια υπόθεση στην οποία ϐασίζεται και τις λειτουργίες που επιτελούνται στο µονοπάτι επεξεργασίας που αυτό καθορίζει µε την παρουσίαση των αντίστοιχων σηµάτων εξόδου στα επιµέρους στάδια. Στο Κεφάλαιο 3 παρουσιάζεται η ϐασική ιδέα χρήσης του ΥΜΑΕ για την ενσωµάτωση του σε εφαρµογές που εντάσονται στην ευρύτερη επιστηµονική περιοχή του µηχανικού ήχου. Αναλύεται η ϐασική µεθοδολογία για την µοντελοποίηση και ανάλυση του ϕαινοµένου της αντήχησης, περιγράφεται το Στάδιο Απεικόνισης Ενδο-καναλικών Παραµέτρων, το οποίο λειτουργεί συµπληρωµατικά σε σχεση µε το ΥΜΑΕ, ενω για την απεικόνιση και την ποσοτικοποίηση των αλλοιώσεων λόγω αντήχησης, κατάλληλοι «χάρτες» χρόνου-συχνότητας και πλήρως ορισµένοι, εξαρτόµενοι του σήµατος παράµετροι, χρησιµοποιούνται αντίστοιχα. Τέλος, το κεφάλαιο ολοκληρώνεται µε την στατιστική ανάλυση των παραµέτρων που έχουν προκύψει από την προτεινόµενη µε- ϑοδολογία καθώς και των κρουστικών αποκρίσεων των υπό-εξέταση χώρων. Στο Κεφάλαιο 4 παρουσιάζεται η χρήση του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ), µε τι αντίστοιχες διαφοροποιήσεις ανά περίπτωση, στην επεξεργασία ηχητικών δεδοµένων. Στο πρώτο µέρος του κεφαλαίου περιγράφεται η µοντελοποίηση και η εξάλειψη (των υποκειµενικά σηµαντικών) αλλοιώσεων λόγω αντήχησης (στα ηχητικά σήµατα) µε χρήση του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ), όπως ορίστηκε στο Κεφάλαιο 3, όπου επιπλέον, επεκτείνεται η εφαρµογή του και σε στερεοφωνικά ηχητικά σήµατα. Επιπρόσθετα, τα αποτέλεσµατα ελεγχόµενων ακροάσεων που πραγµατοποιήθηκαν στον ακουστικά ϐέλτιστο χώρο του εργαστηρίου της Οµάδας Τεχνολογίας Ηχου και Ακουστικής, υποδεικνύουν τη συµφωνία του είκτη Επικάλυψης λόγω Αντήχησης µε την υποκειµενική αξιολόγηση της αντήχησης, καθώς και την αποτελεσµατικότητα της προτεινόµενης µεθόδου για τη συµπίεση των υποκειµενικά σηµαντικών αλλοιώσεων. Στο δεύτερο µέρος του κεφαλαίου περιγράφεται η χρήση του ΥΜΑΕ για την υλοποίηση ενός πρωτότυπου µη-οµοιόµορφου κβαντιστή ηχητικών δεδοµένων καθώς και ένα εναλλακτικό κριτήριο αξιολόγησης ηχητικών σηµάτων. Στο Κεφάλαιο 5 παρουσιάζονται τα συµπεράσµατα που προέκυψαν στα πλαίσια της παρούσας διατριβής και επισηµαίνονται µελλοντικοί ερευνητικοί στόχοι και γενικότε- ϱες επιστηµονικές κατευθύνσεις και εφαρµογές. Τέλος, το παρόν κείµενο ολοκληρώνεται µε το σχετικό Παράρτηµα για την αναλυτική παρουσίαση µεθόδων, εννοιών και αποτελεσµάτων που επισηµάνθηκαν ή δεν αναλύ- ϑηκαν επαρκώς στα αντίστοιχα κεφάλαια, καθώς και µε τη σχετική Βιβλιογραφία που αποτέλεσε τη ϐάση για την επιτυχή ολοκλήρωση της διατριβής.

34 Κεφάλαιο 2 Βασικές Εννοιες - Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 2.1 Εισαγωγή Στην διεθνή ϐιβλιογραφία παρουσιάζεται ένα σηµαντικός αριθµός από ακουστικά µοντέλα επικάλυψης, ο σχεδιασµός των οποίων ϐασίζεται σε δυο εναλλακτικές µεθοδολογίες : (α) Υλοποίηση ακουστικών µοντέλων επικάλυψης που χρησιµοποιούν ϐασικές αρχές της νευρο-ϕυσιολογίας του ανθρώπινου ακουστικού συστήµατος [Robert(1999), Zhang (2001), Lopez-Poveda(2001), Heinz (2002), Sumner (2002)]. (ϐ) Υλοποίηση ακουστικών µοντέλων επικάλυψης που χρησιµοποιούν ϐασικές αρχές της ψυχοακουστικής [Dau (1996a,b), Plack (1998), Derleth (1999)]. Στα ακουστικά µοντέλα για την περίπτωση (α), γίνεται κύρια χρήση της νευρο- ϕυσιολογίας του ακουστικού συστήµατος, ενώ στην περίπτωση (ϐ), γίνεταικύριαχρήση των αποτελεσµάτων που προκύπτουν από ψυχοακουστικές µετρήσεις ή πειράµατα. Σε σύγκριση µε τις ψυχοακουστικές µεθόδους, που σαφώς υπονοούν την πλήρη ενσωµάτωση του ακουστικού συστήµατος στην εκάστοτε µέτρηση, οι µεθόδοι που έχουν ως κύρια ϐάση την νευρο-ϕυσιολογία του ακουστικού συστήµατος, επιτρέπουν κάθε ϕορά την εξέταση µόνο συγκεκριµένων τµηµάτων του. Ως εκ τούτου, ακουστικά µοντέλα που είναι ϐασισµένα σε αποτελέσµατα νευρο-ϕυσιολογικών µετρήσεων είναι πολύ λεπτοµερή, αλλά ωστόσο δεν παρέχουν µια περιεκτική εικόνα της ακουστικής επεξεργασίας και επιπλέον είναι συχνά δύσκολο (λόγω αυξηµένης πολυπλοκότητας) να ενσωµατωθούν σε εφαρµογές που εµπίπτουν στην επιστηµονική περιοχή του µηχανικού ήχου. Αφετέρου, τα ϐασιζόµενα σε ψυχοακουστικές µετρήσεις-δεδοµένα ακουστικά µοντέλα περιγράφουν αποτελεσµατικά την επεξεργασία σήµατος που πραγµατοποιεί το ακουστικό σύστηµα, αλλά δεν εµφανίζουν επαρκή ακρίβεια σε σχέση µε την νευρό- ϕυσιολογία του ακουστικού συστήµατος. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) που χρησιµοποιήθηκε στην παρούσα εργασία, περιγράφει επιτυχώς 13

35 14 Κεφάλαιο 2 διάφορες πτυχές της επεξεργασίας των ηχητικών σηµάτων από το ανθρώπινο ακουστικό σύστηµα και εντάσεται στην κατηγορία των ακουστικών µοντέλων που ϐασίζονται σε ψυχοακουστικά δεδοµένα, µε ϑεµελιώδεις αρχές της νευρο-ϕυσιολογίας, ωστόσο να έχουν επηρεάσει τη ϐασική του δοµή. Η ϐασική υπόθεση στην οποία ϐασίζεται το ΥΜΑΕ είναι µια µη-γραµµική διαδικασία, αναφερόµενη ως Συµπίεση Εξαρτώµενη του Σήµατος (ΣΕΣ), ϐάση της οποίας το ανθρώπινο ακουστικό σύστηµα επιτελεί µια συµπίεση στο πλάτος του σήµατος εισόδου, της οποίας τα χαρακτηριστικά εξαρτώνται από την χρονική εξέλιξη του σήµατος. Στις παραγράφους που ακολουθούν παρουσιάζονται επιγραµµατικά ϐασικά χαρακτηριστικά της ανατοµίας και µηχανισµοί λειτουργίας του ακουστικού συστήµατος, ϑεµελιώδεις έννοιες που σχετίζονται µε την ευρύτερη περιοχής της ψυχοακουστικής και της ϑεωρίας ελέγχου και εκτίµησης, ϐασικές παράµετροι που σχετίζονται µε την χωρική ακουστική αντίληψη, ενώ το κε- ϕάλαιο ολοκληρώνεται µε την περιγραφή του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ), την κύρια υπόθεση στην οποία ϐασίζεται και τις λειτουργίες που επιτελούνται στο µονοπάτι επεξεργασίας που αυτό καθορίζει. 2.2 Ανατοµία του Ακουστικού Συστήµατος Το ανθρώπινο σύστηµα ακοής αποτελείται από δύο υποσυστήµατα [Moore (1995), Zwicker (1999)]: (α) Το περιφερειακό, στο οποίο γίνεται η µετατροπή των ηχητικών κυµάτων σε ηλεκτροχηµικά σήµατα. (ϐ) Το νευρικό (που περιλαµβάνει και τα ανώτερα κέντρα ακοής του εγκεφάλου), στο οποίο γίνεται η κύρια επεξεργασία του παραγόµενου ηλεκτροχηµικού σήµατος και δηµιουργείται το αίσθηµα της ακοής. Το περιφερειακό σύστηµα αποτελείται από το εξωτερικό, µέσο και εσωτερικό αυτί (ϐλ. Σχήµα 2.1), στα οποία πραγµατοποιείται η προ-επεξεργασία του ακουστικού σήµατος και ο µετασχηµατισµός του σε ηλεκτροχηµικό σήµα Εξωτερικό Αυτί Το εξωτερικό αυτί αποτελείται από το πτερύγιο, το εξωτερικό ακουστικό κανάλι και τον ακουστικό πόρο και λειτουργεί σαν ένα γραµµικό ακουστικό ϕίλτρο. Ο προφανής του ϱόλος είναι να συγκεντρώνει και να κατευθύνει την ενέργεια του ακουστικού κύµατος προς το µέσο αυτί. Παράλληλα, επιτελεί και ένα πιο σηµαντικό και περίπλοκο ϱόλο, αυτόν του προσδιορισµού της ϑέσης στο χώρο µιας ακουστικής πηγής (source localization) [Hartmann (1983), Lorenzi (1999), Makoes (1990), von Hornbostel (1920)]. Η χρησιµότητα του εξωτερικού ακουστικού καναλιού εστιάζεται σε

36 2.2. Ανατοµία του Ακουστικού Συστήµατος 15 Σχήµα 2.1: Σχηµατικό διάγραµµα του εξωτερικού, µέσου και εσωτερικού αυτιού. δυο ϐασικά χαρακτηριστικά : (α) προστατεύει το µέσο αυτί και το τύµπανο, (ϐ) «τοπο- ϑετεί» το εσωτερικό αυτί πολύ κοντά στον εγκέφαλο, µειώνοντας έτσι το απαιτούµενο µήκος των νεύρων, εξασφαλίζοντας ευκολότερη µετάβαση των παραγόµενων ασθενών ηλεκτρικών σηµάτων προς τον εγκέφαλο. Παράλληλα το εξωτερικό ακουστικό κανάλι επιδρά σηµαντικά στην απόκριση συχνότητας του συνολικού ακουστικού συστήµατος. Ουσιαστικά συµπεριφέρεται σαν ένας ανοικτός σωλήνας συντονισµού µε µέσο µήκος 2cmπουαντιστοιχείστο1/4τουµήκουςκύµατοςγιασυχνότητεςκοντάστα4kHz. Ενισχύει δηλαδή τις συχνότητες στην περιοχή των 4 khz και εξηγείται µε αυτό τον τρόπο η υψηλή επιλεκτικότητα του ανθρώπινου ακουστικού συστήµατος για ηχητικά σήµατα µε συχνοτικό περιεχόµενο κοντά στην παραπάνω τιµή. Προς επιβεβαίωση των παραπάνω, το έντονο ϐύθισµα που παρατηρείται στο απόλυτο κατώφλι ακουστότητας (ϐλ. Ενότητα 2.4) εντοπίζεταισεαυτήτησυχνοτικήπεριοχή Μέσο Αυτί Το µέσο αυτί ανατοµικά αποτελείται από το τύµπανο, από τρια µικρά και πολύ σκληρά οστά ή ακουστικά οστάρια (σφύρα, άκµονας και αναβολέας) και από την ευσταχιανή σάλπιγγα. Λειτουργεί σαν ακουστικό-µηχανικός µετατροπέας, προσαρµόζοντας κατάλληλα τις διαφορετικές εµπεδήσεις του αέρα και του λεµφικού υγρού που ϐρίσκεται στο εσωτερικό αυτί. Ο όρος προσαρµογή εµπεδήσεων αναφέρεται στη µετατροπή των ταλαντώσεων του αέρα, οι οποίες έχουν µικρές δυνάµεις και µεγάλες αποµακρύνσεις, σε κινήσεις του λεµφικού υγρού, µε αντίστοιχα µεγάλες δυνάµεις και µικρές απο-

37 16 Κεφάλαιο 2 µακρύνσεις, χωρίς ενεργειακές απώλειες. Η απόκριση συχνότητας του µέσου αυτιού παρουσιάζει τη µορφή υψηλοδιαβατού ϕίλτρου µε κλίση 9-12 db/οκτάβα κάτω από τα 1000 Hz και µε ελαφριά ενίσχυση στην περιοχή των µεσαίων συχνοτήτων, γεγονός που συντελεί στην αυξηµένη ευαισθησία της ακοής στην περιοχή αυτή [Moore (1995)]. Μια σηµαντική ιδιότητα του µέσου αυτιού, είναι η µη-γραµµική συµπεριφορά του για απότοµα υψηλές στάθµες του ηχητικού σήµατος, που αποσκοπεί στην προστασία του εσωτερικού αυτιού από επικίνδυνες υπερφορτώσεις [Zwicker (1997)]. Τέλος, ο ϱόλος της ευσταγχιανής σάλπιγγας είναι να εξισορροπεί την ατµοσφαιρική πίεση στις δυο πλευρές του τυµπάνου όπως αυτή µεταβάλλεται από διάφορες εξωτερικές δραστηριότητες (π.χ., χρήση ανελκυστήρα, καταδύσεις κλπ) που ουσιαστικά µεταβάλλουν τη ϑέση ισορροπίας του τυµπάνου Εσωτερικό Αυτί Αποτελεί το πιο ενδιαφέρον και περισσότερο περίπλοκο τµήµα του ανθρώπινου α- κουστικού συστήµατος όπου µετατρέπει την µηχανική ενέργεια των δονήσεων που ϕθάνουν από το τύµπανο και το µέσο αυτί, σε ηλεκτροχηµικό σήµα και αποτελείται από τον κοχλία και από τον λαβύρινθο. Ο κοχλίας έχει µήκος περίπου 32 mm, αποτελείται από 2.5 στροφές και περιέχει δυο διαφορετικά οργανικά υγρά (ενδόλυµφος και περίλυµφος), τα οποία διαχωρίζονται από τη ϐασική µεµβράνη. Επάνω στη µεµβράνη ϐρίσκεται το όργανο του Corti [Zwicker (1997)], που συγκροτείται από τριχοειδή κύτταρα και µετατρέπει τις µηχανικές ταλαντώσεις της ϐασικής µεµβράνης σε ηλεκτρικό σήµα που οδηγείται στο ακουστικό νεύρο. Ο ϱόλος της ϐασικής µεµβράνης είναι ϑεµελιώδης για το µηχανισµό λειτουργίας της ακοής αφού επιτελεί τη συχνοτική α- νάλυση του ηχητικού σήµατος. Λόγω της µεταβλητής ως προς το µήκος διατοµής της, εµφανίζει σκληρότητα που µειώνεται εκθετικά, µε αποτέλεσµα να συντονίζεται σε δια- ϕορετικά σηµεία για διαφορετικές συχνότητες. Η ιδιότητα αυτή προσδίδει στη ϐασική µεµβράνη το χαρακτηρισµό του «αναλυτή συχνοτήτων» [Zwicker (1999)]. Για πολύ χαµηλές συχνότητες η ταλάντωση της ϐασικής µεµβράνηςµηδενίζεταιστοτέρµατου κοχλία, ενώ για υψηλότερες νωρίτερα και για την περίπτωση ύπαρξης περισσοτέρων από µία συχνοτήτων, παρατηρούνται µέγιστα πλάτους σε περισσότερες ϑέσεις. Οπως αναφέρθηκε παραπάνω, το όργανο του Corti περιέχει τα πολύ σηµαντικά αισθητήρια κύτταρα (hair-cells), που καταλήγουν σε ένα τριχίδιο. Οι κάθετες αποµακρύνσεις της ϐασικής µεµβράνης µετατρέπονται σε ακτινικές κινήσεις των τριχιδίων, µεταβάλλοντας µε αυτόν τον τρόπο την ηλεκτρική αντίσταση του κυττάρου, το οποίο µε ηλεκτροχη- µικές διαδικασίες, παράγει παλµούς ηλεκτρικού ϱεύµατος που µεταφέρονται στον εγκέφαλο από ένα µεγάλο αριθµό (περίπου 20 για κάθε αισθητήρα) νευρικών ινών. Το ϕαινόµενο της δηµιουργίας των παλµοσειρών αυτών, µπορεί να χαρακτηριστεί σαν

38 2.2. Ανατοµία του Ακουστικού Συστήµατος 17 «διαδικασία ανόρθωσης» [Moore (1995), Zwicker (1999]. Το πλήθος των παλµών ανά δευτερόλεπτο καθορίζεται από τη στάθµη ηχητικής πίεσης του διεγείροντος σήµατος και προσδιορίζει την ένταση του υποκειµενικού αισθήµατος της ακοής. Ο αριθµός των αισθητηρίων κυττάρων κυµαίνεται από 1500 έως 2000, ενώ ο συνολικός αριθµός των νευρικών ινών είναι περίπου Κάθε αισθητήριο κύτταρο κωδικοποιεί µια στενή περιοχή συχνοτήτων της τάξης των µερικών εκατοντάδων Hz, ενώ περισσότερο πολύπλοκη κωδικοποίηση γίνεται από τις νευρικές ίνες και εν συνεχεία στον ακουστικό ϕλοιό από τα ανώτερα ακουστικά κέντρα του εγκεφάλου. Πρέπει να σηµειωθεί ότι υπάρχουν δυο ειδών αισθητήρια κύτταρα, τα οποία δρουν «ανταγωνιστικά», όπως επίσης και δυο ειδών νευρικές ίνες που εξασφαλίζουν αµφίδροµη επικοινωνία µε τον εγκέφαλο, δηµιουργώντας έτσι ένα περίπλοκο µη-γραµµικό σύστηµα µε ανάδραση [Zwicker (1999)]. Μη-γραµµική συµπεριφορά ϑεωρείται ότι έχουν και τα αισθητήρια κύτταρα, εξαρτώµενη από την πίεση του ακουστικού σήµατος, γεγονός που εξηγεί τη µεγάλη δυναµική περιοχή και την πολύ λεπτή επιλεκτικότητα συχνοτήτων του αυτιού, της τάξης των 3 Hz στα 1000 Hz [Moore (1995)]. Οπως προέκυψε από την παραπάνω περιγραφή και για τους σκοπούς της ανάλυσης ηχητικών σηµάτων, η λειτουργία του εσωτερικού αυτιού µοντελοποιείται ικανοποιητικά από µια τράπεζα παράλληλων Ϲωνοδιαβατών ϕίλτρων, όπως ϕαίνεται και στο Σχήµα Magnitude (db) Frequency (Hz) Σχήµα 2.2: Προσοµοίωση της απόκρισης συχνότητας του εσωτερικού αυτιού µε χρήση Ϲωνοδιαβατών ϕίλτρων.

39 18 Κεφάλαιο Κρίσιµες Περιοχές Συχνότητας Ερευνες έχουν αποδείξει την ύπαρξη κρίσιµων περιοχών συχνότητας (critical bands) [Zwicker (1980,1999)], για την αίσθηση του ακουστικού ερεθίσµατος από τον άνθρωπο καθώς επίσης και τη σχέση ανάµεσα στις περιοχές αυτές και στα µέγιστα ταλάντωσης της ϐασικής µεµβράνης. Μέσα σε µια κρίσιµη περιοχή συχνότητας το επίπεδο ακουστότητας εξαρτάται µόνο από την ενεργή (RMS) τιµή της ακουστικής πίεσης του ηχητικού σήµατος. Μια κρίσιµη περιοχή συχνότητας αντιστοιχεί σε απόσταση 1.3 mm επάνω στη ϐασική µεµβράνη και ονοµάζεται κλίµακα bark [Greenwood (1961)]. Η ιδέα των κρίσιµων περιοχών συχνότητας προτάθηκε αρχικά από τον Fletcher [Fletcher (1940)], ο οποίος υπέθεσε ότι το τµήµα του ϕάσµατος του ϑορύβου που επικαλύπτει ένα τονικό σήµα, είναι µέρος του ϕάσµατος που ϐρίσκεται κοντά στο τονικό σήµα. Ακουστική επικάλυψη επιτυγχάνεται όταν η ισχύς ενός τονικού σήµατος και η ισχύς ενός τµήµατος από το ϕάσµα του ϑορύβου που ϐρίσκεται κοντά στο τονικό σήµα, επικαλύπτονται [Zwicker (1999)]. Κρίσιµες περιοχές συχνοτήτων ορίζονται να έχουν συγκεκριµένο εύρος Ϲώνης συχνοτήτων έτσι ώστε να παράγεται η ίδια ακουστική ισχύς από το τονικό σήµα και από τον ϑόρυβο, ο οποίος µόλις επικαλύπτει το τονικό σήµα. Στον πίνακα που ακολουθεί παρουσιάζονται οι κρίσιµες περιοχές, µε κάθε µία από αυτές να ορίζεται από την κεντρική της συχνότητα και το εύρος Ϲώνης [Zwicker (1999)]. Αριθµός Κρίσιµης Κεντρική Εύρος Αριθµός Κρίσιµης Κεντρική Εύρος Περιοχής Συχνότητα Ζώνης Περιοχής Συχνότητα Ζώνης Συχνότητας (bark) (Hz) (Hz) Συχνότητας (bark) (Hz) (Hz) Πίνακας 2.1: Χαρακτηριστικά µεγέθη των κρίσιµων περιοχών συχνότητας [Zwicker (1999), Moore (2003)].

40 2.4. Απόλυτο Κατώφλι Ακουστότητας 19 Με όρους ψηφιακής επεξεργασίας σήµατος, οι κρίσιµες περιοχές συχνότητας αντιστοιχούν σε µια τράπεζα ϕίλτρων που διαχωρίζει το ϕάσµα συχνοτήτων σε περιοχές µε διαφορετικό εύρος Ϲώνης. Η κεντρική συχνότητα και το εύρος Ϲώνης κάθε κρίσιµης περιοχής συχνότητας έχουν επιλεγεί έτσιώστεναπροσεγγίζουντηλειτουργία του ανθρώπινου ακουστικού συστήµατος. Εχει δοθεί µεγαλύτερη ανάλυση στις χα- µηλές συχνότητες, οι οποίες έχουν αναλυθεί σε περισσότερες κρίσιµες περιοχές και λιγότερη στις υψηλές συχνότητες επειδή έτσι πραγµατοποιείται και από το ανθρώπινο ακουστικό σύστηµα. 2.4 Απόλυτο Κατώφλι Ακουστότητας Το απόλυτο κατώφλι ακουστότητας (στην διεθνή ϐιβλιογραφία ως absolute threshold ήthresholdinquiet)υποδηλώνεισυναρτήσειτηςσυχνότητας,τηστάθµηηχητικής πίεσης ενός ϑορύβου στενής Ϲώνης ή ενός τονικού σήµατος, η οποία είναι µόλις α- κουστή [Fastl (1975), Zwicker (1999)]. Συνεπώς, το απόλυτο κατώφλι ακουστότητας µπορεί να ϑεωρηθεί ως το κατώτερο όριο της δυναµικής περιοχής του ανθρώπινου ακουστικού συστήµατος. Εκτός από την έντονη συχνοτική εξάρτηση που παρουσιάζει το απόλυτο κατώφλι ακουστότητας, εξαρτάται από το εύρος Ϲώνης του υπό εξέταση σήµατος [Higgins (1990)] καθώς και από την χρονική του διάρκεια [Plomp (1959), Zwislocki (1960), Olson (1966), Florentine (1988), Carlyon (1990)]. εδοµένου ότι το κατώφλι ακουστότητας προσδιορίζεται µονοσήµαντα για κάθε µια ανθρώπινη οντότητα (λόγω της ξεχωριστής συχνοτικής εξάρτησης), πρακτικά χρησιµοποιείται ως αναφορά [Moore (1995)] µια µέση τιµή του απόλυτου κατωφλίου ακουστότητας για ένα µεγάλο αριθµό δειγµάτων (ακροατών). Σε µιαπροσπάθειαναεξηγηθείο µηχανισµός του απόλυτου κατωφλίου ακουστότητας µε ϐάση τη ϕυσιολογία του ανθρώπινου ακουστικού συστήµατος, η λειτουργία του προσοµοιώνεται ως ένα είδος ϑορύβου που υπερτίθεται στο υπό εξέταση σήµα και εν γένει το επικαλύπτει. Υπό αυτή την έννοια, η αναπτυσσόµενη εσωτερικά διέγερση των ακουστικών νεύρων αποτελεί την κύρια πηγή ϑορύβου, η οποία είναι οµοιόµορφα κατανεµηµένη σε όλο το συχνοτικό ϕάσµα που καλύπτει το ακουστικό σύστηµα. Με ϐάση την ακόλουθη αναλυτική έκφραση [Zölzer (1998)], όπου f σε khz, L TQ =3.64 f e 0.6 (f 3.3)2 + f (2.1) το απόλυτο κατώφλι ακουστότητας (L TQ σε db) ϕαίνεται στο Σχήµα 2.3.

41 20 Κεφάλαιο Absolute Threshold (db SPL) Frequency (Hz) Σχήµα 2.3: Το απόλυτο κατώφλι ακουστότητας συναρτήσει της συχνότητας. 2.5 Το Φαινόµενο της Ακουστικής Επικάλυψης Επάνω στη ϐασική µεµβράνη επιτελείται διαχωρισµός των ϕασµατικών συνιστωσών του ακουστικού σήµατος, οφειλόµενος στη µεταβαλλόµενη σκληρότητα της. Συνεπώς, ένα ακουστικό σήµα µιας συχνότητας (τονικό σήµα) διεγείρει µια συγκεκριµένη πε- ϱιοχή της µεµβράνης, µε πλάτος αποµάκρυνσης ανάλογο µε την ένταση του σήµατος. Οπως είναι ϕυσικό η αποµάκρυνση της ϐασικής µεµβράνης µετατοπίζεται και σε γειτονικές περιοχές, οι οποίες αντιστοιχούν σε άλλες συχνότητες. Αν ταυτόχρονα µε το προηγούµενο σήµα, διεγείρει το ακουστικό σύστηµα και άλλο ηχητικό σήµα, µε πα- ϱαπλήσια συχνότητα, αλλά µε µικρότερη ένταση, τότε η διασπορά της ταλάντωσης της ϐασικής µεµβράνης που οφείλεται στο ισχυρό σήµα ϑα υπερκαλύψει την ταλάντωση της µεµβράνης που οφείλεται στο λιγότερο ισχυρό σήµα. Συνεπώς, ο δεύτερος ήχος παρά το γεγονός ότι διεγείρει το αυτί δεν γίνεται ακουστός ή µειώνεται η ακουστότητα του. Η διαδικασία αυτή αναφέρεται ως ϕαινόµενο επικάλυψης (masking effect) και παρουσίαζει σηµαντικό ερευνητικό ενδιαφέρον σε διάφορες εφαρµογές επεξεργασίας ψηφιακού ήχου (π.χ. συµπίεση ηχητικών δεδοµένων [Bosi (2003), Kahrs (2003)]). Αποτελεί χαρακτηριστικό ϕαινόµενο της καθηµερινής εµπειρίας, αφού η ακουστότητα ενός σήµατος (π.χ. οµιλία) µπορεί να µειωθεί ή να εξαφανισθεί εντελώς, όταν εµφανισθεί ταυτόχρονα ένας άλλος ισχυρότερος ήχος (π.χ. ϑόρυβος) µε παρόµοιο συχνοτικό περιεχόµενο. Με όρους επεξεργασίας σήµατος, το ϕαινόµενο αυτό περιγράφεται σαν ηµεταβολήτηςαπόκρισηςσυχνότηταςαπότηµορφήστενήςϲώνηςσεάλληευρύτερης Ϲώνης που επικαλύπτει γειτονικές ϕασµατικές περιοχές. Ανάλογα µε την χρονική ϑέση του υπό-εξέταση σήµατος (test signal) σε σχέση µε το επικαλύπτον σήµα (masker),

42 2.5. Το Φαινόµενο της Ακουστικής Επικάλυψης 21 το ϕαινόµενο της ακουστικής επικάλυψης διαχωρίζεται σε τρεις ϐασικές κατηγορίες (ϐλ. Σχήµα 2.4): (α) Ταυτόχρονη επικάλυψη (simultaneous masking): Στην περίπτωση αυτή, το υπόεξέταση καθώς και το επικαλύπτον σήµα παρουσιάζονται ταυτόχρονα στα πλαίσια µιας ελεγχόµενης ακρόασης (listening test). Ιδιαίτερη σηµασία για το συγκεκριµένο ϕαινόµενο έχει η ασυµµετρία της επικάλυψης (asymmetry of masking) που σχετίζεται µε την διαφορετική ικανότητα επικάλυψης που παρουσιάζει ένα σήµα ϑορύβου στενής Ϲώνης σε σχέση µε ένα τονικό σήµα [Zwicker (1999), Moore (1995, 2003)]. Πιο συγκεκριµένα, ένα σήµα ϑορύβου στενής Ϲώνης µε κεντρική συχνότητα αυτή ενός τονικού σήµατος είναι πιο αποτελεσµατικό (σε σχέση µε το τονικό σήµα) στην επικάλυψη ενός υπό-εξέταση τονικού σήµατος µε παρόµοιο συχνοτικό περιεχόµενο. (ϐ) Μετά-επικάλυψη (forward masking): Για την δηµιουργία του ϕαινοµένου της µετά-επικάλυψης (στην ϐιβλιογραφία αναφέρεται επίσης ως post-stimulus masking ήpostmasking[zwicker(1999)])τουπό-εξέτασησήµαπαρουσιάζεταιαµέσωςµετά την παύση του επικαλύπτοντος σήµατος. Με την ενέργεια αυτή, το δηµιουργηθέν κατώφλι επικάλυψης δεν µειώνεται απότοµα, αλλά µεσολαβεί ένα χρονικό διάστηµα (της τάξης των µερικών εκατοντάδων ms) έως ότου εκφυλιστεί στο απόλυτο κατώφλι ακουστότητας. ιάφορες παράµετροι που διαµορφώνουν ή καθορίζουν το δηµιουργη- ϑέν κατώφλι επικάλυψης είναι : η χρονική καθυστέρηση του υπό εξέταση σήµατος, η στάθµη και η χρονική διάρκεια του επικαλύπτοντος σήµατος, η χρονική διάρκεια, η ϕάση και το συχνοτικό περιεχόµενο του υπό εξέταση σήµατος καθώς και η συχνοτική διασπορά των δύο σηµάτων [Zwicker (1999), Moore (1995, 2003)]. (γ) Προ-επικάλυψη (backward masking): Το υπό-εξέταση σήµα εµφανίζεται λίγο πριν την έναρξη του επικαλύπτοντος σήµατος για την δηµιουργία του ϕαινοµένου της προεπικάλυψης (στην ϐιβλιογραφία επίσης αναφέρεται ως pre-stimulus masking ή premasking [Zwicker (1999)]). Παρά το γεγονός ότι σηµαντικές έρευνες σχετικά µε το ϕαινόµενο της προ-επικάλυψης έχουν παρουσιαστεί τα τελευταία χρόνια, ο µηχανισµός λειτουργίας της συγκεκριµένης διαδικασίας δεν έχει κατανοηθεί σε ϐάθος. Σε αντίθεση µε την ταυτόχρονη και τη µετά-επικάλυψη η διαδικασία της προ-επικάλυψης εξαρτάται σε σηµαντικό ϐαθµό από την εµπειρία των συµµετέχοντων ακροατών σε σχετικές µετρήσεις ή ελεγχόµενες ακροάσεις. ιάφοροι ερευνητές [Fastl (1976), Raab (1961), Dolan (1984)] έχουν επισηµάνει οτι το ϕαινόµενο της προ-επικάλυψης µπορεί να παρατηρηθεί για ένα χρονικό διάστηµα 20ms (µέγιστη τιµή) πριν την παρουσία του επικαλύπτοντος σήµατος. Επιπλέον, στην εργασία [Weber (1979)] υπονοείται σαφώς οτι το ϕαινόµενο της προ-επικάλυψης καθορίζεται σε σηµαντικό ϐαθµό από ανώτερες εγκεφαλικές λειτουργίες.

43 22 Κεφάλαιο 2 Σχήµα 2.4: Σχηµατικό διάγραµµα για την απεικόνιση και το χαρακτηρισµό χρονικών περιοχών για τις διάφορες περιπτώσεις της ακουστικής επικάλυψης [Zwicker (1999)]. 2.6 Ελάχιστα Αντιληπτή Στάθµη ιαφοράς Η αρχή της Ελάχιστα Αντιληπτής Στάθµη ιαφοράς (Just Noticeable Intensity Difference) [Buchholz (2003, 2004)] υποδηλώνει την µικρότερη αντιληπτή διαφορά α- νάµεσα σε δύο ηχητικά σήµατα τα οποία διαφοροποιούνται σε µια συγκεκριµένη παράµετρο (π.χ. ένταση, συχνότητα κλπ) και κατ επέκταση την ευασθησία του ακροατή στις συγκεκριµένες ηχητικές αλλαγές. Παρόµοια, το ϕαινόµενο της ακουστικής επικάλυψης περιγράφει την ευαισθησία ενός ακροατή στην αλλαγή που επιδέχεται ένα ηχητικό σήµα (επικαλύπτον σήµα) και ηοποίαπροέρχεταιαπότηνεισαγωγή (παρουσία) ενός άλλου αυθαίρετου ηχητικού σήµατος (υπό-εξέταση σήµα). Για το λόγο αυτό η Ελάχιστα Αντιληπτής Στάθµη ιαφοράς (ΕΑΣ ) αποτελεί µια περισσότερο ϑεµελιώδη έννοια σε σχέση µε την ακουστική επικάλυψη και µπορεί να χρησιµοποιηθεί για την διερεύνηση των διαφόρων παραµέτρων που επηρεάζουν την διαδικασία της επικάλυψης. Το παρόν υπολογιστικό µοντέλο ακουστικής επικάλυψης, όπως και άλλες προτεινόµενες υλοποιήσεις στην διεθνή ϐιβλιογραφία,ϐασίζεταιστηνελάχιστα αντιληπτή αλλαγή που πραγµατοποιείται στην εσωτερική αναπαράσταση του σήµατος εισόδου, η οποία εξαρτάται και από την ένταση του ηχητικού σήµατος [Gilkey (1986), Dau (1996a), Plack (1998)]. 2.7 Θεωρία Εκτίµησης και Ανίχνευσης ΗϑεωρίατηςΕκτίµησηςκαιΑνίχνευσηςπαρέχειτηναπαραίτητηµεθοδολογίαγιατην ανάλυση της διαδικασίας απόφασης/ανίχνευσης του ακροατή σε διάφορα πειράµατα ψυχοακουστικής και καθορίζει την ϐέλτιστη ή ιδανική διαδικασία ανίχνευσης κάτω α- πό διαφορετικές καταστάσεις [Green (1988)]. Η ϑεωρία της ανίχνευσης για ακουστικά σήµατα καθορίζει την ανίχνευση ενός κατωφλίου, το οποίο παραδοσιακά ϑεωρείται ως

44 2.7. Θεωρία Εκτίµησης και Ανίχνευσης 23 ηέντασητουυπόεξέτασησήµατοςπάνωαπότηνοποίακάποιοςακροατήςµπορείνα εντοπίσει το σήµα, ενώ κάτω από αυτή αποτυγχάνει. Ωστόσο, µια τέτοια προσέγγιση, τα τελευταία χρόνια δεν ϑεωρείται ικανοποιητική. Με ϐάση τον [Moore (1995, 2003)], είναι προτιµότερο να καθοριστεί µια περιοχή εντάσεων για τις οποίες ο ακροατής σε κάποιες περιπτώσεις ϑα κρίνει ότι το σήµα είναι ακουστό και σε άλλες µη ακουστό. Αυτή η προσέγγιση περιγράφεται µε την έννοια της ψυχοµετρικής συνάρτησης (ϐλ. Σχήµα 2.5) ηοποίαεκφράζειτηνπιθανότητα,εξαρτώµενηαπότηνέντασητουσήµατος, να ληφθεί η απόφαση «το υπό-εξέταση σήµα είναι ακουστό». Με ϐάση το Σχήµα 2.5 οπροσδιορισµόςτοκατωφλίουδίνεταιαπότηνέντασητουσήµατοςγιατηνοποία το συγκεκριµένο σήµα έχει ανιχνευθεί µε πιθανότητα 50%. Η λειτουργία για την δια- Σχήµα 2.5: Τυπική ψυχοµετρική συνάρτηση που απεικονίζει τη µεταβολή της πιθανότητας να χαρακτηρισθεί ένα σήµα ακουστό, σε συνάρτηση µε την ένταση του σήµατος [Buchholz (2003)]. δικασία της ανίχνευσης, ιδανικά µπορεί να περιγραφεί µε έναν ιδεατό παρατηρητή, οοποίοςέχειτηδυνατότηταναεπεξεργαστείένασήµαq(t)τοοποίοέχειαλλοιωθεί από την παρουσία ϑορύβου (ϐλ. Σχήµα 2.6). Η παρουσία του ϑορύβου µπορεί να διαχωρισθεί σε δύο ϐασικές κατηγορίες : (α) εξωτερικός ϑόρυβος, ο οποίος προέρχεται από το περιβάλλον, από τα όργανα καταγραφής, τις ακούσιες κινήσεις του ακροατή κλπ, (ϐ) εσωτερικός ϑόρυβος, ο οποίος κυρίως αποτελείται από τον ενγενή ϑόρυβο που υπάρχει στο έσω αυτί και το «ϑόρυβο κβαντισµού» που οφείλεται στην περιορισµένη ανάλυση που παρέχει το δίκτυο των ακουστικών νευρώνων για την κωδικοποίηση και επεξεργασία που υλοποιεί [Buchholz (2003)]. Ο παρατηρητής που απεικονίζεται στο Σχήµα 2.6, µπορεί να διαχωρισθεί σε ένα στάδιο επεξεργασίας και σε ένα στάδιο απόφασης (ϐλ. Σχήµα 2.7). Με ϐάση την εσωτερική αναπαράσταση του σήµατος q(t), σε κάθε δοκιµή το στάδιο επεξεργασίας παρεχεί µια αντίστοιχη εσωτερική µεταβλητή x, η τιµή της οποίας συγκρίνεται µε ένα στατικό κατώφλι x T. Στην περίπτωση που η τιµή αυτή είναι πάνω από το κατώφλι

45 24 Κεφάλαιο 2 x T το υπό-εξέταση σήµα ϑεωρείται ακουστό, ενώ σε κάθε άλλη περίπτωση ϑεωρείται µη-ακουστό. Πρέπει να επισηµανθεί ότι η εσωτερική µεταβλητή q(t) εξαρτάται από την ένταση του σήµατος εισόδου και ότι µόνο αυτή η παράµετρος διαφοροποιείται στην παραπάνω διαδικασία µε την εισαγωγή τουυπό-εξέτασησήµατος. Γιαλεπτο- µερή προσέγγιση του ϑέµατος, ο αναγνώστης παραπέµπεται στις εργασίες [Buchholz (2003, 2004)]. Σχήµα 2.6: Σχηµατικό διάγραµµα για τις ενέργειες που πραγµατοποιούνται σε µια διαδικασία ανίχνευσης. Η απόφαση επηρεάζεται από δύο προσθετικές πηγές ϑορύ- ϐου : εξωτερικός ϑόρυβος n(t), εσωτερικός ϑόρυβος m(t) [Buchholz (2003)]. Σχήµα 2.7: Μοντελοποίηση του παρατηρητή (ϐλ. Σχήµα 2.6). Το ηχητικό σήµα διέρχεται από στάδιο επεξεργασίας και η έξοδος x συγκρίνεται µε ένα στατικό κατώφλι x T [Buchholz (2003)]. 2.8 Χωρική Ακουστική Αντίληψη Εισαγωγή Οτρόποςµετονοποίοαντιλαµβανόµαστεέναακουστικόγεγονός,πουεξελίσσεταιστο χώρο, παρουσιάζει παρόµοια χαρακτηριστικά µε τον τρόπο που αντιλαµβανόµαστε, µέσω του οπτικού µας συστήµατος, µια οπτική εικόνα. Ταδιαφορετικάαντικείµενα τα οποία είναι µέρος της χωρικής ακουστικής εικόνας,αναφέρονταιωςακουστικάγεγονότα. Για παράδειγµα, τα ακουστικά γεγονότα σε µια µουσική παράσταση είναι τα διαφορετικά µουσικά όργανα τα οποία συµµετέχουν σε αυτή. Σε µια προσπάθεια να κατανοήσουµε πως το ακουστικό σύστηµα διακρίνει την κατεύθυνση µιας πηγής, οι

46 2.8. Χωρική Ακουστική Αντίληψη 25 ιδιότητες των σηµάτων στις εισόδους των ακουστικών καναλιών, πρέπει να ληφθούν υ- πόψη. Χωρίς ϐλάβη της γενικότητας, τα σήµατα στην είσοδο των ακουστικών καναλιών µπορεί να ϑεωρηθούν ως ϕιλτραρισµένες εκδόσεις του αρχικού σήµατος. Τα ϕίλτρα τα οποία µοντελοποιούν τη διαδροµή του σήµατος απο την πηγή στις εισόδους των α- κουστικών καναλιών, αναφέρονται και ως συναρτήσεις HRTF (Head Related Transfer Functions) [Brungart (1999), Cheung (1998)]. (a) (b) Σχήµα 2.8: (a) Μοντελοποίηση των διαφορετικών διαδροµών από την πηγή στις α- κουστικές εισόδους µε χρήση συναρτήσεων HRTF, (b) Συσχέτιση της γωνίας ϕ µε τις αποστάσεις d 1 και d 2 και τη δηµιουργία διαφορετικών χρόνων άφιξης. Επιπρόσθετα, η σκίαση του κεφαλιού επιφέρει διαφορές στις στάθµες των σηµάτων εισόδου ως συνάρτηση της γωνίας ϕ. Το Σχήµα 2.8, απεικονίζειτιςδύο(αριστερά-δεξιά)συναρτήσειςhrtfs,h 1 και h 2, για µια πηγή σε γωνία ϕ. Για διαφορετική ϑέση της πηγής, αντίστοιχες συναρτήσεις HRTFs πρέπει να χρησιµοποιηθούν για την µοντελοποίησητωνσηµάτωνκατάστην είσοδο τους στα ακουστικά κανάλια. Η διαφορά του µήκους των διαδροµών από την πηγή στα ακουστικά κανάλια, d 1 d 2,µπορείναεκφραστείωςσυνάρτησητης γωνίας ϕ. Εξ αιτίας του διαφορετικού µήκους των διαδροµών d 1 και d 2,υπάρχουν διαφορετικοί χρόνοι άφιξης για τα σήµατα στις ακουστικές εισόδους. Η πιο απλή σχέση (στην ϐιβλιογραφία αναφέρεται ως sine law [Blauert (1997)]) που περιγράφει τις διαφορές των διαδροµών ανάµεσα στις δύο ακουστικές εισόδους, προτάθηκε από τον Hornbostel [von Hornbostel (1920)] και δίνεται ακολούθως : d = k sinϕ, k =21cm (2.2) όπου το k περιγράφει την απόσταση ανάµεσα σε δυο µικρόφωνα τα όποια µοντελοποιούν τις δυο ακουστικές εισόδους. Επειδή το καµπύλο τµήµα από το κεφάλι δεν λαµβάνεται υπόψη, επιλέγεται µια µεγαλύτερη τιµή για το k σε σχέση µε την πραγµατική απόσταση των δυο ακουστικών εισόδων. Ενας ακόµης περιορισµός που εισάγει ηπαραπάνωέκφραση,είναιοτιδενλαµβάνειυπόψητηνσκίασητηςκεφαλής,δηλαδή την επίδραση στις εντάσεις των σηµάτων κατά την είσοδο τους στα ακουστικά κανάλια.

47 26 Κεφάλαιο 2 ιάφορες ϐελτιωµένες εκδόσεις της Εξ. (2.2) έχουν προταθεί όπου λαµβάνουν υπόψη την καµπύλη διαδροµή του ηχητικού σήµατος γύρω από το κεφάλι, µια καταγραφή των οποίων δίνεται στην εργασία [Blauert (1997)] Ενδο-ωτικές Παράµετροι Ως αποτέλεσµα των διαφορετικών διαδροµών ανάµεσα στην πηγή και τις δύο ακουστικές εισόδους, διαφορετικοί χρόνοι άφιξης του ηχητικού σήµατος καταγράφονται στις δυο ακουστικές εισόδους, οι οποίοι καθορίζουν την ενδο-ωτική χρονική διαφο- ϱά (inter-aural time difference, ITD) [Blauert (1997)]. Αντίστοιχα, η σκίαση της κεφαλής δηµιουργεί διαφορετικές στάθµες στις εντάσεις του ηχητικού σήµατος στις δυο ακουστικές εισόδους, οι οποίες διαµορφώνουν την ενδο-ωτική στάθµη διαφοράς (interaural level difference, ILD) [Blauert (1997)]. Γενικότερα ϕαινόµενα διάχυσης, ανακλάσεων και συντονισµού που οφείλονται στο κεφάλι, τον κορµό καθώς και το ε- ξωτερικό αυτί, έχουν ως αποτέλεσµα οι παράµετροι ILD και ITD, εκτός από την γωνία ϕ, ναεξαρτώνταικαιαπότοείδοςτουηχητικούσήµατος[faller(2004)]. Απότην προηγούµενη συζήτηση προκύπτει ότι οι παράµετροι ILD και ITD είναι ιδιότητες των ακουστικών σηµάτων εισόδου και παρέχουν στο ακουστικό σύστηµα την απαραίτητη πληροφορία για τον προσδιορισµό της κατεύθυνσης µιας πηγής. Συνεπώς, ένα Ϲευγάρι τιµών ILD-ITD µπορεί να συσχετισθεί µε την προσδιορισµό της διεύθυνσης µιας πηγής. Στην περίπτωση αναπαραγωγής ηχητικών σηµάτων µέσω ακουστικών, τα σήµατα στις ακουστικές εισόδους µπορούν να ϑεωρηθούν (ιδανικά) ισοδύναµα µε αυτά που µεταφέρονται από την πηγή στους ηλεκτροακουστικούς µετατροπείς των ακουστικών. Οπότε είναι εφικτή η ανεξάρτητη αξιολόγηση των παραµέτρων ILD και ITD µε τη χρήση ακουστικών σε κατάλληλες πειραµατικές διατάξεις. Στο Σχήµα 2.9, απεικονίζεται η πειραµατική διάταξη για την δηµιουργία συναφών ηχητικών σηµάτων (όπου ο δείκτης n αναφέρεται σε ακολουθίες διακριτού χρόνου) στις δύο ακουστικές εισόδους (αριστερά-δεξιά), e 1 (n) και e 2 (n), απόένααρχικόηχητικόσήµα(πηγή) s(n). Η παράµετρος ITD καθορίζεται από τις καθυστερήσεις d 1,d 2 και είναι ίση µε d 2 d 1, ενώ η παράµετρος ILD καθορίζεται από τους συντελεστές κλίµακας a 1 και a 2 και εκφράζεται σε db από την σχέση 20 log 10 (a 2 /a 1 ). Στο Σχήµα 2.10(a) απεικονίζονται τα αντιληπτά ακουστικά γεγονότα για διαφο- ϱετικές τιµές των ITD και ILD [Blauert (1997)] για δυο συναφή ηχητικά σήµατα τα οποία αναπαράγονται µε ϐάση την πειραµατική διάταξη του Σχήµατος 2.9. Στην περίπτωση που τα δύο σήµατα είναι συναφή (coherent), τότε έχουν την ίδια στάθµη (ILD=0) και καµµία χρονική καθυστέρηση (ITD=0) και το ακουστικό γεγονός εντοπί- Ϲεται στο κέντρο ανάµεσα στις δύο ακουστικές εισόδους, όπως ϕαίνεται στην Περιοχή 1στοΣχήµα 2.10(a). Αυξάνονταςτηνηχητικήστάθµησεµιαπλευρά(π.χ.δεξιά),το

48 2.8. Χωρική Ακουστική Αντίληψη 27 Σχήµα 2.9: Πειραµατική διάταξη για την δηµιουργία σηµάτων για την αριστερή και δεξιά ακουστική είσοδο µε συγκεκριµένο ITD και ILD [Faller (2003)]. ακουστικό γεγονός µετατοπίζεται αντίστοιχα όπως ϕαίνεται στην Περιοχή 2 στο Σχήµα 2.10(a). Στην ιδιάζουσα περίπτωση που µόνο το ηχητικό σήµα στην αριστερή πλευ- ϱά είναι ενεργό, το ακουστικό γεγονός περιορίζεται στην Περιοχή 3 (Σχήµα 2.10(a)). Αντίστοιχα η παράµετρος ITD µπορεί να χρησιµοποιηθεί µε παρόµοιο τρόπο για τον έλεγχο της ϑέσης του ακουστικού γεγονότος. (a) (b) Σχήµα 2.10: (a) Καθορισµός της ϑέσης του ακουστικού γεγονότος στο επάνω µέρος της κεφαλής, όπως προκύπτει από τις παραµέτρους ILD και ITD (b) Το εύρος του ακουστικού γεγονότος αυξάνει (Περιοχές 1-3) καθώς η παράµετρος IC µειώνεται, έως ότου δύο διακριτά ακουστικά γενονότα να δηµιουργηθούν (Περιοχή 4) [Faller (2003)]. Εκτός από τις παραµέτρους ITD και ILD, µια ακόµη παράµετρος χρησιµοποιείται, ηοποίααποτελείµιαµέτρησητουϐαθµούοµοιότηταςανάµεσασταδυοσήµαταστις ακουστικές εισόδους και αναφέρεται ως ενδο-ωτική συνάφεια (inter-aural coherence, IC) [Blauert (1997)]. Στην παρούσα εργασία όπως και στην [Faller (2003, 2004)] η IC παράµετρος ορίζεται ως η µέγιστη απόλυτη τιµήτηςκανονικοποιηµένηςσυνάρτησης

49 28 Κεφάλαιο 2 ετεροσυσχέτισης και δίνεται από τη σχέση : IC =max d e 1 (n) e 2 (n + d) e 2 1 (n) e 2 1 (n + d) n= (2.3) όπου η καθυστέρηση d [ 1, 1]ms. Η παράµετρος IC όπως έχει οριστεί στην Εξ. (2.3), έχει περιοχή τιµών από 0 (ανεξάρτητα σήµατα) έως 1 (παρόµοια σήµατα). Στην περίπτωση που τα σήµατα που αναπαράγονται από τους ηλεκτροακουστικούς µετατροπείς των ακουστικών είναι παρόµοια (IC=1), ένα κεντρικό ακουστικό γενονός είναι αντιληπτό (Περιοχή 1 στο Σχήµα 2.10(b)). Καθώς η παράµετρος IC µειώνεται, το εύρος του ακουστικού γεγονότος αυξάνεται (Περιοχές 2-3 στο Σχήµα 2.10(b)), ενώ στην οριακή τιµή IC=0, έχουµε δυο διακριτά ακουστικά γεγονότα, όπως ϕαίνεται στην Περιοχή 4 στο Σχήµα 2.10(b) [Chernyak (1968)] Ενδο-καναλικές Παράµετροι Ηχωρικήακουστικήαντίληψηγιαδυοηχητικέςπηγέςέχειιδιαίτερηπρακτικήσηµασία, γιατί η ακρόαση σε ένα τυπικό στερεοφωνικό σύστηµα αναπαραγωγής εξαρτάται από υποκειµενικές παραµέτρους που σχετίζονται µε τις δυο αυτές ηχητικές πηγές. Προφανώς, στην περίπτωση του στερεοφωνικού συστήµατος αναπαραγωγής οι δύο ηλεκτροακουστικοί µετατροπείς (ηχεία) είναι και οι δυο διακριτές ηχητικές πηγές. Επίσης και η ακρόαση σε ένα πολυκαναλικό σύστηµα αναπαραγωγής σχετίζεται µε παρόµοια υποκειµενικά ϕαινόµενα που προκύπτουν από την περίπτωση των δυο διακριτών ηχητικών πηγών. Στην προηγούµενη παράγραφο, οι παράµετροι ITD και ILD για τα σήµατα στις ακουστικές εισόδους, σχετίζοταν άµεσα µε τη γωνία ϕ της πηγής. Με ϐάση την παρατήρηση αυτή, τα αντίστοιχα υποκειµενικά ϕαινόµενα των ITD, ILD και IC συζητήθηκαν. Για την περίπτωση δυο διακριτών ηχητικών πηγών σε συγκεκριµένη απόσταση (π.χ. έ- να Ϲεύγος ηχείων) οι παράµετροι ITD, ILD καιicκαθορίζονταιαπότιςσυναρτήσεις HRTFs (για τις δυο ηχητικές πηγές και για το συγκεκριµένο ηχητικό σήµα). Ωστόσο, ϑα ήταν χρήσιµο να εξετάσουµε τη συµπεριφορά παραµέτρων παρόµοιων µε τις ITD, ILD και IC, σε σχέση όµως µε τις ηχητικές πηγές (ηχητικά κανάλια) και όχι για τα σήµατα στις ακουστικές εισόδους. Για τον διαχωρισµό αυτό οι συγκεκριµένες πα- ϱάµετροι αναφέρονται αντίστοιχα ως ενδο-καναλική χρονική διαφορά (inter-channel time difference, ICTD), ενδο-καναλική στάθµη διαφοράς (inter-channel level difference, ICLD) και ενδο-καναλική συνάφεια (inter-channel coherence, ICC) [Baumgarte (2003), Faller (2006), Breebaart (2007)]. Προφανώς, για την αναπαραγωγή µέσω

50 2.8. Χωρική Ακουστική Αντίληψη 29 ακουστικών οι παράµετροι ITD, ILD και IC είναι (ιδανικά) ταυτόσηµες µε τις παραµέτρους ICTD, ICLD και ICC. Στο Σχήµα 2.11 απεικονίζονται οι ϑέσεις των αντιληπτών (a) (b) Σχήµα 2.11: (a) Ενα Ϲεύγος τιµών των παραµέτρων ICTD και ICLD καθορίζει τη ϑέση του ακουστικού γεγονότος ανάµεσα σε δύο ηχητικές πηγές, (b) Το εύρος του ακουστικού γεγονότος για ένα Ϲεύγος ηλεκτροακουστικών µετατροπεών, αυξάνεται (Περιοχές 1-3) καθώς η παράµετρος ICC για τα δυο ηχητικά σήµατα µειώνεται [Faller (2003)]. ακουστικών γεγονότων για διαφορετικές τιµές της παραµέτρου ICLD για δύο ηχητικές πηγές [Blauert 1997]. Στην περίπτωση που τα ηχητικά σήµατα των δυο ηχείων (πηγών) είναι ίδια (ICC=1), έχουν την ίδια ηχητική στάθµη (ICLD=0) και καµία χρονική διαφορά (ICTD=0), τότε το ακουστικό γεγονός εντοπίζεται στο κέντρο των δύο πηγών, όπως ϕαίνεται στην Περιοχή 1 στο Σχήµα 2.11(a). Αυξάνοντας την ηχητική σταθµή σε µια εκ των δυο ϑέσεων (π.χ. δεξιά) το ακουστικό γεγονός µετατοπίζεται αντίστοιχα (Περιοχή 2 στο Σχήµα 2.11(a)). Στην εξαιρετική περίπτωση που µόνο µία εκ των δύο πηγών είναι ενεργή (π.χ. αριστερή) τότε το ακουστικό γεγονός περιορίζεται µόνο στην συγκεκριµένη ϑέση, όπως ϕαίνεται στο Σχήµα 2.11(a) για την Περιοχή 3. Αντίστοιχα, ηπαράµετροςictdµπορείναχρησιµοποιηθείγιατονέλεγχοτηςϑέσηςτουακουστικού γεγονότος. Κατ αντιστοιχία και µε την παράµετρο IC, όταν ICC=1, ένα κεντρικό ακουστικό γενονός είναι αντιληπτό (Περιοχή 1 στο Σχήµα 2.11(b)) ενώκαθώςηπα- ϱάµετρος ICC µειώνεται, το εύρος του ακουστικού γεγονότος αυξάνεται (Περιοχές 2-3 στο Σχήµα 2.11(b)) [Blauert1997].Τοϕαινόµενο(στηνϐιβλιογραφίααναφέρεταιως summing localization [Blauert (1997), Faller (2006)]) κατά το οποίο ένα ακουστικό γεγονός εντοπίζεται ανάµεσα σε ένα Ϲεύγος ηλεκτροακουστικών µετατροπεών (ηχείων) οφείλεται στο οτι οι παράµετροι ITD και ILD (από τα σήµατα στις ακουστικές εισόδους) αποτελούν προσέγγιση των αντίστοιχων παραµέτρων που ϑα προέκυπταν, εάν µια ϕυσική ηχητική πηγή τοποθετούνταν στην διεύθυνση του ακουστικού γεγονότος. Στην παρούσα εργασία, και για τον περιορισµό της υπολογιστικής πολυπλοκότητας που αναπόφευκτα ϑα δηµιουργούσε ο προσδιορισµός των συναρτήσεων HRTFs,οιενδο-καναλικέςπαράµετροιχρησιµοποιήθηκαν ως ένα συµπληρωµατικό στάδιο στο Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης για την επεξεργασία ηχητικών

51 30 Κεφάλαιο 2 δεδοµένων. Η διαδικασία για τον προσδιορισµό των ενδο-καναλικών παραµέτρων, περιγράφεται αναλυτικά στο επόµενο κεφάλαιο, και για τις περιπτώσεις ελεγχόµενων σεναρίων (όπως είναι η αναπαραγωγή ηχητικών σηµατών µέσω ακουστικών) αποτελούν ικανοποιητική προσέγγιση των ενδο-ωτικών παραµέτρων. 2.9 Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης Εισαγωγή Το συγκεκριµένο Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) εισάγει µια µη-γραµµική επεξεργασία σήµατος, αναφερόµενη ως Συµπίεση Εξαρτώµενη του Σή- µατος (ΣΕΣ), η οποία είναι απαραίτητη για την περιγραφή διαφόρων ενγενών ϕαινο- µένων που άπτονται της ϕυσιολογίας και της γενικότερης λειτουργίας του ανθρώπινου ακουστικού συστήµατος. Η µη-γραµµική διαδικασία ΣΕΣ αποτελείται από µια στατική συνάρτηση συµπίεσης και ένα σηµείο λειτουργίας (operating point) το οποίο καθορίζει το ϐαθµό συµπίεσης, κύρια εξαρτώµενο από την χρονική εξέλιξη του σή- µατος εισόδου. Τα στατικά χαρακτηριστικά της µη-γραµµικής συνάρτησης (ΣΕΣ) σχετίζονται σε µεγάλο ϐαθµό µε την µη-γραµµικότητα της ϐασικής µεµβράνης. Η ΣΕΣ έχει ενσωµατωθεί µε κατάλληλες τροποποιήσεις στο ΥΜΑΕ και περιγράφει επιτυχώς διάφορες πτυχές της ακουστικής επικάλυψης όπως αυτές καταγράφονται στην διεθνή ϐιβλιογραφία [Moore (1995, 2003), Zwicker (1999)]. Το συγκεκριµένο µοντέλο επιτρέπει την αποτελεσµατική επεξεργασία σήµατος όπως αυτή καθορίζεται στις διάφορες ϐαθµίδες ενώ είναι σηµαντική η συσχέτιση των αποτελεσµάτων µε δεδοµένα που προκύπτουν από τη ϕυσιολογία του ακουστικού συστήµατος Γενική οµή Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης Με ϐάση το µονοπάτι επεξεργασίας που καθορίζει το ΥΜΑΕ (ϐλ. Σχήµα 2.12), το σήµα εισόδου αρχικά εισάγεται σε ένα στάδιο προ-επεξεργασίας, ακολουθεί το µηγραµµικό στάδιο της Συµπίεσης Εξαρτώµενης Σήµατος (ΣΕΣ) και το τελικό σήµα οδηγείται σε µια ιαδικασία Απόφασης ( Α) όπου παράλληλα γίνεται και η χρήση κατάλληλα οριζόµενων στατικών κατωφλίων. Το στάδιο της προ-επεξεργασίας αποτελείται από µια τράπεζα Ϲωνοδιαβατών ϕίλτρων, από µια διάταξη ανόρθωσης και ένα χαµηλοδιαβατό ϕίλτρο το οποίο έχει χρησιµοποιηθεί επιτυχώς για την µοντελοποίηση της ακουστικής επικάλυψης των ανακλάσεων σε κλειστούς χώρους [Buchholz (2001)]. Η υπάρχουσα δοµή του ΥΜΑΕ επιτρέπει την επέκταση του και σε αµφιωτικές (binaural) υλοποιήσεις υιοθετώντας αντίστοιχα στάδια προ-επεξεργασίας που έχουν ενσωµατωθεί επιτυχώς και περιγράφονται από τον J. Blauert [Blauert (1997)]. Σε κάθε περίπτωση, το στάδιο Α υλοποιείται µε τον υπολογισµό της διαφοράς z (n),

52 2.9. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 31 ανάµεσα στην απόκριση/έξοδο του ΥΜΑΕ για είσοδο το επικαλύπτον σήµα µαζί µε το υπό-εξέταση σήµα και την απόκριση/έξοδο του ΥΜΑΕ για είσοδο το επικαλύπτον σήµα (ϐλ. Σχήµα 2.12). Σχήµα 2.12: οµικό διάγραµµα του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ). Το αρχικό στάδιο του ΥΜΑΕ (ϐλ. Σχήµα 2.12) αποτελείταιαπόµιατράπεζαϕίλτρων τύπου gammatone (ϐλ. Παράρτηµα Α.2), η οποία περιγράφει τη συχνοτική ανάλυση που επιτελείται στην ϐασική µεµβράνη [Patterson (1976, 1995)]. Η διάταξη ανόρθωσης που ακολουθεί σε συνδυασµό µε ένα χαµηλοδιαβατό ϕίλτρο (5 ης τάξης τύπου Butterworth, µε συχνότητα αποκοπής f g =1kHz) αναφέρονταιστηµετατροπή (µηχανική σε ηλεκτρική) που υλοποιείται στα τριχοειδή κύτταρα (inner hair cells), ε- νώ οποιοδήποτε ϕαινόµενο προσαρµογής που ακολουθεί περιγράφεται από το στάδιο ΣΕΣ. Το στάδιο της ολοκλήρωσης αναφέρεται στην χρονική ολοκλήρωση του σήµατος εισόδου, ένα ακουστικό ϕαινόµενο που περιγράφεται εκτενώς στο [Dau (1997)] και υ- λοποιείται µε ένα χαµηλοδιαβατό ϕίλτρο 1 ης τάξης µε συχνότητα αποκοπης f g =4Hz [Dau (1997)]. Στο συγκεκριµένο ακουστικό µοντέλο το στάδιο της προ-επεξεργασίας, το στάδιο ΣΕΣ και η χρονική ολοκλήρωση αποτελούν το κύριο τµήµα της επεξεργασίας του σήµατος εισόδου που επιτελούνται από τα «κατώτερα επίπεδα» του ανθρώπινου ακουστικού συστήµατος, ενώ η έξοδος απο τη Α χρησιµοποείται για την αξιολόγηση του µοντέλου µε ϐάση τα ϕαινόµενα ακουστικής επικάλυψης. Συνεπώς, η Α ανα- ϕέρεται σε λειτουργίες που εντοπίζονται σε «ανώτερα επίπεδα» του ακουστικού συστή- µατος και σχετίζονται µε το εκάστοτε ϕαινόµενο επικάλυψης. Στο σηµείο αυτό πρέπει να επισηµανθεί ότι η επεξεργασία σήµατοςόπωςπεριγράφηκεπαραπάνωϑεωρείται οτι είναι ισοδύναµη για κάθε συχνοτική περιοχή, παρόλου που κάποιες παράµετροι επεξεργασίας µπορεί να διαφέρουν σε πρακτικές υλοποιήσεις. Στις παραγράφους που ακολουθούν, οι τυπικές διεργασίες του υπολογιστικού µοντέλου αναφέρονται για µια µόνο συχνοτική περιοχή.

53 32 Κεφάλαιο Συµπίεση Εξαρτώµενη Σήµατος Σε µια προσπάθεια να περιγραφεί η λειτουργία του µηχανισµού Συµπίεσης Εξαρτώ- µενης Σήµατος (ΣΕΣ) είναι χρήσιµο να συγκρίνουµε την λειτουργία του µε αυτή ενός µη-γραµµικού στοιχείου που χρησιµοποιείται ευρέως στον τοµέα της Ηλεκτρονικής, όπως για παράδειγµα το τρανζίστορ. Γενικά, το τρανζίστορ χαρακτηρίζεται από µια συνάρτηση εισόδου-εξόδου και ένα σηµείο λειτουργίας, το οποίο καθορίζεται από ένα DC-offset κέρδος και εν γένει διαχωρίζεται µε τη χρήση ενός υψι-περατού ϕίλτρου. Το στάδιο ΣΕΣ, µπορεί να ϑεωρηθεί, χωρίς ϐλάβη της γενικότητας, ως ένα παρόµοιο διακριτό στοιχείο το οποίο, στην συγκεκριµένη περίπτωση, υλοποιείται µε την χρήση τεχνικών ψηφιακής επεξεργασίας σήµατος. Με ϐάση αυτήν την αναλογία, τα δύο ϐασικά µεγέθη, ϱεύµα I και τάση U, που προσδιορίζουν την λειτουργία του τρανζίστορ, αντικαθίστανται από τα διακριτού χρόνου σήµατα εισόδου s x (n) και εξόδου s y (n). Με αναφορά το Σχήµα 2.13, στοοποίοπαρουσιάζεταιηϐασικήαρχήλειτουργίαςτου ΣΕΣ, µπορεί κανείς να παρατηρήσει οτι το offset (κέρδος), το οποίο καθορίζεται από το σηµείο λειτουργίας s op,x (n), προστίθεταιστοσήµαεισόδουs x (n) και απεικονίζεται στη συνέχεια, µέσω µιας στατικής συνάρτησης συµπίεσης Ψ, στην έξοδο. Συνεπώς, ηέξοδοςαποτελείταιαπότοάθροισµατουσυµπιεσµένουσήµατοςεισόδουs y (n) και του συµπιεσµένου σήµατος s op,y (n) που καθορίζει το σηµείο λειτουργίας. Προφανώς, το σήµα s op,y (n) µπορεί να αποµακρυνθεί µε µια διαδικασία απλής αφαίρεσης. Σχήµα 2.13: Απεικόνιση της ϐασικής αρχής λειτουργίας της Συµπίεσης Εξαρτώµενης του Σήµατος (ΣΕΣ) [Buchholz (2003)]. Είναι προφανές, από το Σχήµα 2.13, ότι η τιµή του σηµείου λειτουργίας καθορί- Ϲει το ϱυθµό συµπίεσης του σήµατος εισόδου s x (n). Σε αντίθεση µε τη λειτουργία

54 2.9. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 33 του τρανζίστορ, στη συγκεκριµένη προσέγγιση το offset (κέρδος) δεν παραµένει στατικό, αλλά µεταβάλλεται µε το χρόνο (και σε πιο οµαλούς ϱυθµούς σε σχέση µε το σήµα εισόδου s x (n)), προσδίδοντας συνεπώς, δυναµικά χαρακτηριστικά στον τρόπο λειτουργίας του σταδίου ΣΕΣ. Συνεπώς, οι µαθηµατικές εκφράσεις σε διακριτό χρόνο που περιγράφουν τη ϐασική επεξεργασία στο στάδιο ΣΕΣ είναι : s y (n) =Ψ{ s x (n τ)+s op,x (n)} Ψ { s op,x (n)}, (2.4) s op,y (n) =Ψ{ s op,x (n)}, (2.5) όπου Ψ είναι µια στατική συνάρτηση (εισόδου-εξόδου) συµπίεσης, s x (n) είναι το σή- µα εισόδου, s y (n) είναι το σήµα εξόδου και s op,x (n) είναι το σήµα που καθορίζει το σηµείο λειτουργίας. Η χρονική καθυστέρηση τ προστίθεται για να αντισταθµίσει την σταθερή καθυστέρηση οµάδας (group delay) η οποία εισάγεται από τους σχετικούς υπολογισµούς του σηµείου λειτουργίας. Να επισηµανθεί ότι µε αυστηρή µαθηµατική προσέγγιση, ο όρος s op,x (n) αντιστοιχεί στον όρο s op,x (s x (n),n), όµωςγιαλόγους απλότητας έχει χρησιµοποιηθεί η πρώτη έκφραση. Θεωρητικά, ένας αριθµός διαφο- ϱετικών δοµών ΣΕΣ µπορούν να χρησιµοποιηθούν για την προσοµοίωση των κύριων ϕαινοµένων επικάλυψης, στην συγκεκριµένη περίπτωση όµως η ανάλυση ϑα περιοριστεί σε µια ϐασική δοµή, της οποίας η µαθηµατική έκφραση προκύπτει από την Εξ. (2.4): s y (n) =Ψ{ s x (n)+s op,x (n)} Ψ{ s op,x (n)}. (2.6) Συγκρίνοντας τις Εξ. (2.6) και (2.4), παρατηρούµε ότι η χρονική καθυστέρηση τ έχει τεθεί ίση µε το µηδέν (τ =0). Η προτεινόµενη στατική και µη-γραµµική συνάρτηση Ψ δίνεται από τη σχέση : Ψ(x) =10log 10 (x +1), (2.7) όπου σαν δεδοµένα εισόδου (όπως καθορίζονται από την ποσότητα x είναι σε κάθε περίπτωση το άθροισµα των σηµάτων s op,x (n) και s x (n) ήµόνοτοs op,x (n) (Εξ. 2.6). Επιπρόσθετα, το σήµα s op,x (n) (καθορίζει το σηµείο λειτουργίας) προκύπτει µε ϐάση µια µη-γραµµική ολοκλήρωση που περιγράφεται από τις ακόλουθες σχέσεις : 10 log 10 (s op,x (n)+1) = [10log 10 (g k s op,x (n)+1)] h(n), h(n) = αh norm (n), (2.8) όπου g k και α είναι σταθεροί συντελεστές κέρδους, h norm (n) είναι ένα γραµµικό ϕίλτρο (running integrator) µε ενέργεια ίση µε τη µονάδα και µε τον τελεστή * να υποδηλώνει την πράξη της συνέλιξης. Ο συντελεστής κέρδους g k αναφέρεται στην

55 34 Κεφάλαιο 2 ενεργή στάθµη του σήµατος s op,x (n) η οποία µπορεί να διαφοροποιείται σε κάθε συχνοτική περιοχή k. ΜεϐάσητηνΕξ.(2.7),ηΕξ(2.8)επαναδιατυπώνεταιωςεξής: Ψ(s op,x (n)) = Ψ {g k s x (n)} h(n). (2.9) Οπως είναι προφανές, από τις Εξ. (2.6) και (2.9) η µόνη µη-γραµµική συνάρτηση που χρησιµοποιείται είναι η συνάρτηση Ψ. Για την επίλυση της Εξ. (2.6), αρχικά πρέπει να επιλυθεί ως προς το s op,x (n) ηεξ.(2.8),απότηνοποίαπροκύπτειότι: s op,x (n) =10 [log 10 (g k s x(n)+1)] h(n). (2.10) Ηκρουστικήαπόκρισηh norm (n) του ϕίλτρου (η ενέργεια του οποίου είναι κανονικοποιηµένη στη µονάδα) ϑεωρείται ότι προκύπτει από το Ϲυγισµένο άθροισµα L εκθετικών συναρτήσεων, όπως ϕαίνεται από την ακόλουθη σχέση : h norm (n) = L c j e n n j, (2.11) j=1 όπου οι παράµετροι c j και n j είναι συντελεστές κέρδους και χρονικές σταθερές αντίστοιχα, ενώ η παράµετρος L είναι ίση µε 3, µε αποτέλεσµα το ϕίλτρο h norm (n) να αποτελεί ικανοποιητική προσέγγιση µιας υπερβολικής συνάρτησης. Πρακτικά, το ϕίλτρο h norm (n) υλοποιείται ως το Ϲυγισµένο άθροισµα L ανεξάρτητων πρώτης τάξης χαµηλοδιαβατών IIR ϕίλτρων, όπως περιγράφεται λεπτοµερώς στο Παράρτηµα Α.1. Συνδυάζοντας τις Εξ. (2.7) και (2.10) µε την Εξ. (2.6), προκύπτουν οι ακόλουθες σχέσεις : ( s y (n) = 10 log s ) x(n) s, (2.12) op,x s op,x = s op,x (n)+1 = 10 [log 10 (g k s x(n)+1)] h(n) N 1 [log 10 (g k s x (n k)+1)] h(k) = 10k=0, (2.13) όπου N (αριθµός δειγµάτων) είναι το µήκος του ϕίλτρου h(n). Η ενσωµάτωση του απόλυτου κατωφλιού ακουστότητας L TQ στους σχετικούς υπολογισµούς, επιτυγχάνεται µε τη χρήση ενός χαµηλής στάθµης σήµατος ϑορύβου n x (n), τοοποίουπερτίθεται στο σήµα εισόδου s x (n), µεαποτέλεσµαηεξ.(2.12)ναεπαναδιατυπωθείωςεξής: ( s y (n) =10 log s ) x(n)+n x (n) s op,x(n) (2.14)

56 2.9. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 35 Το σήµα ϑορύβου n x (n) αναπαριστά µια διαδικασία που ϐασίζεται στη ϕυσιολογία του ανθρώπινου ακουστικού συστήµατος [Soderquist (1972)] και στην συγκεκριµένη υλοποίηση προσοµοιώνεται µε κατάλληλα µορφοποιηµένο σήµα λευκού ϑορύβου, το οποίο διέρχεται από το στάδιο προ-επεξεργασίας που καθορίζει το ΥΜΑΕ Υλοποίηση Σταδίου ΣΕΣ µέσω Ψηφιακής Επεξεργασίας Σήµατος Με ϐάση την µαθηµατική περιγραφή του σταδίου Συµπίεσης Εξαρτώµενης Σήµατος (ΣΕΣ) στην Παράγραφο 2.9.3, στοσχήµα 2.14 περιγράφεται µια πιθανή υλοποίηση του ΣΕΣ (για την ανάλυση του σήµατος σε µια συχνοτική περιοχή) µέσω ψηφιακής ε- πεξεργασίας σήµατος. Πρέπει να επισηµανθεί ότι µια τέτοια υλοποίηση είναι ιδιαίτερα αποτελεσµατική στην περίπτωση που χρησιµοποιηθούν IIR ϕίλτρα για τον σχεδιασµό του ϕίλτρου h(n) (ϐλ. Παράρτηµα Α.1). Με ϐάση το Σχήµα 2.14 είναι προφανές ότι καθορίζονται δύο διακριτά µονοπάτια επεξεργασίας, για το σήµα s x (n) και για το s op,x (n) που προσδιορίζει το σηµείο λειτουργίας. Το σήµα s op,x (n) προκύπτει από την µη-γραµµική διαδικασία ολοκλήρωσης που υλοποιείται από την συµπίεση µέσω της στατικής συνάρτησης Ψ, ακολουθούµενηαπόέναχαµηλοδιαβατόϕίλτροh norm (n) και µια σταθερά κέρδους σ και ολοκληρώνεται από την αντίστροφη συνάρτηση Ψ 1. Σχήµα 2.14: Σχηµατικό διάγραµµα για την υλοποίηση του σταδίου ΣΕΣ µέσω ψη- ϕιακής επεξεργασίας σήµατος. Τα σήµατα εισόδου-εξόδου υποδηλώνονται µε τους δείκτες x και y αντίστοιχα. Το σήµα n x (n) αναφέρεται σε χαµηλής στάθµης εσωτερικό ϑόρυβο [Buchholz (2003)]. Θεωρώντας ότι ο εσωτερικός ϑόρυβος n x (n) στην Εξ. (2.14) µπορεί να αντικατασταθεί από µια σταθερή τιµή, τότε το στάδιο ΣΕΣ µπορεί να χαρακτηρισθεί ως ένα χρονικά αµετάβλητο και µη-γραµµικό σύστηµα µε µνήµη. Η ευστάθεια της προτεινόµενης δοµής του ΣΕΣ συστήµατος εξαρτάται µόνο από τις ιδιότητες των συγκεκριµένων ϕίλτρων. Στην περίπτωση χρήσης FIR ϕίλτρων και συναρτήσεων πεπερασµένης κατάστασης, το κριτήριο ευστάθειας της Φραγµένης Εισόδου - Φραγµένης Εξόδου (Bounded Input-Bounded Output) ικανοποιείται, ενώ στηνπερίπτωσηχρήσηςiirϕίλτρων,η

57 36 Κεφάλαιο 2 ευστάθεια τους καθορίζει και την ευστάθεια του συστήµατος Στάδιο ιαδικασίας Απόφασης Το στάδιο ιαδικασίας Απόφασης ( Α) σχεδιάστηκε έτσι ώστε να προσοµοιώνει την ικανότητα του ανθρώπινου ακουστικού συστήµατος να εντοπίζει ένα τονικό σήµα το οποίο αναπαράγεται ταυτόχρονα ή µη, µε ένα επικαλύπτον ευρυζωνικό σήµα ϑορύβου. Λόγω της ιδιαιτερότητας του τονικού σήµατος (συγκεκριµένη συχνότητα), ακουστικά ϕαινό- µενα [Patterson (1980)] σε γειτονικές συχνοτικές περιοχές µπορούν να αγνοηθούν και οκαθορισµόςτωνδιαφορετικώνκατωφλίωνεπικάλυψης µπορεί να περιοριστεί σε µια ακουστική συχνοτική περιοχή η οποία επικεντρώνεται στην ϐασική συχνότητα του τονικού σήµατος [Dau (1996a)]. Παρόλο που µια απλοποιηµένη ιαδικασία Απόφασης ( Α) χρησιµοποιείται στο συγκεκριµένο Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ), αυτή ϑεωρείται κατάλληλη για την µοντελοποίηση και ερµηνεία γνωστών ϕαινοµένων επικάλυψης [Buchholz (2003, 2004)]. Η αρχή στην οποία ϐασίζεται η Α αναφέρεται ως Ελάχιστα Αντιληπτή Στάθµη ιαφοράς (Just Noticeable Intensity Difference, JNID) [Buchholz (2003,2004)] ανάµεσα στις εσωτερικές αναπαραστάσεις (internal representations) των σηµάτων εισόδου [Buchholz (2003,2004), Beerends (1992)]. Συνεπώς, και µε ϐάση την επεξεργασία σήµατος που ϕαίνεται στο Σχήµα 2.12, καιγιασήµαταεισόδουτοεπικαλύπτονσήµαs w,m (n) και το επικαλύπτον σή- µα µαζί µε το υπό-εξέταση σήµα s w,m+t (n), οδηγούνταισταστάδιασεσκαιχρονικής ολοκλήρωσης, όπου υπολογίζεται η διαφορά z (n) των σηµάτων εξόδου (s z,m+t (n) και s z,m (n)) καισυγκρίνεταιµεέναστατικόκατώφλιt z : z (n) =s z,m+t (n) s z,m (n). (2.15) Στην περίπτωση που για το χρονικό στιγµιότυπο n = n 0 ηδιαφορά z (n) είναι κάτω από το στατικό κατώφλι T z τότε το υπό-εξέταση σήµα (και για το συγκεκριµένο χρονικό διάστηµα) ϑεωρείται ότι επικαλύπτεται, ενώ σε κάθε άλλη περίπτωση ϑεωρείται ότι είναι ακουστό. Συνεπώς, η κατάσταση της Α είναι S A (n 0 ) = a, όταν το σήµα είναι ακουστό (audible) και S A (n 0 )=i όταν το σήµα είναι µη-ακουστό (inaudible), εξαρτώµενη πάντα από το έαν το µέγιστο της διαφοράς z (n) είναι πάνω ή κάτω από το κατώφλι επικάλυψης : z,max < T z z,max = T z (2.16) z,max > T z.

58 2.9. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 37 Για τον καθορισµό του κατωφλίου επικάλυψης, η στάθµη του τονικού σήµατος κα- ϑορίζεται από µια προσαρµοζόµενη διαδικασία ανίχνευσης (one up / one down) που περιγράφεται αναλυτικά από τον Levit [Levit (1971)]. Στο Σχήµα 2.15(b) απεικονίζεται µια τυπική διαφορά z (n) (ϐλ. Εξ. 2.1) για τις περιπτώσεις παρουσίας ή µη του επικαλύπτοντος σήµατος και για ένα παράδειγµα µετά-επικάλυψης. Τα χαρακτηρι- Σχήµα 2.15: Απεικόνιση της επεξεργασίας στο στάδιο Α για τυπικό παράδειγµα µετά-επικάλυψης [Buchholz (2003)]. στικά των σηµάτων που χρησιµοποιούνται είναι : Επικαλύπτον σήµα : Ευρυζωνικός ϑόρυβος στην περιοχή συχνοτήτων f = Hz µε χρονική διάρκεια t m =400ms. Υπό εξέταση σήµα : Ηµίτονο µε στάθµη ακουστικής πίεσης 40dB - SPL, συχνότητα f 0 =3kHz µε χρονική διάρκεια t t =40ms. Στο Σχήµα 2.15(a) απεικονίζονται τα σήµατα εξόδου s z,m+t (n) (επικαλύπτον και υπό εξέταση σήµα) και s z,m (n) (επικαλύπτον σήµα). Με ϐάση το Σχήµα 2.15(b) µόνο ηδιαφοροποίησηπουεισάγειτουπό-εξέτασησήµαεµφανίζεταιστοσήµαδιαφοράς. Στην περίπτωση παρουσίας του επικαλύπτοντος σήµατος (στάθµη l m = l m0 =40dB) το αντίστοιχο σήµα διαφοράς z (n) ϐρίσκεται τελείως κάτω από στατικό κατώφλι T z και κατ επέκταση, το υπό-εξέταση σήµα ϑεωρείται ότι επικαλύπτεται ή ισοδύναµα είναι µη-ακουστό. Στην περίπτωση απουσίας του επικαλύπτοντος σήµατος (l m = db) τοσήµαδιαφοράςείναιεµφανώςπάνωαπότοστατικόκατώφλιt z και συνεπώς ϑεωρείται ότι δεν επικαλύπτεται ή ισοδύναµα είναι ακουστό.

59 38 Κεφάλαιο Ενδεικτική Επεξεργασία Σηµάτων µε Χρήση του ΥΜΑΕ Το σήµα εξόδου s x (n) από το στάδιο προ-επεξεργασίας (ϐλ. Σχήµα 2.12) τουυμαε, και για ένα τυπικό σενάριο µετά-επικάλυψης, απεικονίζεται στο Σχήµα 2.16(a). Η είσοδος αποτελείται από ένα µακράς διάρκειας τονικό σήµα µε συχνότητα f 0 =3kHz και χρονική διάρκεια t m =400ms (επικαλύπτον σήµα) και ένα επακόλουθο τονικό σήµα µικρής διάρκειας µε συχνότητα f 0 =3kHz και χρονική διάρκεια t t =40ms (υπό-εξέταση σήµα), µε τα αντίστοιχα σήµατα εξόδου s y,m (n) και s y,t (n) να απεικονί- Ϲονται στο Σχήµα 2.16(b). Σχήµα 2.16: Σήµατα εξόδου στα διάφορα στάδια επεξεργασίας του ΥΜΑΕ για ένα τυπικό σενάριο µετά - επικάλυψης. (a) Εξοδος s x (n) από το στάδιο προ - επεξεργασίας, (b) έξοδος s y (n) από το στάδιο ΣΕΣ, (c) σήµα s op,x (n) που προσδιορίζει το σηµείο λειτουργίας, (d) έξοδος s z (n) από το στάδιο του ολοκληρωτή w(n) [Buchholz (2003)]. Το τµήµα του σήµατος εξόδου το οποίο σχετίζεται µε το επικαλύπτον σήµα s y,m (n), παρουσιάζει µια ξαφνική αύξηση της στάθµης στην εκκίνηση του σήµατος s y,m (n) ηοποία ακολουθείται από µια εκθετική µείωση καταλήγοντας σε µια σταθερή κατάσταση (steady state). Επιπρόσθετα στην περίπτωση παρουσίας του επικαλύπτοντος σήµατος και του τονικού σήµατος, παρατίθεται και ηπερίπτωσηαπουσίαςτουεπικαλύπτοντος σήµατος (L m = db), όπου είναι εµφανής η συµπίεση που επιτελεί το επικαλύπτον σήµα στο υπό-εξέταση σήµα. Κατά την διάρκεια παρουσίας του επικαλύπτοντος σήµατος, το σήµα s op,x (n) που καθορίζει το σηµείο λειτουργίας (ϐλ. Σχήµα 2.16(c)) παρουσιάζει µια αύξηση στη στάθµη οφειλόµενη κυρίως στη συνεισφορά του ϕίλτρου

60 2.10. Σύνοψη Κεφαλαίου και Συµπεράσµατα 39 ολοκλήρωσης h(n). Ουσιαστικά,τοσήµαs op,x (n) καθορίζει το ϐαθµό συµπίεσης και συνεπώς µεγαλύτερες τιµές στάθµης του s op,x (n), ενισχύουντοϕαινόµενοτηςσυµπίεσης. Με την παύση του επικαλύπτοντος σήµατος, το σήµα s op,x (n) εξασθενεί οµαλά (η συνεισφορά του ολοκληρωτή h(n) σταδιακά µειώνεται), καταλήγοντας µε αυτό το τρόπο σε παρόµοια κατάσταση συµπίεσης. Η επίδραση του ολοκληρωτή w(n) στα σήµατα s y,m (n) και s y,t (n) απεικονίζεται στο Σχήµα 2.16(d) Σύνοψη Κεφαλαίου και Συµπεράσµατα Στο παρόν κεφάλαιο αναλύθηκε εν συντοµία η ανατοµία του ανθρώπινου ακουστικού συστήµατος, αναφέρθηκαν ϐασικές έννοιες που σχετίζονται µε την ευρύτερη γνωστική περιοχή της Ψυχοακουστικής και παρουσιάστηκε αναλυτικά το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ). Πιο συγκεκριµένα, στην Παράγραφο 2.2 περιγράφηκε η ανατοµία του ανθρώπινου ακουστικού συστήµατος µε έµφαση κυρίως στη δοµή του περιφερειακού υποσυστήµατος. Από την συγκεκριµένη περιγραφή αναδείχθηκε η πολυπλοκότητα του συστήµατος ακόης όπως αυτή καθορίζεται από τις διαφορετικές λειτουργίες που επιτελεί κάθε υποσύστηµα. Οι λειτουργίες αυτές περιλαµβάνουν, την συγκέντρωση και µεταφορά της ενέργειας του ακουστικού κύµατος προς το µέσο αυτί, τον εντοπισµό της ϑέσης µιας ακουστικής πηγής στο χώρο, την εξισορρόπηση της ατµοσφαιρικής πίεσης στι δύο πλευρές του ακουστικού τυµπάνου, τη µετατροπη της µηχανικής ενέργειας των δονήσεων σε ηλεκτροχηµικό σήµα, την συχνοτική ανάλυση του ηχητικού σήµατος, κ.α. Στις Παραγράφους 2.3 έως 2.5 αναλύθηκαν έννοιες που σχετίζονται µε τον τρόπο λειτουργίας και ϕυσιολογίας του ακουστικού συστήµατος και χρησιµοποιούνται εκτενώς σε διάφορες εφαρµογές επεξεργασίας ηχητικών δεδοµένων (π.χ. τεχνικές απωλεστικής κωδικοποίησης ηχητικών σηµάτων). Ιδιαίτερη σηµασία έχει το ϕαινόµενο της ακουστικής επικάλυψης (Παράγραφος 2.5) κατάτοοποίοκαιλόγωτηςσυγκεκριµένηςχρονοσυχνοτικήςανάλυσης του ακουστικού συστήµατος, παραµορφώσεις και ϑόρυβοι είναι δυνατό να επικαλυφθούν και να µην είναι ακουστοί, από ισχυρότερα σήµατα της ίδιας ή χαµηλότερης Ϲώνης συχνοτήτων, όταν διεγείρουν το σύστηµαακοήςστοίδιοπερίπουχρονικό διάστηµα. Το ϕαίνοµενο αυτό ϐρίσκει κύρια εφαρµογή σε διάφορα διαδεδοµένα πρότυπα κωδικοποίησης [Brandenburg (1994), Bosi (1997,2003), Kahrs (2003)], όπου ο ϑόρυβος κβαντισµού µορφοποιείται κατάλληλα έτσι ώστε σε κάθε συχνοτική περιοχή να ϐρίσκεται κάτω από το κατώφλι επικάλυψης, µε αποτέλεσµα να µην είναι ακουστός και ταυτόχρονα να εξασφαλίζεται υψηλή ηχητική ποιότητα σε εξαιρετικά χαµηλούς ϱυθµούς παροχής δεδοµένων. Ενδεικτικά, το πρότυπο απωλεστικής κωδικοποίησης MPEG-1 [ISO/IEC (1993), Brandenburg (1994)], εξασφαλίζει ικανοποιητική ηχητική ποιότητα σε ϱυθµό παροχής δεδοµένων 128 kbps για την συµπίεση ενός ηχητικού

61 40 Κεφάλαιο 2 σήµατος σε.wav µορφή, µε αρχικό ϱυθµό παροχής δεδοµένων kbps (λόγος συµπίεσης 11:1). Στις Παραγράφους 2.6 και 2.7 περιγράφηκαν αντίστοιχα η αρχή της Ελάχιστα Αντιληπτής Στάθµης ιαφοράς στην οποία ϐασίζεται το παρόν υπολογιστικό µοντέλο και είναι χρήσιµη για την ερµηνεία του ϕαινοµένου της ακουστικής επικάλυψης καθώς και η ϑεωρία Εκτίµησης και Ανίχνευσης που αποτελούν το αναγκαίο υπόβαθρο για την υλοποίηση της ιαδικασίας Απόφασης στο τελευταίο στάδιο του ΥΜΑΕ. Στην Παράγραφο 2.8 παρουσιάστηκαν ϐασικές έννοιες και παράµετροι που σχετίζονται µε την χωρική ακουστική αντίληψη και οι αναγκαίες απλουστεύσεις για την ενσωµάτωση τους στην παρούσα µελέτη. Τέλος στην Παράγραφο 2.9 γίνεται περιγραφή του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ) και της ϐασικής αρχής στην οποία ϐασίζεται (Συµπίεση Εξαρτώµενη Σήµατος), κατά την οποία το ανθρώπινο ακουστικό σύστηµα επιτελεί µια συµπίεση στο πλάτος του σή- µατος εισόδου, της οποίας τα χαρακτηριστικά εξαρτώνται από την χρονική εξέλιξη του σήµατος. Επίσης περιγράφονται, µια πιθανή υλοποίηση του σταδίου Συµπίεσης Εξαρτώµενης Σήµατος (ΣΕΣ) µέσω ψηφιακής επεξεργασίας σήµατος καθώς και τα σή- µατα εξόδου στα διάφορα στάδια επεξεργασίας του ΥΜΑΕ, για ένα τυπικό σενάριο µετά-επικάλυψης. Τέλος, ϑα πρέπει να επισηµανθεί οτι η ϐασική δοµή του ΥΜΑΕ (όπως αυτή προτάθηκε από τους Buchholz και Μουρτζόπουλο [Buchholz (2004)]) παρουσιάζει κοινά χαρακτηριστικά µε αντίστοιχες υλοποιήσεις [Dau (1996)], µε τις κύριες του όµως πρωτοτυπίες να είναι τα στάδια Συµπίεσης Εξαρτώµενης Σήµατος και ιαδικασίας Απόφασης ( Α). Για παράδειγµα, στην εργασία του [Dau (1996)] έχουµε την χρήση µιας αλυσίδας από πέντε µη-γραµµικούς ϐρόχους προσαρµογής και µια κατάλληλα διαµορφωµένη (µε δεδοµένα που ϐασίζονται σε αρχές ϕυσιολογίας) ιαδικασία Απόφασης ( Α), στην οποία η διαφορά των εσωτερικών αναπαραστάσεων των σηµάτων εισόδου σχετίζεται µε κατάλληλο σήµα (ουσιαστικά επιτελεί το ϱόλο του κατωφλίου), το οποίο αναφέρεται ως πρότυπο (template). Βασικό µειονέκτηµα της παραπάνω υλοποίησης, από την σκοπιά της ψηφιακής επεξεργασίας σήµατος, είναι η αυξηµένη πολυπλοκότητα και η χρονοβόρα παραµετροποίηση των µη-γραµµικών ϐρόχων και της Α. Στους ενγενείς περιορισµούς του ΥΜΑΕ ϑα σηµειώναµε την αδυναµία του να επεξεργαστεί πληροφορία σε γειτονικές συχνότητες (µε συχνοτική διασπορά) και κατ επέκταση να ερµηνεύσει ϕαινόµενα όπως το Comodulation Masking Release [Buus (1997)] καθώς και να συµπεριλάβει την ασυµµετρία της ακουστικής επικάλυψης [Hellman (1972), Hall (1997)] καθώς και την εξάρτηση του κατωφλίου επικάλυψης από την µεταβολή της περιβάλλουσας του επικαλύπτοντος σήµατος [van der Heijden (1995)]. Επίσης, η συγκεκριµένη δοµή του ΥΜΑΕ περιορίζεται στην ερµηνεία µόνο-ωτικών ακουστικών ϕαινοµένων (επεξεργασία ενός καναλιού)ενώγιααµφιωτικέςυλοποιήσεις και την ερµηνεία σχετικών ϕαινοµένων (π.χ. Binaural Masking Level Differe-

62 2.10. Σύνοψη Κεφαλαίου και Συµπεράσµατα 41 cence [Hirsh (1948), Zurek (1991)]) απαιτείται η ενσωµάτωση κατάλληλων σταδίων προ-επεξεργασίας [Blauert (1997)]. Ωστόσο, ο γενικότερος σχεδιασµός του ΥΜΑΕ, το µαθηµατικό υπόβαθρο του ΣΕΣ και η αντίστοιχη ευέλικτη δοµή του, καθώς και το απλοποιηµένο στάδιο Α, το καθιστά ιδανικό υποψήφιο για την χρησιµοποίηση του σε διάφορες εφαρµογές επεξεργασίας ηχητικών δεδοµένων, όπως περιγράφονται αναλυτικά σε επόµενα κεφάλαια, καλύπτοντας επαρκώς το επιστηµονικό πεδίο του µηχανικού ήχου.

63

64 Κεφάλαιο 3 Μοντελοποίηση και Στατιστική Ανάλυση του Αντιληπτικού Φαινοµένου της Αντήχησης 3.1 Εισαγωγή Ηαναπαραγωγήηχητικώνσηµάτωνσεκλειστούςχώρουςµεαντήχησησυνοδεύεται από την παρουσία παραµορφώσεων που επηρεάζουν αρνητικά την ηχητική ποιότητα. Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ), που παρουσιάσθηκε στο προηγούµενο κεφάλαιο, σε συνδυασµό µε κατάλληλο Στάδιο Απεικόνισης των Ενδο-καναλικών Παραµέτρων (ΣΑΕΠ), χρησιµοποιείται για την µοντελοποίηση των παραµορφώσεων αυτών. Ο ενγενής περιορισµός του ΥΜΑΕ, για την επεξεργασία δεδοµένων ενός καναλιού (µονοφωνικά) και η ανάγκη για την ενσωµάτωση χωρικής πληροφορίας, καθιστά απαραίτητη την χρήση του ΣΑΕΠ. Παράλληλα, η προσέγγιση αυτή αποτελεί µια πρώτη προσπάθεια για την δηµιουργία µιας απλουστευµένης εκδοχής της πολυδιάστατης συνάρτησης της Χωρικής Επικάλυψης, που περιγράφεται εκτενώς στην εργασία [Buchholz (2001)]. Στον παρόν κεφάλαιο εξετάζεται το ϑεωρητικό υπόβαθρο για την ενσωµάτωση του Υ- πολογιστικού Μοντέλου Επικάλυψης (ΥΜΑΕ) σεεφαρµογέςπουεντάσσονταιστηνευ- ϱύτερη επιστηµονική περιοχή του µηχανικού ήχου. Στην συνέχεια παρουσιάζεται η ϐασική µεθοδολογία για την µοντελοποίηση και ανάλυση του ϕαινοµένου της αντήχησης. Για την πληρέστερη περιγραφή του ϕαινοµένου της αντήχησης, υιοθετείται συµπληρωµατικά (σε σχέση µε το ΥΜΑΕ) κατάλληλο Στάδιο Απεικόνισης Ενδο-καναλικών Παραµέτρων για την διαχείριση της χωρικής ακουστικής πληροφορίας, ενώ για την απεικόνιση των αλλοιώσεων λόγω αντήχησης µέσω των εξαγόµενων παραµέτρων, χρησιµοποιούνται κατάλληλοι «χάρτες» χρόνου-συχνότητας. Τέλος, στο παρόν κεφάλαιο, παρουσιάζεται µια στατιστική ανάλυση των παραµέτρων που έχουν προκύψει από την προτεινόµενη µεθοδολογία καθώς και των κρουστικών αποκρίσεων των υπό-εξέταση χώρων. 43

65 44 Κεφάλαιο Εσωτερική Αναπαράσταση Ηχητικών Σηµάτων Γενικά, το ανθρώπινο ακουστικό σύστηµα µετατρέπει µια εξωτερική ϕυσική ποσότητα, όπως είναι τα ηχητικά κύµατα που προσπίπτουν στο εξωτερικό αυτί σε µια εσωτερική αναπαράσταση. Η ϐασική αυτή προσέγγιση αποτελεί το ϐασικό ϑεωρητικό υπόβαθρο για την µοντελοποίηση του ϕαινοµένου της αντήχησης, ενώ σε περισσότερο πρακτικό επίπεδο για την εξάλειψη της αντήχησης καθώς και την κωδικοποίηση-αξιολόγηση ηχητικών σηµάτων, όπως περιγράφεται αναλυτικά στο επόµενο κεφάλαιο. Με ϐάση Σχήµα 3.1: Σχηµατική απεικόνιση ενσωµάτωσης του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ) σε εφαρµογές επεξεργασίας ηχητικών δεδοµένων. το Σχήµα 3.1 ηϐασικήιδέαεπεκτάθηκεκαιγιατηνκωδικοποίησηηχητικώνσηµάτων (στάδιο κβαντισµού) και την αξιολόγηση ηχητικών σηµάτων κωδικοποιηµένων µε διαδεδοµένα πρότυπα συµπίεσης, όπως ϑα περιγραφεί στο επόµενο κεφάλαιο. Είσοδος στο προτεινόµενο σύστηµα είναι το «καθαρό» ηχητικό σήµα s(n) και το αντίστοιχο σήµα s t (n) το οποίο έχει προκύψει από προκαθορισµένη επεξεργασία. Το ΥΜΑΕ παρέχει τις εσωτερικές αναπαραστάσεις των σηµάτων, z(n) και z t (n), οιοποίεςοδηγούνται σε µια διαδικασία απόφασης, όπου υπολογίζεται η διαφορά τους µε ϐάση την Εξ. (2.15): k (n) =z t (n) z(n). (3.1) Με τη χρήση κατάλληλων κατωφλίων T k (n) και εφόσον η διαφορά ικανοποιεί τη σχέση k (n) >T k (n), (3.2) υπολογίζεται η παράµετρος D k (n) από την ακόλουθη σχέση D k (n) = k (n) T k (n), (3.3) ηοποίααποτελείµέτροτηςυποκειµενικάσηµαντικήςακουστικήςπαραµόρφωσης που έχει το σήµα s t (n), καιέχειπροκύψειαπότηνεπεξεργασία(π.χ. αναπαραγωγή

66 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 45 και καταγραφή του σε χώρους µε αντήχηση) του καθαρού σήµατος s(n). Μεϐάσητην παραπάνω ανάλυση και το ϑεωρητικό υπόβαθρό που παρουσιάστηκε στο Κεφάλαιο 2, καθίσταταιδυνατήηχρήσητουυμαεγιατηνπεριγραφήµευποκειµενικότρόπο των παραµορφώσεων που έχει υποστεί ένα ηχητικό σήµα, την εξαγωγή κατάλληλων παραµέτρων, τη συσχέτιση τους µε ακουστικές παραµέτρους (π.χ. χρόνος αντήχησης RT 60 ) ή µε γνωστά κριτήρια αντίληψης ηχητικής πιστότητας (π.χ. NMR [Brandenburg (1992), Rix (2006)]). 3.3 Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης Οπως είναι γνωστό, οι χώροι ακρόασης, εισάγουν σηµαντικό ποσοστό αντήχησης στα ακουστικά σήµατα κατά την αναπαραγωγή τους µέσα σε αυτούς. Η αντήχηση αυτή περιγράφεται συνήθως από µια, εξαρτώµενη των ακουστικών συστηµάτων (systemdepended), προσέγγιση και από τις αντίστοιχες γραµµικές συναρτήσεις απόκρισης αυτών των συστηµάτων (π.χ. σχέσεις εισόδου/εξόδου που χρησιµοποιούν τη Συνάρτηση Μεταφοράς Χώρου). Μια τέτοια προσέγγιση έχει τη σηµασία της, ειδικά για υλοποιήσεις που ϐασίζονται στην Ψηφιακή Επεξεργασία Σήµατος και που ανάλογα µε την εκάστοτε εφαρµογή, µπορούν να διαµορφώσουν, να συνθέσουν ή να καταστείλουν µερικώς την αντήχηση [Schroeder (1961), Neely (1979), Mourjopoulos (1994)]. Εντούτοις, η ακουστική αντίληψη της αντήχησης χώρων είναι ένα σύνθετο ϕαινόµενο, που επηρεάζεται από ένα πλήθος, εξαρτηµένων από το σήµα (signal-depended), παραγόντων (π.χ. χρόνο-συχνοτικές αλλοιώσεις, καθυστερήσεις, ηχητική στάθµη, κατευθυντικότητα) όπως έχει περιγραφεί πρόσφατα από το Χωρικό Μοντέλο Επικάλυψης [Blauert (1997), Buchholz (2001)]. Στην τρέχουσα περίοδο, υπάρχει ένα σηµαντικό χάσµα µεταξύ της αντικειµενικής (εξαρτώµενης από το σύστηµα) προσέγγισης και οποιασδήποτε εξαρτώµενης από το σήµα (ϐασιζόµενη σε αντιληπτικά κριτήρια), προσέγγισης για την ανάλυση τέτοιων ϕαινοµένων. ιάφορες, εξαρτώµενες από το σήµα, (εκ των υστέρων) επεξεργασίες κυρίως για την µείωση της αντήχησης προτάθηκαν στο παρελθόν στις δηµοσιευµένες εργασίες [Flanagan (1970), Allen (1977)]. Τα χαρακτηριστικά των ηχητικών σηµάτων χρησιµοποιήθηκαν, επίσης, στη δηµιουργία του µοντέλου περιβάλλουσας της αντήχησης, που εισήχθηκε από τις εργασίες [Langhams (1982), Mourjopoulos (1983)]. Επιπλέον, η ερευνητική εργασία που έγινε κυρίως από την επιστηµονική κοινότητα της Τεχνολογίας Οµιλίας οδήγησε στη χρησιµοποίηση παρόµοιων προσεγγίσεων για τον περιορισµό της αντήχησης σε χώρους ακρόασης [Bolt (1949)].

67 46 Κεφάλαιο Προ-επισκόπηση Οπως αναφέρθηκε προηγουµένως, η προτεινοµένη µέθοδος ϐασίζεται στο συνδυασµό γνωστών µεθόδων εξαρτώµενων του συστήµατος (αλγοριθµικών) και υποκειµενικών µεθόδων που χρησιµοποιούν ϐασικές ιδιότητες του ανθρώπινου ακουστικού συστή- µατος. Το αποτέλεσµα είναι η εξαγωγή διδιάστατων (2D) χαρτών (χρόνου-συχνότητας), εξαρτώµενων του σήµατος που αναφέρονται στην επίδραση της αντήχησης κατά την αναπαραγωγή ηχητικών σηµάτων σε κλειστούς χώρους. Η ϐασική δοµή για την εξαγωγή των παραπάνω χαρτών ϕαίνεται στο Σχήµα 3.2 για στερεοφωνική αναπαραγωγή, µε την δυνατότητα της γενίκευσης για την διαχείριση οποιουδήποτε αριθµού καναλιών (π.χ., σε πολυκαναλικό σύστηµα ηχητικής αναπαραγωγής µε 5.1 κανάλια). Σχήµα 3.2: Σχηµατικό διάγραµµα για την εξαγωγή των αντιληπτικών παραµέτρων αντήχησης. Οι Κρουστικές Αποκρίσεις Χώρων h i (n), απαραίτητεςστηνπροτεινόµενηµεθοδολογία, ϑεωρείται ότι είναι πάντα διαθέσιµες µε ϐάση αντίστοιχες µετρήσεις και εξαρτώνται από τις συγκεκριµένες ϑέσεις πηγής / δέκτη [Mourjopoulos (1985)] Τράπεζα Φίλτρων Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης, όπως και η πλειονότητα αντίστοιχων µοντέλων, για την συχνοτική ανάλυση που επιτελεί το ακουστικό σύστηµα, χρησι- µοποιεί τράπεζα ϕίλτρων τύπου gammatone [Patterson (1976), Patterson (1995)] (ϐλ. Παράρτηµα Α.2). Οι τρέχουσες υλοποιήσεις για τις συγκεκριµένες τράπεζες ϕίλτρων δεν επιτρέπουν ικανοποιητική ανάλυση-σύνθεση σε επεξεργασία πλήρους ϕάσµατος για ηχητικά σήµατα µε ευκρίνεια κβαντισµού 16 bit [Hohmann (2002)]. εδοµένου οτι για την παρούσα διατριβή και ιδιαίτερα για την διαδικασία εξάλειψης της

68 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 47 αντήχησης, που περιγράφεται στο επόµενο κεφάλαιο, είναι απαραίτητη µια διάφανη επεξεργασία ανάλυσης-σύνθεσης (χωρίς την εισαγωγή επιπλέον παραµορφώσεων), χρησιµοποιήθηκε µια νέα τράπεζα ϕίλτρων [Zarouchas (2006)], µε σχεδόν άριστες ιδιότητες ανασύνθεσης. Η συγκεκριµένη τράπεζα ϕίλτρων παρέχει µη-οµοιόµορφη συχνοτική ανάλυση διαχωρίζοντας το ακουστικό εύρος συχνοτήτων σε 41 συχνοτικές περιοχές, µε επαρκή ανάλυση στις χαµηλές συχνότητες (ϐλ. Σχήµα 3.3)καιϐρίσκεται σε συµφωνία µε την κλίµακα των κρίσιµων περιοχών συχνότητας που αναφέρθηκαν στο προηγούµενο κεφάλαιο. Η απόκριση συχνότητας για τις πρώτες 15 συχνοτικές περιοχές ϕαίνεται στο Σχήµα 3.3. ΤοεύροςϹώνηςτωνσυχνοτικώνπεριοχών(ϐλ.Σχή- µα 3.3) είναι43hz (για k =0,...,7), 86 Hz (για k =8,...,11) και172hz (για k =12, 13, 14), για συχνότητα δειγµατοληψίας f s =44100Hz. Σχήµα 3.3: Απόκριση συχνότητας για τις πρώτες 15 συχνοτικές περιοχές της προτεινόµενης τράπεζας ϕίλτρων. Για την υλοποίηση της συγκεκριµένης τράπεζας ϕίλτρων, χρησιµοποιήθηκε ως ανα- ϕορά η τράπεζα ϕίλτρων που παρέχει το πρότυπο κωδικοποίησης MPEG-1 [ISO/IEC (1993)]. Η απόκριση συχνότητας για τις 2 πρώτες συχνοτικές περιοχές (από τις 32 συνολικά) για την τράπεζα ϕίλτρων του προτύπου κωδικοποίησης MPEG-1 ϕαίνεται στο Σχήµα 3.4. Από την σύγκριση των αποκρίσεων συχνότητας των Σχηµάτων 3.3 και 3.4 είναι εµ- ϕανής η µεγαλύτερη ανάλυση που παρέχει στην περιοχή των χαµηλών συχνοτήτων, η προτεινόµενη τράπεζα ϕίλτρων, εξασφαλίζοντας µεγαλύτερη ευελιξία στην περιγραφή, των αντιληπτικών ϕαινοµένων της αντήχησης, και των διαφοροποίησεων των ενδοκαναλικών παραµέτρων που αναφέρθηκαν στο Κεφάλαιο 2.

69 48 Κεφάλαιο 3 Σχήµα 3.4: Απόκριση συχνότητας για τις πρώτες δυο συχνοτικές περιοχές της τράπε- Ϲας ϕίλτρων του MPEG-1 προτύπου κωδικοποίησης. Στα Σχήµατα 3.5 και 3.6 απεικονίζονται τα σήµατα εισόδου s d (n) (ο δείκτης d υποδηλώνει την σχετική καθυστέρηση που εισάγουν αντίστοιχα οι τράπεζες ϕίλτρων και πρέπει να ληφθεί υπόψη για τον υπολογισµό του σήµατος διαφοράς d(n)), τα σήµατα εξόδου s (n) που προκύπτουν κατά την διαδικασία της ανασύνθεσης καθώς και το σφάλµα (σήµα διαφοράς) d(n), πουπροκύπτειαπότησχέσηd(n) =s (n) s d (n). Από τα Σχήµατα 3.5(c) και 3.6(c), ϕαίνεταιότιτοσφάλµαδιαφοράςd(n) είναι ση- µαντικά µεγαλύτερο στην περίπτωση της τράπεζας ϕίλτρων του προτύπου MPEG-1, ενώ η καθυστέρηση που εισάγει η συγκεκριµένη τράπεζα ϕίλτρων είναι µικρότερη (d =272δείγµατα) συγκριτικά µε την προτεινόµενη τράπεζα ϕίλτρων (d =4352δείγ- µατα). Για λόγους πληρότητας, δίνονται και τα αντιστοιχα σήµατα (ϐλ. Σχήµα 3.7) µιας τράπεζας ϕίλτρων ϐασιζοµενη στον ιακριτό Μετασχηµατισµό Fourier (Discrete Fourier Transform). Οπως είναι αναµενόµενο, το σφάλµα d(n) (ϐλ. Σχήµα 3.7(c)) για την συγκεκριµένη τράπεζα είναι ουσιαστικά µηδενικό. ιάφορα ψυχοακουστικά µοντέλα [Johnston (1988)] ϐασίζονται στην χρήση του DFT, παρέχοντας µια µεθοδολογία επεξεργασίας εξ ολοκλήρου στο πεδίο συχνότητας. Αντίθετα, το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης ϐασιζόµενο στην ιδιάζουσα χρονόσυχνοτική ανάλυση που επιτελεί το ανθρώπινο ακουστικό σύστηµα, χρησιµοποιεί την προτεινόµενη τράπεζα ϕίλτρων που εξασφαλίζει σχετικά µικρό σφάλµα ανασύνθεσης (ϐλ. Σχήµα 3.5(c)), και αποτελεί ϐασική προϋπόθεση για την διαδικασία της εξάλειψης της αντήχησης που περιγράφεται στο επόµενο κεφάλαιο.

70 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 49 Σχήµα 3.5: (a) Σήµα εισόδου s d (n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz,(b)Σήµαεξόδουs (n) από την προτεινόµενη τράπεζα αναλυσης-σύνθεσης, (c) Σήµα διαφοράς d(n), µετιςτιµέςστονκάθετοάξοναναείναι στην περιοχή [ 0.1, 0.1]. Σχήµα 3.6: (a) Σήµα εισόδου s d (n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz, (b) Σήµα εξόδου s (n) από την MPEG-1 τράπεζα αναλυσης-σύνθεσης, (c) Σήµα διαφοράς d(n), µετιςτιµέςστονκάθετοάξοναναείναι στην περιοχή [ 1, 1].

71 50 Κεφάλαιο 3 Σχήµα 3.7: (a) Σήµα εισόδου s(n) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz,(b)Σήµαεξόδουs (n) από τράπεζα ϐασιζόµενη στο ιακριτό Μετασχηµατισµό Fourier, (c) Σήµα διαφοράς d(n), µετιςτιµέςστονκάθετο άξονα να έχουν τάξη µεγέθους Το Ψυχοακουστικό Μοντέλο Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης που χρησιµοποιήθηκε στην πα- ϱούσα εργασία προτάθηκε από τον J. Buchholz στα πλαίσια της διδακτορικής του διατριβής [Buchholz (2003)] και προσοµοιώνει επιτυχώς διάφορες πτυχές της επεξεργασίας των ηχητικών σηµάτων από το ανθρώπινο ακουστικό σύστηµα, όπως αυτές καταγράφονται από διάφορες ψυχοακουστικές µετρήσεις. Οπως έχει ήδη αναφερθεί, το παρόν υπολογιστικό µοντέλο ϐασίζεται στην υπόθεση της Συµπίεσης Εξαρτώµενης Σήµατος (ΣΕΣ) (ϐλ. Σχήµα 3.8), ϐάση της οποίας το ανθρώπινο ακουστικό σύστη- µα επιτελεί µια συµπίεση στο πλάτος του σήµατος εισόδου, τα χαρακτηριστικά της οποίας εξαρτώνται από την χρονική εξέλιξη του σήµατος εισόδου. Είσοδος στο Υ- ΜΑΕ είναι το ανηχωικό ηχητικό σήµα x(n) και το αντίστοιχο ηχογραφηµένο σήµα x(n) (ο δείκτης υποδηλώνειτοηχητικόσήµαµεαντήχηση),τοοποίοέχειαναπαραχθεί σε κλειστό χώρο και έχει καταγραφεί σε µια συγκεκριµένη ϑέση µε τη χρήση ενός παντοκατευθυντικού µικροφώνου. Εναλλακτικά, ως ηχογραφηµένο σήµα x(n) µπορεί να χρησιµοποιηθεί αντίστοιχο σήµα προσωµοίωσης το οποίο έχει προκύψει από την συνέλιξη µε την Κρουστική Απόκριση Χώρου, η οποία έχει καταγραφεί µε κατάλληλο µετρητικό λογισµικό [WinMLS c 2004]. Με ϐάση το µονοπάτι επεξεργασίας που καθορίζει το ΥΜΑΕ, τα σήµατα εισόδου (x(n) και x(n)) αναλύονται

72 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 51 Σχήµα 3.8: Σχηµατικό διάγραµµα του ΥΜΑΕ για την αντιληπτική περιγραφή του ϕαινοµένου της αντήχησης. αρχικά από το στάδιο προ-επεξεργασίας το οποίο αποτελείται από την προτεινόµενη τράπεζα ϕίλτρων (η οποία προσοµοιώνει την συχνοτική ανάλυση που επιτελείται στην ϐασική µεµβράνη), από µια διάταξη ανόρθωσης και ένα χαµηλοδιαβατό ϕίλτρο, τα οποία αναφέρονται στην µετατροπή (µηχανική σε ηλεκτρική) που υλοποιείται στα τριχοειδή κύτταρα. Τα σήµατα εξόδου που προκύπτουν αντίστοιχα s k (n) και s k (n)), µε τον δείκτη k να υποδηλώνει την εκάστοτε συχνοτική περιοχή, οδηγούνται στο στάδιο Συµπίεσης Εξαρτώµενης Σήµατος (ΣΕΣ) το οποίο ϐασίζεται σε µια στατική µη-γραµµική συνάρτηση [Buchholz (2004)]. Τα σήµατα εξόδου από το ΥΜΑΕ, τα οποία αναφέρονται ως εσωτερικές αναπαραστάσεις z k (n) και z k (n)) τωνσηµάτων εισόδου για συγκεκριµένο αριθµό συχνοτικών περιοχών, οδηγούνται στην ιαδικασία Απόφασης ( Α) η οποία υλοποιείται µε τη χρήση προκαθορισµένου κατωφλίου. Οπως έχει περιγραφεί ήδη στο Κεφάλαιο 2, οιλειτουργίεςτης Ααναφέρονταισε «ανώτερα επίπεδα» του ακουστικού συστήµατος, όπου στην συγκεκριµένη περίπτωση περιορίζονται στην λήψη απόφασης σχετικά µε την ανίχνευση παραµορφώσεων λόγω της αντήχησης. Η λειτουργία της Α ϐασίζεται στην αρχή της Ελάχιστα Αντιληπτής Στάθµης ιαφοράς [Buchholz (2003), (2004)], οπότε η διαφορά ανά δείγµα των εσωτερικών αναπαραστάσεων (για κάθε συχνοτική περιοχή) υπολογίζεται, παρέχοντας τη δυνατότητα απεικονίσης χρόνο-συχνοτικών περιοχών (2D χαρτών) µε σηµαντική υποκειµενική παραµόρφωση λόγω αντήχησης. Οπως ήδη αναφέραµε στο Κεφάλαιο 2, µε ϐάση τις Εξ. (2.12) και (2.13) η έξοδος από το στάδιο ΣΕΣ για το ανηχωικό σήµα εισόδου δίνεται απο τις ακόλουθες εκφράσεις : ( y k (n) = 10 log s ) k(n) s op s op = 10 log 10 (g k s k +1) h norm. (3.4) όπου g k (ϐλ. Παράρτηµα Α.1) είναιέναςσταθερόςσυντελεστήςκέρδουςπουκαθορί- Ϲει την κατάλληλη στάθµη του σηµείου λειτουργίας s op και h norm είναι η κανονικοποι-

73 52 Κεφάλαιο 3 ηµένη κρουστική απόκριση ενός γραµµικού ϕίλτρου [Buchholz (2004)]. Παρόµοια έκφραση προκύπτει και για το σήµα µε αντήχηση ỹ(n)). Κατά την λειτουργία της Α εξάγεται η ακόλουθη διαφορά : z k (n) = z k(n) z k (n) = N 1 m=0 10 log s k(n) s op(n) w(n m), (3.5) 1+ s k(n) s op(n) όπου w(n) είναι ένα πρώτης τάξης χαµηλοδιαβατό ϕίλτρο µε συχνότητα αποκοπής f g =4Hz [Buchholz(2004), Dau(1997)] Μοντελοποίηση Μονοκαλικών Παραµέτρων Η ιαδικασίααπόφασης( Α)µετηχρήσηκατάλληλωνκατωφλίων[Olive(1989)], χρησιµοποιείται για τον υπολογισµό της διαφοράς z k (n), µε ϐάση την Εξ. (3.5), και ακολούθως στην εξαγωγή του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) από την ακόλουθη σχέση : D m k (n) = z k (n) T k(n). (3.6) Ο είκτηςεπικάλυψηςλόγωαντήχησης( ΕΑ)Dk m (n) αποτελεί µια εκτίµηση των υποκειµενικών παραµορφώσεων λόγω αντήχησης πάνω από το καθορισµένο κατώφλι, για τις περιπτώσεις δηλαδή όπου ισχύει η ακόλουθη έκφραση : 0 <Dk m (n) d, (3.7) στο πεδίο χρόνου-συχνότητας (και για κάθε συχνοτική περιοχή που καθορίζει η τράπεζα ϕίλτρων) και την παράµετρο d να υποδηλώνει την µέγιστη αντιληπτή παραµόρφωση λόγω αντήχησης. Τυπικά αποτελέσµατα για την διαφοροποίηση του ΕΑ (εκφραζόµενο σε db) και ο αντίστοιχος 2 χάρτης για είσοδο µονοφωνικού ηχητικού σήµατος (πιάνο) ηχογραφη- µένου σε αθλητική εγκατάσταση, ϕαίνονται στο Σχήµα 3.9 (για τις γεωµετρικές και ακουστικές ιδιότητες του συγκεκριµένου χώρου ο αναγνώστης παραπέµπεται στον Πίνακα 3.2 της Παραγράφου 3.5). Οπως ϕαίνεται στο Σχήµα 3.9(c) οι τιµές του Dk m (n) αυξάνονται για τα αντίστοιχα χρονικά διαστήµατα (t >0.5sec) τουηχογρα- ϕηµένου σήµατος (το οποίο ϕαίνεται χωρίς αντήχηση στο Σχήµα 3.9(a)), στα οποία υπάρχει παραµόρφωση οφειλόµενη στο µε σχετική καθυστέρηση τµήµα ( «ουρά») της αντήχησης. Ο αντίστοιχος 2 χάρτης στο πεδίο χρόνου-συχνότητας, ϐασιζόµενος στο ΥΜΑΕ, για το ηχητικό σήµα µε αντήχηση ϕαίνεται στο Σχήµα 3.9(d). Επιπρόσθετα, οδείκτηςεξαρτάταιαπότιςακουστικέςιδιότητεςτωνκλειστώνχώρωναναπαραγωγής όπως ϕαίνεται στο Σχήµα 3.10, όπου αποτελέσµατα για το ίδιο ηχητικό σήµα κατά την ηχογράφηση του σε τρεις διαφορετικούς χώρους µε χρόνους αντήχησης,

74 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 53 Σχήµα 3.9: (a) Απόσπασµα σόλο πιάνο ως σήµα αναφοράς, (b) Αντίστοιχο ηχογρα- ϕηµένο σήµα στο χώρο R3 (c) µεταβολή της µέσης τιµής ανά συχνοτική περιοχή του Dk m (n), (d)2 αναπαράστασηµεϐάσητουμαε.

75 54 Κεφάλαιο 3 RT 60 =6.4sec, RT 60 =1.1sec και RT 60 =0.368sec αντίστοιχα. Η διακεκοµµένη γραµµή σε κάθε περίπτωση αντιστοιχεί στη µέση τιµή της υπολογισθείσας υποκειµενικής παραµόρφωσης για την συγκεκριµένη χρονική διάρκεια του ηχητικού σήµατος. Είναι εµφανές οτι η παράµετρος µεταβάλλεται µε την χρονική εξέλιξη του ηχητικού σήµατος και ότι η µέση τιµή του αυξάνει συναρτήσει του χρόνου αντήχησης, έτσι ώστε το αντιληπτικό ϕαινόµενο της αντήχησης να είναι εντονότερο σε µεγαλύτερους χώρους (Σχήµατα 3.10(a) και 3.10(b)) σεσχέσηµεακουστικάϐέλτιστουςχώρους (Σχήµα 3.10(c)). Επίσης, µεγαλύτεροι χρόνοι αντήχησης, ϕαίνεται να οδηγούν σε µέγιστες τιµές του Dk m (n) για µεγαλύτερη χρονική διάρκεια. Σχήµα 3.10: Μεταβολή του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) για ηχητικό σήµα το οποίο έχει ηχογραφηθεί σε τρεις διαφορετικούς χώρους : (a) χώρος R3 (α- ϑλητική εγκατάσταση), (b) χώρος R2 (αίθουσα διδασκαλίας), (c) χώρος R1 (εργαστήριο Οµάδας Ηχου και Ακουστικής). Η διακεκοµµένη γραµµή αναφέρεται στην µέση τιµή του ΕΑ για την κάθε περίπτωση και για το συνολικό χρονικό διάστηµα παρατήρησης. Το ΥΜΑΕ µπορεί να επεκταθεί κατάλληλα έτσι ώστε να υπολογίζει χωριστά το

76 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 55 Dk m (n) για τα δυο διακριτά κανάλια ενός στερεοφωνικού ηχητικού σήµατος, όπως ϑα παρουσιαστεί στο επόµενο Κεφάλαιο. Με δεδοµένη την παρούσα υλοποίηση του ΥΜΑΕ και λόγω του ότι ο µηχανισµός επεξεργασίας που καθορίζει, σχετίζεται µε την πληροφορία ενός καναλιού (µόνο-ωτική προσέγγιση), οποιαδήποτε υποκει- µενική παράµετρος που σχετίζεται µε χωρική ή ενδοκαναλική πληροφορία (π.χ. κατεύθυνση, γωνία άφιξης κλπ) δεν µπορεί να ληφθεί υπόψη και να επεξεργαστεί από τη συγκεκριµένη ιαδικασία Απόφασης ( Α). Για το λόγο αυτό η διαχείριση της χωρικής πληροφορίας επιτυγχάνεται µε τη χρήση του Σταδίου Απεικόνισης των Ενδο-καναλικών Παραµέτρων (ΣΑΕΠ) το οποίο λειτουργεί συµπληρωµατικά µε το ΥΜΑΕ και περιγράφεται στην ακόλουθη παράγραφο Μοντελοποίηση Ενδο-καναλικών Παραµέτρων Είσοδος στο Στάδιο Απεικόνισης των Ενδοκαναλικών Παραµέτρων (ΣΑΕΠ), το οποίο συµπεριλαµβάνεται και στο Σχήµα 3.2, είναιτοστερεοφωνικόανηχωικόσήµακαι το αντίστοιχο ηχητικό σήµα µε αντήχηση όπως ηχογραφήθηκε κατά την αναπαραγωγή του σε κλειστούς χώρους. Οι σχετικές ενδο-καναλικές (χωρικές) παράµετροι (ϐλ. Κεφάλαιο 2) πουεξετάζονταιµετηχρήσητουσαεπείναιηενδο-καναλική στάθµη διαφοράς (Inter-Channel Level Difference, ICLD), η ενδο-καναλική χρονική διαφορά (Inter-Channel Time Difference, ICTD) και η ενδο-καναλική συνάφεια (Inter-Channel Coherence, ICC) [Blauert (1997), Faller (2003, 2004, 2006)]. Οι παραπάνω παρά- µετροι υπολογίζονται για τα δύο σήµατα και για κάθε συχνοτική περιοχή και ως συνάρτηση του χρόνου, όπως ϕαίνεται και στο Σχήµα Ηενδο-καναλική στάθµη διαφοράς ICLD (εκφρασµένη σε db) αναφέρεται στην διαφορά στάθµης ανάµεσα στα δυο ηχητικά κανάλια [Blauert (1997), Faller (2006)] και δίνεται από τη σχέση : ( ) px R(k, n) ICLD(k, n) =10 log 10, (3.8) p x L(k, n) όπου p x R(k, n) και p x L(k, n) είναι ϐραχύχρονοι υπολογισµοί της ενέργειας για κάθε κανάλι (Right και Left) και κάθε συχνοτική περιοχή. Οι τιµές της παραµέτρου ICLD κυµαίνονται στην περιοχή : l ICLD(k, n) l. (3.9) Η ενδο-καναλική χρονική διαφορά ICTD (εκφρασµένη σε δείγµατα) αναφέρεται στην χρονική διαφορά των δυο ηχητικών καναλιών [Faller (2004)], και αποτελεί το χρονικό στιγµιότυπο κατά το οποίο έχει προκύψει η µέγιστη τιµή του ϐραχύχρονου υ- πολογισµού της κανονικοποιηµένης συνάρτησης ετεροσυσχέτισης Φ x R xl(k, n), όπως

77 56 Κεφάλαιο 3 Σχήµα 3.11: Σχηµατικό διάγραµµα για το Στάδιο Απεικόνισης των Ενδοκαναλικών Παραµέτρων (ΣΑΕΠ). Ο δείκτης υποδηλώνειτηνπαρουσίααντήχησηςσταηχητικά σήµατα και τις αντίστοιχες ενδο-καναλικές παραµέτρους. προκύπτει από τις ακόλουθες σχέσεις : ICTD(k, d) =arg max {Φ x d R xl(k, n)}, (3.10) Φ x R x L(k, n) = p x R xl(k, n) px R(k, n)p x L(k, n), (3.11) όπου p x R xl(k, n) είναι ϐραχύχρονος υπολογισµός της ενέργειας της µέσης τιµής του όρου x R k,n xl k,n.οιτυπικέςτιµέςτηςπαραµέτρουictd(δείγµατα)είναιστηνπεριοχή: N ICTD(k, n) N. (3.12) Η ενδο-καναλική συνάφεια ICC εκφράζει τον ϐαθµό οµοιότητας ανάµεσα στα δυο διακριτά ηχητικά κανάλια (Right και Left) και προκύπτει από τη µέγιστη τιµή της κανονικοποιηµένης συνάρτησης ετεροσυσχέτισης Φ x R xl(k, n) στο χρονικό στιγµιοτύπο N 0,µεϐάσητησχέση: ICC(k, N 0 )=max Φ x n=n R xl(k, n). (3.13) 0 εδοµένου ότι στην Εξ. (3.13) έχει χρησιµοποιηθεί η απόλυτη τιµή της κανονικοποιηµένης συνάρτησης ετεροσυσχέτισης, οι τιµές της παραµέτρου ICC κυµαίνονται στην περιοχή : 0 ICC(k, n) 1, (3.14)

78 3.3. Περιγραφή Υποκειµενικού Φαινοµένου Αντήχησης 57 µε την τιµή 1 να υποδεικνύει ότι τα σήµατα x R και x L είναι όµοια. Με ϐάση τις Εξ. (3.10)-(3.14) οι ενδο-καναλικές παράµετροι (για το ανηχωικό και το ηχογρα- ϕηµένο σήµα) υπολογίζονται για τις ακόλουθες υποκειµενικά σηµαντικές περιοχές [Zarouchas (2009)]: l 1 ICLD(k, n) l 1 και l 2 ICLD(k, n) l 2, N 1 ICTD(k, n) N 1 και N 2 ICTD(k, n) N 2, (3.15) 0 ICC(k, n) 1 και 0 ICC(k, n) 1. Οι παράµετροι ICLD(k, n) και ICLD(k, n) υπολογίζονται στην περιοχή των [ 7, 7] db. Αντίστοιχα οι παράµετροι ICTD(k, n) και ICTD(k, n) στην περιοχή [ 1, 1] ms, δηλαδή(n 1 /f s και N 2 /f s [ 1, 1] ms) γιασυχνότηταδειγµατοληψίας f s =44100Hz ιαφορικές Ενδο-καναλικές Παράµετροι Για τον προσδιορισµό των διαφορών ανάµεσα στις ενδο-καναλικές παραµέτρους που αντιστοιχούν στο αρχικό σήµα και σε αυτές του ηχογραφηµένου (αρχικό σήµα µε αντήχηση), κατάλληλοι διαφορικοί 2 χάρτες (χρονο-συχνοτική απεικόνιση) υπολογίζονται όπως ϕαίνεται και στο τελευταίο τµήµα επεξεργασίας του Σχήµατος Συνεπώς, ο διαφορικός χάρτης για κάθε ενδο-καναλική παράµετρο ορίζεται από τις ακόλουθες σχέσεις [Zarouchas (2009)]: D l k,n = ICLD(k, n) ICLD(k, n), D t k,n = ICTD(k, n) ICTD(k, n), (3.16) D c k,n = ICC(k, n) ICC(k, n), και µε ϐάση τις Εξ. (3.15) και (3.16) οι περιοχές τιµών των διαφορικών ενδοκαναλικών παραµέτρων δίνονται από τις ακόλουθες εκφράσεις : (l 1 + l 2 ) D l k,n (l 1 + l 2 ), (N 1 + N 2 ) D t k,n (N 1 + N 2 ), (3.17) 1 D c k,n 1. Τυπικές απεικονίσεις των 2 χαρτών που αντιστοιχούν σε ένα ϐέλτιστο ακουστικό χώρο (Εργαστήριο Οµάδας Τεχνολογίας Ηχου και Ακουστικής, χώρος R1) και σε έ- να κλειστό αθλητικό χώρο µε εξαιρετικά υψηλή αντήχηση (Γήπεδο Καλαθοσφαίρισης Απόλλων Πατρών, χώρος R3), δίνονται στο Σχήµα Οπως µπορεί κανείς να

79 58 Κεφάλαιο 3 Σχήµα 3.12: Απεικονίσεις διαφορικών ενδο-καναλικών παραµέτρων. (a) Συνάφεια, (b) ιαφορά στάθµης (db) και (c) Χρονική διαφορά (ms), για τους χώρους R1 και R3 και για ηχητικό σήµα αναφοράς «µουσική jazz». Να επισηµανθεί ότι περιοχές µε σκούρο χρώµα σχετίζονται µε µεγαλύτερες αλλοιώσεις λόγω αντήχησης.

80 3.4. Στατιστική Ανάλυση Παραµέτρων 59 παρατηρήσει, για χαµηλές τιµές του χρόνου αντήχησης και ελεγχόµενες ανακλάσεις όπως είναι η περίπτωση του χώρου R1, το σύνολο των διαφορικών ενδο-καναλικών παραµέτρων εµφανίζουν µικρή διασπορά (δηλ. στους αντίστοιχους 2D χάρτες, µεγάλες περιοχές χρόνου-συχνότητας έχουν τιµές κοντά στο µηδέν και το σύνολο των σχετικών αποκλίσεων να είναι κοντά σε αυτή την τιµή). Για µεγάλες τιµές του χρόνου αντήχησης (χώρος R3) µεγαλύτερη διασπορά των τιµών παρατηρείται για κάθε ενδοκαναλική παράµετρο. Για τον είκτη Επικάλυψης λόγω Αντήχησης Dk,n m όπως και για τις διαφορικές ενδο-καναλικές παραµέτρους Dk,n l,dc k,n,dt k,n,ηµέσητιµήµπορεί να εξαχθεί για κάθε περίπτωση. Η τιµή αυτή εκφρασµένη σε λογαριθµική κλίµακα (εκτός από την παράµετρο Dk,n l )αντιστοιχείσεµιαµέσηεκτίµησητωνυποκειµενικών παραµορφώσεων για την συνολική χρονική διάρκεια αναπαραγωγής του ηχητικού σήµατος. 3.4 Στατιστική Ανάλυση Παραµέτρων Εξαρτώµενη του Συστήµατος Στατιστική Ανάλυση Τις τελευταίες δεκαετίες είναι ευρεία η χρήση εργαλείων και µεθοδολογιών στατιστικής ανάλυσης στην Ακουστική Χώρων για τηνερµηνείατουϕαινοµένουτηςαντήχησης [Lubman (1968), Schroeder (1987), Waterhouse (1968)]. Για την απόκριση χώρου, τα στατιστικά µεγέθη στο πεδίο του χρόνου και της συχνότητας, σχετίζονται µεταξύ τους και µπορούν να ϑεωρηθούν ως στοχαστικές διαδικασίες για ένα συγκεκριµένο χρονικό όριο (αυτό που αντιστοιχεί στην «ουρά» της κρουστικής απόκρισης) ή πάνω από µια συγκεκριµένη συχνότητα (συχνότητα Schroeder στην Συνάρτηση Μεταφοράς Χώρου) [Jot (1997)]. Για οποιαδήποτε Κρουστική Απόκριση Χώρου (Room Impulse Response, RIR), η συνάρτηση αυτοσυσχέτισης και τα ιστογράµµατα των τιµών πλάτους των δειγµάτων της RIR µεταβάλλονται ως συνάρτηση του χρόνου, δείχνοντας µε αυτό τον τρόπο την παρουσία του απευθείας σήµατος, τις πρώιµες ανακλάσεις και την στοχαστικά εκθετικά αποσβένουσα περιοχή της αντήχησης ( «ουρά» της κρουστικής). Στην υποενότητα αυτή, προτείνεται ένα απλοποιηµένο στατιστικό µοντέλο το οποίο διαχειρίζεται τα ιστογράµµατα των διακριτών τιµών πλάτους µιας Κρουστικής Απόκρισης Χώρου (Room Impulse Response, RIR) ως κανονικές κατανοµές µε µέση τιµή µ και διασπορά σ 2. Οπως είναι γνωστό, η κανονική κατανοµή έχει συνάρτηση πυκνότητας πιθανότητας που δίνεται από τη σχέση : (x µ) 2 P (x; σ, µ) = 1 σ 2π e 2σ 2. (3.18)

81 60 Κεφάλαιο 3 Ωστόσο, υποθέτωντας ότι οι διακριτές τιµές πλάτους της Κρουστικής Απόκρισης Χώ- ϱου h i (n) είναι τυχαίες µεταβλητές, µια υπόθεση που πάντα ισχύει για το καθαρά στοχαστικό τµήµα της απόκρισης (late part) [Jot (1997)], η αντίστοιχη Συνάρτηση Πυκνότητας Πιθανότητας (ΣΠΠ) ϑα είναι : P (h i (n)) = P (h i (n); σ i,µ i ). (3.19) Συνεπώς, από αυτή την εξαρτώµενη του συστήµατος στατιστική προσέγγιση, οι ακουστικές παράµετροι (π.χ. χρόνος αντήχησης RT 60 )διαφορετικώνκλειστώνχώρωνακρόασης, µπορούν να περιγραφούν µε κανονικές κατανοµές που χαρακτηρίζονται από διαφορετικές διασπορές. ιαφοροποιήσεις στιςγενικέςµορφέςτωνκατανοµώνµπο- ϱούν να αντιστοιχηθούν σε διαφοροποιήσεις των τιµών των ακουστικών παραµέτρων (π.χ., η κατανοµή µιας Κρουστικής Απόκρισης Χώρου µε µεγάλη «ουρά» αντιστοιχεί σε µεγαλύτερη τιµή του χρόνου αντήχησης). Ανώτερης τάξης στατιστικά µεγέθη (π.χ., κύρτωση) µπορούν να χρησιµοποιηθούν για να περιγράψουν τις ακουστικές παρα- µέτρους κάθε κλειστού χώρου ακρόασης και να αποτελέσουν ενδεικτικό µέτρο της αντήχησης παρούσας σε κάθε Κρουστική Απόκριση Χώρου. Οπως είναι γνωστό η κύρτωση περιγράφει γιαέναπεπερασµένοσύνολοδειγµάτων (π.χ., διακριτά δείγµατα της h i (n)), κατά πόσο η κανονική κατανοµή είναι στενή ή περισσότερο επίπεδη και εκφράζεται από την τέταρτη ϱοπή προς την τέταρτη δύναµη της τυπικής απόκλισης [Kendall (1994)], όπως ϕαίνεται από την ακόλουθη σχέση : K h = E { (x µ) 4} σ 4, (3.20) όπου µ είναι η µέση τιµή, σ είναι η τυπική απόκλιση και για ένα σύνολο δειγµάτων µε κανονική κατανοµή η τιµή της κύρτωσης είναι ίση µε τρία [Usher (2007), Kendall (1994)]. Η υπόθεση για τη συσχέτιση ανάµεσα στο χρόνο αντήχησης και την κύρτωση επιβεβαιώθηκε στην παρούσα εργασία µε την ανάλυση των κρουστικών αποκρίσεων χώρων ακρόασης µε σηµαντικές διαφοροποιήσεις στις ακουστικές τους ιδιότητες, όπως περιγράφεται στην Ενότητα 3.5. Ουπολογισµόςτηςκύρτωσης,γιατουςυπόεξέταση χώρους ακρόασης, πραγµατοποιήθηκε σε διαδοχικά µη-επικαλυπτόµενα τµήµατα των 1024 δειγµάτων των αντίστοιχων Κρουστικών Αποκρίσεων. Στο Σχήµα 3.13(a), απεικονίζονται οι κατανοµές των Κρουστικών Απόκρισης Χώρου, όπου ακολουθούν το ϐασικό σχήµα της κανονικής κατανοµής, µεσηµαντικήδιαφοροποίηση της διασποράς των τιµών πλάτους από τη µέση τιµή. Για παράδειγµα, ο κλειστός αθλητικός χώρος (R3) µε χαρακτηριστικά µεγάλο χρόνο αντήχησης (RT 60 =6.4 sec)παρουσιάζει σηµαντική διασπορά των µη-µηδενικών τιµών του πλάτους, που αντιστοιχούν στην µε σχετική καθυστέρηση ενέργεια της αντήχησης (late part). Στο Σχήµα 3.13(b), δίνον-

82 3.4. Στατιστική Ανάλυση Παραµέτρων 61 ται οι υπολογισθείσες τιµές της κύρτωσης για τους υπό-εξέταση χώρους, συναρτήσει του χρόνου αντήχησης, όπου διαγράφεται η γενική µορφή των ακουστικών ιδιοτήτων για τους τρεις χώρους ακρόασης. Για τον ακουστικά ϐέλτιστο χώρο R1 (Εργαστήριο Οµάδας Ηχου και Ακουστικής) η τιµή της κύρτωσης είναι πάνω από 3 (τιµή αναφοράς για ένα σύνολο δεδοµένων µε ιδανική κανονική κατανοµή), ενώ η αντίστοιχη τιµή για τον χώρο R3 (κλειστή αθλητική εγκατάσταση) είναι κάτω από 2. Συνεπώς, µεγαλύτερη τιµή της κύρτωσης αντιστοιχεί σε µεγαλύτερη στάθµη (db) του λόγου απευθείας προς ανακλώµενου ήχου (Direct to Reverberant Ratio, D/R) για την κρουστική απόκριση και σε µικρότερο χρόνο αντήχησης (Reverberation Time, RT 60 )γιατονχώροακρόασης. Παρόλο που ο υπολογισµός της κύρτωσης παρέχει µια συνολική ένδειξη για Σχήµα 3.13: (a) Ιστογράµµατα των Συναρτήσεων Πυκνότητας Πιθανότητας για τις Κρουστικές Αποκρίσεις διαφορετικών Χώρων, (b) Τιµές κύρτωσης για τις αντίστοιχες Κρουστικές Αποκρίσεις. την αντήχηση ενός κλειστού χώρου ακρόασης, όπως καταγράφεται στην αντίστοιχη Κρουστική Απόκριση Χώρου, διαφοροποιήσεις στις ϑέσεις πηγής-δέκτη σε ένα χώρο ακρόασης οδηγούν και σε αντίστοιχες διαφοροποιήσεις στις τιµές της κύρτωσης, κυ- ϱίως λόγω των µεταβολών του λόγου D/R στις αντίστοιχες κρουστικές αποκρίσεις. Η παρατήρηση αυτή επιβεβαιώνεται µε την ανάλυση των Κρουστικών Αποκρίσεων (ΚΑ) σε δυο διαφορετικές ϑέσεις στο χώρο R2 (αίθουσα διδασκαλίας), όπως προκύπτει από το Σχήµα 3.14 (απεικόνιση των ΣΠΠ των ΚΑ για δυο διαφορετικές ϑέσεις) και τον Πίνακα 3.1 (τιµές της κύρτωσης των ΚΑ για τις παραπάνω ϑέσεις). Απόσταση Πηγής / έκτη Κύρτωση Θέση 1 6.6(m) Θέση 2 2(m) Πίνακας 3.1: Τιµές της κύρτωσης των Κρουστικών Αποκρίσεων για δυο διαφορετικές ϑέσεις του χώρου R2 (Αίθουσα διδασκαλίας).

83 62 Κεφάλαιο 3 Σχήµα 3.14: Απεικόνιση των Συναρτήσεων Πυκνότητας Πιθανότητας των Κρουστικών Αποκρίσεων για διαφορετικές ϑέσεις του χώρου ακρόασης R2 (Αίθουσα διδασκαλίας) Εξαρτώµενη του Σήµατος Στατιστική Ανάλυση Με ϐάση την παραπάνω ανάλυση κρίνεται απαραίτητη η επέκταση της στατιστικής ανάλυσης και στις υποκειµενικές παραµέτρους εξαρτώµενες του σήµατος που περιγράφηκαν στις προηγούµενες παραγράφους. Με ϐάση τον ορισµό του είκτη Επικάλυψης λόγω Αντήχησης Dk,n m (ϐλ. Εξ. 3.6) καιεπισηµαίνονταςοτιοιτιµέςπου λαµβάνει είναι πάντα ϑετικές, τα αριθµητικά αποτελέσµατα του Dk,n m ακολουθούν µια κατανοµή τα γενικά χαρακτηριστικά της οποίας είναι παρόµοια µε αυτά της αντίστρο- ϕης κατανοµής γάµµα [Kendall (1994)] µε συνάρτηση πυκνότητας πιθανότητας (ΣΠΠ) [Zarouchas (2009)]: P (x; α, β) = βα Γ(α) x α 1 e β x,x>0, (3.21) όπου α ειναι η παράµετρος µορφής, β η παράµετρος κλίµακας καιγ(.) είναι η συνάρτηση γάµµα [Kendall (1994)] που ορίζεται από την έκφραση : Γ(κ) = 0 t κ 1 e t dt, κ > 0. (3.22) Οπως συζητήθηκε στην Παράγραφο 3.4.1, οιτιµέςτηςπαραµέτρουd m k,n µπορούν να ϑεωρηθούν ως τυχαίες µεταβλητές (µε αυστηρώς ϑετικές τιµές) και συνεπώς η αντίστοιχη συναρτήση πυκνότητας πιθανότητας δίνεται από την ακόλουθη έκφραση : P (Dk,n m ; α, β) = βα Γ(α) (Dm k,n ) α 1 e β D m k,n,d m k,n > 0. (3.23)

84 3.5. Μεθοδολογία Μετρήσεων και Αποτελέσµατα 63 Παρόµοια, για τις διαφορικές ενδο-καναλικές παραµέτρους, οι συναρτήσεις πυκνότητας πιθανότητας µε ϐάση την Εξ. (3.19), δίνονται από την ακόλουθη έκφραση : P (D c,l,t k,n )=P(Dc,l,t k,n ; σ i,µ i ), (3.24) όπου D c,l,t k,n αντιστοιχεί στις παραµέτρους της διαφορικής ενδοκαναλικής συνάφειας, διαφοράς στάθµης και χρόνου, και ϑεωρούνται όπως και παραπάνω ως τυχαίες µετα- ϐλητές. 3.5 Μεθοδολογία Μετρήσεων και Αποτελέσµατα Μεθοδολογία Μετρήσεων Μετρήσεις πραγµατοποιήθηκαν έχοντας ως αναφορά στερεοφωνικά ηχητικά σήµατα, µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz (τυπικά WAV αρχεία), από διαφορετικές κατηγορίες όπως µουσική τζαζ, σόλο πιάνο, περιοδικές νότες από κρουστό (καστανιέτες) καθώς και οµιλία. Παράλληλα και µε ϐάση τη µεθοδολογία ανάλυσης του Σχήµατος 3.2, ωςεπιπλέονείσοδοιχρησιµοποιήθηκαν τα αντίστοιχα σήµατα τα οποία ηχογραφήθηκαν κάτω από διαφορετικές συνθήκες αντήχησης σε κλειστούς χώρους. Οι ιδιότητες των χώρων ακρόασης που αντιστοιχούν σε ένα ακουστικά ϐέλτιστο διαµορφωµένο χώρο έως και µια κλειστή α- ϑλητική εγκατάσταση, παρουσιάζονται στον Πίνακα 3.2. Χώρος ιαστάσεις ΜxΠxΥ (m) RT 60 (sec) D/R (db) Περιγραφή R1 7.15x4.60x Ακουστικά ϐέλτιστο εργαστήριο R x7.05x Αίθουσα διδασκαλίας R3 60x42x Αθλητική εγκατάσταση R4 30x25x Συνεδριακό κέντρο Πίνακας 3.2: Ιδιότητες των χώρων ακρόασης και των αντίστοιχων Κρουστικών Αποκρίσεων που χρησιµοποιήθηκαν στις µετρήσεις. Οι περιβάλλουσες σε λογαριθµική κλίµακα των Κρουστικών Αποκρίσεων των χώρων ακρόασης R1, R2 και R3, µετά την χρήση χαµηλοδιαβατού ϕίλτρου µε συχνότητα αποκοπής 20 Hz, απεικονίζονται στο Σχήµα ΟπωςϑαδειχθείστηνΠαράγρα- ϕο 3.5.3, οιγενικέςµορφέςτωνπεριβαλλουσώνείναισεσυµφωνίαµετιςκατανοµές

85 64 Κεφάλαιο 3 των Συναρτήσεων Πυκνότητας Πιθανότητας του είκτη Επικάλυψης λόγω Αντήχησης D m k,n. Σχήµα 3.15: Περιβάλλουσες σε λογαριθµική κλίµακα (µε χρήση χαµηλοδιαβατού ϕίλτρου) των Κρουστικών Απόκρισης των χώρων R1, R2 και R Συνολικές Μεταβολές των Εξαρτώµενων του Σήµατος Παραµέτρων Με ϐάση τις 2 (πεδίο χρόνου-συχνότητας) αναπαραστάσεις (ϐλ. Παράγραφο 3.3), οι τοπικές καθώς και οι συνολικές µεταβολές των εξαγόµενων µονοκαναλικών και διαφορικών ενδο-καναλικών παραµέτρων µπορούν να εντοπισθούν και κατ επέκταση να ποσοτικοποιηθούν για κάθε υπό εξέταση χώρο ακρόασης και ηχητικό σήµα εισόδου. Τα σχετικά αποτελέσµατα για κάθε περίπτωση παρουσιάζονται στις επόµενες παραγράφους Μεταβολές των Μονοκαναλικών Παραµέτρων Στον Πίνακα 3.3 παρουσιάζεται η µεταβολή του είκτη Επικάλυψης Αντήχησης D m k,n για διαφορετικά ηχητικά σήµατα, ηχογραφηµένα σε τρεις διαφορετικούς κλειστούς χώρους ακρόασης. Οπως ϕαίνεται, οι τιµές του Dk,n m για τον χώρο R3 (αθλητική εγκατάσταση) υποδεικνύουν µεγαλύτερο ϐαθµό των αντιληπτικών µεταβολών για κάθε τύπο σήµατος. Επιπλέον, οι υπολογισθείσες τιµές σχετίζονται και µε το είδος του σήµατος εισόδου. Επίσης, για συγκεκριµένο χώρο ακρόασης ο δείκτης σχετίζεται µε την απόσταση πηγής/δέκτη (ϐλ. Πίνακα 3.4) ανιχνεύονταςµεαυτότοντρόποχαρακτηριστικά αντήχησης στο ηχογραφηµένο σήµα, λόγω της µεταβολής της ενεργειακής στάθµης του λόγου απευθείας προς ανακλώµενου ήχου.

86 3.5. Μεθοδολογία Μετρήσεων και Αποτελέσµατα 65 Συνεπώς ο προτεινόµενος είκτης Επικάλυψης Αντήχησης Dk,n m ϐρίσκεται σε συµ- ϕωνία µε τις ακουστικές ιδιότητες των χώρων ακρόασης, ανιχνεύει την παρουσία της υποκειµενικά σηµαντικής αντήχησης σε ηχογραφηµένο σήµα και εξαρτάται από το είδος του ηχητικού σήµατος εισόδου Μεταβολές των ιαφορικών Ενδό-καναλικών Παραµέτρων Στον Πίνακα 3.5 ϕαίνεται η µεταβολή των ενδοκαναλικών παραµέτρων για τους πα- ϱαπάνω χώρους ακρόασης, χρησιµοποιώντας σόλο πιάνο ως ηχητικό σήµα αναφοράς. Οπως µπορεί να παρατηρήσει κανείς, η διακύµανση της διαφορικής ενδο-καναλικής συνάφειας Dk,n c και της διαφορικής ενδο-καναλικής χρονικής διαφοράς Dt k,n είναι κοντά στα 3 db, ανάµεσα στους χώρους R1 και R3. Σήµα Χώρος R1 R2 R3 R4 Τζάζ Πιάνο Οµιλία Πίνακας 3.3: Τιµές του είκτη Επικάλυψης λόγω Αντήχησης Dk,n m για διαφορετικούς χώρους ακρόασης και διαφορετικά ηχητικά σήµατα. Χώρος R2 Σήµα Θέση 1 Θέση 2 (απόσταση πηγής/δέκτη = 6.6m) (απόσταση πηγής/δέκτη = 2m) Τζάζ Πιάνο Οµιλία Πίνακας 3.4: Τιµές του είκτη Επικάλυψης λόγω Αντήχησης Dk,n m ϑέσεις στον χώρο ακρόασης R2 και διαφορετικά ηχητικά σήµατα. για διαφορετικές ιαφορική Παράµετρος Χώρος R1 R2 R3 Συνάφεια D c k,n Στάθµη D l k,n Χρόνος D t k,n Πίνακας 3.5: Τιµές των διαφορικών ενδό-καναλικών παραµέτρων για διαφορετικούς χώρους ακρόασης και για σήµα αναφοράς σόλο πιάνο.

87 66 Κεφάλαιο 3 Οι παραπάνω υπολογισθείσες τιµές για τις διαφορικές παραµέτρους δείχνουν τις µεταβολές των ενδο-καναλικών παραµέτρων ανάµεσα στο ηχογραφηµένο σήµα και στο σήµα αναφοράς και τη συσχέτιση τους µε διαδεδοµένες ακουστικές ιδιότητες όπως ο χρόνος αντήχησης. Επιπλέον, η συνολική µεταβολή των ενδοκαναλικών παραµέτρων ϕαίνεται να εξαρτάται και από το συγκεκριµένο ηχητικό σήµα Στατιστικές Κατανοµές των Εξαρτώµενων του Σήµατος Παραµέτρων Με ϐάση την ανάλυση που πραγµατοποιήθηκε στις προηγούµενες παραγράφους κρίνεται σκόπιµη η εξέταση των στατιστικών των προτεινόµενων παραµέτρων. Για τον είκτη Επικάλυψης λόγω Αντήχησης Dk,n m (ϐλ. Εξ.3.6) και λαµβάνοντας υπόψη τις παρατηρήσεις της Παραγράφου 3.4.2, ταιστογράµµατατωναντίστοιχωνκατανοµών για διαφορετικού τύπου ηχητικά σηµάτα και για διαφορετικούς χώρους ακρόασης, παρουσιάζονται στα Σχήµατα 3.16(a)-(c). Απότιςσυγκεκριµένεςαπεικονίσεις,µπο- ϱεί κανείς εύκολα να παρατηρήσει την συµφωνία µε χαρακτηριστικά εξαρτώµενα του σήµατος καθώς και του συστήµατος λαµβάνοντας υπόψη τις ακουστικές ιδιότητες του υπό-εξέταση χώρου. Για τον ακουστικά ϐέλτιστο διαµορφωµένο χώρο (R1), οι µετα- ϐολές παραµένουν µικρές και υποκειµενικά λιγότερο σηµαντικές. εδοµένου οτι η µετατόπιση των κατανοµών προς τα δεξιά, δηλαδήπροςµεγαλύτερεςτιµέςπλάτους του αντιστοιχεί σε µεγαλύτερη παραµόρφωση, το σήµα οµιλίας είναι περισότερο ευαίσθητο σε σχέση µε τα σήµατα µουσικής, από τα οποία το σήµα πιάνο είναι πιο δεκτικό σε αυτού του είδους τις αλλαγές. Επίσης είναι εµφανές ότι χώροι µε µεγάλη αντήχηση αυξάνουν τη συχνότητα εµφάνισης και την ένταση των παραµορφώσεων όπως αυτές καταγράφονται µε τη χρήση του Dk,n m και απεικονίζονται στο Σχήµα 3.16(c) καθώς και στο Σχήµα Από την ανάλυση αυτή προκύπτει οτι ο είκτης Επικάλυψης λόγω Αντήχησης D m k,n εµφανίζει ιστογράµµατα των ΣΠΠ µε δεξιά µετατοπισµένες ουρές, προσεγγίζοντας το γενικότερο σχήµα της ϕθίνουσας περιβάλλουσας των Κρουστικών αποκρίσεων των ε- ξαρτόµενων από το σύστηµα όπως µπορεί κανείς να παρατηρήσει µε σύγκριση του Σχήµατος 3.16 και του Σχήµατος Είναιεπίσηςεµφανέςότιηµοντελοποίηση των παραµορφώσεων αυτών εξαρτάται από το είδος του ηχητικού σήµατος. Παράλληλα η σχετική ϑέση πηγής/δέκτη σε ένα χώρο ακρόασης καθορίζει το ϐαθµό των παραµορφώσεων, όπως αυτό ϕαίνεται στα Σχήµατα 3.16(d)-(f), όπουµετρήσειςπραγ- µατοποιήθηκαν στο Χώρο R2 για µια ϑέση κοντά στην πηγή (Θέση 2, απόσταση 2m) και µια ϑέση µακριά από την πηγή (Θέση 1, απόσταση 6.6m). Από τα αποτελέσµατα αυτά είναι εµφανές οτι το σήµα οµιλίας είναι πιο ευαίσθητο στις παραµορφώσεις λόγω αντήχησης καθώς και ότι για το σύνολο των υπό-εξέταση ηχητικών σηµάτων

88 3.5. Μεθοδολογία Μετρήσεων και Αποτελέσµατα 67 Σχήµα 3.16: Ιστογράµµατα Συναρτήσεων Πυκνότητας Πιθανότητας για τον είκτη Ε- πικάλυψης λόγω Αντήχησης D m k,n.(a)-(c)διαφορετικάηχητικάσήµατααναφοράςγια τους χώρους R1, R2 και R3, (e)-(f) διαφορετικά ηχητικά σήµατα αναφοράς για τον χώ- ϱο R2 για 2 ϑέσεις (Θ1: απόσταση πηγής/δέκτη = 6.6m, Θ2: απόσταση πηγής/δέκτη =2m).

89 68 Κεφάλαιο 3 µεγαλύτερες παραµορφώσεις παρουσιάζονται για την µακρινή ϑέση µέτρησης. Τα χαρακτηριστικά των κατανοµών για τις δυο περιπτώσεις προσεγγίζουν µια αντίστροφη κατανοµή γάµµα και σχετίζονται µε την ουρά της Κρουστικής Απόκρισης (ϐλ. Σχήµα 3.15) ηοποίαεπικαλύπτειτοαναπαραγόµενοηχητικόσήµα. Ηακριβήςµορφήτων κατανοµών καθορίζεται από την παράµετρο µορφής α και την παράµετρο κλίµακας β (ϐλ. Εξ.3.23). Πιο συγκεκριµένα, µικρές τιµές της παραµέτρου κλίµακας β δείχνουν οτι η κατανοµή είναι πιο στενή (π.χ., το σήµα τζαζ στο χώρο R2), ενώ αντίθετα µεγαλύτερες τιµές της παραµέτρου κλίµακας β δείχνουν οτι η κατανοµή είναι περισσότερο «απλωµένη» (π.χ., το σήµα οµιλίας στο Χώρο R1). Με τον ίδιο τρόπο η παράµετρος µορφής α επιτρέπει στις κατανοµές να πάρουν ποικίλες µορφές. Σαφώς, για όλες τις εξεταζόµενες περιπτώσεις, η γενική µορφή των κατανοµών είναι δεξιό-κυρτή (σχετικά απλωµένη δεξιά ουρά στο Σχήµα 3.16). Παρόµοιες τάσεις παρατηρήθηκαν και για τις κατανοµές των διαφορικών ενδοκαναλικών παραµέτρων, όπου αντίθετα µε την παρά- µετρο Dk,n m που αναλύθηκε προηγουµένως, οι τιµές που λαµβάνουν οι συγκεκριµένες κατανοµές είναι ϑετικές και αρνητικές. Στο Σχήµα 3.17 ϕαίνεται η διαφοροποίηση των κατανοµών των διαφορικών ενδοκαναλικών παραµέτρων για τους παραπάνω χώρους ακρόασης και για ηχητικά σήµατα αναφοράς τις καστανιέτες και το πιάνο. Οι διαφοροποιήσεις αυτές παρουσιάζονται ως κατανοµές (όπως περιγράφηκε στην Παράγραφο 3.4.2) καιµπορούνναερµηνευ- ϑούν ως απόκλιση από την τυπική κανονική κατανοµή. Τα αποτελέσµατα που παρουσιάζονται στο Σχήµα 3.17 δείχνουν οτι τα στατιστικά µεγέθη των διαφορικών αντιληπτικών κριτηρίων επηρεάζονται από ένα συνδυασµό των ακουστικών ιδιοτήτων των υπό-εξέταση χώρων (ϐλ. Παράρτηµα Α.3) καθώςκαιτις ιδιότητες του εκάστοτε ηχητικού σήµατος. Στις περισσότερες περιπτώσεις, η αντήχηση δηµιουργεί µια στατιστική απόκλιση των διαφορικών παραµέτρων από µια µηδενική µέση τιµή που συνδέεται µε τις εξαρτώµενες του συστήµατος ακουστικές ιδιότητες, οι οποίες αναλύθηκαν στην Παράγραφο Αυτό συντελεί σε µια συστηµατική µετατόπιση των κατανοµών των αντίστοιχων διαφορικών ενδοκαναλικών παραµέτρων. Ωστόσο, ιδιάζουσα ηχητικά σήµατα αναφοράς όπως οι καστανιέτες οδηγούν σε ιστογράµµατα τα οποία αποκλίνουν σηµαντικά από τα αντίστοιχα µιας κανονικής κατανοµής (ϐλ. Σχήµα 3.17(b)). Σε αυτή την περίπτωση είναι πιθανό οτι οι δυο διακριτές κατανοµές που παρατηρούνται στο Σχήµα 3.17(b) οφείλονται στις χωριστές συνεισφορές των χρονικών διαστηµάτων όπου το σήµα (καστανιέτα) είναι παρόν και στα διαστήµατα απουσία σήµατος (χρονικά διαστήµατα σιωπής και αντήχησης).

90 3.5. Μεθοδολογία Μετρήσεων και Αποτελέσµατα 69 Σχήµα 3.17: Ιστογράµµατα Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές ενδοκαναλικές παραµέτρους D c,l,t k,n,γιαηχητικόσήµααναφοράς«τζαζ»[(a),(c)και(e)] και «καστανιέτα» [(b), (d) και (f)] για τους χώρους ακρόασης R1, R2 και R3.

91 70 Κεφάλαιο Σύνοψη Κεφαλαίου και Συµπεράσµατα Στο παρόν κεφάλαιο παρουσιάστηκε η µέθοδος για την περιγραφή των υποκειµενικών παραµορφώσεων των ηχητικών σηµάτων λόγω αντήχησης, µε τη ϐοήθεια 2 απεικονίσεων στο πεδίο χρόνου-συχνότητας. Συµπληρωµατικά ως προς το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) χρησιµοποιήθηκε το Στάδιο Απεικόνισης των Ενδο-καναλικών Παραµέτρων (ΣΑΕΠ) για την περιγραφή των αλλοιώσεων στις χωρικές παραµέτρους όπως αυτές ορίσθηκαν στο Κεφάλαιο 2. Επιπλέον, πραγµατοποιήθηκε στατιστική ανάλυση στα αριθµητικά αποτελέσµατα τόσο των εξαρτώµενων του σήµατος όσο και του συστήµατος παραµέτρων, για την πιο ακριβή και ολοκληρω- µένη περιγραφή των παραπάνω παραµορφώσεων. Πιο συγκεκριµένα η Ενότητα 3.2 αναφέρεται στην ϐασική αρχή που αποτελεί και το ϑεωρητικό υπόβαθρο της παρούσας εργασίας, κατά την οποία µια ϕυσική ποσότητα όπως τα ηχητικά κύµατα µετατρέπονται από το ανθρώπινο ακουστικό σύστηµα σε αντίστοιχες εσωτερικές αναπαραστάσεις. Με εφαρµογή της αρχής της Ελάχιστα Αντιληπτής Στάθµης ιαφοράς (που παρουσιάσθηκε στο Κεφάλαιο 2) στιςεσωτερικές αναπαραστάσεις καθίσταται δυνατή η περιγραφή και µοντελοποίηση του ϕαινοµένου της αντήχησης, ενώς όπως ϑα περιγραφεί στο επόµενο κεφάλαιο η παραπάνω µε- ϑοδολογία επεκτάθηκε και σε περισσότερο πρακτικό επίπεδο για την εξάλειψη της αντήχησης καθώς και σε διαφορετικό ερευνητικό πεδίο για την κωδικοποίηση (στάδιο κβαντισµού) και αξιολόγηση ηχητικών σηµάτων. Στην Ενότητα 3.3 παρουσιάζεται µε τη ϐοήθεια σχηµατικού διαγράµµατος το πλαίσιο ανάλυσης για την εξαγωγή των αντιληπτικών παραµέτρων αντήχησης. Για την πλήρη περιγραφή το ϕαινοµένου της αντήχησης το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) συνδυάζεται µε ένα Στάδιο Απεικόνισης Ενδο-καναλικών Παραµέτρων (ΣΑΕΠ) όπου επιτυγχάνεται µε τη χρήση κατάλληλων χαρτών (χρόνουσυχνότητας) η αναπαράσταση των αλλοιώσεων λόγω αντήχησης στις εξαγόµενες παρα- µέτρους. Επιπρόσθετα, µια κατάλληλη τράπεζα ϕίλτρων χρησιµοποιήθηκε παρέχοντας µη-οµοιόµορφη συχνοτική ανάλυση στο ακουστικό εύρος συχνοτήτων, η οποία ϐρίσκεται σε συµφωνία µε την κλίµακα των κρίσιµων περιοχών που αναφέρθηκαν στο Κεφάλαιο 2. Σηµαντικόπλεονέκτηµατηςπροτεινόµενηςτράπεζαςϕίλτρωνείναι οι άριστες ιδιότητες ανασύνθεσης που παρέχει για την διαδικασία της εξάλειψης αντήχησης (περιγράφεται στο επόµενο κεφάλαιο) όπου είναι απαραίτητη µια διαφανή επεξεργασία ανάλυσης-σύνθεσης. Με τη χρήση του ΥΜΑΕ και στα πλαίσια µοντελοποίησης των µονοκαναλικών παραµέτρων προτείνεται ο είκτης Επικάλυψης λόγω Αντήχησης Dk,n m οοποίοςαποτελείµιαεκτίµησητωνυποκειµενικώνπαραµορφώσεων λόγω αντήχησης πάνω από καθορισµένο κατώφλι. Αντίστοιχα και µέσω του ΣΑΕΠ έχουµε την χρήση των διαφορικών ενδοκαναλικών παραµέτρων για τον προσδιορισµό

92 3.6. Σύνοψη Κεφαλαίου και Συµπεράσµατα 71 των αλλοιώσεων των χωρικών παραµέτρων ανάµεσα στο ηχητικό σήµα αναφοράς και το ηχογραφηµένο σήµα. Για το σύνολο των εξαγόµενων παραµέτρων ενδεικτικές µέσες τιµές µπορούν να εξαχθούν και εκφρασµένες σε λογαριθµική κλίµακα παρέχουν µια µέση εκτίµηση των παραµορφώσεων για τη συνολική χρονική διάρκεια αναπαραγωγής του ηχητικού σήµατος. Στην Ενότητα 3.4 περιγράφεται το πλαίσιο στατιστικής ανάλυσης για τις παραµέτρους εξαρτώµενες του συστήµατος (π.χ. Κρουστική Απόκριση Χώρου h i (n)) καθώς και για τις παραµέτρους εξαρτώµενες του σήµατος (π.χ. είκτης Ακουστικής Επικάλυψης D m k,n ). Στο προτεινόµενο στατιστικό µοντέλο οι διακριτές τιµές πλάτους της Κρουστικής Απόκρισης Χώρου h i (n) ϑεωρούνται ως τυχαίες µεταβλητές µε Συνάρτηση Πυκνότητας Πιθανότητας (ΣΠΠ) αντίστοιχη της κανονικής κατατανοµής (µέση τιµή µ και διασπορά σ 2 ), όπου µε χρήση ανώτερης τάξης στατιστικών µεγεθών (π.χ., κύρτωση) είναι εφικτή η περιγραφή της αντήχησης παρουσας σε κάθε h i (n). Γιαένα ακουστικά ϐέλτιστο χώρο R1 (Εργαστήριο Οµάδας Ηχου και Ακουστικής) η τιµή της κύρτωσης είναι πάνω από 3 (τιµή αναφοράς για ένα σύνολο δεδοµένων µε ιδανική κανονική κατανοµή), ενώ η αντίστοιχη τιµή για τον χώρο R3 (κλειστή αθλητική εγκατάσταση) είναι κάτω από 2. Επίσης διαφοροποίηση στην απόσταση πηγής/δέκτη στον ίδιο χώρο ακρόασης οδηγεί σε διαφοροποίηση της τιµής της κύρτωσης, κυρίως λόγω των µεταβολών του λόγου D/R στις αντίστοιχες κρουστικές αποκρίσεις. Για τις εξαρτώµενες του σήµατος παραµέτρους χρησιµοποιήθηκε παρόµοια στατιστική ανάλυση, όπου τα αριθµητικά αποτελέσµατα του Dk,n m ακολουθούν µια αντίστροφη κατανοµή γάµµα (δεδοµένου ότι οι τιµές που λαµβάνει είναι πάντα ϑετικές), ενώ για τις δια- ϕορικές ενδο-καναλικές παραµέτρους τα αντίστοιχα ιστογράµµατα των αριθµητικών αποτελεσµατων είναι παρόµοια µε αυτά της κανονικής κατανοµής. Στην Ενότητα 3.5 παρουσιάζεται η µεθοδολογία πραγµατοποίησης των µετρήσεων στους υπό-εξέταση χώρους, τα ηχητικά σήµατα αναφοράς που χρησιµοποιήθηκαν, οι αριθµητικές µεταβολές των εξαρτόµενων του σήµατος παραµέτρων καθώς και τα αντίστοιχα ιστογράµµατα των στατιστικών κατανοµών τους. Γενικά, τα αποτελέσµατα για τον είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) Dk,n m δείχνουν µια αύξηση της τιµής του στα χρονικά διαστήµατα κατά τα οποία παρατηρείται επικάλυψη του σήµατος α- πό την εκθετικά αποσβένουσα ουρά της αντήχησης. Η µεταβολή του D m k,n εξαρτάται επίσης από τις ακουστικές ιδιότητες των χώρων ακρόασης, όπου γενικά παρατηρείται αύξηση της τιµής του µε παράλληλη αύξηση του χρόνου αντήχησης (Reverberation Time, RT 60 ). Συνεπώς, όπως άλλωστε ήταν αναµενόµενο, το ϕαινόµενο της επικάλυψης λόγω αντήχησης είναι πιο εµφανές σε µεγαλύτερους χώρους (µεγάλο RT 60 ) καθώς και σε µεγαλύτερες αποστάσεις πηγής/δέκτη. Παρόµοια αποτελέσµατα παρατηρούνται και για τις διαφορικές ενδοκαναλικές παραµέτρους, όπου στις περιπτώσεις µε µεγάλη αντήχηση µεγαλύτερες διαφορές εντοπίζονται στις αντίστοιχες 2D αναπα-

93 72 Κεφάλαιο 3 ϱαστάσεις. Οι γενικές µορφές των ιστογραµµάτων των κατανοµών για τον ΕΑ D m k,n για διαφορετικά ηχητικά σήµατα και ενδεικτικούς χώρους ακρόασης, κατέστη σαφές οτι καθορίζονται από ιδιότητες εξαρτώµενες του σήµατος όσο και εξαρτώµενες του συστήµατος. Σε ένα ακουστικά ϐέλτιστο χώρο οι τιµές του Dk,n m παραµένουν χαµηλές και διαφορετικές ανάλογα µε τον τύπο του ηχητικού σήµατος. Η εξάρτηση του δείκτη Dk,n m από την απόσταση πηγής/δέκτη σε ένα χώρο ακρόασης ήταν έκδηλη, δεδοµένου ότι για το σύνολο των ηχητικών σηµάτων µεγαλύτερες τιµές παρατηρήθηκαν για την πιο µακρινή ϑέση και µε το σήµα οµιλίας να επηρεάζεται σε µεγαλύτερο ϐαθµό από την αντήχηση. Συνολικά, τα ιστογράµµατα των κατανοµών για το δείκτη D m k,n και για τις διάφορες περιπτώσεις αντιστοιχούν σε ιστογράµµατα αντίστροφων κατανο- µών γάµµα, µε τις ουρές των κατανοµών να προσεγγίζουν την εκθετικά αποσβένουσα περιοχή ( «ουρά») της Κρουστικής Απόκρισης Χώρου. Συνεπώς η επίδραση της εκθετικά αποσβένουσας περιοχής της Κρουστικής Απόκρισης Χώρου σε ένα ηχητικό σήµα ήσήµαοµιλίας,περιγράφεταισεικανοποιητικό ϐαθµό από τον προτεινόµενο είκτη Επικάλυψης Λόγω Αντήχησης D m k,n.αντίστοιχα,ταιστογράµµατατωνδιαφορικώνπα- ϱαµέτρων διαµορφώνονται µε παρόµοιο τρόπο από ιδιότητες εξαρτώµενες του σήµατος όσο και εξαρτώµενες του συστήµατος. Στις περισσότερες περιπτώσεις, στατιστικές α- ποκλίσεις (λόγω αντήχησης) από µηδενική µέση τιµή στις διαφορικές παραµέτρους και αλλοίωση των γενικών µορφών των κατανοµών (π.χ., ηχητικό σήµα καστανιέτας), αποτελούν µια ικανοποιητική περιγραφή των ευρύτερων αλλοιώσεων που εισάγει ο χώρος ακρόασης στις χωρικές παραµέτρους κάθε στερεοφωνικού σήµατος. Επιγραµµατικά, στο παρόν κεφάλαιο παρουσιάστηκε µια πρωτότυπη µεθοδολογία ϱαγωγή ηχητικών σηµάτων σε κλειστούς χώρους. Είναι σηµαντικό το γεγονός οτι τα εξαγόµενα στατιστικά αποτελέσµατα για τις προτεινόµενες παραµέτρους σχετίζονται µε διαδεδοµένες ακουστικές παραµέτρους (π.χ., Χρόνος Αντήχησης) που χαρακτηρίζουν κλειστούς χώρους ακρόασης. Ωστόσο και αντίθετα µε τις καθιερωµένες ακουστικές παραµέτρους, οι προτεινόµενες 2D αναπαραστάσεις διαφοροποιούνται δυναµικά µε την χρονική εξέλιξη του σήµατος εισόδου και εξαρτώνται από το είδος του ηχητικού σήµατος, µε ανάλογο τρόπο που είναι συµβατός µε τις υποκειµενικές αλλοιώσεις που καταγράφονται στο σήµα κατά την αναπαραγωγή του σε κλειστούς χώρους ακρόασης. για την περιγραφή του υποκειµενικού ϕαινοµένου της αντήχησης κατά την αναπα- Ολεπτοµερήςεντοπισµόςτωναλλοιώσεωντουσήµατοςµπορείναοδηγήσειενδυνά- µει σε κατάλληλες τεχνικές επεξεργασίας σήµατος για την εξάλειψη ή αντιστάθµιση αυτών των ϕαινοµένων και στα πλαίσια της παρούσας εργασίας παρουσιάζεται στο εποµένο κεφάλαιο µια προτεινόµενη µεθοδολογία. Συνεπώς, το σύνολο των προτεινόµενων απεικονίσεων και παραµέτρων µπορεί να αποτελέσει το εφαλτήριο για την αναθεώρηση του προβλήµατος της αντήχησης και την προσέγγιση του µε την µεθοδολογία εξαρτώµενης του σήµατος που είναι περισσότερο αποτελεσµατική, συµβατή

94 3.6. Σύνοψη Κεφαλαίου και Συµπεράσµατα 73 µε τον ανθρώπινο ακουστικό µηχανισµό και τις ανώτερες αντιληπτικές διεργασίες και κατάλληλη για οποιοδήποτε ηχητικό σήµα που αναπαράγεται σε χώρους ακρόασης.

95

96 Κεφάλαιο 4 Επεξεργασία Ηχητικών εδοµένων µε το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης 4.1 Εισαγωγή Στο παρόν κεφάλαιο περιγράφεται η χρήση του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ), µε τις αντίστοιχες διαφοροποιήσεις ανά περίπτωση, στην επεξεργασία ηχητικών δεδοµένων. Πιο συγκεκριµένα, στο πρώτο µέρος του παρόντος κεφαλαίου (Ενότητα 4.2) περιγράφεταιηµοντελοποίησηκαιηεξάλειψη(τωνυποκειµενικά σηµαντικών) αλλοιώσεων λόγω αντήχησης (στα ηχητικά σήµατα) µε χρήση του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ), όπως ορίστηκε στο προηγούµενο κε- ϕάλαιο. Στην παρούσα ϕάση, η έννοια του ΕΑ επεκτείνεται και σε στερεοφωνικά ηχητικά σήµατα. Επιπλέον, παρουσιάζονται τα αποτέλεσµατα ελεγχόµενων ακροάσεων που πραγµατοποιήθηκαν στον ακουστικά ϐέλτιστο χώρο του εργαστηρίου της Οµάδας Ηχου και Ακουστικής του Πανεπιστηµίου Πατρών, που καταγράφουν την συµφωνία του ΕΑ µε την υποκειµενική αξιολόγηση της αντήχησης καθώς και την επιβεβαίωση της προτεινόµενης µεθόδου για την εξάλειψη των υποκειµενικά σηµαντικών αλλοιώσεων. εδοµένου οτι το ϑεωρητικό µοντέλο που περιγράφηκε στο Κεφάλαιο 3 παρέχει ένα πλήρως ορισµένο και αντιληπτικά συµβατό και ευέλικτο µοντέλο επεξεργασίας, επεκτείνεται η χρήση του και σε διαφορετικές ερευνητικές περιοχές που σχετίζονται µε τη κωδικοποίηση (στάδιο κβαντισµού) και αξιολόγηση ηχητικών σηµάτων, όπως περιγρά- ϕεται αναλυτικά στις Ενότητες 4.3 και 4.4 αντίστοιχα. Πιο συγκεκριµένα, ένας πρωτότυπος µη-οµοιόµορφος κβαντιστής ηχητικών δεδοµένων περιγράφεται, ϐασιζόµενος στη χρήση ενός Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης (ΥΜΑΕ) στο πεδίο χρόνου-συχνότητας. Το συγκεκριµένο µοντέλο ϐασίζεται στη Συµπίεση Εξαρτώµενης του Σήµατος (ΣΕΣ) για την δηµιουργία της εσωτερικής αναπαράστασης του σήµατος 75

97 76 Κεφάλαιο 4 εισόδου (ϐλ. Κεφάλαιο 2), όπου µε την χρήση κατάλληλης ιαδικασίας Απόφασης ( Α) εξάγονται κατώφλια συναρτήσει του χρόνου. Ο προτεινόµενος κβαντιστής και µε την χρήση του ΥΜΑΕ καθορίζει επικαλυπτόµενες (ή µη-επικαλυπτόµενες) περιοχές των εσωτερικών αναπαραστάσεων του ηχητικού σήµατος, ούτως ώστε µε τη χρήση επαναληπτικής διαδικασίας, κατάλληλοι πίνακες µεταβαλλόµενης ανάθεσης bit µπο- ϱούν να εξαχθούν για τον κβαντισµό τον ηχητικών δειγµάτων. Ενδεικτικές µετρήσεις αναφέρουν ικανοποιητική ηχητική ποιότητα για µέση τιµή παροχής 6.7 bits/δείγµα. Το παρόν κεφάλαιο ολοκληρώνεται µε την παρουσίαση ενός εναλλακτικού κριτηρίου αξιολόγησης ηχητικών σηµατών, τα αποτελέσµατα του οποίου συγκρίνονται µε αυτά του διαδεδοµένου κριτηρίου του Λόγου Θορύβου προς Επικάλυψη (Noise to Mask Ratio, NMR) [Brandenburg (1992)] και καταγράφονται συγκριτικά πλεονεκτήµατα καθώς και µειονεκτήµατα. 4.2 Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα Μοντελοποίηση Εξαρτόµενων του Σήµατος Αλλοιώσεων λόγω Αντήχησης Περιγραφή Μοντέλου Στην παρούσα ενότητα η ανάλυση επικεντρώνεται στην αναπαραγωγή στερεοφωνικών ηχητικών σηµάτων και η δοµή για την εξαγωγή των αντίστοιχων 2D απεικονίσεων παρουσιάζεται στο Σχήµα 4.1. Βασική υπόθεση της µεθοδολογίας είναι οτι τα δυο ανεξάρτητα κανάλια του στερεοφωνικού ηχητικού σήµατος, τα οποία περιγράφονται από τα διακριτού χρόνου σήµατα x L (n) και x R (n), είναιδιαθέσιµαόπωςκαιοιαντίστοιχες Κρουστικές Αποκρίσεις Χώρου h i (n) για µια δεδοµένη απόσταση πηγής/δέκτη στον συγκεκριµένο χώρο ακρόασης (π.χ., ϑέση p 1 ). Θα πρέπει να επισηµανθεί οτι η παρούσα ανάλυση υποθέτει οτι οι συγκεκριµένες Κρουστικές Αποκρίσεις Χώρων, οι οποίες αντιστοιχούν στο αριστερό καιδεξίκανάλιπηγής/δέκτη(h i (n)), είναι γνωστές και έχουν καταγραφεί εκ των προτέρων. Αυτό αποτελεί µια ϐασική υπόθεση εργασίας ηοποίακαθιστάδυνατήτηνπροτεινόµενηανάλυση. Σεπρακτικέςεφαρµογέςηπα- ϱαπάνω υπόθεση είναι εφικτή, όµως είναι πιθανήηχρήσηαπλοποιηµένων µοντέλων Κρουστικών Αποκρίσεων Χώρων η οποία ϑα επιτρέπει την χωρίς αναφορά (semi-blind) εκτίµηση του είκτη Επικάλυψης λόγω Αντήχησης και τη δηµιουργία των αντίστοιχων 2 απεικονίσεων [Lebart (2001)]. Τα αντίστοιχα σήµατα x L (n) και x R (n) καταγράφονται στην συγκεκριµένη ϑέση. Στην συνέχεια τα ηχητικά σήµατα αναφοράς και τα αντίστοιχα ηχογραφηµένα επεξεργάζονται σε κατάλληλο στάδιο το οποίο εξάγει υποκειµενικές διαφορές, στο πεδίο χρόνου-

98 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 77 συχνότητας, στις εξαρτώµενες του σήµατος παραµέτρους. Οι παραπάνω διαφορές απεικονίζονται σε κατάλληλους 2 χάρτες που αναφέρονται στις αλλοιώσεις (στο πεδίοχρόνου-συχνότητας)λόγωαντήχησηςγιαταδεδοµέναενόςκαναλιούκαθώςκαιγια τις ενδο-καναλικές παραµέτρους. Σχήµα 4.1: ιαγραµµατική απεικόνιση µοντελοποίησης και αξιολόγησης των εξαρτώ- µενων του σήµατος αλλοιώσεων λόγω αντήχησης. Από αυτή τη διαδικασία, η εξαρτώµενη του σήµατος επικάλυψη που πραγµατοποιείται από την «ουρά» της αντήχησης (εκθετικά αποσβένουσα περιοχή της κρουστικής απόκρισης του χώρου) και η αλλοίωση του απευθείας σήµατος, µπορούν να ποσοτικοποιηθούν µε τη χρήση του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ). Επιπλέον, µε χρήση του ΕΑ είναι εφικτή η ανάπτυξη µεθοδολογίας (µετά-επεξεργασία και προσαρµογή) για την εξαγωγή σηµάτων (ˆx L (n) και ˆx R (n)) µε υποκειµενικά λιγότερη αντήχηση. Να επισηµανθεί ότι η λειτουργία του Σταδίου Απεικόνισης των Ενδοκαναλικών Παραµέτρων δεν εξετάζεται στην παρούσα εργασία, ενώ στον Πίνακα 4.1 καταγράφεται το σύνολο των συµβόλων που χρησιµοποιούνται στο γενικό διάγραµµα επεξεργασίας του Σχήµατος είκτης Επικάλυψης λόγω Αντήχησης Οπως και σε προηγούµενες εργασίες [Zarouchas (2007, 2009)] το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) χρησιµοποιήθηκε για την αποτίµηση του ϕαινοµένου της επικάλυψης λόγω αντήχησης το οποίο έχει προταθεί από τους Buchholz και Mourjopoulos [Buchholz (2004)]. Σε αντίθεση µε διαδεδοµένα υπολογιστικά µοντέλα στο πεδίο της συχνότητας [Johnston (1988)] και µε επεξεργασία ανά µπλόκ

99 78 Κεφάλαιο 4 (πλαίσια) δειγµάτων εισόδου, το ΥΜΑΕ παρέχει ανάλυση ανά δείγµα σε κάθε συχνοτική περιοχή και είναι κατάλληλο για την υποκειµενική µοντελοποίηση της αντήχησης και επιπλέον περιγράφει επιτυχώς διάφορες πτυχές της επεξεργασίας των ηχητικών σηµάτων από το ανθρώπινο ακουστικό σύστηµα όπως περιγράφηκε στο Κεφάλαιο 2. Σεµιααπαραίτητηαπλούστευσηηεπικάλυψηαντήχησηςϑεωρείταιότιείναιανεξάρτητη των ενδο-ωτικών (inter-aural) παραµέτρων και ο είκτης Επικάλυψης λόγω Αντήχησης (D m L, Dm R )εξάγεται(µεκατάλληληχρήσητουυμαε)ανεξάρτηταγιακάθε κανάλι (Left-Right) ενός στερεοφωνικού ηχητικού σήµατος (ϐλ. Σχήµα 4.2). Σχήµα 4.2: Σχηµατικό διάγραµµα για το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) για την επεξεργασία δεδοµένων ενός καναλιού (π.χ., αριστερό κανάλι). Με ϐάση το Σχήµα 4.2, στοστάδιοαπόφασηςµεχρήσηκατωφλίουοιακόλουθες διαφορές εξάγονται για κάθε κανάλι του σήµατος εισόδου και για κάθε συχνοτική Σηµειογραφία n N k K x L (n),x R (n) x L (n), x R (n) ˆx L (n), ˆx R (n) Dk,n m p i R i RT i Περιγραφή είκτης διακριτού χρόνου Αριθµός δειγµάτων είκτης συχνοτικής περιοχής Αριθµός συχνοτικών περιοχών Αριστερό και δεξιό κανάλι του ηχητικού σήµατος αναφοράς Αριστερό και δεξιό κανάλι του ηχητικού σήµατος µε αντήχηση Αριστερό και δεξιό κανάλι του επεξεργασµένου ηχητικού σή- µατος είκτης Επικάλυψης λόγω Αντήχησης ( ΕΑ) για την συχνοτική περιοχή k Σχετική ϑέση πηγής - δέκτη Υπό-εξέταση χώρος Χρόνος αντήχησης (sec) για τον χώρο R i Πίνακας 4.1: Παράθεση συµβόλων που χρησιµοποιούνται στο γενικό διάγραµµα ε- πεξεργασίας του Σχήµατος 4.1.

100 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 79 περιοχή k: z L = z L (k, n) z L (k, n) = z R = z R(k, n) z R (k, n) = N 1 m=0 N 1 m=0 10 log s L(k,n) s L,op (n) w(n m), 1+ s L(k,n) s L,op (n) 10 log s R(k,n) s R,op (n) w(n m), (4.1) 1+ s R(k,n) s R,op (n) όπου z L (n), z L (n) και z R (n), z R (n) είναι οι εσωτερικές αναπαραστάσεις του σήµατος αναφοράς και του σήµατος µε αντήχηση για τα δυο διακριτά κανάλια (Left-Right) στην αντίστοιχη έξοδο της τράπεζας ϕίλτρων, s L (n), s L (n) και s R (n), s R (n) είναι τα σήµατα εξόδου από το στάδιο προ-επεξεργασίας του ΥΜΑΕ, w(n) είναι ένα χαµηλοδιαβατό ϕίλτρο µε συχνότητα αποκοπής 4 Hz [Buchholz(2004), Dau(1997)], s L,op (n), s L,op (n) και s R,op (n), s R,op (n) είναι τα σήµατα που προσδιορίζουν το σηµείο λειτουργίας του σταδίου Συµπίεσης Εξαρτώµενης του Σήµατος [Buchholz(2004)]. Με σηµειογραφία πινάκων η Εξ. (4.1) γράφεται ως εξής : z = [ L z R z ], (4.2) όπου L z, R z είναι KxN πίνακες, τα στοιχεία των οποίων είναι οι διαφορές των ε- σωτερικών αναπαραστάσεων για κάθε κανάλι (Left-Right) στο πεδίο χρόνου συχνότητας.στο στάδιο ιαδικασίας Απόφασης µε χρήση Κατωφλίου και µε την ενσωµάτωση ενός συνόλου στατικών κατωφλίων {T L (k, n),t R (k, n)} ο είκτηςεπικάλυψηςλόγω Αντήχησης εξάγεται για κάθε κανάλι : D m L (k, n) = z L (k, n) T L(k, n), D m R (k, n) = z R (k, n) T R(k, n), (4.3) όπου µε σηµειογραφία πινάκων εκφράζεται ισοδύναµα ως : [ όπου D m = ] [ D m = z T (4.4) ] D m L T L D m και T = είναι 2KxN πίνακες. R T R ΟπίνακαςD m για τον είκτη Επικάλυψης λόγω Αντήχησης αποτελεί µια εκτίµηση των αντιληπτικά σηµαντικών αλλοιώσεων λόγω αντήχησης, όταν η ακόλουθη συνθήκη

101 80 Κεφάλαιο 4 ικανοποιείται για κάθε στοιχείο του : 0 <D m L (k, n) d l, 0 <D m R (k, n) d r, (4.5) όπου οι παράµετροι {d l,d r } υποδηλώνουν την µέγιστη εξαρτώµενη του σήµατος, διαφοροποίηση για κάθε ένα κανάλι αντίστοιχα. Αρνητικές τιµές του πίνακα D m ( είκτης Επικάλυψης λόγω Αντήχησης) υποδηλώνουν ανάλογα, οτι οι υποκειµενικές διαφορές είναι κάτω από το κατώφλι T και κατ επέκταση οι αλλοιώσεις στο συγκεκριµένο χρονικό στιγµιότυπο (και για την συγκεκριµένη χρονική περιοχή) δεν είναι υποκειµενικά σηµαντικές και µπορεί να ϑεωρηθούν ως µη ακουστές. Τυπικά αποτελέσµατα για την µεταβολή του είκτη Επικάλυψης λόγω Αντήχησης για ένα κανάλι (Left) και τα αντίστοιχα σήµατα (αναφοράς και ηχογραφηµένο) στην συχνοτική περιοχή k =2,παρουσιάζονταιστοΣχήµα 4.3. Οπως µπορεί να παρατηρήσει κανείς στο Σχήµα 4.3(c), οιµέγιστεςτιµέςτουdl m (k, n) εντοπίζονται στις χρονικές περιοχές του σήµατος s L (k, n) όπου η εκθετικά αποσβένουσα αντήχηση είναι παρούσα, όπως προκύπτει και σε άµεση σύγκριση µε το σήµα αναφοράς στο Σχήµα 4.3(a). Ηαντίστοιχη,ϐασισµένηστοΥΜΑΕ,2Dαναπαράστασηγιατοηχογρα- ϕηµένο σήµα (σήµα µε αντήχηση) του Σχήµατος 4.3 πριν την χρήση της τράπεζας ϕίλτρων, παρουσιάζεται στο Σχήµα 4.4. Οι σκούρες χρονο-συχνοτικές περιοχές αναφέρονται σε τµήµατα του σήµατος µε εντονότερη αντιληπτή παραµόρφωση λόγω αντήχησης Επεξεργασία Σήµατος µε Χρήση του είκτη Επικάλυψης λόγω Αντήχησης Με ϐάση τα προηγούµενα, είναι εφικτή η εισαγωγή µεθοδολογίας εξαρτώµενης του σήµατος, η οποία ϑα ϐασίζεται στη χρήση του είκτη Επικάλυψης λόγω Αντήχησης και ϑα επιτρέπει την µετά-επεξεργασία [Zarouchas (2006)] µε κύριο στόχο την µείωση των αντιληπτικών ϕαινοµένων της αντήχησης. Χρησιµοποιώντας το γενικό διάγραµµα σύνθεσης που παρουσιάζεται στο Σχήµα 4.5, κατάλληλοισυντελεστέςϐάρουςg L (k, n) και g R [(k, n) ] µπορούν να εξαχθούν και να χρησιµοποιηθούν στο ηχογραφηµένο [ ] σήµα x L ˆx L x = για την δηµιουργία του στερεοφωνικού σήµατος ˆx = µε υποκειµενικά συµπιεσµένες παραµορφώσεις λόγω αντήχησης, όπου x L, x R, ˆx L και ˆx R x R ˆx R είναι διακριτού χρόνου διανύσµατα εισόδου/εξόδου (ηχητικά σήµατα). Η εξαγωγή των συντελεστών ϐάρους προκύπτει από µια διαδικασίαελαχιστοποίησης ϐασιζόµενη στον είκτη Επικάλυψης λόγω Αντήχησης και απεικονίζεται στο Σχήµα 4.6.

102 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 81 Σχήµα 4.3: (a) Σήµα αναφοράς s L (k, n) (για την συχνοτική περιοχή k =2), (b) Σήµα µε αντήχηση s L (k, n), (c) είκτηςεπικάλυψηςλόγωαντήχησηςdl m (k, n).

103 82 Κεφάλαιο 4 Σχήµα 4.4: 2 Αναπαράσταση (στο πεδίο χρόνου συχνότητας) για τον είκτη Επικάλυψης λόγω Αντήχησης DL m (k, n). [ ] x L Με ϐάση το Σχήµα 4.5 το ηχογραφηµένο στερεοφωνικό σήµα x = χρησιµοποιείται σαν είσοδος στην τράπεζα ϕίλτρων του [ Υπολογιστικού ] Μοντέλου x R Επικάλυψης (ΥΜΑΕ), το οποίο παρέχει το σήµα x k = στις αντίστοιχες συχνοτικές πε x Rk [ ] g L,est ϱιοχές. Ακολούθως µια εκτίµηση των συντελεστών κέρδους g k,est = υπολογίζεται, όπου g L,est =Diag[g L,est (k, 1),g L,est (k, 2),...,g L,est (k, N)] και g R,est g R,est = Diag[g R,est (k, 1),g R,est (k, 2),...,g R,est (k, N)] είναι διαγώνιοι ΝxΝ πίνακες οι οποίοι καθιστούν εφικτή την κατάλληλη µορφοποίηση των σηµάτων (στις αντίστοιχες συχνοτικές περιοχές) µε αντήχηση (ϐλ. Σχήµα 4.6). Η λειτουργία αυτή επιτελείται σε κάθε συχνοτική περιοχή k για κάθε διακριτό κανάλι εισόδου και περιγράφεται από την ακόλουθη σχέση : ˆx k,est = G k,est x k (4.6) όπου ˆx k,est =[ˆx L,est (k, 1) ˆx L,est (k, 2)...ˆx L,est (k, N), ˆx R,est (k, 1) ˆx R,est (k, 2)...ˆx R,est (k, N)] T είναι ένα 2Νx1 διάνυσµα τα στοιχεία του οποίου είναι µια εκτίµηση[ του επεξεργασµένου στερεοφωνικού σήµατος στην συχνοτική περιοχή k, G k,est = ] g L,est O O g R,est είναι ένας τετραγωνικός 2Νx2Ν διαγώνιος πίνακας εκτίµησης των υποκει- µενικών συντελεστών ϐάρους, O είναι ένας ΝxΝ µηδενικός πίνακας, και x k = [ x Lk (1) x Lk (2)... x Lk (N), x Rk (1) x Rk (2)... x Rk (N)] T ένα 2Νx1 διάνυσµα τα στοιχεία του οποίου είναι τα δείγµατα του ηχογραφηµένου στερεοφωνικού x Lk

104 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 83 ηχητικού σήµατος στην συχνοτική περιοχή k. Σχήµα 4.5: Γενικό διάγραµµα σύνθεσης για την δηµιουργία ηχητικών σηµάτων µε υποκειµενικά συµπιεσµένες παραµορφώσεις λόγω αντήχησης. [ Στο συγκεκριµένο σηµείο οι συντελεστές ϐάρους g k,est = g L,est οι οποίοι g R,est αποτελούν τη ϐάση του πίνακα ϐάρους G k,est,µπορούνναϑεωρηθούνωςσυνεχείς χρονο-συχνοτικές συναρτήσεις περιβάλλουσας οι οποίες µορφοποιούν κατάλληλα το ηχογραφηµένο σήµα στις αντίστοιχες συχνοτικές περιοχές που καθορίζει η τράπεζα ϕίλτρων [ παρέχοντας ] µια νέα εκτίµηση των εσωτερικών αναπαραστάσεων ẑ L,est ĝ k,est = (ϐλ. Σχήµα 4.6), όπου ẑ L,est και ẑ R,est είναι ΚxΝ πίνακες. ẑ R,est Συνεπώς, µια νέα εκτίµηση της διαφοράς των εσωτερικών αναπαραστάσεων εξάγεται µε ϐάση την Εξ. (4.1): z L,est(k, n) =ẑ L,est (k, n) z L (k, n), z R,est (k, n) =ẑ R,est(k, n) z R (k, n). (4.7) ] ΟεπαναληπτικόςϐρόχοςπροσαρµογήςπουπαρουσιάζεταιστοΣχήµα 4.6 εκτελείται µέχρι να ικανοποιηθούν οι ακόλουθες συνθήκες : z L,est(k, n) < z L(k, n), z R,est(k, n) < z R(k, n). (4.8)

105 84 Κεφάλαιο 4 Σχήµα 4.6: ιάγραµµα προσαρµογής για την µετά-επεξεργασία στερεοφωνικού ηχητικού σήµατος (για χάριν συντοµίας οι δείκτες χρόνου και συχνότητας έχουν παραλη- ϕθεί). Ισοδύναµα η Εξ. (4.8) γράφεται ως : ẑ L,est (k, n) < z L (k, n), ẑ R,est (k, n) < z R (k, n). (4.9) Με ϐάση την Εξ. (4.2) και λαµβάνοντας υπόψη τις συνεχείς συναρτήσεις κατωφλίου T L (k, n), T R (k, n), στοστάδιο ιαδικασίαςαπόφασηςµεχρήσηκατωφλίου(decision Threshold Device, ϐλ. Σχήµα 4.6), η Εξ. (4.8) επαναδιατυπώνεται ως εξής : z L,est (k, n) T L(k, n) < z L (k, n) T L(k, n), z R,est (k, n) T R(k, n) < z R (k, n) T R(k, n), (4.10) εξασφαλίζοντας µια νέα εκτίµηση του είκτη Επικάλυψης λόγω Αντήχησης D m est,ικανοποιώντας τη συνθήκη : D m L,est(k, n) <D m L (k, n), D m R,est(k, n) <D m R (k, n). (4.11) Οι υπολογισθείσες τιµές των δειγµάτων στις καθορισµένεςσυχνοτικέςπεριοχέςγιατο στερεοφωνικό σήµα ˆx k = ˆx k,est έχουν ελαχιστοποιηµένη παραµόρφωση (όπως περιγράφεται από τον είκτη Επικάλυψης λόγω Αντήχησης) οδηγούνται σε µια τράπεζα σύνθεσης (ϐλ. Σχήµα 4.5) [ γιατηνανασύνθεσητουηχογραφηµένουστερεοφωνικού ] ˆx L ηχητικού σήµατος ˆx = µε υποκειµενικά µορφοποιηµένη την παρουσία αντήχησης. ˆx R Τυπικά αποτελέσµατα για τον είκτη Επικάλυψης λόγω Αντήχησης D m (k, n) για

106 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 85 τις συχνοτικές περιοχές k =8 και k =12 και την αντίστοιχη συναρτήση κέρδους G L (k, n), απεικονίζονταιστοσχήµα 4.7. Οπωςείναιεµφανέςοισυναρτήσειςϐάρους µορφοποιούν κατάλληλα τη στάθµη του σήµατος στις περιοχές όπου ο είκτης Επικάλυψης λόγω Αντήχησης υποδεικνύει σηµαντικές αλλοιώσεις λόγω αντήχησης. Το προκύπτον σήµα, µετά τη διαδικασία της ανασύνθεσης απεικονίζεται στο Σχή- µα 4.8. Οπως µπορεί να παρατηρήσει κανείς µόνο υποκειµενικά σηµαντικές περιοχές µε αντήχηση (π.χ., «ουρές») έχουν συµπιεστεί (τυπικά ηχητικά σήµατα δίνονται στην ηλεκτρονική διεύθυνση audiogroup/tools/derev.html). Η συγκεκριµένη προσέγγιση παρέχει το πλεονέκτηµα της αποφυγής ηχητικών αλλοιώσεων που προκύπτουν συνήθως από υπερεκτίµηση του ϕαινοµένου της αντήχησης και εκτενή επεξεργασία µε ϐάση τις µεθοδολογίες των παραδοσιακών µεθόδων αφαίρεσης αντήχησης. Σχήµα 4.7: είκτης Επικάλυψης λόγω Αντήχησης D m (k, n) και οι αντίστοιχες συναρτήσεις κέρδους G L (k, n) για τις συχνοτικές περιοχές της τράπεζας ϕίλτρων, (a) k =8, (b) k =12.

107 86 Κεφάλαιο 4 Σχήµα 4.8: Ηχητικό σήµα ηχογραφηµένο στο χώρο R4 και το αντίστοιχο σήµα που έχει προκύψει από την επεξεργασία µε χρήση του είκτη Επικάλυψης λόγω Αντήχησης Μεθοδολογία Μετρήσεων και Αποτελέσµατα Μεθοδολογία Μετρήσεων Για την αξιολόγηση της προτεινόµενης µεθόδου πραγµατοποιήθηκαν κατάλληλες µετρήσεις χρησιµοποιώντας ηχητικά σήµατα (δύο διακριτά κανάλια) µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz (αρχεία WAV µε αποσπάσµατα από µουσική τζαζ και σόλο πιάνο). Ως συµπληρωµατική είσοδο στην διαγραµµατική απεικόνιση του Σχήµατος 4.1 χρησιµοποιούνται τα αντίστοιχα ηχητικά σηµάτα που ηχογραφήθηκαν µε τη χρήση ενός Ϲευγαριού παντοκατευθυντικών µικροφώνων (απόσταση ανάµεσα στα δύο µικρόφωνα ήταν περίπου 20 cm) κάτω από διαφορετικές συνθήκες αντήχησης (διαφορετικοί χώροι αναπαραγωγής). Επιπλέον, καταγράφηκαν οι αντίστοιχες Κρουστικές Αποκρίσεις των υπο-εξέταση χώρων. Οι ι- διότητες των υπό-εξέταση χώρων (από ένα ϐέλτιστο ακουστικά χώρο µέχρι µια κλειστή αθλητική εγκατάσταση) καθώς και οι τιµές στάθµης του λόγου απευθείας προς ανακλώµενου ήχου (Direct to Reverberant Ratio, D/R) σε διαφορετικές ϑέσεις ακρόασης παρουσιάζονται στον Πίνακα 4.2. Στις ακόλουθες παραγράφους παρουσιάζονται, η αξιολόγηση του προτεινόµενου είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) καθώς και τα αποτελέσµατα από ε- λεγχόµενες ακροάσεις για την επεξεργασία του ηχογραφηµένου σήµατος µε ϐάση την µεθοδολογία που αναπτύχθηκε στην προηγούµενη παράγραφο.

108 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα είκτης Επικάλυψης λόγω Αντήχησης και Κριτήριο NMR Στο Σχήµα 4.9(a) παρουσιάζεται η µεταβολή του είκτη Επικάλυψης λόγω Αντήχησης (db) για διαφορετικά ηχητικά σήµατα αναφοράς (π.χ., απόσπασµα από µουσική τζαζ και σόλο πιάνο), ηχογραφηµένα σε διαφορετικούς χώρους και διαφορετικές ϑέσεις (πηγής/δέκτη) και οµαδοποιηµένα µε ϐάση το λόγο D/R εκφρασµένο σε db, όπως προκύπτει από τις αντίστοιχες Κρουστικές Αποκρίσεις Χώρων (ϐλ. Πίνακα 4.2). Οπως είναι εµφανές, τα αποτελέσµατα για µικρές τιµές του λόγου D/R (που αντιστοιχεί στο χώρο R4 και αναφέρεται σε µεγάλη κλειστή αθλητική εγκατάσταση) σχετίζονται σε µεγαλύτερης έκτασης ανιχνεύσιµες υποκειµενικές αλλοιώσεις και για τα δυο ηχητικά σήµατα αναφοράς. Επιπλέον, για συνθήκες µε µεγαλύτερες τιµές του λόγου D/R, οι υπολογισθείες τιµές για τις υποκειµενικά σηµαντικές αλλοιώσεις (όπως αυτές εκφράζονται από το ΕΑ) εξαρτώνται σε µεγάλο ϐαθµό από το σήµα αναφοράς. Αντίστοιχα, για διαφορετικές ϑέσεις (πηγής/δέκτη) ακρόασης σε συγκεκριµένο χώρο (διαφορετικές τιµές στάθµης του λόγου D/R, ϐλ. Πίνακα 4.2), ο είκτης Επικάλυψης λόγω Αντήχησης σχετίζεται µε την απόσταση πηγής-δέκτη και αυξάνει ως συνάρτηση της απόστασης. Για σύγκριση, το διαδεδοµένο κριτήριο του λόγου Θορύβου προς Επικάλυψη σε db (Noise to Mask Ratio, NMR) [Brandenburg (1992)] χρησιµοποιήθηκε για την αξιολόγηση των ηχογραφηµένων σηµάτων (σήµατα µε αντήχηση) σε σχέση µε αντίστοιχα σήµατα αναφοράς, όπως περιγράφεται και στην εργασία [Furuya (2007)]. Θα πρέπει να επισηµανθεί ότι τιµές του λόγου NMR πάνω από 0 db υποδεικνύουν την παρουσία D/R (db) Χώρος ιαστάσεις RT 60 (sec) για διαφορετικές Περιγραφή ΜxΠxΥ (m) ϑέσεις p i R1 7.15x4.60x Ακουστικά ϐέλτιστο εργαστήριο R x7.05x Αίθουσα διδασκαλίας R3 30x25x Συνεδριακό κέντρο R4 60x42x Αθλητική εγκατάσταση Πίνακας 4.2: Ιδιότητες των υπό-εξέταση κλειστών χώρων και των αντίστοιχων Κρουστικών Αποκρίσεων για διαφορετικές ϑέσεις ακρόασης.

109 88 Κεφάλαιο 4 ακουστού ϑορύβου ή αντιληπτικά σηµαντικών αλλοιώσεων και στην παρούσα εργασία ϑεωρείται οτι το ϕαινόµενο της αντήχησης επιτελεί αντίστοιχη λειτουργία. Στο Πα- ϱάρτηµα Α.4 παρουσιάζεται αναλυτικά ο αλγόριθµος για τον υπολογισµό του λόγου NMR. Γενικά και όπως παρουσιάζεται στο Σχήµα 4.9(b), µεγαλύτερεςτιµέςτουκριτηρίου NMR παρατηρούνται σε περιπτώσεις µε µεγάλους χρόνους αντήχησης (π.χ., χώρος R4). Ωστόσο, οι τιµές του κριτηρίου NMR εξαρτώνται σε µικρότερο ϐαθµό από το είδος του ηχητικού σήµατος αναφοράς, συγκριτικά µε τον προτεινόµενο είκτη Ε- πικάλυψης λόγω Αντήχησης ( ΕΑ). Συνεπώς, είναι εµφανές ότι οι γενικές µορφές του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ) D m και του κριτηρίου NMR, είναι σε συµφωνία (π.χ., αυξάνουν για µικρότερες τιµές στάθµης του λόγου D/R) και είναι συνακόλουθες µε την υποκειµενική εκτίµηση της αντήχησης, όπως αυτή καταγράφηκε από την πραγµατοποίηση ελεγχόµενων ακροάσεων για τις υπό-εξέταση περιπτώσεις και περιγράφεται στην επόµενη παράγρα- ϕο. Κατ επέκταση το προτεινόµενο κριτήριο της ακουστικής επικάλυψης, ϐρίσκεται σε συµφωνία µε ϐασικές ακουστικές ιδιότητες των χώρων ακρόασης, ανιχνεύει την αντήχηση σε ηχογραφηµένα σήµατα και εξαρτάται σε σηµαντικό ϐαθµό από το είδος του ηχητικού σήµατος αναφοράς Ελεγχόµενες Ακροάσεις Για την αξιολόγηση των ηχητικών σηµάτων που προκύπτουν µε την µεθοδολογία ανάλυσης-σύνθεσης που αναπτύχθηκε στην Παράγραφο 4.2.3, κατάλληλεςελεγχό- µενες ακροάσεις πραγµατοποιήθηκαν µε τη συµµετοχή 15 ακροατών σε δύο διαδοχικές συνεδρίες. Οι ακροάσεις πραγµατοποιήθηκαν στο εργαστήριο της Οµάδας Ηχου και Ακουστικής (χώρος R1) µε γεωµετρικές διαστάσεις και ακουστικές ιδιότητες πα- ϱαπλήσιες µε αυτές που καθορίζονται από το πρότυπο IEC (ϐλ. Πίνακα 4.2). Για την αναπαραγωγή των ηχητικών σηµάτων χρησιµοποιήθηκε Η/Υ µε εξωτερική D/A κάρτα ήχου (Firewire Audio Interface) συνδεδεµένη µε Ϲεύγος επαγγελµατικών αυτό-ενισχυόµενων ηχείων αναφοράς (ATC SCM 20-2A). ύο διαφορετικά ηχητικά σήµατα αναφοράς (αποσπάσµατα από µουσική τζαζ και σόλο πιάνο), τα αντίστοιχα ηχογραφηµένα σήµατα (για τις περιπτώσεις που αναφέρθηκαν στην προηγούµενη παράγραφο) και τα σήµατα που προέκυψαν από την προτεινόµενη επεξεργασία εξάλειψης αντήχησης ήταν διαθέσιµα στους ακροατές (ϐλ. Σχήµα 4.10) σε δύο διαδοχικές ακροάσεις και µε διαφορετική σειρά αναπαραγωγής. Για την πραγ- µατοποίηση της ελεγχόµενης ακρόασης και την καταγραφή των απαντήσεων από τους ακροατές χρησιµοποιήθηκε µια κλίµακα 7-ϐαθµίδων (ϐλ. Πίνακα 4.3) παρόµοιαµε την σύσταση της ITU-R Recommendation P.800 [Bech (2006)] ενώ σε κάθε επανάληψη (και για κάθε περίπτωση) ήταν πάντα διαθέσιµα τρια ηχητικά δείγµατα : (i) το σήµα αναφοράς (S αντιστοιχεί στο x), (ii) το αντίστοιχο ηχογραφηµένο σήµα (R αντιστοιχεί

110 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 89 (a) (b) Σχήµα 4.9: (a) είκτης Επικάλυψης λόγω Αντήχησης,(b) Κριτήριο λόγου Θορύβου προς Επικάλυψη (NMR) για διαφορετικούς χώρους και ϑέσεις ακρόασης. Σχήµα 4.10: ιάταξη ελεγχόµενης ακρόασης.

111 90 Κεφάλαιο 4 στο x) και(iii)τοεπεξεργασµένοσήµα(prαντιστοιχείστοˆx). Να επισηµανθεί, ότι δεν είχε τεθεί κάποιος περιορισµός στους ακροατές ως προς τον αριθµό των επαναλήψεων για την αναπαραγωγή κάθε ηχητικού σήµατος. Κλίµακα Σύγκρισης Περιγραφή Το P έχει σηµαντικά περισσότερη αντήχηση από το R 3 Το R έχει σηµαντικά περισσότερη αντήχηση από το S Το P έχει περισσότερη αντήχηση από το R 2 Το R έχει περισσότερη αντήχηση από το S Το P έχει ελάχιστα περισσότερη αντήχηση από το R 1 Το R έχει ελάχιστα περισσότερη αντήχηση από το S Το P είναι ταυτόσηµο µε το R 0 Το R είναι ταυτόσηµο µε το το S Το P έχει ελάχιστα λιγότερη αντήχηση από το R -1 Το R έχει ελάχιστα λιγότερη αντήχηση από το S Το P έχει λιγότερη αντήχηση από το R -2 Το R έχει λιγότερη αντήχηση από το S Το P έχει σηµαντικά λιγότερη αντήχηση από το R -3 Το R έχει σηµαντικά λιγότερη αντήχηση από το S Πίνακας 4.3: Κλίµακα σύγκρισης 7-ϐαθµίδων για την διαδικασία αξιολόγησης ηχητικών σηµάτων µε ελεγχόµενες ακροάσεις. Από τους ακροατές Ϲητήθηκε να ϐαθµολογήσουν το επεξεργασµένο σήµα (P) σε σχέση µε το ηχογραφηµένο (R) σε µια κλίµακα από -3 έως 3, όπου η τιµή -3 περιγράφεται ως «Το P έχει σηµαντικά λιγότερη αντήχηση από το R» ενώ η τιµή 3 ώς «Το P έχει σηµαντικά περισσότερη αντήχηση από το R». Επιπλέον, και για την υποκειµενική περιγραφή της αντήχησης παρούσας στους υπό-εξέταση χώρους και για τις διαφορετικές ϑέσεις πηγής-δέκτη, οι αποκρίσεις των ακροατών καταγράφηκαν για το ηχογραφηµένο σήµα (R) σε σχέση µε το σήµα αναφοράς (S) όπως ϕαίνεται και στον Πίνακα 4.3. Στο Σχήµα 4.11 παρουσιάζεται η µέση τιµή (για κάθε περίπτωση) των αποτελεσµάτων των ελεγχόµενων ακροάσεων για όλους τους ακροατές, ως συνάρτηση των υπό-εξέταση παραµέτρων. Οι δείκτες p i (όπου i =1, 2,...,11) στονάξονα-x, αντιστοιχούνστους διαφορετικούς χώρους όπου εναλλακτικά αντιπροσωπεύουν διαφορετικούς χρόνους αντήχησης (Reverberation Time, RT 60 )καικατ επέκτασηδιαφορετικέςτιµέςστάθ- µης του λόγου απευθείας προς ανακλώµενου ήχου (Direct to Reverberant Ratio, D/R), όπως παρουσιάστηκαν στον Πίνακα 4.2. Ηκλίµακαϐαθµολόγησηςστονα- ϱιστερό άξονα-y (Σχήµατα 4.11(a) και 4.11(b)), αντιστοιχεί στην κλίµακα σύγκρισης 7-ϐαθµίδων που παρουσιάζεται στον Πίνακα 4.3, ενώοδεξιόςαξόνας-y του Σχή- µατος 4.11(a) αντιστοιχεί στις τιµές του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ)

112 4.2. Εξάλειψη Αντήχησης σε Στερεοφωνικά Ηχητικά Σήµατα 91 Σχήµα 4.11: Μέση τιµή των αποτελεσµάτων των ελεγχόµενων ακροάσεων για το σύνολο των ακροατών : (a) Υποκειµενική αξιολόγηση για την παρουσία αντήχησης στα ηχογραφηµένα (R) σήµατα. Για λόγους σύγκρισης, τα αποτελέσµατα του είκτη Ε- πικάλυψης λόγω Αντήχησης του Σχήµατος 4.9(a) επαναλαµβάνονται µε συνεχείς γραµµές απόχρωσης γκρι. (b) Υποκειµενική αξιολόγηση των επεξεργασµένων (PR) σηµάτων. Αρνητικές τιµές υποδηλώνουν την παρουσία υποκειµενικά λιγότερης αντήχησης.

113 92 Κεφάλαιο 4 εκφρασµένες σε db. Για την απεικόνιση της συσχέτισης ανάµεσα στην υποκειµενική αξιολόγηση της αντήχησης στα ηχογραφηµένα σήµατα και του προτεινόµενου είκτη Επικάλυψης λόγω Αντήχησης, τα αποτέλεσµατα που απεικονίζονται στο Σχήµα 4.9(a) έχουν ενσωµατωθεί στο Σχήµα 4.11(a). ΟπωςϕαίνεταιστοΣχήµα 4.11(a) οι γενικές µορφές για τις συνεχόµενες και διακεκοµµένες γραµµές (απόχρωσης γκρι) είναι σε γενική συµφωνία. Επιπρόσθετα και όπως απεικονίζεται στο Σχήµα 4.11(b) οι ακροατές αξιολόγησαν το επεξεργασµένο (PR) ηχητικό σήµα µε ϐάση την προτεινόµενη µεθοδολογία, να έχει αντιληπτικά λιγότερη (συµπιεσµένη) αντήχηση. Πιο συγκεκριµένα, τα επεξεργασµένα σήµατα που αντιστοιχούν σε χώρους µε µεγαλύτε- ϱη αντήχηση ή σε πιο µακρινές ϑέσεις ακρόασης, συστηµατικά αξιολογήθηκαν να περιέχουν υποκειµενικά λιγότερη αντήχηση (σεσχέσηµετααντίστοιχαηχογραφη- µένα) ενώ και όπως ήταν αναµενόµενο, για τον ακουστικά ϐέλτιστο χώρο (ϑέσεις p 1 εως p 3 )µικρότερεςυποκειµενικέςδιαφορέςανιχνεύθηκανκατάτηνδιαδικασίατης αξιολόγησης (στα επεξεργασµένα σήµατα) Συµπεράσµατα Στις προηγούµενες παραγράφους παρουσιάστηκε µια εξαρτώµενη του σήµατος µεθοδολογία για την ανίχνευση υποκειµενικά σηµαντικών αλλοιώσεων του σήµατος λόγω αντήχησης, µέσω κατάλληλων 2D απεικονίσεων χρόνου-συχνότητας. Αυτού του είδους οι απεικονίσεις παρέχουν τη δυνατότητα περιγραφής διαφορετικών Ϲητηµάτων που σχετίζονται µε τις υποκειµενικές αλλοιώσεις λόγω αντήχησης κατά την αναπαραγωγή των σηµάτων σε κλειστούς χώρους. Στην συγκεκριµένη εργασία, η περιγραφή εστιάζεται στην επικάλυψη (ενός καναλιού) και αλλοίωση του σήµατος (στο πεδίο χρόνου-συχνότητας) από την εκθετικά αποσβένουσα περιοχή της Κρουστικής Απόκρισης Χώρου (αντήχηση), µέσω του είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ). Τα αποτελέσµατα για τον προτεινόµενο ΕΑ εµφανίζουν ικανοποιητική συσχέτισηµεδιαδεδοµένες στατιστικές (ανεξάρτητες του σήµατος) ακουστικές παραµέτρους των χώρων ακρόασης (π.χ., όπως εκφράζονται από το Χρόνο Αντήχησης ή τη στάθµη του λόγου Απευθείας προς Ανακλώµενου Ηχου). Η ακουστική διαφορετικών χώρων αποτελεί σηµαντικό παράγοντα στην µεταβολή του ΕΑ, µε τις τιµές να αυξάνονται συναρτήσει του Χρόνου Αντήχησης και όπως είναι αναµενόµενο τα αντιληπτικά ϕαινόµενα της αντήχησης να είναι περισσότερο έντονα (π.χ., µεγαλύτερες τιµές σε db για τον ΕΑ) για τους µεγαλύτερους χώρους και για τις µακρινές ϑέσεις ακρόασης. Επιπρόσθετα, ο είκτης Επικάλυψης λόγω Αντήχησης δεν παρέχει µόνο µια ενδεικτική µέση τιµή των αντιληπτικών αλλοιώσεων λόγω αντήχησης, αλλά εξαρτάται από το ηχητικό σήµα ανα- ϕοράς και µεταβάλλεται µε το χρόνο (π.χ., διαφοροποιείται µε την χρονική εξέλιξη του σήµατος κατά την αναπαραγωγή του σε συγκεκριµένες ακουστικές συνθήκες). Επι-

114 4.3. Κωδικοποίηση Ηχητικών Σηµάτων 93 πλέον, ελεγχόµενες ακροάσεις που πραγµατοποιήθηκαν, υποδεικνύουν οτι ο είκτης Επικάλυψης λόγω Αντήχησης είναι σε συµφωνία µε την υποκειµενική αξιολόγηση της αντήχησης όπως αυτή είναι αντιληπτή σε ηχητικά σήµατα ηχογραφηµένα κάτω από διαφορετικές συνθήκες. Με ϐάση τη δυνατότητα ανίχνευσης συγκεκριµένων περιοχών χρόνου-συχνότητας ό- που έχουν αλλοιωθεί σε σηµαντικό ϐαθµό από την αντήχηση, είναι εφικτή η κατάλληλη επεξεργασία τους για την µείωση των υποκειµενικών ϕαινοµένων λόγω αντήχησης. Συνεπώς µια νέα τεχνική εξαρτώµενη του σήµατος προτείνεται για την αντιστάθµιση (µέχρι κάποιο ϐαθµό) των αλλοιώσεων οφειλόµενων κυρίως στην εκθετικά αποσβένουσα περιοχή ( «ουρά») των Κρουστικών Αποκρίσεων (αντήχηση). Αντίστοιχες ελεγχόµενες ακροάσεις που πραγµατοποιήθηκαν για την επιβεβαίωση της προτεινόµενης µεθόδου, αποδεικνύουν µια συστηµατική προτίµηση των ακροατών στα επεξεργασµένα ηχητικά σήµατα (λιγότερη αντιληπτή αντήχηση) σε σχέση µε τα ηχογραφηµένα σήµατα. Ηπροτεινόµενηµεθοδολογίαανάλυσης/σύνθεσης, µπορεί να ϐοηθήσει στην αναθεώρηση του προβλήµατος της αντήχησης απο την σκοπιά εξαρτώµενης του σήµατος, η οποία είναι αποτελεσµατική, συµβατή µε τους αντιληπτικούς µηχανισµούς και κατάλληλη για οποιοδήποτε ηχητικό σήµα που αναπαράγεται σε κλειστούς χώρους. Επιπλέον και δεδοµένου ότι η προτεινόµενη µέθοδος παρέχει λεπτοµερή προσδιορισµό των αντιληπτικών αλλοιώσεων λόγω αντήχησης, µπορεί να ϑεωρηθεί ως µια συµπληρωµατική επιλογή στις παραδοσιακές (εξαρτώµενες του συστήµατος) µεθόδους αντιστροφής ϕίλτρου, καθιστώντας εφικτή τη δηµιουργία πρωτότυπων και αποτελεσµατικών τεχνικών επεξεργασίας σήµατος για την εξάλειψη αντήχησης σε κλειστούς χώρους. 4.3 Κωδικοποίηση Ηχητικών Σηµάτων Εισαγωγή Τα τελευταία χρόνια έχουν ϑεωρητικά ϑεµελιωθεί και επιτυχώς ενσωµατωθεί σε διά- ϕορες ηχητικές εφαρµογές, ϐέλτιστες µεθοδολογίες για τον κβαντισµό ψηφιακών ηχητικών δειγµάτων [Lipshitz (1991, 1992), Wannamaker (1992), Maher (1992), Gerzon (1989), Nayant (1984), Sayood (1996)]. Ωστόσο το σύνολο των προτεινόµενων µεθόδων ϐασίζεται σε πολύ απλές ψυχοακουστικές αρχές και σε καµµία περίπτωση δεν πραγµατοποιείται µια πλήρης εκµετάλλευση των τελευταίων ερευνητικών εξελίξεων στην µοντελοποίηση του ακουστικού συστήµατος [Mondal (2002), Koning (2003)]. Στην εργασία [Zarouchas (2005)], ένα λεπτοµερές Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) [Buchholz (2004)] στο πεδίο χρόνου-συχνότητας χρησιµοποιείται και επεκτείνεται για τον µη-οµοιόµορφο κβαντισµό ηχητικών σηµάτων. Η

115 94 Κεφάλαιο 4 παραπάνω εργασία εισάγει µια πρωτότυπη διαδικασία όπου µε τη χρήση ενός συνόλου καταφλίων επιτελείται ο κβαντισµός των ηχητικών σηµάτων µέσω µιας µεταβλητής διαδικασίας ανάθεσης bit ανά δείγµα. Η προτεινόµενη µεθοδολογία χρησιµοποιεί ϐασικές αρχές των πλέον διαδεδοµέων υποκειµενικών κωδικοποιητών ηχητικών δεδοµένων [Kahrs (2003), Bossi (2003)] µε την αντίστοιχη επεξεργασία να πραγµατοποιείται στο πεδίο χρόνου-συχνότητας. Η προσέγγιση αυτή εκτός από τον µικρότερο ϱυθµό παροχής δεδοµένων σε σχέση µε τους οµοιόµορφους PCM κβαντιστές, παρέχει τη δυνατότητα απεικόνισης περιοχών του σήµατος µε σηµαντική αλλοίωση οφειλόµενη σε κάθε µορφή κβαντισµού. Στις ακόλουθες παραγράφους περιγράφεται η µορφή του ΥΜΑΕ για την ενσωµάτωση του στην διαδικασία του κβαντισµού, επίσης προτείνεται η δοµή για τον µη-οµοιόµορφο κβαντιστή και στο τέλος παρουσιάζονται αποτελέσµατα µε την αντικειµενική αξιολόγηση (χρήση του κριτηρίου NMR) των ηχητικών δειγµάτων και αντίστοιχα συµπεράσµατα Μη-οµοιόµορφος Κβαντισµός Οδηγούµενος από Ψυχοακουστικό Μοντέλο Ηυλοποίησητουµη-οµοιόµορφουκβαντιστήµεχρήσητουΥΜΑΕ,επιτυγχάνεταιµε την ακόλουθη διαδικασία : Το αρχικό σήµα αναφοράς x(n) και οποιαδήποτε κβαντισµένη εκδοχή του ˆx(n) Σχήµα 4.12: Χρήση του ΥΜΑΕ για την υλοποίηση του µη-οµοιόµορφου κβαντιστή. (σε χαµηλότερη ευκρίνεια κβαντισµού), αποτελούν είσοδο στον ΥΜΑΕ, παρέχοντας τις αντίστοιχες εσωτερικές αναπαραστάσεις z(n) και ẑ(n) που οδηγούνται στο στάδιο ιαδικασίας Απόφασης (ϐλ. Σχήµα 4.12). Ηϐασικήιδέατουσταδίου ιαδικασίαςαπόφασηςϐασίζεταιστηναρχήτηςελάχιστα Αντιληπτής Στάθµης ιαφοράς των εσωτερικών αναπαραστάσεων όπως περιγράφηκε στο Κεφάλαιο 2. Συνεπώς, η ανά δείγµα διαφορά z (n) των σηµάτων εξόδου z(n) και ẑ(n), υπολογίζεταιως: z (n) =ẑ(n) z(n), (4.12)

116 4.3. Κωδικοποίηση Ηχητικών Σηµάτων 95 και συγκρίνεται µε ένα κατώφλι T j (n) όπου ο δείκτης j υποδηλώνει την αντίστοιχη συχνοτική περιοχή της τράπεζας ϕίλτρων. Στην περίπτωση που η διαφορά z (n) είναι κάτω από το κατώφλι T j (n) οϑόρυβοςκβαντισµούϑεωρείταιότιεπικαλύπτεται διαφορετικά είναι ακουστός. Για τον προσδιορισµό των κατωφλίων επικάλυψης T j (n) µια πρωτότυπη διαδικασία ακολουθείται που περιγράφεται στην ακόλουθη παράγρα- ϕο. Με ϐάση το µονοπάτι επεξεργασίας σήµατος που καθορίζει το ΥΜΑΕ [Buchholz (2004)], η διαφορά z (n) µπορεί να εκφραστεί ως : z (n) =ẑ(n) z(n) =X(n) w(n), (4.13) όπου X(n) προκύπτει από την επεξεργασία των x(n), ˆx(n) και w(n) είναι χαµηλοδιαβατό ϕίλτρο 1 ης τάξης µε συχνότητα αποκοπής f g =4Hz [Buchholz (2004), Dau (1996)]. Η ποσότητα X(n) εξαρτάται από την ευκρίνεια κβαντισµού b i και την κεντρική συχνότητα f j του αντίστοιχου καναλιού της τράπεζας ϕίλτρων, δηλαδή : X(n) =X(n, b i,f j ). (4.14) Παρόµοια, η διαφορά z (n) εξαρτάται από την ευκρίνεια κβαντισµού b i και την κεντρική συχνότητα f j : z (n) = z (n, b i,f j ). (4.15) Ηεξάρτησητηςδιαφοράς z (n) από τις παραµέτρους b i και την κεντρική συχνότητα f j καθιστά εφικτό τον προσδιορισµό ενός συνόλου πιθανών κατωφλίων T j (n), για κάθε κεντρική συχνότητα f j και για προκαθορισµένες τιµές χαµηλής ευκρίνειας κβαντισµού. Η διαδικασία για τον προσδιορισµό των κατωφλίων T j (n) περιγράφεται στην ακόλουθη παράγραφο Προσδιορισµός Κατωφλίων και Κβαντισµός µε Χρήση του ΥΜΑΕ Ηπροτεινόµενηυλοποίησηγιατοστάδιοτου κβαντισµού µε τον προσδιορισµό των σχετικών κατωφλίων παρουσιάζεται στο Σχήµα Το Υπολογιστικό Μοντέλο Α- κουστικής Επικάλυψης (ΥΜΑΕ) χρησιµοποιείται σε προκαθορισµένο αριθµό διαφο- ϱετικών συχνοτικών περιοχών f j. Είσοδος στο ΥΜΑΕ είναι το αρχικό ηχητικό σήµα αναφοράς (µε ευκρίνεια κβαντισµού 16 bit) και κβαντισµένες εκδοχές µε χαµηλής ευκρίνειας κβαντισµού, ˆx(n) =Q bi [x(n)]. Ο υπολογισµός των κατωφλίων T j (n, b i ) για χαµηλής ευκρίνειας κβαντισµού σήµατα ˆx(n) και για κάθε συχνοτική περιοχή, πραγµατοποιείται ως εξής : Οι εσωτερικές αναπαραστάσεις z(n) και ẑ(n) για τα σήµατα x(n) (σήµα αναφοράς 16 bit) και ˆx(n) εξάγονται από το ΥΜΑΕ. Με ϐάση µια απλοποιηµένη ιαδικασία Από-

117 96 Κεφάλαιο 4 Σχήµα 4.13: Σχηµατικό διάγραµµα για το προτεινόµενο στάδιο κβαντισµού. ϕασης [Buchholz (2003)] υπολογίζεται η µέγιστη τιµή max { (n, b i)} της ανά δείγµα N διαφοράς για διαδοχικά πλαίσια µήκους N δειγµάτων (τυπικές τιµές του N =128 δείγµατα). Η διαδικασία επαναλαµβάνεται σε διαδοχικά πλαίσια δηµιουργώντας το διάνυσµα T j (n, b i ),τοοποίοαναπαριστάτοκατώφλιεπικάλυψηςγιατηνχαµηλής ευκρίνειας κβαντισµένη εκδοχή του x(n) και για την κεντρική συχνότητα f j. Ενασυνολικό κατώφλι επικάλυψης T j (n) µπορεί να εξαχθεί µε ϐάση τα διανύσµατα T j (n, b i ) όπου b i αντιστοιχεί σε διαδοχικές στάθµες ευκρίνειας κβαντισµού. Η ίδια διαδικασία επαναλαµβάνεται για τις διαφορετικές συχνοτικές περιοχές (µε κεντρικές συχνότητες f j )όπωςαυτέςκαθορίζονταιστοστάδιοπρο-επεξεργασίας(τράπεζαϕίλτρων)του ΥΜΑΕ. Συνεπώς, η παραπάνω συνολική διαδικασία παρέχει ένα σύνολο κατωφλίων T m (n),m=1, 2,...,j,τα οποία χρησιµοποιούνται για τον µη οµοιόµορφο κβαντισµό του ηχητικού σήµατος x(n): ˆx(n) =Q [x(n)] fj. (4.16) Η συγκεκριµένη διαδικασία κβαντισµού εισάγει µια µεταβλητή ανάθεση bit ανά δείγµα µε τη ϐοήθεια δύο ένθετων ϐρόχων, καταλήγωντας σε ένα σύνολο από πίνακες ανάθεσης bit b m(n): Εξωτερικός ϐρόχος επανάληψης Οσυγκεκριµένοςϐρόχοςεκτελείταιµέχρις ότου µια εκ των ακόλουθων συνθηκών να ικανοποιηθεί : (α) ένας προκαθορισµένος αριθµός επαναλήψεων να έχει εκτελεστεί, (ϐ) ένας µέσος επιθυµητός ϱυθµός παροχής δεδοµένων να έχει επιτευχθεί. Εσωτερικός ϐρόχος επανάληψης Οταν η διαφορά των εσωτερικών αναπαρα-

118 4.3. Κωδικοποίηση Ηχητικών Σηµάτων 97 στάσεων z (n), παραβιάζειτοκατώφλιεπικάλυψηςt j (n) δηλαδή : z (n) >T j (n), (4.17) τότε περισσότερα bits ανατίθενται στο n-στο δείγµα του κβαντισµένου σήµατος. ΗΕξ.(4.17)µπορείναεπαναδιατυπωθείωςεξής: D j (n) > 0, (4.18) όπου D j (n) = z (n) T j (n). (4.19) ΗπαράµετροςD j (n) ουσιαστικά καθορίζει χρονο-συχνοτικές περιοχές του σήµατος εισόδου όπου ο ϑόρυβος κβαντισµού (παραµόρφωση) είναι ακουστός (πάνω από το κατώφλι επικάλυψης). Ο ϐέλτιστος κβαντισµός πραγµατοποιείται µε ϐάση τους πίνακες ανάθεσης bit b m (n), όπουηµέγιστητιµήˆb(n) εξάγεται µε ϐάση την ακόλουθη σχέση : } ˆb(n) =max {b m m (n), (4.20) και ο τελικός κβαντισµός πραγµατοποιείται λαµβάνοντας υπόψη τις τιµές ˆb(n), ˆx(n) =Q [x(n)]ˆb(n). (4.21) Μετρήσεις και Αποτελέσµατα Κατάλληλες µετρήσεις διεξήχθησαν χρησιµοποιώντας την ηχητική ϐάση δεδοµένων EBU [EBU (1988)] και µονοφωνικά σήµατα εισόδου µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας f s =44100Hz. Ο προτεινόµενος κβαντιστής επιτυγχάνει ικανοποιητική ηχητική ποιότητα µε µια ενδεικτική µέση τιµή ανάθεσης 6.7 bit/δείγµα, όπως παρουσιάζεται και στον Πίνακα 4.4. Στις επόµενες παραγράφους ϑα παρουσιαστούν τυπικά αποτελέσµατα µετρήσεων καθώς και µια αντικειµενική α- ποτίµηση των παραµορφώσεων οφειλόµενων στο ϑόρυβο κβαντισµού µε χρήση του διαδεδοµενου κριτηρίου του λόγου Θορύβου προς Επικάλυψη (NMR). Είδος ηχητικού σήµατος Μέση τιµή bit/δείγµα Modern jazz 6.8 Solo Piano 6.7 Solo Harpsichord 6.6 Big Band Jazz 6.6 Πίνακας 4.4: Αποτελέσµατα τυπικών τιµών ανάθεσης bit (για 4 επαναλήψεις).

119 98 Κεφάλαιο Χαµηλής Ευκρίνειας Οµοιόµορφος Κβαντισµός Τυπικά κατώφλια επικάλυψης για χαµηλές τιµές ευκρίνειας οµοιόµορφου κβαντισµού παρουσιάζονται στο Σχήµα ΤοσύνολοτωνκατωφλίωνT j (n, b i ) υπολογίσθηκαν για κεντρική συχνότητα f j =3kHz και για διαφορετικές στάθµες χαµηλής ευκρίνειας κβαντισµού π.χ., b i =4, 5, 6, 7 bits. Τα συνολικά κατώφλια επικάλυψης T m (n) για Σχήµα 4.14: Τυπικά κατώφλια T j (n, b i ) για κεντρική συχνότητα f j =3kHz και για διαφορετικές στάθµες χαµηλής ευκρίνειας οµοιόµορφου κβαντισµού. τις κεντρικές συχνότητες f j =500, 1000, 3000, 5000 Hz και µετά από ϐελτιστοποίηση και εξαγωγή της µέσης τιµής των µεµονωµένων κατωφλίων T j (n, b i ) (για τις διαφορετικές στάθµες κβαντισµού), παρουσιάζονται στο Σχήµα Σχήµα 4.15: Τυπικά συνολικά κατώφλια T m (n) για κεντρικές συχνότητες f j = 0.5, 1, 3, 5 khz.

120 4.3. Κωδικοποίηση Ηχητικών Σηµάτων Μεταβλητός Μη-οµοιόµορφος Κβαντισµός Οπως αναλύθηκε προηγουµένως, η διαδικασία ανάθεσης bit ϐασίζεται στην διαφορά z (n) των εσωτερικών αναπαραστάσεων z(n), ẑ(n) και του κατωφλίου T j (n). Ενγένει ηδιαφορά z (n) µορφοποιείται κάτω από το κατώφλι T j (n), ότανανατίθενταιπερισσότερα bits στο n-στο δείγµα του κβαντισµένου σήµατος, µε ϐάση την Εξ. (4.18). Η διαφοροποίηση του z (n) λόγω της µεταβλητής διαδικασίαςανάθεσηςbit,γιακεντρική συχνότητα f j =3kHz και για συγκεκριµένο αριθµό επαναλήψεων, παρουσιάζεται στο Σχήµα Σχήµα 4.16: Μεταβολή της διαφοράς των εσωτερικών αναπαραστάσεων z (n) (ανάµεσα σε ένα µη-οµοιόµορφα κβαντισµένο σήµα και στο PCM σήµα αναφοράς) σε σχέση µε το κατώφλι T j (n) για 4 επαναλήψεις : (a) οµοιόµορφος κβαντισµός µε 4 bits ανά δείγµα (b) οµοιόµορφος κβαντισµός µε 5 bits ανά δείγµα (c) µη-οµοιόµορφος κβαντισµος µε µέση τιµή 5.3 bits ανά δείγµα (d) µη-οµοιόµορφος κβαντισµός µε µέση τιµή 5.6 bits ανά δείγµα Αντικειµενική Εκτίµηση του Θορύβου Κβαντισµού Ηαντικειµενικήεκτίµησητωνπαραµορφώσεων (ϑόρυβος κβαντισµού) που προκύπτουν κατά την διαδικασία του µη-οµοιόµορφου κβαντισµού, πραγµατοποιήθηκε µε τη χρήση του κριτηρίου Λόγος Θορύβου προς Επικάλυψη (Noise to Mask Ratio, NMR)

121 100 Κεφάλαιο 4 [Brandeburg (1992)]. Το κριτήριο NMR (εκφρασµένο σε db) ϐρίσκει ευρεία εφαρµογή για την αξιολόγηση των διαδεδοµένων υποκειµενικών κωδικοποιητών [Brandeburg (1994), Bosi (2003), ISO/IEC (1993)] και αποτελεί µια αξιόπιστη µεθοδολογία, δεδο- µένου ότι τα αποτελέσµατα που προκύπτουν παρουσιάζουν µεγάλο ϐαθµό συσχέτισης µε αντίστοιχες (υποκειµενικές) µετρήσεις σε ελεγχόµενες ακροάσεις [Herre (1992), Bech (2006)]. Επιπλέον στα πλαίσια της εργασίας [Ζαρούχας (2008)] παρουσιάζεται µια νέα τεχνική (η οποία αναλύεται στην Παράγραφο 4.4) γιατηναξιολόγησητων κωδικοποιηµένων ηχητικών δεδοµένων µε χρήση του ΥΜΑΕ, το οποίο ϐρίσκεται σε συµφωνία µε το διαδεδοµένο κριτήριο NMR. Οπως είναι γνωστό [Brandeburg (1992)], αρνητικές τιµές του NMR υποδεικνύουν µη-ακουστές παραµορφώσεις (υποκειµενικά µη σηµαντικές). Τιµές αναφοράς για το κριτήριο NMR υπολογίσθηκαν (ϐλ. Πίνακα 4.5) γιαοµοιόµορφοκβαντισµόστα8bitτωνσηµάτωνεισόδουµεϐάσητηνακόλουθη σχέση (µέση τιµή): ( 1 NMR =10log 10 N ) N NMR loc(i), (4.22) όπου NMR loc (i) είναι η τιµή του λόγου Θόρυβος προς Επικάλυψη για το τρέχον πλαίσιο δεδοµένων, για ένα συνολικό αριθµό N πλαισίων. Τα αποτελέσµατα στον i=1 NMR (db) Ηχητικό σήµα Μη-οµοιόµορφος κβαντισµός Ηχητικό σήµα αναφοράς 6.7 bits/δείγµα (µέση τιµή) 8 bit PCM Modern jazz Solo Piano Solo Harpsichord Big Band Jazz Πίνακας 4.5: Αποτελέσµατα NMR για µη-οµοιόµορφα κβαντισµένα ηχητικά σήµατα στα 6.7 bits/δείγµα (µέση τιµή) και για τα αντίστοιχα οµοιόµορφα κβαντισµένα 8-bit PCM σήµατα. Πίνακα 4.5 επισηµαίνουν ότι ο ϑόρυβος κβαντισµού για το µη-οµοιόµορφο κβαντισµένο ηχητικό σήµα στα 6.7 bits/δείγµα (µέση τιµή) είναι αντιληπτικά µικρότερος σε σχέση µε αυτόν που εισάγεται για τον οµοιόµορφο 8-bit κβαντισµό του PCM σήµατος αναφοράς. Στην παρούσα ϕάση είναι χρήσιµο να συγκρίνουµε την απόδοση της παραµέτρου D j (n) στο πεδίο χρόνου-συχνότητας, σε σχέση µε το κριτήριο του λόγου Θορύβου προς Επικάλυψη (NMR), όπως αυτό χρησιµοποιείται σε διαδεδοµένους κωδικοποιητές στο πεδίο της συχνότητας [Kahrs(2003),Brandeburg(1994),Bosi (2003), ISO/IEC (1993)], για το ίδιο χρονικό απόσπασµα (ϐλ. Σχήµα 4.17).

122 4.3. Κωδικοποίηση Ηχητικών Σηµάτων 101 Σχήµα 4.17: Ακουστές παραµορφώσεις σε 10 4 ηχητικά δείγµατα µε χρήση της προτεινόµενης (στο πεδίο χρόνου-συχνότητας) παραµέτρου D j (n) (για f j =3kHz) και του κριτηρίου NMR. Για τις δυο περιπτώσεις η µέση τιµή είναι 5.6 bit/δείγµα. Οπως είναι προφανές από τον ορισµό της παραµέτρου D j (n) (ϐλ. Εξ. 4.19), είναι εφικτός ο προσδιορισµός ανα-δείγµα των κατωφλίων επικάλυψης και κατ επέκταση των παραµορφώσεων (ωστόσο σε µια συχνοτική περιοχή), ενώ το κριτήριο NMR υπολογίζεται σε κάθε κρίσιµη περιοχή, σε πλαίσια των 1024 δειγµάτων. Παρατη- ϱώντας το Σχήµα 4.17, όπουοιτιµέςτηςπαραµέτρουd j (n) (για f j =3kHz) µε µέση ευκρίνεια κβαντισµού b j =5.6bits απεικονίζονται σε σχέση µε την µέση τιµή των NMR τιµών (για αντίστοιχη ευκρίνεια κβαντισµού), είναι εµφανές οτι οι γενικές µορφές των αποτελεσµάτων είναι σε µερική συµφωνία. Ωστόσο και όπως ήταν α- ναµενόµενο η παράµετρος παρέχει µεγαλύτερη χρονική λεπτοµέρεια (σε σχέση µε το κριτήριο NMR), όπου για την περιοχή δειγµάτων εντοπίζει εν δυνά- µει ακουστές παραµορφώσεις, τις οποίες αποτυγχάνει να εντοπίσει το κριτήριο NMR. Εν αντιθέσει, το κριτήριο NMR υποδεικνύει ακουστές παραµορφώσεις στην περιοχή δειγµάτων , οι οποίες δεν προβλέπονται από την παράµετρο D j (n). Το γεγονός αυτό οφείλεται στην πρόβλεψη που επιτελείται από την παράµετρο D j (n) σε µια συχνοτική περιοχή, η οποία δεν επαρκεί για τον υπολογισµό πιθανών ακουστών παραµορφώσεων που δηµιουργούνται σε διαφορετικές ή και γειτονικές συχνοτικές περιοχές, συνυπολογιζόµενες από το κριτήριο NMR Συµπεράσµατα Στα πλαίσια της εργασίας [Zarouchas (2005)] χρησιµοποιήθηκε ένα Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης στο πεδίο χρόνου-συχνότητας σε συνδυασµό µε ένα

123 102 Κεφάλαιο 4 στάδιο ιαδικασίας Απόφασης, για τον υπολογισµό (ανά δείγµα) της παραµέτρου που σχετίζεται µε τις ακουστές παραµορφώσεις λόγω του ϑορύβου κβαντισµού. Με ϐάση την προτεινόµενη παράµετρο, µια δοµή για µη-οµοιόµορφο κβαντισµό παρουσιάστηκε, η οποία επιτρέπει την µεταβλητή ανάθεση bit ανά δείγµα µε ελάχιστοποιηµένες ακουστές παραµορφώσεις. Ο προτεινόµενος µη-οµοιόµορφος κβαντιστής εξασφαλίζει σχετικά χαµηλή υπολογιστική πολυπλοκότητα, µικρή καθυστέρηση κωδικοποίησης για ψηφιακά ηχητικά σήµατα µε µια µέση τιµή ευκρίνειας κβαντισµού 6.7 bits ανά δείγµα, µε καλύτερη υποκειµενική ποιότητα σε σχέση µε ένα οµοιόµορφο 8-bit PCM κβαντιστή. Η αναπαραγωγή των συγκεκριµένων κβαντισµένων ηχητικών δεδοµένων από υπάρχουσες ψηφιακές ηχητικές συσκευές µπορεί εύκολα να επιτευχθεί χωρίς την χρήση εξειδικευµένων αποκωδικοποιητών, εκτός από µια αριθµητική κανονικοποίηση σε 16 bit PCM. 4.4 Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων Εισαγωγή Τα τελευταία χρόνια έχει συντελεστεί σηµαντική πρόοδος στον τοµέα της απωλεστικής κωδικοποίησης ηχητικών σηµάτων, όπου ηανάγκηγιααξιόπιστη,οικονοµική και γρήγορη µεταφορά του ψηφιακού ήχου µέσω ευρυζωνικών δικτύων καθώς και ηαπαίτησηγιαδέσµευσηλιγότερουχώρουαποθήκευσης,οδήγησεστηνανάπτυξη πληθώρας κωδικοποιητών-αποκωδικοποιητών (codecs) και την καθιέρωση τους ως διεθνών προτύπων [ISO-IEC (1993, 1997, 1999, 2002, 2004)], µε ικανοποιητική η- χητική ποιότητα σε εξαιρετικά χαµηλούς ϱυθµούς παροχής δεδοµένων [Brandenburg (1994), Bosi (1997, 2003), Breebart (2005,2007)]. Ηαντικειµενικήαξιολόγησηήκαισύγκριση των διαφόρων διαδεδοµένων προτύπων κωδικοποίησης (ως προς την ηχητική ποιότητα σε συγκεκριµένο ϱυθµό παροχής δεδοµένων) είναι ένα ϐασικό πρόβληµα που έχει απασχολήσει αρκετά τους ερευνητές και µηχανικούς ήχου τα τελευταία χρόνια [Bech (2006)]. Ο πλέον διαδεδοµένος τρόπος αξιολόγησης και σύγκρισης διαφορετικών codecs, είναι η διεξαγωγή ελεγχό- µενων ακροάσεων σε κατάλληλα διαµορφωµένους (ακουστικά ϐέλτιστους) χώρους µε την χρήση κατάλληλου εξοπλισµού (π.χ., ηχεία αναφοράς). εδοµένου ότι το αν- ϑρώπινο ακουστικό σύστηµα είναι ο τελικός αποδέκτης της παρεχόµενης ηχητικής πληροφορίας, οι ελεγχόµενες ακροάσεις είναι ο ενδεδειγµένος και συµπερασµατικός τρόπος αξιολόγησης. Ωστόσο, όπως έχει διαπιστωθεί [Herre (1992), Rix (2006)], είναι πρακτικά πολύ δύσκολο να αναπαραχθούν τα ίδια αποτελέσµατα, από ένα χώρο ακρόασης (δοκιµών), σε έναν άλλο. Η επιλογή των κατάλληλων ηλεκτροακουστικών µετατροπέων (ηχείων ή ακουστικών) καθώς και του υπολοίπου εξοπλισµού, η ηλικία

124 4.4. Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων 103 και η ακουστική εµπειρία των ατόµων που συµµετέχουν καθώς και η ένταση του ή- χου, είναι παράγοντες που επηρεάζουν τα αποτελέσµατα. Για την αποφυγή των ενγενών προβληµάτων των ελεγχόµενων ακροάσεων και των «κλασικών» µεθόδων µετρήσεων, όπως η χρήση του λόγου Σήµατος προς Θόρυβο (Signal to Noise Ratio, SNR) [Brandenburg (1992)], έχουν αναπτυχθεί αντίστοιχες µέθοδοι αντικειµενικών µετρήσεων [Rix (2006)]. Οι µέθοδοι αυτές, επιχειρούν να µοντελοποιήσουν το ανθρώπινο ακουστικό σύστηµα και τον τρόπο που αντιλαµβάνεται τον ήχο ένας άνθρωπος. Πολύ σηµαντική, για αυτό τον σκοπό, είναι η γνώση και κατανόηση ψυχοακουστικών ϕαινοµένων (ϐλ. Κεφάλαιο 2), για την εκτίµηση αντιληπτικά ση- µαντικών αλλαγών του σήµατος ή ακουστών παραµορφώσεων κατά την διαδικασία της κωδικοποίησης-αποκωδικοποίησης. Από τα πλέον διαδεδοµένα κριτήρια αντικειµενικής αξιολόγησης κωδικοποιηµένων ηχητικών δεδοµένων είναι ο λόγος Θορύβου προς Επικάλυψη (Noise to Mask Ratio, NMR) [Brandenburg (1992)], που µοντελοποιεί το ανθρώπινο ακουστικό σύστηµα [Johnston (1988)] και παρέχει µια εκτίµηση των εν δυνάµει παραµορφώσεων µε ϐάση (ϕασµατικά κυρίως) ϕαινόµενα επικάλυψης. Στην εργασία [Ζαρούχας (2008)], περιγράφεται η χρήση του Υπολογιστικού Μοντέλου Επικάλυψης (ΥΜΑΕ) [Buchholz (2004)], όπου ερµηνεύει επιτυχώς διάφορες πτυχές της επεξεργασίας ενός ηχητικού σήµατος από το ανθρώπινο σύστηµα ακοής, για την αξιολόγηση, µέσω κατάλληλης προτεινόµενης παραµέτρου, των παραµορφώσων λόγω ϑορύβου κβαντισµού ή διαφό- ϱων αλλοιώσεων (π.χ., ϕαινόµενο pre-echo [Herre (1996)] όπως αναπόφευκτα εισάγονται κατά την κωδικοποίηση-αποκωδικοποίηση των ηχητικών σηµάτων. Το παρόν µοντέλο υιοθετεί δεδοµένα ενός καναλιού (µονοφωνικά) χρησιµοποιώντας ως εισόδους το ηχητικό σήµα αναφοράς (πριν την κωδικοποίηση) και το αντίστοιχο σήµα µετά την αποκωδικοποίηση. Σύµφωνα µε την προτεινόµενη προσέγγιση, είναι δυνατό να εντοπιστούν στο σήµα, από τις υπολογιζόµενες «εσωτερικές αναπαραστάσεις», περιοχές (χάρτες) χρόνου-συχνότητας µε σηµαντική παραµόρφωση λόγω της διαδικασίας της κωδικοποίησης. Τα αποτελέσµατα της αξιολόγησης, µε χρήση της προτεινόµενης πα- ϱαµέτρου, των κωδικοποιηµένων ηχητικών σηµάτων µε διαδεδοµένα πρότυπα συµπίεσης, παρουσιάζονται σε σχέση µε το καθιερωµένο κριτήριο NMR και υπογραµµίζεται ηαποτελεσµατικότητατηςπροτεινόµενηςµεθόδου. Στις παραγράφους που ακολουθούν, παρουσιάζονται εν συντοµία το κριτήριο NMR (η εκτενής αλγοριθµική υλοποίηση δίνεται στο Παράρτηµα Α.4), η χρήση του ΥΜΑΕ για την µοντελοποίηση των παραµορφώσεων λόγω κωδικοποίησης, η υλοποίηση της προτεινόµενης µεθόδου, τα αποτελέσµατα από την χρήση της εξαγόµενης παραµέτρου σε σχέση µε το κριτήριο NMR καθώς και σχετικά συµπεράσµατα.

125 104 Κεφάλαιο Το κριτήριο του λόγου Θορύβου προς Επικάλυψη Το κριτήριο του Λόγου Θορύβου προς Επικάλυψη (Noise to Mask Ratio, NMR) αποτελεί µια καθιερωµένη τεχνική εκτίµησης της ακουστικής ποιότητας ηχητικών σηµάτων τα οποία έχουν υποστεί επεξεργασία, συµπίεση ή άλλη διεργασία (όπως γενικά περιγράφεται από κάποιο «σύστηµα υπό δοκιµή» στο Σχήµα 4.18). Η µέθοδος προτάθηκε από τον K. Brandenburg [Brandenburg (1992)] µε καθοριστική συµβολή του J.Johnston [Johnston (1988)], και έχει χρησιµοποιηθεί κατά κύριο λόγο στην ανάπτυξη και ϐελτιστοποίηση τεχνικών ακουστικής συµπίεσης, όπως π.χ. του προτύπου MPEG-1 Layer I,II και III [ISO/IEC (1993), Brandenburg (1994)]. Μία µέτρηση του NMR (εκφραζόµενη σε db) ϐασίζεται σε τεχνικές εξαρτώµενες από τα σήµατα εισόδου και στον υπολογισµό της ποσοτικής σχέσης µεταξύ της διαφοράς που δηµιουργεί το ηχητικό σήµα αναφοράς και το επεξεργασµένο σήµα ως προς το κατώφλι επικάλυψης του σήµατος αναφοράς. Η µέτρηση αυτή παρέχει αποτελέσµατα ανά πλαίσιο δεδο- µένων, δεδοµένου ότι το ψυχοακουστικό µοντέλο [Johnston (1988)] που υιοθετείται ϐασίζεται σε συχνοτική ανάλυση που εφαρµόζεται σε διαδοχικά πλαίσια των σηµάτων εισόδου. Στο Σχήµα 4.18 παρουσιάζεται ένα δοµικό διάγραµµα του κριτηρίου NMR και εν συνεχεία παρατίθενται τα ϐασικά στάδια που ακολουθούνται στην υλοποίηση του συγκεκριµένου κριτηρίου. Σχήµα 4.18: οµικό διάγραµµα του κριτηρίου του Λόγου Θορύβου προς Επικάλυψη (NMR). Υπολογισµός της διαφοράς των σηµάτων εισόδου µε την κατάλληλη αντιστάθ- µιση των σχετικών καθυστερήσεων. Το σήµα διαφοράς υπολογίζεται στο πεδίο του χρόνου µεταξύ του σήµατος αναφοράς (reference signal) και του σήµατος που προκύπτει από την ψηφιακή επεξεργασία (test signal) και ϑεωρείται ως το «σφάλµα» που εισάγεται από το υπό-εξέταση σύστηµα (π.χ. κωδικοποιητής).

126 4.4. Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων 105 Υπολογισµός των ϕασµάτων έντασης για το σήµα και για το «σφάλµα» µέσω ϐραχύχρονου µετασχηµατισµού Fourier (Short Time Fourier Transform, STFT). Εφαρµογή του ψυχοακουστικού µοντέλου για τον προσδιορισµό του κατωφλίου επικάλυψης για το σήµα αναφοράς. Υπολογισµός (σε λογαριθµική κλίµακα db) του λόγου της ενέργειας του σήµατος διαφοράς (σφάλµα) προς το κατώφλι επικάλυψης, ανά πλαίσιο δεδοµένων εισόδου και παρουσίαση των αποτελεσµάτων Μοντελοποίηση Παραµορφώσεων µε Χρήση του ΥΜΑΕ Το Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης (ΥΜΑΕ) όπως επισηµάνθηκε σε προηγούµενα κεφάλαια, αποτελεί πρόσφατη εξέλιξη για την µοντελοποίηση και ερ- µηνεία διαφόρων ψυχοακουστικών ϕαινοµένων [Buchholz (2004)]. Η ϐασική δια- ϕοροποίηση του µοντέλου αυτού από παραδοσιακές προσεγγίσεις αµιγώς στο πεδίοσυχνότητας (π.χ., ψυχοακουστικό µοντέλο Johnston [Johnston (1988)]) είναι ότι η λειτουργία του επιτελείται στο πεδίο του χρόνου-συχνότητας, µε την χρήση κατάλληλης τράπεζας ϕίλτρων,µε συχνοτική ανάλυση αντίστοιχη του συστήµατος ακοής. Προς αποφυγή επαναλήψεων σχετικά µε τις λειτουργίες που επιτελούνται στο µονοπάτι ε- πεξεργασίας του ΥΜΑΕ, ο αναγνώστης παραπέµπεται στις σχετικές παραγράφους του Κεφαλαίου 2. Ωστόσο, πρέπει να επισηµανθεί, και εν αντιθέσει µε τις προηγούµενες υλοποιήσεις, ότι στην παρούσα ϕάση χρησιµοποιείται τράπεζα ϕίλτρων (στο στάδιο προ-επεξεργασίας) ϐασιζόµενη σε gammatone ϕίλτρα (όπως αρχικώς έχει παρουσιαστεί το ΥΜΑΕ [Buchholz (2004)]), δεδοµένου ότι δεν υπάρχει η ανάγκη για διαφανή διαδικασία ανάλυσης-σύνθεσης (ϐλ. Παράγραφο 4.2). Τα σήµατα στις εξόδους της τράπεζας ϕίλτρων οδηγούνται στο στάδιο ΣΕΣ (όπου παράλληλα υλοποιείται και µια χρονική ολοκλήρωση) και στην συνέχεια σε µια ιαδικασία Απόφασης, όπου µε την χρήση κατάλληλων κατωφλίων ορίζεται αν η υπολογισθείσα παραµόρφωση είναι υποκειµενικά σηµαντική. Σχήµα 4.19: Υποκειµενική εκτίµηση παραµορφώσεων. Ηυποκειµενικήεκτίµησητωνπαραµορφώσεων λόγω κωδικοποίησης µε τη χρήση

127 106 Κεφάλαιο 4 του ΥΜΑΕ, στηρίζεται στην διαδικασία του Σχήµατος 4.12, όπουεπαναλαµβάνεται κατάλληλα διαφοροποιηµένη στο Σχήµα Ως είσοδος στο ΥΜΑΕ χρησιµοποιείται το πηγαίο (πριν την κωδικοποίηση) ηχητικό σήµα x(n), καθώςκαιτοαντίστοιχο σήµα x(n) (µετά την αποκωδικοποίηση), παρέχοντας ως έξοδο τις αντίστοιχες «εσωτερικές αναπαραστάσεις» z k (n) και z k (n) ανά συχνοτική περιοχή. Οι «εσωτερικές αναπαραστάσεις» χρησιµοποιούνται σε κατάλληλες ιαδικασίες Απόφασης ( Α). Η ϑε- µελιώδης αρχή στην οποία υλοποιούνται οι Α είναι η Ελάχιστα Αντιληπτή Στάθµη ιαφοράς (ϐλ. Κεφάλαιο 2), ϐάση της οποίας προσδιορίζεται η διαφορά των παραπάνω «εσωτερικών αναπαραστάσεων», εξασφαλίζοντας τη δυνατότητα εντοπισµού χρονοσυχνοτικών περιοχών µε σηµαντική υποκειµενική παραµόρφωση, κυρίως λόγω του ϑορύβου κβαντισµού. Ενα αναλυτικό σχηµατικό διάγραµµα το οποίο αναφέρεται στην παραπάνω µέθοδο ϕαίνεται στο Σχήµα Είσοδος στην τράπεζα ϕίλτρων τύπου gammatone είναι το αρχικό (πηγαίο) σήµα x(n) και το αντίστοιχο ηχητικό σήµα x(n) µετά την αποκωδικοποίηση. Τα σήµατα από τις αντίστοιχες συχνοτικές περιοχές x k (n) και x k (n) οδηγούνται στο ΥΜΑΕ το οποίο παρέχει τις αντίστοιχες «εσωτερικές αναπαραστάσεις» z k (n) και z k (n). Ο υπολογισµός της διαφοράς των «εσωτερικών αναπαραστάσεων» πραγµατοποιείται σε µια ιαδικασία Απόφασης ϐάση της ακόλουθης σχέσης : k (n) = z k (n) z k (n). (4.23) Σχήµα 4.20: ιαδικασία ανάλυσης για τον προσδιορισµό της παραµέτρου D k (n). Με τη χρήση ενός κατάλληλου συνόλου κατωφλίων υπολογίζεται η παρακάτω παρά- µετρος : D k (n) = k (n) T k (n), (4.24)

128 4.4. Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων 107 ηοποίαυποδεικνύειτηνέντασητωνπαραµορφώσεων(πάνωαπότοπροκαθορισµένο κατώφλι) στο πεδίο χρόνου-συχνότητας όταν D k (n) > Υλοποίηση και Πειράµατα Για την πειραµατική διαδικασία, αναπτύχθηκε εφαρµογή σε προγραµµατιστικό πε- ϱιβάλλον Matlab [MathWorks (2009)] στα πλαίσια της εργασίας [Ζαρούχας (2008)]. Ηεφαρµογήαυτήεπιτρέπειτηναπεικόνισηκαιτηναξιολόγησητωναποτελεσµάτων, για τον υπολογισµό του NMR και την σύγκρισή του µε την προτεινόµενη µεθοδολογία ϐασιζόµενη στο ΥΜΑΕ, την εύκολη ϱύθµιση των σχετικών παραµέτρων του µοντέλου καθώς και την δυνατότητα αυτόµατης ή χειροκίνητης αντιστάθµισης των σχετικών καθυστερήσεων των σηµάτων εισόδου. Στο Σχήµα 4.21 απεικονίζεται το γραφικό περιβάλλον της εφαρµογής µε τις προ-αναφερθείσες επιλογές. Η διαδικασία αξιολόγησης πραγµατοποιήθηκε σε ηχητικά σήµατα κωδικοποιηµένα κατά MPEG-1 Layer III (mp3) [ISO/IEC (1993), Brandenburg (1994)], Advance Audio Coding (AAC) [ISO/IEC (1997), Bosi (1997)], Ogg Vorbis(OGG)[Vorbis (2010)] και Windows Media Audio (WMA) [WMA (2010)] σε αντίστοιχους ϱυθµούς παροχής δεδοµένων. Η ηχητική ποιότητα των αποκωδικοποιηµένων σηµάτων αξιολογήθηκε µε χρήση του κριτηρίου NMR καθώς και µε την προτεινόµενη παραµέτρο D k (n) υπολογισθείσα από το µοντέλο ΥΜΑΕ, όπως παρουσιάζεται στο Σχήµα Αποτελέσµατα Μετρήσεις πραγµατοποιήθηκαν έχοντας ως αναφορά µονοφωνικά ηχητικά σήµατα, µε ευκρίνεια κβαντισµού 16 bit και συχνότητα δειγµατοληψίας Hz, από τη ϐάση δεδοµένων EBU-Sound Quality Assessement Material CD [EBU (1988)]. Οι κωδικοποιήσεις ηχητικών σηµάτων που χρησιµοποιήθηκαν καθώς και οι αντίστοιχοι ϱυθµοί παροχής δεδοµένων συνοψίζονται στον Πίνακα 4.6. Κωδικοποίηση Ρυθµός παροχής δεδοµένων (kbps) AAC OGG MP WMA Πίνακας 4.6: ιαδεδοµένοι τύποι κωδικοποίησης και αντίστοιχοι ϱυθµοί παροχής δεδοµένων. Στο Σχήµα 4.23 παρουσιάζεται η αξιολόγηση της ηχητικής ποιότητας για τους κωδικοποιητές του Πίνακα 4.6 και για τους επιτρεπόµενους ϱυθµούς παροχής δεδοµένων ανά περίπτωση. Ως ηχητικό σήµα αναφοράς (είσοδος) χρησιµοποιήθηκε µο-

129 108 Κεφάλαιο 4 Σχήµα 4.21: Γραφικό περιβάλλον του κεντρικού µενού της εφαρµογής. Σχήµα 4.22: Πειραµατική διαδικασία σύγκρισης µεθόδων.

130 4.4. Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων 109 νοφωνικό ορχηστρικό σήµα, διάρκειας 17 sec µε συχνότητα δειγµατοληψίας Hz. Ο κύριος λόγος που χρησιµοποιήθηκε το συγκεκριµένο σήµα είναι η παρουσία ικανοποιητικού εύρους συχνοτήτων του ακουστού ϕάσµατος για την επαρκή αξιολόγηση των εν δυνάµει παραµορφώσεων (π.χ., ϑόρυβος κβαντισµού) στις συγκεκριµένες συχνοτικές περιοχές. Οπως είναι αναµενόµενο και απεικονίζεται στο Σχήµα 4.23, µικρότερες τιµές του προτεινόµενου κριτηρίου D k (n) ϐασιζόµενο στο ΥΜΑΕ, και συνεπώς λιγότερες ακουστές παραµορφώσεις, παρατηρούνται για υψηλότερους ϱυθµούς παροχής δεδοµένων. (a) (b) (c) (d) Σχήµα 4.23: Αξιολόγηση ηχητικής ποιότητας, µε ϐάση το προτεινόµενο κριτήριο D k (n), τωνυπό-εξέτασηκωδικοποιητώνγιαδιαφορετικούςϱυθµούςπαροχήςδεδο- µένων : (a) AAC (b) OGG (c) MP3 και (d) WMA. Στα Σχήµατα 4.24 και 4.25 απεικονίζεται η συγκριτική αξιολόγηση ηχητικής ποιότητας µε ϐάση το κριτήριο NMR και την προτεινόµενη παράµετρο D k (n), γιαδυο µονοφωνικά ηχητικά σήµατα αναφοράς : (a) περιοδικές νότες από κρουστό (καστανιέτες) και (b) ανδρική ϕωνή, χρονικής διάρκειας 7 και 11 sec αντίστοιχα, µε συχνότητα δειγµατοληψίας Hz. Οπως είναι εµφανές, οι γενικές µορφές των γραφικών απεικονίσεων για τα δύο κριτήρια είναι σε συµφωνία, µε τις περισσότερο αρνητικές τι- µές (υποκειµενικά λιγότερο σηµαντικές παραµορφώσεις) να αντιστοιχούν σε υψηλούς ϱυθµούς παροχής ηχητικών δεδοµένων (µικρότερος ϐαθµός συµπίεσης).

131 110 Κεφάλαιο 4 (a) (b) (c) (d) Σχήµα 4.24: Συγκριτική αξιολόγηση ηχητικής ποιότητας µε ϐάση το κριτήριο NMR και το προτεινόµενο κριτήριο D k (n), γιασήµααναφοράς(κρουστό)κωδικοποιηµένο κατά : (a) AAC (b) OGG (c) MP3 και (d) WMA. (a) (b) (c) (d) Σχήµα 4.25: Συγκριτική αξιολόγηση ηχητικής ποιότητας µε ϐάση το κριτήριο NMR και το προτεινόµενο κριτήριο D k (n), γιασήµααναφοράς(ανδρικήϕωνή)κωδικοποιηµένο κατά : (a) AAC (b) OGG (c) MP3 και (d) WMA.

132 4.4. Αξιολόγηση Κωδικοποιηµένων Ηχητικών Σηµάτων 111 Να επισηµανθεί ότι για το κριτήριο NMR, τιµές κάτω από -10 db [Brandenburg (1992)] υποδηλώνουν ουσιαστικά µη-ακουστές παραµορφώσεις. Στα Σχήµατα 4.26 και 4.27 παρουσιάζεται η καλύτερη χρονική ευκρίνεια της προτεινόµενης µεθόδου, στην πρόβλεψη και καταγραφή των διακυµάνσεων στην ηχητική ποιότητα δύο διαφο- ϱετικών σηµάτων αναφοράς κωδικοποιηµένων µε διαφορετικούς τρόπους απωλεστικής συµπίεσης ηχητικών δεδοµένων. Σχήµα 4.26: Σύγκριση των αποτελεσµάτων NMR (πάνω) και ΥΜΑΕ (κάτω), µε χρήση της αναπτυχθείσας εφαρµογής στο προγραµµατιστικό περιβάλλον Matlab [Math- Works (2009)], για κωδικοποίηµένο κατά MPEG-1 Layer III ηχητικό σήµα (καστανιέτες) µε χρήση του ανοιχτού λογισµικού κωδικοποιήσης LAME [LAME (2008)] και ϱυθµό παροχής δεδοµένων 64 kbps. Η συνεχής γραµµή αντιστοιχεί στην υπολογιζό- µενη µέση τιµή σε κάθε περίπτωση Συµπεράσµατα Μετά τις δοκιµές σε πραγµατικά ηχητικά σήµατα κωδικοποιηµένα κατά AAC, MP3, OGG και WMA καθώς και µε την παράλληλη σύγκριση µε το καθιερωµένο κριτή- ϱιο NMR, είναι εµφανές πως το προτεινόµενο κριτήριο D k (n) (ϐασιζόµενο στο ΥΜΑΕ) αποτελεί ένα αξιόπιστο µέσο αξιολόγησης κωδικοποιηµένων ηχητικών σηµάτων µε δυνατότητες ενσωµάτωσης του σε ένα ευρύ ϕάσµα ψηφιακών ηχητικών εφαρµογών. Συγκεκριµένα, το προτεινόµενο κριτήριο πλεονεκτεί του NMR στην χρονική ανάλυση των σηµάτων, εξασφαλίζοντας µεγαλύτερη χρονική ακρίβεια στην εύρεση των ακουστών παραµορφώσεων. Εν αντιθέσει µε το NMR, το κριτήριο D k (n) εντοπίζει τις αντιληπτικά σηµαντικές αλλοιώσεις (όπως έχουν προκύψει από την εκάστοτε ψηφιακή επεξεργασία) ξεχωριστά για κάθε συχνοτική περιοχή. Επιπλέον, η δυναµική περιοχή του κριτηρίου D k (n) είναι µεγαλύτερη, γεγονός που το καθιστά πιθανότατα πιο

133 112 Κεφάλαιο 4 Σχήµα 4.27: Σύγκριση των αποτελεσµάτων NMR (πάνω) και ΥΜΑΕ (κάτω), µε χρήση της αναπτυχθείσας εφαρµογής στο προγραµµατιστικό περιβάλλον Matlab [Math- Works (2009)], για κωδικοποιηµένο κατά OGG-Vorbis ηχητικό σήµα (ανδρική ϕωνή) και ϱυθµό παροχής δεδοµένων 224 kbps. Η συνεχής γραµµή αντιστοιχεί στην υπολογιζόµενη µέση τιµή σε κάθε περίπτωση. ακριβές. Το προτεινόµενο κριτήριο µειονεκτεί σε ορισµένους τοµείς συγκριτικά µε το NMR, κυρίως λόγω αυξηµένης επεξεργαστικής ισχύος που απαιτεί. 4.5 Σύνοψη Κεφαλαίου και Συµπεράσµατα Στο παρόν κεφάλαιο εξετάστηκε αναλυτικά η χρήση του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης, µε ϐάση το ευρύτερο ϑεωρητικό µοντέλο που παρουσιάστηκε στα Κεφάλαια 2 και 3, σεδύοδιακριτέςερευνητικέςπεριοχέςµεξεχωριστό επιστηµονικό ενδιαφέρον για τον µηχανικό ήχου. Αφενός, η µοντελοποίηση της αντήχησης (ενγενές ϕαινόµενο κατά την αναπαραγωγή ηχητικών σε κλειστούς χώρους) και ηµετέπειταεξάλειψητηςαπόταηχογραφηµένασήµατα. Αφετέρου,ηπαρουσίαση ενός υποκειµενικού µη-οµοιόµορφου κβαντιστή και ενός κριτηρίου αντικειµενικής αξιολόγησης ηχητικών σηµάτων, δυο συµπληρωµατικών διαδικασιών που εντάσονται στην κωδικοποίηση ηχητικών δεδοµένων [Bosi (2003), Kahrs (2003)]. Θα πρέπει να επισηµανθεί οτι τα τελευταία χρόνια δόθηκε ιδιαίτεροϐάροςστηνδιαδικασίατηςαξιολόγησης ηχητικών σηµάτων (ιδιαίτερα µε την εµφάνιση νέων µορφών κωδικοποιήσεων [Baumgarte (2003), Breebaart (2005, 2007),denBrinker(2002),Dietz(2002),Ehret (2004), Faller (2003, 2006), Grill (1999), Herre(2004,2005,2007),Pulkki(2007), Villemoes (2006)]) είτε µε τη µορφή συστάσεων (για την παρουσία ενός κοινού σηµείου αναφοράς) [ITU-R (1994, 1997, 2001)], είτε µε τη ϑέσπιση κατάλληλων κλιµάκων

134 4.5. Σύνοψη Κεφαλαίου και Συµπεράσµατα 113 ϐαθµονόµησης [Bech (2006)]. Στο πρώτο µέρος του παρόντος κεφαλαίου, επιχειρήθηκε επιτυχώς µια εξαρτώµενη του σήµατος περιγράφη του αντιληπτικού ϕαινοµένου της αντήχησης και εν συνεχεία, µέσω µιας διαδικασίας ανάλυσης-σύνθεσης, η καταστολή της αντήχησης σε ηχογραφηµένα σήµατα. Η προτεινόµενη, εξαρτώµενη του σήµατος, προσέγγιση µπο- ϱεί να συσχετιστεί εννοιολογικά µε αντίστοιχα κριτήρια όπως το NMR [Brandenburg (1992)] ή το PAQM [Beerends (1992)], όπου η αντήχηση ϑεωρείται ως ένα είδος «ϑορύ- ϐου», που περιγράφεται από τον είκτη Επικάλυψης λόγω Αντήχησης, απεικονίζεται µέσω κατάλληλων 2 αναπαραστάσεων και µορφοποιείται (καταστολή) µε τη χρήση υποκειµενικών συντελεστών ϐάρους, όπως καθορίζει η προτεινόµενη διαδικασία ανάλυσης-σύνθεσης. Η διεξαγωγή ελεγχόµενων ακροάσεων κατέγραψε µια συστηµατική προτίµηση των ακροατών στα επεξεργασµένα ηχητικά σήµατα, καθιστώντας την προτεινόµενη τεχνική πολλά υποσχόµενη για την αναθεώρηση του προβλήµατος της αντήχησης από τη σκοπιά της προσέγγισης εξαρτώµενης του σήµατος καθώς και µια συµπληρωµατική επιλογή στις εξαρτώµενες του συστήµατος µεθόδους αντιστροφής ϕίλτρου. Ηεξαρτώµενητουσήµατοςπροσέγγισηείναιπερισσότεροεµφανήςστοδεύτεροµέ- ϱος του παρόντος κεφαλαίου, δεδοµένου οτι προτείνεται ένα εναλλακτικό κριτήριο αξιολόγησης ηχητικών δεδοµένων αξιοποιώντας την ϐασική αρχή λειτουργίας του µηοµοιόµορφου κβαντιστή. Στην διαδικασία του κβαντισµού η ανάθεση περισσοτέρων bits στο συγκεκριµένο χρονό-συχνοτικό στιγµιότυπο πραγµατοποιείται εφόσον ο ϑό- ϱυβος κβαντισµού παραβιάζει το υπολογισθέν κατώφλι επικάλυψης. Παρόµοια, κατά την διάρκεια αξιολόγησης σηµάτων, όταν το σήµα διαφοράς (ϑόρυβος) και για το συγκεκριµένο χρονό-συχνοτικό στιγµιότυπο είναι πάνω από το κατώφλι επικάλυψης, ϑεωρείται ως εν δυνάµει ακουστή παραµορφώση που έχει προκύψει από οποιαδήποτε ηχητική επεξεργασία. Στο σηµείο αυτό πρέπει να επισηµανθεί ότι τόσο το κριτήριο NMR όσο και το προτεινόµενο κριτήριο µπορούν να χρησιµοποιηθούν για την α- ξιολόγηση σχετικά µεγάλης κατηγορίας παραµορφώσεων που έχουν προκύψει από προκαθορισµένη ηχητική επεξεργασία και τα αποτελέσµατα να συσχετισθούν µε αυτά των ελεγχόµενων ακροάσεων (ϐλ. Παράρτηµα Α.5 και Α.6). Ενα από τα ϐασικά µεινονεκτήµατα είναι η σχετικά µεγάλη υπολογιστική πολυπλοκότητα που δυσχεραίνει την υλοποίηση εφαρµογών σε πραγµατικό χρόνο όπως άλλωστε είχε παρατηρηθεί κατά την παρουσίαση του NMR κριτηρίου [Herre (1992)] και απαιτούσε την χρήση εξειδικευµένου hardware για την διεξαγωγή σχετικών µετρήσεων.

135

136 Κεφάλαιο 5 Συµπεράσµατα και Μελλοντικοί Στόχοι Τα τελευταία χρόνια, η απόδοση διαφόρων ψηφιακών εφαρµογών επεξεργασίας ή- χου (οµιλίας και µουσικής) ϐελτιώθηκε σε σηµαντικό ϐαθµό µε τον συνδυασµό ή την συµπληρωµατική λειτουργία παραδοσιακών τεχνικών ψηφιακής επεξεργασίας σήµατος και αντιληπτικών (perceptual) µοντέλων, που προσοµοιώνουν ϐασικά ϕαινόµενα ήαρχέςτηςψυχοακουστικής.χαρακτηριστικόπαράδειγµααποτελούνοιδιάφορεςε- ϕαρµογές για Αυτόµατη Αναγνώριση Οµιλίας (Automatic Speech Recognition, ASR), όπου µε την ενσωµάτωση αντιληπτικών διεργασιών, παρατηρείται ϐελτιώση των ποσοστών αναγνώρισης ακόµη και στην παρουσία πολλών οµιλητών. Επιπρόσθετα, η εξασφάλιση µεγάλου ϐαθµού συµπίεσης στα διαδεδοµένα πρότυπα κωδικοποίησης, µε την αφαίρεση της µη-σχετικής (irrelevant) ηχητικής πληροφορίας που δεν αξιοποιείται απο το ανθρώπινο ακουστικό σύστηµα, δεν ϑα ήταν εφικτή χωρίς την υιοθέτηση ψυχοακουστικών τεχνικών. Συνεπώς, η σηµαντική πρόοδος που έχει σηµειωθεί στην υπολογιστική προσοµοίωση σηµαντικών ψυχοακουστικών µηχανισµών, αποτελεί ευοίωνη προοπτική για την ενσωµάτωση τους στην ανάλυση ή και επανεξέταση διαφόρων ϕαινοµένων (όπως το αντιληπτικό ϕαινόµενοτηςαντήχησης)πουεντάσσονται στην επιστηµονική περιοχή του µηχανικού ήχου και στην ϑεµελίωση κατάλληλων µεθοδολογιών που λειτουργούν συµπληρωµατικά µε παραδοσιακές τεχνικές ή και προσεγγίσεις. Βασικός στόχος της παρούσας διατριβής ήταν η ϐέλτιστη χρήση ενός σύγχρονου (state of the art) ψυχοακουστικού µοντέλου (Υπολογιστικό Μοντέλο Ακουστικής Επικάλυψης, ΥΜΑΕ) στην ανάλυση και επεξεργασία ηχητικών σηµάτων για την αναπαραγωγή τους σε χώρους µε αντήχηση καθώς και στην κωδικοποίηση ηχητικών δεδοµένων. Θα πρέπει ωστόσο να επισηµανθεί, ότι επιδίωξη της διατριβής δεν ήταν η ακριβής ερµηνεία των σχετικών νευρο-ϕυσιολογικών µηχανισµών που αναπτύσσονται από το ανθρώπινο ακουστικό σύστηµα κατά την εκτέλεση των παραπάνω διαδικασιών, αλλά να παραµείνει σε σηµαντικό ϐαθµό ψυχοακουστικά συµβατή. Το κύριο µέρος της διατριβής επικεντρώθηκε στην µοντελοποίηση των αντιληπτικά σηµαντικών αλλοιώσεων λόγω αντήχησης, µε την ϐοήθεια κατάλληλα οριζόµενων µονο-ωτικών και διαφορικών ενδο-καναλικών παραµέτρων και την απεικόνιση των 115

137 116 Κεφάλαιο 5 αλλοιώσεων µε τη ϐοήθεια χρονο-συχνοτικών 2D αναπαραστάσεων. Στο πλαίσιο της ϑεωρητικής ανάλυσης που πραγµατοποιήθηκε, αναδείχθηκε η αναγκαιότητα για την υιοθέτηση µιας προσέγγισης εξαρτώµενης του σήµατος (signal-dependent) σχετικά µε την περιγραφή και επεξεργασία των αντιληπτικών αποτελεσµάτων της αντήχησης καθώς και η συµπληρωµατική της προοπτική στο σύνολο των κυρίαρχων εξαρτώµενων του συστήµατος (system-dependent) µεθόδων, που χρησιµοποιούνται σε πολλές εφαρµογές DSP για την αντιµετώπιση προβληµάτων αυτής της κατηγορίας. Σηµαντικό κίνητρο για την συγκεκριµένη ανάλυση αποτέλεσε το γεγονός, οτι ο άνθρωπος ώς ακουστικός δέκτης δεν αντιλαµβάνεται όλη την πληροφορία, όπως αυτή καταγράφεται στην Κρουστική Απόκριση Χώρου καθώς και το ότι ένας σηµαντικός αριθµός ανακλάσεων επικαλύπτεται από το απευθείας σήµα (direct sound) ή από άλλες ανακλάσεις και κατ επέκταση είναι µη-ακουστές. Επιπλέον και όπως έχει περιγραφεί πρόσφατα από το Χωρικό Μοντέλο Επικάλυψης [Buchholz (2001)], η ακουστική αντίληψη της αντήχησης χώρων είναι ένα σύνθετο ϕαινόµενο, που επηρεάζεται από ένα πλήθος, εξαρτηµένων από το σήµα (signal-depended), παραγόντων (π.χ., χρόνο-συχνοτικές αλλοιώσεις, καθυστερήσεις, ηχητική στάθµη, κατευθυντικότητα). Επιπρόσθετα, η στατιστική ανάλυση που πραγµατοποιήθηκε τόσο στις εξαρτώµενες του συστήµατος παραµέτρους (π.χ., κρουστικές αποκρίσεις χώρων) όσο και στις ε- ξαρτώµενες του σήµατος (π.χ., είκτης Επικάλυψης λόγω Αντήχησης, ΕΑ) κατέδειξε συσχέτιση µε διαδεδοµένες ακουστικές παραµέτρους (π.χ., Χρόνος Αντήχησης) που χαρακτηρίζουν κλειστούς χώρους ακρόασης. Ωστόσο και αντίθετα µε τις καθιερωµένες ακουστικές παραµέτρους, οι προτεινόµενες 2D αναπαραστάσεις ή και παράµετροι διαφοροποιούνται δυναµικά µε την χρονική εξέλιξη του σήµατος εισόδου και εξαρτώνται από το είδος του ηχητικού σήµατος, µε ανάλογο τρόπο που είναι συµβατός µε τις υποκειµενικές αλλοιώσεις που καταγράφονται στο σήµα κατά την αναπαραγωγή του σε κλειστούς χώρους ακρόασης. Οπαραπάνωλεπτοµερήςεντοπισµόςτωναλλοιώσεωνλόγωαντήχησης(µέσωτου ΕΑ) διαµόρφωσε κατάλληλη µεθοδολογία, µέσα από µια διαδικασία ανάλυσης-σύνθεσης, για την συµπίεση της αντήχησης σε συγκεκριµένες χρονο-συχνοτικές περιοχές ενσω- µατώνοντας παράλληλα κατάλληλες τεχνικές ψηφιακής επεξεργασίας σήµατος. Το κύριο πλεονέκτηµα της συγκεκριµένης (εξαρτώµενης του σήµατος) µεθοδολογίας είναι ότι επιτυγχάνεται η επεξεργασία (συµπίεση) των, µε σχετική καθυστέρηση, πα- ϱαµορφώσεων λόγω αντήχησης σε µια µεγαλύτερη κλίµακα, δεδοµένου ότι µόνο οι αντιληπτικά σηµαντικές περιοχές (όπως αυτές έχουν προσδιοριστεί από τον ΕΑ) του σήµατος επηρεάζονται από την επεξεργασία. Θα πρέπει να επισηµανθεί ότι σηµαντικό ϱόλο στην διαµόρφωση της παραπάνω διαφανής διαδικασίας ανάλυσης-σύνθεσης, επιτέλεσε η τράπεζα ϕίλτρων που υλοποιήθηκε και αντικατέστησε την καθιερωµένη τράπεζα τύπου gammatone, εξασφαλίζοντας µη-οµοιόµορφη συχνοτική ανάλυση κα-

138 117 ϑώς και άριστες ιδιότητες ανασύνθεσης (perfect reconstruction). Σχετικά µε την επιβεβαίωση της προτεινόµενης µεθοδολογίας για την συµπίεση της αντήχησης καθώς και της ικανότητας του προτεινόµενου ΕΑ να περιγράψει ποσοτικά την παρουσία αντήχησης, διεξήχθησαν ελεγχόµενες ακροάσεις στον κατάλληλα δια- µορφωµένο και ακουστικά ϐέλτιστο χώρο του εργαστηρίου της Οµάδας Τεχνολογίας Ηχου και Ακουστικής, µε τη συµµετοχή κρίσιµου αριθµού έµπειρων ακροατών. Τα αποτελέσµατα των ελεγχόµενων ακροάσεων παρουσίασαν συσχέτιση µε τις αριθµητικές τιµές του είκτη Επικάλυψης λόγω Αντήχησης ( ΑΕ) καθώς και µια συστηµατική προτίµηση των ακροατών στα επεξεργασµένα ηχητικά σήµατα, καθιστώντας την προτεινόµενη, εξαρτώµενης του σήµατος προσέγγιση, πολλά υποσχόµενη για την ανάλυση και εξέταση των αντιληπτικών πτυχών του προβλήµατος της αντήχησης καθώς και µια συµπληρωµατική επιλογή στις εξαρτώµενες του συστήµατος µεθόδους αντιστροφής ϕίλτρου. εδοµένου ότι η εννοιολογική συσχέτιση του ΕΑ µε το διαδεδοµένο κριτήριο του λόγου Θόρυβος προς Επικάλυψη (Noise to Mask Ratio, NMR) είναι εµφανής, στα πλαίσια της διατριβής αναζητήθηκε η δυνάτοτητα ανάλυσης των ηχητικών δεδοµένων µε ϐάση τις εσωτερικές τους αναπαραστάσεις (όπως δηλαδή τις παρέχει το ψυχοακουστικό µοντέλο) µε εφαρµογή στην περιοχή της κωδικοποίησης σηµάτων. Ο προτεινόµενος µη-οµοιόµορφος κβαντιστής που υλοποιήθηκε πραγµατοποιεί τη διαδικασία της κβάντισης χρονο-συχνοτικά και µε κατάλληλη οδήγηση από το ψυχοακουστικό µοντέλο, εξασφαλίζοντας καλύτερη υποκειµενική ηχητική ποιότητα, µε µια µέση τιµή ευκρίνειας κβαντισµού 6.7 bits ανά δείγµα, σε σχέση µε ένα οµοιόµορφο 8-bit PCM κβαντιστή. Χρησιµοποιώντας τη ϐασική λειτουργία του µη-οµοιόµορφου κβαντιστή, υλοποιήθηκε ενά κριτήριο αξιολόγησης ηχητικών δεδοµένων, όπου σε αντίθεση µε καθιερώµενα κριτήρια (όπως το NMR) επιτελεί τιςλειτουργίεςτουστοπεδίοχρόνουσυχνότητας και παρέχει τη δυνατότητα εντοπισµού µε ακρίβεια της υποκειµενικά σηµαντικής παραµόρφωσης µε ϐάση την χρονική εξέλιξη του σήµατος. Συγκριτική αξιολόγηση ανάµεσα στο προτεινόµενο κριτήριο και το κριτήριο NMR, ανέδειξε τις ιδιατερότητες των δύο προσεγγίσεων ενώ τα αποτελέσµατα που προέκυψαν από τις σχετικές αξιολογήσεις είναι σε γενική συµφωνία. Οι δύο παραπάνω υλοποιήσεις, που εντάσσονται στην ευρύτερη περιοχή της κωδικοποίησης ηχητικών δεδοµένων, αναδεικνύουν την ευελιξία του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης για την ενσωµάτωση του σε ετερόκλητες ψηφιακές ηχητικές εφαρµογές (π.χ., κωδικοποίηση, ακουστική χώρων, κλπ) που εµπίπτουν ωστόσο στοερευνητικόενδιαφέροντουµηχανικού ήχου. Λαµβάνοντας υπόψη το γενικότερο πλαίσιο εργασίας που διαµόρφωσε η παρούσα διατριβή καθώς και τους γενικότερους προβληµατισµούς που αναδείχθηκαν κατά τη διάρκεια εκπόνησης της, είναι επιθυµητός ο καθορισµός µελλοντικών στόχων για την

139 118 Κεφάλαιο 5 ϐελτίωση των προτεινόµενων (εξαρτόµενων του σήµατος) µεθοδολογιών και την διατή- ϱηση ή και ενίσχυση της ψυχοακουστικής τους συνέπειας. Ενδεικτικές µελλοντικές κατευθύνσεις µε αµιγώς ερευνητικό χαρακτήρα ή προσανατολισµένες σε υπολογιστικές ϐελτιστοποιήσεις, ϑα µπορούσαν να επισηµανθούν οι εξής : 1. ΗπαρούσαανάλυσηυποθέτειοτιοισυγκεκριµένεςΚρουστικέςΑποκρίσειςΧώ- ϱων, οι οποίες αντιστοιχούν στο αριστερό και δεξί κανάλι πηγής/δέκτη, είναι γνωστές και έχουν καταγραφεί εκ των προτέρων. Αυτό αποτελεί µια ϐασική υπόθεση εργασίας η οποία καθιστά δυνατή την προτεινόµενη ανάλυση. Σε πρακτικές εφαρµογές ηπαραπάνωυπόθεσηείναιεφικτή,ενώϑαήτανιδιαίτεραχρήσιµηηενσωµάτωση απλοποιηµένων µοντέλων Κρουστικών Αποκρίσεων Χώρων, η οποία ϑα επιτρέπει την χωρίς αναφορά (semi-blind) εκτίµηση του είκτη Επικάλυψης λόγω Αντήχησης και τη δηµιουργία των αντίστοιχων 2D απεικονίσεων. Τα προφανή πλεονεκτήµατα µιας τέτοιας προσέγγισης είναι, ότι τα γνωστά προβλήµατα (σφάλµατα άστοχης προσαρµογής λόγω µετατόπισης πηγής/δέκτη) που παρουσιάζονται στις µετρήσεις της Κρουστικής Απόκρισης Χώρου και κατ επέκταση στον προσδιορισµό της Συνάρτησης Μεταφοράς Χώρου µπορούν να αποφευχθούν. 2. Υιοθέτηση αντίστοιχης µεθοδολογίας για την κατάλληλη προ-επεξεργασία (preconditioning) του σήµατος αναφοράς (ανηχωικού) για την ϐέλτιστη αναπαραγωγή του σε δεδοµένο χώρο ακρόασης. Οι εκ των προτέρων µετρήσεις των Κρουστικών Αποκρίσεων (καθώς και η αντίστοιχη χρήση µοντέλων προσοµοίωσης που αναφέρθηκαν παραπάνω) ϑα επιτρέπουν τον υπολογισµό (ή την χωρίς αναφορά εκτίµηση) του είκτη Επικάλυψης λόγω Αντήχησης, όπου µε κατάλληλες τεχνικές επεξεργασίας σήµατος ϑα προκύπτουν αντιληπτικές συναρτήσεις ϐάρους για την διαµόρφωση του σήµατος αναφοράς. Μια επιφανειακή ανάλυση που πραγµατοποιήθηκε στα πλαίσια εκπόνησης της διατριβής για την προ-επεξεργασία του σήµατος αναφοράς, χρησιµοποιώντας ουσιαστικά αντίστροφες συναρτήσεις από αυτές που περιγράφηκαν στο Κεφάλαιο 4, κατέδειξε µέσω ανεπίσηµης ελεγχόµενης ακρόασης την ενίσχυση της στερεοφωνικής εικόνας του αναπαραγόµενου σήµατος χωρίς την εισαγωγή ακουστής παραµόρφωσης (διαφανής διαδικασία ανάλυσης-σύνθεσης). Οι πρώιµες αυτές ενδείξεις καθιστούν την προτεινόµενη τεχνική αρκετά ελπιδοφόρα για την ϐελτίωση της χωρικής εικόνας του σήµατος αναπαραγωγής, την ενίσχυση της σθεναρότητας σε ϕαινόµενα αντήχησης, και επιβάλλουν την υποκειµενική αξιολόγηση της ερευνητικής αυτής προοπτικής µε πιο συστηµατικό τρόπο. 3. Οπως επισηµάνθηκε στο Κεφάλαιο 2 και κυρίως για λόγους απλοποίησης της συνολικής διαδικασίας, ο προσδιορισµός των χωρικών παραµέτρων ϐασίστηκε στις ενδό-καναλικές (inter-channel) παραµέτρους. Ενα περισσότερο ϱεαλιστικό σενάριο και απολύτως συµβατό µε τους χωρικούς αντιληπτικούς µηχανισµούς ϑα ήταν ο προσδιορισµός των αντίστοιχων ενδό-ωτικών (inter-aural) παραµέτρων µε κατάλληλες µε-

140 119 τρήσεις στις ακουστικές εισόδους µε χρήση ϐοηθητικής κεφαλής (dummy-head). Οι συγκεκριµένες µετρήσεις ϑα επέτρεπαν την άµεση σύγκριση των στατιστικών αποτελεσµάτων στις δυο σχετικές προσεγγίσεις, µε ϐάση την µεθοδολογία που αναπτύχθηκε στην παρούσα διατριβή και τον επακριβή προσδιορισµό των παραµέτρων που τις καθιστούν επαρκώς συµβατές για την ερµηνεία αντίστοιχων ϕαινοµένων που αναλύθηκαν στο παρόν κείµενο. 4. Ανεπίσηµες ελεγχόµενες ακροάσεις που πραγµατοποιήθηκαν για την υποκειµενική αξιολόγηση των αλλοιώσεων των ενδο-καναλικών παραµέτρων λόγω αντήχησης, χρησιµοποιώντας τη διαδικασία ανάλυσης-σύνθεσης που περιγράφεται στην εργασία [Faller (2006)], ανέδειξαν µια µη-αναµενόµενη σθεναρότητα των παραµέτρων αυτών ακόµα και σε περιπτώσεις χώρων µε µεγάλους χρόνους αντήχησης. Η παραπάνω ανάλυση και αξιολόγηση ϑα ήταν χρήσιµο να επεκταθεί για τις ενδο-ωτικές παραµέτρους και να ολοκληρωθεί µε τη σύγκριση των σχετικών αποτελεσµάτων. Ενδυνάµει διαφοροποιήσεις ϑα οδηγούσαν σε πιθανή ιεράρχηση, µε ϐάση την υποκειµενική ϐα- ϱύτητα, των ενδο-ωτικών παραµέτρων και ϑα καθιστούσε προσιτή την ενσωµάτωση τους σε κατάλληλο στάδιο για την προ-επεξεργασία του σήµατος, κάτι που προς το παρόν είναι ϐάσιµα εφικτό από τον είκτη Επικάλυψης λόγω Αντήχησης ( ΕΑ). 5. εδοµένου ότι, η προτεινόµενη µεθοδολογία για την συµπίεση της αντήχησης είναι εξαρτώµενη του σήµατος (signal-dependent), ϑα πρεπει να διερευνηθεί η δυνατότητα ενός ενιαίου πλαισίου εργασίας µε την συµπληρωµατική λειτουργία καθιερωµένων τεχνικών εξαρτώµενων του συστήµατος (system-dependent), όπως η Μιγαδική Εξο- µάλυνση (Complex Smoothing) [Hatziantoniou (2000)] και να εξετασθούν οι προοπτικές για την ενσωµάτωση του σε πολυκαναλικά συστήµατα αναπαραγωγής. Ενα ελκυστικό σενάριο ϑα αποσκοπούσε στην κατάλληλη διαµόρφωση του σήµατος (precondiotioning) για την αναπαραγωγή του σε πραγµατικό χρόνο, µε την ενίσχυση του απευθείας σήµατος (direct sound) και κατ επέκταση του ϕαινοµένου προπορείας (precedence effect) µέσω των τεχνικών εξαρτώµενων του συστήµατος και την αντιµετώπιση των καθυστερούµενων ανακλάσεων (late part) µε τη µεθοδολογία εξαρτώµενης του σήµατος. Κύριος στόχος του συνδυασµού των δυο προσεγγίσεων ϑα είναι η ϐελτίωση της ακουστικής εντύπωσης χωρίς την αφαίρεση όλων των στοιχείων της αντήχησης του εκάστοτε χώρου ακρόασης, τα οποία άλλωστε γίνονται αποδεκτά µε υποσυνείδητο τρόπο από τον δέκτη (ακροατής). 6. Τέλος και σχετικά µε την υπολογιστική ϐελτιστοποίηση της µεθοδολογίας εξαρτώ- µενης του σήµατος ϑα ήταν επιθυµητη η ενσωµάτωση, µε αντιληπτικά συµβατό τρόπο, τεχνικών υπο-δειγµατοληψίας (down-sampling) στις εξόδους της τράπεζας ϕίλτρων για τον περιορισµό του όγκου δεδοµένων (data reduction) που αναπόφευκτα εισάγει ηπαρούσαανάδείγµακαιανάσυχνοτικήπεριοχήανάλυση. Εν κατακλείδι, η παρούσα εργασία ανέδειξε την αναγκαιότητα ενσωµάτωσης αντιλη-

141 120 Κεφάλαιο 5 πτικών µοντέλων µέσα από την εξαρτώµενη του σήµατος προσέγγιση, για διάφορες ψηφιακές εφαρµογές ήχου και κυρίως για την περιγραφή ϕαινοµένων που έως σήµε- ϱα είχαν προσεγγισθεί µε παραδοσιακές τεχνικές ψηφιακής επεξεργασίας σήµατος. Η πλήρης κατανόηση και µοντελοποίηση των λειτουργιών του ακουστικού συστήµατος και των συναφών ϕαινοµένων καθώς και η ενσωµάτωση των αντιληπτικών µηχανισµών που επιτελούνται σε ανώτερα επίπεδα του εγκέφαλου, σε ένα ενιαίο και ευέλικτο πλαίσιο επεξεργασίας, ϑα έχει εµφανώς πολλαπλά οφέλη σε ένα ευρύ ϕάσµα ψηφιακών εφαρµογών και µε αποδεκτή τον τελικό χρήστη.

142 Παράρτηµα Α Τεχνικό Παράρτηµα Α.1 Προδιαγραφές του ϕίλτρου h[n] στο Στάδιο Συµπίεσης Εξαρτώµενης του Σήµατος και Τυπικές Τιµές των Πα- ϱαµέτρων του Υπολογιστικού Μοντέλου Ακουστικής Επικάλυψης. Ηκρουστικήαπόκρισητουϕίλτρουh norm [n] δίνεται από το άθροισµα L εκθετικών συναρτήσεων µε χρονικές σταθερές n j και συντελεστές ϐαρύτητας c j,όπωςϕαίνεται στην ακόλουθη εξίσωση : L h norm [n] = c j e n n j. (Α.1) j=1 ΗπαραπάνωµαθηµατικήπεριγραφήµπορείναυλοποιηθείµετοϹυγισµένοάθροισµα (µέσω των συντελεστών κέρδους c j ) L παράλληλων IIR ϕίλτρων πρώτης τάξης, µε συχνότητες αποκοπής f c,j,οιοποίεςδίνονταιαπότησχέση: f c,j = f s /(2πn), (Α.2) όπου f s είναι η συχνότητα δειγµατοληψίας και µε την συγκεκριµένη παράλληλη δοµή να παρέχει ικανοποιητική ευστάθεια [Oppenheim (1989)]. Το σύνολο των παραµέτρων (n j,c j και f c,j )παρουσιάζεταιστονπίνακα Α.1, ενώηκρουστικήαπόκρισητου ϕίλτρου h norm [n] και η αντίστοιχη απόκριση συχνότητας απεικονίζονται στο Σχήµα Α.1. Από το Σχήµα Α.1(b) προκύπτει οτι το ϕίλτρο h norm [n] έχει χαρακτηριστικά χαµηλοδιαβατού ϕίλτρου, ενώ η κρουστική απόκριση έχει τα χαρακτηριστικά µιας υ- περβολικής συνάρτησης, τουλάχιστον για το χρονικό διάστηµα 3ms <n/f s < 100ms. Α.2 Φίλτρα Τύπου gammatone Σε διάφορα προτεινόµενα µοντέλα ακουστικής επικάλυψης (π.χ., [Patterson (1995)]), η συχνοτική ανάλυση που επιτελείται από την ϐασική µεµβράνη, µοντελοποιείται 121

143 122 Τεχνικό Παράρτηµα Παράµετρος Περιγραφή Τιµές c j Συντελεστές ϐαρύτητας για την υλοποίηση του h norm (n) ϕίλτρου c 1 =0.227 c 2 =0.278 c 3 =0.494 n j f c,j Χρονικές σταθερές χρησιµοποιούµενες στο h norm (n) ϕίλτρο Συχνότητες αποκοπής για τα πρώτης τάξης IIR ϕίλτρα n 1 =2.5ms f s n 2 =10ms f s n 3 =75ms f s f c,1 =63.69Hz f c,2 =15.92Hz f c,3 =2.12Hz g k Συντελεστής κέρδους στο στάδιο ΣΕΣ g k =1/7 Πίνακας Α.1: Τυπικές τιµές των παραµέτρων που χρησιµοποιούνται στο ΥΜΑΕ. Σχήµα Α.1: h norm [n]. (a) Κρουστική απόκριση και (b) απόκριση συχνότητας του ϕίλτρου

144 Τεχνικό Παράρτηµα 123 µε τη χρήση τράπεζας ϕίλτρων gammatone. Οι συγκεκριµένες τράπεζες αποτελούνται από Ϲωνοδιαβατά ϕίλτρα σε ERB (Equivalent Rectangular Bandwidth [Glasberg (1990), Moore (2003)]) αποστάσεις. Κάθε ϕίλτρο χαρακτηρίζεται από τον δείκτη i µε κεντρική συχνότητα f c,ηοποίαδίνεταιαπότησχέση: f c = e0.11i (Α.3) Ηκρουστικήαπόκρισηενόςgammatoneϕίλτρουδίνεταιαπότησχέση: { A (nt ) ν 1 e 2 π b n T cos(2 π f c n T + φ), n 0 h i [n] = 0, n < 0 (Α.4) όπου ν είναι η τάξη του ϕίλτρου, b είναι παράµετρος που καθορίζει το εύρος Ϲώνης, A είναι ένας συνολικός συντελεστής κλίµακας και φ είναι η αρχική ϕάση. Ο συντελεστής κλίµακας A διαµορφώνεται έτσι ώστε να εξασφαλίσει 0 db απόκριση ϕίλτρου για f = f c,καταλήγονταςστησχέση: A = 2 (2 π b)ν. (Α.5) (ν 1)! Το 3-dB εύρος Ϲώνης B 3dB του ϕίλτρου gammatone δίνεται από την ακόλουθη σχέση [Patterson (1976)]: B 3dB =2b 2 1/ν 1, (Α.6) ενώ το ERB εύρος Ϲώνης του ϕίλτρου B ERB δίνεται από τη σχέση : B ERB = π b (2 n 2)!2 (2ν 2) (ν 1)! 2. (Α.7) Γενικά το ERB εύρος Ϲώνης των ακουστικών ϕίλτρων δίνεται από τη σχέση [Glasberg (1990), Moore (2003)]): B human =24.7( f c +1)(Hz). (Α.8) Ηπαράµετροςb υπολογίζεται έτσι ώστε να ικανοποιείται η συνθήκη : B human = B ERB, (Α.9) καταλήγοντας στη σχέση : b(f c )= 24.7( f c +1)(ν 1)! 2 π(2ν 2)!2 (2ν 2). (Α.10)

145 124 Τεχνικό Παράρτηµα Να επισηµανθεί ότι η ονοµασία των gammatone ϕίλτρων ϐασίζεται στο γεγονός ότι η περιβάλλουσα προκύπτει απο το γινόµενο των δυο εκθετικών συναρτήσεων (αποτελούν µια κατανοµή γάµµα [Kendal (1994)]) και του συνηµιτόνου (τονικό σήµα). Α.3 Συσχέτιση των Στατιστικών των ιαφορικών Παραµέτρων και των Ακουστικών Παραµέτρων Με ϐάση τη στατιστική ανάλυση που πραγµατοποιήθηκε στην Παράγραφο 3.4 και τις κατανοµές των διαφορικών παραµέτρων που απεικονίζονται στο Σχήµα 3.17, οι αντίστοιχες τιµές των στατιστικών παραµέτρων παρουσιάζονται στους Πίνακες Α.2 και Α.3. Από τους συγκεκριµένους πίνακες και τους αντίστοιχους Χρόνους Αντήχησης (sec) (ϐλ. Πίνακα 3.2), στα Σχήµατα Α.2(a) και Α.2(b) παρουσιάζεται ησχέσηανάµεσασταστατιστικάτωνδιαφορικώνπαραµέτρωνκαιτωνακουστικών ιδιοτήτων των υπό-εξέταση χώρων. Παράµετρος Dk,n c Dk,n l Dk,n t R1 R2 R3 R1 R2 R3 R1 R2 R3 µ σ Πίνακας Α.2: Μέση τιµή µ και διασπορά σ 2 των Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές παραµέτρους για ηχητικό σήµα αναφοράς «jazz» για τους χώρους R1, R2 και R3. Παράµετρος Dk,n c Dk,n l Dk,n t R1 R2 R3 R1 R2 R3 R1 R2 R3 µ σ Πίνακας Α.3: Μέση τιµή µ και διασπορά σ 2 των Συναρτήσεων Πυκνότητας Πιθανότητας για τις διαφορικές παραµέτρους για ηχητικό σήµα αναφοράς «castanets» για τους χώρους R1, R2 και R3. Οπως είναι προφανές και για τα δυο ηχητικά σήµατα αναφοράς η διασπορά των προτεινόµενων διαφορικών παραµέτρων αυξάνει ως συνάρτηση του χρόνου αντήχησης.

146 Τεχνικό Παράρτηµα 125 Σχήµα Α.2: ιασπορά των διαφορικών παραµέτρων συναρτήσει του Χρόνου Αντήχησης (sec) για (a) ηχητικό σήµα αναφοράς «jazz» και (b) «castanets». Α.4 Αλγοριθµική Παρουσίαση του Κριτηρίου Noise to Mask Ratio, (NMR) Το κριτήριο NMR έχει χρησιµοποιηθεί επιτυχώς για την εκτίµηση της ακουστότητας των παραµορφώσεων που έχουν προκύψει κατά την κωδικοποίηση ηχητικών σηµάτων [Brandenburg (1987, 1992)] και υπερέχει συγκριτικά µε παραδοσιακές µεθόδους όπως ο λόγος Σήµατος προς Θόρυβο (Signal to Noise Ratio, SNR) και η Συνολική Αρµονική Παραµόρφωση (Total Harmonic Distortion, THD) για την αξιολόγηση της ποιότητας ψηφιακών συστηµάτων [Brandenburg (1992)]. Επιπλέον, τα αποτελέσµατα που παρέχει το κριτήριο NMR παρουσιάζουν µεγάλη συσχέτιση µε τα αποτελέσµατα που προκύπτουν απο την διεξαγωγή ελεγχόµενων ακροάσεων µε τη συµµετοχή έµπειρων ακροατών [Herre (1992)]. Πρακτικά, το κριτήριο NMR υπολογίζει την απόσταση ανάµεσα στην παραµόρφωση (π.χ., ο ϑόρυβος κβαντισµού κατά την κωδικοποίηση) που έχει εισάγει µια συγκεκριµένη επεξεργασία και το υπολογισθέν κατώφλι επικάλυψης. Με ϐάση το Σχήµα 4.19 µια αναλυτική περιγραφή του NMR δίνεται στο Σχήµα Α.3, ενώµιαισοδύναµηπεριγραφήχρησιµοποιώνταςϕάσµατα ισχύος δίνεται στο Σχήµα Α.4. ΟυπολογισµόςτουNMRπροκύπτειαπότηνακόλουθηδιαδικασία: (a) Υπολογισµός του σήµατος διαφοράς e(n). Απότοσήµααναφοράςs(n) και το υπόεξέταση σήµα s t (n) και µε κατάλληλη αντιστάθµιση της χρονικής καθυστέρησης που έχει προκύψει από την εκάστοτε επεξεργασία, υπολογίζεται το σήµα διαφοράς e(n), απότησχέση: e(n) =s(n) s t (n). (Α.11)

147 126 Τεχνικό Παράρτηµα Σχήµα Α.3: Βασικό διάγραµµα για την υλοποίηση του κριτηρίου NMR [Herre (1992)]. Σχήµα Α.4: (1992)]. Υλοποίηση του κριτηρίου NMR µε ϐάση τα ϕάσµατα ισχύος [Herre

148 Τεχνικό Παράρτηµα 127 Η ανάλυση πραγµατοποιείται µε παράθυρα Hanning µήκους 1024 δειγµάτων (23ms για f s =44100Hz)και50%επικάλυψηπουπεριγράφονταιαπότησχέση: w(i) = cos(π(i 513)), i=1,, (Α.12) Σε ορισµένες περιπτώσεις η παραπάνω διαφορά υπολογίζεται στο πεδίο της συχνότητας (ϐλ. Σχήµα Α.4) µετηχρήσηfft,κυρίωςγιατηνµείωσητηςεπίδρασης του σφάλµατος ϕάσης στο σήµα διαφοράς [Brandenburg (1992)]. (b) Υπολογισµός του ϕάσµατος για τα σήµατα s(n) και e(n). Με χρήση του FFT, για κάθε 512 δείγµατα εισόδου (50% επικάλυψη) και για την ϐελτίωση της χρονικής ανάλυσης της µέτρησης, γίνεται η απεικόνιση των σηµάτων αναφοράς s(n) και e(n) στο πεδίο της συχνότητας, S(k) και E(k) αντίστοιχα. (c) Οµαδοποίηση σε κρίσιµες περιοχές. Το ϕάσµα ισχύος ανά κρίσιµη περιοχή υπολογίζεται για το σήµα διαφοράς µε ϐάση τη σχέση : E cb = l(m)+u(m) 1 k=l(m) E(k) 2, (Α.13) όπου l(m) είναι το κάτω άκρο της κρίσιµης συχνοτικής περιοχής και u(m) είναι το µέγεθος της κρίσιµης περιοχής k. Οιτιµέςτωνl(m) και u(m) για f s =44100Hz δίνονται στον Πίνακα Α.4. (d) Υπολογισµός Κατωφλίου Επικάλυψης. Με ϐάση την απεικόνιση του σήµατος εισόδου s(n) στο πεδίο συχνότητας και χρήση του ψυχοακουστικού µοντέλου που καθορίζει το πρότυπο κωδικοποίησης MPEG-1 [ISO/IEC (1993)] και λαµβάνοντας υπόψη το απόλυτο κατώφλι ακουστότητας L TQ (σε db) που ορίστηκε στο Κεφάλαιο 2, προσδιορίζεταιτοκατώφλιεπικάλυψηςm(m) ως συνάρτηση της συχνότητας (ϐλ. Σχήµα Α.5). (e) Υπολογισµός NMR.ΗτρέχουσατιµήτουNMR(NMR loc )υπολογίζεταιωςολόγοςτης µέσης ισχύς του ϕάσµατος ϑορύβου προς το κατώφλι επικάλυψης (στις αντίστοιχες κρίσιµες περιοχές) µε ϐάση την ακόλουθη σχέση : ( 1 NMR loc =10 log i=1 ) E cb (i). (Α.14) M cb (i) Για σήµα εισόδου s(n) που περιέχει N πλαίσια δειγµάτων, το συνολικό NMR,

149 128 Τεχνικό Παράρτηµα ορίζεται ως η µέση τιµή των τρεχουσών τιµών NMR loc : ( 1 NMR =10 log 10 N N i= NMR loc(i) ). (Α.15) (f) είκτης επικάλυψης (Masking flag). ΚατάτηνδιάρκειαυπολογισµούτουNMRκαι για κάθε 512 δείγµατα εισόδου ο είκτης Επικάλυψης τίθεται στην λογική τιµή 1, όταν ο ϑόρυβος ξεπεράσει το κατώφλι επικάλυψης σε µια τουλάχιστον κρίσιµη περιοχή (ακουστή παραµόρφωση). Σχήµα Α.5: Κατώφλι επικάλυψης και ϕάσµα του σήµατος εισόδου. Ενα από τα ϐασικά πλεονεκτήµατα του κριτηρίου NMR είναι η σχετικά χαµηλή πολυπλοκότητα του, παρέχοντας τη δυνατότητα υλοποίησης εφαρµογών σε πραγµατικό χρόνο [Herre (1992a, 1992b)]. Μια συσκευή καταγραφής των τιµών NMR σε πραγµατικό χρόνο, µε τη χρήση 3 επεξεργαστών AT&T DSP32C 50 MHz για σήµατα εισόδου µε συχνότητα δειγµατοληψίας 44110Hz περιγράφεται στις εργασίες [Herre (1992a, 1992b)], µε τους διαθέσιµους υπολογιστικούς πόρους να κατανέµονται για : (a) την αντιστάθµιση καθυστέρησης και του σχετικού κέρδους, (b) παραθυροποίηση και υ- λοποίηση του FFT, (c) το ψυχοακουστικό µοντέλο και υπολογισµό των τιµών NMR. εδοµένου ότι ο υπολογισµός του NMR καθώς και η χρήση του είκτη Επικάλυψης (Masking Flag), δηµιουργούν ένα σηµαντικό όγκο δεδοµένων (µια νέα τιµή για κάθε 512 δείγµατα εισόδου), διάφορες παράµετροι (post-processed) έχουν προταθεί για

150 Τεχνικό Παράρτηµα 129 την απλοποίηση της διαδικασίας αξιολόγησης [Beaton (1996)]. Οι παράµετροι αυτοί περιλαµβάνουν το συνολικό NMR (ϐλ. Εξ. Α.15), την χειρότερη (worst-case) τρέχουσα τιµή NMR (max{nmr loc }) καθώς και το ποσοστό επι τοις εκατό των µη-µηδενικών εικτών Επικάλυψης ( Ε), οι οποίες εντοπίζουν µε σχετική επιτυχία την παρουσία υ- ποκειµενικά σηµαντικών παραµορφώσεων. Για παράδειγµα, µια συνολική τιµή NMR µικρότερη ή ίση µε 10dB καθώς και ποσοστό (ή συχνότητα εµφάνισης) 3% µη- µηδενικών Ε, αντιστοιχούν σε σήµα µε µη-ακουστές παραµορφώσεις [Brandenburg (1992), Spanias (2007)] khz Μ l(m) u(m) # Hz # Hz Πίνακας Α.4: Κατώτερα όρια και εύρη των παραµέτρων l(m) και u(m) αντίστοιχα, για τις κρίσιµες περιοχές και για συχνότητα δειγµατοληψίας f s =44100Hz.

151 130 Τεχνικό Παράρτηµα Α.5 Αποτελέσµατα Ελεγχόµενων Ακροάσεων και Συσχέτιση τους µε το Κριτήριο του Λόγου Θόρυβος προς Επικάλυψη για την Αξιολόγηση της Ψηφιακής Ασύρµατης Μετάδοσης και Αναπαραγωγής Ηχητικών Σηµάτων µέσω Ασύρµατου Τοπικού ικτύου Οψηφιακόςήχοςσετυπικέςοικιακέςήεπαγγελµατικέςεφαρµογέςµπορείναδιανε- µηθεί από οποιαδήποτε πηγή σε ένα ή περισσότερους δέκτες, µέσω τοπικών δικτύων (Local Area Networks, LAN). Μια τέτοια προσέγγιση µπορεί να απλουστεύσει τη διασύνδεση και την επικοινωνία µεταξύ των ηχητικών πηγών, δεκτών και άλλων πολυ- µεσικών (multimedia) συσκευών. Μια επιπλέον ϐελτίωση είναι η χρήση ασύρµατων Ϲεύξεων (links) στα πλαίσια τέτοιων δικτύων, ώστε ο ψηφιακός ήχος να µεταδίδεται µέσω ενός ασύρµατου τοπικού δικτύου (Wireless Local Area Network, WLAN). Το πρώτο προφανές πρακτικό όφελος της χρήσης ενός WLAN είναι ότι τα καλώδια διασύνδεσης µεταξύ συσκευών και ηχείων µπορούν να εξαλειφθούν και ανάλογα από την εφαρµογή, ένας αριθµός από ασύρµατους ποµποδέκτες (Access Points, APs και Wireless Stations, STAs) µπορούν να εγκατασταθούν και ϱυθµιστούν ώστε να εξυπηρετηθεί κάθε απαίτηση για µετάδοση µέσω του αέρα. Ενα επιπλέον πλεονέκτηµα αυτής της προσέγγισης είναι ότι η ίδια υποδοµή WLAN µπορεί να χρησιµοποιηθεί και για µετάδοση δεδοµένων µεταξύ προσωπικών υπολογιστών (PC) και άλλων ψηφιακών συσκευών µε δυνατότητες δικτύωσης. Συνεπώς, τέτοια συστήµατα ϑα είναι συµβατά σε ένα µεγάλο εύρος εφαρµογών και τελικά ϑα παρουσιάσουν εξαιρετικά ευέλικτες και οικονοµικά αποδοτικές εναλλακτικές τεχνολογικές λύσεις απέναντι στη σηµερινή ακουστική αλυσίδα. Οσκοπόςτηςεργασίας[Tatlas(2007a)]είναιηεκτεταµένηανάλυσητωνϹητηµάτων που έχουν να κάνουν µε την ψηφιακή ασύρµατη µετάδοση και αναπαραγωγή ήχου µέσω WLAN, µε έµφαση σε τρεις περιοχές : (a) την επίδραση του WLAN στην συνολική ποιότητα ηχητικής αναπαραγωγής, (b) τον συγχρονισµό σε µια ϱοή (intra-stream) για αναπαραγωγή πραγµατικού χρόνου, υψηλής πιστότητας, ασυµπίεστων και συµπιεσµένων πολυκαναλικών ϱοών, µέσω WLAN πλατφόρµας και (c) τις δυνατότητες συγκάλυψης των πιθανών παραµορφώσεων που εισάγονται. Το πρωτόκολλο µετάδοσης που χρησιµοποιήθηκε είναι το ευρέως διαδεδοµένο IEEE802.11b, µε υποστήριξη QoS (Quality of Service), όπως έχει οριστεί στο τελευταίο σχέδιο προτύπου IEEE802.11e [EEE WG (2005)]. Με αυτό τον τρόπο, ηπαρούσαµελέτηδενπεριορίζεταιαπόειδικάπρωτόκολλακαιεµπορικέςυλοποιήσεις. Οι δοκιµές του συστήµατος έγιναν χρησιµοποιώντας µια ανοικτή, σθεναρή και αξιόπιστη εφαρµογή εξοµοιώσεων [Floros (2006)], χρησιµοποιώντας ένα σύνολο

152 Τεχνικό Παράρτηµα 131 µεταβλητών παραµέτρων δικτύου. Παράλληλα, αναπτύχθηκε πρωτότυπη πλατφόρ- µα που επιτρέπει την µετατροπή ϱοών γνωστών ηχητικών κωδικοποιήσεων (PCM και MPEG-1 Layer III) σε κατάλληλη µορφή για την εισαγωγή τους και εξαγωγή τους στην εφαρµογή εξοµοίωσης [Tatlas (2005)] ώστε να αξιολογηθεί η απόδοση του τελικού συστήµατος ως προς την ποιότητα αναπαραγωγής [Tatlas (2006a)]. Επιπλέον, στα πλαίσια της εργασίας εισάγεται και δοκιµάζεται πρωτότυπη τεχνική για inter-stream συγχρονισµό των διακριτών καναλιών αναπαραγωγής, που µπορεί να εφαρµοστεί µε χρήση τυπικού υλικού WLAN [Tatlas (2007a)] ενώ ένας πρωτότυπος αλγόριθµος για την συγκάλυψη των ακουστών παραµορφώσεων που εισάγονται κατά τη µετάδοση περιγράφεται στις εργασίες [Tatlas (2006b, 2007b)] (ϐλ. Παράγραφο Α.6). Στην εργασία δείχνεται ότι η χρήση QoS µε κατάλληλες παραµέτρους σε συνδυασµό µε τις αναπτυχθείσες τεχνικές συγχρονισµού και συγκάλυψης παραµορφώσεων σε επίπεδο εφαρµογής επιτρέπουν την αναπαραγωγή ήχου υψηλής πιστότητας µέσω WLAN. Για περισσότερες λεπτοµέρειες σχετικά µε την µέθοδο συγχρονισµού CoDeS (Constant Delay Synchronization, Συγχρονισµός ΣταθερήςΚαθυστέρησης),πουαντισταθ- µίζει την µεταβλητή καθυστέρηση που επιβάλλει το δίκτυο ώστε να ελαχιστοποιη- ϑούν οι ακουστές παραµορφώσεις, ο αναγνώστης παραπέµπεται στην εργασία [Tatlas (2007a)]. Για να γίνει εφικτή η αξιολόγηση της ακουστότητας των παραµορφώσεων που εισάγονται από την µετάδοση από το WLAN, και για να εκτιµηθεί η απόδοση του αλγορίθµου Συγχρονισµού Σταθερής Καθυστέρησης (Constant Delay Synchronization, CoDeS) τόσο για συµπιεσµένα όσο και για ασυµπίεστα δεδοµένα, χρησιµοποιήθηκε το κριτή- ϱιο Noise-to-Mask Ratio (NMR) [Brandenburg (1992)]. Για την εκτίµηση του NMR, χρησιµοποιήθηκε το αρχικό PCM ηχητικό κοµµάτι, πριν τη µετάδοσή ή την κωδικοποίησή του, σαν σήµα αναφοράς. Το αντικειµενικό κριτήριο για την αξιολόγηση της πιστότητας των λαµβανοµένων ηχητικών ϱοών ϐασίζεται στη συνολική (µέση) τιµή NMR που δίνεται από την Εξ. (Α.15) και για την µετάδοση N συνολικών πακέτων δεδοµένων. Επιπλέον, για την συµπληρωµατική αξιολόγηση του αλγορίθµου CoDeS, πραγµατοποιήθηκαν ελεγχόµενες ακροάσεις στον ακουστικά ϐέλτιστο χώρο του εργαστηρίου της Οµάδας Ηχου και Ακουστικής, µε τη συµµετοχή 9 έµπειρων ακροατών σε δυο διαδοχικές συνεδρίες. Σε κάθε συνεδρία, τα ίδια υπό-εξέταση ηχητικά σήµατα αναπαρήχθησαν σε τυχαία σειρά και σε δυο ϕάσεις. Στην Φάση Α παρουσιάστηκαν τα ασυµπίεστα ηχητικά σήµατα, ενώ στη Φάση Β τα ηχητικά σήµατα κωδικοποιηµένα κατά το πρότυπο MPEG-1 Layer III. Να επισηµανθεί, ότι και στις δύο περιπτώσεις, οι συµµετέχοντες ακροατές είχαν ενηµερωθεί για τη µορφή του αναπαραγόµενου ηχητικού σήµατος, έτσι ώστε να συνεκτιµήσουν πιθανές ή ενγενείς αλλοιώσεις λόγω της κωδικοποίησης. Οι ακροατές ϐαθµολόγησαν την ακουστική ποιότητα των ηχητικών

153 132 Τεχνικό Παράρτηµα σηµάτων σε µια κλίµακα από 1 µέχρι 5, όπου 1 περιγράφεται ως «Bad», 2 ως «Poor», 3ως«Fair»,4ως«Good»και5ως«Excellent»[Bech(2006)]. Τα Σχήµατα Α.6 και Α.7 δείχνουν τις συνολικές τιµές NMR που υπολογίστηκαν, ως συνάρτηση των παραµέτρων δοκιµών, για την περίπτωση ασυµπίεστου PCM σήµατος καθώς και συµπιεσµένου κατά MPEG-1 Layer III, ενώ στα Σχήµατα Α.8 και Α.9 παρουσιάζονται τα αντίστοιχα αποτελέσµατα των ελεγχόµενων ακροάσεων. Από τα Σχήµατα Α.6 και Α.7, µπορούνναεξαχθούνταπαρακάτωσυµπεράσµατα: (a) Για ασυµπίεστες ηχητικές ϱοές PCM, η επίδραση της µετάδοσης από το WLAN στις περισσότερες περιπτώσεις δεν είναι ακουστή. Παρόλα αυτά, η χρήση του SiS (Simple Scheduler) χρονοπρογραµµατιστή [Tatlas (2007a)] υπό την παρουσία παρεµβολών καναλιού, και για τις δύο περιπτώσεις µήκους πακέτου, οδηγεί σε αξιοσηµείωτη ακουστή υποβάθµιση της πιστότητας. Σχήµα Α.6: Τιµές NMR για µετάδοση PCM µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο. (b) Η υποβάθµιση αυτή µειώνεται όταν ενεργοποιείται ο αλγόριθµος CoDeS, που αντισταθµίζει µέρος των παραµορφώσεων, και µειώνει την τιµή του NMR κατά περίπου 23dB στην περίπτωση του πακέτου µήκους 294bytes και 34dB στην περίπτωση του πακέτου µήκους 882bytes. (c) Για συµπιεσµένες ηχητικές ϱοές, είναι ξεκάθαρο ότι το συστηµατικό σφάλµα στις µετρήσεις NMR οφείλεται στις ενδογενείς παραµορφώσειςλόγωτηςαπωλεστικής συµπίεσης. Παρόλα αυτά, είναι ξεκάθαρο ότι εισάγεται σηµαντική επιπλέον α- κουστή παραµόρφωση από το ασύρµατο δίκτυο, για όλες τις περιπτώσεις όπου

154 Τεχνικό Παράρτηµα 133 Σχήµα Α.7: Τιµές NMR για µετάδοση MPEG-1 Layer III µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο. χρησιµοποιείται ο SiS χρονοπρογραµµατιστής, ειδικά όταν υπάρχει ηλεκτροµαγνητικός ϑόρυβος στο κανάλι µετάδοσης. (d) Για ϱυθµό κωδικοποίησης 256kbps, και ακόµα και στην περίπτωση καναλιού µετάδοσης απαλλαγµένου σχεδόν από παρεµβολές, η χρήση του SiS εισάγει ση- µαντικές ακουστές παραµορφώσεις, που και πάλι µειώνονται µε τη χρήση του αλγορίθµου CoDeS. Στις περιπτώσεις αυτές, η χρήση του εύρους Ϲώνης δεν είναι ϐέλτιστη, λόγω του χρησιµοποιούµενου µήκους πακέτου, ίσου µε το µήκος πλαισίου κατά MPEG-1 Layer III. (e) Στο Σχήµα Α.7(b), οιτιµέςnmrγιατρειςαπότιςυπό-εξέτασηπεριπτώσεις(π.χ., ϱυθµό παροχής δεδοµένων 160kbps) είναι περίπου 10dB, πουπρακτικάανα- ϕέρεται σε σήµατα µε µη-ακουστές παραµορφώσεις. Ωστόσο, στο Σχήµα Α.9(b) και για τις παραπάνω περιπτώσεις η ακουστική ποιότητα έχει ϐαθµολογηθεί κάτω από 3 «(fair»). Οπως είναι εµφανές, πλήρης συµφωνία ανάµεσα στις υποκειµενικές και αντικειµενικές µεθόδους αξιολόγησης ηχητικών δεδοµένων είναι δύσκολο να επιτευχθεί και κατ επέκταση στιγµιαίες ακουστές παραµορφώσεις ωθούν τους συµµετέχοντες ακροατές στην ϐαθµολόγηση του συνολικού ηχητικού σήµατος ως «fair» (3) ή «poor» (2). Με ϐάση την παραπάνω προσέγγιση είναι πιθανή µια αποκλίνουσα (στατιστικά) ϐαθµολόγηση, ως χαµηλής ακουστικής ποιότητας ηχητικό σήµα, ακόµα και για υψηλούς ϱυθµούς παροχής δεδοµένων. (f) Η χρήση του αλγοριθµου CoDeS για συµπιεσµένες ϱοές (MPEG-1 Layer III), ο- δηγεί σε ϐελτίωση της αντίληψης πιστότητας κατά 7dB. Συγκεκριµένα, οι πα-

155 134 Τεχνικό Παράρτηµα ϱαµορφώσεις για τον SiS χρονοπρογραµµατιστή, υπό την παρουσία παρεµβολών καναλιού αντισταθµίζεται και για τους δύο ϱυθµούς κωδικοποίησης που εξεταστήκαν, 160 και 256kbps. (g) Η προσαρµοστική ϕύση του χρονοπρογραµµατιστή SETT-EDD (Scheduling based on Estimated Transmission Times-Earliest Due Date) [Tatlas (2007a)] οδηγεί σε συνολικά καλύτερη απόδοση, σε σύγκριση µε τον SiS, υπό όλες τις παραµετρους που εξετάστηκαν, καθώς και τα χρησιµοποιούµενα αρχεία ήχου για µετάδοση. (h) Οπως είναι εµφανές τα αποτελέσµατα των ελεγχόµενων ακροάσεων είναι σε γενική συµφωνία µε τις τιµές του κριτηρίου NMR. Από τα παραπάνω αποτελέσµατα είναι ξεκάθαρο ότι το ασύρµατο κανάλι µετάδοσης έχει σηµαντική επίδραση στην αντίληψη της πιστότητας αναπαραγωγής. Από πλευράς του δικτύου όµως, η επιλογή του χρονοπρογραµµατιστή αποτελεί κρίσιµη απόφαση, αφού µπορεί να καταστήσει διαφανή για την εφαρµογή την παρουσία παρεµβολών στο κανάλι µετάδοσης. Επιπλέον, είναι προφανές ότι ο αλγόριθµος CoDeS που αναπτύχτηκε στα πλαίσια της εργασίας [Tatlas (2007a)] ϐελτιώνει σηµαντικά την ποιότητα αναπαραγωγής σε συµπιεσµένα και σε ασυµπίεστα ηχητικά δείγµατα, για την περίπτωση ασύρµατης σύνδεσης υπό την παρουσία παρεµβολών. Σχήµα Α.8: Αποτελέσµατα ελεγχόµενων ακροάσεων για µετάδοση PCM µέσω WLAN: (a) CoDeS απενεργοποιηµένο, (b) CoDeS ενεργοποιηµένο.

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου Δρ. Νικόλαος- Αλέξανδρος Τάτλας Τμήμα Ηλεκτρονικών

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio ΚΩΔΙΚΟΠΟΙΗΣΗ ΚΑΙ ΣΥΜΠΙΕΣΗ ΗΧΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΤΟ ΠΡΟΤΥΠΟ ISO/IEC 11172-3 MPEG-1 Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα:

Διαβάστε περισσότερα

Εξάλειψη αντήχησης από ηχητικά σήματα με υποκειμενικά / ψυχοακουστικά κριτήρια

Εξάλειψη αντήχησης από ηχητικά σήματα με υποκειμενικά / ψυχοακουστικά κριτήρια Εξάλειψη αντήχησης από ηχητικά σήματα με υποκειμενικά / ψυχοακουστικά κριτήρια Θωμάς Ζαρούχας Διπλ. Ηλ/γος Μηχανικός thozar@wcl.ee.upatras.gr Παναγιώτης Χατζηαντωνίου Δρ. Ηλ/γος Μηχανικός hagianto@wcl.ee.upatras.gr

Διαβάστε περισσότερα

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη. Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Συµπίεση Ήχου Μέθοδοι συµπίεσης ηχητικών σηµάτων DPCM Συµπίεση σηµάτων οµιλίας Κωδικοποίηση µε βάση την αντίληψη Χαρακτηριστικά και εφαρµογές Ψυχοακουστική (psychoacoustics)

Διαβάστε περισσότερα

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΕΡΓΑΣΤΗΡΙΟ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής

Διαβάστε περισσότερα

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004 Ενδιάµεση Εξέταση: Οκτώβριος 4 ΜΕΡΟΣ Β: ΑΣΚΗΣΕΙΣ Άσκηση (25 µονάδες): Μια εικόνα αποχρώσεων του γκρι και διαστάσεων 25 x pixel έχει κωδικοποιηθεί κατά PCM µε βάθος χρώµατος 3 bits /pixel. Οι τιµές φωτεινότητας

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής 15/3/9 Από το προηγούμενο μάθημα... Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Δάλ Διάλεξη 3 η : «Επεξεργαστές Ε ξ έ Δυναμικής Περιοχής» Φλώρος

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 12: Συμπίεση Ψηφιακού Ήχου Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG Κωδικοποίηση ήχου Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG Τεχνολογία Πολυµέσων και Πολυµεσικές Επικοινωνίες 10-1 Κωδικοποίηση καναλιού φωνής

Διαβάστε περισσότερα

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III ΒΕΣ 4 Συµπίεση και Μετάδοση Πολυµέσων Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης layer I, layer II, layer III Εισαγωγή Υπάρχουν πολλοί αλγόριθµοι κωδικοποίησης µε βάση την αντίληψη οι κυριότεροι

Διαβάστε περισσότερα

ΚΑΝΟΝΙΣΜΟΣ ΕΚΠΟΝΗΣΗΣ ΕΡΓΑΣΙΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ «ΕΠΕΞΕΡΓΑΣΙΑ ΨΗΦΙΑΚΟΥ ΣΗΜΑΤΟΣ ΚΑΙ ΣΧΕΔΙΑΣΜΟΣ ΥΛΙΚΟΥ»

ΚΑΝΟΝΙΣΜΟΣ ΕΚΠΟΝΗΣΗΣ ΕΡΓΑΣΙΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ «ΕΠΕΞΕΡΓΑΣΙΑ ΨΗΦΙΑΚΟΥ ΣΗΜΑΤΟΣ ΚΑΙ ΣΧΕΔΙΑΣΜΟΣ ΥΛΙΚΟΥ» Πρόγραμμα Μεταπτυχιακών Σπουδών «Τεχνολογίες και Συστήματα Ευρυζωνικών Εφαρμογών και Υπηρεσιών» ΚΑΝΟΝΙΣΜΟΣ ΕΚΠΟΝΗΣΗΣ ΕΡΓΑΣΙΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ «ΕΠΕΞΕΡΓΑΣΙΑ ΨΗΦΙΑΚΟΥ ΣΗΜΑΤΟΣ ΚΑΙ ΣΧΕΔΙΑΣΜΟΣ ΥΛΙΚΟΥ» Ακαδημαϊκό

Διαβάστε περισσότερα

ΙΕΜΑ Κύκλος διαλέξεων μουσικής ακουστικής

ΙΕΜΑ Κύκλος διαλέξεων μουσικής ακουστικής ΙΕΜΑ Κύκλος διαλέξεων μουσικής ακουστικής Αντίληψη του ήχου στον χώρο- Αμφιωτική ακουστική Φλώρος Ανδρέας Επίκουρος Καθηγητής Πώς αντιλαμβανόμαστε τον ήχο ως δέκτες; Πώς αντιλαμβανόμαστε τον ήχο στο χώρο;

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

1/3/2009. Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν με τον «αναλογικό» ανθρώπινο κόσμο. Φλώρος Ανδρέας Επίκ. Καθηγητής.

1/3/2009. Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν με τον «αναλογικό» ανθρώπινο κόσμο. Φλώρος Ανδρέας Επίκ. Καθηγητής. Από το προηγούμενο μάθημα... Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Δάλ Διάλεξη 2 η : «Βασικές Β έ αρχές ψηφιακού ήχου» Φλώρος Ανδρέας Επίκ. Καθηγητής Τα ψηφιακά ηχητικά συστήματα πρέπει να επικοινωνήσουν

Διαβάστε περισσότερα

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ & ΤΕΧΝΟΛΟΓΙΑ ΗΧΟΥ εισαγωγή

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ & ΤΕΧΝΟΛΟΓΙΑ ΗΧΟΥ εισαγωγή ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ & ΤΕΧΝΟΛΟΓΙΑ ΗΧΟΥ εισαγωγή ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΟΜΑΔΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΑΚΟΥΣΤΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ

Διαβάστε περισσότερα

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου Από το προηγούμενο μάθημα... Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Δάλ Διάλεξη 4 η : «Επεξεργαστές Ε ξ έ Δυναμικής Περιοχής (Mέρος έ ΙΙ)» Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ Εργαστήριο Ηλεκτρακουστικής Ι Άσκηση 1 - Σελίδα 1 ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ 1. ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ/ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ Αρχικά, για την καλύτερη κατανόηση

Διαβάστε περισσότερα

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων ΓΤΠ 61 Ηλεκτρονικοί Υπολογιστές στις Γραφικές Τέχνες Πολυµέσα και Συµπίεση εδοµένων Εισαγωγή Βασικές Έννοιες Ταξινόµηση Τεχνικών Συµπίεσης Συµπίεση Κειµένου Συµπίεση Εικόνας Συµπίεση Ήχου Συµπίεση Video

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ Ακαδηµαϊκό Έτος 007-008 ιδάσκων: Ν. Παπανδρέου (Π.. 407/80) Πανεπιστήµιο Πατρών Τµήµα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής 1η Εργαστηριακή Άσκηση Αναγνώριση

Διαβάστε περισσότερα

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΕΙΤΑΙ Ο ΗΧΟΣ ΗΧΗΤΙΚΗ ΕΠΕΝΔΥΣΗ ΕΦΑΡΜΟΓΩΝ ΠΟΛΥΜΕΣΩΝ ΗΧΟΙ ΠΕΡΙΕΧΟΜΕΝΟΥ Αφήγηση Μαρτυρία Εκφώνηση Μουσική ΗΧΟΙ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΗΧΟΙ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 4: ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ Θεωρητικές Ασκήσεις (# ): ειγµατοληψία, κβαντοποίηση και συµπίεση σηµάτων. Στην τηλεφωνία θεωρείται ότι το ουσιαστικό περιεχόµενο της

Διαβάστε περισσότερα

HMY 220: Σήματα και Συστήματα Ι

HMY 220: Σήματα και Συστήματα Ι HMY 220: Σήματα και Συστήματα Ι Διδάσκων: Γεώργιος Μήτσης, Λέκτορας, Τμήμα ΗΜΜΥ Γραφείο: 401 Πράσινο Άλσος Ώρες γραφείου: Οποτεδήποτε (κατόπιν επικοινωνίας) Ηλ. Ταχ.: : gmitsis@ucy.ac.cy Ιωάννης Τζιώρτζης

Διαβάστε περισσότερα

Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων

Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων ΒΕΣ 6: Προσαρµοστικά Συστήµατα στις Τηλεπικοινωνίες ΒΕΣ 6 Προσαρµοστικά Συστήµατα στις Τηλεπικοινωνίες Εφαρµογές Προσαρµοστικών Συστηµάτων: Καταστολή ηχούς, Ισοστάθµιση καναλιού και ανίχνευση συµβόλων

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 7: Μετατροπή Σήματος από Αναλογική Μορφή σε Ψηφιακή Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετατροπή Αναλογικού Σήματος σε Ψηφιακό Είδη Δειγματοληψίας: Ιδανική

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

H Επίδραση της Μιγαδικής Φασµατικής Εξοµάλυνσης στις Αποκρίσεις Ακουστικών Χώρων

H Επίδραση της Μιγαδικής Φασµατικής Εξοµάλυνσης στις Αποκρίσεις Ακουστικών Χώρων Ακουστική AcP8 H Επίδραση της Μιγαδικής Φασµατικής Εξοµάλυνσης στις Αποκρίσεις Ακουστικών Χώρων Παναγιώτης. Χατζηαντωνίου Ιωάννης Ν. Μουρτζόπουλος ιπλ. Μηχ/κός Η/Υ & Πληρ/κής Αναπληρωτής Καθηγητής hagianto@wcl.ee.upatras.gr

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 6 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 6 ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΓΚΑΤΑΣΤΑΣΗΣ

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 6 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 6 ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΓΚΑΤΑΣΤΑΣΗΣ Εργαστήριο Ηλεκτρoακουστικής Άσκηση 6 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 6 1. ΕΙΣΑΓΩΓΗ ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΓΚΑΤΑΣΤΑΣΗΣ Στην άσκηση αυτή θα πρέπει να υλοποιήσετε ηλεκτροακουστική

Διαβάστε περισσότερα

Μελέτη και Ανάπτυξη Λογισµικού για την Εξοµοίωση Κλειστού Χώρου

Μελέτη και Ανάπτυξη Λογισµικού για την Εξοµοίωση Κλειστού Χώρου Ακουστική 2002 AcP030 Μελέτη και Ανάπτυξη Λογισµικού για την Εξοµοίωση Κλειστού Χώρου Φλώρος Ανδρέας Τάτλας Νικ.-Αλέξ. αµαλού Κέλλυ ρ. Ηλ. Μηχανικός 1 ιπλ. Ηλ. Μηχανικός 1 ιπλ. Ηλ. Μηχανικός 2 floros@wcl.ee.upatras.gr

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

Δρ. Φώτης Κοντομίχος Δρ. Θωμάς Ζαρούχας Δρ. Παναγιώτης Χατζηαντωνίου

Δρ. Φώτης Κοντομίχος Δρ. Θωμάς Ζαρούχας Δρ. Παναγιώτης Χατζηαντωνίου Ακουστική Χώρου Δρ. Φώτης Κοντομίχος Δρ. Θωμάς Ζαρούχας Δρ. Παναγιώτης Χατζηαντωνίου Βασικές Αρχές και Σύγχρονες Εξελίξεις στην Κτιριακή Ακουστική Το έργο υλοποιείται στο πλαίσιο του υποέργου 2 με τίτλο

Διαβάστε περισσότερα

Κεφάλαιο 4 Συμπίεση Ήχου

Κεφάλαιο 4 Συμπίεση Ήχου Κεφάλαιο 4 Συμπίεση Ήχου Σύνοψη Στο κεφάλαιο αυτό θα εξετάσουμε τα θέματα που αφορούν τη συμπίεση και την κωδικοποίηση του ήχου. Το σήμα του ήχου αποτελεί ένα απαραίτητο τμήμα του τηλεοπτικού σήματος.

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Εφαρµογές της Ψηφιακής Επεξεργασίας Σηµάτων Ακουστικά Σήµατα ü Αναγνώριση, Ανάλυση, Σύνθεση,

Διαβάστε περισσότερα

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ Τηλεπικοινωνίες Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ, 2007 ΘΡ. ΤΣΙΑΤΣΟΣ

ΣΥΣΤΗΜΑΤΑ ΠΟΛΥΜΕΣΩΝ, 2007 ΘΡ. ΤΣΙΑΤΣΟΣ Ψηφιακός Ήχος Ενότητες Η φυσική του ήχου Ψηφιοποίηση & κωδικοποίηση ψηφιακού ήχου Αρχή ηχητικής σκίασης Απωλεστική συµπίεση ψηφιακού ήχου & το πρότυπο mp3 Ιστορικά στοιχεία για το mp3 & άλλα πρότυπα Ήχος

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 1 «Ποσοτική εκτίμηση ελαχίστου κατωφλίου ακουστότητας» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός

Διαβάστε περισσότερα

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΑΚΟΥΣΤΙΚΗ ΚΑΛΥΨΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΟΜΑΔΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΑΚΟΥΣΤΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ 9. ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΑΚΟΥΣΤΙΚΗ ΚΑΛΥΨΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ 9. ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΑΚΟΥΣΤΙΚΗ ΚΑΛΥΨΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ 9. ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΑΚΟΥΣΤΙΚΗ ΚΑΛΥΨΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΟΜΑΔΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΑΚΟΥΣΤΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

28/4/2015. Papadakis Nikos 1. Ακουστική Μεγάλων Χώρων. Ακουστική Μικρών Κλειστών Χώρων. Ακουστική Συναυλιακών Χώρων και Επίδραση στην Ακοή

28/4/2015. Papadakis Nikos 1. Ακουστική Μεγάλων Χώρων. Ακουστική Μικρών Κλειστών Χώρων. Ακουστική Συναυλιακών Χώρων και Επίδραση στην Ακοή Βασικές έννοιες Ακουστική Η ακουστική (acoustics) είναι ο κλάδος της φυσικής που μελετά τις ιδιότητες και τη συμπεριφορά του ήχου. Κλάδοι Ακουστικής: Ακουστική Συναυλιακών Χώρων και Επίδραση στην Ακοή

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 3 «Ποσοτική εκτίμηση σφάλματος απωλεστικής συμπίεσης ηχητικών δεδομένων» Διδάσκων: Φλώρος Ανδρέας

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση Μετάδοση πληροφορίας - Διαμόρφωση MYE006: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διάρθρωση μαθήματος Μετάδοση Βασικές έννοιες Διαμόρφωση ορισμός είδη

Διαβάστε περισσότερα

Συστήματα Επικοινωνιών ΙI

Συστήματα Επικοινωνιών ΙI + Διδάσκων: Δρ. Κ. Δεμέστιχας e-mail: cdemestichas@uowm.gr Συστήματα Επικοινωνιών ΙI Διαφορική Παλμοκωδική Διαμόρφωση + Ιστοσελίδα nιστοσελίδα του μαθήματος: n https://eclass.uowm.gr/courses/icte302/ +

Διαβάστε περισσότερα

Περιεχόµενα διαλέξεων 2ης εβδοµάδας

Περιεχόµενα διαλέξεων 2ης εβδοµάδας Εισαγωγή οµή και πόροι τηλεπικοινωνιακού συστήµατος Σήµατα Περιεχόµενα διαλέξεων 1ης εβδοµάδας Εισαγωγή Η έννοια της επικοινωνιας Ιστορική αναδροµή οµή και πόροι τηλεπικοινωνιακού συστήµατος οµή τηλεπικοινωνιακού

Διαβάστε περισσότερα

Σύστημα ψηφιακής επεξεργασίας ακουστικών σημάτων με χρήση προγραμματιζόμενων διατάξεων πυλών. Πτυχιακή Εργασία. Φοιτητής: ΤΣΟΥΛΑΣ ΧΡΗΣΤΟΣ

Σύστημα ψηφιακής επεξεργασίας ακουστικών σημάτων με χρήση προγραμματιζόμενων διατάξεων πυλών. Πτυχιακή Εργασία. Φοιτητής: ΤΣΟΥΛΑΣ ΧΡΗΣΤΟΣ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε. Σύστημα ψηφιακής επεξεργασίας ακουστικών σημάτων με χρήση προγραμματιζόμενων διατάξεων πυλών. Πτυχιακή Εργασία Φοιτητής:

Διαβάστε περισσότερα

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Laplace Μετασχηµατισµός Z Εφαρµογές Παράδειγµα ενός ηλεκτρικού συστήµατος Σύστηµα Παράδειγµα

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 1 «Ποσοτική εκτίμηση ελαχίστου κατωφλίου ακουστότητας» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 12: Δειγματοληψία και ανακατασκευή (IV) Παρεμβολή (Interpolation) Γενικά υπάρχουν πολλοί τρόποι παρεμβολής, π.χ. κυβική παρεμβολή (cubic spline

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μετάδοση πληροφορίας - Διαμόρφωση MYE006-ΠΛΕ065: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου Διάρθρωση μαθήματος Βασικές έννοιες μετάδοσης Διαμόρφωση ορισμός

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ 1.1 Πίνακες, κατανομές, ιστογράμματα... 1 1.2 Πυκνότητα πιθανότητας, καμπύλη συχνοτήτων... 5 1.3

Διαβάστε περισσότερα

Σεραφείµ Καραµπογιάς ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ

Σεραφείµ Καραµπογιάς ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Laplace Μετασχηµατισµός z Εφαρµογές 1. ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΣΤΑ ΣΗΜΑΤΑ Γενική εικόνα τι

Διαβάστε περισσότερα

Στο Κεφάλαιο 9 παρουσιάζεται μια εισαγωγή στις ψηφιακές ζωνοπερατές επικοινωνίες.

Στο Κεφάλαιο 9 παρουσιάζεται μια εισαγωγή στις ψηφιακές ζωνοπερατές επικοινωνίες. προλογοσ Σ αυτή την έκδοση του βιβλίου «Συστήματα επικοινωνίας» έχουν γίνει κάποιες βασικές αναθεωρήσεις στη διάταξη και το περιεχόμενό του, όπως συνοψίζονται παρακάτω: 1. Έχει δοθεί έμφαση στις αναλογικές

Διαβάστε περισσότερα

Keywords λέξεις κλειδιά:

Keywords λέξεις κλειδιά: ΑΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΕΠΙΣΤΗΜΩΝ Τμήμα Μηχανικών Μουσικής Τεχνολογίας & Ακουστικής ''Κοχλιακά εμφυτεύματα: προσομοίωση της ακοής μέσω εφαρμογής και απεικόνιση της διασποράς ηλεκτρικού πεδίου με

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

ΑΔΑΜΑΝΤΙΑ Κ. ΣΠΑΝΑΚΑ Σύντομες Προδιαγραφές Συγγραφής Εκπαιδευτικού Υλικού εξ αποστάσεως εκπαίδευσης: Σημεία Προσοχής ΠΛΣ

ΑΔΑΜΑΝΤΙΑ Κ. ΣΠΑΝΑΚΑ Σύντομες Προδιαγραφές Συγγραφής Εκπαιδευτικού Υλικού εξ αποστάσεως εκπαίδευσης: Σημεία Προσοχής ΠΛΣ ΑΔΑΜΑΝΤΙΑ Κ. ΣΠΑΝΑΚΑ Σύντομες Προδιαγραφές Συγγραφής Εκπαιδευτικού Υλικού εξ αποστάσεως εκπαίδευσης: Σημεία Προσοχής ΠΛΣ Πρόκληση ο σχεδιασμός κι η ανάπτυξη εξ αποστάσεως εκπαιδευτικού υλικού. Ζητούμενο

Διαβάστε περισσότερα

Μέτρηση του χρόνου αντήχησης

Μέτρηση του χρόνου αντήχησης Μέτρηση του χρόνου αντήχησης Ουσιαστικά, αν μετρήσω την κρουστική απόκριση του χώρου, μπορώ να υπολογίσω το χρόνο αντήχησης White noise, sweep, MLS sequence Μέθοδος του μηδενισμού της πηγής Μέθοδος της

Διαβάστε περισσότερα

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM) Παλμοκωδική Διαμόρφωση Pulse Code Modulation (PCM) Pulse-code modulation (PCM) Η PCM είναι ένας στοιχειώδης τρόπος διαμόρφωσης που δεν χρησιμοποιεί φέρον! Το μεταδιδόμενο (διαμορφωμένο) σήμα PCM είναι

Διαβάστε περισσότερα

Φλώρος Ανδρέας. Επίκ. Καθηγητής

Φλώρος Ανδρέας. Επίκ. Καθηγητής Μάθημα: «Ηλεκτροακουστική & Ακουστική Χώρων» Διάλεξη 7 η : «Ακουστική Χώρων» Φλώρος Ανδρέας Επίκ. Καθηγητής Αλυσίδα ηχητικής αναπαραγωγής Ψ/Α Ακροατής Προενισχυτής Ενισχυτής Χώρος Ο χώρος είναι σημαντικό

Διαβάστε περισσότερα

Ακουστική)και)Ψυχοακουστική

Ακουστική)και)Ψυχοακουστική Από)το)προηγούμενο)μάθημα... Ακουστική)και)Ψυχοακουστική Κάθε)ηχητικό)σύστημα)μπορεί)να)περιγραφεί)ως)διαδοχή)επιμέρους " Ακουστικών)υποσυστημάτων " Ηλεκτρικών)υποσυστημάτων " Ηλεκτροακουστικών)υποσυστημάτων)

Διαβάστε περισσότερα

Ψηφιακός ήχος και κινούμενα γραφικά

Ψηφιακός ήχος και κινούμενα γραφικά ΕΣΔ200 Δημιουργία Περιεχομένου ΙI Ψηφιακός ήχος και κινούμενα γραφικά Εισαγωγή Το παρακάτω σχήμα περιγράφει τους δυνατούς τρόπους δημιουργίας αποθήκευσης και. αναπαραγωγής ψηφιακού ήχου Ο Ήχος από φυσική

Διαβάστε περισσότερα

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Περιγραφή πληροφορίας. Η πληροφορία περιγράφεται σαν μία ή περισσότερες χρονικές ή χωρικές μεταβλητές. Μετατρέπει την φυσική ποσότητα σε ηλεκτρικό σήμα To σήμα αναπαριστά το

Διαβάστε περισσότερα

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ ΟΜΑΔΑ ΤΕΧΝΟΛΟΓΙΑΣ ΗΧΟΥ & ΑΚΟΥΣΤΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ

Διαβάστε περισσότερα

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. 1 Εισαγωγή Αναλογικό σήμα (analog signal): συνεχής συνάρτηση στην οποία η ανεξάρτητη μεταβλητή και η εξαρτημένη μεταβλητή (π.χ.

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Διαδικασία Ψηφιοποίησης (1/2)

Διαδικασία Ψηφιοποίησης (1/2) Διαδικασία Ψηφιοποίησης (1/2) Η διαδικασία ψηφιοποίησης περιλαμβάνει: Φιλτράρισμα και δειγματοληψία Κβαντισμό και κωδικοποίηση Φιλτράρισμα και δειγματοληψία Κβαντισμός και κωδικοποίηση Κβαντισμός Τα αναλογικά

Διαβάστε περισσότερα

Εισαγωγή στα Προσαρµοστικά Συστήµατα

Εισαγωγή στα Προσαρµοστικά Συστήµατα ΒΕΣ 06 Προσαρµοστικά Συστήµατα στις Τηλεπικοινωνίες Εισαγωγή στα Προσαρµοστικά Συστήµατα Νικόλας Τσαπατσούλης Επίκουρος Καθηγητής Π..407/80 Τµήµα Επιστήµη και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου

Διαβάστε περισσότερα

Ειδικά Θέματα Ακουστικού Σχεδιασμού και Πολυμέσων

Ειδικά Θέματα Ακουστικού Σχεδιασμού και Πολυμέσων Ειδικά Θέματα Ακουστικού Σχεδιασμού και Πολυμέσων ΤΟΜΟΣ Β Δρ. Θωμάς Ζαρούχας Δρ. Παναγιώτης Χατζηαντωνίου Δρ. Αλέξανδρος Τσιλφίδης Πολυμεσικές Εφαρμογές Ήχου Το έργο υλοποιείται στο πλαίσιο του υποέργου

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 3 ο : Πολυπλεξία με διαίρεση

Διαβάστε περισσότερα

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΒΕΣ 6: ΠΡΟΣΑΡΜΟΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ Ακαδηµαϊκό Έτος 26 27, Εαρινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΕΠΑΝΑΛΗΨΗ Το

Διαβάστε περισσότερα

Ακουστική Κλειστών Χώρων

Ακουστική Κλειστών Χώρων Ακουστική Κλειστών Χώρων Παναγιώτης Χατζηαντωνίου Καθηγητής Δ.Ε. Πληροφορικός PhD Ψηφιακής Τεχνολογίας Ήχου Τοπικό Θεµατικό Δίκτυο Περιβαλλοντικής Εκπαίδευσης Ν. Αχαΐας «Ακουστική και Ιστορική Ξενάγηση

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #3: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 10 Οκτωβρίου 005 Επανάλειψη (1) ειγµατοληψία επανα-δειγµατοληψία Τεχνικές φίλτρων (συνέλειξη)

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Δρ. Στέλιος Τιμοθέου ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ ΜΑΣ ΣΗΜΕΡΑ Αναλογικά και ψηφιακά συστήματα Μετατροπή

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 4 «Εντοπισμός ηχητικών πηγών στο χώρο» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός & Τεχνολογίας

Διαβάστε περισσότερα

Διακριτές ανακλάσεις = συμβολή κυμάτων

Διακριτές ανακλάσεις = συμβολή κυμάτων Ανάκλαση Διακριτές ανακλάσεις = συμβολή κυμάτων Διαφορετικές διαδρομές = Χρονική διαφορά άφιξης του ήχου Οι συντεταγμένες (x,y) μιας σημειακής πηγής και ενός σημειακού δέκτη είναι (5,2) m και (3,1) m αντίστοιχα.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Κ 17 Επικοινωνίες ΙΙ Χειμερινό Εξάμηνο Διάλεξη 9 η Νικόλαος Χ. Σαγιάς Επίκουρος Καθηγητής Webpage: http://eclass.uop.gr/courses/tst215

Διαβάστε περισσότερα

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM) Παλμοκωδική Διαμόρφωση Pulse Code Modulation (PCM) Pulse-code modulation (PCM) Η PCM είναι ένας στοιχειώδης τρόπος διαμόρφωσης που δεν χρησιμοποιεί φέρον! Το μεταδιδόμενο (διαμορφωμένο) σήμα PCM είναι

Διαβάστε περισσότερα

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 5 : Θόρυβος Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Είδη θορύβου Περιγραφή θορύβου Θεώρημα Shannon Hartley Απόδοση ισχύος και εύρους

Διαβάστε περισσότερα

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ

Κεφάλαιο 3 ο : ΕΙΣΑΓΩΓΗ στις ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ. ΗΛΕΚΤΡΟΜΑΓΝΗΤΙΚΟ ΚΥΜΑ και ΤΕΧΝΙΚΕΣ ΙΑΜΟΡΦΩΣΗΣ Μάθηµα 1ο Θέµα Εισαγωγή στις τηλεπικοινωνίες 1. Τι ορίζουµε µε τον όρο τηλεπικοινωνία; 2. Ποιες οι βασικότερες ανταλλασσόµενες πληροφορίες, ανάλογα µε τη φύση και το χαρακτήρα τους; 3. Τι αποκαλούµε ποµπό

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

Λογισμικό και Μέθοδοι για Ακουστικό Σχεδιασμό

Λογισμικό και Μέθοδοι για Ακουστικό Σχεδιασμό Το έργο υλοποιείται στο πλαίσιο του υποέργου 2 με τίτλο «Ανάπτυξη έντυπου εκπαιδευτικού υλικού για τα νέα Προγράμματα Σπουδών» της Πράξης «Ελληνικό Ανοικτό Πανεπιστήμιο», η οποία έχει ενταχθεί στο Επιχειρησιακό

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 5 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

Εργαστήριο 3: Διαλείψεις

Εργαστήριο 3: Διαλείψεις Εργαστήριο 3: Διαλείψεις Διάλειψη (fading) είναι η παραμόρφωση ενός διαμορφωμένου σήματος λόγω της μετάδοσης του σε ασύρματο περιβάλλον. Η προσομοίωση μίας τέτοιας μετάδοσης γίνεται με την μοντελοποίηση

Διαβάστε περισσότερα

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδηµαϊκό Έτος , Χειµερινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ, ΤΜΗΜΑ Ι ΑΚΤΙΚΗΣ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΨΣ 50: ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ Ακαδηµαϊκό Έτος 005 006, Χειµερινό Εξάµηνο Καθ.: Νίκος Τσαπατσούλης ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ Η εξέταση

Διαβάστε περισσότερα

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής.

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής. Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Διάλεξη 6 η : «Επεξεργαστές με Μνήμη (Mέρος ΙI)» Φλώρος Ανδρέας Επίκ. Καθηγητής Από προηγούμενο μάθημα... Αναπαράσταση καθυστέρησης ενός δείγματος η περίοδος δειγματοληψίας

Διαβάστε περισσότερα

18/3/2009. Ορισμός ευαισθησίας μικροφώνων. Ορισμός στάθμης ευαισθησίας μικροφώνων. Φλώρος Ανδρέας Επίκ. Καθηγητής

18/3/2009. Ορισμός ευαισθησίας μικροφώνων. Ορισμός στάθμης ευαισθησίας μικροφώνων. Φλώρος Ανδρέας Επίκ. Καθηγητής Επανάληψη: Ευαισθησία μικροφώνων Ορισμός ευαισθησίας μικροφώνων Μάθημα: «Ηλεκτροακουστική & Ακουστική Χώρων» Διάλεξη 4 η :«Μικρόφωνα Τρόποι χρήσης» Φλώρος Ανδρέας Επίκ. Καθηγητής Ορισμός στάθμης ευαισθησίας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Πάτρα 2005 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εργαστήριο Επεξεργασίας Σηµάτων Τηλεπικοινωνιών & ικτύων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Πάτρα 2005 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εργαστήριο Επεξεργασίας Σηµάτων Τηλεπικοινωνιών & ικτύων 2.5 0.5 0-0.5 - -.5-2 0 50 00 50 200 250 300 350 400 450 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Πάτρα 2005 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εργαστήριο Επεξεργασίας Σηµάτων Τηλεπικοινωνιών & ικτύων ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18 ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18 14 Νοεµβρίου, 2006 Γεώργιος Έλληνας Επίκουρος Καθηγητής ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Τι είναι σήμα; Παραδείγματα: Σήμα ομιλίας. Σήμα εικόνας. Σεισμικά σήματα. Ιατρικά σήματα

Τι είναι σήμα; Παραδείγματα: Σήμα ομιλίας. Σήμα εικόνας. Σεισμικά σήματα. Ιατρικά σήματα Τι είναι σήμα; Σεραφείμ Καραμπογιάς Ως σήμα ορίζεται ένα φυσικό μέγεθος το οποίο μεταβάλλεται σε σχέση με το χρόνο ή το χώρο ή με οποιαδήποτε άλλη ανεξάρτητη μεταβλητή ή μεταβλητές. Παραδείγματα: Σήμα

Διαβάστε περισσότερα

Μετρήσεις και Ανάλυση της Ακουστικής του Θεάτρου της Επιδαύρου

Μετρήσεις και Ανάλυση της Ακουστικής του Θεάτρου της Επιδαύρου Μετρήσεις και Ανάλυση της Ακουστικής του Θεάτρου της Επιδαύρου Σταµάτης Βασιλαντωνόπουλος 1 Λέκτορας, vasilan@mech.upatras.gr Παναγιώτης Χατζηαντωνίου 1 Ερευνητής, ηµήτρης Σκαρλάτος 2, Λέκτορας, skarlat@mech.upatras.gr

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΥΣΗΣ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ ΜΑΘΗΜΑ: ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 4 AΣΚΗΣΗ () [ ] (.5)

Διαβάστε περισσότερα

Ευαισθησία πειράµατος (Signal to noise ratio = S/N) ιάρκεια πειράµατος (signal averaging)) ιάρκεια 1,38 1,11 0,28 5,55. (h) πειράµατος.

Ευαισθησία πειράµατος (Signal to noise ratio = S/N) ιάρκεια πειράµατος (signal averaging)) ιάρκεια 1,38 1,11 0,28 5,55. (h) πειράµατος. Γιατί NMR µε παλµούς; Ευαισθησία πειράµατος (Signal to noise ratio = S/N) ιάρκεια πειράµατος (signal averaging)) Πυρήνας Φυσική αφθονία (%) ν (Hz) Ταχύτητα σάρωσης (Hz/s) Αριθµός σαρώσεων 1 Η 99,985 1000

Διαβάστε περισσότερα

Φυσική για Μηχανικούς

Φυσική για Μηχανικούς Φυσική για Μηχανικούς Ηχητικά Κύματα Εικόνα: Τα αυτιά του ανθρώπου έχουν εξελιχθεί να ακούν και να ερμηνεύουν ηχητικά κύματα ως φωνή ή ως ήχους. Κάποια ζώα, όπως το είδος αλεπούς με τα αυτιά νυχτερίδας,

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα