Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Σχετικά έγγραφα
Ψηφιακή Επεξεργασία Σηµμάτων

ΙΕΜΑ Κύκλος διαλέξεων μουσικής ακουστικής

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ & ΤΕΧΝΟΛΟΓΙΑ ΗΧΟΥ εισαγωγή

25/3/2009. Η επεξεργασία του ψηφιακού σήματος υλοποιείται μέσω κατάλληλου αλγορίθμου. Φλώρος Ανδρέας Επίκ. Καθηγητής Παράμετροι ελέγχου

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Ψηφιακή Επεξεργασία Σηµμάτων

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ 9. ΗΧΗΤΙΚΕΣ ΕΓΚΑΤΑΣΤΑΣΕΙΣ ΑΚΟΥΣΤΙΚΗ ΚΑΛΥΨΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

Ραδιοτηλεοπτικά Συστήματα Ενότητα 3: Θεωρία Ψηφιοποίησης

Ψηφιακός ήχος και κινούμενα γραφικά

Μάθημα: Τεχνολογία Ήχου

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

Σήματα και Συστήματα. Διάλεξη 10: Γραμμικά Φίλτρα. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 6 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 6 ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΓΚΑΤΑΣΤΑΣΗΣ

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5γ. Σημειώσεις μαθήματος: E mail:

Μάθημα: Ακουστική και Ψυχοακουστική

Τι είναι σήμα; Παραδείγματα: Σήμα ομιλίας. Σήμα εικόνας. Σεισμικά σήματα. Ιατρικά σήματα

Δήμητρα Ζαρμπούτη ΕΔΙΠ Ακ. Ετος:

Μάθημα: Τεχνολογία Ήχου

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Ο Μετασχηματισμός Ζ. Ανάλυση συστημάτων με το μετασχηματισμό Ζ

ΕΝΟΤΗΤΑ 12: ΑΠΟΚΡΙΣΗ ΣΥΧΝΟΤΗΤΑΣ ΔΙΑΓΡΑΜΜΑΤΑ BODE

Φυσική για Μηχανικούς

ΕΣΔ 200: ΔΗΜΙΟΥΡΓΙΑ ΠΕΡΙΕΧΟΜΕΝΟΥ ΙΙ. Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΗΛΕΚΤΡΟΝΙΚΗ Ι ΔΙΑΓΡΑΜΜΑΤΑ BODE ΣΥΜΠΛΗΡΩΜΑΤΙΚΟ ΤΕΥΧΟΣ ΣΗΜΕΙΩΣΕΩΝ

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Μάθημα: Τεχνολογία Ήχου

Εισαγωγή στις Τηλεπικοινωνίες / Εργαστήριο

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System)

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Μάθημα: Τεχνολογία Ήχου

Επεξεργασία Στοχαστικών Σημάτων

Μέτρηση του χρόνου αντήχησης

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Συμπίεση Δεδομένων

Άσκηση 3 Υπολογισμός του μέτρου της ταχύτητας και της επιτάχυνσης

ΑΣΚΗΣΕΙΣ ΚΥΜΑΤΙΚΗΣ ΟΠΤΙΚΗΣ

Ειδικά Θέματα Ηλεκτρονικών 1

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

1) Να σχεδιαστούν στο matlab οι γραφικές παραστάσεις των παρακάτω ακολουθιών στο διάστημα, χρησιμοποιώντας τις συναρτήσεις delta και step.

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΑΣΚΗΣΕΙΣ ΕΡΓΑΣΤΗΡΙΑΚΗΣ ΗΛΕΚΤΡΟΝΙΚΗΣ

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Ψηφιακή Επεξεργασία Σημάτων

Επικοινωνίες I FM ΔΙΑΜΟΡΦΩΣΗ. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών

ΑΠΟΚΡΙΣΗ ΣΥΣΤΗΜΑΤΩΝ ΣΤΟ ΠΕΔΙΟ ΤΟΥ ΧΡΟΝΟΥ ΚΑΙ ΤΩΝ ΣΥΧΝΟΤΗΤΩΝ

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail:

Εισαγωγή στις Τηλεπικοινωνίες

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

AKOH HXOΣ. ένταση. τόνος. Χροιά : πολυπλοκότητα ηχητικών κυµάτων.

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ ΑΣΚΗΣΗ 5

Εργαστήριο 3: Διαλείψεις

Ψηφιακή Επεξεργασία Σημάτων

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Φυσική για Μηχανικούς

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Δ Ι Α Γ Ω Ν Ι Σ Μ Α Φ Υ Σ Ι Κ Η Σ Θ Ε Τ Ι Κ Ω Ν Σ Π Ο Υ Δ Ω Ν Γ Λ Υ Κ Ε Ι Ο Υ 05/1 / Ε Π Ω Ν Υ Μ Ο :...

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 5 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 5 ΥΠΟΛΟΓΙΣΤΙΚΗ ΠΡΟΣΟΜΟΙΩΣΗ ΤΗΣ ΑΚΟΥΣΤΙΚΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΚΛΕΙΣΤΩΝ ΧΩΡΩΝ

18/3/2009. Ορισμός ευαισθησίας μικροφώνων. Ορισμός στάθμης ευαισθησίας μικροφώνων. Φλώρος Ανδρέας Επίκ. Καθηγητής

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Public Address (PA) Ενίσχυση Συναυλιών. Κύκλος Διαλέξεων Ηλεκτρακουστικής 20/2/2012. Δευτέρα, 20 Φεβρουαρίου 12

Εισαγωγή στους Ταλαντωτές Οι ταλαντωτές είναι από τα βασικότερα κυκλώματα στα ηλεκτρονικά. Χρησιμοποιούνται κατά κόρον στα τηλεπικοινωνιακά συστήματα

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

2.1. Τρέχοντα Κύματα.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧ/ΚΩΝ ΚΑΙ ΜΗΧ. ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΕΠΙΚΟΙΝΩΝΙΩΝ, ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Μάθημα: Ακουστική και Ψυχοακουστική

Φυσική για Μηχανικούς

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής.

Τι είναι σήµα; Ωςσήµαορίζεταιέναφυσικόµέγεθοςτοοποίοµεταβάλλεταισεσχέσηµετοχρόνοή το χώρο ή µε οποιαδήποτε άλλη ανεξάρτητη µεταβλητή ή µεταβλητές.

10-Μαρτ-2009 ΗΜΥ Παραθύρωση Ψηφιακά φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ

Φυσική για Μηχανικούς

ΔΕΙΓΜΑ ΠΡΙΝ ΤΙΣ ΔΙΟΡΘΩΣΕΙΣ - ΕΚΔΟΣΕΙΣ ΚΡΙΤΙΚΗ

Δομικά Υλικά Μάθημα ΙΙΙ. Ηχος & Ηχητικά Φαινόμενα

Στοιχεία επεξεργασίας σημάτων

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

«Επικοινωνίες δεδομένων»

2.1 Τρέχοντα Κύματα. Ομάδα Δ.

Ψηφιακή Επεξεργασία Σημάτων

ΦΥΣΙΚΗ Γ ΓΥΜΝΑΣΙΟΥ - ΘΕΩΡΙΑ - ΤΥΠΟΛΟΓΙΟ

7. Μικρόφωνα ΗΧΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι

Επεξεργαςία πειραματικών δεδομζνων

1. Η συχνότητα αρμονικού κύματος είναι f = 0,5 Hz ενώ η ταχύτητα διάδοσης του υ = 2 m / s.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΚΟΥΣΤΙΚΕΣ ΣΤΑΘΜΕΣ, ΜΕΤΡΗΣΕΙΣ, ΘΟΡΥΒΟΣ, ΗΧΟΜΟΝΩΣΗ ΓΙΑΝΝΗΣ ΜΟΥΡΤΖΟΠΟΥΛΟΣ ΚΑΘΗΓΗΤΗΣ

ΠΛΗ 22: Βασικά Ζητήματα Δίκτυα Η/Υ

Keywords λέξεις κλειδιά:

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Τερπίνα Στέργιου Αριθμός Μητρώου: 7933 Θέμα «Μοντελοποίηση ακουστικής αντίληψης» Εφαρμογή αντιληπτικών μοντέλων στην αξιολόγηση της χωρικής απόκρισης ηχητικών συστημάτων Επιβλέπων Καθηγητής Ιωάννης Μουρτζόπουλος Αριθμός Διπλωματικής Εργασίας: Πάτρα, Ιούλιος 2017

ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα «Μοντελοποίηση ακουστικής αντίληψης» Του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Τερπίνα Στέργιου Αριθμός Μητρώου: 7933 Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις.../../ Ο Επιβλέπων Ο Διευθυντής του Τομέα Καθηγητής Ιωάννης Μουρτζόπουλος Καθηγητής Νικόλαος Φακωτάκης

Αριθμός Διπλωματικής Εργασίας: Θέμα: «Μοντελοποίηση ακουστικής αντίληψης» Φοιτητής: Τερπίνας Στέργιος Επιβλέπων: καθηγητής Ιωάννης Μουρτζόπουλος Περίληψη Η παρούσα εργασία μελετά υλοποιήσεις αντιληπτικών μοντέλων ακοής σε περιβάλλον MATLAB, καθώς και την εφαρμογή τους στην αξιολόγηση της χωρικής απόκρισης ηχητικών συστημάτων. Αυτά επιτυγχάνονται με την προσομοίωση διαφορετικών χώρων, διατάξεων συστημάτων αναπαραγωγής και σημάτων διέγερσης και τον υπολογισμό της διαφορετικής πρόσληψης της ηχητικής σκηνής από τον ακροατή σε κάθε ένα από τα διαφορετικά αυτά περιβάλλοντα. Αποτέλεσμα της διαδικασίας αυτής είναι γραφικές αναπαραστάσεις, με τη μορφή χρωματικών χαρτών, των βέλτιστων χώρων ακρόασης σε οποιεσδήποτε συνθήκες. Τέλος προτείνεται μια μετρική, άμεσα υπολογίσιμη από τα δεδομένα των χρωματικών χαρτών, η οποία μπορεί να αξιολογήσει διατάξεις χώρων - ηχητικών συστημάτων με μια απλή μέθοδο βαθμολόγησης.

Ευχαριστίες Ολοκληρώνοντας την εκπόνηση αυτής της διπλωματικής εργασίας, θα ήθελα να ευχαριστήσω τον καθηγητή μου Ι. Μουρτζόπουλο για την καθοδήγησή και συμπαράστασή του σε αυτή. Με βοήθησε να αγαπήσω το αντικείμενο της ακουστικής και του ήχου αλλά και να μάθω να το αντιμετωπίζω και να το μελετώ με επιστημονική ακρίβεια και σοβαρότητα. Θα ήθελα ακόμα να ευχαριστήσω ιδιαίτερα τον Γ. Καμάρη για την αμέριστη βοήθειά και συνεισφορά του σε όλα τα θεωρητικά και πρακτικά ζητήματα που προέκυψαν και έπαιξαν καθοριστικό ρόλο στην επιτυχή ολοκλήρωση της εργασίας αυτής. Ευχαριστώ ακόμα τους Φ. Κοντομίχο, Χ. Παπαδάκο και Κ. Καλέρη και συνολικά την ομάδα του εργαστηρίου για την βοήθειά τους σε κάθε μου ερώτηση και απορία και το υπέροχο, φιλικό και συνεργατικό κλίμα που με έκανε πάντα να νιώθω τμήμα ενός συνόλου. Τέλος θέλω να ευχαριστήσω την οικογένειά μου, τους φίλους και όσους με υποστήριξαν, και συνεχίζουν να με υποστηρίζουν, με κάθε τρόπο και σε κάθε βήμα. Τίποτα από αυτά δε θα ήταν εφικτό χωρίς αυτούς.

Περιεχόμενα Ευχαριστίες... 7 Περιεχόμενα... 9 Παραπομπές σχημάτων... 11 Παραπομπές πινάκων... 12 English summary Αγγλική περίληψη... 13 1. Εισαγωγή... 15 1.1. Γενικά... 15 1.2. Στόχος της εργασίας... 15 2. Θεωρία... 16 2.1. Ανθρώπινο σύστημα ακοής... 16 2.1.1. Ανατομία... 16 2.1.2. Εντοπισμός πηγής ηχητικού ερεθίσματος... 17 2.2. Ειδικά θέματα επεξεργασίας σήματος... 19 2.2.1. Ετεροσυσχέτιση (Cross Correlation)... 19 2.2.2. Head Related Impulse Response (HRIR)... 19 3. Υλοποίηση 1 η... 20 3.1. Γενικά... 20 3.2. Κεντρική δομή... 20 3.2.1. Λειτουργία θέσης (Position mode)... 21 3.2.2. Λειτουργία δωματίου (Room Mode)... 28 3.2.3. Αρχεία... 30 3.2.4. Γραφική διεπαφή χρήστη (GUI Graphic User Interface)... 30 4. Υλοποίηση 2 η... 33 4.1. Γενικά... 33 4.2. Κεντρική δομή... 33 4.2.1. Εξαγωγή γωνιών έλευσης... 35 4.2.2. Εφαρμογή μάσκας... 42 4.3. Αρχεία... 43 5. Αποτελέσματα... 45 5.1. 1 η υλοποίηση... 45 5.1.1. Position mode... 45

5.1.2. Room mode... 45 5.2. 2 η υλοποίηση... 47 5.2.1. Λεπτομέρειες πειραματικών διαδικασιών... 47 5.2.2. Αποτελέσματα... 50 5.2.3. Επεξεργασία των αποτελεσμάτων... 52 6. Συμπεράσματα... 55 6.1. Γενικά... 55 6.2. Αξιολόγηση αποτελεσμάτων... 55 6.3. Προβλήματα κατά την υλοποίηση... 55 6.4. Μελλοντικά ανοιχτά ζητήματα... 56 7. Βιβλιογραφία... 57 8. Παράρτημα... 59 8.1. 1 η υλοποίηση... 59 8.2. 2 η υλοποίηση... 65

Παραπομπές σχημάτων ΣΧΗΜΑ 2-1- ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΑΝΑΤΟΜΙΑΣ ΤΟΥ ΑΝΘΡΩΠΙΝΟΥ ΑΥΤΙΟΥ ΟΠΟΥ ΦΑΙΝΟΝΤΑΙ ΤΑ ΒΑΣΙΚΑ ΤΟΥ ΜΕΡΗ... 16 ΣΧΗΜΑ 2-2 - ΣΧΗΜΑΤΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ ΔΙΑΦΟΡΕΤΙΚΩΝ ΔΙΑΔΡΟΜΩΝ ΠΟΥ ΔΙΑΝΥΕΙ Ο ΗΧΟΣ ΤΗΣ ΠΗΓΗΣ ΓΙΑ ΝΑ ΦΤΑΣΕΙ ΣΤΑ ΔΥΟ ΑΥΤΙΑ... 18 ΣΧΗΜΑ 3-1 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΚΕΝΤΡΙΚΗΣ ΔΟΜΗΣ ΤΟΥ GUI ΤΗΣ ΥΛΟΠΟΙΗΣΗΣ... 20 ΣΧΗΜΑ 3-2 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΘΕΣΗΣ... 21 ΣΧΗΜΑ 3-3 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΟΥ ΠΛΗΡΟΥΣ ΑΝΤΙΛΗΠΤΙΚΟΥ ΜΟΝΤΕΛΟΥ... 22 ΣΧΗΜΑ 3-4 ΣΧΗΜΑΤΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΟΥ ΥΠΟΛΟΓΙΣΜΟΥ ΤΗΣ ΣΧΕΤΙΚΗΣ ΘΕΣΗΣ ΤΟΥ ΑΚΡΟΑΤΗ ΚΑΙ ΤΟΥ i ΗΧΕΙΟΥ... 23 ΣΧΗΜΑ 3-5 ΕΔΩ ΦΑΙΝΟΝΤΑΙ ΟΙ 4 ΚΡΟΥΣΤΙΚΕΣ ΑΠΟΚΡΙΣΕΙΣ HRTF ΠΟΥ ΧΡΕΙΑΖΕΤΑΙ ΝΑ ΣΥΝΥΠΟΛΟΓΙΣΤΟΥΝ ΩΣΤΕ ΝΑ ΠΡΟΚΥΨΟΥΝ ΤΑ ΣΗΜΑΤΑ ΠΟΥ ΚΑΤΑΛΗΓΟΥΝ ΣΤΟΝ ΑΚΡΟΑΤΗ... 24 ΣΧΗΜΑ 3-6 ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΩΝ ΣΗΜΑΤΩΝ ΜΕΣΩ ΤΩΝ ΣΥΝΑΡΤΗΣΕΩΝ HRTF... 24 ΣΧΗΜΑ 3-7 BODE ΔΙΑΓΡΑΜΜΑ ΤΗΣ GAMMATONE ΤΡΑΠΕΖΑΣ ΦΙΛΤΡΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ ΣΤΗΝ ΥΛΟΠΟΙΗΣΗ... 25 ΣΧΗΜΑ 3-8 ΑΠΟΚΡΙΣΗ ΠΛΑΤΟΥΣ-ΣΥΧΝΟΤΗΤΑΣ ΤΟΥ ΚΑΤΩΔΙΑΒΑΤΟΥ ΦΙΛΤΡΟΥ BUTTERWORTH 5 ΗΣ ΤΑΞΗΣ ΜΕ ΣΥΧΝΟΤΗΤΑ ΑΠΟΚΟΠΗΣ ΣΤΑ 1000 HZ.... 26 ΣΧΗΜΑ 3-9 ΑΠΕΙΚΟΝΙΣΗ ΤΟΥ ΔΙΑΦΟΡΕΤΙΚΟΥ ΑΠΟΤΕΛΕΣΜΑΤΟΣ ΠΟΥ ΠΡΟΚΥΠΤΕΙ ΓΙΑ ΣΗΜΑΤΑ ΔΙΑΦΟΡΕΤΙΚΗΣ ΣΥΧΝΟΤΗΤΑΣ. ΜΕ ΜΠΛΕ ΧΡΩΜΑ ΕΜΦΑΝΙΖΕΤΑΙ ΤΟ ΑΡΧΙΚΟ ΣΗΜΑ ΕΝΩ ΜΕ ΕΝΤΟΝΟ ΜΑΥΡΟ ΤΟ ΦΙΛΤΡΑΡΙΣΜΕΝΟ. Α. ΗΜΙΤΟΝΟ 250 HZ. ΤΟ ΚΑΤΩΔΙΑΒΑΤΟ ΦΙΛΤΡΟ ΔΕΙΧΝΕΙ ΝΑ ΜΗΝ ΤΟ ΕΠΗΡΕΑΖΕΙ ΣΤΗΝ ΛΕΠΤΟΜΕΡΕΙΑΚΗ ΔΟΜΗ ΤΟΥ. Β. ΗΜΙΤΟΝΟ 600 HZ. ΑΡΧΙΖΕΙ ΝΑ ΜΕΙΩΝΕΤΑΙ ΤΟ ΠΛΑΤΟΣ ΤΟΥ ΗΜΙΤΟΝΟΕΙΔΟΥΣ ΣΗΜΑΤΟΣ ΚΑΙ ΝΑ ΥΠΕΡΙΣΧΥΕΙ Η ΠΕΡΙΒΑΛΛΟΥΣΑ. Γ. ΗΜΙΤΟΝΟ 1000 HZ. ΕΜΦΑΝΙΖΕΤΑΙ ΜΟΝΟ ΕΝΑΣ ΜΙΚΡΟΣ ΚΥΜΑΤΙΣΜΟΣ. Δ. ΗΜΙΤΟΝΟ 2000 HZ. ΥΠΑΡΧΕΙ ΜΟΝΟ Η ΠΕΡΙΒΑΛΛΟΥΣΑ ΑΠΟ ΤΟ ΑΡΧΙΚΟ ΣΗΜΑ.... 27 ΣΧΗΜΑ 3-10 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΔΩΜΑΤΙΟΥ.... 29 ΣΧΗΜΑ 3-11 ΧΡΩΜΑΤΙΚΟΣ ΧΑΡΤΗΣ ΤΗΣ ΚΑΤΑΝΟΜΗΣ ΤΟΥ ITD ΣΤΟ ΧΩΡΟ ΓΙΑ ΤΗΝ ΠΕΡΙΟΧΗ ΤΩΝ 250 HZ... 29 ΣΧΗΜΑ 3-12 GUI ΑΡΧΙΚΟΥ ΠΑΡΑΘΥΡΟΥ ΔΙΑΛΟΓΟΥ... 30 ΣΧΗΜΑ 3-13 ΠΑΡΑΘΥΡΟ ΛΕΙΤΟΥΡΓΙΑΣ ΘΕΣΗΣ. ΓΙΑ ΕΠΕΞΗΓΗΣΗ ΒΛ. ΕΝΟΤΗΤΑ 3.2.4.2... 31 ΣΧΗΜΑ 3-14 ΠΑΡΑΘΥΡΟ ΛΕΙΤΟΥΡΓΙΑΣ ΔΩΜΑΤΙΟΥ. ΓΙΑ ΕΠΕΞΗΓΗΣΗ ΒΛ. ΕΝΟΤΗΤΑ 3.2.4.3... 32 ΣΧΗΜΑ 4-1 Η ΓΩΝΙΑ ΑΠΟΚΛΙΣΗΣ Θ ΑΠΟΚ ΩΣ Η ΔΙΑΦΟΡΑ ΤΗΣ ΥΠΟΛΟΓΙΣΜΕΝΗΣ ΔΙΕΥΘΥΝΣΗΣ ΕΛΕΥΣΗΣ, ΟΠΩΣ ΤΗΝ ΑΝΤΙΛΑΜΒΑΝΕΤΑΙ Ο ΑΚΡΟΑΤΗΣ (ΣΥΝΕΧΗΣ ΓΡΑΜΜΗ), ΚΑΙ ΤΗΣ ΙΔΑΝΙΚΗΣ ΔΙΕΥΘΥΝΣΗΣ ΕΛΕΥΣΗΣ, ΩΣ ΕΥΘΕΙΑΣ ΑΚΡΟΑΤΗ- ΕΙΔΩΛΟΥ (ΔΙΑΚΕΚΟΜΜΕΝΗ ΓΡΑΜΜΗ).... 33 ΣΧΗΜΑ 4-2 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΚΕΝΤΡΙΚΗΣ ΔΟΜΗΣ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ.... 34 ΣΧΗΜΑ 4-3 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΕΠΑΝΑΛΗΠΤΙΚΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΤΟΥ ΥΠΟΛΟΓΙΣΜΟΥ ΓΩΝΙΩΝ ΕΛΕΥΣΗΣ... 35 ΣΧΗΜΑ 4-4 ΔΙΑΓΡΑΜΜΑ ΡΟΗ ΤΟΥ ΥΠΟΛΟΓΙΣΜΟΥ ΤΩΝ ΣΗΜΑΤΩΝ ΠΟΥ ΚΑΤΑΛΗΓΟΥΝ ΣΤΟΝ ΑΚΡΟΑΤΗ... 37 ΣΧΗΜΑ 4-5 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΟΥ ΑΝΤΙΛΗΠΤΙΚΟΥ ΜΟΝΤΕΛΟΥ DIETZ.... 38 ΣΧΗΜΑ 4-6 ΕΔΩ ΑΠΕΙΚΟΝΙΖΕΤΑΙ Η ΣΥΜΠΤΩΣΗ ΤΙΜΩΝ ΤΟΥ IPD ΓΙΑ ΣΥΓΚΕΚΡΙΜΕΝΕΣ ΓΩΝΙΕΣ ΚΑΙ Η ΕΠΙΛΥΣΗ ΤΟΥ ΖΗΤΗΜΑΤΟΣ ΜΕ ΧΡΗΣΗ ΤΟΥ ΠΡΟΣΗΜΟΥ ΤΟΥ ILD.... 41 ΣΧΗΜΑ 4-7 ΔΙΑΓΡΑΜΜΑ ΡΟΗΣ ΤΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΕΦΑΡΜΟΓΗΣ ΜΑΣΚΑΣ... 42 ΣΧΗΜΑ 5-1 ΕΝΔΕΙΚΤΙΚΟ ΠΑΡΑΔΕΙΓΜΑ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΘΕΣΗΣ ΤΗΣ ΠΡΩΤΗΣ ΥΛΟΠΟΙΗΣΗΣ... 45 ΣΧΗΜΑ 5-2 ΕΝΔΕΙΚΤΙΚΟ ΠΑΡΑΔΕΙΓΜΑ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΔΩΜΑΤΙΟΥ ΤΗΣ ΠΡΩΤΗΣ ΥΛΟΠΟΙΗΣΗΣ... 46 ΣΧΗΜΑ 5-3 - ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ (Α) ΣΤΕΡΕΟΦΩΝΙΚΗΣ ΚΑΙ (Β) ΠΕΝΤΑΚΑΝΑΛΗΣ (SURROUND) ΔΙΑΤΑΞΗΣ... 48 ΣΧΗΜΑ 5-4 ΑΠΕΙΚΟΝΙΣΗ ΠΡΟΣΟΜΟΙΩΣΗΣ ΤΩΝ ΠΕΙΡΑΜΑΤΙΚΩΝ ΧΩΡΩΝ... 49 ΣΧΗΜΑ 5-5 ΑΠΕΙΚΟΝΙΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΣΕ ΡΑΒΔΟΓΡΑΜΜΑ. ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΑΔΟΠΟΙΟΥΝΤΑΙ ΑΝΑ ΚΑΤΗΓΟΡΙΑ ΣΗΜΑΤΟΣ ΔΙΕΓΕΡΣΗΣ.... 52

Παραπομπές πινάκων ΠΙΝΑΚΑΣ 4-1 ΒΑΣΙΚΕΣ ΠΑΡΑΜΕΤΡΟΙ ΟΡΙΖΟΜΕΝΕΣ ΑΠΟ ΤΟΝ ΧΡΗΣΤΗ... 33 ΠΙΝΑΚΑΣ 5-1 ΟΙ ΣΥΝΘΗΚΕΣ ΠΟΥ ΕΞΕΤΑΣΤΗΚΑΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΩΝ ΠΕΙΡΑΜΑΤΩΝ... 48 ΠΙΝΑΚΑΣ 5-2 ΤΑ ΣΗΜΑΤΑ ΔΙΕΓΕΡΣΗΣ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ... 48 ΠΙΝΑΚΑΣ 5-3 ΟΙ ΧΡΩΜΑΤΙΚΟΙ ΧΑΡΤΕΣ ΠΟΥ ΠΡΟΕΚΥΨΑΝ ΩΣ ΑΠΟΤΕΛΕΣΜΑ ΓΙΑ ΚΑΘΕ ΣΥΝΔΥΑΣΜΟ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΤΑΞΗΣ ΚΑΙ ΣΗΜΑΤΟΣ ΔΙΕΓΕΡΣΗΣ.... 50 ΠΙΝΑΚΑΣ 5-4 ΤΟ ΜΕΓΕΘΟΣ SSA ΟΠΩΣ ΠΡΟΕΚΥΨΕ ΓΙΑ ΚΑΘΕ ΑΠΟΤΕΛΕΣΜΑ ΤΟΥ ΠΙΝΑΚΑ 5-3.... 51

English summary Αγγλική περίληψη In this thesis, we study the implementation of perceptual hearing models in MATLAB environment and their application in the evaluation of spatial response of sound systems. These are achieved by simulating different rooms, reproduction systems and stimulation signals and calculating the different reception of the sound scene by the listener in each of these different environments. This process results in graphical representations, in the form of color maps, of the sweet-spot areas. Finally, a metric is proposed that can be easily calculated from the color map data and can evaluate room - sound system layouts with a simple scoring method.

1. Εισαγωγή 1.1. Γενικά Το αμφιωτικό σύστημα ακοής, δηλαδή αυτό που βασίζεται στη πρόσληψη του ηχητικού ερεθίσματος με δύο δέκτες αυτιά, είναι τεράστιας σημασίας για την επιβίωση και την κοινωνική ζωή όλων των ζώων, και φυσικά και του ανθρώπου. Ο εγκέφαλος προσλαμβάνει κάθε στιγμή δύο σήματα ελαφρώς διαφορετικά, λόγω της διαφορετικής θέσης των αυτιών. Κάνοντας συγκρίσεις μεταξύ αυτών των σημάτων μπορεί λοιπόν να εξάγει συμπεράσματα για την ηχητική σκηνή όπως π.χ. να εντοπίσει την ή τις ηχητικές πηγές, να αποκτήσει καλύτερη ευκρίνεια και καταληπτότητα, οπότε να αξιολογήσει καλύτερα τα ηχητικά δεδομένα ή να επικοινωνήσει με μεγαλύτερη ευκολία κάτω από πιο δύσκολες συνθήκες, κ.α.. Η αμφιωτική ακοή άρχισε να μελετάται από τους επιστήμονες του ήχου σχετικά πρόσφατα, τυπικά μετά τις μελέτες του Rayleigh το 1907 για τη δυαδική θεωρία του εντοπισμού ηχητικών πηγών. Ειδικότερα η σύγχρονη εποχή της αμφιωτικής μοντελοποίησης τυπικά ξεκινά με τις προτάσεις του Jeffress to 1948. O Jeffress πρότεινε τότε την ύπαρξη ενός νευρικού μηχανισμού συμπτώσεων που χρησιμοποιείται για να υπολογίζει τις χρονικές διαφορές μεταξύ δύο σημάτων που φτάνουν στα αυτιά ενός ακροατή. Έκτοτε, πολλές είναι οι θεωρίες που έχουν διατυπωθεί και πολλά τα μοντέλα που έχουν προταθεί σχετικά με τον ακριβή τρόπο λειτουργίας του αμφιωτικού τρόπου ακοής του ανθρώπου αλλά και άλλων ζώων. Σήμερα πλέον, η μελέτη αυτής της περιοχής της επιστήμης, που έχει σχέση με την φυσική του ήχου, με την επεξεργασία σήματος αλλά ακόμα και με τον κλάδο της ανατομίας και της φυσιολογίας, αποκτά σημασία λόγω του μεγάλου εύρους των πρακτικών εφαρμογών που βρίσκει. Από την ιατρική τεχνολογία, μέσω των ηχητικών βοηθημάτων που υπόσχονται να αποκαταστήσουν προβλήματα ακοής και να αναβαθμίσουν το επίπεδο ζωής σε πολύ μεγάλο αριθμό ατόμων, μέχρι τις νέες τεχνικές αναπαραγωγής μουσικής και ήχου για ταινίες και παιχνίδια (3D audio, binaural audio, etc.) που θα εξασφαλίσουν ανεπανάληπτες δυνατότητες στον τομέα της διασκέδασης και της καλλιτεχνικής δημιουργίας στο άμεσο μέλλον. 1.2. Στόχος της εργασίας Σκοπός αυτής της εργασίας είναι η μελέτη των βασικών στοιχείων ενός μοντέλου αμφιωτικής ακοής μέσω της υλοποίησης του σε περιβάλλον και κώδικα MATLAB. Στη συνέχεια θα επιχειρηθεί πρακτική εφαρμογή αυτού του μοντέλου σε μοντελοποίηση δωματίου με ηχητικό σύστημα αναπαραγωγής, για τον εντοπισμό των πραγματικών γωνιών έλευσης, όπως αυτές θα γίνονταν αντιληπτές από ακροατή σε διάφορες θέσεις του χώρου αυτού. Οι γωνίες έλευσης θα χρησιμοποιηθούν για την μελέτη του βέλτιστου χώρου ακρόασης μέσα στο δωμάτιο, και κατά συνέπεια, μέσω της σύγκρισης διαφορετικών πειραματικών διατάξεων, στην αξιολόγηση αυτών και τη μελέτη της συνεισφοράς παραμέτρων των ηχείων και της ακουστικής των χώρων στην απεικόνιση της ηχητικής σκηνής. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 15

2. Θεωρία Στο παρών κεφάλαιο θα γίνει μια προσπάθεια συλλογής όλου του απαραίτητου θεωρητικού υποβάθρου που κρίνεται απαραίτητο ώστε να γίνουν απόλυτα κατανοητές οι διαδικασίες υλοποίησης που ακολουθούν στα επόμενα κεφάλαια. 2.1. Ανθρώπινο σύστημα ακοής 2.1.1. Ανατομία Το ανθρώπινο αυτί, όπως φαίνεται στο Σχήμα 2-1, αποτελείται από τρία τμήματα, το έξω το μέσο και το έσω ούς [1], [2]. Τα ηχητικά κύματα φτάνουν στον λοβό (το ορατό τμήμα του αυτιού) και μέσω αυτού κατευθύνονται στο ακουστικό κανάλι φτάνοντας στο τύμπανο του αυτιού το οποίο θέτουν σε ταλάντωση. Στη συνέχεια το κύμα μεταφέρεται στο μέσο αυτί. Εκεί περνά από το τύμπανο σε τρία διαδοχικά μικρά οστά (οστάρια), τη σφύρα, τον άκμονα και τον αναβολέα. Ο αναβολέας μεταφέρει την ταλάντωση στο ελλειπτικό παράθυρο, από όπου ξεκινά το έσω αυτί. Το έξω και το μέσο αυτί λειτουργούν σαν ενεργειακοί μετατροπείς και σαν μετατροπείς κλίμακας. Η διαδικασία αυτή μοιάζει με την προσαρμογή εμπέδησης στα ηλεκτρονικά και βελτιστοποιεί τη μετάδοση των κυμάτων μεταξύ οργάνων με διαφορετικά χαρακτηριστικά. Τελικά, από τον αναβολέα η ταλάντωση μεταφέρεται στο έσω αυτί και συγκεκριμένα στον κοχλία ο οποίος αποτελείται από τρία σωληνάκια που περιέχουν υγρό και χωρίζονται μεταξύ τους από δύο μεμβράνες. Η μία από αυτές είναι η βασική μεμβράνη πάνω στην οποία βρίσκεται το όργανο του Corti. Η ταλάντωση περνά από τον αναβολέα λοιπόν στον κοχλία και κινητοποιεί τη βασική μεμβράνη. Το πλάτος της μεμβράνης αυξάνεται με το μήκος της με αποτέλεσμα διαφορετικές συχνότητες να αποκτούν μέγιστο πλάτος ταλάντωσης σε άλλο σημείο της, και συγκεκριμένα οι υψηλές κοντά στον αναβολέα και οι χαμηλές κοντά στην άκρη της μεμβράνης. Σχήμα 2-1- Σχηματική απεικόνιση της ανατομίας του ανθρώπινου αυτιού όπου φαίνονται τα βασικά του μέρη ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 16

Με αυτόν τον τρόπο πραγματοποιείται μία μηχανική ανάλυση συχνοτήτων. Σειρά έχει η κωδικοποίηση της πληροφορίας σε σήματα του νευρικού συστήματος. Διαφορετικές περιοχές της μεμβράνης αντιστοιχούν σε διαφορετικές ομάδες τριχοειδών νευρικών κυττάρων, με αποτέλεσμα τελικά να μην έχουμε ένα μόνο μεταδιδόμενο σήμα αλλά ένα σύνολο από σήματα, κάθε ένα για μια περιοχή συχνοτήτων. Έτσι πραγματοποιείται ένα διαδοχικό φιλτράρισμα του αρχικού σήματος με διαδοχικά επικαλυπτόμενα ζωνοπερατά φίλτρα. Τελευταία διαδρομή του σήματος πριν φτάσει στα κατάλληλα κέντρα του εγκεφάλου, είναι το ακουστικό νεύρο. Η επίδραση του ακουστικού νεύρου στο ηλεκτρικό πλέον σήμα που μεταδίδεται από τα τριχοειδή νευρικά κύτταρα, ονομάζεται «προσαρμογή». Αυτό σημαίνει ότι η ανταπόκριση του νεύρου καθυστερεί να ανταποκριθεί στις γρήγορες εναλλαγές της κατάστασής του εξαιτίας του χαμηλού ρυθμού αποφόρτισής του. Αυτό πρακτικά σημαίνει ότι για χαμηλές συχνότητες η απόκριση του νεύρου συντονίζεται στη συχνότητα του ερεθίσματος, ένα φαινόμενο που καλείται και κλείδωμα φάσης (phase locking). Αντίθετα σε υψηλές συχνότητες αυτό δε συμβαίνει. 2.1.2. Εντοπισμός πηγής ηχητικού ερεθίσματος Μία πολύ σημαντική λειτουργία της ακοής είναι ο εντοπισμός της πηγής από την οποία προέρχεται το ηχητικό ερέθισμα που φτάνει στα αυτιά του υποκειμένου. Η λειτουργία αυτή επιτυγχάνεται με επεξεργασία του ηχητικού σήματος σε δύο στάδια, πρώτα από το σύστημα ακοής και έπειτα από τα ακουστικά εγκεφαλικά στελέχη (auditory brainstems). Η επεξεργασία που γίνεται στο σύστημα ακοής περιγράφηκε παραπάνω. Τα σήματα φτάνοντας στον εγκέφαλο συναντούν τα πρώτα στάδια αμφιωτικής επεξεργασίας στο άνω ελαϊκό σύμπλεγμα (superior olivary complex - SCO). Εκεί υπάρχουν δύο διακριτά στάδια σύγκρισης των σημάτων που φτάνουν από τα δύο αυτιά. Το πρώτο είναι στη μέση άνω ελαία (medial superior olive - MSO), και περιέχει νευρικά κύτταρα που ονομάζονται ελεγκτές σύμπτωσης (coincidence detectors). Τα κύτταρα αυτά υποβάλουν τα σήματα σε διαφορετικές καθυστερήσεις και έχουν μέγιστη απόκριση όταν τα σήματα ταυτίζονται περισσότερο. Επομένως ανιχνεύουν τη βέλτιστη χρονική καθυστέρηση που κάνει τα δύο σήματα να ταυτιστούν. Είναι ένα μηχανικό ανάλογο του μηχανισμού της ετεροσυσχέτισης των δύο σημάτων, όπως θα παρουσιαστεί στα ειδικά θέματα επεξεργασίας σημάτων. Με αυτόν τον μηχανισμό τα κύτταρα γίνονται ευαίσθητα στις διαωτικές χρονικές διαφορές (interaural time difference - ITD) μεταξύ των σημάτων που φτάνουν στα δύο αυτιά. Το δεύτερο στάδιο σύγκρισης των σημάτων βρίσκεται στην ύστερη άνω ελαία (lateral superior olive - LSO) και περιλαμβάνει κύτταρα πoυ βασίζονται στον μηχανισμό διέγερσηςαποδιέγερσης (excitation-inhibition - EI). Τα κύτταρα αυτά υλοποιούν μια σύγκριση των σημάτων του ενός αυτιού με τα σήματα του άλλου αυτιού τροποποιώντας την ενέργεια των σημάτων και δίνοντας μέγιστη απόκριση όταν τα σήματα ταυτίζονται περισσότερο. Επομένως είναι ένας μηχανισμός ικανός να ανιχνεύσει διαφορές στάθμης ανάμεσα στα δύο σήματα και άρα ευαίσθητος στην διαωτική διαφορά στάθμης (interaural level difference - ILD). Οι διαωτικές παράμετροι που προαναφέρθηκαν (ITD και ILD), παίζουν καταλυτικό ρόλο στον εντοπισμό των ηχητικών πηγών. Συγκεκριμένα, όπως παρατηρούμε και στο Σχήμα 2-2, ο ήχος ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 17

που φτάνει στον δέκτη από πηγή σε πλάγια θέση, είναι πολύ διαφορετικός για τα δύο αυτιά και η διαφορά αυτή έχει άμεση σχέση με τη σχετική θέση πηγής-δέκτη. Συγκεκριμένα αυτή η διαφορά εμφανίζεται αφενός εξαιτίας του διαφορετικού μήκους της διαδρομής και επομένως του διαφορετικού χρόνου που το σήμα την διανύει. Αν και πολύ μικρή, η χρονική διαφορά αυτή καθορίζει σε μεγάλο βαθμό τον εντοπισμό των ηχητικών πηγών. Συγκεκριμένα η μέγιστη απόσταση είναι στα 18 cm περίπου (δηλαδή όση και η μέση απόσταση των δύο αυτιών) και άρα οδηγεί σε μέση μέγιστη διαφορά της τάξης των 0,5 ms. Επιπλέον η διαφορετική διαδρομή ορίζει και μια διαφορά στη στάθμη των δύο σημάτων. Η πτώση στην ένταση του ενός ηχητικού ερεθίσματος οφείλεται στην σκίαση του κεφαλιού και επηρεάζει το σήμα που φτάνει στο αυτί της «αδύναμης» πλευράς του κεφαλιού, της αντίθετης πλευράς δηλαδή από αυτήν της πηγής. Η χρονική διαφορά ονομάζεται, όπως προαναφέρθηκε, ITD και η διαφορά στάθμης ILD. Τα νευρικά κύτταρα του εγκεφαλικού στελέχους που είναι υπεύθυνο για την ακουστική αντίληψη, είναι ευαίσθητα σε ακριβώς αυτές τις διαφορές. Η ανίχνευσή τους οδηγεί σε άμεση απόφαση σχετικά με τη διεύθυνση έλευσης (direction of arrival - DOA) του ηχητικού ερεθίσματος. Βέβαια, στην πραγματικότητα ένα ηχητικό συμβάν και ο ακόλουθος εντοπισμός του μπορούν να είναι πολύ πιο σύνθετα. Σε ένα πραγματικό σενάριο το ηχητικό ερέθισμα φτάνει μαζί με μια σειρά ανακλάσεων που δυσκολεύουν το άτομο να εντοπίσει την πραγματική πηγή. Εκεί παίζει πολύ σημαντικό ρόλο η ετεροσυσχέτιση των δύο σημάτων η οποία μπορεί να καταδείξει μια ανάκλαση από πολύ πλάγια θέση, που μπορεί να αλλοιώσει τον εντοπισμό. Ο δείκτης αυτός ονομάζεται διαωτική συνάφεια (interaural coherence - IC). Σχήμα 2-2 - Σχηματική αναπαράσταση των διαφορετικών διαδρομών που διανύει ο ήχος της πηγής για να φτάσει στα δύο αυτιά ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 18

2.2. Ειδικά θέματα επεξεργασίας σήματος 2.2.1. Ετεροσυσχέτιση (Cross Correlation) Η ετεροσυσχέτιση είναι συνάρτηση που χρησιμοποιείται στην θεωρία σημάτων και συστημάτων και στην επεξεργασία σήματος, που ορίζεται από τη μαθηματική έκφραση: φ xy (d) = x(n) y(n + d) d (2-1) Η συνάρτηση της ετεροσυσχέτισης είναι μια ακολουθία που μπορεί να παίξει μεγάλο ρόλο στην ανίχνευση της καθυστέρησης που υπάρχει μεταξύ δύο κυματομορφών, αφού είναι μια έκφραση της σχέσης μεταξύ τους για κάθε πιθανή καθυστέρηση της μιας ως προς την άλλη. Αυτή της η ιδιότητα την καθιστά ιδανική για τη μελέτη των αμφιωτικών σημάτων, όπως αναφέρθηκε στην προηγούμενη παράγραφο, και τον εντοπισμό πηγών ηχητικών ερεθισμάτων. 2.2.2. Head Related Impulse Response (HRIR) Στη θεωρία σημάτων-συστημάτων, κρουστική απόκριση (impulse response) είναι η χαρακτηριστική χρονική συνάρτηση που περιγράφει τη συμπεριφορά ενός συστήματος για οποιαδήποτε είσοδο. Είναι ισοδύναμη με την έξοδο του συστήματος σε μία κρουστική είσοδο. Όπως παρουσιάστηκε και στην προηγούμενη παράγραφο, η διαφορά που έχουν τα σήματα που φτάνουν στα δύο αυτιά από την ίδια ηχητική πηγή, είναι αυτή που δίνει τη δυνατότητα στο άτομο να εντοπίσει τη διεύθυνση της πηγής. Συγκεκριμένα κάθε διαφορετική διεύθυνση έλευσης, τροποποιεί τον λαμβανόμενο ήχο με μοναδικό τρόπο. Αν θεωρήσουμε το σύστημα του καναλιού μεταφοράς του ήχου στα δύο αυτιά, μπορούμε βάση των παραπάνω να υπολογίσουμε μια συνάρτηση μεταφοράς για κάθε διαφορετική γωνία έλευσης. Η συνάρτηση αυτή ονομάζεται Head Related Impulse Response (HRIR) και κάνοντας χρήση αυτής μπορούμε για δεδομένο ήχο πηγής να υπολογίσουμε τους δύο λαμβανόμενους ήχους από τα δύο αυτιά. Έτσι μπορούμε να προσομοιώσουμε οποιοδήποτε σενάριο ακουστικού συμβάντος στον υπολογιστή και να μελετήσουμε το φαινόμενο από τη σκοπιά του ακροατή. Στην πράξη οι HRIR συναρτήσεις υπολογίζονται για γωνίες ενός κύκλου γύρω από τον ακροατή, με βήμα συνήθως 1 Ο ή 5 Ο. Στις υλοποιήσεις της συγκεκριμένης εργασίας έγινε χρήση της προτεινόμενης βιβλιοθήκης HRIR στο [3]. Εάν επιπλέον η κρουστική απόκριση λαμβάνει υπόψη, όχι μόνο τον απευθείας ήχο από την πηγή στον ακροατή, αλλά και όλες τις ανακλάσεις που θα προέρχονταν από την αναπαραγωγή αυτού του ήχου σε ένα πραγματικό δωμάτιο, τότε ονομάζεται Αμφιωτική Κρουστική Απόκριση Δωματίου (Binaural Room Impulse Response - BRIR). ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 19

3. Υλοποίηση 1 η 3.1. Γενικά Στόχος της πρώτης υλοποίησης είναι ο υπολογισμός των αμφιωτικών παραμέτρων ITD και ILD σε οποιαδήποτε θέση σε ένα δωμάτιο παρουσία ηχητικής διάταξης δύο ηχείων. Ο υπολογισμός γίνεται με την υλοποίηση ενός βασικού αντιληπτικού μοντέλου που πληροί τις προϋποθέσεις-στάδια της ανθρώπινης ακοής, όπως αυτά ορίζονται στη βιβλιογραφία. Η φιλοσοφία του μοντέλου βασίζεται στο πρότυπο της ετεροσυσχέτισης των επεξεργασμένων σημάτων που καταλήγουν στα αυτιά του ακροατή, όπως περιεγράφηκε και στη θεωρία. 3.2. Κεντρική δομή Η υλοποίηση δομείται με τη λογική δύο τρόπων λειτουργίας. Ο πρώτος τρόπος υπολογίζει και παρουσιάζει γραφικά, για μια θέση ακρόασης και για όλες τις περιοχές συχνοτήτων, τα τελικά σήματα τα οποία φτάνουν στο ακουστικό νεύρο καθώς και τις αμφιωτικές παραμέτρους ITD και ILD. Η ονομασία του είναι Position Mode. Ο δεύτερος τρόπος λειτουργίας υπολογίζει και παρουσιάζει σε δισδιάστατους χρωματικούς χάρτες τις τιμές των αμφιωτικών παραμέτρων για όλες τις θέσεις στο δωμάτιο αλλά για μια μόνο περιοχή συχνότητας. Η ονομασία του είναι Cues Mode. Αρχή Θέση Τρόπος λειτουργίας Δωμάτιο Position Mode Cues Mode Εξαγωγή παραμέτρων σε όλες τις περιοχές συχνοτήτων για μια θέση ακρόασης Εξαγωγή παραμέτρων σε μια περιοχή συχνοτήτων για όλες τις θέσεις ακρόασης Σχήμα 3-1 Διάγραμμα ροής της κεντρικής δομής του GUI της υλοποίησης Η είσοδος των απαραίτητων παραμέτρων αλλά και η παρουσίαση των αποτελεσμάτων, γραφημάτων και χρωματικών χαρτών αντίστοιχα για κάθε τρόπο λειτουργίας, επιλέχθηκε να γίνεται μέσω μιας γραφικής διεπαφής χρήστη (Graphic User Interface - GUI). Όπως φαίνεται και στο Σχήμα 3-1, ο χρήστης αρχικά ερωτάται ποιο από τα δύο mode λειτουργίας επιθυμεί να εκτελέσει και αντίστοιχα με την απάντηση ανοίγει το αντίστοιχο παράθυρο. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 20

Μοντελοποίηση ακουστικής αντίληψης: 3.2.1. Λειτουργία θέσης (Position mode) Στη λειτουργία θέσης, ο χρήστης μπορεί να επιλέξει τη θέση των ηχείων και του ακροατή μέσα σε ένα δωμάτιο διαστάσεων 5x5 m. Η επιλογή της θέσης γίνεται με ορισμό των τιμών x,y που αντιστοιχούν στα αντίστοιχα σημεία του επιπέδου. Αρχή Αρχικοποίηση παραμέτρων θέσης και σταθερών Εισαγωγή φίλτρων και αρχείων ήχου Υπολογισμός σχετικής θέσης ατόμου/ηχείου (απόσταση και γωνία) Υλοποίηση πλήρους αντιληπτικού μοντέλου Εξαγωγή σημάτων στο χρόνο και στη συχνότητα και γραφημάτων των παραμέτρων ανά περιοχή συχνότητας Σχήμα 3-2 Διάγραμμα ροής της λειτουργίας θέσης Στη συνέχεια, όπως βλέπουμε στο Σχήμα 3-2, έχουμε και εισαγωγή των αρχείων εισόδου που θα χρησιμοποιηθούν στο πρόγραμμα καθώς και υπολογισμό των διάφορων φίλτρων του αντιληπτικού μοντέλου. Έπειτα γίνεται επεξεργασία των σημάτων από ένα πλήρες αντιληπτικό μοντέλο αμφιωτικής ακοής. Το μοντέλο έχει δύο τμήματα, την μονοωτική επεξεργασία των σημάτων, που οι υπολογισμοί αφορούν κάθε σήμα ξεχωριστά, και το τμήμα αμφιωτικής ακοής, που οι υπολογισμοί χρησιμοποιούν και τα 2 σήματα για την εξαγωγή των αμφιωτικών παραμέτρων. 3.2.1.1. Μονο-ωτική επεξεργασία Το διάγραμμα ροής του μοντέλου παρουσιάζεται στο Σχήμα 3-3 [4]. Σημαντικό σημείο είναι ο υπολογισμός της σχετικής θέσης του ακροατή με το κάθε ηχείο. Ο ορισμός της σχετικής θέσης γίνεται μέσω της απόστασης και της γωνίας που σχηματίζει η ευθεία ακροατή ηχείου και ο κάθετος άξονας του δωματίου. Συγκεκριμένα, η εν λόγω γωνία για το 𝑖 ηχείο είναι η εξής: x xsp θspi = tan 1 ( ) y ysp (3-1) ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 21

Αρχικό σήμα Αριστερό ηχείο Δεξί ηχείο Κανάλι Κανάλι Κανάλι Κανάλι Σχετική Θέση Ατόμου - Ηχείου HRTF HRTF HRTF HRTF Προσθήκη σημάτων στο αριστερό αφτί Προσθήκη σημάτων στο δεξί αφτί Gammatone τράπεζα φίλτρων Gammatone τράπεζα φίλτρων Πλήρης ανόρθωση Πλήρης ανόρθωση Χαμηλοδιαβατό φίλτρο Χαμηλοδιαβατό φίλτρο Υπολογισμός αμφιωτικών παραμέτρων ITD/ILD Σχήμα 3-3 Διάγραμμα ροής του πλήρους αντιληπτικού μοντέλου ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 22

Σχήμα 3-4 Σχηματική αναπαράσταση του υπολογισμού της σχετικής θέσης του ακροατή και του i ηχείου Ακόμα, αν η απόσταση του κοντινότερου αυτιού από το ηχείο (έστω το αριστερό) είναι d, τότε (Σχήμα 3-4) είναι [5]: spi d earr spi d earl = d (3-2) = d + ρ(θ spi + sinθ spi ) (3-3) Η απόσταση πηγής-ακροατή, επηρεάζει το σήμα εξασθενώντας το και καθυστερώντας το. Η εξασθένιση είναι ανάλογη της απόστασης και επομένως για το αρχικό σήμα s spi, έχουμε στα δύο αυτιά: spi s earr(att) spi s earl(att 1) = sspi = sspi spi d d earl = sspi s spi = spi d d + ρ(θ spi + sinθ spi ) earr (3-4) (3-5) Η καθυστέρηση που εισάγεται στο σήμα είναι φυσικά και αυτή ανάλογη της απόστασης. Επειδή τα σήματά είναι διακριτού χρόνου, υπολογίζεται ο αριθμός των δειγμάτων της καθυστέρησης (delay samples - DS): όπου υ 0 είναι η spi DS earr spi DS earl = d spi earl f υ s = d f 0 υ s (3-6) 0 = d spi earr f υ s = d + ρ(θspi + sinθ spi ) f 0 υ s (3-7) 0 ταχύτητα του ήχου στο κενό (= 343 m s ) και f s είναι η συχνότητα δειγματοληψίας του σήματός μας (44100 samples s). Επομένως με σημειογραφία μαθηματικών διακριτών σημάτων τα σήματα είναι: 1 ATT - attenuated ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 23

spi s earl spi = s earl(att) z DS spi earl = sspi d z d υ 0 f s (3-8) spi s earr spi = s earr(att) z DS spi earr = s spi d+ρ(θ spi +sinθ spi ) d + ρ(θ spi + sinθ spi ) z f υ s 0 (3-9) Στη συνέχεια τα σήματα πρέπει να συν ελιχθούν με τις HRTF συναρτήσεις. Για 2 πηγές στο χώρο, υπάρχουν 4 κρουστικές συναρτήσεις HRTF που θα χρησιμοποιηθούν, όπως ακριβώς φαίνεται και στο Σχήμα 3-5. spl h earl spl h earr h spr earl spr h earr Τελικά όπως φαίνεται στο Σχήμα 3-6, οι πράξεις μέσω των οποίων δίνονται τα τελικά σήματα είναι οι εξής. Έστω s spl, s spr είναι το αριστερό και το δεξί κανάλι αντίστοιχα του στερεοφωνικού σήματος s που παράγονται από το αριστερό και δεξί ηχείο. Τότε αν γίνει συνέλιξη με τις 4 κρουστικές θα έχουμε: Αριστερό ηχείο: { s spl earl s spl earr = s spl spl h earl = s spl spl h earr Σχήμα 3-5 Εδώ φαίνονται οι 4 κρουστικές αποκρίσεις HRTF που χρειάζεται να συνυπολογιστούν ώστε να προκύψουν τα σήματα που καταλήγουν στον ακροατή Δεξί ηχείο: { s spr earl s spr earr = s spr spr h earl = s spr spr h (3-10) earr Αρχικό Σήμα BRIR Συνέλιξη Ενδιάμεσα Σήματα Υπέρθεση Τελικά σήματα spl h earl spl s earl s s spl earl spl s earr spl h earr s spr h earl spr s earl s s spr * * * * earr spr s earr spr h earr Σχήμα 3-6 Σχηματική απεικόνιση της επεξεργασίας των σημάτων μέσω των συναρτήσεων HRTF ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 24

Τελικά, λόγω της υπέρθεσης στο κάθε αυτί, είναι: s earl = s spl earl + s spr earl = s spl h spl earl + s spr spr h earl (3-11) s earr = s spl earr + s spr earr = s spl h spl earr + s spr spr h earr (3-12) Στη συνέχεια τα σήματα που έχουν φτάσει σε κάθε αυτί φιλτράρονται από μια gammatone τράπεζα φίλτρων. Αυτό το κομμάτι υλοποιεί την ανάλυση συχνότητας που πραγματοποιείται στη βασική μεμβράνη του έσω αυτιού. Ο αριθμός και το πλάτος των φίλτρων δίνονται βάση της κλίμακας ERB (equivalent rectangular bandwidth), σύμφωνα με την οποία το εύρος ενός φίλτρου ERB με κεντρική συχνότητα f πρέπει να δίνεται από τη σχέση [6] b = 24.7(4.37f + 1) (3-13) Στη συνέχεια η χρονική συνάρτηση (κρουστική απόκριση) του gammatone φίλτρου δίνεται από τη σχέση [7] gt f0 (t) = a t n 1 e 2πbt cos(2πf 0 + φ), t > 0 (3-14) όπου α παράμετρος κέρδους, n η τάξη του φίλτρου, b το εύρος συχνοτήτων του φίλτρου, f 0 η κεντρική συχνότητα και φ η φάση της κρουστικής απόκρισης. Η συγκεκριμένη τράπεζα που χρησιμοποιήθηκε στην υλοποίηση αυτή, φαίνεται στο Σχήμα 3-7. Από το φιλτράρισμα των σημάτων προκύπτουν τελικά 35 σήματα, αφού η τράπεζα ορίζει 35 διαφορετικές περιοχές συχνοτήτων. Κάθε σήμα περνά στη συνέχεια από το στάδιο της απόκρισης ακουστικού νεύρου, το οποίο περιλαμβάνει μια ημιανόρθωση και ένα χαμηλοδιαβατό φίλτρο [4], [8]. Το αποτέλεσμα είναι η προσομοίωση της χαμηλής χρονικής απόκρισης των τριχοειδών νευρικών κυττάρων. Με Σχήμα 3-7 Bode διάγραμμα της gammatone τράπεζας φίλτρων που χρησιμοποιήθηκε στην υλοποίηση ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 25

αυτόν τον τρόπο, ειδικά στις υψηλές συχνότητες, έχουμε διατήρηση μόνο της περιβάλλουσας του σήματος και όχι της λεπτομερειακής δομής του. Πιο συγκεκριμένα η ημιανόρθωση ενός s(t) σήματος ακολουθεί τη λογική της παρακάτω μη γραμμικης κλαδωτής συνάρτησης: s(t), t: s(t) > 0 s rect (t) = { 0, αλλού (3-15) Ακόμα το κατωδιαβατό φίλτρο είναι ένα Butterworth 5 ης τάξης με συχνότητα αποκοπής στα 1000 Hz [9]. Η συνάρτηση μεταφοράς του είναι επομένως: 1 G(jω) = ω (3-16) 1 + ( 2000π )10 Σχήμα 3-8 Απόκριση πλάτους-συχνότητας του κατωδιαβατού φίλτρου Butterworth 5 ης τάξης με συχνότητα αποκοπής στα 1000 Hz. Χαρακτηριστική απεικόνιση αυτής της επεξεργασίας στα σήματα φαίνεται στο Σχήμα 3-9, όπου βλέπουμε το φιλτράρισμα από τα 3 τελευταία στάδια του μοντέλου πάνω σε 4 ημιτονοειδή σήματα διαφορετικών συχνοτήτων. Τα τρία στάδια περιλαμβάνουν ένα gammatone φίλτρο με κεντρική συχνότητα συντονισμένη στη συχνότητα του σήματος, την ημιανόρθωση και το κατωδιαβατό φίλτρο. Παρατηρούμε ότι, όπως αναφέρθηκε παραπάνω, για υψηλότερες συχνότητες η λεπτομέρεια του σήματος χάνεται και παραμένει μόνο η περιβάλλουσα του. Είναι εμφανής η σταδιακή απώλεια της λεπτομέρειας για συχνότητες πάνω από 1000 Hz. Στα 2000 Hz τελικά δεν υπάρχει εμφανής παρουσία κυματισμού. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 26

Σχήμα 3-9 Απεικόνιση του διαφορετικού αποτελέσματος που προκύπτει για σήματα διαφορετικής συχνότητας. Με μπλε χρώμα εμφανίζεται το αρχικό σήμα ενώ με έντονο μαύρο το φιλτραρισμένο. Α. Ημίτονο 250 Hz. Το κατωδιαβατό φίλτρο δείχνει να μην το επηρεάζει στην λεπτομερειακή δομή του. Β. Ημίτονο 600 Hz. Αρχίζει να μειώνεται το πλάτος του ημιτονοειδούς σήματος και να υπερισχύει η περιβάλλουσα. Γ. Ημίτονο 1000 Hz. Εμφανίζεται μόνο ένας μικρός κυματισμός. Δ. Ημίτονο 2000 Hz. Υπάρχει μόνο η περιβάλλουσα από το αρχικό σήμα. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 27

3.2.1.2. Αμφι-ωτική επεξεργασία Τελικό στάδιο στην παρούσα υλοποίηση είναι φυσικά ο υπολογισμός των παραμέτρων ITD και ILD. Η προσέγγιση που ακολουθήθηκε είναι η μέθοδος της ετεροσυσχέτισης των σημάτων. Πιο συγκεκριμένα, για να βρούμε το ITD πρέπει πρώτα να υπολογίσουμε την κανονικοποιημένη συνάρτηση ετεροσυσχέτισης: s L (n)s R (n + d) Φ(d) = s 2 N L (n) 2 s 2 (3-17) N 1 R (n + d) H ITD παράμετρος ορίζεται λοιπόν ως η καθυστέρηση d για την οποία η συνάρτηση κανονικοποιημένης ετεροσυσχέτισης γίνεται μέγιστη: ITD = arg max d Φ(d) (3-18) Βέβαια, μετά από τη gammatone τράπεζα φίλτρων δεν υπάρχουν 2 σήματα αλλά, με 35 φίλτρα, υπάρχουν 35x2 σήματα και άρα 35 τιμές ITD που μπορούμε να εξάγουμε. Για την ILD παράμετρο, ο υπολογισμός της είναι πιο απλός. Ορίζεται ως ο λόγος των rms τιμών των δύο σημάτων εκφρασμένος σε db. Τελικά: 1 n ILD = 20 log 1 n s L 2 (n) s R 2 (n) Και για το ILD ισχύουν τα ίδια που ισχύουν για το ITD, σε σχέση με τον αριθμό των καναλιών που υπάρχουν. (3-19) Τελικά τα ITD και ILD παρουσιάζονται σε διαγράμματα ανά συχνότητα. 3.2.2. Λειτουργία δωματίου (Room Mode) Στη λειτουργία δωματίου, στόχος είναι να εξάγουμε τις αμφιωτικές παραμέτρους για όλες τις θέσεις ακρόασης στο δωμάτιο. Για λόγους ταχύτητας του κώδικα, επιλέχθηκε να γίνονται υπολογισμοί μόνο σε μια περιοχή συχνοτήτων κάθε φορά. Επομένως ο χρήστης επιλέγει αρχικά τις διαστάσεις του δωματίου, τις θέσεις των ηχείων στο χώρο και την περιοχή συχνότητας της gammatone τράπεζας φίλτρων στην οποία θα γίνουν οι υπολογισμοί. Η κεντρική δομή της λειτουργίας αυτής (Σχήμα 3-10), είναι σχεδόν μια επαναληπτική διαδικασία της προηγούμενης λειτουργίας, με μόνη διαφορά ότι μετά την gammatone δεν υπάρχουν 35 περιοχές συχνοτήτων αλλά μόνο μια. Ο κώδικας ξεκινά με τις ίδιες αρχικοποιήσεις και θεωρεί ως θέση ακροατή την πάνω αριστερά γωνία του χώρου ακρόασης. Τα σήματα υπολογίζονται για αυτή τη θέση ακρόασης, γίνεται η μονοωτική επεξεργασία, η αμφιωτική επεξεργασία και η εξαγωγή παραμέτρων. Οι παράμετροι ITD και ILD αποθηκεύονται στους πίνακες itd_array και ild_array αντίστοιχα. Μετά η θέση ακρόασης μετακινείται δεξιά κατά μια παράμετρο res 1 η οποία καθορίζει το πόσο μικρή θα είναι ανάλυση που θα έχουμε. Η διαδικασία επαναλαμβάνεται και οι νέες τιμές αποθηκεύονται και αυτές στους πίνακες. 1 Resolution ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 28

Αρχή Αρχικοποίηση παραμέτρων θέσης και σταθερών Εισαγωγή φίλτρων και αρχείων ήχου Αποθήκευση παραμέτρων σε πίνακες ανάλογα με τη θέση του ατόμου στο πλέγμα Υλοποίηση πλήρους αντιληπτικού μοντέλου Για κάθε σημείο Υπολογισμός σχετικής θέσης ατόμου/ηχείου (απόσταση και γωνία) Εξαγωγή τρισδιάστατων χρωματικών χαρτών Με αυτόν τον τρόπο δημιουργείται ένα πλέγμα (grid) στον χώρο ακρόασης, πάνω στο οποίο βρίσκονται όλες οι θέσεις ακρόασης. Σε πλήρη αντιστοιχία με το πλέγμα αυτό βρίσκονται οι δύο πίνακες που περιέχουν όλες τις υπολογισμένες τιμών των παραμέτρων. Επομένως αν παρουσιαστούν οι τιμές των παραμέτρων αυτών σε τρισδιάστατους χρωματικούς χάρτες, περιγράφεται με σαφήνεια η κατανομή αυτής της παραμέτρου στο χώρο. Σχήμα 3-10 Διάγραμμα ροής της λειτουργίας δωματίου. Τυπικό παράδειγμα είναι ο διπλανός χάρτης (Σχήμα 3-11), όπου εμφανίζεται χρωματικά η κατανομή της παραμέτρου ITD για περιοχή συχνοτήτων με κεντρική συχνότητα τα 250 Hz, σε ένα δωμάτιο 5x5m. Σχήμα 3-11 Χρωματικός χάρτης της κατανομής του ITD στο χώρο για την περιοχή των 250 Hz ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 29

3.2.3. Αρχεία Η δομή του κώδικα είναι και στους δύο τρόπους λειτουργίας σχεδόν η ίδια. Βασίζονται στον κεντρικό κώδικα των δύο GUI. Ο σχεδιασμός του γραφικού περιβάλλοντος έγινε με τη βοήθεια ειδικού εργαλείου της Matlab, το GUIDE. Τελικά δημιουργούνται δύο αρχεία, ένα αρχείο κώδικα και ένα αρχείο figure που περιλαμβάνει τις πληροφορίες για τα γραφικά στοιχεία. Η υλοποίηση της κάθε λειτουργίας, όπως περιεγράφηκε παραπάνω, γίνεται σε ξεχωριστή συνάρτηση που παίρνει ως ορίσματα τις εισόδους που εισάγει ο χρήστης και επιστρέφει τις τιμές των υπολογισμένων αμφιωτικών παραμέτρων. 3.2.4. Γραφική διεπαφή χρήστη (GUI Graphic User Interface) Σε αυτό το σημείο κρίνεται απαραίτητο να παρουσιαστεί το γραφικό περιβάλλον της εφαρμογής: 3.2.4.1. Αρχικό παράθυρο διαλόγου Σχήμα 3-12 GUI αρχικού παράθυρου διαλόγου Το παράθυρο εκκίνησης είναι απλώς μια επιλογή του χρήστη ανάμεσα στο ένα και το άλλο mode λειτουργίας. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 30

3.2.4.2. Παράθυρο λειτουργίας θέσης Σχήμα 3-13 Παράθυρο λειτουργίας θέσης. Για επεξήγηση βλ. ενότητα 3.2.4.2 Εδώ φαίνεται το παράθυρο του γραφικού περιβάλλοντος για τη λειτουργία θέσης (position mode). Στον αριθμό 1 φαίνονται τα πεδία εισαγωγής (x,y) της θέσης χρήστη. Στα πεδία 2 και στα πεδία 3 είναι τα αντίστοιχα σημεία εισαγωγής της θέσης των ηχείων. Το ηχείο 3 είναι προαιρετικό και απενεργοποιείται από το κουτάκι δίπλα στο πεδίο θέσης του. Οι επιλογές του χρήστη ώστε να υπάρχει μια άποψη για τις θέσεις στο χώρο, απεικονίζονται στο διάγραμμα που βρίσκεται κάτω αριστερά στο πλαίσιο των παραμέτρων. Με μπλε και πράσινο κύκλο (ο) απεικονίζονται τα δύο ηχεία ενώ με κόκκινο χι (x) ο ακροατής. Μετά την επιλογή των παραμέτρων εισόδου εκκινούμε τους υπολογισμούς από το κουμπί 4. Στο διάγραμμα 5 εμφανίζεται το αρχικό σήμα εισόδου (λευκός θόρυβος), και το φάσμα του στο διάγραμμα 6. Αντίστοιχα τα τελικά σήματα για κάθε περιοχή συχνότητας της μονοωτικής επεξεργασίας απεικονίζονται στο κοινό διάγραμμα 7. Με μπλε χρώμα φαίνεται το σήμα από το αριστερό αυτί και με κόκκινο το δεξί. Ακριβώς από κάτω εμφανίζονται τα αντίστοιχα φάσματα των σημάτων. Στη πτυσσόμενη λίστα 8 μπορούμε να επιλέξουμε την περιοχή συχνότητας gammatone φίλτρου, τα αντίστοιχα σήματα του οποίου θα εμφανίζονται στο διάγραμμα 7. Στο διάγραμμα 9 βλέπουμε την παράμετρο ITD ανά συχνότητα για τις συγκεκριμένες συνθήκες. Αντίστοιχα στο διάγραμμα 10 βλέπουμε την παράμετρο ILD ανά συχνότητα για τις συγκεκριμένες συνθήκες. Στο σημείο 11 βλέπουμε ότι μπορούμε να αποθηκεύσουμε το σύνολο των εξαγόμενων αποτελεσμάτων σε αρχείο και να τα φορτώσουμε ξανά στην εφαρμογή ώστε να μην τρέξουμε ξανά των κώδικα. Τέλος στο 12 μπορούμε να αλλάξουμε mode λειτουργίας. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 31

3.2.4.3. Παράθυρο λειτουργίας δωματίου Σχήμα 3-14 Παράθυρο λειτουργίας δωματίου. Για επεξήγηση βλ. ενότητα 3.2.4.3 Αντίστοιχα εδώ φαίνεται το παράθυρο γραφικού περιβάλλοντος χρήστη για την λειτουργία δωματίου. Αρχικά στον αριθμό 1 βρίσκονται τα πεδία επιλογής διαστάσεων δωματίου. Όμοια με παραπάνω, τα πεδία 2 και 3 αφορούν τη θέση των δύο ηχείων. Η χρήση του δεύτερου ηχείου είναι και πάλι προαιρετική, ανάλογα με την επιλογή του χρήστη στο αντίστοιχο κουτάκι. Στο σημείο 4 βλέπουμε το πεδίο επιλογής της συχνοτικής περιοχής του gammatone φίλτρου, όπου και θα γίνουν οι υπολογισμοί. Μετά την επιλογή των παραμέτρων, η διαδικασία υπολογισμών ξεκινά με το κουμπί 5. Στις θέσεις 6 και 7 μπορούμε να δούμε τα αποτελέσματα της διαδικασίας. Στο χρωματικό χάρτη 6 βλέπουμε την κατανομή του ITD στην κάτοψη του χώρου. Αντίστοιχα στο 7 την κατανομή του ILD. Τα αποτελέσματα, όπως και στον άλλον τρόπο λειτουργίας, μπορούν να αποθηκευτούν και να ξαναφορτωθούν στο πρόγραμμά μας με τα κουμπιά 8. Τέλος με την επιλογή 9 έχουμε αλλαγή στον άλλον τρόπο λειτουργίας. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 32

4. Υλοποίηση 2 η 4.1. Γενικά Στόχος της δεύτερης υλοποίησης είναι η εξαγωγή του βέλτιστου χώρου ακρόασης (sweet spot) μιας διάταξης ηχείων σε ένα δωμάτιο. Τα όρια του χώρου αυτού ορίζονται με βάση αντιληπτικά κριτήρια και συγκεκριμένα σύμφωνα με την διεύθυνση έλευσης ΔΕ (direction of arrival - DOA) που αντιλαμβάνεται ένας ακροατής σε κάθε θέση μέσα στο δωμάτιο. Η διεύθυνση έλευσης είναι η διεύθυνση πάνω στην οποία ο ακροατής αντιλαμβάνεται ότι βρίσκεται το ακουστικό είδωλο. Ιδανικά θεωρούμε ότι για να βρίσκεται μια θέση ακρόασης μέσα στο sweet spot, πρέπει η απόκλιση (θ αποκ ) (Σχήμα 4-1) της ΔΕ από την πραγματική διεύθυνση της ευθείας ειδώλου-ακροατή να μην ξεπερνά τις 5 ο. Η εύρεση της γωνίας έλευσης που αντιλαμβάνεται το άτομο σε κάθε θέση, γίνεται με βάση το μοντέλο αμφιωτικής ακοής του Dietz [10], [11]. Το πείραμα πάνω στο οποίο βασίστηκε η εξαγωγή του sweet spot είναι το πείραμα του Wierstorf ([12], [13]) το οποίο τροποποιήθηκε με τέτοιο τρόπο ώστε να μπορεί να δεχτεί αμφιωτικές κρουστικές αποκρίσεις δωματίου (binaural room impulse responses - BRIR). Με αυτό τον τρόπο το πείραμα, το οποίο αρχικά περιοριζόταν σε διάταξη ανοιχτού πεδίου (free-field) με ομοιοκατευθυντικές πηγές, επεκτάθηκε και για περιπτώσεις πραγματικών δωματίων με ανακλάσεις και απορρόφηση καθώς και για πραγματικές πηγές όπως π.χ. ηχεία. Η δημιουργία των BRIR για κάθε σημείο του χώρου γίνεται μέσω του λογισμικού CATT Acoustics. θ αποκ Σχήμα 4-1 Η γωνία απόκλισης θ αποκ ως η διαφορά της υπολογισμένης διεύθυνσης έλευσης, όπως την αντιλαμβάνεται ο ακροατής (συνεχής γραμμή), και της ιδανικής διεύθυνσης έλευσης, ως ευθείας ακροατήειδώλου (διακεκομμένη γραμμή). 4.2. Κεντρική δομή Η κεντρική δομή του προγράμματος φαίνεται στο παρακάτω σχήμα (Σχήμα 4-2). Αρχικά γίνεται η εισαγωγή όλων των παραμέτρων που πρέπει να οριστούν. Αυτές είναι: Πίνακας 4-1 Βασικές παράμετροι οριζόμενες από τον χρήστη Μεταβλητή setup xrange/yrange res Επεξήγηση Ο τύπος της διάταξης. stereo για 2 ηχεία και surround για 5 ηχεία Οι διαστάσεις του χώρου ακρόασης στις 2 διαστάσεις. Η λεπτομέρεια με την οποία γίνεται η ανάλυση του χώρου εκφρασμένη σαν αριθμό σημείων στον κάθετο και των οριζόντιο άξονα. Αν λοιπόν η ανάλυση οριστεί σαν res = 21 όπως είναι η προεπιλεγμένη τιμή, τότε θα έχουμε τη δημιουργία ενός πλέγματος στον χώρο μπροστά από τα ηχεία, με 21 21 = 441 θέσεις ακρόασης προς μελέτη. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 33

brir sig phi img L crit Η θέση του αρχείου των κρουστικών αποκρίσεων (BRIR) για κάθε θέση ακρόασης. Το σήμα διέγερσης που θα χρησιμοποιηθεί στο πείραμα. Αναμένεται ένα κανάλι ανά ηχείο στη διάταξη. Η γωνία με την οποία στέκεται ο ακροατής. Η θέση του ειδώλου. Δίνεται σε καρτεσιανές συντεταγμένες για στερεοφωνική διάταξη και σε πολικές για πεντακάναλη. Η απόσταση των L και R ηχείων για stereo setup ή των FL και FR ηχείων για surround setup Η κρίσιμη γωνία θ crit. Όσες θέσεις ακρόασης εμφανίζουν απόκλιση μεταξύ υπολογισμένης και ιδανικής ΔΕ μικρότερη ή ίση της κρίσιμης γωνίας, συμπεριλαμβάνονται στο sweet spot. Μετά τον ορισμό των παραμέτρων γίνεται εκκίνηση της διαδικασίας εξαγωγής των γωνιών έλευσης. Η δομή του πειράματος αναλύεται στην επόμενη ενότητα. Εδώ θα αναφερθεί, όπως και παραπάνω, ότι έχουμε μια εξαγωγή των ΔΕ σε κάθε θέση του πλέγματος καθώς και των πραγματικών διευθύνσεων μεταξύ ειδώλου και ακροατή. Τελικά με αυτόν τον τρόπο ορίζουμε την γωνία απόκλισης θ αποκ η οποία συγκρίνεται με την θ crit και κρίνει το αν το σημείο αυτό συμπεριλαμβάνεται στο sweet spot. Έναρξη Εισαγωγή παραμέτρων π.χ. κρίσιμης γωνίας Εξαγωγή γωνιών έλευσης (Τροποποιημένο πείραμα Wierstorf) Εφαρμογή μάσκας Εξαγωγή Sweet Spot Σχήμα 4-2 Διάγραμμα ροής της κεντρικής δομής του προγράμματος. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 34

Μετά από την εξαγωγή των αποκλίσεων, καθώς και άλλων δευτερευουσών παραμέτρων που αφορούν τη χωρική διάταξη από το πείραμα του Wierstorf, πραγματοποιείται τελικά η εφαρμογή της μάσκας που θα μας δώσει την τελική εικόνα του χώρου βέλτιστης ακρόασης. Αυτή, εκτός από το φιλτράρισμα των θέσεων ακρόασης με βάση την κρίσιμη γωνία, περιλαμβάνει και άλλες μετατροπές ώστε να γίνει η βέλτιστη δυνατή παρουσίαση του sweet spot. Στη συνέχεια αναλύονται διεξοδικά τα επιμέρους κομμάτια της κεντρικής δομής. Η ανάλυση περιορίζεται στο παράδειγμα της στερεοφωνικής διάταξης αλλά με όμοιο τρόπο επεκτείνεται και για περισσότερα ηχεία και συγκεκριμένα για την περίπτωση των 5 καναλιών που έχει ήδη υλοποιηθεί. 4.2.1. Εξαγωγή γωνιών έλευσης Το βασικό τμήμα της παρούσας υλοποίησης είναι το τροποποιημένο πείραμα του Wierstorf. Όπως έχει αναφερθεί στο πρώτο κεφάλαιο, αποτέλεσμα του πειράματος είναι η εξαγωγή σε κάθε θέση του πλέγματος που έχει επιλεγεί, η διεύθυνση έλευσης που θα αντιλαμβανόταν ένας ακροατής, καθώς και η πραγματική διεύθυνση της ευθείας ειδώλου-ακροατή. Η δομή του πειράματος εμφανίζεται στο Σχήμα 4-3. Έναρξη Εισαγωγή δεδομένων Για κάθε σημείο Υπολογισμός απόκλισης από επιθυμητή γωνία Εύρεση γωνίας έλευσης μέσω πίνακα αντιστοιχησης Υπολογισμός απόκλισης από επιθυμητή γωνία Υπολογισμός σημάτων Υλοποίηση Dietz Εξαγωγή γωνιών έλευσης και αποκλίσεων Σχήμα 4-3 Διάγραμμα ροής της επαναληπτικής διαδικασίας του υπολογισμού γωνιών έλευσης Βλέπουμε ότι αρχικά γίνεται εισαγωγή των δεδομένων όπως τα χαρακτηριστικά του δωματίου (διαστάσεις), η θέση των πηγών στο χώρο, ο αριθμός των θέσεων ακρόασης κ.λπ. Στην τροποποιημένη έκδοση πρέπει ακόμα να οριστούν τα αρχεία εισόδου της βιβλιοθήκης κρουστικών αποκρίσεων δωματίου, ενώ δίνεται η δυνατότητα να επιλεγεί αρχείο ήχου με το οποίο θα τροφοδοτηθούν οι πηγές της διάταξης. Αυτό έρχεται να επεκτείνει τις δυνατότητες του πειράματος, που αρχικά λειτουργούσε με μονοφωνικές ριπές λευκού θορύβου, σε στερεοφωνικά παράθυρα (frames) μουσικής. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 35

Αφού γίνει η εισαγωγή των δεδομένων ξεκινά η επαναληπτική διαδικασία για κάθε σημείο ακρόασης που έχει επιλεγεί, δηλαδή για κάθε σημείο του χώρου που ανήκει στο πλέγμα το οποίο ορίστηκε από τον χρήστη. Πρώτη διαδικασία της επανάληψης είναι ο υπολογισμός των σημάτων που «φτάνουν» στα αφτιά του ακροατή στη συγκεκριμένη θέση ακρόασης. Ο τρόπος υπολογισμού θα αναλυθεί παρακάτω. Δεύτερη και κυριότερη διαδικασία είναι η υλοποίηση του αντιληπτικού μοντέλου του Dietz. Η επεξεργασία των σημάτων της προηγούμενης διαδικασίας και η σύγκρισή μέσω του μοντέλου, μας παρέχει πληροφορία σχετικά με τη σχετική θέση πηγής-ακροατή μέσω των αμφιωτικών παραμέτρων ITD, ILD, IC. Η μετάφραση των παραμέτρων σε γωνία έλευσης γίνεται με βάση πίνακα αντιστοίχισης ο οποίος είναι ανεξάρτητος των συγκεκριμένων σημάτων και διάταξης. Τέλος υπολογίζεται η πραγματική διεύθυνση της ευθείας ακροατή-ειδώλου, με χρήση της οποίας θα υπολογιστεί τελικά η θ αποκ. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 36

4.2.1.1. Υπολογισμός σημάτων Όπως αναφέρθηκε και παραπάνω η πρώτη διαδικασία της επανάληψης είναι ο υπολογισμός των σημάτων στην εκάστοτε θέση ακρόασης. Η διαδικασία αυτή είναι όμοια του αντίστοιχου υπολογισμού που παρουσιάστηκε παραπάνω στην πρώτη υλοποίηση. Η μόνη διαφορά είναι ότι οι 4 κρουστικές αποκρίσεις (Σχήμα 3-5) δεν είναι οι HRTF, αλλά στην παρούσα υλοποίηση είναι οι κρουστικές αποκρίσεις δωματίου που προέκυψαν από μοντελοποίηση του επιθυμητού χώρου στο CATT Acoustics. Έναρξη Εισαγωγή βιβλιοθήκης BRIR Εισαγωγή αρχείου ήχου Συνέλιξη με τη BRIR Εξαγωγή σημάτων Σχήμα 4-4 Διάγραμμα ροή του υπολογισμού των σημάτων που καταλήγουν στον ακροατή Η δομή της διαδικασίας φαίνεται στο Σχήμα 4-4. Αφού εισαχθεί η βιβλιοθήκη κρουστικών αποκρίσεων, επιλεγούν οι 4 κρουστικές που αντιστοιχούν στην εκάστοτε θέση ακρόασης, και τα αρχεία ήχου που θα αποτελέσουν τις εισόδους του συστήματος μας, έπεται η διαδικασία της συνέλιξης των σημάτων. Οι εξισώσεις που περιγράφουν τη διαδικασία είναι οι ίδιες με τις (3-10). ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 37

4.2.1.2. Υλοποίηση αντιληπτικού μοντέλου Dietz Το αντιληπτικό μοντέλο του οποίου έγινε χρήση στο πείραμά είναι σύμφωνα με το [12], το μοντέλο του Dietz [11]. Στο μοντέλο αυτό έγινε παρουσίαση ενός τρόπου υπολογισμού της διεύθυνσης έλευσης από αμφιωτικά σήματα. Έναρξη Εισαγωγή σημάτων I. Ζωνοπερατό φίλτρο μέσου αυτιού II. Gammatone τράπεζα φίλτρων βασικής μεμβράνης III. Συμπίεση κοχλία βάσει κατανομή νόμου δύναμης IV. Ζωνοπερατό φίλτρο απόκρισης haircell V. Τράπεζα φίλτρων διαμόρφωσης VI. Υπολογισμός αμφιωτικών παραμέτρων Εξαγωγή παραμέτρων Σχήμα 4-5 Διάγραμμα ροής του αντιληπτικού μοντέλου Dietz. Η δομή του, όπως βλέπουμε και στο Σχήμα 4-5, είναι σε μεγάλο βαθμό όμοια με αυτή άλλων μοντέλων όπως το [14] και το [15]. Περιέχει όμως και αρκετές βελτιώσεις που του δίνουν την δυνατότητα να ικανοποιήσει 4 βασικά σημεία της χρονικής ακουστικής επεξεργασίας (temporal auditory processing): ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 38

Υψηλή χρονική ανάλυση Περιορισμένο εύρος κλειδώματος φάσης Χρήση ανόμοιων χρονικών περιβαλλουσών Περιορισμένο εύρος ITD I. Η δομή του μοντέλου έχει ως πρώτο κομμάτι την υλοποίηση του μέσου αυτιού. Αυτό μοντελοποιείται με την εφαρμογή, στα αμφιωτικά σήματα, ενός ζωνοδιαβατού φίλτρου εύρους από 500 Hz έως 2kHz, σύμφωνα με Puria et al, 1997. Αυτό στην πράξη επιτυγχάνεται με την χρήση δύο butterworth φίλτρων 2 ης τάξης. Το πρώτο υψιπερατό με συνάρτηση μεταφοράς και το δεύτερο κατωδιαβατό με συνάρτηση μεταφοράς HPF 1 Η MidEar (jω) = 1 + ( ω (4-1) 10 3 π )4 LPF Η MidEar ω 4 (jω) = ω 4 2,56 10 14 π II. Δεύτερο κομμάτι στο μοντέλο είναι η gammatone τράπεζα φίλτρων. III. Στη συνέχεια, και αφού υπάρχει πλέον από ένα σήμα για κάθε κρίσιμη μπάντα, υλοποιείται η απόκριση του κοχλία ο οποίος συμπιέζει το σήμα κατά μια δύναμη 0.4, δηλαδή (4-2) s (t) = [s(t)] 0.4 (4-3) IV. Η διαδικασία μηχανο-ηλεκτρικής μετατροπής που συντελείται στα τριχοειδή κύτταρα (inner hair cells) του έσω αυτιού, μοντελοποιείται με χρήση ενός ημιανορθωτή σε σειρά με ένα κατωδιαβατό φίλτρο. Στο μοντέλο του Dietz γίνεται χρήση ενός butterworth φίλτρου 5 ης τάξης με συχνότητα αποκοπής στα 770 Hz. Συγκεκριμένα στην υλοποίησή μας χρησιμοποιούμε μια επαναληπτική εφαρμογή 5 φίλτρων 1 ης τάξης με συχνότητα αποκοπής στα 2 khz. Η απόκριση συχνότητας του αντίστοιχου αναλογικού φίλτρου είναι: Η LPF IHC (jω) = (1,54 103 π) 10 (4-4) ω 10 + (1,54 10 3 π) 10 V. Το επόμενο στάδιο είναι το τελευταίο στάδιο της μονοωτικής προεπεξεργασίας στην οποία υπόκεινται τα σήματα. Είναι σαφές ότι για να μπορούν στο επόμενο στάδιο της αμφιωτικής επεξεργασίας να συγκριθούν άμεσα οι φάσεις των 2 αρχικών σημάτων ανά περιοχή συχνότητας και να εξαχθούν οι IPD παράμετροι, θα πρέπει να υπάρχει μια μονότονα ορισμένη φάση για κάθε περιοχή συχνότητας. Μόνο έτσι θα προκύψουν όσο το δυνατόν πιο σταθερά και αξιόπιστα αποτελέσματα στον υπολογισμό των παραμέτρων και τελικά μια, όσο το δυνατόν, καλύτερη ανίχνευση της γωνίας έλευσης. Εξαιτίας όμως της προηγούμενης επεξεργασίας η οποία εφαρμόστηκε στα σήματα, όπως η ημιανόρθωση και γενικότερα η απόκριση των τριχοειδών κυττάρων, η φασματική πληροφορία έχει τροποποιηθεί αρκετά. Συγκεκριμένα, σε κάθε περιοχή της αρχικής gammatone, υπάρχουν ένα DC τμήμα, η περιβάλλουσα του αρχικού σήματος και κάποιο υπόλειμμα πληροφορίας στην αρχική περιοχή του gammatone φίλτρου. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 39

Για να αντιμετωπιστεί αυτό το φαινόμενο, τα σήματα από κάθε περιοχή της αρχικής τράπεζας φίλτρων, μετά την επεξεργασία των hair-cells περνούν ξανά από φιλτράρισμα τριών παράλληλων τραπεζών φίλτρων. Η πρώτη είναι μια μιγαδική gammatone τράπεζα φίλτρων 2 ης τάξης με κεντρική συχνότητα ίδια με αυτήν της εκάστοτε περιοχής συχνότητας της αρχικής τράπεζας φίλτρων. Με αυτό τον τρόπο διατηρούνται μόνο τα υπολείμματα πληροφορίας στην περιοχή αυτή. Το τμήμα αυτό του σήματος, επειδή δεν έχει την περιβάλλουσα αλλά την λεπτομερή δομή του αρχικού, ονομάζεται fine-structure signal και το φίλτρο fine-structure filter. Η δεύτερη είναι μια μιγαδική gammatone τράπεζα φίλτρων 2 ης τάξης με σταθερή κεντρική συχνότητα, επιλεγμένη στα 135 Hz. Αυτή διατηρεί μόνο την περιβάλλουσα και για αυτό ονομάζεται envelope filter και το εξαγόμενο σήμα envelope signal. Η τρίτη είναι μια ακόμα σειρά φίλτρων, κατωδιαβατών με σταθερή συχνότητα αποκοπής στα 30 Hz, αφαιρώντας το dc τμήμα της πληροφορίας. Αυτό συμβαίνει για να μπορεί να εξαχθεί το ILD στο επόμενο στάδιο. VI. Σειρά τώρα έχει το αμφιωτικό στάδιο επεξεργασίας. Από τις 2 πρώτες μιγαδικές τράπεζες φίλτρων προκύπτουν δύο μιγαδικά σήματα για κάθε αυτί και περιοχή συχνότητας: g fine (t) = a fine (t) e iφfine (t) και g env (t) = a env (t) e iφenv (t) (4-5) τα οποία υπόκεινται στην ίδια επεξεργασία με σκοπό τελικά να εξαχθούν 2 σετ παραμέτρων, ένα fine και ένα envelope. Εισάγεται η έννοια της διαωτικής συνάρτησης μεταφοράς (interaural transfer function - ITF), η οποία ορίζεται ως: ITF(t) = g l (t) g (t) r = a l (t)a r (t)e i(φ l (t) φ r (t)) (4-6) όπου g l (t), g r (t) τα τελικά σήματα για αριστερό και δεξί αυτί, fine ή envelope, για μια περιοχή συχνοτήτων της τράπεζας φίλτρων. Επομένως το IPD για τη συγκεκριμένη περιοχή συχνοτήτων μπορεί να δοθεί από την σχέση IPD(t) = arg [ITF(t)] (4-7) Το IPD μπορεί τώρα να μετατραπεί σε ITD, διαιρώντας το με το μέσο όρο των στιγμιαίων συχνοτήτων του αριστερού και του δεξιού καναλιού. f inst = 1 4π (dφ l (t) dt + dφ r (t) ) (4-8) dt Από την τρίτη τράπεζα φίλτρων προκύπτουν δύο σήματα για κάθε περιοχή συχνότητας, έστω h l (t) και h r (t), ένα για το αριστερό και ένα για το δεξί αυτί αντίστοιχα. Το ILD μπορεί να εξαχθεί από αυτά τα σήματα ως εξής: ILD(t) = 20 c log 10 ( h r (t) h l (t) ) (4-9) Η χρήση του EI μοντέλου του Breebaart αποτελεί φυσικά μια εναλλακτική λύση στη συνηθισμένη στρατηγική διαφόρων αντιληπτικών μοντέλων για την εξαγωγή των αμφιωτικών παραμέτρων, την ετεροσυσχέτιση των δύο σημάτων. Με αυτόν τον τρόπο δεν προκύπτει άμεσα μια πολύ σημαντική παράμετρος, η αμφιωτική συνάφεια (interaural ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 40

Μοντελοποίηση ακουστικής αντίληψης: coherence - IC). Η σημασία της IC παραμέτρου εμφανίζεται κυρίως στην εξής περίπτωση: σε χώρο με μεγάλη αντήχηση ή με παρουσία θορύβου, οι υπόλοιπες παράμετροι (χρονικές συναρτήσεις) μπορεί να μην δίνουν αξιόπιστα αποτελέσματα σε οποιοδήποτε χρονικό διάστημα. Σε αυτή την περίπτωση, η συνάφεια χρησιμεύει ως φίλτρο (μάσκα) με το οποίο να εντοπιστούν τα χρονικά διαστήματα όπου τα σήματα μπορούν να προέρχονται από σημειακή πηγή. Με αυτόν τον τρόπο παρατηρείται καλύτερη ακρίβεια σε τέτοιες ακουστικές συνθήκες. Η εναλλακτική μάσκα συνάφειας που χρησιμοποιείται σε αυτό το μοντέλο είναι η αμφιωτική διανυσματική δύναμη (interaural vector strength - IVSG), που ορίζεται ως: 1 𝐼𝑉𝑆𝐺 (𝑡) = 𝑑𝜏 𝑒 𝑖 𝐼𝑃𝐷(𝑡 𝜏) 𝑒 𝜏 𝜏𝑠 𝜏𝑠 (4-10) 0 Ακόμα ορίζεται μέσω της αμφιωτικής συνάρτησης μεταφοράς ITF το μέγεθος 𝐼𝑉𝑆(𝑡) = 0 𝑑𝜏 𝐼𝑇𝐹(𝑡 𝜏) 𝑒 𝜏 𝜏𝑠 0 𝑑𝜏 𝐼𝑇𝐹(𝑡 𝜏) 𝑒 𝜏 𝜏𝑠 (4-11) Μετά από την εξαγωγή των παραμέτρων και πριν τον εντοπισμό της γωνίας πρέπει πρώτα να επιλυθεί ένα ακόμα πρόβλημα, αυτό της σύμπτωσης των τιμών των παραμέτρων ITD και IPD για κάποιες γωνίες, όπως φαίνεται στο Σχήμα 4-6. Η μέθοδος αντιμετώπισης είναι ο ορισμός της πλευράς από την οποία έρχεται ο ήχος μέσω του πρόσημου της παραμέτρου ILD. Τελικά το πρόγραμμα καταλήγει σε Σχήμα 4-6 Εδώ απεικονίζεται η σύμπτωση τιμών του IPD για εντοπισμό της διεύθυνσης συγκεκριμένες γωνίες και η επίλυση του ζητήματος με χρήση του πρόσημου του ILD. έλευσης, κάνοντας χρήση ενός πίνακα αντιστοίχισης μεταξύ ITD τιμών και γωνίας (αζιμούθιο). Έτσι καταλήγει μια γωνία για κάθε περιοχή συχνότητας. Το τελικό αποτέλεσμα δίνεται ως απλώς η διάμεσος των τιμών όλων των περιοχών. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 41

4.2.2. Εφαρμογή μάσκας Το τελευταίο τμήμα του προγράμματος προς την εξαγωγή του sweet spot είναι η εφαρμογή μιας μάσκας πάνω στον εξαγόμενο πίνακα του προηγούμενου σταδίου (Σχήμα 4-7). Από το τροποποιημένο πείραμα Wierstorf προκύπτει ένας πίνακας που περιείχε την γωνία έλευση, όπως αυτή υπολογίστηκε από το μοντέλο για κάθε θέση του ορισμένου χώρου ακρόασης. Έναρξη Φόρτωση πίνακα αποκλίσεων γωνιών Διατήρηση μόνο των θέσεων με απόκλιση μικρότερη της κρίσιμης Υπολογισμός της ακρίβειας εντοπισμού ειδώλου Εξαγωγή χρωματικού χάρτη Sweet Spot Σχήμα 4-7 Διάγραμμα ροής της διαδικασίας εφαρμογής μάσκας Για να εξαχθεί τελικά ο βέλτιστος ακουστικός χώρος είχε οριστεί εξαρχής ένα όριο θ crit το οποίο συγκρίνεται με τη διαφορά της γωνίας έλευσης και της ιδανικής γωνίας έλευσης (θ αποκ ). Όταν η θ αποκ είναι μικρότερη ή ίση της θ crit τότε το σημείο ανήκει στο sweet spot. Τελικά προκύπτει η ακρίβεια του εντοπισμού του ειδώλου ως εξής: θ crit θ αποκ, όταν θ A(x, y) = { θ αποκ θ crit crit 0, αλλού (4-12) Ο παράγοντας c επιλέγεται αυθαίρετα για τροποποίηση της κλίμακας ώστε να έχουμε πιο ευκρινές sweet spot. Είναι φανερό ότι το μέγεθος της ακρίβειας είναι μέγιστο όταν η απόκλιση είναι ελάχιστη δυνατή και άρα εκεί έχουμε την μέγιστη ακρίβεια. Με αποτύπωση του μεγέθους Α(x,y) στους τρισδιάστατους άξονες, έχουμε τελικά εξαγωγή του χρωματικού χάρτη sweet spot. Με δεδομένο ότι κάθε θέση στο πλέγμα αντιστοιχεί σε μια στοιχειώδη επιφάνεια του χώρου ακρόασης (έστω b), ορίζουμε ακόμα την επιφάνεια sweet-spot (Sweet-Spot Area - SSA): SSA = b A bin (x, y) x y (4-13) ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 42

όπου 1, όταν A(x, y) > 0 A bin (x, y) = { 0, αλλού (4-14) 4.3. Αρχεία Ο κώδικας που υλοποιεί τα παραπάνω δομείται ως εξής: Αρχικά γίνεται εκκίνηση του πειράματος καλώντας τη βασική συνάρτηση calculatesweetspot(). Τα ορίσματα της συνάρτησης είναι αυτά που παρουσιάστηκαν στην παράγραφο 4.2. Αφού πραγματοποιηθούν όλοι οι απαραίτητοι έλεγχοι, φορτώνονται στη μνήμη οι κρουστικές συναρτήσεις. Οι συναρτήσεις πρέπει να δοθούν ως ένα brirstruct.mat αρχείο που θα δημιουργηθεί από την συνάρτηση brirstructcreator(). Εναλλακτικά, ο χρήστης μπορεί να δώσει ένα directory με τις κρουστικές σε μορφή αρχείων.wav και ο κώδικας θα επιχειρήσει να δημιουργήσει ο ίδιος το struct αρχείο, καλώντας την παραπάνω συνάρτηση. Στη συνέχεια θα γίνει υπολογισμός των γωνιών έλευσης με χρήση της συνάρτησης calculatesourcedirections(). Η συνάρτηση επιστρέφει τις πραγματικές και τις ιδεατές γωνίες έλευσης, το μεταξύ τους σφάλμα, καθώς και τα διανύσματα των τετμημένων και τεταγμένων των σημείων του πλέγματος ακρόασης. Έπειτα, βάση του σφάλματος που προέκυψε στο προηγούμενο βήμα και της κρίσιμης γωνίας που όρισε ο χρήστης, υπολογίζεται το sweet-spot, με τη συνάρτηση applymask(). Τελικά, γίνεται παρουσίαση του χρωματικού χάρτη sweet-spot και των γωνιών έλευσης σε σύστημα αξόνων και τα δεδομένα αποθηκεύονται σε αρχείο.mat. Όλος ο κώδικας που χρησιμοποιήθηκε μπορεί να βρεθεί στο αντίστοιχο repository του GitHub 1 (room-sweet-spot). Εκτός από τον κώδικα, υπάρχει και η σελίδα του Wiki με πληροφορίες σχετικά με την χρήση του tool. Η ανάπτυξη του εργαλείου βασίστηκε στο Auditory Modelling Toolbox 2. 1 https://github.com/terpste/room-sweet-spot 2 https://github.com/hagenw/amtoolbox ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 43

ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 44

5. Αποτελέσματα Στο παρών κεφάλαιο θα παρουσιαστούν κάποια ενδεικτικά παραδείγματα λειτουργίας και τα αντίστοιχα αποτελέσματα από τις δύο υλοποιήσεις. 5.1. 1 η υλοποίηση Στην πρώτη υλοποίηση πραγματοποιήθηκαν δύο ενδεικτικές εκτελέσεις του κώδικα, μία για κάθε τρόπο λειτουργίας. 5.1.1. Position mode Στη λειτουργία θέσης επιλέξαμε δύο πηγές σε απόσταση 2m μεταξύ τους και έναν ακροατή στη μεσοκάθετο των πηγών και με απόσταση 1.5m από την ευθεία τους. Το αποτέλεσμα φαίνεται στο Σχήμα 5-1. Σχήμα 5-1 Ενδεικτικό παράδειγμα της λειτουργίας θέσης της πρώτης υλοποίησης 5.1.2. Room mode Στη λειτουργία δωματίου, επιλέξαμε ένα δωμάτιο με διαστάσεις 5x5 το οποίο δεν είχε καθόλου ανακλάσεις (ανηχοϊκό). Οι πηγές βρέθηκαν σε απόσταση 2 μέτρων και σε απόσταση 1 m από τον τοίχο. Τα αποτελέσματα που προέκυψαν φαίνονται στην επόμενη σελίδα, στο Σχήμα 5-2. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 45

Σχήμα 5-2 Ενδεικτικό παράδειγμα της λειτουργίας δωματίου της πρώτης υλοποίησης ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 46

5.2. 2 η υλοποίηση 5.2.1. Λεπτομέρειες πειραματικών διαδικασιών Στη δεύτερη υλοποίηση, έγινε προσπάθεια για εξαγωγή αποτελεσμάτων σε διαφορετικές συνθήκες, με διάφορα ζεύγη πηγών και διάφορους χώρους αναπαραγωγής. Η προσομοίωση των συνθηκών έγινε, όπως προαναφέρθηκε, με κρουστικές αποκρίσεις BRIR, κάνοντας χρήση του λογισμικού CATT Acoustic και της κατευθυντικότητας πηγών από αρχεία CLF. Τα πειράματα χωρίζονται σε δύο κατηγορίες, ανάλογα με τον τύπο του setup που επιλέχθηκε, στερεοφωνικό ή πέντε ηχείων. Τα δύο setups φαίνονται στο Σχήμα 5-3. Το επίπεδο ακρόασης συντίθεται από ένα πλέγμα σημειακών θέσεων ακρόασης σε διάταξη 21x21 (res = 21), που βρίσκεται στο ύψος του κέντρου των ηχείων. Εκτείνεται μπροστά από την ευθεία των L και R ηχείων στη στερεοφωνική περίπτωση (LF και RF στη surround) σε απόσταση d από αυτή. Η έκταση του χώρου στις δύο διαστάσεις δίνεται από τα διαστήματα τιμών xrange και yrange (π.χ. [-2, 2] και [-0.2, -2.2]). Οι πηγές που χρησιμοποιήθηκαν είναι τριών ειδών: (α) ιδεατές ομοκατευθυντικές πηγές, (β) τυπικό σετ ηχείων κλειστού τύπου δύο δρόμων και (γ) σετ εμπορικών ηχείων. Η προσομοιώση των διαφορετικών πηγών πραγματοποιήθηκε κάνοντας χρήση των ειδικών αρχείων CLF. Οι επιλεγμένοι χώροι αναπαραγωγής είναι: (α) ελεύθερο πεδίο (ανηχοϊκός θάλαμος), (β) χώρος με μία μόνο ανακλαστική επιφάνεια (πάτωμα), (γ) απλό δωμάτιο τύπου shoebox συμβατό με τους κανονισμούς IEC και χρόνο αντήχησης RT=0.25s και (δ) το studio της ομάδας Ήχου και Ακουστικής Τεχνολογίας, συμβατό με κανονισμούς IEC αλλά ελαφρώς ασύμμετρο και με RT=0.35s. Τα σήματα διέγερσης που χρησιμοποιήθηκαν διαιρούνται στα στερεοφωνικά και στα πολυκαναλικά. Για τη στερεοφωνική περίπτωση χρησιμοποιήθηκαν απλές στερεοφωνικές ριπές λευκού θορύβου. Στην πολυκαναλική περίπτωση τα σήματα προέκυψαν με την εφαρμογή τεχνικής upmixing σε στερεοφωνικά σήματα. Η τεχνική εφαρμόστηκε σε δύο είδη σημάτων, στερεοφωνικά σήματα με προσθήκη λευκού θορύβου διαφορετικών SNR και στερεοφωνικά σήματα με προσθήκη διαφορετικής ποσότητας τεχνητής αντήχησης. Αυτό μας δίνει τη δυνατότητα να ανιχνεύσουμε διαφορές στο μέγεθος του υπολογισμένου σήματος για διαφορετικά χαρακτηριστικά του σήματος. Τα διαφορετικά σήματα διέγερσης εμφανίζονται στον Πίνακας 5-2. Στο Σχήμα 5-4 παρουσιάζεται μια προσομοίωση των 4 προαναφερθέντων δωματίων. ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 47

Πίνακας 5-1 Οι συνθήκες που εξετάστηκαν κατά τη διάρκεια των πειραμάτων Χώρος Ακρόασης Τύπος Πηγών X1 Ελεύθερο πεδίο (free-field) Ομοκατευθυντικές X2 Ελεύθερο πεδίο + ανάκλαση από πάτωμα Τυπικό σετ ηχείων δύο δρόμων X3 IEC δωμάτιο τ. shoebox Τυπικό σετ ηχείων δύο δρόμων X4 Studio Η&ΑΤ Τυπικό σετ ηχείων δύο δρόμων X5 IEC δωμάτιο τ. shoebox Εμπορικό σετ ηχείων X6 Studio Η&ΑΤ Εμπορικό σετ ηχείων Πίνακας 5-2 Τα σήματα διέγερσης που χρησιμοποιήθηκαν Σ1 Σ2 Σ3 Σ4 Τύπος σήματος Διαφοροποίηση στο SNR του προστιθέμενου θορύβου Διαφοροποίηση στο Dry/Wet ποσοστό της προστιθέμενης τεχνητής αντήχησης Σήμα 60 db SNR AWGN 72 db SNR AWGN 0.1% Wet Reverb 1% Wet Reverb d L y x d L y x xrange xrange yrange yrange Σχήμα 5-3 - Απεικόνιση της (α) στερεοφωνικής και (β) πεντακάναλης (surround) διάταξης ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 48

Σχήμα 5-4 Απεικόνιση προσομοίωσης των πειραματικών χώρων ΤΕΡΠΙΝΑΣ ΣΤΕΡΓΙΟΣ 49