Τίτλος: Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου.

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Τίτλος: Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου."

Transcript

1 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τίτλος: Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου. Διπλωματική Εργασία Αριθμός φοιτητικού μητρώου : Επιβλέπων Καθηγητής : Μητιανούδης Νικόλαος Επίκουρος καθηγητής Ξάνθη 2015

2

3 ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Τριμελής Εξεταστική Επιτροπή Μητιανούδης Νικόλαος, Επίκουρος Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Δημοκρίτειου Πανεπιστήμιου Θράκης (Επιβλέπων Καθηγητής) Ζωηρός Κυριάκος, Αναπληρωτής Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Δημοκρίτειου Πανεπιστήμιου Θράκης Συρακούλης Γεώργιος, Αναπληρωτής Καθηγητής Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Δημοκρίτειου Πανεπιστήμιου Θράκης Ξάνθη 2015

4

5 Music is the movement of sound to reach the soul for the education of its virtue

6

7 Ευχαριστίες Πρώτο από όλους θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή Δρ, Νικόλαο Μητιανούδη, Αναπληρωτή καθηγητή του Δημοκριτείου Πανεπιστημίου Θράκης, για την επιστημονική και πνευματική στήριξη που παρείχε ενώ ήταν πάντα διαθέσιμος να μου προσφέρει τις γνώσεις και την εμπειρία του, καθ όλη την διάρκεια εκπόνησης αυτής της διπλωματικής εργασίας. Ακόμα πρέπει να ευχαριστήσω τους γονείς μου και την αδερφή μου Ιωάννα για την αγάπη, πίστη και στήριξη που μου έχουν προσφέρει καθ όλη την διάρκεια των σπουδών μου. Ιδιαίτερα ευχαριστώ στους φίλους μου, Γιώργο, Αναστασία, Δημήτρη, Άρη, Αναστασία και Χρήστο που ήταν δίπλα μου, κάνοντας αξέχαστα όλα τα φοιτητικά μου χρόνια και ελπίζω να παραμείνουν και στο μέλλον, παρόλη την απόσταση που θα μας χωρίζει. Τέλος ένα ξεχωριστό ευχαριστώ στην γιαγιά μου Πόπη και τον παππού μου Δημήτρη.

8 Abstract Το πρόβλημα του διαχωρισμού ηχητικών πηγών αναφέρεται στον αυτοματοποιημένο διαχωρισμό ήχων που αναπαράγονται σε μια ηχητική σκηνή και καταγράφονται από πολλαπλά μικρόφωνα. Στην παρούσα διπλωματική εργασία αναλύουμε το συγκεκριμένο θέμα, και παρουσιάζουμε μεθόδους για να αντιμετωπίσουμε τα διάφορα υποπροβλήματα που εισάγει. Θα επικεντρώθουμε στον διαχωρισμό ηχητικών πηγών σε περιβάλλον πραγματικού δωματίου, όπου έχουμε ανάκλαση των ηχητικών κυμάτων στις διάφορες επιφάνειες, με αποτέλεσμα να παρατηρούνται από τα μικρόφωνα πολλές καταγραφές της ίδιας πηγής. Τέτοιου είδους μίγματα αναφέρονται ως Convolutive, και για να τα αντιμετωπίσουμε θα πρέπει να μεταφέρουμε τον διαχωρισμό στο πεδίο της συχνότητας, όπου μπορούμε μετασχηματίσουμε το σύνθετο Convolutive πρόβλημα σε πολλά απλά γραμμικά προβλήματα διαχωρισμού (Instantaneous Mixtures), ένα για κάθε διακριτή συχνότητα του σήματος της μίξης Η βασική μέθοδος που χρησιμοποιούμε για να πραγματοποιήσουμε το διαχωρισμό, είναι το Independent Component Analysis (ICA), μια στατιστική τεχνική που εκμεταλλεύεται τις διαφορές στις καταγραφές των αισθητήρων, για να εξάγει στατιστικώς ανεξάρτητα συστατικά από μια μίξη. Αποτελεί μια μέθοδο βελτιστοποίησης, τα αποτελέσματα της οποίας υπόκεινται σε κάποιες ασάφειες, η πιο κρίσιμη από τις οποίες είναι το Permutation Ambiguity. Αναφέρεται στην αδυναμία της μεθόδου να προσδιορίσει την πηγή από την οποία προέρχονται τα ανεξάρτητα συστατικά που εξάγει από τη μίξη, με αποτέλεσμα να μην μπορούμε να ταξινομήσουμε σωστά της διαχωρισμένες από τον ICA συχνότητες στην πηγή που ανήκουν. Θα παρουσιάσουμε αναλυτικά όλες τις πτυχές και παραμέτρους του προβλήματος του διαχωρισμού ηχητικών πηγών σε πραγματικό δωμάτιο. Θα αναλύσουμε τις κλασσικές μεθόδους για την πραγματοποίηση του ICA, και θα τις συγκρίνουμε με μια νέα εκδοχή του αλγορίθμου, που ονομάζεται RobustICA, και δεν έχει μελετηθεί για το συγκεκριμένο πρόβλημα. Ακόμα, όσον αφορά στο Permutation Ambiguity, θα αναλύσουμε μεθόδους που θα κάνουν χρήση τόσο των στατιστικών χαρακτηριστικών του σήματος, όσο και της μορφής της ηχητικής σκηνής. Μάλιστα προτείνουμε και μια παραλλαγή μιας κλασσικής μεθόδου, που ονομάζουμε Reduced Likelihood Ratio Jump, η οποία μπορεί να δώσει καλύτερη ποιότητα διαχωρισμού σε μειωμένο υπολογιστικό χρόνο. Τέλος διεξάγουμε ηχογραφήσεις σε περιβάλλον πραγματικού δωματίου με χρήση της συσκευής αισθητήρων Kinect της Microsoft, της οποίες χρησιμοποιούμε για να αξιολογήσουμε την αποτελεσματικότητα των μεθόδων με την χρήση κατάλληλων μετρικών για ηχητικές δεδομένα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

9 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

10 Περιεγχόμενα Abstract... 8 Περιεχόμενα... Error! Bookmark not defined. Λίστα Πινάκων Λίστα Διαγραμμάτων Κεφάλαιο 1: Εισαγωγή Cocktail Party Problem Εφαρμογές Source Separation Πρόβλημα εργασίας Τεχνικές αντιμετώπισης του Audio Source Separation Problem Blind Source Separation Permutation ambiguity Πειράματα Σύνοψη εργασίας Κεφάλαιο 2: Instantaneous mixtures Εισαγωγή Μοντελοποίηση Προβλήματος Γενικά για το ICA framework Περιορισμοί του ICA Ασάφειες του ICA Principal Component Analysis FastICA με βελτιστοποίηση διαφόρων κριτηρίων FastICA με χρήση του κριτηρίου της κύρωσης FastICA χρήση του κριτηρίου negentropy FastICA με εκτιμητή μεγίστης πιθανοφάνειας Ορθογωνοποίηση πολλών ICs Σύνοψη FastICA αλγορίθμων RobustICA Συμπεράσματα Κεφάλαιο 3: ICA για Convolutive mixtures Εισαγωγή Μοντελοποίηση προβλήματος Λύση Προβλήματος μέσω ICA framework ICA για την λύση των L instantaneous mixtures Σύνοψη μεθόδου διαχωρισμού ηχητικών πηγών Συμπεράσματα Κεφάλαιο 4: Ambiguities of ICA Framework Εισαγωγή Solving the scale ambiguity Solving the permutation ambiguity Source modelling approaches (Likelihood Ratio Jump) Source modelling approaches (Reduced Likelihood Ratio Jump) Channel modelling τεχνικές (beamforming) Προσδιορισμός DOA μέσω Directivity Patterns Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

11 4.2.5 Προσδιορισμός DOA μέσω του αλγορίθμου MuSIC Λύση του permutation ambiguity με χρήση MuSIC Beamformer Συνδυασμός Source και Channel Modelling approaches Συμπεράσματα Κεφάλαιο 5: Πειράματα και αξιολόγηση μεθόδων Εισαγωγή Πειράματα διαχωρισμού instantaneous mixtures Μετρικές αξιολόγησης αποτελεσμάτων Περιγραφή Πειραμάτων Πειράματα Σχολιασμός αποτελεσμάτων Πειράματα διαχωρισμού Convolutive mixtures Παραγωγή δεδομένων ηχογραφήσεων Μετρικές αξιολόγησης ποιότητας διαχωρισμού Πειράματα για Προσδιορισμό πιο αποτελεσματικής παραλλαγής του ICA Πειράματα για Προσδιορισμό αποτελεσματικότητας Beamforming Τελικά αποτελέσματα το set ηχογραφήσεων Συμπεράσματα Βιβλιογραφικές αναφορές Ευρετήριο όρων Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

12 Λίστα Πινάκων Table 2.1 FastICA with Kurtosis (Deflationary orthogonalization) Table 2.2 FastICA with negentropy (Deflationary orthogonalization) Table 2.3 FastICA with Kurtosis (Symmetric orthogonalization) Table 2.4 FastICA with negentropy (Symmetric orthogonalization) Table 2.5 FastICA with Maximum Likelihood Estimator (Symmetric orthogonalization) Table 2.6 Steps of RobustICA Table 2.7 Caclulate multiple ICs for RobustICA without prewhitenning Table 3.2 Συνολικός αλγόριθμος για το πρόβλημα του Source Separation με Convolutive Mixtures Table 4.1 Αλγόριθμος Likelihood Ratio Jump Table 4.2 Αλγόριθμος Reduced Likelihood Ratio Jump Table 4.3 Σύγκριση πολυπλοκότητας ανά επανάληψη Likelihood Ratio Jump με Reduced Likelihood Ratio Jump Table 4.4 Παράδειγμα χρόνου εκτέλεσης για τέσσερις πηγές (15 επαναλήψεις της κάθε μεθόδου) Table 4.5 Αλγόριθμος υπολογισμού μονών μεταβάσεων συναρτήσει του αριθμού των πηγών.. 89 Table 4.6 Αλγόριθμος λύσης Permutation ambiguity μέσω beamforming Table 4.7 Αλγόριθμος για συνδιασμό Source Modelling και Channel Modelling approach Table 5.1 Μεθοδολογία διαχωρισμού instantaneous mixtures μέσω ICA Table 5.2 Τιμές κύρτωσης για τους διαφορετικούς τύπους πηγών Table 5.3 Παραλλαγές ICA που θα χρησιμοποιηθούν Table 5.4 Παράμετροι πειραμάτων Table 5.5 Είδη πηγών (Πείραμα 1) Table 5.6 Αποτελέσματα (Πείραμα 1) Table 5.6 Είδη πηγών (Πείραμα 2) Table 5.7 Αποτελέσματα (Πείραμα 2) Table 5.8 Είδη πηγών (Πείραμα 3) Table 5.9 Αποτελέσματα (Πείραμα 3) Table 5.10 Είδη πηγών (Πείραμα 4) Table 5.11 Αποτελέσματα (Πείραμα 4) Table 5.12 Παραλλαγές ICA που θα εξετάσουμε για τον διαχωρισμό Convolutive Mixtures Table 5.13 Παράμετροι πρώτου πειράματος για προσδιορισμό πιο αποτελεσματικής ICA μεθόδου Table 5.14 Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (5 επαναλήψεις) Table 5.15 Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (5 επαναλήψεις) Table 5.16 Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (20 επαναλήψεις) Table 5.17 Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (20 επαναλήψεις) Table 5.18 Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (50 επαναλήψεις) Table 5.19 Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (50 επαναλήψεις) Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

13 Table 5.20 Τιμές μετρικών αξιολόγησης για τις 3 πηγές του recording_3x3_3 συναρτήσει του τ Table 5.20 Απόδοση ICA framework για προβλήματα τριών πηγών, συναρτήσει του αριθμού των επαναλήψεων Table 5.21 Παράμετροι δεύτερου πειράματος για αξιολόγηση Beamforming Table 5.22 Αποτελέσματα SIR, για ηχογραφήσεις 2 πηγών, με χρήση Likelihood Ratio Jump 134 Table 5.23 Αποτελέσματα SIR, για ηχογραφήσεις 2 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming Table 5.24 Αποτελέσματα SIR, για ηχογραφήσεις 3 πηγών, με χρήση Likelihood Ratio Jump 135 Table 5.25 Αποτελέσματα SIR, για ηχογραφήσεις 3 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming Table 5.26 Αποτελέσματα SIR, για ηχογραφήσεις 4 πηγών, με χρήση Likelihood Ratio Jump 135 Table 5.27 Αποτελέσματα SIR, για ηχογραφήσεις 4 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming Table 5.28 Παράμετροι τρίτου πειράματος για αξιολόγηση Reduced Likelihood Ratio Jump. 138 Table 5.29 Απόδοση (SIR), για την μέθοδο του Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (3 πηγές) Table 5.30 Χρόνος εκτέλεσης για την μέθοδο του Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (3 πηγές) Table 5.31 Απόδοση (SIR), για την μέθοδο του Reduced Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (3 πηγές) Table 5.32 Χρόνος εκτέλεσης για την μέθοδο του Reduced Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (3 πηγές) Table 5.33 Απόδοση (SIR), για την μέθοδο του Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (4 πηγές) Table 5.34 Χρόνος εκτέλεσης για την μέθοδο του Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (4 πηγές) Table 5.35 Απόδοση (SIR), για την μέθοδο του Reduced Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (4 πηγές) Table 5.36 Χρόνος εκτέλεσης για την μέθοδο του Reduced Likelihood Ratio Jump, συναρτήσει αριθμού επαναλήψεων (4 πηγές) Table 5.37 Παράμετροι για βέλτιστη ποιότητα διαχωρισμού συναρτήσει του αριθμού των πηγών Table 5.38 Βέλτιστα αποτελέσματα διαχωρισμού, για την περίπτωση δύο πηγών Table 5.39 Βέλτιστα αποτελέσματα διαχωρισμού, για την περίπτωση τριών πηγών Table 5.40 Βέλτιστα αποτελέσματα διαχωρισμού, για την περίπτωση τεσσάρων πηγών Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

14 Λίστα Διαγραμμάτων Figure 1.1 Cocktail Party Problem Figure 2.1 Γενικό μοντέλο του Audio Source Separation Problem Figure 2.2 Two Independent Components Figure 2.3 Two Uncorrelated Components Figure 2.4 Μίξει 2 Gaussian πηγών Figure 2.5 Gaussian Πηγής με Πηγή από ομοιόμορφη κατανομή (independent) Figure 2.6 Gaussian Πηγής με Πηγή από ομοιόμορφη κατανομή (uncorrelated) Figure 2.7 Πηγή ημιτόνου Figure 2.8 Laplacian Πηγή Figure 2.9 Observations πρώτου μικροφώνου Figure 2.10 Observations δευτέρου μικροφώνο Figure 2.11 Independent component Figure 2.12 Independent component Figure 2.13 Correlated random variables Figure 2.14 Uncorrelated random variables Figure 2.15 Super Sub Gaussian example Figure 2.16 Orthogonal ICs Figure 3.1 Ανακλάσεις Κυμάτων Ηχητικής Πηγής σε Πραγματικό Δωμάτιο Figure 3.2 Ανακλάσεις Ηχητικών Κυμάτων σε Πραγματικό Δωμάτιο (Περίπτωση 2 πηγών 2 Μικροφώνων) Figure 3.3 Λειτουργεία STFT μετασχηματισμού Figure 3.4 Κύρτωση πραγματικού μέρους κάθε frequency bins (frequency domain) Figure 3.5 Κύρτωση φανταστικού μέρους κάθε frequency bins (frequency domain) Figure 3.6 Κύρτωση κάθε time frames (time domain) Figure 3.7 Spectrogram πρώτου μικροφώνου Figure 3.8 Spectrogram δευτέρου μικροφώνου Figure 3.9 Spectrogram πρώτης πηγής Figure 3.10 Spectrogram δεύτερης πηγής Figure 3.11 Παρατήρηση δομών κάθε ξεχωριστής πηγής στην κοινή μίξει Figure 3.12 Spectrogram πρώτης πηγής χωρίς αντιμετώπιση permutation ambiguity Figure 3.13 Spectrogram δεύτερης πηγής χωρίς αντιμετώπιση permutation ambiguity Figure 4.1 Αρχική Τριγωνική πηγή Figure 4.2 IC που προκύπτει από τον διαχωρισμό χωρίς λύση του scale ambiguity Figure 4.3 Εικόνα πηγής στο πρώτο αισθητήρα Figure 4.4 Εικόνα IC στον πρώτο αισθητηρα μετά μέσω λύσης του scale ambiguity Figure 4.5 Πιθανές μεταβάσεις γραμμών του πίνακα W, για την περίπτωση τεσσάρων πηγών.. 84 Figure 4.6 Πλήθος frequency bins που δεν χρειάζονται καμία αλλαγήs στο permutation, συναρτήσει του αριθμού των επαναλήψεων για τις 2 εξεταζόμενες μεθόδους (Σύνολο frequency bins : 2001, αριθμός πηγών: 4) Figure 4.7 SIR συναρτήσει του αριθμού των επαναλήψεων για τις 2 μεθόδους λύσης του Permutation Ambiguity (Σύνολο frequency bins : 2001, αριθμός πηγών: 4) Figure 4.8 Beamforming μοντέλο για μια ηχητική πηγή Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

15 Figure 4.9 Directivity Pattern Figure 4.10 Directivity Patterns για όλα τα frequency bins Figure 4.11 Directivity Pattern ενός IC από frequency bin χαμηλής συχνότητας Figure 4.12 Directivity Pattern ενός IC από frequency bin υψηλής συχνότητας Figure 4.13 Directivity Patterns για όλα τα frequency bins σε πραγματικό δωμάτιο Figure 4.14 Παράδειγμα εκτίμησης DOA, μέσω άθροισης των Directivity Patterns πολλών frequency bins Figure 4.15 Διάγραμμα αλγορίθμου MuSIC για ένα IC, από frequency bin χαμηλής, μεσαίας και υψηλής συχνότητας Figure 4.16 Διάγραμμα αλγορίθμου MuSIC για τυχαίο IC Figure 4.17 Directivity Pattern για τυχαίο IC Figure 4.14 Παράδειγμα εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC για πολλά frequency bins Figure 4.15 Εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC, για πηγές που βρίσκονται στην ίδια γωνία ως προς την συστοιχία των μικροφώνων Figure 4.16 Διαχωρισμός διαγράμματος αλγορίθμου MuSIC σε bounds Figure 4.17 Παράδειγμα διαγράμματος αλγορίθμου MuSIC, το οποίο δεν περιέχει μέγιστο Figure 4.18 Εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC, για πρόβλημα τεσσάρων πηγών Figure 5.1 Ιστογράμματα πηγών (α) Laplacian πηγή (β) Πηγή ημιτόνου (γ) Τετραγωνικός παλμός (δ) Πηγή τυχαίας κατανομής (ε) Τετράγωνο πηγές τυχαίας κατανομής Figure 5.2 Κυματομορφές πηγών (α) Laplacian πηγή (β) Πηγή ημιτόνου (γ) Τετραγωνικός παλμός (δ) Πηγή τυχαίας κατανομής (ε) Τετράγωνο πηγές τυχαίας κατανομής Figure 5.3 Σύγκριση εκτίμησης της τριγωνικής με την πραγματική πηγή, για τον πρώτο αισθητήρα Figure 5.4 Σύγκριση εκτίμησης του τετραγωνικού παλμού με την πραγματική πηγή, για τον πρώτο αισθητήρα Figure 5.5 Κάτοψη Kinect με ακριβείς τοποθέτηση μικροφώνων στο χώρο Figure 5.6 Κάτοψη Πραγματικού Δωματίου, όπου πραγματοποιήθηκαν οι ηχογραφήσεις Figure 5.7 Κυματομορφή μουσικού κομματιού όπως αναπαράγεται από τα ηχεία Figure 5.8 Κυματομορφή μουσικού κομματιού όπως καταγράφεται από το Kinect Figure 5.9 Περιγραφή χαρακτηριστικών, για τις 13 ηχογραφήσεις που κατασκευάσαμε Figure 5.10 Ποιότητα διαχωρισμού μετρημένη μέσο του SIR, για 2 πηγές που εξάγονται από μια μίξει, συναρτήσει διαφορετικών τιμών NFFT Figure 5.11 Τοπολογία ηχογραφήσεων recording_3x3_4 και recording_3x3_ Figure 5.12 DOA υπολογισμένα από τον αλγόριθμο MuSIC μέσο άθροισης πολλών frequency bins, για τα recording_4x4_1 και recording_4x4_ Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

16 Κεφάλαιο 1: Εισαγωγή 1.1 Cocktail Party Problem Θέμα της παρούσας διπλωματικής εργασίας είναι o διαχωρισμός ηχητικών πηγών σε περιβάλλον πραγματικού δωματίου. Στην εργασία αυτή θα αναλύσουμε πολλές πτυχές, αυτού του δύσκολου αλλά και αρκετά μελετημένου προβλήματος και θα χρησιμοποιήσουμε πληθώρα μεθόδων επεξεργασίας σήματος για να αντιμετωπίσουμε τις διάφορες προκλήσεις που εισάγει. Ακόμα θα εξετάσουμε και την δυνατότητα εφαρμογής νέων τεχνικών για την πιο αποτελεσματική λύση των διαφόρων υποπροβλημάτων που θα αντιμετωπίζουμε κατά την εξέλιξη της εργασίας. Αρχικά όμως για να μπορέσουμε να αντιληφθούμε το πρόβλημα του διαχωρισμού ηχητικών πηγών διαισθητικά, μπορούμε να χρησιμοποιήσουμε το μοντέλο του Cocktail Party Problem. Το Cocktail Party Problem, προτάθηκε από τον Colin Cherry το 1953 [1], και είναι ένα ψυχικό και ακουστικό φαινόμενο, το οποίο αναφέρεται στην ικανότητα του ανθρώπινου εγκεφάλου να αναγνωρίζει με ευκολία μια ηχητική πηγή σε ένα περιβάλλον όπου μπορεί να υπάρχει πληθώρα άλλων ηχητικών ερεθισμάτων αλλά και υψηλό υπόβαθρο θορύβου. Φανταστείτε ότι βρίσκεστε σε έναν χώρο στον οποίο λαμβάνει χώρα ένα Cocktail Party, και πλήθος ανθρώπων μιλάνε ταυτόχρονα. Παρόλο που στα αυτιά σας έρχεται μεγάλο πλήθος ηχητικών ερεθισμάτων, μπορείτε με ευκολία να απομονώσετε την συζήτηση που σας ενδιαφέρει χωρίς να δίνετε σημασία στους υπόλοιπους διαλόγους ή στη μουσική που παίζει στο μπαρ. Figure 1.1 Cocktail Party Problem Το Cocktail Party Problem, από το 1953 όπου και προτάθηκε, έχει μελετηθεί διεξοδικά και μάλιστα από διαφορετικούς κλάδους τις επιστήμης, όπως η ψυχολογία, η βιολογία του εγκεφάλου, η βιοφυσική, η επιστήμη των υπολογιστών και η μηχανική. Το κύριο ερώτημα που τίθεται είναι πώς ο εγκέφαλος αντιμετωπίζει τον διαχωρισμό, την ανάλυση και κατανόηση των ηχητικών πηγών, αλλά και σε τι βαθμό μια υπολογιστική μηχανή είναι ικανή να λύσει το συγκεκριμένο πρόβλημα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

17 Στην εργασία αυτή θα ασχοληθούμε με τον διαχωρισμό των ηχητικών πηγών, όπως αυτές παρατηρούνται από πλήθος μικροφώνων, σε αυτόνομες και ανεξάρτητες οντότητες, εξερευνώντας τα περιθώρια λύσης του συγκεκριμένου προβλήματος μέσω αυτοματοποιημένης υπολογιστικής ανάλυσης. Το ηχητικό περιβάλλον (Auditory Scene), στο οποίο θα κληθούμε να λύσουμε το πρόβλημα είναι αυτό ενός πραγματικού δωματίου, το οποίο εισάγει νέες προκλήσεις λόγω των ανακλάσεων που υφίστανται τα ηχητικά κύματα, με αποτέλεσμα πολλαπλά αντίγραφά τους να παρατηρούνται από τις ηχητικές πηγές. Γενικά το πρόβλημα του Audio Source Separation, όπως αναφέρεται ο διαχωρισμός ηχητικών πηγών στην αγγλική γλώσσα, είναι ένα αρκετά μελετημένο θέμα που απασχολεί την επιστημονική κοινότητα την τελευταία δεκαπενταετία, ενώ θεωρείται ένα απαιτητικό πρόβλημα για το οποίο έχουν προταθεί πλήθος διαφορετικών μεθόδων για την αντιμετώπισή του. 1.2 Εφαρμογές Source Separation Ο διαχωρισμός Πηγών βρίσκει πολλές εφαρμογές σε διάφορους τομείς της επιστήμης και της τεχνολογίας. Εκτός από τις εφαρμογές που σχετίζονται με διαχωρισμό Ηχητικών κυμάτων, μπορούμε να προεκτείνουμε την λογική του Source Separation και σε άλλα είδη μειγμάτων από σήματα, τα οποία θέλουμε να διαχωρίσουμε εξάγοντας αυτόνομες οντότητες. Μερικά παραδείγματα που αφορούν ηχητικά σήματα είναι: Περιορισμός θορύβου σε κινητές συσκευές και ακουστικά βοηθήματα. Σε περιβάλλοντα υψηλού θορύβου, μπορούμε να απομονώσουμε κατά τον διαχωρισμό το κανάλι που περιέχει αποκλειστικά θόρυβο από συγκεκριμένη πηγή και στη συνέχεια να το αφαιρέσουμε από το τελικό σήμα. Διαχωρισμός ηχογράφησης μουσικών οργάνων, με στόχο την απομόνωση κάθε οργάνου. Η συγκεκριμένη πληροφορία έχει μεγάλη αξία αφού δίνει τη δυνατότητα παρατήρησης και επεξεργασίας κάθε μουσικού οργάνου ξεχωριστά, ενώ τέτοιες τεχνικές εφαρμόζονται στα σύγχρονα πακέτα λογισμικού για ανάλυση μουσικής. Αποτελεσματικότερη συμπίεση μουσικών κομματιών. Κάθε όργανο ξεχωριστά έχει διαφορετικά χαρακτηριστικά τα οποία οδηγούν σε διαφορετικές ικανότητες κωδικοποίησης και συμπίεσης. Ένας αποτελεσματικός διαχωρισμός δίνει την δυνατότητα αποθήκευσης κάθε οργάνου ξεχωριστά οδηγώντας σε μια βέλτιστη συμπίεση του μουσικού κομματιού από πλευράς αποτελεσματικότητας και απόδοσης. Άλλες εφαρμογές σε σήματα που δεν είναι αποκλειστικά ηχητικά: Κατά την επεξεργασία εγκεφαλικών σημάτων. Πολλές διαφορετικές πηγές στον εγκέφαλο εκπέμπουν σήματα το οποία παρατηρούνται ως μείγμα από τους καταγραφείς, δίνοντας ένα πρόβλημα διαχωρισμού αρκετά όμοιο με αυτό του διαχωρισμού ηχητικών πηγών [2]. Κατά την εξαγωγή χαρακτηριστικών από εικόνες, μπορούν να χρησιμοποιηθούν τεχνικές που να διαχωρίζουν και απομονώνουν χαρακτηριστικά ανεξάρτητα και αυτόνομα σε σχέση με τα υπόλοιπα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

18 Σε διάφορες πτυχές της επεξεργασίας οικονομικών δεδομένων όπου εμφανίζονται μείγματα, μπορούμε να χρησιμοποιήσουμε τεχνικές separation με στόχο να αποκτήσουμε μια καλύτερη αντίληψη της εσωτερικής δομής των δεδομένων [3][4]. 1.3 Πρόβλημα εργασίας Το Audio Source Separation είναι ένα αρκετά γενικό και εκτενές πρόβλημα που δεν επιδέχεται μια γενική λύση. Αντί αυτού η τακτική αντιμετώπισης είναι να το χωρίσουμε σε υποπεριπτώσεις και να αντιμετωπίζουμε κάθε υπό - πρόβλημα ξεχωριστά. Σε αυτή την λογική, μελετάμε σε αυτήν την εργασία, διαχωρισμό ηχητικών πηγών σε περιβάλλον πραγματικού δωματίου, ενώ τα προβλήματα που θα αντιμετωπίσουμε ανήκουν στη κατηγορία του Determined. Γενικά με τον όρο determined, αναφερόμαστε σε προβλήματα όπου ο αριθμός των μικροφώνων είναι ίσως με τον αριθμό τον ηχητικών πηγών που θέλουμε να εξάγουμε. Η άλλη κατηγορία είναι τα Underdetermined προβλήματα, όπου ο αριθμός των μικροφώνων είναι μικρότερος από αυτόν των πηγών που συμμετέχουν στη μίξει και εκεί η λογική αντιμετώπισης διαφέρει σημαντικά. Ακόμα, θα εξετάσουμε την λύση του προβλήματος σε περιβάλλον πραγματικού δωματίου. Το πραγματικό δωμάτιο εισάγει αρκετές προκλήσεις στη ανάλυση, αφού παρουσιάζονται ανακλάσεις των ηχητικών κυμάτων στις διάφορες επιφάνειες του, με αποτέλεσμα το ίδιο σήμα να καταγράφεται πολλές φορές από τα μικρόφωνα, προερχόμενο από διαφορετικές κατευθύνσεις και έχοντας χρονικές διαφορές με το αρχικό σήμα. Η κατάσταση αυτή περιγράφεται ως convolutive mixture και η μοντελοποίησή της, διαφέρει από την απλή μίξει σε ελεύθερο χώρο χωρίς ανακλάσεις, την οποία θα ονομάζουμε instantaneous mixture. 1.4 Τεχνικές αντιμετώπισης του Audio Source Separation Problem Στην εργασία αυτή θα επιχειρήσουμε να αντιμετωπίσουμε το πρόβλημα του διαχωρισμού ηχητικών πηγών με διάφορες προσεγγίσεις που εκμεταλλεύονται διαφορετικές ιδιότητες και χαρακτηριστικά του εξεταζόμενου συστήματος. Μερικές από τις βασικές έννοιες του προβλήματος καθώς και διάφορες μέθοδοι που θα χρησιμοποιήσουμε για την αντιμετώπιση των υποπροβλημάτων που θα συναντήσουμε περιγράφονται συνοπτικά παρακάτω Blind Source Separation Ο όρος Blind Source Separation (BSS) αναφέρεται στον διαχωρισμό σημάτων από μια μίξει, χωρίς να δίνεται καμία (ή καλύτερα σχεδόν καμία όπως θα δούμε παρακάτω) πληροφορία για την φύση των σημάτων αυτών και την γεωμετρία του χώρου όπου γίνεται η καταγραφή. Το πρόβλημα αυτό αποτελεί ένα πρόβλημα βελτιστοποίησης το οποίο μπορεί να αντιμετωπιστεί με πληθώρα διαφορετικών προσεγγίσεων. Οι προσεγγίσεις αυτές αφορούν στην εκμετάλλευση των γενικότερων στατιστικών δομών και ιδιοτήτων του σήματος, χωρίς να λαμβάνουν υπόψιν τα είδη των πηγών που συμμετέχουν αλλά ούτε και την μορφή του χώρου της ηχητικής μίξεις, του Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

19 λεγόμενου auditory scene στην αγγλική βιβλιογραφία. Πρακτικά κάποιες παραδοχές πρέπει να γίνουν για το είδος της κατανομής των σημάτων, αλλά είναι αρκετά γενικές με αποτέλεσμα το BSS να παραμένει μια ισχυρή μέθοδος που μπορεί να εφαρμοστεί σε μεγάλο εύρος προβλημάτων. Μία από τις πολλαπλές μεθόδους με τις οποίες μπορούμε να πραγματοποιήσουμε Blind Source Separation, είναι το Independent Component Analysis (ICA). To ICA είναι μια στατιστική και υπολογιστική τεχνική μέσω της οποίας μπορούμε να εντοπίσουμε κρυμμένες δομές μέσα σε σετ από τυχαίες μεταβλητές, μετρήσεις ή σήματα. Στο ICA αντιμετωπίζουμε τα παρατηρούμενα δεδομένα ως γραμμικές ή μη γραμμικές μίξεις κάποιων άγνωστων πηγών, μέσω ενός συστήματος μίξεις το οποίο είναι επίσης άγνωστο. Για να μπορέσει αυτή η μέθοδος να λειτουργήσει πρέπει να έχουμε στην διάθεσή μας πολλαπλές καταγραφές του ίδιου μείγματος, το οποίο στην περίπτωση μας ισοδυναμεί με καταγραφή των ηχητικών πηγών από διαφορετικά μικρόφωνα. Η βασική παραδοχή που πραγματοποιούμε είναι ότι οι πηγές που θέλουμε να διαχωρίσουμε είναι ανεξάρτητες μεταξύ τους. Το κριτήριο της ανεξαρτησίας μπορεί με σχετική ακρίβεια να θεωρηθεί ότι πληρείται για μεγάλο αριθμό προβλημάτων. Γενικά, μπορούμε να υποθέσουμε ότι όταν 2 άτομα μιλάνε ταυτόχρονα στο ίδιο δωμάτιο, τα 2 ηχητικά σήματα που υφίστανται μίξει είναι ανεξάρτητα. Με άλλα λόγια οι τιμές του ενός δεν μας δίνουν πληροφορία για τις τιμές του άλλου. Μάλιστα, η μέθοδος φαίνεται να δουλεύει ικανοποιητικά ακόμα και να μην πληρείται απόλυτα ο περιορισμός της ανεξαρτησίας. Για παράδειγμα, μέσω ICA είμαστε ικανοί να διαχωρίσουμε και σήματα τα οποία ανήκουν σε πηγές που έχουν συσχέτιση μεταξύ τους, όπως όταν προσπαθούμε να εξάγουμε τα διαφορετικά όργανα που συμμετέχουν σε μια μουσική μίξει. Είναι προφανές ότι η μουσική που παράγεται από το ένα όργανο δεν είναι ανεξάρτητη με την μουσική που παράγεται σε ένα άλλο, αλλά η μέθοδος μας είναι ικανή να πραγματοποιήσει διαχωρισμό σε κάποιο βαθμό. Ο λόγος που γίνεται αυτό είναι ότι χρονικά, τα διάφορα μουσικά σήματα δεν είναι πλήρως συσχετισμένα, δηλαδή δεν παίζουν την ίδια χρονική στιγμή πάντοτε και όλα μαζί, κι έτσι είναι δυνατός ο διαχωρισμός Υπάρχουν αρκετές παραλλαγές για την πραγματοποίηση ICA στην βιβλιογραφία. Η πιο κοινή αντιμετώπιση είναι ένας αλγόριθμος που ονομάζεται FastICA και του οποίου τη λειτουργία θα παρουσιάσουμε αναλυτικά στη συνέχεια της εργασίας. Όπως προϊδεάζει και το όνομα του είναι ένας αποδοτικός αλγόριθμος που δίνει γρήγορα και ακριβή αποτελέσματα. Στη συγκεκριμένη διπλωματική εργασία μελετάμε ακόμα και μια καινούργια μέθοδο για πραγματοποίηση ICA, η οποία ονομάζεται RobustICA [46]. Ο RobustICA, δεν έχει μελετηθεί στη βιβλιογραφία για προβλήματα Audio Separation, ενώ μέσα από τα πειράματα που πραγματοποιούμε βλέπουμε ότι δίνει πολύ καλά αποτελέσματα και μπορεί να ξεπεράσει τον FastICA τόσο σε ταχύτητα όσο και σε ποιότητα διαχωρισμού Permutation ambiguity Ο ICA όπως αναφέραμε, λύνει ένα πρόβλημα βελτιστοποίησης και όπως θα δούμε παρακάτω, τα αποτελέσματα που μπορεί να εξάγει εμπεριέχουν κάποιες ασάφειες. Οι ασάφειες αυτές αφορούν Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

20 την ένταση και την σειρά των σημάτων εξόδου (scale and permutation ambiguities), που δεν μπορούν να προσδιοριστούν λόγω της περιορισμένης πληροφορίας την οποία έχει στην διάθεσή του για τη μίξει που πραγματοποιείται. Ειδικά, το Permutation Ambiguity, αποτέλεσμα του οποίου είναι να μην ξέρουμε σε ποια πηγή αναφέρεται κάθε component το οποίο ο ICA εντοπίζει στα δεδομένα, αποτελεί ένα ανοιχτό ζήτημα αφού δεν υπάρχει γενική μέθοδος που να είναι αποτελεσματική για όλους τους τύπους προβλημάτων που μπορεί να συναντήσουμε. Η ασάφεια αυτή δημιουργεί σημαντικά προβλήματα στον σωστό διαχωρισμό των πηγών ειδικά στην περίπτωση του διαχωρισμού σε πραγματικό δωμάτιο. Για να αντιμετωπίσουμε το πρόβλημα σε πραγματικό δωμάτιο, πρέπει να μεταφερθούμε στο πεδίο της συχνότητας όπου χωρίζουμε το αρχικό πρόβλημα σε υποπροβλήματα τα οποία λύνονται ξεχωριστά. Οι λύσεις όμως των υποπροβλημάτων αυτών, όπως θα δούμε παρακάτω, πρέπει να ομαδοποιηθούν σωστά στις αντίστοιχες πηγές ή με άλλα λόγια να αποκατασταθεί το σωστό permutation, αλλιώς δεν μπορεί να επέλθει σωστός διαχωρισμός. Για την λύση του permutation ambiguity, θα εξετάσουμε 2 διαφορετικές λογικές αντιμετώπισης. Η πρώτη ονομάζεται Source Modelling Approach και βασίζεται στην εκμετάλλευση των ιδιοτήτων του σήματος. Πιο συγκεκριμένα, η μέθοδος που θα χρησιμοποιήσουμε ονομάζεται Likelihood Ratio Jump, και είναι μια στατιστική τεχνική που εκμεταλλεύεται την δομή του σήματος όπως αυτή εξελίσσεται στο χρόνο (time envelope). Για την συγκεκριμένη μέθοδο θα προτείνουμε ακόμα μια παραλλαγή της την οποία θα ονομάσουμε Reduced Likelihood Ratio Jump, που σκοπό έχει να μειώσει τον υπολογιστικό χρόνο που απαιτείτε από την κλασσική μέθοδο και όπως θα δούμε, μπορεί να αποδώσει καλύτερες ποιότητες διαχωρισμού αφού οδηγεί σε καθολική σύγκλιση για όλα τα υποπροβλήματα των οποίων το permutation θέλουμε να αποκαταστήσουμε. Η δεύτερη λογική αντιμετώπισης του permutation ambiguity, ονομάζεται Channel Modelling Approach και βασίζεται στην εκτίμηση της γεωμετρίας της ακουστικής σκηνής (auditory scene). Πιο συγκεκριμένα, η μέθοδος που θα εξετάσουμε είναι το Βeamforming. Το beamforming αναπτύχθηκε κατά τις δεκαετίες του ʼ70 και ʼ80. Χρησιμοποιεί μια σειρά αισθητήρων για να κάνει μια εκτίμηση της κατεύθυνσης από την οποία εκπέμπεται το καταγραφόμενο σήμα. Οι πρώτες εφαρμογές αφορούσαν συστήματα radar, sonar και συστήματα σεισμολογίας. Πλέον, χρησιμοποιείται και για άλλους τομείς όπως η βιοιατρική και η αστρονομία, ενώ θεωρείται μια καλά θεμελιωμένη μέθοδος που έχει μελετηθεί διεξοδικά από την επιστημονική κοινότητα. Το beamforming εκμεταλλεύεται διαφορές στις καταγραφές των μικροφώνων όπως χρονικές καθυστερήσεις που μπορεί να υπάρχουν και κάνει εκτιμήσεις για τον αριθμό των πηγών σε ένα auditory scene, τις γωνίες όπου αυτές βρίσκονται, σε σχέση με τα μικρόφωνα [5], ακόμα και απομόνωση των πηγών που έρχονται από συγκεκριμένη κατεύθυνση πραγματοποιώντας ουσιαστικά Source Separation. Σε περιβάλλον πραγματικού δωματίου μπορεί να εφαρμοστεί παρόλο που υπόκειται σε κάποιους περιορισμός, κυρίως λόγω του μεγάλου αριθμού ανακλάσεων που συμβαίνουν στις επιφάνειες του δωματίου, ενώ χρειάζεται γνώση των γεωμετρικών χαρακτηριστικών του auditory scene όπως για παράδειγμα η απόσταση μεταξύ των μικροφώνων. Παρόλα αυτά, μπορεί σε αρκετές περιπτώσεις να προσδιορίσει την γωνία από την οποία έρχεται κάθε πηγή που εξάγει ο ICA. Θα εκμεταλλευτούμε αυτήν την πληροφορία στην συνέχεια της εργασίας για να δώσουμε μια λύση στο permutation ambiguity. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

21 1.5 Πειράματα Στην εργασία αυτή, θα πραγματοποιηθούν πειράματα που θα μας δώσουν την δυνατότητα, από την μια πλευρά, να εκτιμήσουμε την αποτελεσματικότητα των μεθόδων -με χρήση κατάλληλων μετρικών απόδοσης- και από την άλλη να ακούσουμε το ηχητικό αποτέλεσμα του audio separation. Επιπλέον, θα πραγματοποιήσουμε ηχογραφήσεις πηγών που αναπαράγονται από διαφορετικά ηχεία, ξεχωριστά αλλά και ως μίξει σε ένα πραγματικό δωμάτιο. Στην συνέχεια, ελέγχουμε με χρήση μετρικών πόσο κοντά είναι το αποτέλεσμα διαχωρισμού που δίνει ο αλγόριθμος, με την αυτόνομη ηχογράφηση κάθε πηγής ξεχωριστά. Για να πραγματοποιήσουμε την καταγραφή της μίξεις των διαφόρων πηγών μας, θα χρησιμοποιήσουμε την συσκευή Kinect της Microsoft, η οποία περιέχει 4 μικρόφωνα σε συγκεκριμένη απόσταση μεταξύ τους. Σε όλα τα πειράματα που θα πραγματοποιήσουμε οι ηχητικές πηγές που θα προσπαθούμε να εξάγουμε θα είναι πάντα λιγότερες από 4 και κατά συνέπεια το πλήθος μικροφώνων του Kinect είναι αρκετό, αφού όπως είπαμε, τα προβλήματα που θα αντιμετωπίσουμε ανήκουν στη κατηγορία των determined με αριθμό πηγών και μικροφώνων ίσο. Το συνολικό σετ ηχογραφήσεων που κατασκευάσαμε σε αυτήν την εργασία αποτελείται από 13 ηχογραφήσεις που περιέχουν από 2 έως και 4 πηγές τοποθετημένες σε διάφορες τοπολογίες μέσα στο auditory scene, ενώ τα δεδομένα αυτά μπορούν να βρεθούν στην προσωπική ιστοσελίδα ( ), και να χρησιμοποιηθούν ελεύθερα για περαιτέρω έρευνα τόσο για τις διάφορες μεθόδους του source separation, όσο και της καταλληλόλητας του Kinect ως συσκευή αισθητήρων για εφαρμογές που εμπεριέχουν διαχωρισμό ηχητικών πηγών. 1.6 Σύνοψη εργασίας. Στο Κεφάλαιο 1, κάνουμε μια σύντομη εισαγωγή στο πρόβλημα που θα μας απασχολήσει σε αυτήν την εργασία και την μεθοδολογία με την οποία θα το αντιμετωπίσουμε Στο Κεφάλαιο 2, παρουσιάζουμε την βασική μέθοδο του διαχωρισμού που θα χρησιμοποιήσουμε και ονομάζεται ICA για να λύσουμε το Instananeous πρόβλημα. Αναλύουμε σε βάθος τον τρόπο λειτουργείας της μεθόδου, και την μαθηματική θεμελίωση των διαφόρων παραλλαγών της, ενώ εξετάζουμε και μια σχετικά καινούργια παραλλαγή του ICA, τον RobustICA τον οποίον σκοπεύουμε να συγκρίνουμε με την κλασσική μέθοδο του FastICA στην συνέχεια της εργασίας. Στο Κεφάλαιο 3, ασχολούμαστε με το γενικότερο framework της λύσης του πολύπλοκου Convolutive προβλήματος. Παρουσιάζουμε όλες τις διαφορές του σε σχέση με την απλή περίπτωση του Instantaneous Mixtures, και περιγράφουμε γιατί το πεδίο της συχνότητας είναι ο κατάλληλος χώρος για να το αντιμετωπίσουμε. Ακόμα με χρήση παραδείγματος, τονίζουμε την σημασία του Permutation Ambiguity που αν δεν αντιμετωπιστεί σωστά δεν μπορούμε να επιφέρουμε διαχωρισμό. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

22 Στο Κεφάλαιο 4, ασχολούμαστε με την λύση των δύο ασαφειών του ICA, το Scale και Permutation Ambiguity. Βλέπουμε ότι το scale μπορεί να αποκατασταθεί με μια απλή μέθοδο που περιλαμβάνει μεταφορά πίσω στο χώρο των μικροφώνων, ενώ για το πιο δύσκολο πρόβλημα του Permutation Ambiguity, παρουσιάζουμε Source Modelling και Channel Modelling τεχνικές, τις οποίες συνδυάζουμε κιόλας για να πετύχουμε τα βέλτιστα αποτελέσματα. Προτείνουμε ακόμα μια παραλλαγή του κλασσικού Likelihood Ratio Jump, που ονομάζουμε Reduced Likelihood Ratio Jump, η οποία λειτουργεί σε μικρότερο υπολογιστικό χρόνο, ενώ θα δούμε ότι μπορεί να δώσει πιο ακριβείς διαχωρισμού. Τέλος στο Κεφάλαιο 5, πραγματοποιούμε πειράματα για να εξετάσουμε την αποτελεσματικότητα των μεθόδων που παρουσιάσαμε σε όλη την εργασία. Δείχνουμε πως κατασκευάσαμε ένα σετ ηχογραφήσεων σε πραγματικό δωμάτιο, και παρουσιάζουμε μετρικές για την αξιολόγηση των διαχωρισμών που καταφέρνουμε να επιφέρουμε. Αφού καταλήξουμε σε συμπεράσματα για το ποιες μέθοδοι είναι κατάλληλοι για τις διαφορετικές υποπεριπτώσεις του προβλήματος, παρουσιάζουμε τα τελικά αποτελέσματα που μπορούμε να επιφέρουμε για το εξεταζόμενο σετ ηχογραφήσεων, για να χρησιμοποιηθούν σαν βάση για οποιαδήποτε μετέπειτα εργασία θέλει να το εξετάσει. Όλοι οι κώδικες που θα χρησιμοποιηθούν σε αυτήν την εργασία είναι γραμμένοι για την προγραμματιστική πλατφόρμα Matlab, και μπορούν να βρεθούν στην προσωπική ιστοσελίδα ( ). Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

23 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

24 Κεφάλαιο 2: Instantaneous mixtures 2.1 Εισαγωγή Μια βασική υποπερίπτωση του BSS (Blind Source Separation) είναι τα instantaneous mixtures τα οποία θα μελετήσουμε σε αυτό το κεφάλαιο. Στην περίπτωση των instantaneous mixtures, θεωρούμε ότι ο κάθε αισθητήρας παρατηρεί έναν γραμμικό συνδυασμό όλων των πηγών που υπάρχουν στο auditory scene. Στην μοντελοποίηση τους τα Instantaneous Μixtures θεωρούν ότι οι πηγές δεν υφίστανται ανακλάσεις αλλά ούτε και χρονικές καθυστερήσεις οδηγώντας σε ένα πιο απλό πρόβλημα σε σχέση με τα convolutive mixtures που θα μελετήσουμε στο επόμενο κεφάλαιο. Ακόμα, στην ανάλυση που παρουσιάζουμε σε αυτό το κεφάλαιο, θα περιοριστούμε όπως και σε όλη αυτήν την εργασία σε determined προβλήματα και δεν θα εισάγουμε στο μοντέλο μας την ύπαρξη θορύβου. Αυτή η παραδοχή γενικά δεν θα δημιουργήσει σημαντικά προβλήματα τόσο στα instantaneous όσο και στα convolutive mixtures αργότερα, αφού γενικά ο θόρυβος που συναντάμε στον ήχο, μπορεί να οφείλεται σε διάφορους λόγους όπως π.χ. ατέλειες στην κατασκευή των μικροφώνων, είναι Gaussian (λευκός) και κατά συνέπεια δεν επηρεάζει σημαντικά την λειτουργία του αλγορίθμου. Απλώς, θα διατηρηθεί και θα συνυπάρχει με τις αυτόνομες ηχητικές οντότητες που θα εξάγει η μέθοδος μας. Τέλος, θα παρουσιάσουμε αναλυτικά τις 2 μεθόδους που θα χρησιμοποιήσουμε για να πραγματοποιήσουμε τον ICA, οι οποίες θα είναι ο FastICA και ο RobustICA. H ανάλυση των instantaneous mixtures είναι αρκετά σημαντική καθώς βρίσκουν πολλές εφαρμογές σε διάφορους τομείς όπως η ανάλυση εικόνας, η επεξεργασία οικονομικών δεδομένων όπου επιθυμούμε να ξεχωρίσουμε αυτόνομους οικονομικούς παράγοντες κ.τ.λ. Ακόμη, τα instantaneous mixtures, σε διαφορετική μορφή θα μας είναι χρήσιμα στη συνέχεια της εργασίας όπου θα προσπαθήσουμε να διαχωρίσουμε convolutive mixtures σε πραγματικό δωμάτιο. Μια συνολική ανάλυση του μοντέλου των Instantaneous mixtures, και των διαφόρων μορφών του ICA που μπορούν να τα αντιμετωπίσουν, μπορεί να βρεθεί στο [44]. Οι κώδικες που υλοποιούν τις διάφορες παραλλαγές του ICA που θα παρουσιαστούν σε αυτό το κεφάλαιο, μπορούν να βρεθούν στην προσωπική ιστοσελίδα ( ), 2.2 Μοντελοποίηση Προβλήματος Παρακάτω θα παρουσιάσουμε το βασικό μοντέλο των instantaneous mixtures. Ας υποθέσουμε ότι έχουμε Ν πηγές που παράγουν τα σήματα s1 (n), s2(n), s3(n)..., s N (n) (Sources), όπου το n αναφέρεται στη χρονική μεταβολή. Τα σήματα διαδίδονται σε κάποιο μέσω (αέρας, καλώδιο, δίκτυο), και σε ένα άλλο σημείο του μέσω καταγράφονται από M αισθητήρες. Οι καταγραφές Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

25 των αισθητήρων είναι ένας συνδυασμός των πηγών και θα αναφερόμαστε σε αυτά ως x 1(n), x 2(n), x 3(n)..., x N (n) (Observations). Ο στόχος του Source Separation, είναι να διαχωρίσει τις αρχικές πηγές έχοντας ως μόνη πληροφορία τις παρατηρήσεις των αισθητήρων. Αν ορίσουμε τα διανύσματα s(n) [ s1 (n) s2(n) s3(n)... s N (n)] και x(n) [ x1 (n) x2(n) x3(n)... x M (n)], στα οποία θα αναφερόμαστε ως Source Signals και Observation Signals αντίστοιχα, η όλη μίξει που πραγματοποιείται μπορεί να μοντελοποιηθεί ως εξής: x(n) A[ s( n)] e(n) Όπου το A είναι το μοντέλο του συστήματος μίξεις λόγου του μέσου, το οποίο στην εργασία αυτή θα είναι ο αέρας, και e(n) είναι ο θόρυβος. Θεωρώντας πως στο πρόβλημα που εξετάζουμε το σύστημα Α είναι αντιστρέψιμος και χωρίς να λαμβάνουμε υπόψιν τον θόρυβο που υπάρχει στη μίξει, μπορούμε να λύσουμε το πρόβλημα αν εκτιμήσουμε ένα νέο σύστημα W tο οποίο θα ισούται με. Τότε, οί αρχικές πηγές θα μπορούν να επανακτηθούν μέσω του: W A 1 u( n) W[x(n)] W[A[s(n)] e(n)] s(n) Source 1 Obseravtion 1 Restored Source 1... Source 2 Mixing System A[.] Obseravtion 2... UnMixing System W[.] Restored Source 2... Source N Obseravtion M Restored Source N Figure 2.1 Γενικό μοντέλο του Audio Source Separation Problem Εφόσoν στα instantaneous mixtures, κάθε μικρόφωνο καταγράφει έναν γραμμικό συνδυασμό των πηγών, έχουμε την παρακάτω μορφή για κάθε αισθητήτρα: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

26 x (n) a s (n) a s (n) a s (n)... a s (n) N N x (n) a s (n) a s (n) a s (n)... a s (n) N N x (n) a s (n) a s (n) a s (n)... a s (n) N N x (n) a s (n) a s (n) a s (n)... a s (n) M M 1 1 M 2 2 M 3 3 MN N Ή με μορφή πικάκων: x1 (n) x (n) a11 a12 a13... a1 s1 (n) a a a... a s (n) x3(n) a31 a32 a34... a 3 s3(n) x (n) a a a a s (n) Κατά συνέπεια, μέσω του ICA framework, θα προσπαθήσουμε να εκτιμήσουμε τον έναν νέο πίνακα W, o οποίος θα έιναι όσο το δυνατόν πιο κοντά στο W A 1 και θα μας δίνει την δυνατότητα μέσω της εφαρμογής του, να ανακτούμε τις αρχικές πηγές. Ακόμα, όπως έχουμε αναφέρει, ο πίνακας αυτός θα είναι τετράγωνος εφόσον θα εστιάσουμε στην ανάλυση με ίσο αριθμό πηγών και μικροφώνων, δηλαδή. 2.3 Γενικά για το ICA framework Γενικά, το ICA είναι μια στατιστική τεχνική η οποία διαχωρίζει σήματα που περιέχουν πολλές μεταβλητές σε συστατικά στοιχεία ανεξάρτητα μεταξύ τους, τα οποία θα αναφέρουμε ως Independent Components (ICs). Τα δεδομένα για τον ICA είναι τυχαίες μεταβλητές και για να έχουμε συμβατότητα με το πρόβλημα μας, από εδώ και πέρα, θα αντιμετωπίζουμε τις κυματομορφές ηχητικών κυμάτων που καταγράφουν τα μικρόφωνα, σαν διαφορετικά δείγματα τυχαίων μεταβλητών. Οι τυχαίες μεταβλητές θα είναι όσες και ο αριθμός των μικροφώνων και ο αριθμός των παρατηρήσεων των μεταβλητών αυτών θα είναι το πλήθος των samples που έχουμε για το σήμα μας. Ένας ορισμός του προβλήματος που καλείται να αντιμετωπίσει ο ICA, θα μπορούσε να είναι: «Ποια διαδικασία θα μπορούσε να αντιστοιχήσει τα δεδομένα από ένα χώρο m διαστάσεων, σε ένα χώρο n διαστάσεων, έτσι ώστε οι μετασχηματισμένες μεταβλητές να δίνουν πληροφορία για τα δεδομένα η οποία είναι κρυμμένη μέσα στο μεγάλο dataset που εξετάζουμε αρχικά.» Ο ICA βασίζεται στην ανεξαρτησία μεταξύ των σημάτων. Για να αντιληφθούμε καλύτερα την συγκεκριμένη έννοια θα κάνουμε μια σύγκριση με το Correlation το οποίο είναι μια ασθενής Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

27 μορφή της ανεξαρτησίας (Independence) και στο οποίο βασίζεται το Principal Component Analysis (PCA). To PCA είναι μια πολύ διαδεδομένη στατιστική τακτική για να εξάγει κανείς βασικά στοιχεία μέσα από δεδομένα. Χρησιμοποιεί έναν ορθογώνιο μετασχηματισμό για να μετατρέψει ένα σετ από παρατηρήσεις οι οποίες μπορούν να συσχετίζονται μεταξύ τους (correlated variables), σε ένα νέο σετ γραμμικώς ασυσχέτιστων στοιχείων (uncorrelated variables) τα οποία ονομάζονται Principal Components. Τα Principal Components είναι πάντα λιγότερα ή ίσα με τις αρχικές μεταβλητές και δίνονται με τέτοιον τρόπο ώστε το πρώτο Principal Component, να παρουσιάζει την μεγαλύτερη διακύμανση (variance), το δεύτερο τη δεύτερη μεγαλύτερη διακύμανση κ.ο.κ.. Το PCA είναι μια βασική μέθοδος decomposition που μας βοηθάει να μετασχηματίσουμε ένα σύνολο δεδομένων με τρόπο που εξηγεί καλύτερα την συνδιακύμανση των δεδομένων. Ουσιαστικά, μπορεί να μας δώσει μια απεικόνιση των δεδομένων μας σε ένα χώρο μικρότερης διάστασης, παράγοντας components που είναι ασυσχέτιστα μεταξύ τους. Για το πρόβλημα του source separation, θα χρησιμοποιήσουμε μια πιο ισχυρή μέθοδο, η οποία είναι συνέχεια του PCA και ονομάζεται Independent Component Analysis. Στο ICA, κάνουμε χρήση ενός κριτηρίου πιο ισχυρού από την ασυσχετότητα (uncorrelation) που χρησιμοποιούμε στο PCA, του κριτηρίου της στατιστικής ανεξαρτησίας (Statistical Ιndependence) [17]. H ανεξαρτησία μεταξύ δεδομένων είναι μια ισχυρή έννοια και ουσιαστικά σημαίνει ότι η μία μεταβλητή ενός σετ δεδομένων, δεν δίνει καμία πληροφορία για την κατάσταση κάποιας άλλης μεταβλητής. Είναι ακόμα ένα κριτήριο που ικανοποιεί τις προδιαγραφές του προβλήματος μας αφού μπορεί να εφαρμοστεί για διαφορετικές ηχητικές πηγές. Γενικότερα, στο Cocktail Party Problem, είναι ασφαλές να υποθέσουμε ότι το ηχητικό σήμα που δεχόμαστε από έναν ομιλητή δεν μας δίνει καμία πληροφορία για το σήμα που δεχόμαστε από έναν άλλο ομιλητή. Αυτά τα δυο είναι κατά συνέπεια στατιστικώς ανεξάρτητα μεταξύ τους. Για να παρουσιάσουμε με τον καλύτερο δυνατό τρόπο την διαφορά του uncorrelateδness με το independence, μπορούμε να χρησιμοποιήσουμε το παρακάτω σχήμα: Figure 3.2 Two Independent Components Figure 4.3 Two Uncorrelated Components Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

28 Βλέπουμε την απεικόνιση που έχει στον διδιάστατο χώρο μια διδιάστατη μεταβλητή, που αποτελείται από 2 components με ομοιόμορφες κατανομές που παίρνουν τιμές ενός συγκεκριμένου εύρους με ίδια πιθανότητα. Στο figure 2.2 τα δεδομένα είναι independent. Πράγματι, αν κάποιος ξέρει την τιμή που παίρνει μια παρατήρηση για το ένα component, δεν μπορεί να κάνει καμία εκτίμηση για την τιμή της ίδια παρατήρησης για το άλλο component. Αντίθετα, στο figure 2.3 τα components είναι uncorrelated (ο covariance matrix είναι διαγώνιος) και η τιμή μιας παρατήρησης για το ένα component μπορεί να μας δώσει πληροφορία για την τιμή της παρατήρησης για το άλλο component. Για παράδειγμα, αν η τιμή του component που αναφέρεται στον άξονα y είναι -1.5, τότε οι τιμές που μπορεί να πάρει το άλλο στοιχείο περιορίζονται στο εύρος (-1,0). O ICA βασίζεται στο ότι όταν ένας αριθμός independent σημάτων υποστούν μίξει μέσω ενός συστήματος μίξεις, τότε αποκτούν αμοιβαία πληροφορία το ένα σε σχέση με το άλλο. Παύουν δηλαδή να είναι στατιστικά ανεξάρτητα μεταξύ τους, γεγονός που μπορεί και να αποδειχθεί. Κατά συνέπεια, ο ICA προσπαθεί να τα μετασχηματίσει με τέτοιο τρόπο ώστε να αναιρέσει αυτήν την πληροφορία που εισήγαγε το σύστημα και να τα κάνει όσο το δυνατόν πιο στατιστικώς ανεξάρτητα μεταξύ τους. Στο συγκεκριμένο παράδειγμα, αν θέλαμε να κάνουμε τα 2 components ανεξάρτητα, μπορούμε να στρέψουμε το ορθογώνιο του figure 2.3 μέχρι να ταυτιστεί αυτό του figure 2.2. Κατά παρόμοιο τρόπο λειτουργεί και ο ICA, αφού μέσω πιο εκλεπτυσμένων μεθόδων υπολογίζει διανύσματα που στρέφουν με τέτοιο τρόπο τα δεδομένα στον πολυδιάστατο χώρο στον οποίον βρίσκονται, ώστε μετά την στροφή να προκύπτουν τα ICs. Ο τρόπος με τον οποίο επιτυγχάνεται η ανεξαρτησία μεταξύ των components είναι μέσω βελτιστοποίησης διαφόρων κριτηρίων στατιστικής ανεξαρτησίας. Ένα κριτήριο ανεξαρτησίας που μπορεί να μας βοηθήσει να αντιληφθούμε καλύτερα την λειτουργεία της μεθόδου, είναι το κριτήριο του NonGaussianity. Το πόσο Gaussian είναι ένα μείγμα, μπορεί να μετρηθεί με διαφόρους τρόπους όπως θα δούμε παρακάτω, ένας από τους οποίους είναι ο υπολογισμός της Κύρτωσης (kurtosis). Το κριτήριο του NonGaussianity βασίζεται στο Θεώρημα Κεντρικού Ορίου [12][7], το οποίο ως γνωστών αναφέρει ότι όταν συνδυάζουμε γραμμικά 2 ή περισσότερες τυχαίες μεταβλητές οποιοδήποτε κατανομής, η τελική τυχαία μεταβλητή που προκύπτει είναι πιο κοντά στην κανονική κατανομή, από τις αρχικές μας κατανομές. Ο αλγόριθμος εκμεταλλεύεται αυτήν την πληροφορία και προσπαθεί να μετασχηματίσει τα δεδομένα με τέτοιο τρόπο ώστε να προκύψουν components, τα οποία να είναι όσο το δυνατόν πιο μακριά από την κανονική κατανομή. Δηλαδή να είναι κατά το μέγιστο δυνατόν nongaussian. Με άλλα λόγια, εφόσον, τα components είναι μέγιστα μη Gaussian, είναι και ανεξάρτητα μεταξύ τους. ICA αλγόριθμοι όπως θα δούμε παρακάτω μπορούν να προκύψουν όχι μόνο μέσω του nongaussianity αλλά και από διαφορετικές λογικές αντιμετώπισης, όπως με χρήση εκτιμητών μεγίστης πιθανοφάνειας. Ο ICA προτάθηκε στις αρχές της δεκαετίας του ʼ80, από τους J. Herault, C. Jutten, and B. Ans, [8][9] ενώ από τότε έχει μελετηθεί από πολλούς ερευνητές. Μπορεί να θεωρηθεί ένα πρόβλημα βελτιστοποίησης όπως είπαμε και στην προηγούμενη παράγραφο, στο οποίο δεν υπάρχει πλήρης πληροφορία αφού στο σύστημα x(n) A[ s( n)], τα Α και s (n) είναι άγνωστα και γνωρίζουμε μόνο το x(n). Αξίζει να σημειωθεί, ότι, μπορεί να μας δώσει ικανοποιητικά αποτελέσματα ακόμα κι όταν δεν πληρείται απόλυτα το κριτήριο του independence μεταξύ των πηγών. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

29 Παραδείγματος χάριν, στην περίπτωση διαχωρισμού μουσικών οργάνων ο ICA, είναι ικανός να επιφέρει διαχωρισμό, παρόλο που τα διάφορα μουσικά όργανα που συμμετέχουν σε μια μουσική ηχογράφηση, δεν μπορούν να είναι τελείως ανεξάρτητα μεταξύ τους, μιας και η μουσική που παράγει το ένα είναι σε αρμονία και μερική χρονική συμφωνία με αυτήν που παράγει το άλλο. 2.4 Περιορισμοί του ICA Για να είμαστε σίγουροι ότι το ICA μοντέλο θα λειτουργήσει σωστά, πρέπει να τηρούμε κάποιους βασικούς περιορισμούς. 1. Τα ICs πρέπει να είναι στατιστικώς ανεξάρτητα μεταξύ τους. Από τον ορισμό της ανεξαρτησίας για τις τυχαίες μεταβλητές που μπορεί να περιέχονται σε ένα σετ δεδομένων s 1, s 2, s 3,..., s N, πρέπει να ισχύει: p( s, s, s,..., s ) p ( s ) p ( s ) p ( s )... p ( s ) N N N 2. Δεν μπορεί να υπάρχει περισσότερο από ένα ICs με Gaussian κατανομή. Για να καταλάβουμε γιατί υφίσταται αυτός ο περιορισμός μπορούμε να αναλογιστούμε ξανά το κεντρικό οριακό θεώρημα. Αν και οι 2 κατανομές που υφίστανται μίξει είναι κανονικές, τότε και η μίξει τους είναι κανονική και ο αλγόριθμος μας δεν μπορεί να βρει ICs, τα οποία να είναι όσο το δυνατόν μη Gaussian. 3. Ο πίνακας μίξεις που θα εξάγουμε θα είναι τετράγωνος, και το σύστημα αντιστρεπτό. Η χρήση τετράγωνων πινάκων γίνεται για να απλοποιηθούν οι εξισώσεις. Συνεπώς, αν το σύστημα δεν είναι αντιστρεπτό ο ICA, δεν μπορεί να δώσει λύση στο πρόβλημα [7]. Για να γίνει καλύτερα αντιληπτός ο δεύτερος περιορισμός, μπορούμε να εξετάσουμε το παρακάτω σχήμα: Figure 5.4 Μίξει 2 Gaussian πηγών Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

30 Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου Εδώ έχουμε μίξει 2 Gaussian ICs. Παρατηρούμε ότι το αποτέλεσμα είναι ένας κύκλος στο δισδιάστατο χώρο. Αντίθετα με το figure 2.3 όπου μπορούσαμε να στρέψουμε τα δεδομένα με τέτοιο τρόπο ώστε να γίνουν περισσότερο ανεξάρτητα, σε αυτήν την περίπτωση, με όποιον τρόπο και να στρέψουμε τον κύκλο, δεν μπορούμε να επηρεάσουμε την πληροφορία που μας δίνει η μια μεταβλητή σε σχέση με την άλλη. Κατά συνέπεια, ο ICA δεν μπορεί να διαχωρίσει components με Gaussian κατανομή. Αν όμως, η μία μόνο πηγή είναι Gaussian, τότε το μείγμα μπορεί να διαχωριστεί μέσω του ICA Figure 6.5 Gaussian Πηγής με Πηγή από ομοιόμορφη κατανομή (independent) Figure 7.6 Gaussian Πηγής με Πηγή από ομοιόμορφη κατανομή (uncorrelated) Στα figures , μπορούμε να δούμε μια μίξει που περιέχει ένα Gaussian IC. Βλέπουμε πως σε αυτήν την περίπτωση είναι ορατό με το μάτι το κατά πόσο έχει στραφεί το μείγμα λόγω του δωματίου και κατά συνέπεια τα δεδομένα μπορούν να διαχωριστούν μέσω του ICA. 2.5 Ασάφειες του ICA O ICA, όπως έχουμε ήδη αναφέρει, είναι πρόβλημα βελτιστοποίησης που δεν δίνει απόλυτη λύση και τα αποτελέσματά του περιέχουν πάντα κάποιες ασάφειες. 1. Δεν μπορούμε να εξάγουμε τα ICs με μια συγκεκριμένη σειρά. Η ασάφεια αυτή αναφέρεται ως permutation ambiguity. Στην περίπτωση των instantaneous mixtures, δεν είναι μεγάλο πρόβλημα αν εξάγουμε τα components με τη σωστή σειρά, αλλά όπως θα δούμε αργότερα το ambiguity αυτό είναι σημαντικό πρόβλημα στην περίπτωση των convolutive mixtures. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

31 2. Δεν μπορούμε να προσδιορίσουμε την αρχική ενέργεια των ICs. Η ασάφεια αυτή αναφέρεται ως scale ambiguity. Εφόσον τα A και s είναι άγνωστα, οποιοσδήποτε βαθμωτός πολλαπλασιασμός τους δεν μπορεί να προσδιοριστεί από την μέθοδο. Οι ασάφειες του ICA μπορούν να παρασταθούν μαθηματικά ως: x As s s 1 1 (A )( ) eq eq με Λ να είναι ένας διαγώνιος πίνακας που παριστάνει το scale ambiguity και Π να είναι ένας μοναδιαίος πίνακας με μετάθεση στις γραμμές του, όπου αναπαριστά το permutation ambiguity. Όπως φαίνεται και από την παραπάνω εξίσωση, οποιαδήποτε τιμή και αν έχουν οι πίνακες Π και Λ χάνεται, εφόσον έχουμε πληροφορία μόνο για x και όχι τα Α και s. Για να γίνει καλυτέρα αντιληπτή η λειτουργία του αλγορίθμου, μπορούμε να δούμε ένα πρώτο παράδειγμα ICA διαχωρισμού. Στο παράδειγμα αυτό θα κάνουμε μίξει ενός σήματος που ακολουθεί κατανομή Laplace με ένα ημίτονο, μέσω ενός τυχαίου πίνακα μίξεις. Αρχικά τα σήματα μας είναι της μορφής: Figure 8.7 Πηγή ημιτόνου Figure 9.8 Laplacian Πηγή Στην συνέχεια υφίστανται μίξει μέσω ενός τυχαίου πίνακα μίξεις. Τα παρατηρούμενα σήματα είναι τα παρακάτω: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

32 Figure 10.9 Observations πρώτου Figure Observations δευτέρου μικροφώνου μικροφώνο Μετά την εφαρμογή του αλγορίθμου μας μπορούμε να πετύχουμε τον παρακάτω διαχωρισμό: Figure Independent component 1 Figure Independent component 2 Στο παράδειγμα αυτό μπορούμε να δούμε την εφαρμογή των ambiguities του ICA. To φαινόμενο είναι πολύ έντονο στην δεύτερη κυματομορφή, όπου ο αλγόριθμος μας επιστρέφει το ημίτονο αντεστραμμένο. Πολλαπλασιασμένο δηλαδή με αρνητικό αριθμό. Και στην περίπτωση της δεύτερης κυματομορφής είμαστε σε διαφορετική κλίμακα από ότι στην περίπτωση του αρχικού σήματος. Ακόμη, δεν έχουμε καμία πληροφορία για το permutation των 2 σημάτων αφού δεν μπορούμε να πούμε ποιο αναφέρεται σε ποια από τις 2 πηγές. Παρόλα αυτά, ο αλγόριθμος είναι ικανός να εντοπίσει τα 2 σήματα που περιέχονται στο μείγμα, όπως φαίνεται στις κυματομορφές. Παρατηρούμε ότι δεν μπορούμε να αποφύγουμε μια παρεμβολή ανάμεσα στα 2 σήματα, αλλά αν αναλογιστούμε με πόσο μικρή ποσότητα πληροφορίας η μέθοδος εξάγει αυτό το αποτέλεσμα, μπορούμε να αντιληφθούμε την δύναμή της και τις πολλές δυνατότητες εφαρμογής που διαθέτει λόγω της πολύ γενικής φύσης της. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

33 2.6 Principal Component Analysis Το Principal Component Analysis, έχει μεγάλη σημασία για τον ICA ο οποίος ουσιαστικά αποτελεί εξέλιξή του. Θα χρησιμοποιηθεί για να πραγματοποιήσουμε το πρώτο βήμα του διαχωρισμού το οποίο ονομάζεται whitening και κατά συνέπεια αφιερώνουμε αυτήν την υποπαράγραφο για να παρουσιάσουμε την ανάλυσή του. To PCA, είναι ένα διαδεδομένο στατιστικό εργαλείο που όπως αναφέραμε στην αρχή αυτής της παραγράφου, έχει ως σκοπό να βρει μικρότερα σετ από μεταβλητές με λιγότερη περίσσεια πληροφορίας για να απεικονίσει ένα αρχικό σήμα. Για το PCA η περίσσεια πληροφορίας μετριέται μέσω της συσχέτισης μεταξύ των μεταβλητών (correlation). Υποθέστε ότι έχουμε ένα τυχαίο διάνυσμα x με Ν στοιχεία και υπάρχουν Τ παρατηρήσεις αυτού του διανύσματος. Μέσω αυτής της ανάλυσης, θα προσπαθήσουμε να μετασχηματίσουμε το σήμα σε ασυσχέτιστα συστατικά (Uncorrelated Components). Αρχικώς, πρέπει να αφαιρέσουμε οποιαδήποτε DC συνιστώσα περιέχει το σήμα, πριν προχωρήσουμε σε άλλου τύπου επεξεργασία, κάτι που είναι χρήσιμο τόσο για το PCA όσο και για το ICA και από εδώ και πέρα αυτό το βήμα θε θεωρείται δεδομένο: x x { x} με τον τελεστή περίπτωση το { x} μπορεί να υπολογιστεί μέσω της μέσης τιμής της μεταβλητής. Στην συγκεκριμένη εργασία θα χρησιμοποιήσουμε το expectation για να διεξάγουμε μεγάλο μέρος της μαθηματικής ανάλυσης. Τα expectations μπορούν να χρησιμοποιηθούν σε περιπτώσεις που θέλουμε να εξάγουμε διάφορα είδη στατιστικών, αλλά οι συναρτήσεις πυκνότητας πιθανότητας των τυχαίων μεταβλητών δεν είναι γνωστές. Μέσω των expectations μπορούμε να εκτιμήσουμε διάφορες παραμέτρους για τις τυχαίες μεταβλητές μας από ένα πεπερασμένο πλήθος δειγμάτων. Ο τύπος που θα χρησιμοποιούμε για να προσδιορίσουμε το g x είναι: {} να αναφέρεται στη προσδοκία (Expectation). Στη συγκεκριμένη {} μιας συνάρτησης ( ) x K 1 { g( x)} g( x j ) j1 όπου x j είναι τα δείγματα της τυχαίας μεταβλητής μας. Για να επανέλθουμε στην ανάλυση του PCA, αν θεωρήσουμε μια τυχαία μεταβλητή u 1, μπορούμε πάντα να την εκφράσουμε σαν ένα γραμμικό συνδυασμό των διανυσμάτων w1 και x. u w x 1 1 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

34 Για να είναι η μεταβλητή u 1 το πρώτο principal component του x, πρέπει η διακύμανση της (variance) να είναι η μέγιστη δυνατή. Κατά συνέπεια, πρέπει να παράγουμε ένα διάνυσμα οποίο θα μεγιστοποιήσει το variance του w 1 u 1 w 1, το. Ακόμη, θα εισάγουμε τον περιορισμό, η νόρμα του να ισούται με την μονάδα, καθώς θέλουμε να επηρεάσουμε μόνο τον προσανατολισμό του διανύσματος και όχι το μέτρο του. Ουσιαστικά, έχουμε περιγράψει ένα πρόβλημα βελτιστοποίησης το οποίο σε μαθηματική μορφή μπορεί να εκφραστεί ως ακολούθως: 2 T T T T x 1 max w J ( w ), subject to w w w 1 where J ( w ) { u } w { xx } w w C w Η λύση αυτού του προβλήματος μπορεί να δοθεί από τα ιδιοδιανύσματα του πίνακα συνδιασποράς C x. Αν ο C x έχει ιδιοτιμές d1,d 2,d 3,...,d N 0 και τα αντίστοιχα ιδιοδιανύσματα e1, e2, e3,..., e N, τότε η λύση στο πρόβλημα είναι: e i w i για i=1...m Όπου είναι το πρώτο Principal Component που παρουσιάζει το μεγαλύτερο variance. Η μέθοδος, μας δίνει τα Principal Components σε φθίνουσα σειρά ανάλογα με το variance που παρουσιάζουν. Για να βρούμε τα ιδιοδιανύσματα του πίνακα συνδιασποράς μπορούμε να χρησιμοποιήσουμε διάφορες μεθόδους όπως το Singular Value Decomposition[6]. e 1 Για να προκύψουν τα Principal Components πρέπει να πολλαπλασιάσουμε τις τιμές των παρατηρήσεων, με έναν πίνακα που περιέχει τα ιδιοδιανύσματα, οδηγώντας σε έναν μετασχηματισμό των παρατηρήσεων (observations) όπου αυτές είναι ασυσχέτιστες μεταξύ τους. Θα κάνουμε ακόμα ένα βήμα για να μετασχηματίσουμε τα δεδομένα σε τέτοια μορφή ώστε να είναι χρήσιμα στον ICA. Θα πολλαπλασιάσουμε δηλαδή με έναν διαγώνιο πίνακα που περιέχει το ανεστραμμένο τετράγωνο των ιδιωτιμών, με στόχο να οδηγηθούμε σε components με διασπορά ίση με την μονάδα (unit variance). Η παραπάνω διαδικασία είναι πολύ χρήσιμη για τον ICA και ονομάζεται Prewhitenning ενώ προτάθηκε στο [15] για χρήση στο ICA framework. Μέσω εξισώσεων μπορεί να παρασταθεί ως εξής: x u PCA DV x x όπου D diag( d,d,d,...,d ) με d d d... d 0 και Vx [ e1, e2, e3,..., e ] N N N Στο παρακάτω σχήμα μπορούμε να δούμε και εποπτικά πως ο PCA εξαφανίζει την περίσσεια πληροφορία μέσω εκμετάλλευσης του correlation μεταξύ των τυχαίων μεταβλητών. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

35 Figure Correlated random variables Figure Uncorrelated random variables Στο figure 2.13 βλέπουμε αρχικά 2 σήματα που έχουν υποστεί μίξει και το αποτέλεσμα του PCA, πάνω σε αυτά. Μετά το PCA, τα σήματα είναι Uncorrelated, ορθογώνια δηλαδή το ένα ως προς το άλλο. Παρόλα αυτά, δεν είναι διαχωρισμένα, αφού οι προσανατολισμοί τους δεν ταιριάζουν με αυτούς των αξόνων. Κατά συνέπεια, φαίνεται για ακόμα μια φορά πως το uncorrelatedness δεν είναι ικανοποιητικό κριτήριο για τον διαχωρισμό σημάτων. 2.7 FastICA με βελτιστοποίηση διαφόρων κριτηρίων Στην βιβλιογραφία έχουν προταθεί διάφορα κριτήρια για πραγματοποίηση ICA, το καθένα με τα δικά του πλεονεκτήματα και μειονεκτήματα. Στην παράγραφο αυτή επικεντρώνουμε στην πιο γνωστή υλοποίηση της μεθόδου, τον FastICA αλγόριθμο τον οποίο θα πραγματοποιήσουμε με βελτιστοποίηση του κριτηρίου της κύρτωσης, με μεγιστοποίηση του Maximum Likelihood αλλά και με χρήση μιας μετρικής του nongaussianity που ονομάζεται negentropy. Όπως έχουμε αναφέρει μέχρι τώρα, ο ICA, πραγματοποιεί βελτιστοποίηση ενός κριτηρίου για να υπολογίσει έναν πίνακα W, που θα διαχωρίζει τα ICs. H λογική που ακολουθούμε είναι επαναληπτική, ενώ η βελτιστοποίηση μιας συνάρτησης κάτω από κάποια κριτήρια ανήκει στον τομέα του optimization theory. Οι κύριες μέθοδοι για να πραγματοποιήσουμε optimization, είναι οι gradient και fixed-point αλγόριθμοι. Οι αλγόριθμοι που στηρίζονται σε Gradient Optimization, μπορούν να θεωρηθούν μέθοδοι πρώτης τάξης και προσπαθούν να βρουν τοπικά ελάχιστα, ακολουθώντας της κατεύθυνση της πρώτης παραγώγου της συνάρτησης που εξετάζουν. w Jw ( ) w ( w) Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

36 όπου γ είναι η παράμετρος που ορίζει το μέγεθος του βήματος που θα ακολουθήσουμε και η Jw ( ) ( w) κλίση της συνάρτησης της οποίας προσπαθούμε να βρούμε το ελάχιστο. Μια πιο κατάλληλη τακτική για βελτιστοποίηση των κριτηρίων στο ICA είναι η χρήση παραλλαγών της μεθόδου σταθερού σημείου ώστε να προκύψουν Fixed-Point αλγόριθμοι. Είναι μια μέθοδος πιο ισχυρή από το gradient optimization, που παρουσιάζει καλύτερες ταχύτητες σύγκλησης. Για να πραγματοποιήσουμε έναν fixed-point αλγόριθμο, κάνουμε επαναλήψεις της μορφής w F( w) Με συνάρτηση F( w) κατάλληλη ώστε η επαναληπτική διαδικασία να συγκλίνει. O FastICA κάνει χρήση Fixed Point αλγορίθμων καθώς είναι πιο robust ενώ συγκλίνουν με μεγαλύτερη ταχύτητα. Ακόμα εξαρτώνται από παραμέτρους που υπάρχουν στους gradient αλγορίθμους όπως το learning rate, οι οποίες είναι δύσκολο να εκτιμηθούν και επηρεάζουν σημαντικά την αποτελεσματικότητα της μεθόδου. Τέλος ο ICA μπορεί να πραγματοποιηθεί με batch ή online αλγορίθμους. Στην συγκεκριμένη εργασία θα επικεντρώσουμε σε batch υλοποιήσεις, δηλαδή θα διαχειριζόμαστε τα δεδομένα σε blocks και όχι ένα - ένα ξεχωριστά. Γενικά οι batch υλοποιήσεις μας βολεύουν για τον τρόπο με τον οποίο μοντελοποιούμε το πρόβλημα μας, ειδικά στην μοντελοποίηση των convolutive mixtures που θα παρουσιάσουμε στο επόμενο κεφάλαιο, ενώ αντίθετα με την κοινή πεποίθηση δεν είναι απαραίτητα πιο απαιτητικοί υπολογιστικά από τις online τεχνικές FastICA με χρήση του κριτηρίου της κύρωσης Όπως έχουμε αναφέρει, ένας τρόπος να εξασφαλίσουμε την ανεξαρτησία μεταξύ των ICs είναι μέσω μεγιστοποίησης του nongaussianity. Θεωρήστε το x As και ένα διάνυσμα βαρών w. Το γινόμενο των x και w μπορεί να είναι ένα IC αν το w είναι μία από τις γραμμές του. u w x q s 1 1 Το κεντρικό οριακό θεώρημα λέει ότι το άθροισμα κάποιον ICs είναι πιο Gaussian από τα ICs ξεχωριστά και τείνει να γίνει λιγότερο Gaussian όταν ταυτιστεί με ένα από αυτά. Κατά συνέπεια θα προσπαθήσουμε να μεγιστοποιήσουμε το nongaussianity από πλευράς w 1 ώστε να εκτιμήσουμε ένα από τα ICs του x. Η λογική αυτή αντιμετώπισης του προβλήματος αναφέρεται και ως Deflationary [17]. Αυτό σημαίνει ότι υπολογίζουμε πρώτα το ένα ICs και μετά ο αλγόριθμος επανεκκινεί για τον υπολογισμό του επόμενου. Η άλλη μέθοδος που μπορούμε να ακολουθήσουμε ονομάζεται Symmetric Orthogonalization και περιλαμβάνει τον υπολογισμό όλων των ICs παράλληλα, κρατώντας τον πίνακα διαχωρισμού W ορθογώνιο. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

37 Ένα αποτελεσματικό μέτρο του πόσο nongaussian είναι η κύρτωσης. H Κύρτωση μπορεί να υπολογιστεί μέσω των ροπών τέταρτης τάξης και έχει την ιδιότητα να είναι μηδέν για μια κανονική κατανομή. Μπορεί να πάρει θετικές τιμές για supergaussian κατανομές και αρνητικές για subgaussian κατανομές. Μπορούμε να πούμε ότι όσο περισσότερο είναι μια κατανομή super ή sub Gaussian, τόσο περισσότερο απέχει από την κανονική κατανομή. Figure Super Sub Gaussian example Οι SuperGaussian κατανομές έχουν πιο μυτερές κορυφές και πιο βαριές ουρές από τις κανονικές, αντίθετα με τις Subgaussian των οποίων οι κορυφές είναι ομαλές και οι ουρές μικρότερες. Για τον ICA εκμεταλλευόμαστε την ιδιότητα της κύρωσης να είναι μηδέν για κανονικές κατανομές και να αυξάνεται σε απόλυτη τιμή του μέτρου όσο η κατανομή απέχει από την κανονική. Υπάρχουν αρκετοί λόγοι για τους οποίους το κριτήριο της κύρτωσης έχει τόσο ευρεία εφαρμογή στο ICA. Αρχικά, δεν παρουσιάζει ψευδή τοπικά ακρότατα (spurious local extrema) για πεπερασμένα μεγέθη δειγμάτων, ειδικά στην περίπτωση του μοντέλου που δεν ενσωματώνει τον θόρυβο. Ακόμα, παρόλο που δεν θεωρείται γενικά εύρωστο (robust) στατιστικό μέτρο όσο αναφορά τους outliers [19], υπάρχουν μελέτες που δείχνουν ότι μπορεί να παρουσιάζει κάποιο robustness στην περίπτωση blocks μικρού μήκους. Τέλος, o υπολογισμός της κύρτωσης είναι σχετικά εύκολος, ειδικά για μικρά σετ δεδομένων. Είναι κατά συνέπεια ένα μέτρο του nongaussianity και ένας τρόπος να το εκτιμήσουμε είναι: 4 E{u } kurt( u) ( E{u }) Στον τύπο δίνεται η κανονικοποιημένη εκδοχή της κύρτωσης που είναι μηδέν για κανονικές κατανομές. Μια απλοποιημένη έκδοση της κύρτωσης παίρνουμε, αν πολλαπλασιάσουμε με το τετράγωνο της διακύμανσης των δεδομένων. kurt( u) E{u } 3( E{u }) Μάλιστα εφόσον τα δεδομένα μας είναι whitened το παραπάνω κριτήριο απλοποιείται περεταίρω και γίνεται: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

38 kurt u 4 ( ) E{u } Το πρώτο βήμα για να καταλήξουμε σε έναν fixed-point αλγόριθμο είναι να υπολογίσουμε την κλίση της κύρτωσης του, ως προς το w. Σε αυτό το σημείο εισάγουμε τον περιορισμό το, αλλά μόνο την κατεύθυνσή του. x w 1εφόσον δεν θέλουμε να μεταβάλουμε το μέτρο του w Μέσω απλών υπολογισμών η κλίση μπορεί να υπολογιστεί ως εξής: T kurt(w z) w T T 3 2 4sign( kurt(w z))[e{z(w z) } 3 w w ] Εφόσον w 1 T kurt(w z) w T T 3 4sign( kurt(w z))[e{z(w z) } 3 w] Μέσω αυτής της παραγώγου μπορεί να προκύψει ένας gradient επαναληπτικός αλγόριθμος ο οποίος θα ακολουθεί τον παρακάτω κανόνα: w w w w T T 3 4sign( kurt(w z))e{z(w z) } w T kurt(w z) Να αναφέρουμε ότι απαλείφουμε τον 2 όρο του, εφόσον απλά αλλάζει τη νόρμα w της κλίσης και όχι την κατεύθυνση η οποία και μας ενδιαφέρει, ώστε να μπορέσουμε να εντοπίσουμε τα μέγιστα της συνάρτησης. Για να εξάγουμε μια FastICA αλγόριθμο θα χρησιμοποιήσουμε την μέθοδο του σταθερού σημείου. Η λογική για την εξαγωγή της μεθόδου σταθερού σημείου, είναι ότι σε ένα σταθερό σημείο του αλγορίθμου, η παράγωγος της κύρτωσης πρέπει να δείχνει προς την κατεύθυνση του w, ή με άλλα λόγια, πρέπει να είναι ίση με το w πολλαπλασιασμένο με κάποια σταθερά [44]. Σε αυτήν την περίπτωση, η επόμενη επανάληψη δεν αλλάζει την κατεύθυνση του w και έχουμε συγκλίνει στην λύση. Κατά συνέπεια, ένας σταθερός αλγόριθμος fixed point θα μπορούσε να προκύψει αν εξισώναμε το w με την κλίση της κύρτωσης. w w w w w w T 3 E{z(w z) } 3 w Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

39 Σε αυτόν τον αλγόριθμο δεν χρειάζεται να προσθέσουμε τον όρο που περιέχει το πρόσημο της κλίσης αφού δεν επηρεάζει την κατεύθυνση αναζήτησης. Η λογική που χρησιμοποιήσαμε για να εξάγουμε τον αλγόριθμο σταθερού σημείου και περιγράφεται στην παραπάνω παράγραφο, μπορεί να δοθεί και μαθηματικά με χρήση πολλαπλασιαστών Lagrange [13]. Η ανάλυση είναι γενικά πολύπλοκη και δεν δίνεται εδώ FastICA χρήση του κριτηρίου negentropy Στο προηγούμενο κεφάλαιο δείξαμε ότι μπορούμε να εκτιμήσουμε πόσο nongaussianity είναι μια μεταβλητή, κάνοντας χρήση του κριτηρίου της κύρτωσης. Ένα μειονέκτημα που εμφανίζει το κριτήριο αυτό είναι η σχετική ευαισθησία του σε δείγματα με ακραίες τιμές (outliers). Μπορούμε να πούμε ότι λόγω αυτής τις ιδιότητας της κύρτωσης, να μεταβάλλεται σημαντικά από μικρό αριθμό παρατηρήσεων που ουσιαστικά αναφέρονται στην ουρά της κατανομής μιας τυχαίας μεταβλητής, δεν μπορούμε να την θεωρήσουμε έναν robust εκτιμητή του nongaussianity. Παρόλο που υπάρχουν ενδείξεις ότι η κύρτωση μπορεί να είναι robust για μικρά block δεδομένων, θα αναζητήσουμε ένα καλύτερο κριτήριο που να ξεπερνά αυτόν τον περιορισμό. Στη συνέχεια θα αναλύσουμε ένα νέο μέτρο του nongaussianity που ονομάζεται Negentropy. To Negentropy είναι ένας εκτιμητής που βασίζεται στην εντροπία μιας τυχαίας μεταβλητής. Ως γνωστόν η εντροπία μπορεί να οριστεί ως: H( x) px( )log( px( ))d Η εντροπία μια τυχαίας μεταβλητής μπορεί να ερμηνευθεί ως το μέτρο της πληροφορίας που αυτή εμπεριέχει. Όσο πιο τυχαία και απρόβλεπτη είναι η τυχαία μεταβλητή, τόσο περισσότερη είναι η εντροπία της. Ο υπολογισμός της δεν είναι γενικά εύκολος, αφού στον παραπάνω τύπο κάνουμε χρήση της συνάρτησης πυκνότητας πιθανότητας η οποία δεν είναι συνήθως γνωστή, ενώ η εκτίμηση της είναι ένα δύσκολο πρόβλημα. Για το λόγο αυτό, στη συνέχεια, θα παρουσιάσουμε την negentropy, ένα μέτρο του nongaussianity [7] που βασίζεται στην εντροπία και μπορεί να εκτιμηθεί απευθείας από τις παρατηρήσεις μιας τυχαίας μεταβλητής. H negentropy είναι ένα μέτρο που είναι μηδέν για Gaussian μεταβλητές και γίνεται πιο θετικό για κατανομές που απέχουν από την Gaussian. Κατά συνέπεια είναι πλήρως συμβατή με τις απαιτήσεις του ICA μοντέλου και μπορεί να οριστεί ως: J(x) H(x gaussian ) H(x) Όπου x gaussian είναι ένα Gaussian τυχαίο διάνυσμα με τον ίδιο πίνακα συνδιασποράς το x. H εντροπία του x gaussian μπορεί να υπολογιστεί από τον τύπο: όπως και 1 n H(x gaussian) log det 1 log Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

40 Μια ενδιαφέρουσα ιδιότητα της negentropy είναι το ότι δεν επηρεάζεται από γραμμικούς μετασχηματισμούς αφού μπορεί να αποδειχθεί ότι: J( x) J(x) Κατά συνέπεια είναι ένα Scale Invariant μέτρο, ιδιότητα που είναι θετική όταν σχεδιάζουμε κριτήρια σύγκλισης για το πρόβλημα του ICA. Το negentropy, στην μορφή που το έχουμε εκφράσει, παραμένει ένα θεωρητικό εργαλείο αφού εμπεριέχει ακόμα την έννοια της εντροπίας και δεν είναι εύκολο να εκτιμήσουμε ούτε τις κατανομές πυκνότητας πιθανότητας αλλά ούτε και τα ολοκληρώματα που εμπεριέχονται στον ορισμό του. Παρακάτω θα παρουσιάσουμε 2 μεθόδους προσέγγισης του. Η μια μέσω Cumulants και η άλλη με χρήση μη πολυονυμικών εξισώσεων. Η μέθοδος των cumulants, μέσω μιας σύνθετης μαθηματικής ανάλυσης που κάνει χρήση αναπτυγμάτων Gram - Charlier και των πολυωνύμων Chebyshev - Hermite, καταλήγει στην παρακάτω εκτίμηση της πυκνότητας πιθανότητας : p ( ) x H ( ) H ( ) p ( ) ( ) 1 (x) (x) x ! 4!, 2 /2 e 3 Όπου ( ), και i τα πολυώνυμα Chebyshev Hermite, και 3 (x) {x } 2, 4 4 (x) {x } 3. Για να κάνουμε την εκτίμηση αυτή θεωρούμε ότι η px( ) είναι αρκετά κοντά στην standardized Gaussian density. Σκόπιμα, δεν θα υπεισέλθουμε σε περεταίρω λεπτομέρειες σχετικές με αυτή μας την εκτίμηση καθώς, μια τέτοιου είδους ανάλυση, ξεπερνά τους σκοπούς αυτής της εργασίας. Εφόσον έχουμε μια εκτίμηση για την πυκνότητα πιθανότητας, μπορούμε μέσω αλγεβρικών παραδοχών αλλά και κάνοντας για άλλη μια φορά την παραδοχή ότι είμαστε κοντά στην κανονική κατανομή, να καταλήξουμε στον παρακάτω τύπο για να εκτιμήσουμε τελικά το negentropy. 1 1 J (x) {x } kurt( x) O τύπος αυτός, αποτελεί έναν απλό υπολογιστικά και χρηστικό τρόπο για υπολογίσουμε την negentrory ενός σετ παρατηρήσεων κάποιων τυχαίων μεταβλητών. Παρόλα αυτά, δεν είναι χρηστικός για την δημιουργία ICA μεθόδων για 2 βασικούς λόγους: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

41 Η εκτίμηση αυτή παραμένει ευαίσθητη σε outliers. Μπορούμε να δούμε ότι περιέχει την κύρτωση της τυχαίας μεταβλητής στον τύπο υπολογισμού της, με αποτέλεσμα να μην είναι κατάλληλη για την δημιουργία ενός robust κριτηρίου. Οι εκτιμητές που χρησιμοποιούνται μέσω των τελεστών expectation είναι υψηλής τάξης με αποτέλεσμα να μετράνε κυρίως την ουρά της κατανομής χωρίς να δίνουν μεγάλο βάρος στη δομή που έχει στο κέντρο της. Κατά συνέπεια, θα αναπτύξουμε μια διαφορετική τεχνική υπολογισμού της negentropy η οποία θα βασίζεται στην Μέθοδο Μεγίστης Εντροπίας. Η μέθοδος μεγίστης εντροπίας περιέχει ένα σύνολο τεχνικών που προσπαθούν να εκτιμήσουν την πιο πιθανή συνάρτηση πυκνότητας πιθανότητας, δεδομένων κάποιων παρατηρήσεων των τυχαίων μεταβλητών που έχουμε στην διάθεσή μας. Αναλυτικότερα, υποθέστε ότι έχουμε στην διάθεση μας την παρακάτω πληροφορία για μια τυχαία μεταβλητή μιας διάστασης x : i p x( ) F ( )d c i, για i=1 n i Με άλλα λόγια, έστω ότι έχουμε υπολογίσει τις προσδιοκίες (expectations) {F ( )} από m διαφορετικές συναρτήσεις. Καλούμαστε να βρούμε λοιπόν, την συνάρτηση πυκνότητάς πιθανότητάς που ικανοποιεί τα expectations που έχουμε υπολογίσει, και είναι η πιο πιθανή με βάση τα expectations αυτά. Κάνει δηλαδή τις λιγότερες δυνατές παραδοχές για την φύση της τυχαίας μεταβλητής. Ουσιαστικά ονομάζεται μέθοδος μεγίστης εντροπίας γιατί μας υπολογίζει τη συνάρτηση πυκνότητας πιθανότητας που εξηγεί τους υπολογισμένους εκτιμητές και συνάμα έχει την μεγαλύτερη δυνατή εντροπία. Συνεπώς είναι και η πιο τυχαία για τα δεδομένα αυτά. F i Η γενική μορφή της λύσης της μέθοδος της μεγίστης εντροπίας για το συγκεκριμένο πρόβλημα μας δίνει: i p0 ( ) exp( ai F ( )) i Όπου τα Α και a i μπορούν να υπολογιστούν από τα c i της προηγούμενης εξίσωσης. Στην γενική αυτή μορφή, η συνάρτηση πυκνότητας πιθανότητας είναι δύσκολο να υπολογιστεί καθώς απαιτεί την λύση ενός συστήματος n+1 εξισώσεων. Μπορούμε όμως να κάνουμε κάποιες παραδοχές οι οποίες θα κάνουν πιο εύκολο τον υπολογισμό που θα κληθούμε να πραγματοποιήσουμε και ισχύουν για το ICA framework όπου τα δεδομένα μας όπως έχουμε πει είναι white. Οι παραδοχές είναι ότι οι παρατηρήσεις των τυχαίων μεταβλητών έχουν μηδενική μέση τιμή, μοναδιαία διακύμανση ενώ λόγω του ότι είναι ορθογώνια μεταξύ τους, μπορούμε να ορίσουμε της συναρτήσεις F i σαν πολυώνυμα Chebyshev Hermite. Με βάση όλα αυτά, αλλά και την παραδοχή που αναφέραμε προηγουμένως ότι το px( ) είναι αρκετά κοντά στην standardized Gaussian density, μπορούμε να καταλήξουμε στον παρακάτω τύπο : Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

42 n i p0( ) ( ) 1 ci F ( ) i1 Αυτή η συνάρτηση πυκνότητας πιθανότητας, μπορεί να χρησιμοποιηθεί ώστε μέσω αλγεβρικών πράξεων και αναπτυγμάτων, παρόμοιων με αυτών που χρησιμοποιήσαμε στον υπολογισμό με χρήση cumulants, ώστε να καταλήξουμε στην ακόλουθη προσέγγιση για το negentropy: n 1 i J(x) E{F (x)} 2 i1 2 Στον τελευταίο τύπο παραμένει το πρόβλημα του υπολογισμού του F i. Αποδεικνύεται όμως ότι μπορούμε να χρησιμοποιήσουμε οικογένειες μη τετραγωνικών συναρτήσεων τις οποίες επιλέγουμε με κάποια κριτήρια, αφού μικρές αποκλίσεις στην συνάρτηση από την πραγματικότητα δεν επηρεάζουν το αποτέλεσμα του υπολογισμού του negentropy. Την ίδια αρχή, της χρήσης δηλαδή οικογενειών συναρτήσεων που έχουν επιλεγεί ώστε να προσεγγίζουν κάποιες άλλες συναρτήσεις, θα χρησιμοποιήσουμε και στην επόμενη παράγραφο όπου θα κάνουμε εκτίμηση της μεγίστης πιθανοφάνειας για κριτήριο του ICA. Είναι αρκετό να κάνουμε χρήση μόνο μιας μη τετραγωνικής συνάρτησης G και καταλήγουμε στον παρακάτω τύπο: J (u) {G(u)} {G(v)} 2 όπου v είναι μια standardized Gaussian μεταβλητή. Με τον συγκεκριμένο τύπο, έχουμε έναν εκτιμητή για την negentropy, ο οποίος είναι πιο robust, και μάλιστα, αν κάνουμε σωστή επιλογή της συνάρτησης G ώστε να μην αυξάνεται απότομα έχουμε μια αρκετά καλή εκτίμηση του J(u). Εφόσον έχουμε το κριτήριο για το negentropy, μπορούμε να δημιουργήσουμε έναν gradient αλγόριθμο παραγωγίζοντας το J(u) και καταλήγοντας στον τύπο [14]: F i w E{zg( w w w / w T z)} T όπου {G( w z)} {G(v)} και g( u) dg( u) / du. Όπως θα δούμε και στην περίπτωση του maximum likelihood estimator, αρκούν 2 είδη συναρτήσεων ώστε η μέθοδος να συγκλίνει στο IC με ακρίβεια. Ένα για supergaussian και ένα για subgaussian πηγές: Για supergaussian ICs: Για subgaussian ICs: με 1,2 g( u) tanh( au) g( u) u 3 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

43 Στη συνέχεια, θέλουμε να δώσουμε ένα fixed point αλγόριθμο ώστε να προκύψει η τελική FastICA εκδοχή για την περίπτωση του negentropy. Για να το κάνουμε αυτό, όπως και στην περίπτωση της κύρτωσης, πρέπει να χρησιμοποιήσουμε συντελεστές Lagrange ώστε να μεγιστοποιήσουμε το negentropy υπό τον περιορισμό της μοναδιαίας νόρμας. Ούτε σε αυτήν την περίπτωση θα παρουσιάσουμε την ανάλυση αφού είναι αρκετά πολύπλοκη, και απλά δίνουμε την εκδοχή του fixed point αλγόριθμου στην οποία καταλήγουμε: 1 F(z, w) w w F(z, w) w T όπου F(z, w) E{zg( w z)} w και F(z, w) (E{g ( w T z)} ). w Υπενθυμίζουμε ότι, ήδη από τον υπολογισμό του κριτηρίου, τα δεδομένα μας είναι white πράγμα που εκμεταλλευόμαστε και σε αυτό το σημείο για να κάνουμε διάφορες αλγεβρικές απλοποιήσεις και να καταλήξουμε στον τελικό τύπο: E{zg( T T w w z)} E{g ( w z) w Το κριτήριο αυτό είναι που θα χρησιμοποιήσουμε για να πραγματοποιήσουμε FastICA μέσω μεγιστοποίησης της negentropy. Τέλος, για να μπορέσει ο αλγόριθμος να δώσει τα βέλτιστα αποτελέσματα, μπορούμε να τον τροποποιήσουμε ώστε να εξάγει με συγκεκριμένη σειρά supergaussian και subgaussian πηγές. Κάθε φορά που θα επανεκκινούμε την διαδικασία υπολογισμού του νέου, μπορούμε να χρησιμοποιούμε την κατάλληλη συνάρτηση g(u), ώστε να εξάγουμε το IC που επιθυμούμε. Με αυτήν την τακτική, μπορούμε να αντιμετωπίσουμε κάθε είδους μείγματα ανεξαρτήτως του είδους της πηγής που περιέχουν, εκμεταλλευόμενοσ την πληροφορία που διαθέτουμε εξ αρχής για την φύση των δεδομένων μας. w FastICA με εκτιμητή μεγίστης πιθανοφάνειας Μια αρκετά διαδεδομένη τεχνική για την αντιμετώπιση του ICA είναι η χρήση του μοντέλου Εκτίμησης Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimation) τον οποίο για συντομία θα αναφέρουμε στο εξής ως ML. Μια ερμηνεία του ML είναι ότι επιλέγει ως εκτιμήσεις, τις παραμέτρους αυτές που κάνουν πιο πιθανή την ύπαρξη των συγκεκριμένων παρατηρήσεων. Με άλλα λόγια, μεγιστοποιεί μια συνάρτηση πιθανοφάνειας ώστε να εξάγει τους πιο πιθανούς εκτιμητές για ένα σύνολο παραμέτρων. Για να εφαρμόσουμε τον ML στο παρακάτω μοντέλο κάνουμε την ακόλουθη ανάλυση [10] [11]. Το σύστημα μας είναι : x As Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

44 Η πιθανότητα p x () του διανύσματος μίξεις είναι κατά συνέπεια: p (x) det(b) p (s) det(b) p (s ) x s i i i Με και την πιθανότητα κάθε IC ξεχωριστά. Η παραπάνω έκφραση μπορεί να δοθεί και ως συνάρτηση του B, ως : B 1 p i T p (x) det(b) p (s) det(b) p (b x ) x s i i i i Χρησιμοποιούμε το B αντί του W που έχουμε μέχρι τώρα, για να τονίσουμε πως σε αυτό το στάδιο τα δεδομένα δεν είναι ακόμα whitened, κάτι που θα κάνουμε παρακάτω για να εξάγουμε τον τελικό αλγόριθμο. Αν έχουμε Τ παρατηρήσεις του διανύσματος, η συνολική πιθανοφάνεια μπορεί να υπολογιστεί από το γινόμενο όλων των συναρτήσεων πυκνότητας πιθανότητας p (x(1)) x, p x(x(2)), για τα Τ αυτά σημεία (εφόσον τα δεδομένα μας είναι independent). Η συνάρτηση πιθανοφάνειας L προκύπτει συνάρτηση του Β ως: x T n t1 i1 T L( B) p (b x (t)) det(b) i i i Ή σε πιο βολική μορφή με χρήση λογαρίθμων, η λογαριθμική συνάρτηση πιθανοφάνειας γίνεται: log L( B) log p (b T x (t)) T log det(b) t1 i1 i i i Η βάση του λογαρίθμου δεν παίζει ρόλο, και επιλέγουμε να χρησιμοποιήσουμε τον φυσικό λογάριθμο. Για να φέρουμε την σχέση στην τελική της μορφή θα χρησιμοποιήσουμε έναν τελεστή expectation {}, ως προς όλα τα χρονικά δείγματα που υπάρχουν για τις μίξεις. 1 log ( ) { log (b T L B pi i x i (t))} log det(b) T i1 Κατά συνέπεια, για να λύσουμε το πρόβλημα αρκεί να βρούμε το B το οποίο δίνει την μέγιστη τιμή για την συνάρτηση πιθανοφάνειας. Εδώ όμως υπάρχει ένα πρόβλημα. Όπως παρατηρούμε στον τύπο, η πιθανοφάνεια δεν εξαρτάται μόνο από το B, αλλά και από τις συναρτήσεις πυκνότητας πιθανότητας p i, των ICs. Οι συναρτήσεις πυκνότητας πιθανότητας όμως, όπως αναφέραμε και στην προηγούμενη υποπαράγραφο είναι δύσκολο να υπολογιστούν, καθώς το πρόβλημα είναι μη παραμετρικό, πράγμα που σημαίνει ότι δεν μπορεί να λυθεί με εκτίμηση ενός πεπερασμένου συνόλου παραμέτρων. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

45 Σε κάποιες περιπτώσεις εφαρμογής του ICA, μπορεί να είναι γνωστές εκ των προτέρων οι συναρτήσεις πυκνότητας πιθανότητας των ICs, επομένως αυτή η πληροφορία μπορεί να χρησιμοποιηθεί για να λυθεί το πρόβλημα. Κάτι τέτοιο όμως δεν ισχύει στην περίπτωση του BSS που απασχολεί την παρούσα εργασία. Ο τρόπος με τον οποίο θα λύσουμε το συγκεκριμένο πρόβλημα, είναι μέσω της χρήσης μιας οικογένειας συναρτήσεων πυκνότητας πιθανότητας, οι οποίες προσεγγίζουν αυτές των ICs, τακτική την οποία ακολουθήσαμε και στην προηγούμενη υποπαράγραφο. Ο αριθμός των συναρτήσεων που χρειαζόμαστε είναι μόλις 2. Μια για τα supergaussian ICs και μια για τα subgaussian ICs. Κάτι τέτοιο είναι εφικτό και μάλιστα αποδεικνύεται πως μικρά λάθη στην εκτίμηση των συναρτήσεων πυκνότητας πιθανότητας δεν επηρεάζουν την μέθοδο μας. Αρκεί απλά, η εκτίμηση να βρίσκεται στο ίδιο μισό του χώρου με την πυκνότητα πιθανότητας του ICs. Και με το ίδιο μισό του χώρου αναφερόμαστε είτε πάνω από την Gaussian κατανομή είτε κάτω από αυτήν (supergaussian και subgaussian). Αρχικά ψάχνουμε την παράγωγο της πιθανοφάνειας: 1 log LB ( ) T B 1 [ B ] {g(bx) x T } όπου g( y) [g i(y i),...,g n(y n)] είναι ένα διάνυσμα που περιέχει μορφή του αλγορίθμου είναι: p i g i (logp i). H τελική p i 1 B (B) E{g(B x) x T } Η παραπάνω σχέση είναι η gradient descend έκδοση του αλγορίθμου [16]. Μπορούμε ακόμα να κάνουμε χρήση της natural gradient εκδοχής του αλγορίθμου η οποία απλοποιεί σημαντικά την φόρμουλα που καλούμαστε να υπολογίσουμε. T B ( E{g( y) y }B Για να προκύψει η natural gradient έκδοση του αλγορίθμου πρέπει να χρησιμοποιήσουμε διαφορετικό χώρο βελτιστοποίησης (optimization scheme) από τον Ευκλείδειο και συγκεκριμένα χώρο με μετρικές Riemannian. Μέχρι αυτό το σημείο δεν έχουμε εισάγει στην ανάλυση μας ότι τα δεδομένα που εξετάζουμε έχουν υποστεί την διαδικασία του whitening. Το επόμενο βήμα της ανάλυσης μας είναι να εξάγουμε τον τελικό fixed point αλγόριθμο. Για να το κάνουμε αυτό αρχικά πολλαπλασιάζουμε και τις 2 πλευρές της εξίσωσης με τον whitening matrix. Ο τελικός FastICA που προκύπτει με χρήση πολλαπλασιαστών Lagrange ώστε να κάνουμε βελτιστοποίηση κάτω από περιορισμούς, είναι W D(diag( a ) E{g( u) u T } W i Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

46 Όπου ai E{u ig(u i )} και D diag(1/ ( ai E{g(u i) })). Επιπλέον έχουμε αλλάξει τα σύμβολα για να ταιριάζουν με τον συμβολισμό που χρησιμοποιούμε για την μοντελοποίηση του προβλήματος διαχωρισμού ηχητικών πηγών. Μπορούμε να παρατηρήσουμε ότι η τελική μορφή του αλγορίθμου fixed point μοιάζει αρκετά με αυτήν του natural gradient. Μπορούμε να πούμε ότι αυτή η έκδοση του αλγορίθμου είναι μια υπολογιστικά βέλτιστη εκδοχή του αλγορίθμου natural gradient, αφού η ταχύτητα σύγκλισης γίνεται βέλτιστη λόγω της χρήσης των παραμέτρων οι οποίοι προσαρμόζονται στο σήμα που εξετάζει ο αλγόριθμος, δίνοντας το καλύτερο αποτέλεσμα. Ειδικότερα, το λειτουργεί κατά κάποιο τρόπο σαν μεταβαλλόμενο learning rate όταν συγκρίνουμε με την natural gradient έκδοση, οδηγώντας σε μια προσαρμοσμένη στα δεδομένα υπολογιστική διαδικασία. a i και D Μένει τέλος να προσδιορίσουμε ποιές συναρτήσεις g είναι κατάλληλες για να μοντελοποιήσουν τις supergaussian και subgaussian κατανομές των ICs. Γενικά, το θέμα αυτό έχει μελετηθεί εκτενώς στη βιβλιογραφία και έχει προταθεί πληθώρα συναρτήσεων που παρουσιάζουν διαφορετική απόδοση ανάλογα με το πρόβλημα. Στην εργασία αυτή θα κάνουμε χρήση των ακόλουθων [12]: D Για supergaussian ICs: Για subgaussian ICs: g(u) 2 tanh(u) g(u) tanh(u) u Πάλι και σε αυτήν την περίπτωση έχουμε πρόβλημα στην επιλογή του g() όταν καλούμαστε να αντιμετωπίσουμε μείγματα που περιέχουν τόσο supergaussian όσο και subgaussian πηγές. Αυτό το πρόβλημα μπορεί να λυθεί μέσω του όρου a E{u g(u )}, που περιέχει η FastICA εκδοχή i i i του αλγορίθμου μας. Το a i, είναι ουσιαστικά μια παράμετρος που προσαρμόζεται στα δεδομένα και περιέχει στον ορισμό της την συνάρτηση g(). Αν έχουμε πληροφορία για την φύση της πηγής που θέλουμε να εξάγουμε, πράγμα που συμβαίνει για αρκετές πραγματικές εφαρμογές, μπορούμε να κάνουμε υπολογίσουμε τα που απευθύνονται σε κάθε πηγή, με χρήση της κατάλληλης συνάρτησης g(). Επισημαίνεται ότι αυτή η μικρή αλλαγή είναι αρκετή για την σωστή λειτουργία του αλγορίθμου και δεν χρειάζεται να επέμβουμε καθόλου στο συνολικό κριτήριο παρόλο που πάλι περιέχει το g() a i W D(diag( a ) E{g( u) u T } W Τέλος, μια διαφορά του εκτιμητή μεγίστης πιθανοφάνειας σε σχέση με τα υπόλοιπα κριτήρια για τον ICA, είναι ότι στην περίπτωση του συγκλίνουμε στον συνολικό πίνακα W, ενώ αντίθετα στις προηγούμενες μεθόδους υπολογίζαμε κάθε διάνυσμα w i ξεχωριστά. Ουσιαστικά είναι τέτοια η μορφή του κριτηρίου που δεν μπορεί να μας δώσει deflationary εξαγωγή των ICs, δηλαδή ένα IC την φορά για το σύστημα μας, αλλά τα εξάγει όλα ταυτόχρονα. Θα δούμε στην επόμενη i Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

47 παράγραφο πιο βήμα πρέπει να εισάγουμε στην μέθοδο ώστε να διατηρεί τον πίνακα W ορθογώνιο και να μπορεί να γίνει σωστά η εξαγωγή πολλαπλών independent components Ορθογωνοποίηση πολλών ICs Οι παραπάνω μέθοδοι που περιγράψαμε είναι κατάλληλοι για την εκτίμηση ενός Independent Component (περισσότερων στην περίπτωση του ML), το οποίο λόγω και του permutation ambiguity δεν μπορούμε να ξέρουμε από ποιά πηγή προέρχεται σε κάθε περίπτωση. Επιπρόσθετα, ο ICA είναι πιθανόν να συγκλίνει στο ίδιο IC, ακόμη και αν τον εκκινήσουμε από διαφορετικά αρχικά διανύσματα w. Για να λύσουμε το παραπάνω πρόβλημα και να εξάγουμε και άλλα ICs από κάποια μίξει, μπορούμε να εκμεταλλευτούμε για άλλη μια φορά την προεπεξεργασία του prewhitenning. Στον χώρο του whitening μετασχηματισμού τα που οποία αναφέρονται σε διαφορετικά ICs, είναι ορθογώνια μεταξύ τους. Συνεπώς μπορούμε να κρατάμε και εμείς τα w που προσεγγίζουν τα ICs ορθογώνια, ώστε να μην είναι δυνατόν να συγκλίνουν στο ίδιο IC. w Figure Orthogonal ICs Υπάρχουν 2 βασικές μέθοδοι με τις οποίες μπορούμε να εκτιμήσουμε παραπάνω από ένα ICs. Deflationary orthogonalization Ο πιο απλός τρόπος να εξάγουμε παραπάνω ICs είναι μέσω Deflationary Οrthogonalization. Σε αυτήν την μέθοδο εκτιμούμε ICs το ένα μετά το άλλο. Αφού ολοκληρώσουμε τον υπολογισμό του ενός IC, μπορούμε να ξεκινήσουμε τον υπολογισμό του επόμενου, αρκεί σε κάθε επανάληψη να χρησιμοποιούμε την Gram-Schmidt μέθοδο ώστε να κρατάμε τα ορθογώνια. w p1 T p p ( p j ) j j1 w w w w w Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

48 Symmetric orthogonalization Σε άλλες εφαρμογές μπορεί να είναι επιθυμητό να εξάγουμε όλα τα διανύσματα w παράλληλα. Ένας λόγος για να κάνουμε κάτι τέτοιο είναι το μειονέκτημα της μεθόδου Deflationary orthogonalization να διαδίδει το σφάλμα που μπορεί να προκύψει για ένα IC, στα υπόλοιπα. Η λογική αντιμετώπισης εδώ ονομάζεται Symmetric Orthogonalization [42], και περιλαμβάνει υπολογισμό σε κάθε επανάληψη μιας καλύτερης προσέγγισης για τον συνολικό πίνακα W. Ο πίνακας W μπορεί είτε να προκύπτει απευθείας από την ανανέωση του κριτηρίου της μεθόδου (ML), είτε να υπολογίζουμε σε κάθε επανάληψη μια βελτίωση για κάθε IC ξεχωριστά και στην συνέχεια να σχηματίζουμε τον νέο W [w1 w 2... w ] T N (kurtosis - negentropy). Πλέον σε κάθε επανάληψη πρέπει να κρατάμε όλο τον πίνακα W ορθογώνιο. Ένας τρόπος να το καταφέρουμε αυτό είναι μέσω τις ανάθεσης που ακολουθεί την οποία πραγματοποιούμε μετά από κάθε επανάληψη. T 1/2 W (WW ) W 2.8 Σύνοψη FastICA αλγορίθμων Συνολικά οι 3 αλγόριθμοι που περιγράψαμε παραπάνω μπορούν να συνοψιστούν στους παρακάτω ψευδοκώδικες. Table 1.1 FastICA with Kurtosis (Deflationary orthogonalization) A. Prewhiten data z Vx B. For p=1:n with n the number of ICs 1. Begin with a random vector that has w 1 2. Update w T 3 E{z(w z) } 3 3. Keep components orthogonal 4. Normalize w w w 5. Go to 3 until coverage w p1 T p p ( p j ) j j1 w w w w w Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

49 Table 2.2 FastICA with negentropy (Deflationary orthogonalization) A. Prewhiten data i.e. z Vx B. For p=1:n with n the number of ICs 1. Begin with a random vector that has w 1 2. Choose appropriate g() for super sub Gaussian ICs. 3. Update 1 E{zg( T T w C w z)} E{g ( w z) w 4. Keep components orthogonal 5. Normalize w w w 6. Go to 3 until coverage p1 T p p ( p j ) j j1 w w w w w Table 3.3 FastICA with Kurtosis (Symmetric orthogonalization) 1. Prewhiten data i.e. z Vx 2. Choose the number of independent components to estimate, say n. 3. Choose initial separation matrix W [ w1, w2,..., w n ] 4. For i=1 m T 3 A. Update w E{z(w z) } 3w i i i B. Perform symmetric orthoginalization 5. Go to 4 until coverage T 1/2 W (WW ) W Table 4.4 FastICA with negentropy (Symmetric orthogonalization) 1. Prewhiten data i.e. z Vx 2. Choose the number of independent components to estimate, say n. 3. Choose initial separation matrix W [ w1, w2,..., w n ] 4. For i=1 m A. Choose appropriate g() for super sub Gaussian ICs. B. Update 1 E{zg( T T w C w z)} E{g ( w z) w C. Perform symmetric orthoginalization 5. Go to 4 until coverage T 1/2 W (WW ) W Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

50 Table 5.5 FastICA with Maximum Likelihood Estimator (Symmetric orthogonalization) 1. Prewhiten data i.e. z Vx 2. Choose the number of independent components to estimate, say n. 3. Choose initial separation matrix W [ w1, w2,..., w n ] 4. For i=1 m A. Calculate ai E{u ig(u i )} with appropriate g() for super sub Gaussian ICs. B. Calculate D diag(1/ ( a E{g(u ) })) C. Calculate W D(diag( a ) E{g( u) u T } W D. Update W W W E. Perform symmetric orthoginalization 5. Go to 4 until coverage i i i T 1/2 W (WW ) W Στον FastICA με χρήση ML δεν μπορούμε να δώσουμε αλγόριθμους με χρήση Deflationary orthogonalization, αφού όπως είχαμε δείξει προηγουμένος, η εκτίμηση της μεγίστης πιθανοφάνειας από την οποία προέκυψε το τελικό κριτήριο ανανεώνει όλο τον πίνακα σε κάθε επανάληψη και όχι κάθε w ξεχωριστά. Συνάγεται λοιπόν, ότι για την μέθοδο αυτήν την μέθοδο αυτή, μπορούμε να χρησιμοποιήσουμε μόνο symmetric orthogonalization. Στον παραπάνω συγκεντρωτικό πίνακα, εμφανίζονται μόνο οι fixed point εκδοχές των αλγορίθμων που αποτελούν και τις FastICA υλοποιήσεις, παρόλο που στην θεωρία καταλήξαμε και σε gradient επαναληπτικές μεθόδους για όλα τα είδη των κριτηρίων. Στα πειράματα που θα παρουσιαστούν στο τελευταίο κεφάλαιο θα χρησιμοποιηθούν και οι gradient αλγόριθμοι για να γίνει εμφανές πόσο πιο αργοί είναι, από πλευράς ταχύτητας σύγκλισης. 2.9 RobustICA Ο RobustICA, είναι μια μέθοδος για ICA που προτάθηκε το 2010 από τον Vicente Zarzoso [46]. Είναι μια απλή τεχνική που περιλαμβάνει exact line search για να υπολογίσει το βήμα του αλγορίθμου, ενώ πραγματοποιεί βελτιστοποίηση του κριτηρίου της κύρτωσης. Ένα μεγάλο πλεονέκτημα του είναι ότι δεν χρειάζεται prewhitenning και μπορεί να διαχειριστεί και μιγαδικούς αριθμούς, πράγμα που μπορούμε να πετύχουμε και με τον ICA μέσω κάποιων αλλαγών στην φόρμουλα του αλγορίθμου. Η ικανότητα και των 2 αλγορίθμων να διαχωρίσουν μίξεις μιγαδικών σημάτων είναι πολύ σημαντική για το επόμενο κεφάλαιο όπου θα αντιμετωπίζουμε convolutive mixtures. Ο RobustICA παρουσιάζει μια σειρά από πλεονεκτήματα, όπως το ότι δεν κάνει καμία είδους παραδοχή για την φύση των σημάτων που διαχωρίζει και ως αποτέλεσμα είναι ικανός να αντιμετωπίσει διαφορετικούς τύπους πηγών (real or complex, circular or noncircular, sub- Gaussian or super-gaussian). Ακόμα βασίζεται στο exact line search, μια αρκετά γνωστή μέθοδο στον χώρο της αριθμητικής ανάλυσης, για να προσδιορίσει βέλτιστα μήκη βήματος, χωρίς μάλιστα να πραγματοποιεί επαναληπτική διαδικασία αφού ο υπολογισμός τους γίνεται Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

51 αλγεβρικά μέσω κάποιον πολυωνύμων 4ης τάξης όπως θα δούμε παρακάτω. Αν θέλουμε να συνοψίσουμε όλα τα πλεονεκτήματα του RobustICA σε σχέση με τον FastICA : Η γενική φύση του κριτηρίου της κύρτωσης, για το οποίο δεν γίνεται καμία παραδοχή για την φύση των πηγών, του δίνει την δυνατότητα να αντιμετωπίζει πολλά διαφορετικά είδη πηγών χωρίς περιορισμούς. Σε αντίθεση με τον FastICA, η διαδικασία του prewhitenning δεν είναι υποχρεωτική και κατά συνέπεια μπορούν να αποφευχθούν και οι διάφοροι περιορισμοί που αυτό εισάγει όπως αναφέρεται και στο [25], ενώ για την εξαγωγή πολλών ICs μπορούμε να χρησιμοποιήσουμε άλλες λογικές όπως αυτή του linear regression. Ο αλγόριθμος μπορεί να παραμετροποιηθεί ώστε να στοχεύει στην εξαγωγή supergaussian και subgaussian πηγών με την σειρά του επιθυμεί ο χρήστης. Η χρήση της τεχνικής βέλτιστου βήματος μπορεί να κάνει τον αλγόριθμο πιο robust στην παρουσία τοπικών ακροτάτων και στιγματικών σημείων (saddle points and spurious local extrema). Η μέθοδος παρουσιάζει πολύ υψηλές ταχύτητες σύγκλισης, ειδικά όταν κάνουμε χρήση μικρών blocks από δείγματα [20]. Ας δούμε λοιπόν τον τρόπο λειτουργίας του ICA. Για το κλασικό μοντέλο μας: u H w x Βλέπουμε ότι εφόσον ο αλγόριθμος είναι εξ αρχής κατασκευασμένος να διαχειρίζεται μιγαδικά δεδομένα, δεν θα κάνουμε καθόλου χρήση του τελεστή (transpose operator) αλλά μόνο του (conjugate-transpose operator). Το κριτήριο που θέλουμε να βελτιστοποιήσουμε είναι αυτό της κύρτωσης αλλά σε πιο γενική μορφή από ότι είδαμε στον FastICA. () () Kw ( ) E{ u } 2E { u } E{ u } 2 2 E { u } 2 Το κριτήριο είναι γενικό και δεν κάνει κάποια παραδοχή για prewhitenning στα δεδομένα, μπορεί να χρησιμοποιηθεί και για μη μιγαδικούς αριθμούς, ενώ δεν επηρεάζεται από την κλίμακα K( w) K( w), 0. To gradient της κύρτωσης δίνεται από τον παρακάτω τύπο: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

52 * 2 2 E u u x 2 E { u } E{ u } wk( w) { } E{ux}E{ u } E{ u } E{ u } E{u x} Η προσέγγιση που θα ακολουθήσουμε είναι να διεξάγουμε exact line search της απόλυτης τιμής της κύρτωσης: opt arg max K(w g) Ως κατεύθυνση αναζήτησης επιλέγουμε αυτή της παραγώγου της κύρτωσης g(). To exact line search [21] είναι μια μέθοδος για να βρίσκουμε ακρότατα συναρτήσεων και στην συγκεκριμένη περίπτωση θα χρησιμοποιηθεί για το κριτήριο της κύρτωσης. Είναι γενικά μια απαιτητική υπολογιστική μέθοδος αφού χρησιμοποιεί επαναληπτική διαδικασία για να λύσει το πρόβλημα, ενώ παρουσιάζει και διάφορους άλλους περιορισμούς που γενικά την καθιστούν δύσκολο να εφαρμοστεί στην πράξη. Παρόλα αυτά, στον robustica, μπορούμε να εκφράσουμε το κριτήριο σαν πολυώνυμα συναρτήσει του μ [22], με αποτέλεσμα να μπορούμε εύκολα να εξάγουμε την βέλτιστη τιμή του, με αλγεβρικούς υπολογισμούς. opt Για να δούμε μέσω ποιων υπολογισμών μπορούμε να εκφράσουμε την συνάρτηση του κριτηρίου K(w g) μόνο ως συνάρτηση του μ πρέπει να κάνουμε την παρακάτω μαθηματική ανάλυση. Αρχικά να μετασχηματίσουμε το Κ ως: E{ u } E{( u ) } P( ) ( ) 2 2 Q ( ) E { u } Όπου u u g, u H w x, g, H g x P( ) P( ) P ( ), P( ) E{ u } 1, P u, ( ) E{( ) 2 } 2 2 Q( ) E{ u } Στην συνέχεια για ευκολία θέτουμε: a 2 u, b 2 g, c yg, d Re(yg ) Μετά από απλούς αλγεβρικούς χειρισμούς, προκύπτει ότι μπορούμε να εκφράσουμε τα P(μ) και Q(μ) ως: 4 P( ) h k, 0 2 Q( ) i k 0 Όπου: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

53 h E{a } E{a} h * 4 E{a d} 4Re(E{a}E{c }) 2 2 * h 4 E{d } 2 E{ a b} 4 E{c} 2 Re(E{a}E{b }) h * 4 E{ b d} 4 Re(E{b}E{c }) 2 2 h E{ b } E{b} i E{a } i 2 E{d} i E{ b} Ακόμα η παράγωγος του K(w g), μπορεί να γραφεί ως: P( )Q( ) 2 P( )Q( ) p( ) K( ) 3 3 Q ( ) Q ( ) Όπου το p(μ) δίνεται από τον τύπο: p( ) ak 4 0 με 2h i h i h i h i 2h i h i 3h i h i h i 4h i h i 2h i Μέχρι τώρα έχουμε παρουσιάσει την ανάλυση, μέσω της οποίας μπορούμε να εκφράσουμε το κριτήριο της κύρτωσης αλλά και την παράγωγο αυτού σε μορφή πολυωνύμων τα οποία μπορούν να επιλυθούν αριθμητικά σε κάθε επανάληψη του αλγόριθμου. Συνολικά, τα βήματα που πραγματοποιεί ο αλγόριθμος σε κάθε επανάληψη είναι τα παρακάτω: Table 6.6 Steps of RobustICA 1. Υπολόγισε τις σταθερές του πολυωνύμου p(μ). Οι σταθερές είναι οι 4 { } 0 μπορούν να προσδιοριστούν αριθμητικά από τις εκφράσεις τους που δόθηκαν στην ανάλυση που κάναμε προηγουμένως. 2. Βρες τις ρίζες του πολυωνύμου p(μ). Οι ρίζες του είναι 4 μιας και Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

54 το πολυώνυμο είναι 4 ο βαθμού και μπορούν να υπολογιστούν με πολύ μικρό υπολογιστικό κόστος μέσω αλγεβρικών διαδικασιών όπως η Ferrari φόρμουλα [23]. 3. Διάλεξε την ρίζα η οποία οδηγεί στην μέγιστη τιμή για την συνάρτηση. opt arg max K(w g). Κάτι τέτοιο μπορεί απλά να πραγματοποιηθεί με δοκιμή κάθε ρίζας και εμπεριέχει επίσης μικρό υπολογιστικό κόστος. 4. Ανανέωσε την τιμή του w ως w w optg. 5. Κανονικοποίησε το w ως w w w πραγματοποιούμε αυτό το βήμα και στον ICA., για τους ίδιους λόγους που Μπορούμε ακόμα να παραμετροποιήσουμε τον αλγόριθμο του RobustICA, με τέτοιο τρόπο ώστε να αναζητά ICs, με συγκεκριμένο πρόσημο ε στην κύρτωση τους (supergaussian και subgaussian ). Σε αυτήν την περίπτωση προσθέτουμε την παράμετρο ε στο : opt arg max K(w g) Αξίζει να σημειωθεί, ότι, αν δεν υπάρχει κανένα ICs με το ζητούμενο kurtosis sign o αλγόριθμος μας είναι πιθανόν να παγιδευτεί σε ένα τοπικό ακρότατο. Τέλος, θα συζητήσουμε με ποιον τρόπο μπορούμε να εξάγουμε πολλαπλά ICs, μέσω του RobustICA. Η μια επιλογή που έχουμε είναι να κάνουμε prewhitenning τα δεδομένα, αν και δεν είναι υποχρεωτικό για την μέθοδο. Τότε, μπορούμε να δημιουργήσουμε και deflationary και symmetric αλγορίθμους οι οποίοι θα διατηρούν τα διανύσματα w, ορθογώνια μεταξύ τους, με την ίδια ακριβώς λογική που χρησιμοποιούσαμε στην FastICA. Για την περίπτωση που δεν θέλουμε να κάνουμε prewhitenning τα δεδομένα έχουμε μια ακόμα επιλογή. Προφανώς πλέον δεν μπορούμε να κατασκευάσουμε symmetric αλγορίθμους που εξάγουν όλα τα ICs παράλληλα, αφού τα δεδομένα μας δεν είναι whitened, άρα και ορθογώνια μεταξύ τους στον πολυδιάστατο χώρο που ανήκουν. Η τακτική που ακολουθούμε σε αυτήν την περίπτωση, είναι να εξάγουμε ένα IC και στην συνέχεια να το αφαιρέσουμε από την μίξει. Η αφαίρεση μπορεί να γίνει με την μέθοδο του linear regression [24]. Στην linear regression μέθοδο, η συμμετοχή κάθε πηγής στις παρατηρήσεις, μπορεί να υπολογιστεί μέσω υπολογισμού του minimum mean square error στο πρόβλημα: x hs ˆˆ Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ opt

55 Στην συνέχεια το IC αφαιρείτε από το μείγμα μέσω του: x x hs ˆˆ Επομένως, όταν αφαιρέσουμε ένα IC, από το μείγμα, μπορούμε να επανεκκινήσουμε την διαδικασία για να προσδιορίσουμε τα υπόλοιπα independent components. Εφόσον αυτή η μέθοδος προσδιορίζει τα ICs το ένα μετά το άλλο, μπορούμε να την θεωρήσουμε deflationary. Να τονίσουμε εδώ ότι στον RobustICA χωρίς prewhitenning, τα διανύσματα w αναφέρονται σε διαφορετικά μείγματα, αφού μέσω του linear regression αφαιρούμε το ένα IC από την μίξει πριν αναζητήσουμε τα υπόλοιπα. Κατά συνέπεια δεν μπορούμε να εξάγουμε και τα 2 ICs με ένα πολλαπλασιασμό των δεδομένων με τον πίνακα W, όπως κάνουμε στις άλλες περιπτώσεις του ICA. Αυτό που μπορούμε να κάνουμε όμως είναι να εξάγουμε το πρώτο IC μέσω πολλαπλασιασμού με το πρώτο w, να κάνουμε linear regression και μετά να εξάγουμε το επόμενο. Σε μορφή ψευδοκώδικα: Table 7.7 Caclulate multiple ICs for RobustICA without prewhitenning 1. Calculate ICs extraction vector prewhitenning 2. Calculate IC i with u i w i x 3. Remove IC i with linear regression x x hui 4. Go to 2 w with RobustICA without 2.10 Συμπεράσματα Σε αυτό το κεφάλαιο εξηγήσαμε το βασικό μοντέλο των instantaneous mixtures, και αναλύσαμε την λογική πίσω από την Independent Component Analysis. Προσπαθήσαμε να δείξουμε πως ο ICA καταφέρνει να αναιρέσει την πληροφορία που έχουν το ένα για το άλλο τα διάφορα components ενός μείγματος, στρέφοντας τα με σκοπό να τα κάνει independent. Στη συνέχεια παρουσιάσαμε αναλυτικά τους αλγορίθμους με τους οποίους μπορούμε να πραγματοποιήσουμε ICA βασιζόμενοι στα κριτήρια της κύρτωσης, της μεγίστης πιθανοφάνειας και του negentropy, καθώς και χρησιμοποιώντας μιας σχετικά καινούργια μέθοδο με ενδιαφέροντα χαρακτηριστικά, τον RobustICA. Τέλος είδαμε τις τεχνικές ορθογονοποίησης που μπορούμε να χρησιμοποιήσουμε για να εξάγουμε από τους αλγορίθμους μας πολλαπλά ICs, όπου αυτό είναι δυνατόν. Στο επόμενο κεφάλαιο θα ασχοληθούμε με μια νέα κατηγορία μειγμάτων, τα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

56 convolutive mixtures και θα εφαρμόσουμε τις μεθόδους που παρουσιάσαμε σε αυτό το κεφάλαιο για να αντιμετωπίσουμε αυτό το πιο σύνθετο πρόβλημα. Στην προσωπική ιστοσελίδα ( ), μπορούν να βρεθούν κώδικες σε περιβάλλον Matlab, που υλοποιούν τον ICA αλγόριθμο για Instantaneous Mixtures βελτιστοποιώντας τα διάφορα κριτήρια που εξετάζονται, ενώ εκτός από τις FastICA, περιέχονται και οι Gradient υλοποιήσεις για να μπορεί να γίνει σύγκριση πειραματικά και να προσδιοριστεί η ταχύτερη μέθοδος. Για εξαγωγή πολλών ICs, δίνεται η επιλογή χρήσης τόσο Deflationary, όσο και Symmetric orthogonalization. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

57 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

58 Κεφάλαιο 3: ICA για Convolutive mixtures 3.1 Εισαγωγή Το κύριο πρόβλημα που αντιμετωπίσαμε σε αυτήν την διπλωματική εργασία, είναι ο διαχωρισμός Convolutive mixtures. Μίξεις δηλαδή που εμπεριέχουν πολλαπλές εκδόσεις της ίδιας πηγής με διαφορετικές μετατοπίσεις στο χρόνο. Τα convolutive mixtures μπορούν να μοντελοποιήσουν με μεγαλύτερη ακρίβεια τις συνθήκες διαχωρισμού σε ένα πραγματικό δωμάτιο και στο κεφάλαιο αυτό θα ασχοληθούμε με τις κατάλληλες διαφοροποιήσεις που πρέπει να κάνουμε στον ICA, έτσι ώστε να είναι ικανός να αντιμετωπίσει τέτοιου είδους μείγματα. Όπως θα δούμε παρακάτω η μοντελοποίηση που θα χρησιμοποιήσουμε μεταφέρει το πρόβλημα στο πεδίο της συχνότητας όπου χωρίζει το αρχικό πρόβλημα σε πολλά υποπροβλήματα ενώ τα δεδομένα τα οποία διαχειριζόμαστε είναι σε μιγαδική μορφή. Θα παρουσιάσουμε τις παραλλαγές του ICA που μπορούν να διαχωρίσουν μιγαδικά δεδομένα. Θα δούμε ακόμα πόσο σημαντικό πρόβλημα δημιουργούν οι 2 ασάφειες του ICA framework, για τις οποίες θα αναζητήσουμε λύσεις στο επόμενο κεφάλαιο. 3.2 Μοντελοποίηση προβλήματος Στο προηγούμενο κεφάλαιο μελετήσαμε τον ICA και είδαμε ότι είναι ικανός να διαχωρίσει γραμμικούς συνδυασμούς πηγών και να προσδιορίσει μέσα από μίξεις ανεξάρτητες δομές, τις οποίες ονομάσαμε Independent Components (ICs). Αν όμως προσπαθήσουμε να εφαρμόσουμε αυτές τις τεχνικές σε ηχητικά δεδομένα που έχουν προκύψει από ηχογράφηση σε πραγματικό δωμάτιο, θα δούμε ότι η μέθοδος μας θα αποτύχει να επιφέρει διαχωρισμό. Ο κύριος λόγος που συμβαίνει αυτό, είναι ότι τα instantaneous mixtures δεν είναι κατάλληλα για να μοντελοποιήσουν ένα πραγματικό δωμάτιο. Τα ηχητικά κύματα υφίστανται ανακλάσεις στις διάφορες επιφάνειες του δωματίου με αποτέλεσμα να καταγράφονται από τα μικρόφωνα πολλές εκδοχές του ίδιου σήματος, οι οποίες έχουν και χρονικές καθυστερήσεις λόγω της διαφορετικής διαδρομής που έχουν ακολουθήσει τα ηχητικά κύματα που ταξιδεύουν με πεπερασμένη ταχύτητα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

59 Figure 18.1 Ανακλάσεις Κυμάτων Ηχητικής Πηγής σε Πραγματικό Δωμάτιο Από την εικόνα είναι εμφανές ότι πρόκειται για ένα αρκετά πιο σύνθετο πρόβλημα σε σχέση με τα instantaneous mixtures. Ένας πιο ακριβής τρόπος να μοντελοποιήσουμε όλες αυτές τις διαφορετικές καταγραφές του ίδιου σήματος για το σενάριο των 2 πηγών είναι ο παρακάτω: x (n) a (1) s (n T )... a ( ) s (n T ) 1 K a (1) s (n T )... a ( ) s (n T ) 1 K x (n) a (1) s (n T )... a ( ) s (n T ) 1 K a (1) s (n T )... a ( ) s (n T ) 1 K Όπου T k th i ij αντιστοιχεί στην th k χρονική καθυστέρηση της th j πηγής όπως καταγράφηκε από το μικρόφωνο. Ακόμη, οι σταθερές a (k) ij μοντελοποιούν την συνάρτηση μεταφοράς του δωματίου (room transfer function). Η απεικόνιση του παραπάνω μοντέλο φαίνεται και στο επόμενο σχήμα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

60 s (n) 1 x (n) 1 ` s (n) 2 x (n) 2 Figure 19.2 Ανακλάσεις Ηχητικών Κυμάτων σε Πραγματικό Δωμάτιο (Περίπτωση 2 πηγών 2 Μικροφώνων) Η παραπάνω περιγραφή του μοντέλου μπορεί να επεκταθεί και στην γενική περίπτωση των M μικροφώνων N πηγών. K x (n) a ( k) s (n k)... a ( k) s (n k) N 1N k1 k1 K x (n) a ( k) s (n k)... a ( k) s (n k) N 2N k1 k1 K K K x (n) a ( k) s (n k)... a ( k) s (n k) M M 1 M 1 MN MN k1 k1 K Σε αυτό το σημείο έχουμε εισάγει έναν περιορισμό. Θεωρούμε ότι όλες οι πηγές έχουν την ίδια μέγιστη χρονική καθυστέρηση k, ή με άλλα λόγια, θεωρούμε ότι η Room Transfer Function έχει συγκεκριμένο μήκος. Γενικά στα convolutive προβλήματα οι περισσότερες ICA εφαρμογές προτιμούν να δίνουν ένα πεπερασμένο μήκος στην συνάρτηση μεταφοράς του δωματίου και ουσιαστικά να την μοντελοποιούν σαν ένα Finite Impulse Response (FIR) φίλτρο. Είναι φυσικά δυνατόν να κάνουμε χρήση Infinite Impulse Response (IIR) φίλτρων ώστε να έχουμε μια πιο ακριβής μοντελοποίηση για το δωμάτιο. Δεν το επιλέξουμε όμως αυτή την τακτική, λόγω των πολλών πλεονεκτημάτων που έχουν τα FIR φίλτρα στην διαχείριση τους [28]. Ένα μέσω δωμάτιο μπορεί να μοντελοποιηθεί επαρκώς με χρήση FIR φίλτρων και μάλιστα η μέση συνάρτηση μεταφοράς δωματίου είναι συνήθως μικρότερη από 250msec [29]. Αν θέλουμε να δώσουμε μια τελική μορφή πίνακα για το πρόβλημα μας, μπορούμε να γράψουμε: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

61 x (n) a s (n)... a s (n) x (n) a s (n)... a s (n) x (n) a s (n)... a s (n) 1 1 Ή σε μορφή πίνακα: x1(n) a11 a1 s1(n) x2(n) a21 a 2 s2(n) x(n) a1 a s(n) x n a a a ( ) s( n) 1 Ο τελεστής (*) είναι ο τελεστής της συνέλιξης. Η πράξη της συνέλιξης είναι κατάλληλη για να μοντελοποιήσει το συγκεκριμένο πρόβλημα, αφού η δομή των αθροισμάτων που εμφανίζονται προηγουμένως, ταιριάζουν απόλυτα με τον ορισμό της. Κατά συνέπεια αυτό που έχουμε να κάνουμε στην περίπτωση του πραγματικού δωματίου είναι να εκτιμήσουμε τους συντελεστές του FIR φίλτρου, μέσω του ICA framework, ώστε τελικά να διαχωρίσουμε τις ηχητικές πηγές. w ij w w w a a a u( n) x( n) 1 w w w 3.3 Λύση Προβλήματος μέσω ICA framework Όπως έγινε σαφές από την ανάλυση της προηγούμενης ενότητας, ο διαχωρισμός ηχητικών πηγών είναι ένα πρόβλημα που δεν μπορεί να λυθεί με χρήση του μοντέλου των instantaneous mixtures. Αυτό συμβαίνει γιατί, στην μοντελοποίηση του προβλήματος που παρουσιάσαμε υπάρχει η πράξη της συνέλιξης και όχι του πολλαπλασιασμού, ανάμεσα στη συνάρτηση μεταφοράς του δωματίου και δε, στης τιμές των παρατηρήσεων που καταγράφονται από το μικρόφωνο. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

62 Μια πρώτη προσέγγιση στο πρόβλημα, που ακολουθήθηκε από τους ερευνητές είναι να λύσουν το πρόβλημα στο πεδίο του χρόνου [30]. Με χρήση τακτικών, παρόμοιων με τον ICA αλγόριθμο, προσπάθησαν να εκτιμήσουν τους συντελεστές του FIR φίλτρου, βελτιστοποιώντας κριτήρια που έχουν να κάνουν με το πόσο Gaussian είναι τα ICs. Μια καλύτερη τακτική, είναι να αντιμετωπίσουμε το πρόβλημα στο πεδίο της συχνότητας [31]. Το πεδίο της συχνότητας είναι ένας χώρος που μας δίνει πολλά πλεονεκτήματα για την λύση του διαχωρισμού. Ένα βασικό πλεονέκτημά του, είναι ότι μετατρέπει την πράξη της συνέλιξης σε πολλαπλασιασμό. Πιο συγκεκριμένα: για x1(n) a11 a1 s1(n) x2(n) a21 a 2 s2(n) STFT STFT x(n) a1 a s(n) x1 ( f, t) A11( f ) A1 ( f ) s1 ( f, t) x2( f, t) A21( f ) A2 ( f ) s 2( f, t) x ( f, t) A 1( f ) A ( f ) s ( f, t) x( f, t) A s (f,t), f=1...l. f Για να κάνουμε την μετατροπή από ένα πρόβλημα συνέλιξης σε ένα πρόβλημα πολλαπλασιασμού, χρησιμοποιούμε τον μετασχηματισμό Short Time Fourier Transformation (STFT). Μέσω του STFT διαχωρίζουμε ένα σήμα σε frames και στη συνέχεια πραγματοποιούμε Fast Fourier Transformation (FFT) σε κάθε ένα από τα frames αυτά ξεχωριστά [45]. Η λογική που ακολουθούμε είναι αρχικά να χωρίσουμε το σήμα σε μικρά frames, τα οποία αποτελούνται από ένα συγκεκριμένο αριθμό δειγμάτων. Με τον τρόπο αυτόν, πετυχαίνουμε και την διατήρηση του Stationarity το οποίο μπορούμε να ορίσουμε χωρίς μεγάλη αυστηρότητα, ως την διατήρηση των στατιστικών χαρακτηριστικών του σήματος μέσα σε ένα συγκεκριμένο frame. Ουσιαστικά, επειδή η χρονική διάρκεια του frame είναι μικρή, τα στατιστικά του σήματος μένουν σταθερά, χωρίς να μεταβάλλονται με τον χρόνο. Ακόμα τα frames αυτά πρέπει να είναι overlapping, ώστε να μην προκύπτουν παραμορφώσεις του σήματος και ασυνέχειες στην διαχείριση κοντινών frames και για να τα κατασκευάσουμε χρησιμοποιήσαμε ένα παράθυρο Hamming. Στην συνέχεια μπορούμε να πραγματοποιήσουμε μετασχηματισμό Fast Fourier Transformation (FFT), σε κάθε ένα από αυτά τα frames. Ο FFT μετασχηματισμός θα είναι μήκους L σημείων, όσα είναι δηλαδή τα δείγματα που περιέχονται σε κάθε ένα από τα frames που κατασκευάζουμε. Έχει δειχθεί ακόμα ότι σε κάποιες περιπτώσεις μπορούμε να χρησιμοποιήσουμε και την τακτική του zero padding, για να έχουμε ένα πιο Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

63 Frequency Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου καθαρό φάσμα στο πεδίο της συχνότητας, ειδικά στην περίπτωση όπου χρησιμοποιούμε μικρό αριθμό frames. H όλη διαδικασία μπορεί να συνοψιστεί στο παρακάτω σχήμα: Splti to overlaping frames Frame 1 Frame 2 Frame 3 Frame 4 Perform FFT to every frame Frame 5 Figure 20.3 Λειτουργεία STFT μετασχηματισμού Time Η χρήση ενός hamming window της μορφής που φαίνεται στο σχήμα μας δίνει μια ομαλή μετάβαση ανάμεσα στα frames κατά την ανακατασκευή του σήματος. Τελικά, μετά τον μετασχηματισμό STFT, έχουμε στην διάθεση μας ένα διδιάστατο grid ή πίνακα, ο οποίος περιέχει την εξέλιξη κάθε συχνότητας του σήματος στον χρόνο. Οι διακριτές συχνότητες του πίνακα είναι όσες και το μέγεθος του κάθε frame, δηλαδή L. Κατά συνέπεια αν χωρίσουμε το πρόβλημα μας σε μεγαλύτερα frames, παίρνουμε και περισσότερες διακριτές συχνότητες στον τελικό πίνακα του STFT. Ανάλογα με το μέγεθος του L μοντελοποιούμε και την συνάρτηση μεταφοράς δωματίου. Το L πρέπει να είναι μεγαλύτερο του μήκους του room transfer function Κ, η σωστή επιλογή του μπορεί να επηρεάσει σημαντικά το πρόβλημα. Πλέον με το πρόβλημα μας σε αυτήν τη μορφή, μπορούμε να διαχωρίσουμε κάθε συχνότητα (Frequency Bin) ξεχωριστά, και ουσιαστικά έχουμε μετασχηματίσει ένα πολύπλοκο Convolutive πρόβλημα, σε πολλά μικρά instantaneous προβλήματα, για τα οποία όμως έχουμε ένα ισχυρό και καλά θεμελιωμένο framework για να τα αντιμετωπίσουμε. Συνεπώς για να συνοψίσουμε πρέπει να λύσουμε L instantaneous προβλήματα, της μορφής : x1( f, t) A11 ( f ) A1 ( f ) s1( f, t) x2( f, t) A21 ( f ) A2 ( f ) s2( f, t) x( f, t) A 1( f ) A ( f ) s( f, t) Όπου f=1...l και t 1... N, όπου Ν είναι ο αριθμός των frames στα οποία χωρίζουμε το σήμα μας. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

64 Εκτός από την μετατροπή της δύσχρηστης πράξης της συνέλιξης σε πολλαπλασιασμό, το πεδίο της συχνότητας μας δίνει ένα ακόμα σημαντικό πλεονέκτημα για την αντιμετώπιση του προβλήματος του διαχωρισμού. Τα δεδομένα μας γίνονται πιο nongaussian όταν αναπαρίστανται σε αυτό. Ας εξετάσουμε το παράδειγμα του παρακάτω σχήματος. Σε αυτό, εμφανίζονται οι τιμές της κύρτωσης που έχουν μετρηθεί για τα δεδομένα μας στο time και frequency domain. Όπως θυμόμαστε από το προηγούμενο κεφάλαιο η κύρτωση είναι ένα μέτρο του nongaussianity Kurtosis 25 Kurtosis Frequency bins id frequency bins id Figure 21.4 Κύρτωση πραγματικού μέρους κάθε frequency bins (frequency domain) Figure 22.5 Κύρτωση φανταστικού μέρους κάθε frequency bins (frequency domain) Kurtosis Time frame id Figure 23.6 Κύρτωση κάθε time frames (time domain) Στο figure 3.4 και Figure 3.5, κάθε σημείο απεικονίζει την τιμή της κύρτωση, για το πραγματικό και μιγαδικό μέρος κάθε frequency bin, ενώ στο Figure 3.6 έχουμε την αντίστοιχη αναπαράσταση για κάθε time frames πριν υποστούν STFT. Αν συγκινούμε την κύρτωση που παρουσιάζουν τα time frames στο πεδίο του χρόνου, με την κύρτωση που παρουσιάζουν τα frequency bins που προκύπτουν μετά το μετασχηματισμό Fourier στο πεδίο της συχνότητας, μπορούμε να πούμε ότι για το frequency domain, τα δεδομένα μας είναι περισσότερο super Gaussian [34][35]. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

65 Το παραπάνω χαρακτηριστικό έχει ευεργετικές ιδιότητες για την λειτουργία του ICA, αφού όπως έχουμε αναφέρει στο προηγούμενο κεφάλαιο μπορεί να πετύχει καλύτερες επιδόσεις όσο πιο nongaussian είναι τα δεδομένα. Το γεγονός αυτό θα επιβεβαιωθεί και πειραματικά στο τελευταίο κεφάλαιο, όπου θα δούμε ότι, για ισχυρώς μη Gaussian δεδομένα, οι αλγόριθμοι μας θα συγκλίνουν πιο γρήγορα και με μεγαλύτερες ακρίβειες. Μέσω της ανάλυσης που έχουμε κάνει μέχρι τώρα, έχουμε καταλήξει ότι το frequency domain είναι ένας κατάλληλος χώρος για την αντιμετώπισης των Convolutive mixtures, αφού μας δίνει την δυνατότητα να χρησιμοποιήσουμε το καλά θεμελιωμένο ICA framework, ενώ ταυτόχρονα εκμεταλλεύεται το μέγιστο nongaussianity που παρουσιάζουν εκεί τα δεδομένα. Ταυτόχρονα όμως εισάγει και κάποια σημαντικά και δύσκολα προβλήματα που πρέπει να αντιμετωπίσουμε για να μπορέσουμε να πετύχουμε αποτελεσματικό διαχωρισμό των ηχητικών πηγών. 1. Εφόσον τα δεδομένα μας είναι στο πεδίο της συχνότητας, πρέπει να κάνουμε τις απαραίτητες αλλαγές στους αλγορίθμους του ICA, για να μπορούμε να αντιμετωπίσουμε μιγαδικά μείγματα. Το συγκεκριμένο θέμα δεν αποτελεί σημαντικό πρόβλημα, αφού ο FastICA έχει μελετηθεί από ερευνητές και με κατάλληλες μετατροπές μπορεί να αντιμετωπίζει μιγαδικά δεδομένα. Το ίδιο και ο RobustICA, ο οποίος από τον ορισμό του δεν κάνει καμία παραδοχή για την φύση του σήματος. 2. Οι 2 ασάφειες του ICA, δηλαδή το permutation και scale ambiguity, θα μας απασχολήσουν αρκετά, αφού αντίθετα με το απλό μοντέλο τον instantaneous mixtures, όπου δεν δημιουργούσαν σημαντικό πρόβλημα, εδώ επηρεάζουν σημαντικά το τελικό αποτέλεσμα της μεθόδου. Το scale ambiguity δεν μας αφήνει να ξεχωρίσουμε τις ενέργειες που διαθέτουν τα ICs για κάθε ένα από τα διαφορετικά frequency bins, με αποτέλεσμα να πραγματοποιούμε παραμόρφωση στο τελικό φάσμα των διαχωρισμένων πηγών λόγω του ότι δεν ανακτάται σωστά η ενέργεια που έχει κάθε συχνότητα του διαχωρισμένου σήματος. Επιπλέον, δεν υπάρχει εγγύηση ότι η παραμόρφωση αυτή, θα είναι τουλάχιστον ομοιόμορφη στο σε όλες τις διακριτές συχνότητες του προβλήματος μας. Κατά συνέπεια, η σωστή ανάκτηση του scale είναι πολύ σημαντική για ποιότητα του τελικού σήματος που θα εξάγουμε. Ακόμα πιο σημαντικό πρόβλημα αποτελεί permutation ambiguity, αφού δεν μπορούμε να ξέρουμε μετά τον διαχωρισμό, ποιο IC αναφέρεται σε ποια πηγή. Άμα δεν καταφέρουμε με κάποιον τρόπο να «γκρουπάρουμε» τα σωστά ICs για τα διαφορετικά frequency bin μεταξύ τους, οι πηγές παραμένουν σε μίξει παρόλο που έχουμε πραγματοποιήσει διαχωρισμό. Στο επόμενο κεφάλαιο θα ασχοληθούμε αποκλειστικά με τις διάφορες μορφές αντιμετώπισής τους. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

66 3.4 ICA για την λύση των L instantaneous mixtures Για να λύσουμε το πρόβλημα του διαχωρισμού των διαφορετικών frequency bins, θα κάνουμε χρήση κάποιων εκ των αλγορίθμων που παρουσιάσαμε στο προηγούμενο κεφάλαιο. Πιο συγκεκριμένα θα χρησιμοποιήσουμε τον FastICA με χρήση εκτιμητή μεγίστης πιθανοφάνειας, και τον RobustICA. Η μέθοδος του FastICA για convolutive mixtures είναι μια καλά θεμελιωμένη μέθοδος στην βιβλιογραφία και θα την χρησιμοποιήσουμε σαν βάση για να την συγκρίνουμε στο τελευταίο κεφάλαιο με τον RobustICA και να διαπιστώσουμε κατά πόσο είναι δυνατόν να την συναγωνιστεί από πλευράς απόδοσης και υπολογιστικού κόστους. Μέχρι τώρα, έχουμε παρουσιάσει αυτές τις μεθόδους με γενικό τρόπο και μπορούν στην μορφή που είναι, να διαχειριστούν μιγαδικά δεδομένα. Στόχος μας είναι να εκτιμήσουμε ένα unmixing matrix, για κάθε ένα από τα frequency bins. Θα πρέπει πάντα να πραγματοποιούμε την W f διαδικασία του prewhitenning και στα δεδομένα που βρίσκονται στον μιγαδικό χώρο για της μεθόδους που το απαιτούν. Θυμηθείτε ότι θα κάνουμε και διαχωρισμό χωρίς την χρήση prewhitenning στην περίπτωση του RobustICA. Η τεχνική του maximum likelihood, δεν κάνει κάποια παραδοχή για την φύση των δεδομένων και μπορεί να χρησιμοποιηθεί απευθείας σε μιγαδικές πηγές, αρκεί να αλλάξουμε τον τελεστή του T παρακάτω τύπο: (transpose) σε H (complex-conjugate transpose). Το τελικό κριτήριο δίνεται από τον W D(diag( a ) E{g( u(f,t)) u (f,t)} W f i f όπου ai E{u ig(u i )} και D diag(1/ ( ai E{g(u i) })). Ένα θέμα που εισέρχεται εδώ, είναι ποιαα συνάρτηση g() (activation function), είναι κατάλληλη για να χρησιμοποιηθεί στο συγκεκριμένο μοντέλο. Γενικά στην βιβλιογραφία υπάρχει μεγάλο ενδιαφέρον για τον προσδιορισμό κατάλληλων συναντήσεων g() που να είναι κατάλληλες και για μιγαδικά δεδομένα. Εμείς θα κάνουμε χρήση της παρακάτω: g(u k ) u k / uk για k=1 N Η παράγωγος της συνάρτησης g() θα επίσης θα μας χρειαστεί είναι: k k uk k g(u ) u u Ακόμη, επιλέγουμε ο αλγόριθμος να πραγματοποιεί symmetric orthogonalization με βάση τον παρακάτω τύπο: W W ( W H W ) f f f f 0.5 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

67 Ούτε ο RobustICA χρειάζεται κάποια μετατροπή για να αντιμετωπίσει μιγαδικά δεδομένα. Η μεθοδολογία που θα ακολουθήσουμε είναι ακριβώς η ίδια με αυτήν που εφαρμόσαμε στο προηγούμενο κεφάλαιο, αφού ένα από τα βασικά πλεονεκτήματα του RobustICA, όπως δίνεται από την βιβλιογραφία, είναι ότι μπορεί να διαχειριστεί δεδομένα οποιουδήποτε είδους χωρίς καμία παραμετροποίηση. Σημαντική είναι εδώ η χρήση ή όχι prewhitenning. Αν επιλέξουμε να κάνουμε λευκά τα δεδομένα, τότε μπορούμε να ακολουθήσουμε αλγορίθμους που κάνουν symmetric orthogonalization ακριβώς με τη ίδια διαδικασία όπως και στον FastICA: H W W ( W W ) f f f f 0.5 Αν επιλέξουμε να χρησιμοποιήσουμε ICA χωρίς prewhitenning, τότε πρέπει να ακολουθήσουμε τις τακτικές που περιγράφονται στο τέλος του δεύτερου κεφαλαίου, για την εξαγωγή πολλών ICs, πάντα μέσω linear regression. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

68 3.5 Σύνοψη μεθόδου διαχωρισμού ηχητικών πηγών Αν θέλουμε να συνοψίσουμε όλο τον αλγόριθμο για την λύση ενός Convolutive προβλήματος πρέπει να κάνουμε τα παρακάτω: Table 8.2 Συνολικός αλγόριθμος για το πρόβλημα του Source Separation με Convolutive Mixtures The initial multivariable signal is xt () 1. Split xt () to L frames X ( frame, t ) with frame=1 L frames 2. Compute FFT to every column of X ( frame, t ). The resulting matrix is x( f, t) with f =1 L frames 3. For i=1 (L/2+1) loop: A. Prewritten all data z i V i x i with x i the ith row of table x( f, t ) if needed. Also remove mean B. Extract chosen number of ICs m, with any one of the ICA proposed methods j C. Store ICs to matrices x ( f, t ) with j=1 m 4. For k=1 G Loop: For i=1 (L/2+1) Loop: A. Sort Permutation for frequency beam i 5. For l=1 (L/2+1) Loop: A. Restore prewhitenning and scale ambiguity. The ICs are now mapped to the microphones domain j j L 6. Assign to x ( f, t ) =flip( x ( f, t ) ) for f ( 2)...L 2 j 7. Perform Ιnverse FFT to matrices x ( f, t ) 8. Concatenate frames of every IC into final signal Μπορούμε να κάνουμε κάποια σχόλια για την μεθοδολογία λύσης που προτείνουμε: Παρατηρούμε ότι η κύρια επανάληψη του βήματος (4) που υπολογίζει τα ICs μέσω του ICA framework, δεν λύνει L προβλήματα, αλλά (L/2+1). Στο συγκεκριμένο σημείο εκμεταλλευόμαστε την συμμετρία του προβλήματος ώστε να μειώσουμε την διάσταση του στο μισό. Εφόσον τα δεδομένα που υφίστανται τον FFT είναι πραγματικά, μπορούμε να εκμεταλλευτούμε την συμμετρία του FFT μετασχηματισμού και να διαχωρίσουμε Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

69 μόνο τα μισά frequency bins. Στην συνέχεια στο βήμα (7), αναθέτουμε τιμή και στα υπόλοιπα frequency bins μέσω της ανάθεσης =flip( ) for j x ( f, t) j x ( f, t) L f ( 2)...L 2, εκμεταλλευόμενη την συζυγή συμμετρία που έχουν τα πραγματικά δεδομένα όταν μεταφερθούν στο frequency domain. Το βήμα 3.Β όπου κάνουμε χρήση των μεθόδων ICA, ενσωματώνει όλη την μεθοδολογία αντιμετώπισης των instantaneous mixtures. Επομένως, μπορεί να είναι αρκετά πολύπλοκο και να απαιτεί αρκετές επαναλήψεις, ανάλογα πάντα και την μέθοδο, αφού όπως θα δούμε και στα πειράματα του πέμπτου κεφαλαίου, κάποιες συγκλίνουν πιο γρήγορα από άλλες. Η διαδικασία του διαχωρισμού μέσω μεθόδων ICA, λαμβάνει χώρα σε διαφορετική επανάληψη από ότι η αποκατάσταση των ambiguities του ICA. Σε άλλες λύσεις του προβλήματος που εξετάσαμε, ειδικά στην περίπτωση του permutation ambiguity, ο αλγόριθμος πραγματοποιούσε κάποιες δράσεις για να αντιμετωπίσει το πρόβλημα σε κάθε επανάληψη της ICA μεθόδου, δηλαδή L*ICAloop φορές, όπου ICAloop είναι ο αριθμός επαναλήψεων που πραγματοποιεί η ICA μέθοδος για να λύσει το πρόβλημα. Παρατηρήσαμε ότι οι μέθοδοι για την αντιμετώπιση του permutation ambiguity, χρειάζονται λιγότερες επαναλήψεις και για αυτό τον λόγο διεξάγουμε μια ξεχωριστή μικρότερη επανάληψη που μπορεί να πραγματοποιείται αποτελεσματικά σε περίπου 10 κύκλους για τα περισσότερα προβλήματα. Το σχόλιο αυτό θα γίνει πιο κατανοητό στο επόμενο κεφάλαιο που παρουσιάζουμε τις μεθόδους αντιμετώπισης των διαφόρων ambiguities αλλά για λόγους πληρότητας το αναφέρουμε και εδώ. Πάμε τώρα να δούμε ένα παράδειγμα της χρήσης του αλγορίθμου σε ένα πραγματικό πρόβλημα. Για να μπορούμε οπτικά να αντιληφθούμε το κατά πόσο είμαστε ικανοί να πραγματοποιήσουμε αποτελεσματικό διαχωρισμό, θα κάνουμε χρήση της απεικόνισης spectrogram. Τα Spectrograms είναι μια οπτική απεικόνιση των συχνοτήτων ενός σήματος, καθώς αυτές εξελίσσονται στον χρόνο. Είναι ένα διδιάστατο γράφημα όπου στον έναν άξονα αναπαριστάται η συχνότητα του σήματος και στον άλλο η παράμετρος του χρόνου. Η τρίτη διάσταση στο γράφημα αυτό είναι το η ένταση του χρώματος (color intensity) για κάθε σημείο της εικόνας, η οποία αντιστοιχεί στην ένταση (amplitude) του σήματος. Τα spectrograms είναι διαδεδομένα γραφήματα που εφαρμόζονται κυρίως για την αναγνώριση δομών που έχουν χαρακτηριστική μορφή φάσματος για διαφορετικές συχνότητες, όπως για παράδειγμα η αναγνώριση λέξεων ή φθόγγων σε σήματα ομιλίας. Στο παρακάτω παράδειγμα που καλούμαστε να διαχωρίσουμε έχουμε 2 αντρικές φωνές οι οποίες ηχούν ταυτόχρονα, με την μια να αναπαράγει την φράση «one two three four five», και την άλλη να λέει «a b c d e». Οι 2 πηγές καταγράφονται από 2 μικρόφωνα. Το συγκεκριμένο πρόβλημα είναι σχετικά εύκολο και ο αλγόριθμος μπορεί γρήγορα να συγκλίνει σε μια σταθερή λύση. Το παρουσιάζουμε όπως γιατί έχει πολύ καθαρό spectrogram, και μας δίνει μια καλή αντίληψη του τι σημαίνει ένα πρόβλημα διαχωρισμού στο frequency domain και τι είδους δομές εντοπίζει ο ICA ως ανεξάρτητες, πετυχαίνοντας έναν σωστό διαχωρισμό. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

70 Τα spectrograms των αρχικών σημάτων που καταγράφουν τα μικρόφωνα, είναι τα παρακάτω: Frequency Frequency Time Figure 24.7 Spectrogram πρώτου μικροφώνου Time Figure 25.8 Spectrogram δευτέρου μικροφώνου Παρόλο που στο μάτι μπορεί να φαίνονται πανομοιότυπα, τα 2 αυτά διαγράμματα περιέχουν διαφορές στις καταγραφές της μίξεις, που είναι αρκετές για τον ICA ώστε να μπορέσει να επιφέρει διαχωρισμό. Άμα κάνουμε χρήση των τεχνικών που περιγράφονται σε αυτό το κεφάλαιο, μπορούμε να έχουμε έναν αρκετά ικανοποιητικό διαχωρισμό των πηγών αυτών, τα spectrograms των οποίων δίνονται παρακάτω: Frequency Frequency Time Figure 26.9 Spectrogram πρώτης πηγής Time Figure Spectrogram δεύτερης πηγής Από τα σχήματα αυτά μπορούμε να κάνουμε κάποιες ενδιαφέρουσες παρατηρήσεις. Αρχικά και τα 2 διαχωρισμένα spectrograms περιέχουν 5 ξεκάθαρες δομές, μια για κάθε λέξη που αναπαράγει ο κάθε ομιλητής. Οι δομές αυτές φαίνονται να είναι ομοιόμορφες και ολοκληρωμένες και αυτό μπορεί να μας δώσει μια ένδειξη του ότι δεν υπάρχουν παρεμβολές και μη διαχωρισμένα κομμάτια μεταξύ των ομιλητών. Φυσικά η οπτική αξιολόγηση του διαχωρισμού μέσω spectrogram Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

71 δεν είναι ο καλύτερος τρόπος να μετρήσουμε την ποιότητα του διαχωρισμού. Όπως θα δούμε αργότερα, υπάρχουν κατάλληλες μετρικές για τον προσδιορισμό της ποιότητας του, ενώ πάντα μπορούμε να το αντιληφθούμε ακούγοντας το διαχωρισμένο αποτέλεσμα. Παρόλα αυτά, τα spectrograms έχουν την χρησιμότητα τους αφού μας δίνουν πληροφορία για τις επιδόσεις σε όλο το φάσμα συχνοτήτων. Αν και δεν έχει μεγάλη σχέση με την επίτευξη του διαχωρισμού, μπορούμε από τα spectrograms να καταλάβουμε ποιος ομιλητής αναφέρεται σε πιο γράφημα. Στο πρώτο spectrogram οι δομές στον χώρο της συχνότητας είναι σαφώς ποιο πολύπλοκες από ότι στο δεύτερο, κάτι που συμβαίνει λόγω του ότι αναφέρονται σε λέξεις «one two three four five» ως επί το πλείστον δισύλλαβες. Αντίθετα, οι ομιλία του δεύτερου διαγράμματος έχει πιο απλή δομή και αφορά μονοσύλλαβες λέξεις «a b c d e». Οι διαχωρισμένες δομές και τα μοτίβα που εμφανίζονται στο διάγραμμα της κάθε πηγής, μπορούν να εντοπιστούν και στις καταγραφές των μικροφώνων. Κάτι τέτοιο μπορεί να γίνει καλύτερα αντιληπτό αν εξετάσουμε το παραπάνω σχήμα, όπου τα βέλη δείχνουν σχηματισμούς στα διαχωρισμένα spectrograms, τα οποία εμφανίζονται σε μίξει και στο spectrogram του κάθε μικροφώνου. Το γεγονός αυτό αποτελεί μια ένδειξη ότι ο χώρος της συχνότητας είναι κατάλληλος για να λυθεί το πρόβλημα του διαχωρισμού Convolutive mixtures. Καταγραφή μικροφώνου 1 Πηγή 2 Πηγή me Time Time Figure Παρατήρηση δομών κάθε ξεχωριστής πηγής στην κοινή μίξει Όπως έχουμε αναφέρει μέχρι τώρα για να πετύχουμε σωστό διαχωρισμό πρέπει να αντιμετωπίσουμε τις ασάφειες του ICA μοντέλου. Στο επόμενο κεφάλαιο θα παρουσιάσουμε αναλυτικά μεθοδολογίες για να κάνουμε κάτι τέτοιο. Eιδικά στην περίπτωση του permutation ambiguity, η μη αντιμετώπιση του, μας επιστρέφει πηγές που παραμένουν σε μίξει μεταξύ τους. Στο παρακάτω σχήμα φαίνεται το spectrogram των 2 πηγών μετά τον διαχωρισμό, χωρίς όμως να έχουμε αντιμετωπίσει το permutation ambiguity. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

72 Frequency Frequency Time Figure Spectrogram πρώτης πηγής χωρίς αντιμετώπιση permutation ambiguity Time Figure Spectrogram δεύτερης πηγής χωρίς αντιμετώπιση permutation ambiguity Παρατηρούμε ότι δεν υπάρχουν ξεκάθαρα συχνοτικά μοτίβα και δομές όπως στην περίπτωση ου σωστού διαχωρισμού. Αυτό συμβαίνει επειδή παρόλο που τα ICs διαχωρίστηκαν σωστά από τον ICA, δεν μπορούμε να ξέρουμε πιο αφορά πια πηγή με αποτέλεσμα να παραμένουν σε μίξει. Αυτό το spectrogram μπορεί να μας δώσει μια ιδέα για το πόσο σημαντική είναι η διαχείριση των ασαφειών του ICA, αφού αν δεν αντιμετωπιστούν σωστά δεν μπορούμε να έχουμε μέσω αυτού του μοντέλου επιτυχημένο διαχωρισμό. 3.6 Συμπεράσματα Στο κεφάλαιο αυτό παρουσιάσαμε την συνολική μεθοδολογία αντιμετώπισης του προβλήματος των Convolutive Mixtures, μέσα από το ICA framework. Είδαμε αναλυτικά την μοντελοποίηση του προβλήματος στο πεδίο της συχνότητας μέσω του οποίου μπορούμε να μετατρέψουμε ένα πολύπλοκο Convolutive πρόβλημα σε L ευκολότερα Instantaneous προβλήματα. Παρουσιάσαμε τις απλές μετατροπές που πρέπει να κάνουμε στις ICA μεθόδους για να μπορούν να αντιμετωπίσουν μιγαδικά δεδομένα, ενώ μέσω ενός παραδείγματος αντιληφθήκαμε την σημασία του permutation ambiguity, το οποίο αν δεν αντιμετωπιστεί δεν μπορεί να υπάρξει διαχωρισμός αφού από τα spectrograms είναι εμφανές ότι οι πηγές παραμένουν σε μίξει. Στο επόμενο κεφάλαιο θα ασχοληθούμε με τις 2 ασάφειες του ICA framework και θα αναλύσουμε μεθόδους για την αντιμετώπισή τους, που εκμεταλλεύονται διαφορετικά χαρακτηριστικά του προβλήματος. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

73 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

74 Κεφάλαιο 4: Ambiguities of ICA Framework 4.1 Εισαγωγή Στο προηγούμενο κεφάλαιο αναφέραμε αρκετές φορές την σημασία της εύρεσης λύσης για τις ασάφειες του ICA. Αναφέραμε ότι το scale ambiguity μπορεί να οδηγήσει σε παραμορφώσεις στο φάσμα των διαχωρισμένων πηγών που μάλιστα δεν είναι ομοιόμορφες μειώνοντας σημαντικά την ποιότητα του τελικού σήματος. Για το permutation ambiguity τα πράγματα είναι πιο σοβαρά αφού αν δεν αντιμετωπιστεί ικανοποιητικά ώστε να ταξινομηθούν σωστά τα όλα τα ICs των διαφορετικών συχνοτήτων στη αντίστοιχη πηγή, τότε δεν μπορούμε να επιφέρουμε διαχωρισμό. Κάτι τέτοιο έγινε εμφανές στο παράδειγμα του προηγούμενου κεφαλαίου όπου μετά τον ICA για κάθε frequency bin, οι πηγές παραμέναν μη διαχωρισμένες αν δεν αντιμετωπίζαμε με κάποια μέθοδο το permutation ambiguity. Για την αντιμετώπιση του scale ambiguity η κατάσταση είναι σχετικά απλή, αφού η μέθοδος που θα σας παρουσιάσουμε αμέσως μετά είναι πολύ αποτελεσματική και μπορεί να με σχετικά απλό τρόπο να επαναφέρει το scale των πηγών όπως αυτό ήταν πριν τον διαχωρισμό. Πιο απαιτητικό πρόβλημα είναι το permutation ambiguity, το οποίο ακόμα αποτελεί ένα ανοικτό θέμα που συγκεντρώνει μεγάλο ενδιαφέρον από την επιστημονική κοινότητα για την αντιμετώπιση του. Δεν υπάρχει μια γενική μέθοδος για την λύση του η οποία να είναι κατάλληλη για όλα τα υποπροβλήματα ενώ οι διάφοροι μέθοδοι που προτείνονται μπορούν να γίνουν αρκετά απαιτητικοί υπολογιστικά. Οι κύριες τακτικές που μπορούμε να χρησιμοποιήσουμε για να αντιμετωπίσουμε το πρόβλημα του permutation ambiguity μπορούν να χωριστούν σε 2 κατηγορίες. Στην πρώτη κατηγορία υπάρχουν μέθοδοι που εκμεταλλεύονται την μορφή και τα στατιστικά χαρακτηριστικά των εξαγομένων σημάτων (Source Modelling Approach) για να αποδώσουν το σωστό permutation στα ICs. Η κύρια μέθοδο αυτής της κατηγορίας που θα χρησιμοποιήσουμε ονομάζεται Likelihood Ratio Jump, και λειτουργεί εκτιμώντας το πιο πιθανό permutation για τα ICs, εκμεταλλευόμενη τόσο το πεδίο της συχνότητας όσο και αυτό του χρόνου. Μάλιστα θα προτείνουμε και μια νέα παραλλαγή του, που θα ονομάσουμε Reduced Likelihood Ratio Jump, η οποία μπορεί να χρησιμοποιηθεί για να επιταχύνει την μέθοδο ειδικά στην περίπτωση πολλών πηγών στο auditory scene, ενώ θα δούμε στο επόμενο κεφάλαιο μέσω πειραμάτων, ότι λόγω της αυξημένης σύγκλισης που παρουσιάζει για όλα τα frequency bins, μπορεί να δώσει και καλύτερες ποιότητες διαχωρισμού. Η δεύτερη τακτική αντιμετώπισης ονομάζεται Channel Modelling Approach, και περιλαμβάνει μεθόδους που προσπαθούν να κάνουν εκτιμήσεις για την γεωμετρία του auditory scene. Πιο συγκεκριμένα μέσω μιας μεθόδου που ονομάζεται Beamforming, θα προσπαθήσουμε να εκτιμήσουμε την γωνία άφιξης κάθε IC στην συστοιχία των μικροφώνων ενώ μέσω αυτής της πληροφορίας θα προσπαθήσουμε να λύσουμε το Permutation Αmbiguity. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

75 Στην συνέχεια του κεφαλαίου παρουσιάζονται αναλυτικά όλες οι μέθοδοι που θα χρησιμοποιηθούν σε αυτήν την εργασία για την αντιμετώπιση του scale και permutation ambiguities. Όλοι οι κώδικες που υλοποιούν τις μεθόδους που αναπτύσσουμε σε αυτή το κεφάλαιο, μπορούν να βρεθούν στην στην προσωπική ιστοσελίδα ( ). 4.2 Solving the scale ambiguity Έχουμε αναφέρει αρκετές φορές μέχρι τώρα τα προβλήματα που μπορεί να προκαλέσει στο τελικό σήμα το Scale Ambiguity, το οποίο υπάρχει στο ICA μοντέλο. Όταν δεν μπορούμε να εκτιμήσουμε την ένταση κάθε frequency bin προκαλούμε παραμορφώσεις στο φάσμα που υποβαθμίζουν την ποιότητα του διαχωρισμού. Κάποιες αρχικές προσεγγίσεις για να αντιμετωπιστεί το συγκεκριμένο πρόβλημα είναι είτε να εισάγουμε διάφορους περιορισμούς στον πίνακα διαχωρισμού κανονικοποιώντας τον σε μοναδιαία νόρμα [32], είτε να ορίσουμε σταθερό variance για τα δεδομένα μας. Η λογική είναι ότι εφόσον τα δεδομένα έχουν μια συγκεκριμένη ενέργεια διαφορετική για κάθε frequency bin, κρατώντας σταθερή την νόρμα του, μπορούμε να διατηρήσουμε αυτήν την ενέργεια και στα W f ICs που εκτιμά ο αλγόριθμος μας. Όσο αναφορά την περίπτωση του σταθερού variance, απλά εξαναγκάζουμε τον σε ομοιόμορφο scaling για τις διαφορετικές συχνότητες. Οι παραπάνω W f μέθοδοι όμως, μπορούν να αποτύχουν για αρκετά προβλήματα αφού δεν εγγυόνται το σωστό αποτέλεσμα. Μια πιο αποτελεσματική λύση είναι να επαναφέρουμε τις πηγές πίσω στο χώρο των μικροφώνων [36] [42]. Η λογική είναι ότι αντί να ασχοληθούμε με τον, μπορούμε να επικεντρώσουμε στον πεδίο των μικροφώνων και χαρτογραφώντας πίσω σε αυτό κάθε IC, να εξαλείψουμε το scale ambiguity. Το παραπάνω σκεπτικό και ο λόγος για το οποίο λειτουργεί μπορεί να γίνει πιο κατανοητό αν παρουσιάσουμε την παρακάτω μαθηματική ανάλυση. Χωρίς απώλεια της γενικότητας θα παρουσιάσουμε το σενάριο 2 πηγών - 2 μικροφώνων, για να καταλάβουμε την αρχή λειτουργεία και στην συνέχεια μπορούμε να γενικεύσουμε σε όποιον μέγεθος προβλήματος επιθυμούμε. Ας θεωρήσουμε το παρακάτω μοντέλο για κάποιο frequency bin: W f W f x1 a11 a12 s1 x a a s Μπορούμε να ορίσουμε τα σήματα x s1, x s2 ως τα σήματα, όπως αυτά παρατηρούνται από τα μικρόφωνα. Ουσιαστικά το κάθε μικρόφωνο παρατηρεί μια έκδοση της κάθε πηγής s 1 s 2 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

76 διαφορετική από το άλλο και τα πηγών. x s1, x s2 αντιστοιχούν σε αυτές της διαφορετικές μορφές των x a s 11 s1 1 a 21 x a s 12 s2 2 a 22 Ισχύει φυσικά ότι: x x x s1 s2 Εμείς θέλουμε να εκτιμήσουμε ένα πίνακα για τον διαχωρισμό των πηγών. Μετά τη 1 χρήση του ICA, έχουμε εκτιμήσει έναν πίνακα W ( A ) 1 0, όπου το 0 είναι ένας 2 διαγώνιος πίνακας που περιέχει τα διαφορετικά scale που εισάγονται λόγο της ασάφειας του αλγορίθμου. Λόγω λοιπόν αυτού του πίνακα Λ το τελικό αποτέλεσμα του διαχωρισμού είναι της μορφής: W A 1 u1 s 1 1 / 1 Wx ( A ) As u s / Εφόσον έχουμε εκτιμήσει το W, μπορούμε να μεταφέρουμε τα σήματα πίσω στο χώρο του μικροφώνου και να αναιρέσουμε το λάθος scale ως εξής: ( W ) a a x u s s ( W ) a a 21 x ( W ) u a a s s ( W ) a a 22 Με τον παραπάνω τρόπο έχουμε αναιρέσει την ασάφεια που υπήρχε στο scaling και έχουμε επαναφέρει τα σήματα στον χώρο των μικροφώνων ενώ αυτά παραμένουν διαχωρισμένα. Ακόμα η συγκεκριμένη μέθοδος μπορεί να εφαρμοστεί όποιο και να είναι το permutation μεταξύ των πηγών. Δεν χρειάζεται δηλαδή να έχουμε λύσει το permutation ambiguity πριν την χρησιμοποιήσουμε. Για να το δείξουμε αυτό θα κάνουμε την παρακάτω ανάλυση. Ας θεωρήσουμε ξανά για το 2-2 σενάριο ότι οι πηγές μας δεν είναι με την σωστή σειρά αλλά 0 1 ανάποδα, κάτι που μπορεί να δειχθεί μέσω ενός permutation matrix 1 0. Κατά συνέπεια ο W που εκτιμάει η ICA μέθοδος έχει την μορφή: W ( A ) 1 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

77 W 1 1 a11 a a12 2a11 a a a a Οι διαχωρισμένες έξοδοι του αλγορίθμου θα είναι : u1 s / 2 Wx ( A ) As s u s / Αν μεταφέρουμε ξανά τα σήματα πίσω στον χώρο των μικροφώνων το αποτέλεσμα θα είναι: x ( W ) u a a s s ( W ) a a 22 ( W ) a a x u s s ( W ) a a 21 Μπορούμε να δούμε ότι παρόλο που οι πηγές είναι τοποθετημένες με διαφορετική σειρά, το scale ambiguity έχει αντιμετωπιστεί σωστά σε κάθε περίπτωση. Κατά συνέπεια για να επαναφέρουμε το αρχικό scaling που έχουν οι καταγραφές του ίδιου IC στα μικρόφωνα, θα αναιρέσουμε τις μετατροπές που έχει υποστεί το σήμα από της διαδικασίες του ICA. Σε αυτό το βήμα θα πρέπει να αναιρέσουμε και την προ επεξεργασία που έχει προκληθεί στο σήμα μας από την μέθοδο του PCA, το οποίο έχει κάνει τα δεδομένα μας whitened. Στην περίπτωση των 2 πηγών, έστω ότι ένα υπολογισμένο IC που έχει καταγραφεί από 2 μικρόφωνα. Αν θεωρήσουμε ότι V ήταν ο prewhitening matrix και W ο ICA unmixing matrix και 1 άρα ( WV ) είναι η εκτίμηση του πίνακα μίξης, θα καταλήξουμε με την εικόνα του IC αυτού στα 2 μικρόφωνα: u uˆ [ ] mike1 column1 uˆ [ ] mike2 column2 u u Με αυτό τον τρόπο έχουμε τις διαχωρισμένες πηγές όπως αυτές καταγράφηκαν από τα μικρόφωνα, με το σωστό correlation (επαναφορά του whitening) μεταξύ τους και με σωστή επαναφορά του scale. Το τελευταίο βήμα είναι να προσθέσουμε μια DC συνιστώσα η οποία υπήρχε αρχικά στα observations των μικροφώνων και αναιρέθηκε από τον αλγόριθμο μας σαν βήμα preprocessing. Το βήμα αυτό μπορεί να παρουσιάζει προκλήσεις αφού παρατηρώντας μόνο το μείγμα δεν μπορούμε να ήμαστε σίγουροι για την στάθμη του κάθε independent component. Στην Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

78 περίπτωση όμως των ηχητικών κυμάτων που εξετάζουμε εμείς δεν μας δημιουργείτε πρόβλημα, λόγω του ότι για ένα ηχητικό κύμα η μέση τιμή αντιπροσωπεύει απλά την ένταση του ήχου, και μπορούμε να δώσουμε σε κάθε IC την μέση τιμή έντασης σε κάθε μικρόφωνο μετά την επαναφορά χωρίς να αλλοιώνουμε την ποιότητα του διαχωρισμού. Η επιλογή αυτή έχει λογική αφού μέσω της επαναφοράς στο χώρο των μικροφώνων, έχουμε την εικόνα του κάθε IC σε κάθε μικρόφωνο, και είναι λογικό της αναθέσουμε ως μέση τιμή την μέση τιμή έντασης που παρατηρείτε για το συγκεκριμένο μικρόφωνο. 1 1 (V W ) 11 xs 1 u m (V W ) (V W ) 12 xs2 u m (V W ) 22 Ας δώσουμε ένα παράδειγμα για να δούμε πόσο αποτελεσματική είναι αυτή η τακτική αντιμετώπισης του scale ambiguity. Στο παρακάτω σχήμα βλέπουμε μια τριγωνική πηγή πριν υποστεί μίξει και το IC που εκτίμησε ο ICA. mike1 DC mike2 DC Figure 31.1 Αρχική Τριγωνική πηγή Figure 32.2 IC που προκύπτει από τον διαχωρισμό χωρίς λύση του scale ambiguity Παρατηρούμε ότι το scale είναι διαφορετικό ανάμεσα στις 2 κυματομορφές. Αν ακολουθήσουμε την διαδικασία που περιεγράφηκε παραπάνω, μπορούμε να πάρουμε το ακόλουθο αποτέλεσμα: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

79 Figure 33.3 Εικόνα πηγής στο πρώτο αισθητήρα Figure 34.4 Εικόνα IC στον πρώτο αισθητηρα μετά μέσω λύσης του scale ambiguity Στο σχήμα βλέπουμε την εικόνα την πηγής όπως καταγράφηκε στον αισθητήρα 1, και την εκτίμηση του IC στην οποία έχουμε διορθώσει το scale επαναφέροντας το στον χώρο των μικροφώνων. Η κυματομορφή που βλέπουμε αφορά την επαναφορά του IC στον αισθητήρα 1 (μικρόφωνο). Βλέπουμε ότι με την παραπάνω μέθοδο ήμαστε ικανοί να ανακτήσουμε πλήρως το scale των independent components που εξάγει ο αλγόριθμος μας. 4.3 Solving the permutation ambiguity Η λύση του Convolutive προβλήματος στο πεδίο της συχνότητας όπως έχουμε ήδη αναφέρει δημιουργεί το permutation ambiguity, αφού δεν μπορούμε να ξέρουμε πιο IC αντιστοιχεί σε πια πηγή. Κατά συνέπεια, παρόλο που έχουν προκύψει οι διαχωρισμοί για κάθε frequency bin, οι πηγές μας παραμένουν σε μίξει. Για να λύσουμε αυτό το πρόβλημα πρέπει κατά συνέπεια να βρούμε μεθόδους που θα ταξινομούν τα ICs που προκύπτουν για κάθε frequency bin, στην πηγή που ανήκουν. Θα χωρίσουμε τις τεχνικές αντιμετώπισης που θα ακολουθήσουμε σε 2 κατηγορίες, αυτές που εκμεταλλεύονται ιδιότητες του σήματος και αυτές που εκμεταλλεύονται ιδιότητες του καναλιού (source modelling and channel modelling approaches) Source modelling approaches (Likelihood Ratio Jump) Με Source modelling μεθόδους, προσπαθούμε να εκμεταλλευτούμε την συσχέτιση που υπάρχει μεταξύ διαφορετικών frequency bins, ώστε να εντοπίσουμε την σωστή ταξινόμηση των ICs. Η λογική της μεθόδου βασίζεται στο ότι τα γειτονικά frequency bins, δεν είναι ανεξάρτητα μεταξύ τους, αλλά παρουσιάζουν πολλές ομοιότητες, κυρίως λόγω της δομής των ηχητικών σημάτων, τόσο σε πηγές ομιλίας όσο και σε μουσικές πηγές. Κατά συνέπεια θα αναζητήσουμε κανόνες ώστε να κάνουμε ταξινόμηση παρόμοιων αντικειμένων για τις διαφορετικές μπάντες συχνοτήτων (frequency bins). Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

80 Στο παρελθόν έχουν δοκιμαστεί τεχνικές οι οποίες περιλαμβάνουν την μεταφορά του σήματος πίσω στο χώρο του χρόνου (time domain), για λύση εκεί του προβλήματος. Παρόλο που με αυτόν τον τρόπο μπορούμε να επαναφέρουμε το σωστό permutation, οι μέθοδοι αυτές δεν θεωρούνται αποτελεσματικές, γιατί η μεταφορά ανάμεσα στα domains του χρόνου και της συχνότητας είναι υπολογιστικά απαιτητική και μάλιστα δεν εκμεταλλευόμαστε διάφορα θετικά χαρακτηριστικά του πεδίου της συχνότητας. Το πιο σημαντικό χαρακτηριστικό είναι το ισχυρό nongaussianity που εμφανίζουν εκεί τα σήματα όπως αναφέραμε και στο προηγούμενο κεφάλαιο. Αυτό το χαρακτηριστικό των σημάτων στο frequency domain είναι θετικό για το ICA framework αφού όσο πιο nongaussian είναι οι κατανομές τόσο πιο αποδοτική είναι η μέθοδος διαχωρισμού. Εκτός όμως αυτού έχει μελετηθεί ότι η υψηλή μη κανονικότητα (nongaussianity) του frequency domain είναι και ευεργετική για μεθόδους source modelling για τον προσδιορισμό του σωστού permutation. Για τα σήματα που μελετάμε, αναφέραμε στο προηγούμενο κεφάλαιο ότι μπορούν να χαρακτηριστεί ασθενώς super Gaussian και στο time domain (Figure 3.6). Μάλιστα ο κύριος λόγος που το ηχητικό σήμα παρουσιάζει αυτήν τη συμπεριφορά, έχει να κάνει με την αργή μεταβολή της ισχύος τους στο χρόνο (slowly varying amplitude profile). Αυτή είναι μια ιδιότητα του σήματος που δεν επηρεάζεται από το permutation [33] και μπορούμε να την εκμεταλλευτούμε για να καταφέρουμε μια σωστή ταξινόμηση. Καταλήγουμε ότι το σήμα έχει χαρακτηριστικά που μπορούμε να εκμεταλλευτούμε και στα 2 domains, κα κατά συνέπεια θα χρησιμοποιήσουμε ένα time frequency μοντέλο, που θα συνδυάζει την πληροφορία και από τα 2 πεδία για να έχουμε όσο το δυνατόν πιο σταθερά αποτελέσματα. Η λογική αυτή προτείνεται στο [42], και το μοντέλο αυτό θα κάνει χρήση τόσο των STFT σταθερών από το frequency domain, όσο και της έντασης του σήματος με τον χρόνο ώστε να εξάγει ένα τελικό αποτέλεσμα. Για να μπορέσουμε να εισάγουμε στην μέθοδο μας πληροφορία που σχετίζεται με την εξέλιξη του σήματος μας στον χρόνο, θα χρησιμοποιήσουμε την χρονομεταβλητή σταθερά () t. Το k () t δεν αποτελεί συνάρτηση της συχνότητας αλλά μόνο του χρόνου, και μπορεί να ερμηνευτεί σαν μια μέτρηση της έντασης του σήματος για όλες της συχνότητες που εξετάζουμε. Μας λέει ουσιαστικά πια πηγή εμφανίζει μεγαλύτερη ένταση για ένα συγκεκριμένο time frame. Μπορούμε με διάφορους τύπους να κάνουμε μια εκτίμηση της ενέργειας των 2 πηγών κατά μήκος όλων των συχνοτήτων, αλλά εδώ θα επιλέξουμε τον παρακάτω: 1 k( t) uk(f, t) L Μέσω της εκτίμησης του k () t μπορούμε να έχουμε τελικά μια ένδειξη της έντασης της κάθε πηγής ως προς το χρόνο. f Το k () t, έχει μελετηθεί και για χρήση του μέσα στο κριτήριο μεγιστοποίησης του FastICA, με στόχο να οδηγήσει σε υπολογισμό των ICs με συγκεκριμένη σειρά. Μπορούμε για παράδειγμα να χρησιμοποιήσουμε τον παρακάτω κανόνα για την ανανέωση του ΔW [42]. k Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

81 W D a E u u W, με (t) diag( 1(t),..., N (t)) 1 (diag( ) (t) {g( ) T i } Παρόλα αυτά δεν υπάρχει εγγύηση (αν και σε πολλές περιπτώσεις δίνει τα επιθυμητά αποτελέσματα) ότι η χρήση του μέσα στο κριτήριο του ICA, θα οδηγήσει τον αλγόριθμο σε εξαγωγή των ICs με συγκεκριμένη σειρά. Μπορεί να χρησιμοποιηθεί σαν βοηθητικό μέτρο, αλλά δεν θα το κάνουμε σε αυτήν την εργασία κυρίους για λόγους συμμετρίας, αφού δεν μπορούμε αν εισάγουμε την παράμετρο αυτήν στο RobustICA, και θέλουμε τους αλγορίθμους να λειτουργούν πάνω στα ίδια δεδομένα για να μπορούμε να τους συγκρίνουμε. () t Η μέθοδος που θα χρησιμοποιήσουμε για να λύσουμε τελικά το permutation ambiguity θα αναφέρεται ως Likelihood Ratio Jump και θα παρουσιαστεί παρακάτω για την περίπτωση 2-2 χωρίς απώλεια της γενικότητας. Η μέθοδος αυτή μπορεί να χρησιμοποιηθεί ταυτόχρονα με τον ICA ώστε κάθε φορά που εξάγουμε ένα IC αν την εφαρμόζουμε για να αποκαθιστούμε το σωστό permutation. Θα φανεί όμως στο επόμενο κεφάλαιο μέσω πειραμάτων, ότι το Likelihood Ratio Jump χρειάζεται αρκετά λιγότερες επαναλήψεις από τον ICA, και κατά συνέπεια η χρήση του σαν εργαλείο post processing θα αυξήσει την ταχύτητα του συνολικού διαχωρισμού. Μέσω του Likelihood Ratio Jump θα εκτιμούμε ποιο permutation είναι πιο πιθανό, και στη συνέχεια θα κάνουμε τις κατάλληλες μεταθέσεις στις στήλες του πίνακα W. Έστω ότι έχουμε τα 2 πιθανά permutation uˆ( f, t) u ( f, t) uˆ( f, t) u ( f, t) 0 Όπου τα ij είναι rescaling παράμετροι που αντικαθιστούν το λάθος scaling που έχει προκύψει από το μοντέλο. Για να καταλήξουμε πιο permutation είναι πιο πιθανό θα αξιολογήσουμε τη πιθανοφάνεια που εμφανίζει για T frames. log(p(u, )) Tlog(, ) log(p( uˆ )) log(p(u, )) Tlog(, ) log(p( uˆ )) Όπου οι τιμές ij έχουν επιλέγονται ώστε να μεγιστοποιήσουν την πιθανοφάνεια. ij 1 ui (f, t) () t t j H πιθανοφάνεια της εκτίμησης τουuˆ( f, t ), μπορεί να υπολογιστεί μέσω της: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

82 u (f, t) u (f, t) log(p( uˆ)) log(p( uˆ)) 2 ( ) ( t) t 1 t t 2 u (f, t) u (f, t) log(p( uˆ)) log(p( uˆ)) 2 ( ) ( t) t 1 t t 2 Κατά συνέπεια αν θέλουμε να υπολογίσουμε τον λογάριθμο των 2 likelihoods που παραθέσαμε προηγουμένως: p('case1') log T log( 11, 22) Tlog( 21, 12) p('case2') Τελικά μπορούμε να σχηματίσουμε το παρακάτω likelihood ratio test LR p('case1') LR p('case2') Αν το LR<1 πρέπει να αντιμεταθέσουμε τις σειρές του πίνακα W ώστε να επιφέρουμε το σωστό permutation. Μπορούμε εύκολα να γενικεύσουμε την παραπάνω ανάλυση στην περίπτωση Ν πηγών και Ν μικροφώνων, αρκεί να σκεφτούμε ότι οι σταθερές μοντελοποιούν την πιθανότητα η πηγή να πρέπει να μετακινηθεί στην θέση. Για την περίπτωση των Ν πηγών κατά συνέπεια πρέπει να εξετάσουμε όλους τους πιθανούς συνδυασμούς. Ουσιαστικά έχουμε να κάνουμε Ν! συγκρίσεις για να βρούμε αυτόν που δίνει το μεγαλύτερο likelihood. Για παράδειγμα για την περίπτωση 3x3 έχουμε της παρακάτω πιθανότητες. j th ij L log( p(' case1')) log( ) L log( p(' case2')) log( ) L log( p(' case3')) log( ) L L L log( p(' case4')) log( ) log( p(' case5')) log( ) log( p(' case6')) log( ) i th Το σωστό permutation είναι αυτό που δίνει το μέγιστο L. Αν για παράδειγμα είχαμε μέγιστο το L 3, θα έπρεπε να κάνουμε την μετάθεση στης γραμμές του πίνακα W ως ακολούθως : 2 1, 1 2, 3 3. Η παραπάνω μέθοδος είναι αρκετά αποτελεσματική και έχει εξεταστεί για μεγάλο πλήθος περιπτώσεων. Ένα μειονέκτημα της είναι η πολυπλοκότητα της, αφού όπως είπαμε χρειάζεται N! υπολογισμούς για να μπορέσει να καταλήξει στο σωστό permutation. Βασιζόμαστε ουσιαστικά στην πιθανότητα να ταιριάζει ενεργειακά ένα IC που προκύπτει για ένα frequency bin, με την ενέργεια () t που έχει υπολογιστεί για μια πηγή j συναρτήσει του j Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

83 χρόνου. Για να έχουμε όμως μια σωστή τιμή για το j () t, πρέπει να έχει αποκατασταθεί ένας αριθμός από σωστά permutation. Η μέθοδος που θα κατασκευάσουμε κατά συνέπεια θα λειτουργεί επαναληπτικά ως βήμα postprocessing. Σε κάθε επανάληψη θα ταξινομούμε τα ICs με βάση την τιμή του likelihood ratio, και θα υπολογίζουμε ένα καινούργιο, ώστε να επανεκκινήσουμε την διαδικασία από την αρχή. Όσο προχωρά η επαναληπτική διαδικασία έχουμε μια καλύτερη εκτίμηση για την ενέργεια κάθε πηγής στο χρόνο και όλο και j () t () t περισσότερα ICs ταξινομούνται στην πηγή από την οποία προέρχονται. Ο αλγόριθμος μπορεί να συνοψηστεί στον επόμενο πίνακα σε μορφή ψευδοκώδικα. Table 9.1 Αλγόριθμος Likelihood Ratio Jump 1. Calculate ICs for ever frequency bin 2. For i=1 likelihoodjumpiters A. For every frequency bin f I. Calculate max(l 1,L 2,...,L( numofsources )!) II. Permute rows of W based on maximum L 1 B. Update b with k( t) uk(f, t) L f Στα πειράματα που εξετάσαμε η παραπάνω διαδικασία πρέπει να τρέξει κάποιες δεκάδες φορές για αποκαταστήσουμε τα σωστά permutations και να συγκλίνουμε σε μια σταθερή εξαγωγή των ηχητικών πηγών. Ως αποτέλεσμα το likelihoodjumpiters παίρνει τιμές στο εύρος [10-30] επαναλήψεις. Η μέθοδος αυτή που περιγράψαμε αν και αρκετά αποδοτική, φέρει το μειονέκτημα της υψηλής υπολογιστική της πολυπλοκότητας. Συνολικά πρέπει να εκτελεστούν από τον αλγόριθμο μας likelihoodjumpiters * L 1 *( numofsources)! συγκρίσεις και υπολογισμοί, όπου L είναι ο 2 αριθμός των frequency bins. Θυμηθείτε ότι λόγω της συζηγούς συμμετρίας του FFT για πραγματικά δεδομένα, αρκεί να λύσουμε άρα και να επαναφέρουμε το Permutation των μισών frequency bins. Στην περίπτωση των 4 πηγών που θα εξετάσουμε σε αυτήν την εργασία το βήμα αυτό είναι αρκετά επιβαρυμένο από άποψης υπολογιστικού χρόνου, ενώ όσο οι πηγές αυξάνονται το υπολογιστικό κόστος αυξάνεται σημαντικά. Στην εργασία αυτή προτείνουμε μια μέθοδο για να μειώσουμε σημαντικά το πλήθος των πράξεων που απαιτείται για να λυθεί το permutation ambiguity με χρήση του likelihood jump Source modelling approaches (Reduced Likelihood Ratio Jump) Όπως σχολιάσαμε προηγουμένως υπάρχει ανάγκη για ταχύτερη λύση του permutation ambiguity μέσω της τεχνικής του Likelihood Ratio Jump, αφού η ταχύτητα εκτέλεσης είναι μη αποδεκτή Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

84 για εφαρμογές με περιορισμούς όσο αναφορά το χρόνο και την υπολογιστική ισχύ. Στην εργασία αυτή προτείνουμε μια παραλλαγή της μεθόδου που μπορεί να δώσει συγκρίσιμης ποιότητας αποτελέσματα σε κατά πολύ μειωμένο υπολογιστικό χρόνο. Αυτό που θα κάνουμε είναι να μην λαμβάνουμε υπόψιν μας τις περιπτώσεις που περιέχουν 2 ή περισσότερες αλλαγές γραμμών στον πίνακα W, ώστε να μειώσουμε τον συνολικό αριθμό συγκρίσεων. Ουσιαστικά σε κάθε επανάληψη θα ελέγχουμε αν είναι πιο πιθανό ο να κάνουμε permute μόνο ένα ζεύγος ICs, ή να μην επιφέρουμε καμία αλλαγή. Όπως είναι αντιληπτό, αυτή η παραλλαγή μπορεί να εφαρμοστεί μόνο για τρεις ή περισσότερες πηγές, ενώ για την απλή περίπτωση των 2 πηγών η υπολογιστική πολυπλοκότητα του Likelihood ratio jump είναι αμελητέα, και δεν υπάρχει ανάγκη βελτίωσης της ταχύτητας υπολογισμού. Όλες οι Πιθανές Μεταβάσεις Καμία Μετάβαση case1 6 1 Μετάβαση case2 case3 case4 case5 case6 case Μεταβάσεις 3 Μεταβάσεις Figure 35.5 Πιθανές μεταβάσεις γραμμών του πίνακα W, για την περίπτωση τεσσάρων πηγών. Βλέπουμε στο παραπάνω σχήμα ότι από τις 4!=24 πιθανές μεταθέσεις που μπορούμε να κάνουμε στην περίπτωση του προβλήματος τεσσάρων πηγών, οι 6 αναφέρονται σε μια μετάβαση και φυσικά 1 αναφέρεται σε καμία μετάβαση. Εμείς θα υπολογίζουμε σε κάθε επανάληψη τα παρακάτω L και θα πραγματοποιούμε την μετατροπή στον πίνακα W σύμφωνα με το μέγιστο L, όπως ακριβώς κάναμε και στο προηγούμενο κεφάλαιο. Για τις περιπτώσεις των τριών και τεσσάρων πηγών που θα μας απασχολήσουν στην εργασία αυτοί, τα L που πρέπει να ελεγχθούν είναι: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

85 Για την περίπτωση τριών πηγών: L log( p(' case1')) log( ) L log( p(' case2')) log( ) L log( p(' case3')) log( ) L log( p(' case4')) log( ) Για την περίπτωση τεσσάρων πηγών: L log( p(' case1')) log( ) L log( p(' case2')) log( ) L log( p(' case3')) log( ) L L L L log( p(' case4')) log( ) log( p(' case5')) log( ) log( p(' case ')) log( ) log( p(' case7')) log( ) Η λογική της μεθόδου αυτής είναι ότι εφόσον η σωστή ανάθεση των permutations πρέπει να αποδοθεί επαναληπτικά ούτως ή άλλως σαν βήμα post processing για να υπολογιστεί καλύτερη τιμή του () t και ουσιαστικά συγκλίνουμε στην στα σωστά permutation μέσω επαναληπτικού προσδιορισμού τους, δεν είναι λογικό ο αλγόριθμος να χρειάζεται σε κάθε βήμα να αντιμεταθέτει τα permutations όλων των ICs. Μετά από κάποιο σημείο που το permutation των περισσότερων frequency bins έχει αποκατασταθεί, το πολύ να υπάρχει ένα ζεύγος ICs, που είναι τοποθετημένα σε λάθος πηγές και να πρέπει να αντιστραφεί. Το σημείο στο οποίο πιθανόν θα χρειαζόταν να αντιστρέψουμε περισσότερα από ένα ICs είναι η αρχή της διαδικασία του Likelihood Ratio Jump, αλλά εκεί έτσι και αλλιώς δεν έχει υπολογιστεί ακόμα μια σταθερή τιμή για το () t, αφού δεν έχει λυθεί το permutation κανενός frequency bin, με αποτέλεσμα οι μεταθέσεις που πραγματοποιεί ο αλγόριθμος σε αυτό το στάδιο να μην έχουν μεγάλη αξία. Θεωρούμε λοιπόν ότι εφόσον είμαστε αναγκασμένοι να πραγματοποιήσουμε πολλές επαναλήψεις του αλγορίθμου για να υπολογίζεται μια όλο και πιο σταθερή τιμή για το () t, δεν χρειάζεται να εξετάζουμε όλες τις δυνατές περιπτώσεις αλλά μόνο αυτές που περιέχουν μια μετάβαση, αφού μέσα σε ένα μικρό αριθμό επαναλήψεων της διαδικασίας θα συγκλίνουμε στο σωστό permutation. Μια βελτίωση στη συγκεκριμένη μέθοδο είναι να πραγματοποιούμε το πλήρες Likelihood Ratio Jump για την πρώτη επανάληψη, στην οποία και λογικά θα πραγματοποιούνται περισσότερες από μια μεταβάσεις στις γραμμές του πίνακα W, και στην συνέχει να συνεχίζουμε την επαναληπτική διαδικασία εξετάζοντας μόνο το μειωμένο σετ μεταβάσεων. Την μέθοδο αυτήν θα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

86 την ονομάσουμε Reduced Likelihood Ratio Jump και ο συνολικός αλγόριθμος της συνοψίζεται στο παρακάτω πίνακα. Table 10.2 Αλγόριθμος Reduced Likelihood Ratio Jump 1. Calculate ICs for ever frequency bin 2. For i=1 likelihoodjumpiters A. If i==1 a) For every frequency bin f b) Calculate max(l 1,L 2,...,L( numofsources )!) c) Permute rows of W based on maximum L 1 d) Update b with k( t) uk(f, t) L f B. Else if i>1 a) For every frequency bin f b) Calculate max(l 1,L 2,...,L 1 ) SourceNum SourceNum1 1 c) Permute rows of W based on maximum L 1 d) Update b with k( t) uk(f, t) L 2 f Στο επόμενο κεφάλαιο, μέσω πειραμάτων θα δούμε ότι το Reduced Likelihood Ratio Jump μπορεί να δώσει πολύ καλά αποτελέσματα για τα παραδείγματα που εξετάζουμε, τα οποία σε πολλές περιπτώσεις μπορεί να είναι ακόμα και καλύτερα σε σχέση με το Likelihood Ratio Jump. Θεωρούμε ένα λόγος που συμβαίνει κάτι τέτοιο έχει να κάνει με το ότι για πολλές περιπτώσεις το Reduced Likelihood Ratio Jump συγκλίνει για μεγαλύτερο αριθμό frequency bins, σε σχέση με το κλασσικό Likelihood Ratio Jump. Το φαινόμενο αυτό απεικονίζεται καλύτερα στο παρακάτω σχήμα: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

87 Number of Frequency bins with 0 permutations Likelihood Ratio Jump 200 Reduced Likelihood Ratio Jump Number of Likelihood Ratio Jump Iterations Figure 36.6 Πλήθος frequency bins που δεν χρειάζονται καμία αλλαγήs στο permutation, συναρτήσει του αριθμού των επαναλήψεων για τις 2 εξεταζόμενες μεθόδους (Σύνολο frequency bins : 2001, αριθμός πηγών: 4) Το Figure 4.6 αναφέρεται στον αριθμό των μεταβάσεων που πραγματοποιούν οι μέθοδοι για ένα πρόβλημα τεσσάρων πηγών. Στις 2 κυματομορφές βλέπουμε τον αριθμό των frequency bins για τα οποία οι 2 μέθοδοι δεν πραγματοποιούν καμία μετάβαση συναρτήσει του αριθμού των επαναλήψεων. Στο συγκεκριμένο παράδειγμα θέλουμε να αποκαταστήσουμε το permutation συνολικά 2001 frequency bins. Παρατηρούμε ότι για το κλασσικό Likelihood Ratio Jump όσο και να αυξάνεται ο αριθμός των επαναλήψεων, υπάρχουν κάποια frequency bins των οποίων το permutation αλλάζει σε κάθε επανάληψη. Θεωρούμε ότι μετά από έναν αριθμό επαναλήψεων, διαφορές στην πιθανοφάνεια που υπολογίζεται για κάποια σετ μεταβάσεων είναι πολύ κοντά, με αποτέλεσμα σε κάθε επανάληψη ο αλγόριθμος να τις εναλλάσσει περιοδικά. Αυτή η περιοδική μεταβολή επηρεάζει και την ποιότητα του διαχωρισμού. Αντίθετα με το Reduced Likelihood Ratio Jump, λόγω των λιγότερων μεταθέσεων που του επιτρέπουμε, καταλήγει σε μια λύση η οποία είναι σταθερή αφού μετά από 8 επαναλήψεις η μέθοδος έχει συγκλίνει και δεν αλλάζει το Permutation κανενός frequency bin. Το φαινόμενο αυτό επηρεάζει την ποιότητα του διαχωρισμού. Στο παρακάτω σχήμα χρησιμοποιούμε την μετρική Source To Interference Ratio (SIR) η οποία θα παρουσιάσουμε αναλυτικά στο επόμενο κεφάλαιο. Το διάγραμμα απεικονίζει την ποιότητα εξαγωγής μιας συγκεκριμένη πηγής από μια μίξει τεσσάρων πηγών συναρτήσει του αριθμού των επαναλήψεων που επιτρέπουμε στην μέθοδο λύσης του Permutation. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

88 4.5 4 SIR per itarations for Source 1 Likelihood Ratio Jump Reduced Likelihood Ratio Jump SIR Iterations Figure 37.7 SIR συναρτήσει του αριθμού των επαναλήψεων για τις 2 μεθόδους λύσης του Permutation Ambiguity (Σύνολο frequency bins : 2001, αριθμός πηγών: 4) Βλέπουμε ότι η ποιότητα του διαχωρισμού στην περίπτωση του Likelihood Ratio Jump, εμφανίζει μια περιοδική συμπεριφορά που θεωρούμε ότι οφείλεται στο αυθαίρετο τρόπο με τον οποίο μεταθέτονται τα Permutations των frequency bins που δεν συγκλίνουν. Αντίθετα στην περίπτωση του Reduced Likelihood Ratio Jump, η μέθοδος επιτυγχάνει μια βέλτιστή ποιότητα διαχωρισμού για την εξεταζόμενη πηγή, καλύτερη της κλασσικής μεθόδου, την οποία διατηρεί σταθερή όσο και να αυξάνονται οι επαναλήψεις της μεθόδου. Η παραπάνω παρατήρηση εμφανίζεται στα δεδομένα που εξετάσαμε σε αυτήν την εργασία και το Reduced Likelihood Ratio Jump μας δίνει μέχρι αυτό το σημείο ισχυρές ενδείξεις για το ότι μπορεί να ξεπεράσει το Likelihood Ratio Jump σε ποιότητα διαχωρισμού. Το γεγονός αυτό θα επιβεβαιωθεί από τα πειραματικά αποτελέσματα και τις μετρήσεις που θα κάνουμε στο επόμενο κεφάλαιο, όπου θα αποτιμήσουμε την ακρίβεια και ταχύτητα αυτής της παραλλαγής του Likelihood Ratio Jump για διαφορετικές περιπτώσεις με 3 ή 4 πηγές στο auditory scene. Επιτρέποντας μια ή καμία μετάβαση σε κάθε επανάληψη, μειώνουμε σημαντικά το υπολογιστικό κόστος αφού ο αριθμός των τιμών των L που πρέπει να υπολογίσουμε και στην συνέχεια να συγκρίνουμε για να βρούμε την μέγιστη είναι αρκετά μικρότερος. Ουσιαστικά ο αριθμός των επαναλήψεων μειώνεται από SourceNum! που είναι για το Likelihood Ratio Jump, σε 1 SourceNum SourceNum Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

89 Table 11.3 Σύγκριση πολυπλοκότητας ανά επανάληψη Likelihood Ratio Jump με Reduced Likelihood Ratio Jump Τύπος προβλήματος Αριθμός πιθανών L με Likelihood Ratio Jump Αριθμός πιθανών L με Reduced Likelihood Ratio Jump 3 πηγές πηγές πηγές n πηγές nn n! Για το παρακάτω παράδειγμα τεσσάρων πηγών μικροφώνων μπορούμε να δούμε ότι για 15 των 2 μεθόδων, η μείωση στο χρόνο εκτέλεσης είναι αρκετά σημαντική. Table 12.4 Παράδειγμα χρόνου εκτέλεσης για τέσσερις πηγές (15 επαναλήψεις της κάθε μεθόδου) Likelihood Ratio Jump seconds Reduced Likelihood Ratio Jump seconds Στην εργασία τοποθετούμε χειροκίνητα τους συνδυασμούς που αναφέρονται σε μια μετάβαση για της περιπτώσεις 3 και 4 πηγών, αφού έτσι και αλλιώς περιοριζόμαστε σε αυτές στην μελέτη μας. Για να χρησιμοποιηθεί ο αλγόριθμος για μεγαλύτερο αριθμό πηγών και να προκύψουν οι επιτρεπτοί συνδυασμοί που περιέχουν μόνο μια μετάβαση μπορούμε να χρησιμοποιήσουμε τον παρακάτω αλγόριθμο. Table 13.5 Αλγόριθμος υπολογισμού μονών μεταβάσεων συναρτήσει του αριθμού των πηγών 1. perms(1,:)=[1 Sources]; 2. count=0; 3. For i=1 Sources-1 A. count=count+1; B. For j=i Sources a) tempperm = [1 Sources]; b) temp = tempperm(i); c) tempperm(i) = tempperm(j); d) temppenm(j)=temp; e) perms(count,:)= tempperm; Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

90 4.2.3 Channel modelling τεχνικές (beamforming) Η δεύτερη κατηγορία μεθόδων που θα εξετάσουμε για την λύση του permutation ambiguity βασίζεται στην γνώση που έχουμε για το auditory scene και κατ επέκταση, στις εκτιμήσεις που μπορούμε να κάνουμε για της συνθήκες που επικρατούν σε αυτό. Η βασική μέθοδος που θα χρησιμοποιήσουμε είναι αυτή του Βeamforming. Μέσω εκμετάλλευσης των ιδιοτήτων του χώρου και των διαφορών που εμφανίζει η πληροφορία που καταγράφουν τα 2 μικρόφωνα, θα προσπαθήσουμε να προσδιορίσουμε τις κατευθύνσεις άφιξης των πηγών για κάθε frequency bin και η πληροφορία αυτή θα χρησιμοποιηθεί για την λύση του permutation ambiguity. Tο beamforming είναι μια τεχνική η οποία κάνει χρήση συστοιχιών από μικρόφωνα και μέσω της καταγραφής της πληροφορίας ενός σήματος από πολλαπλούς αισθητήρες μπορεί να κάνει διάφορες εκτιμήσεις για τα χαρακτηριστικά του χώρου όπου αυτό διαδίδεται, ενώ χρησιμοποιεί αυτές τις εκτιμήσεις στην συνέχεια για να επιφέρει την επιθυμητή επεξεργασία στο σήμα που καταγράφει. Κοινές εφαρμογές, κάποιες από τις οποίες θα δούμε και σε αυτήν την εργασία, έχουν να κάνουν με φιλτράρισμα σήματος, εντοπισμός πηγών στο χώρο, υπολογισμός αριθμού πηγών, ενίσχυση σημάτων που έρχονται από συγκεκριμένη κατεύθυνση, ενώ έχει χρησιμοποιηθεί σε διάφορους τομείς της επιστήμης όπως είναι οι τηλεπικοινωνίες, η σεισμολογία, η αστρονομία και η βιοιατρική. Βασίζεται στην θεωρία του array signal processing η οποία θεμελιώθηκε της δεκαετίες του 70 και 80, με κύριες εφαρμογές τότε συστήματα randar και sonar. Όσο αναφορά τον διαχωρισμό ηχητικών πηγών μπορεί να χρησιμοποιηθεί για την εκτίμηση διαφόρων χαρακτηριστικών του auditory scene [37], όπως τον αριθμό και την κατεύθυνση άφιξης των πηγών ή ακόμα και να χρησιμοποιηθεί ως φίλτρο για να επιφέρει διαχωρισμό, μειώνονται την ένταση πηγών που έρχονται από συγκεκριμένες γωνίες. Εμείς θα εκμεταλλευτούμε το beamforming για να προσδιορίσουμε τα permutations των διαφορετικών frequency bins, τακτική που έχει εξεταστεί και στο [39] [40] [48], και όχι για διαχωρισμό τον οποίον θα αφήσουμε εξ ολοκλήρου στο ICA framework. To beamforming δεν είναι φυσικά εφαρμόσιμο εργαλείο, για τον διαχωρισμό ηχητικών πηγών, λόγω του ότι στη γενική του μορφή, απαιτεί περισσότερα μικρόφωνα από ότι πηγές για να δώσει αποτελέσματα. Παρόλα αυτά, θα το χρησιμοποιήσουμε με κατάλληλο τρόπο ώστε να είναι συμβατό με τον περιορισμό της εργασίας όπου έχουμε ίσο αριθμό πηγών και μικροφώνων. Ακόμα πρέπει να διαθέτουμε και κάποια πληροφορία για κάποια γεωμετρικά χαρακτηριστικά του auditory scene όπως η απόσταση που έχουν τα μικρόφωνα μεταξύ τους. Λόγω αυτού του χαρακτηριστικού δεν μπορεί να θεωρηθεί τόσο γενική μέθοδος διαχωρισμού όπως ο ICA, για τον οποίον ο διαχωρισμός είναι τυφλός, αφού δεν κάνει καμία παραδοχή για την φύση του προβλήματος. Η πληροφορία που σχετίζεται με την γεωμετρία των μικροφώνων δεν θα μας δημιουργήσει πρόβλημα στην συγκεκριμένη υλοποίηση αφού ο τρόπος με τον οποίο θα κάνουμε καταγραφή των πηγών είναι συγκεκριμένος όπως θα δούμε στο επόμενο κεφάλαιο και η γεωμετρία των αισθητήρων σταθερή. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

91 Στην συνέχεια δίνουμε την περιγραφή του τρόπου λειτουργίας του beamforming ώστε να εξάγουμε της διάφορες μεθόδους που θα χρησιμοποιήσουμε στην συνέχεια της εργασίας. Έστω ότι έχουμε Μ αισθητήρες με x(n) =[x 1(n),x 2(n),...,x (n)] T M οι οποίες καταγράφουν το auditory scene που αποτελείτε από Ν πηγές s(n) =[s 1(n),s 2(n),...,s (n)] T N. Ακόμα όπως αναφέραμε είναι απαραίτητη η πληροφορία της απόστασης μεταξύ των αισθητήρων η οποία είναι με k =1 Μ-1. Ο στόχος μας είναι να εκτιμήσουμε της γωνίες άφιξης κάθε σήματος d k i οι οποίες θα αναφέρονται ως Directions Of Arrival (DOA). Η θεωρία του beamforming είναι κατασκευασμένη για να αντιμετωπίζει Narrow Band Signals και στην συνέχει θα την τροποποιήσουμε κατάλληλα για να είναι συμβατή με το πρόβλημα μας. Για την ώρα όμως θα παρουσιάσουμε την βασική ανάλυση για την οποία καταγράφουμε ένα j2 fcn σήμα si ( n) ae, όπου f c είναι η συχνότητα μεταφορά του σήματος. Σε αυτή τη βασική περίπτωση έχουμε μόνο ένα σήμα στο auditory scene ενώ δεν θεωρούμε ότι υπάρχουν ανακλάσεις των ηχητικών κυμάτων στο χώρο. Είναι λογικό, εφόσον ο ήχος ταξιδεύει με πεπερασμένη ταχύτητα, το σήμα να καταγράφεται στα διαφορετικά μικρόφωνα με μια χρονική καθυστέρηση, η οποία είναι συνάρτηση του DOA του σήματος. i i Θ1 Θ2 d 1 d 2 Figure 38.8 Beamforming μοντέλο για μια ηχητική πηγή Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

92 Δεδομένης λοιπόν μιας πηγής και Μ μικροφώνων, κάθε μικρόφωνο κάνει τις ακόλουθες καταγραφές. x (n)=s (n) 1 1 x (n)=s (n- ) ae s (n) j2 fc x (n)=s (n- ) ae s (n) M j2 fcm 1 M 1 Τα μικρόφωνα έχουν μεταξύ τους απόσταση την παρακάτω σχέση: d k μπορούμε να συνδέσουμε τις παρατηρήσεις με x (n) x 2(n) j fcd ae x(n) s 1(n) ( i)s 1(n) j2 fcdm1 x M (n) ae Όπου Τ=sin i / c, και c=340m/sec η ταχύτητα του ήχου στον αέρα. Αν γενικεύσουμε την παραπάνω ανάλυση για πολλαπλές ηχητικές πηγές έχουμε N x(n) ( )s (n) [ ( ), ( ),..., ( )] s(n) k1 k k 1 2 N Θα θέσουμε τον πίνακα A [ ( 1), ( 2),..., ( N )]. Το τελικό σύστημα στο οποίο καταλήγουμε είναι: x(n) s(n) Μέσω της μεθόδου του beamforming, οδηγούμαστε σε ένα σύστημα παρόμοιο με αυτό που χρησιμοποιήσαμε για το μοντέλο του BSS. Αν ξέρουμε τα DOA, των διαφορετικών πηγών μπορούμε να εκτιμήσουμε τις σταθερές του πίνακα Α και να της χρησιμοποιήσουμε με στόχο να λύσουμε το πρόβλημα του διαχωρισμού. Ο στόχος μας σε αυτήν την εργασία είναι να προσδιορίσουμε όμως τα DOA των πηγών και όχι να διαχωρίσουμε το σήμα και θα το πετύχουμε αυτό με μεθόδους που θα δούμε παρακάτω. H κύρια διαφορά του διαχωρισμού μέσω beamforming σε σχέση με το ICA framework είναι ότι κάνουμε χρήση κάποιας πληροφορίας για την δομή του δωματίου (αποστάσεις μεταξύ των μικροφώνων) ενώ το BSS μοντέλο είναι αρκετά πιο γενικό σαν μέθοδος και δεν πραγματοποιεί παραδοχές. Ακόμα για να μπορεί το beamforming να λειτουργήσει, πρέπει να έχουμε πραγματοποιήσει σωστό calibration τον αισθητήρων. Γενικά η μέθοδος είναι ευαίσθητη όσο αναφορά την σωστή βαθμονόμηση του συστήματος, και λάθη στην αποτύπωση της γεωμετρίας k Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

93 των μικροφώνων ή και στην καταγραφή των ηλεκτρικών σημάτων από διαφορετικούς αισθητήρες, μπορούν να την επηρεάσουν σημαντικά. Μέσω του beamforming μπορούμε αρχικά να εκτιμήσουμε τον αριθμό των πηγών που είναι παρούσες στο auditory scene, στην συνέχεια να προσδιορίσουμε της γωνίες άφιξης και τελικά να πραγματοποιήσουμε διαχωρισμό τοποθετώντας μηδενικό gain στις γωνίες αυτές που αναφέρονται σε πηγές που θέλουμε να αφαιρέσουμε. Το μοντέλο του beamforming θεωρεί ότι τα σήματα δεν υφίστανται ανακλάσεις και στους αισθητήρες καταγράφεται απευθείας το ηχητικό κύμα όπως αυτό καταφτάνει από την πηγή. Η παραδοχή αυτή δεν ισχύει όπως έχουμε πει στην περίπτωση μας, αφού εξετάζουμε περιβάλλοντα πραγματικού δωματίου. Κατά συνέπεια ο πλήρης διαχωρισμός με χρήση beamforming αν και είναι εφικτός μέσω τοποθέτησης μηδενικών gain σε συγκεκριμένες κατευθύνσεις, τελικά θα μας έδινε αποτελέσματα χαμηλής ποιότητας. Μπορούμε όμως να χρησιμοποιήσουμε το beamforming για να προσδιορίσουμε με σχετική ακρίβεια τα DOA των πηγών που συμμετέχουν στη μίξει. Σε αυτήν την περίπτωση, παρόλο που η παραδοχές του beamforming συνεχίζουν να μην τηρούνται, λόγω πραγματικού δωματίου, το αποτέλεσμα είναι σχετικά. Αυτός είναι κατά συνέπεια ο λόγος που θα χρησιμοποιήσουμε beamforming κυρίως για την λύση του permutation ambiguity και όχι για τον διαχωρισμό του μείγματος. j2 fcn Όπως έχουμε αναφέρει το beamforming θεωρεί ότι έχουμε ένα narrowband σήμα si ( n) ae που καταγράφεται από τα μικρόφωνα. Στην περίπτωση του ηχητικού σήματος όμως, καταλαμβάνουμε μεγάλο εύρος συχνοτήτων. Η λύση στο πρόβλημα είναι σχετικά απλή και μάλιστα συμβατή με την λογική διαχείρισης του σήματος μέσω STFT που χρησιμοποιήσαμε στην προηγούμενη παράγραφο. Αυτό που θα κάνουμε είναι να εκτιμήσουμε ένα beamformer για κάθε frequency bin ξεχωριστά και θα προσπαθούμε να διακρίνουμε της κατευθύνσεις πρόσπτωσης των πηγών συγκεκριμένα για αυτό το frequency bin. 1 j2 fd1 ae ( i ) για κάθε συχνότητα f j2 fdm 1 ae Στις επόμενες 3 υποπαραγράφους θα παρουσιάσουμε 2 διαφορετικές μεθόδους που θα προσπαθήσουν να εκτιμήσουν τα DOA των πηγών που υπάρχουν στο auditory scene και θα εκμεταλλευτούμε αυτήν τη πληροφορία για να λύσουμε όπου είναι δυνατόν το permutation ambiguity Προσδιορισμός DOA μέσω Directivity Patterns Το πρώτο εργαλείο που μπορούμε να χρησιμοποιήσουμε για τον προσδιορισμό των DOA είναι τα Directivity Patterns. Πριν αναφερθούμε περεταίρω με τα Directivity Patters, θα ασχοληθούμε λίγο με την έννοια του beamformer που μας είναι αναγκαία αφού, για να δημιουργήσουμε ένα directivity patterns πρέπει αρχικά να έχουμε κατασκευάσει έναν beamformer. O beamformer είναι ένα διάνυσμα το οποίο περιέχει κατάλληλες σταθερές ώστε να Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

94 επιφέρει διαφορετική ενίσχυση στο σήμα αναλόγως το από πια γωνία προέρχεται. Ο στόχος του είναι να υποβαθμίζει της ανεπιθύμητες πηγές και να μένει μόνο η πηγή που θέλουμε να εξάγουμε. Ουσιαστικά μπορούμε να διαχωρίσουμε ένα μείγμα μέσω του: M * H i( ) k ( i) x k ( ) ( i) x(n) k1 u n w n w όπου w( ) i είναι οι σταθερές του φίλτρου (beamformer) που μεγιστοποιούν το κέρδος προς μια συγκεκριμένη κατεύθυνση και να τοποθετεί μηδενικά προς άλλες κατευθύνσεις από όπου έρχονται μη επιθυμητές πηγές. Αν θέλουμε να ανακτήσουμε όλες τις πηγές που βρίσκονται στο auditory scene πρέπει να σχηματίσουμε το διάνυσμα : i u(n) [w( ) w( )... w( )]x(n) 1 2 N Ο beamformer μπορεί να χρησιμοποιηθεί για να διαχωρίσει μια μίξει αλλά εμείς για τους λόγους που αναλύσαμε προηγουμένως δεν θέλουμε να κάνουμε κάτι τέτοιο. Μπορούμε όμως να παρουσιάσουμε σε ένα διάγραμμα το κέρδος που πρέπει να έχουμε ανά διαφορετικές γωνίες άφιξης ώστε να εξαφανίσουμε όλες τις πηγές που είναι παρούσες στο auditory scene. Ένα τέτοιο διάγραμμα ονομάζεται Directivity Pattern και έχει την παρακάτω μορφή Figure 39.9 Directivity Pattern Στο παραπάνω παράδειγμα βλέπουμε ότι για να εξαφανίζουμε τις όλες τις πηγές που υπάρχουν στο συγκεκριμένο auditory scene, πρέπει να τοποθετήσουμε μηδενικά γύρω από τις γωνίες 70 και 125 μοιρών. Αυτές είναι όμως και οι γωνίες άφιξης του σήματος ή DOA της οποίες και είναι ο στόχος μας να εκτιμήσουμε. Κατά συνέπεια θα σχεδιάσουμε τα directivity patterns που προκύπτουν από beamformers με στόχο να εκτιμήσουμε τα της γωνίες άφιξης των πηγών στο auditory scene. Τα διαγράμματα αυτά μπορούν να παραχθούν για κάθε ένα μικρόφωνο ξεχωριστά. Στα σημεία του διαγράμματος που έχουμε την ελάχιστη στης τιμής κέρδους, θα θεωρούμε ότι έχουμε ένα DOA. Το μεγάλο πλεονέκτημα των directivity patterns είναι ότι δεν απαιτούν μεγαλύτερο αριθμό μικροφώνων Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

95 από ότι πηγές και κατά συνέπεια μπορούν με μεγάλη ευκολία να εφαρμοστούν στον διαχωρισμό ηχητικών πηγών στην μορφή που έχουμε θέσει το πρόβλημα Υπάρχουν διάφοροι τρόποι να εκτιμήσουμε ένα beamformer και να σχεδιάσουμε directivity patterns, που βασίζονται στην καλά θεμελιωμένη θεωρία του array processing. Χωρίς να μπούμε σε λεπτομέρειες που ξεπερνάν τους σκοπούς της εργασίας, θα αναφέρουμε ότι στο συγκεκριμένο πρόβλημα μπορούμε να δημιουργήσουμε ένα directivity pattern για κάθε frequency bin f μέσω του παρακάτω τύπου. N ph k Fi (f, ) Wik ( f ) e k1 j2 fd sin / c ph Όπου W W / W είναι η φάση των σταθερών του unmixing matrix W ανάμεσα στον k ik ik ik αισθητήρα και την i πηγή, και c είναι η ταχύτητα του αέρα. Στο παρακάτω παράδειγμα απεικονίζουμε τα directivity patterns για όλα τα frequency bins που προκύπτουν για μία ηχογράφηση μια πηγής η οποία δεν υφίστανται ανακλάσεις. Figure Directivity Patterns για όλα τα frequency bins Όσο πιο σκούρο είναι το χρώμα, τόσο μικρότερη είναι η τιμή που αντιστοιχεί στο directivity pattern που έχει υπολογιστεί για την συγκεκριμένη γωνία και συχνότητα. Παρατηρούμε ότι για όλες τις συχνότητες υπάρχει ένα ελάχιστο γύρω από την γωνία των 25 μοιρών. Το ελάχιστο αυτό αντοιστοιχεί στο DOA άφιξης της πηγής και παραμένει σταθερό για όλες της συχνότητες του εξεταζόμενου φάσματος. Παρατηρούμε όμως ακόμα, ότι όσο αυξάνεται η συχνότητα παίρνουμε ελάχιστα σε όλο και περισσότερες γωνίες οι οποίες μάλιστα είναι συμμετρικές του πραγματικού DOA. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

96 Figure Directivity Pattern ενός IC από frequency bin χαμηλής συχνότητας Figure Directivity Pattern ενός IC από frequency bin υψηλής συχνότητας Η παρατήρηση αυτή μπορεί να δειχθεί και μέσω του παραπάνω σχήματος που αναφέρεται στο directivity pattern ενός IC που προκύπτει από το ICA framework, για χαμηλή συχνότητα και για υψηλή συχνότητα. Μπορούμε να δούμε ότι όσο η συχνότητα αυξάνεται εμφανίζονται και νέα ελάχιστα στην κυματομορφή. Το γεγονός αυτό κάνει δύσκολη την χρήση των directivity patterns για μεσαίες και υψηλές συχνότητες σήματος και οφείλεται στην περιοδικότητα που εμφανίζει η συνάρτηση Fi (f, ). Μπορεί να δειχθεί ότι, για να εξασφαλίσουμε ότι το directivity pattern θα εμφανίζει μόνο ένα ελάχιστο, πρέπει η συχνότητα f να είναι f c /2d. Η ανάλυση στην οποία βασιζόμαστε θεωρεί ισαπέχοντα μικρόφωνα για την καταγραφή, αλλά το όριο f c /2d μας δίνει μια γενική εικόνα του εύρους συχνοτήτων για τις οποίες μπορούμε να εφαρμόσουμε τα directivity patterns. Λόγου του παραπάνω χαρακτηριστικού, το beamforming έχει περιορισμένο πεδίο εφαρμογής στο πρόβλημα του permutation ambiguity, αφού δεν μπορεί να χρησιμοποιηθεί για να προσδιορίσει την σωστή σειρά για όλα τα frequency bins, αλλά μόνο για αυτά που αναφέρονται σε χαμηλές συχνότητες. Σύμφωνα με τον τύπο f c /2d, οι καταγραφές που γίνονται με μικρόφωνα που βρίσκονται σε μικρή απόσταση μεταξύ τους, επιτρέπουν στο beamforming να χρησιμοποιηθεί για μεγαλύτερο εύρος συχνοτήτων. Από την άλλη όταν τα μικρόφωνα είναι πολύ κοντά το ένα με το άλλο, η πληροφορία που καταγράφεται σε αυτά δεν εμφανίζει τόσο μεγάλες διαφορές με αποτέλεσμα να είναι πιο δύσκολο για το ICA framework να επιφέρει διαχωρισμό στο πρόβλημα. Ουσιαστικά η απόσταση μεταξύ των μικροφώνων εισάγει ένα trade off, ανάμεσα στην ικανότητα αντιμετώπισης από πλευράς του διαχωρισμού, και ικανότητας λύσης του permutation ambiguity. Στην εργασία αυτή θα επιλέξουμε να χρησιμοποιούμε την διαδικασία του beamforming για να λύνουμε το πρόβλημα το διαχωρισμού στο εύρος συχνοτήτων Range [0 2 KHz], αφού για τιμές έξω από αυτό, οι τεχνικές προσδιορισμού των DOA που χρησιμοποιούμε εμφανίζουν μεγάλη πιθανότητα λάθους που επηρεάζει σημαντικά το τελικό προϊόν διαχωρισμού. Μια βασική παραδοχή στην θεωρία του beamforming είναι ότι στα μικρόφωνα δεν καταγράφονται πολλαπλές εκδόσεις του ίδιο σήματος, η με άλλα λόγια ότι δεν υπάρχουν ανακλάσεις στο χώρο (τα μείγματα είναι instantaneous). Αυτή η συνθήκη προφανώς δεν ισχύει στο πρόβλημα μας που αντιμετωπίζουμε τον διαχωρισμό σε πραγματικό δωμάτιο. Αυτό που Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

97 μπορούμε να κάνουμε είναι να θεωρήσουμε η κύρια συνεισφορά στο directivity pattern αφορά το gain που πρέπει να δοθεί στο βασικό κύμα πρόσπτωσης (Direct Path), που δεν υφίσταται ανακλάσεις. Ουσιαστικά παράγουμε τα directivity patterns αγνοώντας το ότι αντιμετωπίζουμε ένα convolutive μείγμα και του συμπεριφερόμαστε ως instantaneous. Η παραδοχή αυτή μπορεί να μην είναι πολύ κοντά στην πραγματικότητα, αλλά εφόσον θέλουμε μόνο να προσδιορίσουμε τα DOA των πηγών και όχι να τις διαχωρίσουμε, μικρές αποκλίσεις στην κατεύθυνση άφιξης των διαφορετικών frequency bins δεν μας επηρεάζουν Figure Directivity Patterns για όλα τα frequency bins σε πραγματικό δωμάτιο Στο παραπάνω σχήμα μπορούμε να δούμε μέσω της έντασης του χρώματος σε κάθε σημείο του γραφήματος τα directivity patterns που προκύπτουν για τα διαφορετικά frequency bins που εξετάζουμε σε ένα μια ηχογράφηση πραγματικού δωματίου. Βλέπουμε ότι στην περίπτωση αυτή το διάγραμμα δεν είναι ομαλό, αλλά υπάρχουν μικρές αλλαγές όσο αναφορά τα directivity patterns κοντινών frequency bins. Αντίθετα όταν το μίγμα είναι delayed (υπάρχει μόνο καθυστέρηση στην άφιξη στη συστοιχία, χωρίς ανακλάσεις από τους τοίχους) όπως συνέβαινε στην περίπτωση του Figure 4.10, το συνολικό directivity pattern είναι ομαλό. Οι μικρές αυτές μεταβολές που εμφανίζουν τα DOA τα κοντινά frequency bins, εξετάζονται στο [41] και δεν μας αφήνουν να έχουμε εξ αρχής μια σταθερή εκτίμηση των γωνιών άφιξης των διαφορετικών πηγών του μείγματος. Η τακτική που θα ακολουθήσουμε στην εργασία αυτή, είναι να υπολογίζουμε το DOA για κάθε IC που προκύπτει από το ICA framework και να συγκρίνουμε την γωνία άφιξης του με τις γωνίες άφιξης των πηγών ώστε να μπορούμε να επιβάλουμε στο σωστό permutation. Για να κάνουμε μια εκτίμηση των γωνιών άφιξης των πηγών, μπορούμε να αθροίσουμε τα directivity patterns όλων των ICs για ένα πλήθος frequency bins ώστε να προκύψει ένα πιο σταθερό τελικό αποτέλεσμα. Η λογική είναι ότι ασχέτως από πια πηγή προέρχονται τα ICs, η άθροιση τους θα οδηγήσει σε ένα διάγραμμα που θα παρουσιάζει ελάχιστο στις περιοχές που τα περισσότερα ICs παρουσιάζουν κάποιο DOA [42]. Έχουμε κατά συνέπεια μια σταθερή εκτίμηση για τα DOA όλων των πηγών, την οποία θα συγκρίνουμε με τις γωνίες άφιξης κάθε IC ξεχωριστά. Μέσω αυτής της άθροισης μπορούμε να ξεπεράσουμε και την αδυναμία του πραγματικού δωματίου να Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

98 εμφανίζει μεταβολές στα DOA των ICs για κοντινά frequency bins. Το διάγραμμα αυτό προκύπτει από την παρακάτω έκφραση: P( ) F(f, ) N f Range i1 i 2 όπου Range [0 2 KHz] Η κυματομορφή στη οποία καταλήγουμε μέσω της άθροισης μπορεί να έχει την παρακάτω μορφή Figure Παράδειγμα εκτίμησης DOA, μέσω άθροισης των Directivity Patterns πολλών frequency bins. Στο σχήμα βλέπουμε 3 παραδείγματα για τα οποία έχουμε χρησιμοποιήσει τα directivity patterns, και μέσω άθροισης των frequency bin που ανήκουν στο εύρος Range [0 2 KHz], έχουμε εξάγει την τελική μας εκτίμηση για τα πραγματικά DOA του auditory scene. Παρατηρούμε ότι στις 2 πρώτες περιπτώσεις οι κυματομορφές που προκύπτουν εμφανίζουν ξεκάθαρα 2 ελάχιστα τα οποία όντος αντιστοιχούν στις πραγματικές γωνίες άφιξης την πηγών. Αντίθετα στην τρίτη περίπτωση μέσω των directivity patterns, μπορούμε να διακρίνουμε μόνο ένα ελάχιστο στην κυματομορφή, παρόλο που πρόκειται για μια περίπτωση μίξεις 2 πηγών σε πραγματικό δωμάτιο. Στο παράδειγμα αυτό, λόγω του γεγονότος ότι οι 2 πηγές βρίσκονται σε κοντινές γωνίες, η μέθοδος αποτυγχάνει να διακρίνει τα πραγματικά DOA. Όπως βλέπουμε σε όλες τις κυματομορφές, τα ελάχιστα που δημιουργούνται, καταλαμβάνουν μεγάλο εύρος γωνιών και κατά συνέπεια, όταν πρόκειται για κοντινές γωνίες άφιξης, η μέθοδος μας είναι πιθανόν να συνενώσει κοντινά DOA σε ένα μοναδικό ελάχιστου, στο διάγραμμα του directivity pattern. Συμπεραίνουμε τελικός, ότι τα directivity patterns χρειάζονται ένα αρκετά ξεκάθαρο auditory scene για να μπορέσουν να χρησιμοποιηθούν για την αντιμετώπιση του permutation ambiguity και στην επόμενη υποπαράγραφο θα αναζητήσουμε μια μέθοδο που θα μπορεί να μας δόση έναν πιο ακριβή υπολογισμό των DOA. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

99 4.2.5 Προσδιορισμός DOA μέσω του αλγορίθμου MuSIC Μια αρκετά ισχυρή μέθοδος προσδιορισμού των directions of arrival διαφορετικών πηγών είναι ο αλγόριθμος MuSIC (Multiple Signal Classification) [43]. Ο αλγόριθμος αυτός εμπίπτει στην κατηγορία των subspace methods, και μπορεί να εφαρμοστεί όταν έχουμε περισσότερα μικρόφωνα από αριθμό πηγών M>N. Για να αναλύσουμε τον αλγόριθμο MuSIC πρέπει να κάνουμε χρήση γραμμική άλγεβρας και δεν θα μπούμε σε λεπτομέρειες της θεωρητικής θεμελίωσης του σε αυτήν την εργασία μια και είναι μια αρκετά μελετημένη μέθοδος για την οποία μπορεί να βρεθεί εκτενής βιβλιογραφία. Σε γενικές γραμμές, βασίζεται σε decomposition του covariance matrix των δεδομένων που καταγράφουν τα μικρόφωνα και εκμεταλλεύεται την ύπαρξη των ιδιοδιανυσμάτων του, που αντιστοιχούν τόσο στην πηγή και όσο και στον θόρυβο. Αν θεωρήσουμε πάλι τον πίνακα A [ ( 1), ( 2),..., ( N )], το μοντέλο στο οποίο βασίζεται η μέθοδος είναι το ακόλουθο: x(n) s(n) (n) Στο μοντέλο αυτό θα κάνουμε και εισαγωγή μιας συνιστώσας θορύβου, την οποία η μέθοδο εκμεταλλεύεται για να δώσε λύση στο πρόβλημα. Υπολογίζουμε την έκφραση: C x H H H C E{xx } A E{ss }A E{ } x C C 2 A A H x s 2 Όπου είναι ο covariance matrix του, C ο covariance matrix του θορύβου ο οποίος θεωρείτε ισοτροπικός και προσθετικός. Οι ιδιοτιμές του πίνακα είναι Μ, και μπορεί να δειχτεί από την προηγούμενη σχέση ότι οι Ν μεγαλύτερες αντιστοιχούν στις πηγές και οι Μ-Ν στον θόρυβο. C x x C s ο covariance matrix του Στη συνέχει με τεχνικές γραμμικής άλγεβρας μπορούμε να δείξουμε [38] ότι τα span μεταξύ του χώρου του πίνακα, και του χώρου των Ν πρώτων ιδιοδιανυσμάτων e1, e2, e3,..., e N του είναι ίσα. span{ A} span{[ e, e, e,..., e ]} span{e } N s s και C x Ο υποχώρος E s είναι ικανός να προσδιορίσει τα DOA των διαφορετικών πηγών. Για να βρούμε τον DOA, πρέπει να εκτιμήσουμε τις γωνίες θ ώστε a( ) span{e s }. Έστω το E [ e, e, e,..., e ] περιέχει τα ιδιοδιανύσματα που αντιστοιχούν στις επιθυμητές πηγές και το s n N 1 M N E [ e,..., e ] τα ιδιοδιανύσματα που αντιστοιχούν στον θόρυβο. Πρακτικά μπορούμε να κατασκευάσουμε την παρακάτω συνάρτηση Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

100 M ( ) 1 a( ) H ( ) 2 n n a [ 90,90] Οι κορυφές τις παρακάτω συνάρτησης θα αντιστοιχούν στις γωνίες άφιξης των Ν πηγών. Εφόσον έχουμε παρουσιάσει την ανάλυση του MuSIC, πρέπει τώρα να αντιμετωπίσουμε τον βασικό περιορισμό του να χρειάζεται περισσότερα μικρόφωνα από ότι πηγές. Η τακτική που θα ακολουθήσουμε είναι να κάνουμε mapping πίσω στο χώρο των μικροφώνων τις διαχωρισμένες πηγές. Με αυτόν τον τρόπο έχουμε την εικόνα κάθε IC που προκύπτει μέσω του ICA κάθε frequency bin, σε περισσότερα από ένα μικρόφωνα κάνοντας εφικτή την χρησιμοποίηση του αλγορίθμου MuSIC για την εκτίμηση των DOA. Η πρακτική της αναγωγής στο χώρο των μικροφώνων, μας είναι γνωστή από το προηγούμενο κεφάλαιο και για την περίπτωση 2 πηγών για παράδειγμα μπορεί να δοθεί από τον παρακάτω τύπο. x x (V W ) s1 u (V W ) 21 (V W ) s2 u (V W ) 22 Οι βασικοί περιορισμοί που συναντήσαμε στα directivity patters υπάρχουν σε έναν βαθμό και στον αλγόριθμο MuSIC. Αρχικά και αυτή η μέθοδος δεν μπορεί να χρησιμοποιηθεί ικανοποιητικά για όλο το εύρος συχνοτήτων, αφού όσο αυξάνεται η συχνότητα εμφανίζονται στις κυματομορφές που υπολογίζουμε πολλαπλά μέγιστα. Στο παρακάτω σχήμα βλέπουμε της κυματομορφές που προκύπτουν με τον αλγόριθμο για το ένα IC που έχει διαχωρίσει το ICA framework, και έχουμε κάνει mapping πίσω στο χώρο των 2 μικροφώνων, ώστε να έχουμε στην διάθεση μας πολλαπλές παρατηρήσεις του. Βλέπουμε ότι στις χαμηλές συχνότητες εμφανίζεται μόνο ένα μέγιστο το οποίο απευθύνεται και στο πραγματικό DOA, ενώ όσο αυξάνεται η συχνότητα αυξάνεται η πιθανότητα εμφάνισης πολλαπλών ψευδών DOA, που δυσχεραίνουν την εφαρμογή της μεθόδου Figure Διάγραμμα αλγορίθμου MuSIC για ένα IC, από frequency bin χαμηλής, μεσαίας και υψηλής συχνότητας Ήδη από το figure 4.15 μπορούμε να διαπιστώσουμε ότι η μέθοδος MuSIC, είναι πιο ισχυρή από τα directivity patters αφού στις κυματομορφές τα DOA διακρίνονται πιο ξεκάθαρα, και μάλιστα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

101 τα μέγιστα που εμφανίζει είναι σημαντικά πιο στενά (λαμβάνουν μικρότερο εύρος γωνιών) σε σχέση με τα directivity patters όπως φαίνεται και στο επόμενο σχήμα Figure Διάγραμμα αλγορίθμου MuSIC για τυχαίο IC Figure Directivity Pattern για τυχαίο IC Η ιδιότητα αυτή του MuSIC να παράγει πιο ευδιάκριτα και στενά μέγιστα για τα DOA, είναι χρήσιμη όταν αθροίζουμε τις κυματομορφές πολλών frequency bins για να εξάγουμε μια σταθερή εκτίμηση των γωνιών άφιξης. Αυτό το βήμα είναι πάλι απαραίτητο γιατί και στην εκτίμηση μέσω του MuSIC, τα DOA γειτονικών frequency bins, εμφανίζουν αποκλίσεις στις γωνίες που καταλαμβάνουν. Μέσω της άθροισης μπορούμε να έχουμε πάλι μια πιο σταθερή εικόνα των πραγματικών DOA του auditory scene Figure Παράδειγμα εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC για πολλά frequency bins. Οι παραπάνω κυματομορφές αναφέρονται ακριβώς στα ίδια παραδείγματα που παρουσιάσαμε και στα directivity patterns. Μπορούμε να δούμε και στην περίπτωση του MuSIC ήμαστε ικανοί να εντοπίσουμε τα πραγματικά DOA του auditory scene με μεγαλύτερη ακρίβεια. Μάλιστα σε αυτό το παράδειγμα μπορούμε να βρούμε και τα DOA της τρίτης κυματομορφής στην οποία η προηγούμενη μέθοδος αποτύγχανε αφού οι 2 πηγές ήταν πολύ κοντά η μια με την άλλη. Ένα άλλο ενδιαφέρον χαρακτηριστικό που παρατηρούμε στο figure 4.14, είναι ότι τα διαγράμματα του αλγορίθμου MuSIC παρουσιάζουν τέτοια ακρίβεια, που είναι εφικτό όχι μόνο να προσδιορίσουμε το Direct Path, αλλά και άλλα Paths που οφείλονται στις ανακλάσεις των ηχητικών κυμάτων στις επιφάνειας του δωματίου. Στο πρώτο παράδειγμα το μέγιστο που παίρνουμε κοντά στη γωνία 50 ο αφορά κάποια ισχυρή ανάκλαση σε επιφάνεια του. Αντίθετα το Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

102 3 διάγραμμα είναι πιο καθαρό και περιέχει λιγότερα μέγιστα, γεγονός που οφείλεται στο ότι οι πηγές ηχούσαν σε χαμηλή ένταση με αποτέλεσμα να μην παρατηρούνται τόσο ηχηρές ανακλάσεις και το Direct Link να υπερισχύει. Καταλήγουμε ότι ο αλγόριθμος MuSIC είναι μια πιο ισχυρή μέθοδος από τα directivity patterns και θα την χρησιμοποιήσουμε στην επόμενη παράγραφο για να παρουσιάσουμε μια μέθοδο η οποία θα αντιμετωπίζει το permutation ambiguity Λύση του permutation ambiguity με χρήση MuSIC Beamformer Αφού έχουμε παρουσιάσει την λογική λειτουργεία των μεθόδων, μπορούμε πλέον να της χρησιμοποιήσουμε για να αντιμετωπίσουμε το permutation ambiguity. Ο αλγόριθμος που κατασκευάζουμε για ταξινομήσει τα IC στις σωστές πηγές, μπορεί να συνοψιστεί στο παρακάτω ψευδοκώδικα: Table 14.6 Αλγόριθμος λύσης Permutation ambiguity μέσω beamforming 1. Extract ICs using the ICA framework 2. Map the ICs back to the microphone domain to have the image of every IC for many microphones 3. For every frequency bin estimate a beamformer Fi (f, ) using the MuSIC algorithm 4. Calculate P( ) F(f, ) N f Range i1 stable estimator for DOA 5. If beamformer can be used i 2 for Range [0 2 KHz] A. For every frequency bin k: to use as a a) If there is a clear pick in the beamformer: I. Compare the DOA of frequency bin k to the average DOA of step 4 to see if permutation is needed for every IC II. If the same permutation has not taken place before i. Permute rows of unmixing matix W Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

103 Μέχρι στιγμής στην ανάλυση μας έχουμε αναφερθεί στα βήματα 1 έως 4 και έχουμε εξάγει μια μέση εκτίμηση των DOA από τα πρώτα frequency bins που βρίσκονται στο εύρος Range [0 2 KHz]. Τώρα θα δούμε τα υπόλοιπα βήματα που πρέπει να κάνουμε για να λύσουμε το permutation ambiguity. Αρχικά στην περίπτωση του βήματος 5 θέλουμε να ελέγξουμε αν μπορούμε να κάνουμε χρήση του beamformer. Όπως έχουμε αναφέρει ο beamformer είναι ένα εργαλείο που εκμεταλλεύεται ιδιότητες του auditory scene και της χρησιμοποιεί για να επιφέρει διαχωρισμό. Μπορούν να υπάρξουν όμως πολλές περιπτώσεις που δεν είναι ικανός να βοηθήσει στην λύση του permutation ambiguity όπως το παρακάτω παράδειγμα, όπου οι 2 πηγές έρχονται από την ίδια γωνία: Figure Εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC, για πηγές που βρίσκονται στην ίδια γωνία ως προς την συστοιχία των μικροφώνων Παρατηρούμε ότι λόγω του ότι η διαφορά ανάμεσα στα 2 DOA είναι πάρα πολύ μικρή, δεν μπορούμε να χρησιμοποιήσουμε αξιόπιστα την μέθοδο για να εξάγουμε αποτέλεσμα. Παρόμοιο πρόβλημα αντιμετωπίζουμε όταν οι 2 πηγές αντηχούν πολύ δυνατά και υφίστανται πολλές ανακλάσεις με αποτέλεσμα οι ηχητικές τους συνιστώσες που δημιουργούνται από την πρόσπτωση σε επιφάνειες του δωματίου να είναι συγκρίσιμες σε μέγεθος με τα μέγιστα που προέρχονται από το Direct Link, με αποτέλεσμα να μην είναι δυνατόν να προσδιορίσουμε το πραγματικό DOA. Για να μπορέσουμε να εφαρμόσουμε beamformer ελέγχουμε ώστε να πληρούνται οι παρακάτω προϋποθέσεις για την μέση εκτίμηση των DOA. Ορίζουμε ως ελάχιστη απόσταση ανάμεσα στα μέγιστα που μπορούν να ανιχνευτούν, τις 15 μοίρες. Θεωρούμε ότι η μέθοδος μας δεν μας δίνει την δυνατότητα να διακρίνουμε πηγές που βρίσκονται σε πολύ κοντινές μοίρες η μία με την άλλη. Μάλιστα η αδυναμία αυτή της μεθόδου επιβαρύνεται και από τις ανακλάσεις που λαμβάνουν χώρα στο δωμάτιο με αποτέλεσμα να δημιουργούνται αστάθειες στις γωνίες άφιξης των πηγών για διαφορετικά frequency bins, κάνοντας τον περιορισμό αυτό των 15 μοιρών ακόμα πιο σημαντικό. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

104 Πρέπει να υπάρχουν στο διάγραμμα N P( ) F(f, ) τουλάχιστον τόσες f Range i1 κορυφές, όσες και οι πηγές του προβλήματος. Σε αντίθετη περίπτωση είναι πιθανόν κάποιες πηγές να έχουν συνενωθεί στο ίδιο DOA. i 2 Εφόσον τηρούνται οι παραπάνω προϋποθέσεις, χωρίζουμε το διάγραμμα του αλγορίθμου MuSIC σε περιοχές γωνιών (bounds) με τέτοιο τρόπο ώστε να αντιστοιχεί ένα bound για κάθε DOA, το οποίο είναι και κεντραρισμένο ως προς το DOA αυτό. Η λογική αυτή φαίνεται και στο παρακάτω σχήμα: Peak1 Peak ` Bound 1 Bound 2 Figure Διαχωρισμός διαγράμματος αλγορίθμου MuSIC σε bounds ` Στην συνέχεια εξετάζουμε κάθε frequency bin ξεχωριστά και ελέγχουμε αν περιέχει κάποιο μέγιστο σε ένα από αυτά τα τμήματα. Αναλόγως σε πιο bound βρίσκεται κάθε IC, πραγματοποιούμε τις κατάλληλες μεταθέσεις στις στήλες του πίνακα W ώστε να αποκαταστήσουμε το σωστό permutation. Κάποια σημεία που προσέχουμε κατά τον έλεγχο αυτό είναι τα παρακάτω: Αρχικά πρέπει να υπάρχει να μπορούμε να διακρίνουμε ένα μέγιστο στην κυματομορφή του beamformer για κάθε frequency bin που ελέγχουμε. Πραγματοποιούμε αυτόν τον έλεγχο λόγω του ότι υπάρχουν αρκετές περιπτώσεις για της οποίες τα frequency bins δεν παράγουν ένα ξεκάθαρο beamformer με αποτέλεσμα να μην είναι δυνατόν να αντιμετωπίσουμε για αυτά το permutation ambiguity. Χαρακτηριστική είναι η περίπτωση του παρακάτω beamformer για ένα frequency bin το οποίο δεν παρουσιάζει κάποιο peak. Κατά συνέπεια για το συγκεκριμένο IC, η μέθοδος μας δεν είναι ικανή να δώσει αποτέλεσμα για το σωστό του permutation. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

105 Figure Παράδειγμα διαγράμματος αλγορίθμου MuSIC, το οποίο δεν περιέχει μέγιστο Ακόμα εξασφαλίζουμε ότι δεν υπάρχουν περισσότερα από ένα peaks ίδιου μεγέθους γιατί σε αυτήν την περίπτωση δεν μπορούμε να προσδιορίσουμε το σωστό DOA. Όπως έχουμε αναφέρει παραπάνω κάτι τέτοιο συμβαίνει όλο και περισσότερο, όσο αυξάνονται η συχνότητα των frequency bins. Τέλος ένα τεχνικό ζήτημα είναι να μην πραγματοποιούμε την ίδια μετάθεση 2 φορές. Εφόσον ελέγχουμε ένα ένα τα ICs πρέπει να εξασφαλίσουμε ότι αν έχουμε κάνει για παράδειγμα την μετάθεση 1-2 στον πίνακα W, δεν θα κάνουμε και την μετάθεση 2-1. Το beamforming, είδαμε σε αυτό την παράγραφο ότι έχει την δυνατότητα να χρησιμοποιηθεί για την αντιμετώπιση του permutation ambiguity, αφού μέσω εκμετάλλευσης των ιδιοτήτων του auditory scene μας δίνει την δυνατότητα να προσδιορίσουμε τις γωνίες άφιξης των διαφορετικών πηγών. Η μέθοδος όμως εμπεριέχει και κάποιους περιορισμούς στην εφαρμογή της αφού πρέπει να έχουμε: Ξεκάθαρο auditory scene γεγονός που μας περιορίζει το εύρος των προβλημάτων που μπορούμε να αντιμετωπίσουμε. Για παράδειγμα η μέθοδος μπορεί να μην είναι ικανή να δώσει λύση σε προβλήματα που η πηγές βρίσκονται σε πολύ κοντινές γωνίες, το ηχητικό κύμα υφίσταται ανάκλαση πριν φτάσει στα μικρόφωνα ( τα ηχεία δεν κοιτάνε τα μικρόφωνα), ή γενικά ο αριθμός των ανακλάσεων είναι μεγάλος με αποτέλεσμα να μην έχουμε ξεκάθαρη εικόνα για τα DOA. Χαρακτηριστικό παράδειγμα είναι η παρακάτω εκτίμηση των DOA για μια καταγραφή σε πραγματικό δωμάτιο, στο οποίο περιέχονται 4 πηγές που μάλιστα ηχούν δυνατά με αποτέλεσμα να αυξάνεται και η συνεισφορά των ανακλάσεων. Βλέπουμε ότι τα DOA δεν είναι τόσο ξεκάθαρα και είναι πιθανόν η μέθοδος μας να οδηγηθεί σε λάθος προσδιορισμό του permutation. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

106 Figure Εκτίμησης DOA, μέσω άθροισης των διαγραμμάτων αλγορίθμου MuSIC, για πρόβλημα τεσσάρων πηγών Γνώση της γεωμετρίας του auditory scene, προϋπόθεση η οποία μπορεί να μην πληρείται για πραγματικές εφαρμογές. Δεν μπορεί να εφαρμοστεί για όλα τα frequency bins αλλά μόνο για αυτά που αναφέρονται σε χαμηλές συχνότητες. 4.4 Συνδυασμός Source και Channel Modelling approaches Στην παράγραφο αυτή θα παρουσιάσουμε μια μέθοδο συνδυασμού των δύο βασικών τεχνικών που έχουμε εξετάσει μέχρι τώρα για την λύση του Permutation Ambiguity, με στόχο να εκμεταλλευτούμε τα θετικά χαρακτηριστικά και τον 2 μεθόδων για την επιτυχία όσο το δυνατόν καλύτερων διαχωρισμών. Κύριος λόγος που συνδυάζουμε τις 2 προσεγγίσεις, είναι ότι το beamforming έχει περιορισμένο εύρος συχνοτήτων για τις οποίες μπορεί να λύσει το permutation ambiguity. Κατά συνέπεια δεν μπορεί να εφαρμοστεί ως αποκλειστική μέθοδος για την αντιμετώπισή του. Θα δούμε όπως στο επόμενο κεφάλαιο μέσο πειραμάτων, σε ορισμένες περιπτώσεις ο συνδυασμός του με το Likelihood Ratio Jump, μπορεί να οδηγήσει σε υψηλότερες ποιότητες διαχωρισμού. Η τακτική που θα ακολουθήσουμε για τον συνδυασμό των 2 μεθόδων περιλαμβάνει τα ακόλουθα βήματα 1. Χρήση beamforming μετά την ολοκλήρωση της διαδικασίας του διαχωρισμού από το ICA framework. To beamforming θα αποκαταστήσει το σωστό permutation για frequency bins που κάτι τέτοιο είναι δυνατό. Για τα frequency bins τα οποία δεν μπορεί να λύσει, λόγω ασάφειας στο διάγραμμα του DOA που υπολογίζει ο αλγόριθμος MuSIC, δεν θα πραγματοποιήσει καμία μετάθεση. 2. Στην συνέχεια εκκινούμε μια διαδικασία Likelihood Ratio Jump για όλα τα permutations ανεξαρτήτως αν τα έχει ταξινομήσει το beamforming ή όχι. Η κύρια διαφοροποίηση που εφαρμόζουμε εδώ, σε σχέση με το Likelihood Ratio Jump που παρουσιάσαμε προηγουμένως, είναι να πραγματοποιούμε στην πρώτη του επανάληψη μόνο υπολογισμό Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

107 του β(t), χωρίς να αλλάζουμε τα permutations. Ο λόγος που το κάνουμε αυτό, είναι το ότι εφόσον κάποια permutations έχουν λυθεί σωστά με χρήση του beamforming είναι συμφέρων να υπολογίσουμε πρώτα μια τιμή για το β(t), που λόγω των σωστών permutations θα έχει κάποια ακρίβεια, και μετά να εκκινήσουμε την διαδικασία του Likelihood Ratio Jump. Στo βήμα αυτό, μπορεί να χρησιμοποιηθεί είτε το κλασσικό είτε το Reduced Likelihood Ratio Jump. Η μεθοδολογία αυτή, συνοψίζεται στον παρακάτω ψευδοκώδικα: Table 15.7 Αλγόριθμος για συνδιασμό Source Modelling και Channel Modelling approach 1. Extract the ICs using the RobustICA algorithm 2. Resolve the permutation when this is able using the beamforming method 3. For i=1 likelihoodjumpiters A. If i==1 i. Only calculate b(t) B. Else i. Resolve the permutation when this is able using the Likelihood Ratio Jump or Reduced Likelihood Ratio Jump Ο συνδυασμός αυτός των 2 μεθόδων θα εφαρμοστεί πειραματικά στο επόμενο κεφάλαιο για να προσδιορίσουμε σε ποιες περιπτώσεις μπορεί να δώσει καλύτερα αποτελέσματα στην λύση του permutation ambiguity. 4.5 Συμπεράσματα Στο κεφάλαιο αυτό ασχοληθήκαμε με τις ασάφειες του ICA framework. Είδαμε ότι στην περίπτωση του scale ambiguity, μπορούμε να χρησιμοποιήσουμε μια σχετικά απλή στην εφαρμογή της μέθοδο, που είναι ικανή να επαναφέρει πλήρως το scale κάθε IC, προβάλλοντάς το πίσω στο χώρο των μικροφώνων. Όσο αναφορά το permutation ambiguity, αναλύσαμε μεθόδους που βασίζονται σε διαφορετικές λογικές και εκμεταλλεύονται, είτε τα στατιστικά χαρακτηριστικά του σήματος, είτε την δομή του auditory scene. Οι κλασσικές μέθοδοι που παρουσιάσαμε για κάθε μια από τις 2 λογικές, είναι το Likelihood Ratio Jump και το Beamforming αντίστοιχα. Μάλιστα για την περίπτωση του Likelihood Ratio Jump, προτείναμε και μια παραλλαγή, το Reduced likelihood Ratio Jump που απαιτεί χαμηλότερο υπολογιστικό κόστος, και εμφανίζει αυξημένη σύγκλιση για μεγαλύτερο αριθμό frequency bins. Τέλος παρουσιάσαμε έναν αλγόριθμο για να συνδυάσουμε τις 2 λογικές, ώστε να οδηγηθούμε σε μια λύση που λαμβάνει υπόψιν, τόσο την μορφή του σήματος, όσο και την δομή του χώρου στον οποίο αναπαράγεται. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

108 Στην προσωπική ιστοσελίδα ( ) μπορεί να βρεθεί μια υλοποίηση ολόκληρης της μεθόδου διαχωρισμού ηχητικών πηγών που έχει παρουσιαστεί στα κεφάλαιο 4 και 5. Η μέθοδος, δίνει την επιλογή προσδιορισμού τόσο της παραλλαγής του ICA (Robust με ή χωρίς Prewhitenning, FastICA), όσο και του της τακτικής που επιθυμεί ο χρήσης να ακολουθήσει για την λύση του Permutation Ambiguity (κλασσικό ή Reduced Likelihood Ratio Jump, με ή χωρίς Beamforming ). Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

109 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

110 Κεφάλαιο 5: Πειράματα και αξιολόγηση μεθόδων 5.1 Εισαγωγή Μέχρι τώρα έχουμε παρουσιάσει όλο το θεωρητικό υπόβαθρο των μεθόδων που θα χρησιμοποιήσουμε σαν εργαλεία, για να καταφέρουμε τελικός να λύσουμε το πρόβλημα του διαχωρισμού ηχητικών πηγών σε πραγματικό δωμάτιο. Σε αυτό το κεφάλαιο θα διεξάγουμε πειράματα ώστε να ελέγξουμε αυτές τις μεθόδους, ενώ θα κάνουμε χρήση κατάλληλων μετρικών ώστε να αξιολογήσουμε τα αποτελέσματα μας. Αρχικά θα αξιολογήσουμε την αποτελεσματικότητα των διάφορων παραλλαγών του ICA, για τα instantaneous mixtures, που παρουσιάσαμε στο δεύτερο κεφάλαιο. Θα συγκρίνουμε τις διάφορες μεθόδους, τόσο από πλευράς ποιότητας διαχωρισμού, όσο και χρόνο υπολογισμού. Θα εστιάσουμε ιδιαίτερα στην αποτελεσματικότητα του RobustICA, σε σχέση με τις άλλες μεθόδους και ειδικά τον FastICA με ML, μιας και αυτές θα είναι οι 2 μέθοδοι που χρησιμοποιούμε για να πραγματοποιήσουμε τον διαχωρισμό των ηχητικών πηγών. Στο δεύτερο μισό του κεφαλαίου, τα ασχοληθούμε με πειράματα διαχωρισμού ηχητικών πηγών, που έχουν ηχογραφηθεί σε περιβάλλον πραγματικού δωματίου. Θα παρουσιάσουμε αναλυτικά την μεθοδολογία με την οποία διεξήγαμε τις ηχογραφήσεις, ενώ στην συνέχεια θα εφαρμόσουμε τις μεθόδους μας και με χρήση κατάλληλων μετρικών θα αξιολογήσουμε την ποιότητα διαχωρισμού που μπορούν να επιφέρουν. Τέλος θα τεκμηριώσουμε και πειραματικά κάποιους από τους ισχυρισμούς που έχουμε πραγματοποιήσει μέχρι τώρα, όπως το κατά πόσο είναι χρήσιμος ο RobustICA στο πρόβλημα του διαχωρισμού ηχητικών πηγών, την αποτελεσματικότητα του Reduced Likelihood Ratio Jump, και το αν ο συνδυασμός Source και Channel modelling μεθόδων, μπορεί να δώσει καλύτερα αποτελέσματα στη λύση του permutation ambiguity. Το σετ ηχογραφήσεων που κατασκευάσαμε για τις ανάγκες των πειραμάτων αυτού του κεφαλαίου, μπορεί να βρεθεί στη προσωπική ιστοσελίδα ( ). 5.2 Πειράματα διαχωρισμού instantaneous mixtures Στο δεύτερο κεφάλαιο προτείναμε μεθόδους για να λύσουμε το πρόβλημα των instantaneous mixtures. Πιο συγκεκριμένα αναλύσαμε πως μπορούμε να κατασκευάσουμε FastICA αλγορίθμους με τα κριτήρια της κύρτωσης, του nongaussianity αλλά και με χρήση εκτιμητών μεγίστης πιθανοφάνειας. Ακόμα παρουσιάσαμε και τον RobustICA, μια σχετικά καινούργια μέθοδος, που παρουσιάζει μεγάλο ενδιαφέρον λόγω του ότι είναι πιο robust σε τοπικά ακρότατα σε σχέση με τις άλλες μεθόδους, ενώ φαίνεται να παρουσιάζει υψηλές ταχύτητες σύγκλησης και δεν απαιτεί prewhitenning. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

111 Στην παράγραφο αυτή θα διεξάγουμε μια σειρά πειραμάτων για να αξιολογήσουμε την αποτελεσματικότητα αυτών των μεθόδων, σε διάφορα σετ δεδομένων. Θα εξετάσουμε περιπτώσεις που περιέχουν 2 έως και 4 πηγές στην μίξει η οποία παρατηρείτε από αντίστοιχο αριθμό αισθητήρων. Ακόμα θα χρησιμοποιήσουμε τόσο supergaussian όσο και SubGaussian πηγές, οι οποίες προέρχονται από τυχαίες μεταβλητές που ακολουθούν συγκεκριμένες κατανομές και θα δούμε πως θα συμπεριφερθούν οι μέθοδοι σε κάθε περίπτωση. Το σύστημα μίξεις που θα επιλέξουμε θα είναι τυχαίο Μετρικές αξιολόγησης αποτελεσμάτων Η μετρική που θα χρησιμοποιήσουμε για να μετρήσουμε την ακρίβεια της κάθε μεθόδου ονομάζεται Average Signal Mean Square Error (SMSE), και όπως προδίδει και το όνομα του μετρά το μέσω τετραγωνικό σφάλμα που παρουσιάζει το εκτιμώμενο σήμα ως προς το πραγματικό. Μπορεί να υπολογιστεί από τον παρακάτω τύπο: SMSE 1 K SMSEk, l( k) K k1 2 ˆ k, l k l l * 2 { ˆ }/ E{ ˆ l k l l } όπου SMSE E{ s a s } και a E s s s. Τα ζεύγη ( s ˆ k, sl( k )), τοποθετούνται αύξουσα σειρά κατά SMSE, ώστε να ισχύει ( k, l( k)) argmin k, l SMSE k, l. Το παραπάνω μέτρο με τον τρόπο που περιγράφεται εδώ, μένει ανεπηρέαστο από το permutation ambiguity, αφού βασιζόμενο στην πληροφορία που διαθέτει για το αρχικό και τελικό σήμα εντοπίζει το σωστό permutation και βάση αυτού, επιστρέφει το μέσω τετραγωνικό σφάλμα. Χάρη σε αυτήν την ιδιότητα της μετρικής, μπορούμε σε αυτό το στάδιο να ασχοληθούμε μόνο με την λειτουργία του εκάστοτε αλγορίθμου χωρίς να ανησυχούμε για της ασάφειες του ICA αφού ο SMSE είναι και scale invariant. Η μετρική αυτή θα χρησιμοποιηθεί σε αυτή την παράγραφο, όπου τα δεδομένα μας προέρχονται από τυχαίες μεταβλητές που ακολουθούν συγκεκριμένες κατανομές. Στην επόμενη παράγραφο που θα αντιμετωπίσουμε πραγματικά ηχητικά σήματα, θα παρουσιάσουμε και ένα νέο σετ μετρικών αξιολόγησης ειδικά κατασκευασμένες για ηχητικές πηγές. Εκτός από την επίδοση του αλγορίθμου, μας ενδιαφέρει και η αποτελεσματικότητα του από πλευράς ταχύτητας εκτέλεσης. Για αυτό το λόγο θα παρουσιάσουμε στα πειράματα τόσο τον συνολικό χρόνο εκτέλεσης για κάθε μέθοδο, όσο και το πλήθος των επαναλήψεων που απαιτήθηκαν για την σύγκληση του Περιγραφή Πειραμάτων Όπως έχουμε αναφέρει και προηγούμενος είναι απαίτηση των περισσότερων μεθόδων (εκτός από τον RobustICA) τα δεδομένα μας να έχουν υποστεί whitening πριν τον διαχωρισμό τους με ICA. Για να μπορέσουμε να επαναφέρουμε το whitening και να κάνουμε σωστά της συγκρίσεις Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

112 θα κάνουμε mapping τις πηγές πίσω στο χώρο των μικροφώνων. Ως αποτέλεσμα, αυτό που θα συγκρίνουμε είναι η εικόνα της κάθε πραγματικής πηγής στον πρώτο αισθητήρα, με την εικόνα της εκτιμώμενης πηγής, πάλι στον αισθητήρα αυτόν. Ο λόγος που κάνουμε κάτι τέτοιο είναι για εκτός από το να επαναφέρουμε το whitening είναι κα να επαναφέρουμε το σωστό scale, αν και όπως είδαμε η μετρική απόδοσης που θα χρησιμοποιήσουμε είναι Scale Invariant. Για να πάρουμε την εικόνα των πηγών πριν τη μίξει στον πρώτο αισθητήρα, αρκεί να τις πολλαπλασιάσουμε με την πρώτη στήλη του πίνακα μίξεις A. Η μέθοδος που θα ακολουθήσουμε για τα πειράματα μπορεί να περιγραφεί παρακάτω: Table 16.1 Μεθοδολογία διαχωρισμού instantaneous mixtures μέσω ICA 1. Initialize source N signals with N=mikesNumber=SourcesNumber 2. Initialize random mixing matrix A 3. Remove average value of signals x x E{x } with m=1 N m m m 4. Prewritten data z Vx if needed 5. Calculate ICS u i with ICA with prewritten data or non prewritten data for RobustICA 6. For evaluation A. Compute complete unmixing matrix W complete WV B. Map estimated sources back to microphone 1 1 s W u ˆmike1 i complete i column i C. Map original sources back to microphone 1 1 mike1 si A s columni i D. Compute SMSE s s ˆ mike1 mike1 (, ) Στα πειράματα που θα παρουσιάσουμε θα χρησιμοποιήσουμε τόσος super όσο και sub Gaussian πηγές και θα παρατηρήσουμε τις συμπεριφορές των διάφορων μεθόδων, στα σετ δεδομένων που καλούνται να αντιμετωπίσουν σε κάθε περίπτωση. Οι πηγές που θα χρησιμοποιηθούν θα παρουσιάζουν διαφορετικό βαθμό nongaussianity και ως αποτέλεσμα διαφορετικό βαθμό δυσκολίας για εξαγωγή τους μέσα από τον ICA. Στον παρακάτω πίνακα φαίνονται τα διάφορα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

113 Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου είδη πηγών που θα χρησιμοποιήσουμε καθώς και οι τιμές της κύρτωσης τους για να δούμε πόσο καλά μπορούν να μοντελοποιήσουν ως supergaussian ή subgaussian. Table 17.2 Τιμές κύρτωσης για τους διαφορετικούς τύπους πηγών τύπος πηγής Τιμή κανονικοποιημένη κύρτωσης Laplacian πηγή Πηγή ημιτόνου Τετραγωνικός παλμός Πηγή τυχαίας κατανομής Τετράγωνο πηγές τυχαίας κατανομής Τριγωνικός παλμός Παρακάτω φαίνονται τα ιστογράμματα, η με άλλα λόγια το πλήθος δειγμάτων για συγκεκριμένο εύρος τιμών, που παρουσιάζουν τα παραπάνω σήματα: (α) (β) (γ) (δ) (ε) (ζ) Figure 53.1 Ιστογράμματα πηγών (α) Laplacian πηγή (β) Πηγή ημιτόνου (γ) Τετραγωνικός παλμός (δ) Πηγή τυχαίας κατανομής (ε) Τετράγωνο πηγές τυχαίας κατανομής (ζ) Τριγωνικός παλμός Μπορούμε να δούμε από τις τιμές του table 5.2 αλλά και από τα ιστογράμματα, ότι κάποιες πηγές μοντελοποιούνται καλύτερα ως super Gaussian ή sub Gaussian σε σχέση με άλλες. Στο πρώτο ιστόγραμμα για παράδειγμα οι περισσότερες τιμές βρίσκονται σε μικρό εύρος κοντά στο κέντρο της κατανομής (super Gaussian), ενώ αντίθετα στο δεύτερο ιστόγραμμα παρατηρούμε βαριές ουρές (heavy tails) και μικρή συγκέντρωση τιμών στο κέντρο της κατανομής (sub Gaussian). Θα χρησιμοποιήσουμε αυτήν την πληροφορία για αν παραμετροποιήσουμε τις μεθόδους μας κατάλληλα, ώστε να μπορούν να επιλέγουν τις αντίστοιχες συναρτήσεις g() για τα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

114 Διαχωρισμός Ηχητικών Πηγών σε Περιβάλλον Πραγματικού Δωματίου κριτήρια τους, όπως έχουμε αναλύσει στο δεύτερο κεφάλαιο. Μπορούμε γενικά να κάνουμε κάτι τέτοιο, αφού σε πολλές πραγματικές εφαρμογές έχουμε κάποια γνώση για τον τύπο των ICs που θέλουμε να εξάγουμε. Ειδικά στην περίπτωση των ηχητικών δεδομένων στο πεδίο της συχνότητας, έχουμε δει ότι μπορούν να μοντελοποιηθούν ως ισχυρά Super Gaussian. Αναμένουμε από τώρα ότι ο ICA θα δώσει καλύτερα αποτελέσματα για ICs που είναι πιο nongaussianity. Τα σήματα που θα χρησιμοποιηθούν έχουν την παρακάτω μορφή στο χρόνο: Figure 54.2 Κυματομορφές πηγών (α) Laplacian πηγή (β) Πηγή ημιτόνου (γ) Τετραγωνικός παλμός (δ) Πηγή τυχαίας κατανομής (ε) Τετράγωνο πηγές τυχαίας κατανομής (ζ) Τριγωνικός παλμός Θα χρησιμοποιήσουμε συνολικά 7 μεθόδους για να κάνουμε τον διαχωρισμό μέσω του ICA. Οι μέθοδοι αυτοί είναι : Table 18.3 Παραλλαγές ICA που θα χρησιμοποιηθούν ICA με kurtosis maximization (natural gradient algorithm) symmetric orthogonalization ICA με likelihood maximization (natural gradient algorithm) - symmetric orthogonalization FastICA με likelihood maximization (fixed point algorithm) - symmetric orthogonalization FastICA με kurtosis maximization (fixed point algorithm) - symmetric orthogonalization FastICA με negentropy maximization (fixed point algorithm) - symmetric orthogonalization RobustICA (prewhitenning) deflationary orthogonalization RobustICA (no prewhitenning) deflationary regression Όλες αυτές οι μέθοδοι έχουν αναλυθεί στο κεφάλαιο 2 ενώ δίνονται στο appendix οι υλοποιήσεις τους σε matlab, τόσο για symmetric orthogonalization όσος και για deflationary orthogonalization. Ακόμα θα χρησιμοποιήσουμε και τις gradient εκδοχές των αλγορίθμων για τα κριτήρια της κύρτωσης και του ML, ώστε να δούμε της βελτίωση στην ταχύτητα σύγκλησης που θα παρουσιάσει ο FastICA. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

115 Κάποιοι βασικοί παράμετροι για τα πειράματα που θα διεξάγουμε είναι οι παρακάτω: Table 19.4 Παράμετροι πειραμάτων Πλήθος παρατηρήσεων Διάσταση προβλήματος (2-2 πρόβλημα) - (3-3 πρόβλημα) - (4-4 πρόβλημα) Κριτήριο τερματισμού σύγκλισης 10-5 Learning rate (για τις gradient methods) Πειράματα Παρακάτω παρουσιάζουμε τα αποτελέσματα των πειραμάτων που πραγματοποιήσαμε για τις διάφορες παραλλαγές του ICA. Για κάθε πείραμα δίνουμε τον τύπο των πηγών που συμμετείχαν στην μίξει, την ποιότητα εξαγωγής των ICs βάση της μετρικής SMSE, καθώς και τον χρόνο εκτέλεσης και αριθμό επαναλήψεων που απαιτήθηκε. Πείραμα 1 (2 πηγές 2 μικρόφωνα) Table 20.5 Είδη πηγών (Πείραμα 1) Source 1 Laplacian πηγή Source 2 Laplacian πηγή Table 21.6 Αποτελέσματα (Πείραμα 1) ICA method SMSE(dB) Number of CPU time(sec) iterations ICA kurtosis (natural gradient ) ICA likelihood (natural gradient ) FastICA kurtosis (fixed point ) FastICA kurtosis (fixed point) FastICA negentropy (fixed point ) RobustICA (prewhitenning) RobustICA (no prewhitenning) Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

116 Πείραμα 2 (2 πηγές 2 μικρόφωνα) Source 1 Source 2 Table 22.6 Είδη πηγών (Πείραμα 2) Τετράγωνο πηγές τυχαίας κατανομής Τριγωνικός παλμός Table 23.7 Αποτελέσματα (Πείραμα 2) ICA method SMSE(dB) Number of CPU time(sec) iterations ICA kurtosis (natural gradient ) ICA likelihood (natural gradient ) FastICA kurtosis (fixed point ) FastICA kurtosis (fixed point) FastICA negentropy (fixed point ) RobustICA (prewhitenning) RobustICA (no prewhitenning) Για να δούμε και οπτικά το πόσο ικανοποιητικό είναι το αποτέλεσμα της εξαγωγής για το πείραμα αυτό, δίνεται το παρακάτω σχήμα για το IC που αναφέρεται στην τριγωνική πηγή Figure 55.3 Σύγκριση εκτίμησης της τριγωνικής με την πραγματική πηγή, για τον πρώτο αισθητήρα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

117 Πείραμα 3 (3 πηγές 3 μικρόφωνα) Source 1 Source 2 Source 3 Table 24.8 Είδη πηγών (Πείραμα 3) Τετράγωνο πηγές τυχαίας κατανομής Πηγή ημιτόνου Πηγή τυχαίας κατανομής Table 25.9 Αποτελέσματα (Πείραμα 3) ICA method SMSE(dB) Number of iterations CPU time(sec) ICA kurtosis (natural gradient ) ICA likelihood (natural gradient ) FastICA likelihood (fixed point ) FastICA kurtosis (fixed point) FastICA negentropy (fixed point ) RobustICA (prewhitenning) RobustICA (no prewhitenning) Πείραμα 4 (4 πηγές 4 μικρόφωνα) Table Είδη πηγών (Πείραμα 4) Source 1 Laplacian πηγή Source 2 Laplacian πηγή Source 3 Πηγή τυχαίας κατανομής Source 4 Τετραγωνικός παλμός Table Αποτελέσματα (Πείραμα 4) ICA method SMSE(dB) Number of iterations CPU time(sec) ICA kurtosis (natural gradient ) ICA likelihood (natural gradient ) FastICA likelihood (fixed point ) FastICA kurtosis (fixed point) FastICA negentropy (fixed point ) RobustICA (prewhitenning) RobustICA (no prewhitenning) Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

118 Και μια απεικόνιση του IC που αναφέρεται στον τετραγωνικό παλμό: Figure 56.4 Σύγκριση εκτίμησης του τετραγωνικού παλμού με την πραγματική πηγή, για τον πρώτο αισθητήρα Σχολιασμός αποτελεσμάτων Για τα αποτελέσματα των πειραμάτων που παρουσιάζονται στους πίνακες, μπορούμε να κάνουμε τις παρακάτω παρατηρήσεις Οι FastICA αλγόριθμοι είναι σημαντικά πιο γρήγοροι σε σχέση με τις gradient μεθόδους. Σε όλες σχεδόν τις περιπτώσεις των πειραμάτων που εξετάζουμε ο αριθμό των επαναλήψεων που απαιτούν είναι μια τάξη μεγέθους χαμηλότερος. Για την ακρίβεια των FastICA σε σχέση με αυτή των gradient, μπορούμε να πούμε πως και τα 2 είδη μεθόδων είναι ικανά να πετύχουν ικανοποιητικά αποτελέσματα. Φαίνεται ότι το κριτήριο της negentropy είναι το πιο αποτελεσματικό για FastICA στα προβλήματα που εξετάζουμε. Σε όλες τις περιπτώσεις είναι ικανή να δώσει ικανοποιητικά αποτελέσματα έχοντας της βέλτιστες επιδόσεις από πλευράς ταχύτητας εκτέλεσης και επαναλήψεων και ποιότητας διαχωρισμού. Επαληθεύεται λοιπόν η θεωρητική ανάλυση σύμφωνα με την οποία το negentropy υπερέχει σε διάφορα σημεία σε σχέση με το κριτήριο της κύρτωσης. Όσο αυξάνεται η τάξη του προβλήματος, τόσο πιο απαιτητικό γίνεται το πρόβλημα για τον ICA. Στους πίνακες των αποτελεσμάτων φαίνεται πως όλες οι μέθοδοι επιστρέφουν χαμηλότερες ποιότητες διαχωρισμού για μεγάλο πλήθος ICs, ενώ ο αριθμός των επαναλήψεων που χρειάζονται για να συγκλίνουν αυξάνεται αρκετά. Στο figure 5.4, μπορούμε να δούμε και οπτικά, ότι η κυματομορφή του τετραγωνικού παλμού, φέρει σημαντικό θόρυβο από παρεμβολές άλλων πηγών, γεγονός που δεν ισχύει για την περίπτωση του figure 5.3, που αναφέρεται σε πρόβλημα με μικρότερο αριθμό πηγών, και εκεί η παρεμβολές που εμφανίζονται στην κυματομορφή είναι αισθητά λιγότερες. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

119 Σημαντικό ρόλο διαδραματίζει και το πόσο nongaussian είναι οι πηγές που βρίσκονται στο μείγμα. Όπως έχουμε πει και στην θεωρία, ο ICA εκμεταλλεύεται την ισχυρή μη κανονικότητα, η με άλλα λόγια για ισχυρές μη κανονικότητες δημιουργούνται πιο ευρεία τοπικά μέγιστα στις συναρτήσεις των κριτηρίων, με αποτέλεσμα ο αλγόριθμος να εξάγει πιο γρήγορα και σταθερά αποτελέσματα. Αυτός είναι ο λόγος που στην περίπτωση του πρώτου πειράματος ο αλγόριθμος συγκλίνει πολύ γρήγορα και με καλή ποιότητα διαχωρισμού σε αντίθεση με το δεύτερο (εκεί από τις κυρτώσεις των πηγών μπορούμε να δούμε ότι είναι λιγότερο nongaussian). Στην μορφή που τον έχουμε υλοποιήσει το FastICA με ML, αντιμετωπίζει πρόβλημα όταν έχουμε σε ένα μείγμα και supergaussian και subgassian components. Αυτό συμβαίνει γιατί δεν εκτιμά σε ένα τα διανύσματα w, αλλά τον συνολικό πίνακα διαχωρισμού W. Κατά συνέπεια όταν έχουμε ICs διαφορετικής φύσης, ο αλγόριθμος είναι αναγκασμένος να χρησιμοποιεί μια συνάρτηση g() που όμως δεν μοντελοποιεί σωστά όλα τα δεδομένα. Ακόμα και με την χρήση των παραμέτρων προσαρμογής α και D, δεν μπορεί να ξεπεραστεί το πρόβλημα. Θα μπορούσαμε πιθανός να σπάσουμε με κάποιον τρόπο τον αλγόριθμος σε υπολογισμό w, αλλά δεν θα το κάνουμε γιατί η παρατήρηση αυτή δεν μας δημιουργεί πρόβλημα στην συνέχεια της εργασία καθώς όπως έχουμε αναφέρει τα δεδομένα στο frequency domain όπου και θα κληθούμε να αντιμετωπίσουμε τα convolutive mixtures μπορούν να μοντελοποιηθούν ως ισχυρά non Gaussian. Οι RobustICA αλγόριθμοι λειτουργούν πολύ ικανοποιητικά. Σε όλα τα πειράματα που εξετάσαμε, οι ποιότητες διαχωρισμού που δίνουν είναι πάντα μέσα στις καλύτερες ενώ η μέθοδος είναι αρκετά γρήγορη, αφού σε σχεδόν όλες τις περιπτώσεις παρουσιάζει της μεγαλύτερες ταχύτητες σύγκλησης και εκτέλεσης. Το αποτέλεσμα αυτό είναι ενθαρρυντικό για τα επόμενα πειράματα που θα χρησιμοποιήσουμε τους αλγόριθμους αυτούς για τα convolutive προβλήματα. Ο RobustICA χωρίς την χρήση prewhitenning φαίνεται να είναι ελαφρός πιο αργή μέθοδος για τα πειράματα που εξετάσαμε όταν αυξάνεται ο αριθμός των πηγών. Αυτό μπορεί να οφείλεται στο ότι λόγω της ελλείψεις ορθογωνιοποίησης των διανυσμάτων για κάθε IC, είναι αναγκασμένος να ξεκινά την αναζήτηση από ένα τυχαίο w, ενώ στην υλοποίηση με whitening λόγω του ότι τα διανύσματα είναι ορθογώνια μεταξύ τους μπορεί να έρχεται σε κάθε επανάληψη όλο τo σύστημα πιο κοντά στα σωστά IC. Οι 2 μέθοδοι από της άλλη φαίνεται να επιτυγχάνουν την ίδια ακρίβεια πράγμα το οποίο είναι λογικό, αφού ουσιαστικά μεγιστοποιούν το ίδιο κριτήριο το οποίο στην περίπτωση του prewhitenning έχει απλός υποστεί κάποιες απλοποιήσεις. Πρέπει αν πούμε εδώ ότι ο Zarzoso αναφέρει [46] ότι ο RobustICA δουλεύει γενικά καλυτέρα για μικρά block sizes. Αυτό θα το δούμε και στα επόμενα πειράματα, όπου τα block sizes θα είναι τουλάχιστον μισά από αυτά που χρησιμοποιούσαμε σε αυτά τα πειράματα και με prewhitenning η χωρίς ο RobustICA, μπορούσε να πετύχει πολύ πιο γρήγορες λύσεις στα προβλήματα διαχωρισμού. Ο κύριος στόχος των πειραμάτων που παρουσιάσαμε παραπάνω είναι να συγκρίνουν τον RobustICA με τις κλασσικές υλοποιήσεις του FastICA. Μπορούμε να πούμε ότι αυτή η Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

120 καινούργια μέθοδος δίνει αρκετά ενθαρρυντικά αποτελέσματα για τα προβλήματα που περιέχουν instantaneous mixtures, αφού μπορεί να δώσει υψηλές ποιότητες διαχωρισμού ενώ συγκλίνει με μεγάλη ταχύτητα. Στην επόμενη παράγραφο, θα χρησιμοποιήσουμε τον RobustICA για να λύσουμε το πρόβλημα των Convolutive Mixtures, και θα τον συγκρίνουμε με τον FastICA, για να δούμε την απόδοση διαχωρισμού που μπορούν να δώσουν οι διαφορετικές μέθοδοι σε μιγαδικά δεδομένα, που προέρχονται από ηχητικής πηγές. 5.3 Πειράματα διαχωρισμού Convolutive mixtures Σκοπός αυτής της εργασίας είναι να μπορέσουμε να επιφέρουμε διαχωρισμό στην περίπτωση μειγμάτων που έχουν προκύψει μέσω ηχογράφησης σε πραγματικό δωμάτιο. Μέχρι τώρα έχουμε περιγράψει αναλυτικά όλες τις πτυχές του προβλήματος, ενώ έχουμε παρουσιάσει μεθόδους για να αντιμετωπίσουμε όλα τα υπό προβλήματα που προκύπτουν. Στην παράγραφο αυτή, θα συνδυάσουμε τις μεθόδους αυτές για να λύσουμε το πρόβλημα του διαχωρισμού σε ηχογραφήσεις πραγματικού δωματίου, ενώ θα κάνουμε χρήση κατάλληλων μετρικών για να δούμε σε τι ακρίβεια μπορούν αν λειτουργήσουν οι μέθοδοι μας. Πιο συγκεκριμένα, θα κάνουμε μετρήσεις για να προσδιορίσουμε πια παραλλαγή του ICA δίνει τα καλύτερα αποτελέσματα, κάτω από ποιες συνθήκες το beamforming μπορεί να βοηθήσει για καλύτερες ποιότητες διαχωρισμού, ενώ θα αξιολογήσουμε και την μέθοδο Reduced Likelihood Ratio Jump που προτείναμε. Στο τέλος της παραγράφου θα παρουσιάσουμε και τα βέλτιστα αποτελέσματα που μπορούμε να εξάγουμε ανά αριθμό πηγών, για της ηχογραφήσεις που εξετάζουμε Παραγωγή δεδομένων ηχογραφήσεων Για να μπορέσουμε να εφαρμόσουμε διαχωρισμό ηχητικών πηγών, έπρεπε αρχικά να έχουμε στην διάθεση μας κατάλληλα δεδομένα από ηχογράφηση πολλαπλών πηγών. Επιλέξαμε να μην εργαστούμε με κάποιο έτοιμο σετ δεδομένων αλλά να πραγματοποιήσουμε τις δικές μας ηχογράφησης σε περιβάλλον πραγματικού δωματίου. Ένας από τους λόγους για τους οποίους κάναμε αυτήν την επιλογή, είναι για να εξετάσουμε την ικανότητα μας να διαχωρίσουμε ηχητικές πηγές με χρήση της συσκευής Kinect της Microsoft. Το Kinect είναι μια προγραμματιζόμενη συσκευή αισθητήρων, που χρησιμοποιεί η Microsoft για την πλατφόρμα παιχνιδιών Xbox. Διαθέτει αισθητήρα βάθους, RGB κάμερα αλλά και συστοιχία τεσσάρων μικροφώνων, της οποίας και θα κάνουμε χρήση σε αυτήν την εργασία. Ακόμα η Microsoft παρέχει Software Development Kit (SDK) για το Kinect με αποτέλεσμα να μπορεί να χρησιμοποιηθεί από προγραμματιστές για πληθώρα εφαρμογών ενώ πλεονέκτημα αποτελεί η σχετικά χαμηλή τιμή του. Στην συγκεκριμένη εργασία, για να κάνουμε με αυτονομία τις ηχογραφήσεις που θα περιγράψουμε παρακάτω, θα συνδέσουμε το Kinect με την προγραμματιστική πλατφόρμα Matlab που μας δίνει πολλά περιθώρια κατάλληλης επεξεργασίας στο σήμα, πριν αυτό χρησιμοποιηθεί για τoν διαχωρισμό και της αξιολόγησης του, ενώ υπάρχει σχετική ευκολία στην διασύνδεση μέσω του toolbox DSP του Matlab. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

121 Εφόσον το Kinect διαθέτει 4 κανάλια, θα ασχοληθούμε με ηχογραφήσεις που θα περιέχουν έως και 4 πηγές αφού όπως έχουμε πει εξετάζουμε την περίπτωση ίσου αριθμού πηγών και μικροφώνων. Στο Kinect τα μικρόφωνα δεν είναι ισαπέχοντα, και κατά συνέπεια θα πρέπει να εξασφαλίσουμε όταν το χρησιμοποιούμε για την διαδικασία του beamforming, ότι αναθέτουμε τις σωστές αποστάσεις για τις μεθόδους που περιγράψαμε στο προηγούμενο κεφάλαιο. Ακόμα τα μικρόφωνα βρίσκονται σε σχετικά μικρές αποστάσεις της τάξεις των εκατοστών, γεγονός που επηρεάζει τις χρονικές καθυστερήσεις των κυματομορφών που καταγράφονται σε διπλανά μικρόφωνα, και αποκτά ενδιαφέρον να δούμε σε τι βαθμό μπορεί να δουλέψει η μέθοδος του beamforming στη συγκεκριμένη συσκευή αισθητήρων. Παρακάτω μπορούμε να δούμε μια κάτοψη του Kinect, στην οποία καταγράφεται η ακριβείς γεωμετρία των μικροφώνων. d k mike1 mike2 mike3 mike4 11.3cm 3.6cm 7.6cm 11.3cm Figure 57.5 Κάτοψη Kinect με ακριβής τοποθέτηση μικροφώνων στο χώρο Οι ηχογραφήσεις οι οποίες θα προσπαθήσουμε να διαχωρίσουμε σε αυτήν την εργασία λάβαν χώρα σε πραγματικό δωμάτιο διαστάσεων 5m μήκος, 3.5m πλάτος και 2.5m ύψος, ενώ ο χώρος περιέχει κα επίπλωση με αποτέλεσμα να αυξάνονται οι ανακλάσεις. Η ηχητικές πήγες που χρησιμοποιήθηκαν αντηχούσαν μέσω ηχείων υπολογιστή, τα οποία ήταν τοποθετημένα σε διάφορες αποστάσεις που κυμαίνονται από 1m έως 2.5m από το Kinect, ενώ σε όλες τις περιπτώσεις τα ηχεία «κοιτάνε» το Kinect ώστε η κύρια συνεισφορά του ηχητικού κύματος (Direct Link) να έρχεται κατευθείαν από το ηχείο. Ακόμα τα ηχεία και το Kinect βρίσκονται σε όλες τις περιπτώσεις στο ίδιο περίπου ύψος. Μια κάτοψη του χώρου λήψης μπορεί να δοθεί στο παρακάτω σχήμα. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

122 Height 2.5m Microphones are placed in this space in many diffrent positions 5m Figure 58.6 Κάτοψη Πραγματικού Δωματίου, όπου πραγματοποιήθηκαν οι ηχογραφήσεις Οι ηχογραφήσεις που κάναμε περιέχουν διάφορα είδη ηχητικών πηγών, ώστε να δούμε την δυνατότητα διαχωρισμού που προκύπτει σε κάθε περίπτωση. Θα ηχητικές πηγές που περιέχουν φωνή, μουσικά όργανα αλλά και σύνθετα μουσικά κομμάτια που αποτελούνται από περισσότερους του ενός ήχους. Ακόμα περιέχονται ηχογραφήσεις για τις περιπτώσεις 2-2, 3-3 και 4-4 πηγών μικροφώνων. Στην συνέχεια της παραγράφου θα παρουσιάσουμε μετρικές αξιολόγησης του διαχωρισμού. Όπως θα δούμε και τότε αναλυτικά, για να μπορέσουμε να μετρήσουμε την ποιότητα του διαχωρισμού θα πρέπει να συγκρίνουμε την πηγή όταν αυτή αναπαράγεται μονή της στο δωμάτιο και την εκτίμηση της πηγής που εξάγεται από την μίξει, μέσα από της μεθόδους που έχουμε περιγράψει στην εργασία αυτή. Κατά συνέπεια κατά τις ηχογραφήσεις μας δεν έχουμε καταγράψει μόνο την μίξει των πηγών αλλά και κάθε πηγή μόνη της ώστε να μπορούμε να διεξάγουμε μετρήσεις στη συνέχεια του κεφαλαίου. Ένα χαρακτηριστικό της διαδικασίας της καταγραφής του σήματος που πραγματοποιήσαμε στο πραγματικό δωμάτιο, είναι ότι υπάρχει μια χρονική καθυστέρηση μέχρι να εκκίνηση η διαδικασία της αναπαραγωγής. Στο παρακάτω παράδειγμά φαίνεται μια κυματομορφή ενός μουσικού κομματιού, όπως αυτό αναπαράγεται από τα ηχεία και όπως καταγράφεται από το Kinect. Παρατηρούμε ότι στην δεύτερη περίπτωση έχουμε ένα χρονικό διάστημα για το οποίο δεν έχουμε κάποια ηχητική καταγραφή στο δωμάτιο, λόγω της καθυστέρησης των ηχείων ως προς τα μικρόφωνα. Το χρονικό διάστημα αυτό μπορεί να δημιουργήσει πρόβλημα τόσο στην καταγραφή, αφού δεν υπάρχουν πηγές να διαχωριστούν, όσο και στην αξιολόγηση του αποτελέσματος από τις μετρικές, αφού είναι θόρυβος του μικροφώνου που υπάρχει και στις 2 πηγές. Για να λύσουμε αυτό το πρόβλημα, σε κάθε κυματομορφή που καταγράφουμε (αναφερόμαστε στην καταγραφή κάθε πηγές ξεχωριστά αλλά και στην μίξει τους στο δωμάτιο), επιλέγουμε ένα σημείο στο οποίο ξεκινά η αναπαραγωγή του ήχου και στην συνέχεια αφαιρούμε από όλες τις κυματομορφές ίσο αριθμό δειγμάτων από την αρχή, τόσα όσα αντιστοιχούν στην κυματομορφή στην οποία εμφανίζεται η μεγαλύτερη καθυστέρηση. H επιλογή των σημείων πάνω σε κάθε κυματομορφή μπορεί να γίνει εύκολα μέσω Matlab, αφού διατίθεται ρουτίνα ώστε Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

123 η επιλογή να μπορεί να γίνει απλά με το ποντίκι. Μέσω αυτής της τεχνικής, τόσο ο διαχωρισμός όσο και οι μετρικές αξιολόγησης που θα παρουσιαστούν αποκάτω βελτιώνονται x x 10 5 Figure 59.7 Κυματομορφή μουσικού κομματιού όπως αναπαράγεται από τα ηχεία Figure 60.8 Κυματομορφή μουσικού κομματιού όπως καταγράφεται από το Kinect Για να συνοψίσουμε, το σετ ηχογραφήσεων που κατασκευάσαμε περιέχει 13 ηχογραφήσεις. Οι ηχητικές πηγές που συμμετέχουν μπορεί να είναι ανθρώπινες φωνές, μουσικά όργανα η μουσικά κομμάτια, ενώ περιέχονται διάφορες τοπολογίες του auditory scene οι οποίες φαίνονται και αναλυτικά στο επόμενο σχήμα. Κάθε ηχογράφηση περιέχει, τόσο το μουσικό αρχείο της μίξεις αλλά και την κάθε πηγή ξεχωριστά, ηχογραφημένη στο ίδιο δωμάτιο από το ίδιο μικρόφωνο και γενικότερα κάτω από τις ίδιες συνθήκες, ώστε να μπορούμε να κάνουμε χρήση μετρικών για να αξιολογήσουμε τα αποτελέσματα μας. Όλες οι ηχογραφήσεις που περιγράφονται σε αυτήν την υποπαράγραφο, μπορούν να βρεθούν στην προσωπική σελίδα ( ). Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

124 voice voice voice voice voice music music music recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 Loud voice Loud Music voice music music voice music voice music voice recording_2x2_5 recording_2x2_6 recording_3x3_1 recording_3x3_2 voice voice voice voice voice voice music voice voice music voice recording_3x3_3 recording_3x3_4 music recording_3x3_5 music recording_4x4_1 piano Acoustic guitar voice saxophone recording_4x4_2 Figure 61.9 Περιγραφή χαρακτηριστικών, για τις 13 ηχογραφήσεις που κατασκευάσαμε Μετρικές αξιολόγησης ποιότητας διαχωρισμού Παρόλο που το πρόβλημα του διαχωρισμού ηχητικών πηγών είναι ένα καλά μελετημένο θέμα τα τελευταία χρόνια, η αξιολόγηση των αποτελεσμάτων των μεθόδων δεν είναι πάντα εύκολη, αφού οι μετρικές που έχουν προταθεί, δεν είναι πάντα κατάλληλες να εκτιμήσουν με ακρίβεια της ποιότητα του διαχωρισμού. Μερικές από τις πιο κοινές μετρικές είναι το Inter-Symbol Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

125 Interference [26] και οι μετρική D [27]. Οι μετρικές αυτές αποτιμούν την ποιότητα του διαχωρισμού, επιτρέποντας μόνο ασάφειες στο permutation και την ισχύ του εκτιμώμενου σήματος ενώ συγκρίνοντας το πραγματικό σήμα με την εκτίμηση του εκάστοτε αλγορίθμου, προσπαθούν να μετρήσουν το ποσό της παραμόρφωσης στην εξαγόμενης πηγής. Μερικοί από τους περιορισμούς που παρουσιάζουν είναι οι παρακάτω: Η μετρική D παίρνει τιμές σε ένα μικρό εύρος [0-2] με αποτέλεσμα σε περιπτώσεις που οι ποιότητες διαχωρισμού διαφέρουν αρκετά να παίρνει παραπλήσιες τιμές. Και οι 2 μετρικές εκτιμούν την ποιότητα διαχωρισμού μόνο με χρήση ενός μεγέθους που αναφέρεται στην παραμόρφωση, ενώ για πολλές εφαρμογές είναι επιθυμητό να μετράμε ξεχωριστά το ποσό της παρεμβολής μεταξύ των πηγών και ξεχωριστά άλλα είδη θορύβων όπως θόρυβος που εισάγεται από τον αλγόριθμο μας. Σε πολλές εφαρμογές είναι επιθυμητό να επιτρέπουμε κάποιο είδος παραμόρφωσης το οποίο δεν επιβαρύνει την ποιότητα του διαχωρισμού. Για την περίπτωση του διαχωρισμού φωνής για παράδειγμα, που εξετάζεται σε αυτήν την εργασία, ένα χαμηλοπερατό φιλτράρισμα στο σήμα που εκτιμά η μέθοδος μας είναι αποδεκτό αφού δεν μειώνει την ποιότητα του αποτελέσματος. Για αξιολόγηση των αποτελεσμάτων μας σε αυτήν την εργασία θα κάνουμε χρήση 3 μετρικών που προτείνονται στο [47] και είναι πλέον καθιερωμένες για την αξιολόγηση αποτελεσμάτων Audio Source Separation. Είναι οι Source to Distortion Ratio (SDR), Source to Interference Ratio (SIR), και Source to Artifacts Ratio (SAR). Source to Distortion Ratio (SDR) μετρά τον λόγο του επιθυμητού σήματος ως προς όλες τις παρεμβολές που προκύπτουν από τον διαχωρισμό. Source to Interference Ratio (SIR) μετρά το λόγο του επιθυμητού σήματος της πηγής, ως προς τις παρεμβολές που μπορεί να υπάρχουν από άλλες πηγές που βρίσκονται στην μίξει. Source to Artifacts Ratio (SAR) μετρά τον λόγο του σήματος όπως αυτό εξάγεται από τον αλγόριθμο μας, ως προς τον θόρυβο που εισάγει η επεξεργασία του αλγορίθμου μας σε αυτό. Στην συνέχει θα δούμε επιγραμματικά τον τρόπο με τον οποίον προκύπτουν αυτές οι μετρικές, μιας και η ανάλυση τους είναι αρκετά πολύπλοκή. Σε γενικές γραμμές η λογική τους είναι ότι κάνουμε αποδόμηση του σήματος που παράγει ο αλγόριθμος στα παρακάτω συστατικά στοιχεία: s s e e e με ˆj t arg et int erf noise artif Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

126 s : P sˆ t arg et s j j e : P sˆ P sˆ int erf s j s j j e : P sˆ P sˆ noise s, n j s j e : sˆ P sˆ artif j s, n j Όπου τα P s j, P sn,, P s είναι ορθογώνιες προβολές σε υποχώρους, οι οποίες έχουν επιλεγεί με τέτοιο τρόπο ώστε να επιτρέπουν στο σήμα που εξάγει ο αλγόριθμος μας, μια παραμόρφωση που σχετίζεται με το φιλτράρισμα του (Time invariant filters allowed distortions). Όπως είπαμε στο σήμα φωνής αλλά και μουσικής, ένα χαμηλοπερατό φιλτράρισμα δεν μειώνει την ποιότητα του διαχωρισμού και για αυτό το λόγο, η μετρικές αυτές, είναι ειδικά κατασκευασμένες ώστε να το επιτρέπουν χωρίς να επηρεάζει τα αποτελέσματά τους. Εφόσον έχουμε διασπάσει το σήμα με τον τρόπο που περιγράψαμε παραπάνω, μπορούμε να ορίσουμε της μετρικές απόδοσης σαν λόγους ενεργειών των διαφόρων συστατικών στοιχείων του σήματος. Οι μετρικές δίνονται από τους παρακάτω τύπου ενώ τα αποτελέσματα είναι σε decibels (db). SDR : 10 log SIR : 10log s t arget 10 2 s e e e int erf noise artif t arget e int erf s e e SAR : 10 log 10 2 e t arg et int erf noise artif 2 2 Κάποιες παρατηρήσεις που μπορούμε να κάνουμε για τις παραπάνω μετρικές που θα χρησιμοποιήσουμε στην συνέχεια είναι οι παρακάτω: Οι μετρικές είναι Time invariant, πράγμα που πρακτικά σημαίνει ότι δίνουμε μια δυνατότητα χρονική καθυστέρησης του πραγματικού σήματος σε σχέση με αυτό που παράγει ο αλγόριθμος. Στο μοντέλο ακόμα θεωρούν ότι το σύστημα κάνει την παρακάτω συνέλιξη : L1 s ( t) h( ) s ( t ) t arg et j 0 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ όπου τ είναι η επιτρεπόμενη χρονική καθυστέρηση. Αυτή τη τιμή ουσιαστικά μοντελοποιεί, εκτός από χρονικές καθυστερήσεις και την απόκριση του δωματίου. Η default τιμή αυτής της καθυστέρησης είναι 512 δείγματα, τιμή αρκετά μικρή για να μοντελοποίηση τόσο δωμάτιο όσο και τις χρονικές καθυστερήσεις που μπορεί να έχουν

127 οι διαφορετικές ηχογραφήσεις μας, μιας και δεν κάνουμε χρήση εξοπλισμού μεγάλης ακρίβειας. Στην συνέχεια θα χρησιμοποιήσουμε μεγαλύτερες τιμές για να βελτιώσουμε τα αποτελέσματα των μετρικών. Οι μετρικές αυτές δεν κάνουν καμία παραδοχή για τον τύπο του συστήματος διαχωρισμού που εφαρμόστηκε. Ως αποτέλεσμα να είναι πιο καθολικές στην εφαρμογή τους, σε αντίθεση με προηγούμενες μετρικές. Όλες οι μετρικές παίρνουν τιμές στο εύρος [, ] Στη συνέχεια της εργασίας θα αξιολογήσουμε της διάφορες μεθόδους που έχουμε αναπτύξει μέσω πειραμάτων, με χρήση των δεδομένων από τις ηχογραφήσεις που πραγματοποιήσαμε σε περιβάλλον πραγματικού δωματίου. Θα ασχοληθούμε με ηχογραφήσεις που περιέχουν 2, 3 αλλά και 4 πηγές στο auditory scene. Ακόμα θα συγκρίνουμε τις διάφορες μεθόδους, τόσο για το πρόβλημα του διαχωρισμού μέσω του ICA framework, όσο και για την αποτελεσματικότητα του Beamforming και του Reduced Likelihood Ratio Jump, στην αντιμετώπιση του Permutation Ambiguity Πειράματα για Προσδιορισμό πιο αποτελεσματικής παραλλαγής του ICA Όσα αναφορά τον διαχωρισμό των ηχητικών πηγών, στην εργασία αυτή έχουμε εξετάσει την καινούργιά τεχνική του RobustICA για τον διαχωρισμό των και την εξαγωγή των ICs διαφορετικών frequency bins. Όπως είδαμε και στα πειράματα που περιλαμβάνουν instantaneous mixtures, o RobustICA δίνει ενθαρρυντικά αποτελέσματα αφού παρέχει υψηλές ποιότητες διαχωρισμού, ενώ συγκλίνει σε πιο μικρό αριθμό επαναλήψεων σε σχέση με την πιο συνηθισμένη τακτική του FastICA. Στην συνέχεια της παραγράφου θα συγκρίνουμε τις 3 παρακάτω μορφές του ICA για να δούμε πια μπορεί να δώσει τα καλύτερα αποτελέσματα στο πρόβλημα του διαχωρισμού convolutive mixtures που έχουν ηχογραφηθεί σε πραγματικό δωμάτιο. Table Παραλλαγές ICA που θα εξετάσουμε για τον διαχωρισμό Convolutive Mixtures Όνομα μεθόδους Robust ICA without prewhitenning Robust ICA with prewhitenning FastICA with prewhitenning Συντομογραφία RobustICA-NW RobustICA-W FastICA Πριν πραγματοποιήσουμε τα πειράματα για τον προσδιορισμό τις ακρίβειας των διαφορετικού αλγορίθμου στο πρόβλημα του διαχωρισμού, μια παράμετρος που πρέπει να προσδιορίσουμε είναι ο αριθμός των frequency bins που θα χρησιμοποιήσουμε (Number of FFT Frames ή NFFT). Ο σωστός προσδιορισμός του NFFT, είναι αρκετά σημαντικός γιατί ουσιαστικά μοντελοποιεί την απόκριση του δωματίου. Ένα δωμάτιο που δεν περιλαμβάνει μεγάλο αριθμό ανακλάσεων μπορεί να μοντελοποιηθεί καλύτερα με ένα μικρό NFFT, ενώ αντίθετα όσο περισσότερες είναι οι ανακλάσεις ή Reverb που εισάγει το δωμάτιο, τόσο πιο αποτελεσματικές είναι μεγαλύτερες τιμές NFFT. Υπάρχουν τεχνικές για να προσδιορίσει κανείς το μέγεθος του Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

128 NFFT που είναι κατάλληλο για διαφορετικές, αλλά στην εργασία αυτή δεν θα εμβαθύνουμε σε αυτό το πρόβλημα και θα πραγματοποιήσουμε εμπειρική επιλογή του NFFT SIR(db) -6 SIR(db) NFFT NFFT Figure Ποιότητα διαχωρισμού μετρημένη μέσο του SIR, για 2 πηγές που εξάγονται από μια μίξει, συναρτήσει διαφορετικών τιμών NFFT Στο παραπάνω σχήμα βλέπουμε τις τιμές του SIR συναρτήσει διαφορετικών μηκών NFFT για τις 2 πηγές που εξάγονται από μια μίξει, που πραγματοποιήσαμε στο εξεταζόμενο δωμάτιο. Παρατηρούμε ότι δεν υπάρχει ένα κοινό μέγιστο και για τις 2 κυματομορφές και γενικά μια σωστή επιλογή για το NFFT δεν αρκεί μόνο να λάβει υπόψιν την γεωμετρία του δωματίου αλλά και άλλα χαρακτηριστικά του auditory scene, όπως σε τι θέσεις είναι τοποθετημένα τα ηχεία και τα μικρόφωνα, σε τι γωνίες βρίσκονται το ένα ως προς το άλλο, ακόμα και με ποια ένταση ηχούν οι πηγές. Στην εργασία αυτή θα χρησιμοποιήσουμε για το NFFT την τιμή 4000 για το πραγματικό δωμάτιο που εξετάζουμε. Αυτή η επιλογή δίνει ικανοποιητικά αποτελέσματα στα πειράματα που πραγματοποιούμε. Στο παράδειγμα του figure 5.10 βλέπουμε επίσης ότι γύρω από την τιμή 4000 παίρνουμε αποδεκτά αποτελέσματα και για τις 2 πηγές. Στο πρώτο πείραμα που θα παρουσιάσουμε, θα συγκρίνουμε τους τρείς διαφορετικούς αλγορίθμους ICA για το πρόβλημα του διαχωρισμού, με την χρήση των μετρικών που παρουσιάσαμε. Η κύρια παράμετρος του πειράματος αυτού θα είναι ο επιτρεπόμενος αριθμός επαναλήψεων. Πιο συγκεκριμένα θα πραγματοποιήσουμε τα πειράματα για 5, 20, 50 επαναλήψεις του αλγορίθμου και θα δούμε σε ποιες περιπτώσεις παίρνουμε τα καλύτερα αποτελέσματα. Μια τελική παρατήρηση που θα κάνουμε είναι ότι θα ρυθμίσουμε την παράμετρο του επιτρεπτού delay για την παραγωγή των μετρικών μας στο 2000 από το 512 που είναι το default. Όπως είπαμε στην προηγούμενη παράγραφο, αυτές οι μετρικές είναι time invariant και δίνουν την δυνατότητα ενός ανεκτού delay ανάμεσα στην κυματομορφή που παράγει ο αλγόριθμος μας και στην πραγματική, το οποίο λόγω λαθών κατά τις ηχογραφήσεις που πραγματοποιήσαμε μπορεί να είναι αυξημένο. Συνολικά οι παράμετροι που επιλέξαμε για το συγκεκριμένο πρόβλημα είναι οι παρακάτω: Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

129 Table Παράμετροι πρώτου πειράματος για προσδιορισμό πιο αποτελεσματικής ICA μεθόδου NFFT 4000 Overlapping frames for STFT 0.75% Permutation ambiguity resolving method Likelihood Ratio Jump Scale ambiguity resolving method Mapping back to microphones domain Iteration for likelihood jump 20 τ value 2000 Στο πρώτο αυτό πείραμα, αντιμετωπίζουμε όλα τα permutations με την μέθοδο του Likelihood Ratio Jump, που είναι και η πιο καλά θεμελιωμένη, και στην συνέχεια εφόσον προσδιορίσουμε την καταλληλότερη ICA μέθοδο, θα εξετάσουμε περεταίρω της διαφορετικές τακτικές αντιμετώπισης του Permutation Ambiguity. Στους παρακάτω πίνακες θα δούμε τις τιμές των τριών μετρικών για τις ηχογραφήσεις του dataset, για την περίπτωση 5, 20, 50 επαναλήψεων για της εξεταζόμενες μεθόδους. Table Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (5 επαναλήψεις) RobustICA NW RobustICA - W FastICA SDR SIR SAR SDR SIR SAR SDR SIR SAR recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source Table Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (5 επαναλήψεις) recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 RobustICA-NW RobustICA-W FastICA Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

130 Table Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (20 επαναλήψεις) RobustICA NW RobustICA - W FastICA SDR SIR SAR SDR SIR SAR SDR SIR SAR recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source Table Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (20 επαναλήψεις) recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 RobustICA-NW RobustICA-W FastICA Table Αποτελέσματα διαχωρισμού για τις διαφορετικές μεθόδους του ICA (50 επαναλήψεις) RobustICA NW RobustICA - W FastICA SDR SIR SAR SDR SIR SAR SDR SIR SAR recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source2 Source1 Source Table Χρόνος εκτέλεσης για τις διαφορετικές μεθόδους του ICA (50 επαναλήψεις) recording_2x2_1 recording_2x2_2 recording_2x2_3 recording_2x2_4 recording_2x2_5 recording_2x2_6 RobustICA-NW RobustICA-W FastICA Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

131 Επιλέξαμε να χρησιμοποιήσουμε τα παραδείγματα 2 πηγών για να αξιολογήσουμε πια ICA μέθοδος είναι καλύτερη, εφόσον οι αποδόσεις των αλγορίθμων ακολουθούν την ίδια συμπεριφορά και για περισσότερες πηγές. Οι ηχογραφήσεις με 3 και 4 πηγές θα χρησιμοποιηθούν για να αξιολογήσουμε στα πειράματα που ακολουθούν, την αποτελεσματικότητα των διάφορων μεθόδων σχετικά με το permutation ambiguity. Να αναφέρουμε ακόμα ότι οι απόδοση μιας μεθόδου μπορεί να συγκριθεί μόνο με μια άλλη μέθοδο για τη ίδια ηχογράφηση, και όχι με διαφορετική ηχογράφηση αφού τα ηχητικά κομμάτια που χρησιμοποιούμε είναι διαφορετικού μεγέθους και κατά συνέπεια δεν μπορούν να αξιολογηθούν στην ίδια κλίμακα από της μετρικές μας οι οποίες όπως έχουμε πει επηρεάζονται από τον αριθμό δειγμάτων. Κάποιες παρατηρήσεις που μπορούμε να κάνουμε για τα αποτελέσματα είναι οι παρακάτω: Ο RobustICA χωρίς prewhitenning φαίνεται να δίνει συγκριτικά με τις άλλες μεθόδους, τα καλύτερα αποτελέσματα. Για της μετρικής SIR, που μετρά τις παρεμβολές που παραμένουν από την μία πηγή στην άλλη, σε όλες της περιπτώσεις φαίνεται να παίρνει καλύτερα αποτελέσματα από τις άλλες 2 μεθόδους. Η παρατήρηση γίνεται και από τον Zarzozo στην εργασία που τον παρουσιάζει, αφού την θεωρεί την πιο αποτελεσματική μορφή της μεθόδου ειδικά για μικρά μήκη frames όπως το μήκος 4000 που χρησιμοποιούμε σε αυτήν την εργασία. Μπορεί στην προηγούμενη παράγραφο που εξετάζαμε τα Instantaneous Mixtures, να παίρναμε την ίδια απόδοση όταν χρησιμοποιούσαμε τον RobustICA, με ή χωρίς prewhitenning, αλλά στην περίπτωση των ηχητικών δεδομένων τα πράγματα φαίνεται ότι είναι πιο περίπλοκα. H αποφυγή του prewhitenning μπορεί να δώσει καλύτερα αποτελέσματα [25]. To prewhitenning γενικά αποτελεί έναν περιορισμό όλων των μεθόδων ICA, που μπορούν να αντιμετωπίσουν μόνο μετασχηματισμένων δεδομένων και όχι τα πραγματικά, με αποτέλεσμα να εισάγει όριο στην απόδοση που μπορεί να επιτύχει η μέθοδος. Και οι 2 μορφές του RobustICA χρειάζονται πολύ μικρό αριθμό επαναλήψεων για να συγκλίνουν στα μέγιστα δυνατά αποτελέσματα. Παρατηρούμε ότι ήδη, από τις 5 επαναλήψεις έχουμε σχεδόν την μέγιστη ακρίβεια που μπορούμε να επιτύχουμε, η οποία αυξάνεται ανεπαίσθητα όσο αυξάνονται οι επαναλήψεις. Κάτι τέτοιο δεν συμβαίνει για τον FastICA, o οποίος θέλει μεγαλύτερο αριθμό επαναλήψεων για να δώσει σταθερά αποτελέσματα. Χαρακτηριστικό είναι το παράδειγμα του recording_2x2_2 για το οποίο στις 5 επαναλήψεις έχουμε SIR [source1: source2: -5.27], το οποίο για 50 επαναλήψεις έχει γίνει [source1: source2: 6.25] Ένα ενδιαφέρον φαινόμενο μπορούμε να παρατηρήσουμε την ηχογράφηση recording_2x2_1. Στην περίπτωση του RobustICA-NW η source1 που εξάγεται με την μεγαλύτερη ακρίβεια, ενώ αντίθετα για τον RobustICA-W καλύτερη ποιότητα διαχωρισμού έχουμε για την source2. Όσο αναφορά μάλιστα το FastICA, βλέπουμε ότι για μικρό αριθμό επαναλήψεων έχουμε μεγαλύτερη ακρίβεια στην source2 ενώ όσο αυξάνονται οι επαναλήψεις συγκλίνουμε στην source1 και η ποιότητα της source2 μειώνεται. Θεωρούμε ότι το φαινόμενο αυτό σχετίζεται με την μορφή του κριτηρίου που προσπαθούμε να μεγιστοποιήσουμε μέσω των διαφορετικών μορφών του ICA (τοπικά ακρότατα κ.λ.π). Το γεγονός ότι οι δύο RobustICA μέθοδοι συγκλίνουν σε ένα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

132 αποτέλεσμα αν και διαφορετικό μεταξύ τους, για μικρό αριθμό επαναλήψεων και παραμένουν σταθεροί όσο αυξάνονται οι επαναλήψεις είναι μια ένδειξη ότι ως μέθοδοι είναι πιο Robust από τον FastICA και κατά συνέπεια η χρήση τους είναι ευεργετική σε προβλήματα audio separation. Η κύρια μετρική που θα μας απασχολήσει μέχρι τώρα στην εργασία είναι το SIR το οποίο μετρά το ποσοστό παρεμβολών που εμφανίζουν οι μη επιθυμητές πηγές στην εξαγόμενη πηγή. Οι άλλες 2 μετρικές μετράνε την ποιότητα του διαχωρισμού και όπως βλέπουμε από τα αποτελέσματα το μέτρο τους παρουσιάζει μια πολύ ασθενής βελτίωση όσο αυξάνονται οι επαναλήψεις. Ακόμα μπορούμε να πούμε ασχέτως την μέθοδο που θα επιλέξουμε παίρνουμε παρόμοιες τιμές για τα SDR,SAR. Μια τελική παρατήρηση που μπορούμε να κάνουμε είναι ότι τα μεγέθη SDR και SAR, παίρνουν πολύ χαμηλές τιμές η οποίες σε κάποια παραδείγματα μπορεί να είναι ακόμα και κάτω από -20 db. Οι τιμές αυτές εκ πρώτης όψεως δεν φαίνονται αποδεκτές και φανερώνουν μια πολύ κακής ποιότητας ανάκτηση του σήματος. Όταν ακούμε όμως το ηχητικό αποτέλεσμα ήμαστε αρκετά ευχαριστημένη με την ποιότητα του ήχου που προκύπτει κατά το διαχωρισμό. Το γεγονός αυτό μπορεί να εξηγηθεί για άλλη μια φορά από την μοντελοποίηση των ίδιων των μετρικών αξιολόγησης των αποτελεσμάτων. Όπως έχουμε αναφέρει η τιμή του τ είναι στον default 512. Αυτή τη τιμή ουσιαστικά μοντελοποιεί, εκτός από την επιτρεπτή καθυστέρηση και την απόκριση του δωματίου και η τιμή 512 είναι αρκετά μικρή για να δώσει σωστά αποτελέσματα. Εμείς στα πειράματα μας χρησιμοποιούμε απόκριση 4000 δείγματα. Λόγω αυτού του φαινομένου λοιπόν τα αποτελέσματα μας παίρνουν τόσο χαμηλές τιμές. Στο παρακάτω παράδειγμα μπορούμε να δούμε το αποτέλεσμα των μετρικών για την αξιολόγηση του διαχωρισμού της ηχογράφησης recording_3x3_3 που εξήγαγε ο αλγόριθμος μας για διαφορετικές τιμές του τ. Table Τιμές μετρικών αξιολόγησης για τις 3 πηγές του recording_3x3_3 συναρτήσει του τ. τ value SDR SIR SAR Source Source Source Παρατηρούμε ότι τα αποτελέσματα είναι σαφώς βελτιωμένα όσο αυξάνεται το μέγεθος της μεταβλητής τ. Ειδικά στην περίπτωση του source1, από το -19 db για τ=512, φτάνουμε στα -4 db για τ=8000. Καταλήγουμε ότι οι μετρικές που χρησιμοποιούμε εξαρτώνται σε μεγάλο βαθμό από το είδος του προβλήματος, την ακρίβεια της ηχογράφησης και την δομή του auditory scene, και κατά συνέπεια θα της χρησιμοποιήσουμε για να συγκρίνουμε διαφορετικές μεθόδους κάτω από τις ίδιες συνθήκες, και όχι για να αξιολογήσουμε την ποιότητα του διαχωρισμού προσπαθώντας να επιτύχουμε κάποια συγκεκριμένη τιμή για κάποια από αυτές. Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

133 Τα τελικά συμπεράσματα που βγάζουμε από αυτό το πρώτο πείραμα είναι ότι ο RobustICA χωρίς prewhitenning είναι η πιο αποτελεσματική και σταθερή μέθοδος που εξετάζουμε, τόσο από πλευράς χρόνου όσο και από πλευράς απόδοσης διαχωρισμού. Κατά συνέπεια αυτή θα είναι και η μέθοδος που θα χρησιμοποιήσουμε στην συνέχεια της εργασίας για να πραγματοποιούμε το διαχωρισμό με χρήση του ICA framework. Όσα αναφορά της μεταβλητέ SDR και SAR, σε αυτή το πείραμα είδαμε τον τρόπο με τον οποίον λειτουργούν και δεν θα της παρουσιάζουμε παραπέρα αφού θα επικεντρωθούμε στην μετρική SIR που είναι αυτή που μας δίνει την πληροφορία που μας ενδιαφέρει σχετικά με την ποιότητα του διαχωρισμού. Ένα τελευταίο θέμα που πρέπει να προσδιορίσουμε είναι ο αριθμός των επαναλήψεων που θα επιτρέπουμε στην μέθοδο όσο αυξάνεται ο αριθμός των πηγών. Στον παρακάτω πίνακα μετρήσαμε την ποιότητα διαχωρισμού που επιφέραμε σε τρείς από της ηχογραφήσεις τριών πηγών της συλλογής. Γενικά παρατηρούμε ότι ελαφρός αυξημένος αριθμός επαναλήψεων μπορεί να είναι ευεργετικός στα εξεταζόμενα αυτά προβλήματα. Η παρατήρηση αυτή συνάδει και με το με την μελέτη των instantaneous mixtures, όπου και εκεί το ICA framework χρειάζονταν υψηλότερο αριθμό επαναλήψεων όσο αυξάνονταν οι πηγές. Η τακτική που θα ακολουθήσουμε από εδώ και πέρα όταν αντιμετωπίζουμε περισσότερες από 2 πηγές, είναι να χρησιμοποιούμε αριθμό επαναλήψεων της τάξης των μερικών δεκάδων. Table Απόδοση ICA framework για προβλήματα τριών πηγών, συναρτήσει του αριθμού των επαναλήψεων iterations Recording_3x3_1 Recording_3x3_2 Recording_3x3_ 5 Source Source Source Source Source Source Source Source Source Πειράματα για Προσδιορισμό αποτελεσματικότητας Beamforming Στο προηγούμενο κεφάλαιο παρουσιάσαμε αναλυτικά μια τεχνική για την αντιμετώπιση του permutation ambiguity με χρήση channel modelling τεχνικών που στηρίζονται στο beamforming. Στην παράγραφο αυτή θα αξιολογήσουμε την χρησιμότητα αυτής της μεθόδου για διαφορετικούς αριθμούς πηγών αλλά και για διαφορετικές τοπολογίες του auditory scene. Όπως έχουμε αναφέρει το beamforming δεν μπορεί να χρησιμοποιηθεί για όλα τα frequency bins, αφού όσο αυξάνεται η συχνότητα τους, τόσο πιο πολλά μέγιστα παρουσιάζουν τα διαγράμματα των DOA που προκύπτουν από τον αλγόριθμο MuSIC, και κατά συνέπεια πρέπει να συνυπάρξει με άλλες μεθόδους για την αντιμετώπιση του permutation ambiguity. Στην παράγραφο αυτή θα Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

134 εξετάσουμε αν, και σε ποιες περιπτώσεις το beamforming σε συνδυασμό με το Likelihood Ratio Jump, δίνει καλύτερα αποτελέσματα από ότι η αποκλειστική χρήση του Likelihood Ratio Jump, και πως αυτό επηρεάζεται από τον αριθμό των επαναλήψεων που επιτρέπουμε στο Likelihood Ratio Jump. Η αξιολόγηση των αποτελεσμάτων θα γίνει με την μετρική SIR, ενώ η μεθοδολογία συνδυασμού των 2 μεθόδων περιγράφεται αναλυτικά στο προηγούμενο κεφάλαιο. Οι παράμετροι σύμφωνα με τους οποίους θα πραγματοποιήσουμε τα πειράματα μας σε αυτό το κεφάλαιο είναι οι παρακάτω: Table Παράμετροι δεύτερου πειράματος για αξιολόγηση Beamforming NFFT 4000 Overlapping frames for STFT 0.75% ICA method RobustICA no prewhitenning Scale ambiguity resolving method Mapping back to microphones domain Iteration for ICA algorithm (2 sources) 10 Iteration for ICA algorithm (3 sources) 40 Iteration for ICA algorithm (3 sources) 80 τ value 512 Παρακάτω παρουσιάζονται τα αποτελέσματα των πειραμάτων που διεξήγαμε για τις περιπτώσεις 2, 3 και 4 πηγών, στα οποία εξετάζουμε αν η προσθήκη του beamforming μπορεί να βοηθήσει την λύση του Permutation ambiguity, συναρτήσει των επαναλήψεων που επιτρέπουμε στο Likelihood Ratio Jump. Table Αποτελέσματα SIR, για ηχογραφήσεις 2 πηγών, με χρήση Likelihood Ratio Jump iterations Recording_2x2_1 Recording_2x2_2 Recording_2x2_3 Recording_2x2_4 Recording_2x2_5 Recording_2x2_6 3 Source Source Source Source Source Source Table Αποτελέσματα SIR, για ηχογραφήσεις 2 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming iterations Recording_2x2_1 Recording_2x2_2 Recording_2x2_3 Recording_2x2_4 Recording_2x2_5 Recording_2x2_6 3 Source Source Source Source Source Source Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

135 Table Αποτελέσματα SIR, για ηχογραφήσεις 3 πηγών, με χρήση Likelihood Ratio Jump iterations Recording_3x3_1 Recording_3x3_2 Recording_3x3_3 Recording_3x3_4 Recording_3x3_5 6 Source Source Source Source Source Source Table Αποτελέσματα SIR, για ηχογραφήσεις 3 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming iterations Recording_3x3_1 Recording_3x3_2 Recording_3x3_3 Recording_3x3_4 Recording_3x3_5 6 Source Source Source Source Source Source Table Αποτελέσματα SIR, για ηχογραφήσεις 4 πηγών, με χρήση Likelihood Ratio Jump iterations Recording_4x4_1 Recording_4x4_2 7 Source Source Source Source Source Source Source Source Table Αποτελέσματα SIR, για ηχογραφήσεις 4 πηγών, με χρήση Likelihood Ratio Jump σε συνδυασμό με Beamforming iterations Recording_4x4_1 Recording_4x4_2 7 Source Source Source Source Source Source Source Source Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

136 Για τα παραπάνω αποτελέσματα μπορούμε να κάνουμε τις ακόλουθες παρατηρήσεις. Για της απλές περιπτώσεις των 2 πηγών, φαίνεται ότι το likelihood ratio jump λειτουργεί πλήρως ικανοποιητικά και μέσα λίγες επαναλήψεις (7), είναι ικανό να λύσει το permutation ambiguity. Όταν περιέχονται μόνο 2 σήματα στην μίξει, τα χαρακτηριστικά των σημάτων είναι ξεκάθαρα και μπορούμε μέσω source modelling να πάρουμε γρήγορα τα σωστά αποτελέσματα. Στις περισσότερες ηχογραφήσεις η χρήση ή όχι, του beamforming φέρνεται να μην επιφέρει κάποια διαφορά ούτε στο αποτέλεσμα αλλά ούτε στον αριθμό των επαναλήψεων που απαιτείται από το likelihood ratio jump. Ειδικά στην περίπτωση του παραδείγματος recording_2x2_2, όταν πραγματοποιούμε beamforming εκκινούμε από χειρότερα αποτελέσματα τα οποία συγκλίνουν μετά από μικρό αριθμό επαναλήψεων για το Likelihood Ratio Jump. Εξαίρεση αποτελεί η ηχογράφηση recording_2x2_4 στην οποία, μέσω του beamforming έχουμε συγκλίνει στην τελική λύση από τις 3 κιόλας επαναλήψεις, ενώ ο αλγόριθμος που δεν εμπεριέχει το beamforming χρειάζεται 7 επαναλήψεις (μπορεί η αρχική λύση για το πρόβλημα recording_2x2_4 να δίνει καλύτερα αριθμητικά αποτελέσματα, αλλά δεν είναι αυτή για την οποία συγκλίνει το likelihood ratio jump). Καταλήγουμε ότι όταν περιέχονται μόνο 2 πηγές το beamforming είναι περιττό, αφού οι source modelling τεχνικές είναι ικανές να επιφέρουν ικανοποιητικό διαχωρισμό. Όσο αναφορά την περίπτωση όπου εμπεριέχονται 3 πηγές στο auditory scene, από τα αποτελέσματα μας φαίνεται ότι εφαρμογή του beamforming μπορεί να δώσει θετικά αποτελέσματα. Παρατηρούμε ότι για τις περιπτώσεις των 3 πρώτων ηχογραφήσεων η λύση η οποία εμπεριέχει beamforming δίνει βελτιωμένες τιμές για το SIR, σε σχέση αποκλειστική λύση μέσω likelihood ratio. Συμπεραίνουμε ότι όσο περισσότερα σήματα προστίθενται στην μίξει τόσο πιο δύσκολο γίνεται να λυθεί το permutation, μόνο με εκμετάλλευση των χαρακτηριστικών των σημάτων, και η επιπλέον γεωμετρική πληροφορία που εισάγει το beamforming, μπορεί να μας δώσει ένα διαχωρισμό υψηλότερου επιπέδου. Στις ηχογραφήσεις recording_3x3_4 και recording_3x3_5, το beamforming δεν δίνει καλύτερα αποτελέσματα αφού είτε το χρησιμοποιούμε ή όχι η μέθοδος μας συγκλίνει στην ίδια ποιότητα διαχωρισμού. Αν όμως παρατηρήσουμε τις τοπολογίες των ηχογραφήσεων αυτών την αρχή της παραγράφου, θα δούμε ότι δεν τηρούνται ίσες αποστάσεις ανάμεσα στα ηχεία όπως στις υπόλοιπες περιπτώσεις των 3 πηγών. Κατά συνέπεια η γεωμετρία των πηγών στο auditory scene είναι πιο δύσκολο να προσδιοριστεί και η μέθοδος του beamforming δεν μπορεί να δώσει καλύτερα αποτελέσματα. voice voice voice music music music recording_3x3_4 recording_3x3_5 Δημοκρίτειο Πανεπιστήμιο Θράκης, τμήμα Η.Μ.Μ.Υ

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ 7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ 1 Principal & Independent Component Analysis (PCA, ICA) PRINCIPAL COMPONENT ANALYSIS (PCA) Principal Component Analysis (PCA): ορθογώνιος μετασχηματισμός κατά τον οποίο αφαιρείται

Διαβάστε περισσότερα

27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

27-Ιαν-2009 ΗΜΥ 429. 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό ΗΜΥ 429 2. (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό 1 (i) Βασική στατιστική 2 Στατιστική Vs Πιθανότητες Στατιστική: επιτρέπει μέτρηση και αναγνώριση θορύβου και

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

Εισαγωγή στα χαρακτηριστικά των μικροφώνων

Εισαγωγή στα χαρακτηριστικά των μικροφώνων ΕΙΔΗ ΜΙΚΡΟΦΩΝΩΝ Επιμέλεια: Νίκος Σκιαδάς ΠΕ 17.13 Μουσικής Τεχνολογίας Το μικρόφωνο πήρε την ονομασία του από τον Ντέιβιντ Χιουζ, ο οποίος επινόησε μια διάταξη μεταφοράς ήχου που ήταν τόσο ευαίσθητη, που

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Διπλωματική Εργασία Παναγιώτης Γεώργας (Μ1040) Επιβλέπωντες: Επικ. Καθηγητής

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Τύπων. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 2 «Αποτύπωση παραμορφώσεων της αλυσίδας ηχητικής αναπαραγωγής» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός &

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Κεφάλαιο 3 Πολυπλεξία

Κεφάλαιο 3 Πολυπλεξία Κεφάλαιο 3 Πολυπλεξία Μάθημα 3.1: Μάθημα 3.2: Μάθημα 3.3: Πολυπλεξία επιμερισμού συχνότητας χρόνου Συγκριτική αξιολόγηση τεχνικών πολυπλεξίας Στατιστική πολυπλεξία Μετάδοση Δεδομένων Δίκτυα Υπολογιστών

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2018-2019 Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής (Least squares collocation) Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης Πιθανότητες & Τυχαία Σήματα Διγαλάκης Βασίλης Τυχαία Σήματα Γενίκευση τυχαίων διανυσμάτων Άπειρο σύνολο πιθανά αριθμήσιμο από τυχαίες μεταβλητές Παραδείγματα τυχαίων σημάτων: Τηλεπικοινωνίες: Σήμα πληροφορίας

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 1 «Ποσοτική εκτίμηση ελαχίστου κατωφλίου ακουστότητας» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Σημειώσεις Δικτύων Αναλογικά και ψηφιακά σήματα Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Χαρακτηριστικά

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Μάθημα: Ακουστική και Ψυχοακουστική

Μάθημα: Ακουστική και Ψυχοακουστική Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Ακουστική και Ψυχοακουστική Εργαστηριακή Άσκηση 1 «Ποσοτική εκτίμηση ελαχίστου κατωφλίου ακουστότητας» Διδάσκων: Φλώρος Ανδρέας Δρ. Ηλ/γος Μηχ/κός

Διαβάστε περισσότερα

Μάθημα: Τεχνολογία Ήχου

Μάθημα: Τεχνολογία Ήχου Τμήμα Τεχνών Ήχου και Εικόνας Ιόνιο Πανεπιστήμιο Μάθημα: Τεχνολογία Ήχου Εργαστηριακή Άσκηση 3 «Καταγραφή της επίπτωσης της κατευθυντικότητας ηλεκτροακουστικών μετατροπέων» Διδάσκων: Φλώρος Ανδρέας Δρ.

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις

Διαβάστε περισσότερα

ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ 2015-2016 Προτεινόμενο Θέμα: [1] Ανάλυση της μόνιμης και της μεταβατικής κατάστασης Συστημάτων Ηλεκτρικής Ενέργειας με το λογισμικό PSAT Για

Διαβάστε περισσότερα

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2016-2017 Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής (Least squares collocation) Χριστόφορος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Στατιστική. Εκτιμητική

Στατιστική. Εκτιμητική Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) Εισαγωγή Μέχρι στιγμής έχουμε δει το Μετασχηματισμό Fourier Διακριτού

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018 ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ Αντώνης Κ. Τραυλός (B.A., M.A., Ph.D.) Καθηγητής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ Σχολή Επιστημών Ανθρώπινης Κίνησης και Ποιότητας Ζωής Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού Στατιστική?????

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Διάλεξη 1 Βασικές έννοιες

Διάλεξη 1 Βασικές έννοιες Εργαστήριο SPSS Ψ-4201 (ΕΡΓ) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΗ ΕΚΘΕΣΗ. Θέμα «Το Τεχνικό Μέρος του Ραδιοφωνικού Πομπού» Σχολικό Έτος : o Γενικό Λύκειο Μυτιλήνης Τάξη Α

ΕΡΕΥΝΗΤΙΚΗ ΕΚΘΕΣΗ. Θέμα «Το Τεχνικό Μέρος του Ραδιοφωνικού Πομπού» Σχολικό Έτος : o Γενικό Λύκειο Μυτιλήνης Τάξη Α 2o Γενικό Λύκειο Μυτιλήνης Τάξη Α ΕΡΕΥΝΗΤΙΚΗ ΕΚΘΕΣΗ Θέμα «Το Τεχνικό Μέρος του Ραδιοφωνικού Πομπού» Υπεύθυνοι Καθηγητές Αντώνης Νείρος Γιώργος Πλευριτάκης Σχολικό Έτος : 2011-2012 Γιώργος Κουνιός Παναγιώτης

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 5 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

ΠΡΟΤΕΙΝΟΜΕΝΟ ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ. ΦΥΣΙΚΗ ΘΕΤΙΚΗΣ και ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΠΡΟΤΕΙΝΟΜΕΝΟ ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ. ΦΥΣΙΚΗ ΘΕΤΙΚΗΣ και ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΡΟΤΕΙΝΟΜΕΝΟ ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ ΜΑΘΗΜΑ: ΤΑΞΗ: ΕΝΟΤΗΤΕΣ: ΕΙΣΗΓΗΤΗΣ: ΦΥΣΙΚΗ ΘΕΤΙΚΗΣ και ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΣΤΑΣΙΜΑ ΚΥΜΑΤΑ (ΣΕ ΜΙΑ ΔΙΑΣΤΑΣΗ) ΜΙΧΕΛΑΚΑΚΗΣ ΗΛΙΑΣ 1.Διδακτικός στόχοι: Να ορίζουν το στάσιμο

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

1 Ανάλυση Προβλήματος

1 Ανάλυση Προβλήματος 1 Ανάλυση Προβλήματος 1.1 Η Έννοια Πρόβλημα Τι είναι δεδομένο; Δεδομένο είναι οτιδήποτε μπορεί να γίνει αντιληπτό από έναν τουλάχιστον παρατηρητή, με μία από τις πέντε αισθήσεις του. Τι είναι επεξεργασία

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Τα κύρια σηµεία της παρούσας διδακτορικής διατριβής είναι: Η πειραµατική µελέτη της µεταβατικής συµπεριφοράς συστηµάτων γείωσης

Τα κύρια σηµεία της παρούσας διδακτορικής διατριβής είναι: Η πειραµατική µελέτη της µεταβατικής συµπεριφοράς συστηµάτων γείωσης Κεφάλαιο 5 ΣΥΜΠΕΡΑΣΜΑΤΑ Το σηµαντικό στην επιστήµη δεν είναι να βρίσκεις καινούρια στοιχεία, αλλά να ανακαλύπτεις νέους τρόπους σκέψης γι' αυτά. Sir William Henry Bragg 5.1 Ανακεφαλαίωση της διατριβής

Διαβάστε περισσότερα

Στοχαστικές Ανελίξεις (2) Αγγελική Αλεξίου

Στοχαστικές Ανελίξεις (2) Αγγελική Αλεξίου Στοχαστικές Ανελίξεις (2) Αγγελική Αλεξίου alexiou@unipi.gr 1 Στοχαστικές Διαδικασίες 2 Στοχαστική Διαδικασία Στοχαστικές Ανελίξεις Α. Αλεξίου 3 Στοχαστική Διαδικασία ως συλλογή από συναρτήσεις χρόνου

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 8 ο : Προσαρμοσμένα Φίλτρα Βασική

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 1 ου κεφαλαίου Βιβλίο: Κολυβά Μαχαίρα, Φ. & Χατζόπουλος Στ. Α. (2016). Μαθηματική Στατιστική, Έλεγχοι Υποθέσεων. [ηλεκτρ. βιβλ.] Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 4: Πολυδιάστατες Τυχαίες Μεταβλητές Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων Άδειες

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ M. Kούτρας Πειραιάς, 2014 1 Από κοινού συνάρτηση πιθανότητας μιας δισδιάστατης διακριτής τυχαίας μεταβλητής Με λόγια, η f ( x, y) δίνει την πιθανότητα να εμφανισθεί

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε επιμέρους συνιστώσες

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε επιμέρους συνιστώσες Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2016-2017 Ανάλυση πινάκων συμ-μεταβλητοτήτων σε επιμέρους συνιστώσες Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων Τοπογράφων Μηχανικών Πολυτεχνική

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες

Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2017-2018 Ανάλυση πινάκων συμ-μεταβλητοτήτων σε παραμετρικές συνιστώσες Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων και Τοπογράφων Μηχανικών

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 1: Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Εισαγωγή στα Σήματα 1. Σκοποί της Θεωρίας Σημάτων 2. Κατηγορίες Σημάτων 3. Χαρακτηριστικές Παράμετροι

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 1 Εισαγωγή

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 1 Εισαγωγή (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 1 Εισαγωγή ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

Σύγχρονη Φυσική 1, Διάλεξη 3, Τμήμα Φυσικής, Παν/μιο Ιωαννίνων Η θεωρία του αιθέρα καταρρίπτεται από το πείραμα των Michelson και Morley

Σύγχρονη Φυσική 1, Διάλεξη 3, Τμήμα Φυσικής, Παν/μιο Ιωαννίνων Η θεωρία του αιθέρα καταρρίπτεται από το πείραμα των Michelson και Morley 1 Η θεωρία του αιθέρα καταρρίπτεται από το πείραμα των Mihelson και Morley 0.10.011 Σκοποί της τρίτης διάλεξης: Να κατανοηθεί η ιδιαιτερότητα των ηλεκτρομαγνητικών κυμάτων (π. χ. φως) σε σχέση με άλλα

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διπλωματική Εργασία

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διπλωματική Εργασία ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ Διπλωματική Εργασία του Φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και

Διαβάστε περισσότερα

Φαινόμενο Doppler (Γ. Μ.) Φαινόμενο Doppler. Φαινόμενο Doppler είναι η διαφορά των συχνοτήτων που μετρούν οι παρατηρητές

Φαινόμενο Doppler (Γ. Μ.) Φαινόμενο Doppler. Φαινόμενο Doppler είναι η διαφορά των συχνοτήτων που μετρούν οι παρατηρητές Φαινόμενο Doppler Για την κατανόηση του φαινομένου αυτού εισάγουμε τα παρακάτω σύμβολα και πρέπει να εξηγήσουμε τη σημασία τους. : πηγή ηχητικών κυμάτων : ανιχνευτής ηχητικών κυμάτων : συχνότητα ηχητικών

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες. Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση

Ψηφιακές Τηλεπικοινωνίες. Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση Ψηφιακές Τηλεπικοινωνίες Πιθανότητα Σφάλματος για Δυαδική Διαμόρφωση Σύνδεση με τα Προηγούμενα Σχεδιάστηκε ο βέλτιστος δέκτης για κανάλι AWGN Επειδή πάντοτε υπάρχει ο θόρυβος, ακόμη κι ο βέλτιστος δέκτης

Διαβάστε περισσότερα

8 th Lecture. M.Sc. Bioinformatics and Neuroinformatics Brain signal recording and analysis

8 th Lecture. M.Sc. Bioinformatics and Neuroinformatics Brain signal recording and analysis 8 th Lecture M.Sc. Bioinformatics and Neuroinformatics Brain signal recording and analysis Εισαγωγή Για αναλυθεί ένα φυσικό σήμα, είναι απαραίτητο να στηριχθεί σε ένα μαθηματικό μοντέλο, δηλαδή να περιγράφει

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2 ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 5.4: Στατιστικοί Μέσοι Όροι 5.5 Στοχαστικές Ανελίξεις (Stochastic Processes)

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΣΚΕΨΗ ΤΟΜΟΣ ΙΙ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΣΚΕΨΗ ΤΟΜΟΣ ΙΙ Ι. ΠΑΝΑΡΕΤΟΥ & Ε. ΞΕΚΑΛΑΚΗ Καθηγητών του Τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΣΚΕΨΗ ΤΟΜΟΣ ΙΙ (Εισαγωγή στις Πιθανότητες και την Στατιστική Συμπερασματολογία)

Διαβάστε περισσότερα

Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας

Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ. M. Kούτρας Επισκόπηση ύλης Πιθανοτήτων Μέρος ΙΙ M. Kούτρας Πειραιάς, 2015 Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ M. Kούτρας Πειραιάς, 2015 1 Από κοινού συνάρτηση πιθανότητας μιας δισδιάστατης διακριτής τυχαίας μεταβλητής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ Δ.Π.Μ.Σ. ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΑΝΑΛΥΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ Δ.Π.Μ.Σ. ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΑΝΑΛΥΣΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΦΥΣΙΚΗΣ Δ.Π.Μ.Σ. ΗΛΕΚΤΡΟΝΙΚΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΙΔΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: ΧΡΗΣΗ ΜΕΘΟΔΩΝ ΑΝΑΛΥΣΗΣ ΑΝΕΞΑΡΤΗΤΩΝ ΚΥΡΙΑΡΧΩΝ ΣΥΝΙΣΤΩΣΩΝ (INDEPENDENT COMPONENT ANALYSIS)

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 7 Στατιστικός έλεγχος υποθέσεων ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα