Algìrijmoi Tufl c EpexergasÐac S matoc EujÔmioc Kìtsialoc, Ajanˆsioc Mˆrgarhc, KwnstantÐnoc Diamantˆrac 6 AprilÐou 2007 Περίληψη Αντικείμενο της παρούσης εργασίας είναι η παρουσίαση των εννοιών που σχετίζονται με την τυφλή επεξεργασία σήματος (BSP, blind signal processing). Περιγράφουμε τις κυριότερες μεθοδολογίες τυφλής επεξεργασίας και παρουσιάζουμε συνοπτικά τους βασικούς αλγόριθμους υλοποίησής τους. 1 EISAGWGH Τυφλή επεξεργασία σήματος ονομάζουμε ένα σύνολο αλγορίθμων και τεχνικών που εφαρμόζονται σε ένα καταγεγραμμένο σήμα, χωρίς πρότερη γνώση του συστήματος που το παρήγαγε. Αυτή η οικογένεια αλγορίθμων διαδραματίζει ένα σημαντικό ρόλο σε πολλές εφαρμογές, όπως για παράδειγμα στις τηλεπικοινωνίες και στην ανάλυση και επεξεργασία δεδομένων. Υπάρχουν πολλές κατηγορίες τυφλής επεξεργασίας σήματος. Μεταξύ των σημαντικότερων, είναι οι ακόλουθες: Τυφλός διαχωρισμός πηγών: Αυτή η τεχνική θεωρεί ότι ένα σύνολο γνωστών πηγαίων σημάτων, s 1 (t), s 2 (t),..., s m (t), υποτιθέμενων ανεξάρτητων μεταξύ τους, αναμιγνύονται γραμμικά σε ένα άγνωστο περιβάλλον, παράγοντας ένα m-διάστατο παρατηρούμενο διάνυσμα x(t) = A s(t), όπου A είναι ένας άγνωστος m m μη-ιδιάζων πίνακας. Με δεδομένο το διάνυσμα παρατήρησης x(t), προσπαθούμε να βρούμε τα πηγαία σήματα s 1 (t), s 2 (t),..., s m (t) με έναν μη-εποπτευόμενο τρόπο [1]. Υπάρχουν διαθέσιμες αρκετές μέθοδοι τυφλού διαχωρισμού πηγών, ανάλογα με τις υποθέσεις οι οποίες γίνονται για τις πηγές, το χρησιμοποιούμενο φίλτρο επεξεργασίας και τον ενυπάρχοντα (προσθετικό) θόρυβο. Την παρούσα στιγμή, μια πλήρης και ξεκάθαρη ταξινόμηση, δεν είναι διαθέσιμη. Σε μια σύντομη περιγραφή, οι πηγές μπορεί να είναι στατιστικά ανεξάρτητες μεταξύ τους, μ- πορεί να παρουσιάζουν διαφορετικά φάσματα δεύτερης τάξης, μπορεί να θεωρούνται στάσιμες ή κυκλικά ημι-στάσιμες, να είναι μη-γκαουσιανές, ενώ σε άλλες περιπτώσεις να θεωρούνται ανεξάρτητες και ομοιόμορφα κατανεμημένες (ΑΟΚ). Η βασική υπόθεση αναφορικά μετο σύστημα είναι ότι στις περισσότερες των περιπτώσεων αυτό μοντελοποιείται ως ένα γραμμικό χρονοαναλλοίωτο φίλτρο. Οι υποθέσεις για τον προσθετικό θόρυβο έχουν να κάνουν με το χαρακτηρισμό του ως γκαουσιανό ή μη-γκαουσιανό, χρονικά λευκό, φασματικά ασυσχέτιστο ή φασματικά συσχετισμένο, με γνωστές ιδιότητες χωρικής κατανομής [2]. Τυφλή ταυτοποίηση συστήματος: Ας θεωρήσουμε έναν αντιστρεπτό πίνακα A και ένα πηγαίο διάνυσμα s, του οποίου οι συνιστώσες θεωρούνται ανεξάρτητες. Εάν υπάρχει ένας άλλος πίνακας B, τέτοιος ώστε το διάνυσμα x =A s να έχει την ίδια κατανομή με αυτή ενός διανύσματος B y, όπου y είναι ένα άλλο διάνυσμα με ανεξάρτητες μεταξύ τους συνιστώσες, τότε ο πίνακας A και το διάνυσμα s δεν μπορούν να ταυτοποιηθούν μονοσήμαντα. Η τυφλή ταυτοποίηση χρησιμοποιείται email: ekots@uom.gr email: amarg@uom.gr email: kdiamant@it.teithe.gr 1
για την αντιμετώπιση της περίπτωσης αυτής. Τυπικές μέθοδοι περιγράφονται στις Αναφορές [3] και [4]. Τυφλή ισοστάθμιση: Οπως είναι γνωστό από τη βασική θεωρία επεξεργασίας σήματος, ένα σήμα s(k), το οποίο αναπαριστά ένα ψηφιακό μήνυμα, υπόκειται σε ένα σύνολο μετασχηματισμών, π.χ. κωδικοποίηση και διαμόρφωση, πριν αυτό μεταδοθεί από έναν αποστολέα σε έναν παραλήπτη. Μόλις παραληφθεί, το σήμα υπόκειται στους αντίστροφους μετασχηματισμούς αποδιαμόρφωσης και αποκωδικοποίησης. Η επίδραση του καναλιού μετάδοσης στο ληφθέν σήμα μπορεί να απαληφεί, εφαρμόζοντας ένα διακριτό φίλτρο δεύτερης τάξης, του οποίου η κρουστική απόκριση μπορεί να εκτιμηθεί μέσω μιας διαδικασίας εκμάθησης και χρησιμοποιώντας μια ακολουθία σημάτων εκπαίδευσης, γνωστής εκ των προτέρων, τόσο στον αποστολέα, όσο και στον παραλήπτη. Σε εφαρμογές καθολικής εκπομπής (broadcast) όμως, όπου ένας και μοναδικός αποστολέας αλληλεπιδρά με πολλαπλούς δέκτες, δεν είναι διαθέσιμες αυτές οι ακολουθίες σημάτων εκπαίδευσης. Στην περίπτωση αυτή, η διαδικασία ισοστάθμισης θα πρέπει να επιτελεστεί χωρίς πρότερη γνώση των σημάτων εκπαίδευσης [5]. Αυτός ο ειδικός τύπος ισοστάθμισης είναι γνωστός ως τυφλή ισοστάθμιση, ή, στον τομέα των τηλεπικοινωνιών, ως τυφλή αποσυνέλιξη. Στην περίπτωση πολυκαναλικών σημάτων, η ισοστάθμιση αποτελεί ένα προ-επεξεργαστικό βήμα, προτού λάβει χώρα ο διαχωρισμός των σημάτων η ισοστάθμιση αυτή καθεαυτή δεν είναι μια τεχνική διαχωρισμού σημάτων. Ειδικότερα, ενώ στην αρχική φάση υπάρχουν χρονικές και χωρικές μίξεις σημάτων, μετά την ισοστάθμιση, κάθε μίγμα είναι μια συνέλιξη ενός μόνο από τα αρχικά σήματα. Τυφλή εξαγωγή σήματος: Ο αντικειμενικός σκοπός εδώ είναι η εξαγωγή ενός συγκεκριμένου (μικρού) αριθμού σημάτων, από ένα μεγάλο σύνολο καταγεγραμμένων σημάτων. Τα σήματα αυτά μπορούν να εξαχθούν με μια ορισμένη σειρά, αναλόγως των στοχαστικών τους ιδιοτήτων, όπως για παράδειγμα η γενικευμένη κανονικοποιημένη κύρτωσή τους. Η μέθοδος αυτή είναι πιο γενική από την Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis, PCA) και σχετίζεται ιδιαίτερα με τη μέθοδο της τυφλής αποσυνέλιξης. 2 BASIKES ENNOIES Ενα αναγκαίο προ-επεξεργαστικό βήμα, πριν την εφαρμογή των παραπάνω περιγραφέντων αλγορίθμων, είναι η λεύκανση ή σφαιροποίηση των παρατηρηθέντων δεδομένων. Στη βαθμίδα αυτή, ένας πίνακας λεύκανσης, W, εφαρμόζεται στο διάνυσμα παρατήρησης, μετατρέποντας ε- πομένως τον πίνακα μίξης σε πίνακα περιστροφής, ο οποίος είναι ευκολότερος στην ταυτοποίησή του. Σε συμβολικούς όρους, ο δεσμός λεύκανσης περιγράφεται από την εξίσωση όπου E{H w ( y)} = 0, (1) H w ( y) = y y T I. (2) Υποθέτοντας την ύπαρξη ενός τετραγωνικού πίνακα μίξης, τάξεως n, ο δεσμός λεύκανσης επιβάλλει n(n + 1)/2 περιορισμούς, αφήνοντας επομένως n(n 1)/2 άγνωστες παραμέτρους προς καθορισμό, οι οποίες θα πρέπει να προσδιοριστούν από πέραν της δεύτερης τάξης πληροφορία. Για να επιτύχουμε τον τυφλό διαχωρισμό των πηγών, κατασκευάζουμε πραγματικές συναρτήσεις των κατανομών πιθανότητας, οι οποίες είναι γνωστές ως συναρτήσεις αντίθεσης. Αυτές θεωρούνται ως αντικειμενικές, με την έννοια ότι ο διαχωρισμός των πηγών επιτυγχάνεται όταν αυτές οι συναρτήσεις λάβουν την ελάχιστη τιμή τους. Υπάρχουν πολλές συναρτήσεις αντίθεσης, όπως για παράδειγμα η αντίθεση μέγιστης πιθανοφάνειας και η ορθογώνια αντίθεση αμοιβαίας πληροφορίας Φ ML [ y] = K[ y s] (3) Φ 0 MI[ y] = i H[y i ]. (4) 2
Στις σχέσεις αυτές, η K[ x y] είναι η λεγόμενη απόκλιση Kullback μεταξύ των κατανομών των τυχαίων διανυσμάτων x και y. Στη γενική περίπτωση, αυτή η απόσταση μεταξύ δύο συναρτήσεων πυκνότητας πιθανότητας f(s) και g(s) δίνεται από την εξίσωση ( ) f(s) K(f g) f(s)log ds, (5) g(s) S ενώ H[ y] είναι η εντροπία Shannon. Επειδή όμως οι ποσότητες αυτές είναι αρκετά δύσκολο να υπολογιστούν αναλυτικά, χρησιμοποιούνται προσεγγίσεις ανώτερης τάξης αυτών των θεωρητικών συναρτήσεων αντίθεσης, οι οποίες μπορούν να εκτιμηθούν απευθείας από τα πειραματικά δεδομένα. Μια τυπική περίπτωση τέτοιας προσέγγισης, είναι η προσέγγιση της αντίθεσης πιθανοφάνειας (η οποία μετρά την απόκλιση μεταξύ της κατανομής σήματος εξόδου και μιας πρότυπης κατανομής πηγής) από την τετραγωνική απόκλιση μεταξύ των σωρρευτριών cumulants δεύτερης και τέταρτης τάξης, Φ 2 [y] και Φ 4 [y]. Το κύριο πλεονέκτημα των σωρρευτριών τέταρτης τάξης είναι ότι μπορούν να βελτιστοποιηθούν με τη χρήση του επαναληπτικού αλγόριθμου του Jacobi [1]. Μια έγκυρη συνάρτηση αντίθεσης λαμβάνει την ελάχιστη τιμή της στο σημείο διαχωρισμού, όταν το μοντέλο είναι έγκυρο. Στην πράξη όμως, οι αντιθέσεις εκτιμώνται από πεπερασμένα σύνολα δεδομένων, οπότε υπεισέχρονται αναπόφευκτα στοχαστικά λάθη, τα οποία εξαρτώνται από τα διαθέσιμα δείγματα αλλά και από τη χρησιμοποιούμενη συνάρτηση αντίθεσης. Αυτό επιβάλλει το στατιστικό χαρακτηρισμό των ελαχίστων των συναρτήσεων αντίθεσης, ο οποίος επιτυγχάνεται με τη χρήση συναρτήσεων εκτίμησης και ποσοτήτων όπως η φυσική κλίση (natural gradient), ή η σχετική κλίση (relative gradient). Για περισσότερες λεπτομέρειες, ο αναγνώστης μπορεί να ανατρέξει στη βιβλιογραφία ([1], [2]). 3 TUFLOS DIAQWRISMOS PHGWN Ο τυφλός διαχωρισμός πηγών μπορεί να επιτευχθεί με πολλές και διαφορετικές μεθόδους: αυτές μπορεί να είναι είτε συνελικτικές, είτε στιγμιαίες. Στην περίπτωση του συνελικτικού μοντέλου, υποθέτουμε την ύπαρξη P τυχαίων πηγαίων σημάτων, εκφυλιζόμενων από προσθετικό θόρυβο, τα οποία διαδίδονται μέσω ενός γραμμικού αιτιοκρατικού καναλιού και παραλαμβάνονται από ένα σύνολο K το πλήθος αισθητήρων. Στο στατικό μοντέλο, από την άλλη μεριά, το κανάλι μετάδοσης θεωρείται στιγμιαίο (οπότε αγνοούμε τυχούσες χρονικές καθυστερήσεις κατά τη διαδικασία της μίξης) και κάθε πηγή συνδέεται με τους αισθητήρες μέσω ενός και μοναδικού συνδέσμου διάδοσης. Αναφορικά με τον αριθμό των πηγών και των αισθητήρων, μπορούμε να ξεχωρίσουμε τρεις τύπους συστημάτων: συστήματα SISO (Single Input, Single Output), με P = 1, K = 1, SIMO (Single Input, Multiple Outputs), με P = 1, K > 1 και συστήματα MIMO (Multiple Inputs, Multiple Outputs), με P > 1, K > 1. Αναφορικά με τις μεθόδους οι οποίες χρησιμοποιούνται για τον τυφλό διαχωρισμό πηγών, παραθέτουμε τις πλέον σημαντικές από αυτές: Αρχή INFOMAX: Η μέθοδος αυτή βασίζεται στη μεγιστοποίηση της εντροπίας εξόδου ενός νευρωνικού δικτύου με μη-γραμμικές εξόδους [6]. Το δίκτυο αυτό δέχεται ως εισόδους ένα σύνολο διανυσμάτων εισόδου x και παράγει εξόδους της μορφής y i = f i (wi T x) + n, όπου f είναι μια μη-γραμμική συνάρτηση, w i είναι τα διανύσματα βαρών του νευρωνικού δικτύου και n είναι ο προσθετικός γκαουσιανός λευκός θόρυβος. Το σημείο κλειδί της μεθόδου αυτής είναι ότι εάν η μη-γραμμική συνάρτηση μεταφοράς του νευρωνικού δικτύου συμπίπτει με τη συνάρτηση πυκνότητας πιθανότητας των διανυσμάτων εισόδου και η δεσμευμένη πιθανότητα των νευρωνικών εξόδων H( y) = H(f 1 (w T 1 x), f 2 (w T 2 x),..., f n (w T n x)) (6) λαβάνει τη μέγιστη τιμή της, τότε η αμοιβαία πληροφορία της εξόδου I( y) = I(y 1, y 2,..., y n ) του δικτύου, ελαχιστοποιείται και τα σήματα εξόδου υποτίθενται ανεξάρτητα μεταξύ τους. Οι Bell και Sejnowski [7] απέδειξαν ότι τα περισσότερα σήματα που απαντώνται σε ρεαλιστικές εφαρμογές είναι υπερ-γκαουσιανά και ικανοποιούν το κριτήριο στατιστικής ανεξαρτησίας, όταν η συνάρτηση μεταφοράς του νευρωνικού δικτύου είναι η σιγμοειδής συνάρτηση, ή η συνάρτηση υπερβολικής εφαπτομένης. 3
Η βελτίωση του αλγόριθμου Infomax, έτσι ώστε να εφαρμόζεται στη γενική περίπτωση μηγκαουσιανών σημάτων (και όχι μόνον υπερ-γκαουσιανών, οπως στην αρχική του έκδοση) και η ανάπτυξη του γενικευμένου αλγόριθμου Infomax, έγινε από τους Lee και Girolami [8]. Ο γενικευμένος αυτός αλγόριθμος χρησιμοποιείται σε πολλές εφαρμογές, όπως για παράδειγμα στην επεξεργασία ηλεκτροεγκεφαλογραφικών (EEG) σημάτων. Τα σήματα αυτά, προερχόμενα από τον εγκέφαλο, είναι εξαιρετικά ασθενή στην επιφάνεια του κρανίου, της τάξης των microvolts, ενώ ανιχνεύονται μαζί με τα κατά πολύ ισχυρότερα σήματα που παράγονται από τις κινήσεις των ματιών και των μυώνων. Εχει δειχθεί ότι η απομόνωση και η απαλοιφή αυτών των πλεονασματικών σημάτων μπορεί να γίνει, χωρίς αλλοίωση των σημάτων του εγκεφάλου, με τον γενικευμένο αλγόριθμο Infomax, με την υπόθεση ότι τα καταγεγραμμένα σήματα αποτελούν διαφορετικές γραμμικές μίξεις των σημάτων του εγκεφάλου και των πλεονασματικών. Υπάρχουν και πολλές άλλες περιπτώσεις στις οποίες ο αλγόριθμος αυτός βρίσκει εφαρμογή, όπως π.χ. η ανάλυση πολύ μεγάλων συνόλων δεδομένων τα οποία προκύπτουν από πειράματα απεικόνισης ειδώλων πυρηνικού μαγνητικού συντονισμού (NMR και functional magnetic resonance imaging, fmri) [9]. Αλγόριθμος JADE (Joint Approximate Diagonalization of Eigenmatrices) [10][11]: Η μέθοδος αυτή βασίζεται στη χρήση του τανυστή σωρρευτριών τέταρτης τάξης. Προσπαθούμε να μεγιστοποιήσουμε την ποσότητα J(A) = i diag(af (M i )A T ) 2 (7) όπου A είναι ο (λευκασμένος) πίνακας μίξης και M i είναι οι ιδιοπίνακες του τανυστή σωρρευτριών τέταρτης τάξης (οι ιδιοτιμές των ιδιοπινάκων αυτών είναι οι τιμές της κύρτωσης των ανεξαρτήτων συνιστωσών, οι οποίες και προσδιορίζονται με αυτή τη μέθοδο). Το σημείο έναρξης του αλγόριθμου JADE είναι το γεγονός ότι η απαίτηση των περισσότερων αλγόριθμων τυφλού διαχωρισμού πηγών για τον υπολογισμό των κατανομών των ανεξάρτητων συνιστωσών, μπορεί να πραγματοποιηθεί με βελτιστοποίηση της προσέγγισης σωρρευτριών των δεδομένων. Το πλεονέκτημα της προσέγγισης JADE είναι η μη χρησιμοποίηση του αλγόριθμου gradient descent και επομένως η μη-εμφάνιση των αντίστοιχων προβλημάτων σύγκλισης. Από την άλλη μεριά, το κύριο μειονέκτημά του είναι οι ανάγκες αποθήκευσης O(N 4 ) πινάκων σωρρευτριών, για τον υπολογισμό του πλήρους συνόλου σωρρευτριών τέταρτης τάξης. Ο τελευταίος από τους αλγόριθμους τυφλού διαχωρισμού πηγών που θα παρουσιάσουμε εδώ, είναι ο αλγόριθμος FastICA, ή αλγόριθμος σταθερού σημείου [12]. Πρόκειται για μια οικογένεια αλγόριθμων projection pursuit που βασίζονται στο γεγονός ότι οι ανεξάρτητες συνιστώσες αντιστοιχούν σε εκείνες τις προβολές, των οποίων οι κατανομές απέχουν όσο γίνεται περισσότερο από τη γκαουσιανή κατανομή. Υπάρχουν δύο προσεγγίσεις για αυτή την κ- λάση αλγορίθμων: η συμμετρική προσέγγιση, η οποία χρησιμοποιεί έναν τροποποιημένο κανόνα ανανέωσης που επιτρέπει τον ταυτόχρονο διαχωρισμό όλων των ανεξάρτητων συνιστωσών και η προσέγγιση συρρίκνωσης (deflation), με την οποία εντοπίζουμε μια ανεξάρτητη συνιστώσα κάθε φορά. Αναφορικά με τις συναρτήσεις αντίθεσης που χρησιμοποιούνται σε αυτές τις τεχνικές (κύρτωση), μπορούν να χρησιμοποιηθούν ως τέτοιες τόσο η υπερβολική εφαπτομένη, όπως και η εκθετική ή η κυβική συνάρτηση. Το κύριο πλεονέκτημα του αλγόριθμου FastICA είναι ότι αυτός χρησιμοποιεί ένα επαναληπτικό σχήμα σταθερού σημείου, το οποίο βρέθηκε (σε ανεξάρτητα πειράματα) να παρουσιάζει βελτίωση στο χρόνο κατά 10 έως και 100 φορές, σε σχέση με τις συμβατικές μεθόδους gradient descent που χρησιμοποιούνται στην ανάλυση κύριων συνιστωσών. Ενα άλλο πλεονέκτημα του αλγόριθμου FastICA είναι ότι αυτός μπορεί να χρησιμοποιηθεί και για projection pursuit, παρέχοντας επομένως μια γενικού τύπου μέθοδο ανάλυσης δεδομένων, τόσο για ανίχνευση συμπεριφοράς, όσο και για εκτίμηση ανεξάρτητων συνιστωσών. Εκτός των προσεγγίσεων που αναφέραμε παραπάνω, υπάρχουν και πολλές άλλες, τις σημαντικότερες των οποίων παραθέτουμε εδώ μόνο ονομαστικά: Αλγόριθμος TDSEP (Temporal Decorrelation Source Separation) [13], ο οποίος εκμεταλλεύεται τη χρονική δομή των σημάτων, έτσι ώστε να υπολογίσει τη χρονικά καθυστερημένη συσχέτιση δεύτερης τάξης, προς διαχωρισμό των πηγών. Τα βέλτιστα αποτελέσματα 4
επιτυγχάνονται όταν οι συναρτήσεις αυτοσυσχέτισης είναι όσο το δυνατόν πιο ανόμοιες. Ο τυφλός διαχωρισμός disjoint ορθογώνιων σημάτων [14], ο οποίος χρησιμοποιεί δύο μόνο μίγματα N πηγών, όπου όμως οι πηγές θεωρούνται disjointly ορθογώνιες ανά δύο. Ο αλγόριθμος αυτός βασίζεται στο Μετασχηματισμό Fourier Βραχέως Χρόνου (Short Time Fourier Transform). Ανάλυση Κύριων Συνιστωσών (Principal component analysis, PCA), γνωστή και ως Μετασχηματισμός KL. Αυτή χρησιμοποιεί μεθόδους δεύτερης τάξης για την ανακατασκευή του σήματος, κατά την έννοια του μέσου τετραγωνικού λάθους [1]. Στη μέθοδο αυτή τα διανύσματα βάσης των κύριων συνιστωσών υποτίθενται ορθογώνια μεταξύ τους. 4 TUFLH TAUTOPOIHSH Ο πλέον ενδιαφέρων αλγόριθμος τυφλής ταυτοποίησης είναι ο αλγόριθμος SOBI (Second Order Blind Identifiability) [15]. Αυτός βασίζεται στην ταυτόχρονη διαγωνιοποίηση μερικών πινάκων συνδιακύμανσης (covariance matrices). Στο επίπεδο της τυφλής επεξεργασίας σήματος, μια πλήρης ταυτοποίηση του πίνακα μίξης είναι αδύνατη, λόγω του ότι η εναλλαγή ενός βαθμωτού παράγοντα μεταξύ ενός δεδομένου πηγαίου σήματος και της αντίστοιχης στήλης του πίνακα A δε μεταβάλλει το παρατηρούμενο σήμα. Μπορούμε εντούτοις να υποθέσουμε, χωρίς χάσιμο της γενικότητας, ότι τα πηγαία σήματα παρουσιάζουν μοναδιαία τυπική απόκλιση, έτσι ώστε η δυναμική εμβέλεια των τιμών να αντιπροσωπεύεται από το μέγεθος των αντίστοιχων στηλών του A. Με βάση την υπόθεση αυτή, ο αλγόριθμος SOBI καθορίζεται από τα ακόλουθα βήματα υλοποίησης: 1. Εκτίμησε τη δειγματική συνδιακύμανση R(0) από T το πλήθος δείγματα δεδομένων. Δήλωσε ως λ 1, λ 2,..., λ n τις n μεγαλύτερου μέτρου ιδιοτιμές και h 1, h 2,..., h n τα αντίστοιχα ιδιοδιανύσματα του R(0). 2. Με την υπόθεση ότι ο θόρυβος είναι λευκός, μια εκτίμηση της διακύμανσης του θορύβου είναι η μέση τιμή των m n μικρότερων ιδιοτιμών του R(0). Τα λευκασμένα σήματα είναι τα z(t) = [z 1 (t), z 2 (t),..., z n (t)] T, τα οποία υπολογίζονται από τη σχέση για 1 i n. z i (t) = 1 (λ i σ 2 ) (h i x(t)) (8) 3. Δημιούργησε δειγματικές εκτιμήσεις S(τ), υπολογίζοντας τους πίνακες μέσης συνδιακύμανσης του z(t) για ένα συγκεκριμένο σύνολο χρονικών καθυστερήσεων τ {τ j j = 1, 2,..., K}. 4. Υπολόγισε το μοναδιακό πίνακα U, ως τον ταυτόχρονο διαγωνιοποιητή του συνόλου πινάκων {S(τ j ) j = 1, 2,..., K}. 5. Εκτίμησε τα πηγαία σήματα ως s(t) = U H W x(t), καθώς και τον πίνακα μίξης A = W U, όπου οτο εκθετικό σύμβολο ( ) δηλώνει τον ψευδοαντίστροφο πίνακα Moore-Penrose, ενώ ο εκθέτης H δηλώνει τον ερμητιανό αντίστροφο. Ο αλγόριθμος SOBI είναι μια τεχνική τυφλού διαχωρισμού πηγών. Βασίζεται αποκλειστικά και μόνο σε στατιστικές δεύτερης τάξης των παραλαμβανομένων σημάτων, η οποίες, σε αντίθεση με τεχνικές σωρρευτριών ανώτερης τάξης, επιτρέπει το διαχωρισμό γκαουσιανών πηγών. Μια τυπική εφαρμογή του αλγόριθμου αυτού είναι η επίτευξη κατηγοριοποίησης μιας-δοκιμής-μόνο (singletrial classification) EEG δεδομένων, για τη δημιουργία διεπαφής εγκεφάλου υπολογιστή (Brain Computer Interface, BCI), η οποία μπορεί να υποστηρίξει δυνατότητες επικοινωνίας για ΑΜΕΑ [16]. Η εφαρμογή αυτή βασίζεται στην ικανότητα του αλγόριθμου SOBI να διαχωρίζει λειτουργικά διαφορετικά νευρωνικά σήματα και να ανακτά συνιστώσες που είναι φυσιολογικά και νευροανατομικά ερμηνεύσιμες. Τα πειράματα έχουν δείξει σύγκλιση του αλγόριθμου μετά από μερικές μόνο δεκάδες επαναλήψεων, ανοίγοντας το δρόμο για αντίστοιχες εφαρμογές πραγματικού χρόνου. 5
5 TUFLH ISOSTAJMISH Στην τυφλή ισοστάθμιση, το παρατηρούμενο σήμα διακριτού χρόνου παράγεται από ένα άγνωστο πηγαίο σήμα με τη διαδικασία της συνέλιξης, η οποία αναμιγνύει χρονοκαθυστερημένες εκδόσεις του πηγαίου σήματος. Για να εκτιμήσουμε το φίλτρο αποσυνέλιξης, υποθέτουμε ότι οι τιμές του πηγαίου σήματος s(t), σε διαφορετικές χρονικές στιγμές t, είναι μη-γκαουσιανές, στατιστικά ανεξάρτητες και ομοιόμορφα κατανεμημένες. Η κατανομή πιθανότητας του πηγαίου σήματος μπορεί να είναι γνωστή ή άγνωστη. Η τυφλή ισοστάθμιση βρίσκει πολλές εφαρμογές, όπως για παράδειγμα στις ασύρματες επικοινωνίες, στα συστήματα sonar και radar, σε ηχητικές και ακουστικές διαδικασίες, σε βελτιώσεις εικόνων και στη βιοϊατρική επεξεργασία σήματος. Μια ενδιαφέρουσα οικογένεια αλγόριθμων τυφλής ισοστάθμισης είναι οι μέθοδοι Bussgang [17], οι οποίες χρησιμοποιούν ένα μη-αιτιατό FIR φίλτρο, του οποίου τα βάρη είναι συναρτήσεις του χρόνου και μπορούν να ενημερώνονται με τη χρήση της μεθόδου των ελαχίστων τετραγώνων. Η έξοδος του φίλτρου, y(t), παρέχεται ως είσοδος σε μια μη-γραμμική συνάρτηση g(x) που ικανοποιεί τη συνθήκη E{y(t)y(t k)} E{y(t)g(y(t k))} (9) Η επιλογή κάθε φορά της μη-γραμμικής συνάρτησης g(x), οδηγεί σε διαφορετικές μεθόδους Bussgang, όπως π.χ. ο τυποποιημένος αλγόριθμος Goddard, ο οποίος προσπαθεί να ελαχιστοποιήσει τη μη-κυρτή συνάρτηση κόστους J p (t) = E{[ y(t) p γ p ] 2 } (10) Στη σχέση αυτή, ο p είναι ένας θετικός ακέραιος και η παράμετρος γ εξαρτάται από τη στατιστική του πηγαίου σήματος. Μπορεί να αποδειχθεί ότι για την τιμή p = 2, αυτός ο αλγόριθμος (ο οποίος τότε ονομάζεται αλγόριθμος σταθερού μέτρου Constant Modulus Algorithm, CMA) και η αντίστοιχη συνάρτηση κόστους J p (t), σχετίζονται με την ελαχιστοποίηση της κύρτωσης. Το κύριο μειονέκτημα των μεθόδων Bussgang είναι ότι ενδέχεται το επαναληπτικό σχήμα ισοστάθμισης που χρησιμοποιείται να συγκλίνει σε λάθος λύση, κάτι που έχει ως αποτέλεσμα μειωμένη απόδοση του ισοσταθμιστή. Η δεύτερη οικογένεια τεχνικών τυφλής ισοστάθμισης περιλαμβάνει τις βασισμένες σε σωρρεύτριες μεθόδους. Αυτές χρησιμοποιούν στατιστική ανώτερης τάξης για το παρατηρούμενο σήμα, x(t). Αναφέρουμε τον αλγόριθμο Shavi Weinstein [18], ο οποίος είναι ένας αλγόριθμος στοχαστικής κλίσης και προσπαθεί να μεγιστοποιήσει ένα κριτήριο δεσμού βασισμένου στην κύρτωση. Στην περίπτωση ενός μιγαδικού, λευκασμένου και συμμετρικού πηγαίου σήματος, s(t), το οποίο ικανοποιεί τη συνθήκη E{ s(t) 2 } = 0, ο αλγόριθμος Shavi Weinstein αντιστοιχεί στις εξισώσεις u(t + 1) = u(t) + µ sign(k s )[ z(t) 2 z(t)] y (t) (11) w(t + 1) = u(t + 1)/ u(t + 1) (12) όπου y(t) είναι το λευκασμένο σήμα εξόδου, w(t) είναι το M-διάστατο διάνυσμα βαρών του αιτιατού FIR φίλτρου αποσυνέλιξης μήκους M, k s είναι η κύρτωση του πηγαίου σήματος s(t), u(t) είναι το μη-κανονικοποιημένο διάνυσμα βαρών του φίλτρου, το σύμβολο.. δηλώνει το μέτρο του διανύσματος, µ είναι μια παράμετρος της μεθόδου και z(t) = w T (t) y(t) είναι η έξοδος του φίλτρου. Ο τελευταίος από τους αλγόριθμους τυφλής αποσυνέλιξης που θα παρουσιάσουμε εδώ, βασίζεται σε μοντέλα του χώρου των καταστάσεων [19] και στην παραδοχή ότι αμφότερα τα μοντέλα μίξης και διαχωρισμού περιγράφονται από ευσταθή, γραμμικά μοντέλα του χώρου των καταστάσεων. Η καταστατική εξίσωση ενός τέτοιου συστήματος έχει την ακόλουθη μορφή: x(k + 1) = A x(k) + B s(k) (13) όπου s(t) είναι ένα πηγαίο διάνυσμα με ανεξάτρητες και ομοιόμορφα κατανεμημένες πηγές, x(k) είναι το διάνυσμα κατάστασης, A είναι ο πίνακας μίξης καταστάσεων και B είναι ο πίνακας μίξης εισόδου. Αναφορικά με την έξοδο του συστήματος, η σχέση αυτή μπορεί να γραφτεί ως u(k) = C x(k) + D s(k) (14) 6
όπου C είναι ο πίνακας μίξης εξόδου και D είναι ο πίνακας μίξης εισόδου εξόδου. συνάρτηση μεταφοράς του συστήματος δίνεται από τη σχέση Τέλος, η H(z) = C(zI A) 1 B + D (15) όπου z 1 είναι ο τελεστής καθυστέρησης. Η βασική παραδοχή αυτού του αλγόριθμου είναι ότι το μοντέλο διαχωρισμού περιγράφεται επίσης ως ένα γραμμικό σύστημα στο χώρο των καταστάσεων, με συνάρτηση μεταφοράς W (z) = C (zi A ) 1 B + D και έξοδο y(k) = W (z)h(z) s(k). Με βάση την περιγραφή αυτή, το πρόβλημα της τυφλής αποσυνέλιξης ανάγεται σε πρόβλημα βελτιστοποίησης, με την συνάρτηση αμοιβαίας πληροφορίας να παίζει το ρόλο της συνάρτησης ρίσκου. Στο τελευταίο βήμα του αλγόριθμου, ενημερώνονται οι παράμετροι του προβλήματος, με τη χρήση ενός αλγόριθμου που είναι μια γενίκευση του αλγόριθμου εκμάθησης φυσικής κλίσης στο μοντέλο μίξης στο χώρο καταστάσεων (οι δύο αυτοί αλγόριθμοι ταυτίζονται εάν χρησιμοποιηθεί στιγμιαία μίξη και τότε οι πίνακες A, B, C, D γίνονται μηδενικοί). Το κύριο πλεονέκτημα της περιγραφής της τυφλής αποσυνέλιξης στο χώρο των καταστάσεων είναι ότι, εκτός του ότι αυτή δίνει την εσωτερική περιγραφή του συστήματος, παρέχει επίσης και τους διάφορους ισοδύναμους τύπους υλοποίησης του συστήματος στο χώρο των καταστάσεων, όπως για παράδειγμα τις σταθμισμένες υλοποιήσεις και τις παρατηρούμενες κανονικές μορφές. Το πρόβλημα της τυφλής αποσυνέλιξης ή ισοστάθμισης μπορεί να αντιμετωπιστεί και με άλλες μεθόδους, με βάση υπολογισμούς ιδιοδιανυσμάτων, την προσέγγιση των ελαχίστων τετραγώνων και της σχετικής μεθόδου του Newton [20]. 6 SUMPERASMATIKA SQOLIA Στην εργασία αυτή παρουσιάσαμε μερικούς τυποποιημένους αλγόριθμους για βασικές τεχνικές της τυφλής επεξεργασίας σήματος, όπως για παράδειγμα τον τυφλό διαχωρισμό πηγών, την τυφλή ισοστάθμιση (ή αποσυνέλιξη) και την τυφλή ταυτοποίηση. Συγκεκριμένα, για τον τυφλό διαχωρισμό πηγών αναφέραμε τη μέθοδο Infomax, την προσέγγιση JADE και την οικογένεια αλγόριθμων FastICA ή αλγόριθμων σταθερού σημείου. Για την τυφλή ταυτοποίηση, παρουσιάσαμε τον αλγόριθμο SOBI, ενώ για την τυφλή ισοστάθμιση αναφερθήκαμε στην οικογένεια αλγόριθμων Bussgang και συγκεκριμένα στον αλγόριθμο Goddard, τον αλγόριθμο σταθερού μέτρου, τον αλγόριθμο Shavi Weinstein και τον αλγόριθμο αποσυνέλιξης στο χώρο των καταστάσεων. Αυτοί οι αλγόριθμοι χρησιμοποιούν στατιστικές δεύτερης και ανώτερης τάξης και τα αντίστοιχα μοντέλα τους μπορεί να είναι συνελικτικά ή στιγμιαία. Για περισσότερες πληροφορίες για τους αλγόριθμους αυτούς καθώς και για αρκετούς άλλους που δεν κατέστη δυνατό να παρουσιάσουμε εδώ ο αναγνώστης μπορεί να ανατρέξει στη διαρκώς εμπλουτιζόμενη βιβλιογραφία. 7 EUQARISTIES Η εργασία αυτή υποστηρίχθηκε από το Πρόγραμμα «ΕΠΕΑΕΚ Αρχιμήδης ΙΙ», χρηματοδοτούμενο κατά μέρος (75%) από την Ευρωπαϊκή Ενωση και κατά μέρος (25%) από το ΥΠ.Ε.Π.Θ. Anaforèc [1] Hyvarinen A., Karhunen J., Oja E. (2001) Independent Component Analysis, John Wiley & Sons. [2] Haykin S. (Ed.) (2000) Unsupervised Adaptive Filtering, Volume I, Blind Source Separation, John Wiley & Sons. [3] Comon P. (2004) Blind Identification and Source Separation in 2 2 Under-determined Mixtures, IEEE Trans. Signal Proc., Vol. 52, No.1, pp. 11-22, January 2004. [4] Hua Y., Am S., Xiang Y. (2003) Blind Identification of FIR MIMO Channels by Decorrelating Subchannels, IEEE Trans. Signal Proc., Vol. 51, No. 5, pp. 1143-1155, xxxx. 7
[5] Farid A., Luo Z-Q., Ding Z. (2005) Blind Channel Equalization Based on Second Order Statistics, Proceedings of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, March 18-23, 2005, pp. 433-436, Pennsylvania, USA. [6] Cardoso J.F (1997) Informax and Maximum Likelihood for Blind Source Separation, IEEE Signal Processing Letters, Vol. 4, No. 4, pp. 112-114, 1997. [7] Bell A.J., Sejnowski J.T. (1995) An Information Maximization Approach to Blind Source Separation and Blind Deconvolution, Neural Computation, Vol.7, pp.1129-1159, 1995. [8] Lee T.-W., Girolami M., Sejnowski (1999) Independent Component Analysis Using an Extended Infomax Algorithm for Mixed sub-gaussian and super-gaussian Sources, Neural Computation, Vol. 11, pp. 417 441, 1999. [9] McKeown M. J., Hansen L. K., Sejnowski J. T. (2003) Independent component analysis of functional MRI: what is signal and what is noise?, Current Opinion in Neurobiology, Vol. 13, No. 5, pp. 620-629, 2003. [10] Cardoso J.F, Souloumiac A. (1993) Blind Beamforming for non-gaussian signals, IEEE Proceedings, Part F, Vol. 140, No. 6, pp. 362-370, 1993. [11] Comon P. (1994) Tensor Diagonalization, a Useful Tool in Signal Processing, in Blanke M., Soderstrom M. (Eds.) IFAC-SYSID 10th Sympo-sium on System Identification, Denmark, Vol. 1, pp 77-82, 1994. [12] Hyvarinen A., Oja E. (1997) A Fast Fixed Point Algorithm for Independent Component Analysis, Neural Computation, Vol. 9, No. 7, pp. 1483-1492, 1997. [13] Ziehe A., Muller K.R. (1998) TDSEP - An Efficient Algorithm for Blind Separation Using Time Structure, in Proc. of International Conference on Artificial Neural Networks, pp. 675-680, Sweden, 1998. [14] Jourjine A., Rickard S., Yilmaz O (2000) Blind Separation of Disjoint Orthogonal Signals: Demixing N Sources from 2 Mixtures, Proceedings of IEEE Conference on Acoustics, Speech, and Signal Processing, Vol. 5, pp. 2985-2988, Istanbul, Turkey, June 2000. [15] Belouchrani A, Meraim K.A., Cardoso J.F., Moulines E (1997) A Blind Source Separation Technique Based on Second Order Statistics, IEEE Trans. Signal Proc. Vol. 45, No. 2, pp 434-444, 1997. [16] Wang Y., Sutherland M. T., Sanfratello L. L., Tang A. C. (2004), Single-Trial Classification of ERPs Using Second-Order Blind Identification (SOBI) in Proceedings of the Third Intnl Conference on Machine Learning and Cybernetics, Shanghai, China, August 26-29, Vol. 7, pp.4246-4251, 2004. [17] Lambert R.H. (1996) Miltichannel Blind Deconvolution: FIR Matrix Algebra and Separation of Multipath Mixtures, PHD Thesis, University of Southern California, 1996. [18] Shalvi O., Weinstein E. (1990) New Criteria for Blind Deconvolution of Nonmiminun Phase Systems (Channels), IEEE Trans. Inf. Theory, Vol.36, No.2, pp.312-321, 1990. [19] Zhang L, Cichocki A. (1998) Blind Deconvolution / Equalization Using State Space Models, in Proceedings of the IEEE Workshop on NNSP, pp. 123-131, 1998. [20] Luenberger D. G. (1984) Linear and Non Linear Programming, Second edition, Reading, Addison Wesley. 8