8. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ ICA: συναρτήσεις κόστους & εφαρμογές
ΚΎΡΤΩΣΗ (KUROSIS) Αθροιστικό (cumulant) 4 ης τάξεως μίας τ.μ. x με μέσο όρο 0: kurt 4 [ x] = E[ x ] 3( E[ y ]) Υποθέτουμε διασπορά=: kurt[ x] = E[ x 4 ] 3 Γκαουσίανές μεταβλητές έχουν κύρτωση=0 Υπεργκαουσιανές.τ.μ τ.μ. με κύρτωση>0 Υπογκαουσιανές τ.μ. τ.μ. με κύρτωση<0 Αν οι τ.μ. έχουν σταθερή διασπορά τότε η κύρτωση μπορεί να υπολογιστεί μέσω της 4 ης ροπής
ΥΠΟΛΟΓΙΣΜΌΣ ICA ΜΈΣΩ ΚΎΡΤΩΣΗΣ gradent ascent στην απόλυτη τιμή της κύρτωσης kurt( w w Μέθοδος προβολής z) = 4sgn( kurt( w ( για whtened data E[( w z) z))( E[ z( w ] = w ) z) 3 ] 3w w 3 Δ w sgn( kurt( w z))( E[ z( w z) ] w w w Σχόλια: δεν είναι ευσταθής ευαίσθητη σε παρεκτρεπόμενες τιμές 3
ΑΡΝΗΤΙΚΉ ΕΝΤΡΟΠΊΑ (NEGENROPY) J( y) = H( y gauss ) H( y) όπου Η(.): διαφορική εντροπία και y gauss : γκαουσιανικό άνυσμα τ.μ. με ίδιο πίνακα συσχέτισης με το y. J(y)>0 και J(y)=0 μόνο όταν y είναι γκαουσιανή. ΑΕ είναι στατιστικά πολύ καλή μέθοδος υπολογισμου της μη-γκαουσιανότητας Ευσταθής. Όμως υπολογισμικά περίπλοκη χρησιμοποίηση προσέγγισης, π.χ. J( y) E[ G( y)] E[ G( v όπου G: ένα οποιοδήποτε μη-τετραγωνική συνάρτηση και v: κανονική τ.μ. )] 4
Καλή επιλογή του G οδηγεί σε ευσταθείς εκτιμητές G ( y ) = Μετά gradent ascent projecton ICA Δw γe[ zg( w w Υπολογισμός σε πραγματικό χρόνο: g g ( y) w w όπου γ = ( y) = ye y / and a log cosh( ay ) a G ( y ) = e z)] y) ( y / ) γ : Δ γ ( w z) E[ G( v)] γ E[ G( y)] E[ G( v)] και g είναι dervatve του G, δηλ. = tanh( a G 5
ΜΈΓΙΣΤΗ ΠΙΘΑΝΌΤΗΤΑ (ΜΠ) ICA (MAXIMUM LIKELIHOOD ML ICA) Η ΣΚΠ των μικτών τ.μ. x = As είναι p x ( x) = ps ( s) det B = p όπου B = A και p ( s ) det B είναι ΣΚΠ των ICs. Υποθέτοντας ένα δείγμα παρατηρηθέντος μίγματος x(),,x() έχουμε λογαριθμική ΜΠ (log Lkelhood): log L( B) όπου B = n = t = = ( b,..., b ) logp ( b x( t)) + n log det B 6
Ή: log L( B) = E[ = n log p ( b x( t)) + log det B όπου Ε: υπολογισμός της μέσης τιμής ημιπαραμετρική εκτίμηση - ΜΠ εξαρτάται από παραμέτρους: στοιχεία του B; και ΣΚΠ των πηγών λύσεις: προηγούμενη γνώση των ΣΚΠ πηγών ή προσέγγιση των ΣΚΠ μέσω απλής παραμετρικής οικογένειας τιμών ΣΚΠ. 7
Ο ΑΛΓΌΡΙΘΜΟΣ BELL-SEJNOWSKI gradent descent για ML ICA log lkelhood gradent log L B = ( B όπου g( y) = ( g( y ),..., g( y ) + E[ g( Bx) x n ] )) και g = (log p )' = p p ' Ο αλγόριθμος: ΔB ( B ) + E[ g( Bx) x ] Αρκετά αργός Στην πράξη χρησιμοποιείται το λεγόμενο «natural gradent» Δ B ( I + E [ g ( Bx ) x ]) B 8
PCA VS ICA PCA Στατιστική ης τάξεως Ορθογώνιος μετασχηματισμός Μη-συσχέτιση: E[ ss ] = I ICA Στατιστική υψηλών τάξεων Μη-ορθ. μετασχηματισμός Στατιστική ανεξαρτησία: p (s) = p ( s ) 9
0
ΕΠΕΚΤΆΣΕΙΣ ICA Πληροφορίες χρονικής συσχέτισης τ.μ. Μη-γραμμική ICA ICA με θόρυβο Μιγαδική ICA κλπ.
ΕΦΑΡΜΟΓΈΣ ΣΕ ΔΕΥ Διαχωρισμός ΗΕΓ. ΗΕΓ είναι μικτά σήματα από: (α) δραστηριότητας από διάφορες εγκεφαλικές πηγές η οποία έχει αναμιχτεί στα διάφορα στρώματα του εγκεφάλου, το υγρό του εγκεφάλου, και το κρανίο. (β) δραστηριότητα μη εγκεφαλικής προέλευσης, π.χ. κίνηση ματιών ICA χρησιμοποιείται για αφαίρεση σημάτων μηεγκεφαλικής δραστηριότητας και για διαχωρισμό εγκεφαλικής δραστηριότητας διαφορετικής προέλευσης 3
4
5
ΕΠΌΜΕΝΟ ΜΆΘΗΜΑ: 6 Επανάληψη
MAXIMUM LIKELIHOOD ESIMAION assumes that the unknown parameters are constant; no pror nformaton avalable; good statstcal propertes; works well when there s a lot of data; ML soluton chooses the parameters defnng the model under whch the data are most lkely. he lkelhood functon p( x / Θ) = p( x(),..., x( )/ Θ) has the same form as the jont densty of the measurements. Often, the log lkelhood s used: ln p( x / Θ) 7
he lkelhood equaton ln p( x / Θ) = 0 Θ enables to fnd the maxmum of the lkelhood functon. Assumng that the measurements are ndependent, the lkelhood factors out p ( x / Θ ) = j = p ( x j / where p(xj/q) s a condtonal pdf of a measurement xj. In ths case, the log lkelhood conssts of a sum of logs of condtonal pdfs. he vector lkelhood equaton conssts of m scalar equatons Θ ) Θ ln p( x / Θ) = 0, =,..., m Usually these are nonlnear and coupled - need numercal soluton methods 8
GRADIEN DESCEN Gradent descent s a method of mnmsaton of a gven cost or objectve functon J(w): start at some ntal pont w(0); calculate gradent of J(w) at w(0); move n the drecton of the negatve gradent or steepest descent by some dstance; repeat above untl consecutve ponts are suffcently close. 9
In mathematcal notaton the above procedure reads J( w) Δw( t) = α ( t) w J( w) or Δw w gradent descent moves always downwards n a hlly landscape local mnma can trap the movement ntalsaton s mportant to avod local mnma choce of the learnng rate s crucal for speed of convergence; 0