HMY 795: Αναγνώριση Προτύπων Διαλέξεις 5 6 Principal component analysis
EM for Gaussian mixtures: μ k, Σ k, π k. Ορίζουμε το διάνυσμα z (διάσταση Κ) ώστε K p( x θ) = π ( x μ, Σ ) k = k k k Eκ των υστέρων κατανομή του z k : (, Σ ) π Σ = Σ = n k k k pc ( k xn, μ) k ( xn μk) 0 k ( xn μk) 0 K n= n= ( xn μ j, Σ j) π j j= x μ μ = γ ( z ) x k nk n k n= όπου k = γ ( znk ) n=
Για τους συντελεστές μείξης π k Lagrange multipliers: π = γ( z ) = k nk k n=
Expectation maximization for Bernoulli mixtures ΕΜ for Bernoulli mixtures: D δυαδικές μεταβλητές x i (i=,,,d) Bernoulli με παράμετρο μ i Μείξη Κ κατανομών: όπου Πιθανοφάνεια: Βοηθητική η μεταβλητή z=(z(,,z, k )
Συνολική πιθανοφάνεια: K D znk xi ( xi ) k ki ki n= k= i= p( XZ, μπ, ) = π μ ( μ ) Μεγιστοποιώντας ως προς μ k και π k : όπου
Principal component analysis Σε πολλές περιπτώσεις, οι βαθμοί ελευθερίας σε ένα πρόβλημα είναι πολύ λιγότεροι από τις διαστάσεις στο χώρο εισόδου Π.χ. χαρακτήρες ίδιου τύπου οριζόντια/κάθετη μετατόπιση και περιστροφή σε μια εικόνα 00x00: 0,000 διάστατος χώρος εισόδου Βαθμοί ελευθερίας: 3! (intrinsic dimensionality) Ακόμη και για πιο περίπλοκους μετασχηματισμός, οι βαθμοί ελευθερίας είναι κατά πολύ λιγότεροι από τη διάσταση στο χώρο εισόδου
Principal component analysis Principal component analysis (Ανάλυση κύριων συνιστωσών)/ Karhuenen Loeve transform: τεχνική που χρησιμοποιείται ευρέως για τη μείωση των διαστάσεων ενός προβλήματος, εξαγωγή χαρακτηριστικών (feature selection) Η μέθοδος PCA αναζητάει έναν χώρο χαμηλότερης διάστασης (principal subspace) ώστε η ορθογώνια προβολή των δεδομένων σε αυτόν τον χώρο να μεγιστοποιεί τη διασπορά των προβαλλόμενων σημείων Έστω ότι έχουμε ένα σύνολο Ν παρατηρήσεων {x n } με διάσταση D και θέλουμε να προβάλλουμε σε χώρο διάστασης Μ<D Έστω ότι Μ=. Η κατεύθυνση αυτού του χώρου ορίζεται από την κατεύθυνση ενός (άγνωστου) διανύσματος διάστασης D u το οποίο μπορούμε να διαλέξουμε ώστε uu = Προβολές των σημείων ux n Μέση τιμή των προβαλλόμενων δεδομένων n = ux = u x n
Principal component analysis Διασπορά των προβαλλόμενων δεδομένων ( ) ux n ux = usu n = t = ( n )( n ) n= S x x x x Μεγιστοποίηση της διασποράς ως προς u υπό τον περιορισμό uu = Lagrange multiplier λ μεγιστοποίηση της usu + λ ( uu ) Παραγωγίζοντας ως προς u Su = λ u Άρα το u είναι ιδιοδιάνυσμα του S! Ηδιασποράείναι: Τ usu = λ και είναι μέγιστη για το ιδιοδιάνυσμα που αντιστοιχεί στη μέγιστη ιδιοτιμή Στη γενική περίπτωση Μ διάστατου χώρου προσθέτουμε κάθε φορά μια νέα κατεύθυνση η οποία να είναι ορθογώνια και να μεγιστοποιεί τη διασπορά: τελικά επιλέγουμε τα Μ ιδιοδιανύσματα u,,u Μ που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές
Principal component analysis Εναλλακτική διατύπωση έστω η πλήρης ορθοκανονική βάση {u i } στο χώρο διάστασης D (άρα uu i j = δij ) Εφόσον έχουμε πλήρη βάση, υπάρχουν συντελεστές a ni ώστε για κάθε x n να D ισχύει: xn = aniui () i= Άρα έχουμε ένα νέο σύστημα συντεταγμένων που ορίζεται από τα διανύσματα {u i } και τους συντελεστές (i=,,,d). Από την (): D D n = ani i n j = ani i j anj = n j i= i= x u xu uu xu D ( ) x = x u u n n i i i= a ni Θέλουμε να προσεγγίσουμε το σημείο x n χρησιμοποιώντας Μ<D διανύσματα από τη βάση. Μπορούμε να προσεγγίσουμε κάθε σημείο ως: M x = z u + b u n ni i i i i= i= M+ + D όπου οι συντελεστές b i δεν εξαρτώνται από το σημείο αλλά είναι σταθεροί.
Principal component analysis Ποια είναι τα {u i }, {z ni }, {b i } που ελαχιστοποιούν το σφάλμα προσέγγισης? Ελαχιστοποίηση της J = xn x x n = n n Ως προς z nj : z nj = xu n j j=,,,m x = x Ως προς b j : b j=m+,,d j = xu n = j Αντικαθιστώντας: D M D ( ) z x x = x u u u bu = n n n i i ni i i i i= i= i= M+ D i= M+ {( ) } = x x u u n i i Άρα η διαφορά μεταξύ των δύο διανυσμάτων βρίσκεται σε ένα χώρο ορθογώνιο στον κύριο υποχώρο. Τελικά: J ( ) D D xu n i xui usu i i n= i= M+ i= M+ = = Ελαχιστοποίηση ηως προς u i : Πχ για D=, M= πρέπει να διαλέξουμε το u ώστε το J = usu να είναι ελάχιστο υπό τον περιορισμό uu =
Principal component analysis Παρόμοια με πριν Lagrange multipliers, ελαχιστοποίηση της usu + λ ( uu ) Su = λ u J = λ Άρα πρέπει να διαλέξουμε το ιδιοδιάνυσμα u που αντιστοιχεί στη μικρότερη ιδιοτιμή του S (οπότε αυτομάτως το u αντιστοιχεί στο ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή) Στη γενική περίπτωση Μ<D έχουμε J D = i= M+ λ i επομένως παίρνουμε ακριβώς το ίδιο αποτέλεσμα (principal subspace: ιδιοδιανύσματα που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές του S)
Παράδειγμα Principal component analysis D J = λ i i= M+
Η προσέγγιση μπορεί να γραφτεί: καθώς: M x = z u + b u = n ni i i i i= i= M + D Principal component analysis ( ) M D ( xu n i) ui xui ui i= i= M+ M ( n i i) i i= = + = = x+ x u x u u D x = ( x ui) ui i= Άρα έχουμε συμπίεση (compression) των αρχικών μας δεδομένων )
Principal component analysis Data pre processing (προ επεξεργασία) Είδαμε ότι σε εφαρμογές όπου διαφορετικές μεταβλητές χαρακτηρίζονται από μεγάλες διαφορές στις τιμές μπορούμε εφαρμόζουμε κανονικοποίηση Π.χ. μπορούμε να κανονικοποιήσουμε αφαιρώντας τη μέση τιμή και διαιρώντας με την τυπική απόκλιση, ώστε οι νέες μεταβλητές να έχουμε μηδενική μέση τιμή και μοναδιαία τυπική απόκλιση Τι σημαίνει αυτό για ένα πρόβλημα δύο διαστάσεων?? Ο πίνακας συνδιακύμανσης των κανονικοποιημένων δεδομένων είναι: ( x ) ( nj j ) ni x x x i ρ ij = σ σ n= i j και οι μέγιστες τιμές του είναι, όταν τα δεδομένα είναι πλήρως συσχετισμένα Μπορούμε να πάμε ένα βήμα παρακάτω χρησιμοποιώντας PCA, και να κανονικοποιήσουμε τα δεδομένα έτσι ώστε ο πίνακας συνδιακύμανσης να γίνει επιπλέον και λευκός (αποσυσχετίζουμε τα δεδομένα whitening transform) Μετασχηματισμός μ ιδιοτιμών για τον S: SU = UL L =diag( λ,..., λ D )
Principal component analysis Αν μετασχηματίσουμε τα αρχικά δεδομένα μας σύμφωνα με την: y L U ( x x) n = n τότε η μέση τιμή του συνόλου {y n } είναι μηδενική και ο πίνακας συνδιακύμανσης είναι: Σ = = = y yn yn L U ( xn x )( xn x ) UL n= n= Σ = L U SUL = L U ULL = L LL = I n= n=
Principal component analysis Σύγκριση με Fisher s LDA: PCA μη επιβλεπόμενη, Fisher s LDA επιβλεπόμενη
Principal component analysis Σε πολλές εφαρμογές (π.χ. εικόνες), ο αριθμός των προτύπων εκπαίδευσης (δεκάδες εκατοντάδες) μπορεί να είναι αρκετά μικρότερος από τη διάσταση του χώρου εισόδου (χιλιάδες εκατομμύρια) Σε αυτές τις περιπτώσεις, ο αριθμός των σημείων Ν(<D) ορίζει έναν υποχώρο του οποίου η διάσταση είναι το πολύ Ν (ισοδύναμα αν εφαρμόσουμε PCA στον αρχικό χώρο θα βρούμε ότι τουλάχιστον D + ιδιοτιμές θα είναι μηδενικές) Άρα η εφαρμογή PCA είναι υπολογιστικά απαιτητική ή( (και περιέχει άχρηστη πληροφορία) Ορίζουμε τον πίνακα Χ ώστε η γραμμή n να είναι ( x x ) n, άρα: XX S = με εξίσωση ιδιοτιμών: XX Sui = λ iui ui = λ iui XX X ui = λ i ( Xui ) XX vi = λ ivi Εξίσωση ιδιοτιμών για τον πίνακα (/Ν)ΧΧ Τ ο οποίος είναι διαστάσεων Νx το οποίο έχει τις ίδιες Ν ιδιοτιμές με το αρχικό πρόβλημα
Τα ιδιοδιανύσματα είναι: XX X X i ( )( v ) ( i = λ vi ) Principal component analysis τα οποία όμως δεν είναι κανονικοποιημένα. Για να κανονικοποιήσουμε: X ui = v / i ( λ i ) Probabilistic, kernel PCA (.,.3)
Αναγνώριση προσώπων Biometrics Χρησιμοποίηση για ταυτοποίηση σε πολλές εφαρμογές
Αναγνώριση προσώπων Biometrics Χρησιμοποίηση για ταυτοποίηση, πολλά πλεονεκτήματα www.biometricgroup.com
Αναγνώριση προσώπων Αναγνώριση προσώπων: σημαντικό πρόβλημα αναγνώρισης προτύπων με πολλές εφαρμογές Ασφάλεια, Επικοινωνία ανθρώπου υπολογιστή, Ταυτοποίηση κλπ. Διάφορα επίπεδα: Ανίχνευση προσώπου σε μια εικόνα Ταυτοποίηση προσώπου Αναγνώριση εκφράσεων, συναισθηματικής κατάστασης Πολύπλοκο πρόβλημα! Περιστροφή Ιδιαίτερα χαρακτηριστικά (γένια, γυαλιά κλπ) Έκφραση Ποιότητα εικόνας Τα νευρικά συστήματα εξελιγμένων ζώων (πίθηκος, άνθρωπος) έχουν εξειδικευμένους νευρώνες για την αναγνώριση προσώπων που λαμβάνουν πληροφορία ρ από τις «κατώτερες» ρ ς οπτικές περιοχές ς(primary visual areas)
Αναγνώριση προσώπων Διάφορες προσεγγίσεις Knowledge based Color based emplate matching Feature based Σύνολο χαρακτηριστικών που περιγράφει ολόκληρο το πρόσωπο ή κάποιες περιοχές του Knowledge based: Κωδικοποίηση διάφορων κανόνων π.χ. δύο μάτια, μύτη, οι τιμές της εικόνας στο κεντρικό μέρος σχετικά ομοιόμορφες κλπ χρειάζονται πολλά δείγματα για να καλύψουμε όλες τις περιπτώσεις!
Αναγνώριση προσώπων Principal Component Analysis Μετατρέπουμε κάθε εικόνα σε διάνυσμα, βρίσκουμε τις κύριες συνιστώσες (πως?) b b c c d d a a b = c = d d = a a = e e = f f = g g = h h = e f g h
Αναγνώριση προσώπων Eigenfaces Όπως είδαμε, μπορούμε να μειώσουμε τη διάσταση του προβλήματος ιδιοτιμών όταν ο αριθμός των προτύπων είναι μικρότερος από τη διάσταση του προβλήματος
Παράδειγμα: Εικόνες 88x64 Αναγνώριση προσώπων Mean and first three principal components Reconstruction with 3 eigenvectors