HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων Διαλέξεις 23-24 Μη επιβλεπόμενη μάθηση (συνέχεια): Μη επιβλεπόμενη μάθηση (συνέχεια): Gaussian mixtures and expectation maximization Feature selection/generation: Ανάλυση κύριων συνιστωσών (Principal component analysis)

Support vector machines -Μη γραμμικά διαχωρίσιμα δεδομένα: ξ n 0(n=,2,,) 0 αν το σηµείο n είναι σωστά ταξινοµηµένο ξn = tn y( xn ) ειδάλλως Τ Περιορισμοί tn( w xn+ b) ξn n=,2,..., Ελαχιστοποίηση της 2 Cξn+ w n= 2 2 L( w, b, a) = w + Cξn an( tny( xn ) + ξ n) µ nξn 2 KK conditions n= n= n=

Δυαδική Lagrangian: Lɶ ( a) = a aa tt ( x, x ) n n m n m n m n= 2 n= m= Support vectors: tn( w Τ xn+ b) = ξn a n <C µ n >0, ξ n =0, πάνω στο περιθώριο a n =C εντός περιθωρίου ξ n σωστάταξινομημένα ξ n > λάθοςταξινομημένα Bias estimation tn amtm( xn, xm) + b = m S Multiclass SVMs one-vs-the-rest: K- 2 class classifiers one-versus-one: (K(K-)/2) 2 class SVMs

0 αν y( x) t < ε SVMs for regression Eε ( y( x) t) = y( x) t - ε αλλιώς Συνάρτηση σφάλματος: n n n CEε ( y( xn) tn) + 2 n= ξ > 0 αν t > y( x ) + ε ˆ ξ > 0 αν t < y ( x ) ε n n n Πρόβλημα βελτιστοποίησης: 2 minimize C ( ˆ ) s.t., ˆ ξn+ ξn + w ξn ξn 0 and 2 Lagrangian n= w t y( x ) + ε+ ξ n n n t ( ) ˆ n y xn ε ξn 2 L= C ( ξ + ˆ ξ ) + w ( µ ξ + ˆ µ ˆ ξ ) n n n n n n n= 2 n= ( ε ξ ( x ) ) ˆ ( ˆ ε ξ ( x ) ) a + + y t a + y + t n n n n n n n n n= n= 2

Συνθήκες: Δυαδική Lagrangian L( aa, ˆ) = ( a aˆ )( a aˆ ) ( x, x ) ε( a + aˆ ) + ( a aˆ ) t 2 KK conditions n n m m n m n n n n n n= m= n= n= a n > 0 ε+ ξn+ y( xn) tn = 0 a ˆ > 0 ε+ ˆ ξ y( x ) + t = 0 n n n n

Unsupervised learning: clustering Εύρεση συνόλου διανυσμάτων µ όπου=,2,,k και την αντιστοιχία κάθε προτύπου σε μια από τις ομάδες r n ={0,}(r n =αν το σημείο x n ανατεθεί στην κλάση ):. Αρχικοποίηση µ 2. Ελαχιστοποίηση J ως προς r n 3. ΕλαχιστοποίησηJ ως προς µ Mixture models: component densities K p( x θ) = p( x C, θ ). pc ( ) = όπου θ= ( θ, θ,..., θ ) 2 mixing parameters

Ορισμός:Μια κατανομή λέγεται αναγνωρίσιμη αν για θ θ τότε υπάρχει xτέτοιο ώστε p(x θ) p(x θ ) K ML estimation: p( x θ) p( x C, θ ) pc ( ) Lielihood: Συνθήκες: = j= = n= j j p( D θ) p( x θ) n== Gaussian mixtures: Άγνωστες μέσες τιμές: Άρα πρέπει: n j pc ( x, θ) ln p( x C, θ ) = 0 =,2,..., K n µ x µ x µ n= K θ = ln p( C, ) ( ) =Σ pc x µ x µ ( n, ) Σ ( n ) = 0 µ = ( µ,..., µ ) n p( x θ) = π ( x µ, Σ ) ( π = pc ( ), p( x C, θ ) = ( x µ, Σ ))

Expectation maximization for Gaussian mixtures K = Επιστρέφουμε στην: p( x θ) π ( x µ, Σ ) = Έστω ότι τα µ, Σ, π είναι άγνωστα. Ορίζουμε το τυχαίο διάνυσμα z(διάσταση Κ) ώστε Η κατανομή για το διάνυσμα είναι επομένως και ισχύει: Η υπό συνθήκη κατανομή του xδεδομένης της τιμής του zείναι: ή ισοδύναμα: Η συνδυασμένη πιθανότητα είναι τότε: p( xz, ) = p( x z) p( z) Επομένως η περιθωριακή πιθανότητα p(x) είναι η αρχική μείξη Γκαουσιανών: p( x) = p( xz, ) = p( x z) p( z) = π ( x µ, Σ ) z z K =

Expectation maximization for Gaussian mixtures Ας υποθέσουμε ότι έχουμε το σύνολο παρατηρήσεων{x,x 2,,x } Για κάθε παρατήρηση x n έχουμε και μια αντίστοιχη τιμή για το τυχαίο διάνυσμα z n Η χρήση των βοηθητικών μεταβλητών z n μπορεί να μας βοηθήσει πως? Μπορούμε να υπολογίσουμε την εκ των υστέρων πιθανότητα p(z = x) από τον κανόνα του Bayes Συγκεκριμένα, η πιθανότητα αυτή αφού πάρουμε μια παρατήρηση x είναι: Prior Posterior (responsibility)

Expectation maximization for Gaussian mixtures Ξαναγράφουμε τις συνθήκες για τις μέσες τιμές των συνιστωσών (μεγιστοποίηση ML): (, ) π x µ Σ n pc ( x n, µ ) Σ ( x n µ ) = 0 Σ ( x n µ ) = 0 K n= n= ( x n µ j, Σj ) πj j= Ισοδύναμα: µ = γ ( z ) x () n= n n όπου = γ ( z ) n= n effective number of points assigned to class Θέτοντας την παράγωγο της πιθανοφάνειας ως προς Σ ίση με μηδέν: (2) Τέλος, πρέπει να μεγιστοποιήσουμε την πιθανοφάνεια ως προς π υπό τη συνθήκη Lagrange multipliers: όπου

Expectation maximization for Gaussian mixtures Παραγωγίζοντας ως προς π : Πολλαπλασιάζοντας επί π και αθροίζοντας ως προς, καθώς παίρνουμε λ=-ν. Κατόπιν πολλαπλασιάζοντας επί π παίρνουμε (αντικαθιστώντας λ=-ν): π( x n µ, Σ ) π( x n µ, Σ ) 0= π K π = K n= n= π ( x µ, Σ ) π ( x µ, Σ ) j= n n= j n j j π = γ ( z ) = Οι εξισώσεις (),(2),(3) είναι συζευγμένες: επαναληπτική λύση j= j n j j (3)

Expectation maximization for Gaussian mixtures. Αρχικοποιούμε τις άγνωστες παραμέτρους µ, Σ και π 2. Υπολογίζουμε τις παραμέτρους γ(z n ) οι οποίες αντιστοιχούν στην τρέχουσα εκτίμηση της εκ των υστέρων πιθανότητας για κάθε κλάση για το σημείο n (responsibilities) γ ( z ) = n π ( x µ ˆ, Σˆ ) K j= n π ( x µ ˆ, Σˆ ) j n j j E- step 3. Υπολογίζουμε τις νέες τιμές των παραμέτρων από τις σχέσεις: µ ( ) x όπου ( ) new = γ zn n = γ zn n= n= Σ = new new new γ ( zn )( x n µ )( x n µ ) n= new π = 4. Υπολογίζουμε το log-lielihood Μ-step 5. Ελέγχουμε αν το log-lielihood ή οι παράμετροι έχουν συγκλίνει

Expectation maximization for Gaussian mixtures Παράδειγμα: Μείξη δύο Γκαουσιανών

Expectation maximization for Gaussian mixtures Γενικώς η σύγκλιση του αλγορίθμου είναι πιο αργή από τον αλγόριθμο K-means και περισσότερο απαιτητική υπολογιστικά Συνήθως αρχικοποιούμε τον αλγόριθμο ΕΜ αφού πρώτα τρέξουμε τον Κ-means (means, sample covariances, prior probabilities) Οι συντελεστές μείξης μπορούν να αρχικοποιηθούν από το κλάσμα των σημείων που ανατίθενται στην αντίστοιχη κλάση Δεν έχουμε εγγυημένη σύγκλιση σε ολικό ελάχιστο

Expectation maximization Στη γενική περίπτωση ο αλγόριθμος expectation maximizationείναι μια γενίκευση της εκτίμησης μέγιστης πιθανοφάνειας (ML) σε περιπτώσεις στις οποίες μπορεί να μας λείπουν κάποια δεδομένα ή σε αυτές όπου δεν είναι δυνατή η αναλυτική βελτιστοποίηση της πιθανοφάνειας ως προς τις παραμέτρους του μοντέλου μας Στην τελευταία περίπτωση μπορούμε να χρησιμοποιήσουμε ένα σύνολο βοηθητικών μεταβλητών(latent variables)για να απλοποιήσουμε την πιθανοφάνεια Έτσι, αν: p( X θ) p( x θ) = n= n ορίζοντας ένα σύνολο βοηθητικών μεταβλητών Ζ, τότε αν οι τελευταίες είναι διακριτές, η περιθωριακή λογαριθμική πιθανοφάνεια είναι: ln p( X θ) = ln p( X,Z θ) Z Στη γενική περίπτωση είναι δύσκολο να βρεθεί η λύση μέγιστης πιθανοφάνειας της παραπάνω Αν για κάθε παρατήρηση που ανήκει στο Χγνωρίζουμε και την αντίστοιχη τιμή του Zδηλ. το {X,Z}: complete set {X}(σύνολο παρατηρήσεων): incomplete set

Expectation maximization Λογαριθμική πιθανοφάνεια για το σύνολο {X,Z}: ln p( XZ, θ) Υποθέτουμε ότι η μεγιστοποίηση της συνολικής πιθανοφάνειας είναι δυνατή Στην πράξη μόνο το Χείναι γνωστό και η μόνη γνώση που έχουμε για το Ζ προέρχεται από την εκ των υστέρων πιθανότητα p(z X,θ) Καθώς η συνολική πιθανοφάνεια είναι άγνωστη, θεωρούμε την αναμενόμενη τιμή τηςυπό την ανωτέρω εκ των υστέρων πιθανότητα (E step) και Μεγιστοποιούμε αυτή την αναμενόμενη τιμή (Μ step) Η διαδικασία είναι επαναληπτική και μας δίνει μια νέα εκτίμηση θ new, ανανεώνοντας την προηγούμενη θ old Για να υπολογίσουμε την αναμενόμενη τιμή υπολογίζουμε αρχικά την εκ των υστέρων p(z X,θ old ) και κατόπιν την (υπό συνθήκη) αναμενόμενη τιμή: Η νέα εκτίμηση δίνεται επομένως από την:

Expectation maximization Άρα ο αλγόριθμος στη γενική του μορφή είναι: Αρχικοποίηση θ 0 Υπολογισμός και (Ε step expectation) Ενημέρωση των παραμέτρων από την (M step maximization) Έλεγχος σύγκλισης για τη λογαριθμική πιθανοφάνεια ή τις παραμέτρους Σε κάθε βήμα έχουμε αύξηση της μερικής πιθανοφάνειας p(x θ). Επίσης, η σύγκλιση σε τοπικό μέγιστο είναι εγγυημένη Μπορούμε να ενσωματώσουμε και μια εκ των προτέρων πιθανότητα για τις παραμέτρους p(θ) μεγιστοποίηση της στο βήμα Μ Μπορούμε να χρησιμοποιήσουμε τον αλγόριθμο ΕΜ και στην περίπτωση που οι βοηθητικές μεταβλητές αντιστοιχούν σε χαμένα δεδομένα (όπου αυτά αντιστοιχούν στο Ζ). Επίσης οι βοηθητικές μεταβλητές μπορεί να είναι συνεχείς (ολοκλήρωμα αντί για άθροισμα στην αναμενόμενη τιμή)

Expectation maximization Επιστρέφουμε στο πρόβλημα της μείξης Γκαουσιανών κατανομών. Η λογαριθμική πιθανοφάνεια είναι: Εδώ οι βοηθητικές μεταβλητές Ζείναι οι συντελεστές π. Η συνολική πιθανοφάνεια είναι: Log-lielihood: Η μορφή αυτή, όπου τα z n θεωρούνται γνωστάείναι απλούστερη στη λύση της με μέγιστη πιθανοφάνεια Επειδή το z n είναι μόνο αν το σημείο n ανατίθεται στην κλάση, η μεγιστοποίηση ως προς µ ή Σ είναι παρόμοια με την περίπτωση κλάσης αλλά απλά περιλαμβάνει μόνο τα σημεία που ανατίθενται στην κλάση Για τους συντελεστές μείξης π χρησιμοποιούμε πολλ/στεςlagrangeοπότε παίρνουμε:

Expectation maximization Οι τιμές των z n όμως δεν είναι γνωστές, άρα πρέπει να εκτιμηθούν (Ε step). Η εκ των υστέρων πιθανότητα για το Ζ είναι (κανόνας Bayes): καθώς και Η αναμενόμενη τιμή της μεταβλητής z n είναι: n Hαναμενόμενη τιμή της λογαριθμικής πιθανοφάνειας ως προς z n είναι: Καταλήξαμε επομένως στο ίδιο αποτέλεσμα με πριν

Επιλογή/ δημιουργία χαρακτηριστικών (Feature selection/ generation) Όπως έχουμε δει ήδη, η επιλογή των χαρακτηριστικών (features) σε ένα πρόβλημα είναι ιδιαίτερα σημαντική Η επιλογή αυτή επηρεάζει τις διαστάσεις του προβλήματος, άρα και την υπολογιστική του πολυπλοκότητα Μπορεί να επηρεάσει επίσης και την ικανότητα γενίκευσης της λύσης πολλά χαρακτηριστικά μεγαλύτερος αριθμός άγνωστων παραμέτρων Γενικά θέλουμε να επιλέξουμε τον μικρότερο δυνατό αριθμό χαρακτηριστικών χωρίς να χάνουμε σημαντική πληροφορία, καθώς έχουμε πεπερασμένο αριθμό παρατηρήσεων π.χ. αν έχουμε χαρακτηριστικά που είναι ισχυρά συσχετισμένα μεταξύ τους δεν είναι αναγκαίο να τα χρησιμοποιήσουμε όλα στον αλγόριθμό μας Πως μπορούμε να επιλέξουμε τα πιο σημαντικά χαρακτηριστικά από ένα σύνολο πιθανών χαρακτηριστικών? Feature selection Έχουμε ήδη εξετάσει αυτό το πρόβλημα από τη σκοπιά της επιλογής μοντέλου Εναλλακτικά, πως μπορούμε να δημιουργήσουμε ένα (πιθανόν) νέο σύνολο χαρακτηριστικών με βάση το αρχικό μας σύνολο? Feature generation Fisher s linear discriminant

Principal component analysis Feature generation: Σκοπός ο μετασχηματισμός των αρχικών μας χαρακτηριστικών σε ένα νέο σύνολο που απλοποιεί το πρόβλημά μας Μια πολύ δημοφιλής τεχνική αυτού του τύπου είναι η ανάλυση κύριων συνιστωσών (principal component analysis) Σε πολλές περιπτώσεις, οι βαθμοί ελευθερίας σε ένα πρόβλημα είναι πολύ λιγότεροι από τις διαστάσεις στο χώρο εισόδου Π.χ. χαρακτήρες ίδιου τύπου οριζόντια/κάθετη μετατόπιση και περιστροφή σε μια εικόνα 00x00: 0,000-διάστατος χώρος εισόδου Βαθμοί ελευθερίας: 3! (intrinsic dimensionality) Ακόμη και για πιο περίπλοκους μετασχηματισμoύς, οι βαθμοί ελευθερίας είναι (συνήθως) κατά πολύ λιγότεροι από τη διάσταση του χώρου εισόδου

Principal component analysis Principal component analysis (Ανάλυση κύριων συνιστωσών)/ Karhuenen-Loeve transform: τεχνική που χρησιμοποιείται ευρέως για τη μείωση των διαστάσεων ενός προβλήματος, δημιουργία χαρακτηριστικών (feature generation) Η μέθοδος PCA αναζητάει έναν χώρο χαμηλότερης διάστασης (principal subspace) ώστε η ορθογώνια προβολή των δεδομένωνσε αυτόν τον χώρο να μεγιστοποιεί τη διασπορά των προβαλλόμενων σημείων Έστω ότι έχουμε ένα σύνολο Ν παρατηρήσεων {x n} με διάσταση D και θέλουμε να προβάλλουμε σε χώρο διάστασης Μ<D Έστω ότι Μ=. Η κατεύθυνση αυτού του χώρου ορίζεται από την κατεύθυνση ενός (άγνωστου) διανύσματος διάστασης D u το οποίο μπορούμε να διαλέξουμε ώστε uu = Προβολές των αρχικών σημείων: x ɶn =uxn Μέση τιμή των προβαλλόμενων δεδομένων ux= u x n = n

Principal component analysis Διασπορά των προβαλλόμενων δεδομένων ( n ) n= 2 = u x u x u Su S= n n n= ( x x)( x x) t Μεγιστοποίηση της διασποράς ως προς u υπό τον περιορισμό u u = Lagrange multiplier λ μεγιστοποίηση της usu + λ ( uu ) Παραγωγίζοντας ως προς u Su =λ u Άρα το u είναι ιδιοδιάνυσματου S!Η αντίστοιχη διασπορά είναι: Τ usu = λ και είναι μέγιστη για το ιδιοδιάνυσμα που αντιστοιχεί στη μέγιστη ιδιοτιμή Μπορούμε να ορίσουμε επιπρόσθετες συνιστώσες ( umx ) επιλέγοντας τα Μ ιδιοδιανύσματα u,,u Μ που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές του πίνακα S.

Principal component analysis Εναλλακτική διατύπωση έστω η πλήρης ορθοκανονικήβάση {u i }στο χώρο D R (άρα uiuj =δij ) Εφόσον έχουμε πλήρη βάση, υπάρχουν συντελεστές a ni τέτοιοι ώστε για κάθε x R D D : n xn =aniui i= () Άρα έχουμε ένα νέο σύστημα συντεταγμένων που ορίζεται από τα διανύσματα {u i }και τους συντελεστές (i=,2,,d). Από την (): D D n = ani i n j = ani i j anj = n j i= i= x u x u u u x u x n = D ( ) i= x u u n i i a ni Έστω τώρα ότι θέλουμε να προσεγγίσουμε το σημείο x n χρησιμοποιώντας Μ<D διανύσματα από τη βάση. Μπορούμε να προσεγγίσουμε κάθε σημείο ως: M x ɶ = z u + b u n ni i i i i= i= M+ D όπου οι συντελεστές b i δεν εξαρτώνται από το σημείο αλλά είναι οι ίδιοι για όλα τα σημεία.

Principal component analysis Ποια είναι τα {u i }, {z ni }, {b i } που ελαχιστοποιούν το σφάλμα προσέγγισης? Ελαχιστοποίηση της J n n = x xɶ n = 2 Ως προς z nj : z nj =xnuj j=,2,,m x= x Ως προς b j : b j=m+,,d j =x u n = j Αντικαθιστώντας: D M D ( ) z x x ɶ = x u u u b u = n n n i i ni i i i i= i= i= M+ D i= M+ {( n ) } = x x u u i i n Άρα η διαφορά μεταξύ των δύο διανυσμάτων βρίσκεται σε ένα χώρο ορθογώνιο στον κύριο υποχώρο. Τελικά: J ( x u x u ) 2 D D n i i uisui n= i= M+ i= M+ = = Ελαχιστοποίηση ως προς u i : Πχ για D=2, M= πρέπει να διαλέξουμε το u 2 ώστε το ελάχιστο υπό τον περιορισμό u u = 2 2 J =u2su2 να είναι

Principal component analysis Παρόμοια με πριν Lagrange multipliers, ελαχιστοποίηση της Su = λ u J = λ 2 2 2 2 u Su + λ ( u u ) 2 2 2 2 2 Άρα πρέπει να διαλέξουμε το ιδιοδιάνυσμα u 2 που αντιστοιχεί στη μικρότερη ιδιοτιμήτου S(οπότε αυτομάτως το u είναι το ιδιοδιάνυσμα που αντιστοιχεί στη μεγαλύτερη ιδιοτιμή) Στη γενική περίπτωση Μ<D έχουμε D J = λi i= M+ επομένως παίρνουμε ακριβώς το ίδιο αποτέλεσμα (principal subspace: ιδιοδιανύσματα που αντιστοιχούν στις Μ μεγαλύτερες ιδιοτιμές του πίνακα S)

Παράδειγμα Principal component analysis Eigenvalue spectrum J D = i= M+ λ i

Η προσέγγιση μπορεί να γραφτεί: καθώς: M xɶ = z u + bu = n ni i i i i= i= M+ M D ( xnui ) ui i= i= M+ M = x+ ( x u x u ) u i= n i D Principal component analysis ( ) = + x u u = x D = i= ( x u ) u i i i i i i Η παραπάνω σχέση μπορεί να ερμηνευθεί ως συμπίεση (compression) των αρχικών μας δεδομένων

Principal component analysis Data pre-processing (προ-επεξεργασία) Είδαμε ότι σε εφαρμογές όπου διαφορετικές μεταβλητές χαρακτηρίζονται από μεγάλες διαφορές στις τιμές μπορούμε να εφαρμόσουμε κανονικοποίηση Π.χ. μπορούμε να κανονικοποιήσουμε αφαιρώντας τη μέση τιμή και διαιρώντας με την τυπική απόκλιση, ώστε οι νέες μεταβλητές να έχουν μηδενική μέση τιμή και μοναδιαία τυπική απόκλιση Τι σημαίνει αυτό για ένα πρόβλημα δύο διαστάσεων? Ο πίνακας συνδιακύμανσης των κανονικοποιημένων δεδομένων(χαρακτηριστικών) είναι: ( x ) ( nj j ) ni x x x i ρij = σ σ n= i j H μέγιστη τιμή του στοιχείου ijείναι, όταν τα αντίστοιχα χαρακτηριστικάx i και x j είναι πλήρως συσχετισμένα Μπορούμε να πάμε ένα βήμα παραπέρα χρησιμοποιώντας PCA,και να κανονικοποιήσουμετα δεδομένα έτσι ώστε ο πίνακας συνδιακύμανσης να γίνει επιπλέον και λευκός (αποσυσχετίζουμε τα δεδομένα whitening transform) Μετασχηματισμός ιδιοτιμών για τον S: SU= UL L=diag( λ,..., λ D )

Principal component analysis Αν μετασχηματίσουμε τα αρχικά δεδομένα μας σύμφωνα με την: y L U ( x x) 2 n = n τότε η μέση τιμή του συνόλου {y n } είναι μηδενική και ο πίνακας συνδιακύμανσης είναι: Σ = y y = L U x x x x UL = 2 2 y n n ( n )( n ) n= n= 2 2 2 2 2 2 = = = = L U SUL L U ULL L LL I

Principal component analysis Σύγκριση με Fisher s LDA: PCA μη επιβλεπόμενη, Fisher s LDA - επιβλεπόμενη

Principal component analysis Σε πολλές εφαρμογές (π.χ. εικόνες), ο αριθμός των προτύπων εκπαίδευσης (δεκάδες εκατοντάδες) μπορεί να είναι αρκετά μικρότερος από τη διάσταση του χώρου εισόδου (χιλιάδες εκατομμύρια) Σε αυτές τις περιπτώσεις, ο αριθμός των παρατηρήσεων Ν(<D) ορίζει έναν υποχώροτου οποίου η διάσταση είναι το πολύ Ν- (ισοδύναμα αν εφαρμόσουμε PCA στον αρχικό χώρο θα βρούμε ότι τουλάχιστον D-+ ιδιοτιμές θα είναι μηδενικές) Άρα η εφαρμογή PCA είναι υπολογιστικά απαιτητική (και περιέχει άχρηστη πληροφορία) X X Ορίζουμε τον πίνακα Χώστε η γραμμή nνα είναι ( x x ) n, άρα: S= με εξίσωση ιδιοτιμών: X Sui = λiui X ui = λiui XX X ui = λi ( Xui ) XX vi = λivi Εξίσωση ιδιοτιμών για τον πίνακα (/Ν)ΧΧ Τ ο οποίος είναι διαστάσεων Νxκαι έχει τις ίδιες Ν- ιδιοτιμές με το αρχικό πρόβλημα

Τα ιδιοδιανύσματα είναι: X X X X i ( )( v ) ( i =λ vi) Principal component analysis τα οποία όμως δεν είναι κανονικοποιημένα. Για να κανονικοποιήσουμε u i = ( λ i ) /2 X v i