Μοντέλα Παλινδρόμησης και Επεξεργασία Γνώσης ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Τμημα Μαθηματικων Αριστοτελειο Πανεπιστημιο Θεσσαλονικης 544 Regression Models and Knowledge Processing WINTER SEMESTER School of Mathematics Aristotle University of Thessaloniki 544 Φασματικη Αναλυση Συνδιασπορας Principal Components Analysis Singular Value Decomposition Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr
Συνδιασπορα (Covariance) cov(x,y) = σ XY = E[(X m X )(Y m Y )] = E[XY] E[X]E[Y] = E[XY] m X m Y σ XY = κ,λ (x ν m X )(y ν m Y )ρ κλ Διακριτες Μεταβλητες σ XY = + dxdy(x m X )(y m Y )ρ(x. y) Συνεχεις Μεταβλητες σ XX =cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = cor[x,x] E[X] = σ Χ
Λημμα ) cov(x,y) = E[XY] E[X]E[Y] = E[XY] m X m Y ) Covariance is not a SP οf the variables X,Y. Covariance is a SP of the centered Variables (X m X ), (Y m Y ) () Covariance is a bilinear Form: α,β real numbers cov[ α X + α X, Υ] = α cov[x, Υ] + α cov[x, Υ] cov[ X, β Υ + β Υ ] = β cov[x, Υ ] + β cov[x, Υ ] cov[α X + α X, β Υ + β Υ ] = = α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] () cov(a,b) = cov(b,a) (3) cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = σ 0 (4) cov[x,x] = 0 σ = 0 X is a constant random variable, ae 3) cov ( X m X σ X, Y m Y σ Y ) = σ X σ Y cov(x, Y) = r(x, Y), Αλλαγη σε Τυποποιημενες Μεταβλητες
Θεωρημα For random variables with finite variance: ) cov(x, Y) var(x) var(y) cov(x,y) var(x) var(y) cov(x,y) var(x) var(y) cov(x,y) var(x) var(y) = Pearson s Coefficient ) cov(x, Y) = var(x) var(y) Y m Y = cov(x,y) X m X var(x) = ± var(x) var(y)
Proof: H Ανισοτης Cauchy Schwarz: x y x x y y Οπου: x y = x ν ν y ν το Βαθμωτο Γινομενο των διανυσματων x = ( Είναι: x y = x x y y y = x y x x x = ± x x x y y x x ), y = ( y y ) x = X m X y = Y m Y x y = E[xy] = cov(x, Y) x x = var(x) y y = var(y) Η Συνδιασπορα ως Εκτιμηση της Γραμμικης Αλληλεξαρτησης των Χ, Υ
Pearson's coefficient (Συντελεστης Συνδιασπορας Pearson) r(x, Y) = r XY = cov(x, Y) var(x) var(y) = σ XY σ Χ σ Υ = cov ( X m X σ X, Y m Y σ Y ) mx = E(X), my = E(Y), σ Χ = E[(X mx ) ] = E[X ] m X, σy = E[(X my ) ] = E[Y ] m Y σ Χ = (x ν m X ) ν p ν σ Χ = + dx(x m X ) ρ(x)
Δειγμα Μ Μετρησεων των Μεταβλητων Χ,Υ Variable X Variable Y Observation χ y Observation χ y Observation M χ Μ y Μ Συνδιασπορα (Covariance) Δείγματος σ XY = Μ ν= (χ ν m Χ)(y ν m Υ) Μ Αμεροληπτη Συνδιασπορα Δείγματος: s XY = Μ ν= (χ ν m Χ)(y ν m Υ) Μ = Μ Μ σ XY Διορθωση Bessel s X = M ν= (χ ν m ) M = M M ν= M (χ ν m ) M = M M σ X
Τυποποιημενη Συνδιασπορα Δείγματος = Συνδιασπορα (Pearson) Δείγματος = Συσχετιση (Pearson) Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: r ΧΥ = M Μ ( χ ν m Χ ) ( y ν m Υ ν= ) = Μ σ Χ σ Υ M ν= ( χ ν m X ) ( y ν m Y ) s X s Y = r ΧΥ ενσωματωνει την Διορθωση Bessel
Αποδειξη r XY = σ XY σ Χσ Υ = = M ν= (χ ν m Χ)(y ν m Υ) Μ = σ Χσ Υ (χ ν m Χ)(y ν m Υ) M M ν= M ν= (χ ν m Χ) M Μ ν= M ν= (y ν m Υ) M ( χ ν m Χ σ Χ = Μ ) ( y ν m Υ ) σ Υ M ν= (χ ν m Χ)(y ν m Υ) M ν= (χ ν m Χ) M ν=(y ν m Υ) r (X, Y) = s XY s Χ s Υ = M ν= (χ ν m Χ)(y ν m Υ) M M (χ ν m Χ) ν= M (y ν m Υ) M ν= M = = M ν= (χ ν m Χ)(y ν m Υ) M (χ ν m Χ) ν= M (y ν m Υ) ν=
Συνδιασπορα Ν Μεταβλητων Χ, Χ,, Χ N σ κλ = cov(χ κ, Χ λ ) = E[(Χ κ m κ ) (Χ λ m λ )] σ κλ = cov(χ κ, Χ λ ) = E[Χ κ Χ λ ] m κ m λ m κ = E[Χ κ ] η Μεση Τιμη της Χ κ Ο Πινακας Συνδιασπορας των Ν Μεταβλητων Χ, Χ,, Χ N σ σ Ν σ = ( ) σ Ν σ ΝΝ σ Μη Αρνητικος Συμμετρικος Πινακας, αρα Διαγωνιοποιησιμος
Ο Πιναξ Συσχετισεων των Ν Μεταβλητων Χ, Χ,, Χ N r r Ν r = ( ) r Ν r ΝΝ r κλ = σ κλ σ κ σ λ = cov ( X κ m κ σ κ, Y m Y ) = cov ( X κ, X λ ) = cov(x σ Y σ κ σ λ σ κ σ κ, X λ ) λ Η Συσχετιση (Pearson) των Μεταβλητων Χ κ, Χ λ
Δειγμα Μ Μετρησεων των N Μεταβλητων Χ, Χ,, Χ N Data Matrix Μ Ν Variables X X X ν X N Observation χ χ χ ν χ N Observation χ χ χ ν χ N Observation μ χ μ χ μ χ μν χ μn Observation M χ M χ M χ Mν χ MN
Πιναξ Μετρησεων (Data Matrix): χ x N Χ = ( ) = (χ,, χ Ν ) χ M x MN Διανυσμα των Παρατηρησεων της Μεταβλητης X ν, ν=,,,ν: χ ν ( ) = χ v = η στηλη ν του Πινακα Μετρησεων χ Mν Διανυσμα της Παρατηρησης μ (των Ν Μεταβλητων X ν, ν=,,,ν): χ μ ( ) = (χ μ, χ μ,, χ μν ) Τ χ μν (χ μ, χ μ,, χ μν ) = η γραμμη μ του Πινακα Μετρησεων
Relational Data Base Μ Ν Instances Πραγματοποιησεις Περιπτωσεις Περιστατικα Records, Registrations Καταγραφες Attributes Γνωρισματα, Iδιοτητες X X X ν X N χ χ χ ν χ N χ χ χ ν χ N μ χ μ χ μ χ μν χ μn M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Instance Profile of the Attribute Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Αttribute Profile of the μ-instance
Gene Expression Matrix Μ Ν Expressions Εκφρασεις Περιπτωσεις Περιστατικα Genes Γονιδια X X X ν X N Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μν χ μn Expression M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Expression Profile of the Gene Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Expression Profile of the μ-instance Στην Βιολογια συνηθως εργαζονται με τον Συζυγη Πινακα Ν M Alter O., Brown P., Botstein D. 000, Singular value decomposition for genome-wide expression data processing and modeling, Proc Natl Acad Sci USA 97:00-06.
Neural Net Matrix Μ Ν Inputs X X X ν X N Outputs Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μν χ μn Expression M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Expression Profile of Input Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Expression Profile of the μ-output
σ κλ = Μ ν= ( χ νκ m κ)(χ νλ m λ) Μ οπου χ να η τιμη της ν-μετρησης της Μεταβλητης X α m α η Δειγματικη Μεση Τιμη της Μεταβλητης X α Αμεροληπτη Συνδιασπορα Δειγματος s κλ = Μ Μ ν= ( χ νκ m ν)(χ νλ m λ) Διορθωση Bessel
Συσχετιση (Pearson) Δείγματος = Τυποποιημενη Συνδιασπορα Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: Μ r κλ = M (χ νκ m κ ) ( χ νλ m λ ) σ κ σ λ ν= M = M (χ νκ m κ ν= s κ ) ( χ νλ m λ ) = r κλ s λ ενσωματωνει την Διορθωση Bessel
Λημμα: σ σ N σ = ( ) = σ Ν Μ ΨT Ψ σ MN s s N s = ( ) = Μ ΨT Ψ s Ν s MN Data Matrices r r N r = ( ) = r Ν r Μ ΖT Ζ MN ψ ψ N Ψ = ( ), ψ κλ = χ κλ m λ, ψ M ψ MN z z N Z = ( ), z κλ = χ κλ m λ σ λ z M z MN
ΠΑΡΑΔΕΙΓΜΑ: Ο Πιναξ Συσχετισεων Ν Ανεξαρτητων ανα Μεταβλητων είναι Διαγωνιος : Συμβαση σ κλ = σ Χκ Χ λ = 0 Αναδιατασσουμε τις Ν Μεταβλητες ώστε οι αντιστοιχες Διασπορες Να διατασσονται κατά φθινουσα σειρα: σ > σ > >σ Ν σ 0 0 σ = 0 σ ( 0 σ Ν ) (Ορθες μοναδες μετρησης) Για Ανεξαρτητες Μεταβλητες Χ,Υ: σ ΧΥ = 0 σ = ( σ 0 0 σ ) σ = max(σ Χ, σ Υ ), σ = min(σ Χ, σ Υ )
Μπορω να Μετασχηματισω τις Μεταβλητες Ψ, Ψ,, Ψ N σε Ν Ανεξαρτητες μεταβλητες Υ, Υ,, Υ N με τις ιδιες Διασπορες σ Χκ = σ Υκ = σ κ? Bεβαιως! Μεσω της Διαγωνιοποιησης του Πινακα Συνδιασπορας σ (Μη Αρνητικος Συμμετρικος, αρα Διαγωνιοποιησιμος). U T σ U = σ 0 0 0 σ ( 0 σ Ν ) = U T (Ψ T Ψ)U u u u u u Ν u Ν U = ( ) = (u u u N ) u Ν u Ν u ΝΝ
U ο Πιναξ N N με στηλες τα ιδιοανυσματα u ν, ν=,,,ν του Πινακα σ u ν u ν u ν = ( ) : σu ν = λ ν u ν u Νν U T σu = U T (Ψ T Ψ)U = Υ T Υ y y N Υ = ( ) o Πιναξ Δεδομενων των Μεταβλητων Υ, Υ,, Υ N y M y MN που οριζονται από τον Γραμμικο Μετασχηματισμο Υ Ψ u u Υ ( Ψ ) = U ( u u u Ν Ψ u Ν Ψ ) = ( ) ( ) Υ Ν Ψ Ν u Ν u Ν u ΝΝ Ψ Ν
Ορισμος Κυριες Συνιστωσες (Principal Components) του Πινακα Συνδιασπορας = Οι Φασματικες Συνιστωσες που οριζονται απο τα ιδιοανυσματα Του N x N Πινακα Συνδιακυμανσης Για κάθε Διανυσμα Μετρησης χ των Ν Μεταβλητων: χ χ = ( ) χ Ν Οριζω Αναπτυγμα σε Κυριες Συνιστωσες του χ = Το Φασματικο Αναπτυγμα του του χ ως τους αξονες των ιδιανυσματων του N x N Πινακα Συνδιακυμανσης
Κυριες Συνιστωσες. Σημασια ) Τα ιδιοανυσματα προκυπτουν απο (Ν-διαστατη) στροφη ) Οι Πρωτες Κυριες Συνιστωσες φερουν την μεγαλυτερη και σημαντικοτερη Πληροφορια 3) Οι Μεταβλητες Υ, Υ,, Υ N οριζουν τις συντεταγμενες των Μετρησεων στις Κυριες Συνιστωσες
Παραδειγμα: Πιναξ Συνδιασπορας Μεταβλητων ( dim Covariance Matrix) σ = ( σ ΧΧ σ ΧΥ σ ΧΥ σ ) = ( σ Χ σ ΧΥ ΥΥ σ ΧΥ σ ) = ( σ Χ cov[χυ] ) Υ cov[χυ] σ Υ σ = ( E[ΧΧ] m Χ m Χ E[ΧΥ] m Χ m Υ ) E[ΥΧ] m Υ m Χ E[ΥΥ] m Υ m Υ det (σ) = σ Χ σ Υ σ ΧΥ σ = det (Σ) ( σ ΥΥ σ ΧΥ σ ΧΥ σ ) = ΧΧ σ Χ σ Υ σ ( σ Y σ ΧΥ ΧΥ σ ΧΥ σ ) Χ
Προβλημα Ιδιοτιμων του Πινακα Συνδιασπορας : Eigenvalues σ = σ Χ + σ Υ + (σ Χ σ Υ ) 4σ ΧΥ σ = σ Χ + σ Υ (σ Χ σ Υ ) 4σ ΧΥ Eigenvectors u = n ( σ Χ + σ ΧΥ σ σ Υ + σ ΧΥ σ ) u = n ( σ Χ + σ ΧΥ σ σ Υ + σ ΧΥ σ )
σ = U ( σ 0 0 σ ) UT U = (u u ) Τα ορθογωνια ιδιοανυσματα u και u οριζουν τις Κατευθυνσεις μεγιστης και ελαχιστης συνδιασπορας Oι προβολες ενός διανυσματος μετρησης χ = ( χ χ ) στις κατευθυνσεις των ιδιοανυσματων u και u ειναι Οι Κυριες Συνιστωσες (Principal Components) του χ
Λημμα Φασματικη Αναλυση Διαγωνισιμων Πινακων α 0 0 Ν 0 α A = U ( 0 ) U = a ν ( ν= 0 0 Au ν = α ν u ν u ν u ν u Nν ) (η ν, η ν,, η νn ) Συμβαση: Οι ιδιοτιμες διατασσονται κατά φθινουσα σειρα: α > α > u u u U = (u u u N ) u u Ν u Ν = ( ) = Ο Modal Matrix του Α u Ν u Ν u ΝΝ u ν U ο Πιναξ N N με στηλες τα ιδιοανυσματα u ν = ( ), ν=,,,ν του Πινακα Α u Νν U = ( η η η η η Ν η Ν ) ο Αντιστροφος του U η Ν η Ν η ΝΝ u ν
Φασματικη Αναλυση (της Δρασης) του Πινακα Α Spectral Decomposition of the Action of A χ u ν χ Α( ) = Ν u ν ν= a ν ( χ N u Nν ) (η ν, η ν,, η νn ) ( u ν χ χ ) = Ν u ν ν= a ν ( ) ( Ν η νκ χ κ χ N u Nν κ= ) Φασματικες Συνιστωσες Διανυσματων Decomposition of Vectors in Spectral Components ( χ Ν Ν χ ) = ( η νκ χ κ χ ν= κ= N ) ( u ν u ν u Nν ) Ν Ν = ( η νκ χ κ ) u ν ν= κ= ( Ν η νκ χ κ κ= )u ν η ν-φασματικη Συνιστωσα του Διανυσματος ( χ χ ) χ N
Normal Matrices: A A = AA The Eigenvector basis is Orthogonal Unitary (Normal) Matrices: A = A Eigenvalues on the complex unit circle Hermitian (Normal) Matrices: A = A Eigenvalues Real A = U ( α 0 0 0 α 0 ) U 0 0 U is Unitary Matrix U = U Real Symmetric (Normal) Matrices: A T = A Eigenvalues Real A = U ( α 0 0 0 α 0 ) U T 0 0 Q is Orthogonal Matrix U = U T
ΠΑΡΑΔΕΙΓΜΑ Συμμετρικος Πιναξ A=( 4 3 3 4 ) Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = 5 α = -5 e= ( 3 ) ( 4 3 3 4 ) ( 3 ) = 5 ( 3 ) e= ( 3 ) ( 4 3 3 4 ) ( 3 ) = ( 5) ( 3 )
e e = ( 3 ) ( 3 ) = 3 + 3 = 0 Κανονικοποιηση: e = + 3 = 0 e = ( 3) + = 0 u = e ( 3 ) = 0 ( 3 ) u = e ( 3 ) = 0 ( 3 )
Diagonalizing Matrix: Diagonalization U = (u u ) = 0 ( 3 3 ) U = U T = 0 ( 3 3 ) U A U = 0 [( 3 3 ) ( 4 3 3 0 ) ( )] = (5 3 4 3 0 5 ) U A U = 0 3 3 [5 ( ) ( 3 3 )] U A U = [( 3 3 ) ( 3 3 )] U A U = 0 0 [ (5 )] = (5 0 5 0 5 ) ( 3 3 ) ( 4 3 3 4 ) = ( 5 5 5 5 ) = 5 ( 3 3 ) ( 3 3 ) ( 3 3 ) = (0 0 0 0 ) = (5 0 0 5 )
ΠΑΡΑΔΕΙΓΜΑ Πραγματικος Διαγωνιοποιησιμος Πιναξ Eigenvalues Eigenvectors a = 3 a = a = e = ( ) 0 e = ( 0) e 3 = ( 0 ) 0 A = ( 0 3 0) 4
Μηκη e, e, e 3 : e = ( ) + ( ) +() = 6 e = 0 + 0 +() = e3 = ( ) + 0 +() = 5 Τα e, e, e 3 δεν είναι ορθοκανονικα: e e = ( e e 3 = ( e e 3 = ( 0 ) ( 0) = ) ( 0 ) = 5 0 0) ( 0 ) =
Diagonalizing Matrix: Diagonalization U = (e e 0 e 3 ) = ( 0 0 ) 0 0 U = ( 0 ) 0 0 0 0 0 3 0 0 U A U = ( 0 ) ( 0 3 0) ( 0 0 ) = ( 0 0) 0 4 0 0
Spectral Decomposition οf Α A = U ( 3 0 0 0 0 0 0 ) U = ( 0 0 0 ) ( 3 0 0 0 0 0 0 ) ( 0 0 0 0 0 A = 3 ( ) (0,, 0) + ( 0) (,0,) + ( 0 ) (,,0) Spectral Decomposition of the Action of A χ χ 0 χ χ Α( χ ) = 3 ( ) (0,, 0) ( χ ) + ( 0) (,0,) ( χ ) + ( 0 ) (,,0) ( χ ) χ 3 χ 3 χ 3 χ 3 ) = χ 0 Α( χ ) = 3( χ ) ( ) + (χ + χ 3 ) ( 0) + ( χ + χ ) ( 0 ) χ 3 χ χ 0 χ χ Α( χ ) = 3 ( χ ) + ( 0 ) + ( 0 ) χ 3 χ χ + χ 3 χ + χ
Decomposition of Vectors in Spectral Components χ ( χ ) = ( χ 3 χ χ ) + ( χ 0 χ χ 0 ) + ( 0 ) χ + χ 3 χ + χ χ χ ( χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ χ 3 0 ( 0 ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ + χ 3 χ 3 χ χ χ ( 0 ) η 3 η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ + χ χ 3 χ
ΠΑΡΑΔΕΙΓΜΑ Markov Matrix 0.9 0.3 A=( 0. 0.7 ) Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = α = 0.6 0. 75 0.3 75 75 e= ( ) (0.9 ) (0. ) = (0. 0. 5 0. 0.7 0. 5 0. 5 ) e= ( 9 0.3 ) (0. 0. 0. 7 ) ( ) = 0. 6 ( )
Τα διανυσματα e, e δεν είναι μοναδιαια e = (0. 75) + (0. 5) 0.79 e = Τα διανυσματα e, e δεν είναι ορθογωνια e e = 0. 75 0. 5 = 0. 5 0
Diagonalizing Matrix U = (e e ) = ( 0.75 0. ) U = ( ), A Non-Symmetric Non-Normal στον H= R 0.5 0.75 Diagonalization U A U = ( 0.3 ) (0.9 0.5 0.75 0. 0.7 ) (0.75 0. ) = ( 0 0 0.6 )
Spectral Decomposition οf Α A = U ( 0 0 0.6 ) U = ( 0.75 0. ) ( 0 0 0.6 ) ( 0.5 0.75 ) = 0. 75 A = ( 0. 5 ) (,) + 0. 6 ( ) (0.5, 0,75) Spectral Decomposition of the Action of A Α( χ χ ) = ( Α( χ χ ) = ( 0. 75 0. 5 ) (,) (χ χ ) + 0. 6 ( ) (0.5, 0,75) (χ χ ) 0. 75 0. 5 ) (χ + χ ) + 0. 6 ( ) (0.5χ 0,75χ ) Α( χ χ ) = ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) + 0. 6 ( 0.5χ 0,75χ 0.5χ + 0,75χ )
Decomposition of Vectors in Spectral Components ( χ χ ) = ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) + ( 0.5χ 0,75χ 0.5χ + 0,75χ ) ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ χ ) ( 0.5χ 0,75χ 0.5χ + 0,75χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ χ )
Mπορω να αναλυσω εναν Μ Ν Πινακα Δεδομενων, όπως τον Πινακα: χ χ N Χ = ( ) χ M χ MN σε Συνιστωσες για περαιτερω επεξεργασια? Θεωρημα Αναλυσης Πινακων (Μ Ν) σε Ιδιαζουσες Τιμες Singular Value Decomposition (SVD) Theorem Γενικευση Φασματικης Αναλυσης Τετραγωνικων Πινακων
Theorem (SVD) Singular Value Decomposition of the Μ Ν matrix X Οπου: Χ = U Σ V T = U ( s 0 0 0 0 Ο r (N r) 0 0 s ) r Ο (M r) r Ο (M r) (N r) s, s,, s r the singular values of the M x N Matrix X s ν = ζ ν, ν =,,, r r = rank (X T X) = rank (XX T ) Μ Ν V T ζ ν, ν =,,, r the (positive) eigenvalues of the M M Matrix XX T : (XX T )u ν = ζ ν u ν Identical with the (positive) eigenvalues of the N N Matrix X T X: (X T X)v ν = ζ ν v ν
U is the Μ Μ Orthogonal Modal Matrix of the Μ Μ Symmetric Matrix ΧΧ T u κ The columns of U are the orthonormal Eigenvectors u κ = ( ) of ΧΧT, κ =,,, M u Μκ (s ) 0 0 ΧΧ T = U ( 0 (s ) 0) 0 0 Μ Μ u κ U Τ (ΧΧ T )u κ = (s κ ) κ r u κ, r M,, κ =,,, M V is the N N Οrthogonal Modal Matrix of the N N Symmetric Matrix Χ Τ Χ v λ The columns of V are the orthonormal Eigenvectors v λ = ( ) of Χ Τ Χ, λ =,,, Ν v Νλ (s ) 0 0 Χ Τ Χ = V ( 0 (s ) 0) 0 0 N N V T v λ (Χ T Χ)v λ = (s ν ) ν r u λ, r Ν, λ =,,, Ν
Ορισμος Iverson Bracket Q = {, αν Q Αληθης 0, αν Q Ψευδης } converts Boolean values to 0, Iverson K. 96, A Programming Language, New York: Wiley, p. Graham R., Knuth D., Patashnik O. Concrete Mathematics, Section.: Sums and Recurrences. Knuth D. 99, "Two Notes on Notation", American Mathematical Monthly, Volume 99, Number 5, May 99, pp. 403 4. (TEX, arxiv:math/905)
s 0 0 0 0 Ο Χ = U ( r (N r) 0 0 s ) VT r Ο (M r) r Ο (M r) (N r) Χ = ( u u u u u M u M ) ( u M u M u MM s 0 0 0 0 u r ν u ν Χ = s ν ( ) (v ν, v ν,, v Nν ) ν= u Μν 0 0 s r Ο r (N r) Ο (M r) r Ο (M r) (N r) ) ( v v v v v N v N ) v N v N v NN u v u v u v u v u v N u r v r u r v r u v N u r v r u r v u rv Nr r u Ν v Nr Χ = s ( ) + + s r ( ) u M v u M v u M v N u Μr v r u Mr v r u Mr v Nr
SVD of the Action of A on (Measurement) Vectors χ u ν χ u r r ν χ u ν χ Χ ( ) = s ν ( ) (v ν, v ν,, v Nν ) u ν ( ) = s ν ( ) χ ν= M u Μν χ ν= M u Nν Ν ( v κν χ κ ) κ= Ιδιαζουσες Συνιστωσες Διανυσματων Decomposition of Vectors in Spectral Components SV Decomposition of the Action of Z
Decomposition of Vectors in Spectral Components ( χ r Ν χ ) = ( v κν χ κ χ ν= κ= N u ν Το Διανυσμα ( Ν u κ= v κν χ κ ) ν ( ) καλειται u Nν ) ( u ν u ν u Nν ) η ν-ιδιαζουσα συνιστωσα (Singular component) του διανυσματος ( χ χ χ N )
ΠΑΡΑΔΕΙΓΜΑ SVD 3 Χ = ( ), Πιναξ x3 3 3 Χ T = ( 3 ), Πιναξ 3x
3 ΧΧ T 3 = ( 3 ) ( 3 ) = ( ), Πιναξ x Eigenvalue problem of the Symmetric Real Matrix ΧΧ T = ( ): Eigenvalues Singular Values Eigenvectors Orthonormal Eigenvectors ζ = s = ( ) ( ) ζ = 0 s = 0 ( ) ( ) U = ( ) x
3 Χ T Χ = ( 0 0 3 3 ) ( 3 ) = ( 0 0 4) Πιναξ 3x3 4 Eigenvalue problem of the Symmetric Real Matrix Χ T Χ: Eigenvalues Singular Values Eigenvectors Orthonormal Eigenvectors ζ = ζ = 0 ζ 3 = 0 s = s = 0 s 3 = 0 ( ) ( ) 0 ( ) 5 6 6 ( 6) ( 5 5 0 ) 30 30 5 ( 30)
6 V = 6 ( 6 5 5 0 30 30 5 30) V T = ( 6 5 30 6 5 30 6 0 5 30) 3x3
Σ = ( 0 0 0 0 0 ) x3 X = UΣV T 3 ( 3 ) = ( ) ( 0 0 0 0 0 ) 6 5 ( 30 6 5 30 6 0 5 30)
Εφαρμογες SVD data reduction data association exploratory data analysis constructing predictive models. Data compression, data reconstruction Quantum Computing. Entanglement
Aναφορες Ιστορικες Galton F.889, Natural Inheritance. MacMillan and Co, London Pearson, K. 90, "On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine (): 559 57. doi:0.080/4786440094670. Hotelling, H. 933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, 4, 47-44, and 498-50. Hotelling, H. 936, Relations between two sets of variates. Biometrika, 7, 3-77 Aναφορες Συγχρονες Qin S.J., Dunia R. 000, Determining the number of principal components for best reconstruction, Journal of Process Control, vol. 0, pp 45 50. Alter O., Brown P., Botstein D. 000, Singular Value Decomposition for genome-wide expression, data processing and modeling, PNAS vol. 97 no. 8, 00 006 Jolliffe I.T. 00, "Principal Component Analysis", Second Edition, Springer. Jackson, J. E. 003, A User's Guide to Principal Components, A Wiley-Interscience, New York Tapani Raiko, Alexander Ilin and Juha Karhunen 008, Principal Component Analysis for Sparse High-Dimensional Data, Neural Information Processing Lecture Notes in Computer Science, Vol. 4984/008, 566-575. Miszczak J. 0, Singular Value Decomposition and Matrix Reorderings in Quantum Information Theory, International Journal of Modern Physics C, Vol., No. 9, 897-98 Shlens J. 04, A Tutorial on Principal Component Analysis, http://www.cs.cmu.edu/~elaw/papers/pca.pdf