Φασματικη Αναλυση Συνδιασπορας

Σχετικά έγγραφα
Φασματικη Αναλυση Συνδιασπορας

ΣΤΑΤΙΣΤΙΚΗ ΓΝΩΣΗΣ. Φαζμαηικη Αναλςζη Σςνδιαζποπαρ. Principal Components Analysis Singular Value Decomposition Iωαννηρ Ανηωνιος Φαπαλαμπορ Μππαηζαρ

4. Δειγματα. Μαθηματικά και Στατιστικη στην Βιολογια. Mathematics and Statistics in Biology

7. Εκτιμήσεις Τιμων Δεικτων

Ανάκτηση Πληροφορίας


ΤΗΛΕΠΙΣΚΟΠΗΣΗ. Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement)

Στοχαστικά Σήματα και Τηλεπικοινωνιές

Πιθανότητες και Αρχές Στατιστικής (5η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

HMY 795: Αναγνώριση Προτύπων

Περιεχόμενα 5ης Διάλεξης 1 Ανισότητα Markov 2 Διασπορά 3 Συνδιασπορά 4 Ανισότητα Chebyshev 5 Παραδείγματα Σωτήρης Νικολετσέας, αναπληρωτής καθηγητής 5

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2

= λ 1 1 e. = λ 1 =12. has the properties e 1. e 3,V(Y

Η μέθοδος PCA -Ανάλυση Κύριων Συνιστωσών

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011

The Jordan Form of Complex Tridiagonal Matrices

ΕΠΑΝΑΛΗΨΗ ΒΑΣΙΚΩΝ ΕΝΝΟΙΩΝ ΣΤΑΤΙΣΤΙΚΗΣ

HMY 795: Αναγνώριση Προτύπων

The ε-pseudospectrum of a Matrix

Περιεχόμενα. Ιδιότητες του cov(x, Y) Ιδιότητες των εκτιμητών Παράδειγμα. 1 Συσχέτιση Μεταβλητών. 2 Εκτιμητές και κατάλοιπα

ΤΥΧΑΙΑ ΔΙΑΝΥΣΜΑΤΑ F(x) 1, x n. 2. Η F είναι μη φθίνουσα και δεξιά συνεχής ως προς κάθε μεταβλητή. 3.

Μαθηματικά Και Στατιστική Στη Βιολογία

Βασικά μαθηματικά εργαλεία

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Jordan Form of a Square Matrix

HMY 799 1: Αναγνώριση Συστημάτων

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

ΠΟΛΥΔΙΑΣΤΑΤΕΣ ΤΥΧΑΙΕΣ ΜΕΤΑΒΛΗΤΕΣ

Congruence Classes of Invertible Matrices of Order 3 over F 2

Optimal Parameter in Hermitian and Skew-Hermitian Splitting Method for Certain Two-by-Two Block Matrices

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

ΠΛΗ ΛΥΣΕΙΣ ΕΡΓ_2 ΣΕΛ. 1/11

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Κβαντικη Θεωρια και Υπολογιστες

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

Matrices and vectors. Matrix and vector. a 11 a 12 a 1n a 21 a 22 a 2n A = b 1 b 2. b m. R m n, b = = ( a ij. a m1 a m2 a mn. def

(p 1) (p m) (m 1) (p 1)

Numerical Analysis FMN011

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΕΝΔΕΙΚΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΑΛΓΕΒΡΑ ΠΙΝΑΚΩΝ. (ii) Αν ο Β m+1, με m N, αντιστρέφεται, τότε και ο Β αντιστρέφεται

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

HMY 799 1: Αναγνώριση Συστημάτων

21 a 22 a 2n. a m1 a m2 a mn

Πίνακες Γραμμικά Συστήματα

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

8. Ελεγχος Υποθεσεων. Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

( ) 2 and compare to M.

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

Διαγωνοποίηση μητρών. Στοιχεία Γραμμικής Άλγεβρας

Principal Components Analysis - PCA

Εφαρμοσμένα Μαθηματικά ΙΙ

ΚΑΤΑΝΟΜΕΣ Ι ΙΑΣΤΑΤΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ (Συνέχεια)

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του όγδοου φυλλαδίου ασκήσεων.

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

9. Ανάλυση κυρίων συνιστωσών *Principal Component Analysis)

ΚΑΤΑΝΟΜΕΣ Ι ΙΑΣΤΑΤΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

Tridiagonal matrices. Gérard MEURANT. October, 2008

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 19/6/2018 Διδάσκων: Ι. Λυχναρόπουλος

1 ιαδικασία διαγωνιοποίησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΜΑΣ 121: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι ΑΣΚΗΣΕΙΣ ΚΕΦΑΛΑΙΟΥ 3

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

Ταξινόμηση καμπυλών και επιφανειών με τη βοήθεια των τετραγωνικών μορφών.

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

ΚΕΦΑΛΑΙΟ 1 Ο ΔΙΑΝΥΣΜΑΤΑ

Μοντέρνα Θεωρία Ελέγχου

4 Περιγραφικη Στατιστικη

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ασκήσεις6 Διαγωνοποίηση Ερμιτιανών Πινάκων

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Μαθηματικών Π.Μ.Σ. Θεωρητικής Πληροφορικής και Θεωρίας Συστημάτων και Ελέγχου

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΜΕΘΟ ΟΛΟΓΙΑ ΕΚΠΑΙ ΕΥΤΙΚΗΣ ΕΡΕΥΝΑΣ

Δυναμική Μηχανών I. Επανάληψη: Μαθηματικά

Εφαρμοσμένα Μαθηματικά ΙΙ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Solutions to Exercise Sheet 5

ΚΕΦ.6:ΤΕΤΡΑΓΩΝΙΚΕΣ ΜΟΡΦΕΣ. ΣΥΜΜΕΤΡΙΚΟΙ ΠΙΝΑΚΕΣ

Χαρακτηριστική Εξίσωση Πίνακα

Εφαρμοσμένα Μαθηματικά ΙΙ Εξέταση Σεπτεμβρίου Διδάσκων: Ι. Λυχναρόπουλος

w o = R 1 p. (1) R = p =. = 1

ΤΥΧΑΙΑ ΙΑΝΥΣΜΑΤΑ. Στατιστική Συµπερασµατολογία Ι, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 2

Λύσεις και Υποδείξεις Επιλεγµένων Ασκήσεων

Μαθηματικά Και Στατιστική Στη Βιολογία

Εφαρμοσμένα Μαθηματικά ΙΙ

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

transpose matrix invertible matrix

Buried Markov Model Pairwise

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Transcript:

Μοντέλα Παλινδρόμησης και Επεξεργασία Γνώσης ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Τμημα Μαθηματικων Αριστοτελειο Πανεπιστημιο Θεσσαλονικης 544 Regression Models and Knowledge Processing WINTER SEMESTER School of Mathematics Aristotle University of Thessaloniki 544 Φασματικη Αναλυση Συνδιασπορας Principal Components Analysis Singular Value Decomposition Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr

Συνδιασπορα (Covariance) cov(x,y) = σ XX = E[(X m X )(Y m Y )] = E[XX] E[X]E[Y] = E[XX] m X m Y σ XX = κ,λ (x ν m X )(y ν m Y )ρ κκ Διακριτες Μεταβλητες σ XX = + dddd(x m X )(y m Y )ρ(x. y) Συνεχεις Μεταβλητες σ XX =cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = cor[x,x] E[X] = σ Χ

Λημμα ) cov(x,y) = E[XY] E[X]E[Y] = E[XY] m X m Y ) Covariance is not a SP οf the variables X,Y. Covariance is a SP of the centered Variables (X m X ), (Y m Y ) () Covariance is a bilinear Form: α,β real numbers cov[ α X + α X, Υ] = α cov[x, Υ] + α cov[x, Υ] cov[ X, β Υ + β Υ ] = β cov[x, Υ ] + β cov[x, Υ ] cov[α X + α X, β Υ + β Υ ] = = α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] () cov(a,b) = cov(b,a) (3) cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = σ 0 (4) cov[x,x] = 0 σ = 0 X is a constant random variable, ae 3) ccc X m X σ X, Y m Y σ Y = σ X σ Y cov(x, Y) = r(x, Y), Αλλαγη σε Τυποποιημενες Μεταβλητες

Θεωρημα For random variables with finite variance: ) ccc(x, Y) vvv(x) vvv(y) ccc(x,y) vvv(x) vvv(y) ccc(x,y) vvv(x) vvv(y) ccc(x,y) vvv(x) vvv(y) = Pearson s Coefficient ) ccc(x, Y) = vvv(x) vvv(y) Y m Y = ccc(x,y) X m X vvv(x) = ± vvv(x) vvv(y)

Proof: From Cauchy Schwarz inequality: < x, y > < x, x >< y, y > < x, y > = < x, x >< x, y > y = <x,y> <x,x> x = ± <x,x> <y,y> x x = X m X y = Y m Y < x, y > = E[xx] = ccc(x, Y) < x, x >= vvv(x) < y, y >= vvv(y) Η Συνδιασπορα ως Εκτιμηση της Γραμμικης Αλληλεξαρτησης των Χ, Υ

Pearson's coefficient (Συντελεστης Συνδιασπορας Pearson) r(x, Y) = r XX = ccc(x, Y) vvv(x) vvv(y) = σ XX σ Χ σ Υ = ccc X m X σ X, Y m Y σ Y m X = E(X), m Y = E(Y), σ Χ = E[(X m X ) ] = E[X ] m X, σ Y = E[(X m Y ) ] = E[Y ] m Y σ Χ = (x ν m X ) ν p ν σ Χ = + dd(x m X ) ρ(x)

Δειγμα Μ Μετρησεων των Μεταβλητων Χ,Υ Variable X Variable Y Observation χ y Observation χ y Observation M χ Μ y Μ Συνδιασπορα (Covariance) Δείγματος σ XX = Μ ν= (χ ν m Χ )(y ν m Υ ) Μ Αμεροληπτη Συνδιασπορα Δείγματος: s XX = Μ ν= χ ν m Χ y ν m Υ Μ = Μ Μ σ XX Διορθωση Bessel s X = M ν= (χ ν m ) M = M M M ν= (χ ν m ) M = M M σ X

Τυποποιημενη Συνδιασπορα Δείγματος = Συνδιασπορα (Pearson) Δείγματος = Συσχετιση (Pearson) Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: r ΧΧ = M Μ χ ν m Χ y ν m Υ ν= = Μ σ Χ σ Υ M ν= χ ν m X s X y ν m Y s Y = r ΧΧ ενσωματωνει την Διορθωση Bessel

Αποδειξη r XX = σ XX σ Χ σ Υ = = M ν= χ ν m Χ y ν m Υ Μ = σ Χ σ Υ M ν= M ν= (χ ν m Χ ) M χ ν m Χ y ν m Υ M Μ ν= M ν= (y ν m Υ ) M χ ν m Χ y ν m Υ σ Χ σ Υ Μ = M ν= χ ν m Χ y ν m Υ M ν= (χ ν m Χ ) M ν=(y ν m Υ ) r (X, Y) = s XX s Χ s Υ = M ν= χ ν m Χ y ν m Υ M M χ ν m Χ ν= M y ν m Υ M ν= M = = M ν=(χ ν m Χ )(y ν m Υ ) M χ ν m Χ ν= M y ν m Υ ν=

Συνδιασπορα Ν Μεταβλητων Χ, Χ,, Χ N σ κκ = ccc(χ κ, Χ λ ) = E[(Χ κ m κ ) (Χ λ m λ )] σ κκ = ccc(χ κ, Χ λ ) = E[Χ κ Χ λ ] m κ m λ m κ = E[Χ κ ] η Μεση Τιμη της Χ κ Ο Πινακας Συνδιασπορας των Ν Μεταβλητων Χ, Χ,, Χ N σ σ σ = σ ΝΝ σ ΝΝ σ Μη Αρνητικος Συμμετρικος Πινακας, αρα Διαγωνιοποιησιμος

Ο Πιναξ Συσχετισεων των Ν Μεταβλητων Χ, Χ,, Χ N r r Ν r = r Ν r ΝΝ r κκ = σ κκ σ κ σ λ = ccc X κ m κ σ κ, Y m Y = ccc X κ, X λ = cov(x σ Y σ κ σ λ σ κ σ κ, X λ ) λ Η Συσχετιση (Pearson) των Μεταβλητων Χ κ, Χ λ

Δειγμα Μ Μετρησεων των N Μεταβλητων Χ, Χ,, Χ N Data Matrix Μ Ν Variables X X X ν X N Observation χ χ χ ν χ N Observation χ χ χ ν χ N Observation μ χ μ χ μ χ μμ χ μμ Observation M χ M χ M χ MM χ MM

Πιναξ Μετρησεων (Data Matrix): χ x N Χ = = (χ,, χ Ν ) χ M x MM Διανυσμα των Παρατηρησεων της Μεταβλητης X ν, ν=,,,ν: χ ν = χ v = η στηλη ν του Πινακα Μετρησεων χ MM Διανυσμα της Παρατηρησης μ (των Ν Μεταβλητων X ν, ν=,,,ν): χ μ = χ μ, χ μ,, χ μμ Τ χ μμ χ μ, χ μ,, χ μμ = η γραμμη μ του Πινακα Μετρησεων

Relational Data Base Μ Ν Instances Πραγματοποιησεις Περιπτωσεις Περιστατικα Records, Registrations Καταγραφες Attributes Γνωρισματα, Iδιοτητες X X X ν X N χ χ χ ν χ N χ χ χ ν χ N μ χ μ χ μ χ μμ χ μμ M χ M χ M χ MM χ MM χ ν = χ v = Instance Profile of the Attribute Χ ν χ MM χ μ, χ μ,, χ μμ = Αttribute Profile of the μ-instance

Gene Expression Matrix Μ Ν Expressions Εκφρασεις Περιπτωσεις Περιστατικα Genes Γονιδια X X X ν X N Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μμ χ μμ Expression M χ M χ M χ MM χ MM χ ν = χ v = Expression Profile of the Gene Χ ν χ MM χ μ, χ μ,, χ μμ = Expression Profile of the μ-instance Στην Βιολογια συνηθως εργαζονται με τον Συζυγη Πινακα Ν M

Outputs p 0 Neural Net Matrix Μ Ν Inputs p 0 X X X ν X N Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μμ χ μμ Expression M χ M χ M χ MM χ MM χ ν = χ v = Expression Profile of Input Χ ν χ MM χ μ, χ μ,, χ μμ = Expression Profile of the μ-output

σ κκ = Μ ν= ( χ νν m κ )(χ νν m λ ) Μ οπου χ νν η τιμη της ν-μετρησης της Μεταβλητης X α m α η Δειγματικη Μεση Τιμη της Μεταβλητης X α Αμεροληπτη Συνδιασπορα Δειγματος s κκ = Μ ( χ Μ νν m ν )(χ νν m λ ) ν= Διορθωση Bessel

Συσχετιση (Pearson) Δείγματος = Τυποποιημενη Συνδιασπορα Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: Μ r κκ = M χ νν m κ χ νν m λ σ κ σ λ ν= M = M χ νν m κ ν= s κ χ νν m λ = r s κκ λ ενσωματωνει την Διορθωση Bessel

Λημμα: σ σ N σ = = σ Ν σ Μ ΨT Ψ MM s s N s = = s Ν s Μ ΨT Ψ MM Data Matrices r r N r = = r Ν r Μ ΖT Ζ MM ψ ψ N Ψ =, ψ κκ = χ κκ m λ, ψ M ψ MM z z N Z =, z κκ = χκκ m λ σ z M z λ MM

ΠΑΡΑΔΕΙΓΜΑ: Ο Πιναξ Συσχετισεων Ν Ανεξαρτητων ανα Μεταβλητων είναι Διαγωνιος : Συμβαση σ κκ = σ Χκ Χ λ = 0 Αναδιατασσουμε τις Ν Μεταβλητες ώστε οι αντιστοιχες Διασπορες Να διατασσονται κατά φθινουσα σειρα: σ > σ > >σ Ν σ 0 0 σ = 0 σ 0 σ Ν (Ορθες μοναδες μετρησης) Για Ανεξαρτητες Μεταβλητες Χ,Υ: σ ΧΧ = 0 σ = σ 0 0 σ σ = max(σ Χ, σ Υ ), σ = min(σ Χ, σ Υ )

Μπορω να Μετασχηματισω τις Μεταβλητες Ψ, Ψ,, Ψ N σε Ν Ανεξαρτητες μεταβλητες Υ, Υ,, Υ N με τις ιδιες Διασπορες σ Χκ = σ Υκ = σ κ? Bεβαιως! Μεσω της Διαγωνιοποιησης του Πινακα Συνδιασπορας σ (Μη Αρνητικος Συμμετρικος, αρα Διαγωνιοποιησιμος). U T σ U = σ 0 0 0 σ = U T (Ψ T Ψ)U 0 σ Ν u u u u u Ν u Ν U = = (u u u N ) u Ν u Ν u ΝΝ

U is the N N matrix with columns the eigenvectors u ν, ν=,,,ν of A u ν u ν the ν-column is the eigenvector u ν = of A: Au ν = a ν u ν u Νν U T σu = U T (Ψ T Ψ)U = Υ T Υ y y N Υ = o Πιναξ Δεδομενων των Μεταβλητων Υ, Υ,, Υ N y M y MM που οριζονται από τον Γραμμικο Μετασχηματισμο Υ Ψ u u Υ Ψ = U u u u Ν Ψ u Ν Ψ = Υ Ν Ψ Ν u Ν u Ν u ΝΝ Ψ Ν

Ορισμος Κυριες Συνιστωσες (Principal Components) του Πινακα Συνδιασπορας = Οι Φασματικες Συνιστωσες που οριζονται απο τα ιδιοανυσματα Του N x N Πινακα Συνδιακυμανσης Για κάθε Διανυσμα Μετρησης χ των Ν Μεταβλητων: χ χ = χ Ν Οριζω Αναπτυγμα σε Κυριες Συνιστωσες του χ = Το Φασματικο Αναπτυγμα του του χ ως τους αξονες των ιδιανυσματων του N x N Πινακα Συνδιακυμανσης

Κυριες Συνιστωσες. Σημασια ) Τα ιδιοανυσματα προκυπτουν απο (Ν-διαστατη) στροφη ) Οι Πρωτες Κυριες Συνιστωσες φερουν την μεγαλυτερη και σημαντικοτερη Πληροφορια 3) Οι Μεταβλητες Υ, Υ,, Υ N οριζουν τις συντεταγμενες των Μετρησεων στις Κυριες Συνιστωσες

Παραδειγμα: Πιναξ Συνδιασπορας Μεταβλητων ( dim Covariance Matrix) σ = σ ΧΧ σ ΧΧ σ ΧΧ σ = σ Χ σ ΧΧ ΥΥ σ ΧΧ σ = σ Χ ccc[χχ] Υ ccc[χχ] σ Υ σ = E [ΧΧ] m Χ m Χ E[ΥΥ] m Υ m Χ ddd (σ) = σ Χ σ Υ σ ΧΧ E[ΧΧ] m Χ m Υ E[ΥΥ] m Υ m Υ σ = det (Σ) σ ΥΥ σ ΧΧ σ ΧΧ σ = ΧΧ σ Χ σ Υ σ σ Y σ ΧΧ ΧΧ σ ΧΧ σ Χ

Προβλημα Ιδιοτιμων του Πινακα Συνδιασπορας : Eigenvalues σ = σ Χ + σ Υ + (σ Χ σ Υ ) 4σ ΧΧ σ = σ Χ + σ Υ (σ Χ σ Υ ) 4σ ΧΧ Eigenvectors u = n σ Χ + σ ΧΧ σ σ Υ + σ ΧΧ σ u = n σ Χ + σ ΧΧ σ σ Υ + σ ΧΧ σ σ = U σ 0 UT 0 σ U = (u u )

Τα ορθογωνια ιδιοανυσματα u και u οριζουν τις Κατευθυνσεις μεγιστης και ελαχιστης συνδιασπορας Oι προβολες ενός διανυσματος μετρησης χ = χ χ στις κατευθυνσεις των ιδιοανυσματων u και u ειναι Οι Κυριες Συνιστωσες (Principal Components) του χ

Λημμα Φασματικη Αναλυση Διαγωνισιμων Πινακων A = U α u ν 0 0 Ν 0 α 0 U u ν = a ν (η ν, η ν,, η νν ) ν= 0 0 u NN Au ν = α ν u ν Συμβαση: Οι ιδιοτιμες διατασσονται κατά φθινουσα σειρα: α > α > u u u U = (u u u N ) u u Ν u Ν = = Ο Modal Matrix του Α u Ν u Ν u ΝΝ U is the N N matrix with columns the eigenvectors u ν, ν=,,,ν of A u ν u ν the ν-column is the eigenvector u ν = of A: Au ν = a ν u ν u Νν

(η ν, η ν,, η νν ) η ν-οστη γραμμη του Αντιστροφου Πινακα U η η U η η η Ν η Ν = η Ν η Ν η ΝΝ Spectral Decomposition of the Action of A Α χ χ χ N = Ν ν= u χ χ u u a ν (η νν, η νν,, η νν ) = Ν u ν= a ν ( Ν η νν χ κ u NN χ N u NN κ= )

Decomposition of Vectors in Spectral Components χ Ν Ν χ = η νν χ κ χ ν= κ= N u u u NN Ν Ν = η νν χ κ u ν ν= κ= ( Ν κ= η νν χ κ )u ν η ν-φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ χ N

Normal Matrices: A A = AA The Eigenvector basis is Orthogonal Unitary (Normal) Matrices: A = A Eigenvalues on the complex unit circle Hermitian (Normal) Matrices: A = A Eigenvalues Real A = U α 0 0 0 α 0 U 0 0 U is Unitary Matrix U = U Real Symmetric (Normal) Matrices: A T = A Eigenvalues Real A = U α 0 0 0 α 0 U T 0 0 Q is Orthogonal Matrix U = U T

Symmetric Matrix A= 4 3 3 4 Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = 5 α = -5 e= 3 4 3 3 4 3 = 5 3 e= 3 3 4 3 = ( 5) 3 3 4

e e = R 3 = 3 + 3 = 0 3 e = + 3 = e = ( 3) + = u = e 3 = 3 u = e 3 = 3

Diagonalizing Matrix: Diagonalization U = (u u ) = 3 3 U = U T = 3 3 U A U = 3 3 3 0 4 = 5 3 3 4 3 0 5 U A U = 3 3 5 3 3 U A U = 3 3 3 3 U A U = 0 0 5 = 5 0 5 0 5 3 3 5 5 3 4 = = 5 3 3 4 5 5 3 3 3 0 0 = 0 = 5 3 3 0 0 0 5

0 Diagonalization of A = 0 3 0 4 Eigenvalues Eigenvectors a = 3 a = a = u = 0 u = 0 u 3 = 0

Μηκη u, u, u 3 : u = ( ) + ( ) +() = 6 u = 0 + 0 +() = u3 = ( ) + 0 +() = 5 u, u, u 3 are not Orthogonal: 0 u u = 0 = u u 3 = 0 = 5 0 u u 3 = 0 0 =

Diagonalizing Matrix: U = (u u 0 u 3 ) = 0 0 0 0 U = 0 0 Diagonalization 0 0 0 0 3 0 0 U A U = 0 0 3 0 0 0 = 0 0 0 4 0 0

Spectral Decomposition οf Α 3 0 0 0 3 0 0 0 0 0 0 U = 0 0 0 0 0 0 0 0 0 0 0 A = 3 (0,, 0) + 0 (,0,) + 0 (,,0) A = U Spectral Decomposition of the Action of A χ χ 0 Α χ = 3 (0,, 0) χ + 0 (,0,) χ + 0 (,,0) χ χ 3 χ 3 χ 3 χ 3 χ χ = χ 0 Α χ = 3( χ ) + (χ + χ 3 ) 0 + ( χ + χ ) 0 χ 3 χ χ 0 χ χ Α χ = 3 χ + 0 + 0 χ 3 χ χ + χ 3 χ + χ

Decomposition of Vectors in Spectral Components χ χ 0 χ = χ + 0 + χ 3 χ χ + χ 3 χ χ 0 χ + χ χ χ χ η η -φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ χ 3 0 0 η η -φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ + χ 3 χ 3 χ χ χ 0 η 3 η -φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ + χ χ 3 χ

Markov Matrix 0.9 0.3 A= 0. 0.7 Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = α = 0.6 0. 77 0.3 77 77 u= 0.9 0. = 0. 0. 0. 0.7 0. 0. u= 9 0.3 0. 0. 0. 7 = 0. 6

Τα διανυσματα u, u δεν είναι μοναδιαια u = (0. 77) + (0. ) 0.79 u = Τα διανυσματα u, u δεν είναι ορθογωνια < u, u > = 0. 77 0. = 0. 5 0 0

Diagonalizing Matrix U = (u u ) = 0.75 0. U - =, A Non-Symmetric Non-Normal στον H= R 0.5 0.75 Diagonalization U A U = 0.3 0 0.9 0.75 = 0.5 0.75 0. 0.7 0. 0 0.6

Spectral Decomposition οf Α A = U 0 0.6 0 U = 0.75 0. 0 0 0.6 0.5 0.75 = 0. 77 A = (,) + 0. 6 (0.5, 0,75) 0. Spectral Decomposition of the Action of A Α χ χ = Α χ χ = 0. 77 0. (,) χ χ + 0. 6 0.5, 0,75 χ χ 0. 77 0. (χ + χ ) + 0. 6 0.5χ 0,75χ Α χ χ = 0. 77χ + 0. 77χ 0. χ + 0. χ + 0. 6 0.5χ 0,75χ 0.5χ + 0,75χ

Decomposition of Vectors in Spectral Components χ χ = 0. 77χ + 0. 77χ 0. χ + 0. χ + 0.5χ 0,75χ 0.5χ + 0,75χ 0. 77χ + 0. 77χ 0. χ + 0. χ η η -φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ 0.5χ 0,75χ 0.5χ + 0,75χ η η -φασματικη συνιστωσα (Spectral component) του διανυσματος χ χ

Mπορω να αναλυσω εναν Μ Ν Πινακα Δεδομενων, όπως τον Πινακα: χ x N Χ = χ M x MM σε Συνιστωσες για περαιτερω επεξεργασια? Θεωρημα της Αναλυσης σε Ιδιαζουσες Τιμες Πινακων Μ Ν Singular Value Decomposition (SVD) Theorem Αναλυση Δεδομενων σε Κυριες Συνιστωσες Principal Components Analysis

SVD Theorem σ 0 0 Χ = U Σ V T 0 0 Ο =U r (N r) 0 0 σ VT r Ο (M r) r Ο (M r) (N r) Οπου: σ, σ,, σ r the singular values of the M x N data Matrix X = The square roots of the (positive) eigenvalues of the NxN Matrix σ = X T X r is the rank of σ

U is the Μ x Μ Orthogonal Modal Matrix of the Μ x Μ Symmetric Matrix ΧΧ T u (The columns of U are the orthonormal Eigenvectors u ν = of ΧΧ T ) u ΜΜ (σ ) 0 0 ΧΧ T = U 0 (σ ) 0 U Τ 0 0 V is the NxN Οrthogonal Modal Matrix of the N x N Symmetric Matrix Χ Τ Χ = σ v (The columns of V are the orthonormal Eigenvectors v ν = of Χ Τ Χ = σ) v ΝΝ (σ ) 0 0 Χ Τ Χ = σ = V 0 (σ ) 0 V T 0 0 u v

σ 0 0 0 0 Ο Χ = U r (N r) 0 0 σ V r Ο (M r) r Ο (M r) (N r) T Χ = u u u u u M u M u M u M u MM σ 0 0 0 0 0 0 σ r Ο r (N r) Ο (M r) r u r u Χ = σ ν (v, v,, v NN ) ν= u ΜΜ v v v v v N v N Ο (M r) (N r) v N v N v NN u v u v u v u v u v NN u v u v u v NN u v u v u v NN u v NN Χ = σ + + σ r u MM v u MM v u MM v NN u Μr v u MM v u MM v NN

SV Decomposition of the Action of Z on each Measurement Vector Χ χ χ χ M = r ν= u u χ u χ σ ν (v, v,, v NN ) = r u ν= σ ν ( Ν v κκ χ κ u ΜΜ χ M u NN κ= ) Decomposition of Vectors in Spectral Components χ χ r Ν = v κκ χ κ χ ν= κ= N u u u NN ( Ν κ= v κκ χ κ ) u u η ν-ιδιαζουσα συνιστωσα (Singular component) του διανυσματος u NN χ χ χ N

ΠΑΡΑΔΕΙΓΜΑ 3 Χ =, x3 3 3 Χ T = 3 3x

3 ΧΧ T 3 = 3 3 = x Eigenvalue problem of the Symmetric Real Matrix ΧΧ T : Eigenvalues Eigenvectors Orthonormal Eigenvectors κ = κ =

U = x 3 0 Χ T 3 Χ = 3 3 = 0 4 4 Eigenvalue problem of the Symmetric Real Matrix Χ T Χ: 3x3

Eigenvalues Singular Values Eigenvectors Orthonormal Eigenvectors k = σ = 6 6 6 k = k 3 = 0 σ = σ 3 = 0 0 5 5 5 0 33 33 5 33

V = 6 6 6 5 5 0 33 33 5 33 3x3 V T = 6 5 33 6 5 33 6 0 5 33 3x3

Σ = 0 0 x3 (M<M) 0 0 X = UΣV T 3 3 = 0 0 0 0 6 5 33 6 5 33 6 0 5 33

Εφαρμογες data reduction data association exploratory data analysis constructing predictive models. Data compression, data reconstruction

Aναφορες Ιστορικες Galton F.889, Natural Inheritance. MacMillan and Co, London Pearson, K. 90, "On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine (): 559 57. doi:0.080/4786440094670. Hotelling, H. 933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, 4, 47-44, and 498-50. Hotelling, H. 936, Relations between two sets of variates. Biometrika, 7, 3-77 Aναφορες Συγχρονες Qin S.J., Dunia R. 000, Determining the number of principal components for best reconstruction, Journal of Process Control, vol. 0, pp 45 50. Jolliffe I.T. 00, "Principal Component Analysis", Second Edition, Springer. Jackson, J. E. 003, A User's Guide to Principal Components, A Wiley-Interscience, New York Tapani Raiko, Alexander Ilin and Juha Karhunen 008, Principal Component Analysis for Sparse High-Dimensional Data, Neural Information Processing Lecture Notes in Computer Science, Vol. 4984/008, 566-575. Shlens J. 04, A Tutorial on Principal Component Analysis, http://www.cs.cmu.edu/~elaw/papers/pca.pdf