Φασματικη Αναλυση Συνδιασπορας

Σχετικά έγγραφα
Φασματικη Αναλυση Συνδιασπορας

ΣΤΑΤΙΣΤΙΚΗ ΓΝΩΣΗΣ. Φαζμαηικη Αναλςζη Σςνδιαζποπαρ. Principal Components Analysis Singular Value Decomposition Iωαννηρ Ανηωνιος Φαπαλαμπορ Μππαηζαρ

4. Δειγματα. Μαθηματικά και Στατιστικη στην Βιολογια. Mathematics and Statistics in Biology

7. Εκτιμήσεις Τιμων Δεικτων

Στοχαστικά Σήματα και Τηλεπικοινωνιές

ΤΗΛΕΠΙΣΚΟΠΗΣΗ. Γραµµικοί Μετασχηµατισµοί (Linear Transformations) Τονισµός χαρακτηριστικών εικόνας (image enhancement)

HMY 795: Αναγνώριση Προτύπων

Ανάκτηση Πληροφορίας

Πιθανότητες και Αρχές Στατιστικής (5η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2

Περιεχόμενα. Ιδιότητες του cov(x, Y) Ιδιότητες των εκτιμητών Παράδειγμα. 1 Συσχέτιση Μεταβλητών. 2 Εκτιμητές και κατάλοιπα

21 a 22 a 2n. a m1 a m2 a mn

Περιεχόμενα 5ης Διάλεξης 1 Ανισότητα Markov 2 Διασπορά 3 Συνδιασπορά 4 Ανισότητα Chebyshev 5 Παραδείγματα Σωτήρης Νικολετσέας, αναπληρωτής καθηγητής 5

ΠΑΛΙΝ ΡΟΜΗΣΗ..Π.Μ.Σ. Μαθηµατικά των Υπολογιστών και των Αποφάσεων. Πάτρα, 27 Ιανουαρίου 2011


Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

HMY 795: Αναγνώριση Προτύπων

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Congruence Classes of Invertible Matrices of Order 3 over F 2

ΕΠΑΝΑΛΗΨΗ ΒΑΣΙΚΩΝ ΕΝΝΟΙΩΝ ΣΤΑΤΙΣΤΙΚΗΣ

Βασικά μαθηματικά εργαλεία

Μαθηματικά Και Στατιστική Στη Βιολογία

ΤΥΧΑΙΑ ΔΙΑΝΥΣΜΑΤΑ F(x) 1, x n. 2. Η F είναι μη φθίνουσα και δεξιά συνεχής ως προς κάθε μεταβλητή. 3.

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

ΠΛΗ ΛΥΣΕΙΣ ΕΡΓ_2 ΣΕΛ. 1/11

Η μέθοδος PCA -Ανάλυση Κύριων Συνιστωσών

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

= λ 1 1 e. = λ 1 =12. has the properties e 1. e 3,V(Y

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

4 Περιγραφικη Στατιστικη

The ε-pseudospectrum of a Matrix

ΠΟΛΥΔΙΑΣΤΑΤΕΣ ΤΥΧΑΙΕΣ ΜΕΤΑΒΛΗΤΕΣ

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΜΑΣ 121: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι ΑΣΚΗΣΕΙΣ ΚΕΦΑΛΑΙΟΥ 3

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

8. Ελεγχος Υποθεσεων. Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Μαθηματικών Π.Μ.Σ. Θεωρητικής Πληροφορικής και Θεωρίας Συστημάτων και Ελέγχου

Εφαρμοσμένα Μαθηματικά ΙΙ

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του όγδοου φυλλαδίου ασκήσεων.

Ιδιάζουσες τιμές πίνακα. y έχουμε αντίστοιχα τις σχέσεις : Αυτές οι παρατηρήσεις συμβάλλουν στην παραγοντοποίηση ενός πίνακα

Δυναμική Μηχανών I. Επανάληψη: Μαθηματικά

The Jordan Form of Complex Tridiagonal Matrices

Εφαρμοσμένα Μαθηματικά ΙΙ

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

(p 1) (p m) (m 1) (p 1)

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

ΚΑΤΑΝΟΜΕΣ Ι ΙΑΣΤΑΤΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ (Συνέχεια)

X 1 X 2. X d X = 2 Y (x) = e x 2. f X+Y (x) = f X f Y (x) = f X (y)f Y (x y)dy. exp. exp. dy, (1) f X+Y (x) = j= σ2 2) exp x 2 )

Διδάσκων: Καθηγητής Νικόλαος Μαρμαρίδης, Καθηγητής Ιωάννης Μπεληγιάννης

Κεφάλαιο 7 Ορθογώνιοι Πίνακες

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

HMY 799 1: Αναγνώριση Συστημάτων

Κβαντικη Θεωρια και Υπολογιστες

Εφαρμοσμένα Μαθηματικά ΙΙ

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 2

Ταξινόμηση καμπυλών και επιφανειών με τη βοήθεια των τετραγωνικών μορφών.

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 19/6/2018 Διδάσκων: Ι. Λυχναρόπουλος

Στοχαστικά Σήµατα και Εφαρµογές

ΣΥΝΟΠΤΙΚΗ ΘΕΩΡΙΑ ΜΑΘΗΜΑΤΙΚΩΝ ΘΕΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ. 1 ο ΚΕΦΑΛΑΙΟ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

Optimal Parameter in Hermitian and Skew-Hermitian Splitting Method for Certain Two-by-Two Block Matrices

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Ορίζουμε την τυπική πολυδιάστατη κανονική, σαν την κατανομή του τυχαίου (,, T ( ) μεταξύ τους ανεξάρτητα. Τότε

Buried Markov Model Pairwise

ΕΝΔΕΙΚΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΑΛΓΕΒΡΑ ΠΙΝΑΚΩΝ. (ii) Αν ο Β m+1, με m N, αντιστρέφεται, τότε και ο Β αντιστρέφεται

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (ΗΥ-119)

Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών Εθνικό Μετσόβιο Πολυτεχνείο. Ενδεικτικές Λύσεις Ασκήσεων. Κεφάλαιο 1. Κοκολάκης Γεώργιος

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εφαρμοσμένα Μαθηματικά ΙΙ

9. Ανάλυση κυρίων συνιστωσών *Principal Component Analysis)

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Jordan Form of a Square Matrix

Μαθηματικά Και Στατιστική Στη Βιολογία

General 2 2 PT -Symmetric Matrices and Jordan Blocks 1

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Μοντέρνα Θεωρία Ελέγχου

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Ασκήσεις6 Διαγωνοποίηση Ερμιτιανών Πινάκων

ΟΡΙΣΜΟΣ ΤΟΥ ΠΙΝΑΚΑ ΣΥΝΔΙΑΣΠΟΡΑΣ (Covariance Matrix)ΕΙΚΟΝΑΣ. Έστω ότι κάθε pixel της εικόνας έχει φωτεινότητα a i, i=1,2,...,ν

Principal Components Analysis - PCA

ΜΑΘΗΜΑΤΙΚΑ ΘΕΤΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Β ΛΥΚΕΙΟΥ

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Matrices and vectors. Matrix and vector. a 11 a 12 a 1n a 21 a 22 a 2n A = b 1 b 2. b m. R m n, b = = ( a ij. a m1 a m2 a mn. def

High order interpolation function for surface contact problem

ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 3 η Ημερομηνία Αποστολής στον Φοιτητή: 7 Ιανουαρίου 2008

HMY 799 1: Αναγνώριση Συστημάτων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΜΑΣ121: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ I Εαρινό εξάμηνο , Διδάσκων: Γιώργος Γεωργίου ΕΝΔΙΑΜΕΣΗ ΕΞΕΤΑΣΗ, Διάρκεια: 2 ώρες 18 Νοεμβρίου, 2017

n, C n, διανύσματα στο χώρο Εισαγωγή

ΤΥΧΑΙΑ ΙΑΝΥΣΜΑΤΑ. Στατιστική Συµπερασµατολογία Ι, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

1 ιαδικασία διαγωνιοποίησης

Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη)

Transcript:

Μοντέλα Παλινδρόμησης και Επεξεργασία Γνώσης ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Τμημα Μαθηματικων Αριστοτελειο Πανεπιστημιο Θεσσαλονικης 544 Regression Models and Knowledge Processing WINTER SEMESTER School of Mathematics Aristotle University of Thessaloniki 544 Φασματικη Αναλυση Συνδιασπορας Principal Components Analysis Singular Value Decomposition Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr

Συνδιασπορα (Covariance) cov(x,y) = σ XY = E[(X m X )(Y m Y )] = E[XY] E[X]E[Y] = E[XY] m X m Y σ XY = κ,λ (x ν m X )(y ν m Y )ρ κλ Διακριτες Μεταβλητες σ XY = + dxdy(x m X )(y m Y )ρ(x. y) Συνεχεις Μεταβλητες σ XX =cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = cor[x,x] E[X] = σ Χ

Λημμα ) cov(x,y) = E[XY] E[X]E[Y] = E[XY] m X m Y ) Covariance is not a SP οf the variables X,Y. Covariance is a SP of the centered Variables (X m X ), (Y m Y ) () Covariance is a bilinear Form: α,β real numbers cov[ α X + α X, Υ] = α cov[x, Υ] + α cov[x, Υ] cov[ X, β Υ + β Υ ] = β cov[x, Υ ] + β cov[x, Υ ] cov[α X + α X, β Υ + β Υ ] = = α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] + α β cov[x, Υ ] () cov(a,b) = cov(b,a) (3) cov[x,x] = var[x] = Ε[(Χ Ε[Χ]) ] = E[X ] E[X] = σ 0 (4) cov[x,x] = 0 σ = 0 X is a constant random variable, ae 3) cov ( X m X σ X, Y m Y σ Y ) = σ X σ Y cov(x, Y) = r(x, Y), Αλλαγη σε Τυποποιημενες Μεταβλητες

Θεωρημα For random variables with finite variance: ) cov(x, Y) var(x) var(y) cov(x,y) var(x) var(y) cov(x,y) var(x) var(y) cov(x,y) var(x) var(y) = Pearson s Coefficient ) cov(x, Y) = var(x) var(y) Y m Y = cov(x,y) X m X var(x) = ± var(x) var(y)

Proof: H Ανισοτης Cauchy Schwarz: x y x x y y Οπου: x y = x ν ν y ν το Βαθμωτο Γινομενο των διανυσματων x = ( Είναι: x y = x x y y y = x y x x x = ± x x x y y x x ), y = ( y y ) x = X m X y = Y m Y x y = E[xy] = cov(x, Y) x x = var(x) y y = var(y) Η Συνδιασπορα ως Εκτιμηση της Γραμμικης Αλληλεξαρτησης των Χ, Υ

Pearson's coefficient (Συντελεστης Συνδιασπορας Pearson) r(x, Y) = r XY = cov(x, Y) var(x) var(y) = σ XY σ Χ σ Υ = cov ( X m X σ X, Y m Y σ Y ) mx = E(X), my = E(Y), σ Χ = E[(X mx ) ] = E[X ] m X, σy = E[(X my ) ] = E[Y ] m Y σ Χ = (x ν m X ) ν p ν σ Χ = + dx(x m X ) ρ(x)

Δειγμα Μ Μετρησεων των Μεταβλητων Χ,Υ Variable X Variable Y Observation χ y Observation χ y Observation M χ Μ y Μ Συνδιασπορα (Covariance) Δείγματος σ XY = Μ ν= (χ ν m Χ)(y ν m Υ) Μ Αμεροληπτη Συνδιασπορα Δείγματος: s XY = Μ ν= (χ ν m Χ)(y ν m Υ) Μ = Μ Μ σ XY Διορθωση Bessel s X = M ν= (χ ν m ) M = M M ν= M (χ ν m ) M = M M σ X

Τυποποιημενη Συνδιασπορα Δείγματος = Συνδιασπορα (Pearson) Δείγματος = Συσχετιση (Pearson) Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: r ΧΥ = M Μ ( χ ν m Χ ) ( y ν m Υ ν= ) = Μ σ Χ σ Υ M ν= ( χ ν m X ) ( y ν m Y ) s X s Y = r ΧΥ ενσωματωνει την Διορθωση Bessel

Αποδειξη r XY = σ XY σ Χσ Υ = = M ν= (χ ν m Χ)(y ν m Υ) Μ = σ Χσ Υ (χ ν m Χ)(y ν m Υ) M M ν= M ν= (χ ν m Χ) M Μ ν= M ν= (y ν m Υ) M ( χ ν m Χ σ Χ = Μ ) ( y ν m Υ ) σ Υ M ν= (χ ν m Χ)(y ν m Υ) M ν= (χ ν m Χ) M ν=(y ν m Υ) r (X, Y) = s XY s Χ s Υ = M ν= (χ ν m Χ)(y ν m Υ) M M (χ ν m Χ) ν= M (y ν m Υ) M ν= M = = M ν= (χ ν m Χ)(y ν m Υ) M (χ ν m Χ) ν= M (y ν m Υ) ν=

Συνδιασπορα Ν Μεταβλητων Χ, Χ,, Χ N σ κλ = cov(χ κ, Χ λ ) = E[(Χ κ m κ ) (Χ λ m λ )] σ κλ = cov(χ κ, Χ λ ) = E[Χ κ Χ λ ] m κ m λ m κ = E[Χ κ ] η Μεση Τιμη της Χ κ Ο Πινακας Συνδιασπορας των Ν Μεταβλητων Χ, Χ,, Χ N σ σ Ν σ = ( ) σ Ν σ ΝΝ σ Μη Αρνητικος Συμμετρικος Πινακας, αρα Διαγωνιοποιησιμος

Ο Πιναξ Συσχετισεων των Ν Μεταβλητων Χ, Χ,, Χ N r r Ν r = ( ) r Ν r ΝΝ r κλ = σ κλ σ κ σ λ = cov ( X κ m κ σ κ, Y m Y ) = cov ( X κ, X λ ) = cov(x σ Y σ κ σ λ σ κ σ κ, X λ ) λ Η Συσχετιση (Pearson) των Μεταβλητων Χ κ, Χ λ

Δειγμα Μ Μετρησεων των N Μεταβλητων Χ, Χ,, Χ N Data Matrix Μ Ν Variables X X X ν X N Observation χ χ χ ν χ N Observation χ χ χ ν χ N Observation μ χ μ χ μ χ μν χ μn Observation M χ M χ M χ Mν χ MN

Πιναξ Μετρησεων (Data Matrix): χ x N Χ = ( ) = (χ,, χ Ν ) χ M x MN Διανυσμα των Παρατηρησεων της Μεταβλητης X ν, ν=,,,ν: χ ν ( ) = χ v = η στηλη ν του Πινακα Μετρησεων χ Mν Διανυσμα της Παρατηρησης μ (των Ν Μεταβλητων X ν, ν=,,,ν): χ μ ( ) = (χ μ, χ μ,, χ μν ) Τ χ μν (χ μ, χ μ,, χ μν ) = η γραμμη μ του Πινακα Μετρησεων

Relational Data Base Μ Ν Instances Πραγματοποιησεις Περιπτωσεις Περιστατικα Records, Registrations Καταγραφες Attributes Γνωρισματα, Iδιοτητες X X X ν X N χ χ χ ν χ N χ χ χ ν χ N μ χ μ χ μ χ μν χ μn M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Instance Profile of the Attribute Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Αttribute Profile of the μ-instance

Gene Expression Matrix Μ Ν Expressions Εκφρασεις Περιπτωσεις Περιστατικα Genes Γονιδια X X X ν X N Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μν χ μn Expression M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Expression Profile of the Gene Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Expression Profile of the μ-instance Στην Βιολογια συνηθως εργαζονται με τον Συζυγη Πινακα Ν M Alter O., Brown P., Botstein D. 000, Singular value decomposition for genome-wide expression data processing and modeling, Proc Natl Acad Sci USA 97:00-06.

Neural Net Matrix Μ Ν Inputs X X X ν X N Outputs Expression χ χ χ ν χ N Expression χ χ χ ν χ N Expression μ χ μ χ μ χ μν χ μn Expression M χ M χ M χ Mν χ MN χ ν ( ) = χ v = Expression Profile of Input Χ ν χ Mν (χ μ, χ μ,, χ μν ) = Expression Profile of the μ-output

σ κλ = Μ ν= ( χ νκ m κ)(χ νλ m λ) Μ οπου χ να η τιμη της ν-μετρησης της Μεταβλητης X α m α η Δειγματικη Μεση Τιμη της Μεταβλητης X α Αμεροληπτη Συνδιασπορα Δειγματος s κλ = Μ Μ ν= ( χ νκ m ν)(χ νλ m λ) Διορθωση Bessel

Συσχετιση (Pearson) Δείγματος = Τυποποιημενη Συνδιασπορα Δείγματος = Aμεροληπτη Τυποποιημενη Συνδιασπορα Δείγματος: Μ r κλ = M (χ νκ m κ ) ( χ νλ m λ ) σ κ σ λ ν= M = M (χ νκ m κ ν= s κ ) ( χ νλ m λ ) = r κλ s λ ενσωματωνει την Διορθωση Bessel

Λημμα: σ σ N σ = ( ) = σ Ν Μ ΨT Ψ σ MN s s N s = ( ) = Μ ΨT Ψ s Ν s MN Data Matrices r r N r = ( ) = r Ν r Μ ΖT Ζ MN ψ ψ N Ψ = ( ), ψ κλ = χ κλ m λ, ψ M ψ MN z z N Z = ( ), z κλ = χ κλ m λ σ λ z M z MN

ΠΑΡΑΔΕΙΓΜΑ: Ο Πιναξ Συσχετισεων Ν Ανεξαρτητων ανα Μεταβλητων είναι Διαγωνιος : Συμβαση σ κλ = σ Χκ Χ λ = 0 Αναδιατασσουμε τις Ν Μεταβλητες ώστε οι αντιστοιχες Διασπορες Να διατασσονται κατά φθινουσα σειρα: σ > σ > >σ Ν σ 0 0 σ = 0 σ ( 0 σ Ν ) (Ορθες μοναδες μετρησης) Για Ανεξαρτητες Μεταβλητες Χ,Υ: σ ΧΥ = 0 σ = ( σ 0 0 σ ) σ = max(σ Χ, σ Υ ), σ = min(σ Χ, σ Υ )

Μπορω να Μετασχηματισω τις Μεταβλητες Ψ, Ψ,, Ψ N σε Ν Ανεξαρτητες μεταβλητες Υ, Υ,, Υ N με τις ιδιες Διασπορες σ Χκ = σ Υκ = σ κ? Bεβαιως! Μεσω της Διαγωνιοποιησης του Πινακα Συνδιασπορας σ (Μη Αρνητικος Συμμετρικος, αρα Διαγωνιοποιησιμος). U T σ U = σ 0 0 0 σ ( 0 σ Ν ) = U T (Ψ T Ψ)U u u u u u Ν u Ν U = ( ) = (u u u N ) u Ν u Ν u ΝΝ

U ο Πιναξ N N με στηλες τα ιδιοανυσματα u ν, ν=,,,ν του Πινακα σ u ν u ν u ν = ( ) : σu ν = λ ν u ν u Νν U T σu = U T (Ψ T Ψ)U = Υ T Υ y y N Υ = ( ) o Πιναξ Δεδομενων των Μεταβλητων Υ, Υ,, Υ N y M y MN που οριζονται από τον Γραμμικο Μετασχηματισμο Υ Ψ u u Υ ( Ψ ) = U ( u u u Ν Ψ u Ν Ψ ) = ( ) ( ) Υ Ν Ψ Ν u Ν u Ν u ΝΝ Ψ Ν

Ορισμος Κυριες Συνιστωσες (Principal Components) του Πινακα Συνδιασπορας = Οι Φασματικες Συνιστωσες που οριζονται απο τα ιδιοανυσματα Του N x N Πινακα Συνδιακυμανσης Για κάθε Διανυσμα Μετρησης χ των Ν Μεταβλητων: χ χ = ( ) χ Ν Οριζω Αναπτυγμα σε Κυριες Συνιστωσες του χ = Το Φασματικο Αναπτυγμα του του χ ως τους αξονες των ιδιανυσματων του N x N Πινακα Συνδιακυμανσης

Κυριες Συνιστωσες. Σημασια ) Τα ιδιοανυσματα προκυπτουν απο (Ν-διαστατη) στροφη ) Οι Πρωτες Κυριες Συνιστωσες φερουν την μεγαλυτερη και σημαντικοτερη Πληροφορια 3) Οι Μεταβλητες Υ, Υ,, Υ N οριζουν τις συντεταγμενες των Μετρησεων στις Κυριες Συνιστωσες

Παραδειγμα: Πιναξ Συνδιασπορας Μεταβλητων ( dim Covariance Matrix) σ = ( σ ΧΧ σ ΧΥ σ ΧΥ σ ) = ( σ Χ σ ΧΥ ΥΥ σ ΧΥ σ ) = ( σ Χ cov[χυ] ) Υ cov[χυ] σ Υ σ = ( E[ΧΧ] m Χ m Χ E[ΧΥ] m Χ m Υ ) E[ΥΧ] m Υ m Χ E[ΥΥ] m Υ m Υ det (σ) = σ Χ σ Υ σ ΧΥ σ = det (Σ) ( σ ΥΥ σ ΧΥ σ ΧΥ σ ) = ΧΧ σ Χ σ Υ σ ( σ Y σ ΧΥ ΧΥ σ ΧΥ σ ) Χ

Προβλημα Ιδιοτιμων του Πινακα Συνδιασπορας : Eigenvalues σ = σ Χ + σ Υ + (σ Χ σ Υ ) 4σ ΧΥ σ = σ Χ + σ Υ (σ Χ σ Υ ) 4σ ΧΥ Eigenvectors u = n ( σ Χ + σ ΧΥ σ σ Υ + σ ΧΥ σ ) u = n ( σ Χ + σ ΧΥ σ σ Υ + σ ΧΥ σ )

σ = U ( σ 0 0 σ ) UT U = (u u ) Τα ορθογωνια ιδιοανυσματα u και u οριζουν τις Κατευθυνσεις μεγιστης και ελαχιστης συνδιασπορας Oι προβολες ενός διανυσματος μετρησης χ = ( χ χ ) στις κατευθυνσεις των ιδιοανυσματων u και u ειναι Οι Κυριες Συνιστωσες (Principal Components) του χ

Λημμα Φασματικη Αναλυση Διαγωνισιμων Πινακων α 0 0 Ν 0 α A = U ( 0 ) U = a ν ( ν= 0 0 Au ν = α ν u ν u ν u ν u Nν ) (η ν, η ν,, η νn ) Συμβαση: Οι ιδιοτιμες διατασσονται κατά φθινουσα σειρα: α > α > u u u U = (u u u N ) u u Ν u Ν = ( ) = Ο Modal Matrix του Α u Ν u Ν u ΝΝ u ν U ο Πιναξ N N με στηλες τα ιδιοανυσματα u ν = ( ), ν=,,,ν του Πινακα Α u Νν U = ( η η η η η Ν η Ν ) ο Αντιστροφος του U η Ν η Ν η ΝΝ u ν

Φασματικη Αναλυση (της Δρασης) του Πινακα Α Spectral Decomposition of the Action of A χ u ν χ Α( ) = Ν u ν ν= a ν ( χ N u Nν ) (η ν, η ν,, η νn ) ( u ν χ χ ) = Ν u ν ν= a ν ( ) ( Ν η νκ χ κ χ N u Nν κ= ) Φασματικες Συνιστωσες Διανυσματων Decomposition of Vectors in Spectral Components ( χ Ν Ν χ ) = ( η νκ χ κ χ ν= κ= N ) ( u ν u ν u Nν ) Ν Ν = ( η νκ χ κ ) u ν ν= κ= ( Ν η νκ χ κ κ= )u ν η ν-φασματικη Συνιστωσα του Διανυσματος ( χ χ ) χ N

Normal Matrices: A A = AA The Eigenvector basis is Orthogonal Unitary (Normal) Matrices: A = A Eigenvalues on the complex unit circle Hermitian (Normal) Matrices: A = A Eigenvalues Real A = U ( α 0 0 0 α 0 ) U 0 0 U is Unitary Matrix U = U Real Symmetric (Normal) Matrices: A T = A Eigenvalues Real A = U ( α 0 0 0 α 0 ) U T 0 0 Q is Orthogonal Matrix U = U T

ΠΑΡΑΔΕΙΓΜΑ Συμμετρικος Πιναξ A=( 4 3 3 4 ) Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = 5 α = -5 e= ( 3 ) ( 4 3 3 4 ) ( 3 ) = 5 ( 3 ) e= ( 3 ) ( 4 3 3 4 ) ( 3 ) = ( 5) ( 3 )

e e = ( 3 ) ( 3 ) = 3 + 3 = 0 Κανονικοποιηση: e = + 3 = 0 e = ( 3) + = 0 u = e ( 3 ) = 0 ( 3 ) u = e ( 3 ) = 0 ( 3 )

Diagonalizing Matrix: Diagonalization U = (u u ) = 0 ( 3 3 ) U = U T = 0 ( 3 3 ) U A U = 0 [( 3 3 ) ( 4 3 3 0 ) ( )] = (5 3 4 3 0 5 ) U A U = 0 3 3 [5 ( ) ( 3 3 )] U A U = [( 3 3 ) ( 3 3 )] U A U = 0 0 [ (5 )] = (5 0 5 0 5 ) ( 3 3 ) ( 4 3 3 4 ) = ( 5 5 5 5 ) = 5 ( 3 3 ) ( 3 3 ) ( 3 3 ) = (0 0 0 0 ) = (5 0 0 5 )

ΠΑΡΑΔΕΙΓΜΑ Πραγματικος Διαγωνιοποιησιμος Πιναξ Eigenvalues Eigenvectors a = 3 a = a = e = ( ) 0 e = ( 0) e 3 = ( 0 ) 0 A = ( 0 3 0) 4

Μηκη e, e, e 3 : e = ( ) + ( ) +() = 6 e = 0 + 0 +() = e3 = ( ) + 0 +() = 5 Τα e, e, e 3 δεν είναι ορθοκανονικα: e e = ( e e 3 = ( e e 3 = ( 0 ) ( 0) = ) ( 0 ) = 5 0 0) ( 0 ) =

Diagonalizing Matrix: Diagonalization U = (e e 0 e 3 ) = ( 0 0 ) 0 0 U = ( 0 ) 0 0 0 0 0 3 0 0 U A U = ( 0 ) ( 0 3 0) ( 0 0 ) = ( 0 0) 0 4 0 0

Spectral Decomposition οf Α A = U ( 3 0 0 0 0 0 0 ) U = ( 0 0 0 ) ( 3 0 0 0 0 0 0 ) ( 0 0 0 0 0 A = 3 ( ) (0,, 0) + ( 0) (,0,) + ( 0 ) (,,0) Spectral Decomposition of the Action of A χ χ 0 χ χ Α( χ ) = 3 ( ) (0,, 0) ( χ ) + ( 0) (,0,) ( χ ) + ( 0 ) (,,0) ( χ ) χ 3 χ 3 χ 3 χ 3 ) = χ 0 Α( χ ) = 3( χ ) ( ) + (χ + χ 3 ) ( 0) + ( χ + χ ) ( 0 ) χ 3 χ χ 0 χ χ Α( χ ) = 3 ( χ ) + ( 0 ) + ( 0 ) χ 3 χ χ + χ 3 χ + χ

Decomposition of Vectors in Spectral Components χ ( χ ) = ( χ 3 χ χ ) + ( χ 0 χ χ 0 ) + ( 0 ) χ + χ 3 χ + χ χ χ ( χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ χ 3 0 ( 0 ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ + χ 3 χ 3 χ χ χ ( 0 ) η 3 η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ ) χ + χ χ 3 χ

ΠΑΡΑΔΕΙΓΜΑ Markov Matrix 0.9 0.3 A=( 0. 0.7 ) Προβλημα Ιδιοτιμων, Aψ=αψ: Ιδιοτιμη Ιδιοδιανυσμα α = α = 0.6 0. 75 0.3 75 75 e= ( ) (0.9 ) (0. ) = (0. 0. 5 0. 0.7 0. 5 0. 5 ) e= ( 9 0.3 ) (0. 0. 0. 7 ) ( ) = 0. 6 ( )

Τα διανυσματα e, e δεν είναι μοναδιαια e = (0. 75) + (0. 5) 0.79 e = Τα διανυσματα e, e δεν είναι ορθογωνια e e = 0. 75 0. 5 = 0. 5 0

Diagonalizing Matrix U = (e e ) = ( 0.75 0. ) U = ( ), A Non-Symmetric Non-Normal στον H= R 0.5 0.75 Diagonalization U A U = ( 0.3 ) (0.9 0.5 0.75 0. 0.7 ) (0.75 0. ) = ( 0 0 0.6 )

Spectral Decomposition οf Α A = U ( 0 0 0.6 ) U = ( 0.75 0. ) ( 0 0 0.6 ) ( 0.5 0.75 ) = 0. 75 A = ( 0. 5 ) (,) + 0. 6 ( ) (0.5, 0,75) Spectral Decomposition of the Action of A Α( χ χ ) = ( Α( χ χ ) = ( 0. 75 0. 5 ) (,) (χ χ ) + 0. 6 ( ) (0.5, 0,75) (χ χ ) 0. 75 0. 5 ) (χ + χ ) + 0. 6 ( ) (0.5χ 0,75χ ) Α( χ χ ) = ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) + 0. 6 ( 0.5χ 0,75χ 0.5χ + 0,75χ )

Decomposition of Vectors in Spectral Components ( χ χ ) = ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) + ( 0.5χ 0,75χ 0.5χ + 0,75χ ) ( 0. 75χ + 0. 75χ 0. 5χ + 0. 5χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ χ ) ( 0.5χ 0,75χ 0.5χ + 0,75χ ) η η -φασματικη συνιστωσα (Spectral component) του διανυσματος ( χ χ )

Mπορω να αναλυσω εναν Μ Ν Πινακα Δεδομενων, όπως τον Πινακα: χ χ N Χ = ( ) χ M χ MN σε Συνιστωσες για περαιτερω επεξεργασια? Θεωρημα Αναλυσης Πινακων (Μ Ν) σε Ιδιαζουσες Τιμες Singular Value Decomposition (SVD) Theorem Γενικευση Φασματικης Αναλυσης Τετραγωνικων Πινακων

Theorem (SVD) Singular Value Decomposition of the Μ Ν matrix X Οπου: Χ = U Σ V T = U ( s 0 0 0 0 Ο r (N r) 0 0 s ) r Ο (M r) r Ο (M r) (N r) s, s,, s r the singular values of the M x N Matrix X s ν = ζ ν, ν =,,, r r = rank (X T X) = rank (XX T ) Μ Ν V T ζ ν, ν =,,, r the (positive) eigenvalues of the M M Matrix XX T : (XX T )u ν = ζ ν u ν Identical with the (positive) eigenvalues of the N N Matrix X T X: (X T X)v ν = ζ ν v ν

U is the Μ Μ Orthogonal Modal Matrix of the Μ Μ Symmetric Matrix ΧΧ T u κ The columns of U are the orthonormal Eigenvectors u κ = ( ) of ΧΧT, κ =,,, M u Μκ (s ) 0 0 ΧΧ T = U ( 0 (s ) 0) 0 0 Μ Μ u κ U Τ (ΧΧ T )u κ = (s κ ) κ r u κ, r M,, κ =,,, M V is the N N Οrthogonal Modal Matrix of the N N Symmetric Matrix Χ Τ Χ v λ The columns of V are the orthonormal Eigenvectors v λ = ( ) of Χ Τ Χ, λ =,,, Ν v Νλ (s ) 0 0 Χ Τ Χ = V ( 0 (s ) 0) 0 0 N N V T v λ (Χ T Χ)v λ = (s ν ) ν r u λ, r Ν, λ =,,, Ν

Ορισμος Iverson Bracket Q = {, αν Q Αληθης 0, αν Q Ψευδης } converts Boolean values to 0, Iverson K. 96, A Programming Language, New York: Wiley, p. Graham R., Knuth D., Patashnik O. Concrete Mathematics, Section.: Sums and Recurrences. Knuth D. 99, "Two Notes on Notation", American Mathematical Monthly, Volume 99, Number 5, May 99, pp. 403 4. (TEX, arxiv:math/905)

s 0 0 0 0 Ο Χ = U ( r (N r) 0 0 s ) VT r Ο (M r) r Ο (M r) (N r) Χ = ( u u u u u M u M ) ( u M u M u MM s 0 0 0 0 u r ν u ν Χ = s ν ( ) (v ν, v ν,, v Nν ) ν= u Μν 0 0 s r Ο r (N r) Ο (M r) r Ο (M r) (N r) ) ( v v v v v N v N ) v N v N v NN u v u v u v u v u v N u r v r u r v r u v N u r v r u r v u rv Nr r u Ν v Nr Χ = s ( ) + + s r ( ) u M v u M v u M v N u Μr v r u Mr v r u Mr v Nr

SVD of the Action of A on (Measurement) Vectors χ u ν χ u r r ν χ u ν χ Χ ( ) = s ν ( ) (v ν, v ν,, v Nν ) u ν ( ) = s ν ( ) χ ν= M u Μν χ ν= M u Nν Ν ( v κν χ κ ) κ= Ιδιαζουσες Συνιστωσες Διανυσματων Decomposition of Vectors in Spectral Components SV Decomposition of the Action of Z

Decomposition of Vectors in Spectral Components ( χ r Ν χ ) = ( v κν χ κ χ ν= κ= N u ν Το Διανυσμα ( Ν u κ= v κν χ κ ) ν ( ) καλειται u Nν ) ( u ν u ν u Nν ) η ν-ιδιαζουσα συνιστωσα (Singular component) του διανυσματος ( χ χ χ N )

ΠΑΡΑΔΕΙΓΜΑ SVD 3 Χ = ( ), Πιναξ x3 3 3 Χ T = ( 3 ), Πιναξ 3x

3 ΧΧ T 3 = ( 3 ) ( 3 ) = ( ), Πιναξ x Eigenvalue problem of the Symmetric Real Matrix ΧΧ T = ( ): Eigenvalues Singular Values Eigenvectors Orthonormal Eigenvectors ζ = s = ( ) ( ) ζ = 0 s = 0 ( ) ( ) U = ( ) x

3 Χ T Χ = ( 0 0 3 3 ) ( 3 ) = ( 0 0 4) Πιναξ 3x3 4 Eigenvalue problem of the Symmetric Real Matrix Χ T Χ: Eigenvalues Singular Values Eigenvectors Orthonormal Eigenvectors ζ = ζ = 0 ζ 3 = 0 s = s = 0 s 3 = 0 ( ) ( ) 0 ( ) 5 6 6 ( 6) ( 5 5 0 ) 30 30 5 ( 30)

6 V = 6 ( 6 5 5 0 30 30 5 30) V T = ( 6 5 30 6 5 30 6 0 5 30) 3x3

Σ = ( 0 0 0 0 0 ) x3 X = UΣV T 3 ( 3 ) = ( ) ( 0 0 0 0 0 ) 6 5 ( 30 6 5 30 6 0 5 30)

Εφαρμογες SVD data reduction data association exploratory data analysis constructing predictive models. Data compression, data reconstruction Quantum Computing. Entanglement

Aναφορες Ιστορικες Galton F.889, Natural Inheritance. MacMillan and Co, London Pearson, K. 90, "On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine (): 559 57. doi:0.080/4786440094670. Hotelling, H. 933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, 4, 47-44, and 498-50. Hotelling, H. 936, Relations between two sets of variates. Biometrika, 7, 3-77 Aναφορες Συγχρονες Qin S.J., Dunia R. 000, Determining the number of principal components for best reconstruction, Journal of Process Control, vol. 0, pp 45 50. Alter O., Brown P., Botstein D. 000, Singular Value Decomposition for genome-wide expression, data processing and modeling, PNAS vol. 97 no. 8, 00 006 Jolliffe I.T. 00, "Principal Component Analysis", Second Edition, Springer. Jackson, J. E. 003, A User's Guide to Principal Components, A Wiley-Interscience, New York Tapani Raiko, Alexander Ilin and Juha Karhunen 008, Principal Component Analysis for Sparse High-Dimensional Data, Neural Information Processing Lecture Notes in Computer Science, Vol. 4984/008, 566-575. Miszczak J. 0, Singular Value Decomposition and Matrix Reorderings in Quantum Information Theory, International Journal of Modern Physics C, Vol., No. 9, 897-98 Shlens J. 04, A Tutorial on Principal Component Analysis, http://www.cs.cmu.edu/~elaw/papers/pca.pdf