ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ Σκοπός της παραγοντικής ανάλυσης είναι να περιγράψει την συνδιασπορά μεταξύ των μεταβλητών με την βοήθεια τυχαίων άγνωστων ποσοτήτων που ονομάζονται παράγοντες.
Το μοντέλο είναι το εξής: X μ = l F + l F +... + l F + ε 1 1 11 1 12 2 1m m 1 X μ = l F + l F +... + l F + ε 2 2 21 1 22 2 2m m 2 X μ = l F + l F +... + l F + ε p p p1 1 p2 2 pm m p ή με συμβολισμό πινάκων X μ = L F + ε (p 1) (p m) (m 1) (p 1) μ i = μέση τιμή της μεταβλητής i ε i = ο i οστός ειδικός παράγοντας (σφάλμα) F j = ο j οστός κοινός παράγοντας l ij = φορτίο της i οστής μεταβλητής πάνω στο j οστό παράγοντα ε = πίνακας των ειδικών παραγόντων (πίνακας σφαλμάτων) F = πίνακας των κοινών παραγόντων L = πίνακας των παραγοντικών φορτίων
Τα μη παρατηρήσιμα τυχαία διανύσματα F και ε ικανοποιούν επιπλέον Ε(F) = 0, Cov(F) = I E(ε) = 0, Cov(ε) = Ψ, όπου Ψ ένας διαγώνιος πίνακας Δομή συνδιασποράς για το παραγοντικό μοντέλο 1. Cov(X) = LL + Ψ ή 2. Cov(X, F) = L ή Var( X ) = l +... + l +ψ 2 2 i i1 im i Cov( X, X ) = l l +... + l l Cov( X, F) = l i k i1 k1 im km i j ij
Το μέρος της διασποράς της i οστής μεταβλητής που συνεισφέρετε από τους m κοινούς παράγοντες ονομάζεται i οστή communality. Το μέρος της Var(X i ) = σ ii που οφείλεται στον ειδικό παράγοντα ονομάζεται ειδική διασπορά. Δηλώνουμε την i οστή communality με και έχουμε: Var(X i ) = communality + ειδική διασπορά 2 h i 2 2 2 σ ii = li1 + li2 +... + lim + ψ i ή 2 h i = l + l +... + l 2 2 2 i1 i2 im και 2 h i σ ii = + ψ i i = 1,2,...,p Η i οστή communality είναι το άθροισμα των τετραγώνων των φορτίων της i οστής μεταβλητής πάνω στους m κοινούς παράγοντες.
Το παραγοντικό μοντέλο υποθέτει ότι οι p(p + 1)/2 διασπορές και συνδιασπορές για το Χ μπορούν να αναπαραχθούν από τα pm παραγοντικά φορτία l ij και τις p ειδικές διασπορές ψ i. Όταν m = p, κάθε πίνακας συνδιασπορών Σ μπορεί να αναπαραχθεί ακριβώς LL, με τον Ψ να είναι ο μηδενικός πίνακας. Όταν το m είναι μικρό σε σχέση με το p τότε το παραγοντικό μοντέλο παρέχει μια εξήγηση συνδιασποράς στο Χ, με λιγότερες παραμέτρους απ ότι οι p(p + 1)/2 παράγοντες του Σ. Π.χ. αν το Χ περιέχει p = 15 μεταβλητές και το παραγοντικό μοντέλο με m = 3 είναι κατάλληλο, τα p(p + 1)/2 = 120 στοιχεία του Σ περιγράφονται από mp + p = 60 παραμέτρους l ij και ψ i του παραγοντικού μοντέλου. Δυστυχώς οι περισσότεροι πίνακες συνδιασπορών δεν μπορούν να παραγοντοποιηθούν ως LL + Ψ, όταν ο αριθμός των παραγόντων m είναι πολύ πιο μικρός από το p.
ΜΕΘΟΔΟΙ ΕΚΤΙΜΗΣΗΣ Αν οι μεταβλητές δεν είναι συσχετισμένες τότε η παραγοντική ανάλυση δεν μπορεί να φανεί πολύ χρήσιμη. Σ αυτή τη περίπτωση οι ειδικοί παράγοντες παίζουν το σημαντικότερο ρόλο, αλλά ο κύριος σκοπός της παραγοντικής ανάλυσης είναι να προσδιορίσει μερικούς σημαντικούς κοινούς παράγοντες. Αν ο Σ παρεκκλίνει σημαντικά από διαγώνιο πίνακα τότε το παραγοντικό μοντέλο μπορεί να εφαρμοστεί και το αρχικό πρόβλημα είναι πρόβλημα εκτίμησης των παραγοντικών φορτίων l ij και των ειδικών διασπορών ψ i. Υπάρχουν δυο μέθοδοι εκτίμησης των παραμέτρων, η μέθοδος των κύριων συνιστωσών (και των σχετικών κυρίων παραγόντων) και η μέθοδος της μεγίστης πιθανοφάνειας. Αν το παραγοντικό μοντέλο είναι κατάλληλο για το πρόβλημα τότε οι λύσεις μπορούν να είναι συνεπής η μια με την άλλη.
1. ΜΕΘΟΔΟΣ ΤΩΝ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ Οι κύριες συνιστώσες της παραγοντικής ανάλυσης του δειγματικού πίνακα συνδιασπορών S προσδιορίζονται από τα ζεύγη ιδιοτιμών ιδιοδιανυσμάτων (λ 1, e 1),(λ 2, e 2),...,(λ p, e p) όπου λ 1 λ 2... λp. Έστω m < p ο αριθμός των κοινών παραγόντων. Ο πίνακας των εκτιμώμενων παραγοντικών φορτίων είναι L = λ 1e 1 λ 2e 2... λ me m Οι εκτιμώμενες ειδικές διασπορές δίνονται από τα διαγώνια στοιχεία του πίνακα S LL, έτσι ψ 1 0 0 0 ψ 2 0 m Ψ = με 2 ψ i = sii l ij j = 1 0 0 ψ p Οι communalities εκτιμώνται ως 2 2 2 2 i i1 i2 im h = l + l +... + l Οι κύριες συνιστώσες της παραγοντικής ανάλυσης του δειγματικού πίνακα συσχετίσεων, λαμβάνονται με αντικατάσταση στα παραπάνω του S με τον R. { l ij}
Για την επίλυση των κύριων συνιστωσών, τα εκτιμώμενα παραγοντικά φορτία δεν αλλάζουν καθώς ο αριθμός των παραγόντων αυξάνεται. Για παράδειγμα, αν m = 1, L = λ 1 e 1 = και αν m = 2, L λ 1e1 λ2e2. Πως διαλέγουμε τον αριθμό των παραγόντων m; α) προσδιορίζεται από την άσκηση ή την μελέτη. β) ποσοστο της συνολικης λ j δειγματικης διασπορας s + s +... + s = που οφειλεται στο λ j j-οστο παραγοντα p 11 22 pp για την αναλυση του S για την αναλυση του R με βάση αυτό το κριτήριο. Ο αριθμός m αυξάνεται μέχρι ένα κατάλληλο ποσοστό της συνολικής δειγματικής διασποράς να έχει ερμηνευτεί. γ) θέτουμε m ίσο με τον αριθμό των ιδιοτιμών που είναι μεγαλύτερες της μονάδας. Δεν εφαρμόζεται τυφλά γιατί δεν έχει μεγάλη θεωρητική υποστήριξη (όπως και στις κύριες συνιστώσες).
2. ΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ Έστω Χ 1, Χ 2,, Χ n ένα τυχαίο δείγμα από την Ν p (μ, Σ) όπου Σ = LL + Ψ είναι ο πίνακας συνδιασπορών για m κοινούς παράγοντες. Οι εκτιμητές μεγίστης πιθανοφάνειας L, Ψ και μ = x μεγιστοποιούν την n 1 tr Σ 1 np n (x j x)(x j x)' + n(x μ)(x μ)' 2 j = 1 L(μ, Σ) = 2 2 (2π) Σ e = n 1 tr Σ 1 (n 1)p (n 1) (x j x)(x j x)' 2 2 2 j = 1 (2π) Σ e p 1 n 1 (x μ)'σ (x μ) 2 2 2 (2π) Σ e υπό την προϋπόθεση ότι ο L Ψ 1 L είναι διαγώνιος. Οι εκτιμητές μεγίστης πιθανοφάνειας των communalities είναι h 2 2 2 2 i = l i1+ li2 +... + lim για i = 1,2,...,p έτσι ποσοστο της συνολικης 2 2 2 δειγματικης διασπορας l 1j + l2j +... + pj l = που οφειλεται στο s11 + s 22 +... + spp j οστο παραγοντα
Για τον πίνακα συσχετίσεων έχουμε ποσοστο της συνολικης (τυποποιημενων) δειγματικης l + l +... + l = διασπορας που οφειλεται p στο j οστο παραγοντα 2 2 2 1j 2j pj Ο δειγματικός πίνακας συσχετίσεων R καταχωρείται για [(n 1)/n]S στη συνάρτηση πιθανοφάνειας και παίρνουμε τους εκτιμητές μεγίστης πιθανοφάνειας L z, Ψz ή βασιζόμενοι στους εκτιμητές L, Ψ του δειγματικού πίνακα 1/2 1/2 1/2 συνδιασπορών S, θέτοντας L z = V L και Ψ z = V ΨV Εδώ V 1/2 είναι ένας διαγώνιος πίνακας με στοιχεία (1 / τις δειγματικές τυπικές αποκλίσεις) στην κύρια διαγώνιο.