ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ. Μ-Ν ΝΤΥΚΕΝ
Ορισμός Σκοπός της Α.Κ.Σ. Η Α.Κ.Σ. εντάσσεται στις μεθόδους διερευνητικής ανάλυσης (exploratory) συνθετικών φαινόμενων (Παραγοντικές μεθόδοι). Αποτελεί πολύ χρήσιμο εργαλείο για την ανάλυση συνθετών φαινόμενων που δεν μπορούν να μετρηθούν άμεσα (not directly observable), ειδικά όταν αναφέρεται σε χωρικές και διοικητικές ενότητες. Είναι μια εξειδικευμένη μέθοδο ανάλυσης μεγάλου όγκου Δεδομένων. Πρόκειται για Πολυδιάστατη Στατιστική Ανάλυση. Βασίζεται στη συσχέτιση διαφορών μεταβλητών που περιγράφουν το φαινόμενο που εξετάζουμε (απαιτεί σημαντική συσχέτιση μεταξύ των περισσότερων αρχικών επιλεγμένων μεταβλητών). Αρχικές μεταβλητές Χ1 Χ.. Χp Καινούργιες μεταβλητές Υ1 Υ.. Υm Όπου m < p
Ορισμός Σκοπός της Α.Κ.Σ. Βασικοί στόχοι: 1. Μείωση του όγκου των δεδομένων Ο ορισμός περιορισμένου αριθμού καινούργιων συνθετών μεταβλητών (Factors), [Thurstone, 1931] που εξασφαλίζει την απλοποίηση ενός συνόλου δεδομένων. Κάθε νέα μεταβλητή αναφέρεται σε μοναδική διάσταση του εξεταζόμενου φαινόμενου. Κατά συνέπεια, οι νέες συνθέτες μεταβλητές δεν συσχετίζονται μεταξύ τους, σε αντίθεση με τις αρχικές. Η μείωση του όγκου δεδομένων επιτυγχάνεται όταν εξασφαλίζεται η μικρότερη δυνατή τροποποίηση των αποστάσεων μεταξύ των παρατηρήσεων (ατόμων).. Εμφάνιση σχέσεων μεταξύ των αρχικών μεταβλητών που δεν είναι εκ των προτέρων εμφανής. Οι νέες μεταβλητές που θα προκύπτουν από την ΑΚΣ είναι γραμμικοί συνδυασμοί των αρχικών μεταβλητών.
Δεδομένα Μεταβλητές της Α.Κ.Σ. Για το πληθυσμό που εξετάζουμε, διαθέτουμε σημαντικό όγκο πληροφοριών που εκφράζεται μέσω p μεταβλητές για n άτομα. Αρχικές μεταβλητές: Χ 1, Χ,,X i,..,χ p Βλέπε μορφή πίνακα Η αποτελεσματικότητα της μεθόδου προϋποθέτει: Σημαντική μεταβλητότητα για τις p αρχικές μεταβλητές Σημαντική αλληλοεπίδραση μεταξύ των μεταβλητών (συσχέτιση) Αρκετά μεγάλος αριθμός παρατηρήσεων (n) για να ελαχιστοποιηθεί η πιθανότητα σφάλματος στην ανάλυση. Συνήθως, προτείνεται να έχουμε: μια αναλογία 10 παρατηρήσεις για μια (1) αρχική μεταβλητή (Nunnally, 1978:41) ή να έχουμε Ν > 400-500 Η συμπύκνωση της πληροφορίας μέσω της δημιουργίας περιορισμένου αριθμού συνθετών μεταβλητών (κυρίων συνιστωσών) m νέες μεταβλητές (m < p): Υ 1, Υ, Y j,..,υ m οι οποίες εκφράζονται ως γραμμική συνάρτηση των αρχικών μεταβλητών.
Αρχικός πίνακας δεδομένων Μεταβλητές Άτομα X 1 X X j X p 1 X 11 X 1j X 1p Διάνυσμα γραμμή (δεδομένα για το 1 ο άτομο) i X i1 X ij n X np Διάνυσμα στήλη (δεδομένα για την 1 η μεταβλητή) Βασικό θέμα που προκύπτει από τέτοιο πίνακα, είναι η απόσταση μεταξύ των ατόμων που εξετάζουμε
Παράδειγμα πίνακας δεδομένων Απόσταση μεταξύ ατόμων Μεταβλητές Άτομα X 1 X X 3 1 1 3 1 3 7 4 1 1 5 1 6 1 Η απόσταση μεταξύ ατόμων είναι συνάρτηση των τιμών που παίρνουν όλες οι μεταβλητές που χαρακτηρίζουν τα άτομα. Μια πρώτη μέτρηση της απόστασης μεταξύ ατόμων Α και Β δίνεται από: 1 d AB = ( X Aj X Bj ) j = 1,..., p j Η παραπάνω απόσταση παρουσιάζει τον μειονέκτημα ότι, εξαρτάται σε σημαντικό βαθμό από τη διακύμανση της κάθε μεταβλητής και ειδικότερα από τις μεταβλητές που παρουσιάζουν την μεγαλύτερη διακύμανση. p 1 Μεταβλητές X 1 X X 3 Μέσες τιμές 1,5,5 Διακυμάνσεις 0,33 0,5 4,5 d 1 AB = Aj Bj j,..., p j Όπου: s j = ( X X ) / s ) j = 1 p διακύμανση της μεταβλητής j
Παράδειγμα πίνακας δεδομένων Απόσταση μεταξύ ατόμων Μεταβλητές Άτομα X 1 X X 3 1 1 3 1 3 7 4 1 1 5 1 6 1 d Απόσταση μεταξύ του ου και του 3 ου ατόμου: = 3 1 1 [(3 ) + ( ) + (1 7) ] = [ 1+ 0 + 36] = 37 1,3 Είναι φανερό ότι, η 3 η μεταβλητή συμμετέχει καθοριστικά στην απόσταση μεταξύ των ατόμων σε αντίθεση με τις άλλες μεταβλητές. Κατά συνέπεια, είναι προτιμότερο να χρησιμοποιούμε το ο μέτρο της απόστασης: 3 3 1 Μεταβλητές X 1 X X 3 Μέσες τιμές 1,5,5 Διακυμάνσεις 0,33 0,5 4,5 d 1 (3 ) = 3 0,33 ( ) + 0,5 (1 7) + 4,5 1 = 3,3 [ 3 + 0 + 8,47] = 11, 47 Η συμβολή της 3 η μεταβλητής περιορίστηκε. 1 3
Βήματα εφαρμογής Φάση 1: Επιλογή p κατάλληλων μεταβλητών: είναι απαραίτητο να έχουμε μια αναλογία = 10 παρατηρήσεις ανά αρχική μεταβλητή αν n μικρό (*). Όμως όταν n σχετικά μεγάλο, μπορούμε να έχουμε (ελάχιστο όριο) 5 παρατηρήσεις ανά μεταβλητή (Bryant & Yarnold, 1995: 100). Φάση : Συλλογή και προκαταρτική ανάλυση των δεδομένων (Κανονικότητα, μεταβλητότητα, ακραίες τιμές). Τυποποίηση των μεταβλητών. Φάση 3: Ανάλυση της συνδιακύμανσης και συσχέτισης μεταξύ των αρχικών μεταβλητών: Πίνακας διπλής εισόδου με τους συντελεστές συσχέτισης. Φάση 4: Παραγωγή p Συνιστωσών και εξαγωγή των υπέρ-μεταβλητών κυρίων συνιστωσών (principal factors). Φάση 5: Εναλλακτικά κριτήρια για την επιλογή του αριθμού (m < p) Κυρίων Συνιστωσών. Φάση 6: Επιλογή μεθόδου περιστροφής των αξόνων (Rotation) Φάση 7: Ερμηνεία των υπέρ-μεταβλητών (απόλυτη και σχετική συμβολή των αρχικών μεταβλητών) Φάση 8: Απόφαση σχετικά με την πιθανή τροποποίηση του μοντέλου και Επανάληψη της διαδικασίας (*) Για δείγμα n=100, είναι προτιμότερο ο αριθμός αρχικών μεταβλητών να μην ξεπερνά τις 10 μεταβλητές
Τυποποίηση των μεταβλητών Διαφορετικές κλίμακες μέτρησης μεταξύ των p αρχικών μεταβλητών? Σημαντική μεταβλητότητα? Έστω η μεταβλητή Χ, η τυποποίηση της μεταβλητής οδηγεί στον υπολογισμό της μεταβλητής ΖΧ όπου: Τυποποίηση των μεταβλητών ΖΧ = Χ Χ s 1 n ΤΥΠΟΠΟΙΗΜΕΝΗ Α.Κ.Σ. (STANDARDIZED ACP) Ανάλυση Πίνακας Συσχετίσεων
Δημιουργία καινούργιων μεταβλητών I. Αρχικός Πίνακας Δεδομένων (Μήτρα): X = [X ij ], i = 1 n (άτομα) j=1 p (μεταβλητές) II. Τυποποίηση των μεταβλητών (Standardization): Z i, j = X i, j σ j X j. 1 n III. Το σύστημα των k γραμμικών εξισώσεων εκφράζεται ως έξης: Υ 1 = a 11 Ζ 1 + a 1 Ζ + + a 1p Ζ p Υ j = a j1 Ζ 1 + a j Ζ + + a jp Ζ p Υ p = a p1 Ζ 1 + a p Ζ + + a pp Ζ p a jm = συντελεστής συσχέτισης της αρχικής μεταβλητής Ζ j με τη συνιστώσα Y m Παραγοντικό φορτίο (Factor loading) Με την λύση του συστήματος, γίνεται εκτίμηση όλων των συντελεστών (φορτίων) a jm όμως για κάθε συνιστώσα, μόνο ορισμένοι συντελεστές θα είναι στατιστικά σημαντικοί: a jm > 0,40.
Δημιουργία καινούργιων μεταβλητών IV. Ο υπολογισμός των παραγοντικών φορτίων (συντελεστές των p γραμμικών εξισώσεων) βασίζεται στη τεχνική της διαγωνιοποίησης του Πίνακα Συσχετίσεων. Ο πίνακας συσχετίσεων : C =Ζ t.ζ Ο πίνακας είναι συμμετρικός και στη διαγώνιο, έχουμε τιμές = 1. Η διαγωνιοποίηση του πίνακα C σημαίνει ότι πρέπει να λύσουμε το σύστημα που αποτελείται από p εξισώσεις και p μεταβλητές: C- λ.i = 0. Όπου λ = διάνυσμα (λ 1, λ, λ p ) που ονομάζεται διάνυσμα ιδιοτιμών Η λύση οδηγεί: (α) στον υπολογισμό των p ιδιοτιμών λj όπου λ j = p = συνολική διακύμανση, j δεδομένου ότι, η ανάλυση βασίζεται σε τυποποιημένες μεταβλητές και στον πίνακα των συσχετίσεων. (β) στον υπολογισμό των παραγοντικών φορτίων a jm (factor loadings), όπου: -1 a jm +1
Δημιουργία καινούργιων μεταβλητών Η διαγωνιοποίηση οδηγεί στην παραγωγή p νέων μεταβλητών συνιστωσών όσες εκείνες έχουμε αρχικά. Κάθε συνιστώσα έχει ειδική σημασία που δίνεται από την ιδιοτιμή της: λ j, Η πρώτη από τις p συνιστώσα είναι η πιο σημαντική, δηλαδή αυτή που συμβάλλει με τον υψηλότερο ποσοστό στην ερμηνεία της συνολικής διακύμανσης. λ 1 > λ > > λ j > > λ p Δεδομένου ότι, λ j j = p = συνολική διακύμανση λ p j= 1 j λ j = ποσοστό της συνολικής διακύμανσης που ερμηνεύει η νέα μεταβλητή Υπάρχει επομένως μια σαφές ιεράρχηση σχετικά με τις νέες συνθετές μεταβλητές. Αυτό μας επιτρέπει να αξιολογήσουμε ποιες οι πιο σημαντικές διαστάσεις του φαινόμενου που εξετάζουμε.
Επιλογή κύριων μεταβλητών [Κύριες Συνιστώσες] Όμως από τις p νέες μεταβλητές συνιστώσες, μόνο ορισμένες (m < p) προσφέρουν σημαντική πληροφορία: πρόκειται για τις κύριες συνιστώσες, αυτές που θα πρέπει να ερμηνεύσουμε. Με τη χρήση πολλαπλών κριτήριων, τελικά εξάγουμε m κύριες συνιστώσες Πρώτο κριτήριο : λ j > 1 (Guttman & Kaiser). Δεύτερο κριτήριο : ο αριθμός των m κυρίων συνιστωσών πρέπει να αντανακλά ικανοποιητικό ποσοστό της συνολικής διακύμανσης όλων των αρχικών μεταβλητών. Τρίτο κριτήριο : οι συνιστώσες που αντιστοιχούν σε μικρή λ j και ταυτόχρονα δεν διαφέρουν μεταξύ τους σημαντικά λ j λ j+1 λ j+ κ.α. δεν αποτελούν κυρίες συνιστώσες (Cattell) (βλέπε Scree plot: διάγραμμα που περιγράφει τη σχέση μεταξύ του αριθμού συνιστωσών και την τιμή των ιδιοτιμών)
Αξιολόγηση της Α.Κ.Σ. [01] O Δείκτης Kaiser-Meyer-Olkin (KMO) δείχνει σε ποιο βαθμό, οι επιλεγμένες μεταβλητές έχουν συνοχή μεταξύ τους και ως εκ τούτου, σε ποιο βαθμό η παραγοντική ανάλυση είναι (ή δεν) είναι κατάλληλη τεχνική για τα δεδομένα. ΚΜΟ < 0,5: απαράδεκτο 0,5 < ΚΜΟ < 0,6: μη ικανοποιητικό 0,6 < ΚΜΟ < 0,7: μέτριο 0,7 < ΚΜΟ < 0,8: ικανοποιητικό 0,8 < ΚΜΟ < 0,9: πολύ καλό ΚΜΟ > 0,9: εξαιρετικό Η συμμετοχικότητα (communality) της κάθε μεταβλητής Χj στις m κυρίες συνιστώσες πρέπει να είναι ικανοποιητική: H j = Συμμετοχικότητα της Χ j = a j1 + a j +... + a jm Stevens (199) προτείνει επίπεδο τουλάχιστον > 0,4 (40% της διακύμανσης της μεταβλητής Χ j περιλαμβάνεται στο μοντέλο) Tabachnick and Fidell (007) προτείνουν: < 0.3 (φτωχή), 0.45 (μέτρια), 0.55 (καλή), καλή) και > 0.71 (εξαιρετικά καλή). 0.63 (πολύ
Αξιολόγηση της Α.Κ.Σ. [0] Εξετάζοντας κάθε κύρια συνιστώσα ξεχωριστά, πρέπει τουλάχιστον αρχικές μεταβλητές να παρουσιάζουν αρκετά σημαντικά φορτία (factor loadings) : a jm > 0,40. Εξετάζοντας κάθε αρχική μεταβλητή ξεχωριστά, πρέπει η συνεισφορά της να είναι τουλάχιστον καλή σε μια και μοναδική συνιστώσα. Η ερμηνεία των κύριων συνιστωσών - με βάση τα φορτία - πρέπει να είναι εύκολη. Σύμφωνα με τους Comrey & Lee(199), η αξιολόγηση της συνεισφοράς μιας αρχικής μεταβλητής σε μια την κύρια συνιστώσα είναι: Εξαιρετικά καλή όταν a jm > 0,71 Πολύ καλή : a jm > 0,63 Καλή : a jm > 0,55 Μέτρια: a jm > 0,45
Αξιολόγηση της Α.Κ.Σ. [0] ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Ηj ΜΕΤΑΒΛΗΤΕΣ I II III X1 0,56 0,813 0,033 0,78 X 0,470-0,774 0,106 0,831 X3 0,80 0,03 0,364 0,805 X4 0,75 0,045 0,337 0,681 X5-0,688 0,19 0,186 0,556 X6 0,098 0,619 0,36 0,448 X7 0,301 0,089 0,607 0,467 X8 0,786 0,35 0,101 0,683 X9 0,695 0,401 0,01 0,644 X10 0,07 0,316 0,70 0,593 X11-0,086 0,005 0,813 0,668 X1 0,046 0,781 0,006 0,61 ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Ηj ΜΕΤΑΒΛΗΤΕΣ I II III X1 0,56 0,813 0,095 0,736 X -0,703 0,614 0,003 0,871 X3 0,18 0,03 0,085 0,04 X4 0,77 0,045 0,337 0,644 X5 0,817 0,86 0,178 0,781 X6 0,046 0,609 0,36 0,49 X7 0,101 0,057 0,334 0,15 X8 0,786 0,135 0,174 0,666 X9 0,695 0,35 0,007 0,589 X10 0,07 0,05 0,546 0,30 Ιδανική Λύση: οι 3 συνιστώσες εξαρτώνται σημαντικά από τουλάχιστον μεταβλητές. Κάθε μεταβλητή συσχετίζεται με μια και μοναδική συνιστώσα. Προβληματική Λύση Η 3 η συνιστώσα είναι «Trivial», ενώ μεταβλητές δεν συσχετίζονται με τις συνιστώσες και μια μεταβλητή συσχετίζεται σημαντικά με συνιστώσες
ΕΦΑΡΜΟΓΗ ΜΕ SPSS
Παράδειγμα με 74 νησιά της Ελλάδας Τα δεδομένα αφορούν 74 νησιά της Ελλάδας [74 παρατηρήσεις] Αρχείο: 5_ΑΚΣ.xls Για κάθε νησί (παρατήρηση), έχουμε δεδομένα για 7 μεταβλητές που αφορούν τη δυνατότητα πρόσβασης μέσω αεροδρομικών πτήσεων καθώς και ακτοπλοϊκών γραμμών. Πιο συγκεκριμένα: Μεταβλητή Airport Int_airport Flights Schedules DaysCovered Duration Distance Περιγραφή Ύπαρξη αεροδρομίου (1= Ναι, 0= Όχι) Ύπαρξη διεθνούς αεροδρομίου (1= Ναι, 0= Όχι) Αριθμός πτήσεων ανά εβδομάδα Δρομολόγια πλοίων ανά ημέρα (Κατάταξη με Likert - κλίμακα από 1 έως 7 λαμβάνοντας υπόψη χειμερινή και καλοκαιρινή περίοδο) Αριθμός ημερών που καλύπτονται με δρομολόγια πλοίων Μέση διάρκεια δρομολόγιου Απόσταση σε μιλιά με το κύριο λιμάνι εξυπηρέτησης
ΕΝΤΟΛΕΣ ΣΤΟ SPSS 1. Analyze Dimension Reduction Factor. Επιλογή των 7 μεταβλητών (πέρασμα από αριστερά στο δεξί μέρος, στο παράθυρο: Variables) 3. Στο Descriptives: Correlation Matrix: Coefficients & significance levels KMO 4. Στο Extraction: Method: Principal Components Eigenvalues greater than 1 5. Στο Rotation: Varimax 6. Στο Scores: Save as variables 7. Στο Options: Coefficient Display Format.. Sorted by size.. Suppress small coefficients absolute value below 0,4 Οι δύο πρώτες μεταβλητές του αρχείου δεν είναι μεταβλητές για στατιστική ανάλυση, είναι μεταβλητές αναγνώρισης των νησιών Ο πίνακας συσχέτισης μας επιτρέπει να εξετάσουμε σε ποιο βαθμό οι 7 μεταβλητές παρουσιάζουν σχετικό βαθμό συσχέτισης. Το βασικό κριτήριο επιλογής των κυριών συνιστωσών = ιδιοτιμή > 1 Στη τελευταία φάση, επιλέγουμε τον τρόπο εμφάνισης των φορτιών : a jm στον πίνακα που εξηγεί ποιες είναι οι αρχικές μεταβλητές που συμβάλλουν σε κάθε κύρια συνιστώσα.
ΑΠΟΤΕΛΕΣΜΑΤΑ - OUTPUT Πίνακας Συσχέτισης Υπάρχουν αρκετές σημαντικές συσχετίσεις με p-value < 0,05
ΑΠΟΤΕΛΕΣΜΑΤΑ - OUTPUT KMO - Συμμετοχικότητα Υψηλές τιμές > 0,5
ΑΠΟΤΕΛΕΣΜΑΤΑ - OUTPUT Κύριες Συνιστώσες : λ > 1 Από τις 7 συνιστώσες, οι δύο επιλέγονται εφόσον λ > 1 Οι πρώτες συνιστώσες εξηγούν περίπου 79% της συνολικής αρχικής πληροφορίας
ΑΠΟΤΕΛΕΣΜΑΤΑ - OUTPUT Πίνακας παραγοντικών φορτίων Κάθε αρχική μεταβλητή συμμετέχει μόνο σε μια κύρια συνιστώσα. Τουλάχιστον δύο αρχικές μεταβλητές συμβάλλουν στη διαμόρφωση της καθεμίας κύριας συνιστώσας Πρόκειται για απλή και καλή λύση