ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ Δρ. Μαρί-Νοέλ Ντυκέν, Καθηγήτρια, mdyken@prd.uth.gr Τηλ. 24210-74438 Γραφείο Γ.6
ΠΕΡΙΕΧΟΜΕΝΟ 1. Παραγοντική Ανάλυση Ανάλυση σε Κύριες Συνιστώσες (ΑΚΣ) Αρχές και στόχος της Μεθόδου: 1) Συμπύκνωση της πληροφορίας μέσω της δημιουργίας συνθετικών μεταβλητών 2) Κυρίες συνιστώσες = υπέρ-μεταβλητές Αναζήτηση σχέσεων μεταξύ των εξεταζόμενων μεταβλητών ΠΕΡΙΕΧΟΜΕΝΟ Περιγραφή των φάσεων της ανάλυσης 2. Εφαρμογή με το SPSS Δεδομένα: DATA_ΜΕΘΟΔΟΙ_ΕΡΕΥΝΑΣ-05.xls
Π.Α. / Α.Κ.Σ. Παραγοντική Ανάλυση (Factor Analysis): αναζήτηση και επιβεβαίωση της δομής των σχέσεων μεταξύ των μεταβλητών με βάση γνωστό αναγνωρισμένο θεωρητικό υπόβαθρο. Ανάλυση σε Κυρίες Συνιστώσες (Principal Component Analysis): μείωση των διαστάσεων (μεταβλητών) που αναμένονται να εξηγούν το εξεταζόμενο φαινόμενο. Δεν βασίζεται σε θεωρητικό μοντέλο και είναι καθαρά διερευνητική προσέγγιση. ΕΙΣΑΓΩΓΗ Και οι δύο μέθοδοι εντάσσονται σε διερευνητική ανάλυση (exploratory) συνθετικών φαινόμενων
Η Ανάλυση σε Κυρίες Συνιστώσες (ΑΚΣ) είναι μια εξειδικευμένη μέθοδο ανάλυσης μεγάλου όγκου Δεδομένων. Πρόκειται για Πολυδιάστατη Στατιστική Ανάλυση. Αποτελεί σχετικά πρόσφατη ενότητα της στατιστικής η οποία γνώρισε μεγάλη εξέλιξη και διαδόθηκε ραγδαία μετά το 1970. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ Α.Κ.Σ. Αποτελεί πολύ χρήσιμο εργαλείο για την ανάλυση συνθετικών φαινόμενων που δεν μπορούν να μετρηθούν άμεσα (not directly observable), ειδικά όταν αναφέρεται σε χωρικές και διοικητικές ενότητες Βασίζεται στη συσχέτιση διαφορών μεταβλητών που περιγράφουν το φαινόμενο που εξετάζουμε. Βασικός στόχος: ο ορισμός περιορισμένου αριθμού νέων συνθετικών μεταβλητών (Factors), [Thurstone, 1931] που εξασφαλίζει την απλοποίηση ενός συνόλου δεδομένων. ΕΙΣΑΓΩΓΗ
ΔΕΔΟΜΕΝΑ ΜΕΤΑΒΛΗΤΕΣ ΤΗΣ Α.Κ.Σ. Για το πληθυσμό που εξετάζουμε, διαθέτουμε σημαντικό όγκο πληροφοριών που εκφράζεται μέσω p μεταβλητές. Αρχικές μεταβλητές: Χ 1, Χ 2,,X i,..,χ p Η αποτελεσματικότητα της μεθόδου προϋποθέτει: Σημαντική μεταβλητότητα για τις p αρχικές μεταβλητές Σημαντική αλληλοεπίδραση μεταξύ των μεταβλητών (συσχέτιση) Ο στόχος της μεθόδου είναι η συμπύκνωση της πληροφορίας μέσω της δημιουργίας περιορισμένου αριθμού συνθετικών μεταβλητών (κυρίων συνιστωσών) m νέες μεταβλητές (m < k): Υ 1, Υ 2, Y j,..,υ m οι οποίες εκφράζονται ως γραμμική συνάρτηση των αρχικών μεταβλητών. ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
Φάση 1: Φάση 2: ΟΙ ΦΑΣΕΙΣ ΤΗΣ ΑΝΑΛΥΣΗΣ Επιλογή p κατάλληλων μεταβλητών: είναι απαραίτητο να έχουμε μια αναλογία : 5 παρατηρήσεις (τουλάχιστον) ανά αρχική μεταβλητή (*) (Bryant & Yarnold, 1995: 100). Συλλογή και προκαταρτική ανάλυση των δεδομένων (Κανονικότητα, μεταβλητότητα, ακραίες τιμές) Φάση 3: Ανάλυση της συνδιακύμανσης και συσχέτισης μεταξύ των αρχικών μεταβλητών Φάση 4: Παραγωγή p Συνιστωσών και εξαγωγή υπέρ-μεταβλητών Φάση 5: Εναλλακτικά κριτήρια για την επιλογή του αριθμού (m < p) Κυρίων Συνιστωσών Φάση 6: Επιλογή μεθόδου περιστροφής των αξόνων (Rotation) Φάση 7: Ερμηνεία των υπέρ-μεταβλητών (απόλυτη και σχετική συμβολή των αρχικών μεταβλητών) ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Φάση 8: Απόφαση σχετικά με την πιθανή τροποποίηση του μοντέλου και Επανάληψη της διαδικασίας (*) Για δείγμα n=100, είναι προτιμότερο ο αριθμός αρχικών μεταβλητών να μην ξεπερνά τις 20 μεταβλητές
Διαφορετικές κλίμακες μέτρησης μεταξύ των k μεταβλητών? Σημαντική μεταβλητότητα? Τυποποίηση των μεταβλητών ΤΥΠΟΠΟΙΗΜΕΝΗ Α.Κ.Σ. (STANDARDIZED ACP) ΠΡΟΕΤΟΙΜΑΣΙΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Δύο προκαταρτικές ερωτήσεις Ανάλυση Πίνακας Συσχετίσεων 7 ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΡΟΕΤΟΙΜΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αρχικός Πίνακας Δεδομένων (Μήτρα): X = [X ij ], i = 1 n (άτομα) j=1 p (μεταβλητές) X i, j X j 1 Τυποποίηση των μεταβλητών (Standardization): Z i, j. (*) n Το σύστημα των k γραμμικών εξισώσεων εκφράζεται ως έξης: Ζ 1 = a 11 Y 1 + a 12 Y 2 + + a 1p Y p Ζ j = a j1 Y 1 + a j2 Y 2 + + a jp Y p Ζ p = a p1 Y 1 + a p2 Y 2 + + a pp Y p a jm = συντελεστής συσχέτισης της αρχικής μεταβλητής Ζ j με τη συνιστώσα Y m Παραγοντικό φορτίο (Factor loading) Υ 1, Υ 2,, Υ p : p νέες μεταβλητές = συνιστώσες (όσες οι αρχικές) j ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ (*) Σε λογισμικά όπως το SPSS, η Α.Κ.Σ. βασίζεται συστηματικά σε τυποποιημένα δεδομένα, κατά συνέπεια δεν είναι ανάγκη να μετατρέψουμε τα δεδομένα.
ΔΙΑΔΙΚΑΣΙΑ ΕΞΑΓΩΓΗΣ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ Δύο βασικοί δείκτες για την ερμηνεία των νέων παραγομένων μεταβλητών : (α) Ιδιοτιμές λj και (β) φορτία a jm Ο υπολογισμός των παραγοντικών φορτίων (συντελεστές των p γραμμικών εξισώσεων) βασίζεται στη τεχνική της διαγωνιοποίησης του Πίνακα Συσχετίσεων. Ο πίνακας συσχετίσεων : C =Ζ t.ζ Ο πίνακας είναι συμμετρικός και στη διαγώνιο, έχουμε τιμές = 1. Η διαγωνιοποίηση του πίνακα C: C- λ.i = 0 οδηγεί: (α) στον υπολογισμό των p ιδιοτιμών λj όπου = p = συνολική διακύμανση, δεδομένου ότι, η ανάλυση βασίζεται σε τυποποιημένες μεταβλητές και στον πίνακα των συσχετίσεων j j ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ (β) στον υπολογισμό των παραγοντικών φορτίων a jm (factor loadings), όπου: -1 a jm +1
Η διαγωνιοποίηση οδηγεί στην παραγωγή p νέων μεταβλητών συνιστωσών όσες εκείνες έχουμε αρχικά. Κάθε συνιστώσα έχει ειδική σημασία (βάρος) που δίνεται από την ιδιοτιμή της: λ j, Η πρώτη από τις p συνιστώσα είναι η πιο σημαντική, δηλαδή αυτή που συμβάλλει με τον υψηλότερο ποσοστό στην ερμηνεία της συνολικής διακύμανσης. λ 1 > λ 2 > > λ j > > λ p Δεδομένου ότι, p j 1 j j ΔΙΑΔΙΚΑΣΙΑ ΕΞΑΓΩΓΗΣ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ Στατιστική σημασία (αξιολόγηση) των νέων μεταβλητών (συνιστωσών) με τη χρήση των ιδιοτιμών j j = p = συνολική διακύμανση ποσοστό της συνολικής διακύμανσης που ερμηνεύει η νέα υπερμεταβλητή j ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΔΙΑΔΙΚΑΣΙΑ ΕΞΑΓΩΓΗΣ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ Επιλογή των Κύριων Συνιστωσών μείωση των διαστάσεων Όμως από τις p νέες μεταβλητές συνιστώσες, μόνο ορισμένες (m < p) προσφέρουν σημαντική πληροφορία. Με τη χρήση πολλαπλών κριτήριων, τελικά εξάγουμε m κυρίες συνιστώσες Πρώτο κριτήριο : Δεύτερο κριτήριο : λ j > 1 (Guttman & Kaiser) ο αριθμός των m κυρίων συνιστωσών πρέπει να αντανακλά ικανοποιητικό ποσοστό της συνολικής διακύμανσης Τρίτο κριτήριο : οι συνιστώσες που αντιστοιχούν σε μικρή λ j και ταυτόχρονα δεν διαφέρουν μεταξύ τους σημαντικά λ j λ j+1 λ j+2 κ.α. δεν αποτελούν κυρίες συνιστώσες (Cattell) (βλέπε Scree plot: διάγραμμα που περιγράφει τη σχέση μεταξύ του αριθμού συνιστωσών και την τιμή των ιδιοτιμών) ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΕΡΜΗΝΕΙΑ ΤΩΝ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ Ερμηνεία των Κύριων Συνιστωσών μέσω των παραγοντικών φορτίων Οι συντελεστές a jm (παραγοντικά φορτία) εξηγούν σε ποιο βαθμό η αρχική μεταβλητή Χ j συμβάλλει στη διαμόρφωση της κυρίας συνιστώσας Υ m Όσο a jm τείνει προς 1, όσο η συμβολή της μεταβλητής Χ j στη διαμόρφωση της κυρίας συνιστώσας Υ m είναι σημαντική και δίνει «νόημα». Η κυρία συνιστώσα έχει πραγματικά «νόημα» αν: (α) οι μεταβλητές που τη διαμορφώνουν (μεταβλητές με υψηλές a jm ) συσχετίζονται καλά, (β) οι μεταβλητές αυτές αντανακλούν μια συγκεκριμένη διάσταση του φαινόμενου που εξετάζεται. ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΜΟΝΤΕΛΟΥ ΣΥΜΠΚΥΝΩΣΗΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ [1/2] O Δείκτης Kaiser-Meyer-Olkin (KMO) δείχνει σε ποιο βαθμό, οι επιλεγμένες μεταβλητές έχουν συνοχή μεταξύ τους και ως εκ τούτου, σε ποιο βαθμό η παραγοντική ανάλυση είναι (ή δεν) είναι κατάλληλη τεχνική για τα δεδομένα. ΚΜΟ < 0,5: απαράδεκτο 0,5 < ΚΜΟ < 0,6: μη ικανοποιητικό 0,6 < ΚΜΟ < 0,7: μέτριο 0,7 < ΚΜΟ < 0,8: ικανοποιητικό 0,8 < ΚΜΟ < 0,9: πολύ καλό ΚΜΟ > 0,9: εξαιρετικό Η συμμετοχικότητα (communality) της κάθε μεταβλητής Χj στις m κυρίες συνιστώσες πρέπει να είναι ικανοποιητική: H j = Συμμετοχικότητα της Χ j = 2 2 2 a j1 a j2... a jm Stevens (1992) προτείνει επίπεδο τουλάχιστον > 0,4 (40% της διακύμανσης της μεταβλητής Χ j περιλαμβάνεται στο μοντέλο) Tabachnick and Fidell (2007) προτείνουν: < 0.32 (φτωχή), 0.45 (μέτρια), 0.55 (καλή), 0.63 (πολύ καλή) και > 0.71 (εξαιρετικά καλή). ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΜΟΝΤΕΛΟΥ ΣΥΜΠΚΥΝΩΣΗΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ [2/2] Εξετάζοντας κάθε κύρια συνιστώσα ξεχωριστά, πρέπει 2 τουλάχιστον αρχικές μεταβλητές να παρουσιάζουν αρκετά σημαντικά φορτία (factor loadings) : a jm > 0,40. Εξετάζοντας κάθε αρχική μεταβλητή ξεχωριστά, πρέπει η συνεισφορά της να είναι τουλάχιστον καλή σε μια και μοναδική συνιστώσα. Η ερμηνεία των κύριων συνιστωσών - με βάση τα φορτία - πρέπει να είναι εύκολη. Σύμφωνα με τους Comrey & Lee(1992), η αξιολόγηση της συνεισφοράς μιας αρχικής μεταβλητής σε μια την κύρια συνιστώσα είναι: Εξαιρετικά καλή όταν a jm > 0,71 Πολύ καλή : a jm > 0,63 Καλή : a jm > 0,55 Μέτρια: a jm > 0,45 ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Ηj ΜΕΤΑΒΛΗΤΕΣ I II III X1 0,256 0,813 0,033 0,728 X2 0,470-0,774 0,106 0,831 X3 0,820 0,023 0,364 0,805 X4 0,752 0,045 0,337 0,681 X5-0,688 0,219 0,186 0,556 X6 0,098 0,619 0,236 0,448 X7 0,301 0,089 0,607 0,467 X8 0,786 0,235 0,101 0,683 X9 0,695 0,401 0,012 0,644 X10 0,027 0,316 0,702 0,593 X11-0,086 0,005 0,813 0,668 X12 0,046 0,781 0,006 0,612 Ιδανική Λύση: οι 3 συνιστώσες εξαρτώνται σημαντικά από τουλάχιστον 2 μεταβλητές. Κάθε μεταβλητή συσχετίζεται με μια και μοναδική συνιστώσα. ΠΑΡΑΔΕΙΓΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Ηj ΜΕΤΑΒΛΗΤΕΣ I II III X1 0,256 0,813 0,095 0,736 X2-0,703 0,614 0,003 0,871 X3 0,128 0,023 0,085 0,024 X4 0,727 0,045 0,337 0,644 X5 0,817 0,286 0,178 0,781 X6 0,046 0,609 0,236 0,429 X7 0,101 0,057 0,334 0,125 X8 0,786 0,135 0,174 0,666 X9 0,695 0,325 0,007 0,589 X10 0,027 0,052 0,546 0,302 Προβληματική Λύση Η 3 η συνιστώσα είναι «Trivial», ενώ 2 μεταβλητές δεν συσχετίζονται με τις συνιστώσες και μια μεταβλητή συσχετίζεται σημαντικά με 2 συνιστώσες ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
ΑΞΙΟΠΙΣΤΙΑ ΤΟΥ ΜΟΝΤΕΛΟΥ [1] Η ύπαρξη «ακραίων» παρατηρήσεων μπορεί να δημιουργήσει στατιστικό θόρυβο μεαποτέλεσμα τα αποτελέσματα να είναι παραπλανητικά. Για την αναζήτηση ακραίων παρατηρήσεων, θα πρέπει να εξετάζουμε τις τιμές των νέων συνθετικών μεταβλητών, μετά από την αποθήκευση τους στο φύλλο εργασίας. Οι τιμές αυτών των νέων μεταβλητών που μας δίνουν τις συντεταγμένες των ατόμων (παρατηρήσεων) στους παραγοντικούς άξονες πρέπει να κυμαίνονται μεταξύ ± 3.3. Θα πρέπει επομένως να ξανά εφαρμοστεί η Α.Κ.Σ. μετά από την αναίρεση των ακραίων παρατηρήσεων. Όποια τιμή > 3 αναδεικνύει την ύπαρξη ακραίας παρατήρησης. αν τα αποτελέσματα της νέας Α.Κ.Σ. δίνει παρόμοια αποτελέσματα, τότε το αρχικό μοντέλο επιβεβαιώνεται και η λύση είναι αξιόπιστη. Αν τα αποτελέσματα αλλάζουν σημαντικά, οι ακραίες παρατηρήσεις προκαλούν θόρυβο και δεν μπορούμε να τις κρατήσουμε.
ΑΞΙΟΠΙΣΤΙΑ ΤΟΥ ΜΟΝΤΕΛΟΥ [2] Για να επιβεβαιώσουμε ότι η λύση που βρήκαμε δεν είναι τυχαία, μπορούμε να δημιουργήσουμε δύο απόλυτα τυχαία υπό-δείγματα (υπάρχει σχετική εντολή στο SPSS). Διαδοχικά εφαρμόζουμε την Α.Κ.Σ. και στα δύο υποδείγματα και συγκρίνουμε τα αποτελέσματα. Όσο λιγότερες διαφορές μεταξύ των δύο μοντέλων, όσο πιο αξιόπιστο είναι το μοντέλο μας. ΑΚΣ ΓΙΑ ΟΛΟ ΤΟ ΔΕΙΓΜΑ ΑΚΡΑΙΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ ΝΑΙ Νέα ΑΚΣ χωρίς τις ακραίες παρατηρήσεις ΟΧΙ Δημιουργία 2 τυχαίων δειγμάτων Επανάληψη της ΑΚΣ στα 2 δείγματα
ΕΦΑΡΜΟΓΗ της Α.Κ.Σ. με SPSS
Δεδομένα: DATA_ΜΕΘΟΔΟΙ_ΕΡΕΥΝΑΣ_Ο5.xls 175 Δήμοι της Κεντρικής Γαλλίας (ορεινή και μειονεκτική περιοχή) Διερευνητική ανάλυση της «ικανότητας ανάπτυξης» Δεν υπάρχει άμεση μέτρηση της «ικανότητας ανάπτυξης» Χρησιμοποιούμε διαφορετικοί δείκτες που θεωρητικά έχουν άμεση σχέση με αυτή την ικανότητα. Η επιλογή των δεικτών βασίστηκε στην θεωρία της γειτνίασης (Proximity approach) και περιλαμβάνουν χαρακτηριστικά όπως: Γεωμορφωλογικά Δημογραφικά ανθρώπινο δυναμικό Προσβασιμότητα Γειτνίαση ΕΦΑΡΜΟΓΗ ΜΕ SPSS Λειτουργία της τοπικής αγοράς εργασίας ΕΦΑΡΜΟΓΗ
ΠΕΡΙΟΧΗ ΜΕΛΕΤΗΣ ΕΦΑΡΜΟΓΗ Viaduct de Millau
ΕΦΑΡΜΟΓΗ ΤΗΣ ΑΚΣ Δείκτες Περιγραφή Γεωμορφολογικά μειονεκτήματα Id_1 Υψόμετρο (μέσο σταθμισμένο υψόμετρο) Id_2 Βαθμός απομόνωσης (% πληθυσμού που διαμένει σε ορεινές κοινότητες ) Id_3 Υψηλές ορεινές ζώνες (% της έκτασης σε υψόμετρο > 700μ ) Γειτνιάσεις που διευκολύνουν τη συνεργασία (Rallet 2002) Id_4 Πυκνότητα πληθυσμού Id_5 Βαθμός αστικοποίησης (% πληθυσμού που διαμένουν σε αστικές περιοχές) Id_6 Id_7 Λειτουργία της αγοράς εργασίας ΜΕΤΑΒΛΗΤΕΣ Δείκτης γειτνίασης με τα κύρια αστικά κέντρα Προσβασιμότητα (Πυκνότητα οδικών υποδομών) ΕΦΑΡΜΟΓΗ Id_8 Βαθμός καθημερινής κινητικότητας στο πλαίσιο της εργασίας (commuting) Id_9 Βαθμός αυτονομίας της τοπικής αγοράς εργασίας: αριθμός θέσεων απασχόλησης που καλύπτονται από τους μόνιμους κατοίκους του δήμου κοινότητας Δημογραφικά ανθρώπινο δυναμικό Id_10 Ποσοστό μεταβολής πληθυσμού κατά τη τελευταία δεκαετία Id_11 Γήρανση (% πληθυσμού ηλικίας 65 ετών και άνω) Id_12 Νεανικότητα (% νεανικού πληθυσμού (< 15 ετών) Id_13 Ανθρώπινοι πόροι (% πληθυσμού 25 ετών και άνω με ανώτατο εκπαιδευτικό επίπεδο)
ΕΝΤΟΛΕΣ - SPSS Analyse, Dimension Reduction Factor Επιλογή των αρχικών μεταβλητών Descriptives Univariate descriptives KMO Correlation Matrix: Coefficients, significance levels Extraction Principal components Scree plots Maximum iterations = 250 Rotation Varimax Maximum iterations = 250 Options Sorted by size Suppress small coefficients < 0,45 ΕΦΑΡΜΟΓΗ
ΕΝΤΟΛΕΣ SPSS: Α.Κ.Σ.
Επιλογή των μετρήσιμων μεταβλητών που θα χρησιμοποιηθούν στην ανάλυση ΕΝΤΟΛΕΣ SPSS: Α.Κ.Σ.
ΕΝΤΟΛΕΣ SPSS: Α.Κ.Σ. Μέση τιμή & Τυπική απόκλιση Επιλογή του πίνακα συσχετίσεων για να επιβεβαιωθεί ότι, αρκετές μεταβλητές συσχετίζονται μεταξύ τους (p-value < 0,05) KMO για τη συνοχή των μεταβλητών ΚΜΟ < 0,5: απαράδεκτο 0,5 < ΚΜΟ < 0,6: μη ικανοποιητικό 0,6 < ΚΜΟ < 0,7: μέτριο 0,7 < ΚΜΟ < 0,8: ικανοποιητικό 0,8 < ΚΜΟ < 0,9: πολύ καλό ΚΜΟ > 0,9: εξαιρετικό
ΕΝΤΟΛΕΣ SPSS: Α.Κ.Σ. Ανάλυση σε κυρίες συνιστώσες Scree plot: διάγραμμα που συμβάλλει στην επιλογή του αριθμού κυρίων παραγόντων (συνιστωσών) σε συνάρτηση με την ιδιοτίμη > 1 Σύμφωνα με τη στατιστική ορολογία, μιλάμε για παράγοντες (ή συνιστώσες). Ουσιαστικά, πέραν της επιστημονικής ορολογίας, πρόκειται για συνθέτους δείκτες.
ΕΝΤΟΛΕΣ SPSS: Α.Κ.Σ. Η περιστροφή των παραγόντων (συνιστωσών) διευκολύνει την ερμηνεία των αποτελεσμάτων και συμβάλλει στην ανάδειξη μιας «απλής δομής» για τους παράγοντες. Η πιο συνηθισμένη μέθοδος: Varimax. Καθιστά πιο αξιόπιστη η ερμηνεία των παραγόντων (συνθετικοί δείκτες) Ορισμένα λόγια για την Varimax
Ορισμένα λόγια για την Varimax Η μέθοδος Varimax αναπτύχθηκε από τον Kaiser (1958). Πρόκειται για την πιο δημοφιλή μέθοδο περιστροφής των παραγόντων (Factors) που στοχεύει στην ανάδειξη μιας «απλής λύσης». Τι σημαίνει «απλή λύση»; Κάθε συνθετικός δείκτης k παρουσιάζει περιορισμένο αριθμό μεγάλων φορτίων ( a ik ) και μεγάλο αριθμό μηδενικών φορτιών ( a ik < 0,4) Με την Varimax, αναζητήσουμε μια περιστροφή των παραγόντων που μεγιστοποιεί την διακύμανση των φορτίων για κάθε παράγοντα k (k=1, m). MaxV 2 ( a i a i 2 2, k i, k )
ΠΑΡΑΓΩΓΗ ΤΩΝ ΣΥΝΘΕΤΩΝ ΔΕΙΚΤΩΝ ΕΦΑΡΜΟΓΗ Αποθήκευση των νέων συνθετών μεταβλητών στο φύλλο με τα δεδομένα. Θα εμφανιστούν όσες νέες μεταβλητές όσες κυρίες συνιστώσες προέκυψαν από την ΑΚΣ.
ΕΜΦΑΝΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΦΑΡΜΟΓΗ Παρουσίαση των φορτιών α ik στους συνθέτους δείκτες με φθίνουσα σημασία. Διευκολύνει απλώς το διάβασμα του πίνακα και την ανάλυση. Τα φορτία κάτω από 0,40 σε απόλυτες τιμές { α ik < 0.4 } δεν εμφανίζονται διότι δεν είναι στατιστικά σημαντικά
ΑΠΟΤΕΛΕΣΜΑΤΑ - ΑΞΙΟΛΟΓΗΣΗ
Descriptive Statistics Mean Std. Deviation CV Id_1 558,46 283,580 51% Id_2 31,22 39,809 128% Id_3 36,30 40,347 111% Id_4 64,25 119,290 186% Id_5 26,253 33,6593 128% Id_6 2,54 1,372 54% Id_7,05,076 149% Id_8 56,679 14,3095 25% Id_9 56,287 12,7345 23% Id_10 5,871 8,2660 141% Id_11 22,894 5,1614 23% Id_12 16,067 2,6562 17% Id_13 16,854 5,4191 32% ΑΠΟΤΕΛΕΣΜΑΤΑ Οι περισσότερες μεταβλητές παρουσιάζουν σημαντική μεταβλητότητα. Η εξέταση του πίνακα συσχετίσεων οδηγεί στο συμπέρασμα ότι, οι περισσότερες μεταβλητές συσχετίζονται έντονα μεταξύ τους : οι περισσότερες p- values είναι πραγματικά μικρότερες από 5%. ΕΦΑΡΜΟΓΗ
ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΦΑΡΜΟΓΗ Οι περισσότερες p-values είναι πραγματικά μικρότερες από 5%. Η εξέταση του πίνακα συσχετίσεων οδηγεί στο συμπέρασμα ότι, οι περισσότερες μεταβλητές συσχετίζονται έντονα μεταξύ τους.
ΑΠΟΤΕΛΕΣΜΑΤΑ Συμπεράσματα: Το ΚΜΟ = 0,783, τιμή ικανοποιητική με βάση τη θεωρία. Εμπειρικά, η τιμή αυτή θεωρείται υψηλή. Η συμμετοχικότητα των 13 μεταβλητών είναι πολύ ικανοποιητική: Hj > 0,4. Ελάχιστη τιμή 0,500 ΕΦΑΡΜΟΓΗ
ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΦΑΡΜΟΓΗ Όπως προκύπτει από τον πίνακα, με p = 13 αρχικές μεταβλητές, προκύπτουν 13 συνιστώσες όπου λ 1 = 5,219 (40% της συνολικής διακύμανσης), λ 2 = 2,251 (17%) και λ 3 = 1,876 (14%). Η συνεισφορά της 4 ης συνιστώσας είναι πολύ περιορισμένη. Έχουμε επομένως 3 κυρίες συνιστώσες σύμφωνα με το κριτήριο των Gutmman & Kaiser. Οι 3 πρώτες συνιστώσες αντανακλούν το 72% της συνολικής διακύμανσης, πολύ ικανοποιητικό επίπεδο.
ΑΠΟΤΕΛΕΣΜΑΤΑ ΕΦΑΡΜΟΓΗ Ενώ η διαφορά μεταξύ λ3 και λ4 είναι σημαντική, παρατηρούμε ότι, από λ4 και έπειτα η διαφορά μεταξύ των ιδιοτιμών είναι πολύ μικρή, επιβεβαιώνοντας ότι, η καλή λύση αποτελείται από 3 κυρίες συνιστώσες.
ΑΠΟΤΕΛΕΣΜΑΤΑ Συμπεράσματα: Η επιλογή μας στις εντολές του SPSS να εμφανίζονται μόνο τα φορτία a jm > 0,45 και να παρουσιάζονται με σειρά σημαντικότητας διευκολύνει την ερμηνεία των συνιστωσών. Στις 3 συνιστώσες, συνεισφέρουν πάνω από 2 μεταβλητές ενώ κάθε μεταβλητή συσχετίζεται με μια και μοναδική συνιστώσα: «Απλή Λύση» ΕΦΑΡΜΟΓΗ
1 η συνιστώσα: Δημογραφική δυναμική ΑΠΟΤΕΛΕΣΜΑΤΑ -1 0 +1 Ιd11 Γήρανση Id13 Id8 Id10 Id13 Υψηλό επίπεδο εκπαίδευσης Κινητικότητα Αύξηση πληθυσμού Νεανικό πληθυσμό ΕΦΑΡΜΟΓΗ 2 η συνιστώσα: Προσβασιμότητα γεωγραφική γειτνίαση -1 0 +1 Ιd6 Γειτνίαση με αστικά κέντρα Id1 Id2 Id3 Γεωμορφολογικά εμπόδια Σημαντικός βαθμός ορεινότητας
ΑΠΟΤΕΛΕΣΜΑΤΑ 3 η συνιστώσα: Οικονομικές δυνατότητες (agglomeration effects) -1 0 +1 Ιd9 Αυτονομία τοπικής αγοράς εργασίας Id7 Id4 Id5 Υποδομές Βαθμός αστικότητας Πυκνότητα ΕΦΑΡΜΟΓΗ Στην ορεινή περιοχή της Γαλλίας που εξετάσαμε, οι δυνατότητες ανάπτυξης εξαρτώνται από: 1 ο / καταρχήν την δημογραφική δυναμική της περιοχής, 2 ο / την προσβασιμότητα γεωγραφική γειτνίαση στα αστικά κέντρα της περιοχής 3 ο/ τις δυνατότητες συγκέντρωσης δραστηριότητων
Πρώτα συμπεράσματα Η Λύση που αναδείξαμε παρουσιάζει «απλή δομή»: κάθε αρχική μεταβλητή συμβάλλει σε ένα και μοναδικό συνθετικό δείκτη. Η ερμηνεία είναι αρκετά προφανής. Οι βασικοί δείκτες συνολικής αξιολόγησης εμφανίζουν ικανοποιητικές τιμές: ΚΜΟ = 0,783 Συνολική αδράνεια = 72% (απώλεια πληροφορίας = 28%) Σημαντική συμπύκνωση : 3 σύνθετοι δείκτες για 13 αρχικές μεταβλητές. Η λύση θα είναι απόλυτα ικανοποιητική εάν δεν εμφανίζονται ακραίες τιμές στους νέους σύνθετους δείκτες. Συνίσταται στατιστικός έλεγχος των 3 νέων μεταβλητών.
ΕΛΕΓΧΟΣ ΑΞΙΟΠΙΣΤΙΑΣ ΤΗΣ ΛΥΣΗΣ Οι τιμές των 3 δεικτών είναι θετικές ή αρνητικές, με μέση τιμή = 0 και τυπική απόκλιση = 1. Εφόσον πρόκειται για τυποποιημένες μεταβλητές, οι τιμές πρέπει να κυμαίνονται περίπου μεταξύ -3,3 και +3,3. ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ
Αναζήτηση ακραίων παρατηρήσεων Μια απλή μέθοδος είναι η διερευνητική αναζήτηση «ακραίων τιμών» μέσω της παραγωγής του θηκογράμματος (Box-plot) για κάθε δείκτη, γνωρίζοντας ότι οι συντεταγμένες των 82 παρατηρήσεων πρέπει να κυμαίνονται μεταξύ -3,3 και +3,3. 3,3, 3,3 c i Στην περίπτωση που εξετάζουμε: k c ik = συντεταγμένη της παρατήρησης i (i=1,..82) στη συνιστώσα k (k=1,2) Στην εντολή Explore, επιλέξαμε στο Label Cases, να εμφανίζονται τα ίδια τα ονόματα των περιοχών που ενδεχόμενα να είναι ακραίες περιπτώσεις. 42
Αναζήτηση ακραίων παρατηρήσεων Δύο ακραίες τιμές στο 3 ο σύνθετο δείκτη (*) 43
Αναίρεση ακραίων παρατηρήσεων Επιλογή παρατηρήσεων που δεν παρουσιάζουν ακραίες τιμές στο 3 ο σύνθετο δείκτη(*). Αναίρεση των δύο προβληματικών περιπτώσεων. 44
ΑΚΣ χωρίς τις ακραίες παρατηρήσεις Επανάληψη της ΑΚΣ, κρατώντας ακριβώς τις ίδιες εντολές όπως ανάλυση. στην 1 η Κανένα πρόβλημα με την μεταβλητότητα και τη συσχέτιση των αρχικών μεταβλητών. ΚΜΟ = 0,788 (ίδιο επίπεδο με 1 η ανάλυση) Συνολική αδράνεια = 72% (απώλεια πληροφορίας = 28%) Ιδία συμπύκνωση: 3 σύνθετοι δείκτες για 13 αρχικές μεταβλητές. Καμία ουσιαστική αλλαγή στην διαμόρφωση των συνθέτων δεικτών και στην ερμηνεία τους (βλέπε πίνακες με τα φόρτια). Οι δύο ακραίες τιμές δεν βάζουν σε αμφισβήτηση το μοντέλο που δημιουργήθηκε. 45
ΑΚΣ χωρίς τις ακραίες παρατηρήσεις ΑΡΧΙΚΗ ΛΥΣΗ ΛΥΣΗ ΧΩΡΙΣ ΑΚΡΑΙΕΣ ΤΙΜΕΣ Ίδια τάξη μεγέθους των φορτίων. Ίδια ερμηνεία και των 3 δεικτών. «Απλή λύση» 46