Βασικές µέθοδοι πολυµεταβλητής στατιστικής (multivariate statistics)

Σχετικά έγγραφα
Περιγραφική Στατιστική

ειγµατοληπτική κατανοµή

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

ΜΕΘΟ ΟΛΟΓΙΑ ΕΚΠΑΙ ΕΥΤΙΚΗΣ ΕΡΕΥΝΑΣ

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ΤΕΙ ΠΕΙΡΑΙΑ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Ιωάννης Τσαούσης, Πανεπιστήμιο Κρήτης Τμήμα Ψυχολογίας

ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ FACTOR ANALYSIS

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Η έννοια της απόστασης

UNIVERSITY OF THESSALY FACULTY OF ENGINEERING DEPARTMENT OF PLANNINGAND REGIONAL DEVELOPMENT MASTER «EUROPEAN REGIONAL DEVELOPMENT STUDIES»

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Κεφάλαιο 6 Πολυμεταβλητές Μέθοδοι Ανάλυσης

400 = t2 (2) t = 15.1 s (3) 400 = (t + 1)2 (5) t = 15.3 s (6)

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΚΕΦΑΛΑΙΟ 6 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΒΑΘΜΟΛΟΓΙΩΝ ΟΙ ΣΥΝΙΣΤΩΣΕΣ ΤΗΣ ΜΑΘΗΤΙΚΗΣ ΕΠΙ ΟΣΗΣ

Γενικές Παρατηρήσεις για τις Εργαστηριακές Ασκήσεις Φυσικοχηµείας

Στατιστικό κριτήριο χ 2

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Ανάλυση κατά Συστάδες. Cluster analysis

Οδηγός Ανάλυσης Αξιοπιστίας και Εγκυρότητας Ψυχομετρικών Κλιμάκων με το SPSS

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Περιβαλλοντική Στατιστική

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

T (K) m 2 /m

Εφαρµογή EXTRA. ιαδικασία εξαγωγής της Μηχανογραφικής. έκδοσης ισοζυγίου στην εφαρµογή Extra Λογιστική ιαχείριση.

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Περιγραφή των εργαλείων ρουτινών του στατιστικού

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Διερεύνηση της Αξιοπιστίας και της Εγκυρότητας Ψυχομετρικής Κλίμακας με το λογισμικό SPSS

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Εισαγωγή και επεξεργασία δεδοµένων

Πρακτική µε στοιχεία στατιστικής ανάλυσης

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Σχήµα 6.1: Εισαγωγή της εντολής Read From Spreadsheet File στο Block Diagram.

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Αναγνώριση υποθεµάτων αρχείων Αντιγραφή κειµένου Αντιγραφη εικόνων Αντιγραφή video

ΚΕΦΑΛΑΙΟ 1 Ο. 1.1 Εισαγωγή Γενικά για χαµένες τιµές (missing values) στα δεδοµένα

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

9. Ανάλυση κυρίων συνιστωσών *Principal Component Analysis)

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΛΙΒΑΘΙΝΟΣ ΝΙΚΟΛΑΟΣ Επιστήµη και Τεχνολογία των Υπολογιστών Α.Μ.: 403. Πρώτη Οµάδα Ασκήσεων

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΘΕΩΡΙΑ ΓΕΝΙΚΗΣ ΙΣΟΡΡΟΠΙΑΣ ΧΡΗΣΕΩΝ ΓΗΣ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ. Εαρινό εξάµηνο ακαδηµαϊκού έτους ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. Εργασία 4 - Ενδεικτική λύση

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Z U REC (cm) (V) i =log(z) y i =log(u REC ) x i x i y i 10 74,306 1,000 1,871 1,000 1, ,528 1,079 1,796 1,165 1, ,085 1,146 1,749

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΚΕΦΑΛΑΙΟ 1 ο ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΚΑΙ ΑΝΑΛΥΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΜΕ ΧΡΗΣΗ ΕΛΕΓΧΩΝ (STUDENT S T).. 21

Μέτρηση κατανοµής ηλεκτρικού πεδίου

H πλατφόρµα ItBiz E- Learn, συνοπτικά.

Οδηγίες για την κατασκευή του αρχείου «Ταυτότητα (α+β) 2» 1. Αποκρύπτουµε τους άξονες και το παράθυρο άλγεβρας: Παράθυρο προβολή

Γραµµική Άλγεβρα. Εισαγωγικά. Μέθοδος Απαλοιφής του Gauss

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Οδοραµα mobile ΑΠΟΘΗΚΗ

Ποια μπορεί να είναι η κίνηση μετά την κρούση;

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

ΕΙΣΑΓΩΓΗ. 1.1 Εισαγωγή

ΠΡΟΒΛΗΜΑ ΣΥΓΓΡΑΜΜΙΚΟΤΗΤΑΣ

Μάθηµα 14. Κεφάλαιο: Στατιστική

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ Γ' ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2006 ΕΚΦΩΝΗΣΕΙΣ

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΥΑΙΣΘΗΣΙΑ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

Ανάλυση σε Κύριες Συνιστώσες και ιαχωριστική Ανάλυση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ (MSc) στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

παράθυρα ιδακτικό υλικό µαθητή Πλήκτρα για να το παράθυρο Λωρίδα τίτλου Πλαίσιο παραθύρου

Τίτλος Μαθήματος. Ενότητα 2: Μεθοδολογία Έρευνας Περιβαλλοντικής Γεωχημείας

Transcript:

Επίκουρος Καθηγητής Ιωάννης Παραβάντης Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ Ιανουάριος 2011 Βασικές µέθοδοι πολυµεταβλητής στατιστικής (multivariate statistics) 1. Αντικείµενο Στο παρόν φυλλάδιο παρουσιάζονται οι ακόλουθες µέθοδοι πολυµεταβλητής στατιστικής (multivariate statistics): 1. ανάλυση κύριων συνιστωσών (Principal Component Analysis) 2. ανάλυση παραγόντων (Factor Analysis), της οποίας εξετάζεται µόνο η συγγένεια µε τη µέθοδο PCA 3. ανάλυση συστάδων (Cluster Analysis) 4. ανάλυση κανονικοποιηµένης συσχέτισης (Canonical Correlation Analysis). Το δείγµα (sample) που θα αναλυθεί σε όλες τις µεθόδους του φυλλαδίου, αποτελεί τµήµα του δείγµατος που χρησιµοποιήθηκε από τους Paravantis και Iliadis (2009) σε έρευνα του Ψηφιακού Χάσµατος (digital divide) και περιλαµβάνει πληροφορίες για την διείσδυση των τεχνολογιών πληροφορικής και επικοινωνιών (Information and Communication Technologies ή ICT) για 209 χώρες. Οι µεταβλητές που εξετάζουµε παρουσιάζονται στον κατωτέρω πίνακα: Πίνακας 1. Μεταβλητές Αύξων Όνοµα αριθµός µεταβλητής Εξήγηση 1 LOGBBSUB λογάριθµος αριθµού συνδροµητών ευρείας ζώνης (broadband) ανά 100 κατοίκους 2 LOGINTBPP λογάριθµος ταχύτητας διεθνούς Internet (σε bits ανά λεπτό) 3 LOGINTUSER λογάριθµος αριθµού χρηστών Internet ανά 100 κατοίκους 4 TELSUB αριθµός συνδροµητών σταθερής και κινητής τηλεφωνίας ανά 100 κατοίκους 5 LOGSERV λογάριθµος αριθµού ασφαλών εξυπηρετητών (secure servers) Internet ανά ένα εκατοµµύριο κατοίκους 6 LOGTEL λογάριθµος αριθµού τηλεφωνικών γραµµών ανά 100 κατοίκους 7 LOGPC λογάριθµος αριθµού υπολογιστών ανά 100 κατοίκων 8 LOGOUTG λογάριθµος εξερχόµενης τηλεφωνικής κίνησης σε λεπτά της ώρας 9 CELLSUB αριθµός συνδροµητών κινητής τηλεφωνίας ανά 100 κατοίκους Κάποιες από τις µεταβλητές του ανωτέρω πίνακα έχουν µετασχηµατισθεί λογαριθµικά για να αρθεί η στρεβλότητα τους ώστε να βελτιωθεί η κατανοµή τους. Σε µερικές από αυτές, έχει προστεθεί η µονάδα ώστε να µην υπάρχουν µηδενικές τιµές στα πρωτογενή δεδοµένα και να µπορούν να εξαχθούν οι λογάριθµοι. Σε όλες τις ενότητες του φυλλαδίου, χρησιµοποιούµε το στατιστικό πακέτο Stagraphics Centurion (έκδοση 16), που είναι ιδιαίτερα φιλικό και πλήρες ως προς τις πολυµεταβλητές αναλύσεις που περιέχει (http://www.statgraphics.com). 1

2. Ανάλυση κύριων συνιστωσών (Principal Component Analysis) Με τη µέθοδο αυτή, όπως και την ανάλυση παραγόντων, γίνεται προσπάθεια να µειωθεί ο αριθµός των µεταβλητών (variables), τις οποίες επιθυµούµε να αναλύσουµε. Η µείωση αυτή επιτυγχάνεται µε την εξαγωγή ενός µικρού αριθµού γραµµικών συνδυασµών (linear combinations) των αρχικών µεταβλητών, που ονοµάζονται κύριες συνιστώσες (principal components). Για να γίνει πιο κατανοητό, στη συγκεκριµένη περίπτωση που έχουµε 9 αρχικές µεταβλητές (X 1, X 2 έως και την Χ 9 ), η πρώτη κύρια συνιστώσα (PC 1 ) που θα εξάγουµε θα είναι της µορφής: PC = a X + a X + + a X 1 1 1 2 2 9 9 όπου a 1, a 2 έως και a 9 είναι οι βαρυτικοί συντελεστές (weights) των αρχικών µεταβλητών στην εξίσωση της πρώτης κύριας συνιστώσας. Οι µεταβλητές, από τις οποίες θέλουµε να εξάγουµε κύριες συνιστώσες, πρέπει να είναι µεταξύ τους συσχετισµένες. Αυτό µπορούµε να το ελέγξουµε µε διαγράµµατα διασποράς (scatterplots) και συντελεστές συσχέτισης (correlation coefficients) ανά δυο µεταβλητές. Εάν υπάρχουν µεταβλητές που δεν είναι συσχετισµένες µε τις υπόλοιπες, αυτές δεν πρόκειται να συνεισφέρουν στις κύριες συνιστώσες που εξάγουµε. Στην συγκεκριµένη περίπτωση, όλα τα διαγράµµατα διασποράς φαίνονται στο παρακάτω σχήµα: LOGBBSUB LOGINTBPP LOGINTUSER TELSUB LOGSERV LOGTEL LOGPC LOGOUTG CELLSUB Σχήµα 1. Πίνακας διαγραµµάτων διασποράς (matrix plot) Αν και κάποια διαγράµµατα διασποράς (για παράδειγµα στην αριστερή κάθετη στήλη ή δεξιά πάνω πάνω) δείχνουν ότι κάποιες εκ των συσχετίσεων δεν είναι γραµµικές ούτε εξαιρετικά ισχυρές, θεωρούµε ότι η συσχέτιση των µεταβλητών είναι αρκετά ικανοποιητική για να προχωρήσουµε µε την ανάλυση κύριων συνιστωσών. Λάβετε υπόψη σας ότι ο λογαριθµικός µετασχηµατισµός κάποιων µεταβλητών έχει βελτιώσει όχι µόνο τις κατανοµές τους αλλά και τις συσχετίσεις τους µε τις άλλες µεταβλητές πέραν αυτού, δεν µπορούµε να κάνουµε κάτι άλλο. Το πλαίσιο διαλόγου (dialog box) που εµφανίζεται από το Statgraphics και δείχνει τις επιλογές που διατίθενται για την ανάλυση κύριων συνιστωσών (PCA) είναι: 2

Σχήµα 2. Πλαίσιο διαλόγου PCA Πριν από την ανάλυση κύριων συνιστωσών, τα δεδοµένα µετατρέπονται σε τυπικές τιµές (z scores) δηλαδή κανονικοποιούνται (standardized), που όπως θυµάστε από το µάθηµα του προηγουµένου εξαµήνου, σηµαίνει ότι αφαιρούµε από κάθε τιµή (x) τον µέσος όρος της µεταβλητής ( x ) και µετά διαιρούµε µε την τυπική απόκλιση της µεταβλητής (s): x x z= s Παρατηρείστε ότι αυτό το έχουµε ήδη επιλέξει στο κάτω αριστερό µέρος του προηγούµενου παραθύρου διαλόγου (standardize). Η επόµενη σηµαντική απόφαση που πρέπει να πάρουµε πριν εκτελεστεί η PCA είναι το πώς θα χειριστούµε τα ελλιπή δεδοµένα, δηλαδή εκείνες τις παρατηρήσεις (observations ή cases) που περιέχουν ελλιπείς τιµές (missing values) σε µια ή περισσότερες µεταβλητές. Όπως φαίνεται από το παραπάνω πλαίσιο διαλόγου (πάνω αριστερά, εκεί που αναγράφεται Missing Value Treatment), υπάρχουν δυο επιλογές διαχείρισης των ελλιπών δεδοµένων: 1. διαγραφή όλων των παρατηρήσεων που έχουν έστω και µια ελλιπή τιµή (listwise) σε κάποια µεταβλητή 2. διαγραφή των παρατηρήσεων που έχουν µια ελλιπή τιµή στη συγκεκριµένη φάση υπολογισµού της στατιστικής µεθόδου που εκτελείται (pairwise), για παράδειγµα εάν υπολογίζαµε τη µέση τιµή των µεταβλητών δεν θα είχε νόηµα να διαγράψουµε µια παρατήρηση εάν είχε ελλιπή τιµή σε άλλη µεταβλητή από αυτή της οποίας υπολογίζεται η µέση τιµή! Η δεύτερη µέθοδος (pairwise) εν γένει καταλήγει στη διαγραφή λιγότερων παρατηρήσεων από την πρώτη (listwise) αλλά είναι εντελώς ακατάλληλη γιατί δεν µπορούµε να είµαστε ποτέ σίγουροι επί ποίου υποσυνόλου έχει υπολογιστεί το κάθε κοµµάτι µιας στατιστικής ανάλυσης που ζητήσαµε. Ως εκ τούτου, στις πολυµεταβλητές µεθόδους πάντα επιλέγουµε τη διαγραφή παρατηρήσεων που περιέχουν ελλιπή δεδοµένα µε τη µέθοδο listwise. Ερχόµαστε τώρα στις επιλογές που αφορούν την PCA. Η κυριότερη είναι η επιλογή της µεθόδου εξαγωγής των κύριων συνιστωσών, που την αφήνουµε στην ήδη επιλεγµένη µέθοδο των ιδιοτιµών (eigenvalues). Ας δούµε τα αποτελέσµατα της ανάλυσης και εξηγούµε περισσότερα για τις ιδιοτιµές και άλλες λεπτοµέρειες της µεθόδου στην πορεία. 3

Πίνακας 2. Προκαταρτικές πληροφορίες ανάλυσης κύριων συνιστωσών Principal Components Analysis Data variables: LOGBBSUB LOGINTBPP LOGINTUSER TELSUB LOGSERV LOGTEL LOGPC LOGOUTG CELLSUB Data input: observations Number of complete cases: 124 Missing value treatment: listwise Standardized: yes Στον Πίνακα 2 επιβεβαιώνεται η επιλογή της µεθόδου PCA οι µεταβλητές που έχουν εισαχθεί για ανάλυση το ότι οι ελλιπείς παρατηρήσεις διαγράφηκαν µε τη µέθοδο listwise, γεγονός που µας περιόρισε από τις 209 παρατηρήσεις (δηλαδή χώρες) που είχαµε αρχικά, σε 124 χώρες και το ότι τυποποιήθηκαν οι τιµές πριν από την ανάλυση (Standardized: yes). Το κύριο τµήµα της εξόδου (output) της ανάλυσης κύριων συνιστωσών είναι το εξής: Πίνακας 3. Ιδιοτιµές κύριων συνιστωσών Component Percent of Cumulative Number Eigenvalue Variance Percentage 1 7.54703 83.856 83.856 2 0.409759 4.553 88.409 3 0.329638 3.663 92.071 4 0.246342 2.737 94.809 5 0.165991 1.844 96.653 6 0.118244 1.314 97.967 7 0.102871 1.143 99.110 8 0.0678222 0.754 99.863 9 0.0123025 0.137 100.000 Η ανάλυση συνοδεύεται και από διάγραµµα Scree, όπου στον άξονα Ψ βρίσκονται οι ιδιοτιµές (eigenvalues) και στον άξονα Χ βρίσκονται οι κύριες συνιστώσες (principal components): 4

Scree Plot 8 7 6 Eigenvalue 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Component Σχήµα 3. ιάγραµµα Scree Για να αποφασίσουµε πόσες κύριες συνιστώσες (principal components) θα κρατήσουµε, χρησιµοποιούµε δυο κριτήρια: 1. Το κριτήριο του Kaiser (1960), σύµφωνα µε το οποίο κρατάµε όσες κύριες συνιστώσες έχουν ιδιοτιµή µεγαλύτερη της µονάδας. Αξίζει να αναφέρουµε ότι κύριες συνιστώσες µε ιδιοτιµές µικρότερες της µονάδες εξηγούν µικρότερη διασποράς των αρχικών δεδοµένων από µια µεταβλητή, συνεπώς δεν έχει έννοια να τις διατηρήσουµε! 2. Το κριτήριο του Cattell (1966), σύµφωνα µε το οποίο κοιτάµε το διάγραµµα Scree και κρατάµε εκείνες τις κύριες συνιστώσες που βρίσκονται πριν από την αλλαγή κλίσεως της τεθλασµένης γραµµής. Ας εφαρµόσουµε το κάθε κριτήριο για να δούµε πόσες κύριες συνιστώσες κρατάµε στην περίπτωση της ανάλυσής µας. Σύµφωνα µε τον Πίνακα 3, µόνο η πρώτη κύρια συνιστώσα (component) έχει ιδιοτιµή µεγαλύτερη της µονάδας και, ως εκ τούτου, πληροί το κριτήριο Kaiser: η ιδιοτιµή αυτή ισούται µε 7.54703 (δηλαδή είναι πολύ µεγαλύτερη της µονάδας), πράγµα που σηµαίνει ότι η πρώτη κύρια συνιστώσα εξηγεί την διασπορά των αρχικών δεδοµένων που προκαλείται από περίπου 7.5 αρχικές µεταβλητές! Πράγµατι, σύµφωνα µε τις δυο επόµενες στήλες του πίνακα που δείχνουν το ποσοστό της διασποράς που εξηγείται από (α) κάθε µια κύρια συνιστώσα και (β) αθροιστικά από όλες τις συνιστώσες µέχρι και την τρέχουσα, η πρώτη κύρια συνιστώσα εξηγεί το 83.856% του συνόλου της διασποράς που παρατηρείται στις µεταβλητές που εξετάζουµε (παρατηρείστε ότι 7.54703 = 0.83856=83.856% ). 9 Επιβεβαιώστε ότι και η εφαρµογή του κριτηρίου του Cattell στο διάγραµµα Scree, µας δίνει µια κύρια συνιστώσα (δείτε το κοµµάτι της µπλε γραµµής που βρίσκεται αριστερά και πάνω πάνω), πριν από το σηµείο αλλαγής της καµπύλης (που βρίσκεται στο βύθισµα της γραµµής κάτω από την οριζόντια κόκκινη γραµµή). Μάλιστα, αυτή η οριζόντια κόκκινη γραµµή µας δείχνει γραφικά την εφαρµογή του κριτηρίου του Kaiser, δηλαδή δείχνει τη θέση του κάθετου άξονα στον οποίο έχουµε την τιµή της µονάδας για τις ιδιοτιµές. 5

Για να δούµε την εξίσωση της πρώτης κύριας συνιστώσας, που µόλις υπολογίσαµε: Πίνακας 4. Βαρυτικοί συντελεστές πρώτης κύριας συνιστώσας Component 1 LOGBBSUB 0.325403 LOGINTBPP 0.342834 LOGINTUSER 0.34349 TELSUB 0.349357 LOGSERV 0.33715 LOGTEL 0.331005 LOGPC 0.329754 LOGOUTG 0.305296 CELLSUB 0.333712 Για να είµαστε σίγουροι ότι καταλαβαίνουµε αυτό τον πίνακα, γράφουµε κατωτέρω την εξίσωση της πρώτης κύριας συνιστώσας, PC1, βασιζόµενοι στην ανωτέρω πίνακα: PC1 = 0.325403 LOGBBSUB + 0.342834 LOGINTBPP + 0.34349 LOGINTUSER + 0.349357 TELSUB + 0.33715 LOGSERV + 0.331005 LOGTEL + 0.329754 LOGPC + 0.305296 LOGOUTG + 0.333712 CELLSUB Πράγµατι λοιπόν, µια κύρια συνιστώσα αποτελεί γραµµικό συνδυασµό των τιµών των µεταβλητών στις οποίες βασίζεται. Μην ξεχνάµε όµως ότι οι τιµές αυτές είναι κανονικοποιηµένες. Παρατηρούµε ότι όλες οι µεταβλητές εµφανίζονται µε θετικό πρόσηµα και παρόµοιες τιµές βαρυτικών συντελεστών, στην εξίσωση αυτή της πρώτης κύριας συνιστώσας. Αυτό σηµαίνει ότι όλες οι επιµέρους µεταβλητές του Πίνακα 1, που µετράνε διαφορετικά χαρακτηριστικά της διείσδυσης ψηφιακών τεχνολογιών στις κοινωνίες των κρατών που εξετάστηκαν, συνεισφέρουν ισόποσα στην διαµόρφωση της κύριας συνιστώσας, που αποτελεί ένα είδος δείκτη ψηφιακής διείσδυσης. Από δω και πέρα, αντί να αναλύουµε τις 9 επιµέρους µεταβλητές, µπορούµε να αναλύσουµε την µια κύρια συνιστώσα. Συνοψίζοντας και καταλήγοντας, από τις 9 µεταβλητές που εξετάσαµε εξάγουµε µια µόνο κύρια συνιστώσα, η οποία εξηγεί την διασπορά των σηµείων που προκαλείται από περίπου 7.5 από τις 9 αρχικές µεταβλητές. Στην επόµενη ενότητα προβαίνουµε σε σύντοµο σχολιασµό των οµοιοτήτων και διαφορών της µεθόδου ανάλυσης παραγόντων (Factor Analysis) µε τη µέθοδο των κύριων συνιστωσών (Principal Component Analysis). 3. Ανάλυση παραγόντων (Factor Analysis) απλή αναφορά οµοιοτήτων και διαφορών της µεθόδου µε τη µέθοδο PCA 4. Ανάλυση συστάδων (Cluster Analysis) Ο στόχος της ανάλυσης συστάδων είναι διαφορετικός από αυτόν της ανάλυσης κύριων συνιστωσών: µε την ανάλυση συστάδων, οµαδοποιούνται οι παρατηρήσεις (observations ή cases) αντί να οµαδοποιούνται (σε γραµµικούς συνδυασµούς) οι µεταβλητές. 6

Ειδικά στην περίπτωση του ψηφιακού χάσµατος, ενδιαφέρει να δούµε κατά πόσον οι χώρες που έχουµε στο δείγµα µας οµαδοποιούνται σε δυο συστάδες, που η µια θα περιείχε αναπτυγµένες χώρες µε µεγάλη διείσδυση ψηφιακών τεχνολογιών ενώ η άλλη αναπτυσσόµενες χώρες µε µικρή διείσδυση ψηφιακών τεχνολογιών. Επιχειρούµε λοιπόν να οµαδοποιήσουµε τις ίδιες µεταβλητές που αναλύσαµε στην ενότητα των κύριων συνιστωσών. Το πλαίσιο διαλόγου του Statgraphics για την ανάλυση συστάδων φαίνεται στο παρακάτω σχήµα: Σχήµα 4. Πλαίσιο διαλόγου ανάλυσης συστάδων Καταρχήν παρατηρήστε ότι δεν υπάρχει επιλογή για την διαγραφή των ελλιπών δεδοµένων (pairwise ή listwise), όπως στην περίπτωση της ανάλυσης κύριων συνιστωσών. Αυτό γιατί λόγω της φύσης της µεθόδου ανάλυσης συστάδων, οι παρατηρήσεις που έχουν έστω και ένα ελλιπές δεδοµένο διαγράφονται αυτόµατα (listwise). Παρατηρήστε ότι στο κάτω δεξιά µέρος του πλαισίου είναι επιλεγµένη η επιλογή Standardize (τυποποίηση ή κανονικοποίηση των δεδοµένων). Πράγµατι αποτελεί σωστή πρακτική πριν από την ανάλυση συστάδων να τυποποιούµε τα δεδοµένα µας ώστε να µην µας οδηγήσουν σε παράδοξες επιλογές συσταδοποίησης ενδεχόµενες µεγάλες διαφορές ανάµεσα στις τιµές διαφορετικών µεταβλητών. Πάνω από το Standardize υπάρχει µια επιλογή για την συσταδοποίηση παρατηρήσεων (observations) ή µεταβλητών (variables). Αγνοήστε αυτή την επιλογή πάντα θα διαλέγουµε συσταδοποίηση παρατηρήσεων. Τέλος, κάτω αριστερά µπορούµε να διαλέξουµε τον αριθµό των συστάδων (number of clusters). Αρχικά, αφήστε αυτό το νούµερο στο ένα (1) για να δούµε όλο το δενδρόγραµµα, και µετά αποφασίζουµε για τον βέλτιστο αριθµό συστάδων. Πάµε τώρα στην ουσία της ανάλυσης συστάδων: τις επιλογές µεθόδου σύνδεσης (linkage method) και µέτρου απόστασης (distance metric). Να θυµάστε ότι υπάρχουν συγκεκριµένοι συνδυασµοί µεθόδων σύνδεσης και µέτρων απόστασης, που η βιβλιογραφία θεωρεί κατάλληλους. Στα πλαίσια του µαθήµατος µας, θα χρησιµοποιήσουµε ένα δοκιµασµένο τέτοιο συνδυασµό: τη σύνδεση των σηµείων µε τη µέθοδο του Ward µε µέτρο απόστασης το τετράγωνο της Ευκλείδειας απόστασης (squared Euclidean). Η µέθοδος Ward τείνει 7

να σχηµατίζει συστάδες µε τον ίδιο αριθµό παρατηρήσεων ενώ η τετραγωνισµένη Ευκλείδεια απόσταση τείνει να «τιµωρεί» τα σηµεία που είναι µακρινά και ασυνήθιστα (outliers). Το πρώτο µέρος της εκτύπωσης περιέχει τα ακόλουθα: Πίνακας 5. Προκαταρκτικές πληροφορίες ανάλυσης συστάδων Cluster Analysis Data variables: LOGBBSUB LOGINTBPP LOGINTUSER TELSUB LOGSERV LOGTEL LOGPC LOGOUTG CELLSUB Number of complete cases: 124 Clustering Method: Ward's Distance Metric: Squared Euclidean Clustering: observations Standardized: yes Επιβεβαιώνουµε τις µεταβλητές που αναλύσαµε, βλέπουµε ότι και πάλι έχουµε 124 παρατηρήσεις (µετά την διαγραφή των ελλιπών δεδοµένων µε τη µέθοδο listwise), επιβεβαιώνουµε ότι χρησιµοποιήσουµε τη µέθοδο Ward µε το τετράγωνο της Ευκλείδειας απόστασης (Squared Euclidean) καθώς και ότι τυποποιήσαµε τις τιµές πριν από την ανάλυση (Standardized: yes). Η υπόλοιπη εκτύπωση της ανάλυσης δεν έχει µεγάλη σηµασία γιατί είχαµε επιλέξει µόνο µια συστάδα, προκειµένου να αξιολογήσουµε το δενδρόγραµµα: Dendrogram Ward's Method,Squared Euclidean Distance 1200 1100 1000 900 800 700 600 500 400 300 200 100 0 2 3 201 49 209 86 87 13 103 57 131 129 164 150 152 41 204 24 82 160 55 134 70 126 64 151 25 58 96 163 180 42 187 56 80 127 192 196 68 118 173 27 8 157 40 114 193 158 178 20 67 138 46 106 123 200 125 203 14 102 166 156 191 117 15 73 28 84 94 105 153 155 169 30 6 119 21 135 72 81 16 115 31 132 195 32 45 104 47 122 98 140 189 171 181 10 17 197 50 205 161 34 12 19 71 52 90 137 182 144 183 85 61 83 65 66 101 139 170 93 113 154 174 111 Σχήµα 5. ενδρόγραµµα (dendrogram) 8

Για να αποφασίσουµε ποιος είναι ο βέλτιστος αριθµός συστάδων στις οποίες θα εντάξουµε τα δεδοµένα µας, κοιτάµε το δενδρόγραµµα και προσπαθούµε να διακρίνουµε σε πόσες συστάδες παρατηρείται η µεγαλύτερη αύξηση της απόστασης (distance, στον κάθετο άξονα) χωρίς να αλλάξει ο αριθµός των συστάδων. Στο συγκεκριµένο δενδρόγραµµα, δείτε ότι από την τιµή 600 µέχρι την τιµή 1100 (περίπου), η ύπαρξη δυο κάθετων µπλε γραµµών µας δείχνει ότι εκεί µπορούµε να χωρίσουµε τα δεδοµένα µας σε δυο συστάδες. Αν αντίθετα αποφασίζαµε να βασιστούµε στις τρεις κάθετες µπλε γραµµές που υπάρχουν από τη θέση 340 (περίπου) έως τη θέση 600 (περίπου), θα χωρίζαµε τα δεδοµένα µας σε τρεις συστάδες, αυτό όµως δεν θα ήταν βέλτιστο γιατί η απόσταση από το 340 έως το 600 (=260) είναι µικρότερη από την απόσταση από το 600 έως το 1100 (=500)! Αποφασίζουµε λοιπόν να διαλέξουµε δυο συστάδες και ξανατρέχουµε την ανάλυση συστάδων για να πάρουµε την εξής εκτύπωση (το αρχικό κοµµάτι είναι ίδιο και δεν αναπαράγεται): Πίνακας 6. Εκτύπωση ανάλυσης συστάδων Cluster Summary Cluster Members Percent 1 95 76.61 2 29 23.39 Centroids Cluster LOGBBSUB LOGINTBPP LOGINTUSER TELSUB LOGSERV LOGTEL 1 0.21305 1.64702 0.968713 51.9748 0.413419 0.875458 2 1.14134 3.5474 1.71885 145.202 2.22857 1.67746 Cluster LOGPC LOGOUTG CELLSUB 1 0.64818 1.13796 38.3006 2 1.59292 2.18026 96.0731 Από τα περιληπτικά στοιχεία της ανάλυσης συστάδων (Cluster Summary), βλέπουµε ότι οι 124 χώρες χωρίστηκαν σε δυο συστάδες, µια εκ των οποίων περιέχει 95 χώρες ενώ η άλλη 29 χώρες. Στο κάτω µέρος της εκτύπωσης βλέπουµε τις τιµές των σηµείων που είναι στα κέντρα των συστάδων (Centroids) για κάθε µεταβλητή. Παρατηρήστε ότι στο κέντρο της δεύτερης συστάδας, όλες οι µεταβλητές έχουν µεγαλύτερες τιµές από το κέντρο της πρώτης συστάδας, για παράδειγµα ο αριθµός συνδροµητών σταθερής και κινητής τηλεφωνίας είναι 145.202 στο κέντρο της δεύτερης συστάδας και 51.9748 στο κέντρο της πρώτης. Πετύχαµε λοιπόν µε την ανάλυση συστάδων να χωρίσουµε τις χώρες σε δυο συστάδες: 29 αναπτυγµένες ψηφιακά χώρες και 95 αναπτυσσόµενες! Η διάκριση των χωρών στις δυο αυτές συστάδες αναδεικνύει το ψηφιακό χάσµα σε ποσοτική και συγκεκριµένη βάση. 5. Ανάλυση κανονικοποιηµένης συσχέτισης (Canonical Correlation Analysis) Η ενότητα αυτή είναι εκτός ύλης για την εξεταστική περίοδο του Φεβρουαρίου 2011. 9

Βιβλιογραφικές αναφορές (references) Cattell, R.B. (1966): «The Scree Test for the Number of Factors», Multivariate Behavioral Research, Vol. 1, pp. 245 276. Kaiser, H.F. (1960): «The Application of Electronic Computer to Factor Analysis», Educational and Psychological Measurement, Vol.20, pp. 141 151. Manly, B.F.J. (2005): Multivariate Statistical Methods: A Primer, Chapman and Hall/CRC. Paravantis, J. and M. Iliadis (2009): A Multivariate Cross National Empirical Analysis of the Digital Divide, working paper. Stevens, J., (2002): Applied Multivariate Statistics for the Social Sciences, 4th edition, Lawrence Elrbaum Associates. 10