ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» 2012-2013"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΦΙΛΙΠΠΟΣ ΑΛΕΒΙΖΟΣ (Αναπληρωτής Καθηγητής) ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: ΚΩΝ/ΝΟΣ ΠΕΤΡΟΠΟΥΛΟΣ (Επίκουρος Καθηγητής) ΝΙΚΟΛΑΟΣ ΤΣΑΝΤΑΣ (Αναπληρωτής Καθηγητής) ΟΝΟΜΑΤΕΠΩΝΥΜΟ ΦΟΙΤΗΤΗ: ΑΓΓΕΛΟΣ ΓΕΩΡΓ. ΓΕΩΡΓΙΤΣΟΠΟΥΛΟΣ ΠΕΡΙΟΧΗ: Στατιστική Ανάλυση Δεδομένων ΘΕΜΑ Απλή & Πολλαπλή Ανάλυση Αντιστοιχιών (Simple & Multiple Correspondence Analysis) και πρακτική εφαρμογή τους σε Έρευνα Αγοράς (Market Research) με τη χρήση των στατιστικών Πάτρα, Δεκέμβριος 2013

2 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ...11 ABSTRACT...12 ΠΡΟΛΟΓΟΣ..13 ΕΥΧΑΡΙΣΤΙΕΣ.13 ΕΙΣΑΓΩΓΗ 14 1 ο Μέρος (Θεωρητικό): Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 2. ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΚΕΦΑΛΑΙΟ 3. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πίνακας Συνάφειας (Contingency Table) Προφίλ (Profiles) Μάζα (Mass) Μέτρα Απόστασης Ιδιότητα Ισοδυναμίας κατά Κατανομή Επιλογή Κριτηρίου «Καλής Προσαρμογής» Αδράνεια (Inertia) Αδράνεια των Σημείων Απόλυτες Συνεισφορές στην Αδράνεια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 2

3 3.7 Πίνακας Καταλοίπων ΚΕΦΑΛΑΙΟ 4. ΓΕΩΜΕΤΡΙΚΗ ΘΕΩΡΗΣΗ Μείωση των Διαστάσεων Γεωμετρική Ερμηνεία Το Μοντέλο της Ανάλυσης Αντιστοιχιών...47 ΚΕΦΑΛΑΙΟ 5. ΠΡΑΚΤΙΚΑ ΖΗΤΗΜΑΤΑ Υπολογιστικές Ανάγκες Διάσπαση Ιδιόμορφων Τιμών (SVD) Συμμετρικά και Μη Συμμετρικά Biplots Συμμετρικά Biplots Μη Συμμετρικά Biplots Παρατηρήσεις ΚΕΦΑΛΑΙΟ 6. ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Ερμηνεία των Αποτελεσμάτων Πλήθος Αξόνων που θα επιλέξουμε Συμπληρωματικά Σημεία (Supplementary Points) Ποιότητα Παρουσίασης Ποιότητα Παρουσίασης- Σχετικές Συνεισφορές στην Αδράνεια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 3

4 ΚΕΦΑΛΑΙΟ 7. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (SIMPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ SPSS Δεδομένα (Data) Υποθέσεις (Assumptions) Πίνακας Αντιστοιχιών- Crosstabs Ανάλυση Αντιστοιχιών- Κανονικοποίηση Κανονικοποίηση (Normalization) Περιγραφή Διαδικασίας Απλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 8. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (SIMPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ MINITAB Περιγραφή Διαδικασίας Απλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 9. ΑΛΛΑ ΖΗΤΗΜΑΤΑ Συμβουλές- Υποδείξεις Σχέσεις με άλλες Μεθόδους Ανάλυση Αντιστοιχιών και Log- Linear Μοντέλα Πρόσθετες Χρήσεις της Ανάλυσης Αντιστοιχιών Ανάλυση κατά Συστάδες (Cluster Analysis) ως συμπληρωματική της Ανάλυσης Αντιστοιχιών Ανάλυση Αντιστοιχιών ως συμπληρωματική της Ανάλυσης κατά Συστάδες (Cluster Analysis).. 99 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 4

5 2ο Μέρος (Θεωρητικό): Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) ΚΕΦΑΛΑΙΟ 10. ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 11. ΚΑΤΑΛΛΗΛΟΤΗΤΑ ΔΕΔΟΜΕΝΩΝ ΚΕΦΑΛΑΙΟ 12. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πίνακας Δείκτης (Disjunctive Matrix) Πίνακας Burt ΚΕΦΑΛΑΙΟ 13. ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Αδράνεια Η Πολλαπλή Ανάλυση Αντιστοιχιών στην πράξη-svd ΚΕΦΑΛΑΙΟ 14. ΠΕΡΙΓΡΑΦΗ ΠΟΛΥΜΕΤΑΒΛΗΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΗ ΒΟΗΘΕΙΑ ΠΑΡΕΜΦΕΡΩΝ ΜΕΘΟΔΩΝ ΜΕ ΤΗΝ ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis) Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) ΚΕΦΑΛΑΙΟ 15. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (MULTIPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ SPSS Εισαγωγή Σύνοψη του Μοντέλου (Model Summary) Object Scores Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 5

6 15.4 Discrimination Measures Category Quantifications Περιγραφή Διαδικασίας Πολλαπλής Ανάλυση Αντιστοιχιών Παράλειψη των Ακραίων Τιμών (Omission of Outliers) ΚΕΦΑΛΑΙΟ 16. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (MULTIPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ MINITAB Εισαγωγή Καταλληλότητα Δεδομένων Περιγραφή Διαδικασίας Πολλαπλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 17. ΑΛΛΑ ΖΗΤΗΜΑΤΑ ΚΕΦΑΛΑΙΟ 18. ΣΥΝΟΨΗ ο Μέρος (Θεωρητικό): Έρευνα Αγοράς (Market Research) ΚΕΦΑΛΑΙΟ 19. ΕΡΕΥΝΑ ΑΓΟΡΑΣ Ορισμοί Στόχοι της Έρευνας Αγοράς Τύποι Έρευνας Στάδια Έρευνας Αγοράς Πρωτογενή και Δευτερογενή Δεδομένα Ποιοτική και Ποσοτική Έρευνα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 6

7 ΚΕΦΑΛΑΙΟ 20. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ (QUESTIONNAIRE) Εισαγωγή Χαρακτηριστικά του Ερωτηματολογίου Σχεδιασμός Ερωτηματολογίου (Questionnaire Design) Δυσκολίες κατά τη Σύνταξη του Ερωτηματολογίου Μέθοδοι Διανομής του Ερωτηματολογίου ΚΕΦΑΛΑΙΟ 21. ΔΕΙΓΜΑΤΟΛΗΨΙΑ Εισαγωγή Χαρακτηριστικά της Δειγματοληψίας Διαδικασία της Δειγματοληψίας ΚΕΦΑΛΑΙΟ 22. ΑΝΑΦΟΡΑ & ΠΑΡΟΥΣΙΑΣΗ (REPORTING) ΤΩΝ ΕΥΡΗΜΑΤΩΝ ΤΗΣ ΕΡΕΥΝΑΣ Η Διαδικασία Προετοιμασίας της Αναφοράς (Report) & της Παρουσίασης των Ευρημάτων της Έρευνας ΚΕΦΑΛΑΙΟ 23. ΣΥΝΑΦΕΙΑ ΕΡΕΥΝΑΣ ΑΓΟΡΑΣ & ΑΝΑΛΥΣΗΣ ΑΝΤΙΣΤΟΙΧΙΩΝ Εισαγωγή Χρησιμότητα της Ανάλυσης Αντιστοιχιών στην Έρευνα Αγοράς Εφαρμογές της Ανάλυσης Αντιστοιχιών στο Μάρκετινγκ- Έρευνα Αγοράς Γενικά Μερίδια Αγοράς & Τοποθέτηση Προϊόντος 166 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 7

8 Αποτελέσματα Διαφημιστικής Καμπάνιας Απόψεις Καταναλωτών- Ανάπτυξη Νέου Προϊόντος Εξέταση Δεδομένων (Data Considerations) Σημαντικότητα των Εξαρτήσεων (Significance of Dependencies) Διαστατικότητα της Επίλυσης (Dimensionality of the Solution) Ερμηνεία των Αξόνων (Interpreting the Axes) Η Ποιότητα της Παρουσίασης (The Quality of Representation) Συμπληρωματικά Σημεία (Supplementary Points) Ακραίες Τιμές (Outliers) Τελικές Παρατηρήσεις ο Μέρος (Ερευνητικό): Πρακτική Εφαρμογή Ανάλυσης Αντιστοιχιών (Correspondence Analysis) σε Έρευνα Αγοράς (Market Research) με τη βοήθεια των SPSS & MINITAB ΚΕΦΑΛΑΙΟ 24. ΜΕΘΟΔΟΛΟΓΙΚΟ ΠΛΑΙΣΙΟ Ταυτότητα της Έρευνας Μέθοδος Δειγματοληπτικής Έρευνας Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 8

9 24.3 Πληθυσμός αναφοράς και προσδιορισμός μεγέθους του δείγματος Περιγραφή μεθόδων επεξεργασίας και ανάλυσης των δεδομένων- Στατιστική Συμπερασματολογία Επιλογή μεταβλητών Έλεγχοι Ανεξαρτησίας X 2 (Chi-Square) Τελική επιλογή μεταβλητών Περιγραφικά μέτρα ΚΕΦΑΛΑΙΟ 25. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ- SIMPLE CORRESPONDENCE ANALYSIS (S.C.A.) Εισαγωγή Προεργασία Εφαρμογή Συμπεράσματα ΚΕΦΑΛΑΙΟ 26. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ- MULTIPLE CORRESPONDENCE ANALYSIS (M.C.A.) Εισαγωγή Εφαρμογή Συμπεράσματα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 9

10 ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ ΕΥΡΕΤΗΡΙΟ ΟΡΩΝ (ΥΠΟΣΗΜΕΙΩΣΕΙΣ) [2]. Πίνακες Απλής & Πολλαπλής Εισόδου.231 [3]. Προφίλ (Profiles) Γραμμών και Στηλών 233 [4]. Έλεγχος X [5]. Κριτήριο «Καλής Προσαρμογής»..238 [7]. Matching Coefficient..239 [8]. Κριτήριο Kaiser Ανάλυσης Κυρίων Συνιστωσών..240 [9]. Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.)- Central Limit Theorem (C.L.M)..241 [10]. Καμπύλες Andrews.242 [11]. Έρευνα Μάρκετινγκ (Marketing Research) 243 [12]. Μάρκετινγκ (Marketing).243 [13]. Μίγμα Μάρκετινγκ (Marketing Mix- 4P)..244 [14]. Κοινωνικοοικονομική Έρευνα (Μεταβλητές) 247 [15]. Απλή Τυχαία Δειγματοληψία..249 ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΕΡΕΥΝΑΣ ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ- ΠΙΝΑΚΕΣ- ΓΡΑΦΗΜΑΤΑ.257 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ ΕΥΡΕΤΗΡΙΟ ΓΡΑΦΗΜΑΤΩΝ ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 10

11 Περίληψη Ένα από τα πιο αποτελεσματικά μέσα για την επιτυχία ενός προϊόντος είναι αναμφισβήτητα η Έρευνα Αγοράς (Market Research). Η έρευνα υλοποιείται σε αντιπροσωπευτικό δείγμα ενός συγκεκριμένου υπό μελέτη πληθυσμού, με απώτερο σκοπό να εξαχθούν συμπεράσματα από την ποσοτική στατιστική επεξεργασία και ανάλυση των δεδομένων σχετικά με τις απόψεις, τις στάσεις και τις συμπεριφορές που διαθέτουν οι καταναλωτές, τις τάσεις και τις προοπτικές ενός κλάδου, το μερίδιο αγοράς που αντιστοιχεί σε κάποιο προϊόν ή επίσης και τη γνώση που έχουν οι καταναλωτές όσον αφορά τη μάρκα ή την εικόνα ενός προϊόντος. Η στατιστική ανάλυση των αποτελεσμάτων επιτυγχάνεται με χρήση διαφόρων στατιστικών τεχνικών, ανάμεσα στις οποίες περιλαμβάνεται και η Ανάλυση Αντιστοιχιών (Correspondence Analysis). Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) είναι μια διερευνητική τεχνική ανάλυσης δεδομένων που απεικονίζει γραφικά πίνακες συνάφειας και πολυμεταβλητά κατηγορικά δεδομένα, ενώ παράλληλα τις τελευταίες δεκαετίες έχει σημειώσει ταχύτατη εξέλιξη και ανάπτυξη. Η Ανάλυση Αντιστοιχιών βρίσκει εφαρμογή τόσο στην Έρευνα Αγοράς, ακριβώς λόγω της κατηγορικής φύσεως των δεδομένων που προκύπτουν σε έρευνες τέτοιου τύπου, όσο και γενικότερα στις κοινωνικές επιστήμες όπου συνήθως χρειάζεται ένα στατιστικό «εργαλείο» για να ελέγξει τις αντιστοιχίες- συσχετίσεις μεταξύ των μεταβλητών και να τις αποδώσει με τη βοήθεια ενός γραφήματος. Σκοπός της παρούσας εργασίας είναι η θεωρητική, πρακτική και υπολογιστική επισκόπηση της συγκεκριμένης στατιστικής μεθόδου καθώς και η υλοποίησή της στα στατιστικά πακέτα SPSS & MINITAB, με τη χρήση κατάλληλων δεδομένων από τον τομέα της Έρευνας Αγοράς. Θα δοθεί έμφαση περισσότερο στην ερμηνεία των αποτελεσμάτων παρά στις μαθηματικές και τεχνικές λεπτομέρειες των διαδικασιών της εφαρμογής. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 11

12 Abstract One of the most effective means for the success of a product is indisputably the Market Research. The research is conducted in a representative sample of a specific population under study with the aim to draw conclusions which are derived from the quantitative statistical processing and analysis of data on the opinions, the attitudes and behaviors that consumers have, the trends and the prospects of a branch, the market share which is corresponding to a product or also the knowledge that consumers have got as far as it concerns the brand or product image. The statistical analysis of the results is accomplished by using different statistical techniques including Correspondence Analysis. The Correspondence Analysis is an exploratory data analysis technique that depicts graphically contingency tables and multivariate categorical data, while the last decades it has made rapid progress and development. The Correspondence Analysis is applicable to Market Research, just because of the categorical nature of data obtained in researches of this type and generally in social sciences, where commonly a statistical tool is needed to check on the correspondences- correlations among the variables and yield them through a graph. The purpose of this study is the theoretical, practical and computational survey of this specific statistical method and its implementation in the statistical packages SPSS & MINITAB by using appropriate data from Market Research. Emphasis will be given more on the interpretation of results despite the mathematical and technical details of the method procedures. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 12

13 ΠΡΟΛΟΓΟΣ Η διεξαγωγή της έρευνας πραγματοποιείται στο πλαίσιο του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων», που υλοποιείται με τη συνεργασία των τμημάτων Μαθηματικών και Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Το θέμα που πραγματεύεται η παρούσα έρευνα εστιάζεται στην Ανάλυση Αντιστοιχιών (Correspondence Analysis), που είναι μια στατιστική τεχνική ανάλυσης πολυμεταβλητών κατηγορικών δεδομένων, καθώς και στην πρακτική εφαρμογή της σε δεδομένα που έχουν αντληθεί από τη διεξαγωγή μιας Έρευνας Αγοράς (Market Research). Αυτός είναι και ο αντικειμενικός σκοπός της διπλωματικής εργασίας, δηλαδή η ανάδειξη της συγκεκριμένης στατιστικής μεθόδου ως ένα από τα καταλληλότερα «εργαλεία» για την διερεύνηση των συσχετίσεων που υφίστανται μεταξύ των υπό εξέταση μεταβλητών. Συμπερασματικά, θα πραγματοποιηθεί μια θεωρητική επισκόπηση της μεθόδου της Ανάλυσης Αντιστοιχιών και εν συνεχεία θα υλοποιηθεί μια πρακτική και υπολογιστική εφαρμογή σε Έρευνα Αγοράς. ΕΥΧΑΡΙΣΤΙΕΣ Ολοκληρώνοντας το Διατμηματικό Μεταπτυχιακό Πρόγραμμα Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» θα ήθελα να εκφράσω την ειλικρινή μου ευχαριστία σε όλους ανεξαιρέτως τους καθηγητές μου και κυρίως στον αναπληρωτή καθηγητή και επιβλέποντα Κο Φίλιππο Αλεβίζο, που με την ουσιαστική του καθοδήγηση και την ανεξάντλητη υπομονή του συνέβαλλε τα μέγιστα στην διεκπεραίωση αυτής της διπλωματικής εργασίας. Επιπλέον θα ήθελα να ευχαριστήσω θερμά την οικογένεια μου, όλους τους φίλους και ιδιαίτερα τον Αναστάσιο Βελαώρα, απόφοιτο Μάρκετινγκ του Ο.Π.Α., για την προμήθεια βιβλιογραφίας καθώς και τους συναδέλφους από το μεταπτυχιακό Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 13

14 πρόγραμμα που με υποστήριξαν και ενίσχυσαν παντοιοτρόπως για να φέρω εις πέρας τη συγκεκριμένη εργασία. Τέλος, η συγκεκριμένη έρευνα δε θα μπορούσε να ολοκληρωθεί χωρίς τη βοήθεια της Κας Κανελλοπούλου Θάλειας, υπεύθυνης του τμήματος ερευνών της Data Research & Consulting SA (Data RC), εταιρείας που παρέχει υπηρεσίες ερευνών αγοράς και μάρκετινγκ. ΕΙΣΑΓΩΓΗ Αφορμή για την επιλογή του θέματος της διπλωματικής εργασίας από την περιοχή της Στατιστικής Ανάλυσης Δεδομένων, στάθηκαν οι σπουδές που διέθετα σε προπτυχιακό επίπεδο καθώς είμαι απόφοιτος του τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών (Ο.Π.Α.), σε συνδυασμό με την ήδη υπάρχουσα ενασχόληση μου σε ατομικό επίπεδο ως αναλυτής- μελετητής ερευνών με χρήση ερωτηματολογίου κατά κύριο λόγο. Παράλληλα σημαντικό ρόλο διαδραμάτισε και η προοπτική επαγγελματικής απασχόλησης ως ερευνητής αγοράς, όπως και η επιθυμία μου να εμπλουτίσω τις γνώσεις μου σε θέματα που άπτονται του τομέα Marketing και συγκεκριμένα της Έρευνας Αγοράς. Έτσι σε συνεννόηση πάντα με τον επιβλέποντα καθηγητή Κο Φ. Αλεβίζο επιλέχθηκε το συγκεκριμένο θέμα που έχει τίτλο «Απλή και Πολλαπλή Ανάλυση Αντιστοιχιών (Correspondence Analysis) και πρακτική εφαρμογή τους σε Έρευνα Αγοράς (Market Research) με τη βοήθεια των στατιστικών πακέτων SPSS & MINITAB», το οποίο θα μου έδινε την ευκαιρία να γνωρίσω εις βάθος την στατιστική τεχνική της Ανάλυσης Αντιστοιχιών, τόσο από θεωρητικής μεριάς όσο και από πρακτικής απόψεως, καθώς η εργασία θα συνοδευόταν από υλοποίηση της προαναφερθείσας στατιστικής τεχνικής σε πρακτικό επίπεδο. Στόχος της διπλωματικής εργασίας είναι μια όσο το δυνατόν πιο ενδελεχής προσέγγιση της μεθόδου της Ανάλυσης Αντιστοιχιών σε θεωρητικό και πρακτικό τομέα όπως ήδη αναφέραμε, δίχως όμως να επιμείνουμε τόσο στις μαθηματικές και Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 14

15 τεχνικές λεπτομέρειες των διαδικασιών της τεχνικής αυτής. Συγχρόνως η εργασία στοχεύει στο να επιβεβαιώσει ή όχι την προσφορά της Ανάλυσης Αντιστοιχιών κατά την εφαρμογή της σε Έρευνα Αγοράς και να επισημάνει τα πλεονεκτήματα και τα μειονεκτήματα της. Κατόπιν τούτων, θα ξεκινήσουμε στο 1 ο μέρος της εργασίας με τη Θεωρητική επισκόπηση (βασικές έννοιες, πρακτικά ζητήματα, συμπερασματολογία) της Απλής Ανάλυσης Αντιστοιχιών (Simple Correspondence Analysis), που αναλύει έναν πίνακα συνάφειας διπλής εισόδου αποτελούμενο από κατηγορικά δεδομένα. Επιπρόσθετα θα περιγράψουμε την εφαρμογή της με τα στατιστικά πακέτα SPSS & MINITAB. Ομοίως στο 2 ο μέρος, θα αναφερθούμε στην Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis), η οποία επεκτείνει την έννοια της Απλής Ανάλυσης Αντιστοιχιών στην περίπτωση τριών ή και παραπάνω κατηγορικών μεταβλητών. Ωσαύτως με την προηγούμενη περίπτωση, θα περιγράψουμε και εδώ την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών με τη συνδρομή των πακέτων SPSS & MINITAB. Εδώ πρέπει να κάνουμε ιδιαίτερη μνεία στον Κο Δημήτρη Καρλή, Αναπληρωτή Καθηγητή του τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών (Ο.Π.Α., πρώην ΑΣΟΕΕ), καθώς ένα μεγάλο μέρος της θεωρίας του 1 ου και του 2 ου μέρους της παρούσας εργασίας βασίστηκε στο βιβλίο του «Πολυμεταβλητή Στατιστική Ανάλυση» που εκδόθηκε από τις εκδόσεις Σταμούλη το Εν συνεχεία, στο 3 ο μέρος θα πραγματοποιηθεί μια σύντομη αλλά ταυτόχρονα περιεκτική επισκόπηση της θεωρίας της Έρευνας Αγοράς (Market Research), όπου θα τονιστούν τα σημαντικότερα και άξια λόγου σημεία της. Εν κατακλείδι, στο 4 ο και τελευταίο μέρος της εργασίας, θα παρουσιάσουμε μια πρακτική εφαρμογή αφενός της Απλής Ανάλυσης Αντιστοιχιών και αφετέρου της Πολλαπλής Ανάλυσης Αντιστοιχιών, πάλι με τη βοήθεια των πακέτων SPSS & MINITAB, σε δεδομένα που προέρχονται από μια πρόσφατη διεξαγωγή Έρευνας Αγοράς. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 15

16 1ο Μέρος: Απλή Ανάλυση Αντιστοιχιών- Simple Correspondence Analysis - Κεφάλαιο 1: Εισαγωγή Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) είναι μια δημοφιλής περιγραφική/ «διερευνητική» (exploratory) στατιστική τεχνική ανάλυσης δεδομένων, κατάλληλη για πολυμεταβλητά κατηγορικά δεδομένα και τη γραφική απεικόνιση των πινάκων συνάφειας (contingency tables). Η μέθοδος αυτή έχει ιδιαίτερη απήχηση και τυγχάνει μεγάλης εφαρμογής στις κοινωνικές επιστήμες. Η ιστορία της ξεκινά περίπου πριν 50 χρόνια μέσω μιας ποικιλίας από διαφορετικές ονομασίες, αν και κάποιος μπορεί να ισχυριστεί ότι προέρχεται από την έρευνα του Fisher πάνω στους πίνακες συνάφειας το 1940, της οποίας το περιεχόμενο της πρώτης παρουσίασης της ήταν αυστηρά κλασσική συμπερασματική στατιστική. Η δημοτικότητα της οφείλεται στην ανάπτυξη και τη χρήση της σε πολλές ευρωπαϊκές χώρες, κυρίως στη Γαλλία μέσα από τις ενδελεχείς προσπάθειες του Benzecri, που είχαν ως αποτέλεσμα να δοθεί έμφαση στις αλγεβρικές και γεωμετρικές ιδιότητες της μεθόδου, ενώ η εφαρμογή της έχει διαδοθεί και σε «αγγλόφωνα» έθνη όπως οι Η.Π.Α. και το Ηνωμένο Βασίλειο. Η ολοένα αυξανόμενη απήχηση της ανάμεσα στους στατιστικούς και πολύ πρόσφατα σε επιστημονικούς κλάδους, όπου η στατιστική δεν έχει και τόσο «κυρίαρχη» θέση, μαρτυρά τη σημασία και την αξία της συνεχιζόμενης έρευνας και ανάπτυξης της συγκεκριμένης μεθοδολογίας της Ανάλυση Αντιστοιχιών. Επίσης όλο και περισσότερα πακέτα λογισμικού περιλαμβάνουν τα μέσα για την ευκολότερη εφαρμογή της μεθόδου. H Ανάλυση Αντιστοιχιών (Correspondence Analysis) έχει ως βασικότερο σκοπό τη μετατροπή ενός πίνακα δεδομένων, που πολύ συχνά πρόκειται για πίνακα συχνοτήτων, σε μια γραφική απεικόνιση με απώτερο στόχο να «αποκαλυφθούν» οι συσχετίσεις μεταξύ των κελιών του αρχικού πίνακα και ιδιαίτερα ανάμεσα στα βασικά χαρακτηριστικά του πίνακα. Επιπλέον, δίνει τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 16

17 δυνατότητα στον ερευνητή να κατασκευάσει ένα διάγραμμα (δημιουργώντας τις συντεταγμένες που θα αναπαριστούν τα επίπεδα- κατηγορίες των υπαρχουσών μεταβλητών), το οποίο θα παρουσιάζει την αλληλεπίδραση μεταξύ των κατηγορικών μεταβλητών και τη σχέση συνάμα που θα συνδέει τις γραμμές του πίνακα μεταξύ τους όπως και τις στήλες μεταξύ τους, θα επιτρέπει όμως παράλληλα και την οπτική εξέταση κάθε μορφής ή δομής στα δεδομένα. Η Ανάλυση Αντιστοιχιών ταξινομεί τόσο τις γραμμές όσο και τις στήλες ενός ορθογώνιου πίνακα δεδομένων (rectangular data matrix) στις αντίστοιχες μονάδες, έτσι ώστε να είναι δυνατόν να απεικονιστούν γραφικά στον ίδιο χώρο μικρής διάστασης. Για κάθε μεταβλητή, οι «αποστάσεις» μεταξύ των σημείων των επιπέδων της σε ένα διάγραμμα αντικατοπτρίζουν τις σχέσεις μεταξύ των επιπέδων με παρόμοια επίπεδα που απεικονίζονται πολύ κοντά το ένα με το άλλο. Προβάλλοντας σημεία για μια μεταβλητή στο διάνυσμα από την αρχή των αξόνων σε ένα σημείο κατηγορίας- επιπέδου της άλλης μεταβλητής, περιγράφουμε τη σχέση μεταξύ των μεταβλητών. Η μέθοδος αυτή έχει, ως επί το πλείστον, περιγραφικό και όχι επαγωγικό χαρακτήρα καθώς προσφέρει την ευχέρεια στον ερευνητή να δημιουργήσει μια αποτελεσματική απεικόνιση ενός μεγάλου πίνακα συχνοτήτων. Συνήθως, η μελέτη, μεγάλων σε όγκο, πινάκων συχνοτήτων δεν είναι μια εύκολη υπόθεση και για αυτό το λόγο μέσω της γραφικής απεικόνισης τέτοιων πινάκων είμαστε σε θέση να εξάγουμε περισσότερη πληροφορία. Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) θα πρέπει να θεωρηθεί ως ένα εξαιρετικά χρήσιμο συμπλήρωμα, παρά ως ένα υποκατάστατο για την περισσότερο τυπική συμπερασματική ανάλυση, όπως είναι τα log- linear και τα logistic models (λογιστικά μοντέλα), τα οποία βρίσκουν εφαρμογή σε κατηγορικά δεδομένα. Ακόμα πολλοί έχουν την πεποίθηση ότι είναι ένα εργαλείο για την εύρεση της καλύτερης ταυτόχρονης απεικόνισης δύο συνόλων δεδομένων που αποτελούν τις γραμμές και τις στήλες ενός πίνακα δεδομένων. Ο σκοπός χρήσης της Ανάλυσης Αντιστοιχιών συνοψίζεται πολύ ωραία στο παρακάτω χωρίο από τον Greenacre (1992): An important aspect of Correspondence Analysis which distinguishes it from more conventional statistical methods is that it is not a confirmatory technique, trying to prove a hypothesis, but rather an exploratory technique, trying to reveal the data Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 17

18 content. One can say that it serves as a window onto the data, allowing researchers easier access to their numerical results and facilitating discussion of the data and possibly generating hypotheses which can be formally tested at a later stage. Σε ελεύθερη μετάφραση: «Μια ενδιαφέρουσα άποψη της Ανάλυσης Αντιστοιχιών, η οποία την ξεχωρίζει από τις υπόλοιπες συμβατικές στατιστικές μεθόδους, είναι το γεγονός ότι δεν είναι μια επαληθευτική τεχνική που προσπαθεί να αποδείξει μια υπόθεση, αλλά μάλλον μια διερευνητική τεχνική που έχει ως στόχο να φανερώσει το περιεχόμενο των δεδομένων. Κάποιος μπορεί να ισχυριστεί ότι χρησιμεύει σαν ένα παράθυρο πάνω στα δεδομένα, που επιτρέπει στους ερευνητές ευκολότερη πρόσβαση στα αριθμητικά τους αποτελέσματα και διευκολύνει τη μελέτη των δεδομένων και είναι πιθανό να παράγει υποθέσεις που μπορούν τυπικά να ελεγχθούν σε μεταγενέστερο στάδιο». Ένα μειονέκτημα της μεθόδου είναι το γεγονός ότι δε χρησιμοποιείται για να γενικεύσουμε τα εξαγόμενα αποτελέσματα στον υπό μελέτη πληθυσμό. Με άλλα λόγια δεν έχει επαγωγικό χαρακτήρα η Ανάλυση Αντιστοιχιών όπως αναφέραμε προηγουμένως και έτσι δεν κάνουμε στατιστική συμπερασματολογία όπως συμβαίνει με άλλες μεθόδους στατιστικής ανάλυσης. Μαθηματικά, η Ανάλυση Αντιστοιχιών μπορεί να θεωρηθεί: Ως μια μέθοδος που αναλύει το X 2 chi-square στατιστικό για ένα πίνακα συνάφειας σε συνιστώσες που αντιστοιχούν σε διαφορετικές διαστάσεις της ετερογένειας μεταξύ των γραμμών και των στηλών του πίνακα (παρόμοια διαδικασία υλοποιεί η Ανάλυση σε Κύριες Συνιστώσες- Principal Components Analysis σε συνεχή πολυμεταβλητά δεδομένα) ή ως μια μέθοδος που ταυτόχρονα αντιστοιχεί μια κλίμακα στις γραμμές και μια διαφορετική κλίμακα στις στήλες, έτσι ώστε να μεγιστοποιήσει τη συσχέτιση ανάμεσα στο ζευγάρι των μεταβλητών που προκύπτουν. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 18

19 Η Ανάλυση Αντιστοιχιών δίνει τη δυνατότητα στον ερευνητή να αναλύσει δισδιάστατους ή μεγαλύτερης διάστασης πίνακες, με την προϋπόθεση ότι υφίσταται κάποιο μέτρο αντιστοιχίας μεταξύ των γραμμών και των στηλών τους. Κλασικά παραδείγματα πινάκων στους οποίους μπορεί να γίνει εφαρμογή της Ανάλυσης Αντιστοιχιών είναι οι πίνακες συχνοτήτων καθώς και οι πίνακες συνάφειας απόλυτων ή σχετικών συχνοτήτων. Η Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) υλοποιείται σε πίνακες δύο διαστάσεων. Η Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis- MCA) υλοποιείται σε πίνακες άνω των δύο διαστάσεων. Ο όρος «Απλή Ανάλυση Αντιστοιχιών» δεν αντικατοπτρίζει την ευκολία της εκτέλεσης ή ερμηνείας της ανάλυσης. Αντιθέτως, αναφέρεται στην εφαρμογή της στο πιο στοιχειώδες ή απλό σύνολο δεδομένων, όπως έναν πίνακα συνάφειας διπλής εισόδου σε αντίθεση με την Πολλαπλή Ανάλυση Αντιστοιχιών που υλοποιείται σε περισσότερες από δύο κατηγορικές μεταβλητές. Ο όρος «κλασική» έχει ακόμα χρησιμοποιηθεί για να περιγράψει την αυθεντική γραφική μεθοδολογία που αναπτύχθηκε αφότου υπάρχουν προσαρμογές στην κλασική προσέγγιση που μπορεί να υλοποιηθεί. Στο σημείο αυτό πρέπει να τονίσουμε πως η Πολλαπλή Ανάλυση Αντιστοιχιών δε μπορεί να θεωρηθεί ως μια γενίκευση της Απλής Ανάλυσης Αντιστοιχιών σε ένα πολυμεταβλητό χώρο, παρά το γεγονός ότι στηρίζεται και αυτή στην ίδια λογική. Αν δηλαδή για παράδειγμα εφαρμόσουμε την Πολλαπλή Ανάλυση Αντιστοιχιών σε δύο μεταβλητές τότε τα αποτελέσματα που θα εξαχθούν από αυτήν δεν θα ταυτίζονται με αυτά που θα προκύψουν από την υλοποίηση της Απλής Ανάλυσης Αντιστοιχιών. Επιπροσθέτως, πρέπει να επισημάνουμε την ομοιότητα της Ανάλυσης Αντιστοιχιών τόσο με την Παραγοντική Ανάλυση (Factor Analysis) όσο και με την Ανάλυση σε Κύριες Συνιστώσες (Principal Components Analysis), καθώς τα αποτελέσματα που μπορούν να προκύψουν από την εφαρμογή της Ανάλυσης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 19

20 Αντιστοιχιών (Correspondence Analysis) παρέχουν πληροφορίες που είναι ανάλογες με τις προκύπτουσες πληροφορίες από την εφαρμογή των άλλων δύο μεθόδων, συν το γεγονός ότι η Ανάλυση Αντιστοιχιών επιτρέπει τη διερεύνηση της δομής των κατηγορικών μεταβλητών του υπό μελέτη πίνακα. Για τους παραπάνω λόγους η Ανάλυση Αντιστοιχιών θεωρείται ως η αντίστοιχη μέθοδος της Ανάλυσης Κυρίων Συνιστωσών στην περίπτωση κατηγορικών δεδομένων. Παράλληλα, η Παραγοντική Ανάλυση είναι μια δεδομένη τεχνική για να περιγράψουμε τις σχέσεις μεταξύ μεταβλητών σε ένα χώρο μικρής διάστασης. Όμως η συγκεκριμένη μέθοδος απαιτεί δεδομένα κλίμακας διαστήματος και επιπλέον το πλήθος των παρατηρήσεων θα πρέπει να τουλάχιστον πενταπλάσιο από το πλήθος των μεταβλητών. Η Ανάλυση Αντιστοιχιών αντιθέτως, υποθέτει ονομαστικές μεταβλητές και μπορεί να περιγράψει τις σχέσεις ανάμεσα στις κατηγορίες της κάθε μεταβλητής, όπως επίσης και τη σχέση μεταξύ των μεταβλητών. Ταυτόχρονα, η Ανάλυση Αντιστοιχιών μπορεί να χρησιμοποιηθεί για να αναλύσει οποιοδήποτε πίνακα που διαθέτει θετικά μέτρα αντιστοιχίας. Αν ακόμα οι μεταβλητές ταξινομούνται με βάση διατεταγμένη κλίμακα (ordinal scale) τότε μπορούμε να χρησιμοποιήσουμε την Κατηγορική Ανάλυση σε Κύριες Συνιστώσες (Categorical Principal Components Analysis). Η μέθοδος της Ανάλυσης Αντιστοιχιών χαρακτηρίζεται από ελάχιστο αριθμό υποθέσεων, διότι ο ερευνητής που υλοποιεί τη μέθοδο δεν υποθέτει κάποιο συγκεκριμένο μοντέλο, απλά προσπαθεί να προσδιορίσει τις δομές που «κρύβονται» πίσω από τα δεδομένα με τη βοήθεια της γραφικής απεικόνισης αυτών των δεδομένων. Για αυτό το λόγο, όπως ήδη αναφέραμε, δεν μπορούμε να γενικεύσουμε τα όποια αποτελέσματα προκύψουν στον υπό μελέτη πληθυσμό και να προχωρήσουμε σε στατιστική συμπερασματολογία, γιατί το θεωρητικό υπόβαθρο της Ανάλυσης Αντιστοιχιών είναι «φτωχό» και στερείται ενός σαφώς ορισμένου στατιστικού μοντέλου. Τα βασικά σημεία της Ανάλυσης Αντιστοιχιών συνοψίζονται ως εξής: Κάθε γραμμή και στήλη ενός πίνακα δεδομένων (ή ενός πίνακα συνάφειας) αναπαριστάται με ένα σημείο σε ένα πολυδιάστατο χώρο αν και ο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 20

21 ανθρώπινος νους δεν είναι εύκολο να πραγματοποιήσει απεικονίσεις πολυδιάστατων χώρων. Αυτά τα σημεία είναι στην πραγματικότητα οι προβολές των γραμμών και των στηλών του πίνακα πάνω σε ένα δισδιάστατο Ευκλείδιο χώρο. Συμπερασματικά, για να αντιμετωπίσουμε την παραπάνω αδυναμία καταφεύγουμε στη μείωση του προβλήματος με την μετατροπή του πολυδιάστατου χώρου σε ένα χώρο μικρότερων διαστάσεων. Ακολούθως, βασική επιδίωξη είναι πώς μπορεί να επιτευχθεί η αναπαράσταση των γραμμών και των στηλών με βέλτιστο τρόπο σε χώρο μικρότερων διαστάσεων, με απώτερο σκοπό να γίνει ουσιαστικότερη η πληροφορία που θα λαμβάνουμε από τη μείωση αυτή των διαστάσεων. Επιθυμία μας είναι να διατηρήσουμε, όσο είναι δυνατόν, τη σχέση ανάμεσα στις γραμμές (ή στις στήλες) στο χώρο των δύο διαστάσεων. Τα προσδοκώμενα αποτελέσματα από την εφαρμογή της Ανάλυσης Αντιστοιχιών είναι τα ακόλουθα: Κατά κύριο λόγο περιμένουμε να «φανερωθούν» οι συσχετισμοί μεταξύ των γραμμών και των στηλών των δεδομένων. Σε μια γραφική απεικόνιση της μεθόδου όταν υπάρχουν σημεία που γειτονεύουν τότε αυτό σημαίνει πως υπάρχει συσχέτιση και ανάμεσα στις αρχικές γραμμές και στις στήλες. Κατά δεύτερο λόγο, άλλο ένα αποτέλεσμα που αναμένουμε είναι ο εντοπισμός της ύπαρξης κάποιου είδους διάταξης ανάμεσα στις γραμμές και στις στήλες, δηλαδή αν υφίσταται φυσική διάταξη ή κάποια επικάλυψη μεταξύ των κατηγοριών των δεδομένων. Συνήθως η ύπαρξη της φυσικής κατάταξης των κατηγοριών επαληθεύεται από την Ανάλυση Αντιστοιχιών ενώ υπάρχουν και περιπτώσεις όπου οι κατηγορίες ανήκουν σε ονομαστική κλίμακα και επομένως δεν υφίσταται εκ των προτέρων διάταξη των κατηγοριών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 21

22 Τρίτον, ο έλεγχος ανεξαρτησίας μεταξύ γραμμών και στηλών. Η Ανάλυση Αντιστοιχιών επιτρέπει τη γραφική απεικόνιση και χρήση του ευρέως διαδεδομένου ελέγχου ανεξαρτησίας Chi-Square X 2 που εξετάζει το κατά πόσο υπάρχει εξάρτηση ή ανεξαρτησία ανάμεσα στις γραμμές και στις στήλες του πίνακα δεδομένων. Εναλλακτικά θα μπορούσαμε να χρησιμοποιήσουμε και ένα log-linear model για την διερεύνηση του ελέγχου ανεξαρτησίας μεταξύ δύο κατηγορικών μεταβλητών. Τόσο ο έλεγχος ανεξαρτησίας X 2 όσο και το log-linear model αντιπροσωπεύουν μια ασυμπτωτική προσέγγιση. Εάν ένας πίνακας συνάφειας έχει συχνότητες κελιών που είναι μικρές ή μηδενικές τότε η X 2 προσέγγιση κρίνεται ως μη ικανοποιητική. Σε αυτήν την περίπτωση, ορισμένες κατηγορίες μπορούν να συνδυαστούν για να αυξηθούν οι συχνότητες των κελιών όπου υπάρχει πρόβλημα. Η Ανάλυση Αντιστοιχιών μπορεί να φανεί χρήσιμη στον προσδιορισμό των κατηγοριών που εμφανίζουν αντιστοιχία, τις οποίες για αυτό το λόγο θα θέλουμε να συνδυάσουμε. Τέλος, ένα όφελος που μπορούμε να αποκομίσουμε από την Ανάλυση Αντιστοιχιών είναι η δημιουργία καινούριων μεταβλητών, στις οποίες συνοψίζεται ένα σημαντικό μέρος της αρχικής πληροφόρησης. Εδώ να επισημάνουμε πως οι μεταβλητές που προκύπτουν είναι ανάλογες με τις προκύπτουσες μεταβλητές από την εφαρμογή της μεθόδου της Ανάλυσης σε Κύριες Συνιστώσες και μπορούν να χρησιμοποιηθούν σε μετέπειτα στατιστικές αναλύσεις. Επομένως, το συμπέρασμα είναι ότι ενώ αρχικά έχουμε στη διάθεσή μας κατηγορικές (ποιοτικές) μεταβλητές, ολοκληρώνουμε την υλοποίηση της μεθόδου με μερικές συνεχείς ποσοτικές μεταβλητές. Η παραπάνω δυνατότητα της μετατροπής των αρχικών κατηγορικών μεταβλητών σε συνεχείς που μας προσφέρει η Ανάλυση Αντιστοιχιών είναι ιδιαίτερα χρήσιμη και σημαντική καθώς ένα μεγάλο μέρος των στατιστικών τεχνικών απαιτούν για την εφαρμογή τους συνεχή δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 22

23 Παράλληλα παρατηρούμε ότι η Ανάλυση Αντιστοιχιών είναι πιο χρήσιμη στην περίπτωση μεγάλων πινάκων παρά μικρών και αυτό διότι όταν εξετάζουμε μεγάλους σε όγκο πίνακες, είναι συνήθως δυσδιάκριτες οι ενδιαφέρουσες συσχετίσεις ανάμεσα στις διάφορες κατηγορίες των μεταβλητών και συνεπώς απαιτείται πολύς χρόνος και ειδικές ικανότητες όπως και εμπειρία για να εντοπιστούν αυτές οι συσχετίσεις. Στην περίπτωση μικρών πινάκων, κανονικά δεν είναι ιδιαίτερα δύσκολο να εξεταστούν και να εντοπιστούν οι συσχετίσεις που παρουσιάζουν αυξημένο ενδιαφέρον. Οπότε η γραφική απεικόνιση ενός πίνακα που επιτυγχάνεται μέσω της Ανάλυσης Αντιστοιχιών έχει ως αποτέλεσμα την «αποκάλυψη» αξιοσημείωτων σχέσεων μεταξύ των μεταβλητών, που υπό κανονικές συνθήκες θα ήταν σχεδόν αδύνατο να εντοπισθούν εξετάζοντας με απλό τρόπο τα αριθμητικά δεδομένα ενός πίνακα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 23

24 - Κεφάλαιο 2: Ιστορική Αναδρομή Είναι γεγονός ότι τα τελευταία χρόνια η Ανάλυση Αντιστοιχιών περιλαμβάνεται στα περισσότερα στατιστικά πακέτα που διατίθενται στο ευρύ κοινό και ως εκ τούτου έχει αυξηθεί και το πλήθος των εφαρμογών της συγκεκριμένης στατιστικής μεθόδου. Κατόπιν τούτου η Ανάλυση Αντιστοιχιών έχει ευεργετικά αποτελέσματα στους επιστημονικούς τομείς των κοινωνικών επιστημών, της μηχανολογίας, των επιστημών υγείας, της φαρμακευτικής, της αρχαιολογίας, της οικολογίας, της ανάπτυξης λογισμικού φυσικά και τέλος της έρευνας αγοράς. Τα θεωρητικά ζητήματα που συνδέονται με την Ανάλυση Αντιστοιχιών χρονολογούνται στις αρχές του 20 ου αιώνα και τα θεμέλια της είναι αλγεβρικά παρά γεωμετρικά. Μολαταύτα, η αρχική αλγεβρική προέλευση της Ανάλυσης Αντιστοιχιών συχνά αποδίδεται στον Hirschfeld (1935) που ανέπτυξε μια διατύπωση της συσχέτισης μεταξύ των γραμμών και των στηλών ενός πίνακα συνάφειας διπλής εισόδου. Πρωτοπόρος πάνω στον τομέα της Ανάλυσης Αντιστοιχιών θεωρείται ο Γάλλος στατιστικός Jean- Paul Benzecri που γεννήθηκε το 1932 και ήταν καθηγητής στο πανεπιστήμιο Universite Pierre-et-Marie-Curie στο Παρίσι. Η μέθοδος της Ανάλυσης Αντιστοιχιών έκανε για πρώτη φορά την εμφάνισή της χάρη στον Benzecri και τους συνεργάτες του τη δεκαετία του 1960 στη Γαλλία, όπου απέκτησε μεγάλη δημοτικότητα, ιδιαίτερα μεταξύ των κοινωνικών επιστημόνων, καθώς οι πρώτες εφαρμογές που υλοποιήθηκαν από τον Benzecri και την επιστημονική του ομάδα ήταν στα Γαλλικά. Η χρήση της γαλλικής γλώσσας είχε αρχικά ως συνέπεια να μην τύχει ιδιαίτερης αποδοχής από τους αγγλόφωνους επιστήμονες. Στο σημείο αυτό πρέπει να σημειώσουμε ότι στο παρελθόν είχαν αναπτυχθεί από άλλους επιστήμονες παραπλήσιες μέθοδοι 1 με αρκετή ενδεχομένως επικάλυψη, όμως επ ουδενί δεν είχαν γίνει τόσο δημοφιλείς όσο η Ανάλυση Αντιστοιχιών και η διατύπωσή της από τον Benzecri. 1 Optimal Scaling, Reciprocal Averaging, Optimal Scoring, Quantification Method, Homogeneity Analysis Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 24

25 Όλες οι προηγούμενες προσπάθειες είχαν ως κύριο στόχο την κλιμακοποίηση (scaling) των κατηγοριών ενός πίνακα συνάφειας. Όμως μια πιο πολύπλοκη προσέγγιση, που να πραγματεύεται πίνακες συνάφειας πολλαπλής εισόδου, δεν είχε συζητηθεί μέχρι το 1941, όταν ο ψυχομετρητής Louis Guttman έθεσε επί τάπητος τη μέθοδό του, που ονομάστηκε Διπλή ή Βέλτιστη Κλιμακοποίηση (Dual or Optimal Scaling) και η οποία αναφέρεται τώρα ως το θεμέλιο της Πολλαπλής Ανάλυσης Αντιστοιχιών. Μεταγενέστερες εφαρμογές της Πολλαπλής Ανάλυσης Αντιστοιχιών υλοποιήθηκαν με τη χρήση του πίνακα Burt του Burt (1950). Συγχρόνως αναπτύχθηκαν ορισμένες διαδικασίες που βασίζονταν σε στατιστικά μοντέλα με αποτέλεσμα να υπάρχει μεγάλη ομοιότητα με την Ανάλυση Αντιστοιχιών. Η μη αποδοχή της Ανάλυσης Αντιστοιχιών από τους αγγλόφωνους επιστήμονες διαφοροποιήθηκε περίπου στα μέσα της δεκαετίας του 1980, όπου έκαναν την εμφάνιση τους τα πρώτα βιβλία στην αγγλική γλώσσα, όπως για παράδειγμα το «Theory and applications of Correspondence Analysis» του Greenacre το Από τότε η μέθοδος απέκτησε άλλη δυναμική και έγινε διαθέσιμη και προσιτή στο κοινό. Με την πάροδο του χρόνου και την εισαγωγή της Ανάλυσης Αντιστοιχιών σε δημοφιλή στατιστικά πακέτα σε όλο τον κόσμο πραγματοποιήθηκε μια ευρεία αποδοχή της μεθόδου ως ένα πολύ χρήσιμο εργαλείο για την περιγραφή κατηγορικών δεδομένων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 25

26 - Κεφάλαιο 3: Βασικές Έννοιες Προτού δούμε τις τεχνικές λεπτομέρειες της Ανάλυσης Αντιστοιχιών θα αναφερθούμε σε ορισμένες βασικές έννοιες που είναι απαραίτητες για την υλοποίηση της μεθόδου. 3.1: Πίνακας Συνάφειας (Contingency Table) Πολλές φορές τα δεδομένα που έχουμε στη διάθεσή μας αποτελούν καταμετρήσεις αριθμών με ορισμένα χαρακτηριστικά, ταξινομημένα σε πίνακες μιας, δύο, τριών ή και παραπάνω διαστάσεων. Αυτοί οι πίνακες είναι γνωστοί ως πίνακες συνάφειας μιας, δύο, τριών ή περισσοτέρων διαστάσεων (one-, two-, three- or multiway contingency tables). Κάθε μια διάσταση αντιστοιχεί σε μια ταξινόμηση κατηγοριών που υποδηλώνουν συγκεκριμένο χαρακτηριστικό. Ο Fienberg (1982) επισημαίνει ότι ο όρος «συνάφεια- contingency» φαίνεται να έχει χρησιμοποιηθεί από τον Karl Pearson (1904), ο οποίος τον εισήγαγε για να περιγράψει το μέτρο της απόκλισης από την απόλυτη ανεξαρτησία μεταξύ των γραμμών και των στηλών μιας τέτοιας δομής δεδομένων. Πιο πρόσφατα, γίνεται χρήση του όρου αυτού και για τις τιμές και τις περιθώριες συχνότητες του πίνακα συνάφειας και έτσι ως αποτέλεσμα ένας πίνακας συνάφειας περιέχει πληροφορία που είναι διακριτής ή κατηγορικής φύσεως. Ένα από τα πρώτα παραδείγματα που χρησιμοποιήθηκαν για να διερευνήσουν την εφαρμογή της μέτρησης συσχετίσεων σε πίνακες συνάφειας ήταν αυτό του Fisher (1940). Αποτελείται από την διασταύρωση- ταξινόμηση (cross-classification) 5387 παιδιών από το Caithness της Σκωτίας, με βάση το χρώμα των ματιών και των μαλλιών τους. Ο Fisher ενδιαφερόταν στο να εξακριβώσει το πώς συνδέονται αυτές οι δύο μεταβλητές. Ο Goodman (1981) επίσης έλαβε υπόψη του αυτό το παράδειγμα στην έρευνα του για τις συσχετίσεις των πινάκων συνάφειας, όπου οι μεταβλητές αποτελούνται από διατεταγμένες απαντήσεις. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 26

27 Με βάση τα παραπάνω λεχθέντα, ένας a b πίνακας συνάφειας αποτελεί μια παράθεση φυσικών αριθμών ή αλλιώς είναι ένας πίνακας διπλής εισόδου 2 που έχει ως στοιχεία του τη συχνότητα εμφάνισης ενός αντικειμένου ή χαρακτηριστικού που αντιστοιχεί στη γραμμή και τη στήλη του κελιού. Έτσι ένας πίνακας συνάφειας, στη γενική θεωρητική του μορφή, απεικονίζεται με ένα πίνακα που έχει a γραμμές και b στήλες, με στοιχεία x ij που είναι η συχνότητα (παρατηρούμενος αριθμός αντικειμένων) της i γραμμής και της j στήλης του πίνακα, i= 1, 2,.., a και j=1, 2,.., b. Μετά την υλοποίηση της Ανάλυσης Αντιστοιχιών στον πίνακα συνάφειας θα προκύψουν δύο σύνολα τιμών συντεταγμένων, ένα σύνολο από a συντεταγμένες που αντιστοιχούν στις γραμμές και ένα σύνολο από b συντεταγμένες που αντιστοιχούν στις στήλες. Επιπλέον πρέπει να αναφέρουμε πως σε αρκετές περιπτώσεις ο πίνακας συνάφειας είναι πιθανόν να περιέχει τις σχετικές συχνότητες και όχι τις απόλυτες συχνότητες. Η Ανάλυση Αντιστοιχιών διαθέτει τη δυνατότητα να επεξεργάζεται πίνακες συνάφειας σχετικών συχνοτήτων, όμως στην περίπτωση αυτή δε θα λαμβάνεται υπόψη στην ανάλυση το μέγεθος του δείγματος καθότι δε θα είναι γνωστό. Πάντως η χρήση σχετικών συχνοτήτων είναι γενικά καλύτερη από την άποψη ότι επιτρέπει την απευθείας σύγκριση πινάκων χωρίς να εξαρτόμαστε από το μέγεθος του δείγματος. Η μορφή ενός πίνακα συνάφειας μαζί με τους απαραίτητους συμβολισμούς που θα χρησιμοποιήσουμε στη συνέχεια είναι η εξής: 2 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 27

28 Στήλη 1 Στήλη 2.. Στήλη b Σύνολο Γραμμής Γραμμή 1 x 11 x 12. x 1b x 1. Γραμμή 2 x 21 x 22. x 2b x Γραμμή a x a1 x a2. x ab x a. Σύνολο Στήλης x. 1 x. 2. x. b μέγεθος Συνολικό δείγματος n Πίνακας 1. Πίνακας Συνάφειας με a γραμμές και b στήλες Πίνακες συνάφειας της παραπάνω μορφής πολύ συχνά χρησιμοποιούνται σε εφαρμογές συσχετιζόμενες με παρουσιάσεις δεδομένων που περιέχονται σε a δείγματα (γραμμές), των οποίων τα στοιχεία αναπαριστάνουν μετρήσεις σε ονομαστική κλίμακα τουλάχιστον, για τον έλεγχο της υπόθεσης ότι οι πιθανότητες με τις οποίες ένα τυχαία επιλεγόμενο αντικείμενο- χαρακτηριστικό θα ανήκει στις κατηγορίες 1, 2,., b (στήλες), δε διαφέρουν από δείγμα σε δείγμα. Υπάρχει και άλλη μια χρήση του a b πίνακα συνάφειας όπου έχουμε ένα μοναδικό δείγμα, του οποίου κάθε στοιχείο μπορεί να ταξινομηθεί σε μία από a διαφορετικές κατηγορίες σύμφωνα με ένα κριτήριο και ταυτόχρονα σε μία από b διαφορετικές κατηγορίες σύμφωνα με ένα άλλο κριτήριο. Στην προκειμένη περίπτωση, αυτό που μας ενδιαφέρει είναι ο έλεγχος της υπόθεσης, ότι οι κατηγορίες του ενός κριτηρίου δεν επηρεάζουν σημαντικά τις αναλογίες των αντικειμένωνχαρακτηριστικών σε κάθε μία από τις κατηγορίες του άλλου κριτηρίου. Στην ειδική περίπτωση όπου a=b=2, μια κατάλληλη στατιστική τεχνική για τον έλεγχο της προηγούμενης υπόθεσης του πίνακα συνάφειας είναι ο έλεγχος McNemar, που είναι ένας έλεγχος για τη σημαντικότητα της αλλαγής μιας κατάστασης. Ο συγκεκριμένος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 28

29 έλεγχος εφαρμόζεται όταν τα δεδομένα είναι ομαδοποιημένα σε «Πριν» και «Μετά» και επιδιώκουμε να ελέγξουμε αν υπάρχει αλλαγή στη συμπεριφορά των ατόμων. Οι όροι κριτήριο και χαρακτηριστικό που αναφέραμε προηγουμένως, χρησιμοποιούνται με την ευρεία έννοια τους και συγχρόνως μπορούν να προσδιορίζουν καταστάσεις στις οποίες βρίσκονται τα αντικείμενα ενός δείγματος πριν και μετά από μια αγωγή (treatment). Τότε, η μηδενική υπόθεση που ελέγχεται είναι ότι η αγωγή δεν επηρεάζει σημαντικά τις αναλογίες των αντικειμένων στις κατηγορίες των δύο καταστάσεων. Εναλλακτικά μπορεί να επιτευχθεί ο έλεγχος της ίδιας υπόθεσης μέσω της χρήσης ανεξάρτητων τυχαίων δειγμάτων που προέρχονται από τον υπό εξέταση πληθυσμό πριν και μετά την αγωγή και ακολουθεί η σύγκριση αυτών των δειγμάτων. Υπάρχει όμως μια «ανεπιθύμητη» εξέλιξη, καθώς η πρόσθετη μεταβλητότητα που εισάγεται από τη χρησιμοποίηση των δύο διαφορετικών δειγμάτων έχει την τάση να «προκαλεί σύγχυση» όσον αφορά τις μεταβολές που προκαλούνται στον πληθυσμό από τη χρησιμοποιούμενη αγωγή. Βέβαια σε πρακτικό επίπεδο υπάρχουν περιπτώσεις στις οποίες δεν είναι εφικτό να χρησιμοποιηθεί το ίδιο δείγμα δύο φορές. 3.2: Προφίλ (Profiles) Πριν προχωρήσουμε στον ορισμό των Προφίλ θα χρησιμοποιήσουμε τους εξής συμβολισμούς: x i. γραμμή b x j1 ij είναι ο συνολικός αριθμός των παρατηρήσεων που ανήκουν στην i x στήλη. j a x i1 ij είναι ο συνολικός αριθμός των παρατηρήσεων που ανήκουν στην j Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 29

30 n xij είναι ο συνολικός αριθμός των παρατηρήσεων του δείγματος i, j Έχοντας στη διάθεσή μας ένα δεδομένο πίνακα συνάφειας απόλυτων συχνοτήτων, μπορούμε να κατασκευάσουμε δύο νέους πίνακες σχετικών συχνοτήτων, έναν για τις γραμμές και έναν για τις στήλες του πίνακα. Ο πίνακαςμητρώο των σχετικών συχνοτήτων ονομάζεται Πίνακας Αντιστοιχιών (Correspondence Matrix) και έστω P ο συμβολισμός του. Η γενική μορφή του Πίνακα Αντιστοιχιών είναι η ακόλουθη: Columns 1 2 b Row Total 1 f 11 f 12 f 1b f 1. Rows 2 f 21 f 22 f 2b f 2. a f a1 f a2 f ab f a. Column Total f.1 f.2 f.b 1 Πίνακας 2. Πίνακας Αντιστοιχιών (Correspondence Matrix) των Σχετικών Συχνοτήτων Άρα P= (f ij )= (x ij /n). Τα Προφίλ Γραμμών (Row Profiles) ορίζονται ως οι σχετικές συχνότητες (Relative Frequencies) ανά γραμμή f ij και υπολογίζονται από το πηλίκο των απόλυτων συχνοτήτων των κελιών x ij προς το σύνολο της γραμμής n. Το άθροισμα των προφίλ γραμμής για κάθε μια γραμμή είναι συνολικά ίσο με τη μονάδα. Ο ακόλουθος μαθηματικός τύπος συνοψίζει όλα τα παραπάνω: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 30

31 f ij x, fij 1 a b ij n i1 j1 Ομοίως ορίζουμε και τις εξής σχέσεις: b a xi. fi. fij, fi. 1 j1 n i1 a x b. j f. j fij, f. j 1 i1 n j1 Επίσης έχουμε τις ακόλουθες σχέσεις: f x ij ij και. j x. j f f f ij x ij για όλα τα i και j x i. i. Τα Προφίλ Γραμμών δίνουν τη δυνατότητα στον ερευνητή να συγκρίνει άμεσα τις γραμμές μεταξύ τους. Αν με R συμβολίσουμε τον πίνακα των Προφίλ Γραμμών αυτός θα είναι της μορφής (η διαδικασία με την οποία προκύπτουν τα παρακάτω αποτελέσματα παρουσιάζεται στο Παράρτημα- Ευρετήριο Όρων (Υποσημειώσεις) 3 ): 3 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 31

32 R r f11 f12 f f f f 1b f21 f22 f2b r 1 2 Dr P f2. f2. f 2. r a fa 1 fa2 fab fa. fa. f a. Ομοίως ο πίνακας των Προφίλ Στηλών C θα είναι ο εξής: 1a.1.2. a a 1 c 1, 2,..., b f.1 f.2 f. a C PD c c c f11 f12 f f f f f f f f f f f f f a1 a2 ab.1.2. a Η τελευταία γραμμή του πίνακα των Προφίλ Γραμμών περιέχει το προφίλ γραμμής για ολόκληρο τον πίνακα. Το συγκεκριμένο προφίλ ονομάζεται Κεντροειδές (Centroid) ή Μέσο Προφίλ Γραμμής και αν το δούμε από στατιστική άποψη ισούται με το σταθμισμένο μέσο των προφίλ γραμμής που έχουν ως σταθμίσεις το σύνολο των παρατηρήσεων κάθε γραμμής. Κάτι που γίνεται εύκολα αντιληπτό είναι πως, αν ήταν ίδιες όλες οι γραμμές θα παρουσίαζαν την ίδια ομοιότητα όλα τα προφίλ γραμμής, τόσο μεταξύ τους όσο και με το μέσο προφίλ γραμμής ή κεντροειδές. Άρα, αν χρησιμοποιήσουμε κάποιο μέτρο απόστασης μεταξύ των προφίλ γραμμής θα έχουμε την ευχέρεια να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 32

33 ποσοτικοποιήσουμε το βαθμό διαφοροποίησης μεταξύ δύο γραμμών ή μιας γραμμής και του μέσου προφίλ, μετρώντας έτσι τη διαφορά κάθε γραμμής από το μέσο προφίλ. Ομοίως με τα Προφίλ Γραμμών, τα Προφίλ Στηλών (Column Profiles) ορίζονται ως οι σχετικές συχνότητες ανά στήλη και υπολογίζονται από το πηλίκο των απόλυτων συχνοτήτων προς το σύνολο της στήλης. Το άθροισμα των προφίλ στήλης για κάθε μια στήλη συνολικά είναι ίσο με τη μονάδα. Ανάλογα με το είδος των διαθέσιμων δεδομένων, τα προφίλ στηλών μπορεί να παρουσιάζουν μικρότερο ή μεγαλύτερο ενδιαφέρον. Όσον αφορά τα Προφίλ συνοπτικά μπορούμε να σημειώσουμε τα ακόλουθα: Ειδικότερα τα Προφίλ Γραμμών και Στηλών μπορούν να θεωρηθούν ως πολυμεταβλητές παρατηρήσεις σε ένα πολυδιάστατο χώρο (τριών, τεσσάρων και παραπάνω διαστάσεων). Παράλληλα είναι δυνατόν να υπολογίσουμε την απόσταση (π.χ. Ευκλείδεια απόσταση) μεταξύ δύο γραμμών για παράδειγμα, χρησιμοποιώντας τα διανύσματα των Προφίλ Γραμμών αυτών. Γενικά με ανάλογο τρόπο μπορούμε να βρούμε τις αποστάσεις ανάμεσα σε οποιοδήποτε ζεύγος γραμμών, όπου η απόσταση μεταξύ των γραμμών i και j θα δίνεται από τον τύπο: b 2 ij ( ik jk ). k1 d x x Εδώ να τονίσουμε ότι το συγκεκριμένο μέτρο απόστασης χαρακτηρίζεται από ένα σημαντικό μειονέκτημα διότι δε λαμβάνει υπόψη τον αριθμό των παρατηρήσεων σε κάθε κελί, με αποτέλεσμα όταν υπάρχουν διαφορές σε κελιά με μικρές συχνότητες αυτές να έχουν την ίδια βαρύτητα στον τελικό υπολογισμό της απόστασης με διαφορές σε κελιά που έχουν μεγάλες συχνότητες. Μια προτεινόμενη λύση στο παραπάνω πρόβλημα είναι η στάθμιση του κάθε κελιού. Αν ο έλεγχος ανεξαρτησίας, μεταξύ των μεταβλητών που είναι υπό εξέταση, οδηγήσει στο συμπέρασμα ότι υπάρχει όντως ανεξαρτησία περιμένουμε τότε οι γραμμές του πίνακα συνάφειας να έχουν παρόμοια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 33

34 προφίλ ή ισοδύναμα οι στήλες να έχουν παρόμοια προφίλ. Μπορούμε να συγκρίνουμε τα Προφίλ Γραμμών μεταξύ τους, συγκρίνοντας κάθε προφίλ γραμμής r i με το σταθμισμένο μέσο c των Προφίλ Γραμμών. Ομοίως μπορούμε να συγκρίνουμε τα Προφίλ Στηλών. 3.3: Μάζα (Mass) Οι Μάζες (Masses) για κάθε κελί ορίζονται ως τα αντίστοιχα περιθώρια προφίλ, δηλαδή τα προφίλ του συνόλου κάθε γραμμής και στήλης αντίστοιχα. Υπολογίζονται διαιρώντας το συνολικό αριθμό συχνοτήτων για τη γραμμή (ή τη στήλη) προς το συνολικό μέγεθος του δείγματος. Εναλλακτικά, μπορούμε να πούμε ότι ο πίνακας Αντιστοιχιών P παρουσιάζει το πώς μια μονάδα Μάζας κατανέμεται κατά μήκος των κελιών. Η σημασία των μαζών θα φανεί στη συνέχεια όπου θα τις χρησιμοποιήσουμε ως συντελεστές στάθμισης για να υπολογίσουμε αποστάσεις. Θα συμβολίσουμε τη Μάζα της i γραμμής ως r i = 1, 2,, a και τη Μάζα της j στήλης ως c j = 1, 2,, b. Οπότε, με τη βοήθεια των συμβολισμών που δώσαμε προηγουμένως στον πίνακα συνάφειας, xi. θα ισχύουν οι εξής τύποι: ri, i 1,2,..., a και n x. Να n. j c j, j 1,2,..., b σημειώσουμε ότι οι μάζες των στηλών των δεδομένων ενός πίνακα συνάφειας ταυτίζονται με το Μέσο προφίλ γραμμών ή Κεντροειδές. 3.4: Μέτρα Απόστασης Με τη βοήθεια των μαζών που ορίσαμε προηγουμένως είμαστε σε θέση να υπολογίσουμε ξανά την απόσταση d i (ο δείκτης i ορίζει τη γραμμή που μελετάμε) μεταξύ δύο οποιονδήποτε γραμμών, απλά χρησιμοποιώντας τις Μάζες των στηλών σα βάρη, τα οποία είναι το αντίστροφο των Μαζών των στηλών. Το μέτρο απόστασης που προκύπτει κατά αυτόν τον τρόπο λέγεται X 2 απόσταση, διότι έχει μεγάλη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 34

35 ομοιότητα με τη γνωστή X 2 ελεγχοσυνάρτηση που χρησιμοποιείται στον έλεγχο ανεξαρτησίας μεταξύ δύο μεταβλητών 4. Οι αποστάσεις μεταξύ των διανυσμάτων ενός πίνακα συνάφειας συνοψίζουν όλη την πληροφορία για τις ομοιότητες ανάμεσα στις γραμμές και τις στήλες του πίνακα. Παράλληλα, η X 2 απόσταση διαφέρει από την Ευκλείδια απόσταση μόνο στο ότι κάθε τετράγωνο της σταθμίζεται από τον αντίστροφο κάθε συχνότητας που αντιστοιχεί σε κάθε όρο. Συγχρόνως, το μέτρο της X 2 απόστασης αντισταθμίζει τα διαφορετικά επίπεδα εμφάνισης των κατηγοριών ή πιο επίσημα η επιλογή της X 2 απόστασης για τη μέτρηση της εσωτερικής ομοιότητας των προφίλ, μπορεί να αιτιολογηθεί ως ένας τρόπος τυποποίησης μεταβλητών κάτω από την υπόθεση της Πολυωνυμικής ή της Poisson κατανομής (Greenacre, 1992). Έτσι η X 2 απόσταση μεταξύ δύο γραμμών i και i σε ένα βέλτιστο διάγραμμα αντιστοιχιών δίνεται από τον ακόλουθο τύπο, ο οποίος αποτελεί τη σταθμισμένη Ευκλείδια απόσταση μεταξύ των Προφίλ : X 2 ( i, i) b 1 fij f f f f ij j1. j i. i. 2 ενώ μεταξύ δύο στηλών j και j θα υπολογίζεται σύμφωνα με τη σχέση: X 2 ( j, j) 2 a ij. i1 i.. j. j 1 fij f f f f Επιπλέον η X 2 απόσταση μεταξύ δύο Προφίλ r i και r j θα είναι ίση με: d ( r r ) D ( r r ). 2 1 ij i j c i j Αν δύο σημεία γραμμών (ή δύο σημεία στηλών) βρίσκονται κοντά, οι δύο γραμμές (ή οι δύο στήλες) θα μπορούσαν να συνδυαστούν σε μια μόνο κατηγορία αν είναι απαραίτητο, για να βελτιωθεί η X 2 (Chi- square) προσέγγιση. 4 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 35

36 Η απόσταση μεταξύ ενός σημείου γραμμής και ενός σημείου στήλης στερείται νοήματος, η εγγύτητα όμως μεταξύ αυτών των δύο σημείων έχει νόημα και ειδικότερα συμπεραίνουμε ότι αυτές οι δύο κατηγορίες- επίπεδα των δύο αυτών μεταβλητών σημειώνονται πιο συχνά από ότι θα αναμενόταν να συμβεί αν αυτές οι δύο μεταβλητές ήταν ανεξάρτητες. Κατά συνέπεια, μπορούμε με τη βοήθεια της X 2 απόστασης να φτιάξουμε έναν πλήρη πίνακα αποστάσεων ανάμεσα σε όλα τα ζεύγη γραμμών. Η γραφική απεικόνιση της Ανάλυσης Αντιστοιχιών βασίζεται σε αυτές τις αποστάσεις έτσι ώστε το εξαγόμενο γράφημα να τις αντιπροσωπεύει κατάλληλα: γραμμές που έχουν μικρή μεταξύ τους απόσταση, μικρή δηλαδή τιμή του μέτρου απόστασης που υπολογίζουμε, θα πρέπει να βρίσκονται σε κοντινά σημεία στο γράφημα και αντίθετα γραμμές που έχουν μεγαλύτερες αποστάσεις θα πρέπει να απέχουν αρκετά. Πρέπει να σημειώσουμε ότι τα σημεία που αντιπροσωπεύουν τα επίπεδα- κατηγορίες των στηλών δίνουν μια δισδιάστατη απεικόνιση της απόστασης, με την Ευκλείδια απόσταση μεταξύ δύο σημείων να αναπαριστάνει την X 2 απόσταση ανάμεσα στα αντίστοιχα επίπεδα των στηλών. Για ένα πίνακα συνάφειας με a γραμμές και b στήλες μπορεί να αποδειχθεί ότι οι X 2 αποστάσεις μπορούν να απεικονιστούν ακριβώς σε min(a-1,b-1) διαστάσεις. Όμως, αν ταυτόχρονα ισχύει ότι a>3 & b>3 τότε μια ακριβής δισδιάστατη απεικόνιση των X 2 αποστάσεων δεν είναι δυνατή. Σε τέτοιες περιπτώσεις οι προκύπτουσες δισδιάστατες συντεταγμένες θα αποδώσουν μόνο μια προσεγγιστική αναπαράσταση και έτσι το ερώτημα της επάρκειας της προσαρμογής θα πρέπει να ληφθεί υπόψη. Σε μερικές από αυτές τις περιπτώσεις, περισσότερες από δύο διαστάσεις μπορεί να χρειαστούν για να δώσουν μια αποδεκτή προσαρμογή. Αναλόγως μπορούμε να βρούμε την απόσταση μεταξύ οποιαδήποτε γραμμής και του Μέσου προφίλ γραμμής ή Κεντροειδούς όπως είπαμε. Παρατηρούμε ότι κάθε όρος, που συμμετέχει στον υπολογισμό της απόστασης μεταξύ κάποιας γραμμής και του κεντροειδούς, είναι το τετράγωνο της διαφοράς της παρατηρούμενης σχετικής συχνότητας από την αναμενόμενη, εφόσον θεωρήσουμε ότι ο μέσος όρος είναι το αναμενόμενο, διαιρεμένο με την αναμενόμενη σχετική συχνότητα. Η Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 36

37 έκφραση του τύπου αυτού είναι παρόμοια με τον τύπο του κλασικού ελέγχου X 2 ανεξαρτησίας. Να σημειώσουμε πως οι αποστάσεις αυτές που υπολογίζονται μας πληροφορούν σχετικά με το πόσο διαφέρει μια γραμμή από το μέσο προφίλ γραμμής. Όμως πρέπει να γνωρίζουμε ότι δε μπορούμε να συγκρίνουμε απευθείας τις γραμμές μεταξύ τους, αφού πρόκειται για αποστάσεις από ένα συγκεκριμένο σημείο και άρα η πληροφορία που εξάγεται από την εύρεση της συγκεκριμένης απόστασης είναι το πόσο κοντά στο σημείο του μέσου προφίλ γραμμής είναι τα σημεία των γραμμών. Ομοίως, την ίδια διαδικασία που ακολουθήσαμε για τις γραμμές μπορούμε να εφαρμόσουμε και για τον υπολογισμό των αποστάσεων μεταξύ των στηλών και του Μέσου προφίλ στήλης. o 3.4.1: Ιδιότητα Ισοδυναμίας κατά Κατανομή Μια πολύ ενδιαφέρουσα ιδιότητα της X 2 απόστασης είναι η «Ιδιότητα Ισοδυναμίας κατά Κατανομή» (Property of Distributional Equivalence), η οποία διατυπώθηκε από τους Lebart, Morineau & Warwick (1984) και μάλιστα αποτελεί ουσιαστικά το λόγο για τον οποίο επιλέγεται το συγκεκριμένο μέτρο απόστασης. Σύμφωνα με αυτήν την ιδιότητα, αν δύο γραμμές (ή στήλες) διαθέτουν το ίδιο προφίλ τότε μπορούμε να τις ενοποιήσουμε σε μία γραμμή (ή αντίστοιχα στήλη), που θα έχει σχετική συχνότητα το άθροισμα των δύο αρχικών γραμμών (ή στηλών), χωρίς να παρουσιάσει μεταβολή η X 2 απόσταση μεταξύ των στηλών (αντίστοιχα γραμμών). Γενικά, δεν υπάρχει απώλεια πληροφορίας όταν ενοποιούμε ορισμένες κατηγορίες- επίπεδα. Κατά αντίστροφο τρόπο, δεν αποκομίζουμε ουσιαστικό όφελος υποδιαιρώντας ομοιογενείς κατηγορίες. Η ιδιότητα αυτή μας διευκολύνει πολύ στην ανάλυση μας, αφού ένα από τα επιθυμητά αποτελέσματα είναι η μείωση των διαστάσεων του προβλήματος και είναι σημαντική διότι εξασφαλίζει τη μη αλλοίωση των εξαγόμενων ανεξάρτητα από τον τρόπο κωδικοποίησης των μεταβλητών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 37

38 Θα παρουσιάσουμε την ιδιότητα της Ισοδυναμίας κατά Κατανομή ενοποιώντας δύο γραμμές i 1 και i 2, των οποίων οι σχετικές συχνότητες f i.j ικανοποιούν τη σχέση: f f f i. i. i Εν συνεχεία, θα εκφράσουμε την X 2 απόσταση μεταξύ δύο στηλών j και j μόνο με τη χρήση δύο όρων, των T 1 και T 2, χρησιμοποιώντας παράλληλα τα i 1 και i 2 : fi 1 j fi 1 j 1 fi 2 j fi 2 j T1 T2 f i1. f. j f. j f i2. f. j f. j Μετά τη συνένωση αντικαθίστανται από το T 0 που υπολογίζεται ως εξής: T 0 f f f f f 0 1 i j i j 0 0 i.. j. j 2 Για να αποδείξουμε ότι T0 T1 T2 θα γράψουμε το T 0 ως ακολούθως: T f 0 i. 0 fi 0j f 0 f f f f i.. j i.. j 0 0 i j 2 Τα T 1 και T 2 γράφονται κατά παρόμοιο τρόπο. Οι τρεις ποσότητες είναι επομένως ισοδύναμες αφού τα προφίλ των i 0, i 1 και i 2 είναι πανομοιότυπα. 3.5: Επιλογή κριτηρίου «Καλής Προσαρμογής» Προκειμένου να υπολογίσουμε το κριτήριο Καλής Προσαρμογής, είναι φυσικό να αποδώσουμε σε κάθε σημείο ένα «βάρος» που θα είναι ανάλογο της συχνότητας του, έτσι ώστε να μην υπερ- απεικονίσουμε κατηγορίες με μικρά σύνολα και κατά συνέπεια να διασφαλίσουμε την αντιπροσώπευση της κατανομής του πραγματικού Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 38

39 πληθυσμού. Αυτό το «βάρος- στάθμιση» χρησιμοποιείται στην εύρεση των συντεταγμένων του Κεντροειδούς, όπως και στο κριτήριο Καλής Προσαρμογής. Η ποσότητα που πρέπει να μεγιστοποιηθεί είναι το άθροισμα των τετραγώνων που σταθμίζεται από αυτά τα «βάρη» : Αδράνεια (Inertia) Μια ιδιότητα του X 2 Chi-square στατιστικού του Pearson είναι ότι όσο αυξάνεται το μέγεθος του δείγματος n, τόσο αυξάνεται και ο συντελεστής συσχέτισης. Αυτή είναι μια αιτία παρεμπόδισης των ελέγχων συσχέτισης στους πίνακες συνάφειας. Για να υπερνικήσουμε το εμπόδιο αυτό, η Απλή Ανάλυση Αντιστοιχιών εισάγει την έννοια του λόγου X 2 /n που αναφέρεται στη βιβλιογραφία ως Συνολική Αδράνεια του πίνακα συνάφειας και περιγράφει το επίπεδο συσχέτισης ή εξάρτησης ανάμεσα σε δύο κατηγορικές μεταβλητές. Η συνολική διακύμανση του χώρου σε κάθε σύνολο σημείων μπορεί να ποσοτικοποιηθεί και να βοηθήσει στην ερμηνεία. Αναλύοντας τη Συνολική Αδράνεια ο ερευνητής έχει τη δυνατότητα να προσδιορίσει σημαντικές πηγές πληροφορίας που συμβάλλουν στην περιγραφή της συσχέτισης. Η χρήση ποικίλων διασπάσεων (decompositions) θα αποφέρει διαφορετικές ερμηνείες της συσχέτισης και θα οδηγήσει σε διαφορετικές γραφικές απεικονίσεις. Ο πιο κοινός τύπος διάσπασης που χρησιμοποιείται στην Ανάλυση Αντιστοιχιών, με ελάχιστες εξαιρέσεις, είναι η Διάσπαση Ιδιόμορφων Τιμών (Singular Value Decomposition) την οποία θα δούμε στη συνέχεια. Η Αδράνεια (Inertia) επομένως, που συμβολίζεται με Ι, είναι ένα συνολικό μέτρο ετερογένειας ή ανομοιογένειας των προφίλ, δείχνει δηλαδή πόσο διαφέρουν μεταξύ τους τα προφίλ, μετρώντας τις διαφορές ανάμεσα σε κάθε ζευγάρι σημείων. Εναλλακτικά μπορεί να οριστεί ως ο σταθμισμένος μέσος (με βάρη τις σχετικές συχνότητες f i ) των X 2 αποστάσεων ανάμεσα στα Προφίλ Γραμμών 1 ( ri c) Dc ( ri c) 5 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 39

40 r i και το μέσο τους c. Ο όρος αδράνεια είναι γνωστό ότι προέρχεται από τη Μηχανική 6 καθώς και άλλοι όροι, όπως για παράδειγμα οι ροπές και οι βαθμοί ελευθερίας που χρησιμοποιούνται ευρέως στη Στατιστική. Η Συνολική Αδράνεια στην Ανάλυση Αντιστοιχιών ορίζεται ως εξής: I a rd i i1 τη Συνολική Αδράνεια με τη βοήθεια του ακόλουθου τύπου : 2 i. Εναλλακτικά, μπορούμε να ορίσουμε Συνολική Αδράνεια= ( f rc ) ij i j rc i j i j 2 Καλό είναι να επισημάνουμε τα ακόλουθα σημεία: Η αδράνεια ως έννοια έχει μεγάλη ομοιότητα με την έννοια της διακύμανσης ενώ στη βιβλιογραφία συναντώνται κάποιες φορές και ως ταυτόσημες έννοιες. Καθώς αυξάνεται η τιμή της αδράνειας τόσο πιο έντονη είναι και η διαφοροποίηση που σημειώνεται μεταξύ των γραμμών. Αν υποθέσουμε ότι όλα τα Προφίλ των Γραμμών είναι ίδια, τότε η αδράνεια θα είναι ίση με το μηδέν. Η Αδράνεια και ο γνωστός έλεγχος ανεξαρτησίας X 2 συνδέονται μέσω της παρακάτω σχέσης: 2 X I f ( r c) D ( r c) f ( c r) D ( c r) n a b 1 1 i. i c i. j j r j i1 j1. Με βάση τον παραπάνω ορισμό της Αδράνειας εξάγεται το ακόλουθο συμπέρασμα: Οι γραμμές, οι οποίες έχουν μικρή μάζα επηρεάζουν την αδράνεια μόνο όταν βρίσκονται μακριά από το κέντρο (έχουν δηλαδή μεγάλη απόσταση d i ). Άρα τα σημεία που βρίσκονται αρκετά κοντά στο κέντρο θα έχουν απόσταση κοντά στο μηδέν και κατά συνέπεια η αδράνεια αυτών των σημείων θα είναι πολύ μικρή. Αξιοσημείωτο 6 «Moment of Inertia- Ροπή Αδράνειας» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 40

41 είναι το γεγονός ότι η αδράνεια δεν εξαρτάται από το μέγεθος του δείγματος σε αντίθεση με τον έλεγχο X 2 που λαμβάνει υπόψη του τη συγκεκριμένη παράμετρο. Η Αδράνεια διακρίνεται σε Συνολική (Total Inertia) και σε Σχετική (Relative Inertia). Η Σχετική Αδράνεια απεικονίζει την αναλογία της Συνολικής Αδράνειας που αντιπροσωπεύεται από το αντίστοιχο σημείο και είναι ανεξάρτητη από το πλήθος των διαστάσεων που επιλέγονται από τον ερευνητή. o 3.6.1: Αδράνεια των Σημείων Η Αδράνεια των Γραμμών και των Στηλών αντίστοιχα, υπολογίζεται σύμφωνα με τους παρακάτω τύπους: Αδράνεια (Γραμμών)= Αδράνεια (Στηλών)= i ri 1/ c j ( f ij / ri c j ) j j c j 1/ ri ( f ij / c j ri ) i Ενώ η Αδράνεια του i-οστού σημείου γραμμής είναι ίση με: 2 2 r 1/ c ( f / r c ) r h 2 2 i j ij i j i it j t Η παραπάνω εξίσωση αντιπροσωπεύει τη Συνεισφορά (Contribution) της i- οστής γραμμής στη Συνολική Αδράνεια, όπου r i είναι η μάζα αυτής της γραμμής και η ποσότητα εντός της αγκύλης είναι η X 2 απόσταση του Προφίλ Γραμμής από το κέντρο βαρύτητας (center of gravity) c στο χώρο γραμμών, την οποία συμβολίζουμε με 2 h it. Ένας ανάλογος ορισμός ισχύει και για κάθε κατηγορία των σημείων στηλών. Αυτές οι Συνεισφορές αθροιζόμενες για όλες τις γραμμές ισοδυναμούν με τη Συνολική Αδράνεια. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 41

42 o 3.6.2: Απόλυτες Συνεισφορές στην Αδράνεια Η Αδράνεια κατά μήκος του t-οστού άξονα, I t, αποτελείται από το σταθμισμένο άθροισμα των τετραγωνικών αποστάσεων 2 h it από την αρχή των αξόνων των Προφίλ Γραμμών ή Στηλών που απεικονίζονται, όπου τα βάρη είναι οι μάζες για κάθε σημείο γραμμής ή στήλης. Για τα Προφίλ Γραμμών αυτή η Αδράνεια μπορεί να εκφρασθεί μέσω του ακόλουθου τύπου: I rh 2 t i it i Ένας ανάλογος ορισμός ισχύει και για κάθε κατηγορία των Προφίλ στηλών. Ως εκ τούτου, κάθε ιδιοτιμή αντιπροσωπεύει την Αδράνεια των προβολών του συνόλου γραμμών (ή τις κατηγορίες του συνόλου στηλών) των σημείων σε κάθε άξονα. Αν κάθε όρος στο άθροισμα εκφράζεται ως ποσοστό σχετικό με την Αδράνεια που εξηγείται από κάθε άξονα, η οποία είναι ίση με rh 2 i it / t I, τότε προκύπτει η Απόλυτη Συνεισφορά (Absolute Contribution) της i-οστής γραμμής στον t-οστό βασικό άξονα. Οι Απόλυτες Συνεισφορές ποσοτικοποιούν τη σημασία κάθε σημείου στον καθορισμό της κατεύθυνσης των βασικών αξόνων και εξυπηρετούν ως οδηγοί στην ερμηνεία κάθε άξονα. Ερμηνεύονται ως το ποσοστό της (σταθμισμένης) διακύμανσης που εξηγείται από κάθε σημείο σε σχέση με τον κάθε άξονα. Είναι εμφανές από την ανάλυση ότι ένα σημείο μπορεί να συνεισφέρει σε ένα βασικό άξονα (δηλαδή να έχει υψηλή συνεισφορά στην Αδράνεια αυτού του άξονα) με δύο τρόπους: όταν έχει μεγάλη μάζα και/ ή όταν έχει μεγάλη απόσταση από το κεντροειδές, ακόμα κι όταν έχει σχετικά μικρή μάζα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 42

43 3.7: Πίνακας Καταλοίπων Ολοκληρώνουμε την παρουσίαση των βασικών εννοιών της Ανάλυσης Αντιστοιχιών με τον πίνακα Καταλοίπων Α, του οποίου τα στοιχεία a ij υπολογίζονται ως ακολούθως: a f rc ij i j ij, i=1,, a, j=1,, b. rc i j όπου f ij είναι η σχετική συχνότητα του κελιού ij, ενώ η ποσότητα r i c j που στηρίζεται στις μάζες των γραμμών και των στηλών, αποτελεί την εκτίμηση της πιθανότητας του κελιού κάτω από την υπόθεση της ανεξαρτησίας γραμμών και στηλών. Ο πίνακας των καταλοίπων θα έχει τις ίδιες διαστάσεις με τον αρχικό πίνακα συνάφειας. Κάθε στοιχείο του πίνακα Α υπολογίζεται από τη διαφορά της πραγματικής σχετικής συχνότητας με τη σχετική συχνότητα που υποθέτει το μοντέλο ανεξαρτησίας, αφού έχει διαιρεθεί με τη ρίζα της θεωρητικής αυτής συχνότητας. Αν παρατηρήσουμε τον τύπο του ελέγχου ανεξαρτησίας του Pearson a b 2 2 ij i1 j1 x n a, θα διαπιστώσουμε πως οι όροι του πίνακα καταλοίπων Α έχουν μεγάλη ομοιότητα με τους όρους του ελέγχου αυτού. Συμπερασματικά, ο πίνακας καταλοίπων θα έχει άμεση σχέση με την Αδράνεια και γενικότερα με τη διακύμανση του πίνακα συνάφειας. Από την οπτική εξέταση του πίνακα καταλοίπων μπορούμε να έχουμε ενδείξεις για την ύπαρξη ανεξαρτησίας ή όχι μεταξύ γραμμών και στηλών. Έτσι, αν τα στοιχεία του πίνακα Α έχουν μικρές απόλυτες τιμές, τότε υπάρχει η ένδειξη για την ύπαρξη ισχυρής ανεξαρτησίας και κατά συνέπεια η Αδράνεια του πίνακα θα έχει μικρή τιμή. Αντίθετα, αν δούμε ότι έχουν μεγάλες απόλυτες τιμές τα στοιχεία του πίνακα καταλοίπων, θα γνωρίζουμε εκ των προτέρων ότι είναι πολύ πιθανό να υπάρχει εξάρτηση μεταξύ γραμμών και στηλών του πίνακα συνάφειας και επομένως η Αδράνεια θα έχει μεγάλη τιμή. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 43

44 Πρέπει να επισημάνουμε πως η Αδράνεια είναι το άθροισμα των στοιχείων του πίνακα καταλοίπων, ο οποίος πίνακας είναι ένα βασικό συστατικό της μεθόδου της Ανάλυσης Αντιστοιχιών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 44

45 - Κεφάλαιο 4: Γεωμετρική Θεώρηση 4.1: Μείωση των Διαστάσεων Είδαμε προηγουμένως ότι κάθε γραμμή και κάθε στήλη αποτελεί ένα σημείο πολυδιάστατου χώρου. Ο βασικός σκοπός της Ανάλυσης Αντιστοιχιών είναι η αναπαράσταση του πλήθους των σημείων- προφίλ σε λιγότερες διαστάσεις, συμπεριλαμβάνοντας όσο το δυνατόν περισσότερη πληροφορία. Φυσικά μας ενδιαφέρει η απεικόνιση τόσο των γραμμών όσο και των στηλών. Συνοψίζοντας, αναφέραμε στις προηγούμενες ενότητες ότι: Έχουμε την ευχέρεια του υπολογισμού εναλλακτικών μέτρων απόστασης μεταξύ γραμμών και στηλών. Αντικειμενικός σκοπός είναι η μείωση των διαστάσεων του προβλήματος και ως εκ τούτου πρέπει να κατασκευάσουμε το γράφημα σε λιγότερες διαστάσεις, λαμβάνοντας υπόψη τους περιορισμούς που αφορούν το μέγιστο επιτρεπόμενο αριθμό των διαστάσεων που αποδεικνύεται πως είναι ίσος με min(a,b)-1. Είναι βέβαιο ότι η μείωση των διαστάσεων του προβλήματος θα έχει ως συνέπεια την απώλεια πληροφορίας, ενδεχομένως σημαντικής για την ανάλυση μας. Επιπρόσθετα, είναι αναγκαία και μια καλή γεωμετρική προοπτική για να επιτευχθεί αυτό. Αναπαριστώντας ένα σημείο από τις πολλές σε λιγότερες διαστάσεις, αυτομάτως χάνεται μέρος της πληροφορίας που εμπεριέχει η αναπαράσταση στον πολυδιάστατο χώρο. Μια βασική μας επιδίωξη για τη «γεωμετρική» διατήρηση της πληροφορίας, είναι τα σημεία που βρίσκονταν κοντά στον πολυδιάστατο χώρο να εξακολουθούν να βρίσκονται κοντά και στις λιγότερες διαστάσεις. Η Ανάλυση Αντιστοιχιών επίσης υποφέρει από την «κατάρα της διαστατικότητας- curse of dimensionality». Δεν υπάρχει μέθοδος που να καθορίζει κατά τρόπο οριστικό το κατάλληλο πλήθος και τί συνδυασμούς Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 45

46 διαστάσεων να απεικονίσει και να μελετήσει. Όπως και με άλλες πολυμεταβλητές μεθόδους, ο ερευνητής πρέπει να ισορροπήσει την οικονομία ενάντια στην ερμηνευσιμότητα όσον αφορά τον καθορισμό του αριθμού των διαστάσεων που θα χρησιμοποιήσουμε. Η λύση στο παραπάνω πρόβλημα είναι η προβολή του νέφους των σημείων σε λιγότερες διαστάσεις, κατάσταση που μοιάζει με την περίπτωση της Ανάλυσης σε Κύριες Συνιστώσες, όπου επίσης επιδιώκουμε την προβολή πολυμεταβλητών σημείων σε λιγότερες διαστάσεις. 4.2: Γεωμετρική Ερμηνεία Όσον αφορά τη γεωμετρική ερμηνεία της Ανάλυσης Αντιστοιχιών, έχουμε καταρχήν ένα προφίλ και την απόστασή του από το κέντρο που συμβολίζεται με d i. Το προφίλ ορίζεται σε ένα πολυδιάστατο χώρο και θέλουμε να το απεικονίσουμε σε ένα δισδιάστατο χώρο. Ως γνωστό, με τη βοήθεια του Πυθαγορείου Θεωρήματος, έχουμε: d. Αν πολλαπλασιάσουμε με όλες τις μάζες και αθροίσουμε, τότε i i i έχουμε το ακόλουθο αποτέλεσμα: rd r r όπου r i είναι η i μάζα i i i i i i i i i Ο παραπάνω τύπος μας υποδεικνύει ότι η Συνολική Αδράνεια διακρίνεται σε δύο μέρη: I a rd i i1 2 i 1) Το πρώτο μέρος εκφράζει την αδράνεια στις καινούριες διαστάσεις του νέου επιπέδου. 2) Το υπόλοιπο μέρος αποτελεί ουσιαστικά την αδράνεια που χάνεται εξαιτίας της προβολής. Άρα η κατασκευή της προβολής μπορεί να επιτευχθεί μέσω της ελαχιστοποίησης 2 της απώλειας αδράνειας, όπως αυτή μετράται από την ποσότητα i ri. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 46 i

47 Αξιοσημείωτο είναι το γεγονός ότι αν επιθυμούμε να χρησιμοποιήσουμε άλλης μορφής απόσταση και γεωμετρική ερμηνεία, τότε είναι πιθανόν να προκύψει παρόμοια ανάλυση. o 4.2.1: Το Μοντέλο της Ανάλυσης Αντιστοιχιών Επίσης, το μοντέλο της Ανάλυσης Αντιστοιχιών του πίνακα P σε k διαστάσεις αποκαλύπτει το πώς ένα στοιχείο του P προσεγγίζεται στον k-διαστάσεων σταθμισμένο Ευκλείδιο υπόχωρο: 1 P rc DrFD G Dc Από τον παραπάνω τύπο είναι εμφανές ότι το μοντέλο μεταχειρίζεται τις γραμμές και τις στήλες συμμετρικά, αφού τίποτα δεν μεταβάλλεται αν κάνουμε χρήση του X αντί του X. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 47

48 - Κεφάλαιο 5: Πρακτικά Ζητήματα 5.1: Υπολογιστικές ανάγκες Ξεκινάμε με την υπόθεση ότι έχουμε στη διάθεσή μας έναν πίνακα συνάφειας στον οποίο θα εφαρμόσουμε την Ανάλυση Αντιστοιχιών. Αυτό μπορεί να πραγματοποιηθεί με τη βοήθεια της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD), η οποία επίσης καλείται διάσπαση Eckart- Young και είναι το πιο συνηθισμένο εργαλείο για την ανάλυση του συντελεστή Pearson. Η προσέγγιση SVD, που μπορεί να θεωρηθεί ως μια προσέγγιση της «Ανάλυσης Κυρίων Συνιστωσών», είναι ιδιαίτερα χρήσιμη και αυτό εξαιτίας κατά κύριο λόγο του Greenacre (1978,1984), γιατί δίνει έμφαση στις γεωμετρικές ιδιότητες της Ανάλυσης Αντιστοιχιών και αποσαφηνίζει τις πρακτικές συνέπειες της ανάλυσης δεδομένων. H SVD ενσωματώνει την ιδέα της βασικής δομής ενός πίνακα που αποτελείται από βασικές τιμές και βασικά διανύσματα. Η δομή των ιδιοτιμών και των ιδιοδιανυσμάτων ενός συμμετρικού πίνακα είναι μια ειδική περίπτωση της SVD. Από την υλοποίηση της SVD προκύπτουν οι ιδιόμορφες τιμές (singular values) και τα ιδιόμορφα διανύσματα (singular vectors). Ως γνωστό, οι ιδιόμορφες τιμές έχουν σχέση με τις ιδιοτιμές. Στη συνέχεια θα αναφερθούμε σε ορισμένες τεχνικές μαθηματικές λεπτομέρειες της μεθόδου SVD. o 5.1.1: Διάσπαση Ιδιόμορφων Τιμών (SVD) Οι ιδιοτιμές και τα ιδιοδιανύσματα συσχετίζονται με συμμετρικούς πίνακες. Οι ιδιόμορφες τιμές έχουν ως στόχο την επέκταση της ιδέας των ιδιοτιμών και σε μη συμμετρικούς πίνακες. Όπως γνωρίζουμε ένας συμμετρικός πίνακας μέσω της Φασματικής Ανάλυσης γράφεται ως εξής: R B B, όπου Λ είναι ο διαγώνιος πίνακας που περιέχει τις ιδιοτιμές του R στα διαγώνια στοιχεία του και Β είναι ο πίνακας με στήλες τα αντίστοιχα ιδιοδιανύσματα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 48

49 Κατ ανάλογο τρόπο μπορούμε να ορίσουμε και τις ιδιόμορφες τιμές. Έστω Α ο πίνακας διαστάσεων ( I J ) που κατασκευάζεται με τη βοήθεια των πινάκων U, Γ και V κατάλληλων διαστάσεων μέσω της σχέσης: A U V, όπου Γ είναι ένας διαγώνιος πίνακας με θετικές τιμές ως διαγώνια στοιχεία σε φθίνουσα σειρά (δηλαδή γ 1 > γ 2 > > γ κ > 0). Η Ανάλυση Αντιστοιχιών συνίσταται στην εύρεση της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD) του πίνακα- μητρώου Α που περιλαμβάνει τα ξεχωριστά στοιχεία του στατιστικού X 2 (Chisquared). Η τάξη του πίνακα Α είναι k και υπολογίζεται ως εξής: k= min(i-1,j-1). Οι πίνακες U, V έχουν ορθοκανονικές στήλες, δηλαδή ισχύει το εξής: UU VV I. Γίνεται εύκολα αντιληπτό ότι ο πίνακας U έχει διαστάσεις I διαστάσεις J k αντίστοιχα. k και ο πίνακας V Ο πίνακας U περιέχει τα ιδιοδιανύσματα του AA ενώ ο V περιέχει τα ιδιοδιανύσματα του AA. Ο υπολογισμός των U, V μπορεί να γίνει με τη βοήθεια των παρακάτω σχέσεων που συνδέουν άμεσα την SVD με τη Φασματική Ανάλυση: και 2 A A V V. 2 AA U U Οι τιμές γ 1, γ 2,, γ κ λέγονται ιδιόμορφες τιμές, οι k στήλες του πίνακα U αριστερά ιδιόμορφα διανύσματα (left singular vectors) και ο πίνακας U αριστερά ιδιόμορφος πίνακας (left singular matrix), ενώ οι k στήλες του πίνακα V δεξιά ιδιόμορφα διανύσματα (right singular vectors) και ο πίνακας V δεξιά ιδιόμορφος πίνακας (right singular matrix). Αυτό που ισχύει είναι ότι τα δεξιά ιδιόμορφα διανύσματα του Α ταυτίζονται με τα ιδιοδιανύσματα του AA και οι τετραγωνικές τιμές των ιδιόμορφων τιμών του Α (δηλαδή οι ποσότητες 1, 2,..., k ) είναι ίσες αντίστοιχα με τις ιδιοτιμές του πίνακα AA. Με ανάλογο τρόπο αποδεικνύεται ότι ισχύουν και οι σχέσεις για τα αριστερά ιδιόμορφα διανύσματα και τον πίνακα AA. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 49

50 Συμπερασματικά, αν ο πίνακας Α είναι συμμετρικός, τότε η SVD ταυτίζεται με τη Φασματική Ανάλυση. Έτσι μπορούμε να πούμε ότι η τεχνική SVD λειτουργεί ως γενίκευση της Φασματικής Ανάλυσης στην περίπτωση μη συμμετρικών πινάκων. Από τα αποτελέσματα της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD), τα στοιχεία του πίνακα- μητρώου A (τα κατάλοιπα δηλαδή από το μοντέλο ανεξαρτησίας του πίνακα συνάφειας) μπορούν να γραφτούν με την ακόλουθη μορφή: a k 1/ 2 ij m uimv jm m1, όπου i=1,,i, j=1,...,j, k είναι η τάξη του πίνακα A και δ 1,, δ k είναι οι ιδιοτιμές του AA έτσι ώστε k I J 2 2 m ij. Επιπλέον u im είναι τα στοιχεία της m-οστής m1 i1 j1 tr( AA) a X στήλης του U και v jm αντίστοιχα είναι τα στοιχεία της m-οστής στήλης του V. Η καλύτερη προσαρμογή δισδιάστατης δομής για την απεικόνιση των a ij, προκύπτει από τη χρήση των δύο πρώτων στηλών του V για την αναπαράσταση των επιπέδων- κατηγοριών των στηλών και ομοίως των δύο πρώτων γραμμών του U για την αναπαράσταση των επιπέδων- κατηγοριών των γραμμών. Το πόσο καλά προσαρμόζεται αυτή η δισδιάστατη δομή εξαρτάται από το μέγεθος των δύο πρώτων ιδιοτιμών του AA που είναι σχετικές με το υπόλοιπο. Είδαμε έτσι πως η Ανάλυση Αντιστοιχιών προκύπτει ως το αποτέλεσμα της SVD του Πίνακα Καταλοίπων A που αναφέραμε πιο πριν. Η ιδέα μοιάζει αρκετά με αυτήν της Ανάλυσης σε Κύριες Συνιστώσες. Η ανάλυση του πίνακα Καταλοίπων μπορεί να είναι πλήρης με τη χρήση της SVD του, κάτι που πρακτικά θα υποδήλωνε έναν απλό μετασχηματισμό. Όμως αφού επιδιώκουμε τη μείωση των διαστάσεων του προβλήματος, θα κρατήσουμε λιγότερες ιδιόμορφες τιμές και λιγότερα ιδιόμορφα διανύσματα και επομένως δε θα αναπαράγουμε πλήρως τον αρχικό πίνακα Καταλοίπων, αλλά ένα μέρος του και άρα ένα μέρος της Αδράνειας. Βλέπουμε δηλαδή ότι η λογική είναι ίδια με αυτήν της Ανάλυσης σε Κύριες Συνιστώσες. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 50

51 Τα κύρια εξαγόμενα της SVD είναι οι ιδιόμορφες τιμές και τα ιδιόμορφα διανύσματα. Ιδιαίτερα οι ιδιοτιμές (που εξ ορισμού είναι το τετράγωνο των ιδιόμορφων τιμών) αποτελούν ένα βασικό συστατικό της ανάλυσης (όπως ακριβώς και στην περίπτωση της Ανάλυσης σε Κύριες Συνιστώσες). Οι λόγοι για τους οποίους οι ιδιοτιμές είναι τόσο σημαντικές στην SVD είναι οι εξής: Κάθε ιδιοτιμή αντιστοιχεί σε έναν άξονα. Επίσης οι ιδιοτιμές ορίζονται να είναι σε φθίνουσα σειρά έτσι ώστε η μεγαλύτερη ιδιοτιμή να αντιστοιχεί στον πρώτο άξονα, η δεύτερη κατά σειρά στο δεύτερο άξονα κ.ο.κ. Το άθροισμα όλων των ιδιοτιμών είναι ίσο με την Αδράνεια του αρχικού πίνακα. Η συνολική Αδράνεια μπορεί να γραφτεί σε όρους των ιδιόμορφων τιμών ως εξής: X n 2 M * όπου M*=max(I,J)-1 είναι το μέγιστο πλήθος k 1 2 k διαστάσεων που απαιτείται για τη γραφική αναπαράσταση της σχέσης μεταξύ των απαντήσεων γραμμών και στηλών. Συνεπώς, η συνολική διακύμανση του πίνακα συνάφειας (ή του συντελεστή Pearson X 2 Chi-square) μπορεί να διαμερισθεί σε M * συνιστώσες, τα οποία λέγονται Κύριες τιμές Αδράνειας (Principal Inertia Values). Κάθε Κύρια Αδράνεια μπορεί να διαμερισθεί περαιτέρω σε υπο-συνιστώσες για να προσδιορίσει το πώς ένα συγκεκριμένο επίπεδο- κατηγορία γραμμής ή στήλης συνεισφέρει στους βασικούς 2 άξονες. Ο πρώτος βασικός άξονας με τιμή Αδράνειας 1 είναι ο άξονας που περιγράφει το μεγαλύτερο μέρος της διακύμανσης. Γενικά, ο m- οστός βασικός άξονας είναι ο m- οστός πιο σημαντικός άξονας και ένα διάγραμμα αντιστοιχιών που περιλαμβάνει τους δύο πρώτους άξονες θα είναι πολύ πιο περιγραφικό συγκριτικά με ένα άλλο γράφημα που θα περιλαμβάνονταν και άλλοι άξονες. Ο λόγος κάθε ιδιοτιμής με το άθροισμα αυτών, δηλαδή την Αδράνεια, εκφράζει το ποσοστό της αδράνειας που αντιπροσωπεύει ο αντίστοιχος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 51

52 άξονας. Πάλι εδώ παρατηρούμε την ομοιότητα με την Ανάλυση σε Κύριες Συνιστώσες. Άρα, με τον τρόπο αυτό μπορούμε να δούμε τί ποσοστό της Αδράνειας ερμηνεύει ο κάθε άξονας. Επιπλέον είναι προφανές ότι ο πρώτος άξονας θα ερμηνεύει το μεγαλύτερο ποσοστό. Τα δεδομένα αντιπροσωπεύονται πλήρως από το σύνολο των αξόνων και έτσι γίνεται κατανοητό ότι για μια Ανάλυση Αντιστοιχιών που θα έχει χρησιμότητα, είναι απαραίτητο να επιλέξουμε λιγότερους άξονες με συνέπεια ως γνωστόν την απώλεια ενός μέρους της Αδράνειας, δηλαδή της πληροφορίας του αρχικού πίνακα. Επιπρόσθετα, τα ιδιόμορφα διανύσματα είναι σημαντικά γιατί χρησιμοποιούνται για τον υπολογισμό των Κυρίων Συντεταγμένων, με τις οποίες κατασκευάζουμε τη γραφική απεικόνιση των δεδομένων. Η απεικόνιση των κύριων συντεταγμένων σε διαγράμματα μπορεί να αναδείξει τη διάταξη των γραμμών και των στηλών. Σε ένα τέτοιο γράφημα κάθε άξονας αναφέρεται ως βασικός άξονας. Παραδείγματος χάριν, ο πρώτος άξονας ονομάζεται ο πρώτος βασικός άξονας, ενώ ο δεύτερος λέγεται ο δεύτερος βασικός άξονας κ.ο.κ. Παρόλα αυτά, αυτά τα διανύσματα σε ένα τέτοιο σύστημα απεικόνισης δεν λαμβάνουν υπόψη την ένταση της σχέσης μεταξύ των γραμμών και των στηλών κατά μήκος κάθε άξονα. Στην πραγματικότητα οι άξονες είναι εξίσου σταθμισμένοι. Επομένως, αυτοί οι άξονες έχουν συνδέσει μαζί τους μονάδες Αδράνειας και για αυτό ο Greenacre (1984, p.93) αναφέρεται στα ιδιόμορφα διανύσματα σαν ένα σύστημα Πρότυπων Συντεταγμένων (Standard Co-ordinates). Οι κύριες συντεταγμένες για τον j άξονα της i κατηγορίας, προκύπτουν ως το γινόμενο του i στοιχείου του ιδιόμορφου διανύσματος που αντιστοιχεί στη j ιδιόμορφη τιμή με την αντίστοιχη ιδιόμορφη τιμή, διαιρεμένο με την τετραγωνική ρίζα της Μάζας της αντίστοιχης γραμμής (ή ανάλογα στήλης) του αρχικού πίνακα. Το σκεπτικό εδώ είναι ότι τυποποιούμε τις κύριες συντεταγμένες κατά τέτοιο τρόπο ώστε οι γραμμές (ή οι στήλες) με μεγάλη Μάζα να μην επηρεάζουν σημαντικά τη γραφική απεικόνιση. Έτσι χρησιμοποιούνται οι ακόλουθοι τύποι: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 52

53 q ij u ij j που αναφέρεται στην Κύρια Συντεταγμένη του j άξονα της i r i κατηγορίας (γραμμής) και u ij είναι το ij στοιχείο του αριστερά ιδιόμορφου πίνακα U που προκύπτει από την SVD του πίνακα καταλοίπων, γ j είναι η j ιδιόμορφη τιμή και r i είναι η Μάζα της i γραμμής. Αναλόγως, αποδεικνύεται ότι οι συντεταγμένες της j στήλης για τον k άξονα είναι οι g v jk k jk, όπου v jk είναι το jk στοιχείο του δεξιά ιδιόμορφου πίνακα V c j που προκύπτει από την SVD του πίνακα Καταλοίπων, γ κ είναι η k ιδιόμορφη τιμή και τέλος c j είναι η Μάζα της j στήλης. Μια επεξήγηση, για το πώς να ερμηνεύουμε τις παραχθείσες συντεταγμένες, γίνεται πιο απλή θεωρώντας μόνο μια μονοδιάστατη λύση. Σε αυτήν την περίπτωση έχουμε: a u v. 1/ 2 ij 1 i1 j1 Όταν τα u i1 και τα v j1 είναι ταυτόχρονα μεγάλα και θετικά (ή ταυτόχρονα μεγάλα και αρνητικά) τότε τα a ij θα είναι μεγάλα και θετικά, υποδηλώνοντας μια θετική συσχέτιση ανάμεσα στη γραμμή i και στη στήλη j (τα x ij είναι μεγαλύτερα από ότι αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Παρόμοια, όταν τα u i1 και τα v j1 είναι μεγάλα αλλά ετερόσημα, τότε η i- οστή γραμμή και η j- οστή στήλη θα έχουν αρνητική συσχέτιση (τα x ij είναι μικρότερα από ότι αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Εν τέλει, όταν το εξαγόμενο u i1 v j1 είναι κοντά στο μηδέν τότε η συσχέτιση μεταξύ της i-οστής γραμμή και της j- οστής στήλης θα είναι μικρή (τα x ij είναι κοντά στην τιμή που αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 53

54 5.2: Συμμετρικά και Μη Συμμετρικά Biplots Biplot ονομάζεται το γράφημα πάνω στο οποίο μπορούμε να απεικονίσουμε ταυτόχρονα τις γραμμές και τις στήλες ενός πίνακα συνάφειας και ως εκ τούτου γίνεται αντιληπτό πως το Biplot αποτελεί ένα από τα σημαντικότερα «εργαλεία» της Ανάλυσης Αντιστοιχιών. Κατ ουσίαν, το Biplot προκύπτει όταν «τοποθετήσουμε» τα δύο γραφήματα, που εξάγονται από την Ανάλυση Αντιστοιχιών μετά την εύρεση των Κυρίων Συντεταγμένων των σημείων-γραμμών και σημείων-στηλών, το ένα πάνω στο άλλο, ένα για κάθε κατηγορική μεταβλητή. Με άλλα λόγια, το Biplot μπορεί να οριστεί ως μια δισδιάστατη απεικόνιση ενός πίνακα- μητρώου δεδομένων που δείχνει ένα σημείο για κάθε ένα από τα n διανύσματα παρατηρήσεων (οι γραμμές του πίνακα δεδομένων) μαζί με ένα σημείο για κάθε μία από τις p μεταβλητές (οι στήλες του πίνακα δεδομένων). Αν δύο σημεία- γραμμών βρίσκονται κοντά, τα προφίλ των δύο γραμμών κατά μήκος των στηλών είναι παρόμοια. Ωσαύτως, δύο σημεία- στηλών που είναι πλησίον απεικονίζουν στήλες με παρόμοια προφίλ κατά μήκος των γραμμών. Εάν ένα σημείο- γραμμής είναι εγγύς με ένα σημείο- στήλης τότε αυτός ο συνδυασμός των επιπέδων- κατηγοριών αυτών των δύο μεταβλητών τυχαίνει πιο τακτικά από ότι θα συνέβαινε αν οι δύο μεταβλητές ήταν ανεξάρτητες. Η συγχώνευση των δύο απεικονίσεων σε μια από κοινού αναπαράσταση (Biplot) οφείλεται κατά βάση στη γεωμετρική αντιστοιχία των δύο συνόλων σημείων (γραμμών και στηλών) όσον αφορά τη θέση και την αδράνεια. Το πλεονέκτημα αυτής της συγχώνευσης είναι ότι προκύπτει σε μια μόνο εικόνα μια συνοπτική γραφική απεικόνιση που παρουσιάζει ποικίλα χαρακτηριστικά των δεδομένων. Η γεωμετρική απεικόνιση κάθε συνόλου σημείων φανερώνει τη φύση των ομοιοτήτων και τη διακύμανση εντός του συνόλου, ενώ παράλληλα η από κοινού αναπαράσταση δείχνει την αντιστοιχία ανάμεσα στα σύνολα. Ωστόσο, οι αποστάσεις μεταξύ σημείων από διαφορετικά σύνολα δε μπορεί να ερμηνευθούν, διότι αυτές οι αποστάσεις δεν προσεγγίζουν καμία ορισμένη ποσότητα. Οι αποστάσεις ανάμεσα σε σημεία στο ίδιο σύνολο είναι ίσες με τις σχετικές X 2 αποστάσεις, όπου η αντιστοιχία εντός του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 54

55 συνόλου επηρεάζεται από τη «βαρυκεντρική» φύση των τύπων μετάβασης (transition). Τα Biplots εισήχθησαν από τον Gabriel (1971) και τέθηκαν ενδελεχώς επί τάπητος από τους Gower & Hand (1996). Επίσης ασχολήθηκαν με αυτά και οι Khattree & Naik (2000), Jacoby (1998, Chapter 7) και Seber (1984, p ). Αφού οι συντεταγμένες των γραμμών και στηλών μπορούν να απεικονιστούν ταυτόχρονα στο ίδιο διάγραμμα αντιστοιχιών, φαίνεται λογικό να υποθέσουμε ότι κάποιος μπορεί να μετρήσει την απόσταση ανάμεσα σε ένα Προφίλ Γραμμής και ένα Προφίλ Στήλης. Αυτές οι αποστάσεις καλούνται «αποστάσεις μεταξύ σημείων» (interpoint distances). Στα Biplots το στοιχείο που προσελκύει το ενδιαφέρον μας είναι η εγγύτητα μας γραμμής και στήλης, δηλαδή το πόσο κοντά βρίσκονται μεταξύ τους ενώ δεν επικεντρωνόμαστε στη σύγκριση μόνο μεταξύ γραμμών ή στηλών. Συμπερασματικά το Biplot συμβάλλει στον εντοπισμό συσχετίσεων μεταξύ γραμμών και στηλών. Τα Biplots διακρίνονται σε δύο κατηγορίες: Συμμετρικά Biplots Μη Συμμετρικά Biplots o 5.2.1: Συμμετρικά Biplots Το Συμμετρικό (Symmetric) Biplot έχει την ιδιότητα ότι οι συντεταγμένες των σημείων είναι «κλιμακοποιημένες» κατά τέτοιο τρόπο ώστε τα σημεία γραμμών ή στηλών με μεγάλη Μάζα να μην επηρεάζουν σημαντικά το διάγραμμα. Επιπρόσθετα οι συντεταγμένες «κλιμακοποιούνται» έτσι ώστε να είναι μεγαλύτερες κατά απόλυτη τιμή στον πρώτο άξονα. Επομένως η «κλιμακοποίηση» των συντεταγμένων εφαρμόζεται για να ελαχιστοποιήσουμε την επίδραση σημείων με μεγάλη Μάζα και παράλληλα να προκύψει ένας πρώτος άξονας περισσότερο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 55

56 πληροφοριακός, καθώς όπως έχουμε δει τα ιδιόμορφα διανύσματα πολλαπλασιάζονται με τις ιδιόμορφες τιμές και διαιρούνται με τις Μάζες. Συγχρόνως πρέπει να τονίσουμε πως τα πρόσημα των συντεταγμένων δεν επηρεάζουν κατά κάποιο τρόπο, διότι οι άξονες που προκύπτουν κατά την κατασκευή ενός Biplot είναι τεχνητοί και έτσι η αλλαγή προσήμου δε μεταβάλλει την ουσία της παρουσίασης, εκτός από την ερμηνεία που μπορεί να αποδώσει κάποιος στο θετικό και αρνητικό πρόσημο των αξόνων. Διαπιστώνουμε δηλαδή ότι έχουμε να αντιμετωπίσουμε ένα ζήτημα που συναντάται και στην Ανάλυση Κυρίων Συνιστωσών. Το συμπέρασμα από τα παραπάνω είναι ότι δε θα πρέπει να εστιάζουμε το ενδιαφέρον μας στα πρόσημα αυτά καθαυτά αλλά στο γεγονός ότι μπορεί να υπάρχουν σημεία με διαφορετικά πρόσημα. o 5.2.2: Μη Συμμετρικά Biplots Όσον αφορά την ορολογία, όταν τα Προφίλ Γραμμών απεικονίζονται ταυτόχρονα με κορυφές που αντιπροσωπεύουν τις στήλες, το διάγραμμα θα λέγεται Ασύμμετρο ή Μη Συμμετρικό. Οι συντεταγμένες σε ένα Μη Συμμετρικό (Asymmetric) Biplot προκύπτουν κατά τέτοιο τρόπο ώστε τα σημεία γραμμών και στηλών να απέχουν όσο το δυνατόν περισσότερο. Ειδικότερα, γίνεται χρήση δύο διαφορετικών κλιμάκων για την απεικόνιση των σημείων των γραμμών και των στηλών. Από γεωμετρικής απόψεως, αυτό συνεπάγεται ότι τα σημεία γραμμών και στηλών θα απεικονίζονται μακριά μεταξύ τους, ενώ τα υπόλοιπα σημεία θα απεικονίζονται με βάση αυτήν την τοποθέτηση. Ενεργώντας έτσι, επιτυγχάνουμε μια πιο βελτιωμένη απεικόνιση των συσχετίσεων και αυτό διότι καθώς «επιβάλλουμε» αυτές τις μεγάλες αποστάσεις μεταξύ σημείων γραμμών και στηλών, εξασφαλίζουμε ένα ευκολότερο εντοπισμό των ομαδοποιήσεων στο χώρο που ουσιαστικά αποτελούν συσχετίσεις. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 56

57 o 5.2.3: Παρατηρήσεις Γενικά, η χρήση των Συμμετρικών Biplots είναι πιο συχνή και αυτό οφείλεται στο γεγονός ότι χρησιμοποιούν την ίδια Κανονικοποίηση για γραμμές και στήλες, με αποτέλεσμα η διαδικασία της Κανονικοποίησης να αποκτά περισσότερο «αυτοματοποιημένο» χαρακτήρα χωρίς την ανάγκη υποκειμενικών επιλογών. Επίσης είναι απαραίτητο να αναφέρουμε πως σε ένα Συμμετρικό Biplot έχουν νόημα οι αποστάσεις μεταξύ σημείων της ίδιας μεταβλητής, όχι όμως και οι αποστάσεις μεταξύ σημείων διαφορετικών μεταβλητών. Άρα μπορούμε να οδηγηθούμε σε σωστή συμπερασματολογία σχετικά με τις αποστάσεις μόνο μέσω των Μη Συμμετρικών Biplots. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 57

58 - Κεφάλαιο 6: Συμπερασματολογία 6.1: Ερμηνεία των αποτελεσμάτων Κατ αναλογία με την Ανάλυση Κυρίων Συνιστωσών, μια σημαντική παράμετρος της Ανάλυσης Αντιστοιχιών είναι η ερμηνεία των αξόνων ή αλλιώς των νέων μεταβλητών που προκύπτουν από τις αρχικές μεταβλητές. Γενικά, η Ανάλυση Αντιστοιχιών ερμηνεύεται από τον έλεγχο των σημείων των επιπέδων- κατηγοριών των γραμμών και στηλών, όπως εκφράζονται από τις αντίστοιχες τιμές των συντεταγμένων τους. Οι τιμές αυτές «καθρεπτίζουν» τις συσχετίσεις ανάμεσα στις κατηγορίες- επίπεδα των γραμμών- μεταβλητών και των στηλών- μεταβλητών. Αν υποθέσουμε πως μια δισδιάστατη λύση παρέχει μια επαρκή προσαρμογή, τότε τα σημεία των γραμμών που είναι κοντά τοποθετημένα υποδηλώνουν επίπεδα- κατηγορίες των γραμμών- μεταβλητών που έχουν παρόμοια προφίλ (δεσμευμένες κατανομές) ως προς τις στήλες. Ομοίως τα σημεία των στηλών που βρίσκονται κοντά υποδεικνύουν επίπεδα- κατηγορίες των στηλών- μεταβλητών που έχουν παρόμοια προφίλ (δεσμευμένες κατανομές) ως προς τις γραμμές. Ακόμα, τα σημεία των γραμμών που έχουν μικρές αποστάσεις από τα σημεία των στηλών αναπαριστάνουν συνδυασμούς που εμφανίζονται πιο συχνά, από ότι θα αναμενόταν κάτω από ένα μοντέλο ανεξαρτησίας, το οποίο είναι εκείνο που τα επίπεδα των γραμμών- μεταβλητών είναι ασυσχέτιστα με τα επίπεδα των στηλών- μεταβλητών. Μια ερμηνεία, όσο ενδιαφέρουσα και αν είναι για την ίδια τη μέθοδο αλλά και για τη συμπερασματολογία, εντούτοις μπορεί να διαθέτει και σοβαρά μειονεκτήματα. Για αυτό το λόγο, έχει ιδιαίτερη σημασία η άποψη, σύμφωνα με την οποία πρέπει να δίνουμε βαρύτητα σε εκείνα τα σημεία που συνεισφέρουν σε μεγαλύτερο βαθμό στην Αδράνεια της συγκεκριμένης διάστασης ή άξονα. Ο τύπος που υπολογίζει το ποσό της Αδράνειας του j άξονα για το σημείο- γραμμή είναι ο ακόλουθος: ru 2 i ij 2 j. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 58

59 Παρατηρώντας τον παραπάνω τύπο διαπιστώνουμε ότι τα σημεία που αντιστοιχούν σε γραμμές με μεγάλη Μάζα και μεγάλη κατ απόλυτη τιμή συντεταγμένη στον j άξονα, θα έχουν και μεγαλύτερη συνεισφορά στην Αδράνεια. Έτσι μπορούμε να βρούμε τη συνεισφορά κάθε σημείου ξεχωριστά. Η Συνολική Αδράνεια μπορεί επίσης να αναλυθεί κατά μήκος των βασικών αξόνων. Κάθε ιδιοτιμή λ i προσδιορίζει τη σταθμισμένη διακύμανση (Αδράνεια) που εξηγείται από τον i-οστό βασικό άξονα της απεικόνισης. Αθροίζοντας σε όλους τους k βασικούς άξονες, αυτές οι ιδιοτιμές αντιπροσωπεύουν τη Συνολική Αδράνεια της αναπαράστασης του χώρου. Λόγω του ότι η Συνολική Αδράνεια κάθε συνόλου σημείων αναλύεται κατά μήκος των βασικών αξόνων και μεταξύ των σημείων με παρόμοιο και συμμετρικό τρόπο, η Αδράνεια για κάθε σύνολο σημείων μπορεί να αναλυθεί κατά τρόπο ανάλογο με την ανάλυση της διακύμανσης. Αυτές οι διάφορες αναλύσεις χρησιμοποιούνται για να βοηθήσουν στην ερμηνεία της γραφικής αναπαράστασης. Εν τέλει, η ερμηνεία των αξόνων βασίζεται στον εντοπισμό των σημείων με μεγάλη Συνεισφορά ή με άλλα λόγια των σημείων που χαρακτηρίζονται από υψηλές συντεταγμένες και Μάζες, αφού οι μάζες στην Ανάλυση Αντιστοιχιών δεν είναι ίσες ενώ στην Ανάλυση Κυρίων Συνιστωσών σε κάθε σημείο αντιστοιχεί 1/n. Επιπλέον, στην ουσία το ενδιαφέρον μας εστιάζεται μόνο στο πρόσημο των συντεταγμένων για να εξακριβώσουμε αν κάποιες κατηγορίες έχουν αντίθετη συνεισφορά. Η ερμηνεία της Ανάλυσης Αντιστοιχιών δεν ολοκληρώθηκε ακόμα. Η δισδιάστατη απεικόνιση δείχνει τις προβολές των Προφίλ των σημείων πάνω στο επίπεδο αλλά δεν προσδιορίζει ποια σημεία έχουν το μεγαλύτερο αντίκτυπο στον καθορισμό του προσανατολισμού των αξόνων. Για μια ολοκληρωμένη και σωστή ερμηνεία της γραφικής απεικόνισης πρέπει να χρησιμοποιήσουμε επιπρόσθετη πληροφορία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 59

60 6.2: Πλήθος Αξόνων που θα επιλέξουμε Παρόμοιο ζήτημα με της Ανάλυσης Κυρίων Συνιστωσών που προκύπτει και στην Ανάλυση Αντιστοιχιών είναι η επιλογή του πλήθους των αξόνων, στους οποίους θα στηριχθούμε αφενός για να περιγράψουμε σε ικανοποιητικό βαθμό τα δεδομένα και αφετέρου για να πετύχουμε μείωση των διαστάσεων του προβλήματος. Το ζητούμενο σε αυτή τη διαδικασία είναι να εξασφαλίσουμε την απαραίτητη ισορροπία ανάμεσα στην Καλή Προσαρμογή των δεδομένων και στην Οικονομία ή φειδώ (Parsimony). Πάντα σε αναλογία με την Ανάλυση Κυρίων Συνιστωσών η επιλογή των αξόνων μπορεί να επιτευχθεί με τη βοήθεια των παρακάτω τεχνικών: Το Scree Plot, το οποίο είναι ένα γράφημα που έχει στον οριζόντιο άξονα x τη σειρά και στον κάθετο άξονα y την τιμή της κάθε ιδιοτιμής. Το κριτήριο αυτό συνιστά να κρατήσουμε τόσους άξονες μέχρι το γράφημα να αρχίσει να γίνεται σχεδόν επίπεδο ή μέχρι να παρατηρήσουμε ότι αρχίζει να αλλάζει η κλίση της γραμμής. Φυσικά η τεχνική αυτή χαρακτηρίζεται από το μειονέκτημα της υποκειμενικότητας, καθώς πολλές φορές είναι δυσδιάκριτη η αλλαγή της κλίσης που μας ενδιαφέρει και για αυτό το λόγο η χρήση του Scree Plot πρέπει να γίνεται με προσοχή. Το Αθροιστικό ποσοστό Αδράνειας που ερμηνεύεται από τους άξονες. Με βάση αυτό το κριτήριο θέτουμε κάποιο όριο, όπως για παράδειγμα 80% και επιλέγουμε τόσους άξονες που αθροιστικά θα ξεπερνούν το παραπάνω όριο- στόχο. Το συγκεκριμένο κριτήριο είναι ιδιαίτερα απλό και εύκολο στη χρήση, όμως πρακτικά δεν αποφέρει πάντα το καλύτερο αποτέλεσμα, κυρίως όταν το όριο- στόχος είναι αρκετά υψηλό. Ακόμα δεν είναι εύκολη και η επιλογή του ποσοστού της Αδράνειας που πρέπει να ορίσουμε ως όριο- στόχο. Το ποσοστό κάθε κατηγορίας που ερμηνεύεται αν επιλέξουμε έστω k άξονες. Αν κρατήσουμε k άξονες λογικά χάνουμε κάποιο κομμάτι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 60

61 πληροφορίας κάθε μεταβλητής και επιπλέον μπορούμε να υπολογίσουμε το ποσοστό της Αδράνειας που ερμηνεύεται τελικά. Αυτό το κριτήριο επιλέγει τόσους άξονες έτσι ώστε να ερμηνεύεται για κάθε κατηγορία τουλάχιστον ένα μεγάλο ποσοστό. Όμως και σε αυτήν την περίπτωση το κριτήριο εμπεριέχει υποκειμενικότητα και συν τοις άλλοις υπάρχει το ενδεχόμενο κάποια κατηγορία να μην ερμηνεύεται με σωστό τρόπο και έτσι να οδηγηθούμε σε μεγάλο αριθμό αξόνων. Παράλληλα, άλλες πολυπλοκότερες τεχνικές επιλογής αξόνων είναι αυτές που στηρίζονται σε αναδειγματοληπτικές μεθόδους (resampling methods), όπως είναι η μέθοδος bootstrap και επίσης υπάρχουν και άλλες τεχνικές που προσπαθούν να ποσοτικοποιήσουν την προσέγγιση του Scree Plot, στην οποία μερικοί συγγραφείς θέλοντας να παρακάμψουν το μειονέκτημα της συγκεκριμένης μεθόδου ως προς την εύρεση του σημείου αλλαγής κλίσης, πρότειναν κάποιες μεθόδους για αυτήν ακριβώς την εύρεση της αλλαγής κλίσης με τη βοήθεια εμπειρικών παρατηρήσεων ή και τη χρήση γραμμικών μοντέλων. Εδώ να αναφέρουμε ότι καθώς η Ανάλυση Αντιστοιχιών είναι κατά βάση μια γραφική τεχνική αναπαράστασης δεδομένων σε ένα γράφημα που θα προσφέρει καλή ερμηνεία στον ερευνητή, συχνά η κατάληξη της μεθόδου είναι ένα Biplot των δύο πρώτων αξόνων χωρίς να ενδιαφερόμαστε για τους υπόλοιπους άξονες. 6.3: Συμπληρωματικά Σημεία (Supplementary Points) Η Ανάλυση Αντιστοιχιών χαρακτηρίζεται από μια ακόμα χρήσιμη και σημαντική ιδιότητα: Μας παρέχει τη δυνατότητα να προσθέσουμε στη γραφική απεικόνιση Συμπληρωματικά σημεία (Supplementary Points), που είναι σημεία τα οποία δε χρησιμοποιήθηκαν προηγουμένως στην ανάλυση. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 61

62 Συγκεκριμένα, έχοντας κατασκευάσει τους βασικούς άξονες των προφίλ που αναλύονται, η Ανάλυση Αντιστοιχιών προσφέρει το πλεονέκτημα της επιπλέον απεικόνισης σημείων στο χώρο. Αυτό έχει ως συνέπεια να διευρύνει την ερμηνευσιμότητα της ανάλυσης, αφού επιτρέπει την παρατήρηση διαφορετικών «patterns» στα σημεία που αποτυπώνονται στο γράφημα της μεθόδου. Πρέπει να σημειώσουμε ότι τα Συμπληρωματικά σημεία αφορούν κυρίως τις βασικές μεταβλητές, αυτές δηλαδή που παρουσιάζουν το μεγαλύτερο ενδιαφέρον από πλευράς ανάλυσης. Από τεχνικής απόψεως, τα Συμπληρωματικά σημεία προστίθενται στην παρουσίαση όπως και αναπαρίστανται και τα υπόλοιπα σημεία. Αν έχουμε στη διάθεσή μας τα Προφίλ των Συμπληρωματικών σημείων, τότε είναι εύκολο να υπολογίσουμε την απόσταση του νέου σημείου από το κέντρο και περαιτέρω μπορούμε με τη βοήθεια αυτής της απόστασης να βρούμε τις συντεταγμένες του νέου σημείου στον υπάρχοντα χώρο των βασικών αξόνων. Συμπερασματικά, η χρήση των Συμπληρωματικών σημείων είναι κατάλληλη για τη διαχρονική παρακολούθηση και σύγκριση αποτελεσμάτων. Αυτό επιτυγχάνεται συνήθως με την ταυτόχρονη παρουσίαση αποτελεσμάτων διαχρονικών ερευνών στο ίδιο γράφημα και έτσι γίνονται εύκολα αντιληπτές οι διαφορές. Παράλληλα η προσαρμογή των συμπληρωματικών σημείων μπορεί συγχρόνως να χρησιμεύσει ως έλεγχος εγκυρότητας (Lebart, Morineau & Warwick 1984, p.163). Λόγω του ότι ένα συμπληρωματικό σημείο δεν έχει συνεισφορά στον άξονα, η τετραγωνική του συσχέτιση (Σχετική Συνεισφορά- Relative Contribution) με κάθε βασικό άξονα μπορεί να εξεταστεί. Μεγάλες τιμές υποδεικνύουν καλή προσαρμογή στην απεικόνιση και υπονοούν εγκυρότητα των μεταβλητών που μελετώνται. Συνάμα, μια άλλη χρήση των Συμπληρωματικών σημείων είναι ότι μπορούν να ελέγξουν τη μεταβλητότητα του αποτελέσματος. Εννοούμε δηλαδή ότι επαναλαμβανόμενες ομάδες από γραμμές συχνοτήτων μπορούν να παράγονται από Πολυωνυμική κατανομή. Η απεικόνιση των νέων αυτών προφίλ μπορεί να γίνει στην αρχική γραφική αναπαράσταση ως Συμπληρωματικά σημεία και αυτό μας δίνει τη δυνατότητα να παρατηρήσουμε τη δειγματική διακύμανση. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 62

63 6.4: Ποιότητα Παρουσίασης Ένας αριθμός δευτερευόντων στατιστικών συναρτήσεων αναφέρονται στη βιβλιογραφία και που έχουν ως σκοπό να βοηθήσουν στην αποτίμηση της ποιότητας του αντίστοιχα επιλεγμένου αριθμού διαστάσεων. Το γενικότερο μέλημα εδώ συνίσταται στο ότι όλα ή τουλάχιστον τα περισσότερα σημεία απεικονίζονται κατάλληλα από την αντίστοιχη λύση, στην οποία οι αποστάσεις των σημείων από άλλα σημεία μπορεί να προσεγγιστούν σε ένα ικανοποιητικό βαθμό. Το μέτρο «Ποιότητα (Quality)» περιέχει πληροφορίες σχετικά με την ποιότητα της παρουσίασης των αντίστοιχων σημείων γραμμών στο σύστημα συντεταγμένων που προσδιορίζεται από το αντίστοιχο πλήθος των διαστάσεων, όπως επιλέγονται από τον ερευνητή. Η «Ποιότητα (Quality)» ενός σημείου ορίζεται ως ο λόγος της τετραγωνικής απόστασης ενός σημείου από την αρχή των αξόνων στον επιλεγμένο αριθμό διαστάσεων, προς την τετραγωνική απόσταση από την αρχή των αξόνων στο χώρο που ορίζεται από το μέγιστο αριθμό διαστάσεων (η μετρική απόστασης είναι η X 2 ). Η Συνολική Ποιότητα (Total Quality) είναι η αναλογία που αντιπροσωπεύει την τετραγωνική απόσταση από το Κεντροειδές. Παρατηρούμε λοιπόν ότι υπάρχει αναλογία με την Παραγοντική Ανάλυση, όπου η ποιότητα ενός σημείου είναι παρόμοια με την ερμηνεία της Εταιρικότητας (Communality) μιας μεταβλητής. Πρέπει να σημειώσουμε πως το μέτρο της Ποιότητας είναι ανεξάρτητο της επιλεγμένης μεθόδου τυποποίησης και πάντα αναφέρεται στην προεπιλεγμένη τυποποίηση. Μια μικρή Ποιότητα συνεπάγεται ότι ο υπάρχων αριθμός διαστάσεων δεν απεικονίζει ικανοποιητικά την αντίστοιχη γραμμή (ή στήλη). Παράλληλα, η Ποιότητα ενός σημείου αναπαριστάνει την αναλογία της Συνεισφοράς αυτού του σημείου στη Συνολική Αδράνεια (X 2 Chisquare) που αντιπροσωπεύεται από τον επιλεγμένο αριθμό διαστάσεων. Όμως, δεν επισημαίνει σε τί βαθμό και αν όντως συνεισφέρει το αντίστοιχο σημείο στη συνολική Αδράνεια (X 2 τιμή). Ως γνωστό το τετράγωνο του συνημιτόνου ενός σημείου γραμμής ή στήλης και ενός άξονα είναι το τετράγωνο του συνημιτόνου της γωνίας που σχηματίζεται μεταξύ του άξονα και της ευθείας που ενώνει την αρχή των αξόνων με το συγκεκριμένο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 63

64 σημείο. Οπότε, εάν το σημείο είναι τοποθετημένο πάνω στον άξονα τότε η γωνία θα είναι μηδέν και έτσι το τετράγωνο του συνημιτόνου θα είναι ίσο με τη μονάδα. Αν πάλι η συντεταγμένη του σημείου για το δεδομένο άξονα είναι μηδέν τότε η γωνία θα είναι ίση με 90 ο και το συνημίτονο τότε θα είναι ίσο με το μηδέν. Από όλα τα παραπάνω διαπιστώνουμε ότι η τιμή του τετραγώνου του συνημιτόνου αποτελεί ένδειξη της συσχέτισης μεταξύ των σημείων και των αξόνων. Η Ποιότητα της Παρουσίασης στο χώρο μειωμένων διαστάσεων n για κάθε σημείο, ορίζεται ως το άθροισμα των τετραγώνων των συνημιτόνων και για τις n διαστάσεις που χρησιμοποιούνται για την αναπαράσταση των σημείων. Επιπλέον αυτές οι ποσότητες ονομάζονται Ποιότητα ή Τετραγωνικές Συσχετίσεις μιας μεταβλητής με κάθε άξονα. Η μετρική Συνημίτονο (Cosine 2 ) αναφέρεται στην Ποιότητα κάθε σημείου ανά διάσταση. Το άθροισμα αυτών των τιμών των αντίστοιχων στηλών κατά μήκος των διαστάσεων ισούται με τη Συνολική Ποιότητα. Αυτή η τιμή μπορεί επίσης να ερμηνευθεί ως η συσχέτιση του αντίστοιχου σημείου με την αντίστοιχη διάσταση. o 6.4.1: Ποιότητα Παρουσίασης- Σχετικές Συνεισφορές στην Αδράνεια Μετά την ερμηνεία των διαστάσεων και την επιλογή των αξόνων, το επόμενο βήμα στην Ανάλυση Αντιστοιχιών είναι ο καθορισμός της «Ποιότητας 2 2 Παρουσίασης» κάθε σημείου στην απεικόνιση. Η ποσότητα hit / hit ( h 2 it είναι οι τετραγωνικές αποστάσεις) δίνει τη Σχετική Συνεισφορά (Relative Contribution) του t-οστού άξονα στην Αδράνεια της i-οστής γραμμής. Ένας ανάλογος ορισμός ισχύει και για τις Σχετικές Συνεισφορές των κατηγοριών των στηλών. Αυτές οι τιμές είναι ανεξάρτητες της Μάζας του σημείου και προσδιορίζουν πόσο καλά κάθε σημείο ταιριάζει στην αναπαράσταση. Μια Σχετική Συνεισφορά είναι στην ουσία μια τετραγωνική συσχέτιση, επειδή είναι ίση με το cos 2 της γωνίας θ μεταξύ του σημείου και του i-οστού βασικού άξονα. Μεγάλες τιμές του cos 2 υποδηλώνουν ότι ο άξονας εξηγεί την Αδράνεια του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 64 t

65 σημείου πολύ καλά. Η γωνία θ είναι μικρή και το Προφίλ του σημείου είναι πάνω στην κατεύθυνση του άξονα και συσχετίζεται πολύ με αυτό. Αθροίζοντας σε όλους τους άξονες ενδιαφέροντος, οι Σχετικές Συνεισφορές δίνουν την «Ποιότητα Παρουσίασης». Αυτή όπως είπαμε, είναι απλά το cos 2 της γωνίας που σχηματίζει το σημείο με τον υπόχωρο. Κατά συνέπεια, οι Σχετικές Συνεισφορές δίνουν το μέρος της διακύμανσης ενός σημείου που εξηγείται από έναν άξονα και η Ποιότητα δίνει την καλή προσαρμογή της απεικόνισης κάθε σημείου στον υπόχωρο. Το άθροισμα των Σχετικών Συνεισφορών όλων των αξόνων (όχι μόνο αυτών που χρησιμοποιούνται στη γραφική αναπαράσταση) ισούται με τη μονάδα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 65

66 - Κεφάλαιο 7: Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) με το SPSS Η ανάλυση των πινάκων συνάφειας συνήθως περιλαμβάνει μελέτη των Προφίλ Γραμμών και Στηλών και έλεγχο ανεξαρτησίας μέσω του στατιστικού X 2. Ωστόσο, αν το πλήθος των προφίλ είναι πολύ μεγάλο, ο έλεγχος X 2 (Chi-square) δεν αποκαλύπτει τη δομή εξάρτησης. Η διαδικασία Crosstabs προσφέρει μερικά μέτρα και ελέγχους συνάφειας, αλλά δε μπορεί να αναπαραστήσει γραφικά οποιαδήποτε σχέση μεταξύ των μεταβλητών. 7.1: Δεδομένα (Data) Οι κατηγορικές μεταβλητές που θα αναλυθούν είναι σε Ονομαστική Κλίμακα (Nominal Scale). Για συγκεντρωτικά δεδομένα ή για μέτρο αντιστοιχίας διαφορετικό από τις συχνότητες, χρησιμοποιούμε μια μεταβλητή στάθμισης με θετικές τιμές ομοιότητας. Εναλλακτικά, για δεδομένα πινάκων χρησιμοποιούμε τη σύνταξη (syntax) για την ανάγνωση του πίνακα. 7.2: Υποθέσεις (Assumptions) Ο μέγιστος αριθμός διαστάσεων που μπορεί να χρησιμοποιηθεί στη διαδικασία εξαρτάται από το πλήθος των ενεργών επιπέδων- κατηγοριών των γραμμών και στηλών και ακόμα από τον αριθμό περιορισμών ισότητας (equality constraints). Εάν δεν υπάρχουν περιορισμοί ισότητας και όλες οι κατηγορίες είναι ενεργές, η μέγιστη διαστατικότητα είναι ένα επίπεδο λιγότερο από το πλήθος των επιπέδων- κατηγοριών της μεταβλητής με τα λιγότερα επίπεδα. Οι Συμπληρωματικές (Supplementary) κατηγορίες δεν είναι ενεργές. Όλα τα σύνολα επιπέδων- κατηγοριών που έχουν τον περιορισμό να είναι ίσα, θα πρέπει να τα μεταχειριζόμαστε σα μια κατηγορία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 66

67 7.3: Πίνακας Αντιστοιχιών- Crosstabs Ο πίνακας Αντιστοιχιών P είναι ένας πίνακας διπλής εισόδου, του οποίου τα κελιά περιέχουν ένα μέτρο αντιστοιχίας ανάμεσα στις γραμμές και τις στήλες του. Αυτό το μέτρο αντιστοιχίας μπορεί να είναι οποιαδήποτε ένδειξη ομοιότητας, συνάφειας, αβεβαιότητας, συσχέτισης ή αλληλεπίδρασης μεταξύ γραμμών και στηλών. Ένας πολύ συνηθισμένος τύπος πίνακα Αντιστοιχιών είναι η Διασταύρωση- Πινακοποίηση (Crosstabulation), όπου τα κελιά περιέχουν μετρήσεις συχνοτήτων. Τέτοιοι πίνακες προκύπτουν εύκολα μέσω της διαδικασίας Crosstabs. Παρόλα αυτά, η διαδικασία αυτή δεν δίνει πάντα μια καθαρή εικόνα της φύσεως της σχέσεως που υφίσταται μεταξύ των δύο μεταβλητών. Αυτό ισχύει ιδιαίτερα όταν οι μεταβλητές ενδιαφέροντος είναι ονομαστικές (χωρίς έμφυτη τάξη ή σειρά) και περιέχουν αριθμητικά επίπεδα- κατηγορίες. 7.4: Ανάλυση Αντιστοιχιών- Κανονικοποίηση Η ερμηνεία της Ανάλυσης Αντιστοιχιών από την άποψη της απόστασης, εξαρτάται από τη μέθοδο Κανονικοποίησης που χρησιμοποιείται. Η Ανάλυση Αντιστοιχιών χρησιμοποιείται για να αναλύσει, είτε τις διαφορές μεταξύ των επιπέδων- κατηγοριών μιας μεταβλητής, είτε τις διαφορές ανάμεσα σε μεταβλητές. Με την προεπιλεγμένη Κανονικοποίηση (Default Normalization), αναλύονται οι διαφορές μεταξύ των μεταβλητών γραμμών και στηλών. Ο αλγόριθμος της Ανάλυσης Αντιστοιχιών δύναται να υλοποιήσει πολλά είδη αναλύσεων. Το κεντράρισμα γραμμών και στηλών παράλληλα με τη χρήση αποστάσεων X 2 αντιστοιχεί στην Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis). Αν όμως χρησιμοποιήσουμε εναλλακτικές επιλογές κεντραρίσματος συνδυασμένες με Ευκλείδιες αποστάσεις μας δίνεται μια εναλλακτική απεικόνιση ενός πίνακα σε χώρο μειωμένων διαστάσεων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 67

68 o 7.4.1: Κανονικοποίηση (Normalization) Η Κανονικοποίηση χρησιμοποιείται για να κατανείμει την Αδράνεια στα σκορ των γραμμών και των στηλών. Μερικές πλευρές της λύσης της Ανάλυσης Αντιστοιχιών όπως οι ιδιόμορφες τιμές, η Αδράνεια ανά διάσταση και οι Συνεισφορές δε μεταβάλλονται κάτω από τις διάφορες κανονικοποιήσεις. Τα σκορ γραμμών και στηλών καθώς και οι διακυμάνσεις τους επηρεάζονται. Η Ανάλυση Αντιστοιχιών έχει ορισμένους τρόπους για να «απλώσει» την Αδράνεια. Οι τρεις πιο κοινοί περιλαμβάνουν την εξάπλωση της Αδράνειας στα σκορ των γραμμών μόνο, στα σκορ των στηλών μόνο και τέλος απλώνοντας την Αδράνεια συμμετρικά ταυτόχρονα στα σκορ γραμμών και στηλών. Εν συνεχεία αναλύουμε τέσσερα είδη Κανονικοποίησης: 1) Row Principal. Σε αυτό το είδος Κανονικοποίησης, οι Ευκλείδιες αποστάσεις μεταξύ των σημείων γραμμών προσεγγίζουν τις αποστάσεις X 2 ανάμεσα στις γραμμές του πίνακα αντιστοιχιών. Τα σκορ γραμμών είναι ο σταθμισμένος μέσος όρος των σκορ των στηλών. Τα σκορ των στηλών τυποποιούνται έτσι ώστε να έχουν ένα σταθμισμένο άθροισμα τετραγωνικών αποστάσεων από το κεντροειδές ίσο με τη μονάδα. Εφόσον αυτή η μέθοδος μεγιστοποιεί τις αποστάσεις μεταξύ των επιπέδων γραμμών, καλό είναι κάνουμε χρήση της συγκεκριμένης Κανονικοποίησης αν ενδιαφερόμαστε πρωτίστως να δούμε το πώς οι κατηγορίες μιας μεταβλητής γραμμής διαφέρουν μεταξύ τους. 2) Column Principal. Από την άλλη μεριά, μπορεί να θέλουμε να προσεγγίσουμε τις αποστάσεις X 2 μεταξύ των στηλών του πίνακα Αντιστοιχιών. Σε αυτήν την περίπτωση, τα σκορ των στηλών θα πρέπει να είναι ο σταθμισμένος μέσος όρος των σκορ των γραμμών. Τα σκορ των γραμμών τυποποιούνται έτσι ώστε να έχουν ένα σταθμισμένο άθροισμα τετραγωνικών αποστάσεων από το κεντροειδές ίσο με τη μονάδα. Αυτή η μέθοδος μεγιστοποιεί τις αποστάσεις μεταξύ των επιπέδων στηλών και θα πρέπει να τη χρησιμοποιούμε αν ενδιαφερόμαστε κυρίως να ελέγξουμε ποιες κατηγορίες μιας μεταβλητής στήλης διαφέρουν μεταξύ τους. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 68

69 3) Symmetrical. Μας δίνεται επίσης η δυνατότητα να μεταχειριστούμε τις γραμμές και τις στήλες συμμετρικά. Αυτή η κανονικοποίηση «απλώνει» την Αδράνεια εξίσου στα σκορ γραμμών και στηλών. Αξιοσημείωτο είναι ότι σε αυτήν την περίπτωση ούτε οι αποστάσεις ανάμεσα στα σημεία γραμμών ούτε οι αποστάσεις ανάμεσα στα σημεία στηλών είναι προσεγγίσεις των αποστάσεων X 2. Η μέθοδος αυτή ενδείκνυται όταν ενδιαφερόμαστε βασικά για τις διαφορές ή τις ομοιότητες μεταξύ δύο μεταβλητών. Συνήθως, αυτή είναι η προτιμώμενη μέθοδος κατασκευής Biplot. 4) Principal. Μια τέταρτη επιλογή ονομάζεται Κύρια Κανονικοποίηση, στην οποία η Αδράνεια απλώνεται δύο φορές στη λύση- μία στα σκορ γραμμών και μία στα σκορ στηλών. Θα πρέπει να κάνουμε χρήση αυτής της μεθόδου εάν ενδιαφερόμαστε για τις αποστάσεις ανάμεσα στα σημεία γραμμών και τις αποστάσεις ανάμεσα στα σημεία στηλών χωριστά και όχι στο πώς τα σημεία γραμμών και στηλών συσχετίζονται μεταξύ τους. Τα Biplots δεν είναι κατάλληλα για αυτόν τον τύπο κανονικοποίησης και ως εκ τούτου δεν είναι διαθέσιμα αν έχουμε επιλέξει τη μέθοδο της Κύριας Κανονικοποίησης. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 69

70 7.5: Περιγραφή Διαδικασίας Απλής Ανάλυσης Αντιστοιχιών Η Ανάλυση Αντιστοιχιών- Correspondence Analysis συμπεριλαμβάνεται στο στατιστικό πακέτο για κοινωνικές επιστήμες SPSS από τη 10 η έκδοση. Το μονοπάτι που ακολουθούμε στο Μενού Εντολών είναι το ακόλουθο όπως φαίνεται και στην Εικόνα 1: Analyze/ Dimension Reduction/ Correspondence Analysis Εικόνα 1: Μενού επιλογής Απλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 70

71 Εν συνεχεία ανοίγει το Βασικό Μενού της Ανάλυσης Αντιστοιχιών (Εικόνα 2). Πρώτα από όλα, είμαστε υποχρεωμένοι να προσδιορίσουμε τις μεταβλητές που ορίζουν τις γραμμές και τις στήλες του υπό ανάλυση πίνακα από τον οποίο αντλούμε τα δεδομένα μας. Επιλέγουμε επομένως τις μεταβλητές από το πλαίσιο αριστερά και με τη βοήθεια των βελών τις μεταφέρουμε δεξιά, στο πλαίσιο Row για τις γραμμές και Column για τις στήλες. Αφού επιλέξουμε τις μεταβλητές βλέπουμε να εμφανίζεται δίπλα στο όνομα κάθε μιας από αυτές το εξής (?,?). (Να σημειώσουμε ότι οι μεταβλητές που εμφανίζονται στα ακόλουθα μενού επιλογής περιγραφής της θεωρίας, τόσο στο SPSS όσο και στο MINITAB, δεν είναι αυτές που θα συμπεριληφθούν στην πρακτική εφαρμογή). Εικόνα 2: Βασικό Μενού Απλής Ανάλυσης Αντιστοιχιών Στο σημείο αυτό, όπως βλέπουμε και στην Εικόνα 3, είναι απαραίτητο στα κουμπιά Define Range να δηλώσουμε το εύρος των τιμών, τόσο των μεταβλητών- γραμμών όσο και των μεταβλητών- στηλών που θα λάβει υπόψη ο αλγόριθμος του SPPS για να κάνει τους υπολογισμούς προς εύρεση των αποτελεσμάτων. Άρα, ορίζουμε τη μικρότερη και τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 71

72 μεγαλύτερη τιμή στα πεδία Minimum Value και Maximum Value αντίστοιχα. Παράλληλα, στο κάτω πλαίσιο έχουμε τη δυνατότητα να προσδιορίσουμε το πώς θα χρησιμοποιήσουμε μια κατηγορία. Έχουμε τρεις επιλογές: «Κανένας περιορισμός (None)» ή «Οι κατηγορίες πρέπει να είναι ίσες (Categories must be equal)» ή «Η κατηγορία μπορεί να χρησιμοποιηθεί ως Συμπληρωματικό σημείο αλλά όχι για την κατασκευή των αξόνων (Category is supplemental)». Εικόνα 3: Define Row Range menu Από το Βασικό Μενού της Ανάλυσης Αντιστοιχιών στην Εικόνα 2 έχουμε τρεις επιλογές πάνω δεξιά: 1. Model menu Στην Εικόνα 4 εμφανίζεται το Model Menu, στο οποίο ορίζουμε τα εξής: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 72

73 Στο πάνω μέρος του παραθύρου προσδιορίζουμε τον αριθμό των διαστάσεων (Dimensions in solution) που θα περιλαμβάνει η λύση της ανάλυσης. Παρατηρούμε ότι είναι προεπιλεγμένος (default) ο αριθμός 2. Στο πλαίσιο Distance Measure προσδιορίζουμε το μέτρο που θα χρησιμοποιήσουμε για να υπολογίσουμε τις αποστάσεις (στην κλασική Ανάλυση Αντιστοιχιών η απόσταση πρέπει να είναι η X 2 ). Υπάρχουν δύο επιλογές, η απόσταση X 2 και η Ευκλείδια απόσταση. Στο πλαίσιο Standardization Method προσδιορίζουμε τη μέθοδο Τυποποίησης. H προεπιλεγμένη (default) επιλογή του πακέτου είναι «Row and Column means are removed». Εν τέλει, στο κάτω μέρος του παραθύρου προσδιορίζουμε τη μέθοδο Κανονικοποίησης (Normalization Method). Η επιλογή αυτή έχει σχέση με τις ποσότητες που χρησιμοποιούνται για την τυποποίηση των αποστάσεων και ουσιαστικά ορίζει τα βάρη τα οποία δίνονται σε κάθε γραμμή ή στήλη. H προεπιλεγμένη (default) επιλογή του SPSS είναι Συμμετρική Κανονικοποίηση (Symmetrical). Υπάρχουν επίσης και οι επιλογές Row Principal, Column Principal, Custom και Principal. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 73

74 Εικόνα 4: Model menu 2. Statistics menu Στην Εικόνα 5 εμφανίζεται το Statistics Menu, στο οποίο επιλέγουμε τις ποσότητες που θα εμφανισθούν στην έξοδο δεδομένων (Output) των αποτελεσμάτων. Έτσι έχουμε την ευχέρεια να επιλέξουμε μεταξύ των άλλων: Τον αρχικό αναλυτικό πίνακα συνάφειας (Correspondence Table). Τα Προφίλ Γραμμών και Στηλών (Row & Column Profiles). Κάποια στατιστικά για συμπερασματολογία βασισμένα σε ασυμπτωτικά αποτελέσματα και συγκεκριμένες υποθέσεις (Confidence Statistics for Row points & Column points). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 74

75 H προεπιλεγμένη (default) επιλογή του πακέτου είναι Correspondence Table, Overview of row points και Overview of column points. Εικόνα 5: Statistics menu 3. Plots menu Στην Εικόνα 6 εμφανίζεται το Plots Menu, μέσω του οποίου μπορούμε να επιλέξουμε τα γραφήματα που θέλουμε να συγκαταλέγονται στην παρουσίαση. Το SPSS μας επιτρέπει την κατασκευή μόνο Συμμετρικών Biplot όπως και μονοδιάστατων Dotplot για τα scores γραμμών και στηλών. Ακόμα υπάρχει η δυνατότητα να δημιουργήσουμε ένα Line plot, στο οποίο οι κατηγορίες της ίδιας μεταβλητής συνδέονται μεταξύ τους με γραμμές. Ταυτόχρονα στο κάτω μέρος του παραθύρου, μπορούμε να προσδιορίσουμε το αν επιθυμούμε να συμμετάσχουν όλες Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 75

76 οι διαστάσεις στη λύση «Display all dimensions in the solution» ή να περιορίσουμε τον αριθμό τους επιλέγοντας «Restrict the number of dimensions». H προεπιλεγμένη (default) επιλογή του SPSS είναι το Συμμετρικό Biplot. Εικόνα 6: Plots menu Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 76

77 - Κεφάλαιο 8: Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) με το MINITAB 8.1: Περιγραφή Διαδικασίας Απλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών του MINITAB είναι το ακόλουθο όπως βλέπουμε και στην Εικόνα 7: Stat/ Multivariate/ Simple Correspondence Analysis Εικόνα 7: Μενού επιλογής Απλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 77

78 Εν συνεχεία ανοίγει το Βασικό Μενού της Απλής Ανάλυσης Αντιστοιχιών (Εικόνα 8). Εικόνα 8: Βασικό Μενού Απλής Ανάλυσης Αντιστοιχιών Εμφανίζεται έτσι το πλαίσιο διαλόγου όπου στο πάνω μέρος υπάρχει το πεδίο Input Data, στο οποίο ορίζουμε τις παραμέτρους που αφορούν τα δεδομένα εισαγωγής. Πρώτα από όλα, πρέπει να δηλώσουμε τη μορφή των δεδομένων, αν δηλαδή είναι υπό τη μορφή κατηγορικών μεταβλητών (Categorical variables) ή τα δεδομένα αποτελούν τις στήλες ενός πίνακα συνάφειας (Columns of a contingency table). Στη μεν πρώτη επιλογή της εισαγωγής των δεδομένων ως κατηγορικών μεταβλητών (Categorical variables), αν δε χρησιμοποιήσουμε το υπομενού Combine που βρίσκεται στο κάτω μέρος του παραθύρου, τότε εισάγουμε δύο στήλες στο φύλλο εργασίας (Worksheet). Η πρώτη αναφέρεται στα επίπεδα- κατηγορίες της μιας μεταβλητής- γραμμής και η δεύτερη αναφέρεται στα επίπεδα- κατηγορίες της μιας μεταβλητής- στήλης. Το MINITAB στη συνέχεια συγκροτεί έναν πίνακα συνάφειας από τα εισαχθέντα δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 78

79 Αν επιλέξουμε να εισάγουμε τα δεδομένα ως στήλες ενός πίνακα συνάφειας (Columns of a contingency table), τότε κάθε στήλη που θα εισάγουμε στο φύλλο εργασίας θα χρησιμοποιείται σαν στήλη του πίνακα συνάφειας. Όλες οι τιμές στις στήλες του πίνακα πρέπει να ακέραιες θετικές ή ίσες με το μηδέν. Στο πλαίσιο Row names εισάγουμε μια στήλη που περιέχει ονόματα για τις γραμμές του πίνακα συνάφειας. Το MINITAB εκτυπώνει τους πρώτους 8 χαρακτήρες των ονομάτων στους πίνακες ενώ παράλληλα εκτυπώνει τα πλήρη ονόματα στα γραφήματα. Εάν δεν ορίσουμε ονόματα εδώ, οι γραμμές θα ονομαστούν Row1, Row2, κ.τ.λ. Στο πλαίσιο Column names εισάγουμε μια στήλη που περιέχει ονόματα για τις στήλες του πίνακα συνάφειας. Ομοίως με προηγουμένως, το MINITAB εκτυπώνει τους πρώτους 8 χαρακτήρες των ονομάτων στους πίνακες ενώ παράλληλα εκτυπώνει τα πλήρη ονόματα στα γραφήματα. Εάν δεν ορίσουμε ονόματα και εδώ τότε οι στήλες θα ονομαστούν Column1, Column2, κ.τ.λ. Στο πλαίσιο Number of components εισάγουμε το πλήθος των συνιστωσώνδιαστάσεων που θα υπολογιστούν. Ο ελάχιστος αριθμός των διαστάσεων είναι ίσος με τη μονάδα, ενώ ο μέγιστος αριθμός τους για έναν πίνακα συνάφειας με r γραμμές και c στήλες είναι το ελάχιστο των (r-1) ή (c-1), το οποίο είναι ισοδύναμο με τη διάσταση του υποχώρου πάνω στον οποίο προβάλλονται τα Προφίλ (Profiles). Η προεπιλεγμένη (default) επιλογή διαστάσεων του πακέτου είναι 2. Πατώντας το πλήκτρο Results της Εικόνας 8, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Results (Εικόνα 9), στο οποίο μπορούμε να επιλέξουμε να συμπεριληφθούν στο παράθυρο εξόδου (Window Output) του MINITAB οι κάτωθι επιλογές: Πίνακας Συνάφειας (Contingency table), Προφίλ & Μάζες Γραμμών (Row Profiles & Row Masses), Προφίλ & Μάζες Στηλών (Column Profiles & Column Masses), Πίνακας Αναμενόμενων Συχνοτήτων (Expected Frequencies), Πίνακας Παρατηρούμενων μείον των Αναμενόμενων Συχνοτήτων (Observed-Expected Frequencies), Τιμές X 2 (Chi-square values) και τέλος οι Σχετικές Αδράνειες (Inertias) για κάθε κελί του πίνακα συνάφειας. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 79

80 Εικόνα 9: Παράθυρο Results Οι μεταβλητές διασταύρωσης (Crossing Variables) μας επιτρέπουν τη χρήση της Απλής Ανάλυσης Αντιστοιχιών για τη μελέτη πινάκων συνάφειας τριπλής και τετραπλής εισόδου. Μπορούμε με αυτόν τον τρόπο να διασταυρώσουμε τις δύο πρώτες μεταβλητές για το σχηματισμό γραμμών και/ ή τις δύο τελευταίες μεταβλητές για το σχηματισμό στηλών. Πρέπει να εισάγουμε τρεις κατηγορικές μεταβλητές για τη διεξαγωγή μιας διασταύρωσης και τέσσερεις μεταβλητές για την εκτέλεση δύο διασταυρώσεων. Προκειμένου να διασταυρώσουμε στήλες πρέπει να επιλέξουμε Categorical variables στο πεδίο Input Data παρά Columns of a contingency table στο βασικό μενού της Απλής Ανάλυσης Αντιστοιχιών της Εικόνας 8. Εάν επιθυμούμε να διασταυρώσουμε είτε μόνο τις σειρές είτε τις στήλες του πίνακα συνάφειας θα πρέπει να εισάγουμε τρεις στήλες φύλλου εργασίας στο πλαίσιο κειμένου Categorical variables. Εάν θέλουμε να διασταυρώσουμε μαζί τις γραμμές και τις στήλες του πίνακα θα πρέπει να ορίσουμε με σαφήνεια τέσσερεις στήλες φύλλου εργασίας σε αυτό το πλαίσιο κειμένου. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 80

81 Θα αναφέρουμε ένα απλό παράδειγμα διασταύρωσης γραμμών για να γίνει κατανοητή η διαδικασία της δημιουργίας πίνακα συνάφειας με τη βοήθεια μεταβλητών διασταύρωσης. Έστω ότι έχουμε τη μεταβλητή γραμμής Φύλο με δύο επίπεδα- κατηγορίες (άνδρας, γυναίκα) και τη μεταβλητή στήλης Ηλικία με τρία επίπεδα (νέος, μεσήλικας, ηλικιωμένος). Διασταυρώνοντας τις μεταβλητές Φύλο & Ηλικία θα δημιουργηθούν 2*3= 6 γραμμές που θα διατάσσονται ως εξής: Άνδρας/ Νέος Άνδρας/ Μεσήλικας Άνδρας/ Ηλικιωμένος Γυναίκα/ Νέα Γυναίκα/ Μεσήλικας Γυναίκα/ Ηλικιωμένη Πατώντας έτσι το πλήκτρο Combine της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Combine Variables (Εικόνα 10). Στο πάνω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Define Rows of the Contingency Table Using με 1 η επιλογή το First variable, την οποία επιλέγουμε για να χρησιμοποιήσουμε την πρώτη στήλη εισαγωγής για το σχηματισμό των γραμμών του πίνακα συνάφειας. Κατ αυτόν τον τρόπο, οι γραμμές του πίνακα συνάφειας δε συγκροτούνται από τις μεταβλητές διασταύρωσης. Παράλληλα, η 2 η επιλογή είναι First 2 variables crossed, την οποία επιλέγουμε για να διασταυρώσουμε τα επίπεδα- κατηγορίες στις δύο πρώτες στήλες εισαγωγής για το σχηματισμό των γραμμών του πίνακα συνάφειας (βλ. προηγούμενο παράδειγμα διασταύρωσης γραμμών). Επιπλέον, στο κάτω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Define Columns of the Contingency Table Using με 1 η επιλογή το Last variable, την οποία επιλέγουμε για να χρησιμοποιήσουμε την τελευταία στήλη εισαγωγής για το σχηματισμό των στηλών του πίνακα συνάφειας ενώ τη 2 η επιλογή Last 2 variables crossed την Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 81

82 επιλέγουμε για να διασταυρώσουμε τα επίπεδα- κατηγορίες στις δύο τελευταίες στήλες εισαγωγής για το σχηματισμό των στηλών του πίνακα συνάφειας. Εικόνα 10: Παράθυρο Combine Τα δεδομένα του φύλλου εργασίας μπορούν να ταξινομηθούν με δύο τρόπους: Ακατέργαστα (Raw) ή σε μορφή πίνακα συνάφειας. Η διάταξη των δεδομένων του φύλλου εργασίας καθορίζει αποδεκτές τιμές δεδομένων. Αν τα δεδομένα δεν έχουν υποστεί επεξεργασία μπορούμε να έχουμε δύο, τρεις ή τέσσερεις στήλες ταξινόμησης με κάθε γραμμή να αντιπροσωπεύει μία παρατήρηση. Όλες οι στήλες πρέπει να έχουν κοινό μήκος. Τα δεδομένα αντιστοιχούν σε κατηγορίες και μπορεί να είναι αριθμητικά, σε μορφή κειμένου ή σε μορφή ημερομηνίας και χρόνου. Αν οι κατηγορίες σε μια στήλη αποτελούνται από δεδομένα σε μορφή κειμένου, τότε τα επίπεδα χρησιμοποιούνται κατά τη σειρά της πρώτης εμφάνισης, παραδείγματος χάριν το πρώτο επίπεδο μετατρέπεται στην πρώτη γραμμή (στήλη) του πίνακα, το επόμενο ευδιάκριτο επίπεδο μετατρέπεται στη δεύτερη γραμμή (στήλη) του πίνακα κ.ο.κ. Εάν Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 82

83 επιθυμούμε να αλλάξουμε τη σειρά στην οποία οι κατηγορίες κειμένου υποβάλλονται σε επεξεργασία από την προεπιλεγμένη αλφαβητική σειρά, έχουμε τη δυνατότητα να ορίσουμε τη δική μας επιθυμητή σειρά. Απαραίτητο όμως είναι πριν υλοποιήσουμε την αναφερθείσα διαδικασία να διαγράψουμε απούσες τιμές (missing values). Λόγω του ότι η Απλή Ανάλυση Αντιστοιχιών δουλεύει με ταξινόμηση διπλής εισόδου, η συνήθης προσέγγιση είναι η χρήση δύο στηλών φύλλου εργασίας. Παρόλα αυτά, έχουμε την ευχέρεια να αντλήσουμε μια ταξινόμηση διπλής εισόδου με τρεις ή τέσσερεις μεταβλητές διασταυρώνοντας μεταβλητές εντός της υλοποίησης της εφαρμογής της Απλής Ανάλυσης Αντιστοιχιών. Εάν τα δεδομένα βρίσκονται σε μορφή πίνακα συνάφειας, οι στήλες του φύλλου εργασίας πρέπει να περιέχουν ακέραιες συχνότητες των συνδυασμών των επιπέδων- κατηγοριών. Πρέπει να απαλείψουμε κάθε γραμμή ή στήλη με απούσες τιμές ή να τις συνδυάσουμε με άλλες γραμμές ή στήλες. Αντίθετα με τη διαδικασία του ελέγχου ανεξαρτησίας X 2, δεν υπάρχει καθορισμένο όριο αναφορικά με το πλήθος των στηλών του πίνακα συνάφειας. Μάλιστα μπορούμε να χρησιμοποιήσουμε την Απλή Ανάλυση Αντιστοιχιών για να λάβουμε X 2 στατιστικά για μεγάλους πίνακες. Όσον αφορά τα Συμπληρωματικά δεδομένα (Supplementary data), διαθέτουμε ένα πρωτεύων σύνολο δεδομένων ταξινόμησης στο οποίο υλοποιούμε την ανάλυση. Εντούτοις, είναι δυνατή η χρήση πρόσθετων ή συμπληρωματικών δεδομένων στην ίδια μορφή με το πρωτεύων σύνολο, διότι έχουμε την ευκαιρία να δούμε το πώς αυτά τα συμπληρωματικά δεδομένα βαθμολογούνται μέσω σκορ (scores), χρησιμοποιώντας τα αποτελέσματα από το πρωτεύων σύνολο. Αυτά τα συμπληρωματικά δεδομένα μπορεί να είναι περαιτέρω πληροφορίες από την ίδια μελέτη, από έτερες μελέτες ή Προφίλ στόχου (Target Profiles). Το MINITAB δεν συμπεριλαμβάνει αυτά τα Συμπληρωματικά δεδομένα όταν Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 83

84 υπολογίζει τις συνιστώσες, όμως μπορούμε να αντλήσουμε τα προφίλ τους και την γραφική τους απεικόνιση. Τα Συμπληρωματικά δεδομένα μπορεί να βρίσκονται υπό τη μορφή γραμμών ή στηλών. Τα Συμπληρωματικά δεδομένα γραμμών απαρτίζουν επιπρόσθετες γραμμές του πίνακα συνάφειας ενώ τα Συμπληρωματικά δεδομένα στηλών αποτελούν επιπλέον στήλες του πίνακα συνάφειας. Να σημειώσουμε εδώ ότι τα Συμπληρωματικά δεδομένα πρέπει να εισαχθούν υπό τη μορφή πίνακα συνάφειας. Επομένως, κάθε στήλη φύλλου εργασίας αυτών των δεδομένων θα πρέπει να περιέχει c καταχωρήσεις (όπου c είναι ο αριθμός των στηλών του πίνακα συνάφειας) ή r καταχωρήσεις (όπου r είναι το πλήθος των γραμμών του πίνακα συνάφειας). Πατώντας το πλήκτρο Supp Data της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Supplementary Data (Εικόνα 11). Εικόνα 11: Παράθυρο Supplementary Data Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 84

85 Σε αυτό το πλαίσιο διαλόγου έχουμε τη δυνατότητα να ρυθμίσουμε τις παραμέτρους τυχόν Συμπληρωματικών δεδομένων. Έτσι, στο πεδίο Supplementary Rows εισάγουμε μία ή περισσότερες στήλες που περιέχουν πρόσθετες γραμμές του πίνακα συνάφειας. Ομοίως, στο πεδίο Supplementary Columns εισάγουμε μία ή περισσότερες στήλες που περιέχουν πρόσθετες στήλες του πίνακα συνάφειας. Στο πεδίο Row Names εισάγουμε μια στήλη που περιλαμβάνει σε κείμενο τα ονόματα των συμπληρωματικών γραμμών και ωσαύτως στο πεδίο Column Names εισάγουμε μια στήλη που περιέχει σε κείμενο τα ονόματα των συμπληρωματικών στηλών. Πατώντας το πλήκτρο Storage της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Storage (Εικόνα 12), μέσω του οποίου μπορούμε να αποθηκεύουμε αποτελέσματα. Η συντεταγμένη της πρώτης διάστασης αποθηκεύεται στην πρώτη στήλη, η συντεταγμένη της δεύτερης διάστασης αποθηκεύεται στη δεύτερη στήλη κ.ο.κ. Αν υπάρχουν Συμπληρωματικά σημεία τότε οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Εικόνα 12: Παράθυρο Storage Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 85

86 Στο πάνω δεξιά μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Columns of the Contingency table, στο οποίο εισάγουμε μία στήλη φύλλου εργασίας για κάθε στήλη του πίνακα συνάφειας. Το MINITAB δεν αποθηκεύει συμπληρωματικές γραμμές και στήλες. Κάτω από αυτό το πλαίσιο διαλόγου υπάρχουν οι ακόλουθες επιλογές: Row principal coordinates, Row standardized coordinates, Column principal coordinates και Column standardized coordinates. Επιλέγοντας το Row principal coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται RPC1, η συντεταγμένη για τη δεύτερη διάσταση αποθηκεύεται σε μια στήλη με το όνομα RPC2 κ.ο.κ. Στην επιλογή Row standardized coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται RSC1 κ.ο.κ.όσον αφορά τις επιλογές Column principal coordinates και Column standardized coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται CPC1 και CSC2 αντίστοιχα. Να σημειώσουμε και πάλι ότι στην περίπτωση που εντοπιστούν συμπληρωματικά σημεία οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Αν πατήσουμε το πλήκτρο της Εικόνας 8 Graphs θα ανοίξει το ακόλουθο παράθυρο Simple Correspondence Analysis- Graphs (Εικόνα 13), μέσω του οποίου έχουμε τη δυνατότητα να κατασκευάσουμε γραφήματα ολοκληρώνοντας την ανάλυση. Σε όλα τα διαγράμματα, τα σημεία γραμμών αναπαρίστανται με κόκκινους κύκλους, τρισδιάστατους κύκλους για τα κανονικά σημεία και ανοικτούς κύκλους για τα συμπληρωματικά σημεία. Τα σημεία στηλών απεικονίζονται με μπλε τετράγωνα, τρισδιάστατα τετράγωνα για τα κανονικά σημεία και ανοικτά τετράγωνα για τα συμπληρωματικά σημεία. Ο λόγος διαστάσεων των γραφημάτων είναι ένα προς ένα έτσι ώστε μια μονάδα στον άξονα x να είναι ίση με μια μονάδα στον άξονα y. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 86

87 Εικόνα 13: Παράθυρο Graphs Στο πάνω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Axis pairs for all plots (Y then X), στο οποίο εισάγουμε από 1 έως και 15 ζεύγη αξόνων για κάθε διάγραμμα που ζητείται. Οι άξονες που εισάγονται πρέπει να είναι άξονες στον υπόχωρο που ορίσαμε στο βασικό μενού της Εικόνας 8. Για παράδειγμα, αν εισάγουμε 4 στον αριθμό των διαστάσεων τότε μπορούμε να πινακογραφήσουμε τους άξονες 1,2,3 και 4. Ο πρώτος άξονας σε ένα ζευγάρι θα είναι ο Y ή ο κάθετος άξονας στο διάγραμμα. Ο δεύτερος άξονας θα είναι ο X ή ο οριζόντιος άξονας του γραφήματος. Παραδείγματος χάριν, αν εισάγουμε διαγράμματα, θα έχουμε τη διάσταση 2 έναντι της διάστασης 1 και τη διάσταση 3 έναντι της διάστασης 1. Κάτω από αυτό το πλαίσιο διαλόγου υπάρχει η επιλογή Show supplementary points in all plots, την οποία επιλέγουμε για την απεικόνιση των συμπληρωματικών σημείων σε όλα τα διαγράμματα. Συνάμα βλέπουμε και το πλαίσιο διαλόγου Plots με τις ακόλουθες επιλογές: Symmetric plot showing rows only, Symmetric plot showing columns only, Symmetric plot showing rows and columns, Asymmetric row plot showing Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 87

88 rows and columns, Asymmetric column plot showing rows and columns. Επιλέγουμε το Symmetric plot showing rows only για την απεικόνιση διαγράμματος που δείχνει τις Κύριες Συντεταγμένες γραμμών (Row Principal Coordinates) και ομοίως το Symmetric plot showing columns only για την αναπαράσταση γραφήματος που δείχνει τις Κύριες Συντεταγμένες στηλών (Column Principal Coordinates). Με την επιλογή Symmetric plot showing rows and columns δημιουργούμε διάγραμμα που αναπαριστά ταυτόχρονα τις Κύριες Συντεταγμένες γραμμών & στηλών που επικαλύπτονται σε μια από κοινού απεικόνιση. Τέλος, η επιλογή Asymmetric row plot showing rows and columns κατασκευάζει ένα Μη Συμμετρικό γράφημα γραμμών και παρόμοια η επιλογή Asymmetric column plot showing rows and columns δημιουργεί ένα Μη Συμμετρικό διάγραμμα στηλών. Το MINITAB μας δίνει την ευχέρεια να κατασκευάσουμε ένα από τα εξής διαγράμματα: 1) Γράφημα γραμμών ή γράφημα στηλών 2) Συμμετρικό γράφημα και 3) Μη Συμμετρικό γράφημα γραμμών ή Μη Συμμετρικό γράφημα στηλών. Το Γράφημα γραμμών είναι ένα γράφημα των κύριων συντεταγμένων γραμμών. Το Γράφημα στηλών είναι ομοίως ένα διάγραμμα των κύριων συντεταγμένων στηλών. Το Συμμετρικό γράφημα είναι ένα γράφημα των κύριων συντεταγμένων γραμμών και στηλών σε μια από κοινού αναπαράσταση. Ένα πλεονέκτημα αυτού του διαγράμματος είναι ότι τα Προφίλ είναι απλωμένα για καλύτερη θέαση των μεταξύ τους αποστάσεων. Οι αποστάσεις, γραμμή από γραμμή και στήλη από στήλη, είναι κατά προσέγγιση X 2 αποστάσεις μεταξύ των αντίστοιχων Προφίλ. Παρόλα αυτά, η ίδια ερμηνεία δε μπορεί να γίνει για αποστάσεις γραμμής από στήλη, διότι αυτές οι αποστάσεις είναι δύο διαφορετικές απεικονίσεις και επομένως χρειάζεται ιδιαίτερη προσοχή στην ερμηνεία αυτών των γραφημάτων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 88

89 Το Μη Συμμετρικό γράφημα γραμμών είναι ένα γράφημα των κύριων συντεταγμένων γραμμών και των πρότυπων συντεταγμένων στηλών σε μια από κοινού αναπαράσταση. Οι αποστάσεις ανάμεσα στα σημεία γραμμών είναι προσεγγιστικά X 2 αποστάσεις μεταξύ των Προφίλ γραμμών. Ενδείκνυται η χρήση του Μη Συμμετρικού γραφήματος γραμμών από το Μη Συμμετρικό γράφημα στηλών αν οι γραμμές έχουν περισσότερο ενδιαφέρον. Τα αντίστοιχα ισχύουν και για το Μη Συμμετρικό γράφημα στηλών. Ένα πλεονέκτημα των Μη Συμμετρικών διαγραμμάτων συνίσταται στο ότι σε αυτά μπορεί να υπάρξει μια διαισθητική ερμηνεία των αποστάσεων ανάμεσα στα σημεία γραμμών και σημεία στηλών, ειδικά αν οι δύο διαστάσεις απεικόνισης αντιπροσωπεύουν ένα μεγάλο ποσοστό της συνολικής Αδράνειας. Όσο πιο κοντά βρίσκεται ένα Προφίλ γραμμής σε μια κορυφή στήλης τόσο πιο μεγάλο είναι το Προφίλ γραμμής αναφορικά με το επίπεδο- κατηγορία της στήλης. Ένα μειονέκτημα των Μη Συμμετρικών διαγραμμάτων είναι ότι τα Προφίλ ενδιαφέροντος συχνά πυκνά συνωστίζονται στο μέσο του γραφήματος. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 89

90 - Κεφάλαιο 9: Άλλα Ζητήματα 9.1: Συμβουλές- Υποδείξεις Όσον αφορά την Ανάλυση Αντιστοιχιών καλό είναι να αναφερθούμε σε κάποιες συμβουλές και υποδείξεις που έχουν ως σκοπό την βαθύτερη κατανόηση της μεθόδου. Η Ανάλυση Αντιστοιχιών είναι ένα ισχυρό εργαλείο της περιγραφικής/ διερευνητικής (exploratory) ανάλυσης και ως επί το πλείστον οδηγεί σε μια γραφική αναπαράσταση που απεικονίζει τα σημεία γραμμών και στηλών σε δύο βασικούς άξονες (δύο διαστάσεις). Όταν όμως έχουμε να αναλύσουμε πραγματικές εφαρμογές, συνήθως οι δύο αυτοί βασικοί άξονες δεν επιτυγχάνουν ικανοποιητική ερμηνεία της μεταβλητότητας των δεδομένων και επομένως είναι λογικό να επιθυμούμε τη γραφική απεικόνιση των δεδομένων σε περισσότερους άξονες. Στην περίπτωση αυτή όμως υπάρχει το μειονέκτημα που αφορά τη δυσκολία της ανθρώπινης αντίληψης να κατανοήσει και να ερμηνεύσει διαγράμματα τριών διαστάσεων και ως εκ τούτου τα τρισδιάστατα γραφήματα (ταυτόχρονη απεικόνιση των τριών πρώτων βασικών αξόνων) ουσιαστικά δεν χρησιμεύουν στην ερμηνεία. Σε αυτό το πρόβλημα, μια ενδεδειγμένη λύση θα ήταν να κατασκευάσουμε και να παρουσιάσουμε δισδιάστατα διαγράμματα των αξόνων κατά ζεύγη, όπως για παράδειγμα τον πρώτο άξονα με τον τρίτο άξονα ή τον δεύτερο άξονα με τον τρίτο κ.ο.κ. αλλά αυτό είναι κάτι που κατά κύριο λόγο χρειάζεται ιδιαίτερη εμπειρία. Πάντως, όπως αναφέραμε και προηγουμένως, αν οι δύο πρώτοι κύριοι άξονες εμπεριέχουν τα βασικά ευρήματα της ανάλυσης, εντούτοις η περαιτέρω ενασχόληση με περισσότερους άξονες θα μπορούσε να αποκαλύψει ενδιαφέρουσες δομές. Μια άλλη σημαντική απόφαση που πρέπει να παρθεί από έναν ερευνητή είναι η αλλαγή κλίμακας των συντεταγμένων. Η φύση της επιλογής αφορά Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 90

91 το αν επιδιώκουμε να αναλύσουμε τα ποσοστά των σχετικών συχνοτήτων γραμμών/ στηλών ή και των δύο. Οι συντεταγμένες βασίζονται στην ανάλυση του πίνακα- μητρώου των Προφίλ Γραμμών (Row Profile Matrix), όπου το άθροισμα των εισαχθέντων δεδομένων σε μια γραμμή κατά μήκος μιας στήλης είναι ίσο με τη μονάδα (κάθε σημείο εισόδου r ij σε ένα πίνακα Προφίλ Γραμμών, μπορεί να ερμηνευθεί ως η δεσμευμένη πιθανότητα ότι μια παρατήρηση ανήκει στη στήλη j δοθέντος ότι ανήκει στη γραμμή i). Άρα, οι συντεταγμένες υπολογίζονται για να μεγιστοποιήσουν τις διαφορές μεταξύ των σημείων όσον αφορά τα Προφίλ Γραμμών (ποσοστά γραμμών). Οι συντεταγμένες γραμμών υπολογίζονται από τον πίνακα Προφίλ Γραμμών ενώ οι συντεταγμένες στηλών από τον πίνακα Προφίλ Στηλών αντίστοιχα. Υπάρχει διαθέσιμη και μια άλλη επιλογή, αυτή της Κανονικής Τυποποίησης (Canonical Standardization) (Gifi, 1981) η οποία ισοδυναμεί με τυποποίηση των στηλών και των γραμμών του πίνακα Αντιστοιχιών P. Αυτή η τυποποίηση οδηγεί σε μια αλλαγή της κλίμακας των συντεταγμένων που βασίζονται στην τυποποίηση των Προφίλ Γραμμών και των Προφίλ Στηλών. Αυτό το είδος τυποποίησης δεν είναι ευρέως διαδεδομένο. Προφανώς ο τελικός σκοπός της Ανάλυσης Αντιστοιχιών είναι η εύρεση θεωρητικών ερμηνειών (η σημασία δηλαδή) για τις εξαγόμενες διαστάσεις. Μια λύση, που μπορεί να βοηθήσει σε αυτήν την κατεύθυνση, είναι η απεικόνιση των σημείων στηλών. Ως γνωστό, η Ανάλυση Αντιστοιχιών λέγεται ότι αποτελεί το ανάλογο της Ανάλυσης σε Κύριες Συνιστώσες όταν χρησιμοποιούμε κατηγορικά δεδομένα. Φυσικά, υπάρχουν και ορισμένες διαφορές ανάμεσα στις δύο μεθόδους. Πρώτον, στην Ανάλυση σε Κύριες Συνιστώσες είναι καθοριστική η επιλογή μεταξύ του πίνακα Συνδιακύμανσης και του πίνακα Συσχέτισης για την εύρεση των κυρίων συνιστωσών, ενώ στην Ανάλυση Αντιστοιχιών δεν αναλαμβάνουμε την ευθύνη μιας τέτοιας επιλογής, διότι η μέθοδος τυποποίησης που χρησιμοποιείται σε αυτή την Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 91

92 τεχνική είναι γνωστή από πριν και άρα ο ερευνητής δεν ευθύνεται για αυτήν την επιλογή. Δεύτερη ουσιαστική διαφορά αποτελεί το γεγονός ότι στην Ανάλυση Αντιστοιχιών μελετάμε τόσο τις γραμμές όσο και τις στήλες, σε αντίθεση με την Ανάλυση Κυρίων Συνιστωσών όπου έχουμε παρατηρήσεις και μεταβλητές. Σκοπός της Απλής Ανάλυσης Αντιστοιχιών, ως γνωστό, είναι η αναπαραγωγή των αποστάσεων μεταξύ των σημείων γραμμών και/ ή των σημείων στηλών ενός πίνακα διπλής εισόδου σε μια απεικόνιση μειωμένων διαστάσεων. Εν τω μεταξύ, στην Παραγοντική Ανάλυση ο πραγματικός προσανατολισμός περιστροφής των αξόνων επιλέγεται αυθαίρετα έτσι ώστε διαδοχικές διαστάσεις να ερμηνεύουν όλο και λιγότερο από τη συνολική τιμή του X 2 (Chi-square) και κατά συνέπεια και της Αδράνειας. Παραδείγματος χάριν, θα μπορούσαμε να αλλάξουμε τα πρόσημα των συντεταγμένων και έτσι να περιστραφεί κατά 180 μοίρες με αποτελεσματικό τρόπο ο αντίστοιχος άξονας στο διάγραμμα. Είναι συχνό φαινόμενο σε εφαρμογές της Ανάλυσης Αντιστοιχιών να επικεντρώνεται το ενδιαφέρον του ερευνητή στις γραμμές ή τις στήλες του πίνακα συνάφειας και μάλιστα ίσως να είναι επιθυμητή η «αποκάλυψη» κάποιου είδους διάταξης μεταξύ των επιπέδων- κατηγοριών. Όμως, σε αυτή την περίπτωση η χρήση του Biplot δε μας αποφέρει κάποιο κέρδος, αν και επιτρέπει τον έλεγχο συσχετίσεων. Ως συμπέρασμα, μπορούμε να ισχυριστούμε ότι με τη ξεχωριστή μελέτη γραμμών και στηλών υπάρχει η πιθανότητα να ανακαλύψουμε μεταβολές στις δομές, είτε μεταξύ διαφορετικών χρονικών περιόδων είτε και μεταξύ διαφορετικών περιοχών, κάτι το οποίο είναι αρκετά συνηθισμένο στις κοινωνικές επιστήμες. Η ερμηνεία των βασικών αξόνων είναι μια διαδικασία που κρύβει αρκετές δυσκολίες, καθώς περιέχει το στοιχείο της υποκειμενικότητας και για αυτό το λόγο μπορεί να υπάρχουν σημαντικά μειονεκτήματα στην προσπάθεια ερμηνείας των δεδομένων με τη βοήθεια ενός διαγράμματος. Επαναλαμβάνουμε ότι στο Συμμετρικό Biplot οι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 92

93 αποστάσεις μεταξύ γραμμών και στηλών είναι ερμηνεύσιμες, ενώ οι αποστάσεις μεταξύ γραμμών και στηλών μεμονωμένα δεν είναι ερμηνεύσιμες. Στα Μη Συμμετρικά Biplot, μπορούμε να συνεχίσουμε σε συμπερασματολογία ανάμεσα στις γραμμές και στήλες, όμως υφίσταται ο κίνδυνος να υπάρξει μεγάλη επικάλυψη (overlapping) στην αναπαράσταση, αν το πλήθος των προφίλ είναι μεγάλο και έτσι δυστυχώς περιορίζεται η δυνατότητα ερμηνείας των αποτελεσμάτων. Μια πολύ σημαντική ιδιότητα της Ανάλυσης Αντιστοιχιών είναι η ευστάθεια (robustness) της ως μέθοδος αφού, παραδείγματος χάριν, η προσθήκη μιας νέας κατηγορίας ή παρατήρησης δεν επιφέρει συνήθως μεταβολή των αποτελεσμάτων, τα οποία παρουσιάζουν μεγάλη σθεναρότητα. Όταν η Αδράνεια των δεδομένων δεν είναι μεγάλη (ο έλεγχος ανεξαρτησίας X 2 του Pearson δεν απορρίπτει τη μηδενική υπόθεση), υπάρχει το ενδεχόμενο η Ανάλυση Αντιστοιχιών να μην εξάγει αποτελέσματα με ενδιαφέρον και ουσία και τότε όλα τα σημεία θα βρίσκονται πολύ κοντά μεταξύ τους στη γραφική απεικόνιση. Βέβαια, μπορεί να αποδειχθεί ότι μεγαλύτερη σημασία έχει η δομή του πίνακα και όχι οι αποστάσεις από την ανεξαρτησία και λαμβάνοντας υπόψη όλα τα παραπάνω, οφείλουμε να ομολογήσουμε ότι η Ανάλυση Αντιστοιχιών δεν αποτελεί μια απλή μέθοδο ελέγχου της υπόθεσης της ανεξαρτησίας και παράλληλα, μεταξύ των άλλων, είναι κατάλληλη για την εξέταση της δομής των δεδομένων. 9.2: Σχέσεις με άλλες μεθόδους Προχωράμε για να δούμε την προσέγγιση της Ανάλυσης Αντιστοιχιών μέσω διαφορετικών οπτικών γωνιών καθώς και τη σχέση της με άλλες τεχνικές. Οι διαφορές μεταξύ αυτών των μεθόδων καθορίζονται από τον τύπο του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 93

94 μετασχηματισμού που εφαρμόζεται στον αρχικό πίνακα δεδομένων, τις μετρικές στις οποίες οι βασικοί άξονες ορίζονται και το πώς οι βασικές τιμές ανατίθενται στα αριστερά και δεξιά βασικά διανύσματα. Ορισμένοι συγγραφείς (Hill, 1974) αναφέρθηκαν στην Ανάλυση Αντιστοιχιών ως μια μέθοδο κλιμακοποίησης και όχι τόσο ως μια μέθοδο κατάλληλη για ανάλυση πινάκων συνάφειας. Παράλληλα, έχει πραγματοποιηθεί χρήση της Ανάλυσης Αντιστοιχιών σαν μια μέθοδος κλιμακοποίησης που είναι γνωστή ως Seriation και η οποία έχει ενδιαφέρουσες εφαρμογές σε επιστημονικούς τομείς και συγκεκριμένα στην Αρχαιομετρία, που αποτελεί την έννοια που προσδιορίζεται από τους αρχαιολόγους ως η εφαρμογή των επιστημονικών μεθόδων των φυσικών επιστημών και της μηχανικής σε προβλήματα αρχαιολογικού περιεχομένου. Όσον αφορά την εφαρμογή που μπορεί να έχει η Ανάλυση Αντιστοιχιών σε έναν τέτοιο κλάδο, είναι συχνή η ανάγκη που προκύπτει στην Αρχαιομετρία να χρονολογηθούν αντικείμενα που ανακαλύφθηκαν και έχοντας ως βάση μερικά ποιοτικά χαρακτηριστικά, επιδιώκουμε να βρούμε ποια σειρά μπορεί να είναι η πιο λογική. Κάποιοι άλλοι συγγραφείς θεωρούν την Ανάλυση Αντιστοιχιών ως μια τεχνική Canonical Correlation Analysis (Ανάλυση Κανονικής Συσχέτισης) για κατηγορικά δεδομένα. Μια άλλη παραλλαγή της Ανάλυσης Αντιστοιχιών που ονομάστηκε Κανονική Ανάλυση Αντιστοιχιών (Canonical Correspondence Analysis) αναπτύχθηκε από τον ter Braak (1986, 1987). Υλοποιεί την Ανάλυση Αντιστοιχιών περιλαμβάνοντας το επιπρόσθετο βήμα της επιλογής του γραμμικού συνδυασμού των μεταβλητών γραμμών που μεγιστοποιεί την απόκλιση των σκορ των στηλών. Ακόμα η Ανάλυση Αντιστοιχιών συσχετίζεται άμεσα με τη Διακριτική Ανάλυση (Discriminant Analysis) μέσω της Γενικευμένης Διάσπασης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 94

95 Ιδιόμορφων Τιμών (Generalized Singular Value Decomposition) (Greenacre 1984). Επιπρόσθετα όπως ήδη έχουμε τονίσει, η Ανάλυση Αντιστοιχιών αποτελεί ουσιαστικά τη γενίκευση της Ανάλυσης σε Κύριες Συνιστώσες στην περίπτωση κατηγορικών δεδομένων. Ένας άλλος τρόπος θεώρησης της Ανάλυσης Αντιστοιχιών που έχει αναφερθεί, είναι ότι πρόκειται για μια μέθοδο ανάλυσης της συνολικής στατιστικής συνάρτησης X 2 (Chi-square) (ή ισοδύναμα της Αδράνειας= Chi-square/ Μέγεθος δείγματος) προσδιορίζοντας ένα μικρό αριθμό διαστάσεων, στις οποίες οι αποκλίσεις από τις αναμενόμενες τιμές μπορεί να απεικονιστούν. Αυτό είναι παραπλήσιο με τον σκοπό της Παραγοντικής Ανάλυσης (Factor Analysis), όπου η συνολική διακύμανση αναλύεται έτσι ώστε να καταλήξει σε μια απεικόνιση μειωμένων διαστάσεων των μεταβλητών, που μας επιτρέπουν να ανακατασκευάσουμε το μεγαλύτερο μέρος του πίνακα- μητρώου Διακύμανσης- Συνδιακύμανσης. Αξιοσημείωτο είναι το γεγονός ότι οι διαστάσεις εξάγονται με σκοπό να μεγιστοποιηθούν οι αποστάσεις ανάμεσα στα σημεία γραμμών και στηλών και οι διαδοχικές διαστάσεις (οι οποίες είναι ανεξάρτητες ή ορθογώνιες μεταξύ τους) θα ερμηνεύουν όλο και λιγότερο από τη συνολική τιμή του X 2 (Chi-square) και κατά συνέπεια και της Αδράνειας. Για το λόγο αυτό, η εξαγωγή των διαστάσεων είναι προσόμοια με την εξαγωγή των Κυρίων Συνιστωσών στην Παραγοντική Ανάλυση. Συγχρόνως έχει παρατηρηθεί μια έντονη σχέση μεταξύ της Ανάλυσης Αντιστοιχιών και των Log-Linear μοντέλων, πράγμα το οποίο ολοκληρώνει την αντιπαράθεση ανάμεσα στους στατιστικούς σχετικά με την εφαρμοσιμότητα της μεθόδου. Εν τέλει, να σημειώσουμε ότι τα ευρήματα της Ανάλυσης Αντιστοιχιών είναι δυνατό να χρησιμοποιηθούν ως δεδομένα σε διαφορετικού είδους στατιστικές αναλύσεις. Ταυτόχρονα, εξαιτίας της διερευνητικής της Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 95

96 φύσεως, αποτελεί μια πρώιμη ανάλυση για τον εντοπισμό ενδιαφερόντων σημείων για περαιτέρω ανάλυση. 9.3: Ανάλυση Αντιστοιχιών και Log-Linear Μοντέλα Υπάρχει μια αντιγνωμία αναφορικά με την «model-free» μέθοδο της Ανάλυσης Αντιστοιχιών και την «model-based» Log-Linear προσέγγιση, με την πρώτη να έχει ιδιαίτερη δημοτικότητα στη γαλλική σχολή σκέψης και τη δεύτερη να είναι δημοφιλής στην αγγλο-σαξωνική σχολή. Όπως έχουμε αναφέρει και στην εισαγωγή, η Ανάλυση Αντιστοιχιών είναι μια «model-free» μέθοδο που στηρίζεται σε ελάχιστες υποθέσεις. Η δεύτερη αρχή του Benzecri, που θεωρείται ο πατέρας της Ανάλυσης Αντιστοιχιών, διατυπώνεται ως εξής: «Το μοντέλο πρέπει να ακολουθεί τα δεδομένα και όχι τα δεδομένα το μοντέλο». Για αυτό το λόγο δεν υπάρχουν έλεγχοι στατιστικής σημαντικότητας που κατά συνήθεια, εφαρμόζονται στα αποτελέσματα της Ανάλυσης Αντιστοιχιών. Ο πρωταρχικός σκοπός αυτής της μεθόδου είναι να παράγει μια απλοποιημένη (μειωμένων διαστάσεων) απεικόνιση της πληροφορίας ενός μεγάλου πίνακα συχνοτήτων (ή πίνακες με παρόμοια μέτρα αντιστοιχίας). Αυτή η άποψη του Benzecri έρχεται σε αντίθεση με την «model-based» Log- Linear προσέγγιση, στην οποία ο ερευνητής αρχικά θέτει ένα μοντέλο και αργότερα καταβάλλει προσπάθεια να εκτιμήσει τις παραμέτρους του μοντέλου. Παρόλα αυτά, η Ανάλυση Αντιστοιχιών δεν μπορούμε να ισχυριστούμε ότι είναι κυριολεκτικά «model-free» επειδή βασίζεται σε ορισμένες υποθέσεις, όπως για παράδειγμα η επιλογή της απόστασης X 2 για την προβολή. Επομένως, γίνεται κατανοητό ότι ακόμα και αν δεν υπάρχει ένα σαφώς ορισμένο μοντέλο πίσω από την Ανάλυση Αντιστοιχιών, είναι απαραίτητο για τη διεκπεραίωση της μεθόδου να γίνουν ορισμένες υποθέσεις από τον ερευνητή. Υπενθυμίζουμε ότι η Ανάλυση Αντιστοιχιών δεν καταλήγει σε στατιστική συμπερασματολογία όπως συμβαίνει στη Log-Linear προσέγγιση και άρα έχει απλώς διερευνητικό χαρακτήρα. Αν επιθυμεί κάποιος να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 96

97 προχωρήσει στη διαδικασία της στατιστικής συμπερασματολογίας, τότε θα πρέπει να κάνει μερικές υποθέσεις σχετικά με το μηχανισμό «γέννησης» δεδομένων και συνεπώς να αναιρέσει την αρχή της έλλειψης υποθέσεων. Παρατηρώντας τις δύο προαναφερθέντες μεθόδους, συνειδητοποιούμε ότι υπάρχει μεγάλη ομοιότητα μεταξύ τους και αυτό είναι ένα στοιχείο που πιθανόν να ανασκευάζει τη διχοστασία ανάμεσά τους, καθώς δεν αποκλείεται να αποτελούν τις διαφορετικές πλευρές μιας γενικότερης προσέγγισης. Εξετάζοντας στην πράξη τις δύο μεθόδους βλέπουμε ότι η ομοιότητά τους συνίσταται στα ακόλουθα σημεία: Αν υποθέσουμε ότι έχουμε στη διάθεσή μας έναν πίνακα συνάφειας με παρατηρούμενες σχετικές συχνότητες p ij για το κελί ij, δηλαδή το κελί της i γραμμής και της j στήλης. Επιπλέον υπάρχει μια αντίστοιχη πραγματική πληθυσμιακή πιθανότητα (ή μια πιθανότητα που προκύπτει από ένα μοντέλο που προσπαθούμε να προσαρμόσουμε), την οποία συμβολίζουμε με φ ij. Για αυτές τις πληθυσμιακές πιθανότητες και οι δύο μέθοδοι κατά βάθος υποθέτουν συγκεκριμένες μορφές. Η ομοιότητα βρίσκεται στο ότι η Ανάλυση Αντιστοιχιών επιχειρεί να εκτιμήσει αυτές τις πιθανότητες με την ελαχιστοποίηση της συνάρτησης ( p ) ij i j ij ij 2, ενώ αντίθετα η Log-Linear προσέγγιση κάνει χρήση της μεθόδου Μεγίστης Πιθανοφάνειας που μεγιστοποιεί τη συνάρτηση pij ln ij. i j Είναι άξιο προσοχής ότι η Ανάλυση Αντιστοιχιών αποτελεί τη λύση της πρώτης επανάληψης της τεχνικής Newton- Raphson για τη μέθοδο Μεγίστης Πιθανοφάνειας. Ως γνωστό, η μέθοδος των Newton- Raphson αποτελεί την πιο δημοφιλή μέθοδο για την εύρεση των ριζών των εξισώσεων ανάμεσα σε όλες τις επαναληπτικές μεθόδους. Κατόπιν τούτου, εκτός της διχογνωμίας μεταξύ των δύο σχολών και μεθόδων, γίνεται αντιληπτό ότι υπάρχουν και κάποια κοινά σημεία. Ιδιαίτερα, μπορεί να αποδειχθεί ο ισχυρισμός πως οι δύο παραπάνω μέθοδοι αποτελούν τις ειδικές περιπτώσεις μιας ευρύτερης μεθόδου που χρησιμοποιεί μια συνάρτηση ομοιότητας μεταξύ των παρατηρούμενων και αναμενόμενων συχνοτήτων και στην οποία η Ανάλυση Αντιστοιχιών κάνει χρήση της απόστασης X 2, ενώ η Log-Linear Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 97

98 προσέγγιση χρησιμοποιεί μια διαφορετική συνάρτηση απόστασης που ονομάζεται Kullback- Leibler απόσταση. 9.4: Πρόσθετες Χρήσεις της Ανάλυσης Αντιστοιχιών Η Ανάλυση Αντιστοιχιών, πλην του ότι χρησιμεύει ως ένα απλό γραφικό εργαλείο για την ανάλυση και παρουσίαση μεγάλων πινάκων συνάφειας, έχει και μερικές πρόσθετες χρήσεις. Μια συνηθισμένη εφαρμογή είναι ότι η Ανάλυση Αντιστοιχιών αποτελεί τη μέθοδο που θα συμπληρώσει τις μεθόδους Ομαδοποίησης, οι οποίες θα υλοποιηθούν παράλληλα σε ένα σύνολο δεδομένων. Παραδείγματος χάριν, η σχέση που συνδέει την Ανάλυση Αντιστοιχιών (Correspondence Analysis) και την Ανάλυση κατά Συστάδες (Cluster Analysis) είναι αμφίδρομη, αφού η μια μέθοδος είναι αρωγός στα εξαγόμενα αποτελέσματα της άλλης. Ακόμα, η Ανάλυση κατά Συστάδες μπορεί να αποδειχθεί χρήσιμη στην περίπτωση μεγάλων πινάκων δεδομένων, εντοπίζοντας ομοιογενείς ομάδες και κατόπιν παρουσιάζοντας τα αποτελέσματα (Jambu & Lebeaux, 1983). o 9.4.1: Ανάλυση κατά Συστάδες (Cluster Analysis) ως συμπληρωματική της Ανάλυση Αντιστοιχιών (Correspondence Analysis) Όταν έχουμε να αντιμετωπίσουμε πραγματικά προβλήματα και εφαρμογές με τη βοήθεια της Ανάλυσης Αντιστοιχιών, είναι συχνή η κατάληξη σε ένα πολυπληθή αριθμό βασικών αξόνων. Αν απεικονίσουμε γραφικά τους δύο πρώτους άξονες ή συνδυασμούς ζευγαριών αξόνων, τότε είναι πολύ πιθανό να σημειωθεί απώλεια πληροφορίας, κυρίως αν το ποσοστό της αδράνειας που εξηγείται είναι μικρό. Ένας τρόπος για να ερευνήσουμε τις σχέσεις μεταξύ των κατηγοριών, είναι να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 98

99 εφαρμόσουμε Ανάλυση κατά Συστάδες, χρησιμοποιώντας ως μεταβλητές τις Κύριες Συντεταγμένες γραμμών και στηλών για κάθε σημείο και έτσι να εντοπιστούν αξιοπρόσεκτα ευρήματα. o 9.4.2: Ανάλυση Αντιστοιχιών (Correspondence Analysis) ως συμπληρωματική της Ανάλυσης κατά Συστάδες (Cluster Analysis) Από μια άλλη οπτική γωνία, όταν αναλύουμε πολυδιάστατα δεδομένα με τη χρήση μεθόδων Ομαδοποίησης, είναι κατά γενικό κανόνα μια διαδικασία υπολογιστικά ασύμφορη και για αυτό το λόγο είναι προτιμότερο να εργαστούμε σε λιγότερες διαστάσεις παρά να χρησιμοποιήσουμε τα αρχικά δεδομένα. Εδώ η Ανάλυση Αντιστοιχιών μπορεί να διευκολύνει στην ολοκλήρωση της διαδικασίας, ειδικότερα όταν τα δεδομένα αφορούν κατηγορικές μεταβλητές. Οπότε, μπορούμε να αποκομίσουμε διάφορα οφέλη, όπως είναι ένα ικανοποιητικό ποσοστό αδράνειας των αρχικών δεδομένων που θα αντιπροσωπεύεται από τους πρώτους κύριους άξονες και επιπλέον το υπολογιστικό φορτίο είναι πολύ πιθανό να ελαττωθεί, εξέλιξη που είναι πολύ σημαντική και καθοριστικής σημασίας για την υλοποίηση της ανάλυσης ομαδοποίησης. Ταυτόχρονα κερδίζουμε και κάτι άλλο που είναι ιδιαίτερα αξιόλογο, καθώς το πρόβλημα που επεξεργαζόμαστε μπορεί να αντιμετωπιστεί ως ομαδοποίηση συνεχών μεταβλητών, επειδή οι κύριες συντεταγμένες έχουν μετατραπεί κατ ουσίαν σε συνεχείς μεταβλητές και έτσι δεν είναι απαραίτητο να εφαρμόσουμε την Ανάλυση κατά Συστάδες με αποστάσεις συμβατές με κατηγορικά δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 99

100 2ο Μέρος: Multiple Correspondence Analysis Πολλαπλή Ανάλυση Αντιστοιχιών - Κεφάλαιο 10: Εισαγωγή Όπως είδαμε στην περίπτωση της Απλής Ανάλυσης Αντιστοιχιών, είχαμε δύο μεταβλητές κατάλληλα διαμορφωμένες σε πίνακα συνάφειας, όπου η μια μεταβλητή είχε τοποθετηθεί στις γραμμές του πίνακα συνάφειας και η έτερη μεταβλητή στις στήλες του. Όταν όμως έχουμε στη διάθεσή μας πολυμεταβλητά κατηγορικά δεδομένα, αντιστοιχούν δηλαδή σε κάθε άτομο που είναι ουσιαστικά μια παρατήρηση περισσότερες από δύο κατηγορικές μεταβλητές, τότε είναι απαραίτητο να γενικεύσουμε την Απλή Ανάλυση Αντιστοιχιών σε ένα πιο ευρύ μοντέλο. Κατά αυτόν τον τρόπο προκύπτει η μέθοδος που ονομάζεται Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis). Κάνοντας μια σύντομη ιστορική αναδρομή, βλέπουμε ότι οι αρχές αυτής της μεθόδου, οι οποίες περιγράφηκαν το 1972 από τον Benzecri και το 1973 από τους Lebart & Tabard, στην πραγματικότητα απορρέουν από τη δουλειά του στατιστικού C. Burt το Άλλες μορφές προεκτάσεων έχουν προταθεί στη βιβλιογραφία από τους Benzecri (1964), Escofier- Cordier (1965) και πιο πρόσφατα από τους Masson (1974- του οποίου η δουλειά βασίζεται πάνω στη δουλειά του Horst to 1961), Carroll (1968) και Kettenring (1971). Επίσης πρέπει πάλι να υπενθυμίσουμε ότι η Πολλαπλή Ανάλυση Αντιστοιχιών, η οποία αποτελεί τη γενίκευση της Απλής Ανάλυσης Αντιστοιχιών, στην ουσία δεν οδηγεί στην Απλή Ανάλυση Αντιστοιχιών. Άρα η Απλή Ανάλυση Αντιστοιχιών δεν είναι το ανάλογο της Πολλαπλής Ανάλυσης Αντιστοιχιών με δύο μεταβλητές. Έτσι η Πολλαπλή Ανάλυση Αντιστοιχιών θα λέγαμε ότι είναι μια μέθοδος αναπαράστασης των από κοινού ιδιοτήτων κατηγορικών μεταβλητών, τον οποίων το πλήθος είναι μεγαλύτερο του δύο. Να προσθέσουμε πως η κατάληξη της μεθόδου Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 100

101 αυτής δεν ταυτίζεται με τα αποτελέσματα της Απλής Ανάλυσης Αντιστοιχιών, απλά η ερμηνεία των τιμών των συντεταγμένων, η τιμή της «Ποιότητας», τα τετραγωνικά συνημίτονα (cos 2 ) και άλλα στατιστικά μέτρα που εξάγονται ως αποτελέσματα της Πολλαπλής Ανάλυσης Αντιστοιχιών μπορούν να ερμηνευθούν με τον ίδιο τρόπο όπως και στην Απλή Ανάλυση Αντιστοιχιών, αν και αυτά τα μέτρα συσχετίζονται με τη Συνολική Αδράνεια (Total Inertia), η οποία με τη σειρά της συνδέεται με τον Πίνακα Δείκτη τον οποίο θα ορίσουμε αργότερα. Συμπερασματικά, η Πολλαπλή Ανάλυση Αντιστοιχιών μας δίνει την ευχέρεια να απεικονίσουμε με ικανοποιητικό τρόπο δεδομένα κατηγορικών μεταβλητών που αντλούνται από πίνακες συνάφειας πολλαπλής εισόδου και επιπλέον χαρακτηρίζεται από απλούς υπολογισμούς και ενδιαφέρουσες ιδιότητες. Εκτός από τις διαφορές που υφίστανται μεταξύ των δύο μεθόδων, υπάρχουν και ομοιότητες μεταξύ της Πολλαπλής Ανάλυσης Αντιστοιχιών και της Απλής Ανάλυσης Αντιστοιχιών, αφού τα μέσα που χρησιμοποιεί η πρώτη μέθοδος για τους απαραίτητους υπολογισμούς και για τη μείωση των διαστάσεων είναι παρεμφερή με αυτά των οποίων κάνει χρήση η Απλή Ανάλυση Αντιστοιχιών. Σκοπός της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι η μελέτη δεδομένων ενός πίνακα παρατηρήσεων που περιλαμβάνει κατηγορικές μεταβλητές. Η μέθοδος αναζητά βασικά να βρει την καλύτερη απεικόνιση όλων των κατηγοριών- επιπέδων των κατηγορικών μεταβλητών συνήθως σε ένα δισδιάστατο ή τρισδιάστατο διάγραμμα, με απώτερο σκοπό οι αποστάσεις μεταξύ των σημείων να αντιπροσωπεύουν τις αποκλίσεις ανάμεσα στις κατηγορίες. Εξάλλου όπως και στην περίπτωση της Απλής Ανάλυσης Αντιστοιχιών, βασική επιδίωξη είναι η μείωση των διαστάσεων, βρίσκοντας τη βέλτιστη προβολή των σημείων σε ένα χώρο μικρότερων διαστάσεων. Με την προβολή αυτή σε λιγότερες διαστάσεις επιζητάμε αφενός, να πετύχουμε την προβολή στο ίδιο σημείο παρατηρήσεων που έχουν ίδιο προφίλ και αφετέρου, στη γραφική αναπαράσταση μιας κατηγορικής μεταβλητής ή όταν δίνουμε έμφαση σε μια μεταβλητή σε ένα διάγραμμα όλων μαζί των υπό εξέταση μεταβλητών, να είμαστε σε θέση να εντοπίσουμε τις διαφορές Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 101

102 ανάμεσα στα επίπεδα της ίδιας κατηγορικής μεταβλητής ή και ακόμα να δούμε, αν είναι δυνατόν, τη φυσική διάταξη των επιπέδων αν δεν είναι αυτή ευδιάκριτη από τα δεδομένα. Ως επί το πλείστον, η μέθοδος αυτή ενδείκνυται για την ανάλυση ερευνών όπου έχουμε διανύσματα- γραμμές τα οποία είναι κατά κανόνα οι παρατηρήσεις και οι στήλες απαρτίζονται από τις κατηγορίες των κατηγορικών μεταβλητών. Οι στήλες εν πολλοίς αναφέρονται στις κατηγορίες- επίπεδα των απαντήσεων στα ερωτηματολόγια των ερευνών. Γενικά, τα δεδομένα των ερευνών περιλαμβάνουν έναν αριθμό απαντήσεων σε ερωτήσεις οι οποίες βρίσκονται σε πλήρη διαζευκτική μορφή. Αυτό συνεπάγεται ότι οι ποικίλες κατηγορίες- επίπεδα των απαντήσεων είναι αμοιβαία αποκλειόμενες και μόνο μία από αυτές επιλέγεται εν τέλει. Οι k δηλαδή κατηγορίες σε μια δοθείσα ερώτηση μας επιτρέπουν να διαμερίσουμε το δείγμα σε k ομάδες (groups) το πολύ. Η ανάλυση του πίνακα- μητρώου Αντιστοιχιών που πινακοποιεί τις δύο κατηγορίες μπορεί να γενικευτεί στην περίπτωση των Q κατηγοριών όπου Q>2. Η ωφελιμότητα της συγκεκριμένης μεθόδου είναι μεγάλη και συνήθως η Πολλαπλή Ανάλυση Αντιστοιχιών είναι αποδοτική όταν αναλύουμε μεγάλα σε έκταση ερωτηματολόγια και επιδιώκουμε την άμεση ερμηνεία καθώς και την μελέτη πολυπληθών δεδομένων ενός μεγάλου αριθμού πολυεπίπεδων κατηγορικών μεταβλητών. Εν συνεχεία θα απαριθμήσουμε τα προτερήματα της Πολλαπλής Ανάλυσης Αντιστοιχιών. Έτσι: 1. Παρέχει τη δυνατότητα απεικόνισης ενός μεγάλου πλήθους κατηγορικών μεταβλητών και παράλληλα καθιστά δυνατή τη μελέτη των συσχετίσεων μεταξύ των μεταβλητών αυτών. 2. Συμπυκνώνει την πληροφορία, που περικλείεται μέσα σε ένα μεγάλο αριθμό κατηγορικών μεταβλητών, σε ένα μικρότερο πλήθος συνεχών μεταβλητών (τους άξονες). 3. Έχει την ικανότητα να τρέπει τις κατηγορικές μεταβλητές σε συνεχείς κατά τον καλύτερο δυνατό τρόπο. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 102

103 4. Μπορεί να αποκαλύψει τη διάταξη των επιπέδων- κατηγοριών του πλήθους των κατηγορικών μεταβλητών σε σχέση με τα υπόλοιπα δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 103

104 - Κεφάλαιο 11: Καταλληλότητα Δεδομένων Όπως αναφέραμε, η Πολλαπλή Ανάλυση Αντιστοιχιών είναι ενδεδειγμένη για χρήση πινάκων συνάφειας πολλαπλής εισόδου. Η πινακοποίηση του πίνακα συνάφειας δεν είναι μοναδική, υπάρχουν αρκετές εναλλακτικές επιλογές παρουσίασης των δεδομένων. Αν όμως επιχειρήσουμε να μειώσουμε έναν π.χ. πίνακα τριπλής εισόδου σε πίνακα διπλής εισόδου, τότε ελλοχεύει ο κίνδυνος να οδηγηθούμε σε απώλεια πληροφορίας. Επομένως πρέπει να είμαστε πολύ προσεκτικοί στο πώς θα παρουσιάσουμε τα δεδομένα του πίνακα και αν επιλέξουμε να μειώσουμε τις διαστάσεις του πρέπει επιπρόσθετα, να διαλέξουμε τις κατάλληλες μεταβλητές που θα συνδυάσουμε στον νέο πίνακα συνάφειας. Οπότε για την περιγραφή ενός αρχικού πίνακα δεδομένων πολλαπλής εισόδου, πολλές φορές δεν βοηθά να τον μετατρέψουμε σε πίνακα διπλής εισόδου μόνο και μόνο για να ελαττώσουμε τη διαστατικότητά του. Επιπλέον να σημειώσουμε πως η Πολλαπλή Ανάλυση Αντιστοιχιών δεν επεξεργάζεται τον πίνακα συνάφειας αλλά τις αρχικές παρατηρήσεις, αφού πρώτα οι κατηγορικές μεταβλητές έχουν υποστεί την ενδεικνυόμενη μετατροπή. Το πλήθος των ερωτήσεων συμβολίζεται με p. Μια ξεχωριστή ερώτηση q αποτελείται από f q κατηγορίες απαντήσεων. Ο συνολικός αριθμός των απαντητικών κατηγοριών f που περιέχεται στο ερωτηματολόγιο θα είναι: f p f. q1 q με n. Έστω ότι ο αριθμός των ατόμων που απάντησαν στο ερωτηματολόγιο είναι ίσος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 104

105 - Κεφάλαιο 12: Βασικές Έννοιες 12.1: Πίνακας Δείκτης (Disjunctive Matrix) Ένα βασικό εργαλείο της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι ο λεγόμενος πίνακας Δείκτης (Disjunctive Matrix), με τη βοήθεια του οποίου απεικονίζονται γραφικά τα δεδομένα. Ο πίνακας Δείκτης, που θα συμβολίζεται με X, είναι διαστάσεων n c, καθώς n είναι το μέγεθος του δείγματος (το πλήθος των παρατηρήσεων) και c είναι ο συνολικός αριθμός των διαφορετικών επιπέδων- κατηγοριών των κατηγορικών μεταβλητών. Ο πίνακας- μητρώο X είναι η παράθεση των Q υποπινάκων: X [ X, X,..., X,..., X ]. Αποτελείται από μονάδες και μηδενικά, τις οποίες 1 2 q Q τιμές λαμβάνουν οι κατηγορίες ή αλλιώς τα επίπεδα κάθε κατηγορικής μεταβλητής που αναπαρίστανται ως στήλες. Την τιμή 1 τη λαμβάνουν οι παρατηρήσεις (που περιέχονται στις γραμμές του πίνακα), όταν διαθέτουν το αντίστοιχο χαρακτηριστικό της εκάστοτε κατηγορικής μεταβλητής ενώ στην αντίθετη περίπτωση το κελί παίρνει την τιμή 0. Έτσι για παράδειγμα, η i-οστή γραμμή του υποπίνακα X q (με n γραμμές και c στήλες) περιέχει p q -1 φορές την τιμή μηδέν και μία φορά την τιμή ένα στη στήλη που αντιστοιχεί στην κατηγορία- επίπεδο της ερώτησης q που επιλέγεται από το άτομο i. Με άλλα λόγια, το μητρώο X q περιγράφει τη διαμέριση των n ατόμων που δημιουργείται από τις απαντήσεις στην ερώτηση q. Άρα γίνεται κατανοητό ότι είναι απαραίτητη η χρήση ψευδομεταβλητών και μάλιστα το πλήθος τους θα είναι τόσο, όσος είναι και ο αριθμός των επιπέδων των μεταβλητών συνολικά. Έτσι, οι δυνατές τιμές της ψευδομεταβλητής είναι δύο: 0 ή 1, ανάλογα με το αν το επίπεδο της κατηγορικής μεταβλητής βρίσκεται σε αντιστοιχία με την κατηγορία με την οποία συσχετίζεται η συγκεκριμένη μεταβλητή. Εν τέλει, αν έχουμε στη διάθεσή μας για παράδειγμα 5 κατηγορικές μεταβλητές που η κάθε μια από αυτές αποτελείται από 3 επίπεδα- κατηγορίες, τότε θα χρειαστεί να κατασκευάσουμε συνολικά 15 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 105

106 ψευδομεταβλητές, οι οποίες θα διαχωρίζονται σε τρία blocks, όσα είναι δηλαδή και τα επίπεδα των κατηγορικών μεταβλητών. Εκτός της δυαδικής κωδικοποίησης (0 & 1) της ψευδομεταβλητής του Πίνακα Δείκτη υπάρχει και μια εναλλακτική πρόταση, στην οποία υιοθετείται μια ασαφή κωδικοποίηση (Fuzzy Coding). Σύμφωνα με αυτήν, δεν είναι υποχρεωτικό κάθε παρατήρηση (case) να επιφορτίζεται αποκλειστικά σε ένα μόνο επίπεδο κάθε κατηγορικής μεταβλητής. Αντί για το συνδυασμό 0-ή-1, θα μπορούσαμε να εισάγουμε πιθανότητες για τη συμμετοχή σε κάθε επίπεδο- κατηγορία ή κάποιο άλλο μέτρο που θα αναπαριστάνει ένα ασαφή κανόνα για τη συμμετοχή σε μια κατηγορία. Ο Greenacre (1984) προτείνει διαφορετικούς τύπους κωδικοποιήσεων αυτού του είδους. Αν, παραδείγματος χάριν, έχουμε σε ένα Πίνακα Δείκτη απούσες τιμές (missing values) σε μερικές περιπτώσεις (cases), αντί να τις απορρίψουμε ολοκληρωτικά από την ανάλυση (ή να δημιουργήσουμε μια νέα κατηγορία Missing Data) θα μπορούσαμε να αναθέσουμε σε κάθε επίπεδο- κατηγορία αναλογίες (που θα αθροίζονται στη μονάδα), οι οποίες θα αντιπροσωπεύουν τις πιθανότητες ότι η αντίστοιχη περίπτωση ανήκει στην αντίστοιχη κατηγορία (για παράδειγμα, θα ήταν δυνατό να εισάγουμε αναλογίες που θα στηρίζονται στην πρότερη γνώση μας όσον αφορά την εκτίμηση των «εθνικών» μέσων όρων των διαφόρων επιπέδων). Ο πίνακας Δείκτης είναι κατά τεκμήριο ο νέος πίνακας δεδομένων, με τη βοήθεια του οποίου υλοποιείται η Πολλαπλή Ανάλυση Αντιστοιχιών. Στο σημείο αυτό μπορούμε να κάνουμε τις εξής παρατηρήσεις σχετικά με τον πίνακα αυτό: Ο αριθμός των γραμμών του πίνακα Δείκτη θα είναι ίσος με το πλήθος των παρατηρήσεων ενώ το πλήθος των στηλών του θα είναι ίσο με το σύνολο των έτερων επιπέδων- κατηγοριών των κατηγορικών μεταβλητών που μελετάμε. Σε κάθε block ψευδομεταβλητών, το οποίο κατά βάση αντιστοιχεί στα επίπεδα μιας κατηγορικής μεταβλητής, είναι δυνατό να έχουμε μόνο μια μονάδα και όλες οι υπόλοιπες τιμές θα είναι μηδενικά. Συνεπώς ο πίνακας Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 106

107 Δείκτης θα είναι ένας αραιός (sparse) πίνακας που θα απαρτίζεται από ένα μεγάλο πλήθος μηδενικών. Είναι εφικτός ο εντοπισμός συγκεκριμένων δομών των μονάδων και των μηδενικών, των δυνατών τιμών δηλαδή κάθε ψευδομεταβλητής. Κατόπιν τούτων, συμπεραίνουμε ότι ο πίνακας των αρχικών δεδομένων μετασχηματίζεται στον πίνακα Δείκτη που είναι ένας «δυαδικός» πίνακας, εφόσον αποτελείται από 0 και 1. Αυτός ο «μετασχηματισμός» διευκολύνει την ομαδοποίηση των παρατηρήσεων, χρησιμοποιώντας παράλληλα και το ενδεδειγμένο μέτρο απόστασης για δυαδικές μεταβλητές. Αποδεικνύεται ότι η Πολλαπλή Ανάλυση Αντιστοιχιών είναι ουσιαστικά η Ανάλυση Αντιστοιχιών του πίνακα Δείκτη, διότι αν αναλύσουμε τον Πίνακα Δείκτη σα να ήταν ένας πίνακας συχνοτήτων διπλής εισόδου, τα αποτελέσματα της Ανάλυσης Αντιστοιχιών θα μας εφοδίαζαν με τις συντεταγμένες των στηλών που θα μας επιτρέψουν να συσχετίσουμε τα ποικίλα επίπεδα- κατηγορίες μεταξύ τους. Τα αποτελέσματα αυτά βασίζονται στις αποστάσεις ανάμεσα στα σημεία γραμμών, για παράδειγμα μεταξύ των ατόμων- παρατηρήσεων. Αναφορικά με τις ιδιότητες του πίνακα Δείκτη μπορούμε να αναφέρουμε τα ακόλουθα: Κάθε άθροισμα γραμμής του πίνακα ισούται με c, όσος είναι δηλαδή και ο αριθμός των κατηγορικών μεταβλητών. Η Μάζα κάθε γραμμής προκύπτει από το πηλίκο του c προς n, όπου n είναι το μέγεθος του δείγματος. Η Μάζα κάθε στήλης ισοδυναμεί με το ποσοστό των περιθώριων συχνοτήτων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 107

108 Οι αποστάσεις X 2 ανάμεσα στις γραμμές- παρατηρήσεις αποτελούν σε τελική ανάλυση μια παραλλαγή του λεγόμενου «Matching Coefficient» 7 για κατηγορικές μεταβλητές. Στην ουσία ο συντελεστής αυτός υπολογίζει τις διαφορετικές απαντήσεις ανάμεσα σε δύο παρατηρήσεις. Μια άλλη εφαρμογή της ανάλυσης του Πίνακα Δείκτη μέσω τεχνικών Ανάλυσης Αντιστοιχιών, είναι ότι μιας δίνει την ευχέρεια να υλοποιήσουμε το αντίστοιχο της Πολλαπλής Παλινδρόμησης (Multiple Regression) για κατηγορικές μεταβλητές, προσθέτοντας συμπληρωματικές στήλες στον Πίνακα Δείκτη. Παραδείγματος χάριν, αν υποθέσουμε πως προσθέτουμε δύο στήλες στον Πίνακα Δείκτη για να προσδιορίσουμε το αν το αντίστοιχο υποκείμενο (περίπτωση) έχει ή δεν έχει μια συγκεκριμένη ασθένεια το τελευταίο έτος, η μία στήλη θα είναι η ασθένεια και η δεύτερη η απουσία της συγκεκριμένης ασθένειας. Εάν σε μια Απλή Ανάλυση Αντιστοιχιών του Πίνακα Δείκτη προσθέταμε αυτές τις στήλες ως συμπληρωματικές στήλες, τότε: 1) τα συνοπτικά στατιστικά μέτρα για την «Ποιότητα» της παρουσίασης για αυτές τις στήλες θα μας πρόσφεραν μια ένδειξη για το πόσο καλά μπορεί να ερμηνευθεί η ασθένεια ως μια συνάρτηση των έτερων μεταβλητών στον Πίνακα Δείκτη και 2) η παράθεση των σημείων στηλών στο τελικό σύστημα συντεταγμένων θα μας παρέχει επίσης μια ένδειξη της φύσεως των συσχετισμών, ανάμεσα στις στήλες του Πίνακα Δείκτη και τα σημεία στηλών που υποδηλώνουν την ασθένεια. Αυτή η τεχνική, η πρόσθεση δηλαδή συμπληρωματικών σημείων σε μια Πολλαπλή Ανάλυση Αντιστοιχιών, καλείται Προγνωστική Χαρτογράφηση (Predictive Mapping). Τέλος, να σημειώσουμε πως η Ανάλυση Αντιστοιχιών του Πίνακα Δείκτη X με τη βοήθεια ενός κλασικού προγράμματος Ανάλυσης Αντιστοιχιών μπορεί να μας προσφέρει τα αναμενόμενα αποτελέσματα. Ωστόσο, αυτό είναι εφικτό μόνο με μικρούς πίνακες- μητρώα διότι ο όγκος των υπολογισμών αυξάνεται γοργά ανάλογα με το μέγεθος του πίνακα. Ευτυχώς, η ιδιαίτερη δομή του συγκεκριμένου πίνακα μας 7 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 108

109 δίνει την ευκαιρία να κάνουμε χρήση υπολογιστικών διαδικασιών που περιορίζουν ορισμένα τεχνικά προβλήματα και μειώνουν αισθητά τον υπολογιστικό φόρτο. 12.2: Πίνακας Burt Με βάση τον πίνακα Δείκτη των ψευδομεταβλητών είναι εύκολο να παραχθεί ο επονομαζόμενος πίνακας Burt, ο οποίος είναι ουσιαστικά ο πίνακας XX όπου X είναι ο πίνακας Δείκτης που αναφέραμε προηγουμένως. Ο πίνακας Burt επομένως προκύπτει από το εσωτερικό γινόμενο ενός πίνακα Δείκτη και ακόμα χαρακτηρίζεται από μια συγκεκριμένη δομή. Παρακάτω βλέπουμε μια μορφή του πίνακα Burt: B11 B12... B1 c B B Bc1 Bc 2... Bcc Πίνακας 3. Πίνακας Burt c γραμμών και c στηλών Ο πίνακας Burt διακρίνεται από τις ακόλουθες ιδιότητες: Οι συχνότητες για κάθε κελί αποτελούν τα στοιχεία του πίνακα Burt. Ο πίνακας Burt έχει διαστάσεις c c, όπου c είναι το σύνολο των ποικίλων κατηγοριών όλων των μεταβλητών. Ο πίνακας Burt έχει τη δυνατότητα να διασπάται σε p 2 υποπίνακες, όπου p είναι το πλήθος των υπό ανάλυση κατηγορικών μεταβλητών. Ένα άλλο γνώρισμα των υποπινάκων είναι ότι όσοι βρίσκονται πάνω στην κύρια διαγώνιο ουσιαστικά αποτελούν τους πίνακες συνάφειας κάθε μεταβλητής με τον εαυτό της και εξαιτίας αυτού τα μη διαγώνια στοιχεία των υποπινάκων αυτών είναι ίσα με το μηδέν, αν και αυτό δε συμβαίνει Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 109

110 πάντοτε όπως για παράδειγμα, όταν ο πίνακας Burt προέρχεται από ένα Πίνακα Δείκτη που περιλαμβάνει ασαφή κωδικοποίηση των επιπέδωνκατηγοριών του. Συνάμα το άθροισμα των διαγωνίων στοιχείων σε κάθε διαγώνιο υποπίνακα είναι αμετάβλητο και είναι ίσο με το σύνολο των παρατηρήσεων που εξετάζουμε. Επιπλέον οι υποπίνακες χαρακτηρίζονται από μια συμμετρική δομή. Τέλος, αν βασιστούμε κατά κύριο λόγο στη χρήση του πίνακα Burt για την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών, τότε θα πετύχουμε μια καλύτερη γεωμετρική ερμηνεία. Αυτό οφείλεται στο γεγονός ότι έχει ως βάση της τη γεωμετρική ερμηνεία της Απλής Ανάλυσης Αντιστοιχιών και διαθέτει μεγαλύτερη σαφήνεια από την αντίστοιχη γεωμετρική ερμηνεία όταν χρησιμοποιούμε τον πίνακα Δείκτη, την οποία περιέγραψαν οι Μιχαηλίδης και de Leeuw (1998). Μπορούμε να ορίσουμε την Πολλαπλή Ανάλυση Αντιστοιχιών ως την Ανάλυση Αντιστοιχιών του πίνακα Burt ένεκεν της σχέση που υπάρχει ανάμεσα στην Singular Value Decomposition του πίνακα Δείκτη και του πίνακα Burt. Ισοδύναμη με αυτήν τη διαπίστωση είναι ότι τα εξαγόμενα της Πολλαπλής Ανάλυσης Αντιστοιχιών ταυτίζονται με τα αποτελέσματα που εξάγονται για τα σημεία στήλες μετά την υλοποίηση μιας Απλής Ανάλυσης Αντιστοιχιών του πίνακα Δείκτη. Ολοκληρώνοντας την παρουσίαση του πίνακα Burt, πρέπει να υπενθυμίσουμε ότι για να εφαρμόσουμε Πολλαπλή Ανάλυση Αντιστοιχιών, είναι απαραίτητο να παράγουμε από τα δεδομένα τον πίνακα Δείκτη ή τον πίνακα Burt και εν συνεχεία μπορούμε να προχωρήσουμε σε Απλή Ανάλυση Αντιστοιχιών σε όποιον από τους δύο πίνακες επιλέξουμε για την ανάλυση. Εκτός των άλλων χρειάζεται και ιδιαίτερη προσοχή, καθώς το κλασικό Output που προκύπτει από την Απλή Ανάλυση Αντιστοιχιών κατ ουσίαν δεν έχει ενδιαφέρον, όταν έχουμε κάνει χρήση της Πολλαπλής Ανάλυσης Αντιστοιχιών και για αυτό το λόγο τα Biplots δεν είναι άξια προσοχής, εφόσον οι γραμμές και οι στήλες σε ένα πίνακα Burt ταυτίζονται. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 110

111 - Κεφάλαιο 13: Συμπερασματολογία 13.1: Αδράνεια Αρχικά, αναφορικά με την Αδράνεια των υποπινάκων του πίνακα Burt, μπορούμε να πούμε πως η Αδράνεια του κάθε υποπίνακα επισημαίνει την Αδράνεια μεταξύ του αντίστοιχου ζεύγους μεταβλητών. Οι διαγώνιοι υποπίνακες διαθέτουν τη μέγιστη Αδράνεια συγκριτικά με τους υποπίνακες που δε βρίσκονται στην κύρια διαγώνιο και αυτό οφείλεται στο γεγονός ότι όλες οι παρατηρήσεις είναι στη διαγώνιο ενώ στο αντίστοιχο διάγραμμα θα είναι στις άκρες του. Επομένως, η Αδράνεια των μη διαγώνιων υποπινάκων είναι αρκετά μικρότερη σε σχέση με την Αδράνεια των διαγώνιων υποπινάκων. Παράλληλα υπάρχει η δυνατότητα να εξετάσουμε την Αδράνεια ανάμεσα στους πίνακες συνάφειας για ζεύγη μεταβλητών, αν και οι αριθμοί δεν υπόκεινται σε απευθείας σύγκριση, εξαιτίας των διαφορετικών διαστάσεων των πινάκων. Μια άλλη ερμηνεία της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι ως η από κοινού ανάλυση όλων των πινάκων συνάφειας ανά δύο, συμπεριλαμβανομένων των πινάκων συνάφειας κάθε μεταβλητής με τον εαυτό της. Πρακτικά αυτό δηλώνει πως η Αδράνεια που εξάγεται κατά αυτόν τον τρόπο, είναι ολίγον τι υπερεκτιμημένη, αφού εξ ορισμού υπάρχουν οι υποπίνακες της διαγωνίου που έχουν μέγιστη Αδράνεια. Ακολούθως θα υπολογίσουμε την Αδράνεια του πίνακα Burt. Συμβολίζοντας με I(B ij ) την Αδράνεια κάθε υποπίνακα B ij και επιπλέον με I( B) p p q1 s1, qs I( B ) p( p1) Μέση Αδράνεια όλων των υποπινάκων χωρίς να λάβουμε υπόψη τους διαγώνιους υποπίνακες, καταλήγουμε στο συμπέρασμα ότι η Αδράνεια I(B) του πίνακα Burt 1 υπολογίζεται μέσω του τύπου: ( ) p ( ) c I B I B p 2. p p qs τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 111

112 Είναι εύκολο να διακρίνουμε ότι εάν βασιστούμε στον πίνακα Δείκτη ή στον πίνακα Burt για την εφαρμογή της Πολλαπλής Ανάλυσης Αντιστοιχιών, τότε οι συντεταγμένες των κυρίων αξόνων θα παραμείνουν αμετάβλητες και ταυτόχρονα οι ιδιοτιμές θα παραμείνουν και αυτές συνδεδεμένες. Άρα, οι Αδράνειες του πίνακα Burt θα προκύπτουν ως το τετράγωνο των Αδρανειών που απορρέουν από την ανάλυση του πίνακα Δείκτη. Αυτό συνηγορεί υπέρ του συμπεράσματος που βρήκαμε προηγουμένως, ότι η Αδράνεια του πίνακα Burt υπερεκτιμά την Αδράνεια των δεδομένων. Κατόπιν τούτων, ένας τρόπος για να αποκτήσουμε μια αντίληψη της Αδράνειας που μπορεί να εξηγηθεί από την ανάλυση είναι η αλλαγή της κλίμακας της Αδράνειας του πίνακα ή τουλάχιστον των βασικών αδρανειών. 13.2: Η Πολλαπλή Ανάλυση Αντιστοιχιών στην πράξη- SVD Έχοντας επιλέξει τον πίνακα Burt για να αναπαραστήσουμε τα δεδομένα, συνεχίζουμε με την υλοποίηση της SVD για αυτόν τον πίνακα. Όμως καθώς ο πίνακας Burt είναι συμμετρικός, η SVD ταυτογνωμεί με τη Φασματική Ανάλυση. Εφαρμόζοντας τα υπολογιστικά βήματα της Απλής Ανάλυσης Αντιστοιχιών, προχωρούμε στην εύρεση των ιδιοτιμών που αντιστοιχούν στους κύριους άξονες και αντιπροσωπεύουν τις βασικές αδράνειες. Ακολούθως οι συντεταγμένες υπολογίζονται από τις βασικές αδράνειες κ.ο.κ. όπως είδαμε και στη Διάσπαση Ιδιόμορφων Τιμών στην Απλή Ανάλυση Αντιστοιχιών. Είδαμε πριν την αναγκαιότητα της αλλαγής της κλίμακας της Αδράνειας του πίνακα Burt. Έτσι, τώρα κάνουμε αλλαγή κλίμακας των βασικών αδρανειών χωρίς να εφαρμόσουμε αυτήν την αλλαγή και στη Συνολική Αδράνεια. Ο τύπος του Greenacre (1984) αναφέρεται σε αυτήν την αλλαγή κλίμακας: 2 2 p 1 k, k 1,2,... p1 p Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 112

113 αν k 1 p, όπου λ κ είναι οι μη- προσαρμοσμένες βασικές αδράνειες που εξάγονται από την Απλή Ανάλυση Αντιστοιχιών του πίνακα Burt ή με άλλα λόγια είναι οι ιδιοτιμές που προκύπτουν από την εφαρμογή της Φασματικής Ανάλυσης του πίνακα Burt. Οι προσαρμοσμένες βασικές αδράνειες θα χρησιμεύσουν αργότερα στον υπολογισμό των συντεταγμένων, στην ποιότητα της παρουσίασης κ.τ.λ. Η προσαρμογή που επιδιώκουμε στις βασικές αδράνειες, στοχεύει στην καλύτερη προσαρμογή των μη διαγώνιων στοιχείων του πίνακα Burt και επομένως δεν μας ενδιαφέρει η τέλεια προσαρμογή των διαγώνιων στοιχείων του πίνακα αυτού. Παράλληλα είναι εύκολο να τεκμηριωθεί το γεγονός ότι οι προσαρμοσμένες βασικές αδράνειες βελτιώνουν την ερμηνευσιμότητα του μοντέλου ενώ διαγραμματικά το προϊόν αυτής της προσαρμογής είναι η μεγαλύτερη απόσταση των σημείων από τους άξονες. Κατ αντιστοιχία με την Απλή Ανάλυση Αντιστοιχιών, ο λόγος των ποσοστών των χρησιμοποιούμενων βασικών αδρανειών προς το συνολικό άθροισμα τους υποδεικνύει το ποσοστό της συνολικής ερμηνεύσιμης Αδράνειας. Εκτός των άλλων, οι βασικοί άξονες και ειδικότερα οι συντεταγμένες των επιπέδων- κατηγοριών στους κύριους άξονες επίσης υπολογίζονται παρομοίως όπως και στην Απλή Ανάλυση Αντιστοιχιών. Στο σημείο αυτό να σημειώσουμε τα εξής σημεία: Παρατηρώντας τον πίνακα Δείκτη διαπιστώνουμε πως οι γραμμές του είναι ουσιαστικά οι αρχικές παρατηρήσεις και κατ επέκταση, είναι δυνατή η απεικόνιση των παρατηρήσεων σε γράφημα 2 αξόνων. Εδώ να θυμίσουμε ότι στην Απλή Ανάλυση Αντιστοιχιών οι παρατηρήσεις, που συνήθως είναι τα άτομα που παίρνουν μέρος στην έρευνα, δε φαίνονται στο Output, γιατί οι γραμμές και οι στήλες του πίνακα συνάφειας που χρησιμοποιεί η ανάλυση αποτελούνται από τα επίπεδα των δύο μεταβλητών. Στην προκειμένη περίπτωση όμως που οι γραμμές του πίνακα Δείκτη περιλαμβάνουν τις παρατηρήσεις είναι εύκολο να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 113

114 κατασκευάσουμε το αντίστοιχο διάγραμμα. Βεβαίως εδώ υπάρχει το μειονέκτημα της ταύτισης αρκετών σημείων στο γράφημα, διότι το πλήθος των συνδυασμών των επιπέδων των κατηγορικών μεταβλητών είναι πεπερασμένο. Η Πολλαπλή Ανάλυση Αντιστοιχιών με τη χρήση του πίνακα Burt μεταβάλλεται σε Απλή Ανάλυση Αντιστοιχιών, δεδομένου ότι οι γραμμές και οι στήλες του πίνακα Burt συμπίπτουν και λόγω της συμμετρίας του πίνακα αυτού. Ζωτικής σημασία για τον τομέα της Ανάλυσης Δεδομένων είναι να οδηγηθούμε στις συντεταγμένες των γραμμών, διότι ουσιαστικά αυτές συσχετίζονται με μείωση των διαστάσεων. Κατ αναλογία με την Ανάλυση Κυρίων Συνιστωσών, όπου οι κύριες συνιστώσες είναι καινούριες μεταβλητές, έτσι και οι συντεταγμένες κάθε άξονος μπορούν να θεωρηθούν ως νέες μεταβλητές. Όπως γνωρίζουμε, ο πρώτος άξονας ερμηνεύει το μεγαλύτερο ποσοστό της μεταβλητότητας των αρχικών δεδομένων και έτσι η Πολλαπλή Ανάλυση Αντιστοιχιών παράγει νέες συνεχείς μεταβλητές δηλαδή τους άξονες, οι οποίοι συνοψίζουν την πληροφορία των περισσότερων αρχικών κατηγορικών μεταβλητών. Τις μεταβλητές που εξάγονται έχουμε τη δυνατότητα να τις χρησιμοποιήσουμε μετέπειτα για διάφορους στατιστικούς σκοπούς όπως λόγου χάριν η Ανάλυση κατά Συστάδες (Cluster Analysis). Παρόμοιο πρόβλημα με αυτό που αντιμετωπίζουμε στην Ανάλυση Κυρίων Συνιστωσών και στην Απλή Ανάλυση Αντιστοιχιών μας απασχολεί επίσης και στην Πολλαπλή Ανάλυση Αντιστοιχιών και δεν είναι άλλο από τον αριθμό των αξόνων που πρέπει να επιλέξουμε. Ωσαύτως με τις άλλες δύο μεθόδους, έτσι και στην Πολλαπλή Ανάλυση Αντιστοιχιών, μπορούμε να καταφύγουμε στη χρήση του Scree Plot που όμως είναι πιθανό να οδηγήσει σε μη αξιόπιστα αποτελέσματα, αφού οι ιδιοτιμές, λόγω του τρόπου από τον οποίον προήλθαν, δεν είναι καλά διαχωρισμένες. Υπάρχει και ένα εναλλακτικό κριτήριο που στηρίζεται στην Αδράνεια και κάτω από την υπόθεση της ανεξαρτησίας όπου όλες οι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 114

115 ιδιοτιμές ισούνται με 1/c, προτείνει να κρατήσουμε έναν άξονα του οποίου η ιδιοτιμή υπερβαίνει το 1/c. Το συγκεκριμένο κριτήριο είναι παραπλήσιο του κριτηρίου Kaiser της Ανάλυσης Κυρίων Συνιστωσών 8. Όσον αφορά τις συμπληρωματικές μεταβλητές, είναι δυνατή η χρήση τους στην Πολλαπλή Ανάλυση Αντιστοιχιών όπως και στην Απλή Ανάλυση Αντιστοιχιών. Δηλαδή, οι μεταβλητές δεν είναι εν ενεργεία διότι δεν τις χρησιμοποιούμε αρχικώς στην κατασκευή των βασικών αξόνων αλλά χρησιμεύουν αργότερα όταν τις προβάλλουμε στους άξονες για να αυξήσουν την ερμηνευσιμότητα. Παραδείγματα όπου είναι συχνή η χρήση συμπληρωματικών μεταβλητών, αποτελούν λόγου χάριν οι δημογραφικές μεταβλητές. Επιπρόσθετα, όταν αναλύουμε μια έρευνα η οποία περιέχει ανώνυμα ερωτηματολόγια χρησιμοποιώντας συμπληρωματικές μεταβλητές (π.χ. φύλο, μορφωτικό επίπεδο, επάγγελμα κ.α.) έχει ως αποτέλεσμα την απλούστευση της γραφικής παρουσίασης των ατόμων που έλαβαν μέρος στην έρευνα καθώς και τη διευκόλυνση της ερμηνείας των αξόνων. Συνάμα με τη χρήση στατιστικών ελέγχων που συγκρίνουν τις συντεταγμένες των επιπέδων- κατηγοριών, δίνεται η ευχέρεια σε κάποιον να συγκεκριμενοποιήσει αυτές τις κατηγορίες. Ένας τέτοιος έλεγχος σημαντικότητας των κατηγοριών στον πρώτο άξονα, είναι η εύρεση των λεγόμενων «Test-values» για κάθε κατηγορία στον πρώτο άξονα. Ο υπολογισμός των τιμών αυτών γίνεται ως εξής: Αν με f kj θεωρήσουμε τη συντεταγμένη της κατηγορίας j στον k άξονα (περιλαμβάνεται και η περίπτωση των συμπληρωματικών κατηγοριών) τότε αυτή αποτελεί τον αριθμητικό μέσο όλων των συντεταγμένων για τον k άξονα των ατόμων που έχουν επιλέξει αυτήν την κατηγορία, πολλαπλασιασμένη με 1/ k, όπου γ k είναι η ιδιόμορφη τιμή που αντιστοιχεί σε αυτόν τον άξονα. Παραδείγματος χάριν, αν έχουμε την κατηγορική μεταβλητή Φύλο και έχει δύο τιμές (άνδρας & γυναίκα), τότε η συντεταγμένη των γυναικών 8 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 115

116 στον πρώτο άξονα θα είναι ο αριθμητικός μέσος των συντεταγμένων όλων των γυναικών στο δείγμα έχοντας πολλαπλασιαστεί με την αντίστροφη τετραγωνική ρίζα της ιδιόμορφης τιμής του άξονα αυτού. Οπότε, με τη χρήση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) 9, μπορούμε να φτάσουμε σε κάποια μορφή ελέγχου υποθέσεων, εξετάζοντας το αν η συντεταγμένη είναι ίση με το μηδέν ή όχι. Διατυπώνοντας το διαφορετικά, ελέγχουμε αν η συγκεκριμένη κατηγορία συσχετίζεται με τον άξονα ή όχι. Επομένως η Test-value της f kj κατηγορίας θα δίνεται από τον ακόλουθο τύπο: f n n 1 kj j n n j, όπου n είναι το μέγεθος του δείγματος και n j είναι ο αριθμός των παρατηρήσεων στην κατηγορία j. Σύμφωνα με το Κ.Ο.Θ., η ποσότητα αυτή ακολουθεί Τυποποιημένη Κανονική Κατανομή και έτσι αναζητάμε κατηγορίες με υψηλή απόλυτη τιμή της παραπάνω ποσότητας. Εν συνεχεία, με τη χρήση των συντεταγμένων, μας δίνεται η δυνατότητα να φτιάξουμε το διάγραμμα που απεικονίζει τα σημεία ανά ζεύγη ατόμων, αν και κατά κανόνα μόνο οι δύο πρώτοι άξονες χρησιμοποιούνται, γιατί ερμηνεύουν το μεγαλύτερο ποσοστό αδράνειας. 9 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 116

117 - Κεφάλαιο 14: Περιγραφή πολυμεταβλητών δεδομένων με τη βοήθεια παρεμφερών μεθόδων με την Πολλαπλή Ανάλυση Αντιστοιχιών Εκτός της Πολλαπλής Ανάλυσης Αντιστοιχιών απαντώνται στη βιβλιογραφία και ορισμένες μέθοδοι, που κατά βάση αποτελούν διαφοροποιήσεις αυτής ή τελείως διαφορετικές προσεγγίσεις και οι οποίες είναι κατάλληλες για την περιγραφή πολυμεταβλητών δεδομένων. Οι περισσότερες από αυτές είναι προσιτές μέσω των στατιστικών πακέτων και είναι οι ακόλουθες: 14.1: Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis) Εναλλακτικά, όταν επεξεργαζόμαστε αριθμητικά πολλές κατηγορικές μεταβλητές, έχουμε τη δυνατότητα να εφαρμόσουμε Απλή Ανάλυση Αντιστοιχιών σε ένα πλήθος διαφορετικών πινάκων συνάφειας διπλής εισόδου. Η συγκεκριμένη προσέγγιση καλείται Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis). Επομένως, μπορούμε να επιλέξουμε μια τιμή κάποιας μεταβλητής τη μια φορά και εν συνεχεία να υλοποιηθεί Απλή Ανάλυση Αντιστοιχιών για τον πίνακα συνάφειας των υπόλοιπων μεταβλητών. Η συνέπεια αυτού είναι να δημιουργηθούν επικαλυπτόμενα Biplots, τα οποία μας παρέχουν την ευκαιρία να μελετήσουμε τις σχέσεις ανάμεσα στις μεταβλητές. Κατά γενικό κανόνα, για να εξακριβώσουμε το είδος της συσχέτισης που κρύβεται μεταξύ των μεταβλητών, μπορούμε να συνδέσουμε τις τιμές των διαφορετικών επιπέδων- κατηγοριών των κατηγορικών μεταβλητών για κάθε μια από τις τιμές των μεταβλητών που θεωρούνται εξαρτημένες. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 117

118 Το σημείο που υστερεί η παραπάνω μέθοδος, είναι πως ο ερευνητής είναι υποχρεωμένος να κάνει την υπόθεση ότι μια ορισμένη μεταβλητή είναι εξαρτημένη, άρα έχει και διαφορετική σημαντικότητα από τις υπόλοιπες. 14.2: Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) Η Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) εμφανίζει αρκετές ομοιότητες με την Πολλαπλή Ανάλυση Αντιστοιχιών, αν και η Ανάλυση Ομοιογένειας θεωρείται γενικότερη, καθώς είναι εφικτή η εφαρμογή της Πολλαπλής Ανάλυσης Αντιστοιχιών μέσω λογισμικού Ανάλυση Ομοιογένειας. Φυσικά υπάρχουν και διαφορές ανάμεσα στις δύο μεθόδους αναφορικά με το σκοπό που εξυπηρετεί η κάθε μια από αυτές και την ερμηνεία που δίνεται στα ευρήματά τους. Επιπλέον μια ουσιαστική ακόμα διαφορά είναι ότι από υπολογιστικής απόψεως η Ανάλυση Ομοιογένειας- HOMALS είναι πιο επιτεύξιμη, ιδιαίτερα όταν αναλύουμε μεγάλο αριθμό κατηγορικών μεταβλητών. Παράλληλα, η Πολλαπλή Ανάλυση Αντιστοιχιών είναι πιθανό να παρουσιάσει σημαντικά προβλήματα, τα οποία οφείλονται στο ότι η Φασματική Ανάλυση στην οποία βασίζεται είναι αριθμητικά απαιτητική. Τέλος, ο αλγόριθμος της Ανάλυσης Ομοιογένειας- HOMALS προσφέρει τη λύση των πρώτων συντεταγμένων της Πολλαπλής Ανάλυσης Αντιστοιχιών και συμπερασματικά μας προσφέρει εξίσου την ευχέρεια να έχουμε κατ ουσίαν και τη λύση της Πολλαπλής Ανάλυσης Αντιστοιχιών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 118

119 - Κεφάλαιο 15: Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) με το SPSS 15.1: Εισαγωγή Σκοπός της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι η εύρεση βέλτιστων ποσοτικοποιήσεων, υπό την έννοια ότι τα επίπεδα- κατηγορίες πρέπει να χωρίζονται όσο το δυνατόν περισσότερο το ένα από το άλλο. Αυτό υπονοεί πως αντικείμενα που βρίσκονται στην ίδια κατηγορία αναπαρίστανται κοντά το ένα με το άλλο, ενώ αντικείμενα που βρίσκονται σε διαφορετικές κατηγορίες απεικονίζονται όσο το δυνατόν πιο μακριά. Η ανάλυση θα είναι πιο αποτελεσματική όταν οι μεταβλητές είναι ομοιογενείς, δηλαδή όταν διαμερίζονται τα αντικείμενα σε συστάδες ίδιων ή παρόμοιων επιπέδων- κατηγοριών. 15.2: Σύνοψη του Μοντέλου (Model Summary) Η Πολλαπλή Ανάλυση Αντιστοιχιών μπορεί να υπολογίσει μια λύση για μερικές διαστάσεις. Ο μέγιστος αριθμός διαστάσεων είναι ίσος με το πλήθος των επιπέδων- κατηγοριών μείον το πλήθος των μεταβλητών που δεν έχουν απούσες τιμές (missing data) ή εναλλακτικά τον αριθμό των παρατηρήσεων μείον ένα, οποιαδήποτε από τις δύο εναλλακτικές επιλογές είναι μικρότερη. Ωστόσο, σπάνια θα πρέπει να χρησιμοποιήσουμε το μέγιστο πλήθος διαστάσεων. Ένας μικρός αριθμός διαστάσεων είναι ευκολότερο να ερμηνευθεί και μετά από ένα συγκεκριμένο πλήθος διαστάσεων το ποσό της επιπρόσθετης συσχέτισης που υπολογίζεται είναι αμελητέο. Στην Πολλαπλή Ανάλυση Αντιστοιχιών μια μονοδιάστατη ή δισδιάστατη ή τρισδιάστατη λύση είναι η πιο συνηθισμένη. Οι δύο διαστάσεις μαζί, προσφέρουν μια ερμηνεία από την άποψη των αποστάσεων. Αν μια μεταβλητή διακριτοποιείται καλά, τότε τα αντικείμενα θα βρίσκονται κοντά στα επίπεδα- κατηγορίες όπου ανήκουν. Στην ιδανική περίπτωση, Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 119

120 αντικείμενα στην ίδια κατηγορία θα βρίσκονται επίσης κοντά το ένα στο άλλο (αυτό σημαίνει ότι θα πρέπει να έχουν παρόμοια σκορ) και οι κατηγορίες διαφορετικών μεταβλητών θα είναι κοντά εάν ανήκουν στα ίδια αντικείμενα (που σημαίνει πως δύο αντικείμενα που έχουν παρόμοια σκορ για μια μεταβλητή θα πρέπει συγχρόνως να έχουν παρόμοια σκορ και για τις άλλες μεταβλητές στη λύση). 15.3: Object Scores Μετά τη σύνοψη του μοντέλου της Πολλαπλής Ανάλυσης Αντιστοιχιών (Model Summary) εξετάζουμε τα σκορ των αντικειμένων (Object Scores). Έχουμε την ευχέρεια να καθορίσουμε μία ή περισσότερες μεταβλητές για να ονομάσουμε το διάγραμμα Object Scores. Κάθε μεταβλητή επισήμανσης (labeling variable) παράγει ένα ξεχωριστό γράφημα που περιέχει τις ετικέτες των τιμών αυτής της μεταβλητής. Η απόσταση ενός αντικειμένου από την αρχή των αξόνων αντικατοπτρίζει διασπορά από το μέσο πρότυπο απαντήσεων. Το μέσο πρότυπο απαντήσεων αντιστοιχεί στην πιο συχνή κατηγορία για κάθε μεταβλητή. Αντικείμενα με πολλά χαρακτηριστικά αντιστοιχούν στις πιο συχνές κατηγορίες που βρίσκονται κοντά στην αρχή των αξόνων. Αντιθέτως αντικείμενα με μοναδικά χαρακτηριστικά εντοπίζονται μακριά από την αρχή των αξόνων. Το γράφημα των Object Scores είναι ιδιαίτερα χρήσιμο στην επισήμανση ακραίων τιμών (outliers). Μπορούμε να αποκομίσουμε μια πιο διορατική ματιά στα δεδομένα, εξετάζοντας τα γραφήματα των σκορ των αντικειμένων που επισημαίνονται από κάθε μεταβλητή. Στην ιδανική περίπτωση παρόμοια αντικείμενα θα πρέπει να σχηματίζουν κλειστές ομάδες και αυτές οι ομάδες θα πρέπει να απέχουν αρκετά. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 120

121 15.4: Discrimination Measures Το μέτρο διάκρισης (Discrimination Measure), που μπορεί να θεωρηθεί ως η τετραγωνική επιβάρυνση μιας συνιστώσας (Squared Component Loading), υπολογίζεται για κάθε διάσταση. Αυτό το μέτρο είναι επίσης η διασπορά της ποσοτικοποιημένης μεταβλητής σε αυτήν τη διάσταση. Η μέγιστη τιμή της είναι η μονάδα, η οποία επιτυγχάνεται αν τα σκορ των αντικειμένων (object scores) εμπίπτουν σε αλληλοαναιρούμενες ομάδες και όλα τα σκορ των αντικειμένων, εντός μιας κατηγορίας, είναι πανομοιότυπα. Να τονίσουμε παράλληλα ότι αυτό το μέτρο διάκρισης θα έχει τιμή μεγαλύτερη της μονάδος αν υπάρχουν απούσες τιμές (missing values). Μεγάλες τιμές του μέτρου διάκρισης αντιστοιχούν σε μια ευρεία εξάπλωση των επιπέδων της μεταβλητής μεταξύ τους και κατά συνέπεια υποδηλώνουν έναν υψηλό βαθμό διάκρισης ανάμεσα στις κατηγορίες μιας μεταβλητής κατά μήκος αυτής της διάστασης. Ο μέσος όρος των μέτρων διάκρισης για κάθε διάσταση ισοδυναμεί με το ποσοστό της διακύμανσης που υπολογίζεται για τη συγκεκριμένη διάσταση. Επομένως οι διαστάσεις διατάσσονται σύμφωνα με τη μέση διάκριση. Η πρώτη διάσταση έχει τη μεγαλύτερη μέση διάκριση, η δεύτερη διάσταση έχει τη δεύτερη μεγαλύτερη μέση διάκριση κ.ο.κ. για όλες τις διαστάσεις στη λύση. Το γράφημα των μέτρων διάκρισης (Discrimination Measures Plot) περιέχει τις διακυμάνσεις, οι οποίες υποδεικνύουν ποιες μεταβλητές ξεχωρίζουν σε κάθε διάσταση. Παρόλα αυτά, η ίδια διασπορά θα μπορούσε να αντιστοιχεί σε όλες τις κατηγορίες που απλώνονται συγκρατημένα μακριά ή στις περισσότερες κατηγορίες που βρίσκονται κοντά, ενώ λίγες κατηγορίες διαφέρουν από αυτήν την ομάδα. Το γράφημα των μέτρων διάκρισης δε μπορεί να διακρίνει τη διαφορά μεταξύ των δύο αυτών καταστάσεων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 121

122 15.5: Category Quantifications Το διάγραμμα Ποσοτικοποίησης Κατηγορίας (Category Quantification Plot) παρέχει μια εναλλακτική μέθοδο απεικόνισης της διάκρισης μεταβλητών που μπορούν να προσδιορίσουν σχέσεις ανάμεσα στις κατηγορίες. Σε αυτό το γράφημα, οι συντεταγμένες κάθε επιπέδου σε κάθε διάσταση αναπαρίστανται. Έτσι, έχουμε τη δυνατότητα να αποφασίσουμε ποιες κατηγορίες είναι παρόμοιες για κάθε μεταβλητή. Η εξάπλωση των ποσοτικοποιήσεων μιας κατηγορίας (Category Quantification) για μια μεταβλητή αντιπροσωπεύει τη διακύμανση και για αυτό το λόγο επισημαίνει πόσο καλά αυτή η μεταβλητή διακριτοποιείται σε κάθε διάσταση. Επιπροσθέτως, για να αποφασίσουμε τις διαστάσεις στις οποίες διακριτοποιείται μια μεταβλητή και το πώς αυτή η μεταβλητή διακριτοποιείται, το διάγραμμα Ποσοτικοποίησης Κατηγορίας επιπλέον συγκρίνει τη διάκριση των μεταβλητών. Μια μεταβλητή με επίπεδα που βρίσκονται μακριά διακριτοποιείται καλύτερα από μια μεταβλητή με επίπεδα που είναι κοντά. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 122

123 15.6: Περιγραφή Διαδικασίας Πολλαπλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών είναι το ακόλουθο όπως φαίνεται και στην Εικόνα 14: Analyze/ Dimension Reduction/ Optimal Scaling Εικόνα 14: Μενού επιλογής Πολλαπλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 123

124 Εν συνεχεία ανοίγουν οι Επιλογές της Πολλαπλής Ανάλυσης Αντιστοιχιών (Optimal Scaling) (Εικόνα 15). Εικόνα 15: Επιλογές Πολλαπλής Ανάλυσης Αντιστοιχιών Ελέγχουμε αν είναι στο πεδίο Optimal Scaling Level επιλεγμένη η επιλογή All variables are multiple nominal, δηλαδή ότι όλες οι μεταβλητές είναι πολλαπλές και ονομαστικής κλίμακας. Παράλληλα, στο πεδίο Number of Sets of Variables επιλέγουμε One set, δηλώνοντας έτσι πως όλες οι μεταβλητές μαζί θεωρούνται ως ένα σύνολο. Επιπλέον παρατηρούμε πως στο πεδίο Selected Analysis είναι προεπιλεγμένη η Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis). Πατάμε το κουμπί Define και συνεχίζουμε. Εμφανίζεται το παράθυρο της Εικόνας 16, όπου θα επιλέξουμε τις μεταβλητές που θα αναλύσουμε (Analysis Variables), τις συμπληρωματικές Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 124

125 μεταβλητές που ενδεχομένως να χρησιμοποιήσουμε επίσης στην ανάλυση (Supplementary Variables), καθώς και μεταβλητές που θα χρησιμοποιηθούν ως μεταβλητές επισήμανσης, με ετικέτες δηλαδή (Labeling Variables). Εκτός από τα παραπάνω στο κάτω μέρος του παραθύρου υπάρχει προεπιλεγμένος ο αριθμός 2 για τις διαστάσεις που θα περιλαμβάνει η λύση της μεθόδου (Dimensions in solution), ενώ στο δεξιό τμήμα του παραθύρου είναι διαθέσιμο πλήθος κουμπιών για να δηλώσουμε τις παραμέτρους (Discretize, Missing, Options, Output & Save) της Πολλαπλής Ανάλυσης Αντιστοιχιών καθώς και τα κατάλληλα γραφήματα (Plots- Object & Variable). Εικόνα 16: Μεταβλητές Ανάλυσης & Συμπληρωματικές μεταβλητές Πολλαπλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 125

126 Πατώντας το κουμπί Object του πεδίου Plots ανοίγει το παράθυρο της Εικόνας 17: Εικόνα 17: Object Plots Παρατηρούμε ότι είναι προεπιλεγμένη η επιλογή Object points στο πεδίο Plots. Αν επιθυμούμε, μπορούμε να επιλέξουμε και την επιλογή Objects and centroids (biplot) και αυτόματα ενεργοποιούνται και οι επιλογές του πεδίου Biplot Variables. Αφήνουμε μόνο την πρώτη επιλογή Object points και προχωράμε στο πεδίο Label Objects. Εδώ, είναι επίσης προεπιλεγμένη η επιλογή Label by: Variable και έτσι δίνουμε ετικέτες στα αντικείμενα με βάση τις μεταβλητές. Περνάμε στο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 126

127 πεδίο Selected τις μεταβλητές που θέλουμε και πατώντας Continue επανερχόμαστε στο μενού της Εικόνας 16, όπου επιλέγοντας το κουμπί Variable του πεδίου Plots ανοίγει το παράθυρο της Εικόνας 18: Εικόνα 18: Variable Plots Σε αυτό το παράθυρο επιλέγουμε να κατασκευαστεί ένα από κοινού διάγραμμα των επιπέδων- κατηγοριών (Joint Category Plots) περνώντας στο αντίστοιχο πεδίο τις επιθυμητές μεταβλητές. Παράλληλα, διαπιστώνουμε πως είναι προεπιλεγμένη η επιλογή Display plot στο πεδίο Discrimination Measures. Δεν το αλλάζουμε και πατάμε Continue και στη συνέχεια OK όταν επιστρέψουμε και πάλι στο μενού της Εικόνας 16. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 127

128 15.7: Παράλειψη των Ακραίων Τιμών (Omission of Outliers) Στην Πολλαπλή Ανάλυση Αντιστοιχιών οι ακραίες τιμές (Outliers) είναι αντικείμενα που έχουν πολλά μοναδικά χαρακτηριστικά. Για να διαγράψουμε αυτό το αντικείμενο και να υλοποιήσουμε ξανά την ανάλυση επιλέγουμε από το μενού του SPSS: Data/ Select Cases Εικόνα 19: Μενού επιλογής Select Cases Ανοίγει το ακόλουθο παράθυρο Select Cases: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 128

129 Εικόνα 20: Επιλογές Select Cases Επιλέγουμε στο πεδίο Select την επιλογή If Condition is satisfied και πατάμε το κουμπί If. Ανοίγει ένα νέο παράθυρο στο οποίο θα δηλώσουμε τον περιορισμό που επιθυμούμε για την ακραία τιμή. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 129

130 Εικόνα 21: Πλαίσιο Διαλόγου Select Cases Στο πάνω δεξιά πλαίσιο πληκτρολογούμε τον κατάλληλο περιορισμό που θα οδηγήσει στην παράλειψη της ακραίας τιμής. Εν συνεχεία, πατάμε το κουμπί Continue και τέλος, στο πλαίσιο διαλόγου Select Cases που επιστρέφουμε, κάνουμε κλικ στο OK. Μετά είμαστε σε θέση να τρέξουμε πάλι τη διαδικασία της Πολλαπλής Ανάλυσης Αντιστοιχιών, χωρίς αυτή τη φορά να περιλαμβάνονται στην ανάλυση οι ακραίες τιμές που εντοπίσαμε. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 130

131 - Κεφάλαιο 16: Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) με το MINITAB 16.1: Εισαγωγή Πριν εισέλθουμε στην περιγραφή της διαδικασίας υλοποίησης της Πολλαπλής Ανάλυσης Αντιστοιχιών με τη βοήθεια του MINITAB, θα υπενθυμίσουμε εν ολίγοις τη χρησιμότητα της συγκεκριμένης μεθόδου. Έτσι, η Πολλαπλή Ανάλυση Αντιστοιχιών επεκτείνει την έννοια της Απλής Ανάλυσης Αντιστοιχιών στην περίπτωση τριών ή περισσότερων κατηγορικών μεταβλητών. Η μέθοδος αυτή διεξάγει ουσιαστικά Απλή Ανάλυση Αντιστοιχιών σε έναν πίνακα που αποτελείται από μεταβλητές δείκτες (Indicator Variables), όπου κάθε στήλη του πίνακα αντιστοιχεί σε ένα επίπεδο κατηγορικής μεταβλητής. Αντί του πίνακα συνάφειας διπλής εισόδου της Απλής Ανάλυσης Αντιστοιχιών, εδώ ο πίνακας πολλαπλής εισόδου μεταπίπτει στη μία διάσταση. Προχωρώντας από την Απλή στην Πολλαπλή Ανάλυση Αντιστοιχιών αποκομίζουμε πληροφορία σε ένα δυνητικά μεγάλο αριθμό μεταβλητών, χάνοντας ωστόσο πληροφορία σχετικά με το πώς συσχετίζονται μεταξύ τους οι γραμμές και οι στήλες. 16.2: Καταλληλότητα Δεδομένων Πριν μιλήσουμε διεξοδικά για τη διαδικασία της Πολλαπλής Ανάλυσης Αντιστοιχιών με το MINITAB, θα πούμε εν τάχει δύο λόγια σχετικά και με τα δεδομένα που είναι κατάλληλα προς επεξεργασία στο φύλλο εργασίας του MINITAB. Τα δεδομένα λοιπόν μπορούν να ταξινομηθούν με δύο τρόπους: Ακατέργαστα (Raw) ή σε μορφή μεταβλητών δεικτών (Indicator variable). Η διάταξη των δεδομένων του φύλλου εργασίας καθορίζει αποδεκτές τιμές δεδομένων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 131

132 Αν τα δεδομένα δεν έχουν υποστεί επεξεργασία (Raw), μπορούμε να έχουμε μία ή περισσότερες στήλες ταξινόμησης, με κάθε γραμμή να αντιπροσωπεύει μία παρατήρηση. Τα δεδομένα αντιστοιχούν σε κατηγορίες και μπορεί να είναι αριθμητικά, σε μορφή κειμένου ή σε μορφή ημερομηνίας και χρόνου. Εάν επιθυμούμε να αλλάξουμε τη σειρά στην οποία οι κατηγορίες κειμένου υποβάλλονται σε επεξεργασία από την προεπιλεγμένη αλφαβητική σειρά, έχουμε τη δυνατότητα να ορίσουμε τη δική μας επιθυμητή σειρά. Απαραίτητο όμως είναι πριν υλοποιήσουμε την αναφερθείσα διαδικασία να διαγράψουμε απούσες τιμές (missing values). Εάν τα δεδομένα βρίσκονται σε μορφή μεταβλητών δεικτών (Indicator variable), κάθε γραμμή επίσης θα αντιπροσωπεύει μία παρατήρηση. Θα υπάρχει μία στήλη δείκτης για κάθε επίπεδο κατηγορίας. Μπορούμε να ακολουθήσουμε τη διαδρομή Calc/ Make Indicator Variables για να δημιουργήσουμε μεταβλητές δείκτες από τα ακατέργαστα δεδομένα. Παράλληλα πρέπει να απαλείψουμε τυχόν απούσες τιμές πριν ξεκινήσουμε αυτήν τη διαδικασία. Αν υπάρχουν συμπληρωματικά δεδομένα, τα εισάγουμε στο φύλλο εργασίας στην ίδια μορφή, είτε ως ακατέργαστα δεδομένα (Raw) είτε ως μεταβλητές δείκτες (Indicator variables), όπως ακριβώς κάναμε και για τα κανονικά δεδομένα εισαγωγής. Εξαιτίας του ότι τα συμπληρωματικά δεδομένα θα μας παρέχουν επιπρόσθετη πληροφόρηση σχετικά με τις παρατηρήσεις, η στήλη/ οι στήλες των συμπληρωματικών δεδομένων θα πρέπει να έχουν το ίδιο μήκος με τα κανονικά δεδομένα εισαγωγής. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 132

133 16.3: Περιγραφή Διαδικασίας Πολλαπλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών του MINITAB για την εφαρμογή της μεθόδου της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι το ακόλουθο όπως βλέπουμε και στην Εικόνα 22: Stat/ Multivariate/ Multiple Correspondence Analysis Εικόνα 22: Μενού επιλογής Πολλαπλής Ανάλυσης Αντιστοιχιών Ύστερα ανοίγει το Βασικό Μενού της Απλής Ανάλυσης Αντιστοιχιών Input Data (Εικόνα 23). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 133

134 Εικόνα 23: Βασικό Μενού Πολλαπλής Ανάλυσης Αντιστοιχιών Input Data Εμφανίζεται έτσι το πλαίσιο διαλόγου όπου στο πάνω δεξιά μέρος υπάρχει το πεδίο Input Data, στο οποίο ορίζουμε τις παραμέτρους που είναι σχετικές με τα δεδομένα εισαγωγής. Κατά πρώτον, πρέπει να ορίσουμε τη μορφή των δεδομένων, αν δηλαδή είναι άνευ επεξεργασίας οπότε τα εισάγουμε υπό τη μορφή κατηγορικών μεταβλητών (Categorical variables) ή αν τα δεδομένα προέρχονται από μεταβλητές δείκτες, οπότε εισάγουμε τις στήλες που περιέχουν τα δεδομένα αυτά στο πλαίσιο διαλόγου Indicator variables. Αναλυτικά έχουμε τα εξής: Επιλέγουμε το πλαίσιο διαλόγου Categorical variables εάν τα δεδομένα είναι σε ακατέργαστη μορφή, δεν έχουν υποστεί δηλαδή καμία επεξεργασία και τότε εισάγουμε τις στήλες που περιλαμβάνουν τις κατηγορικές μεταβλητές. Αν τα δεδομένα είναι ταξινομημένα ως μεταβλητές δείκτες (Indicator variables) επιλέγουμε τότε το ομώνυμο πλαίσιο διαλόγου και κατόπιν εισάγουμε τις στήλες που περιέχουν τις συγκεκριμένες μεταβλητές στο πλαίσιο κειμένου. Οι είσοδοι σε όλες τις στήλες πρέπει να είναι οι ακέραιοι 0 ή 1. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 134

135 Στο πλαίσιο διαλόγου Category names εισάγουμε τη στήλη που περιέχει τα ονόματα των κατηγοριών, εάν βέβαια επιθυμούμε να ορίσουμε ονόματα για τις κατηγορίες. Η στήλη ονομάτων πρέπει να είναι στήλη κειμένου της οποίας το μήκος θα ταιριάζει με το πλήθος των κατηγοριών σε όλες τις κατηγορικές μεταβλητές. Για παράδειγμα, ας υποθέσουμε ότι έχουμε 3 κατηγορικές μεταβλητές: Φύλο (άνδρας, γυναίκα), Χρώμα μαλλιών (ξανθό, καστανό, μαύρο) και Ηλικία (κάτω των 20 ετών, από 20 έως 50 ετών, άνω των 50 ετών) και καθόλου συμπληρωματικές μεταβλητές. Τότε θα ορίσουμε 2+3+3=8 ονόματα κατηγοριών και έτσι η στήλη ονομάτων θα περιλαμβάνει 8 γραμμές. Να σημειώσουμε επίσης ότι το MINITAB χρησιμοποιεί μόνο τους πρώτους οκτώ χαρακτήρες των ονομάτων στους εξαγόμενους πίνακες αλλά χρησιμοποιεί όλους τους χαρακτήρες στα διαγράμματα. Στο πλαίσιο διαλόγου Number of components δηλώνουμε τον αριθμό των διαστάσεων που θα υπολογιστούν. Η προεπιλεγμένη (default) επιλογή διαστάσεων του πακέτου είναι 2. Πατώντας το πλήκτρο Results της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Multiple Correspondence Analysis- Results (Εικόνα 24) στο οποίο μπορούμε να επιλέξουμε τα συστατικά που θα συμπεριληφθούν στο παράθυρο εξόδου (Window Output) του MINITAB. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 135

136 Εικόνα 24: Παράθυρο Results Επιλέγουμε το πλαίσιο Indicator table για να εμφανιστεί στο Output ο πίνακας των μεταβλητών δεικτών (Indicator variables). Αν επιλέξουμε το πλαίσιο Burt table θα εμφανιστεί στο Output ο πίνακας Burt, τον οποίο έχουμε περιγράψει αναλυτικά στη θεωρία της Πολλαπλής Ανάλυσης Αντιστοιχιών. Πατώντας το πλήκτρο Supp Data της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Supplementary Data (Εικόνα 25), μέσω του οποίου μπορούμε να ορίσουμε τις παραμέτρους σχετικά με τα συμπληρωματικά δεδομένα, στα οποία έχουμε αναφερθεί εκτενώς και στην περιγραφή της διαδικασίας υλοποίησης της Απλής Ανάλυσης Αντιστοιχιών με το MINITAB. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 136

137 Εικόνα 25: Παράθυρο Supplementary Data Στο πλαίσιο διαλόγου Supplementary data (in same form as input data), εισάγουμε μία ή περισσότερες στήλες που περιέχουν τις στήλες με τα συμπληρωματικά δεδομένα. Επιλέγοντας το πλαίσιο Category names εισάγουμε τη στήλη που περιλαμβάνει ένα όνομα σε μορφή κειμένου για όλα τα συμπληρωματικά δεδομένα, τα οποία ταξινομούνται ανά αριθμητική σειρά των αντίστοιχων κατηγοριών ανά μεταβλητή. Πατώντας το πλήκτρο Storage της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Storage (Εικόνα 26) μέσω του οποίου μπορούμε να αποθηκεύουμε τις συντεταγμένες στηλών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 137

138 Εικόνα 26: Παράθυρο Storage Επιλέγοντας το πλαίσιο διαλόγου Coordinates for the components, αποθηκεύουμε τις συντεταγμένες των στηλών όπως είπαμε. Το MINITAB αποθηκεύει τη συντεταγμένη της πρώτης διάστασης στην πρώτη εισηγμένη στήλη, τη συντεταγμένη της δεύτερης διάστασης την αποθηκεύει στη δεύτερη εισηγμένη στήλη κ.ο.κ. Αν υπάρχουν συμπληρωματικά σημεία τότε οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Αν πατήσουμε το πλήκτρο της Εικόνας 23 Graphs θα ανοίξει το ακόλουθο παράθυρο Simple Correspondence Analysis- Graphs (Εικόνα 27) μέσω του οποίου έχουμε τη δυνατότητα να κατασκευάσουμε γραφήματα στηλών. Σε όλα τα διαγράμματα τα σημεία αναπαρίστανται με μπλε τετράγωνα, τρισδιάστα