ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ»

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΦΙΛΙΠΠΟΣ ΑΛΕΒΙΖΟΣ (Αναπληρωτής Καθηγητής) ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: ΚΩΝ/ΝΟΣ ΠΕΤΡΟΠΟΥΛΟΣ (Επίκουρος Καθηγητής) ΝΙΚΟΛΑΟΣ ΤΣΑΝΤΑΣ (Αναπληρωτής Καθηγητής) ΟΝΟΜΑΤΕΠΩΝΥΜΟ ΦΟΙΤΗΤΗ: ΑΓΓΕΛΟΣ ΓΕΩΡΓ. ΓΕΩΡΓΙΤΣΟΠΟΥΛΟΣ ΠΕΡΙΟΧΗ: Στατιστική Ανάλυση Δεδομένων ΘΕΜΑ Απλή & Πολλαπλή Ανάλυση Αντιστοιχιών (Simple & Multiple Correspondence Analysis) και πρακτική εφαρμογή τους σε Έρευνα Αγοράς (Market Research) με τη χρήση των στατιστικών Πάτρα, Δεκέμβριος 2013

2 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ...11 ABSTRACT...12 ΠΡΟΛΟΓΟΣ..13 ΕΥΧΑΡΙΣΤΙΕΣ.13 ΕΙΣΑΓΩΓΗ 14 1 ο Μέρος (Θεωρητικό): Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 2. ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΚΕΦΑΛΑΙΟ 3. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πίνακας Συνάφειας (Contingency Table) Προφίλ (Profiles) Μάζα (Mass) Μέτρα Απόστασης Ιδιότητα Ισοδυναμίας κατά Κατανομή Επιλογή Κριτηρίου «Καλής Προσαρμογής» Αδράνεια (Inertia) Αδράνεια των Σημείων Απόλυτες Συνεισφορές στην Αδράνεια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 2

3 3.7 Πίνακας Καταλοίπων ΚΕΦΑΛΑΙΟ 4. ΓΕΩΜΕΤΡΙΚΗ ΘΕΩΡΗΣΗ Μείωση των Διαστάσεων Γεωμετρική Ερμηνεία Το Μοντέλο της Ανάλυσης Αντιστοιχιών...47 ΚΕΦΑΛΑΙΟ 5. ΠΡΑΚΤΙΚΑ ΖΗΤΗΜΑΤΑ Υπολογιστικές Ανάγκες Διάσπαση Ιδιόμορφων Τιμών (SVD) Συμμετρικά και Μη Συμμετρικά Biplots Συμμετρικά Biplots Μη Συμμετρικά Biplots Παρατηρήσεις ΚΕΦΑΛΑΙΟ 6. ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Ερμηνεία των Αποτελεσμάτων Πλήθος Αξόνων που θα επιλέξουμε Συμπληρωματικά Σημεία (Supplementary Points) Ποιότητα Παρουσίασης Ποιότητα Παρουσίασης- Σχετικές Συνεισφορές στην Αδράνεια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 3

4 ΚΕΦΑΛΑΙΟ 7. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (SIMPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ SPSS Δεδομένα (Data) Υποθέσεις (Assumptions) Πίνακας Αντιστοιχιών- Crosstabs Ανάλυση Αντιστοιχιών- Κανονικοποίηση Κανονικοποίηση (Normalization) Περιγραφή Διαδικασίας Απλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 8. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (SIMPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ MINITAB Περιγραφή Διαδικασίας Απλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 9. ΑΛΛΑ ΖΗΤΗΜΑΤΑ Συμβουλές- Υποδείξεις Σχέσεις με άλλες Μεθόδους Ανάλυση Αντιστοιχιών και Log- Linear Μοντέλα Πρόσθετες Χρήσεις της Ανάλυσης Αντιστοιχιών Ανάλυση κατά Συστάδες (Cluster Analysis) ως συμπληρωματική της Ανάλυσης Αντιστοιχιών Ανάλυση Αντιστοιχιών ως συμπληρωματική της Ανάλυσης κατά Συστάδες (Cluster Analysis).. 99 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 4

5 2ο Μέρος (Θεωρητικό): Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) ΚΕΦΑΛΑΙΟ 10. ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 11. ΚΑΤΑΛΛΗΛΟΤΗΤΑ ΔΕΔΟΜΕΝΩΝ ΚΕΦΑΛΑΙΟ 12. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πίνακας Δείκτης (Disjunctive Matrix) Πίνακας Burt ΚΕΦΑΛΑΙΟ 13. ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Αδράνεια Η Πολλαπλή Ανάλυση Αντιστοιχιών στην πράξη-svd ΚΕΦΑΛΑΙΟ 14. ΠΕΡΙΓΡΑΦΗ ΠΟΛΥΜΕΤΑΒΛΗΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΗ ΒΟΗΘΕΙΑ ΠΑΡΕΜΦΕΡΩΝ ΜΕΘΟΔΩΝ ΜΕ ΤΗΝ ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis) Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) ΚΕΦΑΛΑΙΟ 15. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (MULTIPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ SPSS Εισαγωγή Σύνοψη του Μοντέλου (Model Summary) Object Scores Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 5

6 15.4 Discrimination Measures Category Quantifications Περιγραφή Διαδικασίας Πολλαπλής Ανάλυση Αντιστοιχιών Παράλειψη των Ακραίων Τιμών (Omission of Outliers) ΚΕΦΑΛΑΙΟ 16. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (MULTIPLE CORRESPONDENCE ANALYSIS) ΜΕ ΤΟ MINITAB Εισαγωγή Καταλληλότητα Δεδομένων Περιγραφή Διαδικασίας Πολλαπλής Ανάλυση Αντιστοιχιών ΚΕΦΑΛΑΙΟ 17. ΑΛΛΑ ΖΗΤΗΜΑΤΑ ΚΕΦΑΛΑΙΟ 18. ΣΥΝΟΨΗ ο Μέρος (Θεωρητικό): Έρευνα Αγοράς (Market Research) ΚΕΦΑΛΑΙΟ 19. ΕΡΕΥΝΑ ΑΓΟΡΑΣ Ορισμοί Στόχοι της Έρευνας Αγοράς Τύποι Έρευνας Στάδια Έρευνας Αγοράς Πρωτογενή και Δευτερογενή Δεδομένα Ποιοτική και Ποσοτική Έρευνα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 6

7 ΚΕΦΑΛΑΙΟ 20. ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ (QUESTIONNAIRE) Εισαγωγή Χαρακτηριστικά του Ερωτηματολογίου Σχεδιασμός Ερωτηματολογίου (Questionnaire Design) Δυσκολίες κατά τη Σύνταξη του Ερωτηματολογίου Μέθοδοι Διανομής του Ερωτηματολογίου ΚΕΦΑΛΑΙΟ 21. ΔΕΙΓΜΑΤΟΛΗΨΙΑ Εισαγωγή Χαρακτηριστικά της Δειγματοληψίας Διαδικασία της Δειγματοληψίας ΚΕΦΑΛΑΙΟ 22. ΑΝΑΦΟΡΑ & ΠΑΡΟΥΣΙΑΣΗ (REPORTING) ΤΩΝ ΕΥΡΗΜΑΤΩΝ ΤΗΣ ΕΡΕΥΝΑΣ Η Διαδικασία Προετοιμασίας της Αναφοράς (Report) & της Παρουσίασης των Ευρημάτων της Έρευνας ΚΕΦΑΛΑΙΟ 23. ΣΥΝΑΦΕΙΑ ΕΡΕΥΝΑΣ ΑΓΟΡΑΣ & ΑΝΑΛΥΣΗΣ ΑΝΤΙΣΤΟΙΧΙΩΝ Εισαγωγή Χρησιμότητα της Ανάλυσης Αντιστοιχιών στην Έρευνα Αγοράς Εφαρμογές της Ανάλυσης Αντιστοιχιών στο Μάρκετινγκ- Έρευνα Αγοράς Γενικά Μερίδια Αγοράς & Τοποθέτηση Προϊόντος 166 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 7

8 Αποτελέσματα Διαφημιστικής Καμπάνιας Απόψεις Καταναλωτών- Ανάπτυξη Νέου Προϊόντος Εξέταση Δεδομένων (Data Considerations) Σημαντικότητα των Εξαρτήσεων (Significance of Dependencies) Διαστατικότητα της Επίλυσης (Dimensionality of the Solution) Ερμηνεία των Αξόνων (Interpreting the Axes) Η Ποιότητα της Παρουσίασης (The Quality of Representation) Συμπληρωματικά Σημεία (Supplementary Points) Ακραίες Τιμές (Outliers) Τελικές Παρατηρήσεις ο Μέρος (Ερευνητικό): Πρακτική Εφαρμογή Ανάλυσης Αντιστοιχιών (Correspondence Analysis) σε Έρευνα Αγοράς (Market Research) με τη βοήθεια των SPSS & MINITAB ΚΕΦΑΛΑΙΟ 24. ΜΕΘΟΔΟΛΟΓΙΚΟ ΠΛΑΙΣΙΟ Ταυτότητα της Έρευνας Μέθοδος Δειγματοληπτικής Έρευνας Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 8

9 24.3 Πληθυσμός αναφοράς και προσδιορισμός μεγέθους του δείγματος Περιγραφή μεθόδων επεξεργασίας και ανάλυσης των δεδομένων- Στατιστική Συμπερασματολογία Επιλογή μεταβλητών Έλεγχοι Ανεξαρτησίας X 2 (Chi-Square) Τελική επιλογή μεταβλητών Περιγραφικά μέτρα ΚΕΦΑΛΑΙΟ 25. ΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ- SIMPLE CORRESPONDENCE ANALYSIS (S.C.A.) Εισαγωγή Προεργασία Εφαρμογή Συμπεράσματα ΚΕΦΑΛΑΙΟ 26. ΠΟΛΛΑΠΛΗ ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ- MULTIPLE CORRESPONDENCE ANALYSIS (M.C.A.) Εισαγωγή Εφαρμογή Συμπεράσματα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 9

10 ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ ΕΥΡΕΤΗΡΙΟ ΟΡΩΝ (ΥΠΟΣΗΜΕΙΩΣΕΙΣ) [2]. Πίνακες Απλής & Πολλαπλής Εισόδου.231 [3]. Προφίλ (Profiles) Γραμμών και Στηλών 233 [4]. Έλεγχος X [5]. Κριτήριο «Καλής Προσαρμογής»..238 [7]. Matching Coefficient..239 [8]. Κριτήριο Kaiser Ανάλυσης Κυρίων Συνιστωσών..240 [9]. Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.)- Central Limit Theorem (C.L.M)..241 [10]. Καμπύλες Andrews.242 [11]. Έρευνα Μάρκετινγκ (Marketing Research) 243 [12]. Μάρκετινγκ (Marketing).243 [13]. Μίγμα Μάρκετινγκ (Marketing Mix- 4P)..244 [14]. Κοινωνικοοικονομική Έρευνα (Μεταβλητές) 247 [15]. Απλή Τυχαία Δειγματοληψία..249 ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΕΡΕΥΝΑΣ ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ- ΠΙΝΑΚΕΣ- ΓΡΑΦΗΜΑΤΑ.257 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ ΕΥΡΕΤΗΡΙΟ ΓΡΑΦΗΜΑΤΩΝ ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 10

11 Περίληψη Ένα από τα πιο αποτελεσματικά μέσα για την επιτυχία ενός προϊόντος είναι αναμφισβήτητα η Έρευνα Αγοράς (Market Research). Η έρευνα υλοποιείται σε αντιπροσωπευτικό δείγμα ενός συγκεκριμένου υπό μελέτη πληθυσμού, με απώτερο σκοπό να εξαχθούν συμπεράσματα από την ποσοτική στατιστική επεξεργασία και ανάλυση των δεδομένων σχετικά με τις απόψεις, τις στάσεις και τις συμπεριφορές που διαθέτουν οι καταναλωτές, τις τάσεις και τις προοπτικές ενός κλάδου, το μερίδιο αγοράς που αντιστοιχεί σε κάποιο προϊόν ή επίσης και τη γνώση που έχουν οι καταναλωτές όσον αφορά τη μάρκα ή την εικόνα ενός προϊόντος. Η στατιστική ανάλυση των αποτελεσμάτων επιτυγχάνεται με χρήση διαφόρων στατιστικών τεχνικών, ανάμεσα στις οποίες περιλαμβάνεται και η Ανάλυση Αντιστοιχιών (Correspondence Analysis). Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) είναι μια διερευνητική τεχνική ανάλυσης δεδομένων που απεικονίζει γραφικά πίνακες συνάφειας και πολυμεταβλητά κατηγορικά δεδομένα, ενώ παράλληλα τις τελευταίες δεκαετίες έχει σημειώσει ταχύτατη εξέλιξη και ανάπτυξη. Η Ανάλυση Αντιστοιχιών βρίσκει εφαρμογή τόσο στην Έρευνα Αγοράς, ακριβώς λόγω της κατηγορικής φύσεως των δεδομένων που προκύπτουν σε έρευνες τέτοιου τύπου, όσο και γενικότερα στις κοινωνικές επιστήμες όπου συνήθως χρειάζεται ένα στατιστικό «εργαλείο» για να ελέγξει τις αντιστοιχίες- συσχετίσεις μεταξύ των μεταβλητών και να τις αποδώσει με τη βοήθεια ενός γραφήματος. Σκοπός της παρούσας εργασίας είναι η θεωρητική, πρακτική και υπολογιστική επισκόπηση της συγκεκριμένης στατιστικής μεθόδου καθώς και η υλοποίησή της στα στατιστικά πακέτα SPSS & MINITAB, με τη χρήση κατάλληλων δεδομένων από τον τομέα της Έρευνας Αγοράς. Θα δοθεί έμφαση περισσότερο στην ερμηνεία των αποτελεσμάτων παρά στις μαθηματικές και τεχνικές λεπτομέρειες των διαδικασιών της εφαρμογής. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 11

12 Abstract One of the most effective means for the success of a product is indisputably the Market Research. The research is conducted in a representative sample of a specific population under study with the aim to draw conclusions which are derived from the quantitative statistical processing and analysis of data on the opinions, the attitudes and behaviors that consumers have, the trends and the prospects of a branch, the market share which is corresponding to a product or also the knowledge that consumers have got as far as it concerns the brand or product image. The statistical analysis of the results is accomplished by using different statistical techniques including Correspondence Analysis. The Correspondence Analysis is an exploratory data analysis technique that depicts graphically contingency tables and multivariate categorical data, while the last decades it has made rapid progress and development. The Correspondence Analysis is applicable to Market Research, just because of the categorical nature of data obtained in researches of this type and generally in social sciences, where commonly a statistical tool is needed to check on the correspondences- correlations among the variables and yield them through a graph. The purpose of this study is the theoretical, practical and computational survey of this specific statistical method and its implementation in the statistical packages SPSS & MINITAB by using appropriate data from Market Research. Emphasis will be given more on the interpretation of results despite the mathematical and technical details of the method procedures. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 12

13 ΠΡΟΛΟΓΟΣ Η διεξαγωγή της έρευνας πραγματοποιείται στο πλαίσιο του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων», που υλοποιείται με τη συνεργασία των τμημάτων Μαθηματικών και Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Το θέμα που πραγματεύεται η παρούσα έρευνα εστιάζεται στην Ανάλυση Αντιστοιχιών (Correspondence Analysis), που είναι μια στατιστική τεχνική ανάλυσης πολυμεταβλητών κατηγορικών δεδομένων, καθώς και στην πρακτική εφαρμογή της σε δεδομένα που έχουν αντληθεί από τη διεξαγωγή μιας Έρευνας Αγοράς (Market Research). Αυτός είναι και ο αντικειμενικός σκοπός της διπλωματικής εργασίας, δηλαδή η ανάδειξη της συγκεκριμένης στατιστικής μεθόδου ως ένα από τα καταλληλότερα «εργαλεία» για την διερεύνηση των συσχετίσεων που υφίστανται μεταξύ των υπό εξέταση μεταβλητών. Συμπερασματικά, θα πραγματοποιηθεί μια θεωρητική επισκόπηση της μεθόδου της Ανάλυσης Αντιστοιχιών και εν συνεχεία θα υλοποιηθεί μια πρακτική και υπολογιστική εφαρμογή σε Έρευνα Αγοράς. ΕΥΧΑΡΙΣΤΙΕΣ Ολοκληρώνοντας το Διατμηματικό Μεταπτυχιακό Πρόγραμμα Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» θα ήθελα να εκφράσω την ειλικρινή μου ευχαριστία σε όλους ανεξαιρέτως τους καθηγητές μου και κυρίως στον αναπληρωτή καθηγητή και επιβλέποντα Κο Φίλιππο Αλεβίζο, που με την ουσιαστική του καθοδήγηση και την ανεξάντλητη υπομονή του συνέβαλλε τα μέγιστα στην διεκπεραίωση αυτής της διπλωματικής εργασίας. Επιπλέον θα ήθελα να ευχαριστήσω θερμά την οικογένεια μου, όλους τους φίλους και ιδιαίτερα τον Αναστάσιο Βελαώρα, απόφοιτο Μάρκετινγκ του Ο.Π.Α., για την προμήθεια βιβλιογραφίας καθώς και τους συναδέλφους από το μεταπτυχιακό Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 13

14 πρόγραμμα που με υποστήριξαν και ενίσχυσαν παντοιοτρόπως για να φέρω εις πέρας τη συγκεκριμένη εργασία. Τέλος, η συγκεκριμένη έρευνα δε θα μπορούσε να ολοκληρωθεί χωρίς τη βοήθεια της Κας Κανελλοπούλου Θάλειας, υπεύθυνης του τμήματος ερευνών της Data Research & Consulting SA (Data RC), εταιρείας που παρέχει υπηρεσίες ερευνών αγοράς και μάρκετινγκ. ΕΙΣΑΓΩΓΗ Αφορμή για την επιλογή του θέματος της διπλωματικής εργασίας από την περιοχή της Στατιστικής Ανάλυσης Δεδομένων, στάθηκαν οι σπουδές που διέθετα σε προπτυχιακό επίπεδο καθώς είμαι απόφοιτος του τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών (Ο.Π.Α.), σε συνδυασμό με την ήδη υπάρχουσα ενασχόληση μου σε ατομικό επίπεδο ως αναλυτής- μελετητής ερευνών με χρήση ερωτηματολογίου κατά κύριο λόγο. Παράλληλα σημαντικό ρόλο διαδραμάτισε και η προοπτική επαγγελματικής απασχόλησης ως ερευνητής αγοράς, όπως και η επιθυμία μου να εμπλουτίσω τις γνώσεις μου σε θέματα που άπτονται του τομέα Marketing και συγκεκριμένα της Έρευνας Αγοράς. Έτσι σε συνεννόηση πάντα με τον επιβλέποντα καθηγητή Κο Φ. Αλεβίζο επιλέχθηκε το συγκεκριμένο θέμα που έχει τίτλο «Απλή και Πολλαπλή Ανάλυση Αντιστοιχιών (Correspondence Analysis) και πρακτική εφαρμογή τους σε Έρευνα Αγοράς (Market Research) με τη βοήθεια των στατιστικών πακέτων SPSS & MINITAB», το οποίο θα μου έδινε την ευκαιρία να γνωρίσω εις βάθος την στατιστική τεχνική της Ανάλυσης Αντιστοιχιών, τόσο από θεωρητικής μεριάς όσο και από πρακτικής απόψεως, καθώς η εργασία θα συνοδευόταν από υλοποίηση της προαναφερθείσας στατιστικής τεχνικής σε πρακτικό επίπεδο. Στόχος της διπλωματικής εργασίας είναι μια όσο το δυνατόν πιο ενδελεχής προσέγγιση της μεθόδου της Ανάλυσης Αντιστοιχιών σε θεωρητικό και πρακτικό τομέα όπως ήδη αναφέραμε, δίχως όμως να επιμείνουμε τόσο στις μαθηματικές και Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 14

15 τεχνικές λεπτομέρειες των διαδικασιών της τεχνικής αυτής. Συγχρόνως η εργασία στοχεύει στο να επιβεβαιώσει ή όχι την προσφορά της Ανάλυσης Αντιστοιχιών κατά την εφαρμογή της σε Έρευνα Αγοράς και να επισημάνει τα πλεονεκτήματα και τα μειονεκτήματα της. Κατόπιν τούτων, θα ξεκινήσουμε στο 1 ο μέρος της εργασίας με τη Θεωρητική επισκόπηση (βασικές έννοιες, πρακτικά ζητήματα, συμπερασματολογία) της Απλής Ανάλυσης Αντιστοιχιών (Simple Correspondence Analysis), που αναλύει έναν πίνακα συνάφειας διπλής εισόδου αποτελούμενο από κατηγορικά δεδομένα. Επιπρόσθετα θα περιγράψουμε την εφαρμογή της με τα στατιστικά πακέτα SPSS & MINITAB. Ομοίως στο 2 ο μέρος, θα αναφερθούμε στην Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis), η οποία επεκτείνει την έννοια της Απλής Ανάλυσης Αντιστοιχιών στην περίπτωση τριών ή και παραπάνω κατηγορικών μεταβλητών. Ωσαύτως με την προηγούμενη περίπτωση, θα περιγράψουμε και εδώ την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών με τη συνδρομή των πακέτων SPSS & MINITAB. Εδώ πρέπει να κάνουμε ιδιαίτερη μνεία στον Κο Δημήτρη Καρλή, Αναπληρωτή Καθηγητή του τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών (Ο.Π.Α., πρώην ΑΣΟΕΕ), καθώς ένα μεγάλο μέρος της θεωρίας του 1 ου και του 2 ου μέρους της παρούσας εργασίας βασίστηκε στο βιβλίο του «Πολυμεταβλητή Στατιστική Ανάλυση» που εκδόθηκε από τις εκδόσεις Σταμούλη το Εν συνεχεία, στο 3 ο μέρος θα πραγματοποιηθεί μια σύντομη αλλά ταυτόχρονα περιεκτική επισκόπηση της θεωρίας της Έρευνας Αγοράς (Market Research), όπου θα τονιστούν τα σημαντικότερα και άξια λόγου σημεία της. Εν κατακλείδι, στο 4 ο και τελευταίο μέρος της εργασίας, θα παρουσιάσουμε μια πρακτική εφαρμογή αφενός της Απλής Ανάλυσης Αντιστοιχιών και αφετέρου της Πολλαπλής Ανάλυσης Αντιστοιχιών, πάλι με τη βοήθεια των πακέτων SPSS & MINITAB, σε δεδομένα που προέρχονται από μια πρόσφατη διεξαγωγή Έρευνας Αγοράς. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 15

16 1ο Μέρος: Απλή Ανάλυση Αντιστοιχιών- Simple Correspondence Analysis - Κεφάλαιο 1: Εισαγωγή Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) είναι μια δημοφιλής περιγραφική/ «διερευνητική» (exploratory) στατιστική τεχνική ανάλυσης δεδομένων, κατάλληλη για πολυμεταβλητά κατηγορικά δεδομένα και τη γραφική απεικόνιση των πινάκων συνάφειας (contingency tables). Η μέθοδος αυτή έχει ιδιαίτερη απήχηση και τυγχάνει μεγάλης εφαρμογής στις κοινωνικές επιστήμες. Η ιστορία της ξεκινά περίπου πριν 50 χρόνια μέσω μιας ποικιλίας από διαφορετικές ονομασίες, αν και κάποιος μπορεί να ισχυριστεί ότι προέρχεται από την έρευνα του Fisher πάνω στους πίνακες συνάφειας το 1940, της οποίας το περιεχόμενο της πρώτης παρουσίασης της ήταν αυστηρά κλασσική συμπερασματική στατιστική. Η δημοτικότητα της οφείλεται στην ανάπτυξη και τη χρήση της σε πολλές ευρωπαϊκές χώρες, κυρίως στη Γαλλία μέσα από τις ενδελεχείς προσπάθειες του Benzecri, που είχαν ως αποτέλεσμα να δοθεί έμφαση στις αλγεβρικές και γεωμετρικές ιδιότητες της μεθόδου, ενώ η εφαρμογή της έχει διαδοθεί και σε «αγγλόφωνα» έθνη όπως οι Η.Π.Α. και το Ηνωμένο Βασίλειο. Η ολοένα αυξανόμενη απήχηση της ανάμεσα στους στατιστικούς και πολύ πρόσφατα σε επιστημονικούς κλάδους, όπου η στατιστική δεν έχει και τόσο «κυρίαρχη» θέση, μαρτυρά τη σημασία και την αξία της συνεχιζόμενης έρευνας και ανάπτυξης της συγκεκριμένης μεθοδολογίας της Ανάλυση Αντιστοιχιών. Επίσης όλο και περισσότερα πακέτα λογισμικού περιλαμβάνουν τα μέσα για την ευκολότερη εφαρμογή της μεθόδου. H Ανάλυση Αντιστοιχιών (Correspondence Analysis) έχει ως βασικότερο σκοπό τη μετατροπή ενός πίνακα δεδομένων, που πολύ συχνά πρόκειται για πίνακα συχνοτήτων, σε μια γραφική απεικόνιση με απώτερο στόχο να «αποκαλυφθούν» οι συσχετίσεις μεταξύ των κελιών του αρχικού πίνακα και ιδιαίτερα ανάμεσα στα βασικά χαρακτηριστικά του πίνακα. Επιπλέον, δίνει τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 16

17 δυνατότητα στον ερευνητή να κατασκευάσει ένα διάγραμμα (δημιουργώντας τις συντεταγμένες που θα αναπαριστούν τα επίπεδα- κατηγορίες των υπαρχουσών μεταβλητών), το οποίο θα παρουσιάζει την αλληλεπίδραση μεταξύ των κατηγορικών μεταβλητών και τη σχέση συνάμα που θα συνδέει τις γραμμές του πίνακα μεταξύ τους όπως και τις στήλες μεταξύ τους, θα επιτρέπει όμως παράλληλα και την οπτική εξέταση κάθε μορφής ή δομής στα δεδομένα. Η Ανάλυση Αντιστοιχιών ταξινομεί τόσο τις γραμμές όσο και τις στήλες ενός ορθογώνιου πίνακα δεδομένων (rectangular data matrix) στις αντίστοιχες μονάδες, έτσι ώστε να είναι δυνατόν να απεικονιστούν γραφικά στον ίδιο χώρο μικρής διάστασης. Για κάθε μεταβλητή, οι «αποστάσεις» μεταξύ των σημείων των επιπέδων της σε ένα διάγραμμα αντικατοπτρίζουν τις σχέσεις μεταξύ των επιπέδων με παρόμοια επίπεδα που απεικονίζονται πολύ κοντά το ένα με το άλλο. Προβάλλοντας σημεία για μια μεταβλητή στο διάνυσμα από την αρχή των αξόνων σε ένα σημείο κατηγορίας- επιπέδου της άλλης μεταβλητής, περιγράφουμε τη σχέση μεταξύ των μεταβλητών. Η μέθοδος αυτή έχει, ως επί το πλείστον, περιγραφικό και όχι επαγωγικό χαρακτήρα καθώς προσφέρει την ευχέρεια στον ερευνητή να δημιουργήσει μια αποτελεσματική απεικόνιση ενός μεγάλου πίνακα συχνοτήτων. Συνήθως, η μελέτη, μεγάλων σε όγκο, πινάκων συχνοτήτων δεν είναι μια εύκολη υπόθεση και για αυτό το λόγο μέσω της γραφικής απεικόνισης τέτοιων πινάκων είμαστε σε θέση να εξάγουμε περισσότερη πληροφορία. Η Ανάλυση Αντιστοιχιών (Correspondence Analysis) θα πρέπει να θεωρηθεί ως ένα εξαιρετικά χρήσιμο συμπλήρωμα, παρά ως ένα υποκατάστατο για την περισσότερο τυπική συμπερασματική ανάλυση, όπως είναι τα log- linear και τα logistic models (λογιστικά μοντέλα), τα οποία βρίσκουν εφαρμογή σε κατηγορικά δεδομένα. Ακόμα πολλοί έχουν την πεποίθηση ότι είναι ένα εργαλείο για την εύρεση της καλύτερης ταυτόχρονης απεικόνισης δύο συνόλων δεδομένων που αποτελούν τις γραμμές και τις στήλες ενός πίνακα δεδομένων. Ο σκοπός χρήσης της Ανάλυσης Αντιστοιχιών συνοψίζεται πολύ ωραία στο παρακάτω χωρίο από τον Greenacre (1992): An important aspect of Correspondence Analysis which distinguishes it from more conventional statistical methods is that it is not a confirmatory technique, trying to prove a hypothesis, but rather an exploratory technique, trying to reveal the data Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 17

18 content. One can say that it serves as a window onto the data, allowing researchers easier access to their numerical results and facilitating discussion of the data and possibly generating hypotheses which can be formally tested at a later stage. Σε ελεύθερη μετάφραση: «Μια ενδιαφέρουσα άποψη της Ανάλυσης Αντιστοιχιών, η οποία την ξεχωρίζει από τις υπόλοιπες συμβατικές στατιστικές μεθόδους, είναι το γεγονός ότι δεν είναι μια επαληθευτική τεχνική που προσπαθεί να αποδείξει μια υπόθεση, αλλά μάλλον μια διερευνητική τεχνική που έχει ως στόχο να φανερώσει το περιεχόμενο των δεδομένων. Κάποιος μπορεί να ισχυριστεί ότι χρησιμεύει σαν ένα παράθυρο πάνω στα δεδομένα, που επιτρέπει στους ερευνητές ευκολότερη πρόσβαση στα αριθμητικά τους αποτελέσματα και διευκολύνει τη μελέτη των δεδομένων και είναι πιθανό να παράγει υποθέσεις που μπορούν τυπικά να ελεγχθούν σε μεταγενέστερο στάδιο». Ένα μειονέκτημα της μεθόδου είναι το γεγονός ότι δε χρησιμοποιείται για να γενικεύσουμε τα εξαγόμενα αποτελέσματα στον υπό μελέτη πληθυσμό. Με άλλα λόγια δεν έχει επαγωγικό χαρακτήρα η Ανάλυση Αντιστοιχιών όπως αναφέραμε προηγουμένως και έτσι δεν κάνουμε στατιστική συμπερασματολογία όπως συμβαίνει με άλλες μεθόδους στατιστικής ανάλυσης. Μαθηματικά, η Ανάλυση Αντιστοιχιών μπορεί να θεωρηθεί: Ως μια μέθοδος που αναλύει το X 2 chi-square στατιστικό για ένα πίνακα συνάφειας σε συνιστώσες που αντιστοιχούν σε διαφορετικές διαστάσεις της ετερογένειας μεταξύ των γραμμών και των στηλών του πίνακα (παρόμοια διαδικασία υλοποιεί η Ανάλυση σε Κύριες Συνιστώσες- Principal Components Analysis σε συνεχή πολυμεταβλητά δεδομένα) ή ως μια μέθοδος που ταυτόχρονα αντιστοιχεί μια κλίμακα στις γραμμές και μια διαφορετική κλίμακα στις στήλες, έτσι ώστε να μεγιστοποιήσει τη συσχέτιση ανάμεσα στο ζευγάρι των μεταβλητών που προκύπτουν. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 18

19 Η Ανάλυση Αντιστοιχιών δίνει τη δυνατότητα στον ερευνητή να αναλύσει δισδιάστατους ή μεγαλύτερης διάστασης πίνακες, με την προϋπόθεση ότι υφίσταται κάποιο μέτρο αντιστοιχίας μεταξύ των γραμμών και των στηλών τους. Κλασικά παραδείγματα πινάκων στους οποίους μπορεί να γίνει εφαρμογή της Ανάλυσης Αντιστοιχιών είναι οι πίνακες συχνοτήτων καθώς και οι πίνακες συνάφειας απόλυτων ή σχετικών συχνοτήτων. Η Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) υλοποιείται σε πίνακες δύο διαστάσεων. Η Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis- MCA) υλοποιείται σε πίνακες άνω των δύο διαστάσεων. Ο όρος «Απλή Ανάλυση Αντιστοιχιών» δεν αντικατοπτρίζει την ευκολία της εκτέλεσης ή ερμηνείας της ανάλυσης. Αντιθέτως, αναφέρεται στην εφαρμογή της στο πιο στοιχειώδες ή απλό σύνολο δεδομένων, όπως έναν πίνακα συνάφειας διπλής εισόδου σε αντίθεση με την Πολλαπλή Ανάλυση Αντιστοιχιών που υλοποιείται σε περισσότερες από δύο κατηγορικές μεταβλητές. Ο όρος «κλασική» έχει ακόμα χρησιμοποιηθεί για να περιγράψει την αυθεντική γραφική μεθοδολογία που αναπτύχθηκε αφότου υπάρχουν προσαρμογές στην κλασική προσέγγιση που μπορεί να υλοποιηθεί. Στο σημείο αυτό πρέπει να τονίσουμε πως η Πολλαπλή Ανάλυση Αντιστοιχιών δε μπορεί να θεωρηθεί ως μια γενίκευση της Απλής Ανάλυσης Αντιστοιχιών σε ένα πολυμεταβλητό χώρο, παρά το γεγονός ότι στηρίζεται και αυτή στην ίδια λογική. Αν δηλαδή για παράδειγμα εφαρμόσουμε την Πολλαπλή Ανάλυση Αντιστοιχιών σε δύο μεταβλητές τότε τα αποτελέσματα που θα εξαχθούν από αυτήν δεν θα ταυτίζονται με αυτά που θα προκύψουν από την υλοποίηση της Απλής Ανάλυσης Αντιστοιχιών. Επιπροσθέτως, πρέπει να επισημάνουμε την ομοιότητα της Ανάλυσης Αντιστοιχιών τόσο με την Παραγοντική Ανάλυση (Factor Analysis) όσο και με την Ανάλυση σε Κύριες Συνιστώσες (Principal Components Analysis), καθώς τα αποτελέσματα που μπορούν να προκύψουν από την εφαρμογή της Ανάλυσης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 19

20 Αντιστοιχιών (Correspondence Analysis) παρέχουν πληροφορίες που είναι ανάλογες με τις προκύπτουσες πληροφορίες από την εφαρμογή των άλλων δύο μεθόδων, συν το γεγονός ότι η Ανάλυση Αντιστοιχιών επιτρέπει τη διερεύνηση της δομής των κατηγορικών μεταβλητών του υπό μελέτη πίνακα. Για τους παραπάνω λόγους η Ανάλυση Αντιστοιχιών θεωρείται ως η αντίστοιχη μέθοδος της Ανάλυσης Κυρίων Συνιστωσών στην περίπτωση κατηγορικών δεδομένων. Παράλληλα, η Παραγοντική Ανάλυση είναι μια δεδομένη τεχνική για να περιγράψουμε τις σχέσεις μεταξύ μεταβλητών σε ένα χώρο μικρής διάστασης. Όμως η συγκεκριμένη μέθοδος απαιτεί δεδομένα κλίμακας διαστήματος και επιπλέον το πλήθος των παρατηρήσεων θα πρέπει να τουλάχιστον πενταπλάσιο από το πλήθος των μεταβλητών. Η Ανάλυση Αντιστοιχιών αντιθέτως, υποθέτει ονομαστικές μεταβλητές και μπορεί να περιγράψει τις σχέσεις ανάμεσα στις κατηγορίες της κάθε μεταβλητής, όπως επίσης και τη σχέση μεταξύ των μεταβλητών. Ταυτόχρονα, η Ανάλυση Αντιστοιχιών μπορεί να χρησιμοποιηθεί για να αναλύσει οποιοδήποτε πίνακα που διαθέτει θετικά μέτρα αντιστοιχίας. Αν ακόμα οι μεταβλητές ταξινομούνται με βάση διατεταγμένη κλίμακα (ordinal scale) τότε μπορούμε να χρησιμοποιήσουμε την Κατηγορική Ανάλυση σε Κύριες Συνιστώσες (Categorical Principal Components Analysis). Η μέθοδος της Ανάλυσης Αντιστοιχιών χαρακτηρίζεται από ελάχιστο αριθμό υποθέσεων, διότι ο ερευνητής που υλοποιεί τη μέθοδο δεν υποθέτει κάποιο συγκεκριμένο μοντέλο, απλά προσπαθεί να προσδιορίσει τις δομές που «κρύβονται» πίσω από τα δεδομένα με τη βοήθεια της γραφικής απεικόνισης αυτών των δεδομένων. Για αυτό το λόγο, όπως ήδη αναφέραμε, δεν μπορούμε να γενικεύσουμε τα όποια αποτελέσματα προκύψουν στον υπό μελέτη πληθυσμό και να προχωρήσουμε σε στατιστική συμπερασματολογία, γιατί το θεωρητικό υπόβαθρο της Ανάλυσης Αντιστοιχιών είναι «φτωχό» και στερείται ενός σαφώς ορισμένου στατιστικού μοντέλου. Τα βασικά σημεία της Ανάλυσης Αντιστοιχιών συνοψίζονται ως εξής: Κάθε γραμμή και στήλη ενός πίνακα δεδομένων (ή ενός πίνακα συνάφειας) αναπαριστάται με ένα σημείο σε ένα πολυδιάστατο χώρο αν και ο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 20

21 ανθρώπινος νους δεν είναι εύκολο να πραγματοποιήσει απεικονίσεις πολυδιάστατων χώρων. Αυτά τα σημεία είναι στην πραγματικότητα οι προβολές των γραμμών και των στηλών του πίνακα πάνω σε ένα δισδιάστατο Ευκλείδιο χώρο. Συμπερασματικά, για να αντιμετωπίσουμε την παραπάνω αδυναμία καταφεύγουμε στη μείωση του προβλήματος με την μετατροπή του πολυδιάστατου χώρου σε ένα χώρο μικρότερων διαστάσεων. Ακολούθως, βασική επιδίωξη είναι πώς μπορεί να επιτευχθεί η αναπαράσταση των γραμμών και των στηλών με βέλτιστο τρόπο σε χώρο μικρότερων διαστάσεων, με απώτερο σκοπό να γίνει ουσιαστικότερη η πληροφορία που θα λαμβάνουμε από τη μείωση αυτή των διαστάσεων. Επιθυμία μας είναι να διατηρήσουμε, όσο είναι δυνατόν, τη σχέση ανάμεσα στις γραμμές (ή στις στήλες) στο χώρο των δύο διαστάσεων. Τα προσδοκώμενα αποτελέσματα από την εφαρμογή της Ανάλυσης Αντιστοιχιών είναι τα ακόλουθα: Κατά κύριο λόγο περιμένουμε να «φανερωθούν» οι συσχετισμοί μεταξύ των γραμμών και των στηλών των δεδομένων. Σε μια γραφική απεικόνιση της μεθόδου όταν υπάρχουν σημεία που γειτονεύουν τότε αυτό σημαίνει πως υπάρχει συσχέτιση και ανάμεσα στις αρχικές γραμμές και στις στήλες. Κατά δεύτερο λόγο, άλλο ένα αποτέλεσμα που αναμένουμε είναι ο εντοπισμός της ύπαρξης κάποιου είδους διάταξης ανάμεσα στις γραμμές και στις στήλες, δηλαδή αν υφίσταται φυσική διάταξη ή κάποια επικάλυψη μεταξύ των κατηγοριών των δεδομένων. Συνήθως η ύπαρξη της φυσικής κατάταξης των κατηγοριών επαληθεύεται από την Ανάλυση Αντιστοιχιών ενώ υπάρχουν και περιπτώσεις όπου οι κατηγορίες ανήκουν σε ονομαστική κλίμακα και επομένως δεν υφίσταται εκ των προτέρων διάταξη των κατηγοριών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 21

22 Τρίτον, ο έλεγχος ανεξαρτησίας μεταξύ γραμμών και στηλών. Η Ανάλυση Αντιστοιχιών επιτρέπει τη γραφική απεικόνιση και χρήση του ευρέως διαδεδομένου ελέγχου ανεξαρτησίας Chi-Square X 2 που εξετάζει το κατά πόσο υπάρχει εξάρτηση ή ανεξαρτησία ανάμεσα στις γραμμές και στις στήλες του πίνακα δεδομένων. Εναλλακτικά θα μπορούσαμε να χρησιμοποιήσουμε και ένα log-linear model για την διερεύνηση του ελέγχου ανεξαρτησίας μεταξύ δύο κατηγορικών μεταβλητών. Τόσο ο έλεγχος ανεξαρτησίας X 2 όσο και το log-linear model αντιπροσωπεύουν μια ασυμπτωτική προσέγγιση. Εάν ένας πίνακας συνάφειας έχει συχνότητες κελιών που είναι μικρές ή μηδενικές τότε η X 2 προσέγγιση κρίνεται ως μη ικανοποιητική. Σε αυτήν την περίπτωση, ορισμένες κατηγορίες μπορούν να συνδυαστούν για να αυξηθούν οι συχνότητες των κελιών όπου υπάρχει πρόβλημα. Η Ανάλυση Αντιστοιχιών μπορεί να φανεί χρήσιμη στον προσδιορισμό των κατηγοριών που εμφανίζουν αντιστοιχία, τις οποίες για αυτό το λόγο θα θέλουμε να συνδυάσουμε. Τέλος, ένα όφελος που μπορούμε να αποκομίσουμε από την Ανάλυση Αντιστοιχιών είναι η δημιουργία καινούριων μεταβλητών, στις οποίες συνοψίζεται ένα σημαντικό μέρος της αρχικής πληροφόρησης. Εδώ να επισημάνουμε πως οι μεταβλητές που προκύπτουν είναι ανάλογες με τις προκύπτουσες μεταβλητές από την εφαρμογή της μεθόδου της Ανάλυσης σε Κύριες Συνιστώσες και μπορούν να χρησιμοποιηθούν σε μετέπειτα στατιστικές αναλύσεις. Επομένως, το συμπέρασμα είναι ότι ενώ αρχικά έχουμε στη διάθεσή μας κατηγορικές (ποιοτικές) μεταβλητές, ολοκληρώνουμε την υλοποίηση της μεθόδου με μερικές συνεχείς ποσοτικές μεταβλητές. Η παραπάνω δυνατότητα της μετατροπής των αρχικών κατηγορικών μεταβλητών σε συνεχείς που μας προσφέρει η Ανάλυση Αντιστοιχιών είναι ιδιαίτερα χρήσιμη και σημαντική καθώς ένα μεγάλο μέρος των στατιστικών τεχνικών απαιτούν για την εφαρμογή τους συνεχή δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 22

23 Παράλληλα παρατηρούμε ότι η Ανάλυση Αντιστοιχιών είναι πιο χρήσιμη στην περίπτωση μεγάλων πινάκων παρά μικρών και αυτό διότι όταν εξετάζουμε μεγάλους σε όγκο πίνακες, είναι συνήθως δυσδιάκριτες οι ενδιαφέρουσες συσχετίσεις ανάμεσα στις διάφορες κατηγορίες των μεταβλητών και συνεπώς απαιτείται πολύς χρόνος και ειδικές ικανότητες όπως και εμπειρία για να εντοπιστούν αυτές οι συσχετίσεις. Στην περίπτωση μικρών πινάκων, κανονικά δεν είναι ιδιαίτερα δύσκολο να εξεταστούν και να εντοπιστούν οι συσχετίσεις που παρουσιάζουν αυξημένο ενδιαφέρον. Οπότε η γραφική απεικόνιση ενός πίνακα που επιτυγχάνεται μέσω της Ανάλυσης Αντιστοιχιών έχει ως αποτέλεσμα την «αποκάλυψη» αξιοσημείωτων σχέσεων μεταξύ των μεταβλητών, που υπό κανονικές συνθήκες θα ήταν σχεδόν αδύνατο να εντοπισθούν εξετάζοντας με απλό τρόπο τα αριθμητικά δεδομένα ενός πίνακα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 23

24 - Κεφάλαιο 2: Ιστορική Αναδρομή Είναι γεγονός ότι τα τελευταία χρόνια η Ανάλυση Αντιστοιχιών περιλαμβάνεται στα περισσότερα στατιστικά πακέτα που διατίθενται στο ευρύ κοινό και ως εκ τούτου έχει αυξηθεί και το πλήθος των εφαρμογών της συγκεκριμένης στατιστικής μεθόδου. Κατόπιν τούτου η Ανάλυση Αντιστοιχιών έχει ευεργετικά αποτελέσματα στους επιστημονικούς τομείς των κοινωνικών επιστημών, της μηχανολογίας, των επιστημών υγείας, της φαρμακευτικής, της αρχαιολογίας, της οικολογίας, της ανάπτυξης λογισμικού φυσικά και τέλος της έρευνας αγοράς. Τα θεωρητικά ζητήματα που συνδέονται με την Ανάλυση Αντιστοιχιών χρονολογούνται στις αρχές του 20 ου αιώνα και τα θεμέλια της είναι αλγεβρικά παρά γεωμετρικά. Μολαταύτα, η αρχική αλγεβρική προέλευση της Ανάλυσης Αντιστοιχιών συχνά αποδίδεται στον Hirschfeld (1935) που ανέπτυξε μια διατύπωση της συσχέτισης μεταξύ των γραμμών και των στηλών ενός πίνακα συνάφειας διπλής εισόδου. Πρωτοπόρος πάνω στον τομέα της Ανάλυσης Αντιστοιχιών θεωρείται ο Γάλλος στατιστικός Jean- Paul Benzecri που γεννήθηκε το 1932 και ήταν καθηγητής στο πανεπιστήμιο Universite Pierre-et-Marie-Curie στο Παρίσι. Η μέθοδος της Ανάλυσης Αντιστοιχιών έκανε για πρώτη φορά την εμφάνισή της χάρη στον Benzecri και τους συνεργάτες του τη δεκαετία του 1960 στη Γαλλία, όπου απέκτησε μεγάλη δημοτικότητα, ιδιαίτερα μεταξύ των κοινωνικών επιστημόνων, καθώς οι πρώτες εφαρμογές που υλοποιήθηκαν από τον Benzecri και την επιστημονική του ομάδα ήταν στα Γαλλικά. Η χρήση της γαλλικής γλώσσας είχε αρχικά ως συνέπεια να μην τύχει ιδιαίτερης αποδοχής από τους αγγλόφωνους επιστήμονες. Στο σημείο αυτό πρέπει να σημειώσουμε ότι στο παρελθόν είχαν αναπτυχθεί από άλλους επιστήμονες παραπλήσιες μέθοδοι 1 με αρκετή ενδεχομένως επικάλυψη, όμως επ ουδενί δεν είχαν γίνει τόσο δημοφιλείς όσο η Ανάλυση Αντιστοιχιών και η διατύπωσή της από τον Benzecri. 1 Optimal Scaling, Reciprocal Averaging, Optimal Scoring, Quantification Method, Homogeneity Analysis Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 24

25 Όλες οι προηγούμενες προσπάθειες είχαν ως κύριο στόχο την κλιμακοποίηση (scaling) των κατηγοριών ενός πίνακα συνάφειας. Όμως μια πιο πολύπλοκη προσέγγιση, που να πραγματεύεται πίνακες συνάφειας πολλαπλής εισόδου, δεν είχε συζητηθεί μέχρι το 1941, όταν ο ψυχομετρητής Louis Guttman έθεσε επί τάπητος τη μέθοδό του, που ονομάστηκε Διπλή ή Βέλτιστη Κλιμακοποίηση (Dual or Optimal Scaling) και η οποία αναφέρεται τώρα ως το θεμέλιο της Πολλαπλής Ανάλυσης Αντιστοιχιών. Μεταγενέστερες εφαρμογές της Πολλαπλής Ανάλυσης Αντιστοιχιών υλοποιήθηκαν με τη χρήση του πίνακα Burt του Burt (1950). Συγχρόνως αναπτύχθηκαν ορισμένες διαδικασίες που βασίζονταν σε στατιστικά μοντέλα με αποτέλεσμα να υπάρχει μεγάλη ομοιότητα με την Ανάλυση Αντιστοιχιών. Η μη αποδοχή της Ανάλυσης Αντιστοιχιών από τους αγγλόφωνους επιστήμονες διαφοροποιήθηκε περίπου στα μέσα της δεκαετίας του 1980, όπου έκαναν την εμφάνιση τους τα πρώτα βιβλία στην αγγλική γλώσσα, όπως για παράδειγμα το «Theory and applications of Correspondence Analysis» του Greenacre το Από τότε η μέθοδος απέκτησε άλλη δυναμική και έγινε διαθέσιμη και προσιτή στο κοινό. Με την πάροδο του χρόνου και την εισαγωγή της Ανάλυσης Αντιστοιχιών σε δημοφιλή στατιστικά πακέτα σε όλο τον κόσμο πραγματοποιήθηκε μια ευρεία αποδοχή της μεθόδου ως ένα πολύ χρήσιμο εργαλείο για την περιγραφή κατηγορικών δεδομένων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 25

26 - Κεφάλαιο 3: Βασικές Έννοιες Προτού δούμε τις τεχνικές λεπτομέρειες της Ανάλυσης Αντιστοιχιών θα αναφερθούμε σε ορισμένες βασικές έννοιες που είναι απαραίτητες για την υλοποίηση της μεθόδου. 3.1: Πίνακας Συνάφειας (Contingency Table) Πολλές φορές τα δεδομένα που έχουμε στη διάθεσή μας αποτελούν καταμετρήσεις αριθμών με ορισμένα χαρακτηριστικά, ταξινομημένα σε πίνακες μιας, δύο, τριών ή και παραπάνω διαστάσεων. Αυτοί οι πίνακες είναι γνωστοί ως πίνακες συνάφειας μιας, δύο, τριών ή περισσοτέρων διαστάσεων (one-, two-, three- or multiway contingency tables). Κάθε μια διάσταση αντιστοιχεί σε μια ταξινόμηση κατηγοριών που υποδηλώνουν συγκεκριμένο χαρακτηριστικό. Ο Fienberg (1982) επισημαίνει ότι ο όρος «συνάφεια- contingency» φαίνεται να έχει χρησιμοποιηθεί από τον Karl Pearson (1904), ο οποίος τον εισήγαγε για να περιγράψει το μέτρο της απόκλισης από την απόλυτη ανεξαρτησία μεταξύ των γραμμών και των στηλών μιας τέτοιας δομής δεδομένων. Πιο πρόσφατα, γίνεται χρήση του όρου αυτού και για τις τιμές και τις περιθώριες συχνότητες του πίνακα συνάφειας και έτσι ως αποτέλεσμα ένας πίνακας συνάφειας περιέχει πληροφορία που είναι διακριτής ή κατηγορικής φύσεως. Ένα από τα πρώτα παραδείγματα που χρησιμοποιήθηκαν για να διερευνήσουν την εφαρμογή της μέτρησης συσχετίσεων σε πίνακες συνάφειας ήταν αυτό του Fisher (1940). Αποτελείται από την διασταύρωση- ταξινόμηση (cross-classification) 5387 παιδιών από το Caithness της Σκωτίας, με βάση το χρώμα των ματιών και των μαλλιών τους. Ο Fisher ενδιαφερόταν στο να εξακριβώσει το πώς συνδέονται αυτές οι δύο μεταβλητές. Ο Goodman (1981) επίσης έλαβε υπόψη του αυτό το παράδειγμα στην έρευνα του για τις συσχετίσεις των πινάκων συνάφειας, όπου οι μεταβλητές αποτελούνται από διατεταγμένες απαντήσεις. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 26

27 Με βάση τα παραπάνω λεχθέντα, ένας a b πίνακας συνάφειας αποτελεί μια παράθεση φυσικών αριθμών ή αλλιώς είναι ένας πίνακας διπλής εισόδου 2 που έχει ως στοιχεία του τη συχνότητα εμφάνισης ενός αντικειμένου ή χαρακτηριστικού που αντιστοιχεί στη γραμμή και τη στήλη του κελιού. Έτσι ένας πίνακας συνάφειας, στη γενική θεωρητική του μορφή, απεικονίζεται με ένα πίνακα που έχει a γραμμές και b στήλες, με στοιχεία x ij που είναι η συχνότητα (παρατηρούμενος αριθμός αντικειμένων) της i γραμμής και της j στήλης του πίνακα, i= 1, 2,.., a και j=1, 2,.., b. Μετά την υλοποίηση της Ανάλυσης Αντιστοιχιών στον πίνακα συνάφειας θα προκύψουν δύο σύνολα τιμών συντεταγμένων, ένα σύνολο από a συντεταγμένες που αντιστοιχούν στις γραμμές και ένα σύνολο από b συντεταγμένες που αντιστοιχούν στις στήλες. Επιπλέον πρέπει να αναφέρουμε πως σε αρκετές περιπτώσεις ο πίνακας συνάφειας είναι πιθανόν να περιέχει τις σχετικές συχνότητες και όχι τις απόλυτες συχνότητες. Η Ανάλυση Αντιστοιχιών διαθέτει τη δυνατότητα να επεξεργάζεται πίνακες συνάφειας σχετικών συχνοτήτων, όμως στην περίπτωση αυτή δε θα λαμβάνεται υπόψη στην ανάλυση το μέγεθος του δείγματος καθότι δε θα είναι γνωστό. Πάντως η χρήση σχετικών συχνοτήτων είναι γενικά καλύτερη από την άποψη ότι επιτρέπει την απευθείας σύγκριση πινάκων χωρίς να εξαρτόμαστε από το μέγεθος του δείγματος. Η μορφή ενός πίνακα συνάφειας μαζί με τους απαραίτητους συμβολισμούς που θα χρησιμοποιήσουμε στη συνέχεια είναι η εξής: 2 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 27

28 Στήλη 1 Στήλη 2.. Στήλη b Σύνολο Γραμμής Γραμμή 1 x 11 x 12. x 1b x 1. Γραμμή 2 x 21 x 22. x 2b x Γραμμή a x a1 x a2. x ab x a. Σύνολο Στήλης x. 1 x. 2. x. b μέγεθος Συνολικό δείγματος n Πίνακας 1. Πίνακας Συνάφειας με a γραμμές και b στήλες Πίνακες συνάφειας της παραπάνω μορφής πολύ συχνά χρησιμοποιούνται σε εφαρμογές συσχετιζόμενες με παρουσιάσεις δεδομένων που περιέχονται σε a δείγματα (γραμμές), των οποίων τα στοιχεία αναπαριστάνουν μετρήσεις σε ονομαστική κλίμακα τουλάχιστον, για τον έλεγχο της υπόθεσης ότι οι πιθανότητες με τις οποίες ένα τυχαία επιλεγόμενο αντικείμενο- χαρακτηριστικό θα ανήκει στις κατηγορίες 1, 2,., b (στήλες), δε διαφέρουν από δείγμα σε δείγμα. Υπάρχει και άλλη μια χρήση του a b πίνακα συνάφειας όπου έχουμε ένα μοναδικό δείγμα, του οποίου κάθε στοιχείο μπορεί να ταξινομηθεί σε μία από a διαφορετικές κατηγορίες σύμφωνα με ένα κριτήριο και ταυτόχρονα σε μία από b διαφορετικές κατηγορίες σύμφωνα με ένα άλλο κριτήριο. Στην προκειμένη περίπτωση, αυτό που μας ενδιαφέρει είναι ο έλεγχος της υπόθεσης, ότι οι κατηγορίες του ενός κριτηρίου δεν επηρεάζουν σημαντικά τις αναλογίες των αντικειμένωνχαρακτηριστικών σε κάθε μία από τις κατηγορίες του άλλου κριτηρίου. Στην ειδική περίπτωση όπου a=b=2, μια κατάλληλη στατιστική τεχνική για τον έλεγχο της προηγούμενης υπόθεσης του πίνακα συνάφειας είναι ο έλεγχος McNemar, που είναι ένας έλεγχος για τη σημαντικότητα της αλλαγής μιας κατάστασης. Ο συγκεκριμένος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 28

29 έλεγχος εφαρμόζεται όταν τα δεδομένα είναι ομαδοποιημένα σε «Πριν» και «Μετά» και επιδιώκουμε να ελέγξουμε αν υπάρχει αλλαγή στη συμπεριφορά των ατόμων. Οι όροι κριτήριο και χαρακτηριστικό που αναφέραμε προηγουμένως, χρησιμοποιούνται με την ευρεία έννοια τους και συγχρόνως μπορούν να προσδιορίζουν καταστάσεις στις οποίες βρίσκονται τα αντικείμενα ενός δείγματος πριν και μετά από μια αγωγή (treatment). Τότε, η μηδενική υπόθεση που ελέγχεται είναι ότι η αγωγή δεν επηρεάζει σημαντικά τις αναλογίες των αντικειμένων στις κατηγορίες των δύο καταστάσεων. Εναλλακτικά μπορεί να επιτευχθεί ο έλεγχος της ίδιας υπόθεσης μέσω της χρήσης ανεξάρτητων τυχαίων δειγμάτων που προέρχονται από τον υπό εξέταση πληθυσμό πριν και μετά την αγωγή και ακολουθεί η σύγκριση αυτών των δειγμάτων. Υπάρχει όμως μια «ανεπιθύμητη» εξέλιξη, καθώς η πρόσθετη μεταβλητότητα που εισάγεται από τη χρησιμοποίηση των δύο διαφορετικών δειγμάτων έχει την τάση να «προκαλεί σύγχυση» όσον αφορά τις μεταβολές που προκαλούνται στον πληθυσμό από τη χρησιμοποιούμενη αγωγή. Βέβαια σε πρακτικό επίπεδο υπάρχουν περιπτώσεις στις οποίες δεν είναι εφικτό να χρησιμοποιηθεί το ίδιο δείγμα δύο φορές. 3.2: Προφίλ (Profiles) Πριν προχωρήσουμε στον ορισμό των Προφίλ θα χρησιμοποιήσουμε τους εξής συμβολισμούς: x i. γραμμή b x j1 ij είναι ο συνολικός αριθμός των παρατηρήσεων που ανήκουν στην i x στήλη. j a x i1 ij είναι ο συνολικός αριθμός των παρατηρήσεων που ανήκουν στην j Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 29

30 n xij είναι ο συνολικός αριθμός των παρατηρήσεων του δείγματος i, j Έχοντας στη διάθεσή μας ένα δεδομένο πίνακα συνάφειας απόλυτων συχνοτήτων, μπορούμε να κατασκευάσουμε δύο νέους πίνακες σχετικών συχνοτήτων, έναν για τις γραμμές και έναν για τις στήλες του πίνακα. Ο πίνακαςμητρώο των σχετικών συχνοτήτων ονομάζεται Πίνακας Αντιστοιχιών (Correspondence Matrix) και έστω P ο συμβολισμός του. Η γενική μορφή του Πίνακα Αντιστοιχιών είναι η ακόλουθη: Columns 1 2 b Row Total 1 f 11 f 12 f 1b f 1. Rows 2 f 21 f 22 f 2b f 2. a f a1 f a2 f ab f a. Column Total f.1 f.2 f.b 1 Πίνακας 2. Πίνακας Αντιστοιχιών (Correspondence Matrix) των Σχετικών Συχνοτήτων Άρα P= (f ij )= (x ij /n). Τα Προφίλ Γραμμών (Row Profiles) ορίζονται ως οι σχετικές συχνότητες (Relative Frequencies) ανά γραμμή f ij και υπολογίζονται από το πηλίκο των απόλυτων συχνοτήτων των κελιών x ij προς το σύνολο της γραμμής n. Το άθροισμα των προφίλ γραμμής για κάθε μια γραμμή είναι συνολικά ίσο με τη μονάδα. Ο ακόλουθος μαθηματικός τύπος συνοψίζει όλα τα παραπάνω: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 30

31 f ij x, fij 1 a b ij n i1 j1 Ομοίως ορίζουμε και τις εξής σχέσεις: b a xi. fi. fij, fi. 1 j1 n i1 a x b. j f. j fij, f. j 1 i1 n j1 Επίσης έχουμε τις ακόλουθες σχέσεις: f x ij ij και. j x. j f f f ij x ij για όλα τα i και j x i. i. Τα Προφίλ Γραμμών δίνουν τη δυνατότητα στον ερευνητή να συγκρίνει άμεσα τις γραμμές μεταξύ τους. Αν με R συμβολίσουμε τον πίνακα των Προφίλ Γραμμών αυτός θα είναι της μορφής (η διαδικασία με την οποία προκύπτουν τα παρακάτω αποτελέσματα παρουσιάζεται στο Παράρτημα- Ευρετήριο Όρων (Υποσημειώσεις) 3 ): 3 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 31

32 R r f11 f12 f f f f 1b f21 f22 f2b r 1 2 Dr P f2. f2. f 2. r a fa 1 fa2 fab fa. fa. f a. Ομοίως ο πίνακας των Προφίλ Στηλών C θα είναι ο εξής: 1a.1.2. a a 1 c 1, 2,..., b f.1 f.2 f. a C PD c c c f11 f12 f f f f f f f f f f f f f a1 a2 ab.1.2. a Η τελευταία γραμμή του πίνακα των Προφίλ Γραμμών περιέχει το προφίλ γραμμής για ολόκληρο τον πίνακα. Το συγκεκριμένο προφίλ ονομάζεται Κεντροειδές (Centroid) ή Μέσο Προφίλ Γραμμής και αν το δούμε από στατιστική άποψη ισούται με το σταθμισμένο μέσο των προφίλ γραμμής που έχουν ως σταθμίσεις το σύνολο των παρατηρήσεων κάθε γραμμής. Κάτι που γίνεται εύκολα αντιληπτό είναι πως, αν ήταν ίδιες όλες οι γραμμές θα παρουσίαζαν την ίδια ομοιότητα όλα τα προφίλ γραμμής, τόσο μεταξύ τους όσο και με το μέσο προφίλ γραμμής ή κεντροειδές. Άρα, αν χρησιμοποιήσουμε κάποιο μέτρο απόστασης μεταξύ των προφίλ γραμμής θα έχουμε την ευχέρεια να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 32

33 ποσοτικοποιήσουμε το βαθμό διαφοροποίησης μεταξύ δύο γραμμών ή μιας γραμμής και του μέσου προφίλ, μετρώντας έτσι τη διαφορά κάθε γραμμής από το μέσο προφίλ. Ομοίως με τα Προφίλ Γραμμών, τα Προφίλ Στηλών (Column Profiles) ορίζονται ως οι σχετικές συχνότητες ανά στήλη και υπολογίζονται από το πηλίκο των απόλυτων συχνοτήτων προς το σύνολο της στήλης. Το άθροισμα των προφίλ στήλης για κάθε μια στήλη συνολικά είναι ίσο με τη μονάδα. Ανάλογα με το είδος των διαθέσιμων δεδομένων, τα προφίλ στηλών μπορεί να παρουσιάζουν μικρότερο ή μεγαλύτερο ενδιαφέρον. Όσον αφορά τα Προφίλ συνοπτικά μπορούμε να σημειώσουμε τα ακόλουθα: Ειδικότερα τα Προφίλ Γραμμών και Στηλών μπορούν να θεωρηθούν ως πολυμεταβλητές παρατηρήσεις σε ένα πολυδιάστατο χώρο (τριών, τεσσάρων και παραπάνω διαστάσεων). Παράλληλα είναι δυνατόν να υπολογίσουμε την απόσταση (π.χ. Ευκλείδεια απόσταση) μεταξύ δύο γραμμών για παράδειγμα, χρησιμοποιώντας τα διανύσματα των Προφίλ Γραμμών αυτών. Γενικά με ανάλογο τρόπο μπορούμε να βρούμε τις αποστάσεις ανάμεσα σε οποιοδήποτε ζεύγος γραμμών, όπου η απόσταση μεταξύ των γραμμών i και j θα δίνεται από τον τύπο: b 2 ij ( ik jk ). k1 d x x Εδώ να τονίσουμε ότι το συγκεκριμένο μέτρο απόστασης χαρακτηρίζεται από ένα σημαντικό μειονέκτημα διότι δε λαμβάνει υπόψη τον αριθμό των παρατηρήσεων σε κάθε κελί, με αποτέλεσμα όταν υπάρχουν διαφορές σε κελιά με μικρές συχνότητες αυτές να έχουν την ίδια βαρύτητα στον τελικό υπολογισμό της απόστασης με διαφορές σε κελιά που έχουν μεγάλες συχνότητες. Μια προτεινόμενη λύση στο παραπάνω πρόβλημα είναι η στάθμιση του κάθε κελιού. Αν ο έλεγχος ανεξαρτησίας, μεταξύ των μεταβλητών που είναι υπό εξέταση, οδηγήσει στο συμπέρασμα ότι υπάρχει όντως ανεξαρτησία περιμένουμε τότε οι γραμμές του πίνακα συνάφειας να έχουν παρόμοια Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 33

34 προφίλ ή ισοδύναμα οι στήλες να έχουν παρόμοια προφίλ. Μπορούμε να συγκρίνουμε τα Προφίλ Γραμμών μεταξύ τους, συγκρίνοντας κάθε προφίλ γραμμής r i με το σταθμισμένο μέσο c των Προφίλ Γραμμών. Ομοίως μπορούμε να συγκρίνουμε τα Προφίλ Στηλών. 3.3: Μάζα (Mass) Οι Μάζες (Masses) για κάθε κελί ορίζονται ως τα αντίστοιχα περιθώρια προφίλ, δηλαδή τα προφίλ του συνόλου κάθε γραμμής και στήλης αντίστοιχα. Υπολογίζονται διαιρώντας το συνολικό αριθμό συχνοτήτων για τη γραμμή (ή τη στήλη) προς το συνολικό μέγεθος του δείγματος. Εναλλακτικά, μπορούμε να πούμε ότι ο πίνακας Αντιστοιχιών P παρουσιάζει το πώς μια μονάδα Μάζας κατανέμεται κατά μήκος των κελιών. Η σημασία των μαζών θα φανεί στη συνέχεια όπου θα τις χρησιμοποιήσουμε ως συντελεστές στάθμισης για να υπολογίσουμε αποστάσεις. Θα συμβολίσουμε τη Μάζα της i γραμμής ως r i = 1, 2,, a και τη Μάζα της j στήλης ως c j = 1, 2,, b. Οπότε, με τη βοήθεια των συμβολισμών που δώσαμε προηγουμένως στον πίνακα συνάφειας, xi. θα ισχύουν οι εξής τύποι: ri, i 1,2,..., a και n x. Να n. j c j, j 1,2,..., b σημειώσουμε ότι οι μάζες των στηλών των δεδομένων ενός πίνακα συνάφειας ταυτίζονται με το Μέσο προφίλ γραμμών ή Κεντροειδές. 3.4: Μέτρα Απόστασης Με τη βοήθεια των μαζών που ορίσαμε προηγουμένως είμαστε σε θέση να υπολογίσουμε ξανά την απόσταση d i (ο δείκτης i ορίζει τη γραμμή που μελετάμε) μεταξύ δύο οποιονδήποτε γραμμών, απλά χρησιμοποιώντας τις Μάζες των στηλών σα βάρη, τα οποία είναι το αντίστροφο των Μαζών των στηλών. Το μέτρο απόστασης που προκύπτει κατά αυτόν τον τρόπο λέγεται X 2 απόσταση, διότι έχει μεγάλη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 34

35 ομοιότητα με τη γνωστή X 2 ελεγχοσυνάρτηση που χρησιμοποιείται στον έλεγχο ανεξαρτησίας μεταξύ δύο μεταβλητών 4. Οι αποστάσεις μεταξύ των διανυσμάτων ενός πίνακα συνάφειας συνοψίζουν όλη την πληροφορία για τις ομοιότητες ανάμεσα στις γραμμές και τις στήλες του πίνακα. Παράλληλα, η X 2 απόσταση διαφέρει από την Ευκλείδια απόσταση μόνο στο ότι κάθε τετράγωνο της σταθμίζεται από τον αντίστροφο κάθε συχνότητας που αντιστοιχεί σε κάθε όρο. Συγχρόνως, το μέτρο της X 2 απόστασης αντισταθμίζει τα διαφορετικά επίπεδα εμφάνισης των κατηγοριών ή πιο επίσημα η επιλογή της X 2 απόστασης για τη μέτρηση της εσωτερικής ομοιότητας των προφίλ, μπορεί να αιτιολογηθεί ως ένας τρόπος τυποποίησης μεταβλητών κάτω από την υπόθεση της Πολυωνυμικής ή της Poisson κατανομής (Greenacre, 1992). Έτσι η X 2 απόσταση μεταξύ δύο γραμμών i και i σε ένα βέλτιστο διάγραμμα αντιστοιχιών δίνεται από τον ακόλουθο τύπο, ο οποίος αποτελεί τη σταθμισμένη Ευκλείδια απόσταση μεταξύ των Προφίλ : X 2 ( i, i) b 1 fij f f f f ij j1. j i. i. 2 ενώ μεταξύ δύο στηλών j και j θα υπολογίζεται σύμφωνα με τη σχέση: X 2 ( j, j) 2 a ij. i1 i.. j. j 1 fij f f f f Επιπλέον η X 2 απόσταση μεταξύ δύο Προφίλ r i και r j θα είναι ίση με: d ( r r ) D ( r r ). 2 1 ij i j c i j Αν δύο σημεία γραμμών (ή δύο σημεία στηλών) βρίσκονται κοντά, οι δύο γραμμές (ή οι δύο στήλες) θα μπορούσαν να συνδυαστούν σε μια μόνο κατηγορία αν είναι απαραίτητο, για να βελτιωθεί η X 2 (Chi- square) προσέγγιση. 4 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 35

36 Η απόσταση μεταξύ ενός σημείου γραμμής και ενός σημείου στήλης στερείται νοήματος, η εγγύτητα όμως μεταξύ αυτών των δύο σημείων έχει νόημα και ειδικότερα συμπεραίνουμε ότι αυτές οι δύο κατηγορίες- επίπεδα των δύο αυτών μεταβλητών σημειώνονται πιο συχνά από ότι θα αναμενόταν να συμβεί αν αυτές οι δύο μεταβλητές ήταν ανεξάρτητες. Κατά συνέπεια, μπορούμε με τη βοήθεια της X 2 απόστασης να φτιάξουμε έναν πλήρη πίνακα αποστάσεων ανάμεσα σε όλα τα ζεύγη γραμμών. Η γραφική απεικόνιση της Ανάλυσης Αντιστοιχιών βασίζεται σε αυτές τις αποστάσεις έτσι ώστε το εξαγόμενο γράφημα να τις αντιπροσωπεύει κατάλληλα: γραμμές που έχουν μικρή μεταξύ τους απόσταση, μικρή δηλαδή τιμή του μέτρου απόστασης που υπολογίζουμε, θα πρέπει να βρίσκονται σε κοντινά σημεία στο γράφημα και αντίθετα γραμμές που έχουν μεγαλύτερες αποστάσεις θα πρέπει να απέχουν αρκετά. Πρέπει να σημειώσουμε ότι τα σημεία που αντιπροσωπεύουν τα επίπεδα- κατηγορίες των στηλών δίνουν μια δισδιάστατη απεικόνιση της απόστασης, με την Ευκλείδια απόσταση μεταξύ δύο σημείων να αναπαριστάνει την X 2 απόσταση ανάμεσα στα αντίστοιχα επίπεδα των στηλών. Για ένα πίνακα συνάφειας με a γραμμές και b στήλες μπορεί να αποδειχθεί ότι οι X 2 αποστάσεις μπορούν να απεικονιστούν ακριβώς σε min(a-1,b-1) διαστάσεις. Όμως, αν ταυτόχρονα ισχύει ότι a>3 & b>3 τότε μια ακριβής δισδιάστατη απεικόνιση των X 2 αποστάσεων δεν είναι δυνατή. Σε τέτοιες περιπτώσεις οι προκύπτουσες δισδιάστατες συντεταγμένες θα αποδώσουν μόνο μια προσεγγιστική αναπαράσταση και έτσι το ερώτημα της επάρκειας της προσαρμογής θα πρέπει να ληφθεί υπόψη. Σε μερικές από αυτές τις περιπτώσεις, περισσότερες από δύο διαστάσεις μπορεί να χρειαστούν για να δώσουν μια αποδεκτή προσαρμογή. Αναλόγως μπορούμε να βρούμε την απόσταση μεταξύ οποιαδήποτε γραμμής και του Μέσου προφίλ γραμμής ή Κεντροειδούς όπως είπαμε. Παρατηρούμε ότι κάθε όρος, που συμμετέχει στον υπολογισμό της απόστασης μεταξύ κάποιας γραμμής και του κεντροειδούς, είναι το τετράγωνο της διαφοράς της παρατηρούμενης σχετικής συχνότητας από την αναμενόμενη, εφόσον θεωρήσουμε ότι ο μέσος όρος είναι το αναμενόμενο, διαιρεμένο με την αναμενόμενη σχετική συχνότητα. Η Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 36

37 έκφραση του τύπου αυτού είναι παρόμοια με τον τύπο του κλασικού ελέγχου X 2 ανεξαρτησίας. Να σημειώσουμε πως οι αποστάσεις αυτές που υπολογίζονται μας πληροφορούν σχετικά με το πόσο διαφέρει μια γραμμή από το μέσο προφίλ γραμμής. Όμως πρέπει να γνωρίζουμε ότι δε μπορούμε να συγκρίνουμε απευθείας τις γραμμές μεταξύ τους, αφού πρόκειται για αποστάσεις από ένα συγκεκριμένο σημείο και άρα η πληροφορία που εξάγεται από την εύρεση της συγκεκριμένης απόστασης είναι το πόσο κοντά στο σημείο του μέσου προφίλ γραμμής είναι τα σημεία των γραμμών. Ομοίως, την ίδια διαδικασία που ακολουθήσαμε για τις γραμμές μπορούμε να εφαρμόσουμε και για τον υπολογισμό των αποστάσεων μεταξύ των στηλών και του Μέσου προφίλ στήλης. o 3.4.1: Ιδιότητα Ισοδυναμίας κατά Κατανομή Μια πολύ ενδιαφέρουσα ιδιότητα της X 2 απόστασης είναι η «Ιδιότητα Ισοδυναμίας κατά Κατανομή» (Property of Distributional Equivalence), η οποία διατυπώθηκε από τους Lebart, Morineau & Warwick (1984) και μάλιστα αποτελεί ουσιαστικά το λόγο για τον οποίο επιλέγεται το συγκεκριμένο μέτρο απόστασης. Σύμφωνα με αυτήν την ιδιότητα, αν δύο γραμμές (ή στήλες) διαθέτουν το ίδιο προφίλ τότε μπορούμε να τις ενοποιήσουμε σε μία γραμμή (ή αντίστοιχα στήλη), που θα έχει σχετική συχνότητα το άθροισμα των δύο αρχικών γραμμών (ή στηλών), χωρίς να παρουσιάσει μεταβολή η X 2 απόσταση μεταξύ των στηλών (αντίστοιχα γραμμών). Γενικά, δεν υπάρχει απώλεια πληροφορίας όταν ενοποιούμε ορισμένες κατηγορίες- επίπεδα. Κατά αντίστροφο τρόπο, δεν αποκομίζουμε ουσιαστικό όφελος υποδιαιρώντας ομοιογενείς κατηγορίες. Η ιδιότητα αυτή μας διευκολύνει πολύ στην ανάλυση μας, αφού ένα από τα επιθυμητά αποτελέσματα είναι η μείωση των διαστάσεων του προβλήματος και είναι σημαντική διότι εξασφαλίζει τη μη αλλοίωση των εξαγόμενων ανεξάρτητα από τον τρόπο κωδικοποίησης των μεταβλητών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 37

38 Θα παρουσιάσουμε την ιδιότητα της Ισοδυναμίας κατά Κατανομή ενοποιώντας δύο γραμμές i 1 και i 2, των οποίων οι σχετικές συχνότητες f i.j ικανοποιούν τη σχέση: f f f i. i. i Εν συνεχεία, θα εκφράσουμε την X 2 απόσταση μεταξύ δύο στηλών j και j μόνο με τη χρήση δύο όρων, των T 1 και T 2, χρησιμοποιώντας παράλληλα τα i 1 και i 2 : fi 1 j fi 1 j 1 fi 2 j fi 2 j T1 T2 f i1. f. j f. j f i2. f. j f. j Μετά τη συνένωση αντικαθίστανται από το T 0 που υπολογίζεται ως εξής: T 0 f f f f f 0 1 i j i j 0 0 i.. j. j 2 Για να αποδείξουμε ότι T0 T1 T2 θα γράψουμε το T 0 ως ακολούθως: T f 0 i. 0 fi 0j f 0 f f f f i.. j i.. j 0 0 i j 2 Τα T 1 και T 2 γράφονται κατά παρόμοιο τρόπο. Οι τρεις ποσότητες είναι επομένως ισοδύναμες αφού τα προφίλ των i 0, i 1 και i 2 είναι πανομοιότυπα. 3.5: Επιλογή κριτηρίου «Καλής Προσαρμογής» Προκειμένου να υπολογίσουμε το κριτήριο Καλής Προσαρμογής, είναι φυσικό να αποδώσουμε σε κάθε σημείο ένα «βάρος» που θα είναι ανάλογο της συχνότητας του, έτσι ώστε να μην υπερ- απεικονίσουμε κατηγορίες με μικρά σύνολα και κατά συνέπεια να διασφαλίσουμε την αντιπροσώπευση της κατανομής του πραγματικού Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 38

39 πληθυσμού. Αυτό το «βάρος- στάθμιση» χρησιμοποιείται στην εύρεση των συντεταγμένων του Κεντροειδούς, όπως και στο κριτήριο Καλής Προσαρμογής. Η ποσότητα που πρέπει να μεγιστοποιηθεί είναι το άθροισμα των τετραγώνων που σταθμίζεται από αυτά τα «βάρη» : Αδράνεια (Inertia) Μια ιδιότητα του X 2 Chi-square στατιστικού του Pearson είναι ότι όσο αυξάνεται το μέγεθος του δείγματος n, τόσο αυξάνεται και ο συντελεστής συσχέτισης. Αυτή είναι μια αιτία παρεμπόδισης των ελέγχων συσχέτισης στους πίνακες συνάφειας. Για να υπερνικήσουμε το εμπόδιο αυτό, η Απλή Ανάλυση Αντιστοιχιών εισάγει την έννοια του λόγου X 2 /n που αναφέρεται στη βιβλιογραφία ως Συνολική Αδράνεια του πίνακα συνάφειας και περιγράφει το επίπεδο συσχέτισης ή εξάρτησης ανάμεσα σε δύο κατηγορικές μεταβλητές. Η συνολική διακύμανση του χώρου σε κάθε σύνολο σημείων μπορεί να ποσοτικοποιηθεί και να βοηθήσει στην ερμηνεία. Αναλύοντας τη Συνολική Αδράνεια ο ερευνητής έχει τη δυνατότητα να προσδιορίσει σημαντικές πηγές πληροφορίας που συμβάλλουν στην περιγραφή της συσχέτισης. Η χρήση ποικίλων διασπάσεων (decompositions) θα αποφέρει διαφορετικές ερμηνείες της συσχέτισης και θα οδηγήσει σε διαφορετικές γραφικές απεικονίσεις. Ο πιο κοινός τύπος διάσπασης που χρησιμοποιείται στην Ανάλυση Αντιστοιχιών, με ελάχιστες εξαιρέσεις, είναι η Διάσπαση Ιδιόμορφων Τιμών (Singular Value Decomposition) την οποία θα δούμε στη συνέχεια. Η Αδράνεια (Inertia) επομένως, που συμβολίζεται με Ι, είναι ένα συνολικό μέτρο ετερογένειας ή ανομοιογένειας των προφίλ, δείχνει δηλαδή πόσο διαφέρουν μεταξύ τους τα προφίλ, μετρώντας τις διαφορές ανάμεσα σε κάθε ζευγάρι σημείων. Εναλλακτικά μπορεί να οριστεί ως ο σταθμισμένος μέσος (με βάρη τις σχετικές συχνότητες f i ) των X 2 αποστάσεων ανάμεσα στα Προφίλ Γραμμών 1 ( ri c) Dc ( ri c) 5 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 39

40 r i και το μέσο τους c. Ο όρος αδράνεια είναι γνωστό ότι προέρχεται από τη Μηχανική 6 καθώς και άλλοι όροι, όπως για παράδειγμα οι ροπές και οι βαθμοί ελευθερίας που χρησιμοποιούνται ευρέως στη Στατιστική. Η Συνολική Αδράνεια στην Ανάλυση Αντιστοιχιών ορίζεται ως εξής: I a rd i i1 τη Συνολική Αδράνεια με τη βοήθεια του ακόλουθου τύπου : 2 i. Εναλλακτικά, μπορούμε να ορίσουμε Συνολική Αδράνεια= ( f rc ) ij i j rc i j i j 2 Καλό είναι να επισημάνουμε τα ακόλουθα σημεία: Η αδράνεια ως έννοια έχει μεγάλη ομοιότητα με την έννοια της διακύμανσης ενώ στη βιβλιογραφία συναντώνται κάποιες φορές και ως ταυτόσημες έννοιες. Καθώς αυξάνεται η τιμή της αδράνειας τόσο πιο έντονη είναι και η διαφοροποίηση που σημειώνεται μεταξύ των γραμμών. Αν υποθέσουμε ότι όλα τα Προφίλ των Γραμμών είναι ίδια, τότε η αδράνεια θα είναι ίση με το μηδέν. Η Αδράνεια και ο γνωστός έλεγχος ανεξαρτησίας X 2 συνδέονται μέσω της παρακάτω σχέσης: 2 X I f ( r c) D ( r c) f ( c r) D ( c r) n a b 1 1 i. i c i. j j r j i1 j1. Με βάση τον παραπάνω ορισμό της Αδράνειας εξάγεται το ακόλουθο συμπέρασμα: Οι γραμμές, οι οποίες έχουν μικρή μάζα επηρεάζουν την αδράνεια μόνο όταν βρίσκονται μακριά από το κέντρο (έχουν δηλαδή μεγάλη απόσταση d i ). Άρα τα σημεία που βρίσκονται αρκετά κοντά στο κέντρο θα έχουν απόσταση κοντά στο μηδέν και κατά συνέπεια η αδράνεια αυτών των σημείων θα είναι πολύ μικρή. Αξιοσημείωτο 6 «Moment of Inertia- Ροπή Αδράνειας» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 40

41 είναι το γεγονός ότι η αδράνεια δεν εξαρτάται από το μέγεθος του δείγματος σε αντίθεση με τον έλεγχο X 2 που λαμβάνει υπόψη του τη συγκεκριμένη παράμετρο. Η Αδράνεια διακρίνεται σε Συνολική (Total Inertia) και σε Σχετική (Relative Inertia). Η Σχετική Αδράνεια απεικονίζει την αναλογία της Συνολικής Αδράνειας που αντιπροσωπεύεται από το αντίστοιχο σημείο και είναι ανεξάρτητη από το πλήθος των διαστάσεων που επιλέγονται από τον ερευνητή. o 3.6.1: Αδράνεια των Σημείων Η Αδράνεια των Γραμμών και των Στηλών αντίστοιχα, υπολογίζεται σύμφωνα με τους παρακάτω τύπους: Αδράνεια (Γραμμών)= Αδράνεια (Στηλών)= i ri 1/ c j ( f ij / ri c j ) j j c j 1/ ri ( f ij / c j ri ) i Ενώ η Αδράνεια του i-οστού σημείου γραμμής είναι ίση με: 2 2 r 1/ c ( f / r c ) r h 2 2 i j ij i j i it j t Η παραπάνω εξίσωση αντιπροσωπεύει τη Συνεισφορά (Contribution) της i- οστής γραμμής στη Συνολική Αδράνεια, όπου r i είναι η μάζα αυτής της γραμμής και η ποσότητα εντός της αγκύλης είναι η X 2 απόσταση του Προφίλ Γραμμής από το κέντρο βαρύτητας (center of gravity) c στο χώρο γραμμών, την οποία συμβολίζουμε με 2 h it. Ένας ανάλογος ορισμός ισχύει και για κάθε κατηγορία των σημείων στηλών. Αυτές οι Συνεισφορές αθροιζόμενες για όλες τις γραμμές ισοδυναμούν με τη Συνολική Αδράνεια. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 41

42 o 3.6.2: Απόλυτες Συνεισφορές στην Αδράνεια Η Αδράνεια κατά μήκος του t-οστού άξονα, I t, αποτελείται από το σταθμισμένο άθροισμα των τετραγωνικών αποστάσεων 2 h it από την αρχή των αξόνων των Προφίλ Γραμμών ή Στηλών που απεικονίζονται, όπου τα βάρη είναι οι μάζες για κάθε σημείο γραμμής ή στήλης. Για τα Προφίλ Γραμμών αυτή η Αδράνεια μπορεί να εκφρασθεί μέσω του ακόλουθου τύπου: I rh 2 t i it i Ένας ανάλογος ορισμός ισχύει και για κάθε κατηγορία των Προφίλ στηλών. Ως εκ τούτου, κάθε ιδιοτιμή αντιπροσωπεύει την Αδράνεια των προβολών του συνόλου γραμμών (ή τις κατηγορίες του συνόλου στηλών) των σημείων σε κάθε άξονα. Αν κάθε όρος στο άθροισμα εκφράζεται ως ποσοστό σχετικό με την Αδράνεια που εξηγείται από κάθε άξονα, η οποία είναι ίση με rh 2 i it / t I, τότε προκύπτει η Απόλυτη Συνεισφορά (Absolute Contribution) της i-οστής γραμμής στον t-οστό βασικό άξονα. Οι Απόλυτες Συνεισφορές ποσοτικοποιούν τη σημασία κάθε σημείου στον καθορισμό της κατεύθυνσης των βασικών αξόνων και εξυπηρετούν ως οδηγοί στην ερμηνεία κάθε άξονα. Ερμηνεύονται ως το ποσοστό της (σταθμισμένης) διακύμανσης που εξηγείται από κάθε σημείο σε σχέση με τον κάθε άξονα. Είναι εμφανές από την ανάλυση ότι ένα σημείο μπορεί να συνεισφέρει σε ένα βασικό άξονα (δηλαδή να έχει υψηλή συνεισφορά στην Αδράνεια αυτού του άξονα) με δύο τρόπους: όταν έχει μεγάλη μάζα και/ ή όταν έχει μεγάλη απόσταση από το κεντροειδές, ακόμα κι όταν έχει σχετικά μικρή μάζα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 42

43 3.7: Πίνακας Καταλοίπων Ολοκληρώνουμε την παρουσίαση των βασικών εννοιών της Ανάλυσης Αντιστοιχιών με τον πίνακα Καταλοίπων Α, του οποίου τα στοιχεία a ij υπολογίζονται ως ακολούθως: a f rc ij i j ij, i=1,, a, j=1,, b. rc i j όπου f ij είναι η σχετική συχνότητα του κελιού ij, ενώ η ποσότητα r i c j που στηρίζεται στις μάζες των γραμμών και των στηλών, αποτελεί την εκτίμηση της πιθανότητας του κελιού κάτω από την υπόθεση της ανεξαρτησίας γραμμών και στηλών. Ο πίνακας των καταλοίπων θα έχει τις ίδιες διαστάσεις με τον αρχικό πίνακα συνάφειας. Κάθε στοιχείο του πίνακα Α υπολογίζεται από τη διαφορά της πραγματικής σχετικής συχνότητας με τη σχετική συχνότητα που υποθέτει το μοντέλο ανεξαρτησίας, αφού έχει διαιρεθεί με τη ρίζα της θεωρητικής αυτής συχνότητας. Αν παρατηρήσουμε τον τύπο του ελέγχου ανεξαρτησίας του Pearson a b 2 2 ij i1 j1 x n a, θα διαπιστώσουμε πως οι όροι του πίνακα καταλοίπων Α έχουν μεγάλη ομοιότητα με τους όρους του ελέγχου αυτού. Συμπερασματικά, ο πίνακας καταλοίπων θα έχει άμεση σχέση με την Αδράνεια και γενικότερα με τη διακύμανση του πίνακα συνάφειας. Από την οπτική εξέταση του πίνακα καταλοίπων μπορούμε να έχουμε ενδείξεις για την ύπαρξη ανεξαρτησίας ή όχι μεταξύ γραμμών και στηλών. Έτσι, αν τα στοιχεία του πίνακα Α έχουν μικρές απόλυτες τιμές, τότε υπάρχει η ένδειξη για την ύπαρξη ισχυρής ανεξαρτησίας και κατά συνέπεια η Αδράνεια του πίνακα θα έχει μικρή τιμή. Αντίθετα, αν δούμε ότι έχουν μεγάλες απόλυτες τιμές τα στοιχεία του πίνακα καταλοίπων, θα γνωρίζουμε εκ των προτέρων ότι είναι πολύ πιθανό να υπάρχει εξάρτηση μεταξύ γραμμών και στηλών του πίνακα συνάφειας και επομένως η Αδράνεια θα έχει μεγάλη τιμή. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 43

44 Πρέπει να επισημάνουμε πως η Αδράνεια είναι το άθροισμα των στοιχείων του πίνακα καταλοίπων, ο οποίος πίνακας είναι ένα βασικό συστατικό της μεθόδου της Ανάλυσης Αντιστοιχιών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 44

45 - Κεφάλαιο 4: Γεωμετρική Θεώρηση 4.1: Μείωση των Διαστάσεων Είδαμε προηγουμένως ότι κάθε γραμμή και κάθε στήλη αποτελεί ένα σημείο πολυδιάστατου χώρου. Ο βασικός σκοπός της Ανάλυσης Αντιστοιχιών είναι η αναπαράσταση του πλήθους των σημείων- προφίλ σε λιγότερες διαστάσεις, συμπεριλαμβάνοντας όσο το δυνατόν περισσότερη πληροφορία. Φυσικά μας ενδιαφέρει η απεικόνιση τόσο των γραμμών όσο και των στηλών. Συνοψίζοντας, αναφέραμε στις προηγούμενες ενότητες ότι: Έχουμε την ευχέρεια του υπολογισμού εναλλακτικών μέτρων απόστασης μεταξύ γραμμών και στηλών. Αντικειμενικός σκοπός είναι η μείωση των διαστάσεων του προβλήματος και ως εκ τούτου πρέπει να κατασκευάσουμε το γράφημα σε λιγότερες διαστάσεις, λαμβάνοντας υπόψη τους περιορισμούς που αφορούν το μέγιστο επιτρεπόμενο αριθμό των διαστάσεων που αποδεικνύεται πως είναι ίσος με min(a,b)-1. Είναι βέβαιο ότι η μείωση των διαστάσεων του προβλήματος θα έχει ως συνέπεια την απώλεια πληροφορίας, ενδεχομένως σημαντικής για την ανάλυση μας. Επιπρόσθετα, είναι αναγκαία και μια καλή γεωμετρική προοπτική για να επιτευχθεί αυτό. Αναπαριστώντας ένα σημείο από τις πολλές σε λιγότερες διαστάσεις, αυτομάτως χάνεται μέρος της πληροφορίας που εμπεριέχει η αναπαράσταση στον πολυδιάστατο χώρο. Μια βασική μας επιδίωξη για τη «γεωμετρική» διατήρηση της πληροφορίας, είναι τα σημεία που βρίσκονταν κοντά στον πολυδιάστατο χώρο να εξακολουθούν να βρίσκονται κοντά και στις λιγότερες διαστάσεις. Η Ανάλυση Αντιστοιχιών επίσης υποφέρει από την «κατάρα της διαστατικότητας- curse of dimensionality». Δεν υπάρχει μέθοδος που να καθορίζει κατά τρόπο οριστικό το κατάλληλο πλήθος και τί συνδυασμούς Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 45

46 διαστάσεων να απεικονίσει και να μελετήσει. Όπως και με άλλες πολυμεταβλητές μεθόδους, ο ερευνητής πρέπει να ισορροπήσει την οικονομία ενάντια στην ερμηνευσιμότητα όσον αφορά τον καθορισμό του αριθμού των διαστάσεων που θα χρησιμοποιήσουμε. Η λύση στο παραπάνω πρόβλημα είναι η προβολή του νέφους των σημείων σε λιγότερες διαστάσεις, κατάσταση που μοιάζει με την περίπτωση της Ανάλυσης σε Κύριες Συνιστώσες, όπου επίσης επιδιώκουμε την προβολή πολυμεταβλητών σημείων σε λιγότερες διαστάσεις. 4.2: Γεωμετρική Ερμηνεία Όσον αφορά τη γεωμετρική ερμηνεία της Ανάλυσης Αντιστοιχιών, έχουμε καταρχήν ένα προφίλ και την απόστασή του από το κέντρο που συμβολίζεται με d i. Το προφίλ ορίζεται σε ένα πολυδιάστατο χώρο και θέλουμε να το απεικονίσουμε σε ένα δισδιάστατο χώρο. Ως γνωστό, με τη βοήθεια του Πυθαγορείου Θεωρήματος, έχουμε: d. Αν πολλαπλασιάσουμε με όλες τις μάζες και αθροίσουμε, τότε i i i έχουμε το ακόλουθο αποτέλεσμα: rd r r όπου r i είναι η i μάζα i i i i i i i i i Ο παραπάνω τύπος μας υποδεικνύει ότι η Συνολική Αδράνεια διακρίνεται σε δύο μέρη: I a rd i i1 2 i 1) Το πρώτο μέρος εκφράζει την αδράνεια στις καινούριες διαστάσεις του νέου επιπέδου. 2) Το υπόλοιπο μέρος αποτελεί ουσιαστικά την αδράνεια που χάνεται εξαιτίας της προβολής. Άρα η κατασκευή της προβολής μπορεί να επιτευχθεί μέσω της ελαχιστοποίησης 2 της απώλειας αδράνειας, όπως αυτή μετράται από την ποσότητα i ri. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 46 i

47 Αξιοσημείωτο είναι το γεγονός ότι αν επιθυμούμε να χρησιμοποιήσουμε άλλης μορφής απόσταση και γεωμετρική ερμηνεία, τότε είναι πιθανόν να προκύψει παρόμοια ανάλυση. o 4.2.1: Το Μοντέλο της Ανάλυσης Αντιστοιχιών Επίσης, το μοντέλο της Ανάλυσης Αντιστοιχιών του πίνακα P σε k διαστάσεις αποκαλύπτει το πώς ένα στοιχείο του P προσεγγίζεται στον k-διαστάσεων σταθμισμένο Ευκλείδιο υπόχωρο: 1 P rc DrFD G Dc Από τον παραπάνω τύπο είναι εμφανές ότι το μοντέλο μεταχειρίζεται τις γραμμές και τις στήλες συμμετρικά, αφού τίποτα δεν μεταβάλλεται αν κάνουμε χρήση του X αντί του X. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 47

48 - Κεφάλαιο 5: Πρακτικά Ζητήματα 5.1: Υπολογιστικές ανάγκες Ξεκινάμε με την υπόθεση ότι έχουμε στη διάθεσή μας έναν πίνακα συνάφειας στον οποίο θα εφαρμόσουμε την Ανάλυση Αντιστοιχιών. Αυτό μπορεί να πραγματοποιηθεί με τη βοήθεια της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD), η οποία επίσης καλείται διάσπαση Eckart- Young και είναι το πιο συνηθισμένο εργαλείο για την ανάλυση του συντελεστή Pearson. Η προσέγγιση SVD, που μπορεί να θεωρηθεί ως μια προσέγγιση της «Ανάλυσης Κυρίων Συνιστωσών», είναι ιδιαίτερα χρήσιμη και αυτό εξαιτίας κατά κύριο λόγο του Greenacre (1978,1984), γιατί δίνει έμφαση στις γεωμετρικές ιδιότητες της Ανάλυσης Αντιστοιχιών και αποσαφηνίζει τις πρακτικές συνέπειες της ανάλυσης δεδομένων. H SVD ενσωματώνει την ιδέα της βασικής δομής ενός πίνακα που αποτελείται από βασικές τιμές και βασικά διανύσματα. Η δομή των ιδιοτιμών και των ιδιοδιανυσμάτων ενός συμμετρικού πίνακα είναι μια ειδική περίπτωση της SVD. Από την υλοποίηση της SVD προκύπτουν οι ιδιόμορφες τιμές (singular values) και τα ιδιόμορφα διανύσματα (singular vectors). Ως γνωστό, οι ιδιόμορφες τιμές έχουν σχέση με τις ιδιοτιμές. Στη συνέχεια θα αναφερθούμε σε ορισμένες τεχνικές μαθηματικές λεπτομέρειες της μεθόδου SVD. o 5.1.1: Διάσπαση Ιδιόμορφων Τιμών (SVD) Οι ιδιοτιμές και τα ιδιοδιανύσματα συσχετίζονται με συμμετρικούς πίνακες. Οι ιδιόμορφες τιμές έχουν ως στόχο την επέκταση της ιδέας των ιδιοτιμών και σε μη συμμετρικούς πίνακες. Όπως γνωρίζουμε ένας συμμετρικός πίνακας μέσω της Φασματικής Ανάλυσης γράφεται ως εξής: R B B, όπου Λ είναι ο διαγώνιος πίνακας που περιέχει τις ιδιοτιμές του R στα διαγώνια στοιχεία του και Β είναι ο πίνακας με στήλες τα αντίστοιχα ιδιοδιανύσματα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 48

49 Κατ ανάλογο τρόπο μπορούμε να ορίσουμε και τις ιδιόμορφες τιμές. Έστω Α ο πίνακας διαστάσεων ( I J ) που κατασκευάζεται με τη βοήθεια των πινάκων U, Γ και V κατάλληλων διαστάσεων μέσω της σχέσης: A U V, όπου Γ είναι ένας διαγώνιος πίνακας με θετικές τιμές ως διαγώνια στοιχεία σε φθίνουσα σειρά (δηλαδή γ 1 > γ 2 > > γ κ > 0). Η Ανάλυση Αντιστοιχιών συνίσταται στην εύρεση της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD) του πίνακα- μητρώου Α που περιλαμβάνει τα ξεχωριστά στοιχεία του στατιστικού X 2 (Chisquared). Η τάξη του πίνακα Α είναι k και υπολογίζεται ως εξής: k= min(i-1,j-1). Οι πίνακες U, V έχουν ορθοκανονικές στήλες, δηλαδή ισχύει το εξής: UU VV I. Γίνεται εύκολα αντιληπτό ότι ο πίνακας U έχει διαστάσεις I διαστάσεις J k αντίστοιχα. k και ο πίνακας V Ο πίνακας U περιέχει τα ιδιοδιανύσματα του AA ενώ ο V περιέχει τα ιδιοδιανύσματα του AA. Ο υπολογισμός των U, V μπορεί να γίνει με τη βοήθεια των παρακάτω σχέσεων που συνδέουν άμεσα την SVD με τη Φασματική Ανάλυση: και 2 A A V V. 2 AA U U Οι τιμές γ 1, γ 2,, γ κ λέγονται ιδιόμορφες τιμές, οι k στήλες του πίνακα U αριστερά ιδιόμορφα διανύσματα (left singular vectors) και ο πίνακας U αριστερά ιδιόμορφος πίνακας (left singular matrix), ενώ οι k στήλες του πίνακα V δεξιά ιδιόμορφα διανύσματα (right singular vectors) και ο πίνακας V δεξιά ιδιόμορφος πίνακας (right singular matrix). Αυτό που ισχύει είναι ότι τα δεξιά ιδιόμορφα διανύσματα του Α ταυτίζονται με τα ιδιοδιανύσματα του AA και οι τετραγωνικές τιμές των ιδιόμορφων τιμών του Α (δηλαδή οι ποσότητες 1, 2,..., k ) είναι ίσες αντίστοιχα με τις ιδιοτιμές του πίνακα AA. Με ανάλογο τρόπο αποδεικνύεται ότι ισχύουν και οι σχέσεις για τα αριστερά ιδιόμορφα διανύσματα και τον πίνακα AA. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 49

50 Συμπερασματικά, αν ο πίνακας Α είναι συμμετρικός, τότε η SVD ταυτίζεται με τη Φασματική Ανάλυση. Έτσι μπορούμε να πούμε ότι η τεχνική SVD λειτουργεί ως γενίκευση της Φασματικής Ανάλυσης στην περίπτωση μη συμμετρικών πινάκων. Από τα αποτελέσματα της Διάσπασης Ιδιόμορφων Τιμών (Singular Value Decomposition- SVD), τα στοιχεία του πίνακα- μητρώου A (τα κατάλοιπα δηλαδή από το μοντέλο ανεξαρτησίας του πίνακα συνάφειας) μπορούν να γραφτούν με την ακόλουθη μορφή: a k 1/ 2 ij m uimv jm m1, όπου i=1,,i, j=1,...,j, k είναι η τάξη του πίνακα A και δ 1,, δ k είναι οι ιδιοτιμές του AA έτσι ώστε k I J 2 2 m ij. Επιπλέον u im είναι τα στοιχεία της m-οστής m1 i1 j1 tr( AA) a X στήλης του U και v jm αντίστοιχα είναι τα στοιχεία της m-οστής στήλης του V. Η καλύτερη προσαρμογή δισδιάστατης δομής για την απεικόνιση των a ij, προκύπτει από τη χρήση των δύο πρώτων στηλών του V για την αναπαράσταση των επιπέδων- κατηγοριών των στηλών και ομοίως των δύο πρώτων γραμμών του U για την αναπαράσταση των επιπέδων- κατηγοριών των γραμμών. Το πόσο καλά προσαρμόζεται αυτή η δισδιάστατη δομή εξαρτάται από το μέγεθος των δύο πρώτων ιδιοτιμών του AA που είναι σχετικές με το υπόλοιπο. Είδαμε έτσι πως η Ανάλυση Αντιστοιχιών προκύπτει ως το αποτέλεσμα της SVD του Πίνακα Καταλοίπων A που αναφέραμε πιο πριν. Η ιδέα μοιάζει αρκετά με αυτήν της Ανάλυσης σε Κύριες Συνιστώσες. Η ανάλυση του πίνακα Καταλοίπων μπορεί να είναι πλήρης με τη χρήση της SVD του, κάτι που πρακτικά θα υποδήλωνε έναν απλό μετασχηματισμό. Όμως αφού επιδιώκουμε τη μείωση των διαστάσεων του προβλήματος, θα κρατήσουμε λιγότερες ιδιόμορφες τιμές και λιγότερα ιδιόμορφα διανύσματα και επομένως δε θα αναπαράγουμε πλήρως τον αρχικό πίνακα Καταλοίπων, αλλά ένα μέρος του και άρα ένα μέρος της Αδράνειας. Βλέπουμε δηλαδή ότι η λογική είναι ίδια με αυτήν της Ανάλυσης σε Κύριες Συνιστώσες. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 50

51 Τα κύρια εξαγόμενα της SVD είναι οι ιδιόμορφες τιμές και τα ιδιόμορφα διανύσματα. Ιδιαίτερα οι ιδιοτιμές (που εξ ορισμού είναι το τετράγωνο των ιδιόμορφων τιμών) αποτελούν ένα βασικό συστατικό της ανάλυσης (όπως ακριβώς και στην περίπτωση της Ανάλυσης σε Κύριες Συνιστώσες). Οι λόγοι για τους οποίους οι ιδιοτιμές είναι τόσο σημαντικές στην SVD είναι οι εξής: Κάθε ιδιοτιμή αντιστοιχεί σε έναν άξονα. Επίσης οι ιδιοτιμές ορίζονται να είναι σε φθίνουσα σειρά έτσι ώστε η μεγαλύτερη ιδιοτιμή να αντιστοιχεί στον πρώτο άξονα, η δεύτερη κατά σειρά στο δεύτερο άξονα κ.ο.κ. Το άθροισμα όλων των ιδιοτιμών είναι ίσο με την Αδράνεια του αρχικού πίνακα. Η συνολική Αδράνεια μπορεί να γραφτεί σε όρους των ιδιόμορφων τιμών ως εξής: X n 2 M * όπου M*=max(I,J)-1 είναι το μέγιστο πλήθος k 1 2 k διαστάσεων που απαιτείται για τη γραφική αναπαράσταση της σχέσης μεταξύ των απαντήσεων γραμμών και στηλών. Συνεπώς, η συνολική διακύμανση του πίνακα συνάφειας (ή του συντελεστή Pearson X 2 Chi-square) μπορεί να διαμερισθεί σε M * συνιστώσες, τα οποία λέγονται Κύριες τιμές Αδράνειας (Principal Inertia Values). Κάθε Κύρια Αδράνεια μπορεί να διαμερισθεί περαιτέρω σε υπο-συνιστώσες για να προσδιορίσει το πώς ένα συγκεκριμένο επίπεδο- κατηγορία γραμμής ή στήλης συνεισφέρει στους βασικούς 2 άξονες. Ο πρώτος βασικός άξονας με τιμή Αδράνειας 1 είναι ο άξονας που περιγράφει το μεγαλύτερο μέρος της διακύμανσης. Γενικά, ο m- οστός βασικός άξονας είναι ο m- οστός πιο σημαντικός άξονας και ένα διάγραμμα αντιστοιχιών που περιλαμβάνει τους δύο πρώτους άξονες θα είναι πολύ πιο περιγραφικό συγκριτικά με ένα άλλο γράφημα που θα περιλαμβάνονταν και άλλοι άξονες. Ο λόγος κάθε ιδιοτιμής με το άθροισμα αυτών, δηλαδή την Αδράνεια, εκφράζει το ποσοστό της αδράνειας που αντιπροσωπεύει ο αντίστοιχος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 51

52 άξονας. Πάλι εδώ παρατηρούμε την ομοιότητα με την Ανάλυση σε Κύριες Συνιστώσες. Άρα, με τον τρόπο αυτό μπορούμε να δούμε τί ποσοστό της Αδράνειας ερμηνεύει ο κάθε άξονας. Επιπλέον είναι προφανές ότι ο πρώτος άξονας θα ερμηνεύει το μεγαλύτερο ποσοστό. Τα δεδομένα αντιπροσωπεύονται πλήρως από το σύνολο των αξόνων και έτσι γίνεται κατανοητό ότι για μια Ανάλυση Αντιστοιχιών που θα έχει χρησιμότητα, είναι απαραίτητο να επιλέξουμε λιγότερους άξονες με συνέπεια ως γνωστόν την απώλεια ενός μέρους της Αδράνειας, δηλαδή της πληροφορίας του αρχικού πίνακα. Επιπρόσθετα, τα ιδιόμορφα διανύσματα είναι σημαντικά γιατί χρησιμοποιούνται για τον υπολογισμό των Κυρίων Συντεταγμένων, με τις οποίες κατασκευάζουμε τη γραφική απεικόνιση των δεδομένων. Η απεικόνιση των κύριων συντεταγμένων σε διαγράμματα μπορεί να αναδείξει τη διάταξη των γραμμών και των στηλών. Σε ένα τέτοιο γράφημα κάθε άξονας αναφέρεται ως βασικός άξονας. Παραδείγματος χάριν, ο πρώτος άξονας ονομάζεται ο πρώτος βασικός άξονας, ενώ ο δεύτερος λέγεται ο δεύτερος βασικός άξονας κ.ο.κ. Παρόλα αυτά, αυτά τα διανύσματα σε ένα τέτοιο σύστημα απεικόνισης δεν λαμβάνουν υπόψη την ένταση της σχέσης μεταξύ των γραμμών και των στηλών κατά μήκος κάθε άξονα. Στην πραγματικότητα οι άξονες είναι εξίσου σταθμισμένοι. Επομένως, αυτοί οι άξονες έχουν συνδέσει μαζί τους μονάδες Αδράνειας και για αυτό ο Greenacre (1984, p.93) αναφέρεται στα ιδιόμορφα διανύσματα σαν ένα σύστημα Πρότυπων Συντεταγμένων (Standard Co-ordinates). Οι κύριες συντεταγμένες για τον j άξονα της i κατηγορίας, προκύπτουν ως το γινόμενο του i στοιχείου του ιδιόμορφου διανύσματος που αντιστοιχεί στη j ιδιόμορφη τιμή με την αντίστοιχη ιδιόμορφη τιμή, διαιρεμένο με την τετραγωνική ρίζα της Μάζας της αντίστοιχης γραμμής (ή ανάλογα στήλης) του αρχικού πίνακα. Το σκεπτικό εδώ είναι ότι τυποποιούμε τις κύριες συντεταγμένες κατά τέτοιο τρόπο ώστε οι γραμμές (ή οι στήλες) με μεγάλη Μάζα να μην επηρεάζουν σημαντικά τη γραφική απεικόνιση. Έτσι χρησιμοποιούνται οι ακόλουθοι τύποι: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 52

53 q ij u ij j που αναφέρεται στην Κύρια Συντεταγμένη του j άξονα της i r i κατηγορίας (γραμμής) και u ij είναι το ij στοιχείο του αριστερά ιδιόμορφου πίνακα U που προκύπτει από την SVD του πίνακα καταλοίπων, γ j είναι η j ιδιόμορφη τιμή και r i είναι η Μάζα της i γραμμής. Αναλόγως, αποδεικνύεται ότι οι συντεταγμένες της j στήλης για τον k άξονα είναι οι g v jk k jk, όπου v jk είναι το jk στοιχείο του δεξιά ιδιόμορφου πίνακα V c j που προκύπτει από την SVD του πίνακα Καταλοίπων, γ κ είναι η k ιδιόμορφη τιμή και τέλος c j είναι η Μάζα της j στήλης. Μια επεξήγηση, για το πώς να ερμηνεύουμε τις παραχθείσες συντεταγμένες, γίνεται πιο απλή θεωρώντας μόνο μια μονοδιάστατη λύση. Σε αυτήν την περίπτωση έχουμε: a u v. 1/ 2 ij 1 i1 j1 Όταν τα u i1 και τα v j1 είναι ταυτόχρονα μεγάλα και θετικά (ή ταυτόχρονα μεγάλα και αρνητικά) τότε τα a ij θα είναι μεγάλα και θετικά, υποδηλώνοντας μια θετική συσχέτιση ανάμεσα στη γραμμή i και στη στήλη j (τα x ij είναι μεγαλύτερα από ότι αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Παρόμοια, όταν τα u i1 και τα v j1 είναι μεγάλα αλλά ετερόσημα, τότε η i- οστή γραμμή και η j- οστή στήλη θα έχουν αρνητική συσχέτιση (τα x ij είναι μικρότερα από ότι αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Εν τέλει, όταν το εξαγόμενο u i1 v j1 είναι κοντά στο μηδέν τότε η συσχέτιση μεταξύ της i-οστής γραμμή και της j- οστής στήλης θα είναι μικρή (τα x ij είναι κοντά στην τιμή που αναμενόταν κάτω από την υπόθεση της ανεξαρτησίας). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 53

54 5.2: Συμμετρικά και Μη Συμμετρικά Biplots Biplot ονομάζεται το γράφημα πάνω στο οποίο μπορούμε να απεικονίσουμε ταυτόχρονα τις γραμμές και τις στήλες ενός πίνακα συνάφειας και ως εκ τούτου γίνεται αντιληπτό πως το Biplot αποτελεί ένα από τα σημαντικότερα «εργαλεία» της Ανάλυσης Αντιστοιχιών. Κατ ουσίαν, το Biplot προκύπτει όταν «τοποθετήσουμε» τα δύο γραφήματα, που εξάγονται από την Ανάλυση Αντιστοιχιών μετά την εύρεση των Κυρίων Συντεταγμένων των σημείων-γραμμών και σημείων-στηλών, το ένα πάνω στο άλλο, ένα για κάθε κατηγορική μεταβλητή. Με άλλα λόγια, το Biplot μπορεί να οριστεί ως μια δισδιάστατη απεικόνιση ενός πίνακα- μητρώου δεδομένων που δείχνει ένα σημείο για κάθε ένα από τα n διανύσματα παρατηρήσεων (οι γραμμές του πίνακα δεδομένων) μαζί με ένα σημείο για κάθε μία από τις p μεταβλητές (οι στήλες του πίνακα δεδομένων). Αν δύο σημεία- γραμμών βρίσκονται κοντά, τα προφίλ των δύο γραμμών κατά μήκος των στηλών είναι παρόμοια. Ωσαύτως, δύο σημεία- στηλών που είναι πλησίον απεικονίζουν στήλες με παρόμοια προφίλ κατά μήκος των γραμμών. Εάν ένα σημείο- γραμμής είναι εγγύς με ένα σημείο- στήλης τότε αυτός ο συνδυασμός των επιπέδων- κατηγοριών αυτών των δύο μεταβλητών τυχαίνει πιο τακτικά από ότι θα συνέβαινε αν οι δύο μεταβλητές ήταν ανεξάρτητες. Η συγχώνευση των δύο απεικονίσεων σε μια από κοινού αναπαράσταση (Biplot) οφείλεται κατά βάση στη γεωμετρική αντιστοιχία των δύο συνόλων σημείων (γραμμών και στηλών) όσον αφορά τη θέση και την αδράνεια. Το πλεονέκτημα αυτής της συγχώνευσης είναι ότι προκύπτει σε μια μόνο εικόνα μια συνοπτική γραφική απεικόνιση που παρουσιάζει ποικίλα χαρακτηριστικά των δεδομένων. Η γεωμετρική απεικόνιση κάθε συνόλου σημείων φανερώνει τη φύση των ομοιοτήτων και τη διακύμανση εντός του συνόλου, ενώ παράλληλα η από κοινού αναπαράσταση δείχνει την αντιστοιχία ανάμεσα στα σύνολα. Ωστόσο, οι αποστάσεις μεταξύ σημείων από διαφορετικά σύνολα δε μπορεί να ερμηνευθούν, διότι αυτές οι αποστάσεις δεν προσεγγίζουν καμία ορισμένη ποσότητα. Οι αποστάσεις ανάμεσα σε σημεία στο ίδιο σύνολο είναι ίσες με τις σχετικές X 2 αποστάσεις, όπου η αντιστοιχία εντός του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 54

55 συνόλου επηρεάζεται από τη «βαρυκεντρική» φύση των τύπων μετάβασης (transition). Τα Biplots εισήχθησαν από τον Gabriel (1971) και τέθηκαν ενδελεχώς επί τάπητος από τους Gower & Hand (1996). Επίσης ασχολήθηκαν με αυτά και οι Khattree & Naik (2000), Jacoby (1998, Chapter 7) και Seber (1984, p ). Αφού οι συντεταγμένες των γραμμών και στηλών μπορούν να απεικονιστούν ταυτόχρονα στο ίδιο διάγραμμα αντιστοιχιών, φαίνεται λογικό να υποθέσουμε ότι κάποιος μπορεί να μετρήσει την απόσταση ανάμεσα σε ένα Προφίλ Γραμμής και ένα Προφίλ Στήλης. Αυτές οι αποστάσεις καλούνται «αποστάσεις μεταξύ σημείων» (interpoint distances). Στα Biplots το στοιχείο που προσελκύει το ενδιαφέρον μας είναι η εγγύτητα μας γραμμής και στήλης, δηλαδή το πόσο κοντά βρίσκονται μεταξύ τους ενώ δεν επικεντρωνόμαστε στη σύγκριση μόνο μεταξύ γραμμών ή στηλών. Συμπερασματικά το Biplot συμβάλλει στον εντοπισμό συσχετίσεων μεταξύ γραμμών και στηλών. Τα Biplots διακρίνονται σε δύο κατηγορίες: Συμμετρικά Biplots Μη Συμμετρικά Biplots o 5.2.1: Συμμετρικά Biplots Το Συμμετρικό (Symmetric) Biplot έχει την ιδιότητα ότι οι συντεταγμένες των σημείων είναι «κλιμακοποιημένες» κατά τέτοιο τρόπο ώστε τα σημεία γραμμών ή στηλών με μεγάλη Μάζα να μην επηρεάζουν σημαντικά το διάγραμμα. Επιπρόσθετα οι συντεταγμένες «κλιμακοποιούνται» έτσι ώστε να είναι μεγαλύτερες κατά απόλυτη τιμή στον πρώτο άξονα. Επομένως η «κλιμακοποίηση» των συντεταγμένων εφαρμόζεται για να ελαχιστοποιήσουμε την επίδραση σημείων με μεγάλη Μάζα και παράλληλα να προκύψει ένας πρώτος άξονας περισσότερο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 55

56 πληροφοριακός, καθώς όπως έχουμε δει τα ιδιόμορφα διανύσματα πολλαπλασιάζονται με τις ιδιόμορφες τιμές και διαιρούνται με τις Μάζες. Συγχρόνως πρέπει να τονίσουμε πως τα πρόσημα των συντεταγμένων δεν επηρεάζουν κατά κάποιο τρόπο, διότι οι άξονες που προκύπτουν κατά την κατασκευή ενός Biplot είναι τεχνητοί και έτσι η αλλαγή προσήμου δε μεταβάλλει την ουσία της παρουσίασης, εκτός από την ερμηνεία που μπορεί να αποδώσει κάποιος στο θετικό και αρνητικό πρόσημο των αξόνων. Διαπιστώνουμε δηλαδή ότι έχουμε να αντιμετωπίσουμε ένα ζήτημα που συναντάται και στην Ανάλυση Κυρίων Συνιστωσών. Το συμπέρασμα από τα παραπάνω είναι ότι δε θα πρέπει να εστιάζουμε το ενδιαφέρον μας στα πρόσημα αυτά καθαυτά αλλά στο γεγονός ότι μπορεί να υπάρχουν σημεία με διαφορετικά πρόσημα. o 5.2.2: Μη Συμμετρικά Biplots Όσον αφορά την ορολογία, όταν τα Προφίλ Γραμμών απεικονίζονται ταυτόχρονα με κορυφές που αντιπροσωπεύουν τις στήλες, το διάγραμμα θα λέγεται Ασύμμετρο ή Μη Συμμετρικό. Οι συντεταγμένες σε ένα Μη Συμμετρικό (Asymmetric) Biplot προκύπτουν κατά τέτοιο τρόπο ώστε τα σημεία γραμμών και στηλών να απέχουν όσο το δυνατόν περισσότερο. Ειδικότερα, γίνεται χρήση δύο διαφορετικών κλιμάκων για την απεικόνιση των σημείων των γραμμών και των στηλών. Από γεωμετρικής απόψεως, αυτό συνεπάγεται ότι τα σημεία γραμμών και στηλών θα απεικονίζονται μακριά μεταξύ τους, ενώ τα υπόλοιπα σημεία θα απεικονίζονται με βάση αυτήν την τοποθέτηση. Ενεργώντας έτσι, επιτυγχάνουμε μια πιο βελτιωμένη απεικόνιση των συσχετίσεων και αυτό διότι καθώς «επιβάλλουμε» αυτές τις μεγάλες αποστάσεις μεταξύ σημείων γραμμών και στηλών, εξασφαλίζουμε ένα ευκολότερο εντοπισμό των ομαδοποιήσεων στο χώρο που ουσιαστικά αποτελούν συσχετίσεις. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 56

57 o 5.2.3: Παρατηρήσεις Γενικά, η χρήση των Συμμετρικών Biplots είναι πιο συχνή και αυτό οφείλεται στο γεγονός ότι χρησιμοποιούν την ίδια Κανονικοποίηση για γραμμές και στήλες, με αποτέλεσμα η διαδικασία της Κανονικοποίησης να αποκτά περισσότερο «αυτοματοποιημένο» χαρακτήρα χωρίς την ανάγκη υποκειμενικών επιλογών. Επίσης είναι απαραίτητο να αναφέρουμε πως σε ένα Συμμετρικό Biplot έχουν νόημα οι αποστάσεις μεταξύ σημείων της ίδιας μεταβλητής, όχι όμως και οι αποστάσεις μεταξύ σημείων διαφορετικών μεταβλητών. Άρα μπορούμε να οδηγηθούμε σε σωστή συμπερασματολογία σχετικά με τις αποστάσεις μόνο μέσω των Μη Συμμετρικών Biplots. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 57

58 - Κεφάλαιο 6: Συμπερασματολογία 6.1: Ερμηνεία των αποτελεσμάτων Κατ αναλογία με την Ανάλυση Κυρίων Συνιστωσών, μια σημαντική παράμετρος της Ανάλυσης Αντιστοιχιών είναι η ερμηνεία των αξόνων ή αλλιώς των νέων μεταβλητών που προκύπτουν από τις αρχικές μεταβλητές. Γενικά, η Ανάλυση Αντιστοιχιών ερμηνεύεται από τον έλεγχο των σημείων των επιπέδων- κατηγοριών των γραμμών και στηλών, όπως εκφράζονται από τις αντίστοιχες τιμές των συντεταγμένων τους. Οι τιμές αυτές «καθρεπτίζουν» τις συσχετίσεις ανάμεσα στις κατηγορίες- επίπεδα των γραμμών- μεταβλητών και των στηλών- μεταβλητών. Αν υποθέσουμε πως μια δισδιάστατη λύση παρέχει μια επαρκή προσαρμογή, τότε τα σημεία των γραμμών που είναι κοντά τοποθετημένα υποδηλώνουν επίπεδα- κατηγορίες των γραμμών- μεταβλητών που έχουν παρόμοια προφίλ (δεσμευμένες κατανομές) ως προς τις στήλες. Ομοίως τα σημεία των στηλών που βρίσκονται κοντά υποδεικνύουν επίπεδα- κατηγορίες των στηλών- μεταβλητών που έχουν παρόμοια προφίλ (δεσμευμένες κατανομές) ως προς τις γραμμές. Ακόμα, τα σημεία των γραμμών που έχουν μικρές αποστάσεις από τα σημεία των στηλών αναπαριστάνουν συνδυασμούς που εμφανίζονται πιο συχνά, από ότι θα αναμενόταν κάτω από ένα μοντέλο ανεξαρτησίας, το οποίο είναι εκείνο που τα επίπεδα των γραμμών- μεταβλητών είναι ασυσχέτιστα με τα επίπεδα των στηλών- μεταβλητών. Μια ερμηνεία, όσο ενδιαφέρουσα και αν είναι για την ίδια τη μέθοδο αλλά και για τη συμπερασματολογία, εντούτοις μπορεί να διαθέτει και σοβαρά μειονεκτήματα. Για αυτό το λόγο, έχει ιδιαίτερη σημασία η άποψη, σύμφωνα με την οποία πρέπει να δίνουμε βαρύτητα σε εκείνα τα σημεία που συνεισφέρουν σε μεγαλύτερο βαθμό στην Αδράνεια της συγκεκριμένης διάστασης ή άξονα. Ο τύπος που υπολογίζει το ποσό της Αδράνειας του j άξονα για το σημείο- γραμμή είναι ο ακόλουθος: ru 2 i ij 2 j. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 58

59 Παρατηρώντας τον παραπάνω τύπο διαπιστώνουμε ότι τα σημεία που αντιστοιχούν σε γραμμές με μεγάλη Μάζα και μεγάλη κατ απόλυτη τιμή συντεταγμένη στον j άξονα, θα έχουν και μεγαλύτερη συνεισφορά στην Αδράνεια. Έτσι μπορούμε να βρούμε τη συνεισφορά κάθε σημείου ξεχωριστά. Η Συνολική Αδράνεια μπορεί επίσης να αναλυθεί κατά μήκος των βασικών αξόνων. Κάθε ιδιοτιμή λ i προσδιορίζει τη σταθμισμένη διακύμανση (Αδράνεια) που εξηγείται από τον i-οστό βασικό άξονα της απεικόνισης. Αθροίζοντας σε όλους τους k βασικούς άξονες, αυτές οι ιδιοτιμές αντιπροσωπεύουν τη Συνολική Αδράνεια της αναπαράστασης του χώρου. Λόγω του ότι η Συνολική Αδράνεια κάθε συνόλου σημείων αναλύεται κατά μήκος των βασικών αξόνων και μεταξύ των σημείων με παρόμοιο και συμμετρικό τρόπο, η Αδράνεια για κάθε σύνολο σημείων μπορεί να αναλυθεί κατά τρόπο ανάλογο με την ανάλυση της διακύμανσης. Αυτές οι διάφορες αναλύσεις χρησιμοποιούνται για να βοηθήσουν στην ερμηνεία της γραφικής αναπαράστασης. Εν τέλει, η ερμηνεία των αξόνων βασίζεται στον εντοπισμό των σημείων με μεγάλη Συνεισφορά ή με άλλα λόγια των σημείων που χαρακτηρίζονται από υψηλές συντεταγμένες και Μάζες, αφού οι μάζες στην Ανάλυση Αντιστοιχιών δεν είναι ίσες ενώ στην Ανάλυση Κυρίων Συνιστωσών σε κάθε σημείο αντιστοιχεί 1/n. Επιπλέον, στην ουσία το ενδιαφέρον μας εστιάζεται μόνο στο πρόσημο των συντεταγμένων για να εξακριβώσουμε αν κάποιες κατηγορίες έχουν αντίθετη συνεισφορά. Η ερμηνεία της Ανάλυσης Αντιστοιχιών δεν ολοκληρώθηκε ακόμα. Η δισδιάστατη απεικόνιση δείχνει τις προβολές των Προφίλ των σημείων πάνω στο επίπεδο αλλά δεν προσδιορίζει ποια σημεία έχουν το μεγαλύτερο αντίκτυπο στον καθορισμό του προσανατολισμού των αξόνων. Για μια ολοκληρωμένη και σωστή ερμηνεία της γραφικής απεικόνισης πρέπει να χρησιμοποιήσουμε επιπρόσθετη πληροφορία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 59

60 6.2: Πλήθος Αξόνων που θα επιλέξουμε Παρόμοιο ζήτημα με της Ανάλυσης Κυρίων Συνιστωσών που προκύπτει και στην Ανάλυση Αντιστοιχιών είναι η επιλογή του πλήθους των αξόνων, στους οποίους θα στηριχθούμε αφενός για να περιγράψουμε σε ικανοποιητικό βαθμό τα δεδομένα και αφετέρου για να πετύχουμε μείωση των διαστάσεων του προβλήματος. Το ζητούμενο σε αυτή τη διαδικασία είναι να εξασφαλίσουμε την απαραίτητη ισορροπία ανάμεσα στην Καλή Προσαρμογή των δεδομένων και στην Οικονομία ή φειδώ (Parsimony). Πάντα σε αναλογία με την Ανάλυση Κυρίων Συνιστωσών η επιλογή των αξόνων μπορεί να επιτευχθεί με τη βοήθεια των παρακάτω τεχνικών: Το Scree Plot, το οποίο είναι ένα γράφημα που έχει στον οριζόντιο άξονα x τη σειρά και στον κάθετο άξονα y την τιμή της κάθε ιδιοτιμής. Το κριτήριο αυτό συνιστά να κρατήσουμε τόσους άξονες μέχρι το γράφημα να αρχίσει να γίνεται σχεδόν επίπεδο ή μέχρι να παρατηρήσουμε ότι αρχίζει να αλλάζει η κλίση της γραμμής. Φυσικά η τεχνική αυτή χαρακτηρίζεται από το μειονέκτημα της υποκειμενικότητας, καθώς πολλές φορές είναι δυσδιάκριτη η αλλαγή της κλίσης που μας ενδιαφέρει και για αυτό το λόγο η χρήση του Scree Plot πρέπει να γίνεται με προσοχή. Το Αθροιστικό ποσοστό Αδράνειας που ερμηνεύεται από τους άξονες. Με βάση αυτό το κριτήριο θέτουμε κάποιο όριο, όπως για παράδειγμα 80% και επιλέγουμε τόσους άξονες που αθροιστικά θα ξεπερνούν το παραπάνω όριο- στόχο. Το συγκεκριμένο κριτήριο είναι ιδιαίτερα απλό και εύκολο στη χρήση, όμως πρακτικά δεν αποφέρει πάντα το καλύτερο αποτέλεσμα, κυρίως όταν το όριο- στόχος είναι αρκετά υψηλό. Ακόμα δεν είναι εύκολη και η επιλογή του ποσοστού της Αδράνειας που πρέπει να ορίσουμε ως όριο- στόχο. Το ποσοστό κάθε κατηγορίας που ερμηνεύεται αν επιλέξουμε έστω k άξονες. Αν κρατήσουμε k άξονες λογικά χάνουμε κάποιο κομμάτι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 60

61 πληροφορίας κάθε μεταβλητής και επιπλέον μπορούμε να υπολογίσουμε το ποσοστό της Αδράνειας που ερμηνεύεται τελικά. Αυτό το κριτήριο επιλέγει τόσους άξονες έτσι ώστε να ερμηνεύεται για κάθε κατηγορία τουλάχιστον ένα μεγάλο ποσοστό. Όμως και σε αυτήν την περίπτωση το κριτήριο εμπεριέχει υποκειμενικότητα και συν τοις άλλοις υπάρχει το ενδεχόμενο κάποια κατηγορία να μην ερμηνεύεται με σωστό τρόπο και έτσι να οδηγηθούμε σε μεγάλο αριθμό αξόνων. Παράλληλα, άλλες πολυπλοκότερες τεχνικές επιλογής αξόνων είναι αυτές που στηρίζονται σε αναδειγματοληπτικές μεθόδους (resampling methods), όπως είναι η μέθοδος bootstrap και επίσης υπάρχουν και άλλες τεχνικές που προσπαθούν να ποσοτικοποιήσουν την προσέγγιση του Scree Plot, στην οποία μερικοί συγγραφείς θέλοντας να παρακάμψουν το μειονέκτημα της συγκεκριμένης μεθόδου ως προς την εύρεση του σημείου αλλαγής κλίσης, πρότειναν κάποιες μεθόδους για αυτήν ακριβώς την εύρεση της αλλαγής κλίσης με τη βοήθεια εμπειρικών παρατηρήσεων ή και τη χρήση γραμμικών μοντέλων. Εδώ να αναφέρουμε ότι καθώς η Ανάλυση Αντιστοιχιών είναι κατά βάση μια γραφική τεχνική αναπαράστασης δεδομένων σε ένα γράφημα που θα προσφέρει καλή ερμηνεία στον ερευνητή, συχνά η κατάληξη της μεθόδου είναι ένα Biplot των δύο πρώτων αξόνων χωρίς να ενδιαφερόμαστε για τους υπόλοιπους άξονες. 6.3: Συμπληρωματικά Σημεία (Supplementary Points) Η Ανάλυση Αντιστοιχιών χαρακτηρίζεται από μια ακόμα χρήσιμη και σημαντική ιδιότητα: Μας παρέχει τη δυνατότητα να προσθέσουμε στη γραφική απεικόνιση Συμπληρωματικά σημεία (Supplementary Points), που είναι σημεία τα οποία δε χρησιμοποιήθηκαν προηγουμένως στην ανάλυση. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 61

62 Συγκεκριμένα, έχοντας κατασκευάσει τους βασικούς άξονες των προφίλ που αναλύονται, η Ανάλυση Αντιστοιχιών προσφέρει το πλεονέκτημα της επιπλέον απεικόνισης σημείων στο χώρο. Αυτό έχει ως συνέπεια να διευρύνει την ερμηνευσιμότητα της ανάλυσης, αφού επιτρέπει την παρατήρηση διαφορετικών «patterns» στα σημεία που αποτυπώνονται στο γράφημα της μεθόδου. Πρέπει να σημειώσουμε ότι τα Συμπληρωματικά σημεία αφορούν κυρίως τις βασικές μεταβλητές, αυτές δηλαδή που παρουσιάζουν το μεγαλύτερο ενδιαφέρον από πλευράς ανάλυσης. Από τεχνικής απόψεως, τα Συμπληρωματικά σημεία προστίθενται στην παρουσίαση όπως και αναπαρίστανται και τα υπόλοιπα σημεία. Αν έχουμε στη διάθεσή μας τα Προφίλ των Συμπληρωματικών σημείων, τότε είναι εύκολο να υπολογίσουμε την απόσταση του νέου σημείου από το κέντρο και περαιτέρω μπορούμε με τη βοήθεια αυτής της απόστασης να βρούμε τις συντεταγμένες του νέου σημείου στον υπάρχοντα χώρο των βασικών αξόνων. Συμπερασματικά, η χρήση των Συμπληρωματικών σημείων είναι κατάλληλη για τη διαχρονική παρακολούθηση και σύγκριση αποτελεσμάτων. Αυτό επιτυγχάνεται συνήθως με την ταυτόχρονη παρουσίαση αποτελεσμάτων διαχρονικών ερευνών στο ίδιο γράφημα και έτσι γίνονται εύκολα αντιληπτές οι διαφορές. Παράλληλα η προσαρμογή των συμπληρωματικών σημείων μπορεί συγχρόνως να χρησιμεύσει ως έλεγχος εγκυρότητας (Lebart, Morineau & Warwick 1984, p.163). Λόγω του ότι ένα συμπληρωματικό σημείο δεν έχει συνεισφορά στον άξονα, η τετραγωνική του συσχέτιση (Σχετική Συνεισφορά- Relative Contribution) με κάθε βασικό άξονα μπορεί να εξεταστεί. Μεγάλες τιμές υποδεικνύουν καλή προσαρμογή στην απεικόνιση και υπονοούν εγκυρότητα των μεταβλητών που μελετώνται. Συνάμα, μια άλλη χρήση των Συμπληρωματικών σημείων είναι ότι μπορούν να ελέγξουν τη μεταβλητότητα του αποτελέσματος. Εννοούμε δηλαδή ότι επαναλαμβανόμενες ομάδες από γραμμές συχνοτήτων μπορούν να παράγονται από Πολυωνυμική κατανομή. Η απεικόνιση των νέων αυτών προφίλ μπορεί να γίνει στην αρχική γραφική αναπαράσταση ως Συμπληρωματικά σημεία και αυτό μας δίνει τη δυνατότητα να παρατηρήσουμε τη δειγματική διακύμανση. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 62

63 6.4: Ποιότητα Παρουσίασης Ένας αριθμός δευτερευόντων στατιστικών συναρτήσεων αναφέρονται στη βιβλιογραφία και που έχουν ως σκοπό να βοηθήσουν στην αποτίμηση της ποιότητας του αντίστοιχα επιλεγμένου αριθμού διαστάσεων. Το γενικότερο μέλημα εδώ συνίσταται στο ότι όλα ή τουλάχιστον τα περισσότερα σημεία απεικονίζονται κατάλληλα από την αντίστοιχη λύση, στην οποία οι αποστάσεις των σημείων από άλλα σημεία μπορεί να προσεγγιστούν σε ένα ικανοποιητικό βαθμό. Το μέτρο «Ποιότητα (Quality)» περιέχει πληροφορίες σχετικά με την ποιότητα της παρουσίασης των αντίστοιχων σημείων γραμμών στο σύστημα συντεταγμένων που προσδιορίζεται από το αντίστοιχο πλήθος των διαστάσεων, όπως επιλέγονται από τον ερευνητή. Η «Ποιότητα (Quality)» ενός σημείου ορίζεται ως ο λόγος της τετραγωνικής απόστασης ενός σημείου από την αρχή των αξόνων στον επιλεγμένο αριθμό διαστάσεων, προς την τετραγωνική απόσταση από την αρχή των αξόνων στο χώρο που ορίζεται από το μέγιστο αριθμό διαστάσεων (η μετρική απόστασης είναι η X 2 ). Η Συνολική Ποιότητα (Total Quality) είναι η αναλογία που αντιπροσωπεύει την τετραγωνική απόσταση από το Κεντροειδές. Παρατηρούμε λοιπόν ότι υπάρχει αναλογία με την Παραγοντική Ανάλυση, όπου η ποιότητα ενός σημείου είναι παρόμοια με την ερμηνεία της Εταιρικότητας (Communality) μιας μεταβλητής. Πρέπει να σημειώσουμε πως το μέτρο της Ποιότητας είναι ανεξάρτητο της επιλεγμένης μεθόδου τυποποίησης και πάντα αναφέρεται στην προεπιλεγμένη τυποποίηση. Μια μικρή Ποιότητα συνεπάγεται ότι ο υπάρχων αριθμός διαστάσεων δεν απεικονίζει ικανοποιητικά την αντίστοιχη γραμμή (ή στήλη). Παράλληλα, η Ποιότητα ενός σημείου αναπαριστάνει την αναλογία της Συνεισφοράς αυτού του σημείου στη Συνολική Αδράνεια (X 2 Chisquare) που αντιπροσωπεύεται από τον επιλεγμένο αριθμό διαστάσεων. Όμως, δεν επισημαίνει σε τί βαθμό και αν όντως συνεισφέρει το αντίστοιχο σημείο στη συνολική Αδράνεια (X 2 τιμή). Ως γνωστό το τετράγωνο του συνημιτόνου ενός σημείου γραμμής ή στήλης και ενός άξονα είναι το τετράγωνο του συνημιτόνου της γωνίας που σχηματίζεται μεταξύ του άξονα και της ευθείας που ενώνει την αρχή των αξόνων με το συγκεκριμένο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 63

64 σημείο. Οπότε, εάν το σημείο είναι τοποθετημένο πάνω στον άξονα τότε η γωνία θα είναι μηδέν και έτσι το τετράγωνο του συνημιτόνου θα είναι ίσο με τη μονάδα. Αν πάλι η συντεταγμένη του σημείου για το δεδομένο άξονα είναι μηδέν τότε η γωνία θα είναι ίση με 90 ο και το συνημίτονο τότε θα είναι ίσο με το μηδέν. Από όλα τα παραπάνω διαπιστώνουμε ότι η τιμή του τετραγώνου του συνημιτόνου αποτελεί ένδειξη της συσχέτισης μεταξύ των σημείων και των αξόνων. Η Ποιότητα της Παρουσίασης στο χώρο μειωμένων διαστάσεων n για κάθε σημείο, ορίζεται ως το άθροισμα των τετραγώνων των συνημιτόνων και για τις n διαστάσεις που χρησιμοποιούνται για την αναπαράσταση των σημείων. Επιπλέον αυτές οι ποσότητες ονομάζονται Ποιότητα ή Τετραγωνικές Συσχετίσεις μιας μεταβλητής με κάθε άξονα. Η μετρική Συνημίτονο (Cosine 2 ) αναφέρεται στην Ποιότητα κάθε σημείου ανά διάσταση. Το άθροισμα αυτών των τιμών των αντίστοιχων στηλών κατά μήκος των διαστάσεων ισούται με τη Συνολική Ποιότητα. Αυτή η τιμή μπορεί επίσης να ερμηνευθεί ως η συσχέτιση του αντίστοιχου σημείου με την αντίστοιχη διάσταση. o 6.4.1: Ποιότητα Παρουσίασης- Σχετικές Συνεισφορές στην Αδράνεια Μετά την ερμηνεία των διαστάσεων και την επιλογή των αξόνων, το επόμενο βήμα στην Ανάλυση Αντιστοιχιών είναι ο καθορισμός της «Ποιότητας 2 2 Παρουσίασης» κάθε σημείου στην απεικόνιση. Η ποσότητα hit / hit ( h 2 it είναι οι τετραγωνικές αποστάσεις) δίνει τη Σχετική Συνεισφορά (Relative Contribution) του t-οστού άξονα στην Αδράνεια της i-οστής γραμμής. Ένας ανάλογος ορισμός ισχύει και για τις Σχετικές Συνεισφορές των κατηγοριών των στηλών. Αυτές οι τιμές είναι ανεξάρτητες της Μάζας του σημείου και προσδιορίζουν πόσο καλά κάθε σημείο ταιριάζει στην αναπαράσταση. Μια Σχετική Συνεισφορά είναι στην ουσία μια τετραγωνική συσχέτιση, επειδή είναι ίση με το cos 2 της γωνίας θ μεταξύ του σημείου και του i-οστού βασικού άξονα. Μεγάλες τιμές του cos 2 υποδηλώνουν ότι ο άξονας εξηγεί την Αδράνεια του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 64 t

65 σημείου πολύ καλά. Η γωνία θ είναι μικρή και το Προφίλ του σημείου είναι πάνω στην κατεύθυνση του άξονα και συσχετίζεται πολύ με αυτό. Αθροίζοντας σε όλους τους άξονες ενδιαφέροντος, οι Σχετικές Συνεισφορές δίνουν την «Ποιότητα Παρουσίασης». Αυτή όπως είπαμε, είναι απλά το cos 2 της γωνίας που σχηματίζει το σημείο με τον υπόχωρο. Κατά συνέπεια, οι Σχετικές Συνεισφορές δίνουν το μέρος της διακύμανσης ενός σημείου που εξηγείται από έναν άξονα και η Ποιότητα δίνει την καλή προσαρμογή της απεικόνισης κάθε σημείου στον υπόχωρο. Το άθροισμα των Σχετικών Συνεισφορών όλων των αξόνων (όχι μόνο αυτών που χρησιμοποιούνται στη γραφική αναπαράσταση) ισούται με τη μονάδα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 65

66 - Κεφάλαιο 7: Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) με το SPSS Η ανάλυση των πινάκων συνάφειας συνήθως περιλαμβάνει μελέτη των Προφίλ Γραμμών και Στηλών και έλεγχο ανεξαρτησίας μέσω του στατιστικού X 2. Ωστόσο, αν το πλήθος των προφίλ είναι πολύ μεγάλο, ο έλεγχος X 2 (Chi-square) δεν αποκαλύπτει τη δομή εξάρτησης. Η διαδικασία Crosstabs προσφέρει μερικά μέτρα και ελέγχους συνάφειας, αλλά δε μπορεί να αναπαραστήσει γραφικά οποιαδήποτε σχέση μεταξύ των μεταβλητών. 7.1: Δεδομένα (Data) Οι κατηγορικές μεταβλητές που θα αναλυθούν είναι σε Ονομαστική Κλίμακα (Nominal Scale). Για συγκεντρωτικά δεδομένα ή για μέτρο αντιστοιχίας διαφορετικό από τις συχνότητες, χρησιμοποιούμε μια μεταβλητή στάθμισης με θετικές τιμές ομοιότητας. Εναλλακτικά, για δεδομένα πινάκων χρησιμοποιούμε τη σύνταξη (syntax) για την ανάγνωση του πίνακα. 7.2: Υποθέσεις (Assumptions) Ο μέγιστος αριθμός διαστάσεων που μπορεί να χρησιμοποιηθεί στη διαδικασία εξαρτάται από το πλήθος των ενεργών επιπέδων- κατηγοριών των γραμμών και στηλών και ακόμα από τον αριθμό περιορισμών ισότητας (equality constraints). Εάν δεν υπάρχουν περιορισμοί ισότητας και όλες οι κατηγορίες είναι ενεργές, η μέγιστη διαστατικότητα είναι ένα επίπεδο λιγότερο από το πλήθος των επιπέδων- κατηγοριών της μεταβλητής με τα λιγότερα επίπεδα. Οι Συμπληρωματικές (Supplementary) κατηγορίες δεν είναι ενεργές. Όλα τα σύνολα επιπέδων- κατηγοριών που έχουν τον περιορισμό να είναι ίσα, θα πρέπει να τα μεταχειριζόμαστε σα μια κατηγορία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 66

67 7.3: Πίνακας Αντιστοιχιών- Crosstabs Ο πίνακας Αντιστοιχιών P είναι ένας πίνακας διπλής εισόδου, του οποίου τα κελιά περιέχουν ένα μέτρο αντιστοιχίας ανάμεσα στις γραμμές και τις στήλες του. Αυτό το μέτρο αντιστοιχίας μπορεί να είναι οποιαδήποτε ένδειξη ομοιότητας, συνάφειας, αβεβαιότητας, συσχέτισης ή αλληλεπίδρασης μεταξύ γραμμών και στηλών. Ένας πολύ συνηθισμένος τύπος πίνακα Αντιστοιχιών είναι η Διασταύρωση- Πινακοποίηση (Crosstabulation), όπου τα κελιά περιέχουν μετρήσεις συχνοτήτων. Τέτοιοι πίνακες προκύπτουν εύκολα μέσω της διαδικασίας Crosstabs. Παρόλα αυτά, η διαδικασία αυτή δεν δίνει πάντα μια καθαρή εικόνα της φύσεως της σχέσεως που υφίσταται μεταξύ των δύο μεταβλητών. Αυτό ισχύει ιδιαίτερα όταν οι μεταβλητές ενδιαφέροντος είναι ονομαστικές (χωρίς έμφυτη τάξη ή σειρά) και περιέχουν αριθμητικά επίπεδα- κατηγορίες. 7.4: Ανάλυση Αντιστοιχιών- Κανονικοποίηση Η ερμηνεία της Ανάλυσης Αντιστοιχιών από την άποψη της απόστασης, εξαρτάται από τη μέθοδο Κανονικοποίησης που χρησιμοποιείται. Η Ανάλυση Αντιστοιχιών χρησιμοποιείται για να αναλύσει, είτε τις διαφορές μεταξύ των επιπέδων- κατηγοριών μιας μεταβλητής, είτε τις διαφορές ανάμεσα σε μεταβλητές. Με την προεπιλεγμένη Κανονικοποίηση (Default Normalization), αναλύονται οι διαφορές μεταξύ των μεταβλητών γραμμών και στηλών. Ο αλγόριθμος της Ανάλυσης Αντιστοιχιών δύναται να υλοποιήσει πολλά είδη αναλύσεων. Το κεντράρισμα γραμμών και στηλών παράλληλα με τη χρήση αποστάσεων X 2 αντιστοιχεί στην Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis). Αν όμως χρησιμοποιήσουμε εναλλακτικές επιλογές κεντραρίσματος συνδυασμένες με Ευκλείδιες αποστάσεις μας δίνεται μια εναλλακτική απεικόνιση ενός πίνακα σε χώρο μειωμένων διαστάσεων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 67

68 o 7.4.1: Κανονικοποίηση (Normalization) Η Κανονικοποίηση χρησιμοποιείται για να κατανείμει την Αδράνεια στα σκορ των γραμμών και των στηλών. Μερικές πλευρές της λύσης της Ανάλυσης Αντιστοιχιών όπως οι ιδιόμορφες τιμές, η Αδράνεια ανά διάσταση και οι Συνεισφορές δε μεταβάλλονται κάτω από τις διάφορες κανονικοποιήσεις. Τα σκορ γραμμών και στηλών καθώς και οι διακυμάνσεις τους επηρεάζονται. Η Ανάλυση Αντιστοιχιών έχει ορισμένους τρόπους για να «απλώσει» την Αδράνεια. Οι τρεις πιο κοινοί περιλαμβάνουν την εξάπλωση της Αδράνειας στα σκορ των γραμμών μόνο, στα σκορ των στηλών μόνο και τέλος απλώνοντας την Αδράνεια συμμετρικά ταυτόχρονα στα σκορ γραμμών και στηλών. Εν συνεχεία αναλύουμε τέσσερα είδη Κανονικοποίησης: 1) Row Principal. Σε αυτό το είδος Κανονικοποίησης, οι Ευκλείδιες αποστάσεις μεταξύ των σημείων γραμμών προσεγγίζουν τις αποστάσεις X 2 ανάμεσα στις γραμμές του πίνακα αντιστοιχιών. Τα σκορ γραμμών είναι ο σταθμισμένος μέσος όρος των σκορ των στηλών. Τα σκορ των στηλών τυποποιούνται έτσι ώστε να έχουν ένα σταθμισμένο άθροισμα τετραγωνικών αποστάσεων από το κεντροειδές ίσο με τη μονάδα. Εφόσον αυτή η μέθοδος μεγιστοποιεί τις αποστάσεις μεταξύ των επιπέδων γραμμών, καλό είναι κάνουμε χρήση της συγκεκριμένης Κανονικοποίησης αν ενδιαφερόμαστε πρωτίστως να δούμε το πώς οι κατηγορίες μιας μεταβλητής γραμμής διαφέρουν μεταξύ τους. 2) Column Principal. Από την άλλη μεριά, μπορεί να θέλουμε να προσεγγίσουμε τις αποστάσεις X 2 μεταξύ των στηλών του πίνακα Αντιστοιχιών. Σε αυτήν την περίπτωση, τα σκορ των στηλών θα πρέπει να είναι ο σταθμισμένος μέσος όρος των σκορ των γραμμών. Τα σκορ των γραμμών τυποποιούνται έτσι ώστε να έχουν ένα σταθμισμένο άθροισμα τετραγωνικών αποστάσεων από το κεντροειδές ίσο με τη μονάδα. Αυτή η μέθοδος μεγιστοποιεί τις αποστάσεις μεταξύ των επιπέδων στηλών και θα πρέπει να τη χρησιμοποιούμε αν ενδιαφερόμαστε κυρίως να ελέγξουμε ποιες κατηγορίες μιας μεταβλητής στήλης διαφέρουν μεταξύ τους. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 68

69 3) Symmetrical. Μας δίνεται επίσης η δυνατότητα να μεταχειριστούμε τις γραμμές και τις στήλες συμμετρικά. Αυτή η κανονικοποίηση «απλώνει» την Αδράνεια εξίσου στα σκορ γραμμών και στηλών. Αξιοσημείωτο είναι ότι σε αυτήν την περίπτωση ούτε οι αποστάσεις ανάμεσα στα σημεία γραμμών ούτε οι αποστάσεις ανάμεσα στα σημεία στηλών είναι προσεγγίσεις των αποστάσεων X 2. Η μέθοδος αυτή ενδείκνυται όταν ενδιαφερόμαστε βασικά για τις διαφορές ή τις ομοιότητες μεταξύ δύο μεταβλητών. Συνήθως, αυτή είναι η προτιμώμενη μέθοδος κατασκευής Biplot. 4) Principal. Μια τέταρτη επιλογή ονομάζεται Κύρια Κανονικοποίηση, στην οποία η Αδράνεια απλώνεται δύο φορές στη λύση- μία στα σκορ γραμμών και μία στα σκορ στηλών. Θα πρέπει να κάνουμε χρήση αυτής της μεθόδου εάν ενδιαφερόμαστε για τις αποστάσεις ανάμεσα στα σημεία γραμμών και τις αποστάσεις ανάμεσα στα σημεία στηλών χωριστά και όχι στο πώς τα σημεία γραμμών και στηλών συσχετίζονται μεταξύ τους. Τα Biplots δεν είναι κατάλληλα για αυτόν τον τύπο κανονικοποίησης και ως εκ τούτου δεν είναι διαθέσιμα αν έχουμε επιλέξει τη μέθοδο της Κύριας Κανονικοποίησης. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 69

70 7.5: Περιγραφή Διαδικασίας Απλής Ανάλυσης Αντιστοιχιών Η Ανάλυση Αντιστοιχιών- Correspondence Analysis συμπεριλαμβάνεται στο στατιστικό πακέτο για κοινωνικές επιστήμες SPSS από τη 10 η έκδοση. Το μονοπάτι που ακολουθούμε στο Μενού Εντολών είναι το ακόλουθο όπως φαίνεται και στην Εικόνα 1: Analyze/ Dimension Reduction/ Correspondence Analysis Εικόνα 1: Μενού επιλογής Απλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 70

71 Εν συνεχεία ανοίγει το Βασικό Μενού της Ανάλυσης Αντιστοιχιών (Εικόνα 2). Πρώτα από όλα, είμαστε υποχρεωμένοι να προσδιορίσουμε τις μεταβλητές που ορίζουν τις γραμμές και τις στήλες του υπό ανάλυση πίνακα από τον οποίο αντλούμε τα δεδομένα μας. Επιλέγουμε επομένως τις μεταβλητές από το πλαίσιο αριστερά και με τη βοήθεια των βελών τις μεταφέρουμε δεξιά, στο πλαίσιο Row για τις γραμμές και Column για τις στήλες. Αφού επιλέξουμε τις μεταβλητές βλέπουμε να εμφανίζεται δίπλα στο όνομα κάθε μιας από αυτές το εξής (?,?). (Να σημειώσουμε ότι οι μεταβλητές που εμφανίζονται στα ακόλουθα μενού επιλογής περιγραφής της θεωρίας, τόσο στο SPSS όσο και στο MINITAB, δεν είναι αυτές που θα συμπεριληφθούν στην πρακτική εφαρμογή). Εικόνα 2: Βασικό Μενού Απλής Ανάλυσης Αντιστοιχιών Στο σημείο αυτό, όπως βλέπουμε και στην Εικόνα 3, είναι απαραίτητο στα κουμπιά Define Range να δηλώσουμε το εύρος των τιμών, τόσο των μεταβλητών- γραμμών όσο και των μεταβλητών- στηλών που θα λάβει υπόψη ο αλγόριθμος του SPPS για να κάνει τους υπολογισμούς προς εύρεση των αποτελεσμάτων. Άρα, ορίζουμε τη μικρότερη και τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 71

72 μεγαλύτερη τιμή στα πεδία Minimum Value και Maximum Value αντίστοιχα. Παράλληλα, στο κάτω πλαίσιο έχουμε τη δυνατότητα να προσδιορίσουμε το πώς θα χρησιμοποιήσουμε μια κατηγορία. Έχουμε τρεις επιλογές: «Κανένας περιορισμός (None)» ή «Οι κατηγορίες πρέπει να είναι ίσες (Categories must be equal)» ή «Η κατηγορία μπορεί να χρησιμοποιηθεί ως Συμπληρωματικό σημείο αλλά όχι για την κατασκευή των αξόνων (Category is supplemental)». Εικόνα 3: Define Row Range menu Από το Βασικό Μενού της Ανάλυσης Αντιστοιχιών στην Εικόνα 2 έχουμε τρεις επιλογές πάνω δεξιά: 1. Model menu Στην Εικόνα 4 εμφανίζεται το Model Menu, στο οποίο ορίζουμε τα εξής: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 72

73 Στο πάνω μέρος του παραθύρου προσδιορίζουμε τον αριθμό των διαστάσεων (Dimensions in solution) που θα περιλαμβάνει η λύση της ανάλυσης. Παρατηρούμε ότι είναι προεπιλεγμένος (default) ο αριθμός 2. Στο πλαίσιο Distance Measure προσδιορίζουμε το μέτρο που θα χρησιμοποιήσουμε για να υπολογίσουμε τις αποστάσεις (στην κλασική Ανάλυση Αντιστοιχιών η απόσταση πρέπει να είναι η X 2 ). Υπάρχουν δύο επιλογές, η απόσταση X 2 και η Ευκλείδια απόσταση. Στο πλαίσιο Standardization Method προσδιορίζουμε τη μέθοδο Τυποποίησης. H προεπιλεγμένη (default) επιλογή του πακέτου είναι «Row and Column means are removed». Εν τέλει, στο κάτω μέρος του παραθύρου προσδιορίζουμε τη μέθοδο Κανονικοποίησης (Normalization Method). Η επιλογή αυτή έχει σχέση με τις ποσότητες που χρησιμοποιούνται για την τυποποίηση των αποστάσεων και ουσιαστικά ορίζει τα βάρη τα οποία δίνονται σε κάθε γραμμή ή στήλη. H προεπιλεγμένη (default) επιλογή του SPSS είναι Συμμετρική Κανονικοποίηση (Symmetrical). Υπάρχουν επίσης και οι επιλογές Row Principal, Column Principal, Custom και Principal. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 73

74 Εικόνα 4: Model menu 2. Statistics menu Στην Εικόνα 5 εμφανίζεται το Statistics Menu, στο οποίο επιλέγουμε τις ποσότητες που θα εμφανισθούν στην έξοδο δεδομένων (Output) των αποτελεσμάτων. Έτσι έχουμε την ευχέρεια να επιλέξουμε μεταξύ των άλλων: Τον αρχικό αναλυτικό πίνακα συνάφειας (Correspondence Table). Τα Προφίλ Γραμμών και Στηλών (Row & Column Profiles). Κάποια στατιστικά για συμπερασματολογία βασισμένα σε ασυμπτωτικά αποτελέσματα και συγκεκριμένες υποθέσεις (Confidence Statistics for Row points & Column points). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 74

75 H προεπιλεγμένη (default) επιλογή του πακέτου είναι Correspondence Table, Overview of row points και Overview of column points. Εικόνα 5: Statistics menu 3. Plots menu Στην Εικόνα 6 εμφανίζεται το Plots Menu, μέσω του οποίου μπορούμε να επιλέξουμε τα γραφήματα που θέλουμε να συγκαταλέγονται στην παρουσίαση. Το SPSS μας επιτρέπει την κατασκευή μόνο Συμμετρικών Biplot όπως και μονοδιάστατων Dotplot για τα scores γραμμών και στηλών. Ακόμα υπάρχει η δυνατότητα να δημιουργήσουμε ένα Line plot, στο οποίο οι κατηγορίες της ίδιας μεταβλητής συνδέονται μεταξύ τους με γραμμές. Ταυτόχρονα στο κάτω μέρος του παραθύρου, μπορούμε να προσδιορίσουμε το αν επιθυμούμε να συμμετάσχουν όλες Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 75

76 οι διαστάσεις στη λύση «Display all dimensions in the solution» ή να περιορίσουμε τον αριθμό τους επιλέγοντας «Restrict the number of dimensions». H προεπιλεγμένη (default) επιλογή του SPSS είναι το Συμμετρικό Biplot. Εικόνα 6: Plots menu Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 76

77 - Κεφάλαιο 8: Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) με το MINITAB 8.1: Περιγραφή Διαδικασίας Απλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών του MINITAB είναι το ακόλουθο όπως βλέπουμε και στην Εικόνα 7: Stat/ Multivariate/ Simple Correspondence Analysis Εικόνα 7: Μενού επιλογής Απλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 77

78 Εν συνεχεία ανοίγει το Βασικό Μενού της Απλής Ανάλυσης Αντιστοιχιών (Εικόνα 8). Εικόνα 8: Βασικό Μενού Απλής Ανάλυσης Αντιστοιχιών Εμφανίζεται έτσι το πλαίσιο διαλόγου όπου στο πάνω μέρος υπάρχει το πεδίο Input Data, στο οποίο ορίζουμε τις παραμέτρους που αφορούν τα δεδομένα εισαγωγής. Πρώτα από όλα, πρέπει να δηλώσουμε τη μορφή των δεδομένων, αν δηλαδή είναι υπό τη μορφή κατηγορικών μεταβλητών (Categorical variables) ή τα δεδομένα αποτελούν τις στήλες ενός πίνακα συνάφειας (Columns of a contingency table). Στη μεν πρώτη επιλογή της εισαγωγής των δεδομένων ως κατηγορικών μεταβλητών (Categorical variables), αν δε χρησιμοποιήσουμε το υπομενού Combine που βρίσκεται στο κάτω μέρος του παραθύρου, τότε εισάγουμε δύο στήλες στο φύλλο εργασίας (Worksheet). Η πρώτη αναφέρεται στα επίπεδα- κατηγορίες της μιας μεταβλητής- γραμμής και η δεύτερη αναφέρεται στα επίπεδα- κατηγορίες της μιας μεταβλητής- στήλης. Το MINITAB στη συνέχεια συγκροτεί έναν πίνακα συνάφειας από τα εισαχθέντα δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 78

79 Αν επιλέξουμε να εισάγουμε τα δεδομένα ως στήλες ενός πίνακα συνάφειας (Columns of a contingency table), τότε κάθε στήλη που θα εισάγουμε στο φύλλο εργασίας θα χρησιμοποιείται σαν στήλη του πίνακα συνάφειας. Όλες οι τιμές στις στήλες του πίνακα πρέπει να ακέραιες θετικές ή ίσες με το μηδέν. Στο πλαίσιο Row names εισάγουμε μια στήλη που περιέχει ονόματα για τις γραμμές του πίνακα συνάφειας. Το MINITAB εκτυπώνει τους πρώτους 8 χαρακτήρες των ονομάτων στους πίνακες ενώ παράλληλα εκτυπώνει τα πλήρη ονόματα στα γραφήματα. Εάν δεν ορίσουμε ονόματα εδώ, οι γραμμές θα ονομαστούν Row1, Row2, κ.τ.λ. Στο πλαίσιο Column names εισάγουμε μια στήλη που περιέχει ονόματα για τις στήλες του πίνακα συνάφειας. Ομοίως με προηγουμένως, το MINITAB εκτυπώνει τους πρώτους 8 χαρακτήρες των ονομάτων στους πίνακες ενώ παράλληλα εκτυπώνει τα πλήρη ονόματα στα γραφήματα. Εάν δεν ορίσουμε ονόματα και εδώ τότε οι στήλες θα ονομαστούν Column1, Column2, κ.τ.λ. Στο πλαίσιο Number of components εισάγουμε το πλήθος των συνιστωσώνδιαστάσεων που θα υπολογιστούν. Ο ελάχιστος αριθμός των διαστάσεων είναι ίσος με τη μονάδα, ενώ ο μέγιστος αριθμός τους για έναν πίνακα συνάφειας με r γραμμές και c στήλες είναι το ελάχιστο των (r-1) ή (c-1), το οποίο είναι ισοδύναμο με τη διάσταση του υποχώρου πάνω στον οποίο προβάλλονται τα Προφίλ (Profiles). Η προεπιλεγμένη (default) επιλογή διαστάσεων του πακέτου είναι 2. Πατώντας το πλήκτρο Results της Εικόνας 8, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Results (Εικόνα 9), στο οποίο μπορούμε να επιλέξουμε να συμπεριληφθούν στο παράθυρο εξόδου (Window Output) του MINITAB οι κάτωθι επιλογές: Πίνακας Συνάφειας (Contingency table), Προφίλ & Μάζες Γραμμών (Row Profiles & Row Masses), Προφίλ & Μάζες Στηλών (Column Profiles & Column Masses), Πίνακας Αναμενόμενων Συχνοτήτων (Expected Frequencies), Πίνακας Παρατηρούμενων μείον των Αναμενόμενων Συχνοτήτων (Observed-Expected Frequencies), Τιμές X 2 (Chi-square values) και τέλος οι Σχετικές Αδράνειες (Inertias) για κάθε κελί του πίνακα συνάφειας. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 79

80 Εικόνα 9: Παράθυρο Results Οι μεταβλητές διασταύρωσης (Crossing Variables) μας επιτρέπουν τη χρήση της Απλής Ανάλυσης Αντιστοιχιών για τη μελέτη πινάκων συνάφειας τριπλής και τετραπλής εισόδου. Μπορούμε με αυτόν τον τρόπο να διασταυρώσουμε τις δύο πρώτες μεταβλητές για το σχηματισμό γραμμών και/ ή τις δύο τελευταίες μεταβλητές για το σχηματισμό στηλών. Πρέπει να εισάγουμε τρεις κατηγορικές μεταβλητές για τη διεξαγωγή μιας διασταύρωσης και τέσσερεις μεταβλητές για την εκτέλεση δύο διασταυρώσεων. Προκειμένου να διασταυρώσουμε στήλες πρέπει να επιλέξουμε Categorical variables στο πεδίο Input Data παρά Columns of a contingency table στο βασικό μενού της Απλής Ανάλυσης Αντιστοιχιών της Εικόνας 8. Εάν επιθυμούμε να διασταυρώσουμε είτε μόνο τις σειρές είτε τις στήλες του πίνακα συνάφειας θα πρέπει να εισάγουμε τρεις στήλες φύλλου εργασίας στο πλαίσιο κειμένου Categorical variables. Εάν θέλουμε να διασταυρώσουμε μαζί τις γραμμές και τις στήλες του πίνακα θα πρέπει να ορίσουμε με σαφήνεια τέσσερεις στήλες φύλλου εργασίας σε αυτό το πλαίσιο κειμένου. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 80

81 Θα αναφέρουμε ένα απλό παράδειγμα διασταύρωσης γραμμών για να γίνει κατανοητή η διαδικασία της δημιουργίας πίνακα συνάφειας με τη βοήθεια μεταβλητών διασταύρωσης. Έστω ότι έχουμε τη μεταβλητή γραμμής Φύλο με δύο επίπεδα- κατηγορίες (άνδρας, γυναίκα) και τη μεταβλητή στήλης Ηλικία με τρία επίπεδα (νέος, μεσήλικας, ηλικιωμένος). Διασταυρώνοντας τις μεταβλητές Φύλο & Ηλικία θα δημιουργηθούν 2*3= 6 γραμμές που θα διατάσσονται ως εξής: Άνδρας/ Νέος Άνδρας/ Μεσήλικας Άνδρας/ Ηλικιωμένος Γυναίκα/ Νέα Γυναίκα/ Μεσήλικας Γυναίκα/ Ηλικιωμένη Πατώντας έτσι το πλήκτρο Combine της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Combine Variables (Εικόνα 10). Στο πάνω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Define Rows of the Contingency Table Using με 1 η επιλογή το First variable, την οποία επιλέγουμε για να χρησιμοποιήσουμε την πρώτη στήλη εισαγωγής για το σχηματισμό των γραμμών του πίνακα συνάφειας. Κατ αυτόν τον τρόπο, οι γραμμές του πίνακα συνάφειας δε συγκροτούνται από τις μεταβλητές διασταύρωσης. Παράλληλα, η 2 η επιλογή είναι First 2 variables crossed, την οποία επιλέγουμε για να διασταυρώσουμε τα επίπεδα- κατηγορίες στις δύο πρώτες στήλες εισαγωγής για το σχηματισμό των γραμμών του πίνακα συνάφειας (βλ. προηγούμενο παράδειγμα διασταύρωσης γραμμών). Επιπλέον, στο κάτω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Define Columns of the Contingency Table Using με 1 η επιλογή το Last variable, την οποία επιλέγουμε για να χρησιμοποιήσουμε την τελευταία στήλη εισαγωγής για το σχηματισμό των στηλών του πίνακα συνάφειας ενώ τη 2 η επιλογή Last 2 variables crossed την Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 81

82 επιλέγουμε για να διασταυρώσουμε τα επίπεδα- κατηγορίες στις δύο τελευταίες στήλες εισαγωγής για το σχηματισμό των στηλών του πίνακα συνάφειας. Εικόνα 10: Παράθυρο Combine Τα δεδομένα του φύλλου εργασίας μπορούν να ταξινομηθούν με δύο τρόπους: Ακατέργαστα (Raw) ή σε μορφή πίνακα συνάφειας. Η διάταξη των δεδομένων του φύλλου εργασίας καθορίζει αποδεκτές τιμές δεδομένων. Αν τα δεδομένα δεν έχουν υποστεί επεξεργασία μπορούμε να έχουμε δύο, τρεις ή τέσσερεις στήλες ταξινόμησης με κάθε γραμμή να αντιπροσωπεύει μία παρατήρηση. Όλες οι στήλες πρέπει να έχουν κοινό μήκος. Τα δεδομένα αντιστοιχούν σε κατηγορίες και μπορεί να είναι αριθμητικά, σε μορφή κειμένου ή σε μορφή ημερομηνίας και χρόνου. Αν οι κατηγορίες σε μια στήλη αποτελούνται από δεδομένα σε μορφή κειμένου, τότε τα επίπεδα χρησιμοποιούνται κατά τη σειρά της πρώτης εμφάνισης, παραδείγματος χάριν το πρώτο επίπεδο μετατρέπεται στην πρώτη γραμμή (στήλη) του πίνακα, το επόμενο ευδιάκριτο επίπεδο μετατρέπεται στη δεύτερη γραμμή (στήλη) του πίνακα κ.ο.κ. Εάν Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 82

83 επιθυμούμε να αλλάξουμε τη σειρά στην οποία οι κατηγορίες κειμένου υποβάλλονται σε επεξεργασία από την προεπιλεγμένη αλφαβητική σειρά, έχουμε τη δυνατότητα να ορίσουμε τη δική μας επιθυμητή σειρά. Απαραίτητο όμως είναι πριν υλοποιήσουμε την αναφερθείσα διαδικασία να διαγράψουμε απούσες τιμές (missing values). Λόγω του ότι η Απλή Ανάλυση Αντιστοιχιών δουλεύει με ταξινόμηση διπλής εισόδου, η συνήθης προσέγγιση είναι η χρήση δύο στηλών φύλλου εργασίας. Παρόλα αυτά, έχουμε την ευχέρεια να αντλήσουμε μια ταξινόμηση διπλής εισόδου με τρεις ή τέσσερεις μεταβλητές διασταυρώνοντας μεταβλητές εντός της υλοποίησης της εφαρμογής της Απλής Ανάλυσης Αντιστοιχιών. Εάν τα δεδομένα βρίσκονται σε μορφή πίνακα συνάφειας, οι στήλες του φύλλου εργασίας πρέπει να περιέχουν ακέραιες συχνότητες των συνδυασμών των επιπέδων- κατηγοριών. Πρέπει να απαλείψουμε κάθε γραμμή ή στήλη με απούσες τιμές ή να τις συνδυάσουμε με άλλες γραμμές ή στήλες. Αντίθετα με τη διαδικασία του ελέγχου ανεξαρτησίας X 2, δεν υπάρχει καθορισμένο όριο αναφορικά με το πλήθος των στηλών του πίνακα συνάφειας. Μάλιστα μπορούμε να χρησιμοποιήσουμε την Απλή Ανάλυση Αντιστοιχιών για να λάβουμε X 2 στατιστικά για μεγάλους πίνακες. Όσον αφορά τα Συμπληρωματικά δεδομένα (Supplementary data), διαθέτουμε ένα πρωτεύων σύνολο δεδομένων ταξινόμησης στο οποίο υλοποιούμε την ανάλυση. Εντούτοις, είναι δυνατή η χρήση πρόσθετων ή συμπληρωματικών δεδομένων στην ίδια μορφή με το πρωτεύων σύνολο, διότι έχουμε την ευκαιρία να δούμε το πώς αυτά τα συμπληρωματικά δεδομένα βαθμολογούνται μέσω σκορ (scores), χρησιμοποιώντας τα αποτελέσματα από το πρωτεύων σύνολο. Αυτά τα συμπληρωματικά δεδομένα μπορεί να είναι περαιτέρω πληροφορίες από την ίδια μελέτη, από έτερες μελέτες ή Προφίλ στόχου (Target Profiles). Το MINITAB δεν συμπεριλαμβάνει αυτά τα Συμπληρωματικά δεδομένα όταν Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 83

84 υπολογίζει τις συνιστώσες, όμως μπορούμε να αντλήσουμε τα προφίλ τους και την γραφική τους απεικόνιση. Τα Συμπληρωματικά δεδομένα μπορεί να βρίσκονται υπό τη μορφή γραμμών ή στηλών. Τα Συμπληρωματικά δεδομένα γραμμών απαρτίζουν επιπρόσθετες γραμμές του πίνακα συνάφειας ενώ τα Συμπληρωματικά δεδομένα στηλών αποτελούν επιπλέον στήλες του πίνακα συνάφειας. Να σημειώσουμε εδώ ότι τα Συμπληρωματικά δεδομένα πρέπει να εισαχθούν υπό τη μορφή πίνακα συνάφειας. Επομένως, κάθε στήλη φύλλου εργασίας αυτών των δεδομένων θα πρέπει να περιέχει c καταχωρήσεις (όπου c είναι ο αριθμός των στηλών του πίνακα συνάφειας) ή r καταχωρήσεις (όπου r είναι το πλήθος των γραμμών του πίνακα συνάφειας). Πατώντας το πλήκτρο Supp Data της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Supplementary Data (Εικόνα 11). Εικόνα 11: Παράθυρο Supplementary Data Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 84

85 Σε αυτό το πλαίσιο διαλόγου έχουμε τη δυνατότητα να ρυθμίσουμε τις παραμέτρους τυχόν Συμπληρωματικών δεδομένων. Έτσι, στο πεδίο Supplementary Rows εισάγουμε μία ή περισσότερες στήλες που περιέχουν πρόσθετες γραμμές του πίνακα συνάφειας. Ομοίως, στο πεδίο Supplementary Columns εισάγουμε μία ή περισσότερες στήλες που περιέχουν πρόσθετες στήλες του πίνακα συνάφειας. Στο πεδίο Row Names εισάγουμε μια στήλη που περιλαμβάνει σε κείμενο τα ονόματα των συμπληρωματικών γραμμών και ωσαύτως στο πεδίο Column Names εισάγουμε μια στήλη που περιέχει σε κείμενο τα ονόματα των συμπληρωματικών στηλών. Πατώντας το πλήκτρο Storage της Εικόνας 8 ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Storage (Εικόνα 12), μέσω του οποίου μπορούμε να αποθηκεύουμε αποτελέσματα. Η συντεταγμένη της πρώτης διάστασης αποθηκεύεται στην πρώτη στήλη, η συντεταγμένη της δεύτερης διάστασης αποθηκεύεται στη δεύτερη στήλη κ.ο.κ. Αν υπάρχουν Συμπληρωματικά σημεία τότε οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Εικόνα 12: Παράθυρο Storage Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 85

86 Στο πάνω δεξιά μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Columns of the Contingency table, στο οποίο εισάγουμε μία στήλη φύλλου εργασίας για κάθε στήλη του πίνακα συνάφειας. Το MINITAB δεν αποθηκεύει συμπληρωματικές γραμμές και στήλες. Κάτω από αυτό το πλαίσιο διαλόγου υπάρχουν οι ακόλουθες επιλογές: Row principal coordinates, Row standardized coordinates, Column principal coordinates και Column standardized coordinates. Επιλέγοντας το Row principal coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται RPC1, η συντεταγμένη για τη δεύτερη διάσταση αποθηκεύεται σε μια στήλη με το όνομα RPC2 κ.ο.κ. Στην επιλογή Row standardized coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται RSC1 κ.ο.κ.όσον αφορά τις επιλογές Column principal coordinates και Column standardized coordinates το MINITAB αποθηκεύει τη συντεταγμένη για την πρώτη διάσταση σε μια στήλη που ονομάζεται CPC1 και CSC2 αντίστοιχα. Να σημειώσουμε και πάλι ότι στην περίπτωση που εντοπιστούν συμπληρωματικά σημεία οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Αν πατήσουμε το πλήκτρο της Εικόνας 8 Graphs θα ανοίξει το ακόλουθο παράθυρο Simple Correspondence Analysis- Graphs (Εικόνα 13), μέσω του οποίου έχουμε τη δυνατότητα να κατασκευάσουμε γραφήματα ολοκληρώνοντας την ανάλυση. Σε όλα τα διαγράμματα, τα σημεία γραμμών αναπαρίστανται με κόκκινους κύκλους, τρισδιάστατους κύκλους για τα κανονικά σημεία και ανοικτούς κύκλους για τα συμπληρωματικά σημεία. Τα σημεία στηλών απεικονίζονται με μπλε τετράγωνα, τρισδιάστατα τετράγωνα για τα κανονικά σημεία και ανοικτά τετράγωνα για τα συμπληρωματικά σημεία. Ο λόγος διαστάσεων των γραφημάτων είναι ένα προς ένα έτσι ώστε μια μονάδα στον άξονα x να είναι ίση με μια μονάδα στον άξονα y. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 86

87 Εικόνα 13: Παράθυρο Graphs Στο πάνω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Axis pairs for all plots (Y then X), στο οποίο εισάγουμε από 1 έως και 15 ζεύγη αξόνων για κάθε διάγραμμα που ζητείται. Οι άξονες που εισάγονται πρέπει να είναι άξονες στον υπόχωρο που ορίσαμε στο βασικό μενού της Εικόνας 8. Για παράδειγμα, αν εισάγουμε 4 στον αριθμό των διαστάσεων τότε μπορούμε να πινακογραφήσουμε τους άξονες 1,2,3 και 4. Ο πρώτος άξονας σε ένα ζευγάρι θα είναι ο Y ή ο κάθετος άξονας στο διάγραμμα. Ο δεύτερος άξονας θα είναι ο X ή ο οριζόντιος άξονας του γραφήματος. Παραδείγματος χάριν, αν εισάγουμε διαγράμματα, θα έχουμε τη διάσταση 2 έναντι της διάστασης 1 και τη διάσταση 3 έναντι της διάστασης 1. Κάτω από αυτό το πλαίσιο διαλόγου υπάρχει η επιλογή Show supplementary points in all plots, την οποία επιλέγουμε για την απεικόνιση των συμπληρωματικών σημείων σε όλα τα διαγράμματα. Συνάμα βλέπουμε και το πλαίσιο διαλόγου Plots με τις ακόλουθες επιλογές: Symmetric plot showing rows only, Symmetric plot showing columns only, Symmetric plot showing rows and columns, Asymmetric row plot showing Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 87

88 rows and columns, Asymmetric column plot showing rows and columns. Επιλέγουμε το Symmetric plot showing rows only για την απεικόνιση διαγράμματος που δείχνει τις Κύριες Συντεταγμένες γραμμών (Row Principal Coordinates) και ομοίως το Symmetric plot showing columns only για την αναπαράσταση γραφήματος που δείχνει τις Κύριες Συντεταγμένες στηλών (Column Principal Coordinates). Με την επιλογή Symmetric plot showing rows and columns δημιουργούμε διάγραμμα που αναπαριστά ταυτόχρονα τις Κύριες Συντεταγμένες γραμμών & στηλών που επικαλύπτονται σε μια από κοινού απεικόνιση. Τέλος, η επιλογή Asymmetric row plot showing rows and columns κατασκευάζει ένα Μη Συμμετρικό γράφημα γραμμών και παρόμοια η επιλογή Asymmetric column plot showing rows and columns δημιουργεί ένα Μη Συμμετρικό διάγραμμα στηλών. Το MINITAB μας δίνει την ευχέρεια να κατασκευάσουμε ένα από τα εξής διαγράμματα: 1) Γράφημα γραμμών ή γράφημα στηλών 2) Συμμετρικό γράφημα και 3) Μη Συμμετρικό γράφημα γραμμών ή Μη Συμμετρικό γράφημα στηλών. Το Γράφημα γραμμών είναι ένα γράφημα των κύριων συντεταγμένων γραμμών. Το Γράφημα στηλών είναι ομοίως ένα διάγραμμα των κύριων συντεταγμένων στηλών. Το Συμμετρικό γράφημα είναι ένα γράφημα των κύριων συντεταγμένων γραμμών και στηλών σε μια από κοινού αναπαράσταση. Ένα πλεονέκτημα αυτού του διαγράμματος είναι ότι τα Προφίλ είναι απλωμένα για καλύτερη θέαση των μεταξύ τους αποστάσεων. Οι αποστάσεις, γραμμή από γραμμή και στήλη από στήλη, είναι κατά προσέγγιση X 2 αποστάσεις μεταξύ των αντίστοιχων Προφίλ. Παρόλα αυτά, η ίδια ερμηνεία δε μπορεί να γίνει για αποστάσεις γραμμής από στήλη, διότι αυτές οι αποστάσεις είναι δύο διαφορετικές απεικονίσεις και επομένως χρειάζεται ιδιαίτερη προσοχή στην ερμηνεία αυτών των γραφημάτων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 88

89 Το Μη Συμμετρικό γράφημα γραμμών είναι ένα γράφημα των κύριων συντεταγμένων γραμμών και των πρότυπων συντεταγμένων στηλών σε μια από κοινού αναπαράσταση. Οι αποστάσεις ανάμεσα στα σημεία γραμμών είναι προσεγγιστικά X 2 αποστάσεις μεταξύ των Προφίλ γραμμών. Ενδείκνυται η χρήση του Μη Συμμετρικού γραφήματος γραμμών από το Μη Συμμετρικό γράφημα στηλών αν οι γραμμές έχουν περισσότερο ενδιαφέρον. Τα αντίστοιχα ισχύουν και για το Μη Συμμετρικό γράφημα στηλών. Ένα πλεονέκτημα των Μη Συμμετρικών διαγραμμάτων συνίσταται στο ότι σε αυτά μπορεί να υπάρξει μια διαισθητική ερμηνεία των αποστάσεων ανάμεσα στα σημεία γραμμών και σημεία στηλών, ειδικά αν οι δύο διαστάσεις απεικόνισης αντιπροσωπεύουν ένα μεγάλο ποσοστό της συνολικής Αδράνειας. Όσο πιο κοντά βρίσκεται ένα Προφίλ γραμμής σε μια κορυφή στήλης τόσο πιο μεγάλο είναι το Προφίλ γραμμής αναφορικά με το επίπεδο- κατηγορία της στήλης. Ένα μειονέκτημα των Μη Συμμετρικών διαγραμμάτων είναι ότι τα Προφίλ ενδιαφέροντος συχνά πυκνά συνωστίζονται στο μέσο του γραφήματος. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 89

90 - Κεφάλαιο 9: Άλλα Ζητήματα 9.1: Συμβουλές- Υποδείξεις Όσον αφορά την Ανάλυση Αντιστοιχιών καλό είναι να αναφερθούμε σε κάποιες συμβουλές και υποδείξεις που έχουν ως σκοπό την βαθύτερη κατανόηση της μεθόδου. Η Ανάλυση Αντιστοιχιών είναι ένα ισχυρό εργαλείο της περιγραφικής/ διερευνητικής (exploratory) ανάλυσης και ως επί το πλείστον οδηγεί σε μια γραφική αναπαράσταση που απεικονίζει τα σημεία γραμμών και στηλών σε δύο βασικούς άξονες (δύο διαστάσεις). Όταν όμως έχουμε να αναλύσουμε πραγματικές εφαρμογές, συνήθως οι δύο αυτοί βασικοί άξονες δεν επιτυγχάνουν ικανοποιητική ερμηνεία της μεταβλητότητας των δεδομένων και επομένως είναι λογικό να επιθυμούμε τη γραφική απεικόνιση των δεδομένων σε περισσότερους άξονες. Στην περίπτωση αυτή όμως υπάρχει το μειονέκτημα που αφορά τη δυσκολία της ανθρώπινης αντίληψης να κατανοήσει και να ερμηνεύσει διαγράμματα τριών διαστάσεων και ως εκ τούτου τα τρισδιάστατα γραφήματα (ταυτόχρονη απεικόνιση των τριών πρώτων βασικών αξόνων) ουσιαστικά δεν χρησιμεύουν στην ερμηνεία. Σε αυτό το πρόβλημα, μια ενδεδειγμένη λύση θα ήταν να κατασκευάσουμε και να παρουσιάσουμε δισδιάστατα διαγράμματα των αξόνων κατά ζεύγη, όπως για παράδειγμα τον πρώτο άξονα με τον τρίτο άξονα ή τον δεύτερο άξονα με τον τρίτο κ.ο.κ. αλλά αυτό είναι κάτι που κατά κύριο λόγο χρειάζεται ιδιαίτερη εμπειρία. Πάντως, όπως αναφέραμε και προηγουμένως, αν οι δύο πρώτοι κύριοι άξονες εμπεριέχουν τα βασικά ευρήματα της ανάλυσης, εντούτοις η περαιτέρω ενασχόληση με περισσότερους άξονες θα μπορούσε να αποκαλύψει ενδιαφέρουσες δομές. Μια άλλη σημαντική απόφαση που πρέπει να παρθεί από έναν ερευνητή είναι η αλλαγή κλίμακας των συντεταγμένων. Η φύση της επιλογής αφορά Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 90

91 το αν επιδιώκουμε να αναλύσουμε τα ποσοστά των σχετικών συχνοτήτων γραμμών/ στηλών ή και των δύο. Οι συντεταγμένες βασίζονται στην ανάλυση του πίνακα- μητρώου των Προφίλ Γραμμών (Row Profile Matrix), όπου το άθροισμα των εισαχθέντων δεδομένων σε μια γραμμή κατά μήκος μιας στήλης είναι ίσο με τη μονάδα (κάθε σημείο εισόδου r ij σε ένα πίνακα Προφίλ Γραμμών, μπορεί να ερμηνευθεί ως η δεσμευμένη πιθανότητα ότι μια παρατήρηση ανήκει στη στήλη j δοθέντος ότι ανήκει στη γραμμή i). Άρα, οι συντεταγμένες υπολογίζονται για να μεγιστοποιήσουν τις διαφορές μεταξύ των σημείων όσον αφορά τα Προφίλ Γραμμών (ποσοστά γραμμών). Οι συντεταγμένες γραμμών υπολογίζονται από τον πίνακα Προφίλ Γραμμών ενώ οι συντεταγμένες στηλών από τον πίνακα Προφίλ Στηλών αντίστοιχα. Υπάρχει διαθέσιμη και μια άλλη επιλογή, αυτή της Κανονικής Τυποποίησης (Canonical Standardization) (Gifi, 1981) η οποία ισοδυναμεί με τυποποίηση των στηλών και των γραμμών του πίνακα Αντιστοιχιών P. Αυτή η τυποποίηση οδηγεί σε μια αλλαγή της κλίμακας των συντεταγμένων που βασίζονται στην τυποποίηση των Προφίλ Γραμμών και των Προφίλ Στηλών. Αυτό το είδος τυποποίησης δεν είναι ευρέως διαδεδομένο. Προφανώς ο τελικός σκοπός της Ανάλυσης Αντιστοιχιών είναι η εύρεση θεωρητικών ερμηνειών (η σημασία δηλαδή) για τις εξαγόμενες διαστάσεις. Μια λύση, που μπορεί να βοηθήσει σε αυτήν την κατεύθυνση, είναι η απεικόνιση των σημείων στηλών. Ως γνωστό, η Ανάλυση Αντιστοιχιών λέγεται ότι αποτελεί το ανάλογο της Ανάλυσης σε Κύριες Συνιστώσες όταν χρησιμοποιούμε κατηγορικά δεδομένα. Φυσικά, υπάρχουν και ορισμένες διαφορές ανάμεσα στις δύο μεθόδους. Πρώτον, στην Ανάλυση σε Κύριες Συνιστώσες είναι καθοριστική η επιλογή μεταξύ του πίνακα Συνδιακύμανσης και του πίνακα Συσχέτισης για την εύρεση των κυρίων συνιστωσών, ενώ στην Ανάλυση Αντιστοιχιών δεν αναλαμβάνουμε την ευθύνη μιας τέτοιας επιλογής, διότι η μέθοδος τυποποίησης που χρησιμοποιείται σε αυτή την Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 91

92 τεχνική είναι γνωστή από πριν και άρα ο ερευνητής δεν ευθύνεται για αυτήν την επιλογή. Δεύτερη ουσιαστική διαφορά αποτελεί το γεγονός ότι στην Ανάλυση Αντιστοιχιών μελετάμε τόσο τις γραμμές όσο και τις στήλες, σε αντίθεση με την Ανάλυση Κυρίων Συνιστωσών όπου έχουμε παρατηρήσεις και μεταβλητές. Σκοπός της Απλής Ανάλυσης Αντιστοιχιών, ως γνωστό, είναι η αναπαραγωγή των αποστάσεων μεταξύ των σημείων γραμμών και/ ή των σημείων στηλών ενός πίνακα διπλής εισόδου σε μια απεικόνιση μειωμένων διαστάσεων. Εν τω μεταξύ, στην Παραγοντική Ανάλυση ο πραγματικός προσανατολισμός περιστροφής των αξόνων επιλέγεται αυθαίρετα έτσι ώστε διαδοχικές διαστάσεις να ερμηνεύουν όλο και λιγότερο από τη συνολική τιμή του X 2 (Chi-square) και κατά συνέπεια και της Αδράνειας. Παραδείγματος χάριν, θα μπορούσαμε να αλλάξουμε τα πρόσημα των συντεταγμένων και έτσι να περιστραφεί κατά 180 μοίρες με αποτελεσματικό τρόπο ο αντίστοιχος άξονας στο διάγραμμα. Είναι συχνό φαινόμενο σε εφαρμογές της Ανάλυσης Αντιστοιχιών να επικεντρώνεται το ενδιαφέρον του ερευνητή στις γραμμές ή τις στήλες του πίνακα συνάφειας και μάλιστα ίσως να είναι επιθυμητή η «αποκάλυψη» κάποιου είδους διάταξης μεταξύ των επιπέδων- κατηγοριών. Όμως, σε αυτή την περίπτωση η χρήση του Biplot δε μας αποφέρει κάποιο κέρδος, αν και επιτρέπει τον έλεγχο συσχετίσεων. Ως συμπέρασμα, μπορούμε να ισχυριστούμε ότι με τη ξεχωριστή μελέτη γραμμών και στηλών υπάρχει η πιθανότητα να ανακαλύψουμε μεταβολές στις δομές, είτε μεταξύ διαφορετικών χρονικών περιόδων είτε και μεταξύ διαφορετικών περιοχών, κάτι το οποίο είναι αρκετά συνηθισμένο στις κοινωνικές επιστήμες. Η ερμηνεία των βασικών αξόνων είναι μια διαδικασία που κρύβει αρκετές δυσκολίες, καθώς περιέχει το στοιχείο της υποκειμενικότητας και για αυτό το λόγο μπορεί να υπάρχουν σημαντικά μειονεκτήματα στην προσπάθεια ερμηνείας των δεδομένων με τη βοήθεια ενός διαγράμματος. Επαναλαμβάνουμε ότι στο Συμμετρικό Biplot οι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 92

93 αποστάσεις μεταξύ γραμμών και στηλών είναι ερμηνεύσιμες, ενώ οι αποστάσεις μεταξύ γραμμών και στηλών μεμονωμένα δεν είναι ερμηνεύσιμες. Στα Μη Συμμετρικά Biplot, μπορούμε να συνεχίσουμε σε συμπερασματολογία ανάμεσα στις γραμμές και στήλες, όμως υφίσταται ο κίνδυνος να υπάρξει μεγάλη επικάλυψη (overlapping) στην αναπαράσταση, αν το πλήθος των προφίλ είναι μεγάλο και έτσι δυστυχώς περιορίζεται η δυνατότητα ερμηνείας των αποτελεσμάτων. Μια πολύ σημαντική ιδιότητα της Ανάλυσης Αντιστοιχιών είναι η ευστάθεια (robustness) της ως μέθοδος αφού, παραδείγματος χάριν, η προσθήκη μιας νέας κατηγορίας ή παρατήρησης δεν επιφέρει συνήθως μεταβολή των αποτελεσμάτων, τα οποία παρουσιάζουν μεγάλη σθεναρότητα. Όταν η Αδράνεια των δεδομένων δεν είναι μεγάλη (ο έλεγχος ανεξαρτησίας X 2 του Pearson δεν απορρίπτει τη μηδενική υπόθεση), υπάρχει το ενδεχόμενο η Ανάλυση Αντιστοιχιών να μην εξάγει αποτελέσματα με ενδιαφέρον και ουσία και τότε όλα τα σημεία θα βρίσκονται πολύ κοντά μεταξύ τους στη γραφική απεικόνιση. Βέβαια, μπορεί να αποδειχθεί ότι μεγαλύτερη σημασία έχει η δομή του πίνακα και όχι οι αποστάσεις από την ανεξαρτησία και λαμβάνοντας υπόψη όλα τα παραπάνω, οφείλουμε να ομολογήσουμε ότι η Ανάλυση Αντιστοιχιών δεν αποτελεί μια απλή μέθοδο ελέγχου της υπόθεσης της ανεξαρτησίας και παράλληλα, μεταξύ των άλλων, είναι κατάλληλη για την εξέταση της δομής των δεδομένων. 9.2: Σχέσεις με άλλες μεθόδους Προχωράμε για να δούμε την προσέγγιση της Ανάλυσης Αντιστοιχιών μέσω διαφορετικών οπτικών γωνιών καθώς και τη σχέση της με άλλες τεχνικές. Οι διαφορές μεταξύ αυτών των μεθόδων καθορίζονται από τον τύπο του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 93

94 μετασχηματισμού που εφαρμόζεται στον αρχικό πίνακα δεδομένων, τις μετρικές στις οποίες οι βασικοί άξονες ορίζονται και το πώς οι βασικές τιμές ανατίθενται στα αριστερά και δεξιά βασικά διανύσματα. Ορισμένοι συγγραφείς (Hill, 1974) αναφέρθηκαν στην Ανάλυση Αντιστοιχιών ως μια μέθοδο κλιμακοποίησης και όχι τόσο ως μια μέθοδο κατάλληλη για ανάλυση πινάκων συνάφειας. Παράλληλα, έχει πραγματοποιηθεί χρήση της Ανάλυσης Αντιστοιχιών σαν μια μέθοδος κλιμακοποίησης που είναι γνωστή ως Seriation και η οποία έχει ενδιαφέρουσες εφαρμογές σε επιστημονικούς τομείς και συγκεκριμένα στην Αρχαιομετρία, που αποτελεί την έννοια που προσδιορίζεται από τους αρχαιολόγους ως η εφαρμογή των επιστημονικών μεθόδων των φυσικών επιστημών και της μηχανικής σε προβλήματα αρχαιολογικού περιεχομένου. Όσον αφορά την εφαρμογή που μπορεί να έχει η Ανάλυση Αντιστοιχιών σε έναν τέτοιο κλάδο, είναι συχνή η ανάγκη που προκύπτει στην Αρχαιομετρία να χρονολογηθούν αντικείμενα που ανακαλύφθηκαν και έχοντας ως βάση μερικά ποιοτικά χαρακτηριστικά, επιδιώκουμε να βρούμε ποια σειρά μπορεί να είναι η πιο λογική. Κάποιοι άλλοι συγγραφείς θεωρούν την Ανάλυση Αντιστοιχιών ως μια τεχνική Canonical Correlation Analysis (Ανάλυση Κανονικής Συσχέτισης) για κατηγορικά δεδομένα. Μια άλλη παραλλαγή της Ανάλυσης Αντιστοιχιών που ονομάστηκε Κανονική Ανάλυση Αντιστοιχιών (Canonical Correspondence Analysis) αναπτύχθηκε από τον ter Braak (1986, 1987). Υλοποιεί την Ανάλυση Αντιστοιχιών περιλαμβάνοντας το επιπρόσθετο βήμα της επιλογής του γραμμικού συνδυασμού των μεταβλητών γραμμών που μεγιστοποιεί την απόκλιση των σκορ των στηλών. Ακόμα η Ανάλυση Αντιστοιχιών συσχετίζεται άμεσα με τη Διακριτική Ανάλυση (Discriminant Analysis) μέσω της Γενικευμένης Διάσπασης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 94

95 Ιδιόμορφων Τιμών (Generalized Singular Value Decomposition) (Greenacre 1984). Επιπρόσθετα όπως ήδη έχουμε τονίσει, η Ανάλυση Αντιστοιχιών αποτελεί ουσιαστικά τη γενίκευση της Ανάλυσης σε Κύριες Συνιστώσες στην περίπτωση κατηγορικών δεδομένων. Ένας άλλος τρόπος θεώρησης της Ανάλυσης Αντιστοιχιών που έχει αναφερθεί, είναι ότι πρόκειται για μια μέθοδο ανάλυσης της συνολικής στατιστικής συνάρτησης X 2 (Chi-square) (ή ισοδύναμα της Αδράνειας= Chi-square/ Μέγεθος δείγματος) προσδιορίζοντας ένα μικρό αριθμό διαστάσεων, στις οποίες οι αποκλίσεις από τις αναμενόμενες τιμές μπορεί να απεικονιστούν. Αυτό είναι παραπλήσιο με τον σκοπό της Παραγοντικής Ανάλυσης (Factor Analysis), όπου η συνολική διακύμανση αναλύεται έτσι ώστε να καταλήξει σε μια απεικόνιση μειωμένων διαστάσεων των μεταβλητών, που μας επιτρέπουν να ανακατασκευάσουμε το μεγαλύτερο μέρος του πίνακα- μητρώου Διακύμανσης- Συνδιακύμανσης. Αξιοσημείωτο είναι το γεγονός ότι οι διαστάσεις εξάγονται με σκοπό να μεγιστοποιηθούν οι αποστάσεις ανάμεσα στα σημεία γραμμών και στηλών και οι διαδοχικές διαστάσεις (οι οποίες είναι ανεξάρτητες ή ορθογώνιες μεταξύ τους) θα ερμηνεύουν όλο και λιγότερο από τη συνολική τιμή του X 2 (Chi-square) και κατά συνέπεια και της Αδράνειας. Για το λόγο αυτό, η εξαγωγή των διαστάσεων είναι προσόμοια με την εξαγωγή των Κυρίων Συνιστωσών στην Παραγοντική Ανάλυση. Συγχρόνως έχει παρατηρηθεί μια έντονη σχέση μεταξύ της Ανάλυσης Αντιστοιχιών και των Log-Linear μοντέλων, πράγμα το οποίο ολοκληρώνει την αντιπαράθεση ανάμεσα στους στατιστικούς σχετικά με την εφαρμοσιμότητα της μεθόδου. Εν τέλει, να σημειώσουμε ότι τα ευρήματα της Ανάλυσης Αντιστοιχιών είναι δυνατό να χρησιμοποιηθούν ως δεδομένα σε διαφορετικού είδους στατιστικές αναλύσεις. Ταυτόχρονα, εξαιτίας της διερευνητικής της Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 95

96 φύσεως, αποτελεί μια πρώιμη ανάλυση για τον εντοπισμό ενδιαφερόντων σημείων για περαιτέρω ανάλυση. 9.3: Ανάλυση Αντιστοιχιών και Log-Linear Μοντέλα Υπάρχει μια αντιγνωμία αναφορικά με την «model-free» μέθοδο της Ανάλυσης Αντιστοιχιών και την «model-based» Log-Linear προσέγγιση, με την πρώτη να έχει ιδιαίτερη δημοτικότητα στη γαλλική σχολή σκέψης και τη δεύτερη να είναι δημοφιλής στην αγγλο-σαξωνική σχολή. Όπως έχουμε αναφέρει και στην εισαγωγή, η Ανάλυση Αντιστοιχιών είναι μια «model-free» μέθοδο που στηρίζεται σε ελάχιστες υποθέσεις. Η δεύτερη αρχή του Benzecri, που θεωρείται ο πατέρας της Ανάλυσης Αντιστοιχιών, διατυπώνεται ως εξής: «Το μοντέλο πρέπει να ακολουθεί τα δεδομένα και όχι τα δεδομένα το μοντέλο». Για αυτό το λόγο δεν υπάρχουν έλεγχοι στατιστικής σημαντικότητας που κατά συνήθεια, εφαρμόζονται στα αποτελέσματα της Ανάλυσης Αντιστοιχιών. Ο πρωταρχικός σκοπός αυτής της μεθόδου είναι να παράγει μια απλοποιημένη (μειωμένων διαστάσεων) απεικόνιση της πληροφορίας ενός μεγάλου πίνακα συχνοτήτων (ή πίνακες με παρόμοια μέτρα αντιστοιχίας). Αυτή η άποψη του Benzecri έρχεται σε αντίθεση με την «model-based» Log- Linear προσέγγιση, στην οποία ο ερευνητής αρχικά θέτει ένα μοντέλο και αργότερα καταβάλλει προσπάθεια να εκτιμήσει τις παραμέτρους του μοντέλου. Παρόλα αυτά, η Ανάλυση Αντιστοιχιών δεν μπορούμε να ισχυριστούμε ότι είναι κυριολεκτικά «model-free» επειδή βασίζεται σε ορισμένες υποθέσεις, όπως για παράδειγμα η επιλογή της απόστασης X 2 για την προβολή. Επομένως, γίνεται κατανοητό ότι ακόμα και αν δεν υπάρχει ένα σαφώς ορισμένο μοντέλο πίσω από την Ανάλυση Αντιστοιχιών, είναι απαραίτητο για τη διεκπεραίωση της μεθόδου να γίνουν ορισμένες υποθέσεις από τον ερευνητή. Υπενθυμίζουμε ότι η Ανάλυση Αντιστοιχιών δεν καταλήγει σε στατιστική συμπερασματολογία όπως συμβαίνει στη Log-Linear προσέγγιση και άρα έχει απλώς διερευνητικό χαρακτήρα. Αν επιθυμεί κάποιος να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 96

97 προχωρήσει στη διαδικασία της στατιστικής συμπερασματολογίας, τότε θα πρέπει να κάνει μερικές υποθέσεις σχετικά με το μηχανισμό «γέννησης» δεδομένων και συνεπώς να αναιρέσει την αρχή της έλλειψης υποθέσεων. Παρατηρώντας τις δύο προαναφερθέντες μεθόδους, συνειδητοποιούμε ότι υπάρχει μεγάλη ομοιότητα μεταξύ τους και αυτό είναι ένα στοιχείο που πιθανόν να ανασκευάζει τη διχοστασία ανάμεσά τους, καθώς δεν αποκλείεται να αποτελούν τις διαφορετικές πλευρές μιας γενικότερης προσέγγισης. Εξετάζοντας στην πράξη τις δύο μεθόδους βλέπουμε ότι η ομοιότητά τους συνίσταται στα ακόλουθα σημεία: Αν υποθέσουμε ότι έχουμε στη διάθεσή μας έναν πίνακα συνάφειας με παρατηρούμενες σχετικές συχνότητες p ij για το κελί ij, δηλαδή το κελί της i γραμμής και της j στήλης. Επιπλέον υπάρχει μια αντίστοιχη πραγματική πληθυσμιακή πιθανότητα (ή μια πιθανότητα που προκύπτει από ένα μοντέλο που προσπαθούμε να προσαρμόσουμε), την οποία συμβολίζουμε με φ ij. Για αυτές τις πληθυσμιακές πιθανότητες και οι δύο μέθοδοι κατά βάθος υποθέτουν συγκεκριμένες μορφές. Η ομοιότητα βρίσκεται στο ότι η Ανάλυση Αντιστοιχιών επιχειρεί να εκτιμήσει αυτές τις πιθανότητες με την ελαχιστοποίηση της συνάρτησης ( p ) ij i j ij ij 2, ενώ αντίθετα η Log-Linear προσέγγιση κάνει χρήση της μεθόδου Μεγίστης Πιθανοφάνειας που μεγιστοποιεί τη συνάρτηση pij ln ij. i j Είναι άξιο προσοχής ότι η Ανάλυση Αντιστοιχιών αποτελεί τη λύση της πρώτης επανάληψης της τεχνικής Newton- Raphson για τη μέθοδο Μεγίστης Πιθανοφάνειας. Ως γνωστό, η μέθοδος των Newton- Raphson αποτελεί την πιο δημοφιλή μέθοδο για την εύρεση των ριζών των εξισώσεων ανάμεσα σε όλες τις επαναληπτικές μεθόδους. Κατόπιν τούτου, εκτός της διχογνωμίας μεταξύ των δύο σχολών και μεθόδων, γίνεται αντιληπτό ότι υπάρχουν και κάποια κοινά σημεία. Ιδιαίτερα, μπορεί να αποδειχθεί ο ισχυρισμός πως οι δύο παραπάνω μέθοδοι αποτελούν τις ειδικές περιπτώσεις μιας ευρύτερης μεθόδου που χρησιμοποιεί μια συνάρτηση ομοιότητας μεταξύ των παρατηρούμενων και αναμενόμενων συχνοτήτων και στην οποία η Ανάλυση Αντιστοιχιών κάνει χρήση της απόστασης X 2, ενώ η Log-Linear Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 97

98 προσέγγιση χρησιμοποιεί μια διαφορετική συνάρτηση απόστασης που ονομάζεται Kullback- Leibler απόσταση. 9.4: Πρόσθετες Χρήσεις της Ανάλυσης Αντιστοιχιών Η Ανάλυση Αντιστοιχιών, πλην του ότι χρησιμεύει ως ένα απλό γραφικό εργαλείο για την ανάλυση και παρουσίαση μεγάλων πινάκων συνάφειας, έχει και μερικές πρόσθετες χρήσεις. Μια συνηθισμένη εφαρμογή είναι ότι η Ανάλυση Αντιστοιχιών αποτελεί τη μέθοδο που θα συμπληρώσει τις μεθόδους Ομαδοποίησης, οι οποίες θα υλοποιηθούν παράλληλα σε ένα σύνολο δεδομένων. Παραδείγματος χάριν, η σχέση που συνδέει την Ανάλυση Αντιστοιχιών (Correspondence Analysis) και την Ανάλυση κατά Συστάδες (Cluster Analysis) είναι αμφίδρομη, αφού η μια μέθοδος είναι αρωγός στα εξαγόμενα αποτελέσματα της άλλης. Ακόμα, η Ανάλυση κατά Συστάδες μπορεί να αποδειχθεί χρήσιμη στην περίπτωση μεγάλων πινάκων δεδομένων, εντοπίζοντας ομοιογενείς ομάδες και κατόπιν παρουσιάζοντας τα αποτελέσματα (Jambu & Lebeaux, 1983). o 9.4.1: Ανάλυση κατά Συστάδες (Cluster Analysis) ως συμπληρωματική της Ανάλυση Αντιστοιχιών (Correspondence Analysis) Όταν έχουμε να αντιμετωπίσουμε πραγματικά προβλήματα και εφαρμογές με τη βοήθεια της Ανάλυσης Αντιστοιχιών, είναι συχνή η κατάληξη σε ένα πολυπληθή αριθμό βασικών αξόνων. Αν απεικονίσουμε γραφικά τους δύο πρώτους άξονες ή συνδυασμούς ζευγαριών αξόνων, τότε είναι πολύ πιθανό να σημειωθεί απώλεια πληροφορίας, κυρίως αν το ποσοστό της αδράνειας που εξηγείται είναι μικρό. Ένας τρόπος για να ερευνήσουμε τις σχέσεις μεταξύ των κατηγοριών, είναι να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 98

99 εφαρμόσουμε Ανάλυση κατά Συστάδες, χρησιμοποιώντας ως μεταβλητές τις Κύριες Συντεταγμένες γραμμών και στηλών για κάθε σημείο και έτσι να εντοπιστούν αξιοπρόσεκτα ευρήματα. o 9.4.2: Ανάλυση Αντιστοιχιών (Correspondence Analysis) ως συμπληρωματική της Ανάλυσης κατά Συστάδες (Cluster Analysis) Από μια άλλη οπτική γωνία, όταν αναλύουμε πολυδιάστατα δεδομένα με τη χρήση μεθόδων Ομαδοποίησης, είναι κατά γενικό κανόνα μια διαδικασία υπολογιστικά ασύμφορη και για αυτό το λόγο είναι προτιμότερο να εργαστούμε σε λιγότερες διαστάσεις παρά να χρησιμοποιήσουμε τα αρχικά δεδομένα. Εδώ η Ανάλυση Αντιστοιχιών μπορεί να διευκολύνει στην ολοκλήρωση της διαδικασίας, ειδικότερα όταν τα δεδομένα αφορούν κατηγορικές μεταβλητές. Οπότε, μπορούμε να αποκομίσουμε διάφορα οφέλη, όπως είναι ένα ικανοποιητικό ποσοστό αδράνειας των αρχικών δεδομένων που θα αντιπροσωπεύεται από τους πρώτους κύριους άξονες και επιπλέον το υπολογιστικό φορτίο είναι πολύ πιθανό να ελαττωθεί, εξέλιξη που είναι πολύ σημαντική και καθοριστικής σημασίας για την υλοποίηση της ανάλυσης ομαδοποίησης. Ταυτόχρονα κερδίζουμε και κάτι άλλο που είναι ιδιαίτερα αξιόλογο, καθώς το πρόβλημα που επεξεργαζόμαστε μπορεί να αντιμετωπιστεί ως ομαδοποίηση συνεχών μεταβλητών, επειδή οι κύριες συντεταγμένες έχουν μετατραπεί κατ ουσίαν σε συνεχείς μεταβλητές και έτσι δεν είναι απαραίτητο να εφαρμόσουμε την Ανάλυση κατά Συστάδες με αποστάσεις συμβατές με κατηγορικά δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 99

100 2ο Μέρος: Multiple Correspondence Analysis Πολλαπλή Ανάλυση Αντιστοιχιών - Κεφάλαιο 10: Εισαγωγή Όπως είδαμε στην περίπτωση της Απλής Ανάλυσης Αντιστοιχιών, είχαμε δύο μεταβλητές κατάλληλα διαμορφωμένες σε πίνακα συνάφειας, όπου η μια μεταβλητή είχε τοποθετηθεί στις γραμμές του πίνακα συνάφειας και η έτερη μεταβλητή στις στήλες του. Όταν όμως έχουμε στη διάθεσή μας πολυμεταβλητά κατηγορικά δεδομένα, αντιστοιχούν δηλαδή σε κάθε άτομο που είναι ουσιαστικά μια παρατήρηση περισσότερες από δύο κατηγορικές μεταβλητές, τότε είναι απαραίτητο να γενικεύσουμε την Απλή Ανάλυση Αντιστοιχιών σε ένα πιο ευρύ μοντέλο. Κατά αυτόν τον τρόπο προκύπτει η μέθοδος που ονομάζεται Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis). Κάνοντας μια σύντομη ιστορική αναδρομή, βλέπουμε ότι οι αρχές αυτής της μεθόδου, οι οποίες περιγράφηκαν το 1972 από τον Benzecri και το 1973 από τους Lebart & Tabard, στην πραγματικότητα απορρέουν από τη δουλειά του στατιστικού C. Burt το Άλλες μορφές προεκτάσεων έχουν προταθεί στη βιβλιογραφία από τους Benzecri (1964), Escofier- Cordier (1965) και πιο πρόσφατα από τους Masson (1974- του οποίου η δουλειά βασίζεται πάνω στη δουλειά του Horst to 1961), Carroll (1968) και Kettenring (1971). Επίσης πρέπει πάλι να υπενθυμίσουμε ότι η Πολλαπλή Ανάλυση Αντιστοιχιών, η οποία αποτελεί τη γενίκευση της Απλής Ανάλυσης Αντιστοιχιών, στην ουσία δεν οδηγεί στην Απλή Ανάλυση Αντιστοιχιών. Άρα η Απλή Ανάλυση Αντιστοιχιών δεν είναι το ανάλογο της Πολλαπλής Ανάλυσης Αντιστοιχιών με δύο μεταβλητές. Έτσι η Πολλαπλή Ανάλυση Αντιστοιχιών θα λέγαμε ότι είναι μια μέθοδος αναπαράστασης των από κοινού ιδιοτήτων κατηγορικών μεταβλητών, τον οποίων το πλήθος είναι μεγαλύτερο του δύο. Να προσθέσουμε πως η κατάληξη της μεθόδου Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 100

101 αυτής δεν ταυτίζεται με τα αποτελέσματα της Απλής Ανάλυσης Αντιστοιχιών, απλά η ερμηνεία των τιμών των συντεταγμένων, η τιμή της «Ποιότητας», τα τετραγωνικά συνημίτονα (cos 2 ) και άλλα στατιστικά μέτρα που εξάγονται ως αποτελέσματα της Πολλαπλής Ανάλυσης Αντιστοιχιών μπορούν να ερμηνευθούν με τον ίδιο τρόπο όπως και στην Απλή Ανάλυση Αντιστοιχιών, αν και αυτά τα μέτρα συσχετίζονται με τη Συνολική Αδράνεια (Total Inertia), η οποία με τη σειρά της συνδέεται με τον Πίνακα Δείκτη τον οποίο θα ορίσουμε αργότερα. Συμπερασματικά, η Πολλαπλή Ανάλυση Αντιστοιχιών μας δίνει την ευχέρεια να απεικονίσουμε με ικανοποιητικό τρόπο δεδομένα κατηγορικών μεταβλητών που αντλούνται από πίνακες συνάφειας πολλαπλής εισόδου και επιπλέον χαρακτηρίζεται από απλούς υπολογισμούς και ενδιαφέρουσες ιδιότητες. Εκτός από τις διαφορές που υφίστανται μεταξύ των δύο μεθόδων, υπάρχουν και ομοιότητες μεταξύ της Πολλαπλής Ανάλυσης Αντιστοιχιών και της Απλής Ανάλυσης Αντιστοιχιών, αφού τα μέσα που χρησιμοποιεί η πρώτη μέθοδος για τους απαραίτητους υπολογισμούς και για τη μείωση των διαστάσεων είναι παρεμφερή με αυτά των οποίων κάνει χρήση η Απλή Ανάλυση Αντιστοιχιών. Σκοπός της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι η μελέτη δεδομένων ενός πίνακα παρατηρήσεων που περιλαμβάνει κατηγορικές μεταβλητές. Η μέθοδος αναζητά βασικά να βρει την καλύτερη απεικόνιση όλων των κατηγοριών- επιπέδων των κατηγορικών μεταβλητών συνήθως σε ένα δισδιάστατο ή τρισδιάστατο διάγραμμα, με απώτερο σκοπό οι αποστάσεις μεταξύ των σημείων να αντιπροσωπεύουν τις αποκλίσεις ανάμεσα στις κατηγορίες. Εξάλλου όπως και στην περίπτωση της Απλής Ανάλυσης Αντιστοιχιών, βασική επιδίωξη είναι η μείωση των διαστάσεων, βρίσκοντας τη βέλτιστη προβολή των σημείων σε ένα χώρο μικρότερων διαστάσεων. Με την προβολή αυτή σε λιγότερες διαστάσεις επιζητάμε αφενός, να πετύχουμε την προβολή στο ίδιο σημείο παρατηρήσεων που έχουν ίδιο προφίλ και αφετέρου, στη γραφική αναπαράσταση μιας κατηγορικής μεταβλητής ή όταν δίνουμε έμφαση σε μια μεταβλητή σε ένα διάγραμμα όλων μαζί των υπό εξέταση μεταβλητών, να είμαστε σε θέση να εντοπίσουμε τις διαφορές Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 101

102 ανάμεσα στα επίπεδα της ίδιας κατηγορικής μεταβλητής ή και ακόμα να δούμε, αν είναι δυνατόν, τη φυσική διάταξη των επιπέδων αν δεν είναι αυτή ευδιάκριτη από τα δεδομένα. Ως επί το πλείστον, η μέθοδος αυτή ενδείκνυται για την ανάλυση ερευνών όπου έχουμε διανύσματα- γραμμές τα οποία είναι κατά κανόνα οι παρατηρήσεις και οι στήλες απαρτίζονται από τις κατηγορίες των κατηγορικών μεταβλητών. Οι στήλες εν πολλοίς αναφέρονται στις κατηγορίες- επίπεδα των απαντήσεων στα ερωτηματολόγια των ερευνών. Γενικά, τα δεδομένα των ερευνών περιλαμβάνουν έναν αριθμό απαντήσεων σε ερωτήσεις οι οποίες βρίσκονται σε πλήρη διαζευκτική μορφή. Αυτό συνεπάγεται ότι οι ποικίλες κατηγορίες- επίπεδα των απαντήσεων είναι αμοιβαία αποκλειόμενες και μόνο μία από αυτές επιλέγεται εν τέλει. Οι k δηλαδή κατηγορίες σε μια δοθείσα ερώτηση μας επιτρέπουν να διαμερίσουμε το δείγμα σε k ομάδες (groups) το πολύ. Η ανάλυση του πίνακα- μητρώου Αντιστοιχιών που πινακοποιεί τις δύο κατηγορίες μπορεί να γενικευτεί στην περίπτωση των Q κατηγοριών όπου Q>2. Η ωφελιμότητα της συγκεκριμένης μεθόδου είναι μεγάλη και συνήθως η Πολλαπλή Ανάλυση Αντιστοιχιών είναι αποδοτική όταν αναλύουμε μεγάλα σε έκταση ερωτηματολόγια και επιδιώκουμε την άμεση ερμηνεία καθώς και την μελέτη πολυπληθών δεδομένων ενός μεγάλου αριθμού πολυεπίπεδων κατηγορικών μεταβλητών. Εν συνεχεία θα απαριθμήσουμε τα προτερήματα της Πολλαπλής Ανάλυσης Αντιστοιχιών. Έτσι: 1. Παρέχει τη δυνατότητα απεικόνισης ενός μεγάλου πλήθους κατηγορικών μεταβλητών και παράλληλα καθιστά δυνατή τη μελέτη των συσχετίσεων μεταξύ των μεταβλητών αυτών. 2. Συμπυκνώνει την πληροφορία, που περικλείεται μέσα σε ένα μεγάλο αριθμό κατηγορικών μεταβλητών, σε ένα μικρότερο πλήθος συνεχών μεταβλητών (τους άξονες). 3. Έχει την ικανότητα να τρέπει τις κατηγορικές μεταβλητές σε συνεχείς κατά τον καλύτερο δυνατό τρόπο. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 102

103 4. Μπορεί να αποκαλύψει τη διάταξη των επιπέδων- κατηγοριών του πλήθους των κατηγορικών μεταβλητών σε σχέση με τα υπόλοιπα δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 103

104 - Κεφάλαιο 11: Καταλληλότητα Δεδομένων Όπως αναφέραμε, η Πολλαπλή Ανάλυση Αντιστοιχιών είναι ενδεδειγμένη για χρήση πινάκων συνάφειας πολλαπλής εισόδου. Η πινακοποίηση του πίνακα συνάφειας δεν είναι μοναδική, υπάρχουν αρκετές εναλλακτικές επιλογές παρουσίασης των δεδομένων. Αν όμως επιχειρήσουμε να μειώσουμε έναν π.χ. πίνακα τριπλής εισόδου σε πίνακα διπλής εισόδου, τότε ελλοχεύει ο κίνδυνος να οδηγηθούμε σε απώλεια πληροφορίας. Επομένως πρέπει να είμαστε πολύ προσεκτικοί στο πώς θα παρουσιάσουμε τα δεδομένα του πίνακα και αν επιλέξουμε να μειώσουμε τις διαστάσεις του πρέπει επιπρόσθετα, να διαλέξουμε τις κατάλληλες μεταβλητές που θα συνδυάσουμε στον νέο πίνακα συνάφειας. Οπότε για την περιγραφή ενός αρχικού πίνακα δεδομένων πολλαπλής εισόδου, πολλές φορές δεν βοηθά να τον μετατρέψουμε σε πίνακα διπλής εισόδου μόνο και μόνο για να ελαττώσουμε τη διαστατικότητά του. Επιπλέον να σημειώσουμε πως η Πολλαπλή Ανάλυση Αντιστοιχιών δεν επεξεργάζεται τον πίνακα συνάφειας αλλά τις αρχικές παρατηρήσεις, αφού πρώτα οι κατηγορικές μεταβλητές έχουν υποστεί την ενδεικνυόμενη μετατροπή. Το πλήθος των ερωτήσεων συμβολίζεται με p. Μια ξεχωριστή ερώτηση q αποτελείται από f q κατηγορίες απαντήσεων. Ο συνολικός αριθμός των απαντητικών κατηγοριών f που περιέχεται στο ερωτηματολόγιο θα είναι: f p f. q1 q με n. Έστω ότι ο αριθμός των ατόμων που απάντησαν στο ερωτηματολόγιο είναι ίσος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 104

105 - Κεφάλαιο 12: Βασικές Έννοιες 12.1: Πίνακας Δείκτης (Disjunctive Matrix) Ένα βασικό εργαλείο της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι ο λεγόμενος πίνακας Δείκτης (Disjunctive Matrix), με τη βοήθεια του οποίου απεικονίζονται γραφικά τα δεδομένα. Ο πίνακας Δείκτης, που θα συμβολίζεται με X, είναι διαστάσεων n c, καθώς n είναι το μέγεθος του δείγματος (το πλήθος των παρατηρήσεων) και c είναι ο συνολικός αριθμός των διαφορετικών επιπέδων- κατηγοριών των κατηγορικών μεταβλητών. Ο πίνακας- μητρώο X είναι η παράθεση των Q υποπινάκων: X [ X, X,..., X,..., X ]. Αποτελείται από μονάδες και μηδενικά, τις οποίες 1 2 q Q τιμές λαμβάνουν οι κατηγορίες ή αλλιώς τα επίπεδα κάθε κατηγορικής μεταβλητής που αναπαρίστανται ως στήλες. Την τιμή 1 τη λαμβάνουν οι παρατηρήσεις (που περιέχονται στις γραμμές του πίνακα), όταν διαθέτουν το αντίστοιχο χαρακτηριστικό της εκάστοτε κατηγορικής μεταβλητής ενώ στην αντίθετη περίπτωση το κελί παίρνει την τιμή 0. Έτσι για παράδειγμα, η i-οστή γραμμή του υποπίνακα X q (με n γραμμές και c στήλες) περιέχει p q -1 φορές την τιμή μηδέν και μία φορά την τιμή ένα στη στήλη που αντιστοιχεί στην κατηγορία- επίπεδο της ερώτησης q που επιλέγεται από το άτομο i. Με άλλα λόγια, το μητρώο X q περιγράφει τη διαμέριση των n ατόμων που δημιουργείται από τις απαντήσεις στην ερώτηση q. Άρα γίνεται κατανοητό ότι είναι απαραίτητη η χρήση ψευδομεταβλητών και μάλιστα το πλήθος τους θα είναι τόσο, όσος είναι και ο αριθμός των επιπέδων των μεταβλητών συνολικά. Έτσι, οι δυνατές τιμές της ψευδομεταβλητής είναι δύο: 0 ή 1, ανάλογα με το αν το επίπεδο της κατηγορικής μεταβλητής βρίσκεται σε αντιστοιχία με την κατηγορία με την οποία συσχετίζεται η συγκεκριμένη μεταβλητή. Εν τέλει, αν έχουμε στη διάθεσή μας για παράδειγμα 5 κατηγορικές μεταβλητές που η κάθε μια από αυτές αποτελείται από 3 επίπεδα- κατηγορίες, τότε θα χρειαστεί να κατασκευάσουμε συνολικά 15 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 105

106 ψευδομεταβλητές, οι οποίες θα διαχωρίζονται σε τρία blocks, όσα είναι δηλαδή και τα επίπεδα των κατηγορικών μεταβλητών. Εκτός της δυαδικής κωδικοποίησης (0 & 1) της ψευδομεταβλητής του Πίνακα Δείκτη υπάρχει και μια εναλλακτική πρόταση, στην οποία υιοθετείται μια ασαφή κωδικοποίηση (Fuzzy Coding). Σύμφωνα με αυτήν, δεν είναι υποχρεωτικό κάθε παρατήρηση (case) να επιφορτίζεται αποκλειστικά σε ένα μόνο επίπεδο κάθε κατηγορικής μεταβλητής. Αντί για το συνδυασμό 0-ή-1, θα μπορούσαμε να εισάγουμε πιθανότητες για τη συμμετοχή σε κάθε επίπεδο- κατηγορία ή κάποιο άλλο μέτρο που θα αναπαριστάνει ένα ασαφή κανόνα για τη συμμετοχή σε μια κατηγορία. Ο Greenacre (1984) προτείνει διαφορετικούς τύπους κωδικοποιήσεων αυτού του είδους. Αν, παραδείγματος χάριν, έχουμε σε ένα Πίνακα Δείκτη απούσες τιμές (missing values) σε μερικές περιπτώσεις (cases), αντί να τις απορρίψουμε ολοκληρωτικά από την ανάλυση (ή να δημιουργήσουμε μια νέα κατηγορία Missing Data) θα μπορούσαμε να αναθέσουμε σε κάθε επίπεδο- κατηγορία αναλογίες (που θα αθροίζονται στη μονάδα), οι οποίες θα αντιπροσωπεύουν τις πιθανότητες ότι η αντίστοιχη περίπτωση ανήκει στην αντίστοιχη κατηγορία (για παράδειγμα, θα ήταν δυνατό να εισάγουμε αναλογίες που θα στηρίζονται στην πρότερη γνώση μας όσον αφορά την εκτίμηση των «εθνικών» μέσων όρων των διαφόρων επιπέδων). Ο πίνακας Δείκτης είναι κατά τεκμήριο ο νέος πίνακας δεδομένων, με τη βοήθεια του οποίου υλοποιείται η Πολλαπλή Ανάλυση Αντιστοιχιών. Στο σημείο αυτό μπορούμε να κάνουμε τις εξής παρατηρήσεις σχετικά με τον πίνακα αυτό: Ο αριθμός των γραμμών του πίνακα Δείκτη θα είναι ίσος με το πλήθος των παρατηρήσεων ενώ το πλήθος των στηλών του θα είναι ίσο με το σύνολο των έτερων επιπέδων- κατηγοριών των κατηγορικών μεταβλητών που μελετάμε. Σε κάθε block ψευδομεταβλητών, το οποίο κατά βάση αντιστοιχεί στα επίπεδα μιας κατηγορικής μεταβλητής, είναι δυνατό να έχουμε μόνο μια μονάδα και όλες οι υπόλοιπες τιμές θα είναι μηδενικά. Συνεπώς ο πίνακας Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 106

107 Δείκτης θα είναι ένας αραιός (sparse) πίνακας που θα απαρτίζεται από ένα μεγάλο πλήθος μηδενικών. Είναι εφικτός ο εντοπισμός συγκεκριμένων δομών των μονάδων και των μηδενικών, των δυνατών τιμών δηλαδή κάθε ψευδομεταβλητής. Κατόπιν τούτων, συμπεραίνουμε ότι ο πίνακας των αρχικών δεδομένων μετασχηματίζεται στον πίνακα Δείκτη που είναι ένας «δυαδικός» πίνακας, εφόσον αποτελείται από 0 και 1. Αυτός ο «μετασχηματισμός» διευκολύνει την ομαδοποίηση των παρατηρήσεων, χρησιμοποιώντας παράλληλα και το ενδεδειγμένο μέτρο απόστασης για δυαδικές μεταβλητές. Αποδεικνύεται ότι η Πολλαπλή Ανάλυση Αντιστοιχιών είναι ουσιαστικά η Ανάλυση Αντιστοιχιών του πίνακα Δείκτη, διότι αν αναλύσουμε τον Πίνακα Δείκτη σα να ήταν ένας πίνακας συχνοτήτων διπλής εισόδου, τα αποτελέσματα της Ανάλυσης Αντιστοιχιών θα μας εφοδίαζαν με τις συντεταγμένες των στηλών που θα μας επιτρέψουν να συσχετίσουμε τα ποικίλα επίπεδα- κατηγορίες μεταξύ τους. Τα αποτελέσματα αυτά βασίζονται στις αποστάσεις ανάμεσα στα σημεία γραμμών, για παράδειγμα μεταξύ των ατόμων- παρατηρήσεων. Αναφορικά με τις ιδιότητες του πίνακα Δείκτη μπορούμε να αναφέρουμε τα ακόλουθα: Κάθε άθροισμα γραμμής του πίνακα ισούται με c, όσος είναι δηλαδή και ο αριθμός των κατηγορικών μεταβλητών. Η Μάζα κάθε γραμμής προκύπτει από το πηλίκο του c προς n, όπου n είναι το μέγεθος του δείγματος. Η Μάζα κάθε στήλης ισοδυναμεί με το ποσοστό των περιθώριων συχνοτήτων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 107

108 Οι αποστάσεις X 2 ανάμεσα στις γραμμές- παρατηρήσεις αποτελούν σε τελική ανάλυση μια παραλλαγή του λεγόμενου «Matching Coefficient» 7 για κατηγορικές μεταβλητές. Στην ουσία ο συντελεστής αυτός υπολογίζει τις διαφορετικές απαντήσεις ανάμεσα σε δύο παρατηρήσεις. Μια άλλη εφαρμογή της ανάλυσης του Πίνακα Δείκτη μέσω τεχνικών Ανάλυσης Αντιστοιχιών, είναι ότι μιας δίνει την ευχέρεια να υλοποιήσουμε το αντίστοιχο της Πολλαπλής Παλινδρόμησης (Multiple Regression) για κατηγορικές μεταβλητές, προσθέτοντας συμπληρωματικές στήλες στον Πίνακα Δείκτη. Παραδείγματος χάριν, αν υποθέσουμε πως προσθέτουμε δύο στήλες στον Πίνακα Δείκτη για να προσδιορίσουμε το αν το αντίστοιχο υποκείμενο (περίπτωση) έχει ή δεν έχει μια συγκεκριμένη ασθένεια το τελευταίο έτος, η μία στήλη θα είναι η ασθένεια και η δεύτερη η απουσία της συγκεκριμένης ασθένειας. Εάν σε μια Απλή Ανάλυση Αντιστοιχιών του Πίνακα Δείκτη προσθέταμε αυτές τις στήλες ως συμπληρωματικές στήλες, τότε: 1) τα συνοπτικά στατιστικά μέτρα για την «Ποιότητα» της παρουσίασης για αυτές τις στήλες θα μας πρόσφεραν μια ένδειξη για το πόσο καλά μπορεί να ερμηνευθεί η ασθένεια ως μια συνάρτηση των έτερων μεταβλητών στον Πίνακα Δείκτη και 2) η παράθεση των σημείων στηλών στο τελικό σύστημα συντεταγμένων θα μας παρέχει επίσης μια ένδειξη της φύσεως των συσχετισμών, ανάμεσα στις στήλες του Πίνακα Δείκτη και τα σημεία στηλών που υποδηλώνουν την ασθένεια. Αυτή η τεχνική, η πρόσθεση δηλαδή συμπληρωματικών σημείων σε μια Πολλαπλή Ανάλυση Αντιστοιχιών, καλείται Προγνωστική Χαρτογράφηση (Predictive Mapping). Τέλος, να σημειώσουμε πως η Ανάλυση Αντιστοιχιών του Πίνακα Δείκτη X με τη βοήθεια ενός κλασικού προγράμματος Ανάλυσης Αντιστοιχιών μπορεί να μας προσφέρει τα αναμενόμενα αποτελέσματα. Ωστόσο, αυτό είναι εφικτό μόνο με μικρούς πίνακες- μητρώα διότι ο όγκος των υπολογισμών αυξάνεται γοργά ανάλογα με το μέγεθος του πίνακα. Ευτυχώς, η ιδιαίτερη δομή του συγκεκριμένου πίνακα μας 7 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 108

109 δίνει την ευκαιρία να κάνουμε χρήση υπολογιστικών διαδικασιών που περιορίζουν ορισμένα τεχνικά προβλήματα και μειώνουν αισθητά τον υπολογιστικό φόρτο. 12.2: Πίνακας Burt Με βάση τον πίνακα Δείκτη των ψευδομεταβλητών είναι εύκολο να παραχθεί ο επονομαζόμενος πίνακας Burt, ο οποίος είναι ουσιαστικά ο πίνακας XX όπου X είναι ο πίνακας Δείκτης που αναφέραμε προηγουμένως. Ο πίνακας Burt επομένως προκύπτει από το εσωτερικό γινόμενο ενός πίνακα Δείκτη και ακόμα χαρακτηρίζεται από μια συγκεκριμένη δομή. Παρακάτω βλέπουμε μια μορφή του πίνακα Burt: B11 B12... B1 c B B Bc1 Bc 2... Bcc Πίνακας 3. Πίνακας Burt c γραμμών και c στηλών Ο πίνακας Burt διακρίνεται από τις ακόλουθες ιδιότητες: Οι συχνότητες για κάθε κελί αποτελούν τα στοιχεία του πίνακα Burt. Ο πίνακας Burt έχει διαστάσεις c c, όπου c είναι το σύνολο των ποικίλων κατηγοριών όλων των μεταβλητών. Ο πίνακας Burt έχει τη δυνατότητα να διασπάται σε p 2 υποπίνακες, όπου p είναι το πλήθος των υπό ανάλυση κατηγορικών μεταβλητών. Ένα άλλο γνώρισμα των υποπινάκων είναι ότι όσοι βρίσκονται πάνω στην κύρια διαγώνιο ουσιαστικά αποτελούν τους πίνακες συνάφειας κάθε μεταβλητής με τον εαυτό της και εξαιτίας αυτού τα μη διαγώνια στοιχεία των υποπινάκων αυτών είναι ίσα με το μηδέν, αν και αυτό δε συμβαίνει Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 109

110 πάντοτε όπως για παράδειγμα, όταν ο πίνακας Burt προέρχεται από ένα Πίνακα Δείκτη που περιλαμβάνει ασαφή κωδικοποίηση των επιπέδωνκατηγοριών του. Συνάμα το άθροισμα των διαγωνίων στοιχείων σε κάθε διαγώνιο υποπίνακα είναι αμετάβλητο και είναι ίσο με το σύνολο των παρατηρήσεων που εξετάζουμε. Επιπλέον οι υποπίνακες χαρακτηρίζονται από μια συμμετρική δομή. Τέλος, αν βασιστούμε κατά κύριο λόγο στη χρήση του πίνακα Burt για την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών, τότε θα πετύχουμε μια καλύτερη γεωμετρική ερμηνεία. Αυτό οφείλεται στο γεγονός ότι έχει ως βάση της τη γεωμετρική ερμηνεία της Απλής Ανάλυσης Αντιστοιχιών και διαθέτει μεγαλύτερη σαφήνεια από την αντίστοιχη γεωμετρική ερμηνεία όταν χρησιμοποιούμε τον πίνακα Δείκτη, την οποία περιέγραψαν οι Μιχαηλίδης και de Leeuw (1998). Μπορούμε να ορίσουμε την Πολλαπλή Ανάλυση Αντιστοιχιών ως την Ανάλυση Αντιστοιχιών του πίνακα Burt ένεκεν της σχέση που υπάρχει ανάμεσα στην Singular Value Decomposition του πίνακα Δείκτη και του πίνακα Burt. Ισοδύναμη με αυτήν τη διαπίστωση είναι ότι τα εξαγόμενα της Πολλαπλής Ανάλυσης Αντιστοιχιών ταυτίζονται με τα αποτελέσματα που εξάγονται για τα σημεία στήλες μετά την υλοποίηση μιας Απλής Ανάλυσης Αντιστοιχιών του πίνακα Δείκτη. Ολοκληρώνοντας την παρουσίαση του πίνακα Burt, πρέπει να υπενθυμίσουμε ότι για να εφαρμόσουμε Πολλαπλή Ανάλυση Αντιστοιχιών, είναι απαραίτητο να παράγουμε από τα δεδομένα τον πίνακα Δείκτη ή τον πίνακα Burt και εν συνεχεία μπορούμε να προχωρήσουμε σε Απλή Ανάλυση Αντιστοιχιών σε όποιον από τους δύο πίνακες επιλέξουμε για την ανάλυση. Εκτός των άλλων χρειάζεται και ιδιαίτερη προσοχή, καθώς το κλασικό Output που προκύπτει από την Απλή Ανάλυση Αντιστοιχιών κατ ουσίαν δεν έχει ενδιαφέρον, όταν έχουμε κάνει χρήση της Πολλαπλής Ανάλυσης Αντιστοιχιών και για αυτό το λόγο τα Biplots δεν είναι άξια προσοχής, εφόσον οι γραμμές και οι στήλες σε ένα πίνακα Burt ταυτίζονται. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 110

111 - Κεφάλαιο 13: Συμπερασματολογία 13.1: Αδράνεια Αρχικά, αναφορικά με την Αδράνεια των υποπινάκων του πίνακα Burt, μπορούμε να πούμε πως η Αδράνεια του κάθε υποπίνακα επισημαίνει την Αδράνεια μεταξύ του αντίστοιχου ζεύγους μεταβλητών. Οι διαγώνιοι υποπίνακες διαθέτουν τη μέγιστη Αδράνεια συγκριτικά με τους υποπίνακες που δε βρίσκονται στην κύρια διαγώνιο και αυτό οφείλεται στο γεγονός ότι όλες οι παρατηρήσεις είναι στη διαγώνιο ενώ στο αντίστοιχο διάγραμμα θα είναι στις άκρες του. Επομένως, η Αδράνεια των μη διαγώνιων υποπινάκων είναι αρκετά μικρότερη σε σχέση με την Αδράνεια των διαγώνιων υποπινάκων. Παράλληλα υπάρχει η δυνατότητα να εξετάσουμε την Αδράνεια ανάμεσα στους πίνακες συνάφειας για ζεύγη μεταβλητών, αν και οι αριθμοί δεν υπόκεινται σε απευθείας σύγκριση, εξαιτίας των διαφορετικών διαστάσεων των πινάκων. Μια άλλη ερμηνεία της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι ως η από κοινού ανάλυση όλων των πινάκων συνάφειας ανά δύο, συμπεριλαμβανομένων των πινάκων συνάφειας κάθε μεταβλητής με τον εαυτό της. Πρακτικά αυτό δηλώνει πως η Αδράνεια που εξάγεται κατά αυτόν τον τρόπο, είναι ολίγον τι υπερεκτιμημένη, αφού εξ ορισμού υπάρχουν οι υποπίνακες της διαγωνίου που έχουν μέγιστη Αδράνεια. Ακολούθως θα υπολογίσουμε την Αδράνεια του πίνακα Burt. Συμβολίζοντας με I(B ij ) την Αδράνεια κάθε υποπίνακα B ij και επιπλέον με I( B) p p q1 s1, qs I( B ) p( p1) Μέση Αδράνεια όλων των υποπινάκων χωρίς να λάβουμε υπόψη τους διαγώνιους υποπίνακες, καταλήγουμε στο συμπέρασμα ότι η Αδράνεια I(B) του πίνακα Burt 1 υπολογίζεται μέσω του τύπου: ( ) p ( ) c I B I B p 2. p p qs τη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 111

112 Είναι εύκολο να διακρίνουμε ότι εάν βασιστούμε στον πίνακα Δείκτη ή στον πίνακα Burt για την εφαρμογή της Πολλαπλής Ανάλυσης Αντιστοιχιών, τότε οι συντεταγμένες των κυρίων αξόνων θα παραμείνουν αμετάβλητες και ταυτόχρονα οι ιδιοτιμές θα παραμείνουν και αυτές συνδεδεμένες. Άρα, οι Αδράνειες του πίνακα Burt θα προκύπτουν ως το τετράγωνο των Αδρανειών που απορρέουν από την ανάλυση του πίνακα Δείκτη. Αυτό συνηγορεί υπέρ του συμπεράσματος που βρήκαμε προηγουμένως, ότι η Αδράνεια του πίνακα Burt υπερεκτιμά την Αδράνεια των δεδομένων. Κατόπιν τούτων, ένας τρόπος για να αποκτήσουμε μια αντίληψη της Αδράνειας που μπορεί να εξηγηθεί από την ανάλυση είναι η αλλαγή της κλίμακας της Αδράνειας του πίνακα ή τουλάχιστον των βασικών αδρανειών. 13.2: Η Πολλαπλή Ανάλυση Αντιστοιχιών στην πράξη- SVD Έχοντας επιλέξει τον πίνακα Burt για να αναπαραστήσουμε τα δεδομένα, συνεχίζουμε με την υλοποίηση της SVD για αυτόν τον πίνακα. Όμως καθώς ο πίνακας Burt είναι συμμετρικός, η SVD ταυτογνωμεί με τη Φασματική Ανάλυση. Εφαρμόζοντας τα υπολογιστικά βήματα της Απλής Ανάλυσης Αντιστοιχιών, προχωρούμε στην εύρεση των ιδιοτιμών που αντιστοιχούν στους κύριους άξονες και αντιπροσωπεύουν τις βασικές αδράνειες. Ακολούθως οι συντεταγμένες υπολογίζονται από τις βασικές αδράνειες κ.ο.κ. όπως είδαμε και στη Διάσπαση Ιδιόμορφων Τιμών στην Απλή Ανάλυση Αντιστοιχιών. Είδαμε πριν την αναγκαιότητα της αλλαγής της κλίμακας της Αδράνειας του πίνακα Burt. Έτσι, τώρα κάνουμε αλλαγή κλίμακας των βασικών αδρανειών χωρίς να εφαρμόσουμε αυτήν την αλλαγή και στη Συνολική Αδράνεια. Ο τύπος του Greenacre (1984) αναφέρεται σε αυτήν την αλλαγή κλίμακας: 2 2 p 1 k, k 1,2,... p1 p Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 112

113 αν k 1 p, όπου λ κ είναι οι μη- προσαρμοσμένες βασικές αδράνειες που εξάγονται από την Απλή Ανάλυση Αντιστοιχιών του πίνακα Burt ή με άλλα λόγια είναι οι ιδιοτιμές που προκύπτουν από την εφαρμογή της Φασματικής Ανάλυσης του πίνακα Burt. Οι προσαρμοσμένες βασικές αδράνειες θα χρησιμεύσουν αργότερα στον υπολογισμό των συντεταγμένων, στην ποιότητα της παρουσίασης κ.τ.λ. Η προσαρμογή που επιδιώκουμε στις βασικές αδράνειες, στοχεύει στην καλύτερη προσαρμογή των μη διαγώνιων στοιχείων του πίνακα Burt και επομένως δεν μας ενδιαφέρει η τέλεια προσαρμογή των διαγώνιων στοιχείων του πίνακα αυτού. Παράλληλα είναι εύκολο να τεκμηριωθεί το γεγονός ότι οι προσαρμοσμένες βασικές αδράνειες βελτιώνουν την ερμηνευσιμότητα του μοντέλου ενώ διαγραμματικά το προϊόν αυτής της προσαρμογής είναι η μεγαλύτερη απόσταση των σημείων από τους άξονες. Κατ αντιστοιχία με την Απλή Ανάλυση Αντιστοιχιών, ο λόγος των ποσοστών των χρησιμοποιούμενων βασικών αδρανειών προς το συνολικό άθροισμα τους υποδεικνύει το ποσοστό της συνολικής ερμηνεύσιμης Αδράνειας. Εκτός των άλλων, οι βασικοί άξονες και ειδικότερα οι συντεταγμένες των επιπέδων- κατηγοριών στους κύριους άξονες επίσης υπολογίζονται παρομοίως όπως και στην Απλή Ανάλυση Αντιστοιχιών. Στο σημείο αυτό να σημειώσουμε τα εξής σημεία: Παρατηρώντας τον πίνακα Δείκτη διαπιστώνουμε πως οι γραμμές του είναι ουσιαστικά οι αρχικές παρατηρήσεις και κατ επέκταση, είναι δυνατή η απεικόνιση των παρατηρήσεων σε γράφημα 2 αξόνων. Εδώ να θυμίσουμε ότι στην Απλή Ανάλυση Αντιστοιχιών οι παρατηρήσεις, που συνήθως είναι τα άτομα που παίρνουν μέρος στην έρευνα, δε φαίνονται στο Output, γιατί οι γραμμές και οι στήλες του πίνακα συνάφειας που χρησιμοποιεί η ανάλυση αποτελούνται από τα επίπεδα των δύο μεταβλητών. Στην προκειμένη περίπτωση όμως που οι γραμμές του πίνακα Δείκτη περιλαμβάνουν τις παρατηρήσεις είναι εύκολο να Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 113

114 κατασκευάσουμε το αντίστοιχο διάγραμμα. Βεβαίως εδώ υπάρχει το μειονέκτημα της ταύτισης αρκετών σημείων στο γράφημα, διότι το πλήθος των συνδυασμών των επιπέδων των κατηγορικών μεταβλητών είναι πεπερασμένο. Η Πολλαπλή Ανάλυση Αντιστοιχιών με τη χρήση του πίνακα Burt μεταβάλλεται σε Απλή Ανάλυση Αντιστοιχιών, δεδομένου ότι οι γραμμές και οι στήλες του πίνακα Burt συμπίπτουν και λόγω της συμμετρίας του πίνακα αυτού. Ζωτικής σημασία για τον τομέα της Ανάλυσης Δεδομένων είναι να οδηγηθούμε στις συντεταγμένες των γραμμών, διότι ουσιαστικά αυτές συσχετίζονται με μείωση των διαστάσεων. Κατ αναλογία με την Ανάλυση Κυρίων Συνιστωσών, όπου οι κύριες συνιστώσες είναι καινούριες μεταβλητές, έτσι και οι συντεταγμένες κάθε άξονος μπορούν να θεωρηθούν ως νέες μεταβλητές. Όπως γνωρίζουμε, ο πρώτος άξονας ερμηνεύει το μεγαλύτερο ποσοστό της μεταβλητότητας των αρχικών δεδομένων και έτσι η Πολλαπλή Ανάλυση Αντιστοιχιών παράγει νέες συνεχείς μεταβλητές δηλαδή τους άξονες, οι οποίοι συνοψίζουν την πληροφορία των περισσότερων αρχικών κατηγορικών μεταβλητών. Τις μεταβλητές που εξάγονται έχουμε τη δυνατότητα να τις χρησιμοποιήσουμε μετέπειτα για διάφορους στατιστικούς σκοπούς όπως λόγου χάριν η Ανάλυση κατά Συστάδες (Cluster Analysis). Παρόμοιο πρόβλημα με αυτό που αντιμετωπίζουμε στην Ανάλυση Κυρίων Συνιστωσών και στην Απλή Ανάλυση Αντιστοιχιών μας απασχολεί επίσης και στην Πολλαπλή Ανάλυση Αντιστοιχιών και δεν είναι άλλο από τον αριθμό των αξόνων που πρέπει να επιλέξουμε. Ωσαύτως με τις άλλες δύο μεθόδους, έτσι και στην Πολλαπλή Ανάλυση Αντιστοιχιών, μπορούμε να καταφύγουμε στη χρήση του Scree Plot που όμως είναι πιθανό να οδηγήσει σε μη αξιόπιστα αποτελέσματα, αφού οι ιδιοτιμές, λόγω του τρόπου από τον οποίον προήλθαν, δεν είναι καλά διαχωρισμένες. Υπάρχει και ένα εναλλακτικό κριτήριο που στηρίζεται στην Αδράνεια και κάτω από την υπόθεση της ανεξαρτησίας όπου όλες οι Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 114

115 ιδιοτιμές ισούνται με 1/c, προτείνει να κρατήσουμε έναν άξονα του οποίου η ιδιοτιμή υπερβαίνει το 1/c. Το συγκεκριμένο κριτήριο είναι παραπλήσιο του κριτηρίου Kaiser της Ανάλυσης Κυρίων Συνιστωσών 8. Όσον αφορά τις συμπληρωματικές μεταβλητές, είναι δυνατή η χρήση τους στην Πολλαπλή Ανάλυση Αντιστοιχιών όπως και στην Απλή Ανάλυση Αντιστοιχιών. Δηλαδή, οι μεταβλητές δεν είναι εν ενεργεία διότι δεν τις χρησιμοποιούμε αρχικώς στην κατασκευή των βασικών αξόνων αλλά χρησιμεύουν αργότερα όταν τις προβάλλουμε στους άξονες για να αυξήσουν την ερμηνευσιμότητα. Παραδείγματα όπου είναι συχνή η χρήση συμπληρωματικών μεταβλητών, αποτελούν λόγου χάριν οι δημογραφικές μεταβλητές. Επιπρόσθετα, όταν αναλύουμε μια έρευνα η οποία περιέχει ανώνυμα ερωτηματολόγια χρησιμοποιώντας συμπληρωματικές μεταβλητές (π.χ. φύλο, μορφωτικό επίπεδο, επάγγελμα κ.α.) έχει ως αποτέλεσμα την απλούστευση της γραφικής παρουσίασης των ατόμων που έλαβαν μέρος στην έρευνα καθώς και τη διευκόλυνση της ερμηνείας των αξόνων. Συνάμα με τη χρήση στατιστικών ελέγχων που συγκρίνουν τις συντεταγμένες των επιπέδων- κατηγοριών, δίνεται η ευχέρεια σε κάποιον να συγκεκριμενοποιήσει αυτές τις κατηγορίες. Ένας τέτοιος έλεγχος σημαντικότητας των κατηγοριών στον πρώτο άξονα, είναι η εύρεση των λεγόμενων «Test-values» για κάθε κατηγορία στον πρώτο άξονα. Ο υπολογισμός των τιμών αυτών γίνεται ως εξής: Αν με f kj θεωρήσουμε τη συντεταγμένη της κατηγορίας j στον k άξονα (περιλαμβάνεται και η περίπτωση των συμπληρωματικών κατηγοριών) τότε αυτή αποτελεί τον αριθμητικό μέσο όλων των συντεταγμένων για τον k άξονα των ατόμων που έχουν επιλέξει αυτήν την κατηγορία, πολλαπλασιασμένη με 1/ k, όπου γ k είναι η ιδιόμορφη τιμή που αντιστοιχεί σε αυτόν τον άξονα. Παραδείγματος χάριν, αν έχουμε την κατηγορική μεταβλητή Φύλο και έχει δύο τιμές (άνδρας & γυναίκα), τότε η συντεταγμένη των γυναικών 8 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 115

116 στον πρώτο άξονα θα είναι ο αριθμητικός μέσος των συντεταγμένων όλων των γυναικών στο δείγμα έχοντας πολλαπλασιαστεί με την αντίστροφη τετραγωνική ρίζα της ιδιόμορφης τιμής του άξονα αυτού. Οπότε, με τη χρήση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) 9, μπορούμε να φτάσουμε σε κάποια μορφή ελέγχου υποθέσεων, εξετάζοντας το αν η συντεταγμένη είναι ίση με το μηδέν ή όχι. Διατυπώνοντας το διαφορετικά, ελέγχουμε αν η συγκεκριμένη κατηγορία συσχετίζεται με τον άξονα ή όχι. Επομένως η Test-value της f kj κατηγορίας θα δίνεται από τον ακόλουθο τύπο: f n n 1 kj j n n j, όπου n είναι το μέγεθος του δείγματος και n j είναι ο αριθμός των παρατηρήσεων στην κατηγορία j. Σύμφωνα με το Κ.Ο.Θ., η ποσότητα αυτή ακολουθεί Τυποποιημένη Κανονική Κατανομή και έτσι αναζητάμε κατηγορίες με υψηλή απόλυτη τιμή της παραπάνω ποσότητας. Εν συνεχεία, με τη χρήση των συντεταγμένων, μας δίνεται η δυνατότητα να φτιάξουμε το διάγραμμα που απεικονίζει τα σημεία ανά ζεύγη ατόμων, αν και κατά κανόνα μόνο οι δύο πρώτοι άξονες χρησιμοποιούνται, γιατί ερμηνεύουν το μεγαλύτερο ποσοστό αδράνειας. 9 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 116

117 - Κεφάλαιο 14: Περιγραφή πολυμεταβλητών δεδομένων με τη βοήθεια παρεμφερών μεθόδων με την Πολλαπλή Ανάλυση Αντιστοιχιών Εκτός της Πολλαπλής Ανάλυσης Αντιστοιχιών απαντώνται στη βιβλιογραφία και ορισμένες μέθοδοι, που κατά βάση αποτελούν διαφοροποιήσεις αυτής ή τελείως διαφορετικές προσεγγίσεις και οι οποίες είναι κατάλληλες για την περιγραφή πολυμεταβλητών δεδομένων. Οι περισσότερες από αυτές είναι προσιτές μέσω των στατιστικών πακέτων και είναι οι ακόλουθες: 14.1: Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis) Εναλλακτικά, όταν επεξεργαζόμαστε αριθμητικά πολλές κατηγορικές μεταβλητές, έχουμε τη δυνατότητα να εφαρμόσουμε Απλή Ανάλυση Αντιστοιχιών σε ένα πλήθος διαφορετικών πινάκων συνάφειας διπλής εισόδου. Η συγκεκριμένη προσέγγιση καλείται Από Κοινού Ανάλυση Αντιστοιχιών (Joint Correspondence Analysis). Επομένως, μπορούμε να επιλέξουμε μια τιμή κάποιας μεταβλητής τη μια φορά και εν συνεχεία να υλοποιηθεί Απλή Ανάλυση Αντιστοιχιών για τον πίνακα συνάφειας των υπόλοιπων μεταβλητών. Η συνέπεια αυτού είναι να δημιουργηθούν επικαλυπτόμενα Biplots, τα οποία μας παρέχουν την ευκαιρία να μελετήσουμε τις σχέσεις ανάμεσα στις μεταβλητές. Κατά γενικό κανόνα, για να εξακριβώσουμε το είδος της συσχέτισης που κρύβεται μεταξύ των μεταβλητών, μπορούμε να συνδέσουμε τις τιμές των διαφορετικών επιπέδων- κατηγοριών των κατηγορικών μεταβλητών για κάθε μια από τις τιμές των μεταβλητών που θεωρούνται εξαρτημένες. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 117

118 Το σημείο που υστερεί η παραπάνω μέθοδος, είναι πως ο ερευνητής είναι υποχρεωμένος να κάνει την υπόθεση ότι μια ορισμένη μεταβλητή είναι εξαρτημένη, άρα έχει και διαφορετική σημαντικότητα από τις υπόλοιπες. 14.2: Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) Η Ανάλυση Ομοιογένειας (Homogeneity Analysis- HOMALS) εμφανίζει αρκετές ομοιότητες με την Πολλαπλή Ανάλυση Αντιστοιχιών, αν και η Ανάλυση Ομοιογένειας θεωρείται γενικότερη, καθώς είναι εφικτή η εφαρμογή της Πολλαπλής Ανάλυσης Αντιστοιχιών μέσω λογισμικού Ανάλυση Ομοιογένειας. Φυσικά υπάρχουν και διαφορές ανάμεσα στις δύο μεθόδους αναφορικά με το σκοπό που εξυπηρετεί η κάθε μια από αυτές και την ερμηνεία που δίνεται στα ευρήματά τους. Επιπλέον μια ουσιαστική ακόμα διαφορά είναι ότι από υπολογιστικής απόψεως η Ανάλυση Ομοιογένειας- HOMALS είναι πιο επιτεύξιμη, ιδιαίτερα όταν αναλύουμε μεγάλο αριθμό κατηγορικών μεταβλητών. Παράλληλα, η Πολλαπλή Ανάλυση Αντιστοιχιών είναι πιθανό να παρουσιάσει σημαντικά προβλήματα, τα οποία οφείλονται στο ότι η Φασματική Ανάλυση στην οποία βασίζεται είναι αριθμητικά απαιτητική. Τέλος, ο αλγόριθμος της Ανάλυσης Ομοιογένειας- HOMALS προσφέρει τη λύση των πρώτων συντεταγμένων της Πολλαπλής Ανάλυσης Αντιστοιχιών και συμπερασματικά μας προσφέρει εξίσου την ευχέρεια να έχουμε κατ ουσίαν και τη λύση της Πολλαπλής Ανάλυσης Αντιστοιχιών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 118

119 - Κεφάλαιο 15: Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) με το SPSS 15.1: Εισαγωγή Σκοπός της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι η εύρεση βέλτιστων ποσοτικοποιήσεων, υπό την έννοια ότι τα επίπεδα- κατηγορίες πρέπει να χωρίζονται όσο το δυνατόν περισσότερο το ένα από το άλλο. Αυτό υπονοεί πως αντικείμενα που βρίσκονται στην ίδια κατηγορία αναπαρίστανται κοντά το ένα με το άλλο, ενώ αντικείμενα που βρίσκονται σε διαφορετικές κατηγορίες απεικονίζονται όσο το δυνατόν πιο μακριά. Η ανάλυση θα είναι πιο αποτελεσματική όταν οι μεταβλητές είναι ομοιογενείς, δηλαδή όταν διαμερίζονται τα αντικείμενα σε συστάδες ίδιων ή παρόμοιων επιπέδων- κατηγοριών. 15.2: Σύνοψη του Μοντέλου (Model Summary) Η Πολλαπλή Ανάλυση Αντιστοιχιών μπορεί να υπολογίσει μια λύση για μερικές διαστάσεις. Ο μέγιστος αριθμός διαστάσεων είναι ίσος με το πλήθος των επιπέδων- κατηγοριών μείον το πλήθος των μεταβλητών που δεν έχουν απούσες τιμές (missing data) ή εναλλακτικά τον αριθμό των παρατηρήσεων μείον ένα, οποιαδήποτε από τις δύο εναλλακτικές επιλογές είναι μικρότερη. Ωστόσο, σπάνια θα πρέπει να χρησιμοποιήσουμε το μέγιστο πλήθος διαστάσεων. Ένας μικρός αριθμός διαστάσεων είναι ευκολότερο να ερμηνευθεί και μετά από ένα συγκεκριμένο πλήθος διαστάσεων το ποσό της επιπρόσθετης συσχέτισης που υπολογίζεται είναι αμελητέο. Στην Πολλαπλή Ανάλυση Αντιστοιχιών μια μονοδιάστατη ή δισδιάστατη ή τρισδιάστατη λύση είναι η πιο συνηθισμένη. Οι δύο διαστάσεις μαζί, προσφέρουν μια ερμηνεία από την άποψη των αποστάσεων. Αν μια μεταβλητή διακριτοποιείται καλά, τότε τα αντικείμενα θα βρίσκονται κοντά στα επίπεδα- κατηγορίες όπου ανήκουν. Στην ιδανική περίπτωση, Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 119

120 αντικείμενα στην ίδια κατηγορία θα βρίσκονται επίσης κοντά το ένα στο άλλο (αυτό σημαίνει ότι θα πρέπει να έχουν παρόμοια σκορ) και οι κατηγορίες διαφορετικών μεταβλητών θα είναι κοντά εάν ανήκουν στα ίδια αντικείμενα (που σημαίνει πως δύο αντικείμενα που έχουν παρόμοια σκορ για μια μεταβλητή θα πρέπει συγχρόνως να έχουν παρόμοια σκορ και για τις άλλες μεταβλητές στη λύση). 15.3: Object Scores Μετά τη σύνοψη του μοντέλου της Πολλαπλής Ανάλυσης Αντιστοιχιών (Model Summary) εξετάζουμε τα σκορ των αντικειμένων (Object Scores). Έχουμε την ευχέρεια να καθορίσουμε μία ή περισσότερες μεταβλητές για να ονομάσουμε το διάγραμμα Object Scores. Κάθε μεταβλητή επισήμανσης (labeling variable) παράγει ένα ξεχωριστό γράφημα που περιέχει τις ετικέτες των τιμών αυτής της μεταβλητής. Η απόσταση ενός αντικειμένου από την αρχή των αξόνων αντικατοπτρίζει διασπορά από το μέσο πρότυπο απαντήσεων. Το μέσο πρότυπο απαντήσεων αντιστοιχεί στην πιο συχνή κατηγορία για κάθε μεταβλητή. Αντικείμενα με πολλά χαρακτηριστικά αντιστοιχούν στις πιο συχνές κατηγορίες που βρίσκονται κοντά στην αρχή των αξόνων. Αντιθέτως αντικείμενα με μοναδικά χαρακτηριστικά εντοπίζονται μακριά από την αρχή των αξόνων. Το γράφημα των Object Scores είναι ιδιαίτερα χρήσιμο στην επισήμανση ακραίων τιμών (outliers). Μπορούμε να αποκομίσουμε μια πιο διορατική ματιά στα δεδομένα, εξετάζοντας τα γραφήματα των σκορ των αντικειμένων που επισημαίνονται από κάθε μεταβλητή. Στην ιδανική περίπτωση παρόμοια αντικείμενα θα πρέπει να σχηματίζουν κλειστές ομάδες και αυτές οι ομάδες θα πρέπει να απέχουν αρκετά. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 120

121 15.4: Discrimination Measures Το μέτρο διάκρισης (Discrimination Measure), που μπορεί να θεωρηθεί ως η τετραγωνική επιβάρυνση μιας συνιστώσας (Squared Component Loading), υπολογίζεται για κάθε διάσταση. Αυτό το μέτρο είναι επίσης η διασπορά της ποσοτικοποιημένης μεταβλητής σε αυτήν τη διάσταση. Η μέγιστη τιμή της είναι η μονάδα, η οποία επιτυγχάνεται αν τα σκορ των αντικειμένων (object scores) εμπίπτουν σε αλληλοαναιρούμενες ομάδες και όλα τα σκορ των αντικειμένων, εντός μιας κατηγορίας, είναι πανομοιότυπα. Να τονίσουμε παράλληλα ότι αυτό το μέτρο διάκρισης θα έχει τιμή μεγαλύτερη της μονάδος αν υπάρχουν απούσες τιμές (missing values). Μεγάλες τιμές του μέτρου διάκρισης αντιστοιχούν σε μια ευρεία εξάπλωση των επιπέδων της μεταβλητής μεταξύ τους και κατά συνέπεια υποδηλώνουν έναν υψηλό βαθμό διάκρισης ανάμεσα στις κατηγορίες μιας μεταβλητής κατά μήκος αυτής της διάστασης. Ο μέσος όρος των μέτρων διάκρισης για κάθε διάσταση ισοδυναμεί με το ποσοστό της διακύμανσης που υπολογίζεται για τη συγκεκριμένη διάσταση. Επομένως οι διαστάσεις διατάσσονται σύμφωνα με τη μέση διάκριση. Η πρώτη διάσταση έχει τη μεγαλύτερη μέση διάκριση, η δεύτερη διάσταση έχει τη δεύτερη μεγαλύτερη μέση διάκριση κ.ο.κ. για όλες τις διαστάσεις στη λύση. Το γράφημα των μέτρων διάκρισης (Discrimination Measures Plot) περιέχει τις διακυμάνσεις, οι οποίες υποδεικνύουν ποιες μεταβλητές ξεχωρίζουν σε κάθε διάσταση. Παρόλα αυτά, η ίδια διασπορά θα μπορούσε να αντιστοιχεί σε όλες τις κατηγορίες που απλώνονται συγκρατημένα μακριά ή στις περισσότερες κατηγορίες που βρίσκονται κοντά, ενώ λίγες κατηγορίες διαφέρουν από αυτήν την ομάδα. Το γράφημα των μέτρων διάκρισης δε μπορεί να διακρίνει τη διαφορά μεταξύ των δύο αυτών καταστάσεων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 121

122 15.5: Category Quantifications Το διάγραμμα Ποσοτικοποίησης Κατηγορίας (Category Quantification Plot) παρέχει μια εναλλακτική μέθοδο απεικόνισης της διάκρισης μεταβλητών που μπορούν να προσδιορίσουν σχέσεις ανάμεσα στις κατηγορίες. Σε αυτό το γράφημα, οι συντεταγμένες κάθε επιπέδου σε κάθε διάσταση αναπαρίστανται. Έτσι, έχουμε τη δυνατότητα να αποφασίσουμε ποιες κατηγορίες είναι παρόμοιες για κάθε μεταβλητή. Η εξάπλωση των ποσοτικοποιήσεων μιας κατηγορίας (Category Quantification) για μια μεταβλητή αντιπροσωπεύει τη διακύμανση και για αυτό το λόγο επισημαίνει πόσο καλά αυτή η μεταβλητή διακριτοποιείται σε κάθε διάσταση. Επιπροσθέτως, για να αποφασίσουμε τις διαστάσεις στις οποίες διακριτοποιείται μια μεταβλητή και το πώς αυτή η μεταβλητή διακριτοποιείται, το διάγραμμα Ποσοτικοποίησης Κατηγορίας επιπλέον συγκρίνει τη διάκριση των μεταβλητών. Μια μεταβλητή με επίπεδα που βρίσκονται μακριά διακριτοποιείται καλύτερα από μια μεταβλητή με επίπεδα που είναι κοντά. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 122

123 15.6: Περιγραφή Διαδικασίας Πολλαπλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών είναι το ακόλουθο όπως φαίνεται και στην Εικόνα 14: Analyze/ Dimension Reduction/ Optimal Scaling Εικόνα 14: Μενού επιλογής Πολλαπλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 123

124 Εν συνεχεία ανοίγουν οι Επιλογές της Πολλαπλής Ανάλυσης Αντιστοιχιών (Optimal Scaling) (Εικόνα 15). Εικόνα 15: Επιλογές Πολλαπλής Ανάλυσης Αντιστοιχιών Ελέγχουμε αν είναι στο πεδίο Optimal Scaling Level επιλεγμένη η επιλογή All variables are multiple nominal, δηλαδή ότι όλες οι μεταβλητές είναι πολλαπλές και ονομαστικής κλίμακας. Παράλληλα, στο πεδίο Number of Sets of Variables επιλέγουμε One set, δηλώνοντας έτσι πως όλες οι μεταβλητές μαζί θεωρούνται ως ένα σύνολο. Επιπλέον παρατηρούμε πως στο πεδίο Selected Analysis είναι προεπιλεγμένη η Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis). Πατάμε το κουμπί Define και συνεχίζουμε. Εμφανίζεται το παράθυρο της Εικόνας 16, όπου θα επιλέξουμε τις μεταβλητές που θα αναλύσουμε (Analysis Variables), τις συμπληρωματικές Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 124

125 μεταβλητές που ενδεχομένως να χρησιμοποιήσουμε επίσης στην ανάλυση (Supplementary Variables), καθώς και μεταβλητές που θα χρησιμοποιηθούν ως μεταβλητές επισήμανσης, με ετικέτες δηλαδή (Labeling Variables). Εκτός από τα παραπάνω στο κάτω μέρος του παραθύρου υπάρχει προεπιλεγμένος ο αριθμός 2 για τις διαστάσεις που θα περιλαμβάνει η λύση της μεθόδου (Dimensions in solution), ενώ στο δεξιό τμήμα του παραθύρου είναι διαθέσιμο πλήθος κουμπιών για να δηλώσουμε τις παραμέτρους (Discretize, Missing, Options, Output & Save) της Πολλαπλής Ανάλυσης Αντιστοιχιών καθώς και τα κατάλληλα γραφήματα (Plots- Object & Variable). Εικόνα 16: Μεταβλητές Ανάλυσης & Συμπληρωματικές μεταβλητές Πολλαπλής Ανάλυσης Αντιστοιχιών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 125

126 Πατώντας το κουμπί Object του πεδίου Plots ανοίγει το παράθυρο της Εικόνας 17: Εικόνα 17: Object Plots Παρατηρούμε ότι είναι προεπιλεγμένη η επιλογή Object points στο πεδίο Plots. Αν επιθυμούμε, μπορούμε να επιλέξουμε και την επιλογή Objects and centroids (biplot) και αυτόματα ενεργοποιούνται και οι επιλογές του πεδίου Biplot Variables. Αφήνουμε μόνο την πρώτη επιλογή Object points και προχωράμε στο πεδίο Label Objects. Εδώ, είναι επίσης προεπιλεγμένη η επιλογή Label by: Variable και έτσι δίνουμε ετικέτες στα αντικείμενα με βάση τις μεταβλητές. Περνάμε στο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 126

127 πεδίο Selected τις μεταβλητές που θέλουμε και πατώντας Continue επανερχόμαστε στο μενού της Εικόνας 16, όπου επιλέγοντας το κουμπί Variable του πεδίου Plots ανοίγει το παράθυρο της Εικόνας 18: Εικόνα 18: Variable Plots Σε αυτό το παράθυρο επιλέγουμε να κατασκευαστεί ένα από κοινού διάγραμμα των επιπέδων- κατηγοριών (Joint Category Plots) περνώντας στο αντίστοιχο πεδίο τις επιθυμητές μεταβλητές. Παράλληλα, διαπιστώνουμε πως είναι προεπιλεγμένη η επιλογή Display plot στο πεδίο Discrimination Measures. Δεν το αλλάζουμε και πατάμε Continue και στη συνέχεια OK όταν επιστρέψουμε και πάλι στο μενού της Εικόνας 16. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 127

128 15.7: Παράλειψη των Ακραίων Τιμών (Omission of Outliers) Στην Πολλαπλή Ανάλυση Αντιστοιχιών οι ακραίες τιμές (Outliers) είναι αντικείμενα που έχουν πολλά μοναδικά χαρακτηριστικά. Για να διαγράψουμε αυτό το αντικείμενο και να υλοποιήσουμε ξανά την ανάλυση επιλέγουμε από το μενού του SPSS: Data/ Select Cases Εικόνα 19: Μενού επιλογής Select Cases Ανοίγει το ακόλουθο παράθυρο Select Cases: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 128

129 Εικόνα 20: Επιλογές Select Cases Επιλέγουμε στο πεδίο Select την επιλογή If Condition is satisfied και πατάμε το κουμπί If. Ανοίγει ένα νέο παράθυρο στο οποίο θα δηλώσουμε τον περιορισμό που επιθυμούμε για την ακραία τιμή. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 129

130 Εικόνα 21: Πλαίσιο Διαλόγου Select Cases Στο πάνω δεξιά πλαίσιο πληκτρολογούμε τον κατάλληλο περιορισμό που θα οδηγήσει στην παράλειψη της ακραίας τιμής. Εν συνεχεία, πατάμε το κουμπί Continue και τέλος, στο πλαίσιο διαλόγου Select Cases που επιστρέφουμε, κάνουμε κλικ στο OK. Μετά είμαστε σε θέση να τρέξουμε πάλι τη διαδικασία της Πολλαπλής Ανάλυσης Αντιστοιχιών, χωρίς αυτή τη φορά να περιλαμβάνονται στην ανάλυση οι ακραίες τιμές που εντοπίσαμε. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 130

131 - Κεφάλαιο 16: Πολλαπλή Ανάλυση Αντιστοιχιών (Multiple Correspondence Analysis) με το MINITAB 16.1: Εισαγωγή Πριν εισέλθουμε στην περιγραφή της διαδικασίας υλοποίησης της Πολλαπλής Ανάλυσης Αντιστοιχιών με τη βοήθεια του MINITAB, θα υπενθυμίσουμε εν ολίγοις τη χρησιμότητα της συγκεκριμένης μεθόδου. Έτσι, η Πολλαπλή Ανάλυση Αντιστοιχιών επεκτείνει την έννοια της Απλής Ανάλυσης Αντιστοιχιών στην περίπτωση τριών ή περισσότερων κατηγορικών μεταβλητών. Η μέθοδος αυτή διεξάγει ουσιαστικά Απλή Ανάλυση Αντιστοιχιών σε έναν πίνακα που αποτελείται από μεταβλητές δείκτες (Indicator Variables), όπου κάθε στήλη του πίνακα αντιστοιχεί σε ένα επίπεδο κατηγορικής μεταβλητής. Αντί του πίνακα συνάφειας διπλής εισόδου της Απλής Ανάλυσης Αντιστοιχιών, εδώ ο πίνακας πολλαπλής εισόδου μεταπίπτει στη μία διάσταση. Προχωρώντας από την Απλή στην Πολλαπλή Ανάλυση Αντιστοιχιών αποκομίζουμε πληροφορία σε ένα δυνητικά μεγάλο αριθμό μεταβλητών, χάνοντας ωστόσο πληροφορία σχετικά με το πώς συσχετίζονται μεταξύ τους οι γραμμές και οι στήλες. 16.2: Καταλληλότητα Δεδομένων Πριν μιλήσουμε διεξοδικά για τη διαδικασία της Πολλαπλής Ανάλυσης Αντιστοιχιών με το MINITAB, θα πούμε εν τάχει δύο λόγια σχετικά και με τα δεδομένα που είναι κατάλληλα προς επεξεργασία στο φύλλο εργασίας του MINITAB. Τα δεδομένα λοιπόν μπορούν να ταξινομηθούν με δύο τρόπους: Ακατέργαστα (Raw) ή σε μορφή μεταβλητών δεικτών (Indicator variable). Η διάταξη των δεδομένων του φύλλου εργασίας καθορίζει αποδεκτές τιμές δεδομένων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 131

132 Αν τα δεδομένα δεν έχουν υποστεί επεξεργασία (Raw), μπορούμε να έχουμε μία ή περισσότερες στήλες ταξινόμησης, με κάθε γραμμή να αντιπροσωπεύει μία παρατήρηση. Τα δεδομένα αντιστοιχούν σε κατηγορίες και μπορεί να είναι αριθμητικά, σε μορφή κειμένου ή σε μορφή ημερομηνίας και χρόνου. Εάν επιθυμούμε να αλλάξουμε τη σειρά στην οποία οι κατηγορίες κειμένου υποβάλλονται σε επεξεργασία από την προεπιλεγμένη αλφαβητική σειρά, έχουμε τη δυνατότητα να ορίσουμε τη δική μας επιθυμητή σειρά. Απαραίτητο όμως είναι πριν υλοποιήσουμε την αναφερθείσα διαδικασία να διαγράψουμε απούσες τιμές (missing values). Εάν τα δεδομένα βρίσκονται σε μορφή μεταβλητών δεικτών (Indicator variable), κάθε γραμμή επίσης θα αντιπροσωπεύει μία παρατήρηση. Θα υπάρχει μία στήλη δείκτης για κάθε επίπεδο κατηγορίας. Μπορούμε να ακολουθήσουμε τη διαδρομή Calc/ Make Indicator Variables για να δημιουργήσουμε μεταβλητές δείκτες από τα ακατέργαστα δεδομένα. Παράλληλα πρέπει να απαλείψουμε τυχόν απούσες τιμές πριν ξεκινήσουμε αυτήν τη διαδικασία. Αν υπάρχουν συμπληρωματικά δεδομένα, τα εισάγουμε στο φύλλο εργασίας στην ίδια μορφή, είτε ως ακατέργαστα δεδομένα (Raw) είτε ως μεταβλητές δείκτες (Indicator variables), όπως ακριβώς κάναμε και για τα κανονικά δεδομένα εισαγωγής. Εξαιτίας του ότι τα συμπληρωματικά δεδομένα θα μας παρέχουν επιπρόσθετη πληροφόρηση σχετικά με τις παρατηρήσεις, η στήλη/ οι στήλες των συμπληρωματικών δεδομένων θα πρέπει να έχουν το ίδιο μήκος με τα κανονικά δεδομένα εισαγωγής. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 132

133 16.3: Περιγραφή Διαδικασίας Πολλαπλής Ανάλυσης Αντιστοιχιών Το μονοπάτι που ακολουθούμε στο Μενού Εντολών του MINITAB για την εφαρμογή της μεθόδου της Πολλαπλής Ανάλυσης Αντιστοιχιών είναι το ακόλουθο όπως βλέπουμε και στην Εικόνα 22: Stat/ Multivariate/ Multiple Correspondence Analysis Εικόνα 22: Μενού επιλογής Πολλαπλής Ανάλυσης Αντιστοιχιών Ύστερα ανοίγει το Βασικό Μενού της Απλής Ανάλυσης Αντιστοιχιών Input Data (Εικόνα 23). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 133

134 Εικόνα 23: Βασικό Μενού Πολλαπλής Ανάλυσης Αντιστοιχιών Input Data Εμφανίζεται έτσι το πλαίσιο διαλόγου όπου στο πάνω δεξιά μέρος υπάρχει το πεδίο Input Data, στο οποίο ορίζουμε τις παραμέτρους που είναι σχετικές με τα δεδομένα εισαγωγής. Κατά πρώτον, πρέπει να ορίσουμε τη μορφή των δεδομένων, αν δηλαδή είναι άνευ επεξεργασίας οπότε τα εισάγουμε υπό τη μορφή κατηγορικών μεταβλητών (Categorical variables) ή αν τα δεδομένα προέρχονται από μεταβλητές δείκτες, οπότε εισάγουμε τις στήλες που περιέχουν τα δεδομένα αυτά στο πλαίσιο διαλόγου Indicator variables. Αναλυτικά έχουμε τα εξής: Επιλέγουμε το πλαίσιο διαλόγου Categorical variables εάν τα δεδομένα είναι σε ακατέργαστη μορφή, δεν έχουν υποστεί δηλαδή καμία επεξεργασία και τότε εισάγουμε τις στήλες που περιλαμβάνουν τις κατηγορικές μεταβλητές. Αν τα δεδομένα είναι ταξινομημένα ως μεταβλητές δείκτες (Indicator variables) επιλέγουμε τότε το ομώνυμο πλαίσιο διαλόγου και κατόπιν εισάγουμε τις στήλες που περιέχουν τις συγκεκριμένες μεταβλητές στο πλαίσιο κειμένου. Οι είσοδοι σε όλες τις στήλες πρέπει να είναι οι ακέραιοι 0 ή 1. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 134

135 Στο πλαίσιο διαλόγου Category names εισάγουμε τη στήλη που περιέχει τα ονόματα των κατηγοριών, εάν βέβαια επιθυμούμε να ορίσουμε ονόματα για τις κατηγορίες. Η στήλη ονομάτων πρέπει να είναι στήλη κειμένου της οποίας το μήκος θα ταιριάζει με το πλήθος των κατηγοριών σε όλες τις κατηγορικές μεταβλητές. Για παράδειγμα, ας υποθέσουμε ότι έχουμε 3 κατηγορικές μεταβλητές: Φύλο (άνδρας, γυναίκα), Χρώμα μαλλιών (ξανθό, καστανό, μαύρο) και Ηλικία (κάτω των 20 ετών, από 20 έως 50 ετών, άνω των 50 ετών) και καθόλου συμπληρωματικές μεταβλητές. Τότε θα ορίσουμε 2+3+3=8 ονόματα κατηγοριών και έτσι η στήλη ονομάτων θα περιλαμβάνει 8 γραμμές. Να σημειώσουμε επίσης ότι το MINITAB χρησιμοποιεί μόνο τους πρώτους οκτώ χαρακτήρες των ονομάτων στους εξαγόμενους πίνακες αλλά χρησιμοποιεί όλους τους χαρακτήρες στα διαγράμματα. Στο πλαίσιο διαλόγου Number of components δηλώνουμε τον αριθμό των διαστάσεων που θα υπολογιστούν. Η προεπιλεγμένη (default) επιλογή διαστάσεων του πακέτου είναι 2. Πατώντας το πλήκτρο Results της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Multiple Correspondence Analysis- Results (Εικόνα 24) στο οποίο μπορούμε να επιλέξουμε τα συστατικά που θα συμπεριληφθούν στο παράθυρο εξόδου (Window Output) του MINITAB. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 135

136 Εικόνα 24: Παράθυρο Results Επιλέγουμε το πλαίσιο Indicator table για να εμφανιστεί στο Output ο πίνακας των μεταβλητών δεικτών (Indicator variables). Αν επιλέξουμε το πλαίσιο Burt table θα εμφανιστεί στο Output ο πίνακας Burt, τον οποίο έχουμε περιγράψει αναλυτικά στη θεωρία της Πολλαπλής Ανάλυσης Αντιστοιχιών. Πατώντας το πλήκτρο Supp Data της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Supplementary Data (Εικόνα 25), μέσω του οποίου μπορούμε να ορίσουμε τις παραμέτρους σχετικά με τα συμπληρωματικά δεδομένα, στα οποία έχουμε αναφερθεί εκτενώς και στην περιγραφή της διαδικασίας υλοποίησης της Απλής Ανάλυσης Αντιστοιχιών με το MINITAB. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 136

137 Εικόνα 25: Παράθυρο Supplementary Data Στο πλαίσιο διαλόγου Supplementary data (in same form as input data), εισάγουμε μία ή περισσότερες στήλες που περιέχουν τις στήλες με τα συμπληρωματικά δεδομένα. Επιλέγοντας το πλαίσιο Category names εισάγουμε τη στήλη που περιλαμβάνει ένα όνομα σε μορφή κειμένου για όλα τα συμπληρωματικά δεδομένα, τα οποία ταξινομούνται ανά αριθμητική σειρά των αντίστοιχων κατηγοριών ανά μεταβλητή. Πατώντας το πλήκτρο Storage της Εικόνας 23, ανοίγει το πλαίσιο διαλόγου Simple Correspondence Analysis- Storage (Εικόνα 26) μέσω του οποίου μπορούμε να αποθηκεύουμε τις συντεταγμένες στηλών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 137

138 Εικόνα 26: Παράθυρο Storage Επιλέγοντας το πλαίσιο διαλόγου Coordinates for the components, αποθηκεύουμε τις συντεταγμένες των στηλών όπως είπαμε. Το MINITAB αποθηκεύει τη συντεταγμένη της πρώτης διάστασης στην πρώτη εισηγμένη στήλη, τη συντεταγμένη της δεύτερης διάστασης την αποθηκεύει στη δεύτερη εισηγμένη στήλη κ.ο.κ. Αν υπάρχουν συμπληρωματικά σημεία τότε οι συντεταγμένες τους αποθηκεύονται στο τέλος των στηλών. Αν πατήσουμε το πλήκτρο της Εικόνας 23 Graphs θα ανοίξει το ακόλουθο παράθυρο Simple Correspondence Analysis- Graphs (Εικόνα 27) μέσω του οποίου έχουμε τη δυνατότητα να κατασκευάσουμε γραφήματα στηλών. Σε όλα τα διαγράμματα τα σημεία αναπαρίστανται με μπλε τετράγωνα, τρισδιάστατα τετράγωνα για τα κανονικά σημεία και ανοικτά τετράγωνα για τα συμπληρωματικά σημεία. Ο λόγος διαστάσεων των γραφημάτων είναι ένα προς ένα, έτσι ώστε μια μονάδα στον άξονα x να είναι ίση με μια μονάδα στον άξονα y. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 138

139 Εικόνα 27: Παράθυρο Graphs Στο πάνω μέρος του παραθύρου υπάρχει το πλαίσιο διαλόγου Axis pairs for plots (Y then X), στο οποίο εισάγουμε από 1 έως και 15 ζεύγη αξόνων που θα χρησιμοποιηθούν για τα διαγράμματα στηλών. Οι άξονες που εισάγονται πρέπει να είναι άξονες στον υπόχωρο που ορίσαμε στο βασικό μενού της Εικόνας 23. Για παράδειγμα, αν εισάγαμε 4 στον αριθμό των διαστάσεων τότε μπορούμε να πινακογραφήσουμε τους άξονες 1,2,3 και 4. Ο πρώτος άξονας σε ένα ζευγάρι θα είναι ο Y ή ο κάθετος άξονας στο διάγραμμα. Ο δεύτερος άξονας θα είναι ο X ή ο οριζόντιος άξονας του γραφήματος. Παραδείγματος χάριν, αν εισάγουμε διαγράμματα, τότε θα έχουμε τη διάσταση 2 έναντι της διάστασης 1 και τη διάσταση 3 έναντι της διάστασης 1. Κάτω από αυτό το πλαίσιο διαλόγου υπάρχει η επιλογή Show supplementary points in all plots, την οποία επιλέγουμε για την απεικόνιση των συμπληρωματικών σημείων σε όλα τα διαγράμματα. Τέλος, επιλέγουμε το πλαίσιο διαλόγου Display column plot για την αναπαράσταση ενός γραφήματος που θα δείχνει τις συντεταγμένες στηλών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 139

140 - Κεφάλαιο 17: Άλλα Ζητήματα Εν κατακλείδι, η Πολλαπλή Ανάλυση Αντιστοιχιών διεκπεραιώνεται με την εμφάνιση νέων συνεχών μεταβλητών που συνοψίζουν τις αρχικές κατηγορικές μεταβλητές. Στο σημείο αυτό, να τονίσουμε ότι στην περίπτωση που αναλύουμε πλήθος κατηγορικών δεδομένων, οι πρώτοι άξονες που θα προκύψουν μετά την υλοποίηση της μεθόδου δε θα μπορούν να ερμηνεύσουν ένα μεγάλο και ικανό ποσοστό της μεταβλητότητας των δεδομένων και κατ επέκταση το διάγραμμα των δύο πρώτων αξόνων που επίσης προκύπτει δεν είναι σε θέση να μας αποδώσει μια ικανοποιητική εικόνα των δεδομένων. Ένας τρόπος αντιμετώπισης του συγκεκριμένου προβλήματος θα ήταν να απεικονίσουμε γραφικά ζευγάρια αξόνων, όπως παραδείγματος χάριν τον 1 ο και τον 3 ο άξονα ή τον 2 ο και τον 3 ο άξονα κ.ο.κ. και να συμπεριλάβουμε όλους αυτούς τους συνδυασμούς σε ένα πίνακα- μητρώο γραφημάτων διασποράς (Scatter Matrix) για να έχουμε μια συνολική εικόνα για αυτούς. Υπάρχει πάντα όμως ο κίνδυνος να καταστεί ιδιαίτερα πολύπλοκη αυτή η διαδικασία και να μην οδηγηθούμε στα επιθυμητά αποτελέσματα. Εναλλακτικά, θα μπορούσαμε να δημιουργήσουμε διαγράμματα τριών διαστάσεων με τη χρήση των τριών πρώτων αξόνων, όμως η ταυτόχρονη απεικόνιση άνω των 3 αξόνων δεν είναι δυνατή. Στην περίπτωση αυτή μια λύση που ενδείκνυται είναι οι καμπύλες Andrews. 10 Αν υποθέσουμε ότι μετά την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών έχουμε φθάσει σε ένα λιγοστό αριθμό αξόνων, οι οποίοι όμως εξηγούν ικανοποιητικά ένα μεγάλο ποσοστό της συνολικής Αδράνειας, τότε για να αποδώσουμε γραφικά όλους τους άξονες σε ένα απλό διάγραμμα μπορούμε να κάνουμε χρήση των καμπυλών Andrews για το σύνολο των παρατηρήσεων. Να διευκρινίσουμε πως οι μεταβλητές που θα χρησιμοποιηθούν στην προκειμένη περίπτωση για την εύρεση 10 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 140

141 μιας καμπύλης Andrews θα είναι οι συντεταγμένες των συγκεκριμένων αξόνων που προκύπτουν από την Πολλαπλή Ανάλυση Αντιστοιχιών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 141

142 - Κεφάλαιο 18: Σύνοψη Η Ανάλυση Αντιστοιχιών είναι μια χρήσιμη τεχνική για τη διερεύνηση εξαρτήσεων μεταξύ κατηγορικών μεταβλητών, στην οποία πραγματοποιείται μια ανάλυση ιδιοτιμών των δεδομένων και η διασπορά αναλύεται στις διάφορες υποκείμενες διαστάσεις και συνδέεται με τις γραμμές και/ ή τις στήλες. Απεικονίζοντας τις εξαρτήσεις γραφικά, οι λύσεις της Ανάλυσης Αντιστοιχιών δίνουν στους ερευνητές περισσότερα ερεθίσματα για περαιτέρω ανάλυση από ότι θα έδιναν τα αποτελέσματα ενός ελέγχου ανεξαρτησίας X 2 (Chi-squared). Η Ανάλυση Αντιστοιχιών, κατά πάσα πιθανότητα, υλοποιείται καλύτερα σε συνδυασμό με πιο δόκιμες μεθόδους όπως τα log-linear μοντέλα. Τόσο η Ανάλυση σε Κύριες Συνιστώσες όσο και η Ανάλυση Αντιστοιχιών μπορούν να θεωρηθούν ως διαδικασίες κατάλληλες για λήψη απεικονίσεων μικρής διαστατικότητας πολυμεταβλητών δεδομένων, όπου οι αποστάσεις στον αρχικό χώρο των p διαστάσεων διατηρούνται όσο το δυνατόν στο χώρο μειωμένων διαστάσεων που εξάγεται. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 142

143 3 ο Μέρος (Θεωρητικό): Έρευνα Αγοράς Market Research - Κεφάλαιο 19: Έρευνα Αγοράς 19.1: Ορισμοί Η Έρευνα Αγοράς (Market Research) ορίζεται ως η μελέτη των αγορών (Market Places) και εστιάζει στα άτομα που αγοράζουν προϊόντα και υπηρεσίες, στις ιδιότητες που χαρακτηρίζουν αυτά τα άτομα και στον τρόπο με τον οποίο μπορεί να επιτευχθεί προσέγγιση αυτών των ανθρώπων μέσω της διαφήμισης ή τρίτων μέσων προβολής. Η Έρευνα Αγοράς εξετάζει τις ομάδες καταναλωτών καθώς και τις ανταγωνιστικές επιχειρήσεις που οριοθετούν μια συγκεκριμένη αγορά. Εναλλακτικά, μπορεί να οριστεί ως η διαδικασία συλλογής, ανάλυσης και ερμηνείας πληροφοριών όσον αφορά τη λειτουργία μιας επιχείρησης, τις προσφορές των προϊόντων της καθώς και το σύνολο των πελατών της (υπάρχοντες και δυνητικοί). Η Έρευνα Αγοράς κάνει χρήση στοιχείων που έχουν συλλεχθεί με σκοπό τη βελτίωση των γνώσεων της ως προς τις ανάγκες και τις επιθυμίες των καταναλωτών αλλά επίσης και για τη δομή και τις προοπτικές που διαφαίνονται στον ορίζοντα για μια αγορά. Κάθε Έρευνα Αγοράς πρέπει να χαρακτηρίζεται αφενός από συστηματικότητα, διότι είναι επιτακτικός ο εκ των προτέρων πολύ προσεκτικός της σχεδιασμός και αφετέρου από αντικειμενικότητα, καθώς θα πρέπει να διεκπεραιώνεται άνευ συναισθηματικών, πολιτικών ή άλλων παραγόντων. Πολλάκις, υπάρχει σύγχυση ανάμεσα στην Έρευνα Αγοράς (Market Research) και την Έρευνα Μάρκετινγκ (Marketing Research) 11 αν και καταβάλλεται 11 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 143

144 προσπάθεια από μέρους των ειδημόνων να αποσαφηνίσουν τις δύο έννοιες. Η Έρευνα Μάρκετινγκ, μέσω της χρήσεως κατάλληλων πληροφοριών, καταβάλλει προσπάθεια για τον εντοπισμό και τον ορισμό διαφόρων ευκαιριών και προβλημάτων, έτσι ώστε να καταστεί ευκολότερη η αξιολόγηση και η σχεδίαση αποτελεσματικότερων ενεργειών μάρκετινγκ. Για αυτό το λόγο, η Έρευνα Αγοράς σε τελική ανάλυση αποτελεί το σύνδεσμο ανάμεσα στους καταναλωτές, τους πελάτες και γενικότερα το κοινό [Malhotra & Birks (2004)]. Άρα γίνεται σαφές ότι η Έρευνα Μάρκετινγκ άπτεται περισσότερο των διαδικασιών Μάρκετινγκ 12 ή διαφορετικά του Μίγματος Μάρκετινγκ ή 4P (Product, Price, Promotion, Place) 13 ενώ αντίθετα η Έρευνα Αγοράς σχετίζεται με τη μελέτη των αγορών. Η Έρευνα Αγοράς αποτελεί τμήμα ή τύπο της Έρευνας Μάρκετινγκ. Ερευνά τους καταναλωτές και ιδιαίτερα διερευνά τις καταναλωτικές ανάγκες, τον ανταγωνισμό και τις ευκαιρίες που θα μπορούσαν να προκύψουν όπως και ενδεχόμενες αλλαγές στην αγορά. Παράλληλα, μέσω της Έρευνας Αγοράς είναι δυνατός ο εντοπισμός προβλημάτων, η ανάπτυξη και η αξιολόγηση δυνητικών ενεργειών marketing, ο έλεγχος της απόδοσης marketing όπως και η καλυτέρευση της διαδικασίας του marketing. [Σιώμκος Γ., Μαύρος Δ. (2008)] 12 Βλ. Παράρτημα- Ευρετήριο Όρων 13 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 144

145 19.2: Στόχοι της Έρευνας Αγοράς Η Έρευνα Αγοράς χρησιμοποιείται από τις επιχειρήσεις και άλλους οργανισμούς αποβλέποντας στο να : Εξασφαλίσει τις απαραίτητες για τη λειτουργία τους πληροφορίες. Ελαχιστοποιήσει, όσο το δυνατόν, τα σφάλματα στη διαδικασία λήψης αποφάσεων. Διευκολύνει τη διαδικασία αγοράς (πώλησης προϊόντων ή υπηρεσιών) προσφέροντας στους πωλητές και τους αγοραστές πιο αξιόπιστη πληροφόρηση. Επισημάνει επιχειρηματικές ευκαιρίες. Ανιχνεύσει για πιθανές επιχειρηματικές απειλές και κινδύνους. [Σιώμκος Γ., Μαύρος Δ. (2008)] 19.3: Τύποι Έρευνας Στη βιβλιογραφία απαντώνται τρία είδη έρευνας: Εξερευνητική (Exploratory) Περιγραφική (Descriptive) Αιτιολογική (Causal) Η επιλογή του κατάλληλου είδους είναι συνάρτηση, κατά κύριο λόγο, της φύσης του προβλήματος (παραδείγματος χάριν μια Κοινωνικοοικονομική Έρευνα 14 ) που αντιμετωπίζει η επιχείρηση και καλείται να βρει μια λύση μέσω της Έρευνας Αγοράς. Εν πρώτοις, η Εξερευνητική Έρευνα διεξάγεται με σκοπό τη διερεύνηση αγνώστων ή ευρέων προβλημάτων, στα οποία δεν είναι γνωστές περισσότερες λεπτομέρειες και για αυτό το λόγο είναι ενδεδειγμένη η συγκεκριμένη έρευνα για τη διαλεύκανση του προβλήματος. Δευτερευόντως, κρίνεται σκόπιμη η χρήση της 14 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 145

146 Περιγραφικής Έρευνας όταν επιδιώκουμε την περιγραφή χαρακτηριστικών του πληθυσμού που απαντούν σε ερωτήσεις του τύπου «ποιος», «τι», «πότε», «πού», και «πώς». Εν αντιθέσει με την Εξερευνητική Έρευνα, η Περιγραφική Έρευνα βασίζεται στην ήδη υπάρχουσα κατανόηση του προβλήματος. Πολλάκις, η Περιγραφική Έρευνα χρησιμοποιείται για την εντόπιση διαφορών ανάμεσα σε καταναλωτικές υποομάδες όσον αφορά τις ανάγκες, τις στάσεις, τις γνώμες κ.τ.λ. Κύρια επιδίωξη της Αιτιολογικής Έρευνας είναι η ανεύρεση της σχέσης ανάμεσα στην αιτία και το αιτιατό. Ως επί το πλείστον, η Αιτιολογική Έρευνα ακολουθεί μετά τα δύο προαναφερθέντα είδη ερευνών (Εξερευνητική & Περιγραφική). [Σιώμκος Γ., Μαύρος Δ. (2008)] 19.4: Στάδια Έρευνας Αγοράς Μια συνήθης Έρευνα Αγοράς απαρτίζεται από τις ακόλουθες έξι φάσεις σύμφωνα με τους Malhotra & Birks (2003): 1) Ορισμός του προβλήματος (Problem Definition). 2) Ανάπτυξη μιας προσέγγισης για το πρόβλημα (Development of an Approach to the Problem). 3) Ανάπτυξη σχεδίου έρευνας (Research Design developed). 4) Συλλογή δεδομένων (Fieldwork/ Data Collection). 5) Προετοιμασία και Ανάλυση Δεδομένων (Data Preparation and Analysis). 6) Προετοιμασία Αναφοράς και Παρουσίαση (Report Preparation and Presentation). Σχηματικά, στην εικόνα 28 βλέπουμε τα στάδια διεξαγωγής της Έρευνας Αγοράς [Malhotra & Birks (2003), p.15] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 146

147 Ορισμός Προβλήματος (Problem Definition) Ανάπτυξη μιας Προσέγγισης για το Πρόβλημα (Development of an Approach to the Problem) Ανάπτυξη Σχεδίου Έρευνας (Research Design developed) Συλλογή Δεδομένων (Fieldwork/ Data Collection) Προετοιμασία και Ανάλυση Δεδομένων (Data Preparation) Προετοιμασία της Αναφοράς και Παρουσίαση (Report Preparation and Presentation) Εικόνα 28: Στάδια Διεξαγωγής της Έρευνας Αγοράς 19.5: Πρωτογενή και Δευτερογενή Δεδομένα Μια έρευνα μπορεί να κάνει χρήση πρωτογενών ή δευτερογενών δεδομένων. Τα πρωτογενή δεδομένα (Primary Data) συγκεντρώνονται από τον ερευνητή (αυτοπροσώπως), συγκεκριμένα για τους σκοπούς της έρευνας που είναι υπό διεξαγωγή. Η διαδικασία αυτή της συλλογής τέτοιων δεδομένων είναι κατά γενικό κανόνα χρονοβόρα με αρκετά μεγάλο κόστος. Κύριες μέθοδοι συλλογής πρωτογενών δεδομένων είναι οι επισκοπήσεις (surveys), τα πειράματα, η παρατήρηση, οι «σε βάθος συνεντεύξεις», οι ομάδες εστίασης και οι προβολικές τεχνικές. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 147

148 Τα δευτερογενή δεδομένα (Secondary Data) έχουν ήδη συγκεντρωθεί για σκοπούς διάφορους της συγκεκριμένης έρευνας και κατά κύριο λόγο χαρακτηρίζονται από εύκολη προσβασιμότητα και χαμηλό κόστος συλλογής σε βραχύ χρονικό διάστημα. Παράλληλα όμως, επειδή μπορεί να έχουν συλλεχθεί για άλλους ερευνητικούς σκοπούς, η συνεισφορά τους στην έρευνα που διεξάγεται ενδεχομένως να είναι περιορισμένη και ως εκ τούτου κρίνεται αναγκαία η εκ των προτέρων αξιολόγηση τους. Η ερευνητική δραστηριότητα ξεκινά συνήθως από την αναζήτηση δεδομένων από δευτερογενείς πηγές διότι εκεί είναι πιο εύκολη η αναζήτηση συνάμα με το χαμηλό και ενίοτε μηδενικό κόστος. Στην περίπτωση που δεν υπάρχουν διαθέσιμα δεδομένα σε δευτερογενείς πηγές, τότε προκύπτει η ανάγκη διεξαγωγής πρωτογενούς έρευνας. [Σιώμκος Γ., Μαύρος Δ. (2008)] 19.6: Ποιοτική και Ποσοτική Έρευνα Η συλλογή των κατάλληλων δεδομένων που θα χρησιμοποιηθούν για τους σκοπούς της έρευνας μπορεί να πραγματοποιηθεί με τρεις τρόπους: Μέσω Ποιοτικής Έρευνας (Qualitative Research), Ποσοτικής Έρευνας (Quantitative Research) και τέλος Μικτής ή Πλουραλιστικής Έρευνας (Pluralistic Research) [Burns & Bush (2005)]. H Ποιοτική Έρευνα (Qualitative Research) έχει ως στόχο τη συλλογή δεδομένων για πράγματα που δεν είναι εύκολο να παρατηρηθούν και να μετρηθούν άμεσα (συναισθήματα, σκέψεις, ιδέες, συμπεριφορά κ.α.), με άλλα λόγια είναι η διερεύνηση «του τι βρίσκεται μέσα στο μυαλό του καταναλωτή». Με βάση τους Aaker et al. (2001) υπάρχουν τρεις ευρέως γνωστοί τύποι Ποιοτικής Έρευνας: o Εξερευνητική Ποιοτική Έρευνα (Exploratory) o Ποιοτική Έρευνα Προσανατολισμού (Orientation) o Κλινική Ποιοτική Έρευνα (Clinical) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 148

149 Στην Έρευνα Αγοράς οι Ομάδες Εστίασης (Focus Groups) συνιστούν την πιο γνωστή μέθοδο ποιοτικής έρευνας, των οποίων η χρήση έχει ως σκοπό τη συλλογή της αντίληψης και της γνώμης των καταναλωτών για ποικίλα χαρακτηριστικά προϊόντων. Η τεχνική των ομάδων εστίασης έχει αποδειχθεί ιδιαίτερα χρήσιμη αναφορικά με την προκαταρκτική διερεύνηση του θέματος, αφού είναι εδραιωμένη η γνώμη ότι είναι μια αρκετά δημοφιλή μέθοδος για πεδία που δεν έχουν αναλυθεί ενδελεχώς στο παρελθόν. Ωσαύτως, οι ομάδες εστίασης συμβάλλουν στην κατανόηση μερικών φαινομένων από τους ερευνητές και ακόμα επιτρέπουν τη γρήγορα καταγραφή και κατηγοριοποίηση ιδεών. Οι «σε βάθος συνεντεύξεις» (In-depth Interviews) αποτελούν ένα βαρύνων μέρος της Έρευνας Αγοράς, διότι τροφοδοτούν τον ερευνητή με τη δυνατότητα της σε βάθος διερεύνησης και επίλυσης προβλημάτων και επιπρόσθετα της συλλογής δεδομένων που δεν είναι εφικτή η συγκέντρωση τους μέσω άλλων τεχνικών. Η Ποσοτική Έρευνα, εν αντιθέσει με την Ποιοτική Έρευνα, έχει πολύ συγκεκριμένο σκοπό και χρησιμοποιείται όταν οι ακριβείς πληροφορίες που συσχετίζονται με την έρευνα έχουν καθοριστεί εκ των προτέρων με σαφήνεια και αναζητούνται ποσοτικά αποτελέσματα, με τη βοήθεια των οποίων θα ελεγχθούν οι ερευνητικές υποθέσεις και θα κατασκευαστούν στατιστικά μοντέλα. Απαραίτητο συστατικό της Ποσοτικής Έρευνας αποτελεί η υλοποίηση μιας καλά προπαρασκευασμένης και οργανωμένης Δειγματοληψίας μέσω ενός άρτια σχεδιασμένου ερωτηματολογίου από όπου θα προκύψει ένα αντιπροσωπευτικό δείγμα. Η Μικτή ή Πλουραλιστική Έρευνα είναι κατά βάθος ο συνδυασμός της Ποσοτικής και της Ποιοτικής Έρευνας και η φιλοσοφία της έγκειται στην αξιοποίηση των πλεονεκτημάτων των δύο άλλων τύπων ερευνών. Η διαδικασία της έχει ως εξής: Αρχικά, ο ερευνητής ξεκινά με τη συλλογή ποιοτικών δεδομένων μέσω της χρήσης «σε βάθος συνεντεύξεων», ομάδων εστίασης κ.α. Η Ποιοτική Έρευνα είναι χρήσιμη ως βοηθητικό υπόβαθρο της Ποσοτικής Έρευνας που έπεται. Εν συνεχεία ο ερευνητής πραγματοποιεί το σχεδιασμό του ερωτηματολογίου και την ανάλυση των ποσοτικών δεδομένων που θα προκύψουν από την κατάλληλη δειγματοληπτική Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 149

150 μέθοδο. Βέβαια υπάρχουν και περιπτώσεις όπου η Ποιοτική Έρευνα ακολουθεί την Ποσοτική Έρευνα. Η Μικτή Έρευνα έχει γίνει ιδιαίτερα δημοφιλής όσον αφορά τη μελέτη σύγχρονων και πολυσύνθετων φαινομένων που άπτονται του χώρου του marketing. [Σιώμκος Γ., Μαύρος Δ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 150

151 - Κεφάλαιο 20: Ερωτηματολόγιο (Questionnaire) 20.1: Εισαγωγή Το ερωτηματολόγιο (Questionnaire) είναι ένα τυποποιημένο σύνολο ερωτήσεων που αποσκοπεί στη συλλογή συγκεκριμένων πληροφοριών σχετικά με τους ερωτηθέντες. Η χρήση του εστιάζεται σε τρεις κύριους στόχους: 1. Τη μετατροπή των αναγκαίων πληροφοριών σε συγκεκριμένες ερωτήσεις που θα μπορούν να απαντηθούν από τους ερωτηθέντες. 2. Την προτροπή και την ενθάρρυνση των ερωτηθέντων για να απαντήσουν στις ερωτήσεις. 3. Την ελαχιστοποίηση του Σφάλματος Απόκρισης (Response Error), το οποίο συγκαταλέγεται στην ευρύτερη κατηγορία των Σφαλμάτων Παρατήρησης (Observational Errors) μαζί με τα Σφάλματα Μέτρησης (Measurement Errors). [Ξεκαλάκη Ε. (1995)] 20.2: Χαρακτηριστικά του Ερωτηματολογίου Το ερωτηματολόγιο αποτελεί το σύνδεσμο ανάμεσα στον ερευνητή και των ερωτώμενο. Η επικοινωνία μεταξύ τους είναι αμφίδρομη (βλ. Εικόνα 29), καθώς ο ερευνητής επικοινωνεί με τον ερωτώμενο θέτοντας ερωτήσεις για να αποσπάσει συγκεκριμένες πληροφορίες και ο ερωτώμενος επικοινωνεί με τον ερευνητή τροφοδοτώντας τον με τις πληροφορίες που επιδιώκει να μάθει. Το ερωτηματολόγιο έχει ως σκοπό τη μείωση του ποσοστού «θορύβου» σε αυτήν την αμφίδρομη επικοινωνία. Για παράδειγμα, δύσκολες ερωτήσεις ή ερωτήσεις που είναι ατελείς ή ακόμα «ευαίσθητες» ερωτήσεις που μπορούν να προκαλέσουν σύγχυση αποτελούν περιπτώσεις θορύβου. Κατά γενικό κανόνα, το ερωτηματολόγιο θεωρείται καλή επιλογή όταν οι οικονομικοί πόροι είναι περιορισμένοι όπως και τα χρονικά Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 151

152 Ερωτώμενος Ερευνητής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ- ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ περιθώρια, αλλά και όταν είναι επιτακτική η ανάγκη προστασίας των προσωπικών στοιχείων των ερωτηθέντων. [Σιώμκος Γ., Μαύρος Δ. (2008)] Επικοινωνία με τον ερωτώμενο- ο ερευνητής ζητά πληροφορίες Θόρυβος Επικοινωνία με τον ερευνητή- ο ερωτώμενος δίνει πληροφορίες Εικόνα 29: Το ερωτηματολόγιο ως αμφίδρομη επικοινωνία [Wilson (2006), p.163] 20.3: Σχεδιασμός Ερωτηματολογίου (Questionnaire Design) Ο σχεδιασμός του ερωτηματολογίου είναι μια συστηματική διαδικασία στην οποία ο ερευνητής μελετά διάφορους τύπους ερωτήσεων, αναλύει το πλήθος των παραγόντων που χαρακτηρίζουν την έρευνα, διατυπώνει τις ερωτήσεις μέσω των κατάλληλων λέξεων και οργανώνει το περίγραμμα του ερωτηματολογίου. [Burns & Bush (2004)] Η διαδικασία της σχεδίασης του ερωτηματολογίου αριθμεί εν όλω επτά στάδια (βλ. Εικόνα 30). [Σιώμκος Γ., Μαύρος Δ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 152

153 Καθορισμός των πληροφοριών που χρειάζεται ο ερευνητής Επιλογή των τύπων των ερωτήσεων Απόφαση για τη διατύπωση των ερωτήσεων Καθορισμός της σειράς των ερωτήσεων Προσδιορισμός της μορφολογίας και της εμφάνισης του ερωτηματολογίου Προέλεγχος του ερωτηματολογίου Διεξαγωγή της έρευνας Εικόνα 30: Η διαδικασία σχεδιασμού του ερωτηματολογίου [Wilson (2006), p.164] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 153

154 Στον καθορισμό των πληροφοριών, που επιθυμεί να αντλήσει ο ερευνητής μέσω των ερωτήσεων του ερωτηματολογίου, λαμβάνονται υπόψη οι ερευνητικοί στόχοι, τα ευρήματα της ποιοτικής έρευνας καθώς και τα χαρακτηριστικά των ερωτηθέντων. Οι ερευνητικοί στόχοι βεβαίως είναι αυτοί που καθορίζουν σε μεγάλο βαθμό τις πληροφορίες που θα πρέπει να συγκεντρωθούν με τη βοήθεια του ερωτηματολογίου. Όσον αφορά το 2 ο στάδιο, υπάρχουν δύο τύποι ερωτήσεων: οι ανοικτές και οι κλειστές. Οι ανοικτές ερωτήσεις δίνουν την ευχέρεια στον ερωτώμενο να δώσει τη δική του απάντηση όπως ακριβώς θέλει, χωρίς να δεσμεύεται από επιλογή συγκεκριμένων εναλλακτικών απαντήσεων, όμως ο ερωτώμενος θα πρέπει να καταβάλει μεγαλύτερη προσπάθεια και χρόνο για να τις απαντήσει. Επακόλουθο συνήθως τέτοιου τύπου ερωτήσεων είναι η μεγάλη ποικιλία απαντήσεων που καθιστά ιδιαίτερα δύσκολη την επεξεργασία και ανάλυση τους. Στις κλειστές ερωτήσεις ο ερωτώμενος επιλέγει μία ή περισσότερες απαντήσεις μεταξύ των προσφερόμενων εναλλακτικών απαντήσεων που δίνονται. Τέτοιου τύπου ερωτήσεις παράγουν πιο «ομοιόμορφες» απαντήσεις, με την προϋπόθεση όμως ότι ο ερευνητής έχει συμπεριλάβει όλες τις σχετικές απαντήσεις στη λίστα των πιθανών απαντήσεων. Οι εναλλακτικές απαντήσεις στις κλειστές ερωτήσεις θα πρέπει να είναι εκτενείς και αμοιβαία αποκλειόμενες. Οι πιο συχνά χρησιμοποιούμενοι τύποι κλίμακας για τη μέτρηση μεταβλητών είναι- από την «ασθενέστερη» στην «ισχυρότερη» - η Ονομαστική κλίμακα (Nominal scale), η Διατεταγμένη κλίμακα (Ordinal scale), η κλίμακα Διαστήματος (Interval scale) και η κλίμακα Λόγου (Ratio scale). Οι δύο πρώτες κλίμακες βρίσκουν εφαρμογή σε ποιοτικά- κατηγορικά δεδομένα (Qualitative Data) ενώ οι δύο τελευταίες σε ποσοτικά (Quantitative Data). [Πανάρετος Ι. & Ξεκαλάκη Ε. (2000)] Για τη σωστή διατύπωση των ερωτήσεων καλό είναι να λαμβάνονται υπόψη τα εξής σημεία: Πρώτον, τα χαρακτηριστικά των ανθρώπων, δηλαδή των ερωτηθέντων στους οποίους απευθύνεται το ερωτηματολόγιο. Δεύτερον, ο συγκεκριμένος σκοπός του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 154

155 ερωτηματολογίου και τρίτον η θέση των ερωτήσεων μέσα στο ερωτηματολόγιο. Επίσης κρίνεται σκόπιμη η χρήση απλών λέξεων καθώς και η αποφυγή συντομογραφιών, ξένων λέξεων και εξειδικευμένης φρασεολογίας. Οι ερωτήσεις θα πρέπει να είναι όσο το δυνατόν πιο συγκεκριμένες και να συμπεριλαμβάνουν όλες τις απαραίτητες πληροφορίες. Ερωτήσεις προσωπικού περιεχομένου θα πρέπει να διατυπώνονται με αρκετά διακριτικό τρόπο και επιπλέον μεροληπτικές ερωτήσεις θα πρέπει να αποφεύγονται. Μετά από την επιλογή των ερωτήσεων θα πρέπει να αποφασίσει ο ερευνητής σχετικά με τη μορφή του ερωτηματολογίου, την εμφάνιση του, την έκταση του και τη σειρά ακολουθίας των ερωτήσεων. Θα πρέπει επιπλέον το ερωτηματολόγιο να έχει καλή εμφάνιση και να είναι εύκολο στη συμπλήρωσή του, ενώ και η εκτύπωση του θα πρέπει να είναι προσεγμένη και ευανάγνωστη. Ο προέλεγχος του ερωτηματολογίου συνιστά απαραίτητο κομμάτι της σχεδίασης του ερωτηματολογίου. Κάποιοι μάλιστα έχουν την άποψη ότι είναι καλύτερο να αναβληθεί η έρευνα στην περίπτωση που παρατηρείται ανεπάρκεια πόρων για τη διεξαγωγή του προελέγχου. Επομένως, είναι επιτακτική η λεπτομερής εξέταση όλων των ερωτήσεων ξεχωριστά, αλλά και του ερωτηματολογίου ως σύνολο και κατόπιν χρειάζεται ο απαιτούμενος χρόνος για να ενσωματωθούν όλες οι αλλαγές. [Σιώμκος Γ., Μαύρος Δ. (2008)] 20.4: Δυσκολίες κατά τη σύνταξη του Ερωτηματολογίου Ο ερευνητής δεν πρέπει να κάνει την αυθαίρετη υπόθεση ότι ο ερωτώμενος είναι σε θέση να απαντήσει με ακρίβεια και σύνεση σε όλες τις ερωτήσεις του ερωτηματολογίου. Οι παράγοντες που επηρεάζουν τον ερωτώμενο και δεν του επιτρέπουν να τροφοδοτήσει με τις απαιτούμενες πληροφορίες τον ερευνητή είναι οι ακόλουθοι: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 155

156 Η άγνοια του ερωτώμενου για το συγκεκριμένο θέμα. Η αδυναμία του ερωτώμενου να θυμηθεί. Η αδυναμία του ερωτώμενου να εκφραστεί με ακρίβεια. Η άρνηση εξαιτίας του ότι η ερώτηση είναι ευαίσθητη ή οι περιστάσεις δεν είναι κατάλληλες για απαντήσεις. Οι ερωτήσεις δεν ταιριάζουν ακριβώς με το σκοπό και το αντικείμενο του ερωτηματολογίου. Οι ερωτήσεις δεν έχουν πολύ ξεκάθαρο στόχο. [Σιώμκος Γ., Μαύρος Δ. (2008)] 20.5: Μέθοδοι Διανομής του Ερωτηματολογίου o Προσωπική μέθοδος. o Τηλεφωνική μέθοδος. o Ταχυδρομική μέθοδος. o On-line ερωτηματολόγιο. Θα πρέπει να συνοδεύεται πάντα το ερωτηματολόγιο από μια προφορική εισαγωγή αν συμπληρώνεται μέσω τηλεφωνικής συνδιάλεξης ή από μια επιστολή αν ακολουθείται η προσωπική, η ταχυδρομική ή ακόμα και η ηλεκτρονική μέθοδος. Σε αυτή τη συνοδευτική επιστολή ή αντίστοιχα την προφορική εισαγωγή θα πρέπει να περιγράφεται ο σκοπός της έρευνας, να αιτιολογείται το γιατί επιλέχθηκε το συγκεκριμένο άτομο να συμμετάσχει στην έρευνα όπως και τους λόγους για τους οποίους θα πρέπει να συμμετάσχει στην έρευνα. Ως επί το πλείστον, ένα ερωτηματολόγιο του οποίου η συμπλήρωση απαιτεί το λιγότερο χρόνο, έχει και μεγαλύτερο ποσοστό ανταπόκρισης συγκριτικά με ένα ερωτηματολόγιο που χρειάζεται παραπάνω χρόνο συμπλήρωσης. [Σιώμκος Γ., Μαύρος Δ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 156

157 - Κεφάλαιο 21: Δειγματοληψία 21.1: Εισαγωγή Οι κανόνες και οι μέθοδοι συλλογής και ανάλυσης δεδομένων από πεπερασμένους πληθυσμούς αποτελεί την περιοχή της Στατιστικής που είναι γνωστή ως Μέθοδοι Δειγματοληπτικών Ερευνών (Sample Survey Methods). Η θεωρητική τους βάση ονομάζεται Θεωρία Δειγματοληψίας (Sampling Theory). Μια «καλή» δειγματοληπτική μέθοδος παρουσιάζει τα εξής πλεονεκτήματα: - Χαμηλότερο κόστος: Οι πληροφορίες στα δεδομένα προέρχονται από ένα τμήμα του πληθυσμού. - Μεγαλύτερη ταχύτητα: Η συλλογή και η επεξεργασία των δεδομένων είναι ταχύτερη. - Μεγαλύτερη ακρίβεια: Πιο προσεκτική εποπτεία της διεξαγωγής της έρευνας και πιο προσεκτική επεξεργασία των αποτελεσμάτων είναι εφικτή. Ο κύριος στόχος είναι η λήψη ενός δείγματος το οποίο να είναι αντιπροσωπευτικό του πληθυσμού και το οποίο να οδηγεί σε εκτιμήσεις των χαρακτηριστικών του πληθυσμού με όσο το δυνατόν μεγαλύτερη ακρίβεια μπορούμε να επιτύχουμε για το κόστος ή για την προσπάθεια που είμαστε έτοιμοι να καταβάλλουμε. [Ξεκαλάκη Ε. (1995)] 21.2: Χαρακτηριστικά της Δειγματοληψίας Η Δειγματοληψία (Sampling) ορίζεται ως η διαδικασία ή η τεχνική εντοπισμού και επιλογής μιας ομάδας ατόμων ή νοικοκυριών (αυτό είναι το αντιπροσωπευτικό δείγμα, η μελέτη του οποίου θα μας δώσει πληροφορίες για τον υπό μελέτη πληθυσμό) τα οποία προσεγγίζονται μέσω τηλεφωνικής συνδιάλεξης, ταχυδρομικής αποστολής, Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 157

158 ηλεκτρονικού ταχυδρομείου και γενικότερα του Διαδικτύου και τέλος προσωπικής επαφής με στόχο την παροχή πληροφοριών στον ερευνητή. Το Δείγμα ορίζεται ως ένα υποσύνολο του πληθυσμού το οποίο αντιπροσωπεύει ολόκληρο τον πληθυσμό. Υπάρχουν πέντε παράγοντες που επενεργούν στην εγκυρότητα και την αξιοπιστία του δείγματος και αυτοί είναι οι ακόλουθοι: o Ο βαθμός τυχαιότητας του δείγματος. o Το μέγεθος του πληθυσμού. o Το επιθυμητό περιθώριο σφάλματος των αποτελεσμάτων. o Το επιθυμητό διάστημα εμπιστοσύνης. o Η ελάττωση της μεροληπτικής μη απόκρισης. [Σιώμκος Γ., Μαύρος Δ. (2008)] Κατά κανόνα, η έρευνα θα μπορούσε να βασισθεί στην επισκόπηση όλων των μελών ενός πεπερασμένου πληθυσμού. Μια τέτοια διαδικασία ονομάζεται απογραφή (census). Η απογραφή είναι δηλαδή μια δειγματοληπτική έρευνα με κάλυψη 100%. Το ενδιαφέρον μας όμως εστιάζεται σε πολύ χαμηλότερα επίπεδα κάλυψης, συχνά του ύψους του 1% ή 5%. [Ξεκαλάκη Ε. (1995)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 158

159 21.3: Διαδικασία της Δειγματοληψίας Η διαδικασία της Δειγματοληψίας συγκαταριθμεί συνολικά έξι πρωτεύοντα στάδια τα οποία βλέπουμε στην Εικόνα 31: Ορισμός του πληθυσμού Προσδιορισμός του δειγματοληπτικού πλαισίου Επιλογή μεθόδου δειγματοληψίας Καθορισμός του μεγέθους του δείγματος Επιλογή των στοιχείων του δείγματος Συλλογή των στοιχείων Εικόνα 31: Διαδικασία Δειγματοληψίας [Churchill & Iacobucci (2002), p.449] Οι δειγματοληπτικές τεχνικές διακρίνονται σε δύο ομάδες: Στις τεχνικές πιθανότητας καις τις τεχνικές μη πιθανότητας. Στα δείγματα πιθανότητας στα οποία διενεργείται Απλή Τυχαία Δειγματοληψία 15, Συστηματική Δειγματοληψία, Στρωματοποιημένη Δειγματοληψία ή Δειγματοληψία Ομάδων το κάθε άτομο του πληθυσμού έχει μια γνωστή πιθανότητα (διάφορη του μηδενός) να επιλεγεί για να 15 Βλ. Παράρτημα- Ευρετήριο Όρων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 159

160 συμμετάσχει στο δείγμα, ενώ στα δείγματα μη πιθανότητας (Δείγμα Ευκολίας, Δείγμα Κρίσης, Δείγμα Χιονόμπαλας, Δείγμα με Ποσοστώσεις) η πιθανότητα που έχει ένα άτομο να επιλεγεί στο δείγμα δεν είναι γνωστή. [Σιώμκος Γ. & Μαύρος Δ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 160

161 - Κεφάλαιο 22: Αναφορά και Παρουσίαση (Reporting) των Ευρημάτων της Έρευνας 22.1: Η Διαδικασία Προετοιμασίας της Αναφοράς (Report) και της Παρουσίασης των Ευρημάτων της Έρευνας Η Αναφορά (Report) είναι «μια προφορική παρουσίαση που μπορεί να συνοδεύεται και από ένα γραπτό κείμενο και η οποία αποσκοπεί στο να παρουσιάσει τα αποτελέσματα της έρευνας, τις στρατηγικές προτάσεις καθώς και άλλα συμπεράσματα στη διοίκηση αλλά και σε κάθε ενδιαφερόμενο» [Zikmund (1997)]. Γίνεται επομένως σαφές ότι η Αναφορά έχει ιδιαίτερη σημασία, εφόσον σε αυτήν βασίζονται κυρίως αποφάσεις σχετικές με το marketing και παράλληλα αποτελεί και ιστορικό αρχείο (Historical record) της επιχείρησης. Η Αναφορά όπως και η Παρουσίαση των αποτελεσμάτων αποτελούν το τελευταίο βήμα της διαδικασίας της Έρευνας Αγοράς και άρα το Report συμπυκνώνει ολόκληρη την αξία της έρευνας. Εν τέλει, η διοίκηση ή ο πελάτης αξιολογεί την έρευνα δίνοντας βάση στην ποιότητα της αναφοράς και της παρουσίασης. Στην Εικόνα 32 απεικονίζεται η διαδικασία της προετοιμασίας της Αναφοράς και της Παρουσίασης. Η προετοιμασία της Αναφοράς συντίθεται από τρία πρωτεύοντα βήματα: Την κατανόηση (understanding), την οργάνωση (organizing) και την καταγραφή (writing). Η προφορική παρουσίαση επιδιώκει να επισημάνει τα πλέον σημαντικότερα σημεία της έρευνας και παράλληλα δίνει τη δυνατότητα στον πελάτη να θέσει ερωτήσεις και να ζητήσει διευκρινήσεις πάνω σε σημεία που χρήζουν αποσαφήνισης. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 161

162 Ορισμός του προβλήματος, σχέδιο έρευνας, συλλογή δεδομένων Ανάλυση των δεδομένων Ερμηνεία των αποτελεσμάτων, συμπεράσματα και προτάσεις Προετοιμασία της Αναφοράς (Report) Προφορική Παρουσίαση Ανάγνωση της Αναφοράς μπροστά στον πελάτη Διόρθωση της Αναφοράς Εικόνα 32: Η Διαδικασία Προετοιμασίας της Αναφοράς (Report) και της Παρουσίασης των Ευρημάτων της Έρευνας [Malhotra & Peterson (2006), p.532] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 162

163 - Κεφάλαιο 23: Συνάφεια Έρευνας Αγοράς & Ανάλυσης Αντιστοιχιών 23.1: Εισαγωγή Οι ερευνητές αγοράς πολλάκις χρειάζεται να εντοπίσουν και να ερμηνεύσουν εξαρτήσεις ανάμεσα στις μεταβλητές ενός ορθογώνιου πίνακα- μητρώου δεδομένων. Για να διευκολυνθεί αυτή η διαδικασία διάφορες τεχνικές, όπως για παράδειγμα η Πολυδιάστατη Κλιμακοποίηση (Multidimensional Scaling), η Διακριτική Ανάλυση (Discriminant Analysis), η Κανονική Ανάλυση Συσχετίσεων (Canonical Correlation Analysis), η Παραγοντική Ανάλυση (Factor Analysis) και η Ανάλυση σε Κύριες Συνιστώσες (Principal Components Analysis), έχουν χρησιμοποιηθεί για να απεικονίσουν γραφικά τις γραμμές και τις στήλες ενός πίνακα δεδομένων. Όμως όλες αυτές οι μέθοδοι έχουν μικρή εφαρμοσιμότητα στα κατηγορικά δεδομένα που προκύπτουν από πολλές εφαρμογές στην Έρευνα Αγοράς, κυρίως λόγω των περιορισμών που επιβάλλονται στη διαδικασία της συλλογής δεδομένων. Παραδείγματος χάριν, ένας ερευνητής μπορεί να ενδιαφέρεται για τη σχέση που υπάρχει μεταξύ ορισμένων εταιρειών μιας κατηγορίας προϊόντος και μιας ποικιλίας χαρακτηριστικών που θεωρείται ότι περιγράφουν τις συγκεκριμένες μάρκες. Συχνά ο ερευνητής δίνει στους καταναλωτές μια λίστα των εταιρειών και τους ρωτά να επιλέξουν τα χαρακτηριστικά που κατά τη γνώμη τους περιγράφουν καλύτερα τις μάρκες αντί να τους ζητήσει να αξιολογήσουν κάθε μάρκα με βάση μια κλίμακα. Τα πλεονεκτήματα αυτής της συνηθισμένης διαδικασίας συλλογής δεδομένων είναι ότι είναι γρηγορότερη, ευκολότερη και φθηνότερη από τη λήψη δεδομένων με τη χρήση διατεταγμένης κλίμακας. Η διασταύρωση πινάκων (cross-tabulation) κατηγορικών δεδομένων είναι ίσως η πιο συνηθισμένη μορφή ανάλυσης που συναντάται στην έρευνα (Hoffman and Franke, 1986). Μάλιστα οι ίδιοι συγγραφείς [Hoffman & Franke, (1986) p ] φτάνουν στο ακόλουθο συμπέρασμα: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 163

164 Correspondence Analysis is very flexible. Not only is it flexible in terms of data requirements, but also allows for incorporation of marketing knowledge. Categorical data are common products of marketing research. However, the analysis of such data often is hindered by the requirements and limitations of many familiar research tools. Correspondence Analysis is a versatile and easily implemented analytical method that can do much to assist researchers in detecting and explaining relationships among complex marketing phenomena. Σε ελεύθερη μετάφραση «Η Ανάλυση Αντιστοιχιών είναι πολύ ευέλικτη. Όχι μόνο είναι ευέλικτη υπό την έννοια των υποθέσεων των δεδομένων αλλά ακόμα καθιστά δυνατή την ενσωμάτωση της γνώσης της αγοράς. Τα κατηγορικά δεδομένα είναι συνηθισμένα παράγωγα της Έρευνας Μάρκετινγκ. Όμως, η ανάλυση τέτοιων δεδομένων δυσχεραίνεται από τις απαιτήσεις και τους περιορισμούς πολλών οικείων «εργαλείων» έρευνας. Η Ανάλυση Αντιστοιχιών είναι μια ευπροσάρμοστη και εύκολα υλοποιήσιμη αναλυτική μέθοδος που μπορεί να κάνει πολλά ώστε να βοηθήσει τους ερευνητές στον εντοπισμό και την επεξήγηση σχέσεων ανάμεσα σε πολύπλοκα φαινόμενα αγοράς». Στην Ανάλυση Αντιστοιχιών (Correspondence Analysis) αριθμητικά σκορ (scores) ανατίθενται στις γραμμές και τις στήλες ενός πίνακα δεδομένων, έτσι ώστε να μεγιστοποιηθεί η «ενδοσυσχέτιση» (intercorrelation) τους. Τα σκορ είναι σε αντίστοιχες μονάδες, επιτρέποντας σε όλες τις μεταβλητές να αναπαρασταθούν στον ίδιο χώρο χάριν ευκολίας. Αυτή η απεικόνιση μετά μπορεί να χρησιμοποιηθεί για να φανερώσει τη δομή και τα πρότυπα που εμπεριέχονται στα δεδομένα. Υπό αυτήν την έννοια λοιπόν, η Ανάλυση Αντιστοιχιών συγκαταλέγεται στην κατηγορία των μεθόδων που αποκαλούνται «Διερευνητική Ανάλυση Δεδομένων» (Exploratory Data Analysis). Παρατηρείται γενικά μεγάλη προτίμηση στην γραφική απεικόνιση πινάκων συνάφειας σε χώρο μειωμένων διαστάσεων με σκοπό την εύκολη- ερμηνεία οποιουδήποτε είδους εξάρτησης μεταξύ γραμμών και στηλών. Αυτή είναι η ιδέα πίσω από την Ανάλυση Αντιστοιχιών η οποία καθιστά δυνατή την οπτική αναπαράσταση ενός πίνακα συνάφειας σε μειωμένων διαστάσεων χώρο. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 164

165 23.2: Χρησιμότητα της Ανάλυσης Αντιστοιχιών στην Έρευνα Αγοράς Η Ανάλυση Αντιστοιχιών έχει κάποια χαρακτηριστικά που συμβάλλουν στην ωφελιμότητα της στους ερευνητές αγοράς. Η μεγαλύτερη συμβολή της έγκειται στην πολυμεταβλητή επεξεργασία των δεδομένων μέσω της ταυτόχρονης εξέτασης των κατηγορικών μεταβλητών. Η πολυμεταβλητή φύση της Ανάλυσης Αντιστοιχιών μπορεί να αποκαλύψει συσχετίσεις που δε θα ήταν ανιχνεύσιμες σε μια σειρά συγκρίσεων κατά ζεύγη των μεταβλητών. Η Ανάλυση Αντιστοιχιών επίσης συμβάλλει στο να φανερωθεί το πώς συσχετίζονται οι μεταβλητές και όχι μόνο αν υπάρχει συσχέτιση. Η συνδυαστική γραφική απεικόνιση που προκύπτει από την Ανάλυση Αντιστοιχιών βοηθά στον εντοπισμό δομικών συσχετίσεων μεταξύ των επιπέδων- κατηγοριών των μεταβλητών. Εν τέλει, η Ανάλυση Αντιστοιχιών έχει πολύ ευέλικτες απαιτήσεις αναφορικά με τα δεδομένα. Η μόνη αυστηρή συνθήκη είναι να έχουμε στη διάθεσή μας έναν ορθογώνιο πίνακα δεδομένων με μη αρνητικές καταχωρίσεις. Κατά συνέπεια, ο ερευνητής έχει τη δυνατότητα να συλλέξει κατάλληλα δεδομένα γρήγορα και εύκολα. Ένα ευδιάκριτο πλεονέκτημα της Ανάλυσης Αντιστοιχιών, συγκριτικά με τις υπόλοιπες μεθόδους που παράγουν συνδυαστική γραφική αναπαράσταση, είναι ότι δημιουργεί δύο διπλές οπτικές παρουσιάσεις των οποίων η γεωμετρική διάταξη των αντικειμένων των γραμμών και των στηλών έχουν παρόμοιες ερμηνείες, διευκολύνοντας έτσι την ανάλυση και τον έλεγχο εξαρτήσεων. Σε άλλες πολυμεταβλητές προσεγγίσεις στη γραφική απεικόνιση δεδομένων αυτή η διττότητα δεν υφίσταται. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 165

166 23.3: Εφαρμογές της Ανάλυσης Αντιστοιχιών στο Μάρκετινγκ- Έρευνα Αγοράς o : Γενικά Αν και έχουν αναφερθεί πολύ λίγες εφαρμογές της Ανάλυσης Αντιστοιχιών στη βιβλιογραφία του μάρκετινγκ, το ενδιαφέρον συνεχώς αυξάνεται. Η διαδικασία του Levine (1979) για την ανάλυση «pick-any» δεδομένων, η οποία συνδέεται στενά με την Ανάλυση Αντιστοιχιών, έχει συζητηθεί από τους Holbrook, Moore & Winer (1982). Οι Green et al. (1983) κάνουν χρήση της Ανάλυσης Αντιστοιχιών σε μια διερεύνηση των ρόλων αγοράς των οικογενειών στο σύνολο της επικράτειας. Ο Franke (1983) διευκρινίζει τη χρήση της «Διπλής Κλιμακοποίησης» (Dual Scaling) με μια επανεξέταση δεδομένων από μια μελέτη των Belk, Painter & Semenik (1981) πάνω σε παρατηρούμενες αιτίες και προτιμώμενες λύσεις στο ζήτημα της ενεργειακής κρίσης. Ο Franke (1985) επιπλέον σχολιάζει τη χρήση της «Διπλής Κλιμακοποίησης» στον έλεγχο υποθέσεων επιπέδων-μετρήσεων (measurement-level) και της ερμηνείας απαντήσεων σε μια μέτρηση. Επιπρόσθετα, ο Benzecri (1973) περιγράφει δύο εφαρμογές της Ανάλυσης Αντιστοιχιών που είναι προσανατολισμένες στο μάρκετινγκ, η μία από αυτές αξιολογεί ανταγωνιζόμενες μάρκες τσιγάρων και η άλλη επιλέγει ένα όνομα για μια νεοεισερχόμενη μάρκα τσιγάρων. o : Μερίδια Αγοράς & Τοποθέτηση Προϊόντος Ουσιαστικά δεν υπάρχει όριο στο πλήθος των εφαρμογών μάρκετινγκ στην Ανάλυση Αντιστοιχιών. Στην εξέλιξη των μεριδίων αγοράς παραδείγματος χάριν, η Ανάλυση Αντιστοιχιών θα μπορούσε να χρησιμοποιηθεί στη μελέτη σχετικά ομοιογενών ομάδων ατόμων. Πέραν αυτού, η Ανάλυση Αντιστοιχιών μπορεί να γίνει αρωγός και στις μελέτες τοποθέτησης προϊόντος. Για παράδειγμα, ας υποθέσουμε ότι το ενδιαφέρον μας εστιάζεται στις αντιλήψεις των καταναλωτών για τις διάφορες μάρκες ως μια βάση για την τοποθέτηση μιας συγκεκριμένης μάρκας. Η Ανάλυση Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 166

167 Αντιστοιχιών στις κατηγορικές μάρκες ενός πίνακα χαρακτηριστικών μας παρέχει πληροφορία στην τοποθέτηση κάθε μάρκας σε σχέση με τα χαρακτηριστικά που επιλέχθηκαν για να τις περιγράψουν. o : Αποτελέσματα Διαφημιστικής Καμπάνιας Η Ανάλυση Αντιστοιχιών έχει χρησιμοποιηθεί για να εποπτεύσει την αποδοτικότητα των διαφημιστικών εταιριών στη Γαλλία (Marc 1973). Πριν την διαφημιστική εκστρατεία, μια μελέτη διεξάγεται για να παρακολουθήσει την απόδοση της διαφήμισης. Ύστερα από την εκστρατεία μια άλλη μελέτη πραγματοποιείται. Εν συνεχεία τα αποτελέσματα αυτών των μελετών φανερώνουν τη μετατόπιση στην τοποθέτηση προϊόντος που αποδίδεται στη διαφημιστική εκστρατεία. o : Απόψεις Καταναλωτών -Ανάπτυξη Νέου Προϊόντος Η μέθοδος παράλληλα μπορεί να αποδειχθεί χρήσιμη στη φάση σχεδιασμού της διαδικασίας ανάπτυξης νέου προϊόντος. Έστω ότι ένας μάνατζερ νέου προϊόντος συγκεντρώνει (δυαδικές) τις αντιλήψεις καταναλωτών σε μια ποικιλία προτεινόμενων χαρακτηριστικών μιας νέας προσφοράς. Η Ανάλυση Αντιστοιχιών του πίνακα καταναλωτών & χαρακτηριστικών προϊόντος προσφέρει κατευθυντήριες οδηγίες για τις κατάλληλες βάσεις τμηματοποίησης και πιθανών συνδυασμών στρατηγικής μάρκετινγκ. Η μέθοδος συνάμα μπορεί να εφαρμοστεί στη φάση της δοκιμής της «ιδέας» (concept), όπου μερικές «ιδέες» ανταγωνίζονται για αναπτυξιακά κεφάλαια. Η ανάλυση αυτών των «ιδεών» με τη βοήθεια πίνακα χαρακτηριστικών μπορεί να προσδιορίσει τις «ιδέες» που διαθέτουν τα πιο ευνοϊκά προφίλ και ως εκ τούτου θα πρέπει να εξελιχθούν παραπέρα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 167

168 23.4: Εξέταση Δεδομένων (Data Considerations) Πολλές καταστάσεις στην Έρευνα Αγοράς οδηγούν σε δεδομένα ονομαστικής ή διατεταγμένης κλίμακας (Perreault & Young 1980). Τέτοια δεδομένα είναι κατά κανόνα δύσχρηστα με τις παραδοσιακές αναλυτικές μεθόδους. Μια κοινή αιτία αυτού του τύπου των δεδομένων είναι η αποτίμηση «αντικειμένων» (όπως για παράδειγμα καταστήματα λιανικής πώλησης, ανταγωνιστικά προϊόντα, ιδιώτες) όσον αφορά χαρακτηριστικά (παραδείγματος χάριν χαρακτηριστικά προϊόντος, απόψεις και συμπεριφορά καταναλωτών), με δυαδική απόφαση παρά με χρήση κλίμακας 5 ή 7 διαβαθμίσεων. Η δυαδική απόφαση (Binary Judgment) είναι χρήσιμη όταν ο ερευνητής έχει πολλά «αντικείμενα» ή χαρακτηριστικά για να μετρήσει ή όταν οι ερωτηθέντες είναι δύσκολο να συνεργαστούν ή ακόμα όταν δεν είναι εύκολο να γίνει διάκριση ανάμεσα στα «αντικείμενα» και στα χαρακτηριστικά ή τέλος όταν είναι δύσχρηστες οι διατεταγμένες κλίμακες. Μια άλλη πηγή δεδομένων συνηθισμένη στην Έρευνα Αγοράς είναι η ανοικτού τύπου εξαγωγή χαρακτηριστικών, εταιρειών, καταστημάτων κ.ο.κ. από ερωτηθέντες (δηλαδή δεδομένα «pick-any»). Με ένα άνευ περιορισμών σύνολο εναλλακτικών λύσεων, η αποτυχία να αναφερθεί μια εναλλακτική λύση δεν υπονοεί απαραίτητα απόρριψη αυτού. Η Ανάλυση Αντιστοιχιών είναι κατάλληλη για τέτοια δεδομένα ενώ αντιθέτως δεν είναι κατάλληλες ορισμένες τυπικές πολυδιάστατες μέθοδοι κλιμακοποίησης (Holbrook, Moore & Winer 1982). Αν και η Ανάλυση Αντιστοιχιών ταιριάζει ιδανικά σε αυτές τις καταστάσεις που συναντώνται στην έρευνα όπου οι κατηγορικές μετρήσεις είναι αυτές που λαμβάνονται πιο συχνά, μπορεί ακόμα να εφαρμοστεί σε διατεταγμένες κατηγορίες και «διακριτοποιημένες» ποσοτικές μεταβλητές (Jambu & Lebeaux 1983), στις οποίες όμως η αρχική διάταξη μπορεί να μη διατηρηθεί μετά την κλιμακοποίηση εκτός και αν η λύση έχει περιορισμό (Nishisato & Sheu 1984). Αυτός ο τύπος εφαρμογής επιτρέπει τη διερεύνηση πιθανών μη-γραμμικοτήτων ανάμεσα στις κατηγορίες σε σχέση με τους βασικούς άξονες. Επιπλέον μπορεί να καταλήξει στην ανακάλυψη συσχετίσεων μεταξύ κατηγοριών κλίμακας τιμών, οι οποίες αποκρύπτονται αν τα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 168

169 δεδομένα διχοτομούνται ή αν χρησιμοποιούνται μέθοδοι που αναγνωρίζουν μόνο τις μετρικές ιδιότητες των δεδομένων. Κατ αυτόν τον τρόπο, μια «απώλεια πληροφορίας» στην αγνόηση της φύσης της διάταξης ή της κλίμακας διαστήματος των δεδομένων επιφέρει ένα βαρυσήμαντο κέρδος στην κατανόηση (Lebart, Morineau & Warwick 1984). Οι εφαρμογές της Ανάλυσης Αντιστοιχιών είναι στην πραγματικότητα απεριόριστες, όμως οι Lebart, Morineau & Warwick (1984) προτείνουν τρεις προϋποθέσεις που πρέπει να ικανοποιούνται για να είναι πιο αποτελεσματική η μέθοδος: 1. Ο πίνακας δεδομένων πρέπει να είναι αρκετά μεγάλος έτσι ώστε η οπτική εξέτασή του ή η απλή στατιστική ανάλυση να μη μπορεί να αποκαλύψει τη δομή του. 2. Οι μεταβλητές πρέπει να είναι ομοιογενείς έτσι ώστε να έχει νόημα ο υπολογισμός της στατιστικής απόστασης μεταξύ γραμμών και στηλών και επίσης οι αποστάσεις αυτές να ερμηνεύονται κατά ουσιαστικό τρόπο. 3. Ο πίνακας δεδομένων πρέπει να είναι εκ των προτέρων «άμορφος», να στερείται δηλαδή μορφής, να είναι ακαθόριστος. Με άλλα λόγια, η μέθοδος είναι πιο γόνιμα υλοποιήσιμη σε δεδομένα των οποίων η δομή είναι είτε άγνωστη είτε μόνο απλά κατανοητή. o : Σημαντικότητα των Εξαρτήσεων (Significance of Dependencies) Το πρώτο βήμα στην ερμηνεία της Ανάλυσης Αντιστοιχιών είναι να διαπιστώσουμε εάν υφίσταται στατιστικά σημαντική εξάρτηση ανάμεσα στις γραμμές και τις στήλες. Υπάρχουν δύο τρόποι για τη διαπίστωση αυτή. Πρώτον, εξετάζουμε το Ίχνος (tr) (Trace) το οποίο ως γνωστόν είναι το άθροισμα των στοιχείων της κυρίας διαγωνίου ενός n n τετραγωνικού πίνακα. Η τετραγωνική ρίζα του ίχνους μπορεί να ερμηνευθεί ως ο συντελεστής συσχέτισης μεταξύ γραμμών και στηλών. Ως γενικός κανόνας, κάθε τιμή αυτού του συντελεστή Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 169

170 συσχέτισης που υπερβαίνει το 0,2 υποδεικνύει στατιστικά σημαντική εξάρτηση. Αυτή είναι μια πρόχειρη και «έτοιμη» προσέγγιση και έτσι κατά δεύτερο λόγο έχουμε μια πιο ενδελεχής θεώρηση που είναι ο υπολογισμός του X 2 (Chi- square) στατιστικού από τον παρακάτω τύπο: a b 2 X tr fij i1 j1. o : Διαστατικότητα της Επίλυσης (Dimensionality of the Solution) Το δεύτερο βήμα συνίσταται στον καθορισμό του κατάλληλου πλήθους διαστάσεων της επίλυσης. Αυτό επιτυγχάνεται ερευνώντας την αναφορά των ιδιοτιμών πιο διεξοδικά. Το άθροισμα των ιδιοτιμών ισούται με το Ίχνος. Ο λόγος της ιδιοτιμής ενός άξονα προς το Ίχνος αντιστοιχεί στο ποσοστό της συνολικής Αδράνειας (ή X 2 - Chi- square τιμή) που ερμηνεύεται από το συγκεκριμένο άξονα. Το συγκεντρωτικό ποσοστό συνολικής Αδράνειας που ερμηνεύεται από τους άξονες συχνά αναφέρεται στη βιβλιογραφία ως «Διατήρηση της Επίλυσης» (Retention of the Solution). Προφανώς, όσο υψηλότερη είναι η τιμή της τόσο περισσότερη «ουσία» από τα αρχικά δεδομένα θα διατηρείται στην μειωμένων διαστάσεων επίλυση. o : Ερμηνεία των Αξόνων (Interpreting the Axes) Είναι κοινός κανόνας η απλή απεικόνιση των συντεταγμένων στο Output της Ανάλυσης Αντιστοιχιών. Αυτό αποκαλείται ως Γαλλικό ή Συμμετρικό Διάγραμμα (French/ Symmetric Plot). Παρόλο που αυτό το γράφημα μπορεί να είναι χρήσιμο, μπορεί επίσης να οδηγήσει σε παρερμηνεία εάν εξεταστεί μόνο του ή μονάχα οπτικά. Η αιτία για αυτό έγκειται στο ότι οι Κύριες Συντεταγμένες (Principal co-ordinates) απεικονίζονται για τις γραμμές και τις στήλες ταυτόχρονα. Αυτές οι συντεταγμένες αναπαριστάνουν τα Προφίλ Γραμμών και Στηλών και όχι τις κορυφές για τις οποίες οι Πρότυπες Συντεταγμένες (Standard co-ordinates) απαιτούνται. Αυτό Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 170

171 σημαίνει πως οι αποστάσεις μεταξύ οποιωνδήποτε σημείων γραμμών καθώς και οι αποστάσεις μεταξύ οποιωνδήποτε σημείων στηλών είναι βαρυσήμαντες και επιδέχονται ερμηνείας, αλλά δεν ισχύει το ίδιο και για τις αποστάσεις ανάμεσα σε σημεία γραμμών και στηλών. Προκειμένου να ερμηνεύσουμε κάθε απόσταση μεταξύ των σημείων, τα Προφίλ των Στηλών πρέπει να παρουσιάζονται σε χώρο γραμμών (κορυφές) ή αντίστροφα. Το Γαλλικό ή Συμμετρικό Διάγραμμα απεικονίζει τα Προφίλ Γραμμών και Στηλών ταυτόχρονα σε ένα κοινό χώρο. Αυτό το πρόβλημα είναι δυνατό να αντιμετωπιστεί με δύο τρόπους. Η απλούστερη λύση είναι η απεικόνιση μόνο Μη Συμμετρικών Διαγραμμάτων (Asymmetric Plots). Οι κορυφές των γραμμών (ή των στηλών) αναπαρίστανται με βάση τις Πρότυπες Συντεταγμένες και τα Προφίλ των στηλών (ή των γραμμών) απεικονίζονται με βάση τις Κύριες Συντεταγμένες. Οι Πρότυπες και οι Κύριες Συντεταγμένες (Standard and Principal co-ordinates) για κάθε άξονα συνδέονται μέσω του παρακάτω τύπου: ij j ij P S όπου Pij και Sij είναι οι Κύριες και οι Πρότυπες Συντεταγμένες αντίστοιχα της γραμμής (ή της στήλης) i στον άξονα j και λ j είναι η ιδιοτιμή του άξονα j. Ο δεύτερος τρόπος είναι περιπλοκότερος αλλά συνάμα πολύ πιο αποτελεσματικός στην αντιμετώπιση του προβλήματος υπό την έννοια της αφθονίας περιεχομένου και νοήματος. Σύμφωνα με αυτόν, ερμηνεύουμε τους άξονες υπό το πρίσμα των γραμμών (ή των στηλών) και απεικονίζουμε μόνο τα σημεία στηλών (ή σημεία γραμμών) στο χώρο των αξόνων που έχουν επισημανθεί (labeled axes). Το πρώτο βήμα σε αυτήν τη διαδικασία είναι να αποφασίσουμε εάν θα ερμηνεύσουμε τους άξονες με βάση τις γραμμές ή τις στήλες. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 171

172 o : Η Ποιότητα της Παρουσίασης (The Quality of Representation) Προσδιορίζοντας την Ποιότητα της Παρουσίασης μιας συγκεκριμένης γραμμής ή στήλης προσθέτουμε επιπλέον πλούτο στην ερμηνεία των συσχετίσεων του πίνακα συνάφειας. Ορισμένα λογισμικά προσφέρουν λεπτομέρειες της Ποιότητας αυτόματα. Ωστόσο, αν αυτή η πληροφορία δεν είναι διαθέσιμη, η Ποιότητα της Παρουσίασης υπολογίζεται εύκολα από τις συσχετίσεις (correlations) ή τετραγωνικές συσχετίσεις (squared correlations). Οι τετραγωνικές συσχετίσεις που υπολογίζονται για κάθε στήλη μετρούν το βαθμό συνάφειας ανάμεσα στη συγκεκριμένη στήλη και ένα καθορισμένο άξονα. Η Ποιότητα της Παρουσίασης μιας γραμμής ή στήλης σε n διαστάσεις είναι απλά το άθροισμα των τετραγωνικών συσχετίσεων της συγκεκριμένης γραμμής ή στήλης στις n διαστάσεις. o : Συμπληρωματικά Σημεία (Supplementary Points) Μια από τις πιο ευέλικτες απόψεις της Ανάλυσης Αντιστοιχιών είναι η πιθανότητα απεικόνισης συμπληρωματικών σημείων δεδομένων στον ίδιο χώρο μειωμένων διαστάσεων. Η μόνη προϋπόθεση είναι ότι τα συμπληρωματικά σημεία πρέπει να έχουν κοινές γραμμές ή στήλες με τα αρχικά δεδομένα. Τα συμπληρωματικά σημεία απλώς αναπαρίστανται στο χώρο και δεν έχουν καμία επίδραση στον καθορισμό της φύσης ή του προσανατολισμού του. o : Ακραίες τιμές (Outliers) Κατά καιρούς τα δεδομένα που περιέχονται σε έναν πίνακα συνάφειας μπορεί να περιλαμβάνουν μία ή περισσότερες ακραίες τιμές (outliers) στις γραμμές ή/και τις στήλες. Συνέπεια αυτού του φαινομένου είναι να κυριαρχούν αυτές οι ακραίες τιμές όσον αφορά την ερμηνεία ενός ή περισσοτέρων αξόνων. Με αυτόν τον τρόπο τα εναπομείναντα σημεία γραμμών ή/και σημεία στηλών τείνουν να ομαδοποιούνται στενά στα εξαγόμενα γραφήματα και έτσι γίνεται δυσκολότερη η ερμηνεία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 172

173 Πιθανές ακραίες τιμές μπορούν να εντοπιστούν μέσω της αναζήτησης γραμμών ή στηλών που έχουν ταυτόχρονα υψηλές απόλυτες τιμές συντεταγμένων και υψηλές Συνεισφορές (Contributions). Οι συντεταγμένες που εξάγονται στο Output της Ανάλυσης Αντιστοιχιών αντιπροσωπεύουν τον αριθμό των τυπικών αποκλίσεων που η γραμμή (ή η στήλη) απέχει από το βαρύκεντρο (barycentre). Οι ακραίες τιμές χαρακτηρίζονται όντας τουλάχιστον μια τυπική απόκλιση μακριά από το βαρύκεντρο αλλά και από τη σημαντική τους συνεισφορά (contribution) στην ερμηνεία ενός πόλου ενός άξονα. Οι ακραίες τιμές πρέπει να αντιμετωπίζονται ως συμπληρωματικά σημεία και η διαδικασία της Ανάλυσης Αντιστοιχιών να εφαρμόζεται ξανά, χωρίς αυτές οι τιμές να καθορίζουν τη φύση ή τον προσανατολισμό των βασικών αξόνων. Αντιμετωπίζοντας το σημείο ως συμπληρωματικό, αυτό επιτρέπει πιο ενδελεχή μελέτη της δομής των εναπομεινάντων σημείων των οποίων η πολυμεταβλητή συνάφεια δεν διαπιστώνεται αμέσως από την εξέταση. Όταν ανιχνεύεται μια ακραία τιμή η προκύπτουσα ερμηνεία των αξόνων πρέπει να θεωρηθεί υπό το πρίσμα της απόκρυψης της ακραίας τιμής. Η ερμηνεία που θα εξαχθεί θα πρέπει να χαρακτηρίζεται από το γεγονός ότι θα έχει σημασία μόνο μετά την απόκρυψη της ακραίας τιμής που όπως αναφέραμε θα είχε κυρίαρχη επιρροή σε αυτήν ερμηνεία. Παράλληλα όταν μια ακραία τιμή εντοπίζεται σε μια γραμμή, υπάρχουν ως επί το πλείστον συσχετισμένες στήλες που είναι επίσης ακραίες τιμές και αντιστρόφως. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 173

174 23.5: Τελικές Παρατηρήσεις Η Ανάλυση Αντιστοιχιών είναι μια μέθοδος διερευνητικής ανάλυσης δεδομένων που (1) ποσοτικοποιεί πολυμεταβλητά κατηγορικά δεδομένα, (2) παρέχει γραφική απεικόνιση της δομής στα δεδομένα και (3) δεν θέτει αυστηρούς περιορισμούς μετρήσεων. Σε πολλές εφαρμογές η χρήση της είναι σαφής και ξεκάθαρη. Όταν εξετάζονται πολύπλοκες πολυμεταβλητές σχέσεις, η Ανάλυση Αντιστοιχιών περιορίζεται μόνο από την εφευρετικότητα του ερευνητή στο να ερμηνεύει την εξαγόμενη απεικόνιση χώρου. Ως μια γραφική μέθοδος ανάλυσης δεδομένων, η Ανάλυση Αντιστοιχιών εφαρμόζεται καλύτερα σα μια πολυμεταβλητή περιγραφική στατιστική τεχνική συμπληρωματική σε άλλες μορφές ανάλυσης. Η Ανάλυση Αντιστοιχιών είναι ιδιαίτερα ευέλικτη. Όχι μόνο είναι ευέλικτη από την άποψη περιορισμών δεδομένων αλλά επίσης επιτρέπει την ενσωμάτωση της γνώσης της αγοράς. Στη μελέτη μιας παραγωγικής τάξης για παράδειγμα, ο ερευνητής μπορεί να θέσει μάζες εταιρειών ισοδύναμες με το μερίδιο αγοράς ή πωλήσεις σε δολάρια της καθεμίας ή ίσως, στα ποσοστά των καταναλωτών οι οποίοι χρησιμοποιούν το προϊόν στον πληθυσμό. Η τεχνική της προσαρμογής των συμπληρωματικών σημείων στην απεικόνιση είναι ένας ενδιαφέρων και στην πραγματικότητα απεριόριστος τρόπος για να ενσωματώσει κανείς εξωτερική πληροφορία στην ανάλυση. Είναι ακόμα χρήσιμη η τεχνική αυτή, ως ένας έλεγχος εγκυρότητας στα δεδομένα και ως ένα εργαλείο για το χειρισμό ενοχλητικών ακραίων τιμών. Αν και η Ανάλυση Αντιστοιχιών έχει περιορισμούς, που ο πιο σημαντικός είναι ότι οι αποστάσεις μεταξύ των σημείων του συνόλου στη γραφική απεικόνιση δεν είναι ερμηνεύσιμες, η ευελιξία της μπορεί να την καταστήσει πιο ταιριαστή από άλλες μεθόδους για εφαρμογές Έρευνας Αγοράς σε πολλές καταστάσεις. Τα κατηγορικά δεδομένα είναι συνηθισμένα προϊόντα της Έρευνας Αγοράς. Εντούτοις, η ανάλυση τέτοιων δεδομένων πολλάκις εμποδίζεται από τους περιορισμούς πολλών γνωστών ερευνητικών εργαλείων. Η Ανάλυση Αντιστοιχιών είναι μια ευπροσάρμοστη και εύκολα υλοποιήσιμη αναλυτική μέθοδος που μπορεί να κάνει πολλά για να βοηθήσει τους ερευνητές στο να ελέγξουν και να εξηγήσουν συσχετίσεις ανάμεσα σε πολύπλοκα φαινόμενα αγοράς. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 174

175 4 ο Μέρος: Πρακτική Εφαρμογή Ανάλυσης Αντιστοιχιών (Correspondence Analysis) σε Έρευνα Αγοράς (Market Research) με τη βοήθεια των SPSS &MINITAB - Κεφάλαιο 24: Μεθοδολογικό Πλαίσιο 24.1: Ταυτότητα της Έρευνας Τα απαραίτητα δεδομένα που χρησιμοποιήσαμε για να υλοποιήσουμε την Ανάλυση Αντιστοιχιών (Απλή και Πολλαπλή) σε Έρευνα Αγοράς τα αντλήσαμε από υπάρχουσα βάση δεδομένων της DATA RC, εταιρείας που παρέχει υπηρεσίες ερευνών αγοράς και μάρκετινγκ και πιο συγκεκριμένα από τη κυρία Θάλεια Κανελλοπούλου υπεύθυνης του τμήματος ερευνών, την οποία και ευχαριστούμε θερμά για την ευγενή προσφορά αυτών των δεδομένων. Έχοντας επομένως στη διάθεση μας μόνο το ερωτηματολόγιο της έρευνας (το οποίο παραθέτουμε στο Παράρτημα) και τη βάση δεδομένων της πραγματοποιηθείσης έρευνας της DATA RC, γίνεται αντιληπτό ότι δε θα αναφερθούμε στο ερευνητικό πλαίσιο, το σκοπό, τους στόχους και τα ερευνητικά ερωτήματα της συγκεκριμένης έρευνας αγοράς διότι όλα τα παραπάνω καθορίζονται σε πολύ μεγάλο βαθμό από την εταιρεία και τους πελάτες της. Οπότε θα επικεντρώσουμε το ενδιαφέρον μας μόνο στο πρακτικό κομμάτι της έρευνας και τα ευρήματα της έρευνας μέσω της εφαρμογής της Ανάλυσης Αντιστοιχιών. Η καταγραφή και η μελέτη των στάσεων των πολιτών μεγάλων πόλεων της Ελλάδας (Αθήνα, Θεσσαλονίκη, Πάτρα) σχετικά με τα Εμπορικά Καταστήματα αποτελεί το βασικό αντικείμενο της περιγραφικής (ποσοτικής) δειγματοληπτικής έρευνας με χρήση ερωτηματολογίου που διεξήχθη υπό την αιγίδα της DATA RC, εταιρείας που διεκπεραιώνει στατιστικές έρευνες κοινής γνώμης. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 175

176 24.2: Μέθοδος Δειγματοληπτικής Έρευνας Το μέγεθος του δείγματος που χρησιμοποιήθηκε στην έρευνα ήταν τελικά 593 συμμετέχοντες, το οποίο κρίνεται αρκετά ικανοποιητικό αν σκεφθούμε πως συνήθως το ενδιαφέρον μας εστιάζεται σε χαμηλά επίπεδα κάλυψης, της τάξεως του 1% ή 5% του μεγέθους του πληθυσμού. Αφού καθορισθεί το πρόβλημα και διαμορφωθούν οι υποθέσεις εργασίας, επιλέγεται η μέθοδος και οι κατάλληλες τεχνικές της έρευνας. Ερευνητικό εργαλείο της παρούσας έρευνας αγοράς αποτέλεσε το ερωτηματολόγιο έντυπης μορφής, καθώς επιτυγχάνεται η συγκέντρωση πολυπληθών πληροφοριών και παρατηρήσεων από μεγάλο αριθμό ατόμων σε σύντομο χρονικό διάστημα. Ακόμα επιτρέπει τις συγκρίσεις, την ποσοτικοποίηση των δεδομένων και τις στατιστικές αναλύσεις των στοιχείων που συλλέγονται, ενώ η ανωνυμία των ερωτηματολογίων εξασφαλίζει την ειλικρίνεια των απαντήσεων. Το ερωτηματολόγιο που χρησιμοποιήθηκε στην έρευνα αποτελούνταν από δύο κύριες θεματικές ενότητες. Η πρώτη θεματική περιλάμβανε δεκατέσσερις ομάδες ερευνητικών ερωτήσεων και η δεύτερη θεματική ενότητα αφορούσε τα προσωπικάδημογραφικά στοιχεία των ερωτώμενων. Για την κατασκευή του ερωτηματολογίου χρησιμοποιήθηκαν ερωτήσεις κλειστού και ημι-ανοικτού τύπου. Το βασικό πλεονέκτημα των ερωτήσεων κλειστού τύπου είναι ότι φαίνεται να μοιάζουν λιγότερο προσωπικές και η συμπλήρωση τους είναι εύκολη από τα υποκείμενα της έρευνας, στοιχείο σημαντικό, καθώς δεν υπάρχει ο κίνδυνος εγκατάλειψης του ερωτηματολογίου. Δίνεται επίσης η δυνατότητα στον ερευνητή της εύκολης κωδικοποίησης και επεξεργασίας των πληροφοριών. Από την άλλη πλευρά, μειονέκτημα αποτελεί το γεγονός ότι στις κλειστές ερωτήσεις η επιλογή και η ελευθερία έκφρασης του ερωτώμενου είναι περιορισμένες στο ελάχιστο, και οι προσφερόμενες απαντήσεις είναι αδύνατο να είναι εξαντλητικές σε σχέση με την κάλυψη του θέματος. Οι απαντήσεις μερικών ερωτήσεων (συγκεκριμένα τέσσερεις ερωτήσεις, μία στα προσωπικά- δημογραφικά στοιχεία του ερωτηματολογίου και τρεις στα ερευνητικά ερωτήματα) ήταν ημι-ανοικτού τύπου έτσι ώστε να υπάρχει η Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 176

177 δυνατότητα στους ερωτώμενους να προβάλουν τις απόψεις τους οι οποίες μπορεί να διαφέρουν. Η συγκεκριμένη επιλογή αποσκοπούσε στην ανάδειξη ενός ευρύτερου πλαισίου πληροφοριών, όπως και στην αξιοποίηση των δηλώσεών τους προκειμένου να εμπλουτίσουν τόσο τη στατιστική ανάλυση, όσο και στη δημιουργία ενός ερμηνευτικού πλαισίου κατά τη διάρκεια της εξαγωγής των συμπερασμάτων. 24.3: Πληθυσμός αναφοράς και προσδιορισμός μεγέθους του δείγματος Δεν διαθέτουμε πληροφορίες σχετικά με τη χρονική διάρκεια της έρευνας αγοράς, ούτε την ημερομηνία έναρξης και περάτωσης της. Ως πληθυσμός αναφοράς της έρευνας ορίστηκε το σύνολο των ανθρώπων που ήταν διαθέσιμοι εκείνη τη χρονική περίοδο που διεξαγόταν η έρευνα έξω από εμπορικά καταστήματα μεγάλων πόλεων της Ελλάδας. Ο συνολικός πληθυσμός αναφοράς της παρούσας έρευνας αφορούσε 593 άτομα. Οι συνθήκες κάτω από τις οποίες πραγματοποιείται η παρούσα έρευνα, όπως και ο συνυπολογισμός παραγόντων που συνδέονται με την οικονομία και την πρακτικότητα προσδιορίζουν σε σημαντικό βαθμό και τον τρόπο επιλογής του δείγματος Για να θεωρηθεί ένα δείγμα αντιπροσωπευτικό ολόκληρου του πληθυσμού από τον οποίο προέρχεται, βασική προϋπόθεση είναι να έχει επιλεχθεί με τυχαία δειγματοληψία. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 177

178 24.4: Περιγραφή μεθόδων επεξεργασίας και ανάλυσης των δεδομένων- Στατιστική Συμπερασματολογία Για την εξαγωγή των αποτελεσμάτων και τη στατιστική επεξεργασία των αποτελεσμάτων χρησιμοποιήθηκαν τα λογισμικά: 1) Το στατιστικό πακέτο για κοινωνικές επιστήμες IBM SPSS (Statistical Package for Social Sciences) Statistics και 2) το MINITAB Η δειγματοληπτική έρευνα αφορά ένα δείγμα 593 ατόμων. Αρχικά αφού γίνει η συγκέντρωση των δεδομένων της έρευνας ακολουθεί η διαδικασία της λειτουργικοποίησης, δηλαδή η μετατροπή των εννοιών σε μεταβλητές και στη συνέχεια η κωδικοποίηση τους και η καταχώρησης τους σε ένα αρχείο δεδομένων (data file). Ακολούθως πραγματοποιείται η στατιστική τους επεξεργασία- ανάλυση και εν τέλει γίνεται η ποσοτική και περιγραφική παρουσίαση των αποτελεσμάτων. Κάθε ερωτηματολόγιο αριθμείται και καταχωρούνται οι απαντήσεις. Τέλος πραγματοποιείται έλεγχος για την ακρίβεια των κωδικοποιημένων δεδομένων και ξεκινά η διαδικασία ανάλυσης. Χρησιμοποιήθηκαν τεχνικές περιγραφικής στατιστικής για την παρουσίαση των δεδομένων. Τα δεδομένα οργανώνονται ως εξής: κάθε στήλη αποτελεί μια μεταβλητή (variable) (ερώτηση του ερωτηματολογίου) και κάθε σειρά (γραμμή) αποτελεί μια περίπτωση (case), δηλαδή κάθε ένα άτομο που συμμετέχει στο δείγμα. Στην παρούσα έρευνα τα δεδομένα προέρχονται από 593 άτομα - ερωτηθέντες. Κάθε σειρά περιέχει τα δεδομένα για ένα άτομο ερωτηθέντα και κάθε στήλη αντιπροσωπεύει τα δεδομένα των ερωτηθέντων για την αντίστοιχη μεταβλητή. Η ποσοτική επεξεργασία των αποτελεσμάτων έχει πάρει τη μορφή κατάρτισης πινάκων οι οποίοι συνοψίζουν τον όγκο των συλλεγομένων πληροφοριών. Ειδικότερα, για την παρουσίαση των ευρημάτων χρησιμοποιούνται πίνακες Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 178

179 απλής εισόδου οι οποίοι συνοδεύονται από γραφήματα (ραβδογράμματα ή κυκλικά διαγράμματα). 24.5: Επιλογή μεταβλητών Στο αρχείο Data.sav περιέχονται τα δεδομένα της Έρευνας Αγοράς «Εμπορικά Καταστήματα» όπως την ονομάσαμε εμείς. Υπενθυμίζουμε ότι η συγκεκριμένη έρευνα διεξήχθη από την εταιρεία DATA RC. Από το σύνολο των 83 περίπου μεταβλητών, που περιλαμβάνονται στο Variable View του αρχείου Data.sav του SPSS, επιλέξαμε τελικά δέκα από αυτές και έτσι δημιουργήθηκε ένα νέο αρχείο SPSS με την ονομασία «Έρευνα Αγοράς Εμπορικά Καταστήματα.sav». Πέντε από αυτές τις μεταβλητές ανήκουν στα ερευνητικά ερωτήματα και οι άλλες πέντε στα προσωπικά ή δημογραφικά. Τα κριτήρια με τα οποία αξιολογήσαμε το σύνολο των μεταβλητών και καταλήξαμε στις δέκα τελευταίες από αυτές είναι: - Κάθε μεταβλητή να έχει το πολύ έξι επίπεδα- κατηγορίες. - Nα μπορεί να κωδικοποιηθεί σχετικά εύκολα. - Aν είναι δυνατόν, να μην υπάρχουν απούσες τιμές (missing values). Οι υπόλοιπες 73 μεταβλητές απερρίφθησαν διότι είτε είχαν άνω των 6 επιπέδων, είτε γιατί εμφάνιζαν αρκετές απούσες τιμές ή και ακόμα επειδή δεν ήταν τόσο εύκολη η κωδικοποίηση τους. Στην παρακάτω εικόνα βλέπουμε το Variable View από το Dataset του SPSS της «Έρευνας Αγοράς Εμπορικά Καταστήματα.sav» και στην αμέσως επόμενη το Data View από το ίδιο Dataset: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 179

180 Εικόνα 33: Variable View από το Dataset του SPSS του αρχείου «Έρευνας Αγοράς Εμπορικά Καταστήματα.sav» Εικόνα 34: Data View από το Dataset του SPSS του αρχείου «Έρευνας Αγοράς Εμπορικά Καταστήματα.sav» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 180

181 24.6: Έλεγχοι Ανεξαρτησίας X 2 (Chi-Square) Η αρχική επιλογή των μεταβλητών ολοκληρώθηκε. Προχωράμε στο πρώτο μέρος της στατιστικής ανάλυσης του ερωτηματολογίου όπου εφαρμόζουμε ελέγχους ανεξαρτησίας με χρήση του στατιστικού κριτηρίου X 2 (Chi-Square), με τη βοήθεια των οποίων θα εξετάσουμε τις συσχετίσεις ανάμεσα στις επιλεγμένες 10 μεταβλητές και με βάση αυτούς θα επιλέξουμε εκ νέου τις μεταβλητές που παρουσιάζουν ισχυρές και στατιστικά σημαντικές εξαρτήσεις. Ο X 2 έλεγχος ανεξαρτησίας εφαρμόζεται όταν θέλουμε να ελέγξουμε αν δύο ή περισσότερα χαρακτηριστικά (τυχαίες μεταβλητές) είναι ανεξάρτητα. Αν δύο μεταβλητές είναι ανεξάρτητες τότε αυτό συνεπάγεται και την έλλειψη συσχέτισης (ασυσχέτιστες) των μεταβλητών αυτών. Τα δεδομένα αποτελούνται από n παρατηρήσεις οι οποίες ταξινομούνται με βάση τα επίπεδα (τιμές) των χαρακτηριστικών. Ο έλεγχος αυτός χρησιμοποιείται γενικά για να εκτιμήσουμε αν δύο ή περισσότερα δείγματα, τα οποία αποτελούνται από δεδομένα συχνοτήτων (ονομαστικά δεδομένα), διαφέρουν σημαντικά μεταξύ τους. Με άλλα λόγια, είναι ο συνηθισμένος στατιστικός έλεγχος για την ανάλυση πινάκων συνάφειας με βάση δύο ονομαστικές μεταβλητές κατηγορίας. Στη συγκεκριμένη περίπτωση έχουμε πίνακα συνάφειας (ο οποίος είναι μια παράθεση φυσικών αριθμών που παριστάνει συχνότητες εμφάνισης αντικειμένων, ταξινομημένων σε r γραμμές και c στήλες) με δεδομένα συχνοτήτων. Ο έλεγχος υπόθεσης που εξετάζεται μέσω του x 2 έλεγχου ανεξαρτησίας είναι: Αποδοχή της μηδενικής υπόθεσης Η 0 σημαίνει ανεξαρτησία μεταξύ των δύο υπό μελέτη μεταβλητών ενώ αποδοχή της εναλλακτικής υπόθεσης Η 1 (απόρριψη της μηδενικής υπόθεσης Η 0 ) σημαίνει εξάρτηση μεταξύ των δύο υπό μελέτη μεταβλητών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 181

182 Με άλλα λόγια η υπόθεση της ανεξαρτησίας απορρίπτεται, σε επίπεδο σημαντικότητας a, όταν η p-value τιμή είναι μικρότερη του a δηλαδή p-value<α. Συνήθως το επίπεδο σημαντικότητας που χρησιμοποιούμε στην εφαρμογή των ελέγχων είναι a=0,05. Απαραίτητες προϋποθέσεις για την υλοποίηση του x 2 έλεγχου ανεξαρτησίας είναι: 1) Το μέγεθος n του δείγματος να είναι τετραπλάσιο του πλήθους των κελιών. 2) Οι αναμενόμενες συχνότητες (Expected Frequencies) να μην είναι μικρότερες της μονάδος και επιπλέον το 20% αυτών να μην έχουν τιμή μικρότερη του 5. Αν δεν πληρούνται οι παραπάνω υποθέσεις τότε ενδείκνυται η χρήση του ακριβή ελέγχου του Fisher (Fisher Exact Test), ο οποίος έλεγχος μπορεί να αποδειχθεί χρήσιμος ιδιαίτερα στην περίπτωση πινάκων διάστασης 2 2. Αν δεν είναι δυνατόν να εφαρμοστούν οι έλεγχοι X 2 και Fisher καταφεύγουμε στη συγχώνευση κελιών που είναι γειτονικά κατά τρόπο που να ξεπεραστούν τα προβλήματα που αναφέραμε, διατηρώντας όμως ταυτόχρονα και τη φυσική ερμηνεία των νέων κατηγοριών- κελιών. Η συγχώνευση των κελιών γίνεται εφικτή με την επανακωδικοποίηση (Recoding) μίας εκ των δύο ποιοτικών μεταβλητών. Ακόμα να αναφέρουμε ότι στην περίπτωση πινάκων διάστασης 2 2, αντί για το κλασικό X 2 έλεγχο ανεξαρτησίας χρησιμοποιείται η Διόρθωση Συνεχείας του Yates (Continuity Correction) όπου η αναμενόμενη τιμή κάποιου κελιού είναι μικρότερη του 5. Επειδή είναι μεγάλο το πλήθος των δυνατών X 2 ελέγχων ανεξαρτησίας (5 προσωπικές- δημογραφικές μεταβλητές επί 5 ερευνητικές μεταβλητές, σύνολο 25 έλεγχοι ανεξαρτησίας) θα παραθέσουμε στη συνέχεια τους σημαντικότερους από αυτούς και ορισμένοι από τους υπόλοιπους ελέγχους θα περιληφθούν στο Παράρτημα. Αθροιστικά, 9 έλεγχοι ανεξαρτησίας X 2 προέκυψαν στατιστικά σημαντικοί Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 182

183 και να πληρούν το δεύτερο περιορισμό αναφορικά με τις αναμενόμενες συχνότητες που αναφέραμε προηγουμένως. 1 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_3 (Προτίμηση_Καταστήματος) & KLADOS_KATASTHMATOS (Κλάδος_Καταστήματος) Κλάδος Λιανικού Εμπορίου Ένδυση/ Υπόδησ η Οικιακός Εξοπλισμό ς Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμ α Κοσμήματ α/ Αξεσουάρ/ Καλλυντικά Total Επώνυμες αλυσίδες καταστημάτων Όταν αγοράζετε, Τοπικά προτιμάτε καταστήματα συνήθως... Και τα δύο εξίσου Total Count Expected 236, 74,8 40,2 60,1 60,9 Count 0 Count Expected Count 11,7 6,3 9,4 9,5 37,0 Count Expected 320, 101,5 54,5 81,5 82,6 Count 0 Count Expected 593, 188,0 101,0 151,0 153,0 Count 0 Πίνακας 4. Προτίμηση Καταστήματος & Κλάδος Καταστήματος (Crosstabulation) Στον Πίνακα 4 βλέπουμε τον πίνακα αποτελεσμάτων για τις ερωτήσεις- μεταβλητές Προτίμηση Καταστήματος και Κλάδο Καταστήματος. Η ερώτηση- μεταβλητή Προτίμηση Καταστήματος έχει 3 κατηγορίες- γραμμές (Επώνυμες αλυσίδες καταστημάτων, τοπικά καταστήματα, και τα δύο εξίσου) και η μεταβλητή Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 183

184 Κλάδος Καταστήματος έχει 4 κατηγορίες- στήλες (Ένδυση/ Υπόδηση, Οικιακός Εξοπλισμός, Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμα, Κοσμήματα/ Αξεσουάρ/ Καλλυντικά). Στον πίνακα επίσης διακρίνονται οι συχνότητες και οι αναμενόμενες συχνότητες για κάθε κελί που αντιστοιχεί σε μια κατηγορία- γραμμή της Προτίμησης Καταστήματος και σε μια κατηγορία- στήλη της μεταβλητής Κλάδος Καταστήματος καθώς και τα σύνολα των συχνοτήτων. Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 47,104 a 6,000 Likelihood Ratio 49,429 6,000 Linear-by-Linear Association 22,905 1,000 N of Valid Cases 593 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 6,30. Πίνακας 5. Προτίμηση Καταστήματος & Κλάδος Καταστήματος (Chi-Square test) Στον Πίνακα 5 βλέπουμε τα εξαγόμενα του X 2 έλεγχου ανεξαρτησίας. Μας ενδιαφέρουν τα αποτελέσματα της 1 ης γραμμής που αναφέρεται στην τιμή της στατιστικής συνάρτησης X 2 του Pearson. Έτσι, η τιμή (value) του είναι 47,104 η οποία είναι αρκετά μεγάλη και αποτελεί ένδειξη απόρριψης της μηδενικής υπόθεσης Η 0. Οι βαθμοί ελευθερίας (df) είναι 6 και το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας ή αλλιώς p- value για το δίπλευρο έλεγχο (Asymp. Sig. 2- sided) είναι πρακτικά ίσο με 0,000 δηλαδή μικρότερο από την κρίσιμη τιμή 0,05 πράγμα που σημαίνει ότι απορρίπτουμε τελικά τη μηδενική υπόθεσης Η 0 και επομένως οι δύο μεταβλητές- ερωτήσεις (Προτίμηση Καταστήματος και Κλάδος Καταστήματος) παρουσιάζουν μεγάλο βαθμό εξάρτησης. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 184

185 Η ένδειξη a κάτω από τον πίνακα 5 μας πληροφορεί ότι δεν υπάρχουν κελιά (0%), των οποίων οι αναμενόμενες συχνότητες να είναι μικρότερες του 5. Αν συνέβαινε αυτό τότε θα αποτελούσε προειδοποίηση ότι η χρήση του X 2 έλεγχου ανεξαρτησίας μπορεί να μην έχει τόσο αξιόπιστα αποτελέσματα όσο θα θέλουμε. Πρακτικά αν το ποσοστό των κελιών που έχουν αναμενόμενες τιμές μικρότερες του 5 υπερβαίνει το 20% τότε δε χρησιμοποιούμε τη διαδικασία του X 2 έλεγχου ανεξαρτησίας διότι αυτό καθιστά την τιμή του X 2 προβληματική και πιθανώς μη έγκυρη. Ένας προσεκτικότερος σχεδιασμός της δειγματοληψίας με την επιλογή ενός τυχαίου δείγματος με ανεξάρτητες παρατηρήσεις κρίνεται σκόπιμος σε τέτοιες περιπτώσεις. Όμως στη συγκεκριμένη περίπτωση που μελετάμε δε συμβαίνει κάτι τέτοιο και επομένως αποδεχόμαστε την αξιοπιστία και εγκυρότητα του X 2 έλεγχου ανεξαρτησίας. Γράφημα 1: Ραβδόγραμμα Προτίμησης Καταστήματος σε σχέση με τον Κλάδο Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 185

186 Στο γράφημα 1 βλέπουμε το ραβδόγραμμα των συχνοτήτων των δύο μεταβλητών, Προτίμηση Καταστήματος και Κλάδος Καταστήματος. Στον οριζόντιο άξονα βλέπουμε τις δύο κατηγορίες της μεταβλητής Προτίμηση Καταστήματος για κάθε μία από τις τέσσερις κατηγορίες του Κλάδου Καταστήματος (χρωματιστά ορθογώνια). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 186

187 2 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_1 (Λόγος_Επίσκεψης) & ER_3 (Προτίμηση_Καταστήματος) Γιατί επισκεφθήκατε το κατάστημα; Άλλο λόγο. Ποιο; Ήμουν περαστι κός (μπήκα τυχαία) Ένα κατάστημα τέτοιου είδους ανεξαρτήτως αλυσίδας Προγραμματι σμένη επίσκεψη Ένα κατάστημα της συγκεκριμένη ς αλυσίδας- Προγραμματι σμένη επίσκεψη Το συγκεκριμένο κατάστημα της συγκεκριμένη ς αλυσίδας- Προγραμματι σμένη επίσκεψη (για να κάνω αλλαγ ή σε κάτι που αγόρα σα, για να Tot al πληρώ σω δόση): Όταν αγοράζετ ε, προτιμάτ ε συνήθως... Επώνυμες αλυσίδες καταστημάτων Τοπικά καταστήματα Και τα δύο εξίσου Total Count Expec 236 ted 74,0 54,1 31,0 59,3 17,5 Count,0 Count Expec 37, ted 11,6 8,5 4,9 9,3 2,7 Count 0 Count Expec 320 ted 100,4 73,4 42,1 80,4 23,7 Count,0 Count Expec 593 ted 186,0 136,0 78,0 149,0 44,0 Count,0 Πίνακας 6. Προτίμηση Καταστήματος & Λόγος Επίσκεψης (Crosstabulation) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 187

188 Στον Πίνακα 6 βλέπουμε τον πίνακα αποτελεσμάτων για τις ερωτήσειςμεταβλητές Προτίμηση Καταστήματος και Λόγο Επίσκεψης. Η ερώτησημεταβλητή Προτίμηση Καταστήματος έχει 3 κατηγορίες- γραμμές (Επώνυμες αλυσίδες καταστημάτων, τοπικά καταστήματα, και τα δύο εξίσου) και η μεταβλητή Λόγος Επίσκεψης έχει 5 κατηγορίες- στήλες (θα τις δούμε αναλυτικά στη συνέχεια). Στον πίνακα επίσης διακρίνονται οι συχνότητες και οι αναμενόμενες συχνότητες για κάθε κελί που αντιστοιχεί σε μια κατηγορία- γραμμή της Προτίμησης Καταστήματος και σε μια κατηγορία- στήλη της μεταβλητής Λόγο Επίσκεψης καθώς και τα σύνολα των συχνοτήτων. Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 48,413 a 8,000 Likelihood Ratio 38,190 8,000 Linear-by-Linear Association 9,986 1,002 N of Valid Cases 593 a. 2 cells (13,3%) have expected count less than 5. The minimum expected count is 2,75. Πίνακας 7. Προτίμηση Καταστήματος & Λόγος Επίσκεψης (Chi-Square test) Στον Πίνακα 7 βλέπουμε τα εξαγόμενα του X 2 έλεγχου ανεξαρτησίας. Μας ενδιαφέρουν τα αποτελέσματα της 1 ης γραμμής που αναφέρεται στην τιμή της στατιστικής συνάρτησης X 2 του Pearson. Έτσι, η τιμή (value) του είναι 48,413 η οποία είναι αρκετά μεγάλη και αποτελεί ένδειξη απόρριψης της μηδενικής υπόθεσης Η 0. Οι βαθμοί ελευθερίας (df) είναι 8 και το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας ή αλλιώς p- value για το δίπλευρο έλεγχο (Asymp. Sig. 2- sided) είναι πρακτικά ίσο με 0,000 δηλαδή μικρότερο από την κρίσιμη τιμή 0,05 πράγμα που σημαίνει ότι απορρίπτουμε τελικά τη μηδενική υπόθεσης Η 0 και επομένως οι δύο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 188

189 μεταβλητές- ερωτήσεις (Προτίμηση Καταστήματος και Λόγος Επίσκεψης) παρουσιάζουν μεγάλο βαθμό εξάρτησης. Η ένδειξη a κάτω από τον πίνακα 7 μας πληροφορεί ότι υπάρχουν 2 κελιά (13,3%), των οποίων οι αναμενόμενες συχνότητες είναι μικρότερες του 5. Εφόσον το ποσοστό των κελιών που έχουν αναμενόμενες τιμές μικρότερες του 5 δεν υπερβαίνει το 20% μπορούμε να χρησιμοποιήσουμε τη διαδικασία του X 2 έλεγχου ανεξαρτησίας. Γράφημα 2: Ραβδόγραμμα Προτίμησης Καταστήματος σε σχέση με τον Λόγο Επίσκεψης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 189

190 Στο γράφημα 2 βλέπουμε το ραβδόγραμμα των συχνοτήτων των δύο μεταβλητών, Προτίμηση Καταστήματος και Λόγος Επίσκεψης. Στον οριζόντιο άξονα βλέπουμε τις δύο κατηγορίες της μεταβλητής Προτίμηση Καταστήματος για κάθε μία από τις πέντε κατηγορίες του Λόγου Επίσκεψης (χρωματιστά ορθογώνια). 3 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_4 (Επιλογή_Καταστήματος_με_βάση_την_απόσταση) & ER_17 (Οικογενειακό_Εισόδημα) Ποιο είναι το μηνιαίο οικογενειακό σας εισόδημα από όλες τις πηγές; Συνήθως αγοράζετε από καταστήματα... Που βρίσκονται κοντά στο σπίτι ή την εργασία σας Που βρίσκονται μακρύτερα αλλά επιλέγετε να πάτε Που επιλέγετε τυχαία (π.χ. περνάει έξω από το κατάστημα) ΔΑ Έως Total 1000 και άνω Count Expected Count 19,2 28,4 48,0 23,9 11,4 9,2 140,0 Count Expected Count 34,5 51,1 86,4 43,0 20,4 16,6 252,0 Count Expected Count 27,4 40,5 68,6 34,1 16,2 13,2 200,0 Count Total Expected Count 81,0 120,0 203,0 101,0 48,0 39,0 592,0 Πίνακας 8. Επιλογή Καταστήματος με βάση την απόσταση & Οικογενειακό Εισόδημα (Crosstabulation) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 190

191 Στον Πίνακα 8 βλέπουμε τον πίνακα αποτελεσμάτων για τις ερωτήσειςμεταβλητές Επιλογή Καταστήματος με βάση την απόσταση και Οικογενειακό Εισόδημα. Η ερώτηση- μεταβλητή Επιλογή Καταστήματος με βάση την απόσταση έχει 3 κατηγορίες- γραμμές (θα τις δούμε αναλυτικά στη συνέχεια) και η μεταβλητή Οικογενειακό Εισόδημα έχει 6 κατηγορίες- στήλες (θα τις δούμε αναλυτικά στη συνέχεια). Στον πίνακα επίσης διακρίνονται οι συχνότητες και οι αναμενόμενες συχνότητες για κάθε κελί που αντιστοιχεί σε μια κατηγορία- γραμμή της Επιλογής Καταστήματος με βάση την απόσταση και σε μια κατηγορία- στήλη της μεταβλητής Οικογενειακό Εισόδημα καθώς και τα σύνολα των συχνοτήτων. Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 26,252 a 10,003 Likelihood Ratio 25,782 10,004 Linear-by-Linear Association,958 1,328 N of Valid Cases 592 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 9,22. Πίνακας 9. Επιλογή Καταστήματος με βάση την απόσταση & Οικογενειακό Εισόδημα (Chi-Square test) Στον Πίνακα 9 βλέπουμε τα εξαγόμενα του X 2 ενδιαφέρουν τα αποτελέσματα της 1 ης έλεγχου ανεξαρτησίας. Μας γραμμής που αναφέρεται στην τιμή της στατιστικής συνάρτησης X 2 του Pearson. Έτσι, η τιμή (value) του είναι 26,252 η οποία είναι μεγάλη και αποτελεί ένδειξη απόρριψης της μηδενικής υπόθεσης Η 0. Οι βαθμοί ελευθερίας (df) είναι 10 και το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας ή αλλιώς p- value για το δίπλευρο έλεγχο (Asymp. Sig. 2- sided) είναι ίσο με 0,003 δηλαδή μικρότερο από την κρίσιμη τιμή 0,05 πράγμα που σημαίνει ότι απορρίπτουμε τελικά τη μηδενική υπόθεσης Η 0 και επομένως οι δύο μεταβλητές- Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 191

192 ερωτήσεις (Επιλογή Καταστήματος με βάση την απόσταση και Οικογενειακό Εισόδημα) παρουσιάζουν μεγάλο βαθμό εξάρτησης. Η ένδειξη a κάτω από τον πίνακα 9 μας πληροφορεί ότι δεν υπάρχουν κελιά (0%), των οποίων οι αναμενόμενες συχνότητες να είναι μικρότερες του 5. Εφόσον το ποσοστό των κελιών που έχουν αναμενόμενες τιμές μικρότερες του 5 δεν υπερβαίνει το 20% μπορούμε να χρησιμοποιήσουμε τη διαδικασία του X 2 έλεγχου ανεξαρτησίας. Γράφημα 3: Ραβδόγραμμα Επιλογή Καταστήματος με βάση την απόσταση σε σχέση με το Οικογενειακό Εισόδημα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 192

193 Στο γράφημα 3 βλέπουμε το ραβδόγραμμα των συχνοτήτων των δύο μεταβλητών, Επιλογή Καταστήματος με βάση την απόσταση και Οικογενειακό Εισόδημα. Στον οριζόντιο άξονα βλέπουμε τις δύο κατηγορίες της μεταβλητής Επιλογή Καταστήματος με βάση την απόσταση για κάθε μία από τις έξι κατηγορίες του Οικογενειακού Εισοδήματος (χρωματιστά ορθογώνια). Από τους έξι εναπομείναντες στατιστικά σημαντικούς ελέγχους ανεξαρτησίας θα παραθέσουμε στο Παράρτημα τρεις από αυτούς (μόνο τους πίνακες και τα γραφήματα χωρίς σχόλια). 24.7: Τελική επιλογή μεταβλητών Ολοκληρώνοντας τους ελέγχους ανεξαρτησίας X 2 θα επιλέξουμε για δεύτερη και τελευταία φορά τις μεταβλητές που θα απαρτίζουν το Dataset (σύνολο μεταβλητών) του SPSS από το οποίο θα αντλήσουμε τα δεδομένα για την εφαρμογή της Απλής και της Πολλαπλής Ανάλυσης Αντιστοιχιών. Όπως έχουμε αναφέρει, θα προτιμηθούν οι μεταβλητές που εμφανίζουν ισχυρές συσχετίσεις (ο έλεγχος ανεξαρτησίας X 2 δηλαδή είναι στατιστικά σημαντικός) και αυτό διότι η Ανάλυση Αντιστοιχιών ουσιαστικά αποτελεί προέκταση του ελέγχου ανεξαρτησίας X 2 και όσο πιο δυνατή είναι η εξάρτηση μεταξύ των γραμμών και των στηλών τόσο πιο αξιόπιστα και έγκυρα θα είναι τα αποτελέσματα της. Ως εκ τούτου, θα καταλήξουμε στο ακόλουθο σύνολο μεταβλητών όπου βλέπουμε και τα επίπεδα- κατηγορίες τους. Διευκρινίζουμε ότι η συντομογραφία, παραδείγματος χάριν, ER_1 έχει αποδοθεί από την DATA RC ενώ το όνομα της μεταβλητής με τα έντονα γράμματα (για παράδειγμα Λόγος_Επίσκεψης) το έχουμε δώσει προς διευκόλυνση και διάκρισης των μεταβλητών. Οι 6 μεταβλητές (3 ερευνητικές και 3 προσωπικές) είναι οι εξής: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 193

194 Α) ΕΡΕΥΝΗΤΙΚΑ ΕΡΩΤΗΜΑΤΑ 1) ER_1: Λόγος_Επίσκεψης (Γιατί επισκεφθήκατε το κατάστημα;) (5 επίπεδα) 1 = "Ήμουν περαστικός (μπήκα τυχαία)" 2 = "Ένα κατάστημα τέτοιου είδους ανεξαρτήτως αλυσίδας Προγραμματισμένη επίσκεψη" 3 = "Ένα κατάστημα της συγκεκριμένης αλυσίδας- Προγραμματισμένη επίσκεψη" 4 = "Το συγκεκριμένο κατάστημα της συγκεκριμένης αλυσίδας- Προγραμματισμένη επίσκεψη" 5 = "Άλλο λόγο. Ποιο; (για να κάνω αλλαγή σε κάτι που αγόρασα, για να πληρώσω δόση):" 2) ER_3: Προτίμηση_Καταστήματος (Όταν αγοράζετε, προτιμάτε συνήθως...) (3 επίπεδα) 1 = "Επώνυμες αλυσίδες καταστημάτων" 2 = "Τοπικά καταστήματα" 3 = "Και τα δύο εξίσου" 3) ER_4:Επιλογή_Καταστήματος_με_βάση_την_απόσταση (Συνήθως αγοράζετε από καταστήματα...) (3 επίπεδα) 1 = "Που βρίσκονται κοντά στο σπίτι ή την εργασία σας" 2 = "Που βρίσκονται μακρύτερα αλλά επιλέγετε να πάτε" 3 = "Που επιλέγετε τυχαία (π.χ. περνάει έξω από το κατάστημα)" Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 194

195 Β) ΠΡΟΣΩΠΙΚΑ- ΔΗΜΟΓΡΑΦΙΚΑ ΕΡΩΤΗΜΑΤΑ 4) ER_15: Φύλο (2 επίπεδα) 1 = "Άνδρας" 2 = "Γυναίκα" 5) ER_17: Οικογενειακό_Εισόδημα (6 επίπεδα) 0 = "ΔΑ" 1 = "Έως 1000 " 2 = " " 3 = " " 4 = " " 5 = "4.001 και άνω" 6) KLADOS_KATASTHMATOS: Κλάδος_Καταστήματος (4 επίπεδα) 1 = "Ένδυση/ Υπόδηση" 2 = "Οικιακός Εξοπλισμός" 3 = "Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμα" 4 = "Κοσμήματα/ Αξεσουάρ/ Καλλυντικά" Από τις 6 παραπάνω μεταβλητές θα επιλέξουμε τις καταλληλότερες, οι οποίες θα χρησιμοποιηθούν στην εφαρμογή τόσο της Απλής Ανάλυσης Αντιστοιχιών όσο και της Πολλαπλής Ανάλυσης Αντιστοιχιών. Πριν όμως προχωρήσουμε στην υλοποίηση των δύο στατιστικών τεχνικών θα δώσουμε με τη χρήση του SPSS ενδεικτικά τα περιγραφικά μέτρα για μία ερευνητική μεταβλητή (το Λόγο Επίσκεψης) και για μία προσωπική μεταβλητή (το Οικογενειακό Εισόδημα) ενώ στο Παράρτημα θα συμπεριλάβουμε τα περιγραφικά μέτρα άλλων δύο μεταβλητών (την Προτίμηση Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 195

196 Καταστήματος και του Κλάδου Καταστήματος). Εφόσον έχουμε ονομαστικές ή διατάξιμες μεταβλητές, τα περιγραφικά αυτά μέτρα περιλαμβάνουν τον πίνακα κατανομής συχνοτήτων (Frequency table) και το αντίστοιχο ραβδόγραμμα (Bar chart) ή κυκλικό διάγραμμα (Pie chart) με τα ποσοστά των κατηγοριών. Αν είχαμε στη διάθεση μας ποσοτικές μεταβλητές θα μπορούσαμε μέσω της Διερευνητικής Ανάλυσης Δεδομένων, που υλοποιείται στο SPSS με τη χρήση της εντολής Analyze/ Descriptive statistics/ Explore, να διερευνήσουμε εις βάθος τα περιγραφικά μέτρα τους με τη βοήθεια κατάλληλων διαγραμμάτων (π.χ. Μίσχου & Φύλλου), να εφαρμόσουμε έλεγχο κανονικότητας, να εξακριβώσουμε την ύπαρξη ακραίων τιμών (outliers) κ.α. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 196

197 24.8: Περιγραφικά μέτρα ER_1: Λόγος_Επίσκεψης Γιατί επισκεφθήκατε το κατάστημα; Frequency Percent Valid Percent Cumulative Percent Ήμουν περαστικός (μπήκα τυχαία) ,4 31,4 31,4 Ένα κατάστημα τέτοιου είδους ανεξαρτήτως αλυσίδας Προγραμματισμένη επίσκεψη ,9 22,9 54,3 Valid Ένα κατάστημα της συγκεκριμένης αλυσίδας- Προγραμματισμένη επίσκεψη Το συγκεκριμένο κατάστημα της συγκεκριμένης αλυσίδας- Προγραμματισμένη επίσκεψη 78 13,2 13,2 67, ,1 25,1 92,6 Άλλο λόγο. Ποιο; (για να κάνω αλλαγή σε κάτι που αγόρασα, για να πληρώσω δόση): 44 7,4 7,4 100,0 Total ,0 100,0 Πίνακας 10. Κατανομή συχνοτήτων ανά «Λόγο Επίσκεψης» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 197

198 Γράφημα 4: Ραβδόγραμμα για τη μεταβλητή «Λόγος Επίσκεψης» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 198

199 ER_17: Οικογενειακό_Εισόδημα Ποιο είναι το μηνιαίο οικογενειακό σας εισόδημα από όλες τις πηγές; Cumulative Frequency Percent Valid Percent Percent ΔΑ 81 13,7 13,7 13,7 Έως ,2 20,3 34, ,2 34,3 68,2 Valid ,0 17,1 85, ,1 8,1 93, και άνω 39 6,6 6,6 100,0 Total ,8 100,0 Missing System 1,2 Total ,0 Πίνακας 11. Κατανομή συχνοτήτων ανά «Οικογενειακό Εισόδημα» Γράφημα 5: Κυκλικό διάγραμμα για τη μεταβλητή «Οικογενειακό Εισόδημα» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 199

200 - Κεφάλαιο 25: Απλή Ανάλυση Αντιστοιχιών- Simple Correspondence Analysis (S.C.A.) 25.1: Εισαγωγή Διαπιστώσαμε στο προηγούμενο κεφάλαιο ότι υφίστανται σημαντικές εξαρτήσεις μέσω του ελέγχου ανεξαρτησίας X 2 ανάμεσα σε ορισμένες μεταβλητές, τις οποίες εκθέσαμε αναλυτικά. Συνεχίζουμε τώρα με την εφαρμογή της Απλής Ανάλυσης Αντιστοιχιών (Simple Correspondence Analysis) σε ένα ζεύγος εξ αυτών των μεταβλητών και ειδικότερα τις μεταβλητές ER_3 (Προτίμηση Καταστήματος) και KLADOS_KATASTHMATOS (Κλάδος Καταστήματος). Οι αιτίες για τις οποίες επιλέξαμε τις συγκεκριμένες μεταβλητές είναι ότι κατά κύριο λόγο εμφανίζουν ισχυρή συσχέτιση (εξάρτηση), προϋπόθεση για την Ανάλυση Αντιστοιχιών και δεύτερον παρουσιάζουν ιδιαίτερο ενδιαφέρον, καθώς πρόκειται για ένα συνδυασμό μιας ερευνητικής και μιας προσωπικής- δημογραφικής μεταβλητής με βαρύνουσα σημασία και ερμηνεία για την Έρευνα Αγοράς. Θα εκτελέσουμε την Απλή Ανάλυση Αντιστοιχιών κάνοντας χρήση του στατιστικού πακέτου MINITAB : Προεργασία Δοθέντος ότι η μεταβλητή ER_3 (Προτίμηση Καταστήματος) έχει τρία επίπεδα και η μεταβλητή Κλάδος Καταστήματος τέσσερα επίπεδα μπορούμε να χρησιμοποιήσουμε το πολύ τρεις άξονες για την απεικόνιση των δεδομένων μας. Αρχικώς υλοποιήσαμε την Απλή Ανάλυση Αντιστοιχιών στο SPSS, επιλέγοντας την Κύρια Κανονικοποίηση (Principal Normalization). Υπενθυμίζουμε ότι η προεπιλεγμένη επιλογή στο SPSS είναι η Συμμετρική Κανονικοποίηση Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 200

201 (Symmetrical Normalization) η οποία αναλύει, όπως έχουμε αναφέρει, τις διαφορές ανάμεσα στις μεταβλητές γραμμών και στηλών. Αντιθέτως στην Κύρια Κανονικοποίηση η Αδράνεια «απλώνεται» δύο φορές (μία πάνω στα σκορ των γραμμών και μία στα σκορ των στηλών) και ως εκ τούτου γίνεται χρήση αυτής της Κανονικοποίησης όταν το ενδιαφέρον μας επικεντρώνεται στις αποστάσεις μεταξύ των σημείων- γραμμών και μεταξύ των σημείων- στηλών ξεχωριστά. Αν επιδιώκουμε να ανακαλύψουμε τις συσχετίσεις ανάμεσα στα σημεία γραμμών και στηλών δεν είναι κατάλληλη η συγκεκριμένη μέθοδος Κανονικοποίησης και επιπρόσθετα να τονίσουμε πως η Κύρια Κανονικοποίηση δεν παράγει Biplot. Για όλους αυτούς τους λόγους συν το γεγονός ότι κεντρίζει την προσοχή μας η σχέση που ενδεχομένως να συνδέει τις δύο υπό μελέτη μεταβλητές (Προτίμηση Καταστήματος και Κλάδος Καταστήματος), θα παραθέσουμε την Απλή Ανάλυση Αντιστοιχιών (κάνοντας χρήση του SPSS) με τη μέθοδο της Κύριας Κανονικοποίησης στο Παράρτημα χωρίς σχόλια και παρατηρήσεις. Παράλληλα θα εφαρμόσουμε, όπως προείπαμε, την Απλή Ανάλυση Αντιστοιχιών στο MINITAB, στο οποίο δεν υπάρχει αντίστοιχη επιλογή μεθόδου Κανονικοποίησης, υπάρχει όμως η ευχέρεια κατασκευής Συμμετρικού και Μη Συμμετρικού γραφήματος. 25.3: Εφαρμογή Ακολουθώντας τις οδηγίες που περιγράψαμε διεξοδικά στο 8 ο κεφάλαιο υλοποιούμε την Απλή Ανάλυση Αντιστοιχιών στο MINITAB. Το αρχείο δεδομένων καλείται «Απλή Ανάλυση Αντιστοιχιών ER_3 & KLADOS.mpj» και στην παρακάτω εικόνα βλέπουμε το Session και το Worksheet του MINITAB: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 201

202 Εικόνα 35: Session & Worksheet του MINITAB από το αρχείο «Απλή Ανάλυση Αντιστοιχιών ER_3 & KLADOS.mpj» Εικόνα 36: Project Manager του MINTAB από το αρχείο «Απλή Ανάλυση Αντιστοιχιών ER_3 & KLADOS.mpj» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 202

203 Ύστερα έπονται τα αποτελέσματα από το «τρέξιμο» της Απλής Ανάλυσης Αντιστοιχιών στο MINITAB. Πρέπει να επισημάνουμε πως δε συμπεριλάβαμε καθόλου Συμπληρωματικά σημεία (Supplementary Points) στην ανάλυση. Ακόμα να συμπληρώσουμε ότι, εφόσον το MINITAB δεν εξάγει αυτοτελείς πίνακες παρά μόνο γραφήματα, θα μεταφέρουμε τα απαραίτητα αποτελέσματα αντιγράφοντας τα από το Session. Results for: ΈΡΕΥΝΑ ΑΓΟΡΆΣ ΕΜΠΟΡΙΚΆ ΚΑΤΑΣΤΉΜΑΤΑ.MTW Simple Correspondence Analysis: Προτίμηση_Καταστήματος; Κλάδος_Καταστήματος Contingency Table K1 K2 K3 K4 Total E3_1 58,000 23,000 81,000 74, ,000 E3_2 9,000 12,000 2,000 14,000 37,000 E3_3 121,000 66,000 68,000 65, ,000 Total 188, , , , ,000 Πίνακας 12. Πίνακας Συνάφειας για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Στον παραπάνω Πίνακα Συνάφειας (Contingency Table) διαστάσεων 3 4 (χωρίς τα σύνολα) μπορούμε να δούμε τα επίπεδα- κατηγορίες των δύο μεταβλητών με τις αντίστοιχες απόλυτες συχνότητες τους. Από αυτόν τον πίνακα, ως γνωστόν, θα προκύψουν οι δύο επόμενοι πίνακες, τα Προφίλ Γραμμών και Στηλών. Row Profiles K1 K2 K3 K4 Mass E3_1 0,246 0,097 0,343 0,314 0,398 E3_2 0,243 0,324 0,054 0,378 0,062 E3_3 0,378 0,206 0,212 0,203 0,540 Mass 0,317 0,170 0,255 0,258 Πίνακας 13. Προφίλ Γραμμών για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 203

204 Στον Πίνακα 13 φαίνονται τα Προφίλ των Γραμμών με τις αντίστοιχες Μάζες τους (Mass). Θυμίζουμε πως τα Προφίλ Γραμμών δίνουν τις αναλογίες κάθε επιπέδου γραμμής για κάθε στήλη. Έτσι, το 24,6% του 1 ου επιπέδου της μεταβλητής Προτίμηση Καταστήματος (το Ε3_1, δηλαδή «Επώνυμες αλυσίδες καταστημάτων») αναφέρεται στην 1 η στήλη Κ1 της μεταβλητής Κλάδος Καταστήματος που ερμηνεύοντας το, μπορούμε να πούμε πως το 24,6% των καταναλωτών όταν αγοράζει είδη «Ένδυσης ή Υπόδησης» προτιμά συνήθως «Επώνυμες Αλυσίδες Καταστημάτων». Ομοίως το 5,4% των καταναλωτών όταν αγοράζει «Ηλεκτρικά είδη, Κινητά ή Αναλώσιμα» προτιμά συνήθως «Τοπικά Καταστήματα». Επίσης η Μάζα του Ε3_1 («Επώνυμες αλυσίδες καταστημάτων») που είναι ίση με 0,398 είναι το Προφίλ του συνόλου αυτής της γραμμής κ.ο.κ. Επειδή τα Προφίλ Γραμμών επιτρέπουν την άμεση σύγκριση μεταξύ των γραμμών, παρατηρούμε ότι σε γενικές γραμμές τα τρία προφίλ δεν παρουσιάζουν μεγάλες διαφορές. Το μόνο που διαφαίνεται είναι μια διαφορά στις Μάζες Γραμμών όπου η 2 η γραμμή έχει αρκετά μικρότερη Μάζα (0,062) συγκριτικά με τις Μάζες της 1 ης και της 3 ης γραμμής (0,398 & 0,540). Παράλληλα, υπενθυμίζουμε πως η τελευταία γραμμή του πίνακα 13 που περιλαμβάνει τις Μάζες Στηλών ταυτίζεται με το προφίλ γραμμής για ολόκληρο τον πίνακα και ονομάζεται Κεντροειδές ή Μέσο Προφίλ Γραμμής. Column Profiles K1 K2 K3 K4 Mass E3_1 0,309 0,228 0,536 0,484 0,398 E3_2 0,048 0,119 0,013 0,092 0,062 E3_3 0,644 0,653 0,450 0,425 0,540 Mass 0,317 0,170 0,255 0,258 Πίνακας 14. Προφίλ Στηλών για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Για τον πίνακα που περιέχει τα Προφίλ Στηλών ισχύουν ακριβώς τα ίδια όπως και στα Προφίλ Γραμμών. Για παράδειγμα το 42,5% των καταναλωτών όταν Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 204

205 αγοράζει «Κοσμήματα, Αξεσουάρ ή Καλλυντικά» προτιμά συνήθως «εξίσου και Επώνυμες αλυσίδες και Τοπικά Καταστήματα». Όσον αφορά τις Μάζες Στηλών, συμπεραίνουμε ότι η κατανομή τους είναι πιο «ομοιόμορφη» σε σχέση με τις Μάζες Γραμμών, δεν εμφανίζονται με άλλα λόγια μεγάλες διαφορές ανάμεσα τους. Chi-Square Distances K1 K2 K3 K4 Total E3_1 3,781 7,356 7,273 2,822 21,232 E3_2 0,635 5,152 5,846 2,078 13,712 E3_3 3,767 2,425 2,231 3,736 12,160 Total 8,184 14,934 15,350 8,636 47,104 Πίνακας 15. X 2 Αποστάσεις Ο Πίνακα 15 αποτελεί τον πίνακα του X 2 ελέγχου ανεξαρτησίας με τις αντίστοιχες τιμές του ελέγχου για κάθε συνδυασμό επιπέδων των δύο μεταβλητών ή διαφορετικά για κάθε συνδυασμό γραμμών και στηλών. Παρατηρούμε επιπλέον ότι τα σύνολα των γραμμών και των στηλών αθροίζονται στην τιμή 47,104 που είναι η τιμή Chi-Square Pearson. Ο πίνακας αυτός είναι ο ίδιος με τον πίνακα Crosstabulation που προκύπτει από την εφαρμογή του X 2 ελέγχου ανεξαρτησίας στο SPSS. Relative Inertias K1 K2 K3 K4 Total E3_1 0,080 0,156 0,154 0,060 0,451 E3_2 0,013 0,109 0,124 0,044 0,291 E3_3 0,080 0,051 0,047 0,079 0,258 Total 0,174 0,317 0,326 0,183 1,000 Πίνακας 16. Σχετικές Αδράνειες Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 205

206 Οι Σχετικές Αδράνειες (Relative Inertias) που φαίνονται στον Πίνακα 16, υπολογίζονται από τις τιμές X 2 του πίνακα 15 όταν διαιρεθούν με τη συνολική τιμή του X 2 ελέγχου ανεξαρτησίας που ισούται με 47,104 όπως είδαμε. Παραδείγματος χάριν, η τιμή 0,080 του συνδυασμού Ε3_3 & Κ1 προκύπτει από το λόγο 3,767 προς 47,104. Παράλληλα θυμίζουμε πως το άθροισμα όλων των Αδρανειών των κελιών ισούται με τη Συνολική Αδράνεια ενώ η Σχετική Αδράνεια ενός κελιού υπολογίζεται εναλλακτικά από το πηλίκο της Αδράνειας του κελιού προς τη Συνολική Αδράνεια. Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0608 0,7648 0,7648 ****************************** 2 0,0187 0,2352 1,0000 ********* Total 0,0794 Πίνακας 17. Ανάλυση του Πίνακα Συνάφειας Ο παραπάνω πίνακας δείχνει τη διάσπαση της Συνολικής Αδράνειας. Για τη συγκεκριμένη εφαρμογή, ο πίνακας συνοψίζει τη διάσπαση του 3 4 Πίνακα Συνάφειας σε 2 συνιστώσες (άξονες). Η στήλη με την ετικέτα Αδράνεια περιέχει την τιμή X 2 διαιρεμένη με το σύνολο του δείγματος (593) που εξηγείται από κάθε συνιστώσα. Έτσι από τη στήλη Αναλογία (Proportion) προκύπτει ότι η τιμή 0,0794 υπολογίζεται από το λόγο 47,104 (τιμή X 2 ) προς 593 (μέγεθος δείγματος). Παράλληλα, το 76,48% της Συνολικής Αδράνειας εξηγείται από την 1 η συνιστώσα (άξονα) ενώ το 23,52% από την 2 η συνιστώσα (άξονα). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 206

207 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 E3_1 1,000 0,398 0,451-0,299 0,990 0,584-0,029 0,010 0,018 2 E3_2 1,000 0,062 0,291 0,360 0,350 0,133-0,491 0,650 0,804 3 E3_3 1,000 0,540 0,258 0,178 0,838 0,283 0,078 0,162 0,177 Πίνακας 18. Συνεισφορές Γραμμών Με τη βοήθεια του πίνακα 18 μπορούμε να αποδώσουμε ερμηνείες στις 2 συνιστώσες (άξονες) που προέκυψαν από την εφαρμογή της Απλής Ανάλυσης Αντιστοιχιών. Η 3 η στήλη Ποιότητα (Quality- Qual) αποτελεί την αναλογία της Αδράνειας γραμμών που αντιπροσωπεύεται από τους δύο άξονες. Εδώ βέβαια βλέπουμε ότι η Ποιότητα των τριών επιπέδων της μεταβλητής Προτίμηση καταστήματος είναι ίση με τη μονάδα. Αυτό σημαίνει ότι οι τρεις γραμμές Ε3_1, Ε3_2 και Ε3_3 αντιπροσωπεύονται και οι τρεις εξίσου καλά από την δισδιάστατη ανάλυση. Η στήλη με την ετικέτα Μάζα (Mass) έχει ακριβώς τις ίδιες τιμές με τις Μάζες που είδαμε στον πίνακα των Προφίλ Γραμμών και προφανώς την ίδια ερμηνεία. Η στήλη με την ετικέτα Αδράνεια (Inertia- Inert) αποτελεί την αναλογία της Συνολικής Αδράνειας που συνεισφέρεται από κάθε γραμμή. Συμπερασματικά, το επίπεδο Ε3_1 (Επώνυμες αλυσίδες καταστημάτων) συνεισφέρει 45,1% στο συνολικό X 2 στατιστικό ενώ τη μικρότερη συνεισφορά παρουσιάζει το Ε3_3 (25,8%). Στη συνέχεια το MINITAB εκθέτει πληροφορίες για κάθε μία από τις δύο συνιστώσες (άξονες). Η στήλη με την ετικέτα Συντεταγμένες (Coordinates- Coord) δίνει τις Κύριες Συνιστώσες (Principal Coordinates) των γραμμών. Έτσι διαπιστώνουμε πως για την 1 ο άξονα, μόνο η 1 η γραμμή έχει αρνητικό πρόσημο ενώ για τον 2 ο άξονα μόνο η 3 η γραμμή έχει θετικό πρόσημο. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 207

208 Η στήλη με την ετικέτα Συσχετίσεις (Correlations- Corr) παρουσιάζει τη συνεισφορά του άξονα (συνιστώσας) στην Αδράνεια της γραμμής. Επομένως, ο 1 ος άξονας εξηγεί το μεγαλύτερο κομμάτι της Αδράνειας του Ε3_1 και του Ε3_3 (Corr= 0,990 και 0,838 αντίστοιχα) και ένα μικρό μέρος της Αδράνειας του Ε3_2 (Corr= 0,350). Η στήλη με την ετικέτα Συνεισφορά (Contribution- Contr) απεικονίζει τη συνεισφορά κάθε γραμμής στην Αδράνεια του άξονα. Διαπιστώνουμε ότι στην 1 η συνιστώσα το επίπεδο Ε3_1 συνεισφέρει περισσότερο (58,4%) από τα άλλα δύο ενώ στη 2 η συνιστώσα είναι συντριπτική η συνεισφορά του Ε3_2 (80,4%) και πολύ φτωχή η συνεισφορά του Ε3_1 (1,8%). Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 K1 1,000 0,317 0,174 0,162 0,606 0,138 0,131 0,394 0,291 2 K2 1,000 0,170 0,317 0,371 0,931 0,386-0,101 0,069 0,093 3 K3 1,000 0,255 0,326-0,304 0,910 0,388 0,096 0,090 0,125 4 K4 1,000 0,258 0,183-0,144 0,369 0,088-0,189 0,631 0,492 Πίνακας 19. Συνεισφορές Στηλών Ό,τι περιγράψαμε για τον πίνακα 18 των Συνεισφορών των Γραμμών ισχύει αντίστοιχα και για τον πίνακα 19 που αναπαριστάνει τις Συνεισφορές των Στηλών. Παρατηρώντας τα αποτελέσματα διακριβώνουμε πως η Ποιότητα και των τεσσάρων επιπέδων Κ1, Κ2, Κ3 και Κ4 της μεταβλητής Κλάδος Καταστήματος είναι ίση με τη μονάδα. Αυτό σημαίνει ότι οι τέσσερεις στήλες αντιπροσωπεύονται όλες εξίσου καλά από την δισδιάστατη ανάλυση. Συγχρόνως βλέπουμε ότι τα επίπεδα Κ3 και Κ4 συνεισφέρουν σχεδόν το ίδιο (38,6% και 38,8% αντίστοιχα) στον 1 ο άξονα ενώ στον 2 ο άξονα τη μεγαλύτερη συνεισφορά (49,2%) εμφανίζει το Κ4 (Κοσμήματα/ Αξεσουάρ/ Καλλυντικά). Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 208

209 Component 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ- ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Προχωράμε στο τελευταίο μέρος της Απλής Ανάλυσης Αντιστοιχιών με την παρουσίαση των γραφημάτων που κατασκεύασε το MINITAB, το οποίο αποθήκευσε (πρέπει να ενεργοποιήσουμε την κατάλληλη επιλογή) όπως βλέπουμε και στην εικόνα 35, τις Κύριες (Principal) και Πρότυπες (Standard) Συντεταγμένες των γραμμών και των στηλών (RPC1, RPC2, RSC1, RSC2, CPC1, CPC2, CSC1, CSC2). 0,4 Symmetric Plot 0,3 0,2 0,1 K3 K1 E3_3 0,0 E3_1-0,1 K2-0,2 K4-0,3-0,4-0,5 E3_2-0,5-0,4-0,3-0,2-0,1 0,0 0,1 Component 1 0,2 0,3 0,4 Γράφημα 6: Δισδιάστατο Συμμετρικό Διάγραμμα Γραμμών και Στηλών Το παραπάνω γράφημα δείχνει ένα Συμμετρικό διάγραμμα που απεικονίζει μαζί τις Κύριες Συντεταγμένες Γραμμών και Στηλών επικαλυπτόμενες σε μια από κοινού αναπαράσταση. Δυστυχώς δε μπορούμε να ερμηνεύσουμε τις αποστάσεις μεταξύ των αποστάσεων γραμμών και στηλών, μονάχα οι αποστάσεις ανάμεσα στις γραμμές και οι αποστάσεις ανάμεσα στις στήλες ξεχωριστά, που είναι προσεγγιστικά Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 209

210 X 2 αποστάσεις μεταξύ των αντίστοιχων προφίλ, είναι ερμηνεύσιμες. Θυμίζουμε ότι τα σημεία γραμμών αναπαρίστανται με κόκκινους κύκλους ενώ τα σημεία στηλών απεικονίζονται με μπλε τετράγωνα. Όσον αφορά τις γραμμές, ο 1 ος άξονας αντιπαραβάλλει το επίπεδο Ε3_1 που έχει τη μεγαλύτερη συνεισφορά και αρνητικό πρόσημο με τα επίπεδα Ε3_2 και Ε3_3 που έχουν θετικό πρόσημο. Έτσι θα λέγαμε πως η πρώτη συνιστώσα τονίζει την αντίθεση ανάμεσα στις «Επώνυμες αλυσίδες καταστημάτων» από τη μια πλευρά και από την άλλη τα «Τοπικά καταστήματα» και «Και τα δύο εξίσου». Αναφορικά με τα σημεία των στηλών, ο 1 ος άξονας εμφανίζει τα επίπεδα Κ2 και Κ3, που έχουν τις μεγαλύτερες συνεισφορές στην 1 η συνιστώσα, να βρίσκονται αρκετά μακριά από την αρχή των αξόνων αλλά με διαφορετικό πρόσημο. Επιπλέον παρατηρούμε πως τα επίπεδα Κ1 και Κ4 είναι εκ διαμέτρου αντίθετα ως προς την ευθεία που διέρχεται από την αρχή των αξόνων. Επομένως μπορούμε να ισχυριστούμε ότι η πρώτη συνιστώσα διαφοροποιεί τους κλάδους «Ηλεκτρικά είδη, Κινητά, Αναλώσιμα» και «Κοσμήματα, Αξεσουάρ, Καλλυντικά» από τους έτερους κλάδους της «Ένδυσης και Υπόδησης» καθώς και του «Οικιακού Εξοπλισμού». Το επίπεδο Ε3_1 βρίσκεται πολύ κοντά στον 2 ο άξονα ενώ το Ε3_2, που έχει πολύ μεγάλη συνεισφορά στη 2 η συνιστώσα, απέχει αρκετά από την αρχή των αξόνων. Το Ε_3 έχει διαφορετικό πρόσημο συγκριτικά με τα άλλα δύο επίπεδα. Συμπεραίνουμε πως η δεύτερη συνιστώσα αντιπαραβάλλει το επίπεδο «Και τα δύο εξίσου» με τα επίπεδα «Επώνυμες αλυσίδες καταστημάτων» καθώς και τα «Τοπικά καταστήματα». Συνάμα, ο δεύτερος άξονας διαφοροποιεί τους κλάδους της «Ένδυσης και Υπόδησης» και τα «Ηλεκτρικά είδη, Κινητά, Αναλώσιμα» που έχουν τις μεγαλύτερες συνεισφορές από τους κλάδους «Κοσμήματα, Αξεσουάρ, Καλλυντικά» όπως και του «Οικιακού Εξοπλισμού». Συνεχίζουμε με την παράθεση και των υπόλοιπων γραφημάτων του MINITAB: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 210

211 Component 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ- ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ 1,5 Asymmetric Row Plot 1,0 0,5 K3 K1 0,0 E3_1 E3_3-0,5 E3_2 K2-1,0 K4-1,5-1,5-1,0-0,5 0,0 0,5 Component 1 1,0 1,5 Γράφημα 7: Δισδιάστατο Μη Συμμετρικό Διάγραμμα Γραμμών Στο γράφημα 7 παρατηρούμε ένα Μη Συμμετρικό Διάγραμμα Γραμμών που απεικονίζει ταυτόχρονα τις γραμμές και τις στήλες. Οι γραμμές εδώ κλιμακοποιούνται στις Κύριες Συντεταγμένες (Principal Coordinates) ενώ αντίθετα οι στήλες κλιμακοποιούνται στις Πρότυπες Συντεταγμένες (Standard Coordinates). Συνήθως επιλέγουμε το συγκεκριμένο γράφημα όταν ενδιαφερόμαστε περισσότερο για τις γραμμές παρά για τις στήλες. Όπως είναι γνωστό, το Μη Συμμετρικό Διάγραμμα πλεονεκτεί έναντι του Συμμετρικού Διαγράμματος διότι μπορεί να υπάρξει μια ενορατική ερμηνεία των αποστάσεων ανάμεσα στα σημεία γραμμών και στα σημεία στηλών, ιδιαίτερα όταν οι δύο άξονες που απεικονίζονται αντιπροσωπεύουν ένα μεγάλο ποσοστό της Συνολικής Αδράνειας. Βέβαια, όπως επίσης έχουμε τονίσει, το γράφημα αυτό παρουσιάζει το μειονέκτημα ότι τα Προφίλ που μας ενδιαφέρουν επανειλημμένα «συνωστίζονται» στο κέντρο του γραφήματος. Επειδή όσο πιο κοντά βρίσκεται το Προφίλ μιας γραμμής σε μια κορυφή στήλης τόσο πιο μεγάλο θα είναι το Προφίλ της γραμμής σε σχέση με την κατηγορία- Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 211

212 Component 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ- ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ επίπεδο της στήλης, μπορούμε να διαπιστώσουμε πως το Ε3_1 είναι πλησιέστερα στο Κ3, το Ε3_2 φαίνεται να έχει ίσες αποστάσεις από τα Κ2 και Κ4 και τέλος το Ε3_3 βρίσκεται κοντά στο Κ1. Αν συγκρίνουμε τα γραφήματα 6 και 7, θα συμπεράνουμε ότι το Συμμετρικό και το Μη Συμμετρικό Διάγραμμα είναι όμοια (με τη μόνη διαφορά ότι τα προφίλ των γραμμών είναι «στοιβαγμένα» κοντά στην αρχή των αξόνων) και κατ επέκταση τα συμπεράσματα στα οποία φτάσαμε για το Συμμετρικό θα ισχύουν και για το Μη Συμμετρικό Διάγραμμα. Εν τέλει, ολοκληρώνουμε την Απλή Ανάλυση Αντιστοιχιών με το Μη Συμμετρικό Διάγραμμα Στηλών: 2 Asymmetric Column Plot 1 0 E3_1 K3 K1 K4 K2 E3_ E3_ Component Γράφημα 8: Δισδιάστατο Μη Συμμετρικό Διάγραμμα Στηλών Το Μη Συμμετρικό Διάγραμμα Στηλών είναι παραπλήσιο με το Μη Συμμετρικό Διάγραμμα Γραμμών με τη διαφορά ότι οι γραμμές εδώ κλιμακοποιούνται στις Πρότυπες Συντεταγμένες (Standard Coordinates) ενώ αντίθετα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 212

213 οι στήλες κλιμακοποιούνται στις Κύριες Συντεταγμένες (Principal Coordinates). Επιπρόσθετα, παρατηρούμε πως στην αρχή των αξόνων είναι συγκεντρωμένες οι κορυφές των στηλών και όχι τα προφίλ των γραμμών όπως συνέβαινε στο Μη Συμμετρικό Διάγραμμα Γραμμών. Τα αποτελέσματα όσον αφορά την εγγύτητα των Προφίλ γραμμών με τις κορυφές των στηλών είναι τα ίδια με τα συμπεράσματα του Μη Συμμετρικού Διαγράμματος Γραμμών. 25.4: Συμπεράσματα Εφαρμόσαμε την μέθοδο της απλής Ανάλυσης Αντιστοιχιών στο δείγμα των 593 καταναλωτών και οι κύριες μεταβλητές της ανάλυσης είναι ER_3 (Προτίμηση Καταστήματος) και KLADOS_KATASTHMATOS (Κλάδος Καταστήματος). Με βάση το Συμμετρικό Διάγραμμα στο οποίο παρουσιάζονται οι προβολές των διαφορετικών κατηγοριών των δύο κυρίων μεταβλητών της ανάλυσης στο επίπεδο των δύο πρώτων παραγοντικών αξόνων προκύπτουν τα εξής: Ο πρώτος άξονας (οριζόντιος) ερμηνεύει το 76% της συνολικής αδράνειας των δεδομένων μας ενώ ο δεύτερος (κατακόρυφος) ερμηνεύει το υπόλοιπο 24%. Και οι δύο άξονες περιγράφουν καταναλωτικές συνήθειες των ατόμων του δείγματος: Η επιλογή των καταστημάτων εξαρτάται σε μεγάλο βαθμό από το είδος και το αγοραστικό προϊόν. Ερμηνεύοντας το επίπεδο των δύο αξόνων, παρατηρούμε τα εξής: Για την αγορά ηλεκτρικών ειδών, κινητών, Η/Υ, κοσμημάτων και καλλυντικών ο καταναλωτής προτιμά κυρίως τις επώνυμες αλυσίδες καταστημάτων ενώ για ένδυση και υπόδηση αλλά και την αγορά οικιακού εξοπλισμού επιλέγει κυρίως τα τοπικά καταστήματα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 213

214 - Κεφάλαιο 26: Πολλαπλή Ανάλυση Αντιστοιχιών- Multiple Correspondence Analysis (M.C.A.) 26.1: Εισαγωγή Διεκπεραιώνουμε την πρακτική εφαρμογή της Ανάλυσης Αντιστοιχιών με την υλοποίηση της Πολλαπλής Ανάλυσης Αντιστοιχιών (Multiple Correspondence Analysis) σε ένα συνδυασμό πέντε μεταβλητών. Συγκεκριμένα θα χρησιμοποιήσουμε τις μεταβλητές ER_1 (Λόγος Επίσκεψης), ER_3 (Προτίμηση Καταστήματος), ER_4 (Επιλογή Καταστήματος με βάση την απόσταση), ER_15 (Φύλο), και KLADOS_KATASTHMATOS (Κλάδος Καταστήματος). Τα επίπεδα- κατηγορίες των παραπάνω μεταβλητών τα έχουμε περιγράψει ενδελεχώς στην ενότητα της τελικής επιλογής μεταβλητών. Ο λόγος που επιλέξαμε τις δοσμένες μεταβλητές είναι αφενός, όπως και στην Απλή Ανάλυση Αντιστοιχιών, ότι εμφανίζουν ισχυρές και στατιστικά σημαντικές συσχετίσεις (εξαρτήσεις) και αφετέρου δεν έχουν καθόλου απούσες τιμές. Θα εκτελέσουμε την Πολλαπλή Ανάλυση Αντιστοιχιών κάνοντας χρήση του στατιστικού πακέτου SPSS : Εφαρμογή Ακολουθώντας τις οδηγίες που περιγράψαμε διεξοδικά στο 15 ο κεφάλαιο υλοποιούμε την Πολλαπλή Ανάλυση Αντιστοιχιών στο SPSS. Το αρχείο δεδομένων ονομάζεται «Έρευνα Αγοράς Εμπορικά Καταστήματα.sav» και είναι το ίδιο με το αρχείο που περιγράψαμε στην ενότητα της επιλογής μεταβλητών. Συγχρόνως τα αποτελέσματα, τους πίνακες δηλαδή και τα γραφήματα της Πολλαπλής Ανάλυσης Αντιστοιχιών τα αντλήσαμε από την έξοδο (Output) του SPSS του οποίου το όνομα αρχείου είναι «Output Έρευνα Αγοράς Εμπορικά Καταστήματα.spv». Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 214

215 Εν συνεχεία ακολουθούν τα αποτελέσματα από το «τρέξιμο» της Πολλαπλής Ανάλυσης Αντιστοιχιών στο SPSS. Πρέπει να επισημάνουμε πως δε συμπεριλάβαμε καθόλου Συμπληρωματικά σημεία (Supplementary Points) στην ανάλυση. Να σημειώσουμε πως θα παραθέσουμε όλα τους πίνακες και τα γραφήματα που εξάγει το SPSS, όμως θα σχολιάσουμε μόνο τα πιο ουσιώδη και σημαντικά σχετικά με την ανάλυση μας. Multiple Correspondence Case Processing Summary Valid Active Cases 593 Active Cases with Missing 0 Values Supplementary Cases 0 Total 593 Cases Used in Analysis 593 Πίνακας 20. Case Processing Summary Στον παραπάνω πίνακα βλέπουμε ότι έχουμε 593 έγκυρες ενεργές περιπτώσεις, δηλαδή όλα οι 593 περιπτώσεις (άτομα) είναι έγκυρες ενώ δεν υφίστανται απούσες τιμές (missing values). Παράλληλα δεν υπάρχουν Συμπληρωματικά σημεία (Supplementary Points) και φυσικά το σύνολο των περιπτώσεων που χρησιμοποιήθηκε στην ανάλυση είναι 593. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 215

216 Iteration History Iteration Number Variance Accounted For Total Increase Loss 59 a 1,45586, ,54414 a. The iteration process stopped because the convergence test value was reached. Πίνακας 21. Iteration History Ο πίνακας 21 μας δείχνει το ιστορικό των επαναλήψεων και μας πληροφορεί πως η διαδικασία επαναλήψεων διεκόπη διότι η επιθυμητή τιμή του τεστ σύγκλισης (convergence) επετεύχθη στην 59 η επανάληψη. Cronbach's Dimension Alpha Model Summary Variance Accounted For Total Inertia % of Variance (Eigenvalue) 1,438 1,540,308 30,801 2,339 1,372,274 27,433 Total 2,912,582 Mean,391 a 1,456,291 29,117 a. Mean Cronbach's Alpha is based on the mean Eigenvalue. Πίνακας 22. Σύνοψη Μοντέλου Η Πολλαπλή Ανάλυση Αντιστοιχιών μπορεί να υπολογίσει μια λύση για μερικές διαστάσεις. Ο μέγιστος αριθμός διαστάσεων θα είναι ίσος με το πλήθος των επιπέδων- κατηγοριών μείον τον αριθμό των μεταβλητών που δεν έχουν απούσες τιμές ή θα ισούται με το πλήθος των παρατηρήσεων μείον ένα, όποια από τα δύο αποτελέσματα είναι το μικρότερο. Επομένως, έχουμε συνολικά 17 επίπεδα των υπό Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 216

217 εξέταση μεταβλητών μείον τις 5 μεταβλητές που δεν έχουν απούσες τιμές, τελικά προκύπτουν το πολύ 12 διαστάσεις για τα δεδομένα μας. Στον πίνακα 22 παρατηρούμε πως το SPSS υπολογίζει δύο διαστάσεις, το σύνολο (Total) καθώς και το Μέσο (Mean). Η δεύτερη στήλη αναφέρεται στο στατιστικό Άλφα του Κρόνμπαχ (Cronbach s Alpha), το οποίο ανά διάσταση (s= 1,..,p) ισούται με: δίνεται από τον τύπο: a m m ενώ η συνολική τιμή του 1/2 1/2 s w( s 1) / ( s ( w 1)), όπου το s a m m 1/2 1/2 w( s 1) / s ( w 1) s s είναι το s- οστό διαγώνιο στοιχείο του Λ όπως υπολογίστηκε στην τελευταία επανάληψη. Επίσης, η 3 η στήλη (Total- Eigenvalue) αντιστοιχεί στις ιδιοτιμές των διαστάσεων (αξόνων). Έτσι λοιπόν, η πρώτη ιδιοτιμή αντιστοιχεί στον πρώτο άξονα, ο οποίος ερμηνεύει το 30,8% περίπου της Συνολικής Αδράνειας, όπως βλέπουμε στην 4 η στήλη και στην 5 η στήλη (στην πραγματικότητα παρουσιάζονται οι προσαρμοσμένες αδράνειες), ενώ η δεύτερη ιδιοτιμή ερμηνεύει το 27,4% περίπου. Αθροιστικά το ποσοστό της Συνολικής Αδράνειας που ερμηνεύεται από τη δισδιάστατη λύση της Πολλαπλής Ανάλυσης Αντιστοιχιών ανέρχεται στο 58,2%. Το ποσοστό αυτό δε μπορούμε να ισχυριστούμε ότι είναι ικανοποιητικό αφού μόλις που αγγίζει το 60%, εντούτοις θα αρκεστούμε σε αυτή τη λύση αποδεχόμενοι το γεγονός ότι οι δύο άξονες δεν επαρκούν πλήρως για να αντιπροσωπεύσουν ένα μεγάλο μέρος της Αδράνειας και το δισδιάστατο γράφημα για να απεικονίσει επαρκώς τα δεδομένα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 217

218 Discrimination Measures Γιατί επισκεφθήκατε το κατάστημα; Όταν αγοράζετε,προτιμάτε συνήθως... Dimension Mean 1 2,527,373,450,263,382,323 Φύλο,444,128,286 Active Total 1,540 1,372 1,456 % of Variance 30,801 27,433 29,117 Πίνακας 23. Discrimination Measures Ο πίνακας 23 παρουσιάζει τα Μέτρα Διάκρισης (Discrimination Measures) για τα οποία έχουμε αναφερθεί εκτενώς σε προηγούμενη ενότητα. Τώρα θα δούμε κατά πόσο αυτά τα μέτρα διάκρισης συμφωνούν με αυτά που έχουμε διαπιστώσει μέχρι στιγμής. Βλέπουμε λοιπόν ότι για κάθε διάσταση (πρώτη και δεύτερη) υπολογίζεται το μέτρο διάκρισης για κάθε μία μεταβλητή και ισοδυναμεί με τη διακύμανση της ποσοτικοποιημένης μεταβλητής σε εκείνη τη διάσταση. Οι τιμές των μέτρων διάκρισης ποικίλλουν από 0,128 η ελάχιστη μέχρι και 0,527 η μέγιστη (η μέγιστη τιμή που μπορούν να πάρουν τα μέτρα διάκρισης, αν δεν υπάρχουν απούσες τιμές είναι ίση με τη μονάδα). Επαναλαμβάνουμε πως μεγάλες τιμές των μέτρων διάκρισης υποδηλώνουν μια ευρεία διασπορά ανάμεσα στα επίπεδα της μεταβλητής και συνεπώς θα υποδεικνύουν έναν υψηλό βαθμό διάκρισης μεταξύ των επιπέδων της μεταβλητής κατά μήκος αυτής της διάστασης. Στην εφαρμογή μας παρατηρούμε πως γενικά οι τιμές των μέτρων διάκρισης δεν είναι κατά βάση υψηλές αλλά μάλλον μέτριες και κατόπιν τούτου συμπεραίνουμε ότι δε θα υφίσταται μεγάλος και άρα ικανοποιητικός βαθμός διάκρισης μεταξύ των επιπέδων των μεταβλητών. Επιπλέον το Ενεργό Σύνολο (Active Total) παίρνει την τιμή 1,540 για τον 1 ο άξονα και την τιμή 1,372 για τον 2 ο άξονα. Τέλος, τα αποτελέσματα της τελευταίας γραμμής του πίνακα (% of Variance) ταυτίζονται με τα αποτελέσματα του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 218

219 προηγούμενου πίνακα και αναφέρονται στο ποσοστό της Αδράνειας ή της Διακύμανσης που ερμηνεύονται από τους δύο άξονες της επίλυσης. Ακολουθεί το γράφημα των Μέτρων Διάκρισης: Γράφημα 9: Διάγραμμα Discrimination Measures Εξετάζοντας το παραπάνω γράφημα διαπιστώνουμε πως τα Μέτρα Διάκρισης δείχνουν ότι η πρώτη διάσταση συσχετίζεται κατά κάποιον τρόπο με τη μεταβλητή Φύλο, η οποία έχει μεγάλη τιμή (0,444) των μέτρων διάκρισης στην 1 η διάσταση και αντίθετα την ελάχιστη τιμή (0,128) στη 2 διάσταση. Κατά συνέπεια τα επίπεδα του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 219

220 Φύλου θα εκτείνονται μακριά μεταξύ τους κατά μήκος της πρώτης διάστασης μόνο. Παράλληλα η μεταβλητή Προτίμηση Καταστήματος που έχει τη μέγιστη τιμή (0,382) για τη 2 η διάσταση φαίνεται να είναι πλησίον της δεύτερης διάστασης ενώ η μεταβλητή Λόγος Επίσκεψης εμφανίζει υψηλές τιμές και για τις δύο διαστάσεις και αυτό υποδηλώνει μια μέτρια αν όχι ικανοποιητική διάκριση και στις δύο διαστάσεις μαζί. Εν συνεχεία θα εξετάσουμε το Συνδυαστικό Γράφημα των Σημείων των Επιπέδων (Joint Plot of Category Points): Γράφημα 10: Συνδυαστικό Γράφημα Σημείων των Επιπέδων Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 220

221 Στο παραπάνω γράφημα βλέπουμε όλα τα επίπεδα- κατηγορίες των 5 υπό ανάλυση μεταβλητών (17 στον αριθμό). Επίσης απεικονίζονται και οι συντεταγμένες κάθε επιπέδου σε κάθε διάσταση. Το γράφημα αυτό έχει την ικανότητα να αποκαλύπτει διαφοροποιήσεις μεταξύ των μεταβλητών που προσδιορίζουν συσχετίσεις ανάμεσα στα επίπεδα. Αναφορικά με τη μεταβλητή Λόγος Επίσκεψης που έχει πέντε επίπεδα- κατηγορίες τρεις από τις οποίες βρίσκονται στο πάνω μισό του γραφήματος ως προς τη 2 η διάσταση τη στιγμή που οι άλλες δύο κατηγορίες είναι τοποθετημένες στο τέταρτο (κάτω) τεταρτημόριο. Παρατηρείται δηλαδή μια ικανοποιητική, όπως έχουμε ήδη αναφέρει, διαφοροποίηση (Discrimination) και ως προς την 1 η και ως προς τη 2 η διάσταση της μεταβλητής Λόγος Επίσκεψης. Επιπλέον τα 3 επίπεδα της μεταβλητής Προτίμηση Καταστήματος διαφοροποιούνται και ως προς τις δύο διαστάσεις ενώ από τα 3 επίσης επίπεδα της μεταβλητής Επιλογή Καταστήματος με βάση την απόσταση το ένα βρίσκεται κοντά στην αρχή των αξόνων και τα υπόλοιπα δύο σημεία είναι διαμετρικά αντίθετα ως προς τη διχοτόμο του 1 ου και 3 ου τεταρτημορίου. Συμπερασματικά, διαπιστώνουμε πως και οι δύο προαναφερθείσες μεταβλητές εμφανίζουν μια μέτρια διάκριση. Παράλληλα τα 2 επίπεδα του Φύλου είναι εκ διαμέτρου αντίθετα ως προς την πρώτη διάσταση, γεγονός που υποδεικνύει μια σχετικά μεγάλη τιμή του μέτρου διάκρισης, όπως άλλωστε είδαμε και στον πίνακα 23. Τέλος, τα 4 επίπεδα της μεταβλητής Κλάδος Καταστήματος παρουσιάζουν τη μεγαλύτερη διαφοροποίηση καθώς τα τέσσερα επίπεδα είναι διασκορπισμένα στα τρία από τα τέσσερα τεταρτημόρια του γραφήματος. Εν τέλει θα ολοκληρώσουμε την εφαρμογή της Πολλαπλής Ανάλυσης Αντιστοιχιών εκθέτοντας έναν πίνακα (Correlations Transformed Variables) καθώς και πέντε γραφήματα άνευ σχολίων και παρατηρήσεων. Η μόνη παρατήρηση που θα κάνουμε για τα γραφήματα είναι ότι, όπως διακρίνουμε από το σμήνος των σημείων, δε φαίνεται να υπάρχουν ακραίες τιμές (outliers), πράγμα που είναι επιθυμητό για την ανάλυση μας. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 221

222 Dimension: 1 Correlations Transformed Variables Γιατί επισκεφθήκατε Όταν αγοράζετε,προτι Φύλο το κατάστημα; μάτε συνήθως... Γιατί επισκεφθήκατε το κατάστημα; 1,000,135,382 Όταν αγοράζετε,προτιμάτε συνήθως...,135 1,000,087 Φύλο,382,087 1,000 Dimension Eigenvalue,605 1,181,744 Πίνακας 24. Correlations Transformed Variables Γράφημα 11: Object Points της μεταβλητής Λόγος Επίσκεψης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 222

223 Γράφημα 12: Object Points της μεταβλητής Προτίμηση Καταστήματος Γράφημα 13: Object Points της μεταβλητής Επιλογή Καταστήματος με βάση την απόσταση Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 223

224 Γράφημα 14: Object Points της μεταβλητής Φύλο Γράφημα 15: Object Points της μεταβλητής Κλάδος Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 224

225 26.3: Συμπεράσματα Εφαρμόσαμε την μέθοδο της Πολλαπλής Ανάλυσης Αντιστοιχιών στο δείγμα των 593 καταναλωτών και οι κύριες μεταβλητές της ανάλυσης είναι ER_1 (Λόγος Επίσκεψης), ER_3 (Προτίμηση Καταστήματος), ER_4 (Επιλογή Καταστήματος με βάση την απόσταση), ER_15 (Φύλο), και KLADOS_KATASTHMATOS (Κλάδος Καταστήματος). Με βάση το Συνδυαστικό Γράφημα των Σημείων των Επιπέδων (Joint Plot of Category Points) στο οποίο παρουσιάζονται οι προβολές των διαφορετικών κατηγοριών των πέντε κυρίων μεταβλητών της ανάλυσης στο επίπεδο των δύο πρώτων παραγοντικών αξόνων προκύπτουν τα εξής: Ο πρώτος άξονας (οριζόντιος) ερμηνεύει το 31% της συνολικής αδράνειας των δεδομένων μας ενώ ο δεύτερος (κατακόρυφος) ερμηνεύει το υπόλοιπο 27%. Και οι δύο μαζί, δηλαδή το παραγοντικό επίπεδο που σχηματίζουν, ερμηνεύουν το 58% της συνολικής αδράνειας. Ο πρώτος άξονας (οριζόντιος) διαφοροποιεί τους καταναλωτές που για τις αγορές τους επιλέγουν τα καταστήματα στα οποία, αν και βρίσκονται αρκετά μακριά εντούτοις, συνήθως αγοράζουν (αριστερά στον πρώτο άξονα) από εκείνους που η επιλογή του καταστήματος είναι κυρίως κοντά στο σπίτι τους ή την εργασία τους και εναλλακτικά τυχαία (δεξιά στον πρώτο άξονα). Στην πρώτη κατηγορία ανήκουν άνδρες που επισκέπτονται καταστήματα μιας συγκεκριμένης αλυσίδας ή ένα κατάστημα τέτοιου είδους ανεξαρτήτως αλυσίδας και ταυτόχρονα προτιμούν επώνυμες αλυσίδες καταστημάτων όταν αγοράζουν από καταστήματα που ανήκουν στον κλάδο των Ηλεκτρικών ειδών/ Κινητών/ Αναλώσιμων. Στη δεύτερη κατηγορία ανήκουν κυρίως γυναίκες που επισκέπτονται το συγκεκριμένο κατάστημα της συγκεκριμένης αλυσίδας ή μπαίνουν τυχαία και ταυτόχρονα προτιμούν είτε τοπικά καταστήματα είτε επώνυμες αλυσίδες καταστημάτων και τοπικά καταστήματα μαζί από καταστήματα που ανήκουν στους κλάδους της Ένδυσης/ Υπόδησης ή του Οικιακού Εξοπλισμού ή των Κοσμημάτων/ Αξεσουάρ/ Καλλυντικών. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 225

226 Ο δεύτερος άξονας (κατακόρυφος) διαφοροποιεί τους καταναλωτές ως προς τις επιλογές τους για το είδος των αγορών τους. Παρατηρούμε, στο κάτω μέρος αυτού του άξονα, ότι οι καταναλωτές (άνδρες) για την αγορά Κινητών, Ηλεκτρονικών Ειδών, Οικιακού εξοπλισμού και είδη Ένδυσης ή Υπόδησης προτιμούν εξίσου επώνυμες αλυσίδες καταστημάτων και τοπικά καταστήματα, ενώ οι γυναίκες για την αγορά Κοσμημάτων/ Αξεσουάρ και Καλλυντικών προτιμούν είτε επώνυμες αλυσίδες καταστημάτων είτε τοπικά καταστήματα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 226

227 ΒΙΒΛΙΟΓΡΑΦΙΑ ΕΛΛΗΝΙΚΕΣ ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ (REFERENCES) Γούτσος, Στ. (2011). Βιομηχανική Διοίκηση [Σημειώσεις Μαθήματος]. Πάτρα: Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών, Πανεπιστήμιο Πατρών. Δημάκη, Αικ. (1999). Στατιστικό Πακέτο MINITAB (Πανεπιστημιακές Σημειώσεις). Αθήνα: Εκδόσεις Οικονομικού Πανεπιστημίου Αθηνών. Καρλής, Δημ. (2005). Πολυμεταβλητή Στατιστική Ανάλυση. Αθήνα: Εκδόσεις Αθ. Σταμούλης. Κιόχος, Π. (1993). Περιγραφική Στατιστική. Αθήνα: Εκδόσεις Interbooks. Κυριαζή, N. (2004). Η κοινωνιολογική έρευνα: Κριτική επισκόπηση των μεθόδων και των τεχνικών (7η έκδ.). Αθήνα: Εκδόσεις Ελληνικά Γράμματα. Λελεδάκης, Γ. (2008). Μάρκετινγκ [Οικονομία- Επιχειρήσεις]. Εκπαιδευτικό υλικό στο πλαίσιο του Έργου «Κέντρα Εκπαίδευσης Ενηλίκων» του ΥΠ.Π.Θ., Γενική Γραμματεία Εκπαίδευσης Ενηλίκων, Ινστιτούτο Διαρκούς Εκπαίδευσης Ενηλίκων. Νόβα-Καλτσούνη, Χ. (2006). Μεθοδολογία Εμπειρικής Έρευνας στις Κοινωνικές Επιστήμες- Ανάλυση Δεδομένων με τη χρήση του SPSS 13. Αθήνα: Gutenberg. Ξεκαλάκη, Ευδ. (2001). Μη Παραμετρική Στατιστική. Αθήνα. Ξεκαλάκη, Ευδ. (1995). Τεχνικές Δειγματοληψίας. Αθήνα. Ξεκαλάκη, Ευδ., & Πανάρετος, Ι. (1993). Πιθανότητες και Στοιχεία Στοχαστικών Ανελίξεων (3 η έκδ.). Αθήνα. Πανάρετος, Ι. (2001). Εκπόνηση και Συγγραφή Εργασιών- Οδηγίες και Υποδείξεις για την Συγγραφή Εργασίας. Αθήνα: Οικονομικό Πανεπιστήμιο Αθηνών. Πανάρετος, Ι., & Ξεκαλάκη, Ευδ. (1995). Εισαγωγή στην Πολυμεταβλητή Στατιστική Ανάλυση- Τόμος 1. Αθήνα. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 227

228 Πανάρετος, Ι., & Ξεκαλάκη, Ευδ. (2000). Εισαγωγή στη Στατιστική Σκέψη- Τόμος 2. Αθήνα. Παπαϊωάννου, Τ., & Φερεντίνος, Κ. (2000). Μαθηματική Στατιστική. Αθήνα: Εκδόσεις Σταμούλης. Σιώμκος, Γ., & Βασιλικοπούλου, Αικ. (2005). Εφαρμογή Μεθόδων Ανάλυσης στην Έρευνα Αγοράς. Αθήνα: Εκδόσεις Σταμούλης. Σιώμκος, Γ., & Μαύρος, Δ. (2008). Έρευνα Αγοράς. Αθήνα: Εκδόσεις Σταμούλης. Σταθακόπουλος, Βλ. (1997). Μέθοδοι Έρευνας Αγοράς. Αθήνα: Εκδόσεις Σταμούλης. Σφακιανάκης, Μ. (2000). Υπολογιστική Στατιστική. Αθήνα. Τζωρτζόπουλος, Π. (2001). Οργάνωση & διεξαγωγή δειγματοληπτικών ερευνών. Αθήνα: Εκδόσεις Οικονομικού Πανεπιστημίου Αθηνών. Τζωρτζόπουλος, Π. (2003). Συγγραφή Μονογραφίας. Αθήνα. Χατζηδήµος, Απ. (1977). Εισαγωγή στην Αριθµητική Ανάλυση. Αθήνα: Πανεπιστηµιακές Εκδόσεις Ιωαννίνων. ΞΕΝΕΣ ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ (REFERENCES) Beh, E.J. (2004). Simple Correspondence Analysis: A Bibliographic Review. International Statistical Review 72, 2, International Statistical Institute. Bendixen, M. (1996). A Practical Guide to the Use of Correspondence Analysis in Marketing Research. Marketing Research On-Line Vol. 1. Benzecri, J.P. (1992). Correspondence Analysis Handbook. Vol New York: Marcel Dekker INC. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 228

229 Brace, I. (2004). Questionnaire Design: How to Plan, Structure and Write Survey Material for Effective Market Research. London: Kogan Pages. Ergle, W.D. (1995). Introductory Statistics with a MINITAB Guide. Two-term Version. Duxbury Press. Everitt, Br.S., & Dunn, Gr. (2001). Applied Multivariate Data Analysis. New York: Arnold. Gatignon, H. (2010). Statistical Analysis of Management Data. (2 nd ed.). New York: Springer. Goodall, D.W. (1967). The Distribution of the Matching Coefficient. Biometrics, C.S.I.R.O., Division of Mathematical Statistics, Western Australia Laboratories, Wembley, Western Australia. Greenacre, M.J. (1984). Theory and Applications of Correspondence Analysis. London: Academic Press. Hague, P., Hague, N., & Morgan, C.A. (2004). Market Research in Practice: A Guide to the Basics. London: Kogan Pages. Hoffman, D.L. & Franke, G.R. (1986). Correspondence Analysis: Graphical Representation of Categorical Data in Marketing Research. Journal of Marketing Research, Vol. 23, No 3, pp American Marketing Association. Howitt, D., & Cramer, D. (2006). Στατιστική με το SPSS 13. (3 η Κλειδάριθμος. έκδ.). Εκδόσεις Johnson, R.A., & Wichern, D.W. (1998). Applied Multivariate Statistical Analysis. (4 th ed.). New Jersey: Prentice Hall. Lebart, L., Morineau, Al., & Warwick, K. (1984). Multivariate Descriptive Statistical Analysis: Correspondence Analysis and Related Techniques for Large Matrices. New York: John Wiley & Sons. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 229

230 Le Roux, B., & Rouanet, H. (2004). Geometric Data Analysis: From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer Academic Publishers. Rencher, A.C. (2002). Methods of Multivariate Analysis., New York: John Wiley & Sons Inc. ΗΛΕΚΤΡΟΝΙΚΕΣ ΠΗΓΕΣ (ELECTRONIC SOURCES) (StatSoft Electronic Statistics Textbook) ( American Marketing Association) [The Market Research Society (UK)] (The Market Research Society of Australia) (Qualitative Research Consultants Association) (The Council of American Survey Research Organizations) (IBM SPSS Statistics Help- Simple Correspondence Analysis) (IBM SPSS Statistics Help- Multiple Correspondence Analysis) (Wikipedia) MINITAB Help Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 230

231 ΠΑΡΑΡΤΗΜΑ ΕΥΡΕΤΗΡΙΟ ΟΡΩΝ (ΥΠΟΣΗΜΕΙΩΣΕΙΣ) 2. Πίνακες Απλής & Πολλαπλής Εισόδου Για να παρουσιάσουμε στατιστικά στοιχεία σε πίνακες μπορούμε να τοποθετήσουμε καταλλήλως τα δεδομένα σε γραμμές και στήλες έτσι ώστε να είναι δυνατή η σύγκριση των στοιχείων και φυσικά να παρέχεται η δυνατότητα στον αναγνώστη για καλύτερη ενημέρωση του υπό μελέτη πληθυσμού. Οι στατιστικοί πίνακες που χρησιμοποιούνται για αυτόν τον σκοπό διαχωρίζονται σε δύο κατηγορίες, τους λεπτομερείς και τους συνοπτικούς. Οι λεπτομερείς πίνακες περιλαμβάνουν οποιαδήποτε διαθέσιμη και προσιτή πληροφορία για κάποια στατιστική έρευνα και εξυπηρετούν τους ενδιαφερόμενους όσον αφορά την αναζήτηση πληροφοριών που τους ενδιαφέρουν. Οι συνοπτικοί πίνακες απεναντίας δεν είναι τόσο λεπτομερείς αλλά επιτυγχάνουν μια συνοπτική παρουσίαση των στοιχείων που αναλύονται και προκύπτουν κατά βάση από τους λεπτομερείς πίνακες. Η χρήση των συνοπτικών πινάκων συνίσταται βασικά σε συγκρίσεις δεδομένων, πράγμα που είναι η βάση της στατιστικής ανάλυσης και συμπερασματολογίας. Οι συνοπτικοί πίνακες κατηγοριοποιούνται σε δύο σκέλη, τους πίνακες απλής εισόδου και διπλής (πολλαπλής) εισόδου. Οι πίνακες απλής εισόδου αφορούν ένα μόνο χαρακτηριστικό- μεταβλητή των δεδομένων που ερευνώνται και χρησιμοποιούνται συχνά για συγκρίσεις και εξαγωγή συμπερασμάτων. Οι πίνακες διπλής (πολλαπλής) εισόδου μας πληροφορούν για ένα πληθυσμό ο οποίος περιλαμβάνει δύο (περισσότερα από δύο) ποσοτικά ή ποιοτικά χαρακτηριστικά. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 231

232 Όταν ο υπό εξέταση πληθυσμός αφορά δύο ποσοτικές μεταβλητές (για παράδειγμα ύψος και βάρος) τότε η γενική μορφή του πίνακα διπλής εισόδου θα είναι η ακόλουθη: Τάξεις Τάξεις x i β 0 -β 1 β 1 -β 2 β j-1 -β j β λ-1 -β λ y j y 1 y 2 y j y λ f i. α 0 -α 1 x 1 f 11 f 12 f 1j f 1λ f 1. α 1 -α 2 x 2 f 21 f 22 f 2j f 2λ f α i-1 -α ι x i f i1 f i2 f ij f iλ f i α κ-1 -α κ x k f k1 f k2 f kj f kλ f k. f.j f.1 f.2 f.j f.λ N Πίνακας 25. Πίνακας Διπλής Εισόδου Ποσοτικών Μεταβλητών με k γραμμές και λ στήλες Στην περίπτωση που εξετάζουμε ποιοτικά χαρακτηριστικά (παραδείγματος χάριν εθνικότητα, μορφωτικό επίπεδο, οικογενειακή κατάσταση, χρώμα ματιών κ.λ.π.) η γενική μορφή του πίνακα διπλής εισόδου θα είναι η εξής: Χαρακτηριστικό Β Χαρακτηριστικό Α Α 1 Α 2 Α j Α k Β 1 f 11 f 12 f 1j f 1k Β 2 f 21 f 22 f 2j f 2k..... Β i f i1 f i2 f ij f ik..... Β n f n1 f n2 f nj f nk Πίνακας 26. Πίνακας Διπλής Εισόδου Ποιοτικών Μεταβλητών με n γραμμές και k στήλες Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 232

233 3. Προφίλ (Profiles) Γραμμών και Στηλών Η τελευταία στήλη του Πίνακα 2 (Πίνακας Αντιστοιχιών των Σχετικών Συχνοτήτων) περιλαμβάνει τα αθροίσματα των γραμμών fi. διάνυσμα- στήλη θα συμβολίζεται με r και υπολογίζεται ως εξής: b j1 f ij. Αυτό το r Pj ( f, f,..., f ) ( x / n, x / n,..., x / n) a a. όπου το j είναι ένα a 1 διάνυσμα από μονάδες. Ομοίως, η τελευταία γραμμή του Πίνακα 2 περιέχει τα αθροίσματα στηλών. f j a i1 f ij. Αυτό το διάνυσμα- γραμμή θα συμβολίζεται με c και μπορεί να βρεθεί σύμφωνα με τον παρακάτω τύπο: c jp ( f, f,..., f ) ( x / n, x / n,..., x / n).1.2. b.1.2. b όπου το j είναι ένα 1 b διάνυσμα από μονάδες. Τα στοιχεία των διανυσμάτων r και c καλούνται Μάζες Γραμμών και Μάζες Στηλών αντίστοιχα. Ο Πίνακας Αντιστοιχιών και τα περιθώρια αθροίσματα του Πίνακα 2 μπορούν να σημειωθούν ως ακολούθως: f11 f12 f1 b f1. f21 f22 f2b f2. P r c 1 fa 1 fa2 fab fa. f.1 f.2 f. b 1 Θα μετατρέψουμε τώρα κάθε γραμμή και στήλη του πίνακα P σε Προφίλ. Το i- οστό Προφίλ Γραμμής r i, i=1,2,,a ορίζεται ίσο με το πηλίκο της i-οστής γραμμής του Πίνακα Συνάφειας 1 ή του Πίνακα Αντιστοιχιών 2 με το περιθώριο άθροισμα.. Δηλαδή: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 233

234 fi 1 fi2 f ib xi 1 xi 2 x ib ri,,...,,,..., f f f x x x i. i. i. i. i. i. Τα στοιχεία σε κάθε αθροίζονται στη μονάδα: r i είναι σχετικές συχνότητες και ες εκ τούτου θα x x b ij i. i j1 xi. xi. rj Εξ ορισμού έχουμε ότι: 1 D r f f 0 2. diag() r 0 0 f a. και με τη χρήση κατάλληλων τύπων προκύπτει ο πίνακας R των προφίλ Γραμμών: R r f11 f12 f f f f 1b f21 f22 f2b r 1 2 Dr P f2. f2. f 2. r a fa 1 fa2 fab fa. fa. f a.. Ακολουθώντας την αντίστοιχη διαδικασία για τις στήλες έχουμε το j- οστό προφίλ c j, j=1,2,,b που ορίζεται ίσο με το πηλίκο της j-οστής στήλης είτε του Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 234

235 Πίνακα Συνάφειας 1 είτε του Πίνακα Αντιστοιχιών 2 με το περιθώριο άθροισμα.. Δηλαδή: c j f f f x x x,,...,,,..., 1 j 2 j aj 1 j 2 j aj f. j f. j f. j x. j x. j x. j. Τα στοιχεία σε κάθε c j είναι σχετικές συχνότητες και ως εκ τούτου θα αθροίζονται στη μονάδα: x x 1. a ij. j j i1 x. j x. j jc Εξ ορισμού έχουμε ότι: D c f f 0.2 diag() c 0 0 f. b και με τη χρήση κατάλληλων τύπων προκύπτει ο πίνακας C των προφίλ Στηλών: 1a.1.2. a a 1 c 1, 2,..., b f.1 f.2 f. a C PD c c c f11 f12 f f f f f f f f f f f f f a1 a2 ab.1.2. a Το διάνυσμα r ορίστηκε προηγουμένως ως το διάνυσμα-στήλη των αθροισμάτων των γραμμών του πίνακα P. Επίσης μπορεί να εκφρασθεί και ως ο σταθμισμένος μέσος των Προφίλ Στηλών:. j j. b r f c j1 Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 235

236 Ομοίως το c ορίστηκε ως το διάνυσμα- γραμμή των αθροισμάτων των στηλών του πίνακα P και δύναται να ορισθεί και ως ο σταθμισμένος μέσος των Προφίλ Γραμμών: i. i. a c f r i1 b a f f 1 ή διαφορετικά Να σημειώσουμε επιπλέον ότι. j i. j1 i1 jr cj 1 όπου το πρώτο j είναι ένα διάνυσμα διαστάσεων 1 j είναι ένα διάνυσμα b 1. a και το δεύτερο 4. Έλεγχος X 2 Μη παραμετρικά τεστ ονομάζονται οι έλεγχοι οι οποίοι δεν προϋποθέτουν γνώση της μορφής της πληθυσμιακής κατανομής ή με άλλα λόγια η συναρτησιακή μορφή της κατανομής του πληθυσμού από όπου λαμβάνεται το δείγμα δεν είναι γνωστή (δεν έχει καθοριστεί πλήρως). Αυτοί οι έλεγχοι καλούνται και τεστ ελεύθερα κατανομών. Εκτός του πλεονεκτήματος που αναφέραμε προηγουμένως, οι έλεγχοι αυτοί έχουν επίσης το προτέρημα ότι δεν εφαρμόζονται σε αυτές καθαυτές τις τιμές των μεταβλητών αλλά στις τάξεις μεγέθους τους. Τέλος, είναι ιδιαίτερα χρήσιμες όταν μελετώνται μικρά δείγματα τα οποία συχνά συναντώνται σε πιλοτικές έρευνες. Κατ επανάληψη είναι αναγκαίο στις εφαρμογές να εξετάσουμε την υπόθεση αν ένα σύνολο παρατηρήσεων προέρχεται από μια ορισμένη κατανομή ή διαφορετικά κατά πόσο η εμπειρική κατανομή συχνοτήτων είναι σύμφωνη με μια υποθετική κατανομή. Αυτός ο έλεγχος υλοποιείται με το στατιστικό τεστ που έχει επικρατήσει να λέγεται τεστ «καλής προσαρμογής». Το συνηθέστερο είναι το X 2, το οποίο εφαρμόζεται στις ακόλουθες περιπτώσεις: I. Αν επιδίωξή μας είναι να εξετάσουμε αν το τυχαίο δείγμα προέρχεται από μια ορισμένη κατανομή τότε ο έλεγχος αποκαλείται τεστ προσαρμογής. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 236

237 II. III. Αν επιδίωξή μας είναι να εξετάσουμε αν δύο ή περισσότερα δείγματα προέρχονται από την ίδια κατανομή τότε ο έλεγχος αποκαλείται τεστ ομογενείας. Αν επιδίωξή μας είναι να εξετάσουμε αν δύο ή περισσότερα χαρακτηριστικά (τυχαίες μεταβλητές) είναι ανεξάρτητα. Έχουμε ως σύνολο δεδομένων n παρατηρήσεις οι οποίες κατατάσσονται με βάση τα επίπεδα των χαρακτηριστικών. Σε αυτήν την περίπτωση ο έλεγχος αποκαλείται τεστ ανεξαρτησίας και κάνουμε χρήση των πινάκων συνάφειας. Η μηδενική υπόθεση του X 2 ελέγχου ανεξαρτησίας που θέλουμε να ελέγξουμε είναι: H0 : pij pi. p. j i, j (υπόθεση ανεξαρτησίας) και η εναλλακτική υπόθεση: Ha : pij pi. p. j τουλάχιστον για ένα ζευγάρι των i και j. Η από κοινού κατανομή των τ.μ. x ij είναι η Πολυωνυμική με παραμέτρους p ij, i=1,2,..,r και j=1,2,..,k με r k pij 1 και i1 j1 r n x. k i1 j1 ij Οπότε η στατιστική συνάρτηση X 2 ( x e ) r k 2 ij ij (1) όπου e ij =np ij έχει i1 j1 eij ως ασυμπτωτική κατανομή τη x 2 με rk-1 βαθμούς ελευθερίας λόγω της σχέσης r k pij 1. i1 j1 Κατά συνέπεια, αν pij pi. p. j είναι γνωστά τότε όταν θα είναι αληθής η H 0 η σχέση (1) μπορεί να χρησιμοποιηθεί για να ελέγξουμε την ανεξαρτησία με κρίσιμη περιοχή x 2 2 xkr 1, a. είναι Αν τα p ij δεν είναι γνωστά τότε υπολογίζουμε τους Ε.Μ.Π. (όταν ισχύει η H 0 ) που p x n i. i. και p. j x. j n. Κατόπιν τούτου, η στατιστική συνάρτηση του τεστ θα Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 237

238 είναι η σχέση (1) όπου τώρα θα ισχύει eij npij ( xi. x. j ) / n με κρίσιμη περιοχή x x. 2 2 ( r 1)( k 1), a 5. Κριτήριο «Καλής Προσαρμογής» i. Πολυωνυμική Κατανομή με k δυνατά αποτελέσματα E1, E2,, Ek. Έστω ότι έχουμε n ανεξάρτητες επαναλήψεις του πειράματος και το E 1 συμβαίνει n 1 φορές, το E 2 n 2 φορές, και τέλος το E k n k φορές. Ισχύει ότι n 1 + n n k =n. Στόχος μας είναι να διερευνήσουμε το αν η πιθανότητα να πραγματοποιηθεί το E i είναι p i i 1,2,..., k. Επομένως έχουμε την υπόθεση: H : P( E ) p, P( E ) p,..., P( E ) p Η μέση τιμή του πλήθους των εμφανίσεων E i θα είναι n*p i, i 1,2,..., k. Αν η H 0 είναι αληθής τότε θα πρέπει οι θεωρητικές (αναμενόμενες) τιμές e i =np i να μην έχουν μεγάλες διαφορές από τις παρατηρούμενες τιμές n i. Ένα κριτήριο που εισήγαγε ο Karl Pearson το 1900 για αυτήν την περίπτωση είναι το εξής: k k X 2 k 2 k 2 ( ni ei ) ni n e e (1) i1 i i1 i όπου η τ.μ. X 2 ακολουθεί κατά προσέγγιση κατανομή x αν e 5, i 1,2,..., k 2 k 1 i Υπάρχει στη βιβλιογραφία η πρόταση πως αν το 10% των αναμενόμενων συχνοτήτων είναι μικρότερες του 5, τότε πρέπει να τις συγχωνεύσουμε με τις γειτονικές τους έτσι ώστε οι παρατηρούμενες συχνότητες να οδηγούν σε ei 5. Επιπλέον, ένας άλλος κανόνας ορθής εφαρμογής του ελέγχου X 2 είναι ο ακόλουθος: 1) Το μέγεθος του δείγματος θα πρέπει να είναι τετραπλάσιο του k και 2) οι αναμενόμενες συχνότητες e ij θα πρέπει να είναι μικρότερες της μονάδος και ακόμα όχι περισσότερο του 25% από αυτές να είναι μικρότερες του 5. Αν ο κανόνας αυτός δεν ισχύει τότε ή συγχωνεύουμε τις κλάσεις ή προσπαθούμε να βρούμε άλλους ελέγχους όπως για παράδειγμα τα «ακριβή» τεστ. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 238

239 Η κρίσιμη περιοχή του ελέγχου (1) είναι: X 2 2 Xk 1, a (2) Μπορεί να αποδειχθεί ότι το ασυμπτωτικό τεστ -2logλ δίνεται επίσης προσεγγιστικά από τον παραπάνω τύπο (1) με κατανομή x όταν είναι αληθής η H 0. Άρα ο έλεγχος X 2 είναι προσεγγιστικά ισοδύναμος με τον έλεγχο -2logλ. Στο σημείο αυτό πρέπει να κάνουμε τον εξής διαχωρισμό, όταν δηλαδή τα p 1, p 2,, p k είναι γνωστά ή όχι. Έτσι, όταν τα p i είναι γνωστά ( i 1,2,..., k ) τότε υλοποιούμε το στατιστικό έλεγχο του τύπου (1) με κρίσιμη περιοχή του τύπου (2). Όταν όμως είναι άγνωστα τα p i θα πρέπει να τα εκτιμήσουμε με βάση το δείγμα και έτσι θα ισχύουν και πάλι οι σχέσεις (1) και (2) με τη διαφορά ότι ei npi όπου p i είναι οι Εκτιμητές Μεγίστης Πιθανοφάνειας (Ε.Μ.Π.) των αγνώστων παραμέτρων p i και η κρίσιμη περιοχή θα είναι: X 2 2 Xk 1 s, a (3) 2 k 1 όπου s είναι ο αριθμός των εκτιμώμενων παραμέτρων (s<k-1) ii. Μη Πολυωνυμική Κατανομή Σε αυτήν την περίπτωση χωρίζουμε τον άξονα των x σε k τμήματα E 1, E 2,, E k και υπολογίζουμε τις P(E 1 ),, P(E k ) με τη βοήθεια της θεωρητικής κατανομής. Στη συνέχεια προχωράμε όπως και στην πρώτη περίπτωση, ανάλογα δηλαδή με το αν τα p 1,,p k είναι γνωστά ή όχι. 7. Matching Coefficient Ο όρος matching coefficient εισήχθη από τους Sokal & Michener (1958) για να περιγράψει μια μονάδα μέτρησης του βαθμού ομοιότητας μεταξύ δύο υποκειμένων που διαθέτουν ένα αριθμό δυαδικών χαρακτηριστικών. Στον παρακάτω πίνακα συνάφειας βλέπουμε την παρουσία και την απουσία των χαρακτηριστικών των δύο υποκειμένων: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 239

240 Individual B Individual A a b - c d Πίνακας 27. Πίνακας Συνάφειας Απουσίας & Παρουσίας Δύο Χαρακτηριστικών Η τιμή του matching coefficient θα δίνεται από τον τύπο: a d M. a b c d Η θεωρητική κατανομή του matching coefficient του Sokal προκύπτει από τη μηδενική υπόθεση της ανεξαρτησίας των τιμών των χαρακτηριστικών, με βάση τις συχνότητες των χαρακτηριστικών των υποκειμένων που καταχωρούνται σε αρχεία. 8. Κριτήριο Kaiser Ανάλυσης Κυρίων Συνιστωσών Αν με λ j συμβολίσουμε τις ιδιοτιμές, τότε το κριτήριο Kaiser υποδεικνύει την επιλογή τόσων ιδιοτιμών όσων ξεπερνούν τη μέση τιμή των ιδιοτιμών που υπολογίζεται από τον τύπο: k j j1. Αυτό ισχύει στην περίπτωση που έχουμε διαλέξει τον πίνακα Διακύμανσης- Συνδιακύμανσης Σ για να υλοποιήσουμε την Ανάλυση σε Κύριες Συνιστώσες, γιατί αν έχουμε κρατήσει τον πίνακα συσχετίσεων R τότε είναι 1 και οπότε επιλέγουμε τις συνιστώσες των οποίων οι ιδιοτιμές είναι μεγαλύτερες της μονάδος. Το κριτήριο Kaiser βασίζεται στην ακόλουθη υπόθεση: Εάν είναι ασυσχέτιστες οι μεταβλητές μεταξύ τους και κατά συνέπεια δεν εμφανίζεται κάποια ιδιαίτερη δομή στα δεδομένα τότε ο πίνακας συσχετίσεων θα ταυτίζεται με τον μοναδιαίο πίνακα I και επομένως όλες οι ιδιοτιμές θα είναι ίσες με τη μονάδα. Ως εκ τούτου, οποιαδήποτε ιδιοτιμή που υπερβαίνει τη μονάδα φανερώνει την ύπαρξη Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 240

241 δομής στα δεδομένα. Εν ολίγοις, το κριτήριο του Kaiser χαρακτηρίζεται από την υπερεκτίμηση του πλήθους των αναγκαίων συνιστωσών. 9. Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.)- Central Limit Theorem (C.L.M.) Η στατιστική διατύπωση του Κ.Ο.Θ., του οποίου η ονομασία προέκυψε από την ιδιαίτερη σημασία που έχει το εξαγόμενο συμπέρασμα του για τη στατιστική θεωρία, είναι η ακόλουθη: Έστω X 1, X 2,, X n n αμοιβαία ανεξάρτητες παρατηρήσεις μιας τυχαίας μεταβλητής X η οποία περιγράφει τον υπό εξέταση πληθυσμό. Η τ.μ. X έχει πεπερασμένη μέση τιμή μ και πεπερασμένη διακύμανση σ 2. Έστω επίσης X ο μέσος αυτών των παρατηρήσεων (πρόκειται για το δειγματικό μέσο) που υπολογίζεται από τον τύπο: X X. Επιπλέον έχουμε τη μεταβλητή Zn που είναι η n 1 n Xi n i 1 αντίστοιχη τυποποιημένη μεταβλητή και έστω F () z η συνάρτηση κατανομής της τ.μ. Z n. Τότε z (, ) ισχύει ότι lim F ( z) ( z) όπου Φ (Z) είναι η n συνάρτηση κατανομής της τυποποιημένης Κανονικής Κατανομής. Συνοπτικά, για μεγάλες τιμές του n ο δειγματικός μέσος n ανεξάρτητων παρατηρήσεων X 1, X 2,, X n μιας τ.μ. X οιασδήποτε κατανομής, μέσης τιμής μ και διακύμανσης σ 2 ακολουθεί προσεγγιστικά Κανονική κατανομή με μέση τιμή μ=μ και διακύμανση σ 2 = σ 2. Άρα η σπουδαιότητα του συγκεκριμένου θεωρήματος έγκειται στο ότι αυτό που συμπεραίνει είναι ανεξάρτητο από την κατανομή του πληθυσμού που περιγράφεται από την τ.μ. X. Z n Z n Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 241

242 10. Καμπύλες Andrews Οι καμπύλες του Andrews (Andrews Curves) πήραν το όνομα τους από τον Andrews ο οποίος τις εισήγαγε για την απεικόνιση πολυμεταβλητών δεδομένων. Είναι ένας γρήγορος και εύκολος τρόπος για να αποκτήσουμε μια πρώτη άποψη των δεδομένων και ιδιαίτερα να εντοπίσουμε τυχόν ομοιότητες και ακραίες τιμές (outliers). Έτσι για κάθε παρατήρηση δημιουργούμε την καμπύλη της ακόλουθης συνάρτησης για διαφορετικές τιμές του t και μετά κατασκευάζουμε το διάγραμμα (t, f(t)) για το διάστημα (-π,π). f ( t) X / 2 X sin t X cos t X sin(2 t) X cos(2 t)..., t (, ) x Χαρακτηριστικό γνώρισμα της καμπύλης αυτής είναι η περιοδικότητα, εφόσον αποτελείται από ημίτονα και συνημίτονα και η οποία εξαρτάται από τις τιμές των μεταβλητών. Άρα με τη χρήση των καμπυλών Andrews είμαστε σε θέση να αποδίδουμε γραφικά πολυμεταβλητές παρατηρήσεις και να συγκρίνουμε αυτές, διαπιστώνοντας αν υπάρχουν διαφορές μεταξύ των παρατηρήσεων και σε τι βαθμό. Η σειρά με την οποία θα διαλέξουμε τις μεταβλητές που θα χρησιμοποιηθούν είναι σημαντική διότι η σειρά αυτή οριοθετεί τη σημαντικότητα κάθε μεταβλητής στην κατασκευή της καμπύλης. Για αυτό το λόγο η τοποθέτηση των μεταβλητών υλοποιείται με φθίνουσα σειρά διακύμανσης. Συγχρόνως η μέθοδος των καμπυλών Andrews έχει την ικανότητα να εντοπίζει ακραίες παρατηρήσεις (outliers) σε ένα σύνολο παρατηρήσεων. Βέβαια αν έχουμε στη διάθεσή μας ένα μεγάλο πλήθος παρατηρήσεων το διάγραμμα που θα προκύψει τις περισσότερες φορές δε θα είναι καλό εφόσον για κάθε παρατήρηση έχουμε μια καμπύλη. Εν τέλει, οι καμπύλες Andrews έχουν το γνώρισμα ότι η απόσταση μεταξύ δύο καμπυλών είναι ανάλογη της Ευκλείδιας απόστασης μεταξύ δύο παρατηρήσεων και κατά συνέπεια οι καμπύλες Andrews ουσιαστικά απεικονίζουν τις υφιστάμενες διαφορές μεταξύ των παρατηρήσεων. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 242

243 11. Έρευνα Μάρκετινγκ (Marketing Research) Η Αμερικανική Ένωση Μάρκετινγκ (AMA- American Marketing Association) δίνει τον ακόλουθο ορισμό: Marketing Research is the function that links an organization to its market through the gathering of information. This information allows for the identification and definition of market- driven opportunities and problems. The information allows for the generation, refinement and evaluation of marketing actions. It allows for the monitoring of marketing performance and improved understanding of marketing as a business process. Σε ελεύθερη μετάφραση: «Η Έρευνα Αγοράς είναι η λειτουργία που συνδέει έναν οργανισμό με την αγορά του μέσω της συλλογής πληροφοριών. Αυτές οι πληροφορίες καθιστούν δυνατό τον προσδιορισμό και τον ορισμό ευκαιριών και προβλημάτων που προκύπτουν από την αγορά. Αυτές οι πληροφορίες επίσης καθιστούν δυνατή την παραγωγή, τελειοποίηση και αξιολόγηση των δράσεων Μάρκετινγκ. Παράλληλα επιτρέπει την εποπτεία των επιδόσεων του Μάρκετινγκ και τη βελτίωση της κατανόησης του Μάρκετινγκ ως επιχειρηματική διαδικασία». 12. Μάρκετινγκ (Marketing) Το Μάρκετινγκ (Marketing) είναι τρόπος επιχειρηματικής σκέψης και δράσης. Στηρίζεται στην αρχή της πλήρους ικανοποίησης των αναγκών του πελάτη μέσα από τα προϊόντα ή τις υπηρεσίες και τη σωστή εξυπηρέτηση που του προσφέρεται κι όχι απλά στην πώληση προϊόντων και υπηρεσιών που εστιάζεται μονομερώς στην ικανοποίηση των αναγκών μιας επιχείρησης. Αυτό σημαίνει ότι όλες οι ενέργειες της διοίκησης και των εργαζομένων στην επιχείρηση, ανεξάρτητα αν οι τελευταίοι απασχολούνται στην παραγωγή, το λογιστήριο, τις πωλήσεις ή σε άλλο τμήμα της επιχείρησης, πρέπει να έχουν ως κύριο σκοπό την πλήρη ικανοποίηση των αναγκών του πελάτη, είτε έρχονται σε άμεση επαφή μαζί του, είτε όχι. [Λελεδάκης Γ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 243

244 Εναλλακτικά, το Μάρκετινγκ μπορεί να οριστεί ως η τέχνη της δημιουργίας, από την πλευρά της επιχείρησης, ικανοποιημένων πελατών και η διατήρησή τους. Οι ευχαριστημένοι πελάτες συνιστούν το μοναδικό συστατικό που εξασφαλίζει τη μακροπρόθεσμη βιωσιμότητα και ανάπτυξη μιας επιχείρησης και εξαιτίας αυτού εσχάτως κερδίζει διαρκώς έδαφος το Μάρκετινγκ των σχέσεων. 13. Μίγμα Μάρκετινγκ (Marketing Mix-4P) Μια επιχείρηση χρησιμοποιεί το Μίγμα Μάρκετινγκ ως εργαλείο που αποσκοπεί στην εφαρμογή της στρατηγικής Μάρκετινγκ που έχει ήδη αποφασίσει. Το εργαλείο αυτό συντίθεται από τέσσερεις τομείς, το Προϊόν (Product), την Τιμή (Price), την Προώθηση (Promotion) και τη Διανομή (Place). Η χρήση του όρου «μίγμα» δεν είναι τυχαία, καθώς εστιάζει στο ότι θα πρέπει να χρησιμοποιηθούν κατά τέτοιο τρόπο τα τέσσερα παραπάνω μέρη έτσι ώστε να υπάρξει ένα αρμονικό αποτέλεσμα. Επιπλέον αυτοί οι τέσσερεις τομείς δεν πρέπει να συγκρουστούν μεταξύ τους διότι αν αυτό συμβεί, τότε το προϊόν το οποίο επιδιώκουν να προωθήσουν δε θα καταφέρει να αποκτήσει κάποιο μερίδιο αγοράς. Το Μίγμα-Μάρκετινγκ (Marketing Mix-4P) περιλαμβάνει τα εξής: 1. Προϊόντα ή Υπηρεσίες (Product), η ποιότητα των οποίων πρέπει να ανταποκρίνεται στις επιθυμίες των πελατών της εταιρείας. 2. Τιμές (Price) ανταγωνιστικές, τις οποίες να μπορούν και να είναι διατεθειμένοι να πληρώσουν οι καταναλωτές ή οι χρήστες των προϊόντων της εταιρείας. 3. Διανομή (Place) σε σημεία πώλησης εύκολα προσπελάσιμα, που να εξυπηρετούν τους αγοραστές. 4. Προώθηση (Promotion) των προϊόντων ή των υπηρεσιών της εταιρείας, ώστε να γίνονται γρήγορα γνωστά και να διεγείρεται το ενδιαφέρον των πελατών ή των τελικών καταναλωτών ή χρηστών για την αγορά τους. [Λελεδάκης Γ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 244

245 Εικόνα 37: Το Μίγμα Μάρκετινγκ (Marketing Mix-4P) [Λελεδάκης Γ. (2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 245

246 Εικόνα 38: Λήψη Αποφάσεων Διαμόρφωσης Μίγματος Μάρκετινγκ [Λελεδάκης Γ.(2008)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 246

247 14. Κοινωνικοοικονομική Έρευνα (Μεταβλητές) Οι μεταβλητές που περιγράφουν μια στατιστική μονάδα εντός μιας κοινωνικοοικονομικής έρευνας, μπορούν να ταξινομηθούν χονδρικά στις ακόλουθες δύο κύριες κατηγορίες: a) Δημογραφικές μεταβλητές: Αυτές οι «βασικές» μεταβλητές μπορούν να χρησιμοποιηθούν για το σχεδιασμό μιας έρευνας και μερικές φορές είναι ήδη γνωστές πριν τη συνέντευξη. Παραδείγματος χάριν, ο αριθμός των παιδιών μιας οικογένειας, επιλεγμένες απόψεις μιας γεωγραφικής τοποθεσίας, το πλήθος των δωματίων ενός σπιτιού κ.α. Είναι κατά κύριο λόγο δημογραφικές ή οικονομικές ή μας εφοδιάζουν με μια γενική περιγραφή της κοινωνικής θέσης της οικογένειας. b) Μεταβλητές που συσχετίζονται με το περιεχόμενο της έρευνας, οι οποίες ίσως εμπλέκουν μία ή περισσότερες κύριες θεματικές ενότητες. Αυτές οι μεταβλητές μπορούν να διαχωριστούν περαιτέρω σε τρεις υποκατηγορίες που διαφέρουν ως προς το επίπεδο και την ποιότητα της μέτρησης: 1) Μεταβλητές που προκύπτουν από απαντήσεις σε αντικειμενικές ερωτήσεις (π.χ. κατοχή θερμοσίφωνα) και διακρίνονται από τις δημογραφικές μεταβλητές διότι δεν αφορούν, για παράδειγμα, ούτε μια κοινωνική ομάδα ούτε μια δημογραφική κατηγορία. 2) Μεταβλητές που είναι ομοίως αντικειμενικές και περιγράφουν τη συμπεριφορά του ερωτηθέντα ή των μελών του νοικοκυριού, η οποία όμως απορρέει από αμφιλεγόμενες, ανακριβείς ή ερωτήσεις που είναι δύσκολο να κωδικοποιηθούν (όπως ερωτήσεις του τύπου «Παρακολουθείτε τηλεόραση;»). 3) Συμπεριφορικές μεταβλητές που παίζουν σημαντικό ρόλο στην κατανόηση και την πρόβλεψη των κοινωνικοοικονομικών φαινομένων. Αυτές οι μεταβλητές εντούτοις αποφέρουν μόνο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 247

248 αναξιόπιστες και στερούμενες ουσίας πληροφορίες, ιδιαίτερα αν μελετώνται ξεχωριστά. Η διεκπεραίωση της έρευνας εν πολλοίς απαιτεί χρήση δημογραφικών μεταβλητών για τη σχεδίαση των πινάκων συνάφειας ώστε να κατανοήσει και να εξηγήσει τη «συμπεριφορά» των μεταβλητών που προκύπτουν από το περιεχόμενο της έρευνας. Οι κατανομές συχνοτήτων (όπως για παράδειγμα η μέση κατανάλωση ενός συγκεκριμένου προϊόντος από μια επαγγελματική κατηγορία) όπως και τα crosstabulations [επαναλαμβάνοντας τη μονόδρομη πινακοποίηση (tabulation) για κάθε κατηγορία πόλης, το οποίο είναι το ίδιο με το να διασταυρώνεις τις μεταβλητές «επαγγελματική κατηγορία» & «κατηγορία πόλεων»] συγκεντρώνονται. Οι δημογραφικές μεταβλητές με ένα συγκεκριμένο τρόπο διαδραματίζουν το ρόλο των μεταβλητών πρόβλεψης και προσφέρουν προτάσεις για την επεξήγηση των φαινομένων. Εάν η επικείμενη έρευνα δεν είναι η πρώτη στο είδος της, τότε η παρελθούσα εμπειρία των στατιστικών στο σχεδιασμό των διαδικασιών πινακοποίησης μπορεί να χρησιμοποιηθεί για να αντιμετωπίσει μερικά από τα προβλήματα που πρέπει να απαντήσει η έρευνα. Αν η έρευνα συμπεριλαμβάνει ένα ανεξερεύνητο πεδίο, τα cross-tabulations θα είναι κατά πάσα πιθανότητα εν μέρει περιττά και επιπλέον θα αποδειχθούν ανεπαρκή. Το πλήθος των πινακοποιήσεων που θεωρούνται απαραίτητες εκ των προτέρων μπορεί να είναι σημαντικό. Άλλωστε, η διαδοχική παραγωγή των cross-tabulations δε λαμβάνει υπόψη τις σχέσεις μεταξύ των στοιχείων του σχεδιασμού πινακοποίησης. Εξαιτίας αυτού αν κάποιος μελετήσει το χρόνο που δαπανάται σε δραστηριότητες ελεύθερου χρόνου από μια επαγγελματική κατηγορία, στη συνέχεια το μορφωτικό επίπεδο και τέλος το εισόδημα, οι εσωτερικές συσχετίσεις ανάμεσα στα τρία προηγούμενα κριτήρια δεν έχουν ληφθεί υπόψη. Με σκοπό συνεπώς να υλοποιηθεί μια ανάλυση όσο το δυνατόν πληρέστερα, είναι απαραίτητη η χρήση δημογραφικών μεταβλητών διεξοδικά, οι οποίες θα λαμβάνουν υπόψη τις εσωτερικές συσχετίσεις τους έτσι ώστε να αποφευχθεί απώλεια χρόνου κατά την ανάλυση των αποτελεσμάτων. Η Πολλαπλή Ανάλυση Αντιστοιχιών μπορεί να αποβεί χρήσιμη σε αυτήν την περίπτωση. Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 248

249 15. Απλή Τυχαία Δειγματοληψία Η στοιχειωδέστερη μορφή δειγματοληψίας κατά πιθανότητα είναι η Απλή Τυχαία Δειγματοληψία (Simple Random Sampling). Το σχήμα αυτό χρησιμοποιείται ευρύτατα, κυρίως λόγω της απλότητας του από την άποψη της στατιστικής συμπερασματολογίας. Στην απλή τυχαία δειγματοληψία κάθε μία από τις μονάδες του πληθυσμού έχει ίση πιθανότητα να επιλεγεί. Διευκρινίζεται ότι πρόκειται για απλή τυχαία δειγματοληψία χωρίς επανάθεση (επανατοποθέτηση), δηλαδή κάθε μονάδα απομακρύνεται από τον πληθυσμό μετά την επιλογή της στο τυχαίο δείγμα. Βασική προϋπόθεση για το σχηματισμό ενός δείγματος από ένα πληθυσμό είναι ο σαφής καθορισμός του πληθυσμού. [Ξεκαλάκη Ε. (1995)] Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 249

250 ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΕΡΕΥΝΑΣ Στη συνέχεια παραθέτουμε το ερωτηματολόγιο της έρευνας: Καλημέρα σας, Καλησπέρα σας, Ονομάζομαι. Και είμαι συνεργάτης της DATA RC μιας εταιρείας που διεξάγει στατιστικές έρευνες κοινής γνώμης. Αυτές τις ημέρες κάνουμε μια έρευνα για ΤΑ ΕΜΠΟΡΙΚΑ ΚΑΤΑΣΤΗΜΑΤΑ και θέλαμε την γνώμη σας που θα μας είναι πολύτιμη και θα παραμείνει ανώνυμη, αφού ότι πληροφορίες μας δώσετε θα χρησιμοποιηθούν αποκλειστικά με την μορφή στατιστικών πινάκων. Κατ αρχήν μήπως εσείς ή κάποιος άλλος συγγενής σας Α βαθμού εργάζεται σε διαφημιστική εταιρείας, υποψήφιος δημοτικός σύμβουλος ή δημοσιογράφος. Σε όλες τις 10βάθμιες ΔΞ/ΔΑ=0 1. Γιατί επισκεφθήκατε το κατάστημα (ΤΙΣ ΔΙΑΒΑΖΟΥΜΕ ΜΙΑ ΑΠΑΝΤΗΣΗ); 1 Ήμουν περαστικός (μπήκα τυχαία) 2 Ήθελα να επισκεφθώ ένα κατάστημα τέτοιου είδους ανεξαρτήτως αλυσίδας για να δω τι (νέα) προϊόντα έχει έψαχνα για ένα τέτοιο κατάστημα (προγραμματισμένη επίσκεψη) 3 Ήθελα να επισκεφθώ ένα κατάστημα της συγκεκριμένης αλυσίδας για να δω τι (νέα) προϊόντα έχει (προγραμματισμένη επίσκεψη) 4 Ήθελα να επισκεφθώ το συγκεκριμένο κατάστημα της συγκεκριμένης αλυσίδας για να δω τι (νέα) προϊόντα έχει (προγραμματισμένη επίσκεψη) 5 Άλλο λόγο. Ποιο (για να κάνω αλλαγή σε κάτι που αγόρασα, για να πληρώσω δόση): 2. Ψωνίσατε (ΛΕΕΙ ΝΑΙ Ή ΟΧΙ ΑΥΘΟΡΜΗΤΑ ΚΑΙ ΜΕΤΑ ΤΙΣ ΔΙΑΒΑΖΟΥΜΕ- ΔΙΝΕΙ ΜΙΑ ΑΠΑΝΤΗΣΗ ΕΙΤΕ ΣΤΟ ΝΑΙ ΕΙΤΕ ΣΤΟ ΟΧΙ); 1 Όχι Γιατί 1 Ψάχνατε κάτι συγκεκριμένο που δεν το βρήκατε 2 Δεν βρήκατε κάποιο προϊόν που να σας ενδιαφέρει 3 Βρήκατε κάποιο προϊόν που να σας ενδιαφέρει αλλά δεν μείνατε ικανοποιημένος από την τιμή του 4 Δεν εξυπηρετηθήκατε επαρκώς από το προσωπικό του καταστήματος 5 Μπήκατε στο κατάστημα χωρίς πρόθεση αγοράς «απλά από περιέργεια» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 250

251 2 Ναι ΕΡΕΥΝΗΤΗ ΔΙΑΒΑΖΕΙΣ 1 Αγοράσατε κάτι που είχατε προγραμματίσει 2 Αγοράσατε κάτι που δεν είχατε προγραμματίσει 3 Αγοράσατε κάτι που είχατε προγραμματίσει και κάτι που δεν είχατε προγραμματίσει 3. Όταν αγοράζετε (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματααξεσουάρ- καλλυντικά) προτιμάτε συνήθως (ΤΙΣ ΔΙΑΒΑΖΟΥΜΕ ΜΙΑ ΑΠΑΝΤΗΣΗ) 1 Επώνυμες αλυσίδες καταστημάτων 2 Τοπικά καταστήματα 3 Και τα δύο εξίσου 4. Συνήθως αγοράζετε (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματααξεσουάρ- καλλυντικά) από καταστήματα: (ΤΙΣ ΔΙΑΒΑΖΟΥΜΕ ΜΙΑ ΑΠΑΝΤΗΣΗ) 1 Που βρίσκονται κοντά στο σπίτι ή την εργασία σας 2 Που βρίσκονται μακρύτερα αλλά επιλέγετε να πάτε 3 Που επιλέγετε τυχαία (π.χ. περνάει έξω από το κατάστημα) 5. Με σειρά προτεραιότητας ποια είναι για εσάς τα τρία βασικότερα κριτήρια επιλογής καταστήματος όταν αγοράζετε (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) (ΑΥΘΟΡΜΗΤΗ) 1 ο Κριτήριο 2 ο Κριτήριο 3 ο Κριτήριο Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 251

252 6. Πόσο σημαντική είναι για εσάς η κάθε παράμετρος (α) που θα σας διαβάσω όταν επιλέγετε κατάστημα για (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) και πως αξιολογείτε (β) το συγκεκριμένο κατάστημα στις παραμέτρους αυτές (ΤΑ ΔΙΑΒΑΖΟΥΜΕ) Παράμετρος 1.Ποιότητα προϊόντων 2.Ποικιλία προϊόντων 3.Τιμές 4.Προσφορές 5.Μέγεθος καταστήματος 6.Τοποθεσία καταστήματος 7.Εύκολη πρόσβαση 8.Διαθέσιμος χώρος για στάθμευση 9.Εξυπηρέτηση από το προσωπικό του καταστήματος 10.Συμπεριφορά προσωπικού 11.Γενική εικόνα καταστήματος Σημαντικότητα (1: Καθόλου σημαντικό, 5: Σε μέτριο βαθμό, 10: Εξαιρετικά σημαντικό) Αξιολόγηση Καταστήματος (1: Καθόλου ικανοποιημένος, 5: Ούτε ικανοποιημένος ούτε δυσαρεστημένος, 10: Εξαιρετικά ικανοποιημένος) 7. Συνολικά πόσο ικανοποιημένος ή δυσαρεστημένος είστε από το κατάστημα που μόλις επισκεφθήκατε; (1: Καθόλου ικανοποιημένος, 5: Ούτε ικανοποιημένος ούτε δυσαρεστημένος, 10: Εξαιρετικά ικανοποιημένος) 8. Κατά μέσο όρο τι ποσοστό των ετήσιων αγορών (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) πραγματοποιείτε από το συγκεκριμένο κατάστημα (%) 9. Κατά μέσο όρο τι ποσοστό των ετήσιων αγορών (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) πραγματοποιείτε από τη συγκεκριμένη αλυσίδα (%) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 252

253 10. Από πόσα άλλα καταστήματα (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) ψωνίζετε συνήθως (αριθμός καταστημάτων) 11. Υπάρχουν καταστήματα που έχετε αποφασίσει ότι δεν θα ξαναπάτε ποτέ και γιατί (συμπληρώνεται κατάστημα και λόγος/οι); Α.Κατάστημα: Λόγος: Β.Κατάστημα: Λόγος: Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 253

254 12. a. Σε ποιο βαθμό η κάθε παράμετρος που θα σας διαβάσω επηρεάζει την γενικότερη εικόνα που έχετε για τα καταστήματα λιανικής πώλησης (ανεξαρτήτως κλάδου) b. και πως αξιολογείτε το συγκεκριμένο κατάστημα στις παραμέτρους αυτές Παράμετρος 1. Καθαριότητα και τάξη εξωτερικού χώρου καταστήματος 2.Σήμανση/ Ταμπέλες (διακριτότητα/ μέγεθος/ καθαριότητα) 3.Βιτρίνες (στήσιμο, καθαριότητα, τάξη) 4.Καθαριότητα και τάξη εσωτερικού χώρου καταστήματος 5.Διαρρύθμιση Εσωτερικού Χώρου Στήσιμο προϊόντων και ευκολία εύρεσης των προϊόντων στο κατάστημα 6.Γενικότερη ατμόσφαιρα καταστήματος (φωτισμός, μουσική, μυρωδιές κτλ) 7.Επάρκεια προσωπικού (εξυπηρέτηση χωρίς καθυστέρηση) 8.Προσωπική ενασχόληση και αφοσίωση των υπαλλήλων στον κάθε πελάτη (εσάς) 9.Ευγένεια /φιλικότητα και προθυμία εξυπηρέτησης από προσωπικό (χαμόγελο, πληθυντικός, κλπ) 10.Γνώσεις του προσωπικού για τα προϊόντα (π.χ. γνώριζε διαθεσιμότητα, τιμές, τεχνολογία, σχέδια, χρώματα, νούμερα, κλπ) 11.Εμφάνιση προσωπικού (καθαροί, περιποιημένοι, με στολές του καταστήματος) 12.Σωστή αντίδραση του προσωπικού στα παράπονα ή τις αντιρρήσεις σας 13.Γρήγορη εξυπηρέτηση στο ταμείο Πόσο επηρεάζουν την γενική εικόνα καταστημάτων λιανικής (1: Καθόλου, 5: Σε μέτριο βαθμό, 10: Σε εξαιρετικά μεγάλο βαθμό) Αξιολόγηση Καταστήματος (1: Καθόλου ικανοποιημένος, 5: Ούτε ικανοποιημένος ούτε δυσαρεστημένος, 10: Εξαιρετικά ικανοποιημένος) 13. Σε ποιο βαθμό πιστεύετε ότι υπάρχει ακρίβεια στον κλάδο των (συμπληρώνεται ο κλάδος: ενδύματα υποδήματα / οικιακό εξοπλισμό / ηλεκτρικά είδη κινητά Η/Υ αναλώσιμα / κοσμήματα- αξεσουάρ- καλλυντικά) (1: Καθόλου, 5: Σε μέτριο βαθμό, 10: Σε εξαιρετικά μεγάλο βαθμό): Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 254

255 14. Πόσο υπεύθυνοι είναι οι παρακάτω για την ακρίβεια (1: Καθόλου, 5: Σε μέτριο βαθμό, 10: Σε εξαιρετικά μεγάλο βαθμό) a. Εμπόριο b. Βιομηχανία c. Ενδιάμεσοι ΔΗΜΟΓΡΑΦΙΚΑ 15. Φύλο (αυτόματη συμπλήρωση χωρίς ερώτηση) 1 Άνδρας 2 Γυναίκα 16. Που μένετε: (σημειώνει περιοχή όχι διεύθυνση σε πόλεις εκτός Αθήνας και Θεσσαλονίκης ρωτάμε απόσταση κατοικίας από το κατάστημα λεπτά της ώρας με αυτοκίνητο/ με τα πόδια) 17. Ποιο είναι το μέσο Μηνιαίο Οικογενειακό Εισόδημα από όλες τις πηγές (μισθοί, ενοίκια, επιδόματα κ.α.); 1 Έως και άνω 0 ΔΑ 18. Με τι ασχολείστε; 1 Εργαζόμενος 2 Μη εργαζόμενος 3 Συνταξιούχος 4 Οικιακά 5 Σπουδές 0 ΔΑ Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 255

256 19. Ποιος είναι ο αριθμός των μελών της οικογένειάς σας: (σημειώνει αριθμό) 20. Ποια είναι η ηλικία σας; 1 Μέχρι και 29 ετών ετών και άνω 0 ΔΑ 21. Ποιο είναι το ανώτερο εκπαιδευτικό σας επίπεδο; 1 Έως λίγες τάξεις του δημοτικού 2 Δημοτικό 3 Γυμνάσιο 4 Λύκειο 5 ΙΕΚ 6 ΤΕΙ 7 ΑΕΙ 8 Μεταπτυχιακό 0 ΔΑ Σας ευχαριστώ για την πολύτιμη συνεργασία σας Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 256

257 ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ- ΠΙΝΑΚΕΣ- ΓΡΑΦΗΜΑΤΑ 4 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_4 (Επιλογή_Καταστήματος_με_βάση_την_απόσταση) & ER_3 (Προτίμηση_Καταστήματος) Όταν αγοράζετε,προτιμάτε συνήθως... Επώνυμες αλυσίδες καταστημάτων Τοπικά καταστήματα Και τα δύο εξίσου Total Που βρίσκονται Count κοντά στο σπίτι ή την εργασία σας Expected Count 55,7 8,7 75,5 140,0 Συνήθως αγοράζετε από καταστήματα... Που βρίσκονται μακρύτερα αλλά επιλέγετε να πάτε Που επιλέγετε Count Expected Count 100,7 15,8 136,5 253,0 Count τυχαία (π.χ. περνάει έξω από το κατάστημα) Expected Count 79,6 12,5 107,9 200,0 Count Total Expected Count 236,0 37,0 320,0 593,0 Πίνακας 28. Επιλογή Καταστήματος με βάση την απόσταση & Προτίμηση Καταστήματος (Crosstabulation) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 257

258 Chi-Square Tests Value df Asymp. Sig. (2- sided) Pearson Chi-Square 42,720 a 4,000 Likelihood Ratio 42,665 4,000 Linear-by-Linear Association 14,846 1,000 N of Valid Cases 593 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 8,74. Πίνακας 29. Επιλογή Καταστήματος με βάση την απόσταση & Προτίμηση Καταστήματος (Chi-Square test) Γράφημα 16: Ραβδόγραμμα Επιλογής Καταστήματος με βάση την απόσταση σε σχέση με την Προτίμηση Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 258

259 5 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_15 (Φύλο) & KLADOS_KATASTHMATOS (Κλάδος_ Καταστήματος) Κλάδος Λιανικού Εμπορίου Ένδυση/ Υπόδηση Οικιακός Εξοπλισμός Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμα Κοσμήματα/ Αξεσουάρ/ Καλλυντικά Total Άνδρας Φύλο Γυναίκα Total Count Expected Count 65,3 35,1 52,5 53,2 206,0 Count Expected Count 122,7 65,9 98,5 99,8 387,0 Count Expected Count 188,0 101,0 151,0 153,0 593,0 Πίνακας 30. Φύλο & Κλάδος Καταστήματος (Crosstabulation) Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 93,990 a 3,000 Likelihood Ratio 94,382 3,000 Linear-by-Linear Association,035 1,852 N of Valid Cases 593 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 35,09. Πίνακας 31. Φύλο & Κλάδος Καταστήματος (Chi-Square test) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 259

260 Γράφημα 17: Ραβδόγραμμα Φύλου σε σχέση με τον Κλάδο Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 260

261 6 ος Έλεγχος Ανεξαρτησίας X 2 (Chi-Square): ER_17 (Οικογενειακό_ Εισόδημα) & KLADOS_KATASTHMATOS (Κλάδος_ Καταστήματος) Κλάδος Λιανικού Εμπορίου Ένδυση/ Υπόδηση Οικιακός Εξοπλισμός Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμα Κοσμήματα/ Αξεσουάρ/ Καλλυντικά Total Ποιο είναι το μηνιαίο οικογενειακό σας εισόδημα από όλες τις πηγές; Total ΔΑ Έως και άνω Count Expected Count 25,7 13,8 20,7 20,8 81,0 Count Expected Count 38,1 20,5 30,6 30,8 120,0 Count Expected Count 64,5 34,6 51,8 52,1 203,0 Count Expected Count 32,1 17,2 25,8 25,9 101,0 Count Expected Count 15,2 8,2 12,2 12,3 48,0 Count Expected Count 12,4 6,7 9,9 10,0 39,0 Count Expected Count 188,0 101,0 151,0 152,0 592,0 Πίνακας 32. Οικογενειακό Εισόδημα & Κλάδος Καταστήματος (Crosstabulation) Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 261

262 Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 33,057 a 15,005 Likelihood Ratio 34,592 15,003 Linear-by-Linear Association,537 1,464 N of Valid Cases 592 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 6,65. Πίνακας 33. Οικογενειακό Εισόδημα & Κλάδος Καταστήματος (Chi-Square test) Γράφημα 18: Ραβδόγραμμα Οικογενειακού Εισοδήματος σε σχέση με τον Κλάδο Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 262

263 Περιγραφικά μέτρα για τη μεταβλητή ER_3:Προτίμηση_Καταστήματος Όταν αγοράζετε,προτιμάτε συνήθως... Frequency Percent Valid Percent Cumulative Percent Επώνυμες αλυσίδες καταστημάτων ,8 39,8 39,8 Valid Τοπικά καταστήματα 37 6,2 6,2 46,0 Και τα δύο εξίσου ,0 54,0 100,0 Total ,0 100,0 Πίνακας 34. Κατανομή συχνοτήτων ανά Προτίμηση Καταστήματος Γράφημα 19: Κυκλικό διάγραμμα για τη μεταβλητή «Προτίμηση Καταστήματος» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 263

264 Περιγραφικά μέτρα για τη μεταβλητή KLADOS_KATASTHMATOS: Κλάδος_Καταστήματος Κλάδος Λιανικού Εμπορίου Frequency Percent Valid Percent Cumulative Percent Ένδυση/ Υπόδηση ,7 31,7 31,7 Οικιακός Εξοπλισμός ,0 17,0 48,7 Valid Ηλεκτρικά Είδη/ Κινητά/ Αναλώσιμα ,5 25,5 74,2 Κοσμήματα/ Αξεσουάρ/ Καλλυντικά ,8 25,8 100,0 Total ,0 100,0 Πίνακας 35. Κατανομή συχνοτήτων ανά Κλάδο Καταστήματος Γράφημα 20: Ραβδόγραμμα για τη μεταβλητή «Κλάδος Καταστήματος» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 264

265 Απλή Ανάλυση Αντιστοιχιών (Simple Correspondence Analysis) στο SPSS με τη μέθοδο της Κύριας Κανονικοποίησης (Principal Normalization) για τις μεταβλητές ER_3 (Προτίμηση_Καταστήματος) & KLADOS_KATASTHMATOS (Κλάδος Καταστήματος) Warnings A biplot was not produced because it cannot be interpreted correctly when principal normalization is used. Correspondence Table Όταν αγοράζετε,προτιμάτε συνήθως... Επώνυμες αλυσίδες καταστημάτων Κλάδος Λιανικού Εμπορίου Ένδυση/ Οικιακός Υπόδηση Εξοπλισμός Τοπικά καταστήματα Και τα δύο εξίσου Πίνακας 36. Πίνακας Αντιστοιχιών για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Row Profiles Όταν αγοράζετε,προτιμάτε συνήθως... Επώνυμες αλυσίδες καταστημάτων Κλάδος Λιανικού Εμπορίου Ένδυση/ Οικιακός Υπόδηση Εξοπλισμός,317,258 Τοπικά καταστήματα 1,000,378 Και τα δύο εξίσου 1,000,203 Πίνακας 37. Προφίλ Γραμμών για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 265

266 Column Profiles Όταν αγοράζετε,προτιμάτε συνήθως... Επώνυμες αλυσίδες καταστημάτων Κλάδος Λιανικού Εμπορίου Ένδυση/ Οικιακός Υπόδηση Εξοπλισμός 1,000 1,000 Τοπικά καταστήματα,062,092 Και τα δύο εξίσου,540,425 Πίνακας 38. Προφίλ Στηλών για Προτίμηση Καταστήματος & Κλάδο Καταστήματος Summary Dimension Singular Value Inertia Chi Square Sig. Proportion of Inertia Accounted Cumulative for Confidence Singular Value Standard Correlation Deviation 2 1,246,061,765,765,039 -,071 2,137,019,235 1,000,040 Total,079 47,104,000 a 1,000 1,000 a. 6 degrees of freedom Πίνακας 39. Διαστατικότητα (Dimensionality) & Σύνοψη της Επίλυσης Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 266

267 Overview Row Points a Όταν αγοράζετε,προτιμάτε συνήθως... Επώνυμες αλυσίδες καταστημάτων Score in Contribution Dimension Of Point to Mass Inertia Of Dimension to Inertia of 1 2 Inertia of Point Dimension Total 1,000,299 -,029,079 1,000 1,000,990,010 1,000 Τοπικά καταστήματα,062 -,360 -,491,023,133,804,350,650 1,000 Και τα δύο εξίσου,540 -,178,078,021,283,177,838,162 1,000 a. Principal normalization Πίνακας 40. Επισκόπηση & Συνεισφορές (Contributions) των Σημείων- Γραμμών Overview Column Points a Κλάδος Λιανικού Εμπορίου Mass Score in Dimension 1 2 Inertia Contribution Of Point to Inertia of Of Dimension to Inertia Dimension of Point Total Ένδυση/ Υπόδηση 1,000 -,162,131,079 1,000 1,000,606,394 1,000 Οικιακός Εξοπλισμός,258,144 -,189,015,088,492,369,631 1,000 a. Principal normalization Πίνακας 41. Επισκόπηση & Συνεισφορές (Contributions) των Σημείων- Στηλών Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 267

268 Γράφημα 21: Σημεία- Γραμμές στις 2 διαστάσεις για τη μεταβλητή «Προτίμηση Καταστήματος» Γράφημα 22: Σημεία- Στήλες στις 2 διαστάσεις για τη μεταβλητή «Κλάδος Καταστήματος» Επιβλέπων Καθηγητής: Φίλιππος Αλεβίζος Σελίδα 268

Δείτε περισσότερα