ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ"

Transcript

1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ Ο ΗΓΟΣ ΑΝΑΛΥΣΗΣ Ε ΟΜΕΝΩΝ ΜΕ ΤΗ ΧΡΗΣΗ SPSS Πραµαγγιούλης Παναγιώτης ΙΟΥΛΙΟΣ

2 2

3 ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ.4 2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΟΝΕ-SAMPLE T-TEST CHI-SQUARE (ΕΛΕΓΧΟΣ Χ 2 ) Τ-TEST ΥΟ ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ PAIRED T-TEST ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ ΕΛΕΓΧΟΣ KRUSKAL-WALLIS ONE-WAY ANOVA ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ ΜΕΤΑΒΛΗΤΩΝ ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ ΜΕΤΑΒΛΗΤΩΝ ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΑΝΑΛΥΣΗ ΙΑΚΥΜΑΝΣΗΣ (ANOVA) ΑΝΑΛΥΣΗ ΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΠΑΡΑΓΟΝΤΑ ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΓΙΑ ΚΑΤΗΓΟΡΙΚΑ Ε ΟΜΕΝΑ ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΜΕ ΤΗΝ ΚΑΤΑΝΟΜΗ Χ ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ Χ 2 ΤΟΥ PEARSON RELATIVE RISK ΣΥΓΚΡΙΣΗ ΕΞΑΡΤΗΜΕΝΩΝ ΠΟΣΟΣΤΩΝ ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ ΤΟ ΟΡΘΟΓΩΝΙΟ ΜΟΝΤΕΛΟ

4 2.1.2 ΥΠΟΘΕΣΕΙΣ ΟΡΘΟΓΩΝΙΟΥ ΜΟΝΤΕΛΟΥ ΕΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΕΩΝ ΑΡΙΘΜΟΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΠΑΡΑΓΟΝΤΩΝ ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΤΕΛΟΥ ΠΕΡΙΣΤΡΟΦΗ ΥΠΟΛΟΓΙΣΜΟΣ ΤΩΝ SCORES ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΜΗ ΟΡΘΟΓΩΝΙΑ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΟΛΥΜΕΤΑΒΛΗΤΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (DISCRIMINANT ANALYSIS) ΑΛΛΕΣ ΜΕΘΟ ΟΙ ΠΑΡΟΜΟΙΕΣ ΜΕ ΤΗ ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ Η ΜΕΘΟ ΟΣ ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ (Κ-NEAREST NEIGHBORS) ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΕΝ ΡΑ ΑΠΟΦΑΣΕΩΝ (CART) ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ PROBIT REGRESSION ΑΝΑΛΥΣΗ ΚΑΤΑ ΣΥΣΤΑ ΕΣ (CLUSTER ANALYSIS) ΠΡΟΒΛΗΜΑΤΑ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ Ο ΕΡΕΥΝΗΤΗΣ ΑΝΑΛΥΣΗ ΜΕΘΟ ΩΝ CLUSTERING ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΕΙΩΝ (CORRESPONDENCE ANALYSIS) ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΝΤΕΛΑ ΕΙΓΜΑΤΟΛΗΠΤΙΚΩΝ ΕΡΕΥΝΩΝ ΕΙΣΑΓΩΓΙΚΑ ΤΥΠΟΙ ΕΙΓΜΑΤΟΛΗΨΙΑΣ ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (RANDOM SAMPLING) ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΥΧΑΙΑΣ ΕΙΓΜΑΤΟΛΗΨΙΑΣ ΠΙΘΑΝΟΤΗΤΕΣ ΕΠΙΛΟΓΗΣ ΤΩΝ ΜΟΝΑ ΩΝ (INCLUSION PROBABILITIES) ΣΦΑΛΜΑΤΑ ΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΕΡΕΥΝΑΣ 191 4

5 7.6 ΠΛΑΙΣΙΟ ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING FRAME) Ι ΙΟΤΗΤΕΣ ΠΛΑΙΣΙΟΥ ΚΥΡΙΕΣ ΑΤΕΛΕΙΕΣ ΠΑΛΙΣΙΩΝ ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΠΛΑΙΣΙΟΥ ΣΧΕ ΙΑΣΜΟΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΕΙΣΑΓΩΓΙΚΑ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΣΤΟΝ ΣΧΕ ΙΑΣΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΤΙ ΠΡΕΠΕΙ ΝΑ ΑΠΟΦΕΥΘΧΕΙ ΣΕ ΕΝΑ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΩΣ ΣΥΝΟΛΟ ΟΚΙΜΕΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΣΧΕ ΙΑΣΜΟΙ ΕΙΓΜΑΤΟΛΗΨΙΑΣ ΑΠΛΗ ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (SIMPLE RANDOM SAMPLING) ΣΤΡΩΜΑΤΙΚΗ ΕΙΓΜΑΤΟΛΗΨΙΑ (STRATIFIED SAMPLING) ΠΡΟΒΛΕΨΕΙΣ.214 ΒΙΒΛΙΟΓΡΑΦΙΑ 5

6 1. Εισαγωγή Σκοπός του παρόντος οδηγού είναι να παρουσιάσουµε βήµα-βήµα πώς να αντιµετωπίζουµε µε βασικές στατιστικές µεθόδους χρησιµοποιώντας το στατιστικό πακέτο SPSS την αρχική ανάλυση ενός αρχείου που περιέχει κατηγορικές και/ ή ποσοτικές µεταβλητές (είτε ένα ερωτηµατολόγιο, είτε ένα αρχείο που να ταξινοµεί περιστατικά σε κατηγορίες κ.α.). Επίσης, ο οδηγός περιγράφει µε σαφή πρακτικά βήµατα, πως µπορούµε να βρίσκουµε συσχετίσεις µεταξύ µεταβλητών µε απλούς ή σύνθετους ελέγχους υποθέσεων και τι άλλες σχετικές µεθοδολογίες µπορούµε να εφαρµόσουµε. Επιπλέον, στο τέλος κάθε ενότητας, στην οποίο έχει αναλυθεί µία µέθοδος, περιέχει και ένα σχετικό παράδειγµα, µια εφαρµογή µε αναλυτική περιγραφή το πώς γίνεται βήµα-βήµα η ανάλυση της µεθόδου που έχει αναλυθεί µε χρήση του SPSS. Ο οδηγός ξεκινάει περιγράφοντας τους στοιχειώδεις ελέγχους που κάνουµε σε µια ανάλυση δεδοµένων(είτε κατηγορικών, είτε ποσοτικών). Πιο συγκεκριµένα, αναφέρουµε τους ελέγχους: One Sample T-test Chi-square Test (έλεγχος Χ 2 ) T-test δύο δείγµατα ανεξάρτητα Paired Sample T-test Έλεγχος Κανονικότητας καταλοίπων Έλεγχος Kruskal-Wallis One-way ANOVA Έλεγχος ύπαρξης γραµµικής συσχέτισης µεταξύ µεταβλητών Μετά από κάθε ανάλυση ακολουθεί και ένα παράδειγµα. Στο επόµενο κεφάλαιο, θα ασχοληθούµε µε το τι µεθόδους µπορούµε να χρησιµοποιήσουµε στην ανάλυση συνεχών/ ποσοτικών µεταβλητών. Πιο συγκεκριµένα στο παρόν κεφάλαιο γίνεται λόγος για το πια περιγραφικά µέτρα µπορούµε να εξάγουµε γα ποσοτικά δεδοµένα, καθώς και για την ανάλυση απλής και πολλαπλής γραµµικής παλινδρόµησης, επισηµαίνοντας τις στοιχειώδεις υποθέσεις του γραµµικού µοντέλου (Κανονικότητα καταλοίπων, Ανεξαρτησία καταλοίπων, Οµοσκεδαστικότητα στα κατάλοιπα), καθώς και το πώς µπορούµε να τις ελέγξουµε µε την χρήση SPSS. Ακόµη, γίνεται λόγος για την ανάλυση µοντέλων µη γραµµικής 6

7 παλινδρόµησης, τα οποία εφαρµόζονται µόνο στην περίπτωση που δεν ισχύουν οι υποθέσεις του γραµµικού µοντέλου αλλά και την πρόταση κάποιων µετασχηµατισµών (λογάριθµος, εκθετικός µετασχηµατισµός κ.α.) σε περίπτωση που έχουµε πρόβληµα µε τις υποθέσεις του πολλαπλού γραµµικού µοντέλου. Εν συνεχεία, περιγράφεται η µεθοδολογία της Ανάλυσης ιακύµανσης (ANOVA), όπως και το ποιες είναι οι υποθέσεις που απαρτίζουν το µοντέλο της ανάλυσης διακύµανσης (Κανονικότητα καταλοίπων, Ανεξαρτησία καταλοίπων, Οµοσκεδαστικότητα στα κατάλοιπα). Τέλος, γίνεται αναφορά τι κάνουµε σε περίπτωση που ισχύουν οι υποθέσεις του γραµµικού µοντέλου, εκτός από της Κανονικότητα. Στην ουσία αναλύουµε µη παραµετρικές µεθόδους που αφορούν τον έλεγχο ισότητας διαµέσων (Kruskal-Wallis). Στο αµέσως επόµενο κεφάλαιο, γίνεται µια περιγραφή για το τι µεθόδους χρησιµοποιούµε στην ανάλυση κατηγορικών δεδοµένων. Το κεφάλαιο ξεκινάει µιλώντας γενικά για τις κατηγορίες των κατηγορικών δεδοµένων (διατεταγµένες και ονοµαστικές) και για το τι περιγραφικά µέτρα µπορούµε να εξάγουµε για κατηγορικά δεδοµένα. Συνεχίζουµε, µιλώντας για τον έλεγχο ανεξαρτησίας Χ 2, τον έλεγχο ανεξαρτησίας G 2 που βασίζεται στην µέθοδο µεγίστης πιθανοφάνειας, καθώς και για τους έλεγχους σύγκρισης ποσοστών (σύγκριση εξαρτηµένων ποσοστών, Relative Risk). Τέλος, γίνεται λόγος τι είδους µεθοδολογία µπορούµε να χρησιµοποιήσουµε για να αναλύσουµε κατηγορικά δεδοµένα (Λογιστική Παλινδρόµηση, Λογαριθµικά Μοντέλα). Στο 5 ο κεφάλαιο, γίνεται λόγος για Πολυµεταβλητή Στατιστική Ανάλυση. ύο είναι οι βασικές µέθοδοι Πολυµεταβλητής Στατιστικής Ανάλυσης, η ανάλυση σε κύριες συνιστώσες (Principal Components Analysis) και η παραγοντική ανάλυση (Factor Analysis). Στον παρόντα οδηγό θα αναφερθούµε µόνο στην παραγοντική ανάλυση µιας και η ανάλυση σε κύριες συνιστώσες δεν υποστηρίζεται από το SPSS (υποστηρίζεται από το MINITAB, S-plus και R). Στο τέλος του κεφαλαίου υπάρχει σχετικό παράδειγµα. Στο επόµενο κεφάλαιο, περιγράφονται τεχνικές οµαδοποίησης και κατάταξης Πολυµεταβλητών Dataset. Πιο συγκεκριµένα θα αναφερθούµε στις Οµαδοποίηση κατά συστάδες (Cluster Analysis), ιαχωριστική Ανάλυση (Discriminant Analysis) και Ανάλυση Αντιστοιχιών (Correspondence Analysis). 7

8 Στο 7 ο κεφάλαιο, θα αναφερθούµε σε µοντέλα δειγµατοληπτικών µοντέλων. Ειδικότερα από τις τεχνικές δειγµατοληψίας που υπάρχουν εµείς θα ασχοληθούµε µόνο µε την Απλή Τυχαία ειγµατοληψία (Simple Random Sampling) και την Στρωµατική ειγµατοληψία (Stratified Sampling). Επιπλέον, στο εν λόγω κεφάλαιο αναλύουµε βασικές έννοιες καθώς και τα βασικά βήµατα που χαρακτηρίζουν µια σωστή τυχαία δειγµατοληψία, τι πρέπει να προσέχουµε καθώς και ποια είναι τα δειγµατοληπτικά σφάλµατα. Τέλος, µια ενότητα αυτού του κεφαλαίου αφιερώθηκε στο πως πρέπει να φτιάχνουµε ένα σωστό ερωτηµατολόγιο. Τέλος, θα κλείσουµε αυτόν τον οδηγό µιλώντας για προβλέψεις, το που χρησιµεύουν, καθώς και πως µπορούµε να δούµε µε ένα οπτικό τρόπο το πια από τα Y, δηλαδή ποιες παρατηρήσεις της εξαρτηµένης µεταβλητής αναµένεται να έχουν µεγαλύτερες προβλεπόµενες τιµές. Σε αυτό το κεφάλαιο, το παράδειγµα που θα χρησιµοποιήσουµε θα έχει να κάνει µε την επιλογή κάποιων παιχτών του ΝΒΑ για µεταγραφή µε βάση κάποιες επιδόσεις (Rebound, Assist, Πόντους ανά αγώνα κ.α.). Αυτό που θα κάνουµε στην ουσία είναι να προτείνουµε ποιοι παίχτες αναµένεται να είναι χρήσιµοι για την δική µας οµάδα σύµφωνα µε κάποιες συγκεκριµένες επιδόσεις. Τέλος, παραθέτονται FAQs σχετικά µε την ανάλυση δεδοµένων: 1. Όταν έχω ερωτηµατολόγια και γενικότερα datasets µε κατηγορικά δεδοµένα τις θα µπορούσα να κάνω? Απάντηση: Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3) ιαχωριστική Ανάλυση (βλέπε κεφ. 6, ενότητα 6.1) Λογιστική Παλινδρόµηση (βλέπε κεφ. 3) 2. Όταν έχω συνεχή δεδοµένα, τι ανάλυση µπορώ να κάνω? Απάντηση: Ανάλυση Απλής Παλινδρόµησης (βλέπε κεφ. 3, ενότητα 3.3) Ανάλυση Πολλαπλής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.4) Ανάλυση Μη Γραµµικής Παλινδρόµησης (βλέπε κεφ.3, ενότητα 3.3) 8

9 5. Όταν έχω πολλές συνεχείς µεταβλητές, µε αποτέλεσµα να υπάρχει σύγχυση αποτελεσµάτων ή να µη εξάγεται κανένα αποτέλεσµα τι µπορώ να κάνω? Απάντηση: Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2) Παραγοντική Ανάλυση (βλέπε κεφ. 5, ενότητα 5.1) 4. Όταν θέλω να κάνω οµαδοποίηση ενός πληθυσµού σύµφωνα µε κάποιο κριτήριο, τι θα κάνω? Απάντηση: Ανάλυση Κατά Συστάδες (βλέπε κεφ. 6, ενότητα 6.2) 6. Όταν έχω πολλές κατηγορικές µεταβλητές (π.χ. ερωτηµατολόγια κλειστού τύπου), µε αποτέλεσµα να υπάρχει σύγχυση αποτελεσµάτων ή να µη εξάγεται κανένα αποτέλεσµα τι µπορώ να κάνω? Απάντηση: Correspondence Analysis (βλέπε κεφ. 6, ενότητα 6.3) 6. Όταν έχω κατηγορικές µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ τους ποιο συντελεστή να χρησιµοποιήσω? Απάντηση: Έλεγχος Ανεξαρτησίας Χ 2 (βλέπε κεφ. 2, ενότητα 2.2) Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Spearman (βλέπε κεφ. 2, ενότητα 2.8) 7. Όταν έχω συνεχείς µεταβλητές και θέλω να ελέγξω την συσχέτιση µεταξύ τους ποιο συντελεστή να χρησιµοποιήσω? Απάντηση: Έλεγχος Γραµµικής Συσχέτισης µεταξύ µεταβλητών κατά Pearson (βλέπε κεφ. 2, ενότητα 2.8) 9

10 8. Όταν έχω κατηγορικά δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις µεταβλητές µου? Απάντηση: Περιγραφικά Μέτρα για Κατηγορικά εδοµένα (βλέπε κεφάλαιο 3, ενότητα 4.2) 9. Όταν έχω συνεχή δεδοµένα, τι περιγραφικά µέτρα µπορώ να εξάγω για τις µεταβλητές µου? Απάντηση: Περιγραφικά Μέτρα για Συνεχή εδοµένα (βλέπε κεφ. 3, ενότητα 3.2) 10. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού Υποδείγµατος και έχω να τρέξω απλή παλινδρόµηση, τι µπορώ να κάνω? Απάντηση: Απλή Γραµµική Παλινδρόµηση-Μη γραµµική Παλινδρόµηση (βλέπε κεφ. 3, ενότητα 3.3) 11. Όταν τα δεδοµένα µου δεν πληρούν της προϋποθέσεις του Γραµµικού Υποδείγµατος και έχω να τρέξω πολλαπλή παλινδρόµηση, τι µπορώ να κάνω? Απάντηση: Πολλαπλή Γραµµική Παλινδρόµηση (βλέπε κεφ. 3, ενότητα 3.4) 12. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να τρέξω ένα µοντέλο ANOVA, πως µπορώ να το κάνω αυτό? Απάντηση: Ανάλυση ιακύµανσης κατά ένα Παράγοντα (ANOVA) (βλέπε κεφ. 3, ενότητα 3.4.1) 13. Όταν έχω µια συνεχή µεταβλητή και µία κατηγορική σαν dataset και θέλω να τρέξω ένα µοντέλο ANOVA αλλά δεν µου πληρείται η υπόθεση της κανονικότητας των καταλοίπων, τι µπορώ να το κάνω αυτό? 10

11 Απάντηση: Ανάλυση ιακύµανσης κατά ένα Παράγοντα (ANOVA)-Μη παραµετρικές µέθοδοι ANOVA (βλέπε κεφ. 3, ενότητα 3.4.1) 14. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών έχουν προέλθει από το ίδιο δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο διαφορετικό µε το πρώτο έχει συµπληρωθεί από το ίδιο δείγµα των 400 ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να χρησιµοποιήσω για να κάνω αυτή τη σύγκριση? Απάντηση: Σύγκριση Εξαρτηµένων Ποσοστών (βλέπε κεφ. 4, ενότητα 4.5) 15. Όταν έχω κατηγορικά δεδοµένα των οποίων οι παρατηρήσεις των µεταβλητών έχουν προέλθει διαφορετικό δείγµα (π.χ. αν ένα ερωτηµατολόγιο έχει συµπληρωθεί από ένα δείγµα 400 ατόµων και αν ένα άλλο ερωτηµατολόγιο διαφορετικό µε το πρώτο έχει συµπληρωθεί από διαφορετικό δείγµα 400 ατόµων) και θέλω να συγκρίνω ποσοστά, τι ανάλυση θα πρέπει να χρησιµοποιήσω για να κάνω αυτή τη σύγκριση? Απάντηση: Relative Risk (βλέπε κεφάλαιο 4, ενότητα 4.4) 16. Πως θα κάνω προβλέψεις? Απάντηση: Προβλέψεις (βλέπε κεφάλαιο 8) 17. Πως µπορώ να κάνω δειγµατοληψία? Απάντηση: Μοντέλα ειγµατοληπτικών Ερευνών (βλέπε κεφάλαιο 7) 11

12 2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο παρών κεφάλαιο θα αναφερθούµε στους στοιχειώδεις ελέγχους υποθέσεων που απαρτίζουν µια ανάλυση δεδοµένων (συνεχών και κατηγορικών δεδοµένων). 2.1 One-Sample T-test Χρησιµοποιείται για να ελέγξουµε το µέσο του δείγµατος ως προς µία ισότητα. Στην ουσία ελέγχουµε εάν ο µέσος κάποιας µεταβλητής ισούται µε κάποια τιµή. H 0 1 : µ = c H : µ c όπου c είναι ένας σταθερός αριθµός. Σε περίπτωση που το p-value<0.05 (ή αλλιώς sig.<0.05) τότε απορρίπτουµε την Η 0. Προϋπόθεση: Τα δεδοµένα µας θα πρέπει να ακολουθούν την κανονική κατανοµή Με χρήση SPSS: Analyze> Compare Means> One Sample T-test Βάζουµε στο κουτί Test Variable(s) τη µεταβλητή για την οποία θέλουµε να ελέγξουµε αν ο µέσος της ισούται µε κάποια συγκεκριµένη τιµή. 12

13 Στην επιλογή Test Value εισάγουµε την τιµή µε την οποία θέλουµε να ελέγξουµε αν ισούται ο µέσος της µεταβλητής που θέλουµε να µελετήσουµε. Το SPSS έχει σαν default τιµή το 0. Μετά πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: One-Sample Test Amount of credit in "Deutsche Mark" (metric) t df Sig. (2-tailed) Test Value = 0 95% Confidence Interval of the Mean Difference Difference Lower Upper 36, , , , ,41 Από το παραπάνω πίνακα βλέπουµε ότι εφόσον p-value=0.000<0.05 η µηδενική υπόθεση απορρίπτεται εποµένως ο µέσος της υπό µελέτης µεταβλητής δεν ισούται µε Chi-square test (Έλεγχος Χ 2 ) Ο έλεγχος Χ 2 είναι ένα πολύ χρήσιµο στατιστικό κριτήριο, καθώς µπορεί να χρησιµοποιηθεί για να κρίνει ένα µεγάλο αριθµό υποθέσεων οι οποίες σχετίζονται µε κατηγορικού τύπου δεδοµένα και έχει την µορφή: H : εν υπάρχει σχέση αν άµεσα στις δύο µεταβλητ ές ( δηλαδ ή είναι ανεξάρτητες ) 0 H : Υπάρχει σχέση αν άµεσα στις δύο µεταβλητές ή H : οι παρατηρηθε ίσες συχν ότητες είναι ίσες µε τις αναµεν όµενες συχν ότητες H : υπάρχει διαφορά αν άµεσα στιςπραγµατικ ές και τις εκτιµ ώµενες συχν ότητες Ο έλεγχος αυτός µπορεί να χρησιµοποιηθεί ως: Έλεγχος καλής προσαρµογής: σε αυτή την περίπτωση ο Χ 2 έλεγχος προσδιορίζει αν η απόκλιση ανάµεσα στις πραγµατικές και τις εκτιµώµενες τιµές παρατηρήσεων είναι στατιστικά σηµαντική. Έλεγχος ανεξαρτησίας: σε αυτή την περίπτωση µε απλά λόγια το να γνωρίζεις τις τιµές για µια µεταβλητή, δεν σου λέει τίποτα για τις τιµές της άλλης. Για παράδειγµα, αν κάποιος είναι παντρεµένος και αν κάποιος είναι ευτυχισµένος είναι ανεξάρτητες, δηλαδή αν κάποιος είναι ευτυχισµένος δεν έχω καµία πληροφορία για το αν είναι παντρεµένος. 13

14 Με χρήση SPSS: Στο µενού πάνω στο SPSS επιλέγουµε: Analyze>Descriptive Statistics>Crosstabs Και τοποθετούµε τις µεταβλητές όπως παρακάτω µετά πηγαίνουµε και επιλέγουµε το µενού Statistics και εκεί βάζουµε τικ στην επιλογή Chi-Square όπως παρακάτω: Πατάµε Continue και µετά ΟΚ. 14

15 Στο Output θα έχει δηµιουργηθεί ο πίνακας συνάφειας Trauma * TH Crosstabulation Count Trauma Total OXI NAI TH OXI NAI Total Το οποίο µας δείχνει ότι δεδοµένου ότι το νοσοκοµείο δεν έχει πτέρυγα αποκατάστασης τραυµάτων τα νοσοκοµεία τα οποία δεν είναι πανεπιστηµιακά είναι 3201, ενώ τα νοσοκοµεία τα οποία είναι πανεπιστηµιακά είναι 926 σε αριθµό. Οµοίως ερµηνεύεται και η περίπτωση που κάποιο νοσοκοµείο διαθέτει πτέρυγα αποκατάστασης τραυµάτων. Το επόµενο πινακάκι που εξάγεται είναι το πινακάκι που µας δείχνει αν υπάρχει ή όχι ανεξαρτησία µεταξύ των δύο µεταβλητών. Κοιτάζοντας το p-value του ελέγχου Pearson Chi-Square βλέπουµε ότι είναι πολύ µικρό (0.000<0.05 επίπεδο σηµαντικότητας που έχουµε ορίσει) εποµένως απορρίπτεται η µηδενική υπόθεση, δηλαδή οι µεταβλητές ΤΗ και Trauma είναι εξαρτηµένες µεταβλητές. n Σε περίπτωση, όπου η συνθήκη > 5 δεν ικανοποιείται θα πάµε στο µενού Exact IJ 15

16 και θα επιλέξουµε Monte Carlo όπως παρακάτω: n Αυτό το κάνουµε γιατί όταν δεν ισχύει η συνθήκη 5 IJ > τότε ο έλεγχος Χ2 δεν είναι ισχυρός. 2.3 T-test ΥΟ ΕΙΓΜΑΤΑ ΑΝΕΞΑΡΤΗΤΑ Μια στατιστική τεχνική είναι η σύγκριση µέσων τιµών. Το T-test για ανεξάρτητα δείγµατα δίνει την δυνατότητα στον χρήστη να εξετάσει αν υπάρχουν διαφορές στους µέσους ανά επίπεδο µια κατηγορικής µεταβλητής. 16

17 Το T-test αποτελεί γενίκευση του One Sample T-test. Στο One Sample T-test είναι γνωστό το µέτρο σύγκρισης ενώ τώρα έχουµε να κάνουµε µε σύγκριση των διακυµάνσεων των µέσων των δύο ανεξάρτητων δειγµάτων. Το τυπικό σφάλµα του µέσου πλέον υπολογίζεται από την διακύµανση και το µέγεθος του δείγµατος από τα δύο ανεξάρτητα δείγµατα. Η λογική είναι ακριβώς η ίδια µε το One Sample T-test, µόνο που τώρα έχουµε να εκτιµήσουµε και το τυπικό σφάλµα της διαφοράς των µέσων και βασιζόµαστε στις διακυµάνσεις και το µέγεθος και των δύο ανεξάρτητων δειγµάτων. Προϋπόθεση: Θα πρέπει να ισχύει κανονικότητα και για τις δύο οµάδες. Με χρήση SPSS: Analyze> Compare Means> Independent-Samples T-test Τοποθετούµε τις µεταβλητές για τις οποίες θέλουµε να ελέγξουµε αν οι µέσοι για κάθε επίπεδο της κατηγορικής Ηλικίας είναι ίσοι: Στην επιλογή Define Groups θα καθορίσουµε την ελάχιστη και µέγιστη τιµή της κατηγορικής µεταβλητής Ηλικίας (εδώ η ελάχιστη είναι το 1 και η µέγιστη το 4). Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: 17

18 Στο παραπάνω πινακάκι ο έλεγχος T-test εξάγεται για την περίπτωση που οι διακυµάνσεις είναι ίσες και σε περίπτωση που διακυµάνσεις είναι άνισες. Και στις 2 περιπτώσεις και για τις δύο µεταβλητές για τα τέσσερα επίπεδα της κατηγορικής µεταβλητής Ηλικία οι µέσοι φαίνεται να είναι ίσοι αφού τα p-values (sig.) είναι µεγαλύτερα από το Εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι οι µέσοι ανά επίπεδο της κατηγορικής Ηλικίας είναι ίσοι. 2.4 PAIRED SAMPLES T-test Ο έλεγχος αυτός χρησιµεύει για να µελετήσουµε αν η διαφορά των µέσων δύο µεταβλητών ισούται µε µηδέν ή είναι διάφορη του µηδενός. Ο έλεγχος έχει την µορφή: Με χρήση SPSS: H0 : µ 1 = µ 2 H ή H : µ µ H : µ µ = : µ µ Analyze> Compare Means> Paired Samples T-test Επιλέγουµε το/α ζεύγος/η των µεταβλητών που θέλουµε να µελετήσουµε αν ισχύει ότι οι µέσοι των δύο µεταβλητών είναι ίσοι ή διαφορετικά αν η διαφορά των µέσων είναι ίση µε το µηδέν ή όχι. 18

19 Πατάµε ΟΚ και το αποτέλεσµα θα είναι τα παρακάτω πινακάκια: Paired Samples Correlations Pair 1 Πόντοι ανα λεπτό των αγώνων των Αθλητών που αξίζουν για µεταγραφή & Assist ανα λεπτό των Αθλητών που αξίζουν για µεταγραφή N Correlation Sig. 69,280,020 αυτό πινακάκι υπολογίζει τον συντελεστή συσχέτισης για να δούµε κατά πόσο οι µεταβλητές είναι συσχετισµένες µεταξύ τους. Εδώ βλέπουµε ότι συγκεκριµένες µεταβλητές δεν φαίνεται να έχουν ισχυρή συσχέτιση µεταξύ τους αφού R= Αν είχαν ισχυρή σχέση το Correlation θα ήταν κοντά στο 1. Επίσης, βλέπουµε ότι το sig. (p-value) για τον έλεγχο: H 0 1 : R= 0 H : R 0 είναι µικρότερο από 0.05 εποµένως απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει καµία συσχέτιση. Paired Samples Test Pair 1 Πόντοι ανα λεπτό των αγώνων των Αθλητών που αξίζουν για µεταγραφή - Assist ανα λεπτό των Αθλητών που αξίζουν για µεταγραφή Mean Paired Differences 95% Confidence Interval of the Std. Error Difference Std. Deviation Mean Lower Upper t df Sig. (2-tailed), , , , , ,001 68,000 19

20 Από τον παραπάνω πίνακα βλέπουµε ότι οι µέσοι των δύο µεταβλητών φαίνεται να διαφέρουν αφού (sig.<0.000) απορρίπτεται η µηδενική υπόθεση που θέλει οι µέσοι να είναι ίσοι, ή η διαφορά των δύο µέσων να είναι µηδενική. 2.5 ΕΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ Μία από τις προϋποθέσεις που θα πρέπει να ισχύουν για να µπορέσουµε να εκτιµήσουµε σωστά ένα γραµµικό µοντέλο είναι η υπόθεση ότι τα κατάλοιπα ακολουθούν κανονική κατανοµή µε µέσο 0 και διακύµανση γνωστή. Με χρήση SPSS: Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο. Πηγαίνουµε στο µενού του SPSS και πατάµε: Analyze> Regression> Linear Και τοποθετούµε τις µεταβλητές ανάλογα στα κουτάκια, όπως παρακάτω: 20

21 Μετά πηγαίνουµε στο µενού Save και πατάµε την επιλογή Πατάµε Continue και µετά ΟΚ. Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω και µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές 21

22 Μετά πατάµε Continue και ΟΚ. Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov- Smirnov αλλά και τον έλεγχο Shapiro-Wilks. Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Standardized Residual, ,000, ,000 a. Lilliefors Significance Correction Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p- value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας. 2.6 ΕΛΕΓΧΟΣ KRUSKAL-WALLIS Ο έλεγχος Kruskal-Wallis έχει να κάνει µε τον έλεγχο ισότητας διαµέσων και όχι ισότητας µέσων. Στην ουσία αποτελεί µια µη παραµετρική εκδοχή της ανάλυσης διακύµανσης (ANOVA). Εφαρµόζεται µόνο στην περίπτωση που δεν ισχύει η κανονικότητα καταλοίπων. Analyze> Nonparametric Tests> K Independent samples. Και θα κάνουµε τις εξής επιλογές: 22

23 Στο µενού Define Range θα δηλώσουµε το πόσα επίπεδα έχει η κατηγορική µεταβλητή Ηλικία. Εφόσον έχουµε 4 επίπεδα θα βάλουµε: Πατάµε Continue και OK. To το αποτέλεσµα θα είναι το πινακάκι 23

24 Σύµφωνα µε το οποίο οι διάµεσοι δεν φαίνεται να διαφέρουν (αφού p- value=0.473>0.05 άρα δεν απορρίπτεται η µηδενική υπόθεση). 2.7 One-way ANOVA Η One-Way ANOVA είναι απλή µορφή της ανάλυση διακύµανσης. Το µοντέλο που χρησιµοποιείται είναι το απλό µοντέλο µε την επίδραση µιας µόνο µεταβλητής, δηλαδή η µορφή του µοντέλου είναι: y i = 1,..., a = µ + τ + ε, j = 1,..., n ij i ij Όπου µ: ο συνολικός µέσος του µοντέλου a τ i : το πόσο επιδρά το i-επίπεδο στο µοντέλο( ισχύει πάντα τ i = 0 ) i= 1 ε ij : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και διακύµανση σ 2 σταθερή αλλά άγνωστη. Αυτό που κάνουµε είναι να ελέγχουµε την ισότητα µέσων. Απλά βασικές προϋποθέσεις είναι : Κανονικότητα Οµοσκεδαστικότητα Ανεξαρτησία καταλοίπων Για να µπορέσουµε να εφαρµόσουµε την One-Way ANOVA θα πρέπει να ισχύουν τα παραπάνω. Με χρήση SPSS: Analyze> Compare Means> One-way ANOVA Τοποθετούµε τις µεταβλητές µας όπως παρακάτω: 24

25 και θα πάρουµε ως αποτέλεσµα το παρακάτω πινακάκι: ANOVA Πόντοι ανα αγώνα Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 610, ,432 6,419, , , , Στο οποίο βλέπουµε ότι το µοντέλο φαίνεται να είναι στατιστικά σηµαντικό αφού p- value=0.001<0.05 εποµένως απορρίπτουµε την µηδενική υπόθεση ότι το µοντέλο δεν προσαρµόζεται καλά στα δεδοµένα µας. Επιπλέον, σε περίπτωση που θέλουµε να ελέγξουµε ισότητα ζευγών µέσων ανά επίπεδο της κατηγορικής µεταβλητής Ηλικία θα πάµε στο µενού Post Hoc και θα κάνουµε τις εξής επιλογές: 25

26 Συνήθως αυτοί οι έλεγχοι χρησιµοποιούνται διότι είναι πιο αξιόπιστοι. Το αποτέλεσµα που θα έχουµε είναι το παρακάτω πινακάκι: Αν κοιτάξουµε την στήλη Sig. Θα δούµε ότι όσα από τα ζεύγη έχουν sig. µεγαλύτερο από 0.05 τότε οι µέσοι των επιπέδων της κατηγορικής Ηλικίσ ανά δύο είναι ίσοι. 2.8 ΕΛΕΓΧΟΣ ΥΠΑΡΞΗΣ ΓΡΑΜΜΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ ΜΕΤΑΞΥ ΜΕΤΑΒΛΗΤΩΝ Ο έλεγχος που χρησιµοποιείται για να ελέγξουµε αν υπάρχει γραµµική συσχέτιση µεταξύ συνεχών µεταβλητών είναι ο έλεγχος Pearson, που έχει την µορφή: H 0 1 : ρ = 0 H : ρ 0 ηλαδή, ελέγχει την µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση έναντι ότι η συσχέτιση είναι διάφορη του µηδενός. 26

27 Πέρα από τον συντελεστή συσχέτισης του Pearson, υπάρχει και ο συντελεστής του Spearman, ο οποίος αποτελεί µία µη παραµετρική µορφή του συντελεστή συσχέτισης του Pearson και αντικαθιστά τις πραγµατικές τιµές των δεδοµένων µε την σειρά κατάταξης. (στην ουσία εφαρµόζεται µόνο σε διατεταγµένα δεδοµένα). Η τιµή και των δύο συντελεστών κυµαίνονται µεταξύ -1 και 1. Με χρήση SPSS: Για συνεχή δεδοµένα θα εφαρµόσουµε Pearson έλεγχο: Analyze> Correlate> Bivariate Και βάζουµε τις µεταβλητές όπως παρακάτω: Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: 27

28 Βλέπουµε ότι απορρίπτεται η µηδενική υπόθεση ότι δεν υπάρχει συσχέτιση µεταξύ των δύο µεταβλητών αφού p-value=0.000<0.05. Αυτό µπορούµε να το καταλάβουµε και από την τιµή του συντελεστή Pearson που είναι της τάξεως του 56,4%. Για διατεταγµένα δεδοµένα θα χρησιµοποιήσουµε τον συντελεστή Spearman: Analyze> Descriptive Statistics> Crosstabs Και αφού βάλουµε τις µεταβλητές όπως παρακάτω: θα πάµε στο µενού Statistics και θα κάνουµε την εξής επιλογή: 28

29 Και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: Βλέπουµε ότι το p-value είναι µικρότερο από 0.05 οπότε απορρίπτεται η µηδενική υπόθεση ότι τα δεδοµένα δεν είναι συσχετισµένα γραµµικά. Αυτό µπορούµε να το καταλάβουµε και από την τιµή του συντελεστή Spearman που είναι της τάξεως 12,6% (όχι µεγάλο αλλά διάφορο του µηδενός). 29

30 3. ΑΝΑΛΥΣΗ ΣΥΝΕΧΩΝ Ε ΟΜΕΝΩΝ 3.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ Στην ανάλυση συνεχών δεδοµένων (π.χ. ηλικία, χρόνος, επίδοση κ.α.) χρησιµοποιούµε µοντέλα απλής γραµµικής παλινδρόµησης (µε µία µόνο επεξηγηµατική µεταβλητή Χ), µοντέλα πολλαπλής γραµµικής παλινδρόµησης (δηλαδή µε παραπάνω από µια επεξηγηµατική µεταβλητή Χ στο µοντέλο), καθώς και µε µοντέλα ανάλυσης διακύµανσης που εκφράζουν την επίδραση κάθε επιπέδου µιας ή περισσοτέρων επεξηγηµατικών στην εξαρτηµένη Y. Για παράδειγµα, έστω ότι θέλουµε να ελέγξουµε την επίδραση που θα είχε κάποιο φάρµακο (φάρµακο Α, φάρµακο Β, φάρµακο Γ, δηλαδή 3 επίπεδα στην µεταβλητή Φάρµακο) σε ένα άνθρωπο ανάλογα µε την ηλικία του. Εδώ η εξαρτηµένη είναι η ηλικία του ανθρώπου (Υ) και η επεξηγηµατική είναι του Φάρµακο (Χ). Και στις τρεις αυτές αναλύσεις, επειδή ακριβώς στηρίζονται στο γραµµικό υπόδειγµα, για να είναι οι εκτιµήσεις συνεπείς, οπότε και σωστές θα πρέπει να πληρούνται κάποιες προϋποθέσεις. Κανονικότητα: τα κατάλοιπα θα πρέπει να ακολουθούν κανονική κατανοµή µε 2 µέσο 0 και διακύµανση γνωστή ( N ( 0, ) ε σ ). Η Κανονικότητα µπορεί να ελεγχθεί µέσω του ελέγχου Kolmogorov-Smirnov και Shapiro-Wilks µε µηδενική υπόθεση H o : τα κατάλοιπα ακολουθούν κανονική κατανοµή και Η 1 : τα κατάλοιπα δεν ακολουθούν κανονική κατανοµή. Όταν το p-value του ελέγχου είναι µεγαλύτερο από 0.05 τότε απορρίπτουµε την µηδενική υπόθεση. Ο Shapiro-Wilks έλεγχος είναι πιο αξιόπιστος, ιδιαίτερα όταν έχουµε µικρά δείγµατα. Οµοσκεδαστικότητα: ισότητα διακυµάνσεων ( Cov( ε, ε ) = 0, i = j ). Στην περίπτωση απλής γραµµικής παλινδρόµησης κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) των καταλοίπων µε την επεξηγηµατική. Αν τα σηµεία είναι τυχαία και δεν παρουσιάζουν κάποια τάση τότε υπάρχει Οµοσκεδαστικότητα. Στην περίπτωση πολλαπλής παλινδρόµησης θα πρέπει να κάνουµε το ίδιο µε την απλή παλινδρόµηση αλλά για όλες τις επεξηγηµατικές. Τέλος στην περίπτωση της ανάλυσης διακύµανσης θα κάνουµε ένα Spread vs Level with Levene Test όπου θα κάνει έλεγχο ισότητας διακυµάνσεων για καθένα από τα επίπεδα της επεξηγηµατικής. ( πιο κάτω ακολουθεί παράδειγµα) i j 30

31 Ανεξαρτησία καταλοίπων ( Cov( ε, ε ) = 0, i j ). Κάνουµε ένα διάγραµµα i j σηµείων µεταξύ των προβλεπόµενων τιµών (Predicted values) και των καταλοίπων (Residuals). Αν είναι τυχαία τα σηµεία τότε έχουµε ανεξαρτησία. Επίσης µια άλλη λύση είναι να κάνουµε ένα Runs-test. Αλλά δεν θα ασχοληθούµε µε αυτό στον παρόντα οδηγό. Γραµµικότητα θα κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) προβλεπόµενων τιµών (Unstandardized Predicted Values) έναντι καταλοίπων (Standardized Residuals). Στην περίπτωση της πολλαπλής γραµµικής παλινδρόµησης θα πρέπει επιπλέον να ελέγχουµε και την πολυσυγγραµµικότητα, η οποία υφίσταται όταν υπάρχει συσχέτιση µεταξύ των επεξηγηµατικών µεταβλητών. Αυτό µπορούµε να το διαγνώσουµε µε ένα µέτρο που ονοµάζεται VIF και ισούται µε 1, όπου R i είναι ο συντελεστής 1 Ri συσχέτισης για κάθε ζεύγος επεξηγηµατικών. Όταν VIF>10 τότε έχουµε πρόβληµα πολυσυγγραµµικότητας. Πριν κάνουµε όµως οποιαδήποτε ανάλυση και οποιοδήποτε έλεγχο υποθέσεων καλό θα ήταν να κάνουµε ένα διάγραµµα σηµείων (Scatter Plot) για να δούµε αν υπάρχει κάποια τάση στα δεδοµένα. Με χρήση SPSS: Στο µενού SPSS Graphs> Scatter> Simple (αν έχουµε µια επεξηγηµατική) Graphs> Scatter> Simple (αν έχουµε περισσότερες επεξηγηµατικές) 3.5 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ Σε συνεχή δεδοµένα τα περιγραφικά µέτρα µπορούµε να εξάγουµε είναι ο µέσος, η διακύµανση, η τυπική απόκλιση, η µέγιστη τιµή, ελάχιστη τιµή, κύρτωση και ασυµµετρία. Όσον αφορά την κύρτωση όταν ξεπερνάει το 3 τότε έχουµε σοβαρό πρόβληµα κύρτωσης. 31

32 Με χρήση SPSS: Analyze> Descriptive Statistics> Descriptives Βάζουµε στο κουτάκι τις µεταβλητές γα τις οποίες θέλουµε να βγάλουµε περιγραφικά µέτρα, όπως παρακάτω µετά πηγαίνουµε στο µενού Options και κάνουµε τις εξής επιλογές Μετά πατάµε Continue και ΟΚ. Έχοντας µιλήσει για αυτά θα µπορούσαµε να ξεκινήσουµε µιλώντας για την απλή γραµµική παλινδρόµηση. 32

33 3.3 ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ Στην απλή γραµµική παλινδρόµηση το γραµµικό µοντέλο αποτελείται από την εξαρτηµένη µεταβλητή και µια µόνο ανεξάρτητη Χ και έχει την µορφή: y = a+ β x+ ε όπου β είναι η µεταβολή της Y όταν η Χ µεταβληθεί κατά µια µονάδα, ενώ το α είναι η τιµή που θα πάρει η Υ αν Χ=0. Το ε είναι τα κατάλοιπα για τα οποία ισχύει Ε(ε)=0. Όπως αναφέρθηκε στην ενότητα 3.1 για να έχουµε εκτιµήσει σωστά το απλό µοντέλο θα πρέπει να πληρούνται οι προϋποθέσεις της Κανονικότητας, της Οµοσκεδαστικότητας και της Ανεξαρτησίας. Σε περίπτωση που δεν πληρούνται οι προϋποθέσεις θα πρέπει να χρησιµοποιήσουµε ένα µη γραµµικό µοντέλο (εκθετικό, λογαριθµικό κ.α.), εφόσον το γραµµικό δεν θα προσαρµόζεται καλά στα δεδοµένα µας (για αυτό θα µιλήσουµε παρακάτω). Εφόσον λύσουµε το πρόβληµα µε τις υποθέσεις του µοντέλου, ένα άλλο πρόβληµα που καλούµαστε να λύσουµε είναι η στατιστική σηµαντικότητα των µεταβλητών του µοντέλου. Όταν εφαρµόσουµε σε κάποια δεδοµένα στο SPSS γραµµική παλινδρόµηση στο τέλος του Output εξάγει ένα πινακάκι που ονοµάζεται Coefficients που στην ουσία είναι ο πίνακας εκτίµησης των παραµέτρων του µοντέλου αλλά και ελέγχου στατιστικής σηµαντικότητας καθεµίας µεταβλητής. Για τον έλεγχο στατιστικής σηµαντικότητας των µεταβλητών χρησιµοποιείται ο έλεγχος t-test µε Η 0 : η µεταβλητή δεν είναι στατιστικά σηµαντική Η 1 : η µεταβλητή είναι στατιστικά σηµαντική Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05. ηλαδή εµείς στο πινακάκι των Coefficient θέλουµε να έχουµε όσο το δυνατόν µικρά P-value, εποµένως µεγάλες τιµές του t-statistic. Αν κάποια µεταβλητή έχει µεγάλο p-value τότε κρίνεται ακατάλληλη για το µοντέλο µας. Ένα από τα εναποµείναντα πινακάκια που εξάγει το SPSS για την γραµµική παλινδρόµηση είναι αυτό της ANOVA. Στον πίνακα αυτό χρησιµοποιείται το F-test το οποίο ελέγχει την καλή προσαρµογή του µοντέλου στα δεδοµένα. Ο έλεγχος αυτός έχει την µορφή: 33

34 H : β = β =... = β = 0 n H : τουλάχιστον ένα απ ότα β είναι διάφορο του µηδεν ός Η µηδενική υπόθεση απορρίπτεται όταν p-value<0.05 ή για µεγάλες τιµές του F- statistic. ηλαδή, αν το p-value είναι µεγάλο τότε το µοντέλο µας δεν προσαρµόζεται καλά εποµένως είναι στατιστικά µη σηµαντικό. Εµείς θέλουµε µικρές τιµές p-value και µεγάλες τιµές του F-statistic. i Τέλος, το τελευταίο πινακάκι που εξάγεται είναι το επονοµαζόµενο Model Summary στην πρώτη στήλη του οποίου υπολογίζεται ο συντελεστής συσχέτισης (παίρνει τιµές µεταξύ -1 και 1) των επεξηγηµατικών µεταβλητών µε την εξαρτηµένη. Μας ενδιαφέρουν µεγάλα ποσοστά. Στην ουσία υπολογίζεται η συνολική συσχέτιση των επεξηγηµατικών (σε περίπτωση πολλαπλής παλινδρόµησης) µε την εξαρτηµένη. Στην τρίτη στήλη, υπολογίζεται ο συντελεστής προσδιορισµού (παίρνει τιµές από 0 έως 1) που δείχνει το ποσοστό διακύµανσης που εξηγείται από το µοντέλο. Καλό είναι το ποσοστό αυτό να είναι µεγάλο (από πάνω από 60%). Με χρήση SPSS: Θέλουµε να βρούµε ένα µοντέλο που να µας δείχνει κατά πόσο η ποσοτική µεταβλητή ηλικία επηρεάζει την επίδοση των αθλητών ΝΒΑ όσον αφορά τους πόντους ανά λεπτό. εδοµένου λοιπόν των παραπάνω το µοντέλο θα είναι: y = β0 + β1x 1 Όπου x1 αντιπροσωπεύει την ποσοτική µεταβλητή «Ηλικία» Πριν προχωρήσουµε σε οποιαδήποτε ανάλυση θα ελέγξουµε αν ισχύουν οι προϋποθέσεις του γραµµικού µοντέλου η οποίες είναι: Κανονικότητα καταλοίπων, δηλαδή τα κατάλοιπα να ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και διακύµανση σ 2 σταθερή, Με χρήση SPSS: Πρώτα από όλα θα παράγουµε τα κατάλοιπα (Residuals) από το µοντέλο. Πηγαίνουµε στο µενού του SPSS και πατάµε: Analyze> Regression> Linear Και τοποθετούµε τις µεταβλητές ανάλογα στα κουτάκια, όπως παρακάτω: 34

35 Μετά πηγαίνουµε στο µενού Save και πατάµε την επιλογή 35

36 Πατάµε Continue και µετά ΟΚ. Μετά πηγαίνουµε Analyze> Descriptive Statistics> Explore Στο πρώτο κουτάκι βάζουµε τα Residuals τα οποία έχουν αποθηκευτεί στην τελευταία στήλη των δεδοµένων µας στο SPSS, όπως παρακάτω και µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές Μετά πατάµε Continue και ΟΚ. Παίρνουµε ένα πίνακα, ο οποίος περιέχει τον έλεγχο κανονικότητας Kolmogorov- Smirnov αλλά και τον έλεγχο Shapiro-Wilks. 36

37 Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Standardized Residual, ,000, ,000 a. Lilliefors Significance Correction Η µηδενική υπόθεση απορρίπτεται και από τους δύο ελέγχους αφού p- value=0.000<0.05. Άρα παραβιάζεται η υπόθεση της κανονικότητας. Οµοσκεδαστικότητα, δηλαδή έχουµε ίσες διακυµάνσεις, αυτό το ελέγχουµε κάνοντας διάγραµµα των καταλοίπων έναντι της επεξηγηµατικής Με χρήση SPSS: Πηγαίνουµε στο µενού του SPSS: Graphs> Scatter> Simple Και βάζουµε τα δεδοµένα ως εξής: 37

38 και πατάµε ΟΚ. 35,00 Ηλικία 30,00 25,00-1, , , , , , , ,00000 Standardized Residual Από το διάγραµµα καταλαβαίνουµε ότι έχουµε πρόβληµα ετεροσκεδαστικότητας, αφού υπάρχει κάποιο pattern (γραµµικό). Άρα παραβιάζεται η υπόθεση της Οµοσκεδαστικότητας. Ανεξαρτησία καταλοίπων, θα κάνουµε ένα διάγραµµα µεταξύ προβλεπόµενες τιµές και τα κατάλοιπα ή θα υπολογίσουµε την ανεξαρτησία των καταλοίπων µε την βοήθεια του Durbin-Watson µέτρο. Για τιµές πολύ κοντά στο 2 σηµαίνει ότι υπάρχει ανεξαρτησία, ενώ τιµές που αποκλίνουν αρκετά από το 2 η ανεξαρτησία δεν ισχύει. Με χρήση SPSS: Πρώτα από όλα θα πρέπει να παράγουµε τις προβλεπόµενες τιµές. Θα κάνουµε την ίδια διαδικασία µε την οποία εξάγαµε τα Residuals. Πηγαίνουµε στο µενού του SPSS και πατάµε: Analyze> Regression> Linear Και τοποθετούµε τις µεταβλητές ανάλογα στα κουτάκια, όπως παρακάτω: 38

39 Μετά πηγαίνουµε στο µενού Save και πατάµε την επιλογή 39

40 και µετά κάνουµε ένα διάγραµµα σηµείων µε τις προβλεπόµενες τιµές στον άξονα των Υ και τα Residuals στον άξονα των Χ. Graphs> Scatter> Simple Μετά πατάµε ΟΚ. Από το διάγραµµα καταλαβαίνουµε ότι υπάρχει κάποιο pattern στα δεδοµένα µας. Εποµένως παραβιάζεται και η ανεξαρτησία. 40

41 0, ,01000 Unstandardized Predicted Value 0, , , , , , , , , , , , , ,00000 Standardized Residual Από το παραπάνω διάγραµµα παρατηρούµε ότι παραβιάζεται η υπόθεση της γραµµικότητας, αφού δεν βλέπουµε να υπάρχει κάποια γραµµική τάση στα σηµεία. Για να υπολογίσουµε τον δείκτη Durbin-Watson: Analyze> Regression> Linear Και στο µενού Statistics επιλέγουµε το Durbin-Watson και πατάµε Continue και ύστερα ΟΚ. Βλέπουµε πως η τιµή του δείκτη Durbin-Watson δεν είναι κοντά στο 2 άρα παραβιάζεται η υπόθεση της ανεξαρτησίας καταλοίπων. Το ότι το µοντέλο µας δεν είναι καθόλου µπορούµε να το δούµε και από το πινακάκι ANOVA που βγαίνει από το Analyze> Regression> Linear 41

42 και µετά ΟΚ. Στο πινακάκι ANOVA βλέπουµε ότι το P-value του ελέγχου είναι µεγάλο (0.169>0.05) άρα η µηδενική υπόθεση δεν απορρίπτεται, εποµένως το µοντέλο µας δεν προσαρµόζεται καλά στα δεδοµένα µας. Model 1 Regression Residual Total a. Predictors: (Constant), Ηλικία ANOVA b Sum of Squares df Mean Square F Sig.,000 1,000 1,915,169 a, ,000, b. Dependent Variable: Πόντοι ανα λεπτό Αν είχαµε πολλαπλή παλινδρόµηση θα προσπαθούσαµε να κάνουµε ένα µετασχηµατισµό έτσι ώστε πλέον να µην έχουµε γραµµικό µοντέλο, αλλά κάποιου είδους άλλο µοντέλο (µη γραµµικό) έτσι ώστε να µην χρειάζεται να ελέγξουµε καµία υπόθεση, διότι οι παραπάνω υποθέσεις αφορούν µόνο το γραµµικό υπόδειγµα (θα µιλήσουµε παρακάτω). 42

43 Εδώ στην απλή γραµµική παλινδρόµηση πάλι θα κάνουµε µετασχηµατισµό αλλά µε µια εντολή που υπάρχει στο SPSS: Analyze> Regression> Curve Estimation Και τοποθετούµε τις µεταβλητές όπως παρακάτω: και διαλέγουµε πιο µη γραµµικό µοντέλο θέλουµε να παράγουµε. Για λόγους ευκολίας θα χρησιµοποιούµε µόνο τα µοντέλα τα οποία βρίσκονται µέσα στα πλαίσια, γιατί για τα υπόλοιπα η ερµηνεία είναι δύσκολη και µερικές φορές αδύνατη. Εµείς στην ανάλυσή µας θα χρησιµοποιήσουµε το εκθετικό µοντέλο (exponential model) Η ερµηνεία αυτού µοντέλου είναι ότι καθώς το Χ µεταβάλλεται κατά µία µονάδα τότε ο λογάριθµος του Υ µεταβάλλεται κατά β, και όταν το Χ=0 τότε η τιµή του λογαρίθµου θα ισούται µε τον λογάριθµο της σταθεράς του µοντέλου. 43

44 Όµοια ερµηνεύονται και τα υπόλοιπα µοντέλα. Μόνο που στα µοντέλα Inverse και S το Χ δεν µπορεί να πάρει την τιµή µηδέν. Εµείς θα χρησιµοποιήσουµε το εκθετικό µοντέλο που δεν περιέχει την σταθερά. ΠΡΟΣΟΧΗ: Την σταθερά θα την αφαιρούµε µόνο όταν το µοντέλο δεν µας βγαίνει στατιστικά σηµαντικό αλλιώς καλό είναι µην την βγάζουµε. Έτσι το µοντέλο µας είναι ln( Y) = bx Το πινακάκι της ANOVA µας δείχνει ότι το p-value είναι 0.000<0.05 εποµένως απορρίπτεται η µηδενική υπόθεση, άρα το µοντέλο µας προσαρµόζεται καλά στα δεδοµένα µας. Regression Residual Total ANOVA a Sum of Squares df Mean Square F Sig. 1750, , ,069,000 24,660 68, , The independent variable is Ηλικία Αθλητών που αξίζουν για µεταγραφή. a. The equation was estimated without the constant term. Model Summary a Adjusted Std. Error of R R Square R Square the Estimate,989,977,977,756 The independent variable is Ηλικία. a. The equation was estimated without the constant term. Επιπλέον βλέπουµε ότι από το µοντέλο εξηγείται το 97,7% (πολύ καλό ποσοστό) της συνολικής διακύµανσης. Η ερµηνεία του µοντέλου µας είναι ότι όσο αυξάνεται η ηλικία κατά µία µονάδα, ο λογάριθµος των πόντων ανά λεπτό θα µεταβάλλεται κατά β. 44

45 3.5 ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ Η πολλαπλή παλινδρόµηση αποτελεί µια γενίκευση της απλής γραµµικής παλινδρόµησης. Το µοντέλο της είναι: y = β0 + β1x1+ β2x βnxn + ε ή y = β + β x + ε 0 n i= 1 i i Όπως και στην απλή γραµµική παλινδρόµηση έτσι και εδώ πρέπει να ισχύουν οι ίδιες υποθέσεις: τα κατάλοιπα πρέπει να ακολουθούν κανονική κατανοµή µε µέσο 0 και γνωστή διακύµανση γνωστή, να υπάρχει ισότητα διακυµάνσεων (Οµοσκεδαστικότητα), ανεξαρτησία καταλοίπων και επιπλέον θα πρέπει να προσέξουµε ώστε να µην υπάρχει πολυσυγγραµµικότητα, δηλαδή να µην υπάρχει γραµµική συσχέτιση µεταξύ των επεξηγηµατικών. Αυτό µπορούµε να το ελέγξουµε µε ένα δείκτη που ονοµάζεται VIF και ισούται µε 1 R 2 1 i, όπου R i 2 είναι το ποσοστό της µεταβλητότητας που ερµηνεύει το µοντέλο και i ο αριθµός των µεταβλητών που χρησιµοποιήσαµε στις παλινδροµήσεις των µοντέλων που έχουµε Σε αυτή την περίπτωση υπάρχουν 2 τρόποι για να µπορέσουµε να αντιµετωπίσουµε την πολυσυγγραµµικότητα. Να κάνουµε πίνακα συσχετίσεων µε τις επεξηγηµατικές για να δούµε ποιες µεταβλητές έχουν µεγάλο συντελεστή συσχέτισης. Ο συντελεστής συσχέτισης, όπως ειπώθηκε παραπάνω, παίρνει τιµές από -1 έως 1, οπότε τιµές κοντά στο -1 και στο 1 υποδεικνύουν µεγάλη συσχέτιση. Όταν ανιχνευτεί ζεύγος επεξηγηµατικών µεταβλητών µε µεγάλο συντελεστή συσχέτισης, τότε αφαιρούµε την µια από αυτές αφού στην ουσία δίνουν την ίδια πληροφορία στον µοντέλο. Ένας πιο απτός τρόπος, από τον παραπάνω είναι να κάνουµε έναν πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) µε όλες τις επεξηγηµατικές. Αν στα διαγράµµατα φαίνεται να είναι υπάρχει κάποια γραµµική τάση σε κάποιο ζεύγος από τις επεξηγηµατικές τότε αφαιρούµε την µία από αυτές. Με χρήση SPSS: Για τον πίνακα συσχέτισης: 45

46 Analyze> Correlate> Bivariate Βάζουµε τις επεξηγηµατικές που έχουµε χρησιµοποιήσει στο πολλαπλό γραµµικό µοντέλο που έχουµε δηµιουργήσει και έχουµε εντοπίσει πιθανή ύπαρξη πολυσυγγραµµικότητας (µε το µέτρο VIF που αποτελεί επιλογή στο Analyze> Regression> Linear στο µενού Statistics επιλέγουµε Colinearity diagnosis): Και µετά πατάµε ΟΚ. Το αποτέλεσµα είναι 46

47 Στον πίνακα των συσχετίσεων παραπάνω βλέπουµε ότι υπάρχουν κάποιες µεταβλητές οι οποίες συσχετίζονται µεταξύ τους. Βλέπουµε όµως η µεταβλητή που σχετίζεται µε αρκετές µεταβλητές είναι η Assist ανά αγώνα. Οπότε ίσως αφαιρούσαµε αυτή την µεταβλητή από το υπόδειγµα µας. Για να έχουµε και µια οπτική επαφή καλό θα ήταν να κάνουνε και ένα πίνακα διαγραµµάτων σηµείων: Graph> Scatter> Matrix 47

48 Βλέπουµε ότι όντως η µεταβλητή Assist ανά αγώνα συσχετίζεται γραµµικά µε τις µεταβλητές Rebound ανά αγώνα και το Ύψος των παιχτών. Ίσως θα µπορούσαµε να την αφορούσαµε. ΠΡΟΣΟΧΗ: Όταν έχουµε πολλές µεταβλητές το Matrix Scatter Plot δεν θα µπορέσει να το εξάγει το SPSS λόγω έλλειψης µνήµης. Ένας δεύτερος τρόπος είναι χρησιµοποιήσουµε την µέθοδο της κεντροποίησης, δηλαδή να αφαιρέσουµε τον µέσο των παρατηρήσεων κάθε µεταβλητής από κάθε παρατήρησή της. Για παράδειγµα, έστω ότι θέλουµε να κεντροποιήσουµε την µεταβλητή Assist ανά αγώνα. Θα βρούµε τον µέσο αυτής της µεταβλητής µέσω των περιγραφικών µέτρων που περιγράψαµε στην ενότητα 3.2 και µετά από κάθε παρατήρηση της µεταβλητής Assist ανά αγώνα θα αφαιρέσουµε τον µέσο. Με χρήση SPSS: Transform> Compute 48

49 Αφού βρήκαµε τον µέσο της µεταβλητής Assist ανά αγώνα (4.0133) θα γράψουµε τον τύπο της αφαίρεσης στο κουτάκι Numeric Expression όπως παραπάνω και θα γράψουµε την ονοµασία της κετροποιηµένης πλέον µεταβλητής στο κουτάκι Target Variable. Προσοχή στο κουτάκι Target Variable δεν µπορούµε να χρησιµοποιήσουµε κενό ούτε παύλα, µόνο κάτω παύλα (_) και τελεία, και στο κουτάκι Numeric Expression όταν έχουµε δεκαδικό, όπως ο µέσος παραπάνω δεν θα χρησιµοποιήσουµε το κόµµα για το διαχωρισµό των δεκαδικών στοιχείων, δηλαδή όχι 4,0133 αλλά Μετά πατάµε ΟΚ και ξανατρέχουµε την πολλαπλή παλινδρόµηση αλλά πλέον µε τις κετροποιηµένες (πρώην γραµµικά συσχετισµένες) µεταβλητές. Στην περίπτωση που τα δεδοµένα µας αποτελούν χρονοσειρές µια επιπλέον µέτρο που θα πρέπει να εξετάσουµε είναι η ύπαρξη Αυτοσυσχέτιση των Καταλοίπων. Εµείς επιθυµούµε να µην υπάρχει Αυτοσυσχέτιση στα κατάλοιπα. Ο έλεγχος είναι της µορφής: 49

50 H : τα κατάλοιπα δεν είναι αυτοσυσχετισµ ένα 0 H : τα κατ άλοιπα είναι αυτοσυσχετισµ ένα 1 Η στατιστική συνάρτηση που χρησιµοποιείται κάτω από την µηδενική υπόθεση είναι το Box-Ljung Statistic. Θέλουµε p-value>0.05 επιπέδου σηµαντικότ6ητας που έχουµε ορίσει. Με χρήση SPSS: Το πρώτο πράγµα που θα κάνουµε είναι να βρούµε τα κατάλοιπα: Analyze> Regression> Linear Θα χρησιµοποιήσουµε ως εξαρτηµένη τις µηνιαίες αποδόσεις κάποιων µετοχών, ενώ ως ανεξάρτητες κάποιους χρηµατιστηριακούς δείκτες των µετοχών αυτών. Επιπλέον θα χρησιµοποιήσουµε µια Stepwise διαδικασία (για την οποία θα µιλήσουµε παρακάτω εκτενέστερα) για να κρατήσουµε στο µοντέλο µόνο εκείνες τις µεταβλητές που είναι στατιστικά σηµαντικές για την ανάλυσή µας. 50

51 Το επόµενο βήµα θα είναι: Graph> Time Series> Autocorrelations 51

52 Το αποτέλεσµα θα είναι το παρακάτω πινακάκι µε το διάγραµµα: Series: Standardized Residual Lag Autocorrelations Autocorrel Box-Ljung Statistic ation Std.Error a Value df Sig. b,350,097 13,078 1,000,107,096 14,316 2,001 -,108,096 15,580 3,001,024,095 15,646 4,004,183,095 19,376 5,002,178,094 22,932 6,001,046,094 23,176 7,002 -,044,093 23,399 8,003 -,081,093 24,160 9,004,025,092 24,236 10,007,113,092 25,761 11,007,156,091 28,692 12,004,065,091 29,204 13,006,052,090 29,541 14,009 -,057,090 29,940 15,012 -,067,089 30,496 16,016 a. The underlying process assumed is independence (white noise). b. Based on the asymptotic chi-square approximation. Βλέπουµε πως όλα τα p-value είναι µικρότερα από το 0.05 επίπεδο σηµαντικότητας που ορίσαµε, εποµένως φαίνεται να υπάρχει πρόβληµα Αυτοσυσχέτισης Κ Καταλοίπων. Το διάγραµµα παρακάτω φαίνεται να συµφωνεί για το πρώτο lag που φαίνεται να είναι εκτός των ορίων του διαστήµατος εµπιστοσύνης. 52

53 Αυτό που θα κάνουµε για να διορθώσουµε το πρόβληµα είναι προσθέσουµε µια χρονική υστέρηση (την πρώτη χρονική υστέρηση, δηλαδή RETURN-1) της εξαρτηµένης. Αφού ξανά παράγουµε τα κατάλοιπα όπως είπαµε παραπάνω και µετά κάνουµε τον έλεγχο Αυτοσυσχέτισης Καταλοίπων θα έχουµε τα παρακάτω αποτελέσµατα: 53

54 Series: Standardized Residual Lag Autocorrelations Autocorrel Box-Ljung Statistic ation Std.Error a Value df Sig. b,178,097 3,386 1,066,060,096 3,771 2,152,033,096 3,892 3,273 -,006,095 3,896 4,420 -,044,095 4,107 5,534 -,029,094 4,199 6,650,008,094 4,206 7,756 -,106,093 5,502 8,703,046,093 5,747 9,765 -,054,092 6,093 10,807,026,092 6,170 11,862 -,002,091 6,171 12,907 -,020,091 6,218 13,938,086,090 7,132 14,929 -,020,090 7,183 15,952 -,075,089 7,887 16,952 a. The underlying process assumed is independence (white noise). b. Based on the asymptotic chi-square approximation. Παρατηρούµε ότι όλα πλέον τα P-value είναι µεγαλύτερα από το Εποµένως δεν υπάρχει πρόβληµα Αυτοσυσχέτισης καταλοίπων πλέον. Και το διάγραµµα παρακάτω φαίνεται να συµφωνεί, αφού όλα τα Lags φαίνεται να είναι εντός των ορίων του διαστήµατος εµπιστοσύνης. 54

55 Σε περίπτωση τώρα που δεν ισχύουν οι υποθέσεις του πολλαπλού γραµµικού υποδείγµατος θα χρησιµοποιήσουµε κάποιου είδους µετασχηµατισµό. Επιπλέον, αφού διορθώσουµε τις υποθέσεις του µοντέλου, σε περίπτωση που δεν πληρούνται, το πρώτο πράγµα που θα κάνουµε είναι να δούµε κάποιες µεταβλητές δεν είναι στατιστικά σηµαντικές. Αυτό θα το καταλάβουµε βλέποντας τα p-value στο πινακάκι Coefficients που εξάγεται από το µενού Analyze> Regression> Linear για την γραµµική παλινδρόµηση. Αν τα p-value για κάθε µεταβλητή είναι µικρότερα από 0.05 δηλαδή το 5% επίπεδο σηµαντικότητας που έχουµε ορίσει τότε οι µεταβλητές είναι στατιστικά σηµαντικές. Στην περίπτωση που p-value>0.05 τότε οι µεταβλητές κρίνονται ακατάλληλες για το µοντέλο µας, οπότε εφαρµόζουµε µια µέθοδο επιλογής κατάλληλων µεταβλητών για το µοντέλο µας. Αυτές οι µέθοδοι είναι οι Backward, Forward και Stepwise. Στη Backward όλες οι µεταβλητές που διαθέτουµε που περιέχονται ήδη στην εξίσωση αξιολογούνται σύµφωνα µε τα κριτήρια επιλογής για απαλοιφή (π.χ. ένα κριτήριο είναι 55

56 η µεγιστοποίηση της πιθανοφάνειας). Εκείνες που είναι ακατάλληλες απαλείφονται µία-µία µέχρι να µην υπάρχει άλλη ακατάλληλη. Στη Forward όλες οι µεταβλητές που διαθέτουµε που δεν περιέχονται στην εξίσωση αξιολογούνται σύµφωνα µα τα κριτήρια επιλογής για προσθήκη (π.χ. η µεγιστοποίηση πιθανοφάνειας). Εκείνες που είναι κατάλληλες προστίθενται µία-µία µέχρι να µην υπάρχει άλλη κατάλληλη. Στη Stepwise, η οποία είναι και η πιο αξιόπιστη, η επιλογή των µεταβλητών στον σετ των µεταβλητών που διαθέτουµε προχωράει κατά βήµατα. Σε κάθε βήµα αξιολογούνται οι µεταβλητές που περιλαµβάνονται ήδη στην εξίσωση σύµφωνα µε τα κριτήρια επιλογής για απαλοιφή. Στην συνέχεια, οι µεταβλητές που δεν περιλαµβάνονται στην εξίσωση αξιολογούνται για προσθήκη. Αυτή η διαδικασία επαναλαµβάνεται µέχρι να µην είναι κατάλληλη για προσθήκη ή απαλοιφή καµία µεταβλητή του σετ. Με χρήση SPSS: Analyze> Regression> Linear 56

57 Αν τρέξουµε όµως την παλινδρόµηση (µε την µέθοδο Stepwise εφόσον κάποιες από τις µεταβλητές είχαν µεγάλο P-value στο πίνακα των Coefficients οπότε δεν είναι κατάλληλες για το µοντέλο µας) και ελέγξουµε τις υποθέσεις του µοντέλου (Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία, Πολυσυγγραµµικότητα και Γραµµικότητα) θα δούµε ότι παραβιάζονται οι υποθέσεις της κανονικότητας (και δύο έλεγχοι Kolmogorov-Smirnov και Shapiro-Wilks δίνουν p-value 0.000<0.05 οπότε απορρίπτεται η µηδενική υπόθεση που υποστηρίζει ότι τα κατάλοιπα του µοντέλου ακολουθούν κανονική κατανοµή) και της Οµοσκεδαστικότητας (αφού τα διαγράµµατα σηµείων των καταλοίπων έναντι των επεξηγηµατικών φαίνεται να έχουν κάποιο pattern και να µην είναι τυχαία, ένα σύννεφο σηµείων). Αυτό που µπορούµε να κάνουµε για να διορθώσουµε τις δύο υποθέσεις που µας προβληµατίζουν είναι να χρησιµοποιήσουµε κάποιους µετασχηµατισµούς είτε στην εξαρτηµένη, είτε στις επεξηγηµατικές, είτε και στα δύο είδη µεταβλητών. Μετά από δοκιµές στον υπό µελέτη µοντέλο µας βρήκαµε ότι το καλύτερο είναι να µετασχηµατίσουµε και την εξαρτηµένη αλλά και κάποιες από τις επεξηγηµατικές. Σαν µετασχηµατισµό εδώ χρησιµοποιήσαµε τον λογάριθµο. Εποµένως πλέον η εξαρτηµένη µας είναι ο λογάριθµος των Πόντων ανά λεπτό των παιχτών και οι επεξηγηµατικές που µετασχηµατίσαµε παίρνοντας τον λογάριθµό τους είναι Rebound ανά λεπτό και Assist ανά λεπτό. Toν µετασχηµατισµό στο SPSS µπορούµε να το κάνουµε µε το µενού: Transform> Compute Και κάνουµε τα εξής: 57

58 Θα προσέξουµε οπωσδήποτε να βάλουµε την ονοµασία της νέας µετασχηµατισµένη µεταβλητής στο κουτάκι Target Variable, µετά θα επιλέξουµε την µεταβλητή που θέλουµε να µετασχηµατίσουµε, εδώ τους Πόντους ανά λεπτό των παιχτών µετά θα πάµε στο κουτάκι Function group και θα επιλέξουµε All και µετά στο ακριβώς στο από κάτω κουτάκι θα ψάξουµε να βρούµε την συνάρτηση του λογαρίθµου Ln. Και µετά πατάµε ΟΚ και στην τελευταία στήλη του dataset µας θα έχει δηµιουργηθεί η νέα µετασχηµατισµένη µεταβλητή. Το ίδιο θα κάνουµε και για τις επεξηγηµατικές µεταβλητές που θέλουµε να µετασχηµατίσουµε. Τρέχοντας την παλινδρόµηση θα δούµε ότι κάποιες από τις µεταβλητές δεν φαίνεται να είναι στατιστικά σηµαντικές. 58

59 Εποµένως θα χρησιµοποιήσουµε την µέθοδο Stepwise 59

60 Από το νέο πινακάκι των Coefficients παρατηρούµε ότι οι µόνες µεταβλητές που φαίνεται να είναι στατιστικά σηµαντικές για το µοντέλο είναι logrebound, %ποσοστό καλαθιών εντός περιοχής, %ευστοχία ελευθέρων βολών. Βέβαια από τον έλεγχο υπάρχει µια αµφιβολία για την σηµαντικότητα της σταθεράς στο µοντέλο, επειδή όµως η σταθερά του µοντέλου είναι πολύ χρήσιµη στην εκτίµηση του µοντέλου αλλά και στην εξαγωγή συµπερασµάτων, την σταθερά θα την αφαιρούµε µόνο όταν είναι αναγκαστικό. Και επιπλέον από το πίνακα της ANOVA φαίνεται πως το µοντέλο µας είναι στατιστικά σηµαντικό αφού p-value=0.000<0.05 εποµένως η µηδενική υπόθεση απορρίπτεται που θέλει H0 : β1 = β2 =... = β n = 0. 60

61 Αν ξανά ελέγξουµε της υποθέσεις του γραµµικού µοντέλου µε τον τρόπο που έχουµε αναφέρει πιο πάνω, θα έχουµε: Κανονικότητα Τα p-value είναι µεγάλα (>0,05) εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι τα κατάλοιπα ακολουθούν κανονική κατανοµή. Αυτό µπορούµε να το δούµε και από το ιστόγραµµα: 61

62 Histogram Frequency , ,00000 Standardized Residual 2,00000 Mean = 9,322404E-15 Std. Dev. = 0, N = 105 Οµοσκεδαστικότητα: Όπως είπαµε θα κάνουµε ένα πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) των καταλοίπων µε τις επεξηγηµατικές που είναι στατιστικά σηµαντικές για το µοντέλο µας. Graph> Scatter> Matrix 62

63 Και το αποτέλεσµα που θα πάρουµε είναι 63

64 Εµάς µας ενδιαφέρει να δούµε µόνο την γραµµή που αφορά τα Standardized Residuals σε σχέση µε τις επεξηγηµατικές µεταβλητές. Από τα διαγράµµατα παραπάνω παρατηρούµε ότι τα σηµεία είναι τυχαιοποιηµένα, δηλαδή σύννεφο (δεν είναι τόσο καθαρό αλλά δεν φαίνεται να έχουµε κάποιο πρόβληµα). Γραµµικότητα Για τον έλεγχο της γραµµικότητας, όπως ειπώθηκε παραπάνω αυτό που µπορούµε να κάνουµε είναι ένα διάγραµµα των προβλεπόµενων τιµών έναντι των καταλοίπων. Analyze> Regression> Linear και κάνουµε τις εξής επιλογές 64

65 Πατάµε Continue και µετά OK. Το αποτέλεσµα θα είναι το διάγραµµα σηµείων παρακάτω: Scatterplot Dependent Variable: Pontoi_log 5 Regression Standardized Predicted Value Regression Standardized Residual 4 65

66 Αναµένεται 0.05*105 παρατηρήσεις εκτός του [-2,2], δηλαδή το πολύ 5 παρατηρήσεις έξω από τον διάστηµα παραπάνω. Εδώ βλέπουµε 2 σηµεία έξω από ο διάστηµα οπότε είµαστε καλά και δεν παραβιάζεται η υπόθεση της γραµµικότητας. Ανεξαρτησία Θα κάνουµε την διαδικασία που είπαµε στην αρχή του κεφαλαίου, ώστε να εξάγουµε τον δείκτη Durbin-Watson. Αν κάνουµε την διαδικασία θα έχουµε: Βλέπουµε ότι η τιµή είναι κοντά στο 2 οπότε δεν έχουµε πρόβληµα ανεξαρτησίας καταλοίπων. Επιπλέον από αυτό το πινακάκι βλέπουµε ότι από το µοντέλο εξηγείται το 72,4% της συνολική διακύµανσης. (αρκετά καλό ποσοστό). Πολυσυγγραµµικότητα Όπως και στην αρχή της ενότητας, το µέτρο µου χρησιµοποιούµε για να ελέγξουµε αν υπάρχει πολυσυγγραµµικότητα είναι το VIF. Για τιµές µεγαλύτερες από 10 έχουµε σοβαρό πρόβληµα πολυσυγγραµµικότητας. Κάνοντας την διαδικασία που αναφέραµε στην αρχή της ενότητας για την πολλαπλή παλινδρόµηση, θα έχουµε 66

67 Βλέπουµε ότι καµία από τις µεταβλητές δεν φαίνεται να έχει VIF πάνω από 10 οπότε όλα καλά και δεν υπάρχει πολυσυγγραµµικότητα. Οπότε όλες οι υποθέσεις µας διορθώθηκαν. Εποµένως όλες οι εκτιµήσεις µας είναι συνεπείς πλέον, άρα και σωστές. 67

68 3.5 ΑΝΑΛΥΣΗ ΙΑΚΥΜΑΝΣΗΣ (ANOVA) ΑΝΑΛΥΣΗ ΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΠΑΡΑΓΟΝΤΑ Η ανάλυση διακύµανσης στηρίζεται στον έλεγχο: H : µ = µ =... = µ H : µ µ Όπου µ i είναι ο µέσος του i επιπέδου. i Αν χρησιµοποιήσουµε έλεγχο υποθέσεων ανά δύο, δηλαδή µ i µ j τότε ξέρουµε ότι κάθε έλεγχος υπόθεσης έχει επίπεδο σηµαντικότητας α. Άρα επειδή αυτοί οι έλεγχοι θα πρέπει να ισχύουν ταυτόχρονα τότε το επίπεδο σηµαντικότητας αυξάνεται (είναι δηλαδή (1-α)(1-α) (1-α)). Για αυτό το λόγο χρησιµοποιείται η ανάλυση διακύµανσης. Ένα µοντέλο που περιγράφει καλά τα δεδοµένα µας είναι: Όπου, y ij = µ + τi + εij τ i : το πόσο επιδρά το επίπεδο i στο µοντέλο όπου i=1,2,..,α. Για τις επιδράσεις των j n επιπέδων ισχύει a i= 1 τ = 0 i µ : σταθερό ε ij : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν 2 N(0, σ ) Έτσι προχωράµε στον έλεγχο: H : τ = τ =... = τ H : τ 0για τουλ άχιστον ένα i i Οι βαθµοί ελευθερία είναι: ιασπορά ανάµεσα (between) στα επίπεδα: α-1 ιασπορά µέσα (within) στα επίπεδα: α(n-1)=an-a=n-a Οι συνολικοί βαθµοί ελευθερίας είναι αn-1=n-1 a 68

69 H ελεγχοσυνάρτηση F 0 του παραπάνω ελέγχου ακολουθεί την κατανοµή F α, a 1, N a Αν F 0 είναι µεγάλος αριθµός τότε τα τ i διαφέρουν στατιστικά σηµαντικά µεταξύ τους. Αν F 0 είναι µικρός αριθµός τότε τα τ i δεν διαφέρουν στατιστικά σηµαντικά µεταξύ τους. Αυτό που αξίζει να αναφέρουµε εδώ είναι ο καλύτερος εκτιµητής, ο οποίος είναι και αµερόληπτος, της διακύµανσης είναι το MSError και ότι οι εκτιµήσεις των παραµέτρων του µοντέλου γίνονται µε την µέθοδο των ελαχίστων τετραγώνων. Οι έλεγχοι των υποθέσεων που περιγράφτηκαν στις ενότητας της απλής και πολλαπλής παλινδρόµησης (Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία) περιστρέφονται γύρω από τα κατάλοιπα. Η παραβίαση αυτών των υποθέσεων καθώς και η καταλληλότητα του µοντέλου παραπάνω µπορούν ανιχνευθούν από την µελέτη των καταλοίπων. e = y yˆ ij ij ij Για τον έλεγχο της κανονικότητας των e ij µπορούν να γίνουν διάφοροι έλεγχοι (P-P plot ή ιστόγραµµα). Εάν υπάρχουν ακραίες τιµές (outliers) οι οποίες επηρεάζουν την κανονικότητα των καταλοίπων, τότε κάνουµε έλεγχο για να διαπιστώσουµε εάν όντως είναι πραγµατικές ή προήλθαν από κάποιο σφάλµα (π.χ. σφάλµα µέτρησης). Αν είναι απόρροια κάποιου σφάλµατος τότε τις αφαιρούµε, αν είναι πραγµατικές τιµές τότε κάνουµε δύο αναλύσεις των δεδοµένων µας, µια λαµβάνοντας υπόψη µας τις τιµές αυτές και µια αφαιρώντας τις. Για τον έλεγχο της ανεξαρτησίας των e ij κάνουµε ένα διάγραµµα Plot of Residuals in Time Sequence. Αν µελετώντας το διάγραµµα παρατηρήσουµε κάποια σχέση ανάµεσα στα κατάλοιπα, τότε υπάρχει πρόβληµα συσχέτισης. Για να υπάρχει πρόβληµα συσχέτισης θα πρέπει, όπως αναφέρθηκε και στην απλή παλινδρόµηση, τα σηµεία να εµφανίζονται τυχαιοποιηµένα. 69

70 Για τον έλεγχο ισότητας διακυµάνσεων των e ij χρησιµοποιούµε το Plot of Residuals vs Fitted Values. Στο διάγραµµα αυτό σε κάθε fitted value (µέσος κάθε επιπέδου) τοποθετούµε τις διακυµάνσεις του αντίστοιχου επιπέδου. Αν οι διακυµάνσεις αυτές παραµένουν σταθερές από επίπεδο σε επίπεδο τότε δεν έχουµε πρόβληµα, αν µεταβάλλονται τότε προσπαθούµε να λύσουµε το πρόβληµα µετασχηµατίζοντας τα δεδοµένα µας. Για να ελέγξουµε την ισότητα διακυµάνσεων υπάρχουν διάφορα test. Ένα τέτοιο test είναι αυτό του Barlett: H H 2 : σ = σ =... = σ α : σi σ j, i j Απορρίπτουµε την µηδενική υπόθεση σε επίπεδο σηµαντικότητας α όταν 2 2 X0 X α,a 1 >, όπου 2 X 0 η τιµή της ελεγχοσυνάρτησης. Σύγκριση ζευγαριών µέσων των διαφόρων επιπέδων Υπάρχουν αρκετοί έλεγχοι που κάνουν σύγκριση ζευγών µεσών των διαφόρων επιπέδων. Η λογική όλων αυτών των ελέγχων στηρίζεται στον έλεγχο: H 0 1 : µ = µ H : µ µ Οι έλεγχοι που ασχολούνται µε την παραπάνω υπόθεση είναι: 1. Μέθοδος LCD 2. Duncan s Multiple Range Test 3. Newman Keul s Test 4. Tukey s Test εν θα αναλύσουµε θεωρητικά αυτές τις µεθόδους εκτενέστερα. Ο έλεγχος που θεωρείται ο πιο αξιόπιστος είναι αυτός του Duncan, επειδή η διαδικασία του ελέγχου είναι αποτελεσµατική στο να βρίσκει διαφορές µεταξύ των µέσων όταν πραγµατικά υπάρχουν. i i j j 70

71 Μη παραµετρικές µέθοδοι στην ANOVA Ένα σηµαντικό ερώτηµα που προκύπτει τι µπορούµε να κάνουµε σε περίπτωση που δεν ισχύει η υπόθεση της κανονικότητας. Μια λύση σε αυτή την περίπτωση είναι η χρήση µη παραµετρικών µεθόδων. Μια τέτοια µέθοδος είναι η Kruskal-Wallis. Με την οποία ελέγχουµε ισότητα διαµέσων πλέον και όχι ισότητα µέσων. ηλαδή, Όπου δ i η διάµεσος στο i επίπεδο δ j η διάµεσος στο j επίπεδο H H : δ = δ =... = δ α : δi δ j Η ελεγχοσυνάρτηση του παραπάνω ελέγχου ακολουθεί X 2 κατανοµή µε α-1 βαθµούς ελευθερίας. Όταν Κ 0 > 2 X a, α 1, τότε απορρίπτουµε την µηδενική υπόθεση σε επίπεδο σηµαντικότητας α. Σε αυτό το σηµείο αξίζει να αναφέρουµε ότι υπάρχουν κάποιες υποπεριπτώσεις ανάλυσης διακύµανσης, όπως Ανάλυσης Συνδιακύµανσης (ANCOVA), Ανάλυση ιακύµανσης Κατά Blocks, Ανάλυσης ιακύµανσης µε Αλληλεπιδράσεις κ.α., µε τα οποία δεν θα ασχοληθούµε. Με χρήση SPSS: Θέλουµε ένα µοντέλο που να µας δίνει την δυνατότ6ητα να εξετάσουµε κατά πόσο κάθε επίπεδο ηλικίας επηρεάζει την επίδοση των αθλητών που είναι ενδιαφέρον για µεταγραφή. Χωρίζουµε την Ηλικία µε την βοήθεια των percentiles σε τέσσερα επίπεδα-κλάσεις <26, 27-28, 29-30, 31<. Αλλά καλό είναι να δηµιουργήσουµε τα ποσοστιαία σηµεία, τα οποία θα µας βοηθήσουν να δηµιουργήσουµε τις κλάσεις ηλικίας. Αυτή η µεθοδολογία είναι πολύ χρήσιµη όταν έχουµε πολλές παρατηρήσεις σε µια µεταβλητής που θέλουµε να κατηγοριοποιήσουµε. Analyze> Descriptive Statistics> Explore Και τοποθετούµε την µεταβλητή που θέλουµε να κατηγοριοποιήσουµε στο κουτάκι Dependent και µετά πηγαίνουµε στο µενού Statistics και κάνουµε τις εξής επιλογές: 71

72 Και το αποτέλεσµα θα είναι: Οπότε οι κλάσεις µας θα είναι <26, 27-28, 29-30, 31< 72

73 Ορίζοντας το πώς θα παραχθούν οι κλάσεις µας θα προχωρήσουµε στην µετατροπή της συνεχούς µεταβλητής Ηλικία. Στο παρακάτω µενού χρησιµοποιούµε την επιλογή Into Different Variables διότι αν χρησιµοποιήσουµε την επιλογή Into Same Variable θα µας σβηστεί η αρχική (συνεχής) µεταβλητή Ηλικία και θα αντικατασταθεί από την κατηγορική, κάτι που δεν θέλουµε. Έτσι, Transform> Recode> Into Different Variables Στο µεγάλο κουτάκι βάζουµε την µεταβλητή που θέλουµε να κατηγοριοποιήσουµε. Και στο Ακριβώς δίπλα κουτάκι βάζουµε την ονοµασία της µεταβλητή και µετά πατάµε Change. Μετά πηγαίνουµε στο µενού Old and New Values 73

74 Θα αρχίσουµε να δηµιουργούµε τις κλάσεις ηλικίας που αναφέραµε παραπάνω. Για την κλάση >26 θα πάµε και θα κάνουµε τις επιλογές όπως παραπάνω και µετά θα πατήσουµε την επιλογή Add. Αυτό που δείχνει η παραπάνω εικόνα έιναι ότι για την κλάση >26 στο SPSS θα δηµιουργηθεί µια νέα µεταβλητή που θα περιέχει αριθµούς από το 1 έως 4. Όπου θα εντοπίζει ένα παίχτη που είναι κάτω από 26 χρονών θα έχει την τιµή 1. Για τις υπόλοιπες κλάσεις θα κάνουµε: Εδώ λέµε ότι όταν κάποιος παίχτης βρίσκεται µεταξύ 27 µε 28 χρονών βάλε την τιµή 2. Το ίδιο κάνουµε και για την τρίτη κλάση. Για την τέταρτη και τελευταία κλάση θα κάνουµε: 74

75 Αφού φτιάξουµε όλες τις κλάσεις πατάµε Continue και µετά ΟΚ. Μετά από αυτή τη διαδικασία εύλογο θα ήταν να κάνουµε ένα πίνακα συχνοτήτων και ένα pie-chart ή ένα bar-chart. Μετά θα πάµε στο µενού Charts και θα κάνουµε την εξής επιλογή Πατάµε Continue και µετά ΟΚ. Τα αποτέλεσµα θα είναι: Ηλικία(Κατηγοριοποιηµένη) Valid Total Cumulative Frequency Percent Valid Percent Percent 35 33,3 33,3 33, ,0 21,0 54, ,8 24,8 79, ,0 21,0 100, ,0 100,0 75

76 Στην πρώτη στήλη βλέπουµε τις συχνότητες στην πρώτη κατηγορία <26 ανήκουν 35 παίχτες του ΝΒΑ, στην δεύτερη κατηγορία που αντιστοιχεί στο διάστηµα ηλικίας ανήκουν 22 παίχτες κ.ο.κ. Τις συχνότητες θα µπορούσαµε να τις δούµε καλύτερα µε ένα διάγραµµα (Pie-chart ή Bar-Chart). Εδώ επιλέξαµε να κάνουµε ένα διάγραµµα πίτας (Pie-chart): Ηλικία(Κατηγοριοποιηµένη) εδοµένου των παραπάνω το µοντέλο µας θα είναι: y ij = µ + τ i + ε ij, i=1,,4 Όπου µ: ο συνολικός µέσος του µοντέλου a i= 1 τ τ i : το πόσο επιδρά το i-επίπεδο της ηλικίας στο µοντέλο( ισχύει πάντα i = 0 ) ε ij : τα σφάλµατα τα οποία είναι ανεξάρτητα και ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και διακύµανση σ 2 σταθερή αλλά άγνωστη. Για να µπορέσουµε όµως να συνεχίσουµε στην ανάλυση θα πρέπει πρώτα να ελέγξουµε αν ισχύουν οι προϋποθέσεις του µοντέλου οι οποίες όπως έχουµε ξανά αναφέρει είναι: Τα κατάλοιπα να είναι ανεξάρτητα, αυτό θα το ελέγξουµε κάνοντας ένα διάγραµµα σηµείων µεταξύ των µη τυποποιηµένων καταλοίπων και των µη τυποποιηµένων προβλεπόµενων τιµών. 76

77 Αυτό που πρέπει να κάνουµε είναι να υπολογίσουµε τα κατάλοιπα και τις προβλεπόµενες τιµές. Έτσι: Analyze> General Linear Model> Univariate Μετά θα πάµε στο µενού Save και θα σώσουµε τα Unstandardized Residuals και τα Unstandardized. 77

78 και µετά κάνουµε ένα διάγραµµα των Unstandardized Residuals έναντι των Unstandardized Predicted. Graph> Scatter> Simple Και πατάµε ΟΚ. Από το διάγραµµα δεν φαίνεται να έχουµε πρόβληµα µε την ανεξαρτησία, µιας και φαίνεται τα σηµεία να είναι τυχαιοποιηµένα. 0,06 0,05 Residual for ΠόντοιΛεπτα 0,04 0,03 0,02 0,01 0,00-0,01 0,007 0,008 0,009 0,01 0,011 Predicted Value for ΠόντοιΛεπτα 78

79 εν φαίνεται να υπάρχει κοινή διάταξη των σηµείων καθενός επιπέδου σε σχέση µε κάποια από τα άλλα τρία. Οµοσκεδαστικότητα των καταλοίπων κατά επίπεδο. Θα κάνουµε ένα Levene test για την ισότητα των διακυµάνσεων των καταλοίπων. Analyze> Descriptive Statistics> Explore Θα βάλουµε τα Residuals στο κουτάκι που λέγεται Dependent List και την κατηγοριοποιηµένη µεταβλητή Ηλικία στο κουτάκι Factor List: µετά πηγαίνουµε στο µενού Plots και κάνουµε τις εξής επιλογές: Πατάµε Continue και µετά ΟΚ. 79

80 Το πινακάκι που παράγεται είναι το παραπάνω και µας ενδιαφέρει η πρώτη γραµµή. Από το p-value(=0.124>0.05) δεν απορρίπτουµε την µηδενική υπόθεση που αντιπροσωπεύει την ισότητα διακυµάνσεων. Εποµένως έχουµε οµοσκεδαστικότητα. Τα κατάλοιπα να ακολουθούν κανονική κατανοµή µε µέση τιµή 0 και διακύµανση σ 2 σταθερή αλλά άγνωστη Θα κάνουµε ακριβώς την ίδια διαδικασία όπως και στον έλεγχο Οµοσκεδαστικότητας µόνο που στο κουτί του Factor List δεν θα υπάρχει η κατηγοριοποιηµένη Ηλικία και στο µενού Plots θα έχουµε κάνει τις εξής επιλογές: Και το αποτέλεσµα θα είναι: Παρατηρούµε ότι και οι δύο έλεγχοι απορρίπτουν την υπόθεση της κανονικότητας. Εποµένως αυτό που µπορούµε να κάνουµε είναι να εφαρµόσουµε µία µη παραµετρική ανάλυση. Όπως αναφέρθηκε παραπάνω µια καλή λύση είναι να χρησιµοποιήσουµε την 80

81 ανάλυση Kruskal-Wallis, η οποία κάνει έλεγχο ισότητας διαµέσων και όχι ισότητας µέσων. Analyze> Nonparametric Tests> K Independent samples. Και θα κάνουµε τις εξής επιλογές: Στο µενού Define Range θα δηλώσουµε το πόσα επίπεδα έχει η κατηγορική µεταβλητή Ηλικία. Εφόσον έχουµε 4 επίπεδα θα βάλουµε: Πατάµε Continue και OK. To το αποτέλεσµα θα είναι το πινακάκι 81

82 Σύµφωνα µε το οποίο οι διάµεσοι δεν φαίνεται να διαφέρουν (αφού p- value=0.473>0.05 άρα δεν απορρίπτεται η µηδενική υπόθεση). Τώρα σε περίπτωση που δεν είχαµε το πρόβληµα παραβίασης της υπόθεσης της κανονικότητας θα αναφέρουµε τι θα κάναµε. Στο µενού SPSS: Analyze> General Linear Model> Univariate Μετά θα πάµε στο µενού Option και θα κάνουµε τις εξής επιλογές: 82

83 Πατάµε Continue. Μετά πηγαίνουµε στο µενού Post-Hoc για να συγκρίνουµε ζεύγη µέσων των διαφόρων επιπέδων την κατηγοριοποιηµένης µεταβλητής Ηλικίας. Θα πάµε στο κουτί Factors και θα επιλέξουµε την κατηγορική µας Ηλικία και µετά θα πατήσουµε το βελάκι για να περάσει η µεταβλητή στο απέναντι κουτάκι Τέλος, θα κάνουµε τις επιλογές παραπάνω, θα πατήσουµε Continue και µετά ΟΚ. 83

84 Τα αποτελέσµατα που θα πάρουµε είναι τα εξής: Το p-value µας είναι γνώριµο µιας και αυτό το πινακάκι είναι ακριβώς το ίδιο µε αυτό που εξάγαµε στο έλεγχο υπόθεσης για ισότητα διακυµάνσεων (Οµοσκεδαστικότητα) Σε αυτό το πινακάκι βλέπουµε κατά πόσο το µοντέλο µας είναι κατάλληλο για την ανάλυση που θέλουµε να κάνουµε. Εδώ βλέπουµε ότι οι µέσοι κάθε επιπέδου της κατηγορικής µεταβλητής φαίνεται να είναι ίσοι. Parameter Estimates Dependent Variable: Πόντοι ανα λεπτό Parameter Intercept [ΗλικίαΚατηγορίες=1] [ΗλικίαΚατηγορίες=2] [ΗλικίαΚατηγορίες=3] [ΗλικίαΚατηγορίες=4] 95% Confidence Interval Partial Eta B Std. Error t Sig. Lower Bound Upper Bound Squared,007,002 3,267,001,003,011,096,003,003 1,269,207 -,002,009,016,002,003,752,454 -,004,008,006,000,003 -,051,960 -,006,006,000 a. This parameter is set to zero because it is redundant. 0 a Σε αυτό το πινακάκι βλέπουµε από την στήλη των B ότι αν µετακινηθούµε από το επίπεδο 3 (ΗλικίαΚατηγορίες=3) στο επίπεδο 1 (ΗλικίεςΚατηγορίες=1) ο µέσος θα µεταβληθεί κατά Αν µετακινηθούµε από το επίπεδο 3 (ΗλικίαΚατηγορίες=3) στο επίπεδο 2 (ΗλικίεςΚατηγορίες=2) ο µέσος θα µεταβληθεί κατά Αν όµως κοιτάξουµε τα p-value των επιπέδων θα δούµε ότι είναι αρκετά µεγάλα (>0.05), δηλαδή δεν φαίνονται να είναι στατιστικά σηµαντικά τα επίπεδα της κατηγορικής 84

85 Ηλικία. Μην ξεχνάµε όµως ότι εµείς υποθέσαµε ότι ισχύει η κανονικότητα ενώ στην ουσία δεν ισχύει. Εποµένως δικαιολογηµένα συµβαίνει αυτό. Στο πινακάκι παραπάνω γίνεται η σύγκριση ζευγών µέσων των διαφόρων επιπέδων της Κατηγορικής Ηλικίας. Βλέπουµε ότι τα p-value είναι µεγάλα εποµένως οι µέσοι κάθε ζεύγους φαίνεται να είναι ίσοι. Για την παραµετρική µέθοδο και γνωρίζοντας ότι οι υποθέσεις που αναφέραµε στην αρχή του κεφαλαίου ισχύουν, τότε µπορούµε να χρησιµοποιήσουµε την επιλογή One- Way ANOVA στο µενού Analyze> Compare Means> One-Way ANOVA Και θα πάρουµε τα ίδια αποτελέσµατα µε τα παραπάνω. 85

86 4. ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ Ε ΟΜΕΝΩΝ 4.1 ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ Η ανάλυση κατηγορικών δεδοµένων αποτελεί ένα κοµµάτι της στατιστικής ανάλυσης δεδοµένων. Οι τυχαίες µεταβλητές που χρησιµοποιούνται σε µια τέτοια ανάλυση, αποτελούνται από δεδοµένα τα οποία µπορεί να είναι µετρήσιµα (π.χ. ηλικία) αλλά και µη µετρήσιµα (π.χ. φύλο) και έχουν κατηγοριοποιηθεί σε οµάδες. Για παράδειγµα, τέτοιες τυχαίες µεταβλητές θα µπορούσαν να είναι απαντήσεις που έχουν δώσει ερωτώµενοι σε ερωτήσεις κάποιου ερωτηµατολογίου και υποδεικνύουν τη θέση των ερωτώµενων για κάποιο εξεταζόµενο χαρακτηριστικό. Οι µετρήσεις που προκύπτουν µέσα από τέτοιες διαδικασίες ονοµάζονται ποιοτικές µετρήσεις. Όσον αφορά τέτοιου είδους µετρήσεις, µπορούµε να ξεχωρίσουµε δύο ειδών κατηγορικές µεταβλητές: Ονοµαστικές (nominal), όπου η κάθε µέτρηση αντιπροσωπεύει την κατηγορία στην οποία ανήκει το υποκείµενό µας (π.χ. ερωτώµενος). Οι αριθµοί που θα χρησιµοποιηθούν για την αναπαράσταση των τιµών ( π.χ. 0,1,2, ) λειτουργούν σαν ετικέτες που περιγράφουν τις κατηγορίες. Για παράδειγµα, φύλο, θρήσκευµα κ.α. ιατεταγµένες (ordinal), όπου κάθε µέτρηση δείχνει την σειρά και την διάταξη των οµάδων. Εδώ οι που αντιπροσωπεύουν τις οµάδες θα πρέπει να διατηρούν την διάταξη των διαφορετικών κατηγοριών. Για παράδειγµα, το χαρακτηριστικό θερµοκρασία θα µπορούσε να έχει τέσσερις κατηγορίες: πολύ ζεστό, ζεστό, κρύο και πολύ κρύο, οι οποίες θα µπορούσαν να αναπαρασταθούν από τους αριθµούς 1,2,3 και 4 αντίστοιχα. Το βασικό ερώτηµα που προκύπτει εδώ είναι πώς σε τέτοιου τύπου αναλύσεις εξαρτηµένες µεταβλητές επηρεάζονται από άλλες ανεξάρτητες µεταβλητές. Τα µοντέλα κατηγορικών µεταβλητών καλύπτουν την ανάλυση ονοµαστικών και διατεταγµένων µετρήσεων. Το µεγαλύτερο µέρος των µετρήσεων συλλέγονται στις κοινωνικές και οικονοµικές επιστήµες, στο τοµέα του Marketing κ.α. 86

87 4.2 ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ ΓΙΑ ΚΑΤΗΓΟΡΙΚΑ Ε ΟΜΕΝΑ Σε αντίθεση µε τα συνεχή δεδοµένα, στα κατηγορικά δεν έχει νόηµα να υπολογίσουµε των µέσο, την διακύµανση και γενικότερα τα µέτρα που υπολογίσαµε στην περίπτωση των συνεχών µεταβλητών. Στην περίπτωση των κατηγορικών δεδοµένων αυτό που µπορούµε να κάνουµε είναι υπολογίσουµε την επικρατούσα τιµή, η οποία αποτελεί την κατηγορία µε την µεγαλύτερη συχνότητα ή να εξάγουµε έναν πίνακα συχνοτήτων, το οποίο θα µας βοηθήσει να δούµε πόσες φορές εµφανίζεται η κάθε κατηγορία µιας µεταβλητής στα δεδοµένα µας. Μια καλή απεικόνιση των συχνοτήτων θα µπορούσε να γίνει µε ένα διάγραµµα πίτας (pie-chart) ή ένα ραβδόγραµµα (bar-plot). Με χρήση SPSS: Για την διευκόλυνση της παρουσίασης του ελέγχου ανεξαρτησίας µεταξύ 2 κατηγορικών µεταβλητών στην ανάλυση κατηγορικών δεδοµένων µε χρήση του SPSS θα χρησιµοποιήσουµε ένα σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα νοσοκοµείο είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο µονάδα αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ). Για να εξάγουµε ένα πίνακα συχνοτήτων απλά πάµε πάνω στο µενού του SPSS και κάνουµε τα παρακάτω: Analyze> Descriptive Statistics> Frequencies Τοποθετούµε τις κατηγορικές µεταβλητές στο κουτάκι που ονοµάζεται Variables και µετα πατάµε Statistics και επιλέγουµε το Mode 87

88 και πατάµε Continue. Μετά πηγαίνουµε στο µενού Charts και επιλέγουµε είτε το Pie είναι το Bar. Εµείς εδώ θα επιλέξουµε το Pie και πατάµε Continue και τέλος ΟΚ. Οι πίνακες συχνότητας των δύο µεταβλητών που παίρνουµε είναι: TH Valid OXI NAI Total Cumulative Frequency Percent Valid Percent Percent ,6 72,6 72, ,4 27,4 100, ,0 100,0 88

89 Valid OXI NAI Total Trauma Cumulative Frequency Percent Valid Percent Percent ,8 87,8 87, ,2 12,2 100, ,0 100,0 Στην πρώτη στήλη και στα δύο πινακάκια είναι οι συχνότητας σε κάθε ένα επίπεδο των µεταβλητών στην δεύτερη στήλη είναι το ποσοστό ως προς το σύνολο του κάθε επιπέδου των µεταβλητών ενώ η τελευταία στήλη είναι η αθροιστική συχνότητα των επιπέδων κάθε µεταβλητής. Η απεικόνιση των περιεχοµένων των παραπάνω πινάκων γίνεται µε την χρήση Pie- Chart ή/ και Bar-Chart. TH OXI NAI 89

90 Trauma OXI NAI 4.3 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΜΕ ΤΗΝ ΚΑΤΑΝΟΜΗ Χ Έλεγχος Ανεξαρτησίας Χ 2 του Pearson Όταν θέλουµε να ελέγξουµε γενικότερα την ισότητα πιθανότητας εµφάνισης ενός χαρακτηριστικού/ ενδεχοµένου µεταξύ δύο κατηγορικών µεταβλητών µε πολλά επίπεδα τότε χρησιµοποιούµε τον έλεγχο ανεξαρτησίας του Pearson. Ας υποθέσουµε ότι έχουµε Χ και Υ κατηγορικές µεταβλητές µε I και J επίπεδα. Αυτό που θέλουµε να ελέγξουµε την υπόθεση: Η ο : Ανεξαρτησία µεταξύ Χ και Υ Η 1 : Εξάρτηση µεταξύ Χ και Υ Η ελεγχοσυνάρτηση για τον παραπάνω έλεγχο δίνεται από το τύπο: X 2 I J ( n ˆ ) 2 ij mij = mˆ i= 1 j= 1 ij όπου mˆ ij nn = n i.. j.. 90

91 µε n ij : συχνότητα στο κελί ij mˆij : οι αναµενόµενες συχνότητες κάτω από την υπόθεση της ανεξαρτησίας n i. : περιθώρια συχνότητα για το επίπεδο i της µεταβλητής Χ n.j : περιθώρια συχνότητα για το επίπεδο j της µεταβλητής Y n.. : σύνολο δείγµατος Η µηδενική υπόθεση Ηο απορρίπτεται όταν X X > ( I )( J ) ή όταν p-value<α όπου a ,1 α και στις δύο περιπτώσεις είναι το επίπεδο σηµαντικότητας που έχουµε ορίσει (συνήθως α=5%) Ένας άλλος έλεγχος ανεξαρτησίας είναι αυτός που στηρίζεται στον λόγο πιθανοφανειών και δίνεται από τον τύπο: G 2 n = 2 nij log m ˆ ij i j ij n για 5 IJ ισχύει 2 2 G X( I 1)( J 1),1 a ασυµπτωτικά. Είναι ένα µέτρο το οποίο δεν θα ασχοληθούµε λόγω του ότι στο SPSS δεν µπορεί α γίνει. Με χρήση SPSS: Για την διευκόλυνση της παρουσίασης του ελέγχου ανεξαρτησίας µεταξύ 2 κατηγορικών µεταβλητών στην ανάλυση κατηγορικών δεδοµένων µε χρήση του SPSS θα χρησιµοποιήσουµε πάλι το σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα νοσοκοµείο είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο µονάδα αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ), που χρησιµοποιήσαµε πιο πάνω. Για να µπορέσουµε να κάνουµε έλεγχο ανεξαρτησίας το πρώτο που πρέπει να κάνουµε είναι να φτιάξουµε ένα πίνακα συνάφειας όπου στις γραµµές θα τοποθετήσουµε την ανεξάρτητη µεταβλητή Trauma και στις στήλες την εξαρτηµένη µεταβλητή TH. Έτσι, Στο µενού πάνω στο SPSS επιλέγουµε: 91

92 Analyze>Descriptive Statistics>Crosstabs Και τοποθετούµε τις µεταβλητές όπως παρακάτω µετά πηγαίνουµε και επιλέγουµε το µενού Statistics και εκεί βάζουµε τικ στην επιλογή Chi-Square όπως παρακάτω: Πατάµε Continue και µετά ΟΚ. Στο Output θα έχει δηµιουργηθεί ο πίνακας συνάφειας 92

93 Trauma * TH Crosstabulation Count Trauma Total OXI NAI TH OXI NAI Total Το οποίο µας δείχνει ότι δεδοµένου ότι το νοσοκοµείο δεν έχει πτέρυγα αποκατάστασης τραυµάτων τα νοσοκοµεία τα οποία δεν είναι πανεπιστηµιακά είναι 3201, ενώ τα νοσοκοµεία τα οποία είναι πανεπιστηµιακά είναι 926 σε αριθµό. Οµοίως ερµηνεύεται και η περίπτωση που κάποιο νοσοκοµείο διαθέτει πτέρυγα αποκατάστασης τραυµάτων. Το επόµενο πινακάκι που εξάγεται είναι το πινακάκι που µας δείχνει αν υπάρχει ή όχι ανεξαρτησία µεταξύ των δύο µεταβλητών. Κοιτάζοντας το p-value του ελέγχου Pearson Chi-Square βλέπουµε ότι είναι πολύ µικρό (0.000<0.05 επίπεδο σηµαντικότητας που έχουµε ορίσει) εποµένως απορρίπτεται η µηδενική υπόθεση, δηλαδή οι µεταβλητές ΤΗ και Trauma είναι εξαρτηµένες µεταβλητές. 4.4 RELATIVE RISK Ένα χρήσιµο µέτρο σύγκρισης πιθανοτήτων µπορεί να είναι ο λόγος των δύο πιθανοτήτων ο οποίος ονοµάζεται Relative Risk. Για παράδειγµα, έστω ότι θέλουµε να συγκρίνουµε τις δεσµευµένες πιθανότητες Π 1 1 και Π 1 2, τότε το rιelative risk θα 93

94 1 1 υπολογίζεται από τον λόγο RR = Π. Για να µπορέσουµε να υπολογίσουµε το RR Π 1 2 παίρνουµε τις εκτιµήσεις των πιθανοτήτων που τις συµβολίζουµε µε p. Οπότε για το Π1 1 και το Π 1 2 θα έχουµε p p n = n n = n Αν τα δύο ποσοστά που συγκρίνονται είναι ίσα τότε RR= Για να µπορέσουµε να δώσουµε µια ερµηνεία σε αυτό το µέτρο θα χρησιµοποιήσουµε ένα µικρό παράδειγµα. Στον πίνακα παρακάτω δίνεται δείγµα 419 γυναικών ταξινοµηµένο ως προς το αν πάσχουν από κατάθλιψη και αν είχαν κάποια τραυµατική εµπειρία στη ζωή τους. Είναι το ποσοστό των γυναικών µε κατάθλιψη το ίδιο για τις γυναίκες µε τραυµατική εµπειρία και χωρίς; Κατάθλιψη, Υ Τραυµατική Οχι Ναι Εµπειρία, Χ Ναι Όχι RR p n n = = = = p n n Ερµηνεία: Η αναλογία των γυναικών που πάσχουν από κατάθλιψη είναι κατά φορές µεγαλύτερη στις γυναίκες µε τραυµατική εµπειρία σε σχάση µε γυναίκες που δεν είχαν τραυµατική εµπειρία ή η αναλογία στο δείγµα καταθλιπτικών γυναικών είναι 1183% υψηλότερη σε γυναίκες που είχανε κάποια τραυµατική εµπειρία. ΠΡΟΣΟΧΗ: είναι µια µέθοδος που εφαρµόζεται µόνο για 2x2 πίνακες συνάφειας. 94

95 Με χρήση SPSS: Θα χρησιµοποιήσουµε πάλι το σετ δεδοµένων µε δύο µεταβλητές (ΤΗ: αν ένα νοσοκοµείο είναι πανεπιστηµιακό 0/1:ΟΧΙ/ΝΑΙ, Trauma: αν έχει το νοσοκοµείο µονάδα αποκατάστασης τραυµάτων 0/1:ΟΧΙ/ΝΑΙ), που χρησιµοποιήσαµε πιο πάνω. Για να µπορέσουµε να συγκρίνουµε ποσοστό, το πρώτο που πρέπει να κάνουµε είναι να φτιάξουµε ένα πίνακα συνάφειας όπου στις γραµµές θα τοποθετήσουµε την ανεξάρτητη µεταβλητή Trauma και στις στήλες την εξαρτηµένη µεταβλητή TH. Έτσι, Στο µενού πάνω στο SPSS επιλέγουµε: Analyze>Descriptive Statistics>Crosstabs µετά πηγαίνουµε και επιλέγουµε το µενού Statistics και εκεί βάζουµε τικ στην επιλογή Risk όπως παρακάτω: 95

96 Μετά πατάµε Continue και µετά ΟΚ. Ο πρώτος πίνακας που παίρνουµε είναι ο πίνακας συνάφειας και η ερµηνεία είναι παρόµοια µε αυτή που δόθηκε στο παράδειγµα της ενότητας 4.3. Trauma * TH Crosstabulation Count Trauma Total OXI NAI TH OXI NAI Total Το δεύτερο πινακάκι αφορά τα αποτελέσµατα για το Relative Risk: Risk Estimate Odds Ratio for Trauma (OXI / NAI) For cohort TH = OXI For cohort TH = NAI N of Valid Cases Value Lower Upper 5,804 4,829 6,977 2,078 1,867 2,313,358,329, % Confidence Interval 96

97 Η ερµηνεία όταν το ΤΗ=ΟΧΙ είναι παρόµοια µε αυτή που δώσαµε πιο πάνω. Όσον αφορά την ερµηνεία όταν ΤΗ=ΝΑΙ είναι ότι η αναλογία των νοσοκοµείων που είναι πανεπιστηµιακά είναι κατά (= ) φορές µικρότερη όταν δεν περιέχουν πτέρυγα αποκατάστασης τραυµάτων σε σχέση µε το όταν υπάρχουν αυτές οι πτέρυγες ή η αναλογία στο δείγµα πανεπιστηµιακών νοσοκοµείων είναι 74.2% µειωµένη σε πανεπιστηµιακά νοσοκοµεία τα οποία δεν διέθεταν πτέρυγα αποκατάστασης τραυµάτων. 4.5 ΣΥΓΚΡΙΣΗ ΕΞΑΡΤΗΜΕΝΩΝ ΠΟΣΟΣΤΩΝ Ζεύγη θα µπορούσαν να είναι δύο υποκείµενα τα οποία µοιράζονται ένα κοινό χαρακτηριστικό. Η σύγκριση εξαρτηµένων ποσοστών βρίσκει εφαρµογή σε προβλήµατα στα οποία έχει χρησιµοποιηθεί αρκετές φορές το ίδιο δείγµα. Για παράδειγµα, η µέτρηση του ποσοστού έγκρισης του έργου του πρωθυπουργού µιας χώρας σε δύο χρονικές στιγµές διαφοράς 12 µηνών, έγινε µε δύο δηµοσκοπήσεις που χρησιµοποίησαν το ίδιο δείγµα 1750 πολιτών. Τα δείγµατα στις δύο δηµοσκοπήσεις είναι εξαρτηµένα. Έστω ότι διαθέτουµε n.. ταιριασµένα ζεύγη τα οποία απαντούν θετικά ή αρνητικά σε µια ερώτηση κάτω από δύο πειραµατικές συνθήκες. Ορίζουµε τις πιθανότητες π πάρουµε το ενδεχόµενο i από την πρώτη παρατήρηση και το ενδεχόµενο j από την δεύτερη παρατήρηση i,j=0,1. ij να Απάντηση στην Απάντηση στην πειραµατική συνθήκη 1 1 πειραµατική συνθήκη Π 11 Π 10 Π 1. 0 Π 01 Π 00 Π 0. Π.1 Π.0 1 Συγκρίνουµε τα δύο εξαρτηµένα δείγµατα συγκρίνοντας τις περιθώριες πιθανότητές Π 1. και Π.1. Η µηδενική υπόθεση Ηο: Π 1. =Π.1 ονοµάζεται οµοιογένεια περιθωρίων, µπορεί να γραφτεί και ως Ηο: Π 10 =Π 01. Επιπλέον n*=n 10 +n 01. Κάτω από την µηδενική υπόθεση η συχνότητα n 10 ακολουθεί δυωνυµική κατανοµή Bin(n*, 0.5). 97

98 Όταν ωστόσο το n*>10 τότε η δυωνυµική προσεγγίζεται πολύ καλά από την κανονική κατανοµή οπότε κάτω από την Ηο η στατιστική συνάρτηση n 0.5 n* n n z= = n* n + n Ο έλεγχος αυτός ονοµάζεται McNemar N(0,1) Με χρήση SPSS: Θα χρησιµοποιήσουµε ένα σετ δεδοµένων που αποτελείται από 2 µεταβλητές ( ηµοσκόπηση Ι 1/0=ΝΑΙ/ΟΧΙ, ηµοσκόπηση ΙΙ 1/0=ΝΑΙ/ΟΧΙ). Η µέτρηση του ποσοστού έγκρισης του έργου του πρωθυπουργού µιας χώρας σε δύο χρονικές στιγµές διαφοράς 12 µηνών, έγινε µε δύο δηµοσκοπήσεις που χρησιµοποίησαν το ίδιο δείγµα 50 πολιτών. Το Πρώτο που θα κάνουµε είναι να δηµιουργήσουµε ένα πίνακα συνάφειας και στην περίπτωση που n*= n 10 +n 01 >10 θα εφαρµόσουµε τον έλεγχο McNemar. Έτσι πηγαίνοντας στο µενού του SPSS Analysze> Descriptive Statistics> Crosstabs Τοποθετούµε σωστά τις µεταβλητές όπως παρακάτω 98

99 Μετά πηγαίνουµε στο µενού Statistics, αφαιρούµε την επιλογή Chi-Square και επιλέγουµε McNemar, και πατάµε Continue και µετά OK. Ο πίνακας συσχετίσεων που θα πάρουµε θα είναι ηµοσκόπηση_ι * ηµοσκόπηση_ιι Crosstabulation Count ηµοσκόπηση_ι Total 1ο Κοµµα 2ο Κόµµα ηµοσκόπηση_ιι 1ο Κοµµα 2ο Κόµµα Total όπου η ερµηνεία είναι παρόµοια µε αυτή του παραδείγµατος της ενότητας Το τελευταίο πινακάκι είναι αυτό του ελέγχου του McNemar: Επειδή το P-value=0.603>0.05 δεν απορρίπτουµε την µηδενική υπόθεση, εποµένως υπάρχει οµοιογένεια περιθωρίων. 99

100 4.6 ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ Στην περίπτωση που η εξαρτηµένη µεταβλητή (Υ) παίρνει µόνο δύο τιµές ( επιτυχία και αποτυχία ) ένα από τα πιο γνωστά µοντέλα παλινδρόµησης είναι αυτό της λογιστικής παλινδρόµησης. Η Λογιστική Παλινδρόµηση αναφέρεται στην περίπτωση που µας ενδιαφέρει να εξετάσουµε πώς η αναµενόµενη τιµή της εξαρτηµένης δίτιµης µεταβλητής επηρεάζεται από ένα αριθµό παραγόντων. π Η λογική της λογιστικής Παλινδρόµησης στηρίζεται στα Odds που ισούνται µε 1 π, όπου π είναι η πιθανότητα εµφάνισης ενός ενδεχοµένου. Επειδή όµως αυτός ο λόγος είναι θετικός και χωρίς πάνω όριο, όσο το π πηγαίνει στο 1 ο παραπάνω λόγος πηγαίνει στο άπειρο και όσο το π πηγαίνει στο 0 ο λόγος πηγαίνει στο µηδέν. Για να αντιµετωπίσουµε αυτό το πρόβληµα παίρνουµε το λογάριθµο του λόγου. Εποµένως, το µοντέλο της λογιστικής παλινδρόµησης παίρνει τη µορφή: Από την παραπάνω σχέση προκύπτει ότι: p π ( x) log = β + βκ X 1 ( ) 0 π x κ = 1 exp{ β0 + βκ X k} k = 1 π ( x) = p 1+ exp{ β + β X } 0 k = π ( x) = p 1+ exp{ β + β X } Όσον αφορά την ερµηνεία, βασίζεται όχι πλέον στον συντελεστή β όπως στη γραµµική παλινδρόµηση αλλά στο γινόµενο e β. ηλαδή, ο λόγος 1 π π p 0 κ k = 1 k κ k k αυξάνεται σε σχέση µε το γινόµενο e β για κάθε αύξηση του x κατά µία µονάδα. Για παράδειγµα, αν π για ένα µοντέλο ο λόγος e β 1 π =2 και το =1.5, τότε µια αύξηση του x κατά µία µονάδα θα αυξήσει τον αρχικό λόγο κατά 50%(=1.5-1). 100

101 Άλλων ειδών µοντέλα που µπορούν να χρησιµοποιηθούν σε µια ανάλυση κατηγορικών δεδοµένων είναι τα Λογαριθµικά Μοντέλα και τα Ιεραρχικά. εν θα ασχοληθούµε όµως µε αυτά µοντέλα. Με χρήση SPSS: Θα χρησιµοποιήσουµε ένα παράδειγµα ανάλυσης πιστωτικών κινδύνων (Credit Risk Analysis). Το σετ των δεδοµένων που θα χρησιµοποιήσουµε στην εφαρµογή µας, απαρτίζεται από 1000 πελάτες από µια γερµανική τράπεζα. Για κάθε ένα πελάτη είναι διαθέσιµη η πληροφόρηση για τον αν είναι άξιος ή όχι να του δοθεί κάποιου είδους πίστωση (Creditability). Επιπροσθέτως, παραθέτονται 20 συµµεταβλητές που θα µας βοηθήσουνε στην οµαδοποίηση των πελατών σε φερέγγυους και επισφαλείς για την παροχή αυτής της πίστωσης. Στην αναφορά µας θα χρησιµοποιήσουµε 2 µεθόδους ανάλυσης των πιστωτικών κινδύνων: της Discriminant Analysis και της Λογιστικής Παλινδρόµησης. Και για τις δύο αυτές αναλύσεις θα χρησιµοποιήσουµε τις ίδιες µεταβλητές. Ως εξαρτηµένη θα χρησιµοποιήσουµε την δίτιµη µεταβλητή Creditability και ως ανεξάρτητες τη συνεχής µεταβλητή Amount of credit in "Deutsche Mark" (x) και τις διατάξηµες Value of savings or stocks (in DM) (k), Has been employed by current employer for (years) (l), Installment in % of available income(m), καθώς και τις ψευδοµεταβλητές (dummies) Runnig Credits at other banks(t), Running credits at department store or mail order house(h), Not available/ not assets (g), Car/ other(v), Savings contract with a building society / Life insurance(w), hesitant payment of previous credits (d), problematic running account / there are further credits running but at other banks (p), no previous credits / paid back all previous credits (q) και την no problems with current credits at this bank (f). Πηγαίνουµε στο µενού του SPSS: Analyze> Regression> Binary Logistic Και εισάγουµε τις µεταβλητές όπως παρακάτω: 101

102 Μετά πηγαίνουµε στο µενού Optionsκαι επιλέγουµε τα εξής Πατάµε Continue και µετά ΟΚ. Θα ξεκινήσουµε την ανάλυση µας µε την µέθοδο Enter της Λογιστικής Παλινδρόµησης. 102

103 Πίνακας 1 ιεξάγοντας την ανάλυση µε την µέθοδο Enter Πίνακας 1, παρατηρούµε ότι κάποιες από τις µεταβλητές (Running Credits_z1, Running Credits_z2, Assets_z2 και Assets_z3) που χρησιµοποιήσαµε στην ανάλυση δεν είναι στατιστικά σηµαντικές, αφού τα p-value τους είναι µικρότερα από το 0,05 επίπεδο στατιστικής σηµαντικότητας που έχουµε ορίσει. Για να διορθώσουµε αυτό το πρόβληµα, θα χρησιµοποιήσουµε µια διαδικασία Backward (µε την µέθοδο του Wald). 103

104 Και πατάµε ΟΚ. Πίνακας 2 Στον πίνακα 2 βλέπουµε ποιες µεταβλητές χρησιµοποιήθηκαν τελικά στην ανάλυση (όλες εκτός από τις µεταβλητές που στην Enter φαινόταν να µην είναι στατιστικά σηµαντικές). Επίσης στο παρακάτω πινακάκι βλέπουµε ότι το µοντέλο µας είναι στατιστικά σηµαντικό αφού το p-value που αντιστοιχεί στο µοντέλο µας είναι 0.000<0.05 οπότε απορρίπτεται η µηδενική υπόθεση ότι όλοι οι συντελεστές β είναι ίσοι µε µηδέν. Η ερµηνεία που θα µπορούσαµε να δώσουµε για να δικαιολογήσουµε την απουσία των εν λόγω µεταβλητών από την ανάλυση είναι ότι στο διαχωρισµό των πελατών δεν παίζει ρόλο το αν ο κάθε πελάτης έχει πέραν από την εν λόγω τράπεζα, για την οποία 104

105 διεξάγεται η ανάλυση, κάποιες πιστώσεις ( ή κάποια υποχρέωση αποπληρωµής κάποιου στεγαστικού δανείου) σε κάποιες άλλες τράπεζες. Επίσης, δεν παίζει ρόλο αν κάθε πελάτης έχει στην ιδιοκτησία του κάποιο µεταφορικό µέσο (όχηµα οποιουδήποτε τύπου) ή αν έχει κάνει οποιαδήποτε συµφωνία µε κάποια ασφαλιστική εταιρία µε στόχο την παροχή κάποιας ασφάλειας ζωής. Αντιθέτως, σηµαντικό ρόλο στο διαχωρισµό των πελατών παίζει το ποσό που θέλει κάθε πελάτης να δανειστεί (σε γερµανικά Μάρκα), το να έχει κάποιο λογαριασµό στην εν λόγω τράπεζα ή το αν είναι κάτοχος κάποιων µετοχών. Επιπλέον, κάποια χαρακτηριστικά του κάθε πελάτη που φαίνεται να είναι χρήσιµα στην διαδικασία του διαχωρισµού είναι το κατά πόσα χρόνια εργαζόταν σε κάποιο τοµέα, το ποσοστό του ετήσιου εισοδήµατός του, καθώς και από το αν ήταν συνεπείς στις υποχρεώσεις του απέναντι στην εν λόγω τράπεζα σε προηγούµενες πιστώσεις. Το µοντέλο της λογιστικής παλινδρόµησης, πάνω στο οποία θα βασιστούµε για να κάνουµε την ανάλυση των πιστωτικών κινδύνων είναι: log π ( x) = β 1 ( ) 0 + βx + βκ + βl+ βm+ βg+ βd + β p+ βq+ β f π x Τέλος από τον πίνακα 4, που αφορά τον τελικό διαχωρισµό των πελατών σε άξιους για την παροχή πίστωσης και σε µη άξιους. Η οµάδα των πελατών που θα πάρει κάποια πίστωση αποτελείται από 700(=53+647) άτοµα, ενώ η οµάδα που αφορά αυτούς που δεν θα λάβουν πίστωση από 300(=214+86) άτοµα. Αυτοί που φαίνεται ότι θα πάρουν πίστωση δεδοµένου ότι δεν την αξίζουν ανέρχονται σε 53, ενώ αυτοί που θα πάρουν κάποιου είδους πίστωση δεδοµένου ότι την αξίζουν ανέρχονται σε 647. Ανάλογα ερµηνεύουµε και τους πελάτες που δεν θα πάρουν κάποιου είδους πίστωσης. Ο διαχωρισµός των πελατών έγινε µε ποσοστό σωστού διαχωρισµού ίσο µε 73,3% (αρκετά υψηλό). 105

106 Πίνακας 4 Ολοκληρώνοντας την Λογιστική Παλινδρόµηση ολοκληρώθηκε και η εφαρµογή στην ανάλυση των πιστωτικών κινδύνων. 106

107 5. ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ 5.1 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ Η παραγοντική ανάλυση είναι µια στατιστική µέθοδος που έχει σκοπό να βρει ύπαρξη παραγόντων κοινών ανάµεσα σε µια οµάδα µεταβλητών. Με αυτή την µεθοδολογία καταφέρνουµε: Να µειώσουµε τις διαστάσεις του προβλήµατος Να δηµιουργήσουµε καινούργιες µεταβλητές, τους παράγοντες, τις οποίες µπορούµε να τις θεωρήσουµε ως κάποιες µη µετρήσιµες µεταβλητές, όπως ελκυστικότητα ενός προϊόντος στο Marketing κ.α. Να εξηγήσουµε τις συσχετίσεις που υπάρχουν στα δεδοµένα, για τις οποίες έχουµε υποθέσει ότι οφείλονται αποκλειστικά στην ύπαρξη κάποιων κοινών παραγόντων που δηµιούργησαν τα δεδοµένα. Το αξιοσηµείωτο σε αυτού του είδους την ανάλυση είναι, ότι προσπαθεί να εξηγήσει περισσότερο τη δοµή παρά την µεταβλητότητα (ποσοστό διακύµανσης). Βέβαια σαν µέθοδος έχει δεχτεί πολλές κριτικές, παρ όλα αυτά η ανάλυση αυτή είναι πολύ χρήσιµη σε επιστήµες όπως η έρευνα αγοράς και η Ψυχοµετρία. Και ο λόγος είναι ότι η παραγοντική ανάλυση καταφέρνει να ποσιτικοποιήσει µη µετρήσιµες ποσότητες ΤΟ ΟΡΘΟΓΩΝΙΟ ΜΟΝΤΕΛΟ Στο ορθογώνιο µοντέλο της παραγοντικής ανάλυσης υποθέτουµε ότι οι όποιες συσχετίσεις µεταξύ των µεταβλητών οφείλονται αποκλειστικά στην ύπαρξη αυτών των κοινών παραγόντων τους οποίους δεν γνωρίζουµε και θέλουµε να εκτιµήσουµε. Έστω ότι έχουµε m µεταβλητές και έστω ότι αυτές οι µεταβλητές µπορούν να γραφτούν σαν γραµµικός συνδυασµός των k παραγόντων: Όπου, X µ = LF + ε Χ: είναι το διάνυσµα των αρχικών µεταβλητών µεγέθους m x 1 µ: είναι το διάνυσµα των µέσων µεγέθους m x 1 L: είναι ένας πίνακας m x k όπου Lij είναι η επιβάρυνση (loading) του παράγοντα Fj στην µεταβλητή X i. 107

108 F: είναι ένα k x 1 διάνυσµα µε τους παράγοντες ε: είναι τα σφάλµατα. Είναι το µέρος το οποίο δεν µπορεί να εξηγηθεί από τους παράγοντες. Μπορούµε να υποθέσουµε ότι όλες οι µεταβλητές έχουν µέσο 0, οπότε το διάνυσµα µ δεν χρειάζεται στο παραπάνω µοντέλο. Επιπλέον, ο αριθµός των παραγόντων πρέπει να είναι µικρότερος από τον αριθµό των µεταβλητών. Από τα παραπάνω καταλαβαίνουµε ότι κάθε µεταβλητή θα είναι της µορφής: X = L F + L F L F + ε k k 1 X = L F + L F L F + ε M k k 2 Xm = Lm 1F1+ Lm2F LmkFk + ε m Πρέπει να σηµειωθεί ότι: Το παραπάνω µοντέλο αν και µοιάζει µε γραµµικό µοντέλο, δεν είναι διότι τα X i δεν είναι παρατηρήσεις αλλά µεταβλητές και επιπλέον το δεξί µέλος της εξίσωσης δεν είναι παρατηρήσιµο και είναι αυτό που θέλουµε να εκτιµήσουµε. Οι παράγοντες έχουν την ίδια διακύµανση. Αυτό υποδηλώνει πως οι παράγοντες που δηµιουργούνται δεν είναι απαραιτήτα σε κάποια σειρά ΥΠΟΘΕΣΕΙΣ ΤΟ ΟΡΘΟΓΩΝΙΟΥ ΜΟΝΤΕΛΟΥ Ένα πολύ βασικό κοµµάτι αυτής της ανάλυσης είναι οι υποθέσεις που πρέπει να γίνουν. Αυτές είναι: Ε(F)=0 1 Cov(F)=I, όπου I = O ο µοναδιαίος πίνακας 0 1 Ε(ε)=0 Cov(ε)=Ψ, όπου Ψ είναι ένας διαγώνιος πίνακας της µορφής ψ ψ Ψ= O a31 a32 0 ψ m 0 108

109 Cov(ε i, F j )=0 για κάθε i j Από τις παραπάνω υποθέσεις µπορεί να δειχθεί ότι Σ= Cov( X ) = Cov( LF + ε ) = LCov( F) L ' + Cov( ε ) = LL ' +Ψ Στην παραγοντική ανάλυση σκοπός µας είναι να εκτιµήσουµε τους πίνακες L και Ψ, να αναπαραστήσουµε δηλαδή τον πίνακα διακύµανσης του πληθυσµού. Για να το πετύχουµε αυτό, έχουν αναπτυχθεί διάφορες µέθοδοι εκτίµησης. Τα βήµατα για να κάνουµε παραγοντική ανάλυση, είναι τα εξής: Έλεγχος για το αν υπάρχουν συσχετίσεις ικανοποιητικές για να κάνουµε παραγοντική ανάλυση. Εύρεση του αριθµού των παραγόντων και εκτίµηση των παραµέτρων του µοντέλου Περιστροφή του µοντέλου µε σκοπό να αυξήσουµε την ερµηνευτική του ικανότητα Εκτίµηση των score των παραγόντων για περαιτέρω στατιστική χρήση ΕΛΕΓΧΟΣ ΣΥΣΧΕΤΙΣΕΩΝ Στην παραγοντική ανάλυση είναι σηµαντικό να υπάρχουν µεγάλες συσχετίσεις ανάµεσα στις µεταβλητές, καθώς αυτές τις συσχετίσεις θα προσπαθήσουµε να εξηγήσουµε. Τι σηµαίνει όµως µεγάλες συσχετίσεις; Σε καµιά περίπτωση δεν σηµαίνει στατιστικά σηµαντικές συσχετίσεις, δηλαδή συσχετίσεις διάφορες του µηδέν. Είναι γνωστό στη στατιστική, ότι όσο αυξάνει το µέγεθος του δείγµατος, τότε συσχετίσεις κοντά στο µηδέν τείνουν να είναι στατιστικά σηµαντικά διάφορες του µηδενός, αν και πολύ µικρές σε απόλυτη τιµή. Συνεπώς, αυτό που µας ενδιαφέρει είναι να υπάρχουν µεγάλες συσχετίσεις τουλάχιστον σε µεγάλο ποσοστό του πίνακα συσχετίσεων. Μερικός Συντελεστής συσχέτισης Ο απλός συντελεστής συσχέτισης υπολογίζει την συσχέτιση µεταξύ δύο µεταβλητών αγνοώντας τις υπόλοιπες. Έτσι µπορεί να εµφανίσει συσχετισµένες κάποιες µεταβλητές απλά και µόνο επειδή κάποιες άλλες έχουν µεγάλη συσχέτιση µε αυτές και όταν ακυρώσουµε την επίδραση τους, οι αρχικές µεταβλητές να µην εµφανίσουν 109

110 καµία συσχέτιση. Για αυτό είναι χρήσιµος ένας συντελεστής ο οποίος θα υπολογίζει την συσχέτιση, αφού αφαιρέσει την επίδραση των υπόλοιπων µεταβλητών. Για να προχωρήσουµε σε παραγοντική ανάλυση µας ενδιαφέρει οι µερικοί συντελεστές συσχέτισης να είναι µικροί. Αυτό που αξίζει να αναφέρουµε είναι ότι, οι µερικοί συντελεστές συσχέτισης αποτελούν εκτιµήσεις των συσχετίσεων µεταξύ των µοναδικών παραγόντων και θα πρέπει να είναι κοντά στο µηδέν, όταν οι υποθέσεις του παραγοντικού µοντέλου ισχύουν. Ένα µέτρο για να συγκρίνουµε το σχετικό µέγεθος των συντελεστών συσχέτισης σχετικά µε τους µερικούς συντελεστές συσχέτισης είναι το Kaiser-Meyer-Olkin στατιστικό που υπολογίζεται ως r a KMO = r 2 ij i j 2 2 rij + aij i j i j Όπου ij και ij είναι οι δειγµατικοί συντελεστές συσχέτισης και µερικής συσχέτισης αντίστοιχα. Αν η τιµή του ΚΜΟ είναι µεγάλη, τότε τα δεδοµένα µας είναι κατάλληλα για παραγοντική ανάλυση. Τιµές κάτω από 0.5 είναι πολύ κακές και αναµένεται η παραγοντική ανάλυση να µην µας δώσει ικανοποιητικά αποτελέσµατα. Στην πράξη τιµές γύρω στο 0.8 θεωρούνται αρκετά καλές για να προχωρήσουµε την ανάλυση. Τέλος, ένα άλλο µέτρο που µας επιτρέπει να εξετάσουµε µια-µια τις µεταβλητές και κατά πόσο είναι κατάλληλες για να χρησιµοποιηθούν στην ανάλυση, είναι το µέτρο της δειγµατικής καταλληλότητας, το οποίο υπολογίζεται για την i µεταβλητή ως MSA = j r 2 ij j 2 2 ij + aij j Τιµές κοντά στο 1 είναι ενδείξεις ότι η µεταβλητή είναι πολύ καλή για να χρησιµοποιηθεί στην ανάλυση. Παρατηρούµε ότι, ενώ το ΚΜΟ αφορά όλα τα δεδοµένα, το MSA υπολογίζεται για κάθε µεταβλητή ξεχωριστά. r ΑΡΙΘΜΟΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΠΑΡΑΓΟΝΤΩΝ Ένα από τα βασικά ερωτήµατα στην Παραγοντική Ανάλυση είναι ο καθορισµός του αριθµού των παραγόντων που θα χρησιµοποιήσουµε. Για να βρεθεί ο αριθµός των 110

111 παραγόντων, ο ερευνητής µπορεί να χρησιµοποιήσει κάποιες τεχνικές που θα τον βοηθήσουν να επιλέξει, όπως µε βάση τις τιµές των ιδιοτιµών του πίνακα διακύµανσης-συναδιακύµανσης, µε βάση τις τιµές που εξηγούν κάποιο ποσοστό διακύµανσης ή το λεγόµενο Scree Plot, το οποίο είναι ένα γράφηµα που έχει στον οριζόντιο άξονα των x τη σειρά και στον κάθετο άξονα των y την τιµή κάθε ιδιοτιµής. Το κριτήριο αυτό προτείνει να πάρουµε τόσες συνιστώσες µέχρι το γράφηµα να αρχίσει να γίνεται περίπου επίπεδο, στην ουσία µέχρι να διαπιστώσουµε ότι αρχίζει να αλλάζει κλείσει το γράφηµα. Παρατηρούµε ότι στο πρώτο γράφηµα θα κρατήσουµε 2 παράγοντες αφού στο δεύτερο σηµείο φαίνεται το γράφηµα να αλλάζει κλίση. Τα διαγράµµατα γ και δ είναι πολύ δύσκολο να καταλάβουµε πόσους παράγοντες. Το πόσους παράγοντες θα επιλέξουµε να κρατήσουµε είναι καθαρά υποκειµενικό, για αυτό και η συγκεκριµένη µέθοδος έχει δεχτεί αρκετές κριτικές. 111

112 Μια ακόµη δυσκολία που συναντάµε στη παραγοντική ανάλυση είναι ότι ο αριθµός των παραγόντων χρειάζεται να καθοριστεί πριν γίνει η εκτίµησή τους. Εποµένως κάποιος θα µπορούσε να δουλέψει µε διαδοχικά αυξανόµενο αριθµό παραγόντων και να κρατήσει το µοντέλο µε βάση κάποιο κριτήριο καλής προσαρµογής. Τέτοια κριτήρια είναι: Από τον πίνακα των επιβαρύνσεων µπορεί κάποιος να εκτιµήσει τον πίνακα Σ. Οι αποκλίσεις του πραγµατικού πίνακα µε τον εκτιµηµένο θα πρέπει να είναι µικρές. υστυχώς δεν υπάρχει ένα κριτήριο του πόσο µικρές. Έλεγχος πιθανοφανειών, αν οι εκτιµήσεις έχουν γίνει µε την µέθοδο µεγίστης πιθανοφάνειας. Τέτοιοι έλεγχοι στηρίζονται στις υποθέσεις για την κατανοµή του πληθυσµού. Οι δύο βασικές µέθοδοι εκτίµησης που χρησιµοποιούνται στην πράξη είναι η µέθοδος των κυρίων συνιστωσών και η µέθοδος µεγίστης πιθανοφάνειας. Συγκριτικά έχουµε: Όταν εκτιµούµε το µοντέλο µε την µέθοδο των κυρίων συνιστωσών, προσθέτοντας παράγοντες δεν αλλάζουν οι επιβαρύνσεις των παραγόντων που είχαµε πριν, κάτι το οποίο δεν ισχύει µε την µέθοδο µεγίστης πιθανοφάνειας. Με την µέθοδο µέγιστης πιθανοφάνειας µπορούµε να κάνουµε ελέγχους καλής προσαρµογής του µοντέλου βασισµένη στον κλασσικό έλεγχο του λόγου πιθανοφανειών. Η µέθοδος των κυρίων συνιστωσών δεν βάζει περιορισµούς στον αριθµό των παραγόντων που µπορούµε να εκτιµήσουµε. Όταν η µέθοδος µεγίστης πιθανοφάνειας δεν δουλεύει, αυτό είναι µα ένδειξη ότι υπάρχει πρόβληµα µε το µοντέλο. Αντίθετα, η µέθοδος κυριών συνιστωσών, επειδή στην ουσία είναι ένα µαθηµατικός µετασχηµατισµός των δεδοµένων δεν δουλεύει πάντα, χωρίς όµως να µας δίνει ένδειξη αν καλώς δουλεύει ή όχι. Με την µέθοδο µέγιστης πιθανοφάνειας τα score των παραγόντων δεν µπορούν να υπολογιστούν ακριβώς, όπως συµβαίνει µε την µέθοδο κυρίων συνιστωσών. Άλλες µέθοδοι εκτίµησης είναι: Μέθοδος ελαχίστων τετραγώνων Γενικευµένη µέθοδος ελαχίστων τετραγώνων Μέθοδος κυρίων αξόνων 112

113 5.1.5 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΤΕΛΟΥ Εκτός από τα κριτήρια καλής προσαρµογής, η µέθοδος µεγίστης πιθανοφάνειας µας επιτρέπει να κάνουµε και επιλογή µοντέλου, δηλαδή πόσοι παράγοντες µου δίνουν το καλύτερο αποτέλεσµα. Σε αυτή τη διαδικασία, µπορούµε να χρησιµοποιήσουµε πληροφοριακά κριτήρια (information criteria), όπως χρησιµοποιούµε και σε άλλες στατιστικές µεθόδους. Έτσι για κάθε µοντέλο µε p παράγοντες υπολογίζουµε το Akaike Information Criterion (AIC) ή το κριτήριο του Schwarz (SIC). Επιλέγουµε για κάθε κριτήριο το µοντέλο µε την µικρότερη τιµή. Η λογική των δύο κριτηρίων είναι να επιβάλουν κάποια ποινή για κάθε µοντέλο µε περισσότερες παραµέτρους. Εποµένως, αυτή η ποινή αποζηµιώνει για τις παραπανίσιες παραµέτρους. Το κριτήριο του Schwarz λαµβάνει υπόψη του στη ποινή τόσο τον αριθµό των παραπανίσιων παραµέτρων αλλά και το µέγεθος του δείγµατος κάτι το οποίο δεν συµβαίνει στην περίπτωση του AIC ΠΕΡΙΣΤΡΟΦΗ Με την περιστροφή των παραγόντων προσπαθούµε να κάνουµε τους παράγοντες πιο ερµηνεύσιµους. Με αυτή την µέθοδο δεν αλλάζον κάποια από τα χαρακτηριστικά του µοντέλου, όπως η καλή προσαρµοστικότητα και το ποσό διακύµανσηςσυνδιακύµανσης που ερµηνεύεται από το µοντέλο, παρά µόνο οι τιµές των επιβαρύνσεων. Κάνοντας περιστροφή, ελπίζουµε ότι οι επιβαρύνσεις κάποιων παραγόντων θα είναι µεγάλες σε απόλυτη κλίµακα µόνο για κάποιες από τις µεταβλητές και έτσι, βλέποντας ποιες µεταβλητές εξαρτώνται µε ποιους παράγοντες, να µπορέσουµε να δώσουµε ερµηνεία σε αυτούς. Οι βασικές µέθοδοι περιστροφής είναι: Varimax: Προσπαθεί να ελαχιστοποιήσει των αριθµό των µεταβλητών που έχουν µεγάλες επιβαρύνσεις για κάθε παράγοντα. Quartimax: Προσπαθεί να ελαχιστοποιήσει των αριθµό των παραγόντων που εξηγούν µια µεταβλητή Equimax: Συνδυασµός των δύο παραπάνω Oblique: Μη ορθογώνια περιστροφή, οι άξονες που προκύπτουν δεν είναι πια ορθογώνιοι (και άρα οι παράγοντες δεν είναι ανεξάρτητοι). Η ερµηνεία των 113

114 αποτελεσµάτων είναι πιο δύσκολη. Στη πράξη την χρησιµοποιούµε όταν δεν θέλουµε οι παράγοντες που προκύπτουν να είναι ασυσχέτιστοι ΥΠΟΛΟΓΙΣΜΟΣ ΤΩΝ SCORE ΤΩΝ ΠΑΡΓΟΝΤΩΝ Όπως είπαµε και προηγουµένως, οι παράγοντες µπορούν να εκφραστούν σαν γραµµικός συνδυασµός των επεξηγηµατικών. Οπότε κάθε παράγοντας µπορεί να γραφτεί ως: F = a X + a X a X m F = a X + a X a X m K F = a X + a X a X k k1 1 k2 2 km m m m Οι συντελεστές aij είναι το σκορ της µεταβλητής X i στον παράγοντα F i και δεν πρέπει να συγχέονται µε τις επιβαρύνσεις. Όταν το µοντέλο έχει εκτµηθεί µε την µέθοδο των κυρίων συνιστωσών, οι παράγοντες είναι ακριβείς, δηλαδή µπορούν να υπολογιστούν χωρίς σφάλµα, κάτι που δεν υφίσταται όταν χρησιµοποιείται η µέθοδος µεγίστης πιθανοφάνειας. Πρέπει να σηµειωθεί ότι οι νέες µεταβλητές θα έχουν µέση τιµή 0 και θα είναι ασυσχέτιστες δεδοµένου ότι το µοντέλο είναι ορθογώνιο. Έχοντας εκτιµήσει ένα παραγοντικό µοντέλο και έστω ˆL ˆ και Ψ οι εκτιµήσεις µας για τις παραµέτρους αυτού, τότε µπορούµε να βρούµε τα factor scores, δηλαδή τις τιµές των καινούργιων µεταβλητών για κάθε µεταβλητή. Οι µέθοδοι που προσφέρονται είναι αρκετές. Αυτές που τα περισσότερα πακέτα και ανάµεσα τους το SPSS προσφέρουν είναι οι εξής: Regression method: Το διάνυσµα F των καινούργιων µεταβλητών υπολογίζεται ως εξής ( ˆˆ ' ) 1 F= L L Lˆ' X Η µέθοδος στηρίζεται στην µέθοδο ελαχίστων τετραγώνων ανάµεσα στις πραγµατικές τιµές και αυτές που το παραγοντικό µοντέλο προβλέπει. Bartlett method: Σε σχέση µε την παραπάνω µέθοδο ο Bartlett πρότεινε, αντί να χρησιµοποιήσει κάποιος την απλή µέθοδο ελαχίστων τετραγώνων, να χρησιµοποιήσει γενικευµένα ελάχιστα τετράγωνα, καθώς η διακύµανση δεν 114

115 είναι η ίδια για όλες τις παρατηρήσεις. Εποµένως, η µέθοδος εκτίµησης εκτιµά τους παράγοντες ως ( ' ) 1 F Lˆ ˆ Lˆ Lˆ' ˆ 1 1 = Ψ Ψ X Anderson method: Η µέθοδος αυτή χρησιµοποιεί τον τύπο ( 1 1 )( ) F= Lˆˆ ' Ψ Lˆ I+ Lˆˆ ' Ψ Lˆˆˆ L' Ψ 1 X Και οι τρεις µέθοδοι δίνουν παράγοντες µε µέση τιµή 0. Η µέθοδος Anderson οδηγεί πάντα σε ασυσχέτιστους παράγοντες, ακόµα και αν εξαιτίας µη ορθογώνιας περιστροφής οι παράγοντες θα έπρεπε να είναι συσχετισµένοι. Η µέθοδος της παλινδρόµησης µπορεί να οδηγήσει σε πίνακα διακύµανσης των παραγόντων οποίος δεν είναι ο µοναδιαίος, δηλαδή τα διαγώνια στοιχεία του να µην είναι 1 και να υπάρχουν συσχετίσεις ΜΗ ΟΡΘΟΦΩΝΙΑ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ Το ορθογώνιο µοντέλο βασίστηκε στην υπόθεση πως οι παράγοντες είναι ορθογώνιοι µεταξύ τους. Πολλές φορές όµως µια τέτοια υπόθεση δεν είναι καθόλου ρεαλιστική και πρέπει να επιτρέψουµε στους παράγοντες να συσχετίζονται µεταξύ τους. Σε αυτή την περίπτωση υποθέτουµε ότι Cov(F)=Ω όπου Ω είναι ένας οποιοσδήποτε πίνακας διακύµανσης. Σε αυτή την περίπτωση έχουµε πως: Σ= Cov( X ) = Cov( LF + ε ) = LCov( F) L ' + Cov( ε ) = LΩ L ' +Ψ Όσον αφορά την εκτίµηση των παραµέτρων του µοντέλου, έχουµε να εκτιµήσουµε περισσότερες παραµέτρους, καθώς χρειαζόµαστε και τα στοιχεία του πίνακα Ω. Μπορούµε να παρατηρήσουµε ότι ο πίνακας Ω είναι ένας πίνακας διακύµανσηςσυνδιακύµανσης και οπότε µπορεί να γραφτεί στην µορφή κατάλληλος πίνακας. Όπότε έχουµε: Σ= LΩ L' +Ψ= LB' BL' +Ψ= L* L*' +Ψ Ω =Β' Β όπου Β ένας Αυτό που καταφέραµε είναι να καταλήξουµε σε ένα ορθογώνιο µοντέλο, όπου τώρα ο πίνακας επιβαρύνσεων είναι ο L *. Στην πράξη, αν θέλουµε να εκτιµήσουµε συσχετισµένους παράγοντες, αυτό µπορεί να γίνει χρησιµοποιώντας µια µη ορθογώνια περιστροφή που θα οδηγήσει σε παράγοντες µε συσχέτιση µεταξύ τους. 115

116 5.1.9 ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ Η παραγοντική ανάλυση από τον ορισµό του µοντέλου της έχει να κάνει µε συνεχή δεδοµένα και οι παράγοντες που υποθέτουµε ότι υπάρχουν είναι και αυτοί συνεχείς. Άλλες µέθοδοι σχετικές µε την παραγοντική ανάλυση ανάλογα µε την µορφή των δεδοµένων είναι: Μεταβλητές Παράγοντες Μέθοδος Συνεχείς Συνεχείς Παραγοντική Ανάλυση ιακριτές Συνεχείς Latent Trait Analysis Συνεχείς ιακριτές Latent Profile Analysis ιακριτές ιακριτές Latent Class Analysis Ένα πολύ καλό και χρήσιµο πλεονέκτηµα της µεθόδου, είναι ότι µας δίνει την δυνατότητα να εφαρµόσουµε παραγοντική ανάλυση έχοντας µόνο τον πίνακα διακύµανσης-συνδιακύµανσης και όχι τα πλήρη δεδοµένα. Αυτό µας επιτρέπει να κάνουµε παραγοντική ανάλυση µε κατηγορικά δεδοµένα και χρήση κάποιου αντίστοιχου πίνακα συνδιακύµανσης. Σε αυτή την περίπτωση η µέθοδος µεγίστης πιθανοφάνειας δεν πρέπει να χρησιµοποιείται, αφού είναι δεδοµένο ότι τα δεδοµένα δεν είναι κανονικά. Μία άλλη µέθοδος που θα µπορούσε να χρησιµοποιηθεί εδώ είναι η µέθοδος κυρίων συνιστωσών (Principal Components). Με χρήση SPSS: Analyze> Data Reduction> Factor Analysis 116

117 Αφού βάλουµε τις µεταβλητές που θέλουµε να χρησιµοποιήσουµε στην παραγοντική ανάλυση, θα πάµε σε κάθε ένα από τα µενού από κάτω και θα κάνουµε τις ανάλογες επιλογές: Statistics Univariate Initial Solution Επιλογή Αποτέλεσµα ιάφορα περιγραφικά στατιστικά µέτρα για κάθε µεταβλητή Η αρχική λύση. Αν διαλέξουµε την µέθοδο κυρίων συνιστωσών παίρνουµε µια στήλη µονάδες. Αυτό δεν ισχύει στην περίπτωση της µεθόδου µεγίστης πιθανοφάνειας όπου οι αρχικές τιµές είναι ο συντελεστής παλινδρόµησης της κάθε µεταβλητής µε επεξηγηµατικές 117

118 Correlation Matrix Coefficients Significant Levels Determinant KMO and Bartlett s test of Sphericity Inverse Reproduced Anti-image Πατάµε Continue. µεταβλητές όλες τις υπόλοιπες. Ο πίνακας συσχετίσεων Ο πίνακας µε τη στατιστική σηµαντικότητα κάθε συσχέτισης ξεχωριστά. Η ορίζουσα του πίνακα συσχετίσεων. Τιµές κοντά στο 0 σηµαίνουν την ύπαρξη συσχετίσεων. Ο έλεγχος σφαιρικότητας του Bartlett και η Kaiser-Meyer-Olkin στατιστική συνάρτηση για την καταλληλότητα των δεδοµένων. Ο αντίστροφος του πίνακα συσχετίσεων Ο εκτιµώµενος πίνακας συσχετίσεων σύµφωνα µε το µοντέλο. Τα διαγώνια στοιχεία είναι οι εταιρκότητες (communalities) ενώ τα στοιχεία κάτω από την διαγώνιο εκφράζουν την διαφορά της εκτιµηµένης συσχέτισης µε την πραγµατική Περιέχει τις αρνητικές τιµές του πίνακα µερικών συσχετίσεων, ενώ τα διαγώνια στοιχεία του πίνακα είναι τα MSA των µεταβλητών. Σε περίπτωση που εφαρµόσουµε την µέθοδο τω κυρίων συνιστωσών το πρώτο πράγµα που πρέπει να κάνουµε είναι να ένα πίνακα διακύµανσης για να δούµε αν µπορούµε να χρησιµοποιήσουµε τον πίνακα διακύµανσης στην ανάλυση µας ή των πίνακα των συσχετίσεων. Σε περίπτωση που οι διακυµάνσεις έχουν µεγάλες αποκλίσεις (π.χ. αν η διακύµανση µιας µεταβλητής είναι 5.32 και µια άλλης µεταβλητής 0.23, µεγάλη η διαφορά τους), ο πίνακας διακύµανσης πλέον δεν είναι κατάλληλος για την ανάλυση µας, οπότε και θα ρησιµοποιήσουµε τον πίνακα των συσχετίσεων (correlation matrix). Οπότε το πρώτο που θα ελέγξουµε τον πίνακα συσχετίσεων: Analyze> Correlate> Bivariate 118

119 πατάµε Continue και ΟΚ και το αποτέλεσµα που θα πάρουµε είναι 119

120 Τα νούµερα που µας ενδιαφέρουν σε αυτό τον πίνακα είναι αυτά που βρίσκονται µέσα σε πλαίσιο. Στα κόκκινα πλαίσια είναι οι συνδιακυµάνσεις, ενώ στα µπλε οι διακυµάνσεις. Αν κοιτάξουµε τις διακυµάνσεις θα δούµε ότι υπάρχουν µεγάλες αποκλίσεις από µεταβλητή σε µεταβλητή. Οπότε ο πίνακας διακύµανσης δεν είναι κατάλληλος για την ανάλυση µας. Εποµένως, θα χρησιµοποιήσουµε το πίνακα των συσχετίσεων (correlation matrix). Έτσι γυρνώντας πάλι στο µενού Analyze> Correlate> Bivariate Και πηγαίνοντας στο µενού Extraction θα κάνουµε τις εξής επιλογές: 120

121 Πηγαίνοντας στο µενού Scores αυτό που θα κάνει είναι να σώσει τα λεγόµενα factor scores σε µια στήλη στο SPSS (κάτι πολύ χρήσιµο). Αν χρησιµοποιήσουµε την µέθοδο των κυρίων συνιστωσών, τα factor scores µπορούν να υπολογιστούν µε ακρίβεια. ηλαδή όποια και από τις τρεις µεθόδους που µας προσφέρονται να διαλέξουµε θα πάρουµε το ίδιο αποτέλεσµα. Σε περίπτωση όµως διαφορετικής ανάλυσης θα πρέπει να διαλέξουµε µια από τις τρεις µεθόδους (Regression, Bartlett και Anderson-Rubin). Τέλος η επιλογή Display factor score coefficient matrix θα µας εµφανίζει τον πίνακα µε τους συντελεστές. ΠΡΟΣΟΧΗ: Αυτός ο πίνακας περιέχει τους συντελεστές µε τους οποίους µπορούµε να εκφράσουµε ένα παράγοντα ως γραµµικό συνδυασµό των µεταβλητών. Επιπλέον η επιλογή των παραγόντων µπορεί να γίνει είτε από τον χρήστη µε την επιλογή Number of factors και να πληκτρολογήσει ο χρήστης τον αριθµό των παραγόντων που θέλει να κρατήσει, είτε κρατώντας τόσους παράγοντες όσους και οι ιδιοτιµές του πίνακα (διακύµανσης ή συσχετίσεων) που χρησιµοποιήσαµε, οι οποίες είναι µεγαλύτερες από την µέση τιµή όλων των ιδιοτιµών. Τώρα που χρησιµοποιήσαµε τον πίνακα των συσχετίσεων η µέση τιµή όλων των ιδιοτιµών είναι 1. Στην πράξη είναι πολύ δύσκολο να γνωρίσουµε πόσους παράγοντες θα κρατήσουµε από την αρχή. Σε αυτό µπορεί να µας βοηθήσει ένα Scree Plot ή το ποσοστό διακύµανσης που εξηγείται από το µοντέλο ανάλογα µε τον αριθµό των παραγόντων που θα κρατήσουµε. Ένα καλό ποσοστό είναι από 80% και πάνω. Βέβαια αυτό είναι υποκειµενικό. Μετά πατάµε Continue. 121

122

123 Descriptive Statistics Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Mean Std. Deviation Analysis N 23,45 7, ,65 104, ,21 38, ,38 852, ,52 2, Είναι ο πίνακας των βασικών περιγραφικών στατιστικών µέτρων για κάθε µία µεταβλητή. Είναι ο πίνακας συσχετίσεων. Βλέπουµε ότι κατά απόλυτη τιµή οι συσχετίσεις είναι ικανοποιητικά µεγάλες. Οπότε άνετα µπορούµε να προχωρήσουµε σε παραγοντική ανάλυση. Αν δεν υπήρχαν ισχυρές συσχετίσεις η παραγοντική ανάλυση δεν θα ενδεικνύονταν. Το αν οι µεταβλητές είναι κατάλληλες για παραγοντική ανάλυση µπορούµε να το δούµε και από το ΚΜΟ test. Επειδή η τιµή του ΚΜΟ είναι κοντά στο 1 σηµαίνει ότι οι µεταβλητές µας είναι κατάλληλες για παραγοντική ανάλυση. Μην ξεχνάµε όµως ότι το ΚΜΟ αφορά όλες τις µεταβλητές. Καλό λοιπόν είναι δούµε ξεχωριστά κάθε µεταβλητή αν είναι κατάλληλη για παραγοντική ανάλυση. Αυτό µπορούµε να το ελέγξουµε από τον πίνακα 123

124 Του οποίου τα διαγώνια στοιχεία είναι τα MSA. Το κοµµάτι που µας αφορά είναι τα MSA για τον πίνακα των Correlation, αφού αυτόν χρησιµοποιήσαµε από την αρχή στην ανάλυσή µας. Εµάς µας ενδιαφέρουν τα MSA να είναι µεγαλύτερα από το 0,8. Αν εξαιρέσουµε τα MSA που αφορούν τις µεταβλητές Vehicle Weight και time to Accelerate from 0 to 60 mph (sec). Ιδιαίτερα µικρή βέβαια είναι η τιµή του MSA της τελευταία (0.629), το οποίο σηµαίνει ότι η συγκεκριµένη µεταβλητή δεν σχετίζεται τόσο πολύ µε τις άλλες. Παρόλο αυτά οι µεταβλητές µας κρίνονται κατάλληλες για την ανάλυση µας. Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Communalities Initial Extraction 1,000,759 1,000,913 1,000,924 1,000,861 1,000,453 Extraction Method: Principal Component Analysis. Στον παραπάνω πίνακα, αν αφαιρέσουµε την δεύτερη στήλη από την µονάδα (και όχι από την στήλη initial που απλά τυχαίνει να είναι 1, επειδή χρησιµοποιούµε την µέθοδο των κυρίων συνιστωσών) έχουµε εκτιµήσεις των ιδιαιτεροτήτων ψ i για κάθε µεταβλητή, δηλαδή του κοµµατιού εκείνου της διακύµανσης κάθε µεταβλητής που δεν µπορεί να εξηγήσει το παραγοντικό µοντέλο. Έτσι, από το παραπάνω πινακάκι βλέπουµε πως η ιδιαιτερότητα για την µεταβλητή κατανάλωση είναι 0.241(= ). Όµοια εκτιµάµε και τις ιδιαιτερότητες και των άλλων µεταβλητών. 124

125 Στο παραπάνω πινακάκι µας βοηθάει στο να αποφασίσουµε το πόσους παράγοντες τελικά θα επιλέξουµε για να κρατήσουµε. Η στήλη στο κόκκινο πλαίσιο µας δείχνει ανάλογα µε τον αριθµό των παραγόντων που θα κρατήσουµε το πόσο (σε ποσοστό πάντα) της διακύµανσης που θα εξηγείται από το µοντέλο. Εδώ βλέπουµε ότι κρατώντας 2 παράγοντες εξηγείται το 92,3% της συνολικής διακύµανσης, ένα πάρα πολύ καλό ποσοστό. Υπενθυµίζουµε ότι το ποιο είναι το ποσοστό της διακύµανσης που θέλουµε να ερµηνεύεται από το µοντέλο είναι καθαρά υποκειµενικό. εν υπάρχει στάνταρ όριο. Το παραπάνω µπορούµε να το δούµε και από το Scree plot που φαίνεται να επιλέγει και αυτό δύο παράγοντες, αφού το γράφηµα αρχίζει να αλλάζει κλίση («οριζοντιοποιείται») από το δεύτερο σηµείο και µετά: 125

126 Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Component Matrix a Component 1 2 -,871 -,243,956,125,962 -,108,928,287 -,673,732 Extraction Method: Principal Component Analysis. a. 2 components extracted. Από τον παραπάνω πίνακα µπορούµε να δούµε πως εκφράζεται κάθε µεταβλητή µε την χρήση των 2 παραγόντων που χρησιµοποιήσαµε. Έτσι έχουµε: Κ αταν άλωση = 0,871F 0,243F 1 2 Μέγεθος Μ ηχαν ής = 0,956F + 0,125F Ι πποδ ύναµη = 0,962F 0,108F Βάρος Ο χ ήµατος = 0,928F + 0,287F 1 2 Ε πιτ άχυνση = 0,673F + 0,732F 1 2 Κοιτάζοντας τις σχέσεις των µεταβλητών και των παραγόντων µπορεί κάποιος να δει ότι οι µεταβλητές Κατανάλωση και Επιτάχυνση έχουν αρνητικές τιµές για τον πρώτο παράγοντα, εποµένως θα µπορούσε κάποιος να διακινδυνεύσει µια ερµηνεία για τον πρώτο παράγοντα µε βάση αυτή την παρατήρηση. Για παράδειγµα µια ερµηνεία για τον πρώτο παράγοντα θα µπορούσε να είναι: «Η κατανάλωση ανά γαλόνι ανάλογα µε την επιτάχυνση που θα είχε ένα αµάξι» Μην ξεχνάµε ότι οι ερµηνείες είναι από τα πιο δύσκολα κοµµάτια της παραγοντικής ανάλυσης και εποµένως είναι καθαρά υποκειµενικές. 126

127 Ο παραπάνω πίνακας περιλαµβάνει στο πρώτο κοµµάτι του τον εκτιµηµένο πίνακα συσχετίσεων σύµφωνα µε το µοντέλο. Στην διαγώνιο του βρίσκονται οι εταιρικότητες. Αν το µοντέλο ήταν τέλειο, τότε δεν θα έπρεπε να υπάρχουν διαφορές (κατάλοιπα) ανάµεσα στον πραγµατικό και τον εκτιµηµένο πίνακα. Στο κάτω µέρος του πίνακα µπορεί κανείς να δει αυτά τα κατάλοιπα, δηλαδή την διαφορά του πραγµατικού πίνακα µείον τον εκτιµηµένο. εν υπάρχει σαφές κριτήριο µε βάση το οποίο να αποφασίζει κανείς αν οι εκτιµήσεις ήταν καλές. Παρ όλα αυτά, ανάµεσα σε δύο διαφορετικά µοντέλα µπορεί κανείς να πάρει κάποια συνάρτηση των καταλοίπων (π.χ. άθροισµα τετραγώνων) και να κρίνει ποιο από τα δύο µοντέλα είναι καλύτερο. Factor Score Coefficient Matrix Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Factor 1 2 -,024,032,110 -,218,148-1,146,740 1,576 -,020,573 Extraction Method: Maximum Likelihood. Factor Scores Method: Bartlett. Το τελευταίο πινακάκι που εξάγεται από το SPSS είναι το παραπάνω. Περιέχει τις εκτιµήσεις των παραµέτρων των επεξηγηµατικών µεταβλητών. Στην ουσία αυτός ο 127

128 πίνακας εκφράζει τους παράγοντες ως γραµµικούς συνδυασµός των αρχικών επεξηγηµατικών, δηλαδή F1 = 0, 024Κ αταν άλωση Μέγεθος _ Μ ηχαν ής + 0,148Ι πποδ ύναµη + 0, 740Βάρος 0, 020Επιτ άχυνση Αν τώρα χρησιµοποιήσουµε την µέθοδο µεγίστης πιθανοφάνειας θα κάποια από τα πινακάκια θα αλλάξουµε, ένα από αυτά είναι και ο πίνακας των Communalities όπου πλέον η στήλη των initials δεν είναι άσσοι. Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Communalities a Initial Extraction,675,680,908,920,894,943,909,988,638,766 Extraction Method: Maximum Likelihood. a. One or more communalitiy estimates greater than 1 were encountered during iterations. The resulting solution should be interpreted with caution. Ένα άλλο πινακάκι που θα αλλάξει είναι ατό του Reproduced Correlations. Αλλάζουν κυρίως οι τιµές των καταλοίπων, τα οποία, όπως είπαµε, αντιπροσωπεύουν τις διαφορές του εκτιµώµενου πίνακα συσχετίσεων από των πραγµατικό. Reproduced Correlation Residual a Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Reproduced Correlations Time to Engine Accelerate Miles per Displacement Vehicle from 0 to 60 Gallon (cu. inches) Horsepower Weight (lbs.) mph (sec),680 b -,790 -,765 -,808,448 -,790,920 b,898,933 -,542 -,765,898,943 b,859 -,701 -,808,933,859,988 b -,415,448 -,542 -,701 -,415,766 b,002 -,006,001 -,013,002 -,001,000 -,003 -,006 -,001-4,66E-005 8,24E-005,001,000-4,66E-005-5,30E-005 -,013 -,003 8,24E-005-5,30E-005 Extraction Method: Maximum Likelihood. a. Residuals are computed between observed and reproduced correlations. There are 0 (,0%) nonredundant residuals with absolute values greater than b. Reproduced communalities 128

129 ΠΡΟΣΟΧΗ: Μόνο όταν χρησιµοποιήσουµε την µέθοδο µεγίστης πιθανοφάνειας µπορούµε να αξιολογήσουµε το µοντέλο ως καλού ή µη καλού. Γιατί µόνο αυτή η µέθοδος µας δίνει την δυνατότητα να αξιολογήσουµε τα µοντέλο µε τη χρήση στατιστικής συµπερασµατολογίας. Χρήση των σκορ: Τα σκορ που έχουµε αποθηκεύσει σε καινούργιες µεταβλητές µπορούν χρησιµοποιηθούν, για να συνεχίσει κανείς την ανάλυση. Στην ουσία έχουµε ποσιτικοποιήσει τους παράγοντες που υποθέσαµε ότι εξηγούν τις συσχετίσεις των αρχικών µεταβλητών µας. Για τα δεδοµένα µας αποθηκεύσαµε τους δύο παράγοντες των µεταβλητών για όλες τις παρατηρήσεις. Από το αρχείο δεδοµένων γνωρίζουµε για κάθε αυτοκίνητο την ήπειρο προέλευσής του. Τα αυτοκίνητα είναι ταξινοµηµένα σε Αµερικάνικα, Ευρωπαϊκά και Γιαπωνέζικα. Στα γραφήµατα που θα ακολουθήσουν βλέπουµε Box-Plots για τις τρεις οµάδες αυτοκινήτων και τις τιµές στους δύο παράγοντες. Είναι ξεκάθαρη η διαφορά στον πρώτο παράγοντα όπου τα αυτοκίνητα από την Αµερική έχουν αρκετά µεγάλες τιµές. Έτσι για τον πρώτο παράγοντα: Graph> Box-Plot> Simple Και το αποτέλεσµα θα είναι: 129

130 3,00000 BART factor score 1 for analysis 7 2, , , , , American European Country of Origin Japanese Αν τρέξουµε την ίδια διαδικασία και για τον δεύτερο παράγοντα, θα έχουµε: 4, BART factor score 2 for analysis 7 2, , , ,00000 American European Country of Origin Japanese 130

131 Ακόµη, στο δεύτερο διάγραµµα βλέπουµε ότι υπάρχουν κάποια ακραία σηµεία. Ακόµη και στα δύο διαγράµµατα φαίνεται να υπάρχει µία µικρή ανοµοιογένεια. Για να έχουµε µια εικόνα της κατανοµής των παρατηρήσεων των παραγόντων σε σχέση µε την χώρα προέλευσης των αυτοκινήτων, καλό θα ήταν να κάνουµε και ένα διάγραµµα σηµείων (scatter plot): Graph> Scatter> Simple Και θα βάλουµε τις µεταβλητές ως εξής: Και το αποτέλεσµα που θα πάρουµε είναι: 131

132 3,00000 Country of Origin American European Japanese BART factor score 1 for analysis 7 2, , , , , , , , ,00000 BART factor score 2 for analysis 7 4,00000 Από το γράφηµα παραπάνω βλέπουµε ότι τα αµερικάνικά αµάξια φαίνεται να είναι πολύ περισσότερα από τα υπόλοιπα. Αυτά που φαίνεται να έχουν µικρότερο ποσοστό του συνόλου είναι τα ευρωπαϊκά. Επιπλέον, βλέπουµε πως χρησιµοποιώντας την παραγοντική ανάλυση η πληροφορία που συµπυκνώνουν οι 2 πρώτοι παράγοντες είναι αρκετοί για να καταφέρουµε να ξεχωρίσουµε τα αυτοκίνητα. 132

133 6. ΠΟΛΥΜΕΤΑΒΛΗΤΕΣ ΣΤΑΤΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ 6.1 ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ (DISCRIMINANT ANALYSIS) Η βασική ιδέα της διαχωριστικής ανάλυσης είναι να κατατάξει δεδοµένα (συνήθως πολυδιάστατα) σε γνωστούς πληθυσµούς µε γνωστές κατανοµές για κάθε πληθυσµό. Ας υποθέσουµε ότι έχουµε Κ πληθυσµούς (οµάδες) Π1, Π2,..., Π Κ µε Κ 2. Τότε για κάθε πληθυσµό Π έχουµε και µία κατανοµή f ( x ). Σκοπός της διαχωριστικής Κ K ανάλυσης είναι να διαχωρίσεις ή να κατανείµει κάθε παρατήρηση στους Κ γνωστούς πληθυσµούς-οµάδες. Προφανώς, ψάχνουµε για ένα διαχωριστικό κανόνα που µπορεί να κατατάξει σωστά όσο το δυνατόν περισσότερες παρατηρήσεις. Οι εφαρµογές της µεθόδου είναι ποικίλες. Το αξιοσηµείωτο µε αυτή την µέθοδο είναι ότι σε πολλές επιστήµες αναφέρεται και µε άλλες ονοµασίες, όπως για παράδειγµα αναγνώριση προτύπων (pattern recognition) στην επιστήµη της πληροφορικής. Μερικά παραδείγµατα εφαρµογών της µεθόδου είναι τα εξής: Στην Ιατρική συνήθως το ενδιαφέρον είναι να διαγνώσουµε την ασθένεια κάποιου ασθενή. εδοµένου ότι για κάθε αρρώστια είναι γνωστά τα συµπτώµατά της θέλουµε να κατασκευάσουµε ένα κανόνα, ο οποίος λαµβάνοντας υπόψη τα συµπτώµατα αλλά και την γνώση µας για τα συµπτώµατα ενός σύνολο ασθενειών να κάνει διάγνωση για τον καινούργιο ασθενή. Στα χρηµατοοικονοµικά οι τράπεζες ενδιαφέρονται να εντοπιστούν «καλούς» και «κακούς» πελάτες πριν την χορήγηση δανείου ή πιστωτικής κάρτας (credit scoring). Ως «καλούς» και «κακούς» µπορούµε να θεωρήσουµε αυτούς που πληρώνουν κανονικά τις δόσεις τους και αυτούς που δεν πληρώνουν, αντίστοιχα. Συνεπώς, µε την χρήση ιστορικών στοιχείων σχετικά µε άτοµα που έλαβαν δάνειο από την τράπεζα, η τράπεζα µπορεί να δηµιουργήσει κανόνες ώστε να κατατάξει έναν καινούργιο πελάτη σε µία από τις δύο κατηγορίες και πιθανότατα να αρνηθεί χορήγηση δανείου είτε να χορηγήσει το δάνειο µε όρους σύµφωνους µε το επίπεδο κινδύνου (risk) που έχει διαγνώσει για τον νέο πελάτη. κ.α. 133

134 Αυτό που πρέπει να τονίσουµε σε αυτό το σηµείο είναι ότι ενώ η διαχωριστική ανάλυση µοιάζει µε την ανάλυση κατά οµάδες (συστάδες), που θα δούµε παρακάτω, στην ουσία έχει σηµαντικές διαφορές από αυτή. Η πιο σηµαντική από τις διαφορές είναι ότι ενώ στην διαχωριστική ανάλυση οι οµάδες είναι γνωστές, στην ανάλυση κατά οµάδες σκοπός µας είναι να βρούµε αυτές τις οµάδες. Επιπλέον, στην διαχωριστική ανάλυση σκοπός µας είναι να δηµιουργήσουµε ένα κανόνα που θα µας βοηθήσει να λάβουµε αποφάσεις στο µέλλον, ενώ στην ανάλυση κατά οµάδες ο κύριος στόχος µας είναι να δηµιουργήσουµε οµοειδείς οµάδες µε σκοπό την κατανόηση των ήδη υπαρχόντων στοιχείων και την µείωση της διασποράς σε επιµέρους οµάδας. Με χρήση SPSS Θα χρησιµοποιήσουµε ένα παράδειγµα ανάλυσης πιστωτικών κινδύνων (Credit Risk Analysis). Το σετ των δεδοµένων που θα χρησιµοποιήσουµε στην εφαρµογή µας, απαρτίζεται από 1000 πελάτες από µια γερµανική τράπεζα. Για κάθε ένα πελάτη είναι διαθέσιµη η πληροφόρηση για τον αν είναι άξιος ή όχι να του δοθεί κάποιου είδους πίστωση (Creditability). Επιπροσθέτως, παραθέτονται 20 συµµεταβλητές που θα µας βοηθήσουνε στην οµαδοποίηση των πελατών σε φερέγγυους και επισφαλείς για την παροχή αυτής της πίστωσης. Στην αναφορά µας θα χρησιµοποιήσουµε 2 µεθόδους ανάλυσης των πιστωτικών κινδύνων: της Discriminant Analysis και της Λογιστικής Παλινδρόµησης. Και για τις δύο αυτές αναλύσεις θα χρησιµοποιήσουµε τις ίδιες µεταβλητές. Ως εξαρτηµένη θα χρησιµοποιήσουµε την δίτιµη µεταβλητή Creditability και ως ανεξάρτητες τη συνεχής µεταβλητή Amount of credit in "Deutsche Mark" (x) και τις διατάξηµες Value of savings or stocks (in DM) (k), Has been employed by current employer for (years) (l), Installment in % of available income(m), καθώς και τις ψευδοµεταβλητές (dummies) Runnig Credits at other banks(t), Running credits at department store or mail order house(h), Not available/ not assets (g), Car/ other(v), Savings contract with a building society / Life insurance(w), hesitant payment of previous credits (d), problematic running account / there are further credits running but at other banks (p), no previous credits / paid back all previous credits (q) και την no problems with current credits at this bank (f). Η πρώτη µέθοδος που θα χρησιµοποιήσουµε είναι η Discriminant analysis ή αλλιώς διαχωριστική ανάλυση. 134

135 Αρχικά και πριν κάνουµε οποιαδήποτε ανάλυση, καλό θα ήταν να ελέγξουµε την κανονικότητα των συνεχών µας µεταβλητών, λόγω του ότι για να είναι έγκυρη η διαχωριστική ανάλυση θα πρέπει να ισχύει η υπόθεση της κανονικότητας. Analyze> Descriptive Statistics> Explore Και τοποθετούµε τις συνεχείς µεταβλητές (εδώ µόνο η µεταβλητή Amount είναι συνεχής) ως εξής: Πηγαίνουµε στο µενού plots και κάνουµε τις εξής επιλογές: Πατάµε Continue και µετά ΟΚ. 135

136 Και το αποτέλεσµα που θα πάρουµε είναι το παραπάνω πινακάκι: Tests of Normality Amount of credit in "Deutsche Mark" (metric) Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig., ,000, ,000 a. Lilliefors Significance Correction Βάσει του παραπάνω πίνακα δεν ισχύει η υπόθεση της κανονικότητας µιας και η συνεχής µεταβλητή µας Amount of credit in "Deutsche Mark" δεν ακολουθεί κανονική κατανοµή (p-value=0.000 κάτω από το επίπεδο στατιστικής σηµαντικότητας α=0.05 που έχουµε ορίσει). Αυτό βέβαια µπορούµε να το παρατηρήσουµε και από το ιστόγραµµα και το QQ Plot (τα σηµεία απέχουν σηµαντικά από την ευθεία). Histogram Frequency Mean = 3271,25 Std. Dev. = 2822,752 N = Amount of credit in "Deutsche Mark" (metric) 136

137 Normal Q-Q Plot of Amount of credit in "Deutsche Mark" (metric) 4 2 Expected Normal Observed Value Παρόλο αυτά εµείς θα συνεχίσουµε την ανάλυση µας, γνωρίζοντας πως δεν ισχύει η υπόθεση της κανονικότητας. Κάνοντας τα παραπάνω προχωράµε στην ανάλυσή µας. Analyze> Classify> Discriminant 137

138 Grouping Variable: Εδώ ζητείται η µεταβλητή που καθορίζει τις οµάδες. Εµείς τοποθετήσαµε την µεταβλητή Creditability η οποία χωρίζει του πελάτες της τράπεζας σε άξιους να λάβουν κάποιου είδους πίστωσης από την τράπεζα και σε µη άξιος για µια πίστωση. Επιπλέον πρέπει να ορίσουµε το εύρος τον οµάδων στην επιλογή Define Range. Εδώ ορίζουµε σαν ελάχιστη τιµή (minimum) το 0 και σαν µέγιστη τιµή (maximum) το 1. Independents: Σε αυτή τη θέση τοποθετούµε τις ανεξάρτητες µεταβλητές µε βάση τις οποίες θα γίνει η ταξινόµηση της κάθε παρατήρησης. Οι µεταβλητές πρέπει να ποσοτικές. Οι υπόλοιπες επιλογές περιλαµβάνουν την χρήση όλων των ανεξάρτητων µεταβλητών (Enter Independents Together) ή εναλλακτικά την χρήση κλιµακωτών µεθόδων επιλογής ανεξάρτητων µεταβλητών (Use Stepwise Method). Η δεύτερη επιλογή είναι πολύ χρήσιµη στην πράξη γιατί εντοπίζει βήµα-βήµα τις ασήµαντες µεταβλητές για το διαχωρισµό και τις αφαιρεί από την διαχωριστική συνάρτηση. Επειδή εµείς εδώ έχουµε παραπάνω από δύο µεταβλητές καλό θα ήταν να χρησιµοποιήσουµε την επιλογή Use Stepwise Method. Αφού βάλουµε τις µεταβλητές όπως παραπάνω πηγαίνουµε στο µενού Statistics. Στο υποµενού Statistics έχουµε τις εξής επιλογές: Καταρχάς παρατηρούµε ότι το υποµενού Statistics χωρίζεται σε τρία µέρη: 138

139 Descriptives : Επιλέγοντας να το Means εξάγονται µέσες τιµές, επιλέγοντας το Univariate ANOVAs θα γίνει ανάλυση διακύµανσης κατά ένα παράγοντα, ενώ επιλέγοντας Box s M διεξάγουµε έναν έλεγχο ισότητας πινάκων διακύµανσηςσυνδιακύµανσης. Για το πρώτο επίπεδο της µεταβλητής Creditability έχουµε τα εξής περιγραφικά: Βέβαια επειδή µόνο η µεταβλητή Amount of Credit in Deutsch Mark είναι ποσοτική τα παραπάνω περιγραφικά µέτρα δεν έχουν νόηµα για τις υπόλοιπες µεταβλητές που είναι κατηγορικές. Το πινακάκι της Ανάλυσης ιακύµανσης µας δείχνει 139

140 Από τον παραπάνω πίνακα βλέπουµε ότι για τις µεταβλητές που είναι µέσα στο κόκκινο πλαίσιο οι µέσοι για τα δύο επίπεδα της µεταβλητής Creditability είναι ίδιοι αφού τα p-value είναι µεγαλύτερα από το 0.05 επίπεδο σηµαντικότητας που ορίσαµε στην αρχή της ανάλυσής µας, οπότε και δεν απορρίπτεται η µηδενική υπόθεση ότι οι µέσοι των δύο επιπέδων της µεταβλητής Creditability για τις εν λόγω µεταβλητές είναι ίσοι. Εφαρµόζοντας δε την µέθοδο Stepwise και πηγαίνοντας στο µενού Method και επιλέγοντας την επιλογή Wilks θα δούµε πως οι µεταβλητές που είναι µέσα στο κόκκινο πλαίσιο αφαιρούνται από την διαχωριστική συνάρτηση. 140

141 Variables in the Analysis Step Tolerance F to Remove Wilks' Lambda 1 Value of savings or stocks (in DM) 1,000 33,014 2 Value of savings or stocks (in DM),991 38,015,976 Amount of credit in "Deutsche Mark" (metric),991 29,451,968 3 Value of savings or stocks (in DM),989 39,511,958 Amount of credit in "Deutsche Mark" (metric),991 29,767,949 problematic running account / there are further credits running but at other,998 20,040,940 banks 4 Value of savings or stocks (in DM),985 42,174,945 Amount of credit in "Deutsche Mark" (metric),907 40,928,944 problematic running account / there are further credits running but at other,998 19,152,924 banks Installment in % of available income,914 16,432,922 5 Value of savings or stocks (in DM),982 38,651,928 Amount of credit in "Deutsche Mark" (metric),894 33,813,923 problematic running account / there are further credits running but at other,994 21,003,912 banks Installment in % of available income,913 16,997,908 hesitant payment of previous credits,976 15,103,907 6 Value of savings or stocks (in DM),982 39,066,911 Amount of credit in "Deutsche Mark" (metric),887 37,628,910 problematic running account / there are further credits running but at other,920 31,158,904 banks Installment in % of available income,910 18,877,893 hesitant payment of previous credits,919 23,052,897 no previous credits / paid back all previous credits,871 18,875,893 7 Value of savings or stocks (in DM),973 34,658,899 Amount of credit in "Deutsche Mark" (metric),886 38,362,

142 problematic running account / there are further credits running but at other banks,917 29,025,894 Installment in % of available income,893 21,953,888 hesitant payment of previous credits,918 22,030,888 no previous credits / paid back all previous credits,859 15,579,883 Has been employed by current employer for,957 8,635,876 (years) 8 Value of savings or stocks (in DM),972 35,252,895 Amount of credit in "Deutsche Mark" (metric),835 29,074,889 problematic running account / there are further credits running but at other,917 28,399,889 banks Installment in % of available income,886 19,616,881 hesitant payment of previous credits,917 21,173,883 no previous credits / paid back all previous credits,859 15,506,878 Has been employed by current employer for,955 9,209,872 (years) Not available/ not assets,931 5,542,869 9 Value of savings or stocks (in DM),972 35,152,891 Amount of credit in "Deutsche Mark" (metric),828 26,759,884 problematic running account / there are further credits running but at other,882 31,500,888 banks Installment in % of available income,886 19,553,878 hesitant payment of previous credits,884 23,947,881 no previous credits / paid back all previous credits,728 19,364,878 Has been employed by current employer for (years) Not available/ not assets,952 8,474,868,931 5,303,865 no problems with current credits at this bank,825 3,902,

143 Στο 9 και τελευταίο βήµα της µεθόδου Stepwise φαίνονται οι µεταβλητές που τελικά θα χρησιµοποιηθούν στην διαδικασία του διαχωρισµού. Παρατηρούµε ότι σε αυτές τις µεταβλητές δεν συµπεριλαµβάνονται οι µεταβλητές που βρίσκονταν στο κόκκινο πλαίσιο παραπάνω στο πινακάκι τις ANOVA. Αν τώρα επιλέξουµε να γίνει ο έλεγχος Box s Μ ο οποίος ελέγχει Η0 : Σ 1 =Σ 2 =... =Σ Κ Αν τα P-value>0.05 τότε δεν απορρίπτεται η µηδενική υπόθεση. Εµείς θέλουµε να µην απορρίπτεται. Αξίζει να αναφέρουµε ότι ο έλεγχος αυτός είναι ευαίσθητος στην κανονικότητα. Από αυτό καταλαβαίνουµε ότι επειδή στα δεδοµένα µας παρατηρήσαµε ότι δεν ισχύει η κανονικότητα ενδέχεται ο έλεγχος να απορρίψει την µηδενική υπόθεση πράγµα που όντως συµβαίνει αφού το p-value=0.000<0.05: Test Results Box's M 497,319 F Approx. df1 df2 Sig. 10, ,000 Tests null hypothesis of equal population covariance matrices. Αξίζει να αναφέρουµε ότι σε πραγµατικά δεδοµένα είναι σπάνιο να βρούµε ότι πληρείται η υπόθεση της κανονικότητας και πόσο µάλλον η υπόθεση ης ισότητας των πινάκων διακύµανσης-συνδιακύµανσης. Και αυτός βέβαια είναι ο λόγος που οι ερευνητές εφαρµόζουν την διαχωριστική ανάλυση ακόµα και όταν δεν ισχύουν οι υποθέσεις. Η δεύτερη κατηγορία ορίζει τον υπολογισµό για την εµφάνιση των συντελεστών της διαχωριστικής ανάλυσης (Function Coefficients). Για κάθε οµάδα υπολογίζοµε ένα σκορ µε βάση κάποια συνάρτηση. Στην περίπτωσή µας οι συναρτήσεις είναι γραµµικές ως προς τις ανεξάρτητες. Η επιλογή Fisher s υπολογίζει συντελεστές των γραµµικών συναρτήσεων των σκορ µε την µέθοδο του Fisher και για το παράδειγµα µας δίνει: 143

144 Classification Function Coefficients Value of savings or stocks (in DM) Has been employed by current employer for (years) Installment in % of available income Not available/ not assets hesitant payment of previous credits problematic running account / there are further credits running but at other banks no previous credits / paid back all previous credits no problems with current credits at this bank Amount of credit in "Deutsche Mark" (metric) (Constant) not credit worthy Fisher's linear discriminant functions Creditability credit worthy,326,610 2,088 2,272 2,981 2,670 3,020 3,417 6,118 4,138 2,954 1,928 1,762 1,507 1,050,907,001,001-13,238-12,367 Τώρα το µοντέλο για την πρώτη κατηγοριοποίηση θα είναι: w1 = 13, k l m+ 3, 02g d p q+ 1, 05 f x όµοια εκφράζεται και το µοντέλο ( 2 w 2 ) της δεύτερης κατηγορίας. Αυτό το πινακάκι µας βοηθάει στο να κατατάξουµε κάθε νέο πελάτη της τράπεζας που ζητάει κάποιου είδους πίστωσης σε µία από τις δύο κατηγορίες της µεταβλητής Creditability. Αν w1 > w τότε κατατάσσουµε τον πελάτη στην πρώτη κατηγορία δηλαδή ότι δεν είναι άξιος για να το δώσει η τράπεζα κάποιου είδους πίστωσης, αλλιώς τον κατατάσσουµε στην 2 η κατηγορία. Στην τρίτη κατηγορία των επιλογών του υποµενού Statistics δίνει την επιλογή του υπολογισµού συνδυασµένων πινάκων συνδιακύµανσης και συσχέτισης. Και την επιλογή υπολογισµού του πίνακας συνδιακύµανσης για κάθε οµάδα αλλά και του συνόλου των οµάδων. 144

145 Στο υποµενού Classify θα κάνουµε τις εξής επιλογές: Το υποµενού αυτό χωρίζεται σε τέσσερις οµάδες κατηγοριών: Prior Probabilities: Μπορούµε να διαλέξουµε ανάµεσα σε ίσες πιθανότητες ή σε υπολογισµό από το µέγεθος του δείγµατος. υστυχώς αν έχουµε κάποια άλλου είδους πληροφόρηση δεν µπορούµε να την χρησιµοποιήσουµε στο SPSS. Για το λόγο αυτό, αν το SPSS είναι το µοναδικό στατιστικό πακέτο που διαθέτουµε, καλό θα ήταν όταν έχουµε κάποια πληροφόρηση για τα πραγµατικά ποσοστά των οµάδων στον πραγµατικό πληθυσµό τότε και στο δείγµα διατηρείται και η ίδια αναλογία έτσι ώστε να επιλέξουµε Compute from group sizes. Use Covariance Matrix: µπορούµε να επιλέξουµε αν η λύση θα γίνει µε ίσες ή µε άνισε διακυµάνσεις. Αυτό προϋποθέτει να κάνουµε πρώτα τον έλεγχο Box s M το οποίο στον δικό µας παράδειγµα απορρίπτει την υπόθεση της ισότητας πινάκων διακυµάνσεων-συνδιακυµάνσεων, οπότε επιλέγουµε χρήση του συνδυασµένου πίνακα συνδιακυµάνσεων (Within-groups). Display: περιλαµβάνει εµφάνιση αποτελεσµάτων ανά παρατήρηση (casewise results). Αν έχουµε πολλές παρατηρήσεις µπορούµε να περιορίσουµε την εµφάνιση των αποτελεσµάτων στις πρώτες n παρατηρήσεις (limit cases to first..). Επιπλέον µπορούµε να δούµε πως κατατάσσεται η κάθε παρατήρηση αν κάνουµε διαχωριστική ανάλυση χωρίς συγκεκριµένη παρατήρηση και µετά να την κατατάξουµε µε βάση την διαχωριστική συνάρτηση των άλλων παρατηρήσεων (Leave-one-out classification). Τέλος η επιλογή του Summary table µας δίνει ένα πολύ σηµαντικό πίνακα: 145

146 Original Cross-validated a Count % Count % Classification Results b,c Creditability not credit worthy credit worthy not credit worthy credit worthy not credit worthy credit worthy not credit worthy credit worthy Predicted Group Membership not credit worthy credit worthy Total ,0 33,0 100,0 30,7 69,3 100, ,0 34,0 100,0 31,4 68,6 100,0 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 68,6% of original grouped cases correctly classified. c. 67,8% of cross-validated grouped cases correctly classified. Ο οποίος είναι χρήσιµος για τον υπολογισµό της επιτυχίας της διαχωριστικής ανάλυσης µας. Πιο συγκεκριµένα εδώ βλέπουµε ότι έχουµε 68,6% ποσοστό σωστού διαχωρισµού για την συνολική διαχωριστική ανάλυση και 67,8% για την προσέγγιση της διασταυρωµένης επικύρωσης. Τα ποσοστά δεν είναι µεγάλα, είναι όµως ικανοποιητικά. Αυτό θα πρέπει να το περιµένουµε σε πραγµατικά δεδοµένα. Tο ποσοστό του επιτυχηµένου διαχωρισµού µπορούµε να το µετρήσουµε µε το ποσοστό των σωστά καταχωρηµένων παρατηρήσεων (68,6%) όπως παραπάνω αλλά και µε τον υπολογισµό του δείκτη συµφωνίας Κappa αφού αποθηκεύσουµε τις προβλεπόµενες οµάδες. Αυτό µπορούµε να το κάνουµε κάνοντας τον αντίστοιχο πίνακα συνάφειας (Crosstabs) όπως είδαµε στο κεφάλαιο 4 Analyze> Descriptive Statistics> Crosstabs µόνο που στο υποµενού Statistics θα επιλέξουµε µόνο την επιλογή Kappa. Αυτό που θέλουµε τιµές κοντά στο 1. Το τέταρτο και τελευταίο υποµενού είναι αυτό του Save. Η οµάδα επιλογών αποθήκευσης τις προβλεπόµενες µε βάση την ανάλυση οµάδες (predicted group memberships), τα σκορ διαχωρισµού (Discriminant scores) και τις πιθανότητες να ανήκουν σε µια οµάδα (probabilities of group memberships). 146

147 Συνήθως µιας ενδιαφέρει η αποθήκευση της προβλεπόµενης οµάδας για κατάταξη των παρατηρήσεων των οποίων η οµάδα δεν είναι γνωστή και για έλεγχο της επιτυχίας του διαχωρισµού µέσα από τον υπολογισµό του δείκτη συµφωνίας Κ. Αφήσαµε το δεύτερο µενού Method λόγω της ιδιοµορφίας του. Αυτό το µενού µπορούµε να το χρησιµοποιήσουµε µόνο στην περίπτωση που χρησιµοποιήσουµε την µέθοδο Stepwise. Στην κλιµακωτή µέθοδο επιλογής µεταβλητών (Stepwise method), ξεκινάµε χωρία καµία µεταβλητή στο µοντέλο και συνεχίζουµε προσθέτοντας τη µεταβλητή µε τον καλύτερο δείκτη ανάλογα µε την µέθοδο που διαλέγουµε στην υπό-οµάδα method ή το αντίστοιχο καλύτερο F)δεδοµένου ότι ικανοποιείται το όριο εισόδου της µεταβλητής που θέτουµε στο criteria. Παράλληλα σε κάθε βήµα ελέγχουµε αν κάποια από τις µεταβλητές που είναι ήδη στο µοντέλο πρέπει να αφαιρεθεί στις επιλογές criteria. Αν κάποια µεταβλητή πρέπει να αφαιρεθεί θα είναι αυτή µε το µικρότερο F. Η πρώτη οµάδα των επιλογών αναφέρεται στην επιλογή της µεθόδου επιλογής των µεταβλητών (method): Wilks Lambda: Σε κάθε βήµα επιλέγουµε ποια µεταβλητή θα εισάγουµε στο µοντέλο µα βάση την µείωση του λάµδα του Wilks. Για κάθε µεταβλητής υπολογίζεται ένα F το οποίο βασίζεται στην διαφορά µεταξύ των λάµδα του Wilks για τα µοντέλα µε και χωρίς την µεταβλητή. Μη ξεχνάµε ότι ο δείκτης Wilks µετράει το ποσοστό της µη ερµηνεύσιµης από το µοντέλο διακύµανσης. Unexplained Variance: εδώ επιλέγουµε σαν δείκτη απόδοσης της κάθε µεταβλητής το άθροισµα της ερµηνεύσιµης διακύµανσης ανάµεσα στα ζευγάρια των οµάδων. 147

148 Mahalanobis Distance: η µέθοδος αυτή βασίζεται στον υπολογισµό της απόστασης Mahalanobis των δύο πιο κοντινών οµάδων. Σε κάθε βήµα εισάγεται η µεταβλητή που µεγαλώνει αυτή την απόσταση. Smallest F-ratio: η µέθοδος αυτή βασίζεται στον υπολογισµό του F για όλα τα ζευγάρια των τιµών και από αυτές τις τιµές επιλέγουµε το µικρότερο F. Σε κάθε βήµα επιλέγεται εκείνη η µεταβλητή που µεγιστοποιεί αυτό το µικρότερο F. Rao s V: η µέθοδος αυτή βασίζεται στον υπολογισµό της απόστασης Mahalanobis µεταξύ της κάθε οµάδας και του συνολικού δείγµατος. Σε κάθε βήµα εισάγεται εκείνη η µεταβλητή που µεγιστοποιεί την απόσταση αυτή. Η οµάδα επιλογών εµφάνισης λεπτοµερειών (display) µας δίνει την δυνατότητα να παρακολουθήσουµε περιληπτικά την εισαγωγή και απαλοιφή των µεταβλητών από το µοντέλο (summary of steps) και να δούµε τους δείκτες F για όλες τις συγκρίσεις ανά ζεύγη (F for pairwise distances). Σε αυτό το σηµείο καλό θα ήταν δώσουµε και την ερµηνεία κάποιων επιπλέον πινάκων που εξάγει η διαχωριστική ανάλυση. Wilks' Lambda Test of Function(s) 1 Wilks' Lambda Chi-square df Sig., ,068 9,000 Ο πίνακας παραπάνω υπολογίζει το λάµδα του Wilks, το οποίο όπως είπαµε αντιπροσωπεύει το ποσοστό της διακύµανσης που δεν εξηγεί το µοντέλο. Μπορούµε να χρησιµοποιήσουµε το λάµδα για να ελέγξουµε την υπόθεση ότι οι µέσοι όλων των µεταβλητών ανά οµάδα είναι ίσοι. Αυτό το τεστ µπορεί να µας δώσει καλά αποτελέσµατα σε περίπτωση που οι µεταβλητές µας δεν είναι κατάλληλες για διαχωρισµό. Εδώ απορρίπτουµε την ισότητα των µέσων (p-value=0.000<0.05), άρα δεν φαίνεται να υπάρχει πρόβληµα µε την εφαρµογή της διαχωριστικής ανάλυσης µας. Ο πίνακας structure matrix µας δίνει τους δείκτες συσχέτισης κάθε ανεξάρτητης µεταβλητής µε κάθε µια διαχωριστική συνάρτηση και µας βοηθάει στο να 148

149 αξιολογήσουµε πόσο σηµαντική είναι κάθε µεταβλητή για την κατασκευή της διαχωριστικής συνάρτησης. Θέλουµε τιµές πάνω από 0,5. Value of savings or stocks (in DM) Amount of credit in "Deutsche Mark" (metric) hesitant payment of previous credits problematic running account / there are further credits running but at other banks Not available/ not assets Has been employed by current employer for (years) Installment in % of available income Savings contract with a building society / Life a insurance Runnig Credits at other a banks no previous credits / paid back all previous credits Running credits at department store or mail a order house no problems with current credits at this bank Car/ other a Structure Matrix Function 1 -,452,389,364,337 -,299 -,290,180,149,131,109,104,031,020 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. a. This variable not used in the analysis. Σε αυτό το dataset οι µεταβλητές δεν φαίνεται να είναι και οι καλύτερες για την εφαρµογή του εν λόγω διαχωρισµού σε άξιους και µη για χορήγηση κάποιου είδους πίστωσης, παρ όλα αυτά είχαµε, όπως είδαµε παραπάνω, ένα καλό ποσοστό σωστού διαχωρισµού (68.6%). Τέλος ο πίνακας κεντροειδών µας δίνει την µέση τιµή της κάθε κανονικοποιηµένης διαχωριστικής συνάρτησης για κάθε µία οµάδα. Functions at Group Centroids Creditability not credit worthy credit worthy Function 1,614 -,263 Unstandardized canonical discriminant functions evaluated at group means Εδώ έχουµε δύο οµάδες άρα µια συνάρτηση και µέσους ίσους µε 0,614 για τους πελάτες που δεν αξίζουν να πάρουν κάποιου είδους πίστωση και -0,263 για αυτούς που αξίζουν. 149

150 6.1.1 ΑΛΛΕΣ ΜΕΘΟ ΟΙ ΠΑΡΟΜΟΙΕΣ ΜΕ ΤΗΝ ΙΑΧΩΡΙΣΤΙΚΗ ΑΝΑΛΥΣΗ Η διαχωριστική ανάλυση, όµως, δεν είναι η µοναδική µέθοδος που προσπαθεί και µπορεί να κατατάξει τις παρατηρήσεις σε οµάδες. Υπάρχουν και πολλές άλλοι µέθοδο που µπορούν να φέρουν σε πέρας µια τέτοια διαδικασία. Πολλές από αυτές τις µεθόδους αναπτύχθηκαν σε ένα διαφορετικό περιβάλλον από στατιστικό για αυτό και δεν διαθέτουν σηµαντικό στατιστικό υπόβαθρο. Παρόλο αυτά τα αποτελέσµατά τους φαίνονται να είναι ικανοποιητικά. Σε τοµέα που αφορά στην ανάλυση των πιστωτικών κινδύνων, οι τεχνικές και οι προσεγγίσεις που µπορούν να χρησιµοποιηθούν στο να καθοδηγήσουν αναλύσεις µε µοναδικό σκοπό την πρόβλεψη είναι: Γραµµική Παλινδρόµηση Μέθοδος κοντινότερων γειτόνων (K-nearest neighbors) Λογιστική παλινδρόµηση (logistic regression) Τα δέντρα παλινδρόµησης και ταξινόµησης (CART: Classification and Regression Trees ή ένδρα Αποφάσεων Τα νευρωνικά δίκτυα (neural networks) Probit Regression Γραµµική Παλινδρόµηση Η πιο απλή µέθοδος που µπορούµε να χρησιµοποιήσουµε για πετύχουµε ένα διαχωρισµό σε δύο οµάδες είναι τα γραµµικώς παλίνδροµα µοντέλα, τα οποία αναλύουν την σχέση µεταξύ µιας εξαρτηµένης µεταβλητής, η οποία θα παίρνει την τιµή 1 όταν η παρατήρηση ανήκει στην πρώτη οµάδα και 0 αν όχι, µε ένα σετ ανεξάρτητων. Η σχέση αυτή µπορεί να εκφραστεί µε µια εξίσωση µεταξύ της εξαρτηµένης και ενός σετ ανεξάρτητων µεταβλητών. Εκτιµώντας τις παραµέτρους του µοντέλου µπορούµε να πάρουµε ικανοποιητικές προβλέψεις για την εξαρτηµένη µεταβλητή, που µας ενδιαφέρει. Γενικότερα, σκοπός αυτής της ανάλυσης είναι να µειώσουµε όσο µπορούµε τα αθροίσµατα των τετραγώνων των καταλοίπων κάνοντας τις εκτιµήσεις που αναφέραµε.. Στην περίπτωση τώρα που έχουµε περισσότερες από δύο οµάδες, πάλι µπορούµε να χρησιµοποιήσουµε κάτι ανάλογο γενικεύοντας την πολλαπλή παλινδρόµηση σε πολυµεταβλητή(δηλαδή ένα µοντέλο το οποίο έχει περισσότερες από µια εξαρτηµένες). Με αυτή την γενίκευση αυτή, έχουµε το πλεονέκτηµα του ότι η 150

151 συγκεκριµένη µέθοδος (Πολυµεταβλητή παλινδρόµηση) µας επιτρέπει να λάβουµε υπόψη την συνδιακύµανση που έχουν οι µεταβλητές, κάτι που στην περίπτωση που χρησιµοποιούσαµε πολλά µονοµεταβλητά µοντέλα θα το αγνοούσαµε Η Μέθοδος των κοντινότερων γειτόνων (K-nearest neighbors) Η µέθοδος κοντινότερου γείτονα είναι µια γενική µέθοδος µε εφαρµογές στην κατασκευή µοντέλων πρόβλεψης νέων τιµών που µπορεί να χρησιµοποιηθεί και για την κατάταξη παρατηρήσεων. Η βασική ιδέα είναι πως έχουµε ένα δείγµα και θέλουµε για µια νέα παρατήρηση µε γνωστές τιµές και για ένα διάνυσµα µεταβλητών x, να προβλέψουµε την τιµή µια µεταβλητής y. Τότε χρησιµοποιούµε για την πρόβλεψή µας την πληροφορία που περιέχουν οι τιµές δείγµατος που µοιάζουν περισσότερο µε την νέα παρατήρηση για την οποία θέλουµε να κάνουµε πρόβλεψη. Η εκτίµηση αυτή δίνεται από τον τύπο: Στην ουσία βρίσκουµε ποιες παρατηρήσεις είναι πιο κοντά στην τιµή για την οποία θέλουµε να κάνουµε πρόβλεψη και προβλέπουµε παίρνοντας το µέσο όρο των τιµών των κοντινότερων παρατηρήσεων. Μια παραλλαγή της µεθόδου, θα µπορούσε να ήταν κάλλιστα η στάθµιση µε την απόσταση, δηλαδή πιο όµοιες παρατηρήσεις µε µικρή απόσταση να λαµβάνονται περισσότερο υπόψη. Στην περίπτωση κατάταξης σε διάφορους πληθυσµούς (όπως και στην περίπτωση της Πολυµεταβλητή παλινδρόµησης) δεν µπορούµε να χρησιµοποιήσουµε τον µέσο όρο. Συνήθως αυτό που χρησιµοποιούµε ως πρόβλεψη είναι η τιµή µε την µεγαλύτερη συχνότητα στις κοντινότερες παρατηρήσεις, ηλαδή, βρίσκουµε σε ποιες οµάδες ανήκουν οι κοντινότερες παρατηρήσεις και κατατάσσουµε την παρατήρηση µας στην οµάδα στην οποία ανήκουν οι περισσότερες. Ένας άλλος τρόπος θα ήταν να χρησιµοποιήσουµε τις συχνότητες για κάθε οµάδα ως µέτρο κατάταξης µε πιθανότητα ανάλογη της σχετικής συχνότητας που βρήκαµε στις κοντινότερες Λογιστική Παλινδρόµηση Η Λογιστική Παλινδρόµηση στην ουσία είναι γενίκευση της απλής γραµµικής παλινδρόµησης για την περίπτωση που η εξαρτηµένη µεταβλητή Υ είναι δίτιµη ( π.χ. 0=αποτυχία και 1=επιτυχία). Σε αυτή την περίπτωση έχουµε: Y Binomial p N, µε [ ] (, ) i i i log p /(1 p ) = β + β Χ β Χ i i i p pi όταν τα δεδοµένα δίνονται ως αριθµός επιτυχιών Y i σε σύνολο N i πειραµάτων ή Y Bernouli( p ) µε log [ pi /(1 pi) ] = β0 + β1χ 1i βpχ pi i i 151

152 όταν η Yi υποδεικνύει σε ποια οµάδα ανήκει η i παρατήρηση. Από τα παραπάνω µπορούµε να υπολογίσουµε την πιθανότητα για κάθε παρατήρηση να ανήκει στην 1 η ή στην 2 η οµάδα, η οποία περιγράφεται από τον τύπο: p 1 e β + β Χ β Χ 0 1 1i p pi i = β0+ β1χ 1i β pχ + pi e Η σχέση λογιστικής παλινδρόµησης και διαχωριστικής ανάλυσης είναι αρκετά µεγάλη. Ειδικά για την περίπτωση που έχουµε δύο οµάδες τα αποτελέσµατα είναι αρκετά όµοια (εξαρτάται βέβαια και από τις υποθέσεις που έχουν γίνει για τον πληθυσµό). Τα µοντέλα λογιστικής παλινδρόµησης έχουν το πλεονέκτηµα να υπολογίζουν αυτόµατα τις πιθανότητες κάθε οµάδας, κάτι που έµµεσα µπορεί να γίνει και µε την διαχωριστική ανάλυση. Η λογιστική παλινδρόµηση, όπως και οι άλλες µεθόδους παραπάνω µπορεί να γενικευθεί για την περίπτωση περισσότερων σπό δυο πληθυσµούς-οµάδες µε τη χρήση της µεθόδου Multinomial Logistic Regression. Βασικά το µοντέλο αυτό, υποθέτει ότι κάθε παρατήρηση Υ i είναι µια παρατήρηση από µια πολυωνυµική κατανοµή µε πιθανότητες p j, j=1,,k, k p j = 1. Η µεταβλητή Υ i, δηλαδή j = 1 περιέχει την τιµή που καθορίζει την οµάδα, στην οποία η παρατήρηση ανήκει. Στη συνέχεια συνδέουµε τις πιθανότητες, µε την χρήση του Logit µετασχηµατισµού, µε τις µεταβλητές που θα χρησιµοποιήσουµε για την κατασκευή του κανόνα κατάταξης. Με την χρήση αυτού του µοντέλου εκτιµάµε τις πιθανότητες κάθε οµάδας και εποµένως µπορούµε να κατατάξουµε τις παρατηρήσεις µε βάση τη µεγαλύτερη πιθανότητα ένδρα Αποφάσεων (CART) Αποτελεί µια µη παραµετρική µέθοδο που παράγει παλίνδροµα δέντρα ή δέντρα οµαδοποιήσεων ανάλογα από το αν η εξαρτηµένη µεταβλητή είναι συνεχής ή κατηγορική. Τα δένδρα αποφάσεων χωρίζονται σε δύο µεγάλες κατηγορίες µε πολλά κοινά χαρακτηριστικά: Τα δέντρα ταξινόµησης (classification trees) Τα δέντρα παλινδρόµησης (regression trees) Η βασική διαφορά είναι ότι στα δέντρα ταξινόµησης καταλήγουµε σε κάποια απόφαση που κατατάσσει την παρατήρηση σε κάποια οµάδα, ενώ στα δέντρα παλινδρόµησης 152

153 καταλήγουµε σε µια τιµή που είναι η τιµή πρόβλεψης που έχουµε για την παρατήρησή µας. Τα δένδρα παλινδρόµησης και κατάταξης συνδέονται περισσότερο µε την ανάλυση σε οµάδες παρά µε την διαχωριστική ανάλυση. Η µέθοδος ξεκινάει µε όλες τις παρατηρήσεις σε µια οµάδα και «σπάει» το δείγµα σε οµάδες ανάλογα µε τα χαρακτηριστικά τους. Η διαδικασία γίνεται µέχρι ο κανόνας παύσης ικανοποιηθεί Νευρωνικά ίκτυα (Neural Networks) Τα νευρωνικά δίκτυα είναι µια εντατική υπολογιστικά προσέγγιση, η οποία µετατρέπει εισερχόµενη πληροφορία σε επιθυµητή εξερχόµενη πληροφορία. Η επεξεργασία της πληροφορίας βασίζεται σε συνδυασµένα δίκτυα µικρών επεξεργαστικών οµάδων, οι οποίες λέγονται νευρώνες ή κόµβοι. Τα νευρωνικά δίκτυα αποτελούν µια απλοποιηµένη εφαρµογή του τρόπου λειτουργίας του ανθρώπινου µυαλού. Τρία είναι τα βασικά συστατικά ενός νευρωνικού δικτύου: οι κόµβοι, ο τρόπος σύνδεσης τους και ο αλγόριθµος µε τον οποίο βρίσκουµε τις τιµές των παραµέτρων του δικτύου. Τα νευρωνικά δίκτυα µπορούν να χρησιµοποιηθούν για διαχωρισµό οµάδων µε επιδόσεις ανάλογες µε αυτές της λογιστικής παλινδρόµησης και της διαχωριστικής ανάλυσης Probit Regression Υπάρχει, τέλος, και η µέθοδος της Probit Regression, η οποία αποτελεί µια παραλλαγή της λογιστικής παλινδρόµησης για την µοντελοποίηση κατηγορικών εξαρτηµένων µεταβλητών. Παρόλο που τα αποτελέσµατα µεταξύ των δύο αυτών µεθόδων τείνουν να είναι ίδια, οι υποκείµενες κατανοµές διαφέρουν. Ολοκληρώνοντας µε την Probit Regression, ολοκληρώθηκε και το κοµµάτι που αφορά στις µεθόδους που µπορούµε να χρησιµοποιήσουµε στον κλάδο των πιστωτικών κινδύνων. 153

154 6.2 ΑΝΑΛΥΣΗ ΚΑΤΑ ΣΥΣΤΑ ΕΣ (CLUSTER ANALYSIS) Η ανάλυση κατά συστάδες σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρώντας χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες µεταβλητές. Με άλλα λόγια αυτή η µέθοδος εξετάζει πόσο όµοιες είναι κάποιες παρατηρήσεις ως προς κάποιον αριθµό µεταβλητών µε σκοπό να δηµιουργήσει οµάδες από παρατηρήσεις που µοιάζουν µεταξύ τους. Μια επιτυχηµένη ανάλυση θα πρέπει να καταλήξει σε οµάδες για τις οποίες οι παρατηρήσεις µέσα σε κάθε οµάδα να είναι όσο γίνεται πιο οµοιογενείς, αλλά παρατηρήσεις διαφορετικών οµάδων να διαφέρουν όσο γίνεται περισσότερο Η cluster analysis βρίσκει εφαρµογή σε πολλές επιστήµες. Μερικά παραδείγµατα: Οι βιολόγοι ενδιαφέρονται να κατατάξουν διαφορετικά ήδη ζώων σε οµάδες µε βάση κάποια χαρακτηριστικά τους. Στο Marketing το ενδιαφέρον είναι πως µπορούν να οµαδοποιηθούν οι πελάτες σύµφωνα µε τα στοιχεία που υπάρχουν σχετικά µε τις αγοραστικές τους συνήθειες και τα δηµογραφικά χαρακτηριστικά τους. Κάτι τέτοιο είναι πολύ χρήσιµο, κυρίως για διαφηµιστικούς λόγους, για παράδειγµα κάποια προϊόντα απευθύνονται σε συγκεκριµένη αγοραστική οµάδα. κ.α. ύο βασικές έννοιες για την ανάλυση κατά οµάδες, αλλά όχι µόνο, είναι οι έννοιες της απόστασης και της οµοιότητας. Μπορούµε εύκολα να διαπιστώσουµε ότι αυτές οι δύο έννοιες είναι αντίθετες µεταξύ τους, αφού παρατηρήσεις που είναι όµοιες θα έχουν µεγάλη οµοιότητα και µικρή απόσταση. Το συµπέρασµα είναι ότι στην ανάλυση κατά συστάδες σκοπός µας είναι να δηµιουργήσουµε οµάδες µέσα στις οποίες οι παρατηρήσεις απέχουν λίγο, ενώ παρατηρήσεις διαφορετικών οµάδων απέχουν µεταξύ τους αρκετά. Σε αυτό το σηµεία καλό θα ήταν να αναφέρουµε ότι υπάρχουν αρκετές διαφορετικές προσεγγίσεις για το πώς µπορούµε να οµαδοποιήσουµε τα δεδοµένα µας. Οι βασικότερες και πιο διαδοµένες προσεγγίσεις είναι: Ιεραρχικές µέθοδοι: Ξεκινάµε µε κάθε παρατήρηση να είναι από µόνη της µια οµάδα. Σε κάθε βήµα ενώνουµε τις δύο παρατηρήσεις που έχουν πιο µικρή απόσταση. Αν δύο παρατηρήσεις έχουν ενωθεί σε προηγούµενο βήµα, ενώνουµε µια υπάρχουσα οµάδα µε µια παρατήρηση µέχρι να φτιάξουµε µια 154

155 οµάδα. Κοιτώντας τα αποτελέσµατα, διαλέγουµε πόσες οµάδες τελικά προκύπτουν. K-means: Ο αριθµός των οµάδων είναι γνωστός από πριν. Με ένα επαναληπτικό αλγόριθµο µοιράζουµε τις παρατηρήσεις στις οµάδες ανάλογα µε το ποια οµάδα είναι πιο κοντά στην παρατήρηση. Στατιστικές µέθοδοι: Και οι δύο µέθοδοι που είπαµε στηρίζονται καθαρά σε αλγοριθµικές λύσεις και δεν προϋποθέτουν κάποιο µοντέλο. Υπάρχουν αρκετές µέθοδοι στατιστικές ξεκινώντας από κάποιες υποθέσεις κατατάσσουµε τις παρατηρήσεις. υστυχώς αυτές οι µέθοδοι έχουν αρκετά υπολογιστικά προβλήµατα και για αυτό δεν προσφέρονται από πολλά στατιστικά πακέτα. Τελειώνοντας, θα πρέπει να τονίσουµε ότι µερικές φορές η ανάλυση σε οµάδες µπορεί να έχει και άλλους σκοπούς εκτός από την απλή οµαδοποίηση των δεδοµένων. Έτσι, η ανάλυση µπορεί να χρησιµοποιηθεί για: Τη διερεύνηση σχέσεων στα δεδοµένα Την µείωση των διαστάσεων του προβλήµατος ηµιουργία και έλεγχο υποθέσεων σχετικά µε τα δεδοµένα Πρόβλεψη καινούριων τιµών. Έχοντας δηµιουργήσει οµάδες από παρατηρήσεις σε πολλές εφαρµογές, ενδιαφερόµαστε να κατατάξουµε καινούριες παρατηρήσεις. Για παράδειγµα, µία τράπεζα έχει κατατάξει τους πελάτες της σε καλούς µέτριους και κακούς και θέλει να κατατάσσει και τους καινούργιους πελάτες σε αυτές τις κατηγορίες µε βάσης κάποια χαρακτηριστικά τους ΠΡΟΒΛΗΜΑΤΑ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ Ο ΕΡΕΥΝΗΤΗΣ Πριν προχωρήσουµε στην περιγραφή των συγκεκριµένων µεθόδων ανάλυσης, θα πρέπει να αναφερθούµε σε κάποια προβλήµατα που αφορούν όλες της µεθόδους ανάλυσης κατά συστάδες. Τα πιο σηµαντικά προβλήµατα είναι: Ποιες µεταβλητές πρέπει να χρησιµοποιηθούν Στην πραγµατικότητα δεν υπάρχει κάποιος τρόπος για να οδηγήσει στην επιλογή µεταβλητών πριν από την ανάλυση. Στην πράξη η επιλογή των µεταβλητών αυτών αν και είναι πολύ σηµαντική δεν αντιµετωπίζεται συνήθως µε την δέουσα σοβαρότητα. 155

156 Αν λοιπόν δεν υπάρχει κάποια σχετική εµπειρία ή κάποιος θεωρητικός λόγος για να επιλέξουµε κάποιες συγκεκριµένες από τις µεταβλητές µας για να χρησιµοποιήσουµε στην ανάλυσή µας, τότε αφού κάνουµε την ανάλυση µπορούµε να δούµε εκ των υστέρων αν κάποιες από τις µεταβλητές ήταν τελικά µη στατιστικά σηµαντικές στην ανάλυση µας, αν δηλαδή η τιµή τους είναι ίδια για όλες τις οµάδες που δηµιουργήσαµε και εποµένως δεν έχουν καµία διακριτική ικανότητα. Ένα άλλο πρόβληµα που σχετίζεται µε τις µεταβλητές µας έχει να κάνει µε τυχόν µετασχηµατισµό των δεδοµένων µας. Ένας µετασχηµατισµό θα ήταν να τυποποιήσουµε τα δεδοµένα µας, αλλά κάνοντας κάτι τέτοιο θα κατασκευάζαµε έτσι τα δεδοµένα µας ώστε να έχουν ίδια µεταβλητότητα. Αυτό όµως θα µπορούσε να οδηγήσει σε χάσιµο πληροφορίας, αφού οι διαφορές στην κλίµακα µπορεί να είναι σηµαντικές. Ποια απόσταση/ οµοιότητα να χρησιµοποιήσουµε Η επιλογή της απόστασης έχει να κάνει µε την µέθοδο που θα χρησιµοποιήσουµε αλλά και τον τύπο των δεδοµένων µας. Επίσης, είναι σηµαντικό να γνωρίζουµε το σκοπό της ανάλυσης αλλά και κάποια επιµέρους χαρακτηριστικά. Συνεπώς, το πρόβληµα επιλογής είναι αρκετά πολύπλοκο. Πόσες οµάδες θα φτιάξουµε Η ανάλυση σε συστάδες, όπως είπαµε, σκοπό έχει να φτιάξει οµοιογενείς οµάδες. Πόσες όµως είναι αυτές; Όπως θα δούµε αργότερα, κάποιες από τις µεθόδους απαιτούν ο αριθµός των οµάδων να είναι γνωστός εκ των προτέρων. Πως εποµένως θα βρούµε τον αριθµό αυτό; Πιο κάτω θα δούµε µε ποιους τρόπους θα µπορούσαµε να προσδιορίσουµε τον αριθµό των οµάδων. Αξιοσηµείωτο και εδώ είναι ότι και πάλι ο τρόπος εκτίµησης εξαρτάται και από την µορφή των δεδοµένων. Ποια µέθοδο να χρησιµοποιήσουµε Γενικά οι ιεραρχικές µέθοδοι δεν είναι καλή επιλογή για να χρησιµοποιούνται για µεγάλο πλήθος δεδοµένων, καθώς απαιτούν πολύ χρόνο και υπολογιστική ισχύ. Επίσης, υπάρχει η τάση να δηµιουργούνται οµάδες µε ανοµοιογενές µέγεθος. Από Την άλλη µέθοδος K-means, ενώ αποφεύγει αυτά τα προβλήµατα, δουλεύει 156

157 ικανοποιητικά µε µεγάλα δείγµατα και δηµιουργεί οµάδες παραπλήσιου µεγέθους, εξαρτάται πολύ από τις αρχικές τιµές που θα χρησιµοποιήσουµε ΑΝΑΛΥΣΗ ΜΕΘΟ ΩΝ CLUSTERING Η µέθοδος K-Means Η µέθοδος θεωρεί πως ο αριθµός των οµάδων που θα προκύψουν είναι γνωστός εκ των προτέρων. Αποτελεί έναν περιορισµό της µεθόδου, καθώς είτε πρέπει να τρέξουµε τον αλγόριθµο µε διαφορετικές επιλογές ως προς το πλήθος των οµάδων είτε πρέπει µε κάποιον άλλο τρόπο να έχουµε καταλήξει στον αριθµό των οµάδων. Ο αλγόριθµος Κ-means ανήκει σε µία µεγάλη κατηγορία αλγορίθµων οµαδοποίησης που είναι γνωστοί ως αλγόριθµοι διαµέρισης (portioning algorithms). Η µέθοδος δουλεύει επαναληπτικά. Χρησιµοποιεί την έννοια του κέντρου (centroid) της οµάδας και στην συνέχεια κατατάσσει τις παρατηρήσεις ανάλογα µε την απόσταση τους από τα κέντρα όλων των οµάδων. Το κέντρο κάθε οµάδας δεν είναι τίποτα άλλο από την µέση τιµή για κάθε µεταβλητή όλων των παρατηρήσεων της οµάδας, δηλαδή αντιστοιχεί στο διάνυσµα των µέσων. Στην συνέχεια για κάθε παρατήρηση υπολογίζουµε την ευκλείδεια απόσταση της από τα κέντρα των οµάδων που έχουµε και κατατάσσουµε κάθε παρατήρηση στην οµάδα που είναι πιο κοντά. Αφού κατατάξουµε όλες τις παρατηρήσεις, τότε υπολογίζουµε από την αρχή τα κέντρα, απλώς ως διάνυσµα των µέσων για τις παρατηρήσεις που ανήκουν στην κάθε οµάδα. Η διαδικασία επαναλαµβάνεται µέχρις ότου δεν υπάρχουν διαφορές ανάµεσα σε δύο διαδοχικές επαναλήψεις. Η παραπάνω διαδικασία αλγοριθµικά αποτυπώνεται ως: Βήµα 1 ο : Βρες τα αρχικά κέντρα Βήµα 2 ο : Κατάταξε κάθε παρατήρηση στην οµάδα της οποίας το κέντρο έχει τη µικρότερη απόσταση από την παρατήρηση. Βήµα 3 ο : Από τις παρατηρήσεις που είναι µέσα στην οµάδα υπολόγισε τα νέα κέντρα. Βήµα 4 ο : Αν νέα κέντρα δε διαφέρουν από τα παλιά σταµάτα αλλιώς πήγαινε στο βήµα

158 Ο αλγόριθµος ουσιαστικά ελαχιστοποιεί το άθροισµα των τετραγωνικών αποστάσεων των παρατηρήσεων από τα κέντρα των οµάδων που ανήκουν. Συνήθως η λύση περιέχει οµάδες µε περίπου όµοιο αριθµό παρατηρήσεων. Το µεγάλο µειονέκτηµα του αλγορίθµου είναι ότι εξαρτάται από τις αρχικές τιµές, οι οποίες αν δεν βρεθούν µε καλό τρόπο, µπορεί να οδηγήσουν σε πολύ διαφορετική οµαδοποίηση. Ένα άλλο πρόβληµα έχει να κάνει µε τον αριθµό των οµάδων που θα επιλέξουµε. Μια τακτική είναι η οµαδοποίηση µε διαφορετικό κάθε φορά αριθµό οµάδων και στο τέλος τη επιλογή της οµάδας που είναι κατά κάποιο τρόπο βέλτιστη. Ένας τρόπος να αποφύγουµε την υλοποίηση µεγάλου αριθµού διαφορετικών οµαδοποιήσεων είναι να µελετάµε την λύση που ήδη έχουµε, προσπαθώντας να ενώσουµε ή να διαλύσουµε οµάδες που θα µπορούσαν α µας βελτιώσουν την µέση απόσταση των παρατηρήσεων από το κέντρο της οµάδας που ανήκουν. Η µέθοδος K-means βασίζεται στην ευκλείδεια απόσταση, αλλά µπορεί να χρησιµοποιηθεί κάθε είδους απόσταση (city-block, Minkowski απόσταση κ.α.). Για µη συνεχή δεδοµένα υπάρχει το πρόβληµα ότι δεν µπορούµε να υπολογίσουµε τους µέσους των οµάδων. Έτσι θα χρησιµοποιήσουµε κάποιο άλλο µέτρο, π.χ. για κατηγορικά δεδοµένα µε κατάταξη µπορούµε να χρησιµοποιήσουµε το διάνυσµα διαµέσων ενώ για ονοµαστικά δεδοµένα την επικρατούσα τιµή (mode). Με χρήση SPSS: To βασικό πριν κάνουµε οποιαδήποτε ανάλυση είναι να βγάλουµε περιγραφικά µέτρα για κάθε µια από τις µεταβλητές (για τις συνεχείς περιγραφικά και για τις κατηγορικά συχνότητες). Αν δούµε µεγάλες αποκλίσεις στα περιγραφικά χαρακτηριστικά των δεδοµένων µας, π.χ. όπως θα δούµε στα δεδοµένα που θα χρησιµοποιήσουµε οι µέσοι έχουν µεγάλες αποκλίσεις µε την έννοια σε κάποιες µεταβλητές ο µέσος είναι τις τάξεως του 1000 και σε άλλες του 10), τότε µια καλή τεχνική για να απαλείψουµε αυτό το πρόβληµα είναι να τυποποιήσουµε τα δεδοµένα µας. Έτσι, αφού βρούµε πρώτα τα περιγραφικά µέτρα για τις συνεχείς µεταβλητές µας: Analyze> Descriptive Statistics> Descriptives 158

159 Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω πινακάκι: Από το οποίο βλέπουµε ότι οι µέσοι έχουν µεγάλη απόκλιση οπότε αυτό που θα κάνουµε είναι να τυποποιήσουµε τα δεδοµένα µας. Είναι µια απλή διαδικασία που θα γίνει από το µενού Transform> Compute. Γνωρίζουµε ότι ο τύπος της τυποποίησης είναι: z = x x s όπου x: είναι οι τιµές της µεταβλητής που θέλουµε να τυποποιήσουµε x : είναι ο µέσος της µεταβλητής x που θέλουµε να τυποποιήσουµε s : είναι η τυπική απόκλιση των παρατηρήσεων της µεταβλητής x 159

160 Αφού στο κουτάκι Target Variable βάλουµε το όνοµα της νέας (τυποποιηµένης πια µεταβλητής) στον κουτάκι Numeric Expression εισάγουµε τον παραπάνω τύπο τυποποίησης και πατάµε ΟΚ. Στο SPSS θα έχει δηµιουργηθεί µια νέα µεταβλητή µε το όνοµα ZBeds. Το ίδιο θα κάνουµε και για τις υπόλοιπες συνεχείς µεταβλητές. Αφού κάνουµε την τυποποίηση των συνεχών µεταβλητών θα προχωρήσουµε στην διεξαγωγή της Cluster Analysis. Analyze> Classify> K-means Και αφού τοποθετήσουµε τις µεταβλητές (τις τυποποιηµένες) όπως παρακάτω: Θα πάµε να κάνουµε τις απαραίτητες ρυθµίσεις στα τρία υποµενού κάτω κάτω. Το πρώτο µενού θα µας δώσει το παρακάτω παράθυρο: Στο οποίο δεν θα αλλάξουµε τίποτα. Το υποµενού Save θα µας δώσει το παρακάτω πινακάκι και θα επιλέξουµε την επιλογή Cluster Membership: 160

161 Ενώ στο τρίτο µενού θα κάνουµε τις εξής επιλογές: Μετά πατάµε Continue και ΟΚ. Οι διάφορες επιλογές που κάναµε αφορούν τα παρακάτω πινακάκια που εξάγαµε µε την διαδικασία της ανάλυσης σε οµάδες: Initial Cluster Centers: Περιέχει τα αρχικά κέντρα των οµάδων, αυτά δηλαδή από όπου ξεκινάει ο αλγόριθµος. Initial Cluster Centers Zbeds ZRBeds ZOUTV ZSalesy ZSales12 ZHip95 ZKnee95 ZHip96 ZKnee96 ZFemur96 Cluster ,81,00 -,09 34,07 -,29 6,82 3,06 -,52,08 -,40 -,40 18,16 -,36 -,36 20,64 -,74 19,72 -,74 -,62 11,87 -,62 -,74 18,59 -,74 -,64 10,48 -,64 -,96 1,94 -,96 161

162 Iteration History: Περιέχει πληροφορίες για το πώς µετακινείται ο αλγόριθµος σε κάθε επανάληψη. Η τιµή που εµφανίζεται είναι η απόσταση ανάµεσα στο κέντρο της οµάδας στην τρέχουσα επανάληψη µε το κέντρο της οµάδας κατά την προηγούµενη. Όταν η απόσταση αυτή µηδενιστεί, σταµατά ο αλγόριθµος. Iteration Iteration History a Change in Cluster Centers ,563 26,368 28,376 1,459 1,598,255 2,472,583,105 1,616,399,076 1,732,194,042,900,121,026 1,034,054,021 1,098,035,032,567,017,024,517,004,028 a. Iterations stopped because the maximum number of iterations was performed. Iterations failed to converge. The maximum absolute coordinate change for any center is,449. The current iteration is 10. The minimum distance between initial centers is 39,396. Final Cluster Centers: Περιέχει τα κέντρα των οµάδων που βρέθηκαν, αφού σταµάτησε ο αλγόριθµος. Final Cluster Centers Zbeds ZRBeds ZOUTV ZSalesy ZSales12 ZHip95 ZKnee95 ZHip96 ZKnee96 ZFemur96 Cluster ,40 1,31 -,26 3,38,08 -,19 -,35,53 -,09,20 1,01 -,22,17,97 -,21 -,69 1,62 -,31 -,58 1,56 -,30 -,70 1,64 -,31 -,60 1,60 -,31 -,91 1,59 -,29 162

163 ANOVA: Ο πίνακας περιέχει την ανάλυση διακύµανσης για το αν διαφέρουν οι µέσες τιµές ανάµεσα στις οµάδες. Μεταβλητές µε καλή ικανότητα να ξεχωρίζουν τις παρατηρήσεις πρέπει να είναι στατιστικά σηµαντικές. Πρέπει να ληφθεί υπόψη πως αυτές οι τιµές της στατιστικής σηµαντικότητας έχουν µάλλον περιγραφικό σκοπό, για να συγκρίνουµε µεταβλητές µεταξύ τους, καθώς ο αλγόριθµος έχει κατάλληλα σχεδιαστεί να µεγιστοποιεί την ελεγχοσυνάρτηση F και εποµένως η χρήση του είναι µάλλον ενδεικτική. Zbeds ZRBeds ZOUTV ZSalesy ZSales12 ZHip95 ZKnee95 ZHip96 ZKnee96 ZFemur96 Cluster ANOVA Error Mean Square df Mean Square df F Sig. 813,001 2, ,231, ,461 2, ,219, ,456 2, ,929, ,123 2, ,553, ,895 2, ,865, ,075 2, ,985, ,614 2, ,082, ,211 2, ,299, ,695 2, ,986, ,925 2, ,990,000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. Εδώ βλέπουµε ότι οι µεταβλητές είναι στατιστικά σηµαντικές για την ανάλυσή µας εποµένως οι µεταβλητές αυτές έχουν καλή ικανότητα να ξεχωρίζουν τις παρατηρήσεις. (Σε περίπτωση που κάποιες από τις µεταβλητές µας φαίνονταν µη στατιστικά σηµαντικές ή θα τις αφαιρούσαµε από την ανάλυσή µας ή απλά θα αυξάναµε τον αριθµό των cluster στην επιλογή Number of Clusters). Number of Cases in each Cluster: Ο πίνακας αυτός µα δείχνει πόσες παρατηρήσεις περιέχει κάθε οµάδα τελικά. Number of Cases in each Cluster Cluster Valid Missing , , , ,000,

164 Επειδή όµως µία εικόνα αξίζει χίλιες λέξεις καλό θα ήταν να παρουσιάσουµε σε ένα Error Bars που κάνει ένα γράφηµα διαστηµάτων εµπιστοσύνης ανάλογα µε κάθε Cluster: Graph> Error Bar> Clustered και Summaries of separate variables Και τοποθετούµε την στήλη των Cluster Membership που είχαµε σώσει τρέχοντας Cluster Analysis στο κουτί Category Axes και τις µεταβλητές που τρέξουµε την Cluster Analysis όπως παρακάτω: Πατάµε ΟΚ και το αποτέλεσµα θα είναι το παρακάτω διάγραµµα: 164

165 Όπου βλέπουµε τις οµάδες που έχουν δηµιουργηθεί. Ιεραρχική Οµαδοποίηση Στην ιεραρχική οµαδοποίηση ο αριθµός των οµάδων δεν είναι γνωστός από πριν. Οι µέθοδοι λειτουργούν ιεραρχικά µε την έννοια ότι ξεκινούν χρησιµοποιώντας κάθε παρατήρηση σαν µια οµάδα και σε κάθε βήµα ενώνουν σε οµάδες τις παρατηρήσεις που βρίσκονται κοντά. Την µέθοδο αυτή αλγοριθµικά θα µπορούσαµε να την αποτυπώσουµε: Βήµα 1: ηµιούργησε τον πίνακα αποστάσεων για όλες τις οµάδες Βήµα 2:Βρες τη µικρότερη απόσταση και ένωσε τις δύο παρατηρήσεις µε την µικρότερη απόσταση. ηλαδή δηµιουργούµε µια οµάδα µε τις παρατηρήσεις που είναι πιο κοντά. Αν η µικρότερη απόσταση αφορά µια ήδη δηµιουργηθείσα 165

166 οµάδα και µια παρατήρηση, απλώς βάζουµε αυτή τη παρατήρηση σε αυτή την οµάδα ή αν αφορά δύο οµάδες που ήδη υπάρχουν τις ενώνουµε. Βήµα 3: Αν δεν έχουν όλες οι παρατηρήσεις µπει σε µια οµάδα, πήγαινε στο βήµα 1, αλλιώς σταµάτα. Υπάρχουν µερικά σηµαντικά σηµεία για τον αλγόριθµο που ο ερευνητής πρέπει να αποφασίσει. Αρχικά, θα πρέπει να αποφασιστεί το είδος της απόστασης που θα χρησιµοποιηθεί. Ένα άλλο σηµαντικό σηµείο για τον αλγόριθµο είναι ότι θα υπολογίσουµε την απόσταση της οµάδας που φτιάξαµε σε σχέση µε µια άλλη οµάδα. Υπάρχουν πολλές µέθοδοι, µερικές από αυτές είναι: Nearest Neighbor: Η µέθοδος του κοντινότερου γείτονα, υπολογίζει την απόσταση ανάµεσα σε δύο οµάδες ως την µικρότερη απόσταση από µια παρατήρηση µέσα σε µια οµάδα µε κάποια παρατήρηση στην άλλη οµάδα. Η µέθοδος έχει κάποιες χρήσιµες µαθηµατικές ιδιότητες, αλλά παράγει οµάδες που δεν είναι συµπαγείς και συνήθως δηµιουργεί µερικές πολύ µεγάλες οµάδες και κάποιες πολύ µικρές. Furthest Neighbor: Σε αυτή την περίπτωση συµβαίνει το αντίθετο. ηλαδή, η µέθοδος του µακρύτερου γείτονα υπολογίζει την απόσταση ανάµεσα σε δύο οµάδες ως την µεγαλύτερη απόσταση από µια παρατήρηση µέσα στη µια οµάδα µε κάποια παρατήρηση στην άλλη οµάδα. Οι οµάδες που δηµιουργούνται είναι συνήθως συµπαγείς, αλλά αποτυγχάνει να δηµιουργήσει κάποιες µικρές µα πολύ συµπαγείς οµάδες. Average between groups: Σε αυτή τη περίπτωση η απόσταση είναι ο µέσος της απόστασης ανάµεσα σε όλες τις αποστάσεις της µιας οµάδας µε τα στοιχεία της άλλης. Αν, για παράδειγµα, η οµάδα περιλαµβάνει τις παρατηρήσεις {1,2} και η άλλη τις παρατηρήσεις {3,4,5}, τότε η απόσταση είναι ο µέσος των αποστάσεων d(1,3), d(1,4), d(1,5), d(2,3), d(2,4) και d(2,5). Average within groups: Στην περίπτωση αυτή η απόσταση είναι ο µέσος όλων των αποστάσεων που προκύπτουν, όταν ενώσουµε τις δύο οµάδες. ηλαδή, στην περίπτωση των οµάδων που είχαµε πριν, η νέα απόσταση θα είναι ο µέσος των αποστάσεων d(1,2), d(1,3), d(1,4), d(1,5), d(2,3), d(2,4), d(2,5), d(3,4), d(3,5), d(4,5). 166

167 Centroid: Η απόσταση υπολογίζεται ως η απόσταση των κέντρων των οµάδων. Μέθοδος αυτή έχει µερικές καλές ιδιότητες και παράγει συνήθως οµάδες συµπαγείς και ελλειπτικές. Ward method: Αυτή η µέθοδος διαφέρει από τις άλλες και είναι σχεδιασµένη να ελαχιστοποιεί τη διακύµανση µέσα σε οµάδες. Για κάθε παρατήρηση µπορούµε να υπολογίσουµε την απόσταση της από το κέντρο της οµάδας. Αν αθροίσουµε για όλες τις οµάδες, έχουµε µια τιµή που είναι το συνολικό άθροισµα. Αρχικά, αυτό το άθροισµα είναι 0, αφού κάθε παρατήρηση είναι και µια οµάδα, άρα η απόσταση από το κέντρο της είναι 0. Σε κάθε βήµα ενώνουµε τις οµάδες τις οποίες, αν ενωθούν, οδηγούν στην µικρότερη αύξηση του συνολικού αθροίσµατος αποστάσεων. Η µέθοδος έχει µερικές πολύ καλές ιδιότητες και συνήθως δηµιουργεί οµάδες µε παρόµοιο αριθµό παρατηρήσεων. Για αυτό και πολύ συχνά χρησιµοποιείται στην πράξη. Συγκρίνοντας τις µεθόδους µεταξύ τους, θα πρέπει να γνωρίζουµε ότι από πειράµατα προσοµοίωσης οι µέθοδοι µε την καλύτερη επίδοση είναι η µέθοδος του Ward και η Average Between Groups. Η µέθοδος Nearest Neighbor είναι αυτή µε την χειρότερη επίδοση. Αυτό που θα πρέπει να έχει ο ερευνητής πάντα στο µυαλό του είναι ότι, αν οι οµάδες είναι αρκετά διαφορετικές µεταξύ τους, κάθε µέθοδος θα βρει σωστή οµαδοποίηση. Επιπλέον, κάθε µέθοδος δουλεύει καλύτερα µε συγκεκριµένη µορφή δεδοµένων. Ένα καλό που έχει η ιεραρχική οµαδοποίηση είναι ότι εξάγει δενδροδιαγράµµατα. Το δενδροδιάγραµµα αποτελεί ένα πολύτιµο οπτικό εργαλείο για την ιεραρχική οµαδοποίηση την ιστορία της οµαδοποίησης και βοηθάει την επιλογή της λύσης που τελικά θα κρατήσουµε, αλλά εµφανίζει και τη δυναµική της µεθόδου. Κατά τα άλλα η ιεραρχική οµαδοποίηση δεν αποτελεί την καλύτερη µέθοδο οµαδοποίησης. Με χρήση SPSS: Σε αυτή την ανάλυση θα χρησιµοποιήσουµε τα δεδοµένα του προηγούµενου παραδείγµατος χρησιµοποιώντας µόνο τις 80 πρώτες παρατηρήσεις για κάθε µεταβλητή, επειδή όπως αναφέραµε παραπάνω η ιεραρχική δεν µπορεί να τρέξει όταν έχουµε µεγάλο αριθµό παρατηρήσεων (π.χ. πάνω από 100 παρατηρήσεις για κάθε µεταβλητή). Όπως και στη περίπτωση της µεθόδου K-means, τo βασικό πριν κάνουµε οποιαδήποτε ανάλυση είναι να βγάλουµε περιγραφικά µέτρα για κάθε µια 167

168 από τις µεταβλητές (για τις συνεχείς περιγραφικά και για τις κατηγορικά συχνότητες). Ακολουθώντας την ίδια διαδικασία µε το παράδειγµα για την µέθοδο K-means, θα δούµε µεγάλες αποκλίσεις στα περιγραφικά χαρακτηριστικά (στον µέσο κυρίως) των δεδοµένων µας, εποµένως θα χρησιµοποιήσουµε και εδώ τεχνική της τυποποίησης των συνεχών δεδοµένων µας για να απαλείψουµε αυτό το πρόβληµα. Θα ακολουθήσουµε ακριβώς την ίδια διαδικασία µε το προηγούµενο παράδειγµα. Αφού τυποποιήσουµε θα συνεχίσουµε µε την ανάλυση ιεραρχικής οµαδοποίησης: Analyze> Classify> Hierarchical Cluster Τοποθετούµε τις µεταβλητές µας όπως παρακάτω: Στο παραπάνω παράθυρο βλέπουµε ότι µας δίνονται πολλές επιλογές που µπορούµε να κάνουµε. Καταρχάς, το SPSS µας επιτρέπει να κάνουµε και οµαδοποίηση ως προς τις µεταβλητές. Κάτι τέτοιο όµως θα ήταν αρκετά επικίνδυνο, αφού η διαδικασία είναι χωρίς νόηµα. Χρειάζεται µεγάλη προσοχή, αν δοκιµαστεί κάτι τέτοιο και γενικά πρέπει να αποφεύγεται. Αυτά µε τα οποία πρέπει να ασχοληθούµε και να διαλέξουµε είναι ποια απόσταση θα χρησιµοποιήσουµε, τι γραφήµατα θα φτιάξουµε, µε ποιο τρόπο θα υπολογίσουµε τις αποστάσεις ανάµεσα στις οµάδες, ποιες λύσεις θέλουµε να σώσουµε για περαιτέρω επεξεργασία και διάφορα άλλα για το οποία θα µιλήσουµε παρακάτω. Αυτό που θα κάνουµε είναι αναλύσουµε ένα-ένα τα υποµενού που βρίσκονται στο κάτω µέρος του παραθύρου: 168

169 Το δενδροδιάγραµµα και το γράφηµα Icicle είναι δύο γραφήµατα που, όπως είπαµε και παραπάνω, µπορούν να µας δώσουν γραφικά την σειρά µε την οποία οι παρατηρήσεις ενώνονται γα να δηµιουργήσουν οµάδες. Από το παράθυρου του υποµενού παραπάνω µπορούµε να επιλέξοµε αυτά τα γραφήµατα. Επειδή αυτά θα περιγράψουν όλη την διαδικασία, αν ο αριθµός των παρατηρήσεων είναι πολύ µεγάλος, τα γραφήµατα δεν θα είναι ιδιαίτερα ευκολοδιάβαστα. Για αυτό, µπορούµε να διαλέξουµε το εύρος του αριθµού των οµάδων για τις οποίες θα εµφανιστεί το γράφηµα. Επίσης, µπορούµε να καθορίσουµε αν το διάγραµµα θα φαίνεται οριζόντια ή κάθετα. * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num

170 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E Label Num

171 Από το δενδροδιάγραµµα παραπάνω βλέπουµε ότι τελικά θα διαλέξουµε 2 οµάδες. Το έξω-έξω κουτάκι που δηµιουργείται έχει δύο παρακλάδια που υποδηλώνουν την επιλογή 2 οµάδων. Ξεκινάµε διαβάζοντας το δενδροδιάγραµµα από τα αριστερά προς τα δεξιά. Αν στα αριστερά δούµε να υπάρχουν παρατηρήσεις οι οποίες αποτελούν από µόνες του µία οµάδα τότε θα προχωρήσουµε λίγο πιο δεξιά στον αµέσως επόµενο κόµβο. Αν και σε αυτό το κόµβο υπάρχουν παρατηρήσεις που αποτελούν από µόνες τους µια οµάδα τότε πάµε πιο δεξιά στον επόµενο κόµβο. Αυτό το συνεχίζουµε µέχρι να βρούµε ένα κόµβο που τα παρακλάδια του να αποτελούνται από οµάδες παρατηρήσεων. Όσα είναι τα παρακλάδια του κόµβου τόσες είναι και οι οµάδες που σχηµατίζονται. Από την άλλη το γράφηµα Icicle µας περιγράφει ακριβώς την ίδια διαδικασία µε το δενδροδιάγραµµα, αλλά λόγω του ότι έχει χειρότερα γραφικά, όταν υπάρχει η δυνατότητα να πάρουµε δενδροδιάγραµµα, η επιλογή του µπορεί να αποφευχθεί. Παραπάνω είναι το παράθυρο του υποµενού Statistics. Οι δυνατές επιλογές έχουν να κάνουν µε τις πληροφορίες που θα εµφανιστούν. Έτσι, µε την επιλογή Proximity Matrix εµφανίζουµε των πίνακα των αποστάσεων όλων των παρατηρήσεων, ενώ µε την επιλογή Agglomeration Schedule εµφανίζονται κάποιες ποσότητες που, όπως θα δούµε είναι χρήσιµες για να βρούµε τον αριθµό των 171

172 οµάδων που θα κρατήσουµε. Επίσης στο κάτω µέρος του παραθύρου µπορούµε να επιλέξουµε (και όχι να σώσουµε σαν µια ξεχωριστή µεταβλητή) σε ποια οµάδα ανήκει κάθε παρατήρηση τόσο για συγκεκριµένο αριθµό οµάδων όσο και για διάφορα πλήθη οµάδων. Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

173 , , , , , , , , , , , , Τον πίνακα λόγω µεγέθους πίνακα δεν µπορούµε να τον εισάγουµε στην σελίδα word. Και ερχόµαστε, ίσως στο πιο σηµαντικό παράθυρο. Σε αυτό θα πρέπει να καθορίσουµε την µέθοδο µε την οποία θα υπολογίσουµε την απόσταση ανάµεσα σε δύο οµάδες καθώς και την απόσταση που θα χρησιµοποιήσουµε. είτε ότι τα µέτρα είναι οµαδοποιηµένα έτσι ώστε ανάλογα µε τον τύπο των δεδοµένων ο χρήστης µπορεί να διαλέξει το κατάλληλο µέτρο. Προσέξτε ότι στο κάτω µέρος εµφανίζεται ένα πλήθος µετασχηµατισµών των δεδοµένων, ώστε να µπορεί κάποιος να µεγαλώσει τις δυνατές επιλογές. Στην ουσία αντί να κάναµε εµείς την τυποποίηση θα µπορούσαµε να επιλέξουµε αυτήν επιλογή και να µας τυποποιήσει το SPSS τις µεταβλητές (συνεχείς) που χρειάζονται τυποποίηση. 173

174 Τέλος και πάλι µπορούµε να δηµιουργήσουµε µεταβλητές που να µας δείχνουν, για την συγκεκριµένη λύση µε το συγκεκριµένο αριθµό οµάδων, που ανήκει κάθε παρατήρηση από το παραπάνω παράθυρο. Τώρα όµως ο αριθµός διαφέρει και άρα οι επιλογές µας είναι περισσότερες. Έτσι, επιθυµούµε µπορούµε να δηµιουργήσουµε µεταβλητές για πολλές δυνατές λύσεις ανάλογα µε τον αριθµό των οµάδων. Μια καλή απεικόνιση των οµάδων θα ήταν µε ένα παρόµοιο Error Bar µε αυτό που κάναµε στο παράδειγµα της µεθόδου K-means. Graph> Error Bar και µετά 174

175 Και το αποτέλεσµα είναι το παρακάτω διάγραµµα, στο οποίο φαίνονται ξεκάθαρα οι οµάδες: 175

176 6.3 ΑΝΑΛΥΣΗ ΑΝΤΙΣΤΟΙΧΙΩΝ (CORRESPODENCE ANALYSIS) 176

177 Η ανάλυση αντιστοιχιών (Correspondence Analysis) είναι µια δηµοφιλής στατιστική τεχνική κατάλληλη για κατηγορικά δεδοµένα. Η µέθοδος αυτή βρίσκει µεγάλη εφαρµογή στις κοινωνικές επιστήµες. Ο βασικός σκοπός της ανάλυσης αντιστοιχιών είναι η «µετατροπή» ενός πίνακα δεδοµένων (συνήθως πρόκειται για ένα πίνακα συχνοτήτων) σε µια γραφική αναπαράσταση, έτσι ώστε να γίνονται εµφανείς οι συσχετισµοί ανάµεσα στα «κελιά» του αρχικού πίνακα και κυρίως ανάµεσα στα «χαρακτηριστικά» στα οποία στηρίζεται ο πίνακας. Η µέθοδος αυτή έχει κυρίως περιγραφικό και όχι επαγωγικό χαρακτήρα. ηλαδή, βοηθάει τον ερευνητή να απεικονίσει µε ένα αποτελεσµατικό τρόπο ένα µεγάλο πίνακα συχνοτήτων, του οποίου η µελέτη δεν είναι εύκολη, αλλά από την γραφική του απεικόνιση µπορούµε να αποκτήσουµε αρκετά περισσότερη πληροφορία. Η ανάλυση µπορεί να αναλύσει πίνακες 2 ή και περισσότερων διαστάσεων, οι οποίοι εµπεριέχουν κάποιο µέτρο «αντιστοιχίας» µεταξύ γραµµών και στηλών. Οι πίνακες συχνοτήτων και συνάφειας αποτελούν κλασσικές περιπτώσεις πινάκων που µπορούν να µελετηθούν µε την χρήση της ανάλυσης αντιστοιχιών. Στην περίπτωση κατάταξης 2 διαστάσεων, µιλάµε για απλή ανάλυση αντιστοιχιών Ενώ στην περίπτωση κατάταξης σε περισσότερες από 2 διαστάσεις, µιλάµε για πολλαπλή ανάλυση αντιστοιχιών Τα αποτελέσµατα τη ανάλυσης αντιστοιχιών παρέχουν πληροφορίες ανάλογες µε αυτές που προκύπτουν από την παραγοντική ανάλυση και την ανάλυση κυρίων συνιστωσών και µας επιτρέπουν να διερευνήσουµε την δοµή των κατηγορικών µεταβλητών που περιλαµβάνονται στον υπό ανάλυση πίνακα. Για αυτό το λόγο η ανάλυση αντιστοιχιών αποτελεί το αντίστοιχο της µεθόδου ανάλυσης σε κύριες συνιστώσες στην περίπτωση κατηγορικών δεδοµένων. Η βασική ιδέα της ανάλυσης αντιστοιχιών έχει ως εξής: Κάθε γραµµή και στήλη των δεδοµένων αποτελεί ουσιαστικά ένα σηµείο σε ένα πολυδιάστατο χώρο Έτσι προσπαθούµε να µειώσουµε το πρόβληµα µεταφέροντας το σε ένα χώρο λιγότερων διαστάσεων Το ζητούµενο είναι πως µπορούµε να αναπαραστήσουµε µε βέλτιστο τρόπο τα σηµεία σε ένα χώρο λιγότερων διαστάσεων έτσι ώστε η αναπαράσταση αυτών 177

178 στον χώρο λιγότερων διαστάσεων να προσφέρει ουσιαστικότερη πληροφόρηση από την αναπαράσταση αυτών στον αρχικό χώρο περισσότερων διαστάσεων. Ποια είναι όµως τα αποτελέσµατα που αναµένουµε από την ανάλυση αντιστοιχιών; Πρώτα από όλα αναµένουµε να δείξει συσχετισµούς που υπάρχουν µεταξύ γραµµών και στηλών των δεδοµένων. Σε µια γραφική αναπαράσταση της ανάλυσης αντιστοιχιών, σηµεία γειτονικά µεταξύ τους υποδηλώνουν και συσχετισµό ανάµεσα στις αντίστοιχες γραµµές/ στήλες. Επίσης, περιµένουµε να αναδείξει κάποιο είδος διάταξης µεταξύ γραµµών και µεταξύ στηλών. Κάτω από το πρίσµα, µπορούµε να δούµε αν υπάρχει είτε κάποια φυσική διάταξη είτε κάποιο είδος επικάλυψης µεταξύ των διάφορων κατηγοριών των δεδοµένων. Ένα άλλο ερώτηµα στο οποίο µπορεί να απαντήσει η ανάλυση αντιστοιχιών είναι αν υπάρχουν διαφορές µεταξύ γραµµών και στηλών, ή καλύτερα, αν τα ποσοστά στηλών διαφοροποιούνται µεταξύ των γραµµών και αντιστρόφως. Αυτό το ερώτηµα συνδέεται ουσιαστικά µε το θέµα της ανεξαρτησίας. Η ανάλυση αντιστοιχιών επιτρέπει τη γραφική απεικόνιση και διερεύνηση του συχνά χρησιµοποιούµενου ελέγχου ανεξαρτησίας Χ 2 και εποµένως επιτρέπει να δούµε κατά πόσο οι γραµµές και οι στήλες είναι ανεξάρτητες. Πέρα από τη γραφική απεικονίσει και τις ερµηνείες που προσφέρει, η ανάλυση αντιστοιχιών παρέχει την δυνατότητα δηµιουργίας καινούργιων µεταβλητών οι οποίες συνοψίζουν σηµαντικό µέρος της αρχική πληροφόρησης. Αυτές οι µεταβλητές είναι ανάλογες µε τις κύριες συνιστώσες, που κατασκευάζονται στο πλαίσιο της ανάλυσης κυρίων συνιστωσών και µπορούν να χρησιµοποιηθούν για περαιτέρω στατιστικές αναλύσεις. ηλαδή, ενώ ξεκινήσαµε µε κατηγορικές µεταβλητές, καταλήγουµε σε ένα µικρό αριθµό συνεχών µεταβλητών. Ένα χαρακτηριστικό παράδειγµα στο οποίο θα είχε πολύ καλή εφαρµογή η ανάλυση αντιστοιχιών είναι η Ανάλυση Αποκάλυψης Εταιρικών Χαρακτηριστικών (Disclosure Performance Analysis), στην οποία έχουµε ένα dataset το οποίο περιέχει κατηγορικά δεδοµένα που αποτελούν κάποια χαρακτηριστικά εταιριών λογιστικής και οργανωσιακής φύσης, όπως π.χ. έχει προφίλ η εταιρία ή όχι, έχει δηµοσιεύσει ισολογισµό η εταιρία ή όχι κ.α. και εµείς αυτό που θέλουµε είναι να τρέξουµε κάποιες παλινδροµήσεις µε κάποιες συγκεκριµένες µεταβλητές ως επεξηγηµατικές και την µεταβλητή Disclosure Performance ως εξαρτηµένη. Εφαρµόζοντας λοιπόν correspondence ανάλυση στα κατηγορικά 178

179 χαρακτηριστικά καταφέρνουµε να δηµιουργήσουµε νέες ποσοτικές πλέον µεταβλητές οι οποίες θα αντιπροσωπεύουν κάποια χαρακτηριστικά των εταιριών που οµαδοποιήθηκαν σε αυτές τις νέες µεταβλητές (ποσοτικές). Έτσι όσες νέες µεταβλητές (ποσοτικές) δηµιουργηθούν τόσες παλινδροµήσεις θα πρέπει να εφαρµοστούν. Η χρησιµότητα της µετάβασης από κατηγορικές σε συνεχείς µεταβλητές γίνεται προφανής αν αναλογιστούµε ότι η πλειοψηφία των στατιστικών τεχνικών είναι προσανατολισµένες στην ανάλυση συνεχών µεταβλητών ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Προφίλ Στην ανάλυση αντιστοιχιών µπορούµε να δουλέψουµε µε πίνακες συνάφειας, οι οποίοι περιλαµβάνουν πληροφορία είτε µε την µορφή απόλυτων συχνοτήτων είτε µε την µορφή σχετικών συχνοτήτων. Μάλιστα, προτιµότερο είναι να δουλεύουµε µε σχετικές συχνότητες, καθώς αυτό επιτρέπει την άµεση σύγκριση πινάκων ανεξάρτητα από µεγέθη δείγµατος. Από ένα δεδοµένο πίνακα απόλυτων συχνοτήτων υπάρχει η δυνατότητα να κατασκευάσουµε 2 διαφορετικούς πίνακες συχνοτήτων, ανάλογα µε το αν ου ενδιαφερόµαστε για τις γραµµές ή τις στήλες του πίνακα. Τα προφίλ γραµµών είναι οι σχετικές συχνότητες ανά γραµµή (προκύπτουν ως συχνότητα κελιού/ σύνολο γραµµής). Τα προφίλ γραµµών επιτρέπουν την άµεση σύγκριση µεταξύ γραµµών. Τα προφίλ στηλών, αντίστοιχα, επιτρέπουν την άµεση σύγκριση µεταξύ στηλών. Ένα πλεονέκτηµα που χαρακτηρίζει τα προφίλ είναι ότι χρησιµοποιώντας τα διανύσµατα των προφίλ µπορούµε να µετρήσουµε την απόσταση µεταξύ 2 χώρων. Για παράδειγµα, έστω ότι έχουµε τα διανύσµατα προφίλ [ ] και [ ] τότε η απόσταση θα µπορούσε να υπολογιστεί ως: ( ) ( ) ( ) ( ) = Με ανάλογο τρόπο µπορούµε να υπολογίσουµε οποιαδήποτε απόσταση ανάµεσα στα επίπεδα κατηγορικών δεδοµένων. Αξιοσηµείωτο βέβαια είναι ότι αυτό το µέτρο απόστασης έχει το σοβαρό µειονέκτηµα ότι δεν λαµβάνει υπόψη τον αριθµό των παρατηρήσεων σε κάθε κελί και έτσι οι διαφορές σε κελιά µε µικρές συχνότητες έχουν την ίδια βαρύτητα, στον τελικό 179

180 υπολογισµό της απόστασης µε διαφορές σε κελιά µε µεγάλες συχνότητες. Μια λύση σε αυτό το πρόβληµα θα ήταν να σταθµίζουµε κάθε κελί. Μάζες Οι µάζες σε κάθε κελί είναι τα αντίστοιχα περιθώρια προφίλ, δηλαδή τα προφίλ του συνόλου κάθε γραµµής και στήλης αντίστοιχα και προκύπτουν απλά σαν την διαίρεση του συνολικού αριθµού απαντήσεων για την γραµµή (ή την στήλη) προς το συνολικό µέγεθος του δείγµατος. Μέτρα απόστασης Τώρα µπορούµε να υπολογίσουµε εκ νέου την απόσταση µεταξύ οποιουδήποτε ζεύγους χωρών, χρησιµοποιώντας τις µάζες των στηλών σαν βάρη. Πιο συγκεκριµένα, τα βάρη, οι συντελεστές στάθµισης, είναι το αντίστροφο των µαζών των στηλών. Έστω ότι έχουµε προφίλ [ ] και [ ] ενώ [ ] ως µάζες. Τότε η απόσταση θα υπολογιστεί ως: ( ) ( ) ( ) ( ) = Αυτό το µέτρο απόστασης ονοµάζεται χ 2 απόσταση καθώς µοιάζει στη γνωστή χ 2 ελεγχοσυνάρτηση για έλεγχο ανεξαρτησίας µεταξύ δύο µεταβλητών. Αδράνεια Τώρα πλέον είµαστε σε θέση να µετρήσουµε τις διαφορές ανάµεσα σε κάθε ζεύγος σηµείων, οπότε χρειάζεται να ορίσουµε ένα συνολικό µέτρο ανοµοιογένειας ή ετερογένειας των προφίλ, το οποίο δείχνει πόσο διαφέρουν τα προφίλ µεταξύ τους. Ένα τέτοιο µέτρο είναι η αδράνεια που θα τη συµβολίζουµε µε Ι. Ο όρος αυτός προέρχεται από την Μηχανική και ορίζεται ως: I r = rd i i= 1 2 i όπου r i είναι η µάζα 2 d i είναι η απόσταση 180

181 Κάποια σηµαντικά θέµατα είναι τα εξής: 1. Όσο µεγαλύτερη είναι τιµή της αδράνειας τόσο εντονότερη είναι η διαφοροποίηση µεταξύ γραµµών. 2. Η έννοια της αδράνειας είναι παρόµοια µε την έννοια της διακύµανσης, σε ορισµένα βιβλία οι δύο όροι χρησιµοποιούνται ως ταυτόσηµοι. 3. Αν όλα τα προφίλ ήταν τα ίδια για όλες τις γραµµές, η αδράνεια θα ήταν µηδέν. 4. Η αδράνεια συνδέεται µε απλή σχέση µε το γνωστό έλεγχο ανεξαρτησίας χ 2. Γενικά για οποιοδήποτε πίνακα ισχύει ότι, 2 χ I = n Ο πίνακας καταλοίπων Τελειώνοντας την παρουσίαση των βασικών εννοιών, θα κάνουµε λόγο για τον πίνακα καταλοίπων Α, ο οποίος έχει στοιχεία α ij που ορίζονται ως εξής: όπου p x pij rc i j aij =, i = 1,..., r j = 1,..., c rc i j ij ij =, δηλαδή η σχετική συχνότητα του κελιού, ενώ η ποσότητα rc i j που n βασίζεται στις µάζες των γραµµών και των στηλών, µπορεί κανείς να δει ότι είναι εκτίµηση της πιθανότητας του κελιού κάτω από την υπόθεση της ανεξαρτησίας γραµµών και στηλών. Οι διαστάσεις του πίνακα Α είναι ίδιες µε τον αρχικό πίνακα συνάφειας. Κάθε στοιχείο του πίνακα είναι η διαφορά της πραγµατικής σχετικής συχνότητας µε την σχετική συχνότητα που υποθέτει το µοντέλο ανεξαρτησίας διαιρεµένη µε την ρίζα θεωρητικής αυτής σχετικής συχνότητας. Ο πίνακας καταλοίπων σχετίζεται άµεσα µε την αδράνεια και γενικότερα τη διασπορά του πίνακα συνάφειας. Αν τα στοιχεία του πίνακα είναι µικρά σε απόλυτη τιµή, τότε αυτό µαρτυρά ότι η υπόθεση της ανεξαρτησίας είναι µάλλον ισχυρή και εποµένως η αδράνεια το πίνακα µικρή. Το αξιοσηµείωτο είναι ότι η αδράνεια είναι το άθροισµα των στοιχείων του πίνακα. Η µέθοδος της ανάλυσης αντιστοιχιών βασίζεται σε αυτόν το πίνακα. Με χρήση SPSS: 181

182 Για να κάνουµε την ανάλυση Correspondenceτο πρώτο πράγµα που πρέπει να κάνουµε είναι να συµπεριλάβουµε στον πίνακα συνάφειας τις συχνότητες που έχουµε στo dataset. Αυτό θα το κάνουµε: Data> Weighted Cases και πατάµε ΟΚ. Το επόµενο βήµα θα είναι να τρέξουµε Analyze> Data Reduction> Correspondence Αρχικά πρέπει να προσδιορίσουµε τις µεταβλητές που ορίζουν τις γραµµές και τις στήλες του πίνακα που πρόκειται να αναλυθεί. Έπειτα από την επιλογή κάθε µεταβλητής, το όνοµα αυτής εµφανίζεται ακολουθούµενο από (?,?). Αυτό που πρέπει να κάνουµε σε αυτή την περίπτωση θα πρέπει αν ορίσουµε το εύρος των τιµών που θα ληφθούν υπόψη στους υπολογισµούς. Για το σκοπό αυτό επιλέγουµε το κουµπί Define Groups όπως παρακάτω: 182

183 Εδώ ορίζουµε την µικρότερη και τη µεγαλύτερη τιµή, ενώ στο κάτω µέρος µπορούµε να προσδιορίσουµε αν µια κατηγορία θα χρησιµοποιηθεί ως συµπληρωµατικό σηµείο και όχι για την κατασκευή των αξόνων, καθώς και να επιβάλουµε κάποιους περιορισµούς. Το ίδιο θα κάνουµε και για την άλλη µεταβλητή. Από το βασικό µενού υπάρχουν 3 επιλογές: Model menu Σε αυτό το µενού αρκεί να ορίσουµε: 1. Το µέτρο που θα χρησιµοποιηθεί για τον υπολογισµό των αποστάσεων και την µέθοδο τυποποίησης. Η default επιλογή είναι «Row and Column means are removed». 2. Τέλος, στο κάτω µέρος του µενού µπορούµε να επιλέξουµε την µέθοδο κανονικοποίησης. Αυτό συνδέεται µε τις ποσότητες που χρησιµοποιούνται για τη τυποποίηση των αποστάσεων και στην ορίζει τα βάρη τα οποία δίνονται σε κάθε γραµµή ή στήλη. Η default επιλογή είναι συµµετρική κανονικοποιήση: 183

184 Το αποτέλεσµα θα είναι: Summary Proportion of Inertia Confidence Singular Value Dimension 1 2 Total Singular Standard Correlation Value Inertia Chi Square Sig. Accounted for Cumulative Deviation 2,112,012,880,880,045 -,027 a. 6 degrees of freedom,041,002,120 1,000,043,014 6,952,325 a 1,000 1,000 Από αυτό πινακάκι βλέπουµε ότι και για τις δύο διαστάσεις τα ποσοστά δεν φαίνεται να είναι ανεξάρτητα, αλλά να έχουν κάποια σχέση µεταξύ τους (αφού p-value>0.05, βλέπε κεφ. 2) Statistics menu Αυτό το µενού επιτρέπει τον προσδιορισµό των ποσοτήτων που θα παρουσιαστούν στα outputs των αποτελεσµάτων. Με τις επιλογές που µας προσφέρονται σε αυτό το παράθυρο µπορούµε να εξάγουµε: 1. το αρχικό αναλυτικό πίνακα συνάφειας 2. το προφίλ γραµµών και στηλών 184

185 3. διάφορα στατιστικά για συµπερισµατολογία που όµως είναι βασισµένα σε ασυµπτωτικά αποτελέσµατα και συγκεκριµένες υποθέσεις. Τα αποτελέσµατα που θα πάρουµε είναι: Correspondence Table Paxisarkia low middle high Active Margin Alcohol <ενα ενα-δυο τρια-πεντε παραπανω-εξι Active Margin Row Profiles Paxisarkia low middle high Mass Alcohol <ενα ενα-δυο τρια-πεντε παραπανω-εξι Active Margin,273,273,248,206 1,000,242,199,286,273 1,000,200,224,285,291 1,000,238,232,273,257 Column Profiles Paxisarkia low middle high Active Margin Alcohol <ενα ενα-δυο τρια-πεντε παραπανω-εξι Mass,385,395,306,270,336,333,281,343,349,328,282,325,351,381,336 1,000 1,000 1,000 1,

186 Paxisarkia low middle high Active Total Score in Dimension Overview Row Points a Of Point to Inertia of Dimension Mass 1 2 Inertia Total,336 -,465,039,008,651,013,997,003 1,000,328,178 -,270,002,094,579,541,459 1,000,336,291,224,004,255,409,820,180 1,000 1,000,014 1,000 1,000 a. Symmetrical normalization Contribution Of Dimension to Inertia of Point Alcohol <ενα ενα-δυο τρια-πεντε παραπανω-εξ Active Total Score in Dimension Overview Column Points a Of Point to Inertia of Dimension Mass 1 2 Inertia Total,238 -,335 -,282,004,239,460,791,209 1,000 a. Symmetrical normalization,232 -,350,302,004,255,513,784,216 1,000,273,188 -,049,001,087,016,975,025 1,000,257,427,042,005,419,011,997,003 1,000 1,000,014 1,000 1,000 Contribution Of Dimension to Inertia of Point Plots menu Τέλος µπορούµε να επιλέξουµε τα γραφήµατα που επιθυµούµε να εµφανίσουµε στα αποτελέσµατα της ανάλυσης. To SPSS παρέχει µόνο συµµετρικά biplot καθώς και µονοδιάστατα dotplot για τα scores γραµµών και στηλών. Υπάρχει επίσης επιλογή για ένα line plot που οι κατηγορίες της ίδιας µεταβλητής συνδέονται µεταξύ τους µε γραµµές. Τέλος, περιέχει άλλη µια επιλογή που αφορά τις διαστάσεις του γραφήµατος: 186

187 Τα αποτελέσµατα που θα πάρουµε είναι: Στο οποίο είναι προφανής η οµαδοποίηση των επιπέδων των 2 κατηγορικών µεταβλητών. 187

188 Row Points for Paxisarkia Symmetrical Normalization 0,3 0,2 high Dimension 2 0,1 0,0-0,1 low -0,2 middle -0,3-0,4-0,2 0,0 0,2 Dimension 1 Column Points for Alcohol Symmetrical Normalization 0,4 0,3 ενα-δυο Dimension 2 0,2 0,1 0,0-0,1 παραπανω-εξι τρια-πεντε -0,2-0,3-0,4 <ενα -0,2 0,0 0,2 0,4 Dimension 1 188

189 7. ΜΟΝΤΕΛΑ ΕΙΓΜΑΤΟΛΕΙΠΤΙΚΩΝ ΕΡΕΥΝΩΝ 7.1 ΕΙΣΑΓΩΓΙΚΑ Πριν αρχίσουµε να µιλάµε για τα βασικά βήµατα µια δειγµατοληψίας καλό θα ήταν να δώσουµε τον ορισµό της δειγµατοληπτικής έρευνας. ειγµατοληπτική έρευνα (survey planning) είναι η στατιστική έρευνα χαρακτηριστικών ενός πεπερασµένου πληθυσµού η οποία βασίζεται σε πληροφορίες που συλλέγονται από µέρος (δείγµα) αυτού του πληθυσµού. Το κύριο χαρακτηριστικό των δειγµατοληπτικών ερευνών ως κάδου της στατιστικής είναι ότι, έχουν ως αντικείµενο πεπερασµένους (πραγµατικούς) πληθυσµούς, σε αντιδιαστολή µε άλλους κλάδους της στατιστικής που έχουν ως αντικείµενο έρευνας άπειρους (υποθετικούς) πληθυσµούς. (Εδώ η έννοια του πληθυσµού είναι γενική και συµπεριλαµβάνει ανθρώπινους και µη πληθυσµούς.) Οι συλλεγόµενες πληροφορίες µπορεί να είναι ποσοτικές και αντικειµενικές, π.χ. όταν περιγράφουν οικονοµικά χαρακτηριστικά ή ποιοτικές όταν έχουν µορφή γνώµης ή διάθεσης, π.χ. δηµοσκοπήσεις σε πολιτικό επίπεδο. 7.2 ΤΥΠΟΙ ΕΙΓΜΑΤΟΛΗΨΙΑΣ Η επιδίωξη της δειγµατοληψίας είναι η επιλογή αντιπροσωπευτικού δείγµατος που να δίνει εκτιµήσεις χαρακτηριστικών του πληθυσµού µε όση ακρίβεια επιτρέπουν οι χρονικοί, οικονοµικοί και άλλοι περιορισµοί της έρευνας. Οι δύο βασικοί τύποι της δειγµατοληψίας είναι: Η µη τυχαία δειγµατοληψία Η πιθανοθεωρητική ή τυχαία δειγµατοληψία Η κύρια διαφορά µεταξύ τους είναι ότι στην τυχαία δειγµατοληψία κάθε µέλος του πληθυσµού έχει µια υπολογίσιµη και µη µηδενική πιθανότητα επιλογής. Εµείς δεν θα ασχοληθούµε µε την µη τυχαία δειγµατοληψία σε αυτό τον οδηγό. 189

190 7.2.1 ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (RANDOM SAMPLING) H τυχαία δειγµατοληψία βασίζεται στην αρχή της τυχαιοποίησης (randomization), σύµφωνα µε την οποία το δείγµα επιλέγεται µε χρήση κάποιου τυχαίουπιθανοθεωριτικού, όχι αυθαίρετου µηχανισµού, που ονοµάζεται σχέδιο ή τεχνική δειγµατοληψίας (sampling design/technique). Το δείγµα που επιλέγεται έτσι ονοµάζεται τυχαίο δείγµα (random sample). Με αυτή την µέθοδο, κάθε µονάδα του πληθυσµού έχει µια υπολογίσιµη µη µηδενική πιθανότητα να περιληφθεί στο δείγµα, και αποφεύγεται συστηµατική µεροληψία στην επιλογή του δείγµατος, εξασφαλίζοντας έτσι την αντιπροσωπευτικότητα του δείγµατος. Αυτό περιέχει την θεωρητική βάση για την αξιόπιστη αναγωγή των αποτελεσµάτων από το δείγµα στον πληθυσµό. Επιπλέον για καλά σχεδιασµένες δειγµατοληψίες, το δειγµατοληπτικό σφάλµα είναι µικρότερο από ότι στις µη τυχαίες δειγµατοληψίες και µπορεί να υπολογιστεί. Τα κύρια στάδια µια τυχαίας δειγµατοληψίας είναι: 1. Καθορισµός αντικειµένου και των σκοπών της δειγµατοληψίας 2. ηµιουργία πλαισίου της δειγµατοληψίας 3. Σχεδιασµός του ερωτηµατολογίου 4. Καθορισµός του σχεδίου της δειγµατοληψίας και επιλογή δείγµατος 5. Συλλογή στοιχείων 6. Επεξεργασία των στοιχείων 7. Εκτίµηση παραµέτρων 8. Ανάλυση 9. ηµοσίευση αποτελεσµάτων 7.3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΥΧΑΙΑΣ ΕΙΓΜΑΤΟΛΗΨΙΑΣ Πληθυσµός-στόχος (target population): Ο συνολικός ερευνώµενος πληθυσµός Πληθυσµός δειγµατοληψίας (sampling population): Ο πληθυσµός από τον οποίο γίνεται η δειγµατοληψία. Μερικές φορές είναι υποσύνολο του πληθυσµού στόχου. Ο πληθυσµός στόχος είναι αυτός που θέλουµε να ερευνήσουµε, ενώ ο πληθυσµός δειγµατοληψίας είναι αυτός που µπορούµε να ερευνήσουµε. 190

191 Υποπληθυσµός (sub-population, domain): Υποσύνολο του πληθυσµού, ειδικού στατιστικού ενδιαφέροντος. είγµα (sample): Υποσύνολο του πληθυσµού δειγµατοληψίας από το οποίο συλλέγονται οι ζητούµενες πληροφορίες. Πλαίσιο ειγµατοληψίας (sample frame): Το µέσο πρόσβασης τον πληθυσµό δειγµατοληψίας για επιλογή δείγµατος. ειγµατική µονάδα (sampling unit): Μονάδα του πλαισίου που επιλέγεται κατά τη δειγµατοληψία Μονάδα Απόκρισης (reporting unit): Μονάδα από την οποία προέρχονται οι πληροφορίες Μονάδα ανάλυσης (analysis unit): Μονάδα για την οποία παρέχονται οι πληροφορίες και για την οποία εξάγονται συµπεράσµατα της έρευνας. Παράµετρος του πληθυσµού (population parameter): Χαρακτηριστικό του πληθυσµού. 7.4 ΠΙΘΑΝΟΤΟΤΗΤΕΣ ΕΠΙΛΟΓΗΣ ΤΩΝ ΜΟΝΑ ΩΝ (INCLUSION PROPABILITIES) Η συµπερίληψη µιας µονάδας i σε ένα δείγµα s είναι ένα τυχαίο ενδεχόµενο που εκφράζεται από την τυχαία µεταβλητή (δείκτρια µεταβλητή) 1, αν i s Ii () s = 0, αν i s Η πιθανότητα να συµπεριληφθεί η µονάδα i σε ένα δείγµα s συµβολίζεται µε π i και δίνεται από την σχέση ( ) π = Pi ( s) = P I( s) = 1 = ps ( ), i= 1,..., N i i Η διαδικασία της τυχαίας δειγµατοληψίας απαιτεί π i >0 για κάθε i. Η πιθανότητα από κοινού επιλογής των µονάδων i και j σε ένα δείγµα s συµβολίζεται µε π ij και δίνεται από την σχέση s i 191

192 ( και ) πij = P Ii() s = 1 I j () s = 1 = P Ii () s I j () s = 1 = p() s Είναι χαρακτηριστικό των δειγµατοληπτικών ερευνών ότι οι µονάδες του πληθυσµού µπορεί να έχουν άνισες πιθανότητες επιλογής στο δείγµα. Αυτό είναι αποτέλεσµα δειγµατοληψίας που στηρίζεται σε γνώση της δοµής του πληθυσµού για περιορισµό του δειγµατοληπτικού σφάλµατος στις εκτιµήσεις παραµέτρων. Άνισες πιθανότητες επιλογής συνεπάγεται διαφορετική κατανοµή του δείγµατος από την κατανοµή του πληθυσµού ως προς τα ερευνώµενα χαρακτηριστικά. Η αντιπροσωπευτικότητα του δείγµατος αποκαθίσταται µε την χρήση των αναγωγικών συντελεστών. s i. j Ο αναγωγικός συντελεστής ή συντελεστής στάθµισης ή βάρος της µονάδας i του πληθυσµού ορίζεται ως 1 w = I i s), i U i π ι ( ) Ο αναγωγικός συντελεστής µιας πληθυσµιακής µονάδας είναι τυχαία µεταβλητή και σε περίπτωση που δεν έχει επιλεγεί στο δείγµα είναι εξ ορισµού ίσος µε το µηδέν. Η ερµηνεία το w i : Είναι ο αριθµός των µονάδων του πληθυσµού (συµπεριλαµβανοµένης της µονάδας i) που αντιπροσωπεύονται από την δειγµατική µονάδα i. Για παράδειγµα, µια µονάδα που έχει µία πιθανότητα επιλογής στο δείγµα ίση µε το 100, αντιπροσωπεύει άλλες ενενήντα εννέα µονάδες του πληθυσµού από τον οποίο επιλέχθηκε. Επειδή ο αναγωγικός συντελεστής µιας επιλεγµένης µονάδας είναι αντιστρόφως ανάλογος της πιθανότητας επιλογής της, όσο µεγαλύτερη είναι αυτή η πιθανότητα τόσο λιγότερες µονάδες του πληθυσµού αντιπροσωπεύονται από την συγκεκριµένη µονάδα του δείγµατος. wy Οι «ανηγµένες» δειγµατικές τιµές µια µεταβλητής διορθώνουν την i i δυσαναλογικότητα του δείγµατος, ως προς τον πληθυσµό δειγµατοληψίας, όταν οι πιθανότητες επιλογής των δειγµατικών µονάδων είναι άνισες. y i Οι αναγωγικοί συντελεστές χρησιµεύουν στην αναγωγή των δειγµατικών χαρακτηριστικών στα αντίστοιχα πληθυσµιακά χαρακτηριστικά. 192

193 7.5 ΣΦΑΛΜΑΤΑ ΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΕΡΕΥΝΑΣ Τα σφάλµατα µιας δειγµατοληπτικής έρευνας διακρίνονται σε δειγµατοληπτικά και µη δειγµατοληπτικά σφάλµατα. ειγµατοληπτικό Σφάλµα: Είναι το σφάλµα στην εκτίµηση των παραµέτρων που οφείλονται στο ότι µόνο ένα µέρος (δείγµα) του πληθυσµού παρατηρείται, αντί για ολόκληρο τον πληθυσµό (απογραφική έρευνα). Συγκεκριµένα, το σφάλµα αυτό είναι η διαφορά µεταξύ της εκτίµησης µιας παραµέτρου, που προκύπτει από ένα δείγµα, και της τιµής της παραµέτρου που θα προέκυπτε από την απογραφή του πληθυσµού δειγµατοληψίας υπό τις ίδιες συνθήκες. Το δειγµατοληπτικό σφάλµα µιας εκτιµήτριας µετράται µε το τυπικό σφάλµα της ή µε τον συντελεστή µεταβλητότητας της. Πηγές δειγµατοληπτικού Σφάλµατος: Μέγεθος δείγµατος: Γενικά αύξηση µεγέθους του δείγµατος έχει ως αποτέλεσµα την µείωση του δειγµατοληπτικού σφάλµατος Η µείωση αυτή ωστόσο, είναι δυσανάλογα µικρή σε σχέση µε την αύξηση του µεγέθους του δείγµατος. Αν ένας από τους σκοπούς της έρευνας είναι η παρατήρηση υποπληθυσµών ή σπάνιων χαρακτηριστικών, τότε γενικά απαιτείται µεγαλύτερο δείγµα. Μέγεθος ερευνώµενου πληθυσµού: Για πολύ µικρούς πληθυσµούς η επιρροή είναι µεγάλη, και σχετικά µεγάλο δείγµα απαιτείται για ένα επιθυµητό επίπεδο τυπικού σφάλµατος. Πληθυσµιακή ιακύµανση: Γενικά όσο µεγαλύτερη είναι η διαφορά µεταξύ των µονάδων του πληθυσµού ως προς ερευνώµενα χαρακτηριστικά, τόσο µεγαλύτερο είναι το δειγµατοληπτικό σφάλµα για δεδοµένο µέγεθος δείγµατος. Για παράδειγµα, σε µια έρευνα ατοµικού εισοδήµατος, το δειγµατοληπτικό σφάλµα θα ήταν µεγαλύτερο σε ένα πληθυσµό όπου τα εισοδήµατα θα κυµαίνονταν από µέχρι απ ότι θα ήταν σε πληθυσµό όπου τα εισοδήµατα θα κυµαίνονταν από µέχρι µε το ίδιο µέγεθος δείγµατος και στις δύο περιπτώσεις. Ισοδύναµα, για δεδοµένο µέγεθος δειγµατοληπτικού σφάλµατος θα χρειαζόταν, µεγαλύτερο δείγµα στο δεύτερο πληθυσµό απ ότι στον πρώτο. Σχέδιο δειγµατοληψίας και εκτιµήτρια: Ο συνδυασµός σχεδίου δειγµατοληψίας και τύπου εκτιµήτριας σχετίζεται άµεσα µε το µέγεθος του δειγµατοληπτικού σφάλµατος. Ο σχετικός όρος «αποτελεσµατικότητα» ενός σχεδίου 193

194 δειγµατοληψίας ή µιας εκτιµήτριας αναφέρεται στην εκτίµηση παραµέτρων µε µικρό δειγµατοληπτικό σφάλµα για δεδοµένο µέγεθος δείγµατος. Μη δειγµατοληπτικά σφάλµατα: Είναι όλα τα άλλα σφάλµατα στην διεξαγωγή της δειγµατοληπτικής έρευνας που µειώνουν την ακρίβεια των εκτιµήσεων. ιακρίνονται δε σε: Σφάλµατα παρατήρησης: a) Κάλυψη πληθυσµού: Αυτά είναι σφάλµατα που οφείλονται κυρίων στις παραλείψεις (υποκάλυψη), λανθασµένες περιλήψεις (υπερκάλυψη) και διπλογραφές µονάδων στο πλαίσιο δειγµατοληψίας. Σφάλµα κάλυψης µπορεί και να γίνει και στην διεξαγωγή της έρευνας, π.χ. µε την παράλειψη συλλογής στοιχείων από µερικές δειγµατικές µονάδες. Τα σφάλµατα κάλυψης µπορεί να προκαλέσουν µεροληψία στις εκτιµήσεις παραµέτρων και για αυτό πρέπει να γίνονται κατάλληλοι έλεγχοι ποιότητας για την αποφυγή τους. b) Μη απόκριση µερικών δειγµατικών µονάδων: Η µη απόκριση µπορεί να είναι ολική, αν δεν συλλέγεται καµία πληροφορία για µερικές µονάδες, ή µερική, αν συλλέγονται ελλιπείς πληροφορίες για µερικές µονάδες. Αιτίες ολικής µη απόκρισης µπορεί να είναι η απουσία του αποκρινόµενου, καθώς και η αδυναµία ή η άρνηση του να αποκριθεί/ Η ολική µη απόκριση µπορεί να έχει ως αποτέλεσµα την µεροληψία των εκτιµήσεων, επειδή τα χαρακτηριστικά των µη αποκρινόµενων µπορεί να διαφέρουν από εκείνα των αποκρινόµενων. Επί πλέον, η µείωση του µεγέθους του δείγµατος λόγω ολικής µη απόκρισης έχει ως αποτέλεσµα την αύξηση του δειγµατοληπτικού σφάλµατος. Αιτίες µερικής µη απόκρισης µπορεί να είναι η δυσκολία να καταλάβει ο αποκρινόµενος κάποιες από τις ερωτήσεις του ερωτηµατολογίου, καθώς και η παράληψη ή η άρνηση του να απαντήσει σε αυτές. Το ενδεχόµενο µεροληψίας λόγω µερικής µη απόκρισης πρέπει να µειωθεί όσο είναι δυνατό µε εξάλειψη των αιτιών της, ή µπορεί να αντιµετωπισθεί κατά την επεξεργασία των στοιχείων. 194

195 Σφάλµατα παρατήρησης: a) Σφάλµατα µέτρησης: Αυτό το σφάλµα είναι η διαφορά µεταξύ καταχωρηθείσας απάντησης σε µία ερώτηση και του πραγµατικού στοιχείου που αντιστοιχεί στην ερώτηση. Τέτοιου είδους σφάλµατα µπορεί να προκληθούν από το ερωτηµατολόγιο, από τους αποκρινόµενους, από τους συλλέκτες των στοιχείων, καθώς και από τον τρόπο συλλογής των στοιχείων. Τα σφάλµατα µέτρησης µπορεί να έχουν σαν αποτέλεσµα την αύξηση της διακύµανσης των διαφόρων εκτιµητριών αλλά και µεροληψία τους. Καλός σχεδιασµός και επιµεληµένη διεξαγωγή της έρευνας βοηθούν στην ελαχιστοποίηση των σφαλµάτων µέτρησης. b) Σφάλµατα επεξεργασίας δεδοµένων: Τέτοια σφάλµατα µπορεί να προκύψουν σε όλα τα στάδια χειρωνακτικής και αυτοµατοποιηµένης επεξεργασίας των στοιχείων µετά την συλλογή τους, όπως για παράδειγµα, στο στάδιο κωδικοποίησης των απαντήσεων που υπάρχουν στα ερωτηµατολόγια. Καλές µέθοδοι επεξεργασίας αλλά και έλεγχος ποιότητας αυτής µπορούν να µειώσουν πολύ συτό το είδος σφαλµάτων. 7.6 ΠΛΑΙΣΙΟ ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING FRAME) Το πλαίσιο δειγµατοληψίας, όπως είπαµε και πιο πάνω, είναι το µέσο πρόσβασης στον πληθυσµό δειγµατοληψίας και αποτελείται από διακριτές δειγµατικές µονάδες. Στην απλούστερη περίπτωση οι δειγµατικές µονάδες είναι τα µέλη του πληθυσµού δειγµατοληψίας. Αυτό επιτρέπει άµεση δειγµατοληψία µελών αυτού του πληθυσµού. Συχνά το πλαίσιο είναι πιο αδροµερής διαίρεση του πληθυσµού, ώστε κάθε δειγµατική µονάδα να περιέχει ένα σύνολο διακριτών µελών του πληθυσµού και κάθε µέλος του πληθυσµού να ανήκει σε µία µόνο µονάδα. ύο είναι οι βασικοί τύποι πλαισίου: 1. Πλαίσιο Κατάλογος (list frame): Πραγµατικός Κατάλογος, π.χ. κατάλογος νοσοκοµείων, κατάλογος επιχειρήσεων, κατάλογος φοιτητών ενός πανεπιστηµίου κ.α. Παρέχει άµεση πρόσβαση στα µέλη του πληθυσµού. 195

196 Νοητός κατάλογος, π.χ. όλα τα αυτοκίνητα που διέρχονται από συγκεκριµένο σηµείο κατά τη διάρκεια κάποιου χρονικού διαστήµατος. 2. Πλαίσιο γεωγραφικής επιφάνειας Ειδική περίπτωση πλαισίου καταλόγου όπου οι µονάδες αντιστοιχούν σε γεωγραφικές περιοχές. Οι γεωγραφικές µονάδες έχουν καλά ορισµένα φυσικά ή τεχνητά όρια που αναγνωρίζονται σε χάρτη και στο πεδίο. Το µέγεθος των γεωγραφικών µονάδων καθώς και ο αριθµός µελών των πληθυσµού που περιέχουν ποικίλει από µονάδα σε µονάδα. Παρέχει έµµεση πρόσβαση στα µέλη του πληθυσµού, γιατί πρώτα ένας κατάλογος γεωγραφικών µονάδων πρέπει να επιλεγεί και µετά πρέπει να σχηµατιστεί κατάλογος µονάδων δειγµατοληψίας. Πολλαπλά πλαίσια (Multiple frames) Πλαίσια που χρησιµοποιούνται όταν ένα µόνο πλαίσιο δεν επαρκεί για την πλήρη κάλυψη του πληθυσµού. Αυτά τα πλαίσια καλύπτουν διαφορετικά µέρη πληθυσµού, ή επικαλύπτονται Ι ΙΟΤΗΤΕΣ ΠΟΥ ΠΡΕΠΕΙ ΝΑ ΕΧΕΙ ΕΝΑ ΠΛΑΙΣΙΟ Απαραίτητες Ιδιότητες 1. Οι µονάδες του πλαισίου να µπορούν να αναγνωριστούν µε κάποιο κωδικό 2. Όλες οι µονάδες µπορούν να εντοπιστούν, αν επιλεγούν στο δείγµα, µε διεύθυνση ή αριθµό τηλεφώνου ή τοποθεσία σε χάρτη ή µε άλλο τρόπο. Επιθυµητές Ιδιότητες 3. Το πλαίσιο να περιλαµβάνει βοηθητικές πληροφορίες για αποτελεσµατική δειγµατοληψία, ορισµό υποπληθυσµών και µέθοδο εκτίµησης. Αυτές οι βοηθητικές πληροφορίες αναφέρονται σε βοηθητικές µεταβλητές (auxiliary variables) που µπορεί να είναι συνεχείς ή κατηγορικές, π.χ. γεωγραφική τοποθεσία, φύλλο, ηλικία κ.α. 196

197 4. Όταν εκτιµήσεις πρέπει να γίνουν και για υποπληθυσµούς, το πλαίσιο καθορίζει τον υποπληθυσµούς, το πλαίσιο να καθορίζει τον υποπληθυσµό στον οποίο ανήκει κάθε µονάδα 5. Κάθε µέλος του πληθυσµού-στόχου είναι παρών στο πλαίσιο µόνο µια φορά 6. Το πλαίσιο δεν περιλαµβάνει µέλη που δεν ανήκουν στον πληθυσµό-στόχο 7. Όλες οι πληροφορίες που περιέχει το πλαίσιο είναι σωστές και επίκαιρες ΚΥΡΙΕΣ ΑΤΕΛΕΙΕΣ ΠΛΑΙΣΙΩΝ Υποκάλυψη: Μερικά µέλη του πληθυσµού-στόχου δεν περιλαµβάνονται στο πλαίσιο, π.χ. τηλεφωνικός κατάλογος µε µη καταχωρηµένους τηλεφωνικούς αριθµούς Υπέρ-κάλυψη: Το πλαίσιο περιλαµβάνει περισσότερα µέλη από αυτά το πληθυσµούστόχου. Για παράδειγµα, το πλαίσιο το οποίο δεν έχει ενηµερωθεί για µετακινήσεις, θανάτους και αποχωρήσεις µονάδων του. Πολυεγγραφές: Μερικές µονάδες είναι καταχωρηµένες περισσότερε από µια φορές. Συνήθως είναι αποτέλεσµα δηµιουργίας πλαισίου µε συνένωση πολλών πηγών πληροφοριών Λανθασµένη Ταξινόµηση: Κάποιες µονάδες είναι ταξινοµηµένες µε υποπληθυσµό άλλον από αυτό στον οποίο ανήκουν. Το πρόβληµα αυτό απαντά µόνο σε πλαίσια που περιέχουν µεταβλητές που ορίζουν υποπληθυσµούς ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΠΛΑΙΣΙΟΥ Καταλληλότητα, πληρότητα και επικαιρότητα Ευκολία συλλογής των απαιτούµενων πληροφοριών για τις µονάδες που απαρτίζουν το πλαίσιο. Φύση των συµπληρωµατικών/ βοηθητικών πληροφοριών και αν µια αποτελεσµατική δειγµατοληψία µπορεί να βασιστεί σε αυτές. Ευκολία διαχείρισης και ενηµέρωσης του πλαισίου για επαναλαµβανόµενες δειγµατοληψίες. Κόστος δηµιουργίας του πλαισίου 197

198 7.7 ΣΧΕ ΙΑΣΜΟΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΕΙΣΑΓΩΓΙΚΑ Το ερωτηµατολόγιο παίζει τον σηµαντικότερο ρόλο στην διαδικασία συλλογής των στοιχείων. Ο σκοπός στον σχεδιασµό του είναι συλλεχθούν αν όχι όλες όσες το δυνατό περισσότερες από τις απαιτούµενες πληροφορίες µε όσο το δυνατόν µικρότερο σφάλµα, µε την µικρότερη δυνατή ενόχληση των ερωτηθέντων και σε µορφή κατάλληλη για ευχερή περαιτέρω επεξεργασία στοιχείων. Ένα προβληµατικό ερωτηµατολόγιο µπορεί να έχει ως αποτέλεσµα ηµιτελή, λανθασµένα ή παραπλανητικά στοιχεία, άρνηση σε µερικά ερωτήµατα, ή ακόµα και άρνηση συµπλήρωσης του ερωτηµατολογίου. Πριν από το σχεδιασµό του ερωτηµατολογίου πρέπει να ληφθούν υπόψη οι σχετικές προδιαγραφές του προγραµµατισµού της έρευνας. Αρχικά, χρειάζεται ένα περίγραµµα των σκοπών της έρευνας που περιλαµβάνει τα απαιτούµενα στοιχεία και ένα πρόγραµµα ανάλυσής τους. Αυτό θα καθορίζει ακριβώς το τι πληροφορίες χρειάζονται και από ποιους, τις µεταβλητές της έρευνας, πως συνδέεται κάθε ζητούµενο στοιχείο µε συγκεκριµένες ερωτήσεις και πως αυτές θα τεθούν ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΣΤΟΝ ΣΧΕ ΙΑΣΜΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ Το ερωτηµατολόγια θα πρέπει να περιέχει κατατοπιστική εισαγωγή που να εξηγεί στον αποκρινόµενο το περιεχόµενο της έρευνας. Συγκεκριµένα, η εισαγωγή πρέπει να αναγράφει τον τίτλο ή το αντικείµενο της έρευνας αναγράφει ταυτότητα του φορέα που διεξάγει την έρευνα εξηγεί τον σκοπό της έρευνας ζητάει την συνεργασία των αποκρινόµενων πληροφορεί τους ερωτηθέντες σχετικά µε τα ζητήµατα απορρήτου, το υποχρεωτικό ή µη της απόκρισης και όποιες συµφωνίες συνιδιοκτησίας των δεδοµένων της έρευνας µε άλλους φορείς. Για τον σχεδιασµό καλής ερώτησης οι επί µέρους λέξεις να είναι απλές και οικίες σε όλους τους αποκρινόµενους. 198

199 Οι ερωτήσεις πρέπει να είναι σαφείς, όσο το δυνατόν συγκεκριµένες, εύκολες να απαντηθούν, και ενδιαφέρουσες για τους αποκρινόµενους. Οι ερωτήσεις πρέπει να είναι εφαρµόσιµες σε όλους τους αποκρινόµενους. Η ερώτηση θα πρέπει να καθορίζει πλαίσιο και χρόνο αναφοράς. Για παράδειγµα, στην ερώτηση «Ποιο είναι το εισόδηµά σας;» η λέξη «σας» µπορεί να αναφέρεται στο ατοµικό ή οικογενειακό εισόδηµα του αποκρινόµενου. Η λέξη εισόδηµα µπορεί να αναφέρεται σε µισθό ή να περιλαµβάνει εισόδηµα από άλλες πηγές. Επίσης, δεν αναφέρεται συγκεκριµένα σε εβδοµαδιαίο, µηνιαίο ή ετήσιο εισόδηµα. Γενικά, δύο είναι βασικοί τύποι ερωτήσεων: (1) Ανοιχτές ερωτήσεις, που δίνουν στους αποκρινόµενους την ευκαιρία να απαντήσουν µε δικά τους λόγια. (2) Κλειστές ερωτήσεις, που δίνουν την δυνατότητα εναλλακτικών απαντήσεων από τις οποίες ο αποκρινόµενος αναµένεται να επιλέξει µία. Η ερώτηση να έχει την απαιτούµενη ακρίβεια. Όταν ετοιµάζεται µια ερώτηση είναι σηµαντικό να διευκρινιστεί από πριν το επίπεδο ακρίβειας που αναµένεται από τον αποκρινόµενο. Π.χ. «Πόσο συχνα;» ή «Πόσες φορές;» ΤΙ ΠΡΕΠΕΙ ΝΑ ΑΠΟΦΕΥΘΧΟΥΝ ΣΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ Στο ερωτηµατολόγιο πρέπει να αποφευχθούν: Συντοµογραφίες και αρκτικόλεξα υσνόητες λέξεις και δυσνόητη ορολογία Ερωτήσεις διπλής σηµασίας, π.χ. ανείζεστε βιβλία και περιοδικά από την βιβλιοθήκη; Τέτοιες ερωτήσεις επιδέχονται πολλαπλή ερµηνεία και η οποία απόκριση επίσης δεν είναι µονοσήµαντη στην κωδικοποίηση της. Ερωτήσεις µεροληπτικές και φορτισµένες. Π.χ. Είστε υπέρ προτεραιότητες των λεωφορείων κατά τις ώρες αιχµής;» Τέτοια διατύπωση της ερώτησης µπορεί να προκαλέσει περισσότερες θετικές απαντήσεις απ όσες πραγµατικά αντιπροσωπεύουν την ανεπηρέαστη διάθεση των αποκρινόµενων. Ερωτήσεις που περιέχουν διπλή άρνηση. Π.χ. Είστε υπέρ ή κατά να µην επιτρέπεται το κάπνισµα σε δηµόσιους χώρους;» Τέτοιες ερωτήσεις µπορεί να 199

200 προκαλέσει περισσότερες θετικές αποκρίσεις απ όσες πραγµατικά αντιπροσωπεύουν την ανεπηρέαστη διάθεση των ερωτηθέντων. Ερωτήσεις που απαιτούν ισχυρή µνήµη Ερωτήσεις για λεπτοµερείς που δεν θα είχαν ποτέ να καταχωρηθεί στην µνήµη Ερωτήσεις για ευαίσθητες ή ενοχοποιητικές πληροφορίες (π.χ. χρήση ναρκωτικών ή εφοριακή απάτη). Τέτοιες ερωτήσεις µπορεί να περιληφθούν σε ειδικά αυτοσυµπληρούµενα (ερωτηµατολόγια που αποστέλλονται στον αποκρινόµενο µε FAX, ταχυδροµείο κ.α.) ερωτηµατολόγια που πειστικά κατοχυρώνουν την ανωνυµία του αποκρινόµενου ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΩΣ ΣΥΝΟΛΟ Μετά από την διαµόρφωση των επί µέρους ερωτήσεων, το ερωτηµατολόγιο πρέπει να ιδωθεί ως σύνολο: Πρέπει να έχει καλή εισαγωγή που να µεταφέρει στον αποκρινόµενο το περιεχόµενο της έρευνας. Πρέπει να δηλώνει γιατί γίνονται οι ερωτήσεις Χρειάζεται ενδιαφέρουσες και εύκολα απαντήσιµες ερωτήσεις στην αρχή. Πρέπει οι ερωτήσεις να έχουν ροή από την µία στην επόµενη Πρέπει να ληφθεί υπ όψη η σειρά των ερωτήσεων και η επιρροή τους σε επόµενες ερωτήσεις. Πρέπει να περιέχει κατατοπιστικές οδηγίες συµπλήρωσής του. Πρέπει να τελειώνει µε ευχαριστήριο µήνυµα προς τον αποκρινόµενο για την συµπλήρωση του ερωτηµατολογίου ΟΚΙΜΕΣ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ Απαραίτητη διαδικασία στην σύνταξη ενός ερωτηµατολογίου. Με τις δοκιµές: Ανακαλύπτεται κακό λεκτικό ή κακή διάταξη των ερωτήσεων Αναγνωρίζονται λάθη στην µορφή του ερωτηµατολογίου και στις οδηγίες συµπλήρωσής του Ανακαλύπτονται προβλήµατα που προκαλούνται από την αδυναµία ή την άρνηση του αποκρινόµενου να απαντήσει σε κάποιες ερωτήσεις. Υποδεικνύονται πρόσθετες κατηγορίες απόκρισης που πρέπει να κωδικοποιηθούν στο ερωτηµατολόγιο. 200

201 Παρέχεται προκαταρκτική ένδειξη της διάρκειας της συνέντευξης και όποιων προβληµάτων άρνησης. Η δοκιµή µπορεί να περιλαµβάνει όλο το ερωτηµατολόγιο ή ένα µόνο συγκεκριµένο τµήµα του. 7.8 ΣΧΕ ΙΑΣΜΟΙ ΕΙΓΜΑΤΟΛΗΨΙΑΣ (SAMPLING DESIGNS) Υπάρχουν πολλές µέθοδοι µε τις οποίες µπορεί να επιλεχθεί ένα τυχαίο δείγµα. Η επιλογή εξαρτάται από διάφορους παράγοντες όπως οι σκοποί και προδιαγραφές της έρευνας, το διαθέσιµο πλαίσιο δειγµατοληψίας, η γεωγραφική διασπορά του πληθυσµού, οι επιχειρησιακοί περιορισµοί της έρευνας και ο τρόπος ανάλυσης των στοιχείων της έρευνας από τους χρήστες. Στην επιλογή µεθόδου τυχαίας δειγµατοληψίας, σκοπός πρέπει να είναι η ελαχιστοποίηση του δειγµατοληπτικού σφάλµατος των εκτιµητριών για τις πιο σηµαντικές µεταβλητές της έρευνας, ελαχιστοποιώντας ταυτόχρονα τον χρόνο και το κόστος διεξαγωγής της έρευνας. Οι πιο σηµαντικές µέθοδοι δειγµατοληψίας είναι: Απλή Τυχαία ειγµατοληψία (Simple Random Sampling) Συστηµατική ειγµατοληψία (Systematic Sampling) ειγµατοληψία µε Πιθανότητα αναλογική του Μεγέθους (Sampling with probability proportional to size) Στρωµατική ειγµατοληψία (Stratified Sampling) ειγµατοληψία κατά Οµάδες-Πολυσταδιακή ειγµατοληψία (Cluster Sampling- Multistage Sampling) Εµείς στον παρών οδηγό θα ασχοληθούµε µόνο µε την απλή τυχαία δειγµατοληψία και την στρωµατική δειγµατοληψία ΑΠΛΗ ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (SIMPLE RANDOM SAMPLING) Στην απλή τυχαία δειγµατοληψία χωρίς επανάθεση κάθε δείγµα ίδιου µεγέθους έχει ίση πιθανότητα επιλογής και κάθε οµάδα του πληθυσµού έχει ίση πιθανότητα να περιληφθεί στο δείγµα. Ας σηµειωθεί ότι γενικά στους σχεδιασµούς δειγµατοληψίας δεν ισχύει ότι ίδια πιθανότητα περίληψης σε δείγµα συγκεκριµένου µεγέθους για όλες 201

202 τις µονάδες του πληθυσµού συνεπάγεται ίδια πιθανότητα επιλογής για κάθε δείγµα αυτού του µεγέθους. Για την επιλογή ενός απλού τυχαίου δείγµατος είναι αναγκαίο ένα πλαίσιο-κατάλογος όλων των µελών του πληθυσµού δειγµατοληψίας. Ο αριθµός όλων των µη διατεταγµένων δειγµάτων µεγέθους n είναι N N! = Κάθε δείγµα µεγέθους n έχει την ίδια πιθανότητα επιλογής n n! ( N n)! ps () 1 =. Αν µια µονάδα i είναι σταθερή, οι υπόλοιπες n-1 µονάδες µπορούν N n επιλεγούν από Ν-1 µονάδες µε Το N 1 n 1 τρόπους. Τότε: N 1 1 n 1 n π i = ps () 1 = s i N = = s i N N n n n f = ονοµάζεται κλάσµα δειγµατοληψίας. Το 1-f είναι το ποσοστό του N πληθυσµού που δεν περιλαµβάνεται στο δείγµα. Ο αναγωγικός συντελεστής είναι ίδιος για όλες τις µονάδες του πληθυσµού, δηλαδή 1 wi = I ( i s ), i = 1,..., N π i ώστε για κάθε µονάδα του δείγµατος s έχουµε 1 wi = = π i N n Μηχανισµοί (αλγόριθµοι) επιλογής απλού τυχαίου δείγµατος χωρίς επανάθεση Η επιλογή απλού τυχαίου δείγµατος µπορεί να γίνει εύκολα ακόµη και από µεγάλους πληθυσµούς µε χρήση υπολογιστή και µε πλαίσιο δειγµατοληψίας που έχει µορφή ηλεκτρονικού αρχείου. Οι µονάδες του δείγµατος επιλέγονται από το πλαίσιο 202

203 διαδοχικά, µια κάθε φορά, χωρίς επανάθεση, έτσι ώστε σε κάθε στάδιο επιλογής κάθε εναποµείνασα µονάδα του πληθυσµού να έχει την ίδια πιθανότητα επιλογής. ύο αλγόριθµοι τέτοιας επιλογής είναι οι εξής: Αλγόριθµος 1 Ανεξάρτητοι τυχαίοι αριθµοί ε1, ε 2,... εξάγονται από την οµοιόµορφη κατανοµή στο διάστηµα (0,1). Έστω n k ο αριθµός των επιλεγµένων µονάδων µεταξύ των πρώτων k-1 µονάδων στον κατάλογο του πληθυσµού. Ισχύει n 1 0. Αν n nk ε k < N k+ 1 τότε η µονάδα k επιλέγεται, αλλιώς δεν επιλέγεται. Η διαδικασία σταµατάει όταν nk = n Με χρήση MATLAB: function mat=algorithmos01(n,n); %O algorithmos01 αναφέρεται στην τυχαία δειγµατοληψία %N: είναι το µέγεθος του πληθυσµού %n: το µέγεθος του δείγµατος. enum=rand(n,1); mat=[]; nk=length(mat); k=1; while nk~=n if enum(k) < (n-nk)/(n-k+1) mat=[mat enum(k)]; end nk=length(mat); k=k+1; end 203

204 Αλγόριθµος 2 Ταυτόχρονη επιλογή πολλών µη επικαλυπτόµενων απλών τυχαίων δειγµάτων. ε, ε,..., Ν ανεξάρτητοι τυχαίοι αριθµοί 1 2 ε Ν εξάγονται από την οµοιόµορφη κατανοµή στο διάστηµα (0,1) και το ε k αντιστοιχίζεται µε την µονάδα k. Αυτοί οι αριθµοί διατάσσονται κατά σειρά µεγέθους ε < ε <... < ε ( k1) ( k2) ( k N ) Οι n µικρότερες τιµές ε αντιστοιχούν σε ένα σύνολο µονάδων { k 1,..., k n } το οποίο απαρτίζει ένα απλό τυχαίο δείγµα µεγέθους n. Οι επόµενες n µικρότερες τιµές ε καθορίζουν ένα δεύτερο δείγµα, µη επικαλυπτόµενο µε τον πρώτο και ούτω κα εξής. Με χρήση MATLAB: function mat=algorithmos02(n,n); %O algorithmos02 αναφέρεται σε ταυτόχρονη επιλογή µη επικαλυτπόµενων %τυχαίων δειγµάτων %N: είναι το µέγεθος του συνολικού πληθυσµού %n: το µέγεθος του δείγµατος enum=rand(n,1); enum=sort(enum,'ascend'); mat=[]; while ~isempty(enum) mat=[mat;enum(1:n)']; enum(1:n)=[]; end 204

205 Εκτίµηση παραµέτρων Για την µεταβλητή y, µια αµερόληπτη εκτιµήτρια της διακύµανσης του πληθυσµού είναι: S 2 N 1 = Y N 1 i= 1 { 1,..., N ( y ) 2 i που υπολογίζεται από το δείγµα s= y y }, δίνεται από την δειγµατική διακύµανση του y Sˆ 2 n 1 = i y n 1 i= 1 ( y ) 2 όπου n yi y = n i= 1 2 Προσοχή: εκτίµηση της διακύµανσης S είναι δυνατή µόνο όταν n 2. Όταν n=2 τότε S ( y y ) = Η αµερόληπτη Horvitz-Thompson εκτιµήτρια του ολικού Υ δίνεται από την n n ˆ 1 N Y = y = y i i= 1 π i n i= 1 i Η διακύµανση της Yˆ δίνεται από την σχέση ( ) Μια αµερόληπτη εκτιµήτρια του ( ˆ ) δίνεται από την 2 V Yˆ = (1 f) N S n 2 V Y που υπολογίζεται από το δείγµα s= { y 1,..., yn} 2 VY ˆ( ˆ) = (1 f) N S n ˆ 2 Καθορισµός του µεγέθους του απλού τυχαίου δείγµατος Συνήθως το δειγµατικό µέγεθος καθορίζεται έτσι ώστε το σχετικό τυπικό σφάλµα (συντελεστής µεταβλητότητας CV) της εκτιµήτριας συγκεκριµένης παραµέτρου για την σπουδαιότερη µεταβλητή της έρευνας να µην υπερβαίνει ένα προκαθορισµένο αποδεκτό όριο. Για παράδειγµα, το ανώτατο αποδεκτό όριο του σχετικού τυπικού σφάλµατος της εκτιµήτρια ενός ολικού για κάποια έρευνα µπορεί να είναι 2%. Ο καθορισµός του ορίου αυτού µπορεί να λαµβάνει υπ όψη και το συνεπαγόµενο 205

206 κόστος, την διάρκεια διεξαγωγής της έρευνας, καθώς και το ενδεχόµενο ποσοστό µη απόκρισης. Αν το δειγµατικό µέγεθος n καθορίζεται µε κριτήριο το σχετικό τυπικό σφάλµα της εκτιµήτριας του ολικού Yˆ, τότε το n καθορίζεται από τον περιορισµό VY ( ˆ) Y c όπου c είναι το ανώτατο όριο επιτρεπόµενου σχετικού τυπικού σφάλµατος. Εύκολα προκύπτει ότι 2 2 n N 1 cy + 2 ns Όταν το κριτήριο είναι το σχετικό τυπικό σφάλµα µιας αναλογίας P, τότε εύκολα προκύπτει ότι το ελάχιστο απαιτούµενο µέγεθος n δίνεται από την σχέση n N + c N 1 2 P 1 ( 1) 1 P Σε αυτή τη περίπτωση το ελάχιστο απαιτούµενο n είναι η συνάρτηση εκτιµητέας παραµέτρου P, µια προσεγγιστική τιµή της οποίας µπορεί να χρησιµοποιηθεί για προσεγγιστικό υπολογισµό του n. Είναι αξιοσηµείωτο ότι για πολύ µικρό P το απαιτούµενο n είναι µεγάλο (όταν το Ρ τείνει στο 0 το n τείνει στο Ν) και για επίσης πολύ µικρό c το n προσεγγίζει το Ν. 1 Εναλλακτικά, το δειγµατικό µέγεθος µπορεί να καθοριστεί έτσι ώστε το περιθώριο σφάλµατος της εκτιµήτριας ˆP γύρω από το Ρ να µην υπερβαίνει d ποσοστιαίες µονάδες µε πιθανότητα 1-α. Ισοδύναµα, αυτό σηµαίνει ότι το αποδεκτό ρίσκο Ρ να βρίσκεται έξω από τα όρια δείγµατος είναι: P± d είναι α. Ο τύπος που δίνει το απαιτούµενο µέγεθος 2 d 1 n N 1 + ( N 1) 2 z1 a P(1 P) 1 (1) όπου z1 a είναι η τιµή της τυπικής κανονικής κατανοµής που ορίζει περιοχή 1-α γύρω από το µηδέν στην καµπύλη κανονικής κατανοµής. Το 1-α ονοµάζεται επίπεδο εµπιστοσύνης. Συνήθως 1-α=0.95 µε αντίστοιχο z1 a =

207 Το δειγµατικό µέγεθος n που καθορίζεται µε κριτήριο το σχετικό τυπικό σφάλµα c είναι το ίδιο µε αυτό που καθορίζεται µε κριτήριο το περιθώριο σφάλµατος d όταν d = cpz 1 a Για πολύ µικρό δείγµα ο τύπος (1) απλοποιείται σε 2 z1 a n= P(1 P) 2 d ΣΤΡΩΜΑΤΙΚΗ ΕΙΓΜΑΤΟΛΗΨΙΑ (STRATIFIED SAMPLING) Στην στρωµατική δειγµατοληψία, ο πληθυσµός διαµερίζεται σε µη επικαλυπτόµενους υποπληθυσµούς που ονοµάζονται στρώµατα. Ένα τυχαίο δείγµα προκαθορισµένου µεγέθους επιλέγεται µε κάποια µέθοδο δειγµατοληψίας από κάθε στρώµα, σαν να ήταν τα στρώµατα διαφορετικοί πληθυσµοί. Οι επιλογές δείγµατος στα διαφορετικά στρώµατα είναι ανεξάρτητες. Η στρωµάτωση ενός πληθυσµού µπορεί να γίνει µε βάση ένα ή περισσότερα χαρακτηριστικά του πληθυσµού που σχετίζονται µε τις µεταβλητές της δειγµατοληπτικής έρευνας. Η στρωµάτωση είναι δυνατή αν οι βοηθητικές αυτές πληροφορίες για τα µέλη του πληθυσµού είναι διαθέσιµες, µε την µορφή µιας ή περισσότερων βοηθητικών στο πλαίσιο δειγµατοληψίας. Για παράδειγµα, πληθυσµός επιχειρήσεων µπορεί να στρωµατωθεί κατά περιοχή, κλάδο, µέγεθος τζίρου ή αριθµό απασχολούµενων. Λόγοι στρωµάτωσης Η στρωµάτωση ενός πληθυσµού µπορεί να βελτιώσει την αποτελεσµατικότητα της δειγµατοληψίας, αν οι τιµές των µεταβλητών της έρευνας για τις µονάδες κάθε στρώµατος είναι πιο όµοιες από ότι για τις µονάδες στο πληθυσµό ως σύνολο. Όσο πιο οµοιογενή είναι τα στρώµατα τόσο πιο αποτελεσµατική είναι η δειγµατοληψία. Για την αποτελεσµατικότητα της στρωµάτωσης είναι απαραίτητος ο ισχυρός συσχετισµός των µεταβλητών στρωµάτωσης µε τις κύριες µεταβλητές της έρευνας. Ας υποθέσουµε ότι σε ένα πληθυσµό µεγέθους Ν=20 οι τιµές της µεταβλητής y είναι 6,3,4,4,5,3,6,2,3,2,2,6,5,3,5,2,4,6,4,6,5 207

208 Τότε Y = 4 και µεγέθους ν=5 έχει διακύµανση 2 40 S =. Η εκτίµηση του µέσου Y που βασίζεται σε απλό τυχαίο 19 VY ˆ( ˆ ) = 6/19 πληθυσµού, παρατηρούµε ότι αυτός µπορεί να διαταχθεί ως. Αν προσέξουµε όµως την δοµή του 2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5,6,6,6,6 Σε πολλές περιπτώσεις δειγµατοληπτικών ερευνών πρέπει να γίνουν χωριστές εκτιµήσεις για συγκεκριµένους πληθυσµούς. Για παράδειγµα, σε δειγµατοληψίες νοικοκυριών µπορεί να χρειάζονται εκτιµήσεις και κατά γεωγραφικό διαµέρισµα, ενώ σε δειγµατοληψίες επαγγελµατικής απασχόλησης µπορεί αν χρειάζονται χωριστές εκτιµήσεις κατά επαγγελµατικό κλάδο. Αν η πληροφορία αναγνώρισης αυτών των υποπληθυσµών υπάρχει στο πλαίσιο, τότε στον σχεδιασµό της δειγµατοληψίας οι υποπληθυσµοί συνιστούν στρώµατα, ώστε επαρκές δείγµα να επιλεγεί για κάθε ένα από αυτά. Στρωµάτωση του πληθυσµού µπορεί αν γίνει για διευκόλυνση του σχεδιασµού και της διεξαγωγής της έρευνας. Πρακτικοί περιορισµοί κόστους και κατανοµής του έργου συλλογής των στοιχείων συχνά απαιτούν την στρωµάτωση του πληθυσµού κατά περιοχές διεξαγωγής της έρευνας. Βασικοί ορισµοί και συµβολισµοί Έστω ότι ο πληθυσµός U διαµερίζεται σε Η στρώµατα U1, U2,..., U H µεγέθους N1, N2,..., H N, αντίστοιχα, ώστε H H ' = U, ', h hi = για και h = h= 1 h= 1 U U U U h h N N h όπου N h είναι ο πληθυσµός στο κάθε στρώµα. Οι βασικές παράµετροι Y και Y του πληθυσµού U εκφράζονται ως γραµµικές συναρτήσεις των αντίστοιχων στρωµατικών παραµέτρων, ως εξής: Y N = y = H i i= 1 h= 1 Y h Y N h όπου, Y είναι το άθροισµα των χαρακτηριστκών και είναι η τιµή της h = yhi i= 1 µεταβλητής υ για την µονάδα i του στρώµατος h. y hi 208

209 Y N 1 H H h Yh N h= 1 h= 1 N Y = = h Στην γενική περίπτωση στρωµατικής δειγµατοληψίας, ένα τυχαίο δείγµα s h µεγέθους n h επιλέγεται από το στρώµα h µε κάποιο δειγµατοληπτικό σχέδιο από την επιλογή δείγµατος σε άλλα στρώµατα, ώστε p( s h), ανεξάρτητα H H = U = s s, n n h h= 1 h= 1 και λόγω ανεξαρτησίας επιλογής δείγµατος στα στρώµατα Η εκτιµήτρια του ολικού Y δίνεται από την µε διακύµανση H ps () = ps ( h) h= 1 H Yˆ = Yˆ h= 1 H VY ( ˆ) = VY ( ˆ h) h= 1 Η εκτιµήτρια του µέσου όρου δίνεται από την µε διακύµανση H ˆ N Y = N h= 1 h h Y ˆ H ˆ Nh VY ( ) = ( ˆ VYh) h= 1 N 2 h h Στρωµατική απλή τυχαία δειγµατοληψία Συχνά στο ίδιο σχέδιο δειγµατοληψίας χρησιµοποιείται για όλα τα στρώµατα. Η πιο σπουδαία περίπτωση στρωµατικής δειγµατοληψίας είναι η στρωµατική απλή τυχαία δειγµατοληψία. Τότε µε κλάσµα δειγµατοληψίας µε διακύµανση Yˆ N H n = h h h= 1 nh i= 1 y f n h h = για το στρώµα h, Nh hi 209

210 H 2 ( ˆ Nh VY) = (1 fh) S n που είναι γραµµική συνάρτηση των ενδοστρωµατικών διακυµάνσεων αποτελεσµατική στρωµάτωση είναι εκείνη για την οποία οι διακυµάνσεις µικρές. Επίσης h= 1 h 2 h 2 S h. Άρα, η 2 S h είναι Y ˆ = H h= 1 Nh N n h i= 1 n y h hi µια διακύµανση H ( ˆ N S VY) = (1 ) N h= h h f 2 h nh όταν το κλάσµα δειγµατοληψίας είναι το ίδιο για όλα τα στρώµατα, δηλαδή f n n = h h N = h N, τότε η εκτιµήτρια είναι ταυτοτικά ίδια στις περιπτώσεις στρωµατικής απλής τυχαίας δειγµατοληψίας και απλής τυχαίας δειγµατοληψίας. Αυτό που πρέπει να σηµειωθεί εδώ είναι, ότι η διακύµανση στις δύο αυτές περιπτώσεις είναι διαφορετική επειδή είναι διαφορετικός ο τρόπος επιλογής του δείγµατος. Συγκεκριµένα, ενώ στην απλή τυχαία δειγµατοληψία η επιλογή γίνεται ενιαία από τον συνολικό πληθυσµό, στην στρωµατική απλή τυχαία δειγµατοληψία η επιλογή γίνεται ανεξάρτητα και µε καθορισµένο δειγµατικό µέγεθος από διαφορετικά στρώµατα. Το ίδιο ισχύει και για την εκτιµήτρια Yˆ ˆ Y. VY ( ˆ) Καταµερισµός δείγµατος στην στρωµατική απλή τυχαία δειγµατοληψία Πριν από την επιλογή δείγµατος σε κάθε στρώµα, πρέπει να καθοριστούν τα δειγµατικά µεγέθη n h (h=1,.,h). Για δεδοµένη στρωµάτωση του πληθυσµού, ο καταµερισµός του συνολικού δειγµατικού µεγέθους n µπορεί να γίνει µε διαφορετικούς τρόπους, ανάλογα µε την περίσταση. 210

211 Βέλτιστος καταµερισµός Ο καταµερισµός του δείγµατος που ελαχιστοποιεί την διακύµανση VY ( ˆ) δίνεται από τον τύπο n h = n H h= 1 NS h h h NS h Ο βέλτιστος καταµερισµός απαιτεί γνώση των στρωµατικών τυπικών αποκλίσεων. S h Στην πράξη, µόνο προσεγγιστικές τιµές των S h που βασίζονται σε προηγούµενη εµπειρία µπορούν να χρησιµοποιηθούν για προσεγγιστικό υπολογισµό των βέλτιστων µεγεθών n h. Οι τυπικέ αποκλίσεις δεν διαφέρουν πολύ από στρώµα σε στρώµα για µερικούς τύπους στρωµάτωσης, όπως τα γεωγραφικά στρώµατα ή τύπο επιχείρησης. Για δυαδική y οι διαφορές είναι µικρές. Για συνεχείς όµως µεταβλητές το S h αυξάνει µε το µέγεθος της µεταβλητής. Αυτό που πρέπει να τονιστεί εδώ είναι ότι ο ανωτέρω καταµερισµός είναι βέλτιστος για αποτελέσµατα σε επίπεδο συνολικού πληθυσµού, ενώ για µερικά στρώµατα µπορεί να δώσει ανεπαρκές n h, αν απαιτούνται εκτιµήσεις προκαθορισµένης ακρίβειας και για τα επί µέρους στρώµατα. Χ-Βέλτιστος Καταµερισµός Ο καταµερισµός αυτός, που έχει την δοµή του βέλτιστου καταµερισµού, χρησιµοποιείται όταν µια βοηθητική µεταβλητή x µε ισχυρό συσχετισµό µε την µεταβλητή y είναι διαθέσιµη κατά τον σχεδιασµό της δειγµατοληψίας, οπότε και οι αντίστοιχες στρωµατικές τυπικές αποκλίσεις S xh µπορούν να υπολογιστούν. Ο καταµερισµός αυτό ελαχιστοποιεί την διακύµανση n h = n H h= 1 NS h h xh NS xh V( Xˆ ) και δίνεται από τον τύπο Αν ο συσχετισµός των µεταβλητών x και y είναι τέλειος (δηλ. y = a+ bx, i= 1,..., N ) i i 211

212 τότε ο καταµερισµός αυτός είναι βέλτιστος. Αν ο συσχετισµός είναι ισχυρός αλλά όχι τέλειος, τότε ο καταµερισµός αυτός είναι σχεδόν βέλτιστος και για αυτό χρησιµοποιείται στην πράξη µε καλά αποτελέσµατα. Αναλογικός καταµερισµός Με τον αναλογικό καταµερισµό του δείγµατος στα στρώµατα τα δειγµατικά µεγέθη n h καθορίζονται αναλογικά των στρωµατικών µεγεθών, N h n h = n H N h= 1 h N h εδοµένου ότι ο αναλογικός καταµερισµός είναι ανεξάρτητος των τυπικών S αποκλίσεων και στα στρωµατικά µεγέθη είναι γνωστά, τα δειγµατικά µεγέθη h N h n h µπορούν πάντα να υπολογιστούν. Με τον αναλογικό καταµερισµό τα κλάσµατα δειγµατοληψίας f h n N = h = είναι τα h n N ίδια για όλα τα στρώµατα. Κατά συνέπεια, οι αναγωγικοί συντελεστές είναι ίδιοι για όλες τις µονάδες πληθυσµού. Όταν οι τυπικές αποκλίσεις S h είναι ίδιες για όλα τα στρώµατα, ο αναλογικός καταµερισµός έχει ως αποτέλεσµα µεγαλύτερη διακύµανση VY ( ˆ). Καταµερισµός Αναλογικός του ολκού Χ Η παραλλαγή του αναλογικού καταµερισµού, τα δειγµατικά µεγέθη n h καθορίζονται αναλογικά των στρωµατικών ολικών X h, όταν αυτοί είναι γνωστοί δηλ. n h = n ο εύχρηστος αυτός καταµερισµός δεν υπολείπεται πολύ του βέλτιστου όταν ο συσχετισµός των µεταβλητών x και y είναι ισχυρός και ο συντελεστής µεταβλητότητας CV S Y H X h= 1 h = είναι περίπου ίδιος σε όλα τα στρώµατα. h h X h 212

213 Καθορισµός του µεγέθους του στρωµατικού απλού τυχαίου δείγµατος Ο σκοπός του βέλτιστου καταµερισµού είναι να δώσει τα πιο ακριβή αποτελέσµατα από ένα δείγµα δεδοµένου µεγέθους ή να ελαχιστοποιεί το συνολικό µέγεθος δείγµατος που απαιτείται για αποτελέσµατα δεδοµένης ακρίβειας. Για κάθε τρόπο καταµερισµού του δείγµατος στα στρώµατα, τα δειγµατικά µεγέθη n h = nbh b h έχουν ίδια µορφή όπου είναι η αναλογία του συνολικού δείγµατος που αντιστοιχεί στο στρώµα h, ώστε H b h h= 1 0< b < 1 και = 1. Το συνολικό δειγµατικό h µέγεθος n µπορεί να καθοριστεί από τον περιορισµό VY ( ˆ) Y c όπου c είναι το ανώτατο όριο επιτρεπόµενου σχετικού τυπικού σφάλµατος της εκτιµήτριας στρωµατική απλή τυχαία δειγµατοληψία, γράφοντας την διακύµανση µορφή H 2 2 ( ˆ NS h h VY) = n H h= 1 h h= 1 NS h 2 h VY ( ˆ) Yˆ. Για µε την αντικαθιστώντας, n h = nb h VY ( ˆ) 2 2 = cy και λύνοντας ως προς n, εύκολα προκύπτει ότι n = cy H 2 2 NS h h / bh h= 1 H NS h h h= 1 και εποµένως n H 2 2 NS h h / bh h= 1 h = bh H cy + NS h h h= 1 213

214 Αλγόριθµος για Στρωµατική ειγµατοληψία function [stocks ret]=algorithmos03(data,nc,sel); % o algorithmos03 αναφέρεται στην στρωµατική δειγµατοληψία. Σε αυτή την % περίπτωση, καταρχάς πρέπει να επιλέξουµε ένα κριτήριο για να χωρίσουµε το % συνολικό δείγµα µας σε έναν αριθµό υποδειγµάτων. Το κριτήριο κατασκευής % στρωµάτων είναι υποκειµενικό και µπορεί να ποικίλει σε κάθε περίπτωση. % enum: είναι ο συνολικός πληθυσµός % nc:είναι το συνολικό δειγµατικό µέγεθος που θα επιλεχτεί από τα στρώµατα % sel=1 το µέγεθος του δείγµατος καθορίζεται από τον χρήστη % sel=2 το µέγεθος του δείγµατος ορίζεται από τον βέλτιστο καταµερισµό N=cols(data); ret=log(data(2:end,:)./data(1:end-1,:)); aux_mat=[]; for i=1:n aux_mat=[aux_mat std(ret(:,i))]; end ind{1}=find(aux_mat<=0.015); ind{2}=find(aux_mat>0.015 & aux_mat<=0.025); ind{3}=find(aux_mat>0.025); l=[length(ind{1}) length(ind{2}) length(ind{3})]; s=[std(mean(ret(:,ind{1}))) std(mean(ret(:,ind{2}))) std(mean(ret(:,ind{3})))]; switch sel case 1 nc=round(nc/3); for i=1:3 mat=[]; 214

215 while length(mat)~=nc index=round(1+(l(i)-1)*rand(1)); if ~ismember(ind{i}(index),mat); mat=[mat ind{i}(index)]; end end stocks{i}=mat; end case 2 for i=1:3 nh(i)=round(nc*((l(i)*s(i))/sum(l.*s))); mat=[]; end while length(mat)~=nh(i) index=round(1+(l(i)-1)*rand(1)); if ~ismember(ind{i}(index),mat); mat=[mat ind{i}(index)]; end end stocks{i}=mat; end 215

216 8. ΠΡΟΒΛΕΨΕΙΣ Σε αυτό το κεφάλαιο θα ασχοληθούµε µε την περαιτέρω ανάλυση των προβλεπόµενων τιµών που εξάγονται τρέχοντας κάποια παλινδρόµηση. Στην ουσία οι προβλεπόµενες τιµές είναι τα ˆΥ. Για να θυµηθούµε λίγο την διαδικασία θα χρησιµοποιήσουµε το παράδειγµα των παιχτών NBA. Αυτό που θέλουµε έχοντας για dataset τις επιδόσεις 105 αθλητών του NBA στο Πόντους ανά αγώνα, Rebound, Assist, %καλάθια εντός περιοχής, %ευστοχίας ελεύθερων βολών. Analyze> Regression> Linear Αν τρέξουµε όµως την παλινδρόµηση (µε την µέθοδο Stepwise εφόσον κάποιες από τις µεταβλητές είχαν µεγάλο P-value στο πίνακα των Coefficients οπότε δεν είναι κατάλληλες για το µοντέλο µας) και ελέγξουµε τις υποθέσεις του µοντέλου (Κανονικότητα, Οµοσκεδαστικότητα, Ανεξαρτησία, Πολυσυγγραµµικότητα και Γραµµικότητα) θα δούµε ότι παραβιάζονται οι υποθέσεις της κανονικότητας (και δύο 216

217 έλεγχοι Kolmogorov-Smirnov και Shapiro-Wilks δίνουν p-value 0.000<0.05 οπότε απορρίπτεται η µηδενική υπόθεση που υποστηρίζει ότι τα κατάλοιπα του µοντέλου ακολουθούν κανονική κατανοµή) και της Οµοσκεδαστικότητας (αφού τα διαγράµµατα σηµείων των καταλοίπων έναντι των επεξηγηµατικών φαίνεται να έχουν κάποιο pattern και να µην είναι τυχαία, ένα σύννεφο σηµείων). Αυτό που µπορούµε να κάνουµε για να διορθώσουµε τις δύο υποθέσεις που µας προβληµατίζουν είναι να χρησιµοποιήσουµε κάποιους µετασχηµατισµού είτε στην εξαρτηµένη, είτε στις επεξηγηµατικές, είτε και στα δύο είδη µεταβλητών. Μετά από δοκιµές στον υπό µελέτη µοντέλο µας βρήκαµε ότι το καλύτερο είναι να µετασχηµατίσουµε και την εξαρτηµένη αλλά και κάποιες από τις επεξηγηµατικές. Σαν µετασχηµατισµό χρησιµοποιήσαµε τον λογάριθµο. Εποµένως πλέον η εξαρτηµένη µας είναι ο λογάριθµος των Πόντων ανά λεπτό των παιχτών και οι επεξηγηµατικές που µετασχηµατίσαµε παίρνοντας τον λογάριθµό τους είναι Rebound ανά λεπτό και Assist ανά λεπτό. Toν µετασχηµατισµό στο SPSS µπορούµε να το κάνουµε µε το µενού: Transform> Compute Και κάνουµε τα εξής: 217

218 Θα προσέξουµε οπωσδήποτε να βάλουµε την ονοµασία της νέας µετασχηµατισµένη µεταβλητής στο κουτάκι Target Variable, µετά θα επιλέξουµε την µεταβλητή που θέλουµε να µετασχηµατίσουµε, εδώ τους Πόντους ανά λεπτό των παιχτών µετά θα πάµε στο κουτάκι Function group και θα επιλέξουµε All και µετά στο ακριβώς στο από κάτω κουτάκι θα ψάξουµε να βρούµε την συνάρτηση του λογαρίθµου Ln. Και µετά πατάµε ΟΚ και στην τελευταία στήλη του dataset µας θα έχει δηµιουργηθεί η νέα µετασχηµατισµένη µεταβλητή. Το ίδιο θα κάνουµε και για τις επεξηγηµατικές µεταβλητές που θέλουµε να µετασχηµατίσουµε. Τρέχοντας την παλινδρόµηση θα δούµε ότι κάποιες από τις µεταβλητές δεν φαίνεται να είναι στατιστικά σηµαντικές. 218

219 Εποµένως θα χρησιµοποιήσουµε την µέθοδο Stepwise 219

220 Από το νέο πινακάκι των Coefficients παρατηρούµε ότι οι µόνες µεταβλητές που φαίνεται να είναι στατιστικά σηµαντικές για το µοντέλο είναι logrebound, %ποσοστό καλαθιών εντός περιοχής, %ευστοχία ελευθέρων βολών. Βέβαια από τον έλεγχο υπάρχει µια αµφιβολία για την σηµαντικότητα της σταθεράς στο µοντέλο, επειδή όµως η σταθερά του µοντέλου είναι πολύ χρήσιµη στην εκτίµηση του µοντέλου αλλά και στην εξαγωγή συµπερασµάτων, την σταθερά θα την αφαιρούµε µόνο όταν είναι αναγκαστικό. Και επιπλέον από το πίνακα της ANOVA φαίνεται πως το µοντέλο µας είναι στατιστικά σηµαντικό αφού p-value=0.000<0.05 εποµένως η µηδενική υπόθεση απορρίπτεται που θέλει H : β = β =... = β n =

221 Αν ξανά ελέγξουµε της υποθέσεις του γραµµικού µοντέλου µε τον τρόπο που έχουµε αναφέρει πιο πάνω, θα έχουµε: Κανονικότητα Τα p-value είναι µεγάλα (>0,05) εποµένως δεν απορρίπτεται η µηδενική υπόθεση ότι τα κατάλοιπα ακολουθούν κανονική κατανοµή. Αυτό µπορούµε να το δούµε και από το ιστόγραµµα: 221

222 Histogram Frequency , ,00000 Standardized Residual 2,00000 Mean = 9,322404E-15 Std. Dev. = 0, N = 105 Οµοσκεδαστικότητα: Όπως είπαµε θα κάνουµε ένα πίνακα διαγραµµάτων σηµείων (Matrix Scatter Plot) των καταλοίπων µε τις επεξηγηµατικές που είναι στατιστικά σηµαντικές για το µοντέλο µας. Graph> Scatter> Matrix 222

223 Και το αποτέλεσµα που θα πάρουµε είναι 223

224 Εµάς µας ενδιαφέρει να δούµε µόνο την γραµµή που αφορά τα Standardized Residuals σε σχέση µε τις επεξηγηµατικές µεταβλητές. Από τα διαγράµµατα παραπάνω παρατηρούµε ότι τα σηµεία είναι τυχαιοποιηµένα, δηλαδή σύννεφο (δεν είναι τόσο καθαρό αλλά δεν φαίνεται να έχουµε κάποιο πρόβληµα). Γραµµικότητα Για τον έλεγχο της γραµµικότητας, όπως ειπώθηκε παραπάνω αυτό που µπορούµε να κάνουµε είναι ένα διάγραµµα των προβλεπόµενων τιµών έναντι των καταλοίπων. Analyze> Regression> Linear και κάνουµε τις εξής επιλογές 224

225 Πατάµε Continue και µετά OK. Το αποτέλεσµα θα είναι το διάγραµµα σηµείων παρακάτω: Scatterplot Dependent Variable: Pontoi_log 5 Regression Standardized Predicted Value Regression Standardized Residual 4 225

226 Αναµένεται 0.05*105 παρατηρήσεις εκτός του [-2,2], δηλαδή το πολύ 5 παρατηρήσεις έξω από τον διάστηµα παραπάνω. Εδώ βλέπουµε 2 σηµεία έξω από ο διάστηµα οπότε είµαστε καλά και δεν παραβιάζεται η υπόθεση της γραµµικότητας. Ανεξαρτησία Θα κάνουµε την διαδικασία που είπαµε στην αρχή του κεφαλαίου, ώστε να εξάγουµε τον δείκτη Durbin-Watson. Αν κάνουµε την διαδικασία θα έχουµε: Βλέπουµε ότι η τιµή είναι κοντά στο 2 οπότε δεν έχουµε πρόβληµα ανεξαρτησίας καταλοίπων. Επιπλέον από αυτό το πινακάκι βλέπουµε ότι από το µοντέλο εξηγείται το 72,4% της συνολική διακύµανσης. (αρκετά καλό ποσοστό). Πολυσυγγραµµικότητα Όπως και στην αρχή της ενότητας, το µέτρο µου χρησιµοποιούµε για να ελέγξουµε αν υπάρχει πολυσυγγραµµικότητα είναι το VIF. Για τιµές µεγαλύτερες από 10 έχουµε σοβαρό πρόβληµα πολυσυγγραµµικότητας. Κάνοντας την διαδικασία που αναφέραµε στην αρχή της ενότητας για την πολλαπλή παλινδρόµηση, θα έχουµε 226

227 Βλέπουµε ότι καµία από τις µεταβλητές δεν φαίνεται να έχει VIF πάνω από 10 οπότε όλα καλά και δεν υπάρχει πολυσυγγραµµικότητα. Οπότε όλες οι υποθέσεις µας διορθώθηκαν. Εποµένως όλες οι εκτιµήσεις µας είναι συνεπείς πλέον, άρα και σωστές. Έχοντας κρατήσει τις προβλεπόµενες τιµές θα κάνουµε ένα διάγραµµα σηµείων (scatter plot) που στον άξονα των Υ θα είναι οι προβλεπόµενες τιµές και στον άξονα Χ θα είναι οι τιµές των Υ. Το σηµείο (παίχτης) που θα έχει την ψηλότερη προβλεπόµενη τιµή στο διάγραµµα τότε ο παίχτης που αντιπροσωπεύει αυτό το σηµείο θα είναι και αυτός που θα προτείνουµε. Έτσι: Graph> Scatter Plot> Simple 227

228 Το επιπλέον που κάνουµε εδώ είναι να εισάγουµε στο κουτάκι Set Markers by την στήλη µε τα ονόµατα των παιχτών ώστε κάθε σηµείο να έχει διαφορετικό χρώµα. Όπως παρακάτω. Για να καταλάβουµε τώρα σε ποιον παίχτη αντιστοιχεί το σηµείο µε την µεγαλύτερη προβλεπόµενη τιµή, απλά έτσι όπως µας έχει εξαγάγει το SPSS το διάγραµµα σηµείων θα διπλοπατήσουµε πάνω του και θα ανοίξει το διάγραµµα σε ένα άλλο παράθυρο. Αν πατήσουµε µία φορά πάνω στο σηµείο µε την ψηλότερη προβλεπόµενη τιµή και µετά ξανά πατήσουµε άλλη µία φορά πάνω στο σηµείο θα εµφανιστεί σε πλαίσιο το όνοµα του παίχτη στον οποίο αναφέρεται το σηµείο. 228

229 Εδώ βλέπουµε ότι ο παίχτης που θα προτείναµε σαν καλύτερο αναµενόµενο παίχτη στους πόντους ανά αγώνα είναι ο Μ. Jordan. Όλα τα παραπάνω είναι εφαρµόσιµα στην περίπτωση που το δείγµα, το οποίο θα εφαρµόσουµε την γραµµική παλινδρόµηση ώστε να εξάγουµε (εκτιµήσουµε) τις προβλεπόµενες τιµές, είναι µικρό (µέχρι 80 παρατηρήσεις για κάθε µεταβλητή). Τώρα στην περίπτωση που έχουµε περισσότερες από 80 παρατηρήσεις για κάθε µεταβλητή θα παρουσιαστεί «σύγχυση» στο διάγραµµα µας µε συνέπεια να µην είναι ευδιάκριτο το ποίο Υ φαίνεται να έχει την µεγαλύτερη προβλεπόµενη τιµή. Για αυτό µια καλή λύση είναι να χρησιµοποιήσουµε το «View Editor» που προσφέρει το SPSS για τα διαγράµµατα, αφού πρώτα κάνουµε την εξής επιλογή στην εξαγωγή του διαγράµµατος. 229

230 3,00000 Unstandardized Predicted Value 2, , , ,50 1,00 1,50 2,00 2,50 3,00 3,50 Pontoi_log 230

231 Όταν εξάγουµε το διάγραµµα απλά διπλοκλικάρουµε πάνω του και βγαίνει το View Editor µε το οποίο µπορούµε να επεξεργαστούµε το διάγραµµα: Θα κάνουµε ένα κλικ πάνω στο σηµείο που βρίσκεται πιο ψηλά στο διάγραµµα και µετά ξανακλικάρουµε. Το αποτέλεσµα θα είναι το συγκεκριµένο σηµείο να περικλείεται από ένα µπλε κύκλο όπως παραπάνω. Μετά κάνουµε δεξί κλικ πάνω σε αυτό το σηµείο: 231

232 Αυτό που συµβαίνει είναι να βγει ένα µενού όπως παραπάνω. Οι πιο σηµαντικές από τις παραπάνω επιλογές είναι «Add X Axis Reference Line», η οποία βάζει µια γραµµή οριζόντια στο διάγραµµα την οποία µπορούµε να εµείς να ρυθµίσουµε που θέλουµε να την τοποθετήσουµε µέσα στο διάγραµµα, η «Add Y Axis Reference», η οποία κάνει ακριβώς το ίδιο µε την προηγούµενη επιλογή µόνο που η γραµµή πλέον είναι κάθετη και όχι οριζόντια και η επιλογή «Show Data Labels». Εµείς θα διαλέξουµε το µενού Show Data Labels. Αυτή η επιλογή µας δίνει την δυνατότητα να δούµε σε ποιο Y αντιστοιχεί η συγκεκριµένη η προβλεπόµενη τιµή, όπως παρακάτω: 232

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία. . ΣΤΑΤΙΣΤΙΚΗ ΣΥΣΧΕΤΙΣΗ. Υπολογισµός συντελεστών συσχέτισης Προκειµένου να ελέγξουµε την ύπαρξη γραµµικής σχέσης µεταξύ δύο ποσοτικών µεταβλητών, χρησιµοποιούµε συνήθως τον παραµετρικό συντελεστή συσχέτισης

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Γκριζιώτη Μαρία ΜSc Ιατρικής Ερευνητικής Μεθοδολογίας Αναλυτική στατιστική Σύγκριση ποιοτικών

Διαβάστε περισσότερα

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11 ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 34 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: 17 Οικονομετρικά Εργαστήριο 15/5/11 ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ 7 ΕΡΓΑΣΤΗΡΙΟ ΜΗ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ Σκοπός του παρόντος µαθήµατος είναι η

Διαβάστε περισσότερα

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια) ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Απλή γραµµική παλινδρόµηση Παράδειγµα 6: Χρόνος παράδοσης φορτίου ΜΑΘΗΜΑ

Διαβάστε περισσότερα

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Περιεχόμενα 1. Συσχέτιση μεταξύ δύο ποσοτικών

Διαβάστε περισσότερα

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov. A. ΈΛΕΓΧΟΣ ΚΑΝΟΝΙΚΟΤΗΤΑΣ A 1. Έλεγχος κανονικότητας Kolmogorov-Smirnov. Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov. Μηδενική υπόθεση:

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης Περιεχόμενα Εισαγωγή Το πρόβλημα - Συντελεστής συσχέτισης Μοντέλο απλής γραμμικής παλινδρόμησης

Διαβάστε περισσότερα

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο Κατανομές Στατιστικών Συναρτήσεων Δύο ανεξάρτητα δείγματα από κανονική κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. από Ν( µ, σ ) μεγέθους n και 1 n 1 1 Y = (Y, Y,..., Y ) τ.δ. από Ν( µ, σ ) 1 n 1 Χ Y ( µ µ )

Διαβάστε περισσότερα

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο Κατανομές Στατιστικών Συναρτήσεων Δύο δείγματα από κανονική κατανομή Έστω Χ= ( Χ, Χ,..., Χ ) τ.δ. από Ν( µ, σ ) μεγέθους n και 1 n 1 1 Y = (Y, Y,...,Y ) τ.δ. από Ν( µ, σ ) 1 n 1 Χ Y ( µ µ ) S σ Τ ( Χ,Y)

Διαβάστε περισσότερα

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ. ΣΤ. ΑΝΑΛΥΣΗ ΙΑΣΠΟΡΑΣ (ANALYSIS OF VARIANCE - ANOVA) ΣΤ 1. Ανάλυση ιασποράς κατά µία κατεύθυνση. Όπως έχουµε δει στη παράγραφο Β 2, όταν θέλουµε να ελέγξουµε, αν η µέση τιµή µιας ποσοτικής µεταβλητής διαφέρει

Διαβάστε περισσότερα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΤΕΤΑΡΤΟ-ΠΕΜΠΤΟ ΘΕΩΡΙΑΣ- ΠΟΛΛΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Σηµειώσεις: Θωµόπουλος Γιώργος Ρογκάκος Γιώργος Καθηγητής: Κουνετάς

Διαβάστε περισσότερα

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων Ασκήσεις Εξετάσεων Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων ΑΣΚΗΣΗ 1: Έλεγχος για τη μέση τιμή ενός πληθυσμού Η αντικαπνιστική νομοθεσία υποχρεώνει τους καπνιστές που εργάζονται σε

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης Πολλαπλή Παλινδρόμηση Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια

Διαβάστε περισσότερα

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο Παράδειγμα 1 Ο παρακάτω πίνακας δίνει τις πωλήσεις (ζήτηση) ενός προϊόντος Υ (σε κιλά) από το delicatessen μιας περιοχής και τις αντίστοιχες τιμές Χ του προϊόντος (σε ευρώ ανά κιλό) για μια ορισμένη χρονική

Διαβάστε περισσότερα

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Περιγραφή των εργαλείων ρουτινών του στατιστικού Κεφάλαιο 5 ο Περιγραφή των εργαλείων ρουτινών του στατιστικού πακέτου SPSS που χρησιµοποιήθηκαν. 5.1 Γενικά Το στατιστικό πακέτο SPSS είναι ένα λογισµικό που χρησιµοποιείται ευρέως ανά τον κόσµο από επιχειρήσεις

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS Πανεπιστήμιο Θεσσαλίας-Τμήμα Πολιτικών Μηχανικών Εργαστήριο Κυκλοφορίας, Μεταφορών και Διαχείρισης Εφοδιαστικής Αλυσίδας Αντικείμενα διάλεξης Σύντομη εισαγωγή

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) Έλεγχος Υποθέσεων για τους Μέσους - Εξαρτημένα Δείγματα (Paired samples t-test) Το κριτήριο Paired samples t-test χρησιμοποιείται όταν θέλουμε να συγκρίνουμε

Διαβάστε περισσότερα

1991 US Social Survey.sav

1991 US Social Survey.sav Παραδείγµατα στατιστικής συµπερασµατολογίας µε ένα δείγµα Στα παραδείγµατα χρησιµοποιείται απλό τυχαίο δείγµα µεγέθους 1 από το αρχείο δεδοµένων 1991 US Social Survey.sav Το δείγµα λαµβάνεται µε την διαδικασία

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα Γκριζιώτη Μαρία ΜSc Ιατρικής Ερευνητικής Μεθοδολογίας Όταν ανοίγουµε µία βάση στο SPSS η πρώτη εικόνα που

Διαβάστε περισσότερα

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια) ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ ΜΑΘΗΜΑ 12β ΕΡΓΑΣΤΗΡΙΟ 4β ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΜΕ ΤΗΝ ΧΡΗΣΗ SPSS

Διαβάστε περισσότερα

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ A εξάμηνο 2009-2010 ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ Μεθοδολογία Έρευνας και Στατιστική ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Χειμερινό Εξάμηνο 2009-2010 Ποιοτικές και Ποσοτικές

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) Έλεγχος Υποθέσεων για την Μέση Τιμή ενός Δείγματος (One Sample t-test) Το κριτήριο One sample t-test χρησιμοποιείται όταν θέλουμε να συγκρίνουμε τον αριθμητικό

Διαβάστε περισσότερα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ. Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ περισσότερων από δύο ανεξάρτητων δειγμάτων, που διαχωρίζονται βάσει ενός ανεξάρτητου παράγοντα (Ανάλυση διακύμανσης για ανεξάρτητα δείγματα ως προς

Διαβάστε περισσότερα

Απλή Ευθύγραµµη Συµµεταβολή

Απλή Ευθύγραµµη Συµµεταβολή Απλή Ευθύγραµµη Συµµεταβολή Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές Τοµέας Φυτών Μεγάλης Καλλιέργειας και Οικολογίας, Εργαστήριο Γεωργίας Viola adorata Εισαγωγή Ανάλυση Παλινδρόµησης και Συσχέτιση Απλή

Διαβάστε περισσότερα

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα Αρχείο δεδομένων school.sav Στον πίνακα Descriptives, μας δίνονται για την Επίδοση ως προς τις πέντε διαφορετικές μεθόδους διδασκαλίας, το

Διαβάστε περισσότερα

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο Πολλαπλή παλινδρόµηση Μάθηµα 3 ο Πολλαπλή παλινδρόµηση (Multivariate regression ) Η συµπεριφορά των περισσότερων οικονοµικών µεταβλητών είναι συνάρτηση όχι µιας αλλά πολλών µεταβλητών Y = f ( X, X 2, X

Διαβάστε περισσότερα

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος ΤΜΜΑ ΕΠΙΧΕΙΡΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΜΑΤΩΝ Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος - Στο παρόν µάθηµα δίνεται µε κάποια απλά παραδείγµατα-ασκήσεις

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Περιεχόμενα 1. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ...

Διαβάστε περισσότερα

Λυμένες Ασκήσεις για το μάθημα:

Λυμένες Ασκήσεις για το μάθημα: Λυμένες Ασκήσεις για το μάθημα: ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΧΡΗΣΗ Η/Υ ΚΩΝΣΤΑΝΤΙΝΟΣ ΖΑΦΕΙΡΟΠΟΥΛΟΣ Τμήμα: ΔΙΕΘΝΩΝ ΚΑΙ ΕΥΡΩΠΑΪΚΩΝ ΣΠΟΥΔΩΝ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά 1. Ιστόγραμμα Δεδομένα από το αρχείο Data_for_SPSS.xls Αλλαγή σε Variable View (Κάτω αριστερά) και μετονομασία της μεταβλητής σε NormData, Type: numeric και Measure: scale Αλλαγή πάλι σε Data View. Graphs

Διαβάστε περισσότερα

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης Κεφάλαιο 14 Ανάλυση ιακύµανσης Μονής Κατεύθυνσης 1 Ανάλυση ιακύµανσης Μονής Κατεύθυνσης Παραµετρικό στατιστικό κριτήριο για τη µελέτη της επίδρασης µιας ανεξάρτητης µεταβλητής στην εξαρτηµένη Λογική παρόµοια

Διαβάστε περισσότερα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα ΚΕΦΑΛΑΙΟ ΕΚΤΟ Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα Στο κεφάλαιο αυτό θα ασχοληθούμε με τον έλεγχο της υπόθεσης της ισότητα δύο μέσων τιμών με εξαρτημένα δείγματα. Εξαρτημένα

Διαβάστε περισσότερα

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης 24 Μεθοδολογία Επιστηµονικής Έρευνας & Στατιστική Ανάλυση ιακύµανσης Μονής Κατεύθυνσης Όπως ακριβώς συνέβη και στο κριτήριο t, τα δεδοµένα µας θα πρέπει να έχουν οµαδοποιηθεί χρησιµοποιώντας µια αντίστοιχη

Διαβάστε περισσότερα

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata One-way ANOVA µε το SPSS Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές Τοµέας Φυτών Μεγάλης Καλλιέργειας και Οικολογίας, Εργαστήριο Γεωργίας Viola adorata To call in a statistician after the experiment is

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ 6.1 Εισαγωγή Σε πολλές στατιστικές εφαρµογές συναντάται το πρόβληµα της µελέτης της σχέσης δυο ή περισσότερων τυχαίων µεταβλητών. Η σχέση

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης Άσκηση 1 η Ένας παραγωγός σταφυλιών ισχυρίζεται ότι τα κιβώτια σταφυλιών που συσκευάζει

Διαβάστε περισσότερα

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων 1 Μονοπαραγοντική Ανάλυση Διακύμανσης Παραμετρικό στατιστικό κριτήριο για τη μελέτη της επίδρασης μιας ανεξάρτητης μεταβλητής στην εξαρτημένη Λογική

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 13: Επανάληψη Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Γιατί μελετούμε την Οικονομετρία;

Διαβάστε περισσότερα

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις) Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις) 1. Έχοντας στη διάθεσή μας ένα δείγμα, προκύπτει ότι το 95% διάστημα εμπιστοσύνης για το μέσο μ ενός κανονικού

Διαβάστε περισσότερα

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα) Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα) Όταν απαιτείται ο έλεγχος της ύπαρξης στατιστικά σημαντικών

Διαβάστε περισσότερα

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΙΑTΡΙΚΗ ΣΧΟΛΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ Έλενα Κριτσέλη, MPH PhD Επιστημονικός Συνεργάτης Επιδημιολόγος Χρόνιων Παθήσεων, Α Πανεπιστημιακή Παιδιατρική

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 7. Παλινδρόµηση Γενικά Επέκταση της έννοιας της συσχέτισης: Πώς µπορούµε να προβλέπουµε τη µια µεταβλητή από την άλλη; Απλή παλινδρόµηση (simple regression): Κατασκευή µοντέλου πρόβλεψης

Διαβάστε περισσότερα

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 9 ο 9.1 ηµιουργία µοντέλων πρόβλεψης 9.2 Απλή Γραµµική Παλινδρόµηση 9.3 Αναλυτικά για το ιάγραµµα ιασποράς

Διαβάστε περισσότερα

Στατιστικό κριτήριο χ 2

Στατιστικό κριτήριο χ 2 18 Μεθοδολογία Επιστηµονικής Έρευνας & Στατιστική Στατιστικό κριτήριο χ 2 Ο υπολογισµός του κριτηρίου χ 2 γίνεται µέσω του µενού [Statistics => Summarize => Crosstabs...]. Κατά τη συγκεκριµένη διαδικασία

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΤΟΥ ΜΕΓΕΘΟΥΣ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

2. ΕΠΙΛΟΓΗ ΤΟΥ ΜΕΓΕΘΟΥΣ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ 1. ΕΙΣΑΓΩΓΗ ΣΤΟ SPSS Το SPSS είναι ένα στατιστικό πρόγραμμα γενικής στατιστικής ανάλυσης αρκετά εύκολο στη λειτουργία του. Για να πραγματοποιηθεί ανάλυση χρονοσειρών με τη βοήθεια του SPSS θα πρέπει απαραίτητα

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ 1 Παλινδρόµηση Έλεγχοι Υποθέσεων ΙI ΕΠΙΜΕΛΕΙΑ ΣΗΜEΙΩΣΕΩΝ: ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ ΗΜΗΤΡΙΟΥ ΒΑΣΙΛΕΙΟΣ

Διαβάστε περισσότερα

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα) Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα) Όπως αναφέρθηκε στο προηγούμενο κεφάλαιο σε ορισμένες

Διαβάστε περισσότερα

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 4ο Κατανομές Στατιστικών Συναρτήσεων Δείγμα από κανονική κατανομή Έστω Χ= Χ Χ Χ τ.δ. από Ν µσ τότε ( 1,,..., n) (, ) Τ Χ Χ Ν Τ Χ σ σ Χ Τ Χ n Χ S µ S µ 1( ) = (0,1), ( ) = ( n 1)

Διαβάστε περισσότερα

Μοντέλα Πολλαπλής Παλινδρόμησης

Μοντέλα Πολλαπλής Παλινδρόμησης Μοντέλα Πολλαπλής Παλινδρόμησης Πέτρος Ρούσσος Πρόγραμμα Ψυχολογίας, ΦΠΨ, ΕΚΠΑ ΕΙΣΑΓΩΓΙΚΑ 1 Ορολογία Προβλεπτικές μεταβλητές ή παράγοντες (predictors) Μεταβλητή κριτήριο (criterion) Απλή και πολλαπλή παλινδρόμηση

Διαβάστε περισσότερα

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα: ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ, 6-5-0 Άσκηση 8. Δίνονται οι παρακάτω 0 παρατηρήσεις (πίνακας Α) με βάση τις οποίες θέλουμε να δημιουργήσουμε ένα γραμμικό μοντέλο για την πρόβλεψη της Υ μέσω των ανεξάρτητων μεταβλητών

Διαβάστε περισσότερα

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις: Άσκηση. Δίνονται οι παρακάτω παρατηρήσεις: X X X X Y 7 50 6 7 6 6 96 7 0 5 55 9 5 59 6 8 8 5 0 59 7 7 8 8 5 5 0 7 69 9 6 6 7 6 9 5 7 6 8 5 6 69 8 0 50 66 0 0 50 8 59 76 8 7 60 7 87 6 5 7 88 9 8 50 0 5

Διαβάστε περισσότερα

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων Ενότητα: Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα Διδάσκων: Επίκ. Καθ. Απόστολος Μπατσίδης Τμήμα: Μαθηματικών ΚΕΦΑΛΑΙΟ ΕΚΤΟ

Διαβάστε περισσότερα

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ Α εξάμηνο 2010-2011 ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ Ποιοτικές και Ποσοτικές μέθοδοι και προσεγγίσεις για την επιστημονική έρευνα users.sch.gr/abouras

Διαβάστε περισσότερα

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ SPSS ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΧΡΗΣΗ Η/Υ Κωνσταντίνος Ζαφειρόπουλος Τμήμα Διεθνών και Ευρωπαϊκών Σπουδών Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Μακεδονίας Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Παιδαγωγικά II. Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ

Παιδαγωγικά II. Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ Παιδαγωγικά II Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ Άδεια Χρήσης Το παρόν υλικό υπόκειται σε άδειες χρήσης Creative Commons

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΠΟΤΕ ΚΑΙ ΓΙΑΤΙ ΧΡΗΣΙΜΟΠΟΙΕΙΤΑΙ ΜΟΝΤΕΛΟ ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ ΕΡΜΗΝΕΙΑ ΤΩΝ ΕΚΤΙΜΗΤΩΝ ΤΩΝ ΠΑΡΑΜΕΤΡΩΝ ΤΩΝ ΣΥΝΤΕΛΕΣΤΩΝ ΠΑΛΙΝ ΡΟΜΗΣΗΣ ΥΠΟΘΕΣΕΙΣ ΠΙΝΑΚΑΣ ΑΝΑ ΙΑ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΓΙΑ ΤΙΣ ΠΑΡΑΜΕΤΡΟΥΣ

Διαβάστε περισσότερα

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ ΚΕΦΑΛΑΙΟ ΤΕΤΑΡΤΟ Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή Έστω ένα τυχαίο δείγμα X,, 1 X n μεγέθους n από έναν πληθυσμό με μέση τιμή μ 2 και διακύμανση σ, άγνωστη.

Διαβάστε περισσότερα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα Θέλοντας να εξετάσουμε τις μέσες τιμές δύο πληθυσμών πρέπει να διακρίνουμε κατά τα γνωστά από τη θεωρία δύο περιπτώσεις

Διαβάστε περισσότερα

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων Βοήθημα Εξετάσεων Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων 2 1. Περιγραφική Στατιστική Θα δίνονται το ιστόγραμμα των σχετικών συχνοτήτων και τα στατιστικά. 1. Να μπορείτε να εξάγετε

Διαβάστε περισσότερα

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2 Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2. Μη Παραμετρικοί Έλεγχοι Παραμετρικοί είναι οι κλασικοί έλεγχοι υποθέσεων της Στατιστικής οι οποίοι διεξάγονται κάτω από κάποιες προϋποθέσεις για τις παραμέτρους

Διαβάστε περισσότερα

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Νίκος Καλογερόπουλος 2014 Τι είναι έρευνα στην στατιστική Αρχική παρατήρηση: κάτι που πρέπει να διευκρινιστεί Κάθε χρόνο υπόσχομαι στον εαυτό μου ότι

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ηµήτρης Κουγιουµτζής http://users.auth.gr/dkugiu/teach/civilengineer E mail: dkugiu@gen.auth.gr 1/11/2009 2 Περιεχόµενα 1 ΠΕΡΙΓΡΑΦΙΚΗ

Διαβάστε περισσότερα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ. Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ περισσότερων από δύο δειγμάτων, που διαχωρίζονται βάσει δύο ανεξάρτητων παραγόντων (Ανάλυση διακύμανσης για ανεξάρτητα δείγματα ως προς περισσότερους

Διαβάστε περισσότερα

Εισαγωγή στην Ανάλυση Δεδομένων

Εισαγωγή στην Ανάλυση Δεδομένων ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 09-10-2015 Εισαγωγή στην Ανάλυση Δεδομένων Βασικές έννοιες Αν. Καθ. Μαρί-Νοέλ Ντυκέν ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-2015 1. Στατιστικοί παράμετροι - Διάστημα εμπιστοσύνης Υπολογισμός

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 5 ο 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES 5000 Daily calorie

Διαβάστε περισσότερα

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις Οι παρούσες σημειώσεις επιχειρούν να αποτελέσουν μια βοήθεια τόσο στην παρακολούθηση της διάλεξης όσο και στη μελέτη κάποιων εκ των θεμάτων της Γραμμικής

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ. Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δειγμάτων, που διαχωρίζονται βάσει ενός επαναλαμβανόμενου και ενός ανεξάρτητου παράγοντα (Ανάλυση διακύμανσης για εξαρτημένα δείγματα ως προς δύο παράγοντες,

Διαβάστε περισσότερα

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3, Συνάφεια μεταξύ ποιοτικών μεταβλητών Εκδ. #3, 19.03.2016 Ο έλεγχος ανεξαρτησίας χ 2 Ο έλεγχος ανεξαρτησίας χ 2 εφαρμόζεται για να εξετάσουμε τη συνάφεια μεταξύ δύο ποιοτικών μεταβλητών με την έννοια της

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA) ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 8. Ανάλυση διασποράς (ANOVA) Γενικά Επέκταση της σύγκρισης µέσων τιµών µεταβλητής ανάµεσα σε 2 δείγµατα (οµάδες ήστάθµες): Σύγκριση πολλών δειγµάτων (K>2) µαζί Σχέση ανάµεσα σε µια ποσοτική

Διαβάστε περισσότερα

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 : Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 : 1. Να χρησιμοποιηθεί το αρχείο gssft.sav για να γίνει έλεγχος της υπόθεσης ότι στους εργαζόμενους με πλήρη απασχόληση η τιμή του μέσου

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών ΟΙΚΟΝΟΜΕΤΡΙΑ Βιολέττα Δάλλα Τµήµα Οικονοµικών Επιστηµών Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών 1 Εισαγωγή Οικονοµετρία (Econometrics) είναι ο τοµέας της Οικονοµικής επιστήµης που περιγράφει και αναλύει

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29 ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 Μεταβλητές...5 Πληθυσμός, δείγμα...7 Το ευρύτερο γραμμικό μοντέλο...8 Αναφορές στη βιβλιογραφία... 11 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 Περίληψη... 13 Εισαγωγή... 13 Με μια ματιά...

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης ιαστήµατα εµπιστοσύνης και έλεγχοι υποθέσεων για τη µέση τιµή Για µια ποσοτική µεταβλητή

Διαβάστε περισσότερα

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή Ανάλυση Συνδιακύµανσης Alsis of Covrice Η ανάλυση συνδιακύµανσης είναι µία άλλη τεχνική για να βελτιώσουµε την ακρίβεια της προσέγγισης του µοντέλου µας στο πείραµα. Ας υποθέσουµε ότι σ ένα πείραµα εκτός

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 8 ο 8.1 Συντελεστές συσχέτισης: 8.1.1 Συσχέτιση Pearson, και ρ του Spearman 8.1.2 Υπολογισµός του συντελεστή

Διαβάστε περισσότερα

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος Τμήμα Λογιστικής και Χρηματοοικονομικής 1 Δρ. Αγγελίδης Π. Βασίλειος Τμήμα Λογιστικής και Χρηματοοικονομικής Εφαρμοσμένη Στατιστική 2 Περιεχόμενα Εισαγωγή Επαγωγική Στατιστική Έλεγχος κανονικότητας Έλεγχος

Διαβάστε περισσότερα

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με

Διαβάστε περισσότερα

Στατιστικές Υποθέσεις

Στατιστικές Υποθέσεις Τμήμα Λογιστικής και Χρηματοοικονομικής 1 Στατιστικές Υποθέσεις Δρ. Αγγελίδης Π. Βασίλειος 2 Εισαγωγή Ίσως το σπουδαιότερο μέρος της Στατιστικής επιστήμης. Εξαγωγή συμπερασμάτων για τις τιμές των παραμέτρων

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ. Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ Στα προηγούµενα κεφάλαια ορίσαµε και µελετήσαµε την τ.µ. µε τη ϐοήθεια της πιθανο- ϑεωρίας (κατανοµή, ϱοπές) και της στατιστικής (εκτίµηση, στατιστική υπόθεση). Σ

Διαβάστε περισσότερα

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού ρ. Γεώργιος Μενεξές Τοµέας Φυτών Μεγάλης Καλλιέργειας και Οικολογίας Viola adorata Σκηνή Πρώτη Ερωτήσεις Σωστού-Λάθους (µέρος Ι). Ο µέσος όρος

Διαβάστε περισσότερα

Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα

Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα ΚΕΦΑΛΑΙΟ ΕΒΔΟΜΟ Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα Έστω Y,, j1 Yjn, j το πλήθος j = 1,..., k, k 2 τυχαία ανεξάρτητα δείγματα j μεγέθους n j από έναν

Διαβάστε περισσότερα

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ. Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ Στα προηγούµενα κεφάλαια ορίσαµε και µελετήσαµε την τ.µ. µε τη ϐοήθεια της πιθανο- ϑεωρίας (κατανοµή, ϱοπές) και της στατιστικής (εκτίµηση, στατιστική υπόθεση). Σ

Διαβάστε περισσότερα

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος Ανάλυση ποσοτικών δεδομένων ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος Εισαγωγή στη στατιστική Στατιστική: σύνολο αρχών και μεθοδολογιών που χρησιμοποιούνται για:

Διαβάστε περισσότερα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΠΡΩΤΟ ΘΕΩΡΙΑΣ-ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ ΕΡΓΑΣΤΗΡΙΟ PASW 18 Δρ. Κουνετάς Η Κωνσταντίνος Ακαδημαϊκό Έτος 2011 2012 ΕΠΙΧ

Διαβάστε περισσότερα

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 6 ο 6.1 Ερωτήσεις Πολλαπλών Απαντήσεων 6.2 Εντολή Case Summaries 6.3 Ο έλεγχος t : (correlate t-test) 6.3.1Σύγκριση

Διαβάστε περισσότερα

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στην Ανάλυση Ερευνητικών Δεδομένων στις Κοινωνικές Επιστήμες Με χρήση των λογισμικών IBM/SPSS και LISREL Ενότητα 3 η : Περιγραφική

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ ιαφάνειες για το µάθηµα Information Management ΑθανάσιοςΝ. Σταµούλης 1 ΠΗΓΗ Κονδύλης Ε. (1999) Στατιστικές τεχνικές διοίκησης επιχειρήσεων, Interbooks 2 1 Γραµµική παλινδρόµηση Είναι

Διαβάστε περισσότερα

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. ΜΑΘΗΜΑ 12 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο]

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. ΜΑΘΗΜΑ 12 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο] Ενότητα 2 ιαφάνειες Μαθήµατος: 2- Ενότητα 2 ιαφάνειες Μαθήµατος: 2-2 ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο.6. είκτες µερικής συσχέτισης

Διαβάστε περισσότερα

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 3: One-Way ANOVA

Διαβάστε περισσότερα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ. Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ περισσότερων από δύο εξαρτημένων δειγμάτων, που διαχωρίζονται βάσει ενός επαναλαμβανόμενου παράγοντα (Ανάλυση διακύμανσης για εξαρτημένα δείγματα ως

Διαβάστε περισσότερα

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη

Ύλη 1 ης Εβδομάδας. Σχέσεις Μεταβλητών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ. Σχέση μεταξύ Μεταβλητών Παραδείγματα. 2 η Διάλεξη ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ 2 η Διάλεξη Ελένη Κανδηλώρου (Αναπλ. Καθηγήτρια) Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Στατιστικής Ύλη 1 ης Εβδομάδας Γραμμική Παλινδρόμηση-Έννοια Παλινδρόμισης 1. Σχέση μεταξύ μεταβλητών

Διαβάστε περισσότερα

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων Ενότητα: Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα Διδάσκων: Επίκ. Καθ. Απόστολος Μπατσίδης Τμήμα: Μαθηματικών

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών

Διαβάστε περισσότερα

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 10 ο 10.1 Πολλαπλή Γραµµική Παλινδρόµηση 10.2 Η εφαρµογή της Πολλαπλής Γραµµικής Παλινδρόµησης 10.3 Παράδειγµα

Διαβάστε περισσότερα