ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-015 Στατιστικοί έλεγχοι του Χ ΠΟΛΥΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Αν. Καθ. Μαρί-Νοέλ Ντυκέν
ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-015 1. Στατιστικός έλεγχος του Χ Ανάλυση με μια κατηγορική μεταβλητή
Στατιστική του Χ για μια μεταβλητή Σε ένα δείγμα n ατόμων, εξετάζουμε κ Γεγονότα (π.χ. προτιμήσεις των τουριστών για κ τουριστικούς προορισμούς): Γ 1, Γ,, Γ κ Η πιθανότητα για κάθε γεγονός είναι: p 1, p,, p κ i 1 p i 1 Η παρατηρούμενη συχνότητα εμφάνισης του κάθε γεγονός είναι: n 1, n,, n κ i1 n i n Η συνάρτηση πιθανότητας να πραγματοποιηθούν τα γεγονότα Γ 1, Γ,, Γ κ με αντίστοιχες συχνότητες n 1, n,, n κ είναι: n! n1 n P ( Γ1 n1, Γ n,..., Γ n ) p1 p... n1! n!...! n! E Γ ] np, E[ Γ ] np,..., E[ Γ ] [ 1 1 p np n
Στατιστική του Χ για μια μεταβλητή Με βάση τα παραπάνω, μπορούμε να διαμορφώσουμε τον ακόλουθο πίνακα: Πίνακας X Πίνακας Γεγονότων με τις αντίστοιχες θεωρητικές και παρατηρούμενες συχνότητες Γεγονότα Γ 1 Γ Γ κ Θεωρητικές / αναμενόμενες συχνότητες np 1 np np Παρατηρούμενες συχνότητες n 1 n n κ ni npi ) Κατά συνέπεια, η στατιστική: ακολουθεί την κατανομή np i 1 ( Χ 1 i Μπορούμε να χρησιμοποιούμε την στατιστική αυτή, για να ελέγξουμε σε ποιο βαθμό οι παρατηρούμενες συχνότητες ακολουθούν ή όχι τις θεωρητικές (ή ακόμα υποθετικές) συχνότητες.
Βασικές παραδοχές για την εφαρμογή του ελέγχου του Χ Οι βασικές Παραδοχές για την εφαρμογή του στατιστικού ελέγχου του Χ σε ένα δείγμα όπου πραγματοποιείται η μέτρηση των απαντήσεων των ερωτηθέντων (μια μεταβλητή με κ εναλλακτικά δυνατά αποτελέσματα) είναι οι ακόλουθες: Το μέγεθος του δείγματος είναι πολύ μικρότερο από το μέγεθος του πληθυσμού, Το δείγμα είναι αντιπροσωπευτικό του πληθυσμού αναφοράς, Οι παρατηρήσεις είναι ανεξάρτητες (η απάντηση ενός ατόμου δεν επηρεάζεται από τις απαντήσεις των άλλων), Όλες οι αναμενόμενες (θεωρητικές / υποθετικές) συχνότητες είναι 5.
Παράδειγμα: οι προτιμήσεις τουριστών για 4 εναλλακτικές περιοχές προορισμού διακοπών Το δείγμα αποτελείται από 3 άτομα (βλέπε αρχείο: Έλεγχος_X.xls) Τους ζητήσαμε να επιλέξουν, μεταξύ των 4 προτεινόμενων τουριστικών προορισμών, την περιοχή που προτιμούν για τις διακοπές τους. Kάθε άτομο μπορούσε να επιλέξει μόνο μια περιοχή. Επομένως, έχουμε 4 περιοχές (με κωδικούς: 1,, 3, 4) και με βάση τις απαντήσεις των 3 ατόμων, έχουμε τα ακόλουθα αποτελέσματα: ΠΕΡΙΟΧΗ: (Rgion) 1 3 4 Παρατηρούμενες συχνότητες 6 6 15 5 Η ερώτηση μας είναι η ακόλουθα: σε ποιο βαθμό οι 4 περιοχές είναι πραγματικά εξίσου ελκυστικές; Αν οι 4 περιοχές ήταν εξίσου ελκυστικές, θα έπρεπε να είχαμε περίπου τον ίδιο αριθμό απαντήσεων ανά περιοχή. Κατά συνέπεια, οι θεωρητικές / υποθετικές πιθανότητες επιλογής των 4 περιοχών θα ήταν ίσες : p 1 p p 3 p 4 ¼ και οι θεωρητικές / υποθετικές συχνότητες θα ήταν : np 1 np np 3 np 4 3 x ¼ 8.
Εφαρμογή του ελέγχου του Χ Υποθέσεις: Ηο: Οι 4 περιοχές είναι εξίσου ελκυστικές: np 1 np np 3 np 4 3 x ¼ 8 Η1: Οι 4 περιοχές δεν είναι εξίσου ελκυστικές Χρήση υπολογισμός της στατιστικής του Χ 4 : ( n ΠΕΡΙΟΧΗ: (Rgion) 1 3 4 Σύνολο Θεωρητικές συχνότητες (np i ) 8 8 8 8 3 Παρατηρούμενες συχνότητες(n i ) 6 6 15 5 3 (np i n i ) -7 3 0 (np i n i ) /np i 0,500 0,500 6,15 1,15 8,50 i 1 i npi ) np i (8-6) /8 /8 0,5
Εφαρμογή του ελέγχου του Χ ΠΕΡΙΟΧΗ: (Rgion) 1 3 4 Σύνολο Παρατηρούμενες συχνότητες(n i ) 6 6 15 5 3 Θεωρητικές συχνότητες (np i ) 8 8 8 8 3 Διαφορά (n i -np i ) - - 7-3 0 (n i -np i ) /np i 0,500 0,500 6,15 1,15 8,50 Έλεγχος της p-valu: Η στατιστική που υπολογίσαμε 8,50. Σε αυτή τη τιμή, με βαθμό ελευθερίας κ-1 3, Μπορούμε να βρούμε την θεωρητική τιμή στον πίνακα του Χ με 3 β.ε. και α 5%, δηλαδή: Χ (3) 7,815 Χ που υπολογίσαμε > Χ (3) : απορρίπτεται η υπόθεση Ηο και ισχύει η υπόθεση Η1 αντιστοιχεί p-valu 0,041 (βλέπε αποτέλεσμα στο SPSS). εφόσον p-valu 0,05 (5%), η υπόθεση Ηο απορρίπτεται και δεχόμαστε την υπόθεση Η1, δηλαδή οι 4 περιοχές δεν είναι πραγματικά εξίσου σημαντικές. Το αποτέλεσμα αυτό είναι πολύ λογικό εφόσον 15 άτομα σε σύνολο 3 (47%) προτιμούν την 3 η περιοχή.
Εφαρμογή του ελέγχου με το SPSS Τα δεδομένα (βλέπε αρχείο: Έλεγχος_X.xls) Για να ελέγξουμε πόσο συχνά, κάθε περιοχή (1 έως 4) προτιμάται, μπορούμε να χρησιμοποιούμε την εντολή: Analyz > Dscriptiv Statistics > Frquncis Και στη συνέχεια επιλέγουμε την μεταβλητή που θέλουμε να εξετάσουμε (Rgion) Όλα τα άτομα απάντησαν στην ερώτηση (missing 0) Υπάρχει σαφής προτίμηση για την 3 η περιοχή
Έλεγχος Χ με SPSS 1./ Επιλογή του ελέγχου./ Επιλογή μεταβλητής all catgoris qual : ίδιες θεωρητικές συχνότητες για τις 4 περιοχές
Αποτελέσματα: Output Obsrvd N Παρατηρούμενες συχνότητες(n i ) Expctd N Θεωρητικές συχνότητες (np i ) Rsidual Διαφορά (np i n i ) Άθροισμα των διαφορών 0 df Βαθμός ελευθερίας -1 4-1 3 Asymp. Sig. p-valu 0,041 (4,1%) < 0,05 Απόρριψη της Ho, Δεχόμαστε Η1: όλες οι περιοχές δεν είναι εξίσου ελκυστικές. Η τιμή του Χ είναι όντως : 8,50 Βαθμός ελευθερίας κ-1 Όπου κ αριθμός κατηγοριών της μεταβλητής Rgion
ο παράδειγμα Να γίνει παρόμοια ανάλυση με την μεταβλητή ag των 3 ατόμων (βλέπε αρχείο: Έλεγχος_X.xls) ag 1 : άτομα ηλικίας 0-9 ετών Αποτελέσματα: ag : άτομα ηλικίας 30-44 ετών ag 3 : άτομα ηλικίας 45 και άνω Υποθέσεις: Ηο: Οι 3 ηλικιακές ομάδες είναι εξίσου σημαντικές: np 1 np np 3 3 x (1/3) 10,7 Η1: Οι 3 ομάδες δεν είναι εξίσου σημαντικές Ηλικία (ag) 1 3 Σύνολο Παρατηρούμενες συχνότητες(n i ) 14 11 7 3 Θεωρητικές συχνότητες (np i ) 10,7 10,7 10,7 3 Διαφορά (n i -np i ) 3,3 0,3-3,7 0 (n i -np i ) /np i 1,04 0,010 1,60,313 Συμπέρασμα: η τιμή του Χ,313 με p-valu 0,315 H p-valu > 0,05 Δεχόμαστε την Υπόθεση Ηο: οι 3 ηλικιακές ομάδες είναι εξίσου σημαντικές.
Έλεγχος Χ για την ανεξαρτησία δύο κατηγορικών μεταβλητών Οι δύο μεταβλητές που εξετάζονται, είναι κατηγορικές (βλέπε αρχείο: Έλεγχος_X.xls) όπως : Φύλο: 1 Άνδρες και Γυναίκες Επίπεδο εκπαίδευσης: 1 Low (Έως Γυμνάσιο), mdium (Λύκειο), 3 High (ΑΕΙ/ΤΕΙ) Ο έλεγχος Χ μας επιτρέπει να εξετάσουμε σε ποιο βαθμό οι δυο μεταβλητές είναι ανεξάρτητες και επομένως δεν υπάρχει αλληλεξάρτηση μεταξύ του φύλου και του επίπεδου εκπαίδευσης (π.χ. το φύλο δεν έχει επίπτωση στον επίπεδο εκπαίδευσης). Ο έλεγχος Χ βασίζεται σε πίνακα διπλής εισόδου (crosstabs), όπως τον ακόλουθο πίνακα που μας δίνει την κατανομή 3 ατόμων με βάση το φύλο και τον επίπεδο εκπαίδευσης. Φύλο Επίπεδο εκπαίδευσης Άνδρες Γυναίκες Σύνολο Έως Γυμνάσιο 4 6 10 Λύκειο 7 5 1 ΑΕΙ/ΤΕΙ 6 4 10 Σύνολο 17 15 3
Διαδικασία εφαρμογής του Ελέγχου του Χ με δύο μεταβλητές 1. Παρατηρούμενες συχνότητες 3. Κατάλοιπα ij n ij - ij Μεταβλητή Χ Μεταβλητή Υ 1 Σύνολο 1 n11 n1 n1. n1 n n. Σύνολο n.1 n. n.. Μεταβλητή Χ Μεταβλητή Υ 1 Σύνολο 1 11 1 0 1 K 0 Σύνολο 0 0 0. Θεωρητικές συχνότητες Μεταβλητή Υ Μεταβλητή Χ 1 Σύνολο 1 11 1 1. 1. Σύνολο.1... Όπου: 11 1 n1. n n.. n. n n...1.1 1 n1. n n.. n. n n....
Έλεγχος Χ για την ανεξαρτησία δύο μεταβλητών 4. Υπολογισμός της στατιστικής του Χ Μεταβλητή Υ 1 Μεταβλητή Χ 11 ( n11 11) 1. 11.. 11 X ( n ) ij i j ij ij Άθροισμα των 4 κελιών του παραπάνω πίνακα p αριθμός γραμμών & m αριθμός στηλών df βαθμός ελευθερίας (p-1)x(m-1)
Εφαρμογή του ελέγχου 5,0 3 10 16 5,0 3 10 16 6,0 3 1 16 6,0 3 1 16 5,0 3 10 16 5,0 3 10 16 3 31 1 1 11 3,0 5,0 3,0 5,0 8 1,0 6,0 7 1,0 6,0 5,0 5,0 7,0 5,0 3 3 31 1 1 11 ( ) 5,533 i j ij ij i j ij ij ij n X
Έλεγχος Χ με SPSS Τα δεδομένα (βλέπε αρχείο: _Έλεγχος_Χ.xls) Υποθέσεις: Ηο: Οι δύο μεταβλητές Educ και sx είναι ανεξάρτητες Η1: Οι δύο μεταβλητές δεν είναι ανεξάρτητες
Έλεγχος Χ με SPSS 1./ Analyz > Crosstabs./ Επιλογή των δύο μεταβλητών: (Row(s) & Column(s) 3./ Statistics: Chi-squar
Έλεγχος Χ με SPSS Αποτελέσματα Count Παρατηρούμενες συχνότητες Expctd count Θεωρητικές συχνότητες Χ Parson Chi-Squar 5,533 df βαθμός ελευθερίας (p-1)x(m-1) (3-1)x(-1) p-valu 0,063 > 0,05 (5%) Δεχόμαστε την υπόθεση Η0: οι δύο μεταβλητές είναι ανεξάρτητες, δεν υπάρχει αλληλεξάρτηση μεταξύ των χαρακτηριστικών ηλικίας και φύλου. Όμως η ισχύς του ελέγχου δεν είναι πολύ έντονη (6,3%).