ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΕΙΣ 11 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Σχέση μεταξύ δύο μεταβλητών Βόλος, 2016-2017
ΑΝΑΛΥΣΗ ΤΗΣ ΣΧΕΣΗΣ ΜΕΤΑΞΥ 2 ΜΕΤΑΒΛΤΩΝ Η στατιστική ανάλυση δεν περιορίζεται στη μελέτη μίας μεταβλητής. Συχνά είναι απαραίτητο να εξεταστεί η ύπαρξη μιας ενδεχομένης σχέσης μεταξύ δύο ή και περισσότερων μεταβλητών. Η ερώτηση που τίθεται είναι η ακόλουθα: Υπάρχει (Ναι ή Όχι) αλληλοεπίδραση / εξάρτηση μεταξύ δύο μεταβλητών που μετράνε δύο διαφορετικά φαινόμενα; Η διαδικασία διερεύνησης της σχέσης μεταξύ δύο μεταβλητών εξαρτάται από τη κατηγορία μεταβλητών που εξετάζονται (ποιοτικές ή ποσοτικές).. Η αναζήτηση μιας πιθανής σχέσης μεταξύ δύο μεταβλητών περιλαμβάνει τρεις βασικές μεθόδους: α) η 1 η αφορά δύο ποιοτικές μεταβλητές, β) η 2 η αφορά δύο ποσοτικές μεταβλητές γ) η 3 η αφορά μια ποσοτική και μια ποιοτική. 2
ΑΝΑΛΥΣΗ ΔΥΟ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ Διαδικασία: Δημιουργία του πίνακα συνάφειας (crosstabulation or contigency table). Πρόκειται για πίνακα διπλή εισόδου που χαρακτηρίζεται από: r = αριθμός γραμμών (rows), όσες οι κατηγορίες της μίας ποιοτικής μεταβλητής, c = στήλες (columns) όσες οι κατηγορίες της άλλης ποιοτικής μεταβλητής. Κάθε κελί του πίνακα μας δίνει τον αριθμό των ατόμων του δείγματος που εντάσσονται ταυτόχρονα σε μια από τις r κατηγορίες της 1 ης ποιοτικής μεταβλητής και σε μια από τις c κατηγορίες της 2 ης μεταβλητής. Χρήση του ελέγχου υποθέσεων X 2 (Chi-square) 3
ΠΙΝΑΚΑΣ ΔΙΠΛΗΣ ΕΙΣΟΔΟΥ: ΠΑΡΑΤΗΡΗΣΕΙΣ ΑΡΙΘΜΟΣ ΠΑΡΑΤΗΡΟΥΜΕΝΩΝ ΣΥΧΝΟΤΗΤΩΝ O 1. Δύο ποιοτικές μεταβλητές: r = 2 (2 κατηγορίες για την μεταβλητή Φύλο) c = 3 (3 κατηγορίες για την μεταβλητή Εκπαιδευτικό επίπεδο) O. 1 O 22 O.. Ο ij = αριθμός ατόμων που ανήκουν στην κατηγορία i (=1, 2) για το φύλο και ταυτόχρονα στην κατηγορία j (1, 2, 3) για το εκπαιδευτικό επίπεδο. Ο αριθμός ατόμων ανά κελί είναι αποτέλεσμα της έρευνας που πραγματοποιηθήκαμε: παρατηρούμενες τιμές (Observed). Π.χ. Ο 11 = 5, Ο 21 = 4, Ο 22 = 12 ή ακόμα Ο 23 = 9 Ο 1. = 20, Ο 2. = 25, Ο.1 = 9, Ο.2 = 23, Ο.3 = 13 4
ΠΙΝΑΚΑΣ ΔΙΠΛΗΣ ΕΙΣΟΔΟΥ: ΑΝΑΜΕΝΕΣ ΣΥΧΝΟΤΗΤΕΣ Αν οι δύο μεταβλητές είναι ανεξάρτητες, δηλαδή αν δεν υπάρχει σχέση μεταξύ της μεταβλητής φύλου και της μεταβλητής εκπαιδευτικού επίπεδου, τότε οι αναμενόμενες συχνότητες (Expected) δίνονται από τον ακόλουθο τύπο: Ε ij = O i. O.j O.. ΑΡΙΘΜΟΣ ΑΝΑΜΕΝΟΜΕΝΩΝ ΣΥΧΝΟΤΗΤΩΝ Ε 22 Ε 13 Παρατηρούμε ότι το άθροισμα ανά στήλη όπως και ανά γραμμή των αναμενομένων συχνοτήτων μας δίνει τους ίδιους αριθμούς όπως και στο πίνακα των παρατηρούμενων συχνοτήτων Ε ij = αριθμός ατόμων που αναμένεται να είναι στην κατηγορία i για το φύλο και ταυτόχρονα στην κατηγορία j για το εκπαιδευτικό επίπεδο. 5
ΟΙ ΔΥΟ ΠΙΝΑΚΕΣ ΠΙΝΑΚΑΣ ΠΑΡΤΗΡΟΥΜΕΝΩΝ ΣΥΧΝΟΤΗΤΩΝ: O=O ij ΠΙΝΑΚΑΣ ΑΝΑΜΕΝΟΜΕΝΩΝ ΣΥΧΝΟΤΗΤΩΝ: Ε=Ε ij Ε 11 = 20 9 45 = 180 45 = 4 Ε 22 = 25 23 45 = 575 45 = 12, 8 6
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Έλεγχος Ανεξαρτησίας των 2 μεταβλητών: Υποθέσεις Ηο: Οι δύο μεταβλητές είναι ανεξάρτητες = δεν υπάρχει σχέση μεταξύ τους Η1: Οι δύο μεταβλητές Δεν είναι ανεξάρτητες = υπάρχει σχέση μεταξύ τους Στατιστική: Χ 2 (Chi-Square) Απόφαση: Αν Χ 2 Χ 2 (ν;a) η υπόθεση Ηο απορρίπτεται και ισχύει η Υπόθεση Η1 Η τιμή Χ 2 (ν;a) διαβάζεται στο πίνακα της κατανομής Χ 2 Όπου ν = (r-1)x(c-1) 7
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Υπολογισμός της Στατιστικής Χ 2 (Ο 11 Ε 11 ) 2 (5 4)2 = = 1 Ε 11 4 4 = 0,25 (Ο 23 Ε 23 ) 2 (9 7,2)2 = = 0,438 Ε 23 7,2 Χ 2 = 1,541 (άθροισμα των 6 κελιών) 8
Απόφαση ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Υπολογίσαμε Χ 2 = 1,541 Για 5% και ν = (2-1)x(3-1) = 2 Χ 2 (ν;0,05) = 5,99 Χ 2 = 1,541 < Χ 2 (ν;0,05) = 5,99 Ισχύει η υπόθεση Ηο, οι δύο μεταβλητές είναι ανεξάρτητες Δεν παρατηρούμε σημαντική διαφορά στο επίπεδο εκπαίδευσης σε σχέση με το φύλο. Η κατανομή των ατόμων με βάση τον επίπεδο εκπαίδευσης είναι παρόμοια για τους άνδρες και τις γυναίκες. Όμως σε αυτό το παράδειγμα, η εφαρμογή του ελέγχου του Χ 2 είναι προβληματική διότι έχουμε ένα κελί στον πίνακα των αναμενόμουν συχνοτήτων με συχνότητα < 5. Αυτό καταστρέφει τον έλεγχο! 9
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Δύναμη του ελέγχου Για να εξετάζουμε σε ποιο βαθμό η απόφαση μας είναι ισχυρή, υπολογίζουμε επίσης την στατιστική του Cramer. Η στατιστική του Cramer δίνεται από τον ακόλουθο τύπο: V = X 2 n min(r 1,c 1) και 0 < V < 1 Στο παραπάνω παράδειγμα όπου X 2 = 1,541 n = 45, r = 2 & c = 3 min(1,2) = 1 V = 1,541 45 = 0,185 ο έλεγχος δεν είναι πολύ ισχυρός 10
ΠΙΝΑΚΑΣ X 2 Για α = 5% (0,05) και ν = 1, Χ 2 (ν, 0,05) = 3,84 Για τον έλεγχο της ανεξαρτησίας μεταξύ των ποιοτικών μεταβλητών όπου μια μεταβλητή αποτελείται από 3 κατηγορίες και, η άλλη από 4 κατηγορίες, έχουμε: ν = (r-1)x(c-1) = 2 x 3 = 6 Για 5% σφάλμα, Χ 2 (6, 0,05) = 12,59 11
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Παράδειγμα 1 Σε μια έρευνα σε 100 άτομα (55 άνδρες και 45 γυναίκες), τους ζητήσαμε αν είναι ιδιοκτήτης ΙΧ. 37 από τους 55 άνδρες απάντησαν Ναι και 20 από τις 45 γυναίκες απάντησαν επίσης Ναι. Μπορούμε να θεωρήσουμε με 5% σφάλμα ότι, η ιδιοκτησία ΙΧ έχει άμεση σχέση με το φύλο; Πια θα ήταν την απόφαση σας με 1% σφάλμα; 12
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Παράδειγμα 1 Υπολογίσαμε Χ 2 = 5,262 Για 5% και ν = (2-1)x(2-1) = 1 Χ 2 (ν;0,05) = 3,84 Χ 2 = 5,262 > Χ 2 (ν;0,05) = 3,84 Ισχύει η υπόθεση Η1, οι δύο μεταβλητές δεν είναι ανεξάρτητες. Η ιδιοκτησία ΙΧ είναι πραγματικά πιο συχνή στους άνδρες. V = 5,262 =0,229 ( 23%) 100 1 13