Συνάφεια μεταξύ ποιοτικών μεταβλητών Εκδ. #3, 19.03.2016
Ο έλεγχος ανεξαρτησίας χ 2 Ο έλεγχος ανεξαρτησίας χ 2 εφαρμόζεται για να εξετάσουμε τη συνάφεια μεταξύ δύο ποιοτικών μεταβλητών με την έννοια της ανεξαρτησίας μεταξύ των γραμμών και στηλών του πίνακα διπλής εισόδου (ή συνάφειας) των δύο μεταβλητών. Η βασική ιδέα είναι να διαπιστώσουμε πόσο πιθανό είναι να παρατηρήσουμε τις συχνότητες ενός πίνακα με δεδομένο ότι η μηδενική υπόθεση είναι αληθής (Η 0 ). Ένα παράδειγμα: Οι παρατηρούμενες συχνότητες του πίνακα συνάφειας Τυχαίο δείγµα 100 µαθητές, 50 αγόρια και 50 κορίτσια βαθµολογήθηκαν σε ένα ερώτηµα πολλαπλής επιλογής µε Σωστό ή Λάθος. Τα αποτελέσµατα δίνονται στον παρακάτω πίνακα συνάφειας 2 x 2. Αγόρι Κορίτσι Σύνολο Σωστό 10 40 50 Λάθος 40 10 50 Σύνολο 50 50 100 Αν παρατηρήσουμε τις γραμμές του Πίνακα θα διαπιστώσουμε ότι στο δείγμα μας υπάρχει συνάφεια μεταξύ του φύλου και της επίδοσης, αφού τα περισσότερα αγόρια απαντούν λάθος και τα περισσότερα κορίτσια απαντούν σωστά. Είναι η σχέση αυτή στατιστικά σημαντική;
Ο έλεγχος ανεξαρτησίας χ 2 Ας θεωρήσουµε τώρα ότι δεν υπάρχει συνάφεια µεταξύ των µεταβλητών επίδοση και φύλο στον πληθυσµό από τον οποίο προέρχεται το δείγµα. Τότε θα αναµέναµε ίσο αριθµό υποκειµένων µεταξύ αγοριών και κοριτσιών στις κατηγορίες «Σωστό» και «Λάθος». Τι µορφή θα είχε ο πίνακας συνάφειας σε αυτή την περίπτωση; Οι αναμενόμενες συχνότητες αν δεν υπήρχε συνάφεια μεταξύ των μεταβλητών Αγόρι Κορίτσι Σύνολο Σωστό 25 25 50 Λάθος 25 25 50 Σύνολο 50 50 100 q Όσο πιο «κοντά» είναι οι τιµές των παρατηρούµενων µε τις αναµενόµενες συχνότητες, τόσο πιθανότερο είναι να συµπεράνουµε ότι δεν υπάρχει στατιστικά σηµαντική σχέση µεταξύ των µεταβλητών, δηλαδή ότι οι µεταβλητές είναι µεταξύ τους ανεξάρτητες. q Σε αντίθετη περίπτωση το συµπέρασµα είναι ότι υπάρχει στατιστικά σηµαντική σχέση µεταξύ των µεταβλητών, οι οποίες τελικά αλληλοεξαρτώνται.
Ο έλεγχος ανεξαρτησίας χ 2 Οι αναμενόμενες συχνότητες αν δεν υπήρχε συνάφεια μεταξύ των μεταβλητών Αγόρι Κορίτσι Σύνολο Σωστό 25 25 50 Λάθος 25 25 50 Σύνολο 50 50 100 q Γενικότερα, στην περίπτωση ενός πίνακα συνάφειας η αναµενόµενη τιµή κάθε κελιού δίνεται από τον τύπο: Αναµενόµενη συχνότητα ενός κελιού = (Σύνολο της αντίστοιχης γραµµής x Σύνολο αντίστοιχης στήλης) / Σύνολο παρατηρήσεων Π.χ. κελί %,% = '( '( %(( = 25
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 0: Έλεγχος των προϋποθέσεων του ελέγχου 1. Οι δύο μεταβλητές είναι ποιοτικές (σε κατηγορική κλίμακα ή κλίμακα ιεράρχησης) 2. Το δείγμα πρέπει να έχει επιλεγεί με τυχαίο τρόπο. 3. Οι παρατηρήσεις (υποκείμενα) να είναι ανεξάρτητες μεταξύ τους. 4. Όλες οι αναμενόμενες συχνότητες είναι μεγαλύτερες από 1. 5. Το πολύ 20% από τις αναμενόμενες συχνότητες είναι μικρότερες από 5.
Ο έλεγχος ανεξαρτησίας χ 2 - Προβλήματα και Λύσεις Βήμα 0: Έλεγχος των προϋποθέσεων του ελέγχου Αν δεν ισχύουν οι προϋποθέσεις 3 και 4 έχουμε τρεις εναλλακτικές λύσεις: - Κάνουμε σύμπτυξη γειτονικών κατηγοριών (γραμμών ή/και στηλών). Δηλαδή ενώνουμε κατηγορίες γραμμών ή/και στηλών. - Υπολογίζουμε το παρατηρούμενο επίπεδο σημαντικότητας (p-value) είτε με την Ακριβή Μέθοδο (ExactMethod) είτε με τη μέθοδο προσομοίωσης Monte-Carlo.
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 1: Διατύπωση των στατιστικών υποθέσεων Στην περίπτωση του ελέγχου χ 2 διατυπώνουμε τις παρακάτω υποθέσεις: Η 0 : Δεν υπάρχει συνάφεια ανάμεσα στο φύλο και την επίδοση (είναι ανεξάρτητες) Η 1 : Υπάρχει συνάφεια ανάμεσα στο φύλο και την επίδοση (δεν είναι ανεξάρτητες) Βήμα 2: Υπολογισμός του κριτηρίου του ελέγχου χ 2 =,-.-/0.1ύ3450675-345ό3450 9 75-345ό3450 Για το κριτήριο αυτό γνωρίζουμε την κατανομή πιθανότητας όταν ισχύει η Η 0, δηλαδή όταν οι μεταβλητές είναι ανεξάρτητες. χ 2 = %(69' 9 9' + :(69' 9 9' + :(69' 9 9' με (κ 1) x (λ 1) = 1 βαθμό ελευθερίας. + %(69' 9 9' = 99'<99'<99'<99' 9' = =(( 9' = 36
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 3: Εκτίμηση του παρατηρούμενου επιπέδου σημαντικότητας p, με δεδομένο ότι η Η 0 είναι αληθής. Από τους στατιστικούς Πίνακες της κατανομής χ 2 ή μέσω λογισμικού στατιστικής επεξεργασίας υπολογίζουμε ότι p < 0,001. Αν θεωρήσουμε ως επίπεδο σημαντικότητας το α = 5% (0,05), τότε απορρίπτουμε την μηδενική υπόθεση αφού p < α. Το αποτέλεσμα του ελέγχου είναι, επομένως, στατιστικά σημαντικό. Βήμα 4: Διατύπωση συμπερασμάτων Η σχέση ανάμεσα στην επίδοση και το φύλο είναι στατιστικά σημαντική. Προσοχή: Ο έλεγχος χ 2 δεν καταδεικνύει την κατεύθυνση μιας σχέσης, παρά μόνο μας πληροφορεί αν οι δύο μεταβλητές είναι ανεξάρτητες ή όχι. Για να εντοπίσει ο ερευνητής το είδος μιας στατ. σημαντικής σχέσης μεταξύ δύο μεταβλητών θα πρέπει να εντοπίσει τα κελιά του πίνακα συνάφειας στα οποία οφείλεται αυτή η σχέση. Όπως εύκολα παρατηρεί κανείς για τον πίνακα συνάφειας 2x2 του παραδείγματος, τα αγόρια έχουν την τάση να απαντούν λάθος στην ερώτηση πολλαπλής επιλογής (80% των αγοριών, 40), ενώ τα κορίτσια έχουν την τάση να απαντούν σωστά (80% των κοριτσιών, 40).
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 4: Διατύπωση συμπερασμάτων Τα τυποποιημένα υπόλοιπα Τα τ.υ. μετρούν σε κάθε κελί τη διαφορά μεταξύ της παρατηρούμενης και της αναμενόμενης συχνότητας. Η διαφορά δεν υπολογίζεται σε απόλυτες τιμές, αλλά «σταθμίζεται» ώστε να μην επηρεάζεται από υψηλές αριθμητικές τιμές των συχνοτήτων. Αγόρι Κορίτσι Σύνολο Σωστό 10 (-6) 40 (+6) 50 Λάθος 40 (+6) 10 (-6) 50 Σύνολο 50 50 100 q Για κάθε κελί του πίνακα συνάφειας εμφανίζονται σε παρένθεση οι τιμές των διορθωμένων τυποποιημένων υπολοίπων (adjusted standardized residuals). q Κελιά με όπου τα αντίστοιχα Διορθωμένα Τυποποιημένα Υπόλοιπα είναι σε απόλυτη τιμή μεγαλύτερη του 1,96 2 συνεισφέρουν στατιστικά σημαντικά, σε ε.σ. α = 0,05, στη σημαντικότητα του στατιστικού χ 2 και σε αυτά τα κελιά οφείλεται, κυρίως, η συνάφεια ή η αλληλεπίδραση των δύο μεταβλητών.
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 4: Διατύπωση συμπερασμάτων Τα τυποποιημένα υπόλοιπα Αγόρι Κορίτσι Σύνολο Σωστό 10 (-6) 40 (+6) 50 Λάθος 40 (+6) 10 (-6) 50 Σύνολο 50 50 100 Το πρόσημο των ΔΤΥ έχει την ακόλουθη φυσική ερμηνεία: Αν σε κάποιο κελί το αντίστοιχο ΔΤΥ είναι σε απόλυτη τιμή μεγαλύτερο του 2 και έχει αρνητικό πρόσημο, αυτό σημαίνει ότι στο συγκεκριμένο κελί υπάρχουν στατιστικά σημαντικά λιγότερες παρατηρήσεις σε σύγκριση με αυτές που αναμένονται κάτω από την υπόθεση της ανεξαρτησίας των δύο μεταβλητών. Αν σε κάποιο κελί το αντίστοιχο ΔΤΥ είναι σε απόλυτη τιμή μεγαλύτερο του 2 και έχει θετικό πρόσημο, τότε στο συγκεκριμένο κελί υπάρχουν στατιστικά σημαντικά περισσότερες παρατηρήσεις σε σχέση με το αν οι δύο μεταβλητές ήταν ανεξάρτητες.
Ο έλεγχος ανεξαρτησίας χ 2 - Βήματα του ελέγχου Βήμα 4: Διατύπωση συμπερασμάτων Η ένταση της σχέσης Υπενθυμίζουμε ότι η τιμή του παρατηρούμενου επιπέδου σημαντικότητας p δεν μας δείχνει την ένταση μιας σχέσης, διαφοράς ή επίδρασης. Για να αξιολογήσουμε την ένταση μιας σχέσης θα πρέπει να υπολογιστεί ένας δείκτης μεγέθους του αποτελέσματος (effect size). Στην περίπτωση του ελέγχου χ 2 μπορεί να υπολογιστεί ένας επιπλέον δείκτης, ο V του Cramer. < 0,10 (χαμηλή συνάφεια) 0,10 0,30 (μέτρια συνάφεια) > 0,30 (ισχυρή συνάφεια) Στο παράδειγμά μας, V = 0,6, δηλαδή έχουμε ισχυρή συνάφεια μεταξύ των μεταβλητών φύλο και επίδοση.
Ο έλεγχος χ 2 στο SPSS Ø Τρόπος εισαγωγής των δεδομένων α τρόπος Καταχωρούμε τα δεδομένα σε πρωτογενή μορφή, δηλαδή 100 γραμμές (υποκείμενα) και 2 στήλες (μεταβλητές).
Ο έλεγχος χ 2 στο SPSS β τρόπος Ø Τρόπος εισαγωγής των δεδομένων o Καταχωρούμε απευθείας τον πίνακα συνάφειας, κελί-προς-κελί. o Δηλαδή, αν διαβάσουμε οριζοντίως, στο κελί που ορίζεται από τη γραμμή 1 και τη στήλη 1 θα υπάρχει η συχνότητα 10, στη γραμμή 1 και στήλη 2 η συχνότητα 40, κ.ο.κ. o Προσοχή: Πρέπει να δηλώσουμε στο λογισμικό ότι η στήλη συχνότητα περιλαμβάνει βάρη: Data à Weight cases Ο αρχικός πίνακας δεδομένων Αγόρι Κορίτσι Σύνολο Σωστό 10 40 50 Λάθος 40 10 50 Σύνολο 50 50 100
Ο έλεγχος χ 2 στο SPSS Ø Η διαδικασία Crosstabs Για τον α τρόπο o Analyze à Descriptive Statistics à Crosstabs
Ο έλεγχος χ 2 στο SPSS Ø Η διαδικασία Crosstabs Για τον β τρόπο o Analyze à Descriptive Statistics à Crosstabs Προσοχή: δεν βάζουμε πουθενά τη στήλη με τις συχνότητες.
Ο έλεγχος χ 2 στο SPSS Ø Η διαδικασία Crosstabs o Analyze à Descriptive Statistics à Crosstabs Κλικ στο πλήκτρο Statistics και επιλογή των Chi-square(αυτό θα μας δώσει τα αποτελέσματα του ελέγχου χ 2 ) Phi and Cramer s V (αυτό θα μας δώσει την τιμή του δείκτη V) Κλικ στο Continue
Ο έλεγχος χ 2 στο SPSS Ø Η διαδικασία Crosstabs o Analyze à Descriptive Statistics à Crosstabs Κλικ στο πλήκτρο Cells και επιλογή των Row και Column στα Percentages (για να δούμε τα ποσοστά κατά γραμμές και κατά στήλες στον πίνακα συνάφειας) Adjusted standardized στα Residuals (για να δούμε τα διορθωμένα τυποποιημένα υπόλοιπα των κελιών) (Αν θέλουμε να συγκρίνουμε τη στατ. σημαντικότητα της διαφοράς μεταξύ των ποσοστών του πίνακα, επιλέγουμε και Compare column proportions και μετά Adjust p-values ) Κλικ στο Continue
Ο έλεγχος χ 2 στο SPSS - Αποτελέσματα Το παρατηρούμενο επίπεδο σημαντικότητας p βρίσκεται στη γραμμή Pearson Chi-Square και στη στήλη Asymptotic Significance (2-sided). Η τιμή του p εδώ είναι.000 αλλά προσοχή: το p δεν είναι 0, αλλά το SPSS εμφανίζει ακρίβεια τριών δεκαδικών ψηφίων. Άρα πρόκειται για τιμή μικρότερη του 0,001. Για να αναφέρουμε αυτήν την τιμή γράφουμε p < 0,001.
Ο έλεγχος χ 2 στο SPSS - Αποτελέσματα Κοιτάζουμε τα διορθωμένα τυποποιημένα υπόλοιπα για να εντοπίσουμε τα κελιά στα οποία οφείλεται η σχέση ανάμεσα στις δύο μεταβλητές. Διαπιστώνουμε ότι όλα τα κελιά του πίνακα 2x2 συμβάλλουν σε αυτή τη σχέση (τιμές μεγαλύτερες του 2 κατ απόλυτη τιμή).
Ο έλεγχος χ 2 στο SPSS - Αποτελέσματα Η ένταση της σχέσης ανάμεσα στις δύο μεταβλητές βρέθηκε ισχυρή (Cramer s V = 0,6).
Πως αναφέρουμε τα αποτελέσματα του ελέγχου χ 2 Για τη διερεύνηση της σχέσης ανάμεσα στο φύλο και την επίδοση εφαρμόστηκε ο έλεγχος ανεξαρτησίας χ 2, αφού ελέγχθηκαν οι προϋποθέσεις εφαρμογής του. Η σχέση ανάμεσα στην επίδοση και το φύλο βρέθηκε ισχυρή και στατιστικά σημαντική (χ 2 (1) = 36,00, p < 0,001, V = 0,6). Βαθμοί ελευθερίας (df) Τιμή του κριτηρίου (Pearson chi-square) Παρατηρούμενο επίπεδο σημαντικότητας (Asymptotic Significance 2-sided) Cramer s V
Άλλοι Έλεγχοι στην ίδια οικογένεια Fisher s Exact Test Χρησιμοποιείται όταν ένα ή περισσότερα κελιά ενός 2x2 πίνακα συνάφειας έχουν αναμενόμενες συχνότητες μικρότερες του 5 ή/και όταν το συνολικό δείγμα είναι μικρό (n < 50).
Άλλοι Έλεγχοι στην ίδια οικογένεια q Οι έλεγχοι των Cochran και Mantel-Haenszel Αφορούν στη συνολική εξέταση πολλών 2x2 πινάκων συνάφειας οι οποίοι απαρτίζονται από μεταβλητές ιεράρχησης. Π.χ. η σχέση ανάμεσα στην επίδοση στη Γλώσσα και στα Μαθηματικά ανά φύλο, όπου η επίδοση είναι δίτιμη και «Χαμηλή» ή «Υψηλή». Για την πραγματοποίησή τους ο ερευνητής πρέπει να επιλέξει AnalyzeàDescriptive StatisticsàCrosstabs. Έπειτα κλικ στο Statistics.. και επιλογή του Cochran s and Mantel- Haenszel statistics. q Ο έλεγχος του McNemar Εφαρμόζεται σε 2x2 πίνακες συνάφειας όταν τα υποκείμενα είναι εξαρτημένα, π.χ. όταν προέρχονται από την παρατήρηση των ίδιων υποκειμένων σε 2 διαφορετικές στιγμές. Για την πραγματοποίησή τους ο ερευνητής πρέπει να επιλέξει AnalyzeàDescriptive StatisticsàCrosstabs. Έπειτακλικ στο Statistics.. και επιλογή τουmcnemar.