χ 2 test ανεξαρτησίας Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ demetri@econ.uoa.gr
7.2 Το χ 2 Τεστ Ανεξαρτησίας Tο χ 2 τεστ ανεξαρτησίας (όπως και η παλινδρόμηση) είναι στατιστικά εργαλεία για τον εντοπισμό σχέσεων μεταξύ παραγόντων. Χρησιμοποιούμε χ 2 όταν οι ανεξάρτητες μτβλ και η εξαρτημένη μτβλ είναι κατηγορικές.
Δύο τυχαία ενδεχόμενα (: παράγοντες) είναι ανεξάρτητα όταν γνωρίζοντας ότι συνέβη το ένα ενδεχόμενο δεν μας δίνει καμία πληροφορία για το αν συνέβη το άλλο.
Εξηγούμε το τεστ ανεξαρτησίας με δύο παραδείγματα: Ένα με πράξεις αναλυτικά Ένα με χρήση του τεστ που δίνει το Excel
( Wikipedia χ 2 (k)
χ 2 κατανομή, wikipedia In probability theory and statistics, the chi-square distribution (also chi-squared or χ²-distribution) with k degrees of freedom is the distribution of a sum of the squares of k independent standard normal random variables. It is one of the most widely used probability distributions in inferential statistics, e.g. in hypothesis testing or in construction of confidence intervals. The chi-square distribution is used in the common chi-square tests for goodness of fit of an observed distribution to a theoretical one, in the independence of two criteria of classification of qualitative data, and in confidence interval estimation for a population standard deviation of a normal distribution from a sample standard deviation. Many other statistical tests also use this distribution, like Friedman's analysis of variance by ranks. The chi-square distribution is a special case of the gamma distribution.
χ 2 (k)
Table of χ ² value vs P-value The P-value is the probability of observing a test statistic at least as extreme in a chi-square distribution. Accordingly, since the cumulative distribution function (CDF) for the appropriate degrees of freedom (df) gives the probability of having obtained a value less extreme than this point, subtracting the CDF value from 1 gives the P-value.
The table below gives a number of P-values matching to χ ² for the first 10 degrees of freedom. A P-value of 0.05 or less is usually regarded as statistically significant.
Είναι χ 2 (α=5%) = 7.81 Ε(χ 2 )=ν var(χ 2 )=2ν ν=3, P(χ 2 >15.5) = 0.05 ν=3, P(χ 2 <2.73) = 1-0.95 = 0.05
)
Τα σπουδαία που πρέπει να θυμόμαστε Αν X i είναι ανεξάρτητες μτβλ από Ν(μ=0,σ=1), τότε k Q = i=1 X i 2 ~ χ 2 με k βε Πρέπει να γνωρίζομε τους βε για να εκτιμήσομε μια τιμή χ 2 και ότι οι κρίσιμες τιμές αυξάνουν με τους βε. Πχ α=0.05 και βε=1 δίνει χ 2 = 3.84, ενώ με βε=10 δίνει χ 2 =18.31
Το πρόβλημα (1) Ο ΕΟΦ θέλει να γνωρίζει αν υπάρχει διαφορά μεταξύ τεσσάρων ανταγωνιστικών φαρμάκων κατά του κρυολογήματος. Το πλήθος των ατόμων που θα δοκιμάσουν τα φάρμακα και μετά θα κρυολογήσουν μπορεί να θεωρηθεί τυχαία μεταβλητή. Το κρυολόγημα είναι η εξαρτημένη μτβλ και το φάρμακο είναι η ανεξάρτητη μτβλ. Αμφότερες κατηγορικές μτβλ
Η 0 Δεν υπάρχει διαφορά στα τέσσερα φάρμακα. Δηλ. η κατάσταση ενός ατόμου (αν θα αρρωστήσει) είναι ανεξάρτητη από το φάρμακο που έλαβε. Δηλ. οι διαφορές που παρατηρήθηκαν οφείλονται σε τυχαίους παράγοντες. Η 1 Κρυολόγημα και φάρμακο είναι στατιστικά εξαρτημένα (σχετίζονται). Υποθέτοντας ότι η Η 0 είναι αληθής, υπολογίζομε τις αναμενόμενες συχνότητες για τα 6 γκρι κελιά:
Πειραματιζόμαστε σε ένα δείγμα 495 ατόμων, ερωτώντας τι είδους φάρμακο έπαιρναν και αν αρρώστησαν ή όχι. Τα αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα συνάφειας Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Ο ΕΟΦ θέτει κατ αρχήν υποθέσεις Η 0 και Η 1. (Όπως και στην παλινδρόμηση) Η Η 0 είναι πάντοτε «όχι σχέση». Θέτει επίσης επίπεδο σημαντικότητας, έστω α=0.5.
Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Κατασκευάζομε έναν νέο πίνακα που περιέχει τις αναμενόμενες τιμές όταν η Η 0 είναι αληθής: πχ για το Φάρμακο 1 η αναμενόμενη τιμή κρυολογήματος είναι = {ΣΥΝΟΛΟ Φ1 / Σύνολο * Σύνολο Κ / Σύνολο } * Σύνολο = { 126 / 495 * 64 / 495 } * 495 = 16.2909 κοκ. PP(A and B) = P(A) P(B)
Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Αναμενόμενη Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Κρυολόγησαν 16.2909 17.1960 13.5758 16.9374 Δεν κρυολόγησαν 109.7091 115.8040 91.4242 114.0626 Σύνολο Σύνολο Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι παρόμοιες, τότε δεν μπορούμε να απορρίψομε την Η 0. Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι πολύ διαφορετικές, τότε θα απορρίψομε την Η 0 συνάγοντας ότι φάρμακο και κρυολόγημα σχετίζονται.
Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (15 16.2909) (26 17.1960) (117 114.0626)... 16.2909 17.1960 114.0626 7.65 2 2 2 2 βε = (2 γραμμές -1)*(4 στήλες -1) = (2-1)*(4-1) = 3 Είναι αυτή η τιμή του αθροίσματος μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. (ερμηνεία
Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (15 16.2909) (26 17.1960) (117 114.0626)... 16.2909 17.1960 114.0626 7.65 βε = (2 γραμμές -1)*(4 στήλες -1) = (2-1)*(4-1) = 3 2 2 2 2 Η 0 Είναι αυτή η τιμή του αθροίσματος μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. Δεν υπάρχει διαφορά στα τέσσερα φάρμακα. Δηλ. η κατάσταση ενός ατόμου (αν θα αρρωστήσει) είναι ανεξάρτητη από το φάρμακο που έλαβε. Δηλ. οι διαφορές που παρατηρήθηκαν οφείλονται σε τυχαίους παράγοντες. ΝΒ. Αν όμως μικρή, τότε παρατηρήσεις περίπου ίσες με αναμενόμενες τιμές, άρα δεν υπάρχει διαφορά στις τιμές, άρα Η 0 δεκτή.
Pearson: m+x παρατήρηση m αναμενόμενη m +x m = x στο τετράγωνο διά m χ 2 = Σ (x 2 /m) Αν m+x και m είναι πλησίον, τότε x είναι μικρός. Όσο πιο μικρό το χ 2, τόσο πιο μικρές οι διαφορές των παρατηρήσεων από τις αναμενόμενες. ) Συνεχίζομε με το πρόβλημα
ν=3, P(χ 2 >7.82)=0.05 (περιοχή απόρριψης) Επειδή η τιμή αθροίσματος 7.65 ανήκει στην περιοχή αποδοχής (οριακά) έπεται ότι η διακύμανση των αποτελεσμάτων των φαρμάκων είναι μάλλον μεγαλύτερη από όση θα περιμέναμε από τύχη. Φαίνεται ότι το πείραμα δεν ήταν επαρκές, χρειαζόμαστε και άλλα δεδομένα.
Το πρόβλημα (2) Η δνση παραγωγής θέλει να γνωρίζει αν η εντοπιότητα επιδρά στην αναγνωρισιμότητα των προϊόντων της εταιρείας. Η αναγνώριση της εταιρείας είναι η εξαρτημένη μτβλ και η εντοπιότητα είναι η ανεξάρτητη μτβλ. Αμφότερες κατηγορικές μτβλ
Λαμβάνονται 500 συνεντεύξεις, ερωτώντας αν αναγνωρίζουν την εταιρεία και τ αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα συνάφειας Πίνακας Συνάφειας Εντόπιος Ξένος Επισκέπτης Σύνολο Αναγνωρίζει 100 50 5 155 d Δεν αναγνωρίζει 100 150 95 345 e Σύνολο 200 a 200 b 100 c 500 f Ο Δντής θέτει κατ αρχήν υποθέσεις Η 0 και Η 1. (Όπως και στην παλινδρόμηση) Η Η 0 είναι πάντοτε «όχι σχέση». Θέτει επίσης επίπεδο σημαντικότητας, έστω α=0.025.
Η 0 Η 1 Εντοπιότητα και αναγνώριση είναι στατιστικά ανεξάρτητες (δεν σχετίζονται) στον πληθυσμό. Εντοπιότητα και αναγνώριση είναι στατιστικά εξαρτημένες (σχετίζονται) στον πληθυσμό. Υποθέτοντας ότι η Η 0 είναι αληθής, υπολογίζομε τις αναμενόμενες συχνότητες για τα 6 γκρι κελιά:
Εντόπιος (a) που αναγνωρίζει (d) Ξένος (b) που αναγνωρίζει (d) Επισκέπτης (c) που αναγνωρίζει (d) Εντόπιος (a) που δεν αναγνωρίζει (e) Ξένος (b) που δεν αναγνωρίζει (e) Επισκέπτης (c) που δεν αναγνωρίζει (e) a d 200 155 -- -- f = ----- ----- 500 = 62 f f 500 500 b d 200 155 -- -- f = ----- ----- 500 = 62 f f 500 500 c d 100 155 -- -- f = ----- ----- 500 = 31 f f 500 500 a e 200 345 -- -- f = ----- ----- 500 = 138 f f 500 500 b e 200 345 -- -- f = ----- ----- 500 = 138 f f 500 500 c e 100 345 -- -- f = ----- ----- 500 = 69 f f 500 500
Αναμενόμενη συχνότητα για κάθε κελί Ολικό γραμμής(i) * Ολικό στήλης(j) Κελί (i,j) = --------------------------------------------- Ολικό μέγεθος δείγματος Επομένως, οι πραγματικές και οι αναμενόμενες συχνότητες για την αναγνώριση είναι
Εντόπιος Ξένος Επισκέπτης Σύνολο Αναγνωρίζει 100 50 5 155 62 62 31 Δεν αναγνωρίζει 100 150 95 345 138 138 69 Σύνολο 200 200 100 500 Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι παρόμοιες, τότε δεν μπορούμε να απορρίψομε την Η 0. Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι πολύ διαφορετικές, τότε θα απορρίψομε την Η 0 συνάγοντας ότι εντοπιότητα και αναγνωρισιμότητα σχετίζονται στον πληθυσμό.
Αλλά πόσο διαφορετικό είναι το «πολύ διαφορετικό»; Για την απάντηση χρησιμοποιούμε τη συνάρτηση CHITEST:
Τιμή p = 0.00000000000000119 < α=0.025 Άρα, συνάγομε ότι εντόπιοι και ξένοι επιδεικνύουν διαφορετική συμπεριφορά στην αναγνώριση της εταιρείας
Αν η Η 0 ήταν αληθής, η πιθανότητα λήψης των πραγματικών συχνοτήτων είναι 0.000 000 000 000 001 19. Συμπεραίνομε ότι οι τρεις κατηγορίες πελατών δείχνουν διαφορετικούς βαθμούς αναγνώρισης στον πληθυσμό. Ο υποκείμενος υπολογισμός είναι ο ακόλουθος:
Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (100 62) (50 62) (95 69)... 62 62 69 2 2 2 Είναι αυτή η τιμή μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. 2 100 62 100 138 50 62 150 138 5 95 31 69
Να μη χρησιμοποιείται το CHITEST, όταν Για 2 x 2 πίνακα συνάφειας με 1. f < 20 (πρβλ f στον Πίνακα Συνάφειας προηγουμένως) 2. 20 < f < 40 KAI οποιαδήποτε αναμεν συχν < 5 3. f > 40 KAI οποιαδήποτε αναμεν συχν < 1 Για πίνακα συνάφειας μεγαλύτερο 2 x 2 με 1. Περισσότερα από 20% κελιών αναμ συχν <5 2. Οποιοδήποτε κελί έχει αναμ συχν < 1 Για μικρό δείγμα.