χ 2 test ανεξαρτησίας

Σχετικά έγγραφα
ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

FORMULAS FOR STATISTICS 1

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Biostatistics for Health Sciences Review Sheet

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Δείγμα πριν τις διορθώσεις

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Μηχανική Μάθηση Hypothesis Testing

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Έλεγχος καλής προσαρμογής για μια ποιοτική μεταβλητή (Nonparametric Tests Chi-Square)

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Οι στατιστικοί έλεγχοι x τετράγωνο, t- test, ANOVA & Correlation. Σταμάτης Πουλακιδάκος

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

t-distribution t a (ν) s N μ = where X s s x = ν 2 FD ν 1 FD a/2 a/2 t-distribution normal distribution for ν>120

ST5224: Advanced Statistical Theory II

Ανάλυση Διακύμανσης. Ι. Κ. Δημητρίου

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

8. Ελεγχος Υποθεσεων. Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

Repeated measures Επαναληπτικές μετρήσεις

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Στατιστικές Υποθέσεις

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 3ο 2 + +

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Μαθηματικά Και Στατιστική Στη Βιολογία

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Queensland University of Technology Transport Data Analysis and Modeling Methodologies

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

Περιγραφική στατιστική μεθοδολογία.

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ. Γρηγόρης Χλουβεράκης, Ph.D. Αναπληρωτής Καθηγητής Πανεπιστήμιο Κρήτης

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων

Other Test Constructions: Likelihood Ratio & Bayes Tests

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Στατιστικοί Έλεγχοι Υποθέσεων. Σαλαντή Γεωργία Εργαστήριο Υγιεινής και Επιδημιολογίας Ιατρική Σχολή

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Απλή Ευθύγραµµη Συµµεταβολή

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

5.4 The Poisson Distribution.

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

ΚΕΦΑΛΑΙΟ 1 ο ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΚΑΙ ΑΝΑΛΥΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΜΕ ΧΡΗΣΗ ΕΛΕΓΧΩΝ (STUDENT S T).. 21

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Δεδομένα (data) και Στατιστική (Statistics)

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

1991 US Social Survey.sav

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Πειραματική έρευνα: Δειγματοληψία, μεταβλητές, υποθέσεις

Transcript:

χ 2 test ανεξαρτησίας Καθηγητής Ι. Κ. ΔΗΜΗΤΡΙΟΥ demetri@econ.uoa.gr

7.2 Το χ 2 Τεστ Ανεξαρτησίας Tο χ 2 τεστ ανεξαρτησίας (όπως και η παλινδρόμηση) είναι στατιστικά εργαλεία για τον εντοπισμό σχέσεων μεταξύ παραγόντων. Χρησιμοποιούμε χ 2 όταν οι ανεξάρτητες μτβλ και η εξαρτημένη μτβλ είναι κατηγορικές.

Δύο τυχαία ενδεχόμενα (: παράγοντες) είναι ανεξάρτητα όταν γνωρίζοντας ότι συνέβη το ένα ενδεχόμενο δεν μας δίνει καμία πληροφορία για το αν συνέβη το άλλο.

Εξηγούμε το τεστ ανεξαρτησίας με δύο παραδείγματα: Ένα με πράξεις αναλυτικά Ένα με χρήση του τεστ που δίνει το Excel

( Wikipedia χ 2 (k)

χ 2 κατανομή, wikipedia In probability theory and statistics, the chi-square distribution (also chi-squared or χ²-distribution) with k degrees of freedom is the distribution of a sum of the squares of k independent standard normal random variables. It is one of the most widely used probability distributions in inferential statistics, e.g. in hypothesis testing or in construction of confidence intervals. The chi-square distribution is used in the common chi-square tests for goodness of fit of an observed distribution to a theoretical one, in the independence of two criteria of classification of qualitative data, and in confidence interval estimation for a population standard deviation of a normal distribution from a sample standard deviation. Many other statistical tests also use this distribution, like Friedman's analysis of variance by ranks. The chi-square distribution is a special case of the gamma distribution.

χ 2 (k)

Table of χ ² value vs P-value The P-value is the probability of observing a test statistic at least as extreme in a chi-square distribution. Accordingly, since the cumulative distribution function (CDF) for the appropriate degrees of freedom (df) gives the probability of having obtained a value less extreme than this point, subtracting the CDF value from 1 gives the P-value.

The table below gives a number of P-values matching to χ ² for the first 10 degrees of freedom. A P-value of 0.05 or less is usually regarded as statistically significant.

Είναι χ 2 (α=5%) = 7.81 Ε(χ 2 )=ν var(χ 2 )=2ν ν=3, P(χ 2 >15.5) = 0.05 ν=3, P(χ 2 <2.73) = 1-0.95 = 0.05

)

Τα σπουδαία που πρέπει να θυμόμαστε Αν X i είναι ανεξάρτητες μτβλ από Ν(μ=0,σ=1), τότε k Q = i=1 X i 2 ~ χ 2 με k βε Πρέπει να γνωρίζομε τους βε για να εκτιμήσομε μια τιμή χ 2 και ότι οι κρίσιμες τιμές αυξάνουν με τους βε. Πχ α=0.05 και βε=1 δίνει χ 2 = 3.84, ενώ με βε=10 δίνει χ 2 =18.31

Το πρόβλημα (1) Ο ΕΟΦ θέλει να γνωρίζει αν υπάρχει διαφορά μεταξύ τεσσάρων ανταγωνιστικών φαρμάκων κατά του κρυολογήματος. Το πλήθος των ατόμων που θα δοκιμάσουν τα φάρμακα και μετά θα κρυολογήσουν μπορεί να θεωρηθεί τυχαία μεταβλητή. Το κρυολόγημα είναι η εξαρτημένη μτβλ και το φάρμακο είναι η ανεξάρτητη μτβλ. Αμφότερες κατηγορικές μτβλ

Η 0 Δεν υπάρχει διαφορά στα τέσσερα φάρμακα. Δηλ. η κατάσταση ενός ατόμου (αν θα αρρωστήσει) είναι ανεξάρτητη από το φάρμακο που έλαβε. Δηλ. οι διαφορές που παρατηρήθηκαν οφείλονται σε τυχαίους παράγοντες. Η 1 Κρυολόγημα και φάρμακο είναι στατιστικά εξαρτημένα (σχετίζονται). Υποθέτοντας ότι η Η 0 είναι αληθής, υπολογίζομε τις αναμενόμενες συχνότητες για τα 6 γκρι κελιά:

Πειραματιζόμαστε σε ένα δείγμα 495 ατόμων, ερωτώντας τι είδους φάρμακο έπαιρναν και αν αρρώστησαν ή όχι. Τα αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα συνάφειας Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Ο ΕΟΦ θέτει κατ αρχήν υποθέσεις Η 0 και Η 1. (Όπως και στην παλινδρόμηση) Η Η 0 είναι πάντοτε «όχι σχέση». Θέτει επίσης επίπεδο σημαντικότητας, έστω α=0.5.

Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Κατασκευάζομε έναν νέο πίνακα που περιέχει τις αναμενόμενες τιμές όταν η Η 0 είναι αληθής: πχ για το Φάρμακο 1 η αναμενόμενη τιμή κρυολογήματος είναι = {ΣΥΝΟΛΟ Φ1 / Σύνολο * Σύνολο Κ / Σύνολο } * Σύνολο = { 126 / 495 * 64 / 495 } * 495 = 16.2909 κοκ. PP(A and B) = P(A) P(B)

Πίνακας Συνάφειας Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Σύνολο Κρυολόγησαν 15 26 9 14 64 Δεν κρυολόγησαν 111 107 96 117 431 Σύνολο 126 133 105 131 495 Αναμενόμενη Φάρμακο 1 Φάρμακο 2 Φάρμακο 3 Φάρμακο 4 Κρυολόγησαν 16.2909 17.1960 13.5758 16.9374 Δεν κρυολόγησαν 109.7091 115.8040 91.4242 114.0626 Σύνολο Σύνολο Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι παρόμοιες, τότε δεν μπορούμε να απορρίψομε την Η 0. Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι πολύ διαφορετικές, τότε θα απορρίψομε την Η 0 συνάγοντας ότι φάρμακο και κρυολόγημα σχετίζονται.

Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (15 16.2909) (26 17.1960) (117 114.0626)... 16.2909 17.1960 114.0626 7.65 2 2 2 2 βε = (2 γραμμές -1)*(4 στήλες -1) = (2-1)*(4-1) = 3 Είναι αυτή η τιμή του αθροίσματος μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. (ερμηνεία

Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (15 16.2909) (26 17.1960) (117 114.0626)... 16.2909 17.1960 114.0626 7.65 βε = (2 γραμμές -1)*(4 στήλες -1) = (2-1)*(4-1) = 3 2 2 2 2 Η 0 Είναι αυτή η τιμή του αθροίσματος μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. Δεν υπάρχει διαφορά στα τέσσερα φάρμακα. Δηλ. η κατάσταση ενός ατόμου (αν θα αρρωστήσει) είναι ανεξάρτητη από το φάρμακο που έλαβε. Δηλ. οι διαφορές που παρατηρήθηκαν οφείλονται σε τυχαίους παράγοντες. ΝΒ. Αν όμως μικρή, τότε παρατηρήσεις περίπου ίσες με αναμενόμενες τιμές, άρα δεν υπάρχει διαφορά στις τιμές, άρα Η 0 δεκτή.

Pearson: m+x παρατήρηση m αναμενόμενη m +x m = x στο τετράγωνο διά m χ 2 = Σ (x 2 /m) Αν m+x και m είναι πλησίον, τότε x είναι μικρός. Όσο πιο μικρό το χ 2, τόσο πιο μικρές οι διαφορές των παρατηρήσεων από τις αναμενόμενες. ) Συνεχίζομε με το πρόβλημα

ν=3, P(χ 2 >7.82)=0.05 (περιοχή απόρριψης) Επειδή η τιμή αθροίσματος 7.65 ανήκει στην περιοχή αποδοχής (οριακά) έπεται ότι η διακύμανση των αποτελεσμάτων των φαρμάκων είναι μάλλον μεγαλύτερη από όση θα περιμέναμε από τύχη. Φαίνεται ότι το πείραμα δεν ήταν επαρκές, χρειαζόμαστε και άλλα δεδομένα.

Το πρόβλημα (2) Η δνση παραγωγής θέλει να γνωρίζει αν η εντοπιότητα επιδρά στην αναγνωρισιμότητα των προϊόντων της εταιρείας. Η αναγνώριση της εταιρείας είναι η εξαρτημένη μτβλ και η εντοπιότητα είναι η ανεξάρτητη μτβλ. Αμφότερες κατηγορικές μτβλ

Λαμβάνονται 500 συνεντεύξεις, ερωτώντας αν αναγνωρίζουν την εταιρεία και τ αποτελέσματα παρουσιάζονται στον ακόλουθο πίνακα συνάφειας Πίνακας Συνάφειας Εντόπιος Ξένος Επισκέπτης Σύνολο Αναγνωρίζει 100 50 5 155 d Δεν αναγνωρίζει 100 150 95 345 e Σύνολο 200 a 200 b 100 c 500 f Ο Δντής θέτει κατ αρχήν υποθέσεις Η 0 και Η 1. (Όπως και στην παλινδρόμηση) Η Η 0 είναι πάντοτε «όχι σχέση». Θέτει επίσης επίπεδο σημαντικότητας, έστω α=0.025.

Η 0 Η 1 Εντοπιότητα και αναγνώριση είναι στατιστικά ανεξάρτητες (δεν σχετίζονται) στον πληθυσμό. Εντοπιότητα και αναγνώριση είναι στατιστικά εξαρτημένες (σχετίζονται) στον πληθυσμό. Υποθέτοντας ότι η Η 0 είναι αληθής, υπολογίζομε τις αναμενόμενες συχνότητες για τα 6 γκρι κελιά:

Εντόπιος (a) που αναγνωρίζει (d) Ξένος (b) που αναγνωρίζει (d) Επισκέπτης (c) που αναγνωρίζει (d) Εντόπιος (a) που δεν αναγνωρίζει (e) Ξένος (b) που δεν αναγνωρίζει (e) Επισκέπτης (c) που δεν αναγνωρίζει (e) a d 200 155 -- -- f = ----- ----- 500 = 62 f f 500 500 b d 200 155 -- -- f = ----- ----- 500 = 62 f f 500 500 c d 100 155 -- -- f = ----- ----- 500 = 31 f f 500 500 a e 200 345 -- -- f = ----- ----- 500 = 138 f f 500 500 b e 200 345 -- -- f = ----- ----- 500 = 138 f f 500 500 c e 100 345 -- -- f = ----- ----- 500 = 69 f f 500 500

Αναμενόμενη συχνότητα για κάθε κελί Ολικό γραμμής(i) * Ολικό στήλης(j) Κελί (i,j) = --------------------------------------------- Ολικό μέγεθος δείγματος Επομένως, οι πραγματικές και οι αναμενόμενες συχνότητες για την αναγνώριση είναι

Εντόπιος Ξένος Επισκέπτης Σύνολο Αναγνωρίζει 100 50 5 155 62 62 31 Δεν αναγνωρίζει 100 150 95 345 138 138 69 Σύνολο 200 200 100 500 Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι παρόμοιες, τότε δεν μπορούμε να απορρίψομε την Η 0. Αν οι πραγματικές και οι αναμενόμενες συχνότητες είναι πολύ διαφορετικές, τότε θα απορρίψομε την Η 0 συνάγοντας ότι εντοπιότητα και αναγνωρισιμότητα σχετίζονται στον πληθυσμό.

Αλλά πόσο διαφορετικό είναι το «πολύ διαφορετικό»; Για την απάντηση χρησιμοποιούμε τη συνάρτηση CHITEST:

Τιμή p = 0.00000000000000119 < α=0.025 Άρα, συνάγομε ότι εντόπιοι και ξένοι επιδεικνύουν διαφορετική συμπεριφορά στην αναγνώριση της εταιρείας

Αν η Η 0 ήταν αληθής, η πιθανότητα λήψης των πραγματικών συχνοτήτων είναι 0.000 000 000 000 001 19. Συμπεραίνομε ότι οι τρεις κατηγορίες πελατών δείχνουν διαφορετικούς βαθμούς αναγνώρισης στον πληθυσμό. Ο υποκείμενος υπολογισμός είναι ο ακόλουθος:

Pearson χ 2 στατιστικό = (παρατηρηση-αναμενομενη) αναμενομενη (100 62) (50 62) (95 69)... 62 62 69 2 2 2 Είναι αυτή η τιμή μεγάλη ή μικρή; Για να αποφανθούμε συγκρίνομε με τις τιμές της χ 2 κατανομής. Αν μεγάλη, απορρίπτεται η Η 0. 2 100 62 100 138 50 62 150 138 5 95 31 69

Να μη χρησιμοποιείται το CHITEST, όταν Για 2 x 2 πίνακα συνάφειας με 1. f < 20 (πρβλ f στον Πίνακα Συνάφειας προηγουμένως) 2. 20 < f < 40 KAI οποιαδήποτε αναμεν συχν < 5 3. f > 40 KAI οποιαδήποτε αναμεν συχν < 1 Για πίνακα συνάφειας μεγαλύτερο 2 x 2 με 1. Περισσότερα από 20% κελιών αναμ συχν <5 2. Οποιοδήποτε κελί έχει αναμ συχν < 1 Για μικρό δείγμα.