Ενότητα 4: Πίνακες συνάφειας (Contingency tables)



Σχετικά έγγραφα
Ενότητα 2: Έλεγχοι υποθέσεων για µέσες τιµες πληθυσµών (T-tests) µέσω SPSS

Κεφάλαιο 16. Σύγκριση συχνοτήτων κατηγοριών: το στατιστικό κριτήριο χ 2. Προϋποθέσεις για τη χρήση του τεστ. ιαφορές ή συσχέτιση.

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

2. Στοιχεία Πολυδιάστατων Κατανοµών

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

Στόχος µαθήµατος: Παράδειγµα 1: µελέτη ασθενών-µαρτύρων ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ

StatXact ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. StatXact. ΜΑΘΗΜΑ 5 ΕΡΓΑΣΤΗΡΙΟ 1 - συνέχεια ΜΕΤΡΑ ΚΙΝ ΥΝΟΥ & ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΜΕ ΤΗΝ ΧΡΗΣΗ StatXact

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

Ενότητα 3: Έλεγχοι καλής προσαρµογής (Goodness of fit tests)

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

1991 US Social Survey.sav

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Fisher test. Fisher test : Είναι ένας µη παραµετρικός έλεγχος :

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μέθοδος μέγιστης πιθανοφάνειας

Η εύρεση της πιθανής σχέσης μεταξύ δύο ποιοτικών μεταβλητών επιτυγχάνεται

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Στατιστικό κριτήριο χ 2

Εισαγωγή στη Στατιστική

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

5. Έλεγχοι Υποθέσεων

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 3. Στατιστική Συµπερασµατολογία για ποιοτικές µεταβλητές

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

Στατιστικοί έλεγχοι του Χ 2

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Στατιστική Συμπερασματολογία

Αναλυτική Στατιστική

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Περιεχόµενα ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1.2 Παράδειγµα 1 δύο χηµειοθεραπείες. 1.1 Ανάλυση δίτιµων κατηγορικών µεταβλητών σε εξαρτηµένα δείγµατα

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Α1.2 Παράδειγµα 1 (συνέχεια) Α1. ΙΤΙΜΕΣ ΚΑΤΗΓΟΡΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ ΣΕ ΕΞΑΡΤΗΜΕΝΑ ΕΙΓΜΑΤΑ Παράδειγµα 1: αρτηριακή πίεση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Ενδεικτικές ασκήσεις ΔΙΠ 50

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Γ. Πειραματισμός - Βιομετρία

3. ΠΑΡΑΜΕΤΡΟΙ ΚΑΤΑΝΟΜΩΝ

Σηµειώσεις στις σειρές

3. Κατανομές πιθανότητας

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Μη Παραµετρικά Κριτήρια. Παραµετρικά Κριτήρια

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Στατιστική Συμπερασματολογία

ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ. Βιοστατική ΙΙ

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

στατιστική θεωρεία της δειγµατοληψίας

ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΑΓΡΟΤΙΚΗΣ ΑΝΑΠΤΥΞΗΣ Θεόδωρος Χ. Κουτρουµ ανίδης Αναπληρωτής Καθηγητής ΠΘ ΕΦΑΡΜΟΣΜΕΝΗ ΟΙΚΟΝΟΜΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο ιδάσκων : Π. Τσακαλίδης

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Αριθµητική Παραγώγιση και Ολοκλήρωση

1.Γ.2 Αποτελέσµατα ΜΕΡΟΣ Γ: Ο ΠΟΛΕΜΟΣ ΣΤΟ ΙΡΑΚ Γ.1 Εισαγωγή...196

ΚΕΦΑΛΑΙΟ 5 ΤΟ ΠΛΕΟΝΕΚΤΗΜΑ ΤΩΝ ΥΠΟΨΗΦΙΩΝ ΠΑΛΑΙΟΤΕΡΩΝ ΕΤΩΝ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Κεφάλαιο 6 Παράγωγος

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Κριτήρια επιλογής μέτρων συνάφειας

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Transcript:

Ενότητα 4: Πίνακες συνάφειας (Cotigecy tables Σε αρκετές εφαρµογές παρουσιάζεται η ανάγκη ελέγχου της σχέσης µεταξύ δυο κατηγορικών µεταβλητών (Ordial ή omial. Π.χ. θέλουµε να διερευνήσουµε τη σχέση µεταξύ φύλου (άντρας γυναίκα και καπνίσµατος (µη καπνιστής, περιστασιακός καπνιστής, καπνιστής ή την σχέση µεταξύ της λήψης ενός φαρµάκου (λήψη φαρµάκου, µη λήψη φαρµάκου και της βελτίωσης της υγείας ενός ασθενούς (βελτίωση, µη βελτίωση κ.ο.κ. Για τον σκοπό αυτό λαµβάνεται δείγµα µεγέθους και για κάθε ένα άτοµο του δείγµατος καταγράφονται οι τιµές των δύο αυτών µεταβλητών, δηλαδή λαµβάνεται ένα δείγµα της µορφής (Χ,Υ, (Χ,Υ,, (Χ,Y όπου οι Χ i, Y i είναι κατηγορικές µεταβλητές (λαµβάνουν πεπερασµένο πλήθος τιµών. Για το παράδειγµα που αφορά τη σχέση µεταξύ φύλου - καπνίσµατος, έστω ότι λαµβάνεται δείγµα 00 (ενήλικων ανθρώπων και για το i-άτοµο καταγράφεται το φύλο (Χ i Γ: γυναίκα ή Α: άνδρας και το αν είναι καπνιστής (Υ i : µη καπνιστής, : περιστασιακός καπνιστής, 3: καπνιστής, i,,,. Το δείγµα µπορεί π.χ. να έχει την µορφή: (Γ,, (Γ,, (Α,3, (Α,, (Α,, (Γ,, κ.ο.κ. Για την καλύτερη παρουσίαση των αποτελεσµάτων µπορούµε να κατασκευάσουµε έναν πίνακα που να δείχνει συγκεντρωτικά πόσες φορές εµφανίστηκε κάθε µια από τις 3 6 διαφορετικές περιπτώσεις: (Γ, (γυναίκα µη καπνίστρια, (Γ, (γυναίκα περιστασιακή καπνίστρια, (Γ,3 (γυναίκα καπνίστρια, (Α, (άνδρας µη καπνιστής, (Α, (άνδρας περιστασιακός καπνιστής, (Α,3 (άνδρας καπνιστής. Ο πίνακας αυτός, ο οποίος καλείται πίνακας συνάφειας, π.χ. θα έχει την µορφή (πρόκειται για φανταστικά δεδοµένα : Φύλο Κάπνισµα µη καπνιστής περιστασιακός καπνιστής καπνιστής Σύνολο Γυναίκα 8 8 58 Άνδρας 6 4 4 Σύνολο 54 0 36 00 Μπορούµε µε βάση το δείγµα αυτό (στο οποίο παρατηρήθηκαν 8 γυναίκες µη καπνίστριες, 6 άνδρες µη καπνιστές κ.τ.λ. να πούµε ότι υπάρχει σχέση µεταξύ φύλου και καπνίσµατος (σε ε.σ. 5%; Πριν απαντήσουµε σε αυτή την ερώτηση ας εξετάσουµε το πρόβληµα γενικότερα µέσα από δύο µοντέλα. 4.. Έλεγχος ανεξαρτησίας σε πίνακες συνάφειας εν είναι λίγες οι περιπτώσεις όπου οι µεταβλητές Χ i, Y i µπορούν να θεωρηθούν τυχαίες µεταβλητές. Για ευκολία ας υποθέσουµε ότι λαµβάνουν τιµές στα σύνολα {,,,} και {,,,} αντίστοιχα (µπορούµε να υποθέσουµε οποιαδήποτε πεπερασµένα σύνολα. Θεωρούµε τα ζεύγη των τ.µ. (Χ,Υ,,(Χ,Y ανεξάρτητα µεταξύ τους και ισόνοµα µε κοινή από κοινού συνάρτηση πιθανότητας και περιθώριες σ.π. P( X i j, Yi j, j,,...,,,,..., P( X i j P( X i j, Yi j j, j,,..., P( Yi P( X i j, Yi j,,,..., j j Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 40

Σε µορφή πίνακα η διδιάστατη κατανοµή των Χ, Υ θα είναι: Y... margial... X..................... margial... Με βάση τώρα το τ.δ. µεγέθους λαµβάνουµε τον πίνακα συνάφειας όπου Y... Total Ν Ν... Ν Κ X Ν Ν... Ν Κ............... Ν Ν... Ν Κ Total... #{ i : ( X, Y ( j, } j i i εκφράζει το πλήθος των ατόµων (από τα Ν τα οποία «ταξινοµούνται» στο κελί (j, (έχουν (Χ i, Y i (j,. Κάθε άτοµο ταξινοµείται στην θέση (j, του πίνακα συνάφειας µε πιθανότητα ij. Όµοια µε παραπάνω συµβολίζουµε µε, τα αθροίσµατα των γραµµών και των στηλών αντίστοιχα. Επιθυµούµε να ελέγξουµε αν οι Χ, Υ είναι ανεξάρτητες, δηλαδή την υπόθεση H :, για κάθε j,. 0 j Για τον έλεγχο της υπόθεσης αυτής µπορούµε να χρησιµοποιήσουµε το χ τεστ (χ του Pearso που περιγράψαµε σε προηγούµενη ενότητα (Παρ. 3. διότι είναι σαν να έχουµε έλεγχο καλής προσαρµογής της διδιάστατης κατανοµής j στην. Σύµφωνα µε το χ τεστ θα πρέπει να χρησι- µοποιήσουµε τη στατιστική συνάρτηση T ( j j η οποία (βλ. σχετική πρόταση στην Παρ 3.. κάτω από την H 0 : j, ακολουθεί (προσεγγιστικά κατανοµή χ µε β.ε. (θα πρέπει οι αναµενόµενες συχνότητες σε καθένα από τα I κελιά να είναι τουλάχιστον 5. υστυχώς όµως οι περιθώριες πιθανότητες, δεν είναι γνωστές και εποµένως θα πρέπει να τις εκτιµήσουµε από τα δεδοµένα (βλ. Παρατήρηση στην Παρ. 3.. Οι εκτιµήσεις τους είναι j, j,,...,,,,,..., και άρα τελικά θα χρησιµοποιήσουµε την στατιστική συνάρτηση (Pearso s Chi-Square statistic Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 4

T j ( j j ( j η οποία, υπό την Η 0 ακολουθεί (προσεγγιστικά χ κατανοµή µε ( ( ( ( β.ε. διότι ουσιαστικά εκτιµήσαµε τα,,..., ( j και τα,,..., ( ( και εκτιµήσεις αντίστοιχα. Υπό την H : j, (οι X,Y είναι εξαρτηµένες η παραπάνω στατιστική συνάρτηση θα λαµβάνει µεγάλες τιµές και εποµένως απορρίπτουµε την Η 0 (σε ε.σ. a όταν T j ( j > χ ( ( µε αντίστοιχο -value (αν t είναι η τιµή της T από τα δεδοµένα: Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 4 ( a : άνω a-σηµείο της χ κατανοµής µε ( ( β.ε value P T > t / H F (. χ ( ( ( 0 t Παρατήρηση. Ένας ασυµπτωτικά ισοδύναµος έλεγχος προκύπτει χρησιµοποιώντας το γενικευ- µένο λόγο πιθανοφανειών (του δείγµατος υπό την Η 0 και Η 0 Η αντίστοιχα. Συγκεκριµένα, αποδεικνύεται ότι η στατιστική συνάρτηση (Lielihood Ratio statistic L j j l j ακολουθεί και αυτή (ασυµπτωτικά, υπό την Η 0 κατανοµή χ µε ( ( β.ε. ενώ υπό την Η λαµβάνει µεγάλες τιµές. Συνεπώς απορρίπτουµε την Η 0 όταν L > χ ( µε αντίστοιχο value P L > l / H F (. χ ( I ( a ( ( ( 0 l Σηµειώνεται ότι οι L, T είναι ίσες ασυµπτωτικά (. Η κατανοµή της τ.µ. T συνήθως συγκλίνει πιο γρήγορα στην κατανοµή χ από ότι η κατανοµή της L. H χ προσέγγιση της κατανοµής του L δεν είναι καλή όταν / I < 5. Αντίθετα, το T προσεγγίζεται καλύτερα από την χ ακόµη και για / I µε την προϋπόθεση ο πίνακας να µην περιέχει πολύ µικρές ή σχετικά µεγάλες αναµενό- µενες συχνότητες. Εφαρµογή. (συνέχεια παραπάνω παραδείγµατος. Σε µία έρευνα για τη σχέση καπνίσµατος φύλου επιλέχθηκαν τυχαία 00 άτοµα σε κάθε ένα από τα οποία καταγράφηκε το φύλο και το αν είναι καπνιστής. Συγκεκριµένα έχουµε τον ακόλουθο πίνακα: Κάπνισµα µη καπνιστής ( περιστασιακός καπνιστής ( καπνιστής (3 Σύνολο Γυναίκα (F 8 8 58 Φύλο Άνδρας (M 6 4 4 Σύνολο 54 0 36 00 Μπορούµε µε βάση τα παραπάνω δεδοµένα να πούµε (σε ε.σ. 5% ότι υπάρχει σχέση µεταξύ των µεταβλητών φύλου καπνίσµατος; Είδαµε ότι στην συγκεκριµένη περίπτωση έχουµε ένα δείγµα µεγέθους 00 στο οποίο βρέθηκαν 8 γυναίκες µη καπνίστριες, 8 γυναίκες περιστασιακές καπνίστριες κ.ο.κ. Εδώ έχουµε 00 περιπτώσεις cases και δυο µεταβλητές:

- geder µε τιµές «Female», «Male» και - smoig µε τιµές «o smoig», «occasioally smoig», «smoig» Για να εισάγουµε τα δεδοµένα στο SPSS κανονικά θα πρέπει να περάσουµε τα 00 αυτά cases σε 00 γραµµές 8 από τις οποίες θα έχουν τιµές στις δυο µεταβλητές Female, o smoig, 6 θα έχουν τιµές Μale, o smoig κ.ο.κ. Είδαµε σε τέτοιες περιπτώσεις (όπου επαναλαµβάνονται γραµµές είναι προτιµότερο να χρησιµοποιούµε βάρη. Για το λόγο αυτό περνάµε µόνο τα 6 διαφορετικά cases και σε µια νέα µεταβλητή w τα αντίστοιχα βάρη: Ενεργοποιούµε τα βάρη (Data/weight cases by w και στη συνέχεια εκτελούµε Aalyze/Descritive Statistics/ Crosstabs/Rows:geder, Colums:smoig επιλέγοντας στα Cells:exected couts, total ercetages και στα Statistics: Chi-square. Λαµβάνονται οι πίνακες: GEDER * SMOIG Crosstabulatio GEDER Total Female Male % of Total % of Total % of Total SMOIG occasioaly o smoig smoig smoig Total 8 8 58 3,3 5,8 0,9 58,0 8,0% 8,0%,0% 58,0% 6 4 4,7 4, 5, 4,0 6,0%,0% 4,0% 4,0% 54 0 36 00 54,0 0,0 36,0 00,0 54,0% 0,0% 36,0% 00,0% και Pearso Chi-Square Lielihood Ratio of Valid Cases Chi-Square Tests Asym. Sig. Value df (-sided,968 a,7 3,5,07 00 a. cells (6,7% have exected cout less tha 5. The miimum exected cout is 4,0. Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 43

Ο πρώτος πίνακας είναι ο γνωστός από την ενότητα πίνακας crosstabulatio που εδώ ουσιαστικά είναι ο πίνακας συνάφειας µαζί µε τις αναµενόµενες τιµές ( j / στο (j, κελί και τα ποσοστά των παρατηρήσεων σε κάθε κελί. Ο δεύτερος πίνακας είναι αυτός που µας δίνει την τιµή της στατιστικής συνάρτησης T (Pearso chi-square και της L (Lielihood Ratio. Οι βαθµοί ελευθερίας είναι ( (. Τα αντίστοιχα -value είναι 0.7 και 0.07 και εποµένως µε βάση τα συγκεκριµένα στοιχεία δεν µπορούµε να απορρίψουµε ότι οι δυο µεταβλητές είναι ανεξάρτητες. 4.. Έλεγχος οµογένειας σε πίνακες συνάφειας Σε αρκετές εφαρµογές, µόνο η µια µεταβλητή (π.χ. η Υ {,,,} µπορεί να θεωρηθεί τυχαία ενώ η άλλη µεταβλητή (η Χ {,,,} δεν µπορεί. Αυτό συµβαίνει όταν έχει προαποφασιστεί ότι θα επιλεγούν Ν άτοµα µε Χ, Ν άτοµα µε Χ,, Ν άτοµα µε Χ, δηλαδή έχουµε καθορισµένα αθροίσµατα γραµµών (ή ισοδύναµα στηλών. Π.χ. σε παραπάνω παράδειγµα που αφορά τη σχέση φύλου - καπνίσµατος το δείγµα µπορεί να επιλεγεί από τον ερευνητή έτσι ώ- στε να περιέχονται σε αυτό ακριβώς 58 γυναίκες και 4 άνδρες. Ή στο παράδειγµα που αφορά την σχέση µεταξύ της λήψης ενός φαρµάκου και της βελτίωσης της υγείας ενός ασθενούς, είναι σύνηθες να προκαθορίζεται ο αριθµός των ασθενών στους οποίους θα δοθεί το φάρµακο. Σε αυτές τις περιπτώσεις η µεταβλητή Χ µπορεί να θεωρηθεί ως «ερµηνευτική» και η άλλη (η τ.µ. Υ ως «µεταβλητή απόκρισης». Κάτω από αυτές τις συνθήκες δεν έχει νόηµα η διδιάστατη κατανοµή j που περιγράψαµε στην προηγούµενη παράγραφο. Εδώ, η πιθανότητα να ταξινοµηθεί ένα άτοµο στην (j, θέση του πίνακα συνάφειας είναι P( Y X. j j Σε µορφή πίνακα η κατανοµή της Υ για τις διάφορες «στάθµες» της Χ θα είναι: Y... Total... X..................... Σε αυτές τις περιπτώσεις µας ενδιαφέρει να µελετήσουµε αν η κατανοµή της Υ αλλάζει όταν αλλάζει τιµές η Χ. Πιο συγκεκριµένα µας ενδιαφέρει ο έλεγχος της υπόθεσης H...,,,..., 0 : δηλαδή ότι η Υ έχει την ίδια κατανοµή (,, Κ σε όλες τις γραµµές (σε όλες τις στάθµες της Χ. Ο έλεγχος αυτός καλείται έλεγχος οµογένειας (των κατανοµών της Y στις στάθµες της Χ. Από τα δεδοµένα, κατασκευάζουµε και πάλι τον ίδιο πίνακα συνάφειας (µε της Παρ. µόνο που τώρα τα αθροίσµατα των γραµµών Ν, Ν,, Ν δεν θεωρούνται τυχαία αλλά προκαθορισµένα. Και για τον έλεγχο αυτής της υπόθεσης µπορούµε να χρησιµοποιήσουµε το Χ τεστ (Χ του Pearso. Συγκεκριµένα, η στατιστική συνάρτηση T j ( j η οποία αφορά την j-γραµµή, ακολουθεί (ασυµπτωτικά, υπό την Η 0 την χ κατανοµή µε Κ β.ε. Το άθροισµα των παραπάνω στατιστικών συναρτήσεων Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 44

T j T j ( j j θα αφορά όλον τον πίνακα και θα ακολουθεί και αυτό χ κατανοµή µε (Κ β.ε. (πρόκειται για άθροισµα ανεξάρτητων χι-τετράγωνο κατανοµών. υστυχώς και πάλι οι πιθανότητες (που εκφράζουν την κοινή κατανοµή της Y σε όλες τις στάθµες της Χ δεν είναι γνωστές και εποµένως θα πρέπει να εκτιµηθούν από τα δεδοµένα. Οι εκτιµήσεις τους θα είναι,,,..., και συνεπώς θα χρησιµοποιήσουµε την στατιστική συνάρτηση T j ( j j ( j η οποία ακολουθεί (ασυµπτωτικά, υπό την Η 0 την χ κατανοµή µε (Κ (Κ ( (Κ β.ε. (διότι έγιναν Κ εκτιµήσεις. Άρα τελικά για τον έλεγχο οµογένειας θα χρησιµοποιήσουµε ακριβώς την ίδια στατιστική συνάρτηση που χρησιµοποιήσαµε και για τον έλεγχο ανεξαρτησίας µε ίδια κρίσιµη περιοχή και ίδιο -value value P T > t / H F (. χ ( ( ( 0 t Εφαρµογή. (Παραλλαγή Εφαρµογής Σε µία έρευνα για τη σχέση καπνίσµατος φύλου αποφασίστηκε να επιλεχθούν τυχαία 58 γυναίκες και 4 άνδρες. Σε κάθε ένα από τα άτοµα αυτά καταγράφηκε το αν είναι καπνιστής ή όχι. Συγκεκριµένα έχουµε τον ακόλουθο πίνακα: Κάπνισµα µη καπνιστής ( περιστασιακός καπνιστής ( καπνιστής (3 Σύνολο Γυναίκα (F 8 8 58 Φύλο Άνδρας (M 6 4 4 Σύνολο 54 0 36 00 Μπορούµε µε βάση τα παραπάνω δεδοµένα να πούµε (σε ε.σ. 5% ότι οι άνδρες συµπεριφέρονται το ίδιο µε τις γυναίκες όσον αφορά το κάπνισµα (δηλ. η κατανοµή των µη καπνιστών, περιστ. καπνιστών, καπνιστών είναι ίδια στους άνδρες και στις γυναίκες; Τα δεδοµένα εδώ είναι ακριβώς τα ίδια µε αυτά της Εφαρµογής µε µόνη διαφορά ότι τώρα τα αθροίσµατα των γραµµών είναι προκαθορισµένα ενώ εδώ ουσιαστικά ζητείται έλεγχος οµογένειας (στο κάπνισµα µεταξύ ανδρών - γυναικών. Η επεξεργασία µε το SPSS είναι ακριβώς η ίδια µε αυτήν που περιγράφηκε στον έλεγχο ανεξαρτησίας (Εφαρµογή αφού όπως είδαµε παραπάνω η στατιστική συνάρτηση και το -value που χρησιµοποιούµε είναι ίδια είτε πρόκειται για έλεγχο οµογένειας είτε για έλεγχο ανεξαρτησίας. Κάτι που ίσως θα µας ενδιέφερε περισσότερο εδώ είναι τα (δειγµατικά ποσοστά ανά γραµµές (row ercetages διότι αυτά δείχνουν την κατανοµή της µεταβλητής smoig στις γυναίκες και στους άνδρες (αν φαίνεται ότι διαφέρουν «πολύ» οι δυο κατανοµές τότε περιµένουµε το τεστ χ να απορρίψει την υπόθεση της οµογένειας. Όπως λοιπόν γίνεται φανερό οι έλεγχοι ανεξαρτησίας και οµογένειας (σε πίνακα συνάφειας είναι τεχνικά οι ίδιοι, αλλάζει µόνο η ερµηνεία. Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 45

4.3. Το ακριβές τεστ του Fisher (Fisher s exact test Στην περίπτωση που έχουµε έναν πίνακα συνάφειας µπορούµε να κάνουµε τους παραπάνω ελέγχους χρησιµοποιώντας το ακριβές τεστ του Fisher. Ο πίνακας συνάφειας έχει τη µορφή Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 46 X Y Total Ν Ν Ν Ν Total και µας ενδιαφέρει να ελέγξουµε κατά πόσο θεωρείται «τυχαία» µια πραγµατοποίηση του (δηλ. κατά πόσον είναι τυχαίες οι τιµές των Ν,Ν,Ν,Ν δεδοµένων των αθροισµάτων των γραµµών, και των στηλών,. Παρατηρούµε ότι αρκεί να ελέγξουµε κατά πόσο ήταν τυχαίο το Ν που εµφανίστηκε διότι δεδοµένων των αθροισµάτων των γραµµών και των στηλών τα Ν,Ν,Ν µπορούν να εξαχθούν από το. Έστω λοιπόν ότι από το δείγµα που πήραµε βρέθηκε ότι Ν. Η πιθανότητα να έχει συµβεί αυτό τυχαία δεδοµένου ότι,,, είναι (υπεργεωµετρική κατανοµή + διότι είναι σαν να τοποθετούµε τυχαία Ν + σφαίρες στα 4 κελιά έτσι ώστε στην πρώτη γραµµή να έχουµε σφαίρες και στην πρώτη στήλη σφαίρες και να ζητάµε την πιθανότητα να βρεθούν ακριβώς σφαίρες στο κελί (,. Αλλά ας δούµε πως µπορούµε να τοποθετήσουµε τυχαία + σφαίρες στα 4 κελιά έτσι ώστε στην πρώτη γραµµή να έχουµε σφαίρες και στην πρώτη στήλη σφαίρες: από τις + σφαίρες επιλέγουµε σφαίρες και τις «µαρκάρουµε» ως «Λευκές» (είναι οι σφαίρες που θα τοποθετηθούν στην πρώτη γραµµή και τις υπόλοιπες ως «Μαύρες». Στη συνέχεια ανακατεύουµε τις σφαίρες και από τις + επιλέγουµε τυχαία σφαίρες τις οποίες θα πρέπει να τοποθετήσουµε στην πρώτη στήλη. Όσες σφαίρες από αυτές είναι «Λευκές» θα τοποθετηθούν στην πρώτη γραµµή (κελί (, και οι υπόλοιπες στην δεύτερη γραµµή (κελί (,. Εποµένως, η πιθανότητα να βρεθούν σφαίρες στο κελί (, είναι η πιθανότητα να υπάρχουν «Λευκές» σφαίρες ανάµεσα στις οι οποίες επιλέχθηκαν τυχαία από «Λευκές» και «Μαύρες» σφαίρες. ηλαδή πρόκειται για το γνωστό µοντέλο της υπεργεωµετρικής κατανοµής. Το -value του ελέγχου της υπόθεσης Η 0 : το αποτέλεσµα στα 4 κελιά είναι τυχαίο (δεδοµένων των αθροισµάτων των γραµµών και των στηλών είναι ίσο µε την πιθανότητα (υπό την H 0 να εµφανιστεί το δείγµα που εµφανίστηκε και ακόµη πιο «ακραίο» από αυτό, δηλαδή i i value, ή i value i 0 + i i, + ανάλογα µε το αν < E( ή > E( αντίστοιχα. Το παραπάνω -value αντιστοιχεί σε µονόπλευρο έλεγχο. Για δίπλευρο έλεγχο συνήθως λαµβάνεται το

i i i i value + (εάν <, i 0 + + + i [ 0.5] και ανάλογα αν. Παρατήρηση. Για πίνακες ο Yates (934 πρότεινε αντί της στατιστικής συνάρτησης ( Observed Exected T Exected που χρησιµοποιείται για το χ τεστ, να χρησιµοποιείται η «διορθωµένη»: ( Observed Exected 0.5 T corr Exected Η «διόρθωση» αυτή δεν γίνεται για να πάρουµε καλύτερη προσέγγιση της χ κατανοµής (εξάλλου αποδεικνύεται ότι για αυτό το σκοπό, η T είναι καλύτερη από την Τ corr, αλλά για να πάρουµε - value πιο κοντά στο -value που προκύπτει από το Fisher s exact test. Εποµένως, η διόρθωση αυτή γίνεται όταν θέλουµε και δεν µπορούµε να υπολογίσουµε το -value του Fisher s exact test. Πάντως, σήµερα µε την χρήση των Η/Υ ο ακριβής υπολογισµός του -value του Fisher s exact test είναι εφικτός ακόµη και για µεγάλα δείγµατα και εποµένως η διόρθωση αυτή έχει µικρότερη αξία από αυτήν που είχε στο παρελθόν. Εφαρµογή 3. Προκειµένου να εξετασθεί αν ένα σκεύασµα Α µειώνει τα επίπεδα χοληστερίνης στον οργανισµό επιλέχθηκαν 00 άτοµα, στα 60 από τα οποία χορηγήθηκε το σκεύασµα Α ενώ στα υπόλοιπα 40 χορηγήθηκε lacebo (ανενεργό σκεύασµα όµοιο εξωτερικά µε το Α. Και στα 00 ά- τοµα καταγράφηκε το επίπεδο χοληστερίνης (σε δύο στάθµες: χαµηλό υψηλό. Τα αποτελέσµατα καταγράφονται στον παρακάτω πίνακα: Επίπεδο Χοληστερίνης Χαµηλό Υψηλό Σύνολο Σκεύασµα Α 53 7 60 lacebo 8 40 Σύνολο 8 9 00 Μπορούµε µε βάση τα παραπάνω δεδοµένα να πούµε (σε ε.σ. 5% ότι το σκεύασµα Α επιδρά στο επίπεδο χοληστερίνης; Εδώ έχουµε 00 περιπτώσεις cases και δυο µεταβλητές: - chol µε τιµές «low», «high» και - drug µε τιµές «A», «lacebo» Εδώ ουσιαστικά πρόκειται για έλεγχο οµογένειας (τα αθροίσµατα των γραµµών είναι προκαθορισµένα. Για να εισάγουµε τα δεδοµένα στο SPSS θα χρησιµοποιήσουµε βάρη. Περνάµε µόνο τα 4 διαφορετικά cases και σε µια νέα µεταβλητή w τα αντίστοιχα βάρη: Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 47

Ενεργοποιούµε τα βάρη (Data/weight cases by w και στη συνέχεια εκτελούµε Aalyze/Descritive Statistics/ Crosstabs/Rows: drug, Colums: chol επιλέγοντας στα Cells:exected couts, row ercetages και στα Statistics: Chi-square. Λαµβάνονται οι πίνακες: DRUG * CHOL Crosstabulatio DRUG Total A lacebo % withi DRUG % withi DRUG % withi DRUG CHOL high low Total 7 53 60,4 48,6 60,0,7% 88,3% 00,0% 8 40 7,6 3,4 40,0 30,0% 70,0% 00,0% 9 8 00 9,0 8,0 00,0 9,0% 8,0% 00,0% και Pearso Chi-Square Cotiuity Correctio a Lielihood Ratio Fisher's Exact Test of Valid Cases Chi-Square Tests Asym. Sig. Value df (-sided 5,4 b,0 4,8,04 5,48,03 00 a. Comuted oly for a x table Exact Sig. (-sided Exact Sig. (-sided,036,0 b. 0 cells (,0% have exected cout less tha 5. The miimum exected cout is 7,60. Ο πρώτος πίνακας είναι ο πίνακας συνάφειας µαζί µε τις αναµενόµενες τιµές και τα ποσοστά των παρατηρήσεων σε κάθε κελί (µε άθροισµα 00% ανά γραµµή. Ο δεύτερος πίνακας δίνει την τιµή της στατιστικής συνάρτησης T (Pearso chi-square, της T µε «διόρθωση» (cotiuity correctio, βλ. Παρατήρηση και της L (Lielihood Ratio. Οι βαθµοί ελευθερίας είναι ( (. Τα αντίστοιχα -value είναι 0.0, 0.04 και 0.03. Επίσης δίνεται και η τιµή του -value (0.036 το δίπλευρο και 0.0 το µονόπλευρο που προκύπτει από το Fisher s exact test. Εποµένως, µε βάση τα παραπάνω απορρίπτουµε ότι οι υπάρχει οµογένεια του επιπέδου χοληστερίνης στις δυο «στάθ- µες» της drug (ε.σ. 5%. Με άλλα λόγια κρίνουµε ότι το σκεύασµα Α επιδρά στο επίπεδο χοληστερίνης (µε ε.σ. 5%. Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 48

4.4. Έλεγχος για τη διαφορά ποσοστών από ζευγαρωτές παρατηρήσεις (Mcemar τεστ. Στην παράγραφο.3. είδαµε πως µπορούµε να κάνουµε έλεγχο για τη διαφορά των µέσων όταν έχουµε ζευγαρωτές παρατηρήσεις. Συγκεκριµένα, είχαµε παρατηρήσεις (από την κανονική κατανοµή που αφορούν τα ίδια άτοµα «πριν» (X,X,,X και «µετά» (Y,Y,,Y την επίδραση κάποιου παράγοντα (π.χ. «θεραπείας» και επιθυµούσαµε να εξετάσουµε αν η διαφορά δ E(Y i E(X i είναι µηδενική (προφανώς τα Χ,Χ,,Χ και Υ,Υ,,Υ δεν είναι ανεξάρτητα και εποµένως δεν µπορούµε να εφαρµόσουµε t τεστ για ανεξάρτητα δείγµατα. Σε εκείνη την περίπτωση συνεχίζαµε την ανάλυση χρησιµοποιώντας τις (ανεξάρτητες διαφορές Z i Y i X i, i,,,. Κάτι ανάλογο µπορεί να εµφανιστεί και όταν εξετάζουµε ποσοστά (π.χ. ενός κόµµατος «πριν» και «µετά» την επίδραση κάποιου παράγοντα (π.χ. ενός τηλεοπτικού debate. Πιο συγκεκρι- µένα, έστω Χ, Χ,, Χ δίτιµες (0- παρατηρήσεις «πριν» (µε P(X i P(X i 0 Χ και Υ, Υ,, Υ δίτιµες (0- παρατηρήσεις «µετά» (µε P(Υ i P(Υ i 0 Υ την επίδραση κάποιου παράγοντα (Π.χ. Χ, Y i 0 αν το i-άτοµο υποστήριζε το κόµµα Α «πριν» και όχι το κόµµα Α «µετά» το debate κ.ο.κ. και επιθυµούµε να ελέγξουµε την υπόθεση H 0 : X Y (ίδιο ποσοστό «πριν» και «µετά» την επίδραση. Οι δυνατές περιπτώσεις εδώ είναι 4 ((Χ,Υ {(0,0, (,0, (0,, (,} και για µια πιο εποπτική παρουσίαση των αποτελεσµάτων µπορούµε να κατασκευάσουµε τον πίνακα «µετά» (Υ 0 Total «πριν» (Χ 0 a b a + b c d c + d Total a + c b + d a + b + c + d Όπου a είναι το πλήθος των «ατόµων» του δείγµατος που είχαν 0 «πριν» και 0 «µετά» την επίδραση (πλήθος από (X i, Y i που είναι ίσα µε (0, 0 κ.ο.κ. Για να ελέγξουµε την υπόθεση H 0 : Χ Υ θα ακολουθήσουµε την ίδια µέθοδο που χρησιµοποιήσαµε για τον έλεγχο των µέσων ζευγαρωτών παρατηρήσεων. Θεωρώντας τις διαφορές Ζ i Y i X i, i,,, για µεγάλο δείγµα ισχύει ότι η στατιστική συνάρτηση T i Z E( Z ~ (0, V ( Z i ακολουθεί τυπική κανονική κατανοµή. Επειδή τώρα, i i i i i Z Y X b c, i και E ( Z E( Y E( X Y X 0 ( Z E( Z ( P( Z + 0 P( Z 0 + P( Z P( Y 0, X + P( Y, X V i η οποία εκτιµάται από το c/ + b/, θα ισχύει, για µεγάλο και υπό την H 0, ότι T Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 49 i H0 Zi E( Z ( b c ~ (0, V ( Z b + c ή ισοδύναµα (προσεγγιστικά, ( b c T ~ χ b + c Όταν ισχύει η Η : Χ Υ, η T λαµβάνει µεγάλες τιµές και εποµένως θα απορρίπτεται (σε ε.σ. α η Η 0 όταν 0

( b c T > χ ( a : άνω α-σηµείο της χ µε β.ε. b + c µε αντίστοιχο -value (από δείγµα που έδωσε T τ: value P( T ( b c > τ F ( τ F (. χ χ b + c Παρατήρηση 3. Παρατηρούµε ότι το παραπάνω τεστ βασίζεται σε µια στατιστική συνάρτηση η οποία εξαρτάται µόνο από τα b, c (και όχι και στα a, d όπως θα περίµενε κανείς. Με βάση αυτή την παρατήρηση, ένας εναλλακτικός τρόπος για τον έλεγχο της υπόθεσης Η 0 : Χ Υ γίνεται δεσµεύοντας ως προς το άθροισµα αυτών των δύο ποσοτήτων. εσµεύοντας λοιπόν ως προς το * b + c και υπό την Η 0, το b ακολουθεί διωνυµική κατανοµή µε παραµέτρους * και /. Θα απορρίπτεται η Η 0 όταν το b διαφέρει «αρκετά» από την αναµενόµενή του τιµή * / (υπό την H 0, και εποµένως το -value (που είναι η πιθανότητα να εµφανιστεί το δείγµα που εµφανίστηκε, και ακόµη πιο ακραίο από αυτό θα είναι, * b * * * * i i i i value + ( ( (αν b < * / * i 0 i i b i και ανάλογα αν b > * /. Για µεγάλo * το παραπάνω -value συγκλίνει στο -value που περιγράφηκε στην προηγούµενη παράγραφο, F χ (( b c /( b + c. Το συγκεκριµένο τεστ ή το ισοδύνα- µό του για µεγάλο * (δηλ. το τεστ της Παραγράφου 4.4 είναι γνωστό και ως Mcemar τεστ. Εφαρµογή 4. (Παραλλαγή της Εφαρµογής 3 Προκειµένου να εξετασθεί αν ένα σκεύασµα Α µειώνει τα επίπεδα χοληστερίνης στον οργανισµό επιλέχθηκαν 00 άτοµα, στα οποία µετρήθηκε το επίπεδο χοληστερίνης (χαµηλό, υψηλό. Στη συνέχεια τους χορηγήθηκε το σκεύασµα Α και µετά από κάποιο χρονικό διάστηµα καταγράφηκαν το νέα επίπεδα χοληστερίνης (χαµηλό, υψηλό στα 00 αυτά άτοµα. Τα αποτελέσµατα καταγράφονται στον παρακάτω πίνακα: «µετά» τη χορήγηση του Α Χαµηλό Υψηλό Σύνολο «πριν» τη χορήγηση του Α Χαµηλό 53 7 60 Υψηλό 8 40 Σύνολο 8 9 00 Μπορούµε µε βάση τα παραπάνω δεδοµένα να πούµε (σε ε.σ. 5% ότι το σκεύασµα Α επιδρά στο επίπεδο χοληστερίνης; Εδώ έχουµε 00 περιπτώσεις cases και δυο µεταβλητές: - c_before µε τιµές «low», «high» και - c_after µε τιµές «low», «high» Εδώ ουσιαστικά πρόκειται για έλεγχο για τη διαφορά ποσοστών «πριν» και «µετά» τη χορήγηση ενός φαρµάκου. Για να εισάγουµε τα δεδοµένα στο SPSS θα χρησιµοποιήσουµε και πάλι βάρη. Περνάµε µόνο τα 4 διαφορετικά cases και σε µια νέα µεταβλητή w τα αντίστοιχα βάρη: Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 50

Ενεργοποιούµε τα βάρη (Data/weight cases by w και στη συνέχεια εκτελούµε Aalyze/Descritive Statistics/ Crosstabs/Rows: c_before, Colums: c_after επιλέγοντας στα Cells:exected couts και στα Statistics: Mc-emar. Λαµβάνονται οι πίνακες: C_BEFORE * C_AFTER Crosstabulatio C_BEFORE Total high low C_AFTER high low Total 8 40 7,6 3,4 40,0 7 53 60,4 48,6 60,0 9 8 00 9,0 8,0 00,0 και Chi-Square Tests Value Mcemar Test of Valid Cases 00 a. Biomial distributio used. Exact Sig. (-sided,00 a Ο πρώτος πίνακας είναι και πάλι ο πίνακας συνάφειας µαζί µε τις αναµενόµενες τιµές. Ο δεύτερος πίνακας δίνει την τιµή του -value για το Mcemar τεστ (έχει υπολογιστεί χρησιµοποιώντας την διωνυµική κατανοµή, βλ. Παρατήρηση 3. Σύµφωνα µε το -value απορρίπτουµε την υπόθεση ότι η πιθανότητα υψηλού επιπέδου χοληστερίνης «πριν» και «µετά» τη χορήγηση του σκευάσµατος Α είναι ίδια. ηλαδή, µπορούµε µε βάση τα παραπάνω δεδοµένα να πούµε ότι το σκεύασµα Α επιδρά στο επίπεδο χοληστερίνης (ε.σ. 5%. Boutsias M.V. (004, Σηµειώσεις µαθήµατος «Στατιστικά Προγράµµατα» 5