14. Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας)

Σχετικά έγγραφα
Έλεγχοι Χ 2 (Μέρος 1 ο ) 28/4/2017

Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας) Προβλήματα και Ασκήσεις

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον ίδιο τον ποταμό;

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Το Κεντρικό Οριακό Θεώρημα

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Το Κεντρικό Οριακό Θεώρημα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Το Κεντρικό Οριακό Θεώρημα

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα.

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

και τυπική απόκλιση σ = 40mg ανά μπανάνα. α) Ποια είναι η πιθανότητα μια μπανάνα να περιέχει i)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

5. Έλεγχοι Υποθέσεων

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Μέθοδος μέγιστης πιθανοφάνειας

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Στατιστική Επιχειρήσεων ΙΙ

Ερωτήσεις κατανόησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες)

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Αναλυτική Στατιστική

Σημειακή εκτίμηση και εκτίμηση με διάστημα Παραδείγματα. 12 η Διάλεξη

Εισόδημα Κατανάλωση

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Κατανομές Τυχαίων Μεταβλητών Προβλήματα και Ασκήσεις

& 4/12/09 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/2017

5 o Μάθημα Έλεγχοι Υποθέσεων

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις

Γ. Πειραματισμός - Βιομετρία

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Στατιστική Συμπερασματολογία

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Η Κανονική Κατανομή. Εργαστήριο Μαθηματικών & Στατιστικής/ Γ. Παπαδόπουλος ( 81

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

6. Βασικές Διακριτές Κατανομές

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Εργάτης Μηχάνηµα τύπου Α Μηχάνηµα τύπου Β

Επαναληπτικές Ασκήσεις 26/5/2017

Εισαγωγή - Πειραματικοί Σχεδιασμοί. Κατσιλέρος Αναστάσιος

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

3.4.1 Ο Συντελεστής ρ του Spearman

Δειγματοληψία στην Ερευνα. Ετος

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Επανάληψη ελέγχων υποθέσεων

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ανάλυση Διασποράς Προβλήματα και Ασκήσεις

Transcript:

Έλεγχος Χ 4. Έλεγχος Χ (καλής προσαρμογής, ανεξαρτησίας και ομογένειας Από διασταύρωση ορισμένου είδους πειραματόζωων προκύπτουν τρεις τύποι απογόνων, Α, Β και Γ. Στο πλαίσιο ενός πειράματος, από μια τέτοια διασταύρωση, προέκυψαν 64 απόγονοι από τους οποίους 4 βρέθηκαν να είναι τύπου Α, τύπου Β και τύπου Γ. Σύμφωνα με ένα μοντέλο κληρονομικότητας, οι τρεις τύποι απογόνων πρέπει να βρίσκονται σε αναλογία 9::4, αντίστοιχα. Στο Παράδειγμα 6.., είδαμε ότι αν δεχθούμε ότι το συγκεκριμένο μοντέλο κληρονομικότητας πράγματι περιγράφει την αναλογία απογόνων από μια τέτοια διασταύρωση, τότε από 64 απογόνους αναμένουμε τύπου Α να είναι οι 6, τύπου Β οι και τύπου Γ οι 6. Παρατηρείστε ότι οι αναμενόμενες (με βάση το μοντέλο κληρονομικότητας συχνότητες εμφάνισης των τριών τύπων απογόνων (6, και 6, αντίστοιχα διαφέρουν από τις αντίστοιχες συχνότητες που παρατηρήσαμε στο πείραμα (4, και, αντίστοιχα. Άραγε, αυτές οι διαφορές μεταξύ παρατηρηθέντων και αναμενόμενων συχνοτήτων, είναι στατιστικά σημαντικές; Μας δίνουν δηλαδή στατιστικά σημαντικές αποδείξεις ότι το μοντέλο κληρονομικότητας δεν περιγράφει ικανοποιητικά την αναλογία των απογόνων που προκύπτουν από μια τέτοια διασταύρωση; ταξινόμηση ενός απογόνου σε (ακριβώς έναν από τρεις τύπους απογόνων (τύπος Α, τύπος Β, τύπος Γ είναι μια πολυωνυμική δοκιμή με δυνατά αποτελέσματα και επομένως πρόκειται για ένα πείραμα ν 64 ανεξάρτητων πολυωνυμικών δοκιμών. Το πρόβλημα που τίθεται είναι προφανώς ένα πρόβλημα στατιστικού ελέγχου υποθέσεων για τις πιθανότητες (ποσοστά εμφάνισης των τιμών μιας ποιοτικής τυχαίας μεταβλητής (είδος απογόνου. Ανάλογες περιπτώσεις στατιστικών ελέγχων που ήδη γνωρίσαμε (θυμηθείτε τον έλεγχο για διωνυμικό ποσοστό, αναφέρονται βέβαια σε ποιοτικές μεταβλητές, αλλά με δύο μόνο δυνατές τιμές, επιτυχία/αποτυχία, (περιγράφουν δοκιμές Bernoull, όπως «συμφωνία με συγκεκριμένη άποψη» με τιμές, ναι, όχι «φύλο ασθενούς» με τιμές, άνδρας, γυναίκα «αποτέλεσμα διαγνωστικού test» με τιμές, θετικό, αρνητικό «ποιότητα προϊόντος» με τιμές, αποδεκτό, ελαττωματικό «αποτέλεσμα θεραπευτικής αγωγής» με τιμές, θεραπεύθηκε, δε θεραπεύθηκε «τύπος απογόνου από ορισμένη διασταύρωση» με τιμές, τύπου Α, όχι τύπου Α «γονότυπος παιδιού» με τιμές, Αα, όχι Αα «ποσότητα φυτικών ινών ανά μερίδα δημητριακών» με τιμές, < 5gr, 5gr. Σε αυτή την ενότητα, θα γνωρίσουμε τους ελέγχους Χ που όπως θα διαπιστώσουμε, μας επιτρέπουν να κάνουμε στατιστικούς ελέγχους που αφορούν πειράματα επαναλαμβανόμενων ανεξάρτητων πολυωνυμικών δοκιμών. Έτσι, θα μπορούμε πλέον να αποφασίζουμε για τη στατιστική σημαντικότητα πειραματικών ή δειγματοληπτικών δεδομένων που αναφέρονται σε ποιοτικές μεταβλητές όπως «ομάδα αίματος ασθενούς» με τιμές, Α, Β, ΑΒ, Ο «γονότυπος παιδιού» με τιμές, ΑΑ, Αα, αα «αποτέλεσμα φαρμακευτικής αγωγής» με τιμές, θετικό, θετικό με παρενέργειες, αρνητικό «στάση απέναντι στην απαγόρευση του καπνίσματος σε δημόσιους χώρους» με τιμές, πολύ αρνητική, αρνητική, αδιάφορη, θετική, πολύ θετική «οικογενειακή κατάσταση» με τιμές, παντρεμένος/η, άγαμος/η, διαζευγμένος/η, χήρος/α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 47

Έλεγχος Χ «προτίμηση μεταξύ τριών υποψηφίων» με τιμές, υποψήφιος-α, υποψήφιος-β, υποψήφιος-γ, λευκό, άκυρο, αποχή «απάντηση σε αίτηση» με τιμές, θετική, θετική υπό προϋποθέσεις, αρνητική «αντίδραση πειραματόζωου σε συγκεκριμένο ερέθισμα» με τιμές, πολύ επιθετική συμπεριφορά, επιθετική συμπεριφορά, αδιάφορο «ποιότητα παραγόμενου προϊόντος» με τιμές, αποδεκτό, β διαλογής, ελαττωματικό «γραμμή παραγωγής προϊόντος» με τιμές, Γραμμή-, Γραμμή-, Γραμμή-, Γραμμή-4 ή σε ποσοτικές μεταβλητές των οποίων οι τιμές έχουν ταξινομηθεί σε κατηγορίες/κλάσεις, όπως «συστολική πίεση» με τιμές, χαμηλή, φυσιολογική, υψηλή «δείκτης μάζας σώματος» με τιμές, λιποβαρής, φυσιολογικό βάρος, υπέρβαρος/η, παχύσαρκος/η «διάμετρος διατομής σωλήνα» με τιμές, εντός προδιαγραφών, μικρότερη από την κατώτερη αποδεκτή τιμή, μεγαλύτερη από την ανώτερη αποδεκτή τιμή «βαθμός πτυχίου» με τιμές, καλώς, λίαν καλώς, άριστα ή σε διακριτές ποσοτικές μεταβλητές, όπως «αριθμός παιδιών οικογένειας» με τιμές,,,,, ν «αριθμός βακτηριδίων ανά cm μιας πλάκας Petr» με τιμές,,,,, ν «αριθμός ελαττωματικών προϊόντων ανά παρτίδα» με τιμές,,,,, ν «αριθμός δόσεων αντιγριπικού εμβολίου που έκανε ένα άτομο» με τιμές,,,. Τα δεδομένα που προκύπτουν από επαναλαμβανόμενες πολυωνυμικές δοκιμές συνοψίζονται και παρουσιάζονται σε ένα πίνακα κατανομής συχνοτήτων. Έτσι, στο παράδειγμά μας δίνεται ότι στις ν 64 επαναλήψεις, η συχνότητα εμφάνισης της τιμής τύπος Α είναι ν 4, η συχνότητα εμφάνισης της τιμής τύπος Β είναι ν και η συχνότητα εμφάνισης της τιμής Γ είναι ν. Παρατηρηθείσα συχνότητα Τύπος απογόνου Α Β Γ 4 Το ζητούμενο είναι να ελέγξουμε αν αυτές οι συχνότητες που παρατηρήθηκαν στο δείγμα, συμφωνούν με το θεωρητικό μοντέλο κληρονομικότητας, δηλαδή, αν συμφωνούν με τις αναμενόμενες, με βάση το θεωρητικό μοντέλο, συχνότητες, E 6, E, 6 E, αντίστοιχα. Αν p η πιθανότητα ένας απόγονος από μια τέτοια διασταύρωση να είναι τύπου Α, p η πιθανότητα ένας απόγονος να είναι τύπου Β και p η πιθανότητα ένας απόγονος να είναι τύπου Γ, τότε, σύμφωνα με το μοντέλο κληρονομικότητας, είναι p 9 6, p 6 και p 4 6. Είναι προφανές, ότι πρέπει να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p 9 6 και p 6 και p 4 6 έναντι της εναλλακτικής, : p 9 6 ή p 6 ή p 4 6. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 47

Έλεγχος Χ Πρέπει, δηλαδή, να ελέγξουμε αν τα συγκεκριμένα πειραματικά δεδομένα συμφωνούν με το μοντέλο κληρονομικότητας, ή αλλιώς, αν η εμπειρική κατανομή συχνοτήτων ν 4, ν, ν προσαρμόζεται στη θεωρητική κατανομή συχνοτήτων E 6, E, 6 E που αναμένεται/προκύπτει από την υποθετική/θεωρητική κατανομή πιθανοτήτων (θεωρητικό μοντέλο κληρονομικότητας, p 9 6, p 6, 6 p 4. Ο έλεγχος X με τον οποίο κάνουμε έναν τέτοιο έλεγχο υποθέσεων, ονομάζεται έλεγχος Χ καλής προσαρμογής. Στην ενότητα αυτή θα γνωρίσουμε, επίσης, τον έλεγχο Χ ανεξαρτησίας, που μας επιτρέπει να απαντάμε σε προβλήματα όπως το ακόλουθο, που αφορούν στον έλεγχο της ανεξαρτησίας δύο χαρακτηριστικών/μεταβλητών. Στο πλαίσιο της έρευνας που γίνεται για την πρόληψη της γρίπης, έγινε μια μελέτη για να ελεγχθεί η αποτελεσματικότητα ενός νέου αντιγριπικού εμβολίου το οποίο χορηγείται σε δύο δόσεις. Σε χίλιους τυχαία επιλεγμένους κατοίκους μιας περιοχής δόθηκε η δυνατότητα να κάνουν το εμβόλιο δωρεάν και εθελοντικά. Για κάθε κάτοικο, η ερευνητική ομάδα κατέγραψε πόσες δόσεις του εμβολίου έκανε (καμία, μία ή δύο και αν αρρώστησε ή όχι από τη γρίπη. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε 89 565 Αυτά τα δεδομένα, δίνουν άραγε στατιστικά σημαντικές αποδείξεις ότι η ανθεκτικότητα των κατοίκων στον ιό της γρίπης εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκαναν; Τέλος, θα δούμε πώς μπορούμε να διατυπώσουμε και να κάνουμε έναν έλεγχο Χ ομογένειας για να ελέγξουμε αν δύο ή περισσότεροι πληθυσμοί είναι ομογενείς ως προς κάποιο χαρακτηριστικό/μεταβλητή. Ας δούμε ένα παράδειγμα. Ταξινομήσαμε τους ενήλικες κατοίκους ( 8 ετών μιας περιοχής σε πέντε ηλικιακές ομάδες, 8-4, 5-4, 5-49, 5-64 και 65, και από κάθε ομάδα επιλέξαμε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 9,,, και 7 κατοίκους, αντίστοιχα. Ρωτήσαμε καθέναν από τους κατοίκους που επιλέξαμε πόσους καφέδες καταναλώνει ημερησίως, και τις απαντήσεις που πήραμε τις ταξινομήσαμε σε τρεις κατηγορίες: λιγότερους από τρεις, ακριβώς τρεις, περισσότερους από τρεις. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Ηλικιακή ομάδα 4 5 8-4 5-4 5-49 5-64 65 Ημερήσια Λιγότερους από 8 5 6 9 κατανάλωση Ακριβώς 45 8 8 4 καφέ Περισσότερους από 7 7 7 4 9 7 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 47

Έλεγχος Χ Με βάση τα συγκεκριμένα δεδομένα, να ελέγξετε αν οι πέντε ηλικιακές ομάδες είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, αν το ποσοστό των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως, και αντίστοιχα, το ποσοστό των ενηλίκων που πίνουν τρεις καφέδες ημερησίως και το ποσοστό των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως, είναι ίδιο στις πέντε ηλικιακές ομάδες. Όπως θα διαπιστώσουμε στη συνέχεια, αυτό που ελέγχεται και στις τρεις περιπτώσεις ελέγχων X, είναι η στατιστική σημαντικότητα των αποκλίσεων (διαφορών μεταξύ συχνοτήτων που παρατηρήθηκαν στο δείγμα και συχνοτήτων που αναμένονται με βάση τη μηδενική υπόθεση. Δηλαδή, και στις τρεις περιπτώσεις, η λογική του ελέγχου X είναι ίδια. Ας δούμε όμως τώρα με μεγαλύτερη λεπτομέρεια αυτούς τους πράγματι ενδιαφέροντες, και με πολλές εφαρμογές, ελέγχους. 4. Έλεγχος Χ καλής προσαρμογής (ch-square goodness-of-ft test Συχνά μας ενδιαφέρει να ελέγξουμε αν τα δεδομένα μας συμφωνούν ή όχι με κάποιο μοντέλο πιθανοτήτων. Για παράδειγμα, Τα πειραματικά δεδομένα που έχουμε στη διάθεσή μας για τέσσερα είδη απογόνων που προέκυψαν από μια διασταύρωση φυτών, συμφωνούν άραγε με το μοντέλο κληρονομικότητας του Mendel, δηλαδή, υποστηρίζουν ότι η αναλογία των τεσσάρων ειδών απογόνων είναι 9:::, ή αλλιώς, υποστηρίζουν ότι τα ποσοστά των τεσσάρων ειδών απογόνων, αντίστοιχα, είναι p 9 6, p 6, 6 p, p 4 6 ; Με βάση τα δεδομένα που προέκυψαν από μια έρευνα γνώμης, οι καταναλωτές δείχνουν την ίδια προτίμηση για τα πέντε υποψήφια ονόματα ενός νέου προϊόντος ή οι προτιμήσεις τους διαφέρουν. Δηλαδή, οι πιθανότητες με τις οποίες επιλέγονται από τους καταναλωτές τα 5 υποψήφια ονόματα περιγράφονται από το μοντέλο πιθανοτήτων p p p p4 p5 5; Τα εργαστηριακά δεδομένα που έχουμε στη διάθεσή μας για τον αριθμό βακτηριδίων ανά cm μιας πλάκας Petr, υποστηρίζουν άραγε ότι ο αριθμός των βακτηριδίων ανά cm ακολουθεί μια κατανομή Posson με μέσο βακτηρίδια ανά cm ; Το τυχαίο δείγμα 8 τιμών συγκέντρωσης υδραργύρου στο συκώτι αρσενικών δελφινιών, με βάση το οποίο θέλουμε να κατασκευάσουμε ένα διάστημα εμπιστοσύνης για τη μέση συγκέντρωση υδραργύρου στο συκώτι αρσενικών δελφινιών, προέρχεται άραγε από κάποια κανονική κατανομή ή μήπως δε μπορούμε να κάνουμε μια τέτοια υπόθεση/παραδοχή; Οι στατιστικοί έλεγχοι υποθέσεων που βοηθούν να δώσουμε μια απάντηση σε τέτοια ερωτήματα, ονομάζονται έλεγχοι καλής προσαρμογής (goodness-of-ft tests. Δηλαδή, οι έλεγχοι καλής προσαρμογής μας δίνουν τη δυνατότητα να ελέγξουμε αν μια κατανομή πιθανοτήτων συμφωνεί/προσαρμόζεται σε ένα δείγμα. Από τους πλέον γνωστούς και ευρέως χρησιμοποιούμενους είναι ο έλεγχος Χ καλής προσαρμογής (ch-square goodness-of-ft test τον οποίο παρουσιάζουμε στη συνέχεια. Ένας ακόμη πολύ γνωστός και ευρέως χρησιμοποιούμενος έλεγχος καλής προσαρμογής είναι ο έλεγχος Kolmogorov-Smrnov. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 474

Έλεγχος Χ Από πιθανοθεωρητική σκοπιά, όλες οι προηγούμενες περιπτώσεις μεταβλητών, ποιοτικές, όπως «είδος απογόνου» ή «προτίμηση ονόματος προϊόντος», διακριτές, όπως «αριθμός βακτηριδίων ανά cm μιας πλάκας Petr» και ποσοτικές των οποίων οι τιμές ταξινομούνται σε κλάσεις, όπως «συγκέντρωση υδραργύρου στο συκώτι δελφινιών» με τιμές που ταξινομούνται, για παράδειγμα, στις κλάσεις < 8, [ 8, 7, [ 7, 6 και 6, αντιμετωπίζονται με ενιαίο τρόπο ως μεταβλητές που περιγράφουν πολυωνυμικές δοκιμές με, αμοιβαίως αποκλειόμενα, δυνατά αποτελέσματα. Επίσης, προβλήματα όπως τα προηγούμενα, που αναφέρονται σε πειραματικά δεδομένα τα οποία ταξινομούνται σε ξένες μεταξύ τους κατηγορίες, r, r, K, r, είναι προφανώς προβλήματα ανεξάρτητων επαναλήψεων μιας πολυωνυμικής δοκιμής. Ας συμβολίσουμε με p,,, την πιθανότητα μια παρατήρηση κατά την εκτέλεση μιας πολυωνυμικής δοκιμής να ταξινομηθεί στην κατηγορία r. Αν οι πιθανότητες αυτές μας είναι γνωστές, τότε, όπως είδαμε στο Α Μέρος, η πιθανότητα, σε ν ανεξάρτητες πολυωνυμικές δοκιμές να εμφανισθούν ν αποτελέσματα r, ν αποτελέσματα r, και ν αποτελέσματα r, ή αλλιώς, η πιθανότητα τα αποτελέσματα r, r, K, r να εμφανισθούν με συχνότητες ν, ν, K, ν αντίστοιχα, μας είναι γνωστή και ίση με ν! ν ν ν p p K p. ν! ν! K ν! Θυμηθείτε ότι αν X (,, τυχαία μεταβλητή που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής που έχει δυνατά αποτελέσματα, τότε το μοντέλο πιθανοτήτων που ακολουθεί η τυχαία μεταβλητή X, X, K, X μας είναι γνωστό, ονομάζεται ( p πολυωνυμική κατανομή με παραμέτρους ν, p,, K, p και ισχύει ότι ν! ν ν P( X ν, X ν, X ν p p K p ν! ν! K ν! με ν ν και p. Ισχύει επίσης, ότι για κάθε αποτέλεσμα (ή κατηγορία r, η αναμενόμενη συχνότητα εμφάνισής του σε ν δοκιμές είναι E( X E νp. Επομένως, από τη σκοπιά της Θεωρίας Πιθανοτήτων, αν οι πιθανότητες p, p, K, p μας είναι γνωστές, τότε η πιθανότητα, σε ν ανεξάρτητες πολυωνυμικές δοκιμές να εμφανισθεί η κατανομή συχνοτήτων ( ν, ν, K, ν μας είναι γνωστή. ν ή δειγματοληπτικά και δημοσκοπικά δεδομένα. παρότι προκύπτουν προφανείς υπολογιστικές δυσκολίες Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 475

Έλεγχος Χ Από τη σκοπιά της Στατιστικής, όπου αφετηρία μας είναι το δείγμα, το αντίστοιχο ζητούμενο είναι ο έλεγχος των παραμέτρων p, p, K, p (μιας πολυωνυμικής κατανομής με βάση ένα δείγμα που έχουμε στη διάθεσή μας. Έστω λοιπόν ότι έχουμε στη διάθεσή μας ένα δείγμα ν παρατηρήσεων από τις οποίες ν ταξινομούνται στην κατηγορία r, ν στην κατηγορία r,, και ν στην κατηγορία r, ή αλλιώς, έστω ότι σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής, παρατηρήσαμε ότι τα αποτελέσματα r, r, K, r εμφανίσθηκαν με συχνότητες ν, ν, K, ν, αντίστοιχα. Τι μπορούμε άραγε να πούμε, με βάση αυτή την εμπειρική κατανομή συχνοτήτων, για τις πιθανότητες p, p, K, p εμφάνισης των αποτελεσμάτων r, r, K, r, αντίστοιχα. Προκύπτουν από κάποιο μοντέλο (κατανομή πιθανοτήτων που υποθέτουμε (και θέτουμε ως μηδενική υπόθεση ή μήπως ακολουθούν κάποιο άλλο μοντέλο; Το υποθετικό μοντέλο πιθανοτήτων (η κατανομή πιθανοτήτων που θέτουμε ως μηδενική υπόθεση και θέλουμε να ελέγξουμε αν συμφωνεί/προσαρμόζεται στα πειραματικά δεδομένα που έχουμε στη διάθεσή μας, μπορεί να είναι τελείως ορισμένο, δηλαδή μπορεί να μην υπάρχουν άγνωστες παράμετροι, όπως στο παράδειγμα προηγουμένως που αναφέρεται στο μοντέλο κληρονομικότητας του Mendel όπου p 9 6, p 6, 6 p, p 4 6, ή όπως στο παράδειγμα που αναφέρεται στην προτίμηση ονόματος νέου προϊόντος όπου p p p p4 p5 5, ή όπως στο παράδειγμα που αναφέρεται στον αριθμό βακτηριδίων (ανά cm μια πλάκας Petr όπου p e.5, p e. 76, p e. 76, κ.ο.κ.,!!! όμως, μπορεί να υπάρχουν κάποιες άγνωστες παράμετροι που πρέπει να εκτιμηθούν, όπως στο παράδειγμα με τη συγκέντρωση υδραργύρου στο συκώτι δελφινιών. Στο παράδειγμα αυτό, ως μηδενική υπόθεση θέτουμε ότι η συγκέντρωση υδραργύρου ακολουθεί μια κανονική κατανομή χωρίς όμως να προσδιορίζονται οι παράμετροι της, μ και σ. Είναι προφανές, ότι για να υπολογίσουμε, υπό τη μηδενική υπόθεση, τις πιθανότητες p, p, p, p4, δηλαδή, για να υπολογίσουμε τις πιθανότητες μια τιμή της συγκέντρωσης υδραργύρου να ανήκει αντίστοιχα στην κλάση < 8, [ 8, 7, [ 7, 6 και 6 υπό την προϋπόθεση ότι η συγκέντρωση υδραργύρου ακολουθεί κανονική κατανομή, πρέπει να γνωρίζουμε τις παραμέτρους της, μ και σ. Ας διακρίνουμε λοιπόν αυτές τις δύο περιπτώσεις. 4.. Δεν υπάρχουν άγνωστες παράμετροι Στην περίπτωση που δεν υπάρχουν άγνωστες παράμετροι, οι πιθανότητες p, p, K, p εμφάνισης των αποτελεσμάτων r, r, K, r αντίστοιχα, μπορούν να προσδιορισθούν. Έτσι, κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p p, p p,, p p έναντι της εναλλακτικής, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 476

Έλεγχος Χ : p p για ένα τουλάχιστον,,, όπου p, p, K, p είναι γνωστές πιθανότητες (γνωστοί αριθμοί, με p για κάθε,,, και p. Ως στατιστική συνάρτηση ελέγχου (ελεγχοσυνάρτηση χρησιμοποιείται η στατιστική συνάρτηση Χ (Pearson s ch-square test statstc που προτάθηκε από τον Κarl Pearson το 9, και ορίζεται από τον τύπο ( O E X E όπου, O, O, K, O είναι οι παρατηρηθείσες συχνότητες (observed frequences των αποτελεσμάτων r, r, K, r αντίστοιχα, και E, E, K, E είναι οι αντίστοιχες αναμενόμενες συχνότητες (expected frequences με βάση τη μηδενική υπόθεση, ή αλλιώς, υπό την προϋπόθεση ότι η μηδενική υπόθεση είναι αληθής, δηλαδή, E νp. Με την παραδοχή ότι η μηδενική υπόθεση είναι αληθής, αποδεικνύεται (δες και Παρατήρηση 4.. ότι η τυχαία μεταβλητή X, για μεγάλα ν ακολουθεί μια χ κατανομή με βαθμούς ελευθερίας, δηλαδή, για μεγάλα ν, κατά προσέγγιση έχουμε X ~ χ. Για να διασφαλίζεται ότι το μέγεθος του δείγματος ν (ο αριθμός επαναλήψεων είναι αρκετά μεγάλο ώστε η προσέγγιση αυτή να είναι ικανοποιητική, πρέπει όλες οι αναμενόμενες συχνότητες να είναι μεγαλύτερες ή ίσες του 5, δηλαδή, πρέπει E ν p 5, για κάθε,,. Ο κανόνας αυτός είναι αρκετά συντηρητικός/αυστηρός, με την έννοια ότι έχει προταθεί και ο εξής λιγότερο αυστηρός 4 : η προσέγγιση της X από την χ μπορεί να θεωρηθεί ικανοποιητική αν όλες οι αναμενόμενες συχνότητες είναι μεγαλύτερες του, δηλαδή, αν E ν p > για κάθε,,, και μικρότερες του 5 είναι το πολύ % από αυτές. Για τη συνέχεια, προκειμένου να υπάρχει μεγαλύτερη ασφάλεια στη χρήση αυτής της προσέγγισης, υιοθετούμε τον πρώτο κανόνα/περιορισμό, δηλαδή απαιτούμε E ν p 5 για κάθε. Παρατηρείστε ότι η ελεγχοσυνάρτηση X, ποσοτικοποιεί (με ορισμένο τρόπο τις αποκλίσεις (διαφορές μεταξύ παρατηρηθέντων και αναμενόμενων συχνοτήτων. Όταν οι αποκλίσεις αυτές (ή κάποιες από αυτές είναι μεγάλες, τότε και η X παίρνει μεγάλες τιμές. Έτσι, είναι λογικό, η μηδενική υπόθεση να απορρίπτεται για μεγάλες τιμές της X. Πράγματι, σύμφωνα με τον έλεγχο X καλής προσαρμογής, έχουμε: 4 Προτάθηκε από τον Cochran. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 477

Έλεγχος Χ Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p, p p,, p p απορρίπτεται έναντι της εναλλακτικής : p p για ένα τουλάχιστον,,, αν ( O E X χ ; α E και εφόσον E ν p 5, για κάθε,,. Η κρίσιμη τιμή, χ ; α, του ελέγχου, είναι το άνω α -ποσοστιαίο σημείο της χ κατανομής με βαθμούς ελευθερίας, δηλαδή, με τόσους βαθμούς ελευθερίας, όσες οι διαφορετικές κατηγορίες μειωμένες κατά. Αν δεν είναι όλες οι αναμενόμενες συχνότητες μεγαλύτερες ή ίσες του 5, δηλαδή, αν για κάποιο ή κάποια, είναι E ν p < 5, τότε κάνουμε κατάλληλη σύμπτυξη των κατηγοριών. Σημείωση 4..: Είναι προφανές ότι O ν. Δηλαδή, μια συγκεκριμένη πραγματοποίηση της τυχαίας μεταβλητής X (που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις, στο εξής θα τη συμβολίζουμε με O. Έτσι, τις παρατηρηθείσες συχνότητες, αντί με ν, ν, K, ν που τις συμβολίζαμε μέχρι τώρα, στο εξής (για να αντιδιαστέλλονται καλύτερα από τις αναμενόμενες, θα τις συμβολίζουμε με O, O, K, O. Στην ελληνική βιβλιογραφία, πολύ συχνά οι παρατηρηθείσες συχνότητες συμβολίζονται με π και οι αναμενόμενες με θ, όμως προτιμήσαμε τον επικρατέστερο διεθνή συμβολισμό που είναι O και E, αντίστοιχα. Επίσης, διευκρινίζουμε ότι λέγοντας τυχαία μεταβλητή μεταβλητή ( X νp X. νp Η ποσότητα ( O E E συνηθίζεται, βέβαια, να συμβολίζεται επίσης με αλλά συγκεκριμένη πραγματοποίηση της X νp ( νp X, εννοούμε την τυχαία X, όμως δεν είναι τυχαία μεταβλητή Ας δούμε τώρα πάλι το πρώτο εισαγωγικό παράδειγμα. Παράδειγμα 4.: Σύμφωνα με ένα μοντέλο κληρονομικότητας, οι τρεις τύποι απογόνων, Α, Β και Γ, που προκύπτουν από διασταύρωση ορισμένου είδους πειραματόζωων, πρέπει να βρίσκονται σε αναλογία 9::4, αντίστοιχα. Σε ένα σχετικό πείραμα, από 64 απογόνους που προέκυψαν, 4 βρέθηκαν να είναι τύπου A, τύπου. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 478

Έλεγχος Χ B, τα τύπου Γ. Σε επίπεδο σημαντικότητας %, αυτά τα πειραματικά δεδομένα δίνουν άραγε σημαντικές αποδείξεις εναντίον του μοντέλου κληρονομικότητας; Απάντηση: Όπως εξηγήσαμε στα προηγούμενα, αν p η πιθανότητα ο απόγονος να είναι τύπου Α, p η πιθανότητα να είναι «τύπος Β» και p να είναι «τύπος Γ» πρέπει, με βάση τα συγκεκριμένα πειραματικά δεδομένα, να ελέγξουμε σε επίπεδο σημαντικότητας α., τη μηδενική υπόθεση, : p 9 6 και p 6 και p 4 6 έναντι της εναλλακτικής, : p 9 6 ή p 6 ή p 4 6. Στον πίνακα που ακολουθεί, φαίνεται για κάθε τύπο απογόνου η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές σε 64 επαναλήψεις, εμφανίσθηκε καθένας από τους τρεις τύπους, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E 64 p,,, δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 64 επαναλήψεις καθένας από του τρεις τύπους απογόνων αν θεωρήσουμε ότι η είναι αληθής. E Τύπος απογόνου Α Β Γ Σύνολα O 4 64 p 9/6 /6 4/6. p 6 6 64 64 Επειδή για καθένα από τα τρία δυνατά αποτελέσματα, δηλαδή, για κάθε,, είναι E 64 p 5, μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε ( O E (4 6 ( ( 6 X + +. 44. E 6 6 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα ( O E ( O E X > χ ;. ή X > 9. E E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή η τιμή.44 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ ;. 9. (που παίρνουμε από τον πίνακα της χ κατανομής για βαθμούς ελευθερίας και α., η μηδενική υπόθεση, σε επίπεδο σημαντικότητας. δεν απορρίπτεται και επομένως τα (συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας., δε δίνουν στατιστικά σημαντικές αποδείξεις εναντίον του μοντέλου κληρονομικότητας. Ας δούμε ένα ακόμη παράδειγμα. Παράδειγμα 4.: Ένα νέο φάρμακο για την αντιμετώπιση της υπέρτασης δίνεται πειραματικά σε άτομα που πάσχουν από υπέρταση. Το αποτέλεσμα της φαρμακευτικής αγωγής για κάθε ασθενή ταξινομείται σε μια από τέσσερις κατηγορίες: Α: Βαθμιαία μείωση Β: Μέτρια μείωση Γ: Μικρή μείωση Δ: Μικρή αύξηση. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 479

Έλεγχος Χ Οι συχνότητες των τεσσάρων κατηγοριών αποτελεσμάτων που παρατηρήθηκαν στα άτομα φαίνονται στον πίνακα που ακολουθεί. Παρατηρηθείσα Συχνότητα Αποτέλεσμα Α Β Γ Δ 5 Από σχετικές μελέτες είναι γνωστό ότι ένα αντίστοιχο φάρμακο που ήδη κυκλοφορεί και χρησιμοποιείται, δίνει τα εξής (ανά κατηγορία αποτελέσματα: Α:5%, Β:%, Γ:9% και Δ:%. Σε επίπεδο σημαντικότητας.5, δίνουν αυτά τα πειραματικά δεδομένα στατιστικά σημαντικές αποδείξεις ότι το νέο φάρμακο διαφέρει ως προς την αποτελεσματικότητά του από το φάρμακο που ήδη κυκλοφορεί; Απάντηση: Για κάθε ασθενή, το αποτέλεσμα της θεραπευτικής αγωγής ταξινομείται σε (ακριβώς μια από τις τέσσερις κατηγορίες Α, Β, Γ, Δ. Πρόκειται επομένως για ένα πείραμα ν ανεξάρτητων πολυωνυμικών δοκιμών με 4 δυνατά αποτελέσματα η καθεμία. Έστω p η πιθανότητα το αποτέλεσμα να είναι Α, p να είναι Β, p να είναι Γ και p 4 να είναι Δ. Με βάση τα (συγκεκριμένα πειραματικά δεδομένα, θα ελέγξουμε σε επίπεδο σημαντικότητας α. 5, τη μηδενική υπόθεση, : p.5 και p. και p. 9 και p. 4 έναντι της εναλλακτικής : p.5 ή p. ή 9 p. ή p. 4. Στον πίνακα που ακολουθεί φαίνεται για κάθε κατηγορία αποτελεσμάτων η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές στις επαναλήψεις, εμφανίσθηκε κάθε μια από τις τέσσερις κατηγορίες, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E p,,,,4 δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε επαναλήψεις κάθε μια από τις τέσσερις κατηγορίες αποτελεσμάτων αν θεωρήσουμε ότι η είναι αληθής. E Αποτέλεσμα της φαρμακευτικής αγωγής Σύνολα Α Β Γ Δ O 5 p.5..9.. p 6 8 Επειδή E 4. < 5, συμπτύσσουμε την κατηγορία «Δ» με την κατηγορία «Γ» σε μια, στην κατηγορία «Γ ή Δ» με O + και E 8 + 4. Αποτέλεσμα της φαρμακευτικής αγωγής Σύνολα Α Β Γ ή Δ O 5 E p 6 4 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 48

Έλεγχος Χ Επειδή πλέον για κάθε κατηγορία,, είναι E 5, μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε 4 ( O E ( ( 5 6 ( 4 X + + 8.7. E 6 4 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 4 ( O E X > χ ;.5 5.99 E και επειδή 8.7 > 5. 99, δηλαδή, επειδή η τιμή της στατιστικής συνάρτησης ελέγχου ανήκει στην απορριπτική περιοχή, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 απορρίπτεται. Επομένως, τα συγκεκριμένα πειραματικά δεδομένα, δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φαρμάκου διαφέρει από την αποτελεσματικότητα του φαρμάκου που ήδη κυκλοφορεί. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Επισήμανση: Οι βαθμοί ελευθερίας της κρίσιμης τιμής, χ, είναι γιατί ;.5 μετά τη σύμπτυξη οι κατηγορίες πλέον είναι και όχι 4 που ήταν πριν τη σύμπτυξη. Παρατήρηση 4..: Εύκολα αποδεικνύεται ότι ( O E O X ν. E E Πράγματι, ( + + O E O O E E O X O E E E E O O ν + ν ν. E E Έτσι, για τα δεδομένα του Παραδείγματος 4. έχουμε O 4 X ν + + 64.44. E 6 6 Αρκετά συχνά, αυτή η έκφραση προτιμάται ως πιο εύχρηστη. Παράδειγμα 4.: (Συνέχεια του Σχολίου 5... Από τα αρχεία της Επιθεώρησης Εργασίας καταγράφηκε ο αριθμός εργατικών ατυχημάτων που συνέβησαν ανά ημέρα σε μια (συγκεκριμένη βιομηχανική ζώνη τα έξι περίπου τελευταία χρόνια (5 εργάσιμες ημέρες. Τα αποτελέσματα αυτής της καταγραφής φαίνονται στον πίνακα που ακολουθεί. Αριθμός ατυχημάτων σε μια ημέρα 4 5 Παρατηρηθείσα συχνότητα 549 555 7 9 4 6 5 Έστω Υ η τυχαία μεταβλητή που εκφράζει τον αριθμό εργατικών ατυχημάτων που συμβαίνουν σε μια ημέρα στη συγκεκριμένη βιομηχανική ζώνη. Στο Σχόλιο 5.., είχαμε ισχυρισθεί ότι οι πιθανότητες που προκύπτουν για της τιμές της Υ από τα παραπάνω δεδομένα, περιγράφονται πολύ ικανοποιητικά από την κατανομή Posson με λ. Ας δούμε τώρα πώς μπορούμε να ελέγξουμε αυτόν τον ισχυρισμό. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 48

Έλεγχος Χ Θα κάνουμε, σε επίπεδο σημαντικότητας α. 5 τον έλεγχο της μηδενικής υπόθεσης : Η τυχαία μεταβλητή Υ ακολουθεί την κατανομή Posson με λ έναντι της εναλλακτικής, : Η τυχαία μεταβλητή Υ δεν ακολουθεί την κατανομή Posson με λ. Παρότι η Υ είναι ποσοτική/διακριτή και όχι ποιοτική/κατηγορίας, εντούτοις μπορούμε να εφαρμόσουμε έλεγχο X καλής προσαρμογής αν δούμε τις τιμές της ως διαφορετικές «κατηγορίες». Πράγματι, για κάθε τιμή της Υ που εμφανίσθηκε στις 5 επαναλήψεις, γνωρίζουμε την παρατηρηθείσα συχνότητά της, O, δηλαδή, γνωρίζουμε πόσες φορές εμφανίσθηκε και επίσης, μπορούμε να υπολογίσουμε τις αντίστοιχες αναμενόμενες συχνότητες E 5 p,,,,4,5,6 δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 5 επαναλήψεις κάθε μια από τις τιμές,,,, 4 και 5 της Υ, αν θεωρήσουμε ότι η Υ ακολουθεί την κατανομή Posson με λ. Έτσι, αν θεωρήσουμε ότι η Υ ακολουθεί την κατανομή Posson με λ, έχουμε p P( Y e.679, p P( Y e. 679!! p P( Y e.89, p 4 P( Y e. 6!! 4 5 p 5 P( Y 4 e.5, p 6 P( Y 5 e.. 4! 5! Στον πίνακα που ακολουθεί φαίνεται για κάθε τιμή της Υ η παρατηρηθείσα συχνότητα O (που καταγράφηκε από τα αρχεία και η αναμενόμενη συχνότητα E (που υπολογίσαμε με την υπόθεση ότι η είναι αληθής. Επίσης, στον πίνακα φαίνεται και μια έβδομη «κατηγορία» που δημιουργήσαμε, η οποία περιλαμβάνει τις μεγαλύτερες του 5 τιμές της Υ. Η κατηγορία αυτή έχει παρατηρηθείσα συχνότητα O 7 (αφού στις 5 επαναλήψεις δεν εμφανίσθηκε τιμή της Υ μεγαλύτερη του 5 και p P( Y > 5 P( Y 5. 6. 7 E 4 5 > 5 Σύνολα O 549 555 7 9 4 6 5 p.679.679.89.6.5..6. 5 p 55.85 55.85 75.85 9.95.95 4.65.9 5 Επειδή για την τιμή 5 και για τις τιμές που είναι μεγαλύτερες του 5, η αναμενόμενη συχνότητα αντίστοιχα είναι E 4.65 5 και E.9 5, συμπτύσσουμε τις 6 < 7 < αντίστοιχες «κατηγορίες» σε μία με O 6 + 6 και E 4.65 +.9 5. 55. 6 6 4 5 Σύνολα O 549 555 7 9 4 6 5 E 5 p 55.85 55.85 75.85 9.95.95 5.55 5 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 48

Έλεγχος Χ Επειδή πλέον για κάθε κατηγορία,,, 4,5, 6 είναι E 5 μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε X 6 ( O E ( 549 55.85 ( 555 55.85 ( 6 5.55 E 55.85 + 55.85 + K+ 5.55.6. Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 6 ( O E X > χ 6 ;.5.7 E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή επειδή η τιμή.6 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ 5 ;.5. 7 (που παίρνουμε από τον πίνακα της χ κατανομής για 6 5 βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 δεν απορρίπτεται και επομένως τα (συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας.5, δε δίνουν στατιστικά σημαντικές αποδείξεις ότι πρέπει να απορριφθεί η ιδέα ότι η τυχαία μεταβλητή Υ ακολουθεί την κατανομή Posson με λ, ή αλλιώς, σε επίπεδο σημαντικότητας.5, δεν απορρίπτεται η ιδέα ότι η κατανομή Posson με λ προσαρμόζεται στα συγκεκριμένα δεδομένα. 4.. Υπάρχουν άγνωστες παράμετροι Στα προηγούμενα θεωρήσαμε ότι οι πιθανότητες υπό τη μηδενική υπόθεση (δηλαδή, οι p,,,, είναι όλες γνωστές (δίνονται ή υπολογίζονται, και έτσι μπορούμε να υπολογίσουμε τις αναμενόμενες (υπό τη μηδενική υπόθεση συχνότητες E νp. Μπορεί όμως, για την υποθετική θεωρητική κατανομή που ελέγχουμε, κάποιες παράμετροι να μας είναι άγνωστες. Δηλαδή, για παράδειγμα, μπορεί να ελέγχουμε την υπόθεση ότι τα δεδομένα προέρχονται από κάποια κατανομή Posson με παράμετρο λ άγνωστη ή ότι προέρχονται από κάποια κανονική κατανομή με τις παραμέτρους μ και σ άγνωστες (ή με μία από τις δύο άγνωστες. Στην περίπτωση αυτή, πρώτα εκτιμάμε τις άγνωστες παραμέτρους από το δείγμα και στη συνέχεια εκτιμάμε τις p,,,, με τις p ˆ που υπολογίζουμε χρησιμοποιώντας τις εκτιμήσεις των παραμέτρων. Έτσι, για κάθε,,, μπορούμε να εκτιμήσουμε την αναμενόμενη συχνότητα με την E νpˆ. Εύλογα, ως στατιστική συνάρτηση ελέγχου χρησιμοποιούμε πλέον την 4 ( O ˆ E X. ˆ E Αποδεικνύεται ότι η τυχαία μεταβλητή X, για μεγάλα ν, ακολουθεί μια χ κατανομή με m βαθμούς ελευθερίας, δηλαδή, για μεγάλα ν, κατά προσέγγιση έχουμε X ~ χ m, όπου m, o αριθμός των εκτιμώμενων παραμέτρων. Η προσέγγιση αυτή είναι ικανοποιητική αν Eˆ ν pˆ 5, για κάθε,,. Έτσι: Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 48

Έλεγχος Χ Σε επίπεδο σημαντικότητας α, η απορριπτική περιοχή της μηδενικής υπόθεσης τώρα ορίζεται από την ανισότητα ( O ˆ E X χ m; α ˆ E και εφόσον, Eˆ ν pˆ 5, για κάθε,,. Αν παραβιάζεται αυτός ο περιορισμός, δηλαδή αν τουλάχιστον μία από τις αναμενόμενες συχνότητες έχει τιμή μικρότερη του 5, τότε κάνουμε όπως και στα προηγούμενα, κατάλληλη σύμπτυξη των αρχικών κατηγοριών. Ας δούμε όμως με ένα παράδειγμα, πώς εφαρμόζονται όλα αυτά. Έτσι θα αποσαφηνισθούν και θα διευκρινισθούν καλύτερα. Παράδειγμα 4.4: Στη στατιστική συμπερασματολογία, όπως ήδη διαπιστώσαμε όταν μιλήσαμε για την κατασκευή διαστημάτων εμπιστοσύνης και για τους στατιστικούς ελέγχους υποθέσεων, μας ενδιαφέρει να μπορούμε να αποφασίσουμε αν ένα δείγμα προέρχεται από κανονικό πληθυσμό. Ας δούμε πώς μπορούμε να εφαρμόσουμε τον έλεγχο X καλής προσαρμογής για το σκοπό αυτό. Θα χρησιμοποιήσουμε τα δεδομένα του Προβλήματος 9.8 (από την Περιγραφική Στατιστική. Δίνεται ένα τυχαίο δείγμα 8 μετρήσεων της συγκέντρωσης υδραργύρου στο συκώτι αρσενικών δελφινιών (σε mcrogr/gr..7 68 48 5 78 97.7 85.4 8 485 9 86 9 8.8 8 8 6 5 4 5.9 8 64 46 445 4 8 Μπορούμε άραγε να ισχυρισθούμε ότι το δείγμα αυτό προέρχεται από κάποια κανονική κατανομή; Απάντηση: Έστω Υ τυχαία μεταβλητή που εκφράζει τη συγκέντρωση υδραργύρου στο συκώτι αρσενικών δελφινιών. Παρότι η Υ είναι ποσοτική και όχι ποιοτική/κατηγορίας μεταβλητή, εντούτοις μπορούμε να εφαρμόσουμε έλεγχο X καλής προσαρμογής αν ταξινομήσουμε τις τιμές της σε έναν αριθμό κλάσεων που ορίζουμε. Στον πίνακα που ακολουθεί φαίνονται 6 κλάσεις πλάτους 9mcrogr/gr η κάθε μια (εκτός από την πρώτη και την τελευταία που εκτείνονται έως το στις οποίες έχουν ταξινομηθεί οι 8 τιμές της Υ. Επίσης φαίνεται η παρατηρηθείσα συχνότητα O κάθε κλάσης, δηλαδή πόσες τιμές ταξινομήθηκαν σε κάθε κλάση. x (, 9 [ 9, 8 [ 8, 7 [ 7, 6 [ 6, 45 [ 45, + Σύνολο O 5 8 7 8 Θα κάνουμε, σε επίπεδο σημαντικότητας α. 5, τον έλεγχο της μηδενικής υπόθεσης : Η τυχαία μεταβλητή Υ ακολουθεί μια κανονική κατανομή έναντι της εναλλακτικής, : Η τυχαία μεταβλητή Υ δεν ακολουθεί κάποια κανονική κατανομή. Για να υπολογίσουμε για κάθε κλάση τιμών,,,4,5, 6, την αναμενόμενη συχνότητα E 8 p, πρέπει, για κάθε κλάση, να υπολογίσουμε την αντίστοιχη Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 484

Έλεγχος Χ πιθανότητα να πάρει η Υ τιμή στην κλάση, με την υπόθεση ότι η είναι αληθής, δηλαδή με την υπόθεση ότι Y ~ N( μ, σ. Όμως, δε γνωρίζουμε τις τιμές των παραμέτρων μ και σ γι αυτό θα τις εκτιμήσουμε από το δείγμα. Από τα δεδομένα του δείγματος, εύκολα βρίσκουμε ότι y 6. 7 mcrogr/gr και s 4.6mcrogr/gr. Έτσι, υποθέτοντας ότι Y ~ N(6.7, 4.6, μπορούμε πλέον να εκτιμήσουμε τις πιθανότητες p. Πράγματι έχουμε Y 6.7 9 6.7 p P( Y < 9 P( < P( Z <.4 Φ(.4.49 4.6 4.6 9 6.7 6.7 8 6.7 p P(9 Y < 8 P( Y < K.954 4.6 4.6 4.6 8 6.7 6.7 7 6.7 p P(8 Y < 7 P( Y < K.5 4.6 4.6 4.6 7 6.7 6.7 6 6.7 p 4 P(7 Y < 6 P( Y < K. 4.6 4.6 4.6 6 6.7 6.7 45 6.7 p 5 P(6 Y < 45 P( Y < K.67 4.6 4.6 4.6 p6 P( Y 45 P( y < 45 ( p + p + p + p4 + p5.945.655. Στον πίνακα που ακολουθεί για κάθε κλάση φαίνονται η παρατηρηθείσα συχνότητα O και η αντίστοιχη εκτιμώμενη αναμενόμενη συχνότητα E 8 ˆ p. E y (, 9 [ 9, 8 [ 8, 7 [ 7, 6 [ 6, 45 [ 45, + Σύνολα O 5 8 7 8 p.49.954.5..67.655. 8 pˆ 4.776 5.47 7.56 5.964.5476.84 8 Επειδή για την κλάση (, 9 η (εκτιμώμενη αναμενόμενη συχνότητα είναι E ˆ 4.776 < 5, τη συμπτύσσουμε με τη γειτονική της [ 9, 8 σε μία, την (, 8, με O 5 + 8 και E ˆ 4.776 + 5.47 9. 6488. Επίσης, επειδή για την κλάση [ 6, 45 και την κλάση [ 45, + η (εκτιμώμενη αναμενόμενη συχνότητα αντίστοιχα είναι E ˆ 5.546 < 5 και E ˆ 6.84 < 5, τις συμπτύσσουμε επίσης σε μία, την [ 6, +, με O + 5 και E ˆ.546 +.84 5. 86. 4 4 y (,8 [ 8, 7 [ 7, 6 [ 6, + Σύνολα O 8 8 7 5 8 E 9.6488 7.56 5.964 5.86 8 Επειδή πλέον για κάθε κατηγορία,,, 4 είναι E ˆ 5 μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 485

Έλεγχος Χ X 4 ( O ˆ E Eˆ ( 8 9.6488 ( 8 7.56 ( 7 5.964 ( 5 5.86 9.6488 + 7.56 + 5.964 + 5.86.699. Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 4 ( ˆ O E X > χ 4 ;.5. 84 ˆ E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή επειδή η τιμή.699 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ ;.5. 84 (που παίρνουμε από τον πίνακα της χ κατανομής για m 4 βαθμό ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 δεν απορρίπτεται και επομένως τα (συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας.5, δε δίνουν στατιστικά σημαντικές αποδείξεις ότι πρέπει να απορριφθεί η ιδέα ότι Y ~ N(6.7, 4.6, ή αλλιώς, σε επίπεδο σημαντικότητας.5, δεν απορρίπτεται η ιδέα ότι η N (6.7, 4.6 προσαρμόζεται στα δεδομένα. Σημείωση 4..: Παρότι, όπως ήδη διαπιστώσαμε, ο έλεγχος X καλής προσαρμογής εφαρμόζεται και για συνεχείς τυχαίες μεταβλητές, εντούτοις, στην περίπτωση συνεχών μεταβλητών συνήθως προτιμάται ο έλεγχος Kolmogorov-Smrnov. Αυτό συμβαίνει γιατί για να εφαρμοσθεί ο έλεγχος X σε συνεχείς μεταβλητές, απαιτείται όπως είδαμε η ομαδοποίηση των δεδομένων με συνέπεια να χάνεται πληροφορία, ενώ στον έλεγχο Kolmogorov-Smrnov στη σύγκριση συμμετέχουν αυτά καθαυτά τα δεδομένα και όχι κλάσεις στις οποίες κατανέμονται. Επίσης, όταν το δείγμα είναι μικρό, ο έλεγχος X ενδεχομένως και να μην μπορεί να εφαρμοσθεί, ενώ ο έλεγχος Kolmogorov-Smrnov σε αυτές τις περιπτώσεις είναι πιο ισχυρός έλεγχος. Παρατήρηση 4..: Ας δούμε πώς μπορούμε, για, να αποδείξουμε ότι για μεγάλα ν, κατά προσέγγιση ( X νp X ~ χ. νp Θα διαπιστώσουμε ότι πρόκειται για μια απλή απόδειξη 5. Υπενθυμίζουμε ότι με X έχουμε συμβολίσει την τυχαία μεταβλητή που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής με δυνατά αποτελέσματα 6 και με p την πιθανότητα το αποτέλεσμα σε μια δοκιμή να είναι r,,,. Αν, τα δυνατά αποτελέσματα σε κάθε δοκιμή είναι δύο (πρόκειται για δοκιμές Bernoull. Έτσι, X + X ν και επομένως X ν X. Επίσης, p p. Έτσι, έχουμε 5 Για > δε θα κάνουμε την απόδειξη. Σκοπός μας είναι, από την απόδειξη αυτή να πάρουμε μόνο μια «γεύση» ώστε να μη φαντάζουν... «βουνό» οι αποδείξεις θεωρητικών αποτελεσμάτων! 6 Μια συγκεκριμένη πραγματοποίηση της τυχαίας μεταβλητής X, τη συμβολίζουμε με O. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 486

Έλεγχος Χ X ( X νp νp ( X νp νp ( X + νp νp ( X ( X νp νp νp [ ν X ν ( p] + ν ( p ( p + ( X νp ( p + νp ( X νp X νp. νp( p ( νp p Επειδή προφανώς, X ~ B( ν, p, από το οριακό θεώρημα De Movre-Laplace για μεγάλα ν, κατά προσέγγιση, έχουμε X νp ~ N(,. νp( p Δείξαμε δηλαδή, ότι για μεγάλα ν, κατά προσέγγιση είναι X p X ν Z p( p ν και επομένως, X Z ~ χ. (Θυμηθείτε ότι η χι-τετράγωνο κατανομή με n βαθμούς ελευθερίας ορίζεται ως άθροισμα τετραγώνων n ανεξάρτητων τυποποιημένων κανονικών κατανομών, δηλαδή, αν Z ~ N(,,,, n τότε Z + Z +K χ. Z n ~ n Παρατήρηση 4..: Στην περίπτωση που το πείραμα που μελετάμε αποτελείται από ν ανεξάρτητες πολυωνυμικές δοκιμές με δυνατά αποτελέσματα η κάθε μια, τότε ο έλεγχος της μηδενικής υπόθεσης : p p και p p έναντι της εναλλακτικής : p p ή p p είναι προφανώς ένας έλεγχος διωνυμικού ποσοστού : p p : p p που γνωρίσαμε στην Ενότητα. Έτσι, αν λάβουμε υπόψη και την απόδειξη που δώσαμε στην Παρατήρηση 4.. (όπου δείξαμε ότι για μεγάλα ν, κατά προσέγγιση είναι X Z είναι λογικό να περιμένουμε ότι στην περίπτωση που είναι, ο έλεγχος X καλής προσαρμογής είναι ισοδύναμος με τον Ζ έλεγχο για διωνυμικό ποσοστό, δηλαδή περιμένουμε οι δύο αυτοί έλεγχοι να δίνουν ίδια αποτελέσματα. Πράγματι έτσι είναι. Ας δούμε ένα σχετικό παράδειγμα. Παράδειγμα 4.5: Η αποτελεσματικότητα του φυτοφαρμάκου που χρησιμοποιεί ένας αγρότης για την αντιμετώπιση κάποιας συγκεκριμένης ασθένειας είναι γνωστό ότι είναι 6%, δηλαδή το 6% των άρρωστων φυτών στα οποία χορηγείται το εν λόγω φάρμακο θεραπεύονται. Για να ελέγξει την αποτελεσματικότητα ενός νέου φαρμάκου που καταπολεμά την ίδια ασθένεια, ο αγρότης χορήγησε αυτό το νέο φάρμακο σε 5 άρρωστα φυτά και από αυτά θεραπεύθηκαν τα. Σε επίπεδο σημαντικότητας 5%, p Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 487

Έλεγχος Χ υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι η αποτελεσματικότητα του νέου φαρμάκου είναι διαφορετική (από αυτήν του φαρμάκου που χρησιμοποιεί; Απάντηση: Για κάθε άρρωστο φυτό, το αποτέλεσμα της φαρμακευτικής αγωγής ταξινομείται σε (ακριβώς μια από δύο κατηγορίες: θεραπεύθηκε, δε θεραπεύθηκε. Πρόκειται επομένως για ένα πείραμα ν 5 ανεξάρτητων πολυωνυμικών δοκιμών με δυνατά αποτελέσματα η καθεμία, συνεπώς πρόκειται για ένα πείραμα ν 5 ανεξάρτητων δοκιμών Bernoull και το πρόβλημα που τίθεται είναι πρόβλημα ελέγχου ενός διωνυμικού ποσοστού, του ποσοστού των άρρωστων φυτών που θεραπεύονται με το νέο φάρμακο. Θα κάνουμε το ζητούμενο έλεγχο με δύο τρόπους ος τρόπος: Έστω p το ποσοστό των άρρωστων φυτών που θεραπεύονται με το νέο φάρμακο, ή αλλιώς, έστω p η πιθανότητα ένα άρρωστο φυτό να θεραπευθεί με το νέο φάρμακο. Σε επίπεδο σημαντικότητας α. 5, πρέπει να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p.6 έναντι της εναλλακτικής : p.6. Επειδή 5.6 9 > 5 και 5 (.6 6 > 5, μπορούμε να εφαρμόσουμε Ζ έλεγχο με απορριπτική περιοχή pˆ.6 5 z z.5.96.6(.6 όπου, p ˆ. 8 το δειγματικό ποσοστό, δηλαδή, το ποσοστό των άρρωστων 5 φυτών που θεραπεύθηκαν με το νέο φάρμακο στο δείγμα των 5 άρρωστων φυτών. Έτσι, επειδή.8.6 5 z 5.96.6(.6 η μηδενική υπόθεση σε επίπεδο σημαντικότητας.5 απορρίπτεται και επομένως τα πειραματικά δεδομένα δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φάρμακου δεν είναι 6%. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. ος τρόπος: Έστω p η πιθανότητα για ένα άρρωστο φυτό το αποτέλεσμα της φαρμακευτικής αγωγής να ταξινομηθεί στην κατηγορία «θεραπεύθηκε» και p η πιθανότητα το αποτέλεσμα να ταξινομηθεί στην κατηγορία «δε θεραπεύθηκε». Με βάση τα (συγκεκριμένα πειραματικά δεδομένα, θα ελέγξουμε σε επίπεδο σημαντικότητας α. 5, τη μηδενική υπόθεση, : p.6 και p. 4 έναντι της εναλλακτικής : p. 6 ή p. 4 ή ισοδύναμα (σκεφθείτε γιατί, τη μηδενική υπόθεση, : p.6 έναντι της εναλλακτικής Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 488

Έλεγχος Χ : p. 6. Στον πίνακα που ακολουθεί φαίνεται για κάθε κατηγορία αποτελεσμάτων η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές σε 5 επαναλήψεις, εμφανίσθηκε κάθε μια από τις δύο κατηγορίες, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E 5 p,, δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 5 επαναλήψεις κάθε μια από τις δύο κατηγορίες αποτελεσμάτων αν θεωρήσουμε ότι η είναι αληθής. E Αποτέλεσμα Σύνολα Θεραπεύθηκε Δε Θεραπεύθηκε O 5 p.6.4. 5 p 9 6 5 Επειδή για κάθε κατηγορία, είναι E 5, μπορούμε να κάνουμε έλεγχο καλής προσαρμογής. Έτσι, έχουμε X ( O E ( 9 ( 6 X + 5. E 9 6 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα ( O E X > χ ;.5.84 E και επειδή 5 >. 84, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 απορρίπτεται. Επομένως, τα συγκεκριμένα πειραματικά δεδομένα, δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φαρμάκου δεν είναι 6%. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Πράγματι λοιπόν, το συμπέρασμα και με τους δύο ελέγχους είναι το ίδιο. Παρατηρείστε τις τιμές της στατιστικής συνάρτησης ελέγχου στις δύο περιπτώσεις. Είναι z 5 και X 5 αντίστοιχα, δηλαδή πράγματι z 5 5 X. Παρατηρείστε επίσης, ότι για τις κρίσιμες τιμές των δύο ελέγχων είναι ( z.5.96. 84 χ;.5. Ερώτηση: Έστω ότι το ερώτημα στο προηγούμενο πρόβλημα είναι «σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι η αποτελεσματικότητα του νέου φαρμάκου δεν είναι 6% αλλά μεγαλύτερη;». Τι έλεγχο πρέπει τώρα να κάνουμε; Σημείωση 4..: Επειδή ο έλεγχος X βασίζεται όπως είδαμε στην προσέγγιση της X που είναι διακριτή 7 από μια συνεχή κατανομή που είναι η χ, προτείνεται, στην 7 Αν προβληματίζεσθε γιατί η X είναι διακριτή, σκεφθείτε το εξής απλό: στο παράδειγμα 4.5 η τιμή της X βρέθηκε 5. Αν θεωρήσουμε ότι αντί για θεραπεύθηκαν και αντίστοιχα δε θεραπεύθηκαν 9 (αντί, τότε η τιμή της X γίνεται 6.694. Επομένως, είναι προφανές ότι δε μπορεί η X να πάρει κάποια ενδιάμεση τιμή, δηλαδή κάποια τιμή μεταξύ 5 και 6.694. Είναι, δηλαδή, ασυνεχής. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 489

Έλεγχος Χ περίπτωση που οι βαθμοί ελευθερίας είναι μόνο ένας (όπως στο Παράδειγμα 4.5, να γίνεται «διόρθωση συνέχειας» ώστε να βελτιώνεται η προσέγγιση και να διασφαλίζεται ότι ο έλεγχος γίνεται πράγματι σε επίπεδο σημαντικότητας α και όχι σε μεγαλύτερο. Συγκεκριμένα, στην περίπτωση που οι βαθμοί ελευθερίας είναι μόνο ένας, προτείνεται ως στατιστική συνάρτηση ελέγχου να χρησιμοποιείται η ( O E. 5 X, όπου X c. E Η διόρθωση αυτή είναι γνωστή στη βιβλιογραφία ως διόρθωση συνέχειας του Yates (Yates correcton for contnuty. Βέβαια, παρότι χρησιμοποιείται ευρέως, έχει δεχθεί κριτική ότι κάνει τον έλεγχο (υπερσυντηρητικό, δηλαδή, ότι αυξάνει αρκετά την πιθανότητα σφάλματος τύπου ΙΙ. Βέβαια, αν το ν είναι πολύ μεγάλο οι επιπτώσεις της ασυνέχειας (ακόμη και για ένα βαθμό ελευθερίας είναι μικρές και η αλλαγή στην τιμή της X λόγω της διόρθωσης είναι επίσης μικρή. 4. Έλεγχος Χ ανεξαρτησίας (ch-square test of ndependence Πολύ συχνά, σε πειραματικές ή δειγματοληπτικές έρευνες, μια πειραματική/ δειγματοληπτική μονάδα ταξινομείται όχι μόνο ως προς ένα χαρακτηριστικό αλλά και ως προς ένα δεύτερο. Έτσι, προκύπτουν διδιάστατα δεδομένα (bvarate data τα οποία παρουσιάζονται σε διδιάστατους πίνακες συχνοτήτων που ονομάζονται πίνακες συνάφειας. Για παράδειγμα, για κάθε άτομο που συμμετέχει σε μια έρευνα για την πρόληψη της γρίπης, καταγράφουμε αν αρρώστησε ή όχι από γρίπη καθώς και τον αριθμό δόσεων αντιγριπικού εμβολίου που είχε κάνει. Έτσι, για κάθε άτομο τα δυνατά αποτελέσματα είναι τα έξι ζεύγη τιμών (αρρώστησε,, (αρρώστησε,, (αρρώστησε,, (δεν αρρώστησε,, (δεν αρρώστησε,, (δεν αρρώστησε, όπου, η πρώτη τιμή αντιστοιχεί στη δίτιμη ποιοτική μεταβλητή «ανθεκτικότητα στον ιό της γρίπης» με τιμές αρρώστησε, δεν αρρώστησε, και η δεύτερη στη διακριτή ποσοτική μεταβλητή «αριθμός δόσεων εμβολίου» με τιμές,,. Έτσι, κάθε πειραματική μονάδα ταξινομείται σε (ακριβώς μία από 6 διαφορετικές κατηγορίες 8. Στον πίνακα που ακολουθεί φαίνεται πώς ταξινομήθηκαν στις 6 αυτές κατηγορίες άτομα που συμμετείχαν σε μια τέτοια έρευνα. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε 89 565 Παρατηρείστε ότι από τα άτομα, 4 αρρώστησαν και δεν είχαν κάνει εμβόλιο και έτσι ταξινομήθηκαν στην κατηγορία (αρρώστησε,, ή αλλιώς, η συχνότητα της κατηγορίας (αρρώστησε, είναι 4. Ομοίως, η συχνότητα της κατηγορίας (αρρώστησε, είναι 9, της κατηγορίας (αρρώστησε, είναι κ.ο.κ. Γενικά, έστω ν πειραματικές μονάδες κάθε μια από τις οποίες ταξινομείται ως προς δύο χαρακτηριστικά (τυχαίες μεταβλητές Α και Β, από τα οποία, το Α μπορεί να πάρει r διαφορετικές τιμές (κατηγορίες, A, A, K, Ar, και το Β μπορεί να πάρει c διαφορετικές τιμές (κατηγορίες, B, B, K, Bc. Προκύπτουν έτσι, r c c 8 θυμηθείτε την πολλαπλασιαστική αρχή Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 49

Έλεγχος Χ διαφορετικές κατηγορίες/διαφορετικά ζεύγη τιμών, A, B. Ας συμβολίσουμε με ( O τον αριθμό των πειραματικών μονάδων (από τις ν που ταξινομήθηκαν στην κατηγορία ( A, B, ή αλλιώς, έστω O η συχνότητα της κατηγορίας ( A, B. Ο Πίνακας 4.., οι γραμμές του οποίου ορίζονται από τις r κατηγορίες A, A, K, Ar του χαρακτηριστικού Α και οι στήλες του από τις c κατηγορίες B, B, K, Bc του χαρακτηριστικού Β, και ο οποίος, ως στοιχείο στη θέση (, (δηλαδή στο κελί που ορίζεται από τη γραμμή και τη στήλη έχει τη συχνότητα O της αντίστοιχης κατηγορίας, δηλαδή τη συχνότητα της κατηγορίας ( A, B, είναι ένας r x c διδιάστατος πίνακας συχνοτήτων που ονομάζεται πίνακας συνάφειας (contngency table. Χαρακτηριστικό Β B B L B c Σύνολα γραμμών A Q Q L Q c R Q A Q Q c L R Χαρακτηριστικό Α M M M M M A r Q r Qr L Q rc R r Σύνολα στηλών C C L C c ν Πίνακας 4.. Ένας τέτοιος πίνακας συχνοτήτων ονομάζεται πίνακας συνάφειας γιατί μέσω της διδιάστατης κατανομής συχνοτήτων που αναπαριστά/περιγράφει, ελέγχουμε αν τα δύο χαρακτηριστικά που ορίζουν τις διαστάσεις του έχουν κάποια συνάφεια/εξάρτηση ή αν είναι ανεξάρτητα. Γι αυτό εξάλλου γίνεται (συνήθως μια τέτοια ταξινόμηση. Για να ελέγξουμε αν δύο χαρακτηριστικά (μεταβλητές των οποίων οι τιμές ταξινομούνται σε κατηγορίες, είναι ανεξάρτητα ή μήπως παρουσιάζουν κάποια συνάφεια/εξάρτηση. Να ελέγξουμε, για παράδειγμα, αν η ανθεκτικότητα ενός ατόμου στον ιό της γρίπης (αρρώστησε, δεν αρρώστησε εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκανε (,, ή αν υπάρχει συνάφεια/εξάρτηση μεταξύ φύλου (άντρας, γυναίκα και συνήθειας καπνίσματος (μη καπνιστής, πρώην καπνιστής, περιστασιακός καπνιστής, καπνιστής ή αν ο τρόπος μετάβασης των φοιτητών/τριών στο πανεπιστήμιο (με τα πόδια, με ποδήλατο, με ΙΧ αυτοκίνητο ή μοτοσυκλέτα, με τα δημόσια μέσα συγκοινωνίας, με ταξί είναι ανεξάρτητος από το φύλο (φοιτητής, φοιτήτρια ή αν η ανθεκτικότητα ενός φυτού σε μια συγκεκριμένη ασθένεια (αρρώστησε, δεν αρρώστησε εξαρτάται από το μέγεθός του (μεγάλο, μικρό. Ας δούμε λοιπόν πώς μπορούμε να κάνουμε έναν τέτοιο έλεγχο ανεξαρτησίας. Έστω ένα τυχαίο δείγμα ν παρατηρήσεων ( A, B που προέκυψαν από την ταξινόμηση ν πειραματικών/δειγματοληπτικών μονάδων ως προς δύο χαρακτηριστικά Α και Β, από τα οποία, το Α μπορεί να πάρει r διαφορετικές τιμές (κατηγορίες, A, A, K, Ar, και το Β μπορεί να πάρει c διαφορετικές τιμές (κατηγορίες, B, B, K, Bc. Είναι λογικό/εύλογο η ανεξαρτησία των Α και Β να ορίζεται μέσω της έννοιας της ανεξαρτησίας ενδεχομένων. Πράγματι, έτσι είναι. Αν θεωρήσουμε τα ενδεχόμενα A: μια πειραματική μονάδα ταξινομείται στην κατηγορία A του χαρακτηριστικού Α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 49

Έλεγχος Χ B: μια πειραματική μονάδα ταξινομείται στην κατηγορία B του χαρακτηριστικού Β τότε, τα χαρακτηριστικά Α και Β είναι ανεξάρτητα αν τα ενδεχόμενα ανεξάρτητα για κάθε,, r και,, c, δηλαδή, αν P A B P( A P( B, για όλα τα και ( A και B είναι ή ισοδύναμα, αν P ( A B P( A, για όλα τα και. Αυτό σημαίνει ότι τα χαρακτηριστικά Α και Β είναι ανεξάρτητα αν, για όλα τα και, η πιθανότητα μια παρατήρηση να ανήκει στην κατηγορία A του χαρακτηριστικού Α δεν εξαρτάται/δεν επηρεάζεται από την κατηγορία B του χαρακτηριστικού Β στην οποία ανήκει, ή ισοδύναμα, αν, για όλα τα και, η πιθανότητα μια παρατήρηση να ανήκει στην κατηγορία B του χαρακτηριστικού Β δεν εξαρτάται/δεν επηρεάζεται από την κατηγορία A του χαρακτηριστικού Α στην οποία ανήκει, αφού ισοδύναμη με τις παραπάνω σχέσεις (όπως είδαμε στο Α Μέρος είναι επίσης η σχέση P B A P( B. ( Παρατήρηση 4..: Παρατηρείστε ότι τα ενδεχόμενα A, A, K, Ar αποτελούν μια διαμέριση του δειγματικού χώρου του πειράματος αφού κάθε πειραματική μονάδα ταξινομείται σε μια από τις κατηγορίες A και μάλιστα ακριβώς σε μία και έτσι U r A Ω και A A για κάθε. Αντίστοιχα, τα B, B, K, Bc αποτελούν επίσης μια άλλη διαμέριση του δειγματικού χώρου του πειράματος. Ας συμβολίσουμε με p την πιθανότητα P ( A μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία A του χαρακτηριστικού Α και με q την πιθανότητα P ( B μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία B του χαρακτηριστικού Β. Έστω δηλαδή, p P( A και q P( B. Έστω, επίσης p P( A B η πιθανότητα μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία A του χαρακτηριστικού Α και (συγχρόνως στην κατηγορία B του χαρακτηριστικού Β. Για να ελέγξουμε αν τα χαρακτηριστικά Α και Β είναι ανεξάρτητα, πρέπει προφανώς, να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p p q, για κάθε και έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και. Αν X,,, r,,, c τυχαίες μεταβλητές που η κάθε μια εκφράζει τον αριθμό των παρατηρήσεων που ανήκουν στην αντίστοιχη κατηγορία ( A, B, είναι προφανές ότι έχουν από κοινού κατανομή μια πολυωνυμική κατανομή με Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 49

Έλεγχος Χ παραμέτρους ν και p P( A B,,, r,,, c. Αυτό σημαίνει ότι ο έλεγχος της μηδενικής υπόθεσης : p p q, για κάθε και είναι ένας έλεγχος των παραμέτρων p μιας πολυωνυμικής κατανομής. Μπορούμε επομένως να εργασθούμε όπως στον έλεγχο X καλής προσαρμογής, με τις αποκλίσεις μεταξύ παρατηρηθέντων και αναμενόμενων (με βάση τη μηδενική υπόθεση συχνοτήτων. Για κάθε δυνατή κατηγορία ( A, B, η παρατηρηθείσα συχνότητα, O (η τιμή της X στο δείγμα, μας είναι γνωστή. Η αντίστοιχη, με βάση τη μηδενική υπόθεση, αναμενόμενη συχνότητα E προφανώς είναι E ν p νp p. Επειδή, κατά κανόνα, οι πιθανότητες p,,, r και q,,, c δεν είναι γνωστές, τις εκτιμάμε με τα δειγματικά ποσοστά R C p ˆ και p ˆ ν ν όπου, R το άθροισμα των στοιχείων της γραμμής του πίνακα συνάφειας, C το άθροισμα των στοιχείων της στήλης του πίνακα συνάφειας και ν το μέγεθος του δείγματος. Έτσι, οι εκτιμώμενες αναμενόμενες συχνότητες είναι R C RC E ˆ νpˆ pˆ ν ν ν ν. Ως στατιστική συνάρτηση ελέγχου (εύλογα χρησιμοποιούμε τη στατιστική συνάρτηση X με ( O Eˆ X., Eˆ Με την παραδοχή ότι η μηδενική υπόθεση είναι αληθής, αποδεικνύεται ότι η τυχαία μεταβλητή X, για μεγάλα ν ακολουθεί μια χ κατανομή με ( r ( c βαθμούς ελευθερίας. Η προσέγγιση αυτή είναι ικανοποιητική αν όλες οι (εκτιμώμενες αναμενόμενες συχνότητες είναι μεγαλύτερες ή ίσες του 5, δηλαδή, αν, ˆ E ˆ ˆ ν p p 5 για όλα τα και. Έτσι, προκύπτει ο ακόλουθος έλεγχος X ο οποίος ονομάζεται έλεγχος Χ ανεξαρτησίας (ch-square test of ndependence. Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p q, για κάθε και απορρίπτεται έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και, αν X ( O ˆ E > χ c ˆ, E και εφόσον Eˆ ν pˆ pˆ 5 για όλα τα και. ( r ( ; α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 49

Έλεγχος Χ Αν ο περιορισμός Eˆ ˆ ˆ ν p p 5 παραβιάζεται για τουλάχιστον μία από τις εκτιμώμενες αναμενόμενες συχνότητες, κάνουμε κατάλληλη σύμπτυξη των αρχικών κατηγοριών. Σχόλιο 4..: Ας δούμε γιατί οι βαθμοί ελευθερίας της χ κατανομής που χρησιμοποιείται στον έλεγχο X ανεξαρτησίας είναι ( r ( c. Γενικά, οι βαθμοί ελευθερίας (β.ε σε έναν έλεγχο β.ε. αριθμός διαφορετικών κατηγοριών X είναι αριθμός εκτιμώμενων παραμέτρων. Στον έλεγχο X ανεξαρτησίας, όπως είδαμε, οι διαφορετικές κατηγορίες είναι r c και οι παράμετροι που χρειάζεται να εκτιμηθούν, όταν μας είναι άγνωστες, είναι οι πιθανότητες p και q. Συνολικά, ο αριθμός των p και q που πρέπει να εκτιμηθούν είναι r + c (και όχι r + c αφού ισχύουν οι σχέσεις p + p + K + pr και q + q + K + qr. Έτσι, έχουμε β. ε r c ( r + c r c r c + ( r ( c Αν οι παράμετροι p και q είναι όλες γνωστές, τότε οι βαθμοί ελευθερίας προφανώς είναι r c r c. Aς ολοκληρώσουμε τώρα το εισαγωγικό μας παράδειγμα που αναφέρεται στην αποτελεσματικότητα του αντιγριπικού εμβολίου. Παράδειγμα 4.6: Στο πλαίσιο της έρευνας που γίνεται για την πρόληψη την γρίπης, έγινε μια μελέτη για να ελεγχθεί η αποτελεσματικότητα ενός νέου αντιγριπικού εμβολίου το οποίο χορηγείται σε δύο δόσεις. Σε χίλιους τυχαία επιλεγμένους κατοίκους μιας περιοχής δόθηκε η δυνατότητα να κάνουν το εμβόλιο δωρεάν και εθελοντικά. Για κάθε κάτοικο, η ερευνητική ομάδα κατέγραψε πόσες δόσεις του εμβολίου έκανε (καμία, μία ή δύο και αν αρρώστησε ή όχι από τη γρίπη. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε 89 565 Σε επίπεδο σημαντικότητας 5%, δίνουν αυτά τα δεδομένα σημαντικές αποδείξεις ότι η ανθεκτικότητα των κατοίκων στον ιό της γρίπης εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκαναν; Απάντηση: Ζητείται να ελέγξουμε, με βάση τα συγκεκριμένα πειραματικά δεδομένα, αν το χαρακτηριστικό (τυχαία μεταβλητή Α: ανθεκτικότητα στον ιό της γρίπης, με τιμές αρρώστησε, δεν αρρώστησε και το χαρακτηριστικό (τυχαία μεταβλητή Β: αριθμός δόσεων εμβολίου, με τιμές,, είναι ανεξάρτητα ή εξαρτημένα. Ας θεωρήσουμε τα ενδεχόμενα, A : ο κάτοικος αρρώστησε, A : ο κάτοικος δεν αρρώστησε B : ο κάτοικος έκανε μηδέν δόσεις, B : ο κάτοικος έκανε μια δόση, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 494

Έλεγχος Χ B : ο κάτοικος έκανε δύο δόσεις, και έστω p P, p P, q P, q P και q P. ( A ( A ( B ( B Έστω επίσης, p P( A B,, και,,. ( B Σε επίπεδο σημαντικότητας α. 5, θα ελέγξουμε τη μηδενική υπόθεση, : p p q, για κάθε και έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και ή αλλιώς, θα ελέγξουμε τη μηδενική υπόθεση, : Η ανθεκτικότητα στον ιό της γρίπης είναι ανεξάρτητη από τον αριθμό των δόσεων εμβολίου, έναντι της εναλλακτικής, : Η ανθεκτικότητα στον ιό της γρίπης εξαρτάται (επηρεάζεται από τον αριθμό των δόσεων εμβολίου. Αν δεχθούμε ότι η είναι αληθής, δηλαδή, αν δεχθούμε ότι τα ενδεχόμενα A και B είναι για κάθε και ανεξάρτητα, τότε η εκτιμώμενη αναμενόμενη συχνότητα Ê της αντίστοιχης κατηγορίας είναι RC E ˆ ν όπου, R το άθροισμα των στοιχείων της γραμμής του πίνακα συνάφειας, C το άθροισμα των στοιχείων της στήλης του πίνακα συνάφειας και ν το μέγεθος του δείγματος. Έτσι έχουμε: 46 E ˆ 4.4 46 9, E ˆ 5 46 578, E ˆ 6. 6 ˆ 954 E 98.6, ˆ 954 9 E 4 954 578, E ˆ 55. 4. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και παρατηρηθείσα συχνότητα, εκτός από την O, μέσα σε παρένθεση φαίνεται και η αντίστοιχη Ê. Ανθεκτικότητα Αρρώστησε Δεν αρρώστησε Σύνολα στηλών ( C Αριθμός δόσεων 4 (4.4 89 (98.6 9 (5 (4 (6.6 565 (55.4 Σύνολα γραμμών ( R 46 954 9 578 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 495

Έλεγχος Χ Επειδή για κάθε και είναι Eˆ ν pˆ qˆ 5, μπορούμε να κάνουμε έλεγχο X ανεξαρτησίας. Έτσι, έχουμε (4 4.4 (565 55.4 X +... + 7.5. 4.4 55.4 Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( ( ;.5 ή X 5. 99 ˆ >, E ˆ, E και επειδή 7.5 > 5. 99, δηλαδή, επειδή η τιμή 7.5 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ ;.5 5. 99 (που παίρνουμε από τον πίνακα της χ κατανομής για ( ( βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι η ανθεκτικότητα στον ιό της γρίπης δεν είναι ανεξάρτητη από τον αριθμό των δόσεων εμβολίου. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Σχόλιο 4..: Ας δούμε, με ένα παράδειγμα, πώς μπορούμε να υπολογίζουμε τις εκτιμώμενες αναμενόμενες συχνότητες Ê σκεπτόμενοι με βάση το νόημα της ανεξαρτησίας (και την κοινή λογική, χωρίς δηλαδή, να χρειάζεται να καταφύγουμε στον τύπο E ˆ RC ν. Πιστεύουμε ότι αυτό θα βοηθήσει στην καλύτερη κατανόηση του νοήματος της ανεξαρτησίας και της διαδικασίας που εφαρμόσαμε. Θα χρησιμοποιήσουμε το Παράδειγμα 4.6. Από τα άτομα αρρώστησαν 46, δηλαδή, σε όλο το δείγμα το ποσοστό αυτών που αρρώστησαν είναι 46. 46 ή 4.6%. Εφόσον υποθέτουμε ότι το αν θα αρρωστήσει ή όχι κάποιος κάτοικος δεν εξαρτάται από τον αριθμό των δόσεων εμβολίου που έκανε, τότε πρέπει να περιμένουμε ότι και από αυτούς που έκαναν δόσεις, και από αυτούς που έκαναν δόση, και από αυτούς που έκαναν δόσεις, θα αρρωστήσει ίδιο ποσοστό, ίσο με 4.6% (όσο στο γενικό σύνολο. Έτσι, από τους κατοίκους που έκαναν δόσεις περιμένουμε να αρρωστήσουν.46 4. 4 κάτοικοι, από τους 9 κατοίκους που έκαναν δόση περιμένουμε να αρρωστήσουν.46 9 5 κάτοικοι και από τους 578 κατοίκους που έκαναν δόσεις περιμένουμε να αρρωστήσουν.46 578 6. 6 κάτοικοι. Επίσης, το ποσοστό των ατόμων σε όλο το δείγμα που δεν αρρώστησαν είναι 954.954 ή 95.4%. Σκεπτόμενοι όπως προηγουμένως, περιμένουμε το ποσοστό αυτό να είναι το ίδιο και στις τρεις περιπτώσεις δόσεων εμβολίου. Έτσι, από τους κατοίκους που έκαναν δόσεις περιμένουμε να μην αρρωστήσουν.954 98.6 κάτοικοι, από τους 9 κατοίκους που έκαναν δόση περιμένουμε να μην αρρωστήσουν.954 9 4 κάτοικοι και από τους 578 κατοίκους που έκαναν δόσεις περιμένουμε να μην αρρωστήσουν.954 578 55. 4 κάτοικοι. Παρατηρείστε ότι 46.46 46 RC ν 4.4, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 496

Έλεγχος Χ.46 9 46 9 46 9 RC ν 5, κ.ο.κ. Φυσικά, κάτι τέτοιο δεν μας εκπλήσσει γιατί αυτό που ουσιαστικά κάναμε είναι να ερμηνεύσουμε την ανεξαρτησία ενδεχομένων μέσω της έννοιας της δεσμευμένης πιθανότητας, δηλαδή, μέσω των σχέσεων P ( A B P( A που είναι ισοδύναμες με τις σχέσεις P ( A B P( A P( B που χρησιμοποιήσαμε για να αποδείξουμε τον τύπο E ˆ RC ν. (Θυμηθείτε και όσα είχαμε πει για την ερμηνεία της δεσμευμένης πιθανότητας με όρους ποσοστών και ξαναδείτε π.χ. το Παράδειγμα 4.4. Ερώτηση: Μόλις ολοκληρώσαμε την παρουσίαση του ελέγχου X ανεξαρτησίας. Τι λέτε, μήπως τελικά πρόκειται για έναν έλεγχο X καλής προσαρμογής; 4. Έλεγχος Χ ομογένειας (ch-square test of homogenety Ένας r x c πίνακας συνάφειας, γενικά, προκύπτει όπως είδαμε όταν ν πειραματικές 9 μονάδες (και αντίστοιχα ν παρατηρήσεις ταξινομούνται ταυτόχρονα ως προς δύο χαρακτηριστικά σε r c κατηγορίες σύμφωνα με ένα τυχαίο πείραμα (ν επαναλήψεις μιας πολυωνυμικής δοκιμής με r c διαφορετικά αποτελέσματα/κατηγορίες. Αυτό σημαίνει ότι κάθε πειραματική μονάδα μπορεί να ταξινομηθεί σε οποιαδήποτε από τις r c κατηγορίες και επομένως, πόσες πειραματικές μονάδες ταξινομούνται ανά γραμμή και πόσες ανά στήλη του πίνακα, δηλαδή, τα αθροίσματα ανά στήλη και ανά γραμμή δεν είναι προκαθορισμένοι αριθμοί αλλά τυχαίες μεταβλητές. Σε έναν τέτοιο πειραματικό σχεδιασμό, προκαθορισμένος είναι μόνο ο αριθμός επαναλήψεων ν, δηλαδή, το μέγεθος του δείγματος ν. Για παράδειγμα, στην έρευνα για την πρόληψη της γρίπης που είδαμε στο Παράδειγμα 4.6, οι ερευνητές καθόρισαν το μέγεθος, ν, του τυχαίου δείγματος που πήραν, όμως πόσοι κάτοικοι πήραν μηδέν δόσεις και πόσοι πήραν δύο ή μία, δηλαδή, το άθροισμα κάθε στήλης του πίνακα συνάφειας (όπως και το άθροισμα κάθε γραμμής δεν προκαθορίσθηκε από τους ερευνητές αλλά προέκυψε ως αποτέλεσμα του τυχαίου πολυωνυμικού πειράματος. Υπάρχουν όμως περιπτώσεις όπου ο πειραματικός σχεδιασμός που επιλέξαμε οδηγεί σε πίνακα συνάφειας με αθροίσματα γραμμών ή στηλών προκαθορισμένα. Για παράδειγμα, στην έρευνα για την πρόληψη της γρίπης, οι ερευνητές θα μπορούσαν, με βάση τον αριθμό των δόσεων, να ορίσουν τρεις ομάδες/υποπληθυσμούς και να προκαθορίσουν πόσοι κάτοικοι θα κάνουν μηδέν δόσεις του εμβολίου, πόσοι θα κάνουν μία και πόσοι δύο, δηλαδή, να πάρουν τρία δείγματα προκαθορισμένου μεγέθους (ένα από κάθε υποπληθυσμό και στη συνέχεια κάθε δείγμα να ταξινομηθεί ως προς το χαρακτηριστικό «ανθεκτικότητα στον ιό» σε δύο κατηγορίες «αρρώστησε», «δεν αρρώστησε». Σε αυτή την περίπτωση, τα αθροίσματα των τριών στηλών του πίνακα συνάφειας θα ήταν σταθεροί προκαθορισμένοι αριθμοί και όχι αποτέλεσμα τυχαίας διαδικασίας. Ένας τέτοιος πίνακας ονομάζεται πίνακας συνάφειας με καθορισμένα αθροίσματα στηλών. Όπως θα δούμε στη συνέχεια, με έναν τέτοιο πίνακα συνάφειας (και σχεδιασμό μπορούμε να ελέγξουμε την ομογένεια υποπληθυσμών ως προς ένα χαρακτηριστικό. Έτσι, στο παράδειγμα μας, μπορούμε να ελέγξουμε αν οι τρεις υποπληθυσμοί που ορίσαμε είναι ομογενείς ως προς την ανθεκτικότητα στον ιό, ή αλλιώς, να ελέγξουμε αν το ποσοστό/αναλογία όσων 9 ή δειγματοληπτικές Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 497

Έλεγχος Χ αρρωσταίνουν (και αντίστοιχα όσων δεν αρρωσταίνουν είναι το ίδιο στους τρεις υποπληθυσμούς (σε αυτούς που κάνουν δόσεις, σε αυτούς που κάνουν μία και σε αυτούς που κάνουν δύο. Γενικά, ένας πίνακας συνάφειας με καθορισμένα αθροίσματα γραμμών ή στηλών (Contngency table wth fxed row or column totals, όπως ο Πίνακας 4.., προκύπτει όταν από c υποπληθυσμούς παίρνουμε c τυχαία δείγματα μεγέθους ν, ν, K, ν c αντίστοιχα, για να ελέγξουμε αν οι c υποπληθυσμοί είναι ομογενείς ως προς ένα πολυωνυμικό χαρακτηριστικό Α με r κατηγορίες A, A, K, Ar. Δηλαδή, για να ελέγξουμε αν η αναλογία κάθε κατηγορίας A, είναι ίδια στους c υποπληθυσμούς. Δείγμα- (από τον υποπληθυσμό- L c Σύνολα γραμμών A Q Q L Q c R Χαρακτηριστικό Α A Q Q L Q c R M M M M M r Q r Qr L Q rc R r ν ν L ν c ν Πίνακας 4.. A Σε έναν τέτοιο σχεδιασμό, προφανώς έχουμε c πολυωνυμικά πειράματα με r διαφορετικά αποτελέσματα/κατηγορίες το καθένα (αντί για ένα πολυωνυμικό πείραμα με r c διαφορετικά αποτελέσματα/κατηγορίες. Σημειώνουμε ότι μπορούμε να θεωρήσουμε ότι οι c υποπληθυσμοί ορίζονται μέσω των c διαφορετικών κατηγοριών B, B, K, Bc ενός χαρακτηριστικού Β. Όμως, επισημαίνουμε ότι τυχαία μεταβλητή είναι μόνο το χαρακτηριστικό Α και όχι το Β, αφού το πόσες παρατηρήσεις ταξινομούνται σε κάθε κατηγορία του Β, ή αλλιώς, το μέγεθος του δείγματος από κάθε υποπληθυσμό προκαθορίζεται από τον ερευνητή. Ας δούμε όμως ένα παράδειγμα. Χρειάζεται! Παράδειγμα 4.7: Ταξινομήσαμε τους ενήλικες κατοίκους ( 8 ετών μιας περιοχής σε πέντε ηλικιακές ομάδες, 8-4, 5-4, 5-49, 5-64 και 65, και από κάθε ομάδα επιλέξαμε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 9,,, και 7 κατοίκους, αντίστοιχα. Ρωτήσαμε καθέναν από τους κατοίκους που επιλέξαμε πόσους καφέδες καταναλώνει ημερησίως, και τις απαντήσεις που πήραμε τις ταξινομήσαμε σε τρεις κατηγορίες: λιγότερους από τρεις, ακριβώς τρεις, περισσότερους από τρεις. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Ηλικιακή ομάδα 4 5 8-4 5-4 5-49 5-64 65 Ημερήσια Λιγότερους από 8 5 6 9 κατανάλωση Ακριβώς 45 8 8 4 καφέ Περισσότερους από 7 7 7 4 9 7 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 498

Έλεγχος Χ Να ελέγξετε, με βάση τα συγκεκριμένα δεδομένα, και σε επίπεδο σημαντικότητας α.5, αν οι πέντε ηλικιακές ομάδες είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, αν το ποσοστό των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως, και αντίστοιχα, το ποσοστό των ενηλίκων που πίνουν τρεις καφέδες ημερησίως και το ποσοστό των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως, είναι ίδιο στις πέντε ηλικιακές ομάδες; Απάντηση: Από τις c 5 κατηγορίες του χαρακτηριστικού «ηλικιακή ομάδα» ορίζονται 5 υποπληθυσμοί και από καθέναν παίρνουμε ένα τυχαίο δείγμα μεγέθους, αντίστοιχα, ν 9, ν, ν, ν 4 και ν 5 7. Κάθε δειγματοληπτική μονάδα, σε καθένα από τα 5 δείγματα, ταξινομείται ως προς το χαρακτηριστικό «ημερήσια κατανάλωση καφέ» σε μια από τρεις δυνατές κατηγορίες, «λιγότερους από», «ακριβώς», «περισσότερους από». Δημιουργείται έτσι ένας x 5 πίνακας συνάφειας με καθορισμένα αθροίσματα στηλών. Ζητείται να κάνουμε, σε επίπεδο σημαντικότητας.5, τον έλεγχο της μηδενικής υπόθεσης : Το ποσοστό (αναλογία των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες και το ποσοστό (αναλογία των ενηλίκων που πίνουν ακριβώς τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες και το ποσοστό (αναλογία των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες έναντι της εναλλακτικής, : όχι η ή υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία. Αν p η πιθανότητα μια τυχαία παρατήρηση από τον πληθυσμό,,,,4, 5, να ταξινομηθεί στην κατηγορία,,, τότε, η και η προφανώς διατυπώνονται ως εξής: : p p p p4 p5, για κάθε,,, έναντι της εναλλακτικής, : όχι η ή υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία. Για τον έλεγχο αυτό χρησιμοποιείται η στατιστική συνάρτηση ελέγχου και η περιοχή απόρριψης που χρησιμοποιείται στον έλεγχο Χ ανεξαρτησίας. Δηλαδή, ο έλεγχος αυτός γίνεται ως να επρόκειτο για έλεγχο Χ ανεξαρτησίας. Πράγματι, αποδεικνύεται ότι: Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 499

Έλεγχος Χ Έστω ότι από c υποπληθυσμούς παίρνουμε c τυχαία δείγματα μεγέθους ν, ν,, ν c αντίστοιχα, για να ελέγξουμε αν οι c υποπληθυσμοί είναι ομογενείς ως προς ένα πολυωνυμικό χαρακτηριστικό Α με r κατηγορίες A, A, K, A. r K Έστω επίσης, p η πιθανότητα μια τυχαία παρατήρηση από τον πληθυσμό,,, c, να ταξινομηθεί στην κατηγορία,,, r. Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p K pc, για κάθε,, r απορρίπτεται έναντι της εναλλακτικής, : όχι η αν ( O ˆ E X > χ ( r ( c ; α ˆ, E και εφόσον E ˆ R ν ν 5 για όλα τα και. Ο έλεγχος αυτός ονομάζεται έλεγχος Χ ομογένειας (ch-square test of homogenety. Σχόλιο 4..: Το ότι ο έλεγχος X ομογένειας γίνεται όπως ο έλεγχος X ανεξαρτησίας, είναι μάλλον κάτι αναμενόμενο, αν σκεφθούμε ότι η μηδενική υπόθεση του ελέγχου ομογένειας, : p p K pc, για κάθε,, r, ισοδύναμα μπορεί να γραφτεί, : για κάθε κατηγορία, η αναλογία είναι ανεξάρτητη από τον υποπληθυσμό. Θυμηθείτε επίσης την ερμηνεία της ανεξαρτησίας μέσω των σχέσεων P A B P( A. ( Ας ολοκληρώσουμε τώρα τον έλεγχο του παραδείγματός μας. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O, και μέσα σε παρένθεση φαίνεται η αντίστοιχη Ê που υπολογίζεται όπως στον έλεγχο X ανεξαρτησίας από τον τύπο RC R E ˆ ν ή E ˆ. ν ν Πράγματι, 8 9 E ˆ 8.6 8, E ˆ 6. 6, κ.ο.κ. Ημερήσια κατανάλωση καφέ < > Ηλικιακή ομάδα 4 5 Σύνολα 8-4 5-4 5-49 5-64 65 Γραμμών 8 5 6 9 (8.6 (6.6 (98.58 (7.4 (54.6 8 45 8 8 4 (4.5 (89 (7.95 (.5 (75.65 445 7 7 7 4 (. (47.4 (7.47 (54.5 (4.9 7 9 7 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 5

Έλεγχος Χ Επειδή για κάθε και είναι E ˆ 5, μπορούμε να κάνουμε έλεγχο Έτσι, έχουμε (8 8.6 (4 4.9 X +... + 6.7. 8.6 4.9 X ομογένειας. Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( (5 ;.5 ή X 5. 57 ˆ >, E ˆ, E και επειδή 6.7 > 5. 57, δηλαδή, επειδή η τιμή 6.7 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ 8 ;.5 5. 57 (που παίρνουμε από τον πίνακα της χ κατανομής για ( (5 8 βαθμούς ελευθερίας και α.5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία, ή αλλιώς, ότι οι πέντε ηλικιακές ομάδες δεν είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, τα 5 δείγματα δεν προέρχονται από τον ίδιο πληθυσμό. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Ας δούμε ένα ακόμη παράδειγμα. Παράδειγμα 4.8: Σε μια έρευνα για τα ποσοστά δημοτικότητας ενός δημάρχου σε τέσσερα δημοτικά διαμερίσματα, επιλέξαμε με βάση ένα σχέδιο τυχαίας δειγματοληψίας (που λαμβάνει υπόψη και το μέγεθος κάθε διαμερίσματος, κατοίκους από το ο δημοτικό διαμέρισμα, 8 από το ο, 5 από το ο και από το 4 ο. Κάθε κάτοικος που επελέγη ρωτήθηκε αν κρίνει θετικά ή αρνητικά το έργο του δημάρχου. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Γνώμη Δημοτικό διαμέρισμα 4 Θετική 8 5 6 Αρνητική 45 8 8 8 5 Με βάση αυτά τα δεδομένα, να ελέγξετε σε επίπεδο σημαντικότητας α. 5, αν το ποσοστό θετικής γνώμης για το έργο του δημάρχου είναι ίδιο στα τέσσερα δημοτικά διαμερίσματα ή υπάρχουν διαφοροποιήσεις. Απάντηση: Τα αθροίσματα των στηλών, ν, ν 8, 5 ν, ν 4, είναι προκαθορισμένα. Επομένως πρόκειται για τέσσερα πολυωνυμικά πειράματα. Ειδικότερα, πρόκειται για τέσσερα διωνυμικά πειράματα, αφού καθένα από τα δείγματα ταξινομείται σε δύο κατηγορίες: θετική γνώμη, αρνητική γνώμη. Ζητείται να κάνουμε σε επίπεδο σημαντικότητας.5, τον έλεγχο της μηδενικής υπόθεσης : Το ποσοστό (αναλογία θετικής γνώμης είναι ίδιο στα τέσσερα δημοτικά διαμερίσματα έναντι της εναλλακτικής, και επομένως και αρνητικής γνώμης Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 5

Έλεγχος Χ : όχι η ή σε δύο τουλάχιστον δημοτικά διαμερίσματα το ποσοστό θετικής γνώμης δεν είναι ίδιο. Αν p η πιθανότητα (ποσοστό/αναλογία θετικής γνώμης στο δημοτικό διαμέρισμα,,,,4, τότε η και η γράφονται : p p p p4 : δεν είναι όλα τα p,,,, 4 ίσα. Σημείωση 4..: Επειδή οι κατηγορίες του χαρακτηριστικού «γνώμη για το έργο του δημάρχου» είναι μόνο δύο, για να συμβολίσουμε τις πιθανότητες p (μια τυχαία παρατήρηση από τον πληθυσμό,,, c, να ταξινομηθεί στην κατηγορία,,, r, χρειάσθηκε μόνο ένας δείκτης. Οι αντίστοιχες πιθανότητες αρνητικής γνώμης συμβολίζονται με q,,,, 4. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O και μέσα σε παρένθεση φαίνεται η αντίστοιχη εκτιμώμενη αναμενόμενη (με βάση τη μηδενική υπόθεση συχνότητα Ê που υπολογίζεται από τον τύπο, E ˆ R ν ν. Πράγματι, 8 E ˆ.7 74 8 8, E ˆ 4. 78 74, κ.ο.κ. Γνώμη Θετική Αρνητική Δημοτικό διαμέρισμα 4 Σύνολα γραμμών 6 7 (.7 (4.78 (77. (56.49 8 8 5 9 4 (97. (6. (7.97 (5.5 6 8 5 74 Επειδή για κάθε και είναι E ˆ 5, κάνουμε έλεγχο (.7 (4 5.5 X +... +.87..7 5.5 X ομογένειας. Έτσι, έχουμε Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( (4 ;.5 ή X 7. 85 ˆ >, E ˆ, E και επειδή.87 > 7. 85, δηλαδή, επειδή η τιμή.87 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ ;.5 7. 85 (που παίρνουμε από τον πίνακα της χ κατανομής για ( (4 βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι υπάρχουν δύο τουλάχιστον δημοτικά διαμερίσματα με διαφορετικά ποσοστά (αναλογίες θετικής γνώμης για το Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 5

Έλεγχος Χ έργο του δημάρχου, ή αλλιώς, ότι τα τέσσερα δημοτικά διαμερίσματα δεν είναι ομογενή ως προς τη γνώμη των κατοίκων για το έργο του δημάρχου, δηλαδή, τα τέσσερα δείγματα δεν προέρχονται από τον ίδιο πληθυσμό. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Το συμπέρασμα θα μπορούσε επίσης να διατυπωθεί ως εξής: τα συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό θετικής γνώμης για το έργο του δημάρχου δεν είναι ανεξάρτητο από το δημοτικό διαμέρισμα! Παρατήρηση 4..: Στην περίπτωση που r c, δηλαδή στην περίπτωση που μελετάμε δύο διωνυμικά πειράματα ο πίνακας συνάφειας είναι x (δες Πίνακα 4... Σύνολα Δείγμα- Δείγμα- γραμμών A :Επιτυχία Q Q R A :Αποτυχία Q Q R ν ν Πίνακα 4.. Αν συμβολίσουμε με p την πιθανότητα (ποσοστό/αναλογία επιτυχίας στον υποπληθυσμό- και με p την πιθανότητα (ποσοστό/αναλογία επιτυχίας στον υποπληθυσμό- (και επομένως με q την πιθανότητα αποτυχίας στον υποπληθυσμό- και με q την πιθανότητα αποτυχίας στον υποπληθυσμό-, τότε ο έλεγχος ομογένειας, δηλαδή, ο έλεγχος της μηδενικής υπόθεσης : p p, για κάθε, έναντι της εναλλακτικής : p p, για τουλάχιστον ένα γράφεται : p p και q q : p p ή q q ή ισοδύναμα, : p p : p p. Πρόκειται δηλαδή για έλεγχο σύγκρισης δύο διωνυμικών ποσοστών, p και p. Έτσι αν λάβουμε υπόψη μας την Παρατήρηση 4.. για την ισοδυναμία του Ζ ελέγχου για διωνυμικό ποσοστό με τον έλεγχο X καλής προσαρμογής, είναι λογικό να περιμένουμε ο Ζ έλεγχος για τη σύγκριση δύο διωνυμικών ποσοστών να είναι ισοδύναμος, με τον έλεγχο X ομογένειας. Περιμένουμε δηλαδή, οι δύο αυτοί έλεγχοι να δίνουν ίδιο αποτέλεσμα. Πράγματι έτσι είναι. Ας δούμε ένα σχετικό παράδειγμα. Παράδειγμα 4.9 (συνέχεια του Παραδείγματος.9: Στο περιοδικό ournal of Bology δημοσιεύθηκαν τα αποτελέσματα μιας έρευνας για το ποσοστό, p, των ψαριών στη Μεσόγειο και το ποσοστό, p, των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Στη Μεσόγειο, από 588 τυχαία επιλεγμένα ψάρια που εξετάσθηκαν Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 5

Έλεγχος Χ βρέθηκαν μολυσμένα από παράσιτα τα ενώ στον Ατλαντικό, από τυχαία επιλεγμένα ψάρια που εξετάσθηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 6. Σε επίπεδο σημαντικότητας.5, τα ευρήματα στα δύο δείγματα δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα; Απάντηση: Πρόκειται για έλεγχο σύγκρισης δύο διωνυμικών ποσοστών. Πρέπει να κάνουμε, σε επίπεδο σημαντικότητας 5%, τον έλεγχο της μηδενικής υπόθεσης : p p έναντι της εναλλακτικής : p p. ος τρόπος: Στο Παράδειγμα.9 κάναμε τον έλεγχο αυτό με απορριπτική περιοχή pˆ ˆ p z z.5.96 pˆ ( pˆ + n n και βρήκαμε pˆ ˆ p z..96. pˆ ( pˆ + n n Έτσι, σε επίπεδο σημαντικότητας 5% απορρίψαμε τη μηδενική υπόθεση και συμπεράναμε ότι τα συγκεκριμένα ευρήματα στα δύο δείγματα δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. ος τρόπος: Για τον έλεγχο των δύο ποσοστών θα κάνουμε έλεγχο X ομογένειας. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O και μέσα σε παρένθεση φαίνεται η αντίστοιχη εκτιμώμενη αναμενόμενη (με βάση τη μηδενική υπόθεση συχνότητα Ê. Μολυσμένα Όχι μολυσμένα Δείγμα- (από Μεσόγειο Δείγμα- (από Ατλαντικό Σύνολα γραμμών 6 (96 (4 7 77 97 (9 (8 474 588 7 Επειδή για κάθε και είναι ˆ E 5, μπορούμε να κάνουμε έλεγχο X ομογένειας, έτσι, έχουμε ( 96 (77 9 (6 4 (97 8 X + + + 9.954. 96 9 4 8 Η απορριπτική περιοχή του ελέγχου είναι Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 54

Έλεγχος Χ ( O Eˆ ( O Eˆ X > χ ( ( ;.5 ή X. 84 ˆ >, E ˆ, E και επειδή 9.954 >. 84 η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα ευρήματα στα δύο δείγματα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Πράγματι λοιπόν, το συμπέρασμα και με τους δύο ελέγχους είναι το ίδιο. Παρατηρείστε τις τιμές της στατιστικής συνάρτησης ελέγχου στις δύο περιπτώσεις. Είναι z. και X 9. 954 αντίστοιχα, δηλαδή z. X 9. 954. Παρατηρείστε επίσης, ότι για τις κρίσιμες τιμές των δύο ελέγχων είναι ( z.5.96. 84 χ;.5. Σημείωση 4..: α Στην περίπτωση που ο πίνακας συνάφειας είναι x, όπως στο προηγούμενο παράδειγμα, και άρα ο έλεγχος γίνεται με ( ( βαθμό ελευθερίας, προτείνεται να γίνεται η διόρθωση συνέχειας του Yates (όπως και στον έλεγχο X καλής προσαρμογής με ένα βαθμό ελευθερίας (Σημείωση 4... β Επίσης, όταν ο πίνακας συνάφειας είναι x και υπάρχει μία τουλάχιστον αναμενόμενη συχνότητα μικρότερη του 5 οπότε δε μπορεί να γίνει έλεγχος X, προτείνεται να γίνεται ο ακριβής έλεγχος Fsher (Fsher s exact test. Δε θα επεκταθούμε περισσότερο. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 55

Έλεγχος Χ Προβλήματα και Ασκήσεις. Στη βιβλιογραφία αναφέρεται ότι τα ποσοστά των ομάδων αίματος Α, Β, ΑΒ και Ο σε έναν πληθυσμό είναι,.4,.,.4 και.45, αντίστοιχα. Μια ομάδα ερευνητών, προκειμένου να ελέγξει αν τα ποσοστά των ομάδων αίματος σε αυτόν τον πληθυσμό είναι πράγματι αυτά που αναφέρονται στην βιβλιογραφία, επέλεξε τυχαία άτομα από αυτόν τον πληθυσμό και για καθένα κατέγραψε την ομάδα αίματός του. Στον πίνακα που ακολουθεί φαίνεται η συχνότητα κάθε ομάδας αίματος που παρατηρήθηκε στο δείγμα. Παρατηρηθείσα συχνότητα Ομάδα αίματος Α Β ΑΒ Ο 89 8 8 Σε επίπεδο σημαντικότητας 5%, τα ποσοστά που παρατηρούνται στο δείγμα συμφωνούν ή όχι, με τα αντίστοιχα ποσοστά που αναφέρονται στη βιβλιογραφία;. Ένας ερευνητής σχεδίασε και εκτέλεσε το εξής πείραμα: σε έναν κλειστό διάδρομο στο τέλος του οποίου υπήρχαν τρεις έξοδοι διαφορετικού χρώματος (πράσινου, κόκκινου και μπλε αντίστοιχα, απελευθέρωσε ένα ποντίκι 9 φορές και κατέγραψε πόσες φορές αυτό διέφυγε από την πράσινη έξοδο, πόσες από την κόκκινη και πόσες από τη μπλε. Η συχνότητα που παρατηρήθηκε για κάθε έξοδο διαφυγής φαίνεται στον πίνακα που ακολουθεί. Παρατηρηθείσα συχνότητα Έξοδος διαφυγής Πράσινη Κόκκινη Μπλε 9 Σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι το ποντίκι δε δείχνει την ίδια προτίμηση και για τις τρεις εξόδους;. Μια εταιρεία προκειμένου να επιλέξει το όνομα ενός νέου προϊόντος της, έκανε μια έρευνα για να ελέγξει κατά πόσο τέσσερα ονόματα, έστω Α, Β, Γ, Δ, που έχουν προταθεί, είναι εξίσου ελκυστικά. Ρωτήθηκαν τυχαία επιλεγμένοι δυνητικοί αγοραστές του προϊόντος να δηλώσουν ποιο από τα τέσσερα ονόματα είναι κατά τη γνώμη τους το καλύτερο. Τα αποτελέσματα που προέκυψαν φαίνονται στον πίνακα που ακολουθεί. Όνομα Α Β Γ Δ Παρατηρηθείσα 4 6 9 συχνότητα Σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα δεδομένα ότι οι καταναλωτές δε δείχνουν την ίδια προτίμηση και για τα τέσσερα υποψήφια ονόματα; 4. Μια έρευνα που έγινε πριν τρία χρόνια για την ανάλυση των προτιμήσεων των καταναλωτών στα είδη καθημερινής συντήρησης του νοικοκυριού (απορρυπαντικά, καθαριστικά, χαρτικά έδειξε ότι το 7% των σχετικών πωλήσεων ήταν προϊόντα επώνυμων εταιρειών, το % ήταν προϊόντα ιδιωτικής Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 56

Έλεγχος Χ ετικέτας και το 8% ήταν απομιμήσεις (no name. Προκειμένου να ελέγξετε αν αυτά τα ποσοστά ισχύουν ακόμη, επιλέξατε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας 5 προϊόντα αυτής της κατηγορίας από τις πωλήσεις του τελευταίου τριμήνου και βρήκατε ότι από αυτά ήταν επώνυμων εταιρειών, ήταν ιδιωτικής εταιρείας και 6 ήταν απομιμήσεις. Τι λέτε, αυτά τα δεδομένα δίνουν, σε επίπεδο σημαντικότητας.5, στατιστικά σημαντικές αποδείξεις ότι τα ποσοστά που είχαν προκύψει από την προ τριετίας έρευνα έχουν πλέον αλλάξει; 5. Ένας ερευνητής μέτρησε την τιμή ένας αιματολογικού δείκτη ζώων, τυχαία επιλεγμένων, από μια μεγάλη κτηνοτροφική μονάδα. Τις παρατηρήσεις που πήρε τις ομαδοποίησε σε πέντε κλάσεις αφού προηγουμένως τις τυποποίησε (από κάθε μια αφαίρεσε τη μέση τιμή τους και διαίρεσε τη διαφορά που προέκυψε με την τυπική απόκλισή τους. Προέκυψε, έτσι, ο ακόλουθος πίνακας συχνοτήτων. Τιμή του δείκτη (τυποποιημένη Παρατηρηθείσα συχνότητα < -.5 8 [-.5, -.5 [-.5,.5 4 [.5,.5 9.5 Σε επίπεδο σημαντικότητας 5%, μπορούμε να ισχυρισθούμε ότι οι τυποποιημένες τιμές του δείγματος προέρχονται από την τυποποιημένη κανονική κατανομή; 6. Στην εικόνα που ακολουθεί φαίνονται οι θέσεις 68 φρεατίων έρευνας για κοίτασμα πετρελαίου σε μια περιοχή του Texas. Η περιοχή έχει διαιρεθεί σε x6 6 τμήματα σχήματος τετραγώνου και εμβαδού m το καθένα. Ο πίνακας συχνοτήτων της χωροδιάταξης των φρεατίων είναι ο ακόλουθος: Αριθμός φρεατίων ανά τμήμα Παρατηρηθείσα συχνότητα 7 4 6 7 4 5 6 Σύνολο 6 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos 57