Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/017
Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διακύμανση σ ενός κανονικού πληθυσμού με ένα τυχαίο δείγμα μεγέθους n Η 0 : σ = σ 0 Περιοχή απόρριψης της Η 0 Η 1 : σ σ 0 Η 1 : σ > σ 0 Η 1 : σ < σ 0 n 1 s σ 0 n 1 s σ 0 χ n 1; ατ ή χ n 1;1 ατ n 1 s σ 0 n 1 s χ n 1;a σ 0 χ n 1;1 a 10/3/017 Η τ.μ. n 1 S, για κανονικό πληθυσμό, προσεγγίζεται ικανοποιητικά από την κατανομή χ με n-1 βαθμούς ελευθερίας σ
3 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διαφορά μ 1 μ των μέσων τιμών δύο πληθυσμών με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : μ 1 μ = δ Οι διακυμάνσεις σ 1 και σ είναι γνωστές και οι πληθυσμοί είναι κανονικοί Οι διακυμάνσεις σ 1 και σ είναι γνωστές και τα μεγέθη των πληθυσμών n 1 και n είναι μεγάλα (οτιδήποτε πληθυσμός) [έλεγχος επιπέδου σημαντικότητας α κατά προσέγγιση] Περιοχή απόρριψης της Η 0 Η 1 : μ 1 μ δ Η 1 : μ 1 μ > δ Η 1 : μ 1 μ < δ Ζ = ത Χ ഥΥ δ σ 1 n 1 + σ n z Τ a Z = ത Χ ഥΥ δ σ 1 n 1 + σ n z a Z = ത Χ ഥΥ δ σ 1 n 1 + σ n z a 10/3/017
4 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διαφορά μ 1 μ των μέσων τιμών δύο πληθυσμών με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : μ 1 μ = δ Οι διακυμάνσεις σ 1 και σ είναι άγνωστες και τα μεγέθη των πληθυσμών n 1 και n είναι μεγάλα (οτιδήποτε πληθυσμός) [έλεγχος επιπέδου σημαντικότητας α κατά προσέγγιση] Περιοχή απόρριψης της Η 0 Η 1 : μ 1 μ δ Η 1 : μ 1 μ > δ Η 1 : μ 1 μ < δ Ζ = ത Χ ഥΥ δ S 1 n 1 + S n z Τ a Z = ത Χ ഥΥ δ S 1 n 1 + S n z a Z = ത Χ ഥΥ δ S 1 n 1 + S n z a 10/3/017
5 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διαφορά μ 1 μ των μέσων τιμών δύο πληθυσμών με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : μ 1 μ = δ Οι διακυμάνσεις σ 1 και σ είναι άγνωστες και ίσες, οι πληθυσμοί είναι κανονικοί και τα μεγέθη τους n 1 και n είναι οτιδήποτε n = n 1 + n, S = n 1 1 S 1 + n 1 S n 1 +n Περιοχή απόρριψης της Η 0 Η 1 : μ 1 μ δ Η 1 : μ 1 μ > δ Η 1 : μ 1 μ < δ Χ Τ = ത ഥΥ δ S 1 + 1 t n; Τ n 1 n a T = ത Χ ഥΥ δ S 1 n 1 + 1 n t n;a T = തΧ ഥΥ δ S 1 + 1 t n;a n 1 n 10/3/017
6 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διαφορά μ 1 μ των μέσων τιμών δύο πληθυσμών με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : μ 1 μ = δ Όταν τα n 1 και n είναι μικρά, ο πληθυσμοί όχι κανονικοί και οι διακυμάνσεις σ 1 και σ είτε γνωστές είτε άγνωστες (ίσες ή όχι) δεν μπορούμε να πραγματοποιήσουμε στατιστικό έλεγχο υποθέσεων σε επίπεδο σημαντικότητας α 10/3/017
n 7 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διαφορά δύο διωνυμικών ποσοστών p 1 και p με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : p 1 = p n i p i 5 και n i 1 p i 5, i =1, p i είναι το ποσοστό επιτυχιών στο δείγμα n i, i =1, p Ƹ = n 1 p 1 +n p n 1 +n Περιοχή απόρριψης της Η 0 Η 1 : p 1 p Η 1 : p 1 > p Η 1 : p 1 < p pƹ 1 pƹ p 1 p 1 n 1 + 1 n z Τ a pƹ 1 pƹ p 1 p 1 n 1 + 1 n z a pƹ 1 pƹ p 1 p 1 n 1 + 1 n z a 10/3/017
n 8 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για την ισότητα των διακυμάνσεων σ 1 και σ δύο κανονικών πληθυσμών με δύο ανεξάρτητα δείγματα μεγέθους n 1 και n αντίστοιχα Η 0 : σ 1 = σ Περιοχή απόρριψης της Η 0 s 1 Η 1 : σ 1 σ Η 1 : σ 1 > σ Η 1 : σ 1 < σ a s F n 1 1;n 1; Τ s 1 ή a s F n 1 1;n 1; Τ s 1 s 1 s F n 1 1;n 1;α s F n 1 1;n 1;α τ.μ. S 1 S, για κανονικούς πληθυσμούς, προσεγγίζεται ικανοποιητικά από την κατανομή F με n 1-1 και n -1 βαθμούς ελευθερίας 10/3/017
9 Παράδειγμα 1 (1) Προκειμένου ένας φοιτητής να συγκρίνει στο πλαίσιο της πτυχιακής του εργασίας την αποτελεσματικότητα δύο διαιτολογίων στη μείωση του βάρους, εργάστηκες ως εξής Επέλεξε τυχαία 10 άτομα (άνδρες και γυναίκες) τα οποία δέχτηκαν να συμμετέχουν στην έρευνα και στα 5 από αυτά, τα οποία επέλεξε επίσης τυχαία από τα 10, έδωσε να ακολουθήσουν το ένα διαιτολόγιο, έστω Α, ενώ στα υπόλοιπα 5 έδωσε το άλλο διαιτολόγιο, έστω Β Στον επόμενο Πίνακα φαίνονται για καθένα από τα 10 άτομα ο κωδικός, το φύλο, η ηλικία και ο δείκτης μάζας σώματος (ΒΜΙ) 10/3/017
10 Παράδειγμα 1 () Κωδικός Φύλο Ηλικία (έτη) ΒΜΙ 1 Α 63 4,30 Γ 40,6 3 Γ 8,98 4 Α 61 9,44 5 Α 58 8,35 6 Γ 3 6,44 7 Γ 19 7,30 8 Α 37,48 9 Α 60 6,14 10 Γ 7,73 10/3/017
11 Παράδειγμα 1 (3) Τρεις μήνες μετά την εφαρμογή των διαιτολογίων, η μέση μείωση του βάρους για το πρώτο δείγμα (διαιτολόγιο Α) βρέθηκε 3,1 Kg με τυπική απόκλιση 1,3 Kg, ενώ για το δεύτερο δείγμα (διαιτολόγιο Β), η μέση μείωση βρέθηκε 1,7 Kg με τυπική απόκλιση 1, Kg Τα ευρήματα στα δύο δείγματα μαρτυρούν άραγε ότι το διαιτολόγιο Α είναι πιο αποτελεσματικό από το διαιτολόγιο Β; (α = 5%) 10/3/017
1 Παράδειγμα 1 (4) Ο επιβλέπων καθηγητής, όταν ο φοιτητής του παρουσίασε το παραπάνω συμπέρασμα, ζήτησε να δει για κάθε δείγμα τα πρωτογενή δεδομένα, δηλαδή, τη μείωση του βάρους καθενός από τα 5 άτομα κάθε δείγματος Ζήτησε επίσης να δει το φύλλο, την ηλικία και το δείκτη μάζας σώματος κάθε ατόμου Όλα τα στοιχεία που ζήτησε ο καθηγητής φαίνονται στον παρακάτω Πίνακα 10/3/017
Παράδειγμα 1 (5) 13 Κωδικός Φύλο Ηλικία (έτη) ΒΜΙ Μείωση βάρους Διαιτολόγιο Α Γ 40,6 1,46 4 Α 61 9,44 3,9 7 Γ 19 7,30 4,74 9 Α 60 6,14,8 3 Γ 8,98 3,10 Διαιτολόγιο Β 5 Α 58 8,35 3, 6 Γ 3 6,44 1,70 1 Α 63 4,30 0,18 10 Γ 7,73,46 8 Α 37,48 0.94 Αφού ο καθηγητής μελέτησε όλα τα στοιχεία του Πίνακα, είπε στο φοιτητή ότι δεν είναι ικανοποιημένος και ότι πρέπει να ξανασκεφτεί τον τρόπο επίλυσης 10/3/017
14 Εξαρτημένα δείγματα / Ζευγαρωτές παρατηρήσεις (1) Έστω η τ.μ. Χ και η τ.μ. Υ που αντιστοιχούν σε δύο πληθυσμούς μετρήσεων Έστω ότι έχουμε δύο δείγματα Χ 1, Χ,, Χ n και Υ 1, Υ,, Υ n Θεωρούμε τα ζεύγη (Χ 1, Υ 1 ), (Χ, Υ ),, (Χ n, Υ n ) τα οποία είναι ανεξάρτητα το ένα από το άλλο ενώ τα Χ i και Y i ενός του ίδιου ζεύγους δεν είναι ανεξάρτητα (δεν μπορούν να θεωρηθούν ανεξάρτητα) Για κάθε ζεύγος σχηματίζουμε τη διαφορά D i = X i Y i και πλέον μπορούμε να εργαστούμε με ένα δείγμα, αυτό των διαφορών D 1, D,, D n το οποίο θεωρούμε ότι προέρχεται από ένα θεωρητικό πληθυσμό (τον πληθυσμό των διαφορών) με μέση τιμή μ D = μ Α μ Β, όπου μ Α η μέση τιμή της Χ και μ β η μέση τιμή της Υ 10/3/017
15 Εξαρτημένα δείγματα / Ζευγαρωτές παρατηρήσεις () Έτσι, ο έλεγχος της μηδενικής υπόθεσης Η 0 : μ D = 0 είναι ισοδύναμος με τον έλεγχο μηδενικής υπόθεσης Η 0 : μ Α μ Β = 0 Γενικότερα ο έλεγχος της μηδενικής υπόθεσης Η 0 : μ D = δ είναι ισοδύναμος με τον έλεγχο μηδενικής υπόθεσης Η 0 : μ Α μ Β = δ Αν η διακύμανση του πληθυσμού των διαφορών, σ D, είναι άγνωστη (που είναι το πιο συνηθισμένο) ως στατιστική συνάρτηση ελέγχου μπορούμε να χρησιμοποιήσουμε την D δ Τ = ഥ n, όπου ഥD και S D οι τ.μ. που αντιστοιχούν στο μέσο S D και στη διακύμανση του δείγματος των διαφορών αντίστοιχα 10/3/017
16 Εξαρτημένα δείγματα / Ζευγαρωτές παρατηρήσεις (3) Αν επομένως το δείγμα των διαφορών προέρχεται από κανονικό πληθυσμό ισχύουν τα εξής: Η 0 : μ D = δ Περιοχή απόρριψης της Η 0 Η 1 : μ D δ Η 1 : μ D > δ Η 1 : μ D < δ 0 d Τ = ത δ Τ n t n 1, Τ s d a d Τ = ത δ s d Τ n t d n 1,a Τ = ത δ Τ n t n 1,a Με dҧ και s d συμβολίζεται, αντίστοιχα, η τιμή της τ.μ. ഥD και η τιμή της τ.μ. S D για τη συγκεκριμένη πραγματοποίηση του δείγματος 10/3/017 των διαφορών s d
17 Παράδειγμα 1 (6) Ο φοιτητής έπρεπε να είχε κάνει τη σύγκριση της μέσης μείωσης του βάρους που επιτυγχάνεται με τα διαιτολόγια Α και Β, με ζευγαρωτές παρατηρήσεις Δηλαδή να δημιουργήσει ζεύγη όπου σε κάθε ζεύγος τα δύο άτομα να έχουν τα χαρακτηριστικά ΒΜΙ, ηλικία και φύλο, που επηρεάζουν τη μείωση του βάρους όσο το δυνατόν όμοια Στη συνέχεια, και αφού έχει καθορίσει τα ζεύγη, στο ένα άτομο κάθε ζεύγους να δώσει το διαιτολόγιο Α και στο άλλο άτομο του ίδιου ζεύγους το διαιτολόγιο Β 10/3/017
18 Παράδειγμα 1 (7) Ο φοιτητής λοιπόν δημιούργησε πέντε τέτοια ζεύγη και τα αποτελέσματα που πήρε φαίνονται στον παρακάτω Πίνακα Ζεύγος (i) 1 3 4 5 Μείωση του βάρους με το διαιτολόγιο Α (Kg) (x i ) Μείωση του βάρους με το διαιτολόγιο B (Kg) (y i ) 1,48 3,1 4,70,30 3,94 0,96 1,7,4 0,0 3,4 10/3/017
19 Παράδειγμα (1) Ένας ερευνητής θέλει να συγκρίνει τις αποδόσεις (ανά στρέμμα) δύο ποικιλιών σταριού στον κάμπο της Θεσσαλίας Για το σκοπό αυτό σχεδίασε ένα πείραμα ως εξής: Επέλεξε 10 αγρούς σε δέκα διαφορετικές τοποθεσίες του Θεσσαλικού κάμπου και κάθε αγρό τον χώρισε σε δύο αγροτεμάχια ίδιου σχήματος και ίδιου εμβαδού Στο ένα αγροτεμάχιο κάθε αγρού καλλιέργησε στάρι της μιας ποικιλίας, έστω Α, και στο άλλο αγροτεμάχιο καλλιέργησε στάρι της άλλης ποικιλίας, έστω Β Σε ποιο από τα δύο αγροτεμάχια καλλιέργησε την ποικιλία Α και σε ποιο την ποικιλία Β το αποφάσισε με τυχαίο τρόπο (π.χ. με τη ρίψη ενός νομίσματος) 10/3/017
0 Παράδειγμα () Επίσης φρόντισε στα δύο αγροτεμάχια κάθε αγρού να υπάρχουν ίδιες καλλιεργητικές συνθήκες και ίδιες συνθήκες συγκομιδής (γονιμότητα εδάφους, υγρασία, προσανατολισμός, χρόνος σποράς, καλλιεργητική μέθοδος, λίπανση, ημέρα θερισμού, κλπ.) Στον παρακάτω Πίνακα φαίνεται η απόδοση των δύο ποικιλιών σε καθέναν από τους 10 πειραματικούς αγρούς Αγρός (i) 1 3 4 5 6 7 8 9 10 Απόδοση ποικιλίας Α (Kg / στρέμμα) (x i ) Απόδοση ποικιλίας Β (Kg / στρέμμα) (y i ) 500 650 490 570 555 545 535 635 65 540 455 60 455 610 505 495 515 600 600 510 Τα ευρήματα στα δύο δείγματα μαρτυρούν άραγε ότι οι μέσες αποδόσεις των δύο ποικιλιών στον κάμπο της Θεσσαλίας 10/3/017 διαφέρουν; (α = 5%)
1 Παράδειγμα 3 (1) Μια ερευνητική ομάδα σχεδίασε ένα πείραμα για να ελέγξει αν η ασπιρίνη επηρεάζει-μεταβάλλει την τιμή ενός αιματολογικού δείκτη (prothrombin time) ο οποίος σχετίζεται με την πηκτικότητα του αίματος και τη δημιουργία θρόμβων (η τιμή του δείκτη μετριέται σε δευτερόλεπτα) Για το σκοπό αυτό, επέλεξε ένα τυχαίο δείγμα 1 ατόμων και για κάθε άτομο μέτρησε την τιμή του δείκτη πριν και τρεις ώρες μετά τη λήψη δύο δισκίων ασπιρίνης (650 mg) Οι σχετικές μετρήσεις φαίνονται στον επόμενο Πίνακα 10/3/017
Παράδειγμα 3 () Άτομο (i) 1 3 4 5 6 7 8 9 10 11 1 Prothrombin time (sec) (x i ) Preothrombin time (sec) (y i ) 1,3 1 1 13 13 1,5 11,3 11,8 11,5 11 11 11,3 1 1,3 1,5 1 13 1,5 10,3 11,3 11,5 11,5 11 11,5 Σε επίπεδο σημαντικότητας α = 5%, υποστηρίζουν τα πειραματικά δεδομένα ότι η μέση τιμή του δείκτη πριν και μετά τη λήψη των δισκίων ασπιρίνης διαφέρουν; 10/3/017
3 Παράδειγμα 4 Οι αγρότες σε μια αγροτική περιοχή καλλιεργούν παραδοσιακά την ποικιλία Α ενός φυτού Την τελευταία χρονιά, τα κτήματα 10 αγροτών από αυτή την περιοχή (που επελέγησαν σύμφωνα με ένα σχέδιο τυχαίας δειγματοληψίας) είχαν μέση απόδοση 8,5 Kg / στρέμμα με τυπική απόκλιση 1, Kg / στρέμμα Σε μια γειτονική αγροτική περιοχή οι αγρότες καλλιεργούν μια άλλη ποικιλία του φυτού, έστω Β Η μέση απόδοση στα κτήματα 15 αγροτών αυτής της περιοχής (που επελέγησαν επίσης τυχαία) ήταν την τελευταία χρονιά 11 Kg / στρέμμα με τυπική απόκλιση 1,1 Kg / στρέμμα Άραγε, η διαφορά που παρατηρείται μεταξύ των δύο δειγμάτων είναι στατιστικά σημαντική, σε επίπεδο σημαντικότητας α = 5%, ή μήπως οφείλεται στην τύχη; 10/3/017
4 Παράδειγμα 5 Σε ένα επιστημονικό περιοδικό δημοσιεύτηκαν τα αποτελέσματα μιας έρευνας για το ποσοστό p 1 των ψαριών στη Μεσόγειο και το ποσοστό p στον Ατλαντικό που έχουν προσβληθεί από παράσιτα Στη Μεσόγειο, από 588 τυχαία επιλεγμένα ψάρια που εξετάστηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 11, ενώ στον Ατλαντικό, από τα 13 τυχαία επιλεγμένα ψάρια που εξετάστηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 6 Εξετάστε σε ένα επίπεδο σημαντικότητας α = 5% εάν το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα είναι ίδιο με το ποσοστό ψαριών στον Ατλαντικό που έχει προσβληθεί από παράσιτα 10/3/017
5 Παράδειγμα 6 (1) Δύο αυτόματες μηχανές συσκευασίας, έστω Α και Β, συσκευάζουν λίπασμα σε τσουβάλια των 50 Kg Οι ποσότητες λιπάσματος που συσκευάζονται ανά τσουβάλι από κάθε μηχανή, είναι κανονικές τυχαίες μεταβλητές, έστω Χ και Υ, αντίστοιχα Ο υπεύθυνος παραγωγής, υποψιάζεται ότι η μεταβλητότητα της ποσότητας λιπάσματος που συσκευάζεται ανά τσουβάλι από τη μηχανή Α είναι μεγαλύτερη από τη μεταβλητότητα της ποσότητας λιπάσματος που συσκευάζεται ανά τσουβάλι από τη μηχανή Β Προκριμένου να ελέγξει αν πράγματι συμβαίνει αυτό, επέλεξε τυχαία 6 τσουβάλια από την παραγωγή κάθε μηχανής και τα ζύγισε Τα δεδομένα που συγκέντρωσε φαίνονται στον παρακάτω Πίνακα 10/3/017
6 Παράδειγμα 6 () Ποσότητα λιπάσματος (σε Kg) που συσκευάζεται από τη μηχανή Α (x i ) 51,8 50,0 50,3 49,9 48,7 48,5 Ποσότητα λιπάσματος (σε Kg) που συσκευάζεται από τη μηχανή B (y i ) 49,3 49, 50,0 48,8 49, 49,6 Σε επίπεδο σημαντικότητας α = 5%, υποστηρίζουν άραγε αυτά τα δεδομένα την υποψία του; 10/3/017