ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΕΙΣ 09-10 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Έλεγχοι υποθέσεων Βόλος, 2016-2017
[01] Η έννοια του στατιστικού έλεγχου: ότι διαβάζουμε δεν σημαίνει ότι, με στατιστικούς ορούς ισχύει. Γενικότερα, ανεξάρτητα από το ποιο στατιστικό έλεγχο θα εφαρμοστεί, υπάρχει μια κοινή λογική, μια κοινή διαδικασία. 1. Διατύπωση των υποθέσεων: ο έλεγχος συγκρίνει 2 υποθέσεις Η 0 : Μηδενική Υπόθεση: η παράμετρος που εξετάζουμε = μια θεωρητική τιμή Η 1 : Εναλλακτική Υπόθεση: η παράμετρος από την θεωρητική τιμή 2. Κάθε τύπος ελέγχου βασίζεται σε μια στατιστική παραμέτρου η οποία προκύπτει από μια θεωρητική κατανομή (Π.χ. ο έλεγχος της μέσης τιμής βασίζεται στην κατανομή του Student) 3. Υπολογισμός της Παραμέτρου για την εφαρμογή του ελέγχου. Ο υπολογισμός βασίζεται στα διαθέσιμα δεδομένα (εκτιμήσεις από το δείγμα) 4. Επιλογή του επιπέδου σημαντικότητας (significance level): α (5% ή 1%): σφάλμα τύπου Ι (στάθμη σημαντικότητας) α = P[ Απόρριψή της Ho / Ηο είναι αληθής] 2
[02] 5. Απόφαση: Σύγκριση μεταξύ τιμής της παραμέτρου (που υπολογίσαμε) και της θεωρητικής τιμής της στατιστικής για το προ-επιλεγμένο επίπεδο α, έτσι ώστε να αποφασίσουμε αν ισχύει η υπόθεση Η 0 ή αντιθέτως αν πρέπει να την απορρίψουμε. (Απαραίτητο να έχουμε το σχετικό πίνακα!!!) 6. Επίσης, η απόφαση δεν είναι ένα απλό «Ναι ισχύει η Η 0» ή «Όχι, απορρίπτεται». Για να γνωρίζουμε την βαρύτητα της απόφασης μας, πρέπει να εξετάζουμε την τιμή p: p-value η οποία είναι η ισχύς του στατιστικού ελέγχου, και αντιστοιχεί στον ελάχιστο σφάλμα που πρέπει να δεχόμαστε για να θεωρήσουμε ότι ισχύει η Η1. 3
(1). Έλεγχος της μέσης τιμής (έχουμε μια μεταβλητή και ένα δείγμα): Υποθέσεις (Δίπλευρος έλεγχος) Ηο: μ = μο Η1: μ μο Στατιστική του ελέγχου: t-student t = μ μ ο σ n Εφόσον στις περισσότερες περιπτώσεις, οι τιμές μ και σ (πληθυσμός) είναι άγνωστες, χρησιμοποιούμε τις εκτιμήσεις που προκύπτουν από το δείγμα ( Χ και s). Επιλογή της στάθμης σημαντικότητας (σφάλμα α), π.χ. α = 5% Απόφαση: Ηο απορρίπτεται όταν t > t(n-1;a/2) [βλέπε πίνακα Student], και επομένως γίνεται αποδοχή της υπόθεσης Η1 Αν n > 30, μπορούμε να χρησιμοποιούμε την τιμή z a της κανονικής κατανομής. 4
Έλεγχος της μέσης τιμής: ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Υποθέσεις (Μονόπλευρος έλεγχος 2 περιπτώσεις) Ηο: μ = μο Ηο: μ = μο Η1: μ > μο (μονόπλευρος από δεξιά) Η1: μ < μο (μονόπλευρος από αριστερά) Στατιστική του ελέγχου: t-student t = μ μ ο σ n Επιλογή της στάθμης σημαντικότητας (σφάλμα α), π.χ. α = 5% Απόφαση: Μονόπλευρος έλεγχος από δεξιά Απόρριψη Ηο όταν: t > t(n-1;a/2) ή t > z a Μονόπλευρος έλεγχος από αριστερά Απόρριψη Ηο όταν: t < - t(n-1;a/2) ή t < - z a 5
Παράδειγμα 1 Μια έρευνα σε 80 οικογενειών έδειξε ότι, το μέσο μέγεθος της οικογένειας ανέρχεται σε 3,12 με δειγματική τυπική απόκλιση = 0,27. Σύμφωνα με την ΕΛΣΤΑΤ, το μέσο μέγεθος των οικογενειών της Ελλάδας ανέρχεται σε 3,21. Να εξεταστεί αν το μέσο μέγεθος διαφέρει από τον αντίστοιχο της Ελλάδας με στάθμη σημαντικότητας (σφάλμα α) 5% και 1%. 6
Παράδειγμα 2 Μια βάσης μιας έρευνας σε 81 καταστήματα, προέκυψε ότι, κατά μέσο όρο, η μέση τιμή ενός προϊόντος ανέρχεται σε 2,55 με δειγματική τυπική απόκλιση = 0,12. Μπορούμε, με στάθμη σημαντικότητας (σφάλμα α) 5% και 1%, να θεωρήσουμε ότι, η τιμή του προϊόντος είναι πραγματικά μεγαλύτερη από 2,5 ; 7
(2). Έλεγχος για τη διαφορά δύο μεσών τιμών Πρόκειται ουσιαστικά για τη σύγκριση δύο μέσων τιμών. 1 η περίπτωση 2 η περίπτωση 2 ανεξάρτητα δείγματα που προκύπτουν από 2 διαφορετικούς πληθυσμούς (π.χ. Άνδρες και Γυναίκες) Εξετάζουμε την ίδια μεταβλητή στα 2 δείγματα (π.χ. το μηνιαίο εισόδημα για τους άνδρες και για τις γυναίκες) 1 και μοναδικό δείγμα που προκύπτει από 1 και μοναδικό πληθυσμό (π.χ. τα νοικοκυριά μιας περιοχής) Εξετάζουμε δύο μεταβλητές, δηλαδή 2 διαφορετικές μετρήσεις (π.χ. το μηνιαίο εισόδημα των νοικοκυριών σε 2 διαφορετικά έτη) ΠΡΟΣΟΧΗ: Ο υπολογισμός της στατιστικής t του ελέγχου εξαρτάται από το μέγεθος των δειγμάτων 8
(2). Έλεγχος για τη διαφορά δύο μεσών τιμών 1 η περίπτωση 2 ανεξάρτητα δείγματα που προκύπτουν από 2 διαφορετικούς πληθυσμούς (π.χ. Άνδρες και Γυναίκες) 2 δείγματα με μέγεθος > 30 (n 1 > 30 και n 2 > 30) Στατιστική : t = X 1 X 2 s 1 2 2 n 1 + s 2 n 2 Απόφαση: t < z a Αποδοχή της Ηο, δηλαδή Χ 1 = Χ 2 t z a Απόρριψη της Ηο, ισχύει Η 1, δηλαδή Χ 1 Χ 2 9
(2). Έλεγχος για τη διαφορά δύο μεσών τιμών 1 η περίπτωση 2 ανεξάρτητα δείγματα που προκύπτουν από 2 διαφορετικούς πληθυσμούς (π.χ. Άνδρες και Γυναίκες) 2 δείγματα με μέγεθος 30 (n 1 30 και n 2 30) και οι διασπορές των πληθυσμών είναι ίσες (σ 1 2 =σ 2 2 =σ 2 ) Στατιστική : t = X 1 X 2 1 + 1 (n 1 1)s 2 2 1 +(n 2 1)s 2 n 1 n 2 n 1 + n 2 2 Απόφαση: t < t(n 1 +n 2-1; a/2) Αποδοχή της Ηο, δηλαδή Χ 1 = Χ 2 t t(n 1 +n 2-1; a/2) Απόρριψη της Ηο, δηλαδή Χ 1 Χ 2 10
(2). Έλεγχος για τη διαφορά δύο μεσών τιμών 1 η περίπτωση 2 ανεξάρτητα δείγματα που προκύπτουν από 2 διαφορετικούς πληθυσμούς (π.χ. Άνδρες και Γυναίκες) 2 δείγματα με μέγεθος 30 (n 1 30 και n 2 30) και οι διασπορές των πληθυσμών είναι διαφορετικές (σ 1 2 σ 2 2 ) Στατιστική : t = X 1 X 2 s 1 2 2 n 1 + s 2 n 2 Απόφαση: t < t(ν ; a/2) Αποδοχή της Ηο, δηλαδή Χ 1 = Χ 2 t t(ν; a/2) Απόρριψη της Ηο, δηλαδή Χ 1 Χ 2 Ποια η τιμή του ν; 11
Για τον υπολογισμό του ν, έχουμε 2 περιπτώσεις: n 1 = n 2 = n (δύο δείγματα με ίδιο μέγεθος) ν = 2 x (n-1) n 1 n 2 (δύο δείγματα με διαφορετικό μέγεθος) ν = ( s 1 2 + s 2 2 ) n 1 n 2 2 ( s 1 2 ) n 2 2 s ( 2 ) 1 n 1 1 + n 2 2 n 2 1 12
(2). Έλεγχος για τη διαφορά δύο μεσών τιμών 12 η περίπτωση 12 και ανεξάρτητα μοναδικό δείγματα που που προκύπτει προκύπτουν από από 1 και 2 μοναδικό διαφορετικούς πληθυσμό, πληθυσμούς όμως 2 μεταβλητές (2 μετρήσεις) Χ 1 = εισόδημα των νοικοκυριών το 2011 Χ 2 = εισόδημα των νοικοκυριών το 2012 Ζ = Χ 1 Χ 2 = διαφορά μεταξύ των δύο μετρήσεων Στατιστική : t = Απόφαση: Z sz n όπου Z = μέση τιμή της μεταβλητής Ζ και, s z = τυπική απόκλιση της Ζ (i) n 30 : t < t(n-1; a/2) Αποδοχή της Ηο, δηλαδή Χ 1 = Χ 2 (ii) n > 30 : t < z a Αποδοχή της Ηο, δηλαδή Χ 1 = Χ 2 13
(3). Έλεγχος για την αναλογία p (έχουμε ένα δείγμα): Υποθέσεις (Δίπλευρος έλεγχος) Ηο: p = p ο Η1: p p ο Στατιστική του ελέγχου: z = p p ο p. q n p o = ποσοστό αναφοράς το οποίο συγκρίνουμε με: p = ποσοστό (αναλογία) των ατόμων του δείγματος που έχουν ένα συγκεκριμένο χαρακτηριστικό. q = 1 - p Επιλογή της στάθμης σημαντικότητας (σφάλμα α), π.χ. α = 5% Απόφαση: Ηο απορρίπτεται όταν z > z a [βλέπε πίνακα Student], και επομένως γίνεται αποδοχή της υπόθεσης Η1. 14
(3). Έλεγχος για την διαφορά των αναλογιών δύο πληθυσμών (έχουμε δύο δείγματα): Υποθέσεις (Δίπλευρος έλεγχος) Ηο: p 1 = p 2 p 1 - p 2 = 0 Η1: p 1 p 2 p 1 - p 2 0 Στατιστική του ελέγχου: p 1 = ποσοστό (αναλογία) των ατόμων του 1 ου δείγματος που έχουν ένα συγκεκριμένο χαρακτηριστικό. p 2 = ποσοστό (αναλογία) των ατόμων του 2 ου δείγματος που έχουν το συγκεκριμένο χαρακτηριστικό. z = p 1 p 2 s & s = p 1q 1 n 1 + p 2q 2 n 2 q 1 = 1 p 1 και q 2 = 1 p 2 Επιλογή της στάθμης σημαντικότητας (σφάλμα α), π.χ. α = 5% Απόφαση: Ηο απορρίπτεται όταν z > z a [βλέπε πίνακα Student], και επομένως γίνεται αποδοχή της υπόθεσης Η1. 15
Παράδειγμα 3 Σκοπός της έρευνας: οι δαπάνες για διασκέδαση των Ελλήνων. Πραγματοποιήθηκε εμπειρική έρευνα σε δείγμα που αποτελείται από 452 άτομα (256 άνδρες και 196 γυναίκες). Η έρευνα έδειξε ότι, οι δαπάνες ανά μήνα ανέρχονται κατά μέσο όρο σε 134 (με s 2 = 6724). Εξετάζοντας τις δαπάνες κατά φύλο, προέκυψαν τα ακόλουθα αποτελέσματα: Δαπάνες για τους άνδρες = 140 (s 2 = 7396). Δαπάνες για τις γυναίκες = 120 (s 2 = 6400). (α) Σύμφωνα με το Υπουργείο Εθνικής Οικονομίας, οι δαπάνες για διασκέδαση ανά μήνα (ανεξαρτήτως του φύλου) είναι περίπου 125. Σε ποιο βαθμό, η ερεύνα μας είναι αξιόπιστη; (στάθμη σημαντικότητας 5% και 1%). (β) Με 5% και 2% σφάλμα, μπορούμε να θεωρήσουμε ότι, οι άνδρες και οι γυναίκες ξοδεύουν το ίδιο πόσο; 16
Παράδειγμα 4 Μια έρευνα σε δύο διαφορετικά δείγματα που αποτελούνται από 25 άτομα έδωσε τα ακόλουθα αποτελέσματα: 1 ο δείγμα: μέση τιμή = 13,4 και τυπική απόκλιση = 7 2 ο δείγμα: μέση τιμή = 18,0 και τυπική απόκλιση = 11 Θεωρούμε ότι οι διασπορές για τους δύο πληθυσμούς αναφοράς είναι διαφορετικές. (α) Με 5% και 1% σφάλμα, μπορούμε να θεωρήσουμε ότι, τα δύο δείγματα δίνουν διαφορετικά αποτελέσματα σχετικά με τη μέση τιμή; 17
Παράδειγμα 5 Μια έρευνα σε ένα τυχαίο δείγμα 144 επιχειρήσεων (76 βρίσκονται στην Αθήνα και οι 68 έκτος Αττικής) έδειξε ότι, μόνο οι 36 από αυτές κάνουν εξαγωγές ενώ οι υπόλοιπες δουλεύουν αποκλειστικά με την εθνική αγορά. (α) Με 5% και 1% σφάλμα, μπορούμε να θεωρήσουμε ότι, το ποσοστό των επιχειρήσεων που εξάγουν είναι διαφορετικό από το αντίστοιχο ποσοστό σε επίπεδο χώρας (= 33%); Από τις επιχειρήσεις της Αττικής, οι 24 κάνουν εξαγωγές ενώ από τις υπόλοιπες, μόνο οι 12. (β) Με 5% σφάλμα, μπορούμε να θεωρήσουμε ότι, είναι πιο πιθανόν για μια επιχείρηση της Αττικής να κάνει εξαγωγές σε σχέση με μια επιχείρηση που βρίσκεται έκτος Αττικής; 18
Παράδειγμα 5 n = 144 p = 36/144 = 0,25 q = 0,75 Υποθέσεις: Ηο : p = 0,33 H1: p 0,33 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ z = p p ο p.q n = 0,08 0,25 0,75 144 = -2,217 για =5% z > zα (=1,96) Η1: p 0,33 για =1% z < zα (=2,576) Η1: p = 0,33 19
Παράδειγμα 5 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ 1 ο Δείγμα 2 ο Δείγμα ni 76 68 pi 24/76 = 0,316 12/68 = 0,176 qi 52/76 = 0,684 56/68 = 0,824 Υποθέσεις: Ηο : p 1 = p 2 p 1 - p 2 = 0 H1: p 1 p 2 p 1 - p 2 0 z = p 1 p 2 p 1 q 1 + p 2 q = 2 n 1 n 2 0,316 0,684 76 0,316 0,176 + 0,176 0,824 68 = 1,974 για =5% έχουμε: z = 1,974 > zα (=1,96) Η1: p 1 p 2 20
Πως χρησιμοποιούμε τον Πίνακα Student? Για n =20 και σφάλμα α = 5% α/2 = 2,5% = 0.025 t(n-1, 0.025) = t(19, 0.025) = 2.093 Για n =25 και σφάλμα α = 1% α/2 = 0.5% = 0.005 t(n-1, 0.005) = t(24, 0.025) = 2.797 21