Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium V
Στατιςτική Συμπεραςματολογία Ι Σημειακζσ Εκτιμήςεισ Διαςτήματα Εμπιςτοςφνησ
Στατιςτική Συμπεραςματολογία (Statistical Inference) Το πεδίο τθσ Στατιςτικισ Συμπεραςματολογία, αποτελείται από όλεσ εκείνεσ τισ μεκόδουσ που μασ επιτρζπουν να εξάγουμε ςυμπεράςματα για τον πλθκυςμό και να λαμβάνουμε αποφάςεισ. Αυτζσ οι μζκοδοι, xρθςιμοποιοφν τθν πλθροφορία που περιζχεται ςε ζνα δείγμα που λαμβάνεται από τον πλθκυςμό για να εξάγουν ςυμπεράςματα. Η Στατιςτικι Συμπεραςματολογία μπορεί να χωριςτεί ςε δφο κφριουσ κλάδουσ. o Εκτίμθςθ Παραμζτρων (Parameter Estimation) Σθμειακζσ Εκτιμιςεισ (Point Estimates) Διαςτιματα Εμπιςτοςφνθσ (Confidence Intervals) o Ζλεγχοι Υποκζςεων (Hypothesis Testing) 3
Σημειακή Εκτίμηςη (Point Estimate) Σθμειακι εκτίμθςθ μιασ παραμζρου του πλθκυςμοφ, ονομάηεται θ μοναδικι τιμι ˆ που παράγεται από ζνα δείγμα με τθ βοικεια του κατάλλθλου ςτατιςτικοφ (statistic) (ι ςθμειακοφ εκτιμθτι (point estimator) ) Για παράδειγμα, ζςτω θ τυχαία μεταβλθτι X, θ οποία ακολουκεί Κανονικι Κατανομι με άγνωςτθ μζςθ τιμι. Η ςυνάρτθςθ δειγματικοφ μζςου, που δίνεται από τον τφπο 1 2 n n είναι ο ςθμειακόσ εκτιμθτισ, τθσ παραμζτρου. Όταν αντικαταςτιςουμε ςτον παραπάνω τφπο τισ τιμζσ από ζνα δείγμα, θ δειγματικι μζςθ τιμι X που προκφπτει κα είναι μία ςθμειακι εκτίμθςθ τθσ παραμζτρου. ˆ X Σθμειακι Εκτίμθςθ τθσ παραμζτρου 4
Παράμετροι Πλθκυςμοφ Η μζςθ τιμι, ενόσ πλθκυςμοφ Σθμειακζσ Εκτιμιςεισ Ο δειγματικόσ μζςοσ X x x x ˆ X 1 2 n n Η διαςπορά 2, ενόσ πλθκυςμοφ Η δειγματικι διαςπορά ˆ n 2 2 1 2 s X i X n 1 i 1 2 s Η αναλογία (ποςοςτό) p των ατόμων ενόσ πλθκυςμοφ που ανικουν ςε μία κατθγορία. Η δειγματικι αναλογία x pˆ n όπου x το πλικοσ παρατθριςεων ςε ζνα δείγμα μεγζκουσ n, που ανικουν ςτθν κατθγορία. Παράμετροι πλθκυςμοφ και οι ςθμειακζσ τουσ εκτιμιςεισ 5
Παράμετροι Πλθκυςμοφ Σθμειακζσ Εκτιμιςεισ Η διαφορά των μζςων τιμϊν δφο πλθκυςμϊν 1 2 Η διαφορά ανάμεςα ςτουσ δειγματικοφσ μζςουσ δφο τυχαίων ανεξάρτθτων δειγμάτων X X ι ˆ ˆ 1 2 1 2 Η διαφορά τθσ αναλογίασ ανάμεςα ςε δφο πλθκυςμοφσ p p 1 2 Η διαφορά ανάμεςα ςε δφο δειγματικζσ αναλογίεσ που υπολογίηονται από δφο τυχαία ανεξάρτθτα δείγματα x1 x2 ι pˆ pˆ 1 2 n n 1 2 Παράμετροι του πλθκυςμοφ και οι ςθμειακζσ τουσ εκτιμιςεισ 6
Πλεονεκτιματα Μειονεκτιματα των Σθμειακϊν Εκτιμθτϊν Οι ςθμειακοί εκτιμθτζσ καταςκευάηονται με τζτοιο τρόπο ϊςτε να ικανοποιοφν ςυγκεκριμζνεσ ιδιότθτεσ, όπωσ θ αμερολθψία, θ ςυνζπεια και θ αποτελεςματικότθτα. Ζτςι εξαςφαλίηεται ότι θ ςθμειακι εκτίμθςθ που παράγουν, είναι θ βζλτιςτθ εκτίμθςθ τθσ παραμζτρου που κα μποροφςαμε να πάρουμε από το μοναδικό δείγμα που διακζτουμε. Παρόλα αυτά, οι ςθμειακζσ εκτιμιςεισ παρουςιάηουν κάποια μειονεκτιματα. 1) Στθν πραγματικότθτα, μια ςθμειακι εκτίμθςθ είναι πάντα εςφαλμζνθ. Είναι, δθλαδι, απίκανο να πετφχουμε ακριβϊσ τον ςτόχο. 2) Δεν γνωρίηουμε πόςο κοντά ςτθν πραγματικι τιμι τθσ παραμζτρου βρίςκεται θ ςθμειακι μασ εκτίμθςθ. 3) Δεν μασ δίνουν πλθροφορίεσ για τθν επίδραςθ του μεγζκουσ του δείγματοσ ςτθν εκτίμθςθ τθσ παραμζτρου. 7
Διαςτήματα Εμπιςτοςφνησ (Confidence Intervals) Το Διάςτθμα Εμπιςτοςφνθσ μιασ παραμζτρου, είναι ζνα διάςτθμα τιμϊν LU,, για το οποίο θ πικανότθτα να περιζχει (να ζχει εντοπίςει) τθν πραγματικι τιμι τθσ παραμζτρου είναι αυξθμζνθ και ίςθ με μια δεδομζνθ τιμι 1 α. Δθλαδι Κακϊσ το διάςτθμα εμπιςτοςφνθσ μιασ παραμζτρου καταςκευάηεται από τον ςθμειακό τθσ εκτιμθτι, λαμβάνει υπόψθ του τθν κατανομι δειγματολθψίασ του εκτιμθτι και αντανακλά τισ ςυνζπειεσ του μεγζκουσ το δείγματοσ. Τα άκρα ενόσ διαςτιματοσ εμπιςτοςφνθσ είναι τυχαίεσ μεταβλθτζσ. Αυτό ςθμαίνει ότι διαφορετικά δείγματα του ίδιου μεγζκουσ κα δϊςουν διαφορετικά διαςτιματα εμπιςτοςφνθσ, κάποια από τα οποία κα ζχουν αποτφχει να εντοπίςουν τθν τιμι τθσ παραμζτρου ςτον πλθκυςμό. 8
Διαςτιματα Εμπιςτοςφνθσ Συμβολιςμοί και Ερμθνεία Η πικανότθτα (1 α) το διάςτθμα εμπιςτοςφνθσ να περιζχει τθν πραγματικι τιμι τθσ παραμζτρου ςτον πλθκυςμό, ονομάηεται ςυντελεςτισ (ι επίπεδο) εμπιςτοςφνθσ (confidence coefficient / level). Τότε, θ πικανότθτα α δεν είναι τίποτα άλλο παρά θ πικανότθτα ςφάλματοσ, δθλαδι θ πικανότθτα το διάςτθμα εμπιςτοςφνθσ να μθν περιζχει τθν πραγματικι τιμι τθσ παραμζτρου. Ονομάηουμε αυτι τθν πικανότθτα επίπεδο ςθμαντικότθτασ (significance level). Ονομάηουμε ζνα διάςτθμα εμπιςτοςφνθσ από τον ςυντελεςτι εμπιςτοςφνθσ του. Για παράδειγμα, όταν λζμε 95% δ.ε., αυτό ςθμαίνει ότι θ πικανότθτα το διάςτθμα εμπιςτοςφνθσ να περιζχει τθν πραγματικι τιμι τθσ παραμζτρου είναι 95% (1 α = 0.95) Το εφροσ ενόσ διαςτιματοσ εμπιςτοςφνθσ εξαρτάται από το ςυντελεςτι εμπιςτοςφνθσ, το μζγεκοσ του δείγματοσ και το τυπικό ςφάλμα τθσ ςθμειακισ εκτίμθςθσ. Το εφροσ αυξάνεται όταν αυξάνεται το τυπικό ςφάλμα τθσ εκτιμιτριασ ι ο ςυντελεςτισ εμπιςτοςφνθσ, ενϊ μειϊνεται όταν αυξάνει το μζγεκοσ του δείγματοσ. 9
Διάςτημα Εμπιςτοςφνησ για τη μζςη τιμή ενόσ πληθυςμοφ Επιλογή μεγζθουσ δείγματοσ
100(1 α )% Διάςτθμα Εμπιςτοςφνθσ του μζςου μ όταν θ Διαςπορά σ 2 είναι γνωςτι Πλθκυςμόσ Κανονικόσ και δείγμα οποιουδιποτε μεγζκουσ ι Πλθκυςμόσ μθ Κανονικόσ και μεγάλο δείγμα (n > 30) όπου: Το επίπεδο ςθμαντικότθτασ Το μζγεκοσ του δείγματοσ Ο δειγματικόσ μζςοσ Η διαςπορά ςτον πλθκυςμό Τιμζσ που βρίςκονται από τον πίνακα τθσ Κανονικισ Κατανομισ και τθ ςχζςθ 11
Παράδειγμα 1 Λφςθ 12
100(1 α )% Διάςτθμα Εμπιςτοςφνθσ του μζςου μ όταν θ Διαςπορά σ 2 είναι άγνωςτθ Πλθκυςμόσ Κανονικόσ όπου: Η δειγματικι τυπικι απόκλιςθ τιμι από τον πίνακα τθσ Κατανομισ t - Student Όταν ζχουμε μεγάλο δείγμα (n > 30), τότε θ τιμι μπορεί να αντικαταςτακεί από τθν τιμι 13
n 1 Πίνακασ τθσ Κατανομισ t - Student 14
Παράδειγμα 2 Λφςθ 15
Σθμαντικι Παρατιρθςθ Η πικανότθτα ςφάλματοσ, είναι θ πικανότθτα το διάςτθμα εμπιςτοςφνθσ που εκτιμιςαμε να μθν περιζχει τθν πραγματικι τιμι τθσ παραμζτρου, και όχι θ πικανότθτα θ πραγματικι τιμι τθσ παραμζτρου να μθν περιζχεται ςτο διάςτθμα εμπιςτοςφνθσ!!! Παρόλο που φαίνεται ότι οι παραπάνω δφο εκφράςεισ αναφζρονται ςτο ίδιο γεγονόσ, για τθ Θεωρία των Πικανοτιτων και τθ Στατιςτικι ζχουν μία ςθμαντικι διαφορά. Η πραγματικι τιμι τθσ παρμζτρου είναι μοναδικι και βρίςκεται ςε ςυγκεκριμζνο ςτακερό ςθμείο. Το ερϊτθμα, λοιπόν, είναι εάν το διάςτθμα εμπιςτοςφνθσ που εκτιμοφμε ζχει καταφζρει να «κλείςει» μζςα ςτα όριά του, αυτό το ςθμείο. Η πικανότθτα ςφάλματοσ χαρακτθρίηει το διάςτθμα εμπιςτοςφνθσ και όχι τθν παράμετρο. Με άλλα λόγια, είναι θ πικανότθτα το διάςτθμα εμπιςτοςφνθσ που εκτιμοφμε να αποτφχει, τελικά, ςτο ςκοπό του. 16
Επιλογι του ςυντελεςτι εμπιςτοςφνθσ. Στο παράδειγμα 2, επιλζξαμε ςυντελεςτι εμπιςτοςφνθσ 90% για τθν εκτίμθςθ του διαςτιματοσ εμπιςτοςφνθσ, το οποίο βρζκθκε (4934.263, 5065.738) Τί κα γινόταν, αν επιλζγαμε ζναν πολφ μεγαλφτερο ςυντελεςτι εμπιςτοςφνθσ, για παράδειγμα 99%; Το μόνο που κα άλλαηε, κα ιταν θ τιμι t ;n1 θ οποία τϊρα κα 2 ιταν μεγαλφτερθ από πρίν. t t 2. 947 αντί t t 1. 753 ; 16 1 0. 005; 15 ; 161 0. 05; 15 0. 01 0. 10 2 2 Αυτό κα είχε ςαν αποτζλεςμα να πάρουμε ζνα διάςτθμα εμπιςτοςφνθσ το οποίο κα ιταν μεγαλφτερο από το προθγοφμενο. Δθλαδι το (4906.363, 5093.638) αντί του (4934.263, 5065.738) Και αυτό ςυμβαίνει πάντα. Για δεδομζνο μζγεκοσ δείγματοσ και για τθν ίδια διαςπορά, το μόνο που καταφζρνουμε όταν επιλζγουμε μεγαλφτερουσ ςυντελεςτζσ εμπιςτοςφνθσ, είναι να εκτιμοφμε μεγαλφτερα διαςτιματα. Στθν πράξθ όμωσ, ζνα μεγάλο διάςτθμα εμπιςτοςφνθσ μπορεί να μθν ζχει καμία χρθςιμότθτα. 17
Επιλογι του ςυντελεςτι εμπιςτοςφνθσ Επικυμοφμε ακρίβεια ςτισ εκτιμιςεισ μασ. Όταν το διάςτθμα εμπιςτοςφνθσ μεγαλϊνει, θ ακρίβεια χάνεται. Και μαηί τθσ ο ςτόχοσ. Καταςκευάςαμε διαςτιματα εμπιςτοςφνθσ, για να μποροφμε να ποφμε κάτι καλφτερο, π.χ. από το ότι «το μέςο φψοσ των καταθέςεων όψεωσ είναι περίπου 5000». Καταςκευάςαμε διαςτιματα εμπιςτοςφνθσ, ακριβϊσ για να προςδιορίςουμε, να «ποςοτικοποιιςουμε», να δϊςουμε νόθμα ςε αυτό το «περίπου». Θζλουμε να ζχουμε διαςτιματα αρκετά μικρά, ϊςτε να ικανοποιοφν τθν ανάγκθ μασ για ακρίβεια, και ταυτόχρονα να ζχουν ζναν υψθλό ςυντελεςτι εμπιςτοςφνθσ. Αυτά όμωσ τα δφο κριτιρια βρίςκονται ςε ςφγκρουςθ. Στθν πράξθ, οι ποιό ςυνθκιςμζνεσ επιλογζσ ςυντελεςτι εμπιςτοςφνθσ είναι 0.90 (α = 0.10) και 0.95 (α = 0.05) 18
Επιλογι μεγζκουσ δείγματοσ Ζνασ δεφτεροσ τρόποσ για πετφχουμε τθν επικυμθτι ακρίβεια είναι να επιλζξουμε ζνα δείγμα μεγάκουσ n, που να είναι ικανό να μασ δϊςει ζνα διάςτθμα εμπιςτοςφνθσ ςυγκεκριμζνου μικουσ με προκακοριςμζνο ςυντελεςτι εμπιςτοςφνθσ. Το μικοσ του διαςτιματοσ εμπιςτοςφνθσ είναι 2Z 2 n Ονομάηουμε ςφάλμα εκτίμθςθσ τθν απόςταςθ τθσ μζςθσ τιμισ ςτον πλθκυςμό από το δειγματικό μζςο. Δθλαδι τθν ποςότθτα e X. Η μζγιςτθ τιμι που μπορεί να πάρει το ςφάλμα εκτίμθςθσ είναι Z, 2 n δθλαδι ίςθ με το μιςό του μικουσ του διαςτιματοσ εμπιςτοςφνθσ. Από τθ ςτιγμι που το ςφάλμα εκτίμθςθσ και το μικοσ του διαςτιματοσ εμπιςτοςφνθσ ςυνδζονται, μποροφμε, μζςω του ςφάλματοσ εκτίμθςθσ να ελζγξουμε το μικοσ του διαςτιματοσ και επομζνωσ τθν ακρίβεια τθσ πρόβλεψθσ. 19
Επιλογι μεγζκουσ δείγματοσ Από τθ ςχζςθ e Z, λφνοντασ ωσ προσ το μζγεκοσ του δείγματοσ n, 2 n παίρνουμε Z n 2 e Η τελευταία ςχζςθ μασ λζει ότι: Για επιλεγμζνεσ τιμζσ ςφάλματοσ και ςυντελεςτι εμπιςτοςφνθσ, αρκεί να πάρουμε δείγμα μεγζκουσ n για να εκτιμιςουμε διάςτθμα εμπιςτοςφνθσ με επικυμθτι ακρίβεια. 2 Επειδι τισ περιςςότερεσ φορζσ θ τυπικι απόκλιςθ δεν είναι γνωςτι, χρθςιμοποιείται θ εκτίμθςι τθσ. s ςτον πλθκυςμό Εάν ο πλθκυςμόσ από τον οποίο επιλζγουμε το δείγμα είναι πεπεραμζνοσ, το μζγεκοσ του δείγματοσ προςδιορίηεται από τθ ςχζςθ nn n* n N 1, όπου Ν το μζγεκοσ του πλθκυςμοφ. 20
Παράδειγμα 3 Ζςτω ότι κζλουμε να εκτιμιςουμε το μζςο χρόνο ςυναρμολόγθςθσ των κινθτϊν τθλεφϊνων του παραδείγματοσ 1, με ςυντελεςτι εμπιςτοςφνθσ 95% και ςφάλμα εκτίμθςθσ 1 min. Τότε κα πρζπει να επιλζξουμε δείγμα μεγζκουσ 2 2 Z Z0. 05 Z 2 2 2 2 0. 025 1. 965 n. e e e 96 04 1 Εάν για μζγεκοσ δείγματοσ n = 96 εκτιμιςουμε ξανά το διάςτθμα εμπιςτοςφνθσ για το μζςο χρόνο ςυναρμολόγθςθσ των κινθτϊν τθλεφϊνων κα βροφμε (19.000 min, 21.000 min) Το μικοσ (ακρίβεια) αυτοφ του διαςτιματοσ είναι 2 min και είναι, πράγματι, το διπλάςιο του επιλεγμζνου ςφάλματοσ εκτίμθςθσ που ιταν 1 min. 21
Διάςτημα Εμπιςτοςφνησ για την Αναλογία ςε ζναν πληθυςμό Επιλογή μεγζθουσ δείγματοσ
Διάςτθμα Εμπιςτοςφνθσ Μεγάλου Δείγματοσ για τθν αναλογία p, ςε ζναν πλθκυςμό Πολλζσ φορζσ ενδιαφερόμαςτε για τθν αναλογία (ι το ποςοςτό) των ατόμων ι των αντικειμζνων ενόσ πλθκυςμοφ που ανικουν ςε μία κατθγορία. Για παράδειγμα, το ποςοςτό των ατόμων που προτιμοφν κάποιο προϊόν, ι το ποςοςτό των ελαττωματικϊν αντικειμζνων ςε μία γραμμι παραγωγισ. Ο ςθμειακόσ εκτιμθτισ για το ποςοςτό p τθσ αναλογίασ ςτον πλθκυςμό είναι ˆ x p n όπου, n το μζγεκοσ του δείγματοσ και x το πλικοσ των ατόμων ςτο δείγμα που ανικουν ςτθν κατθγορία που μασ ενδιαφζρει. Αποδεικνφεται ότι για μεγάλα δείγματα θ κατανομι δειγματολθψίασ τθσ αναλογίασ ˆp προςεγγίηει τθν Κανονικι Κατανομι. pˆ p 1 p pˆ p N p, n p1 p N 01, n 2 23
100(1 α )% Διάςτθμα Εμπιςτοςφνθσ του μζςου για τθν αναλογία p ςτον πλθκυςμό και επιλογι μεγζκουσ δείγματοσ. όταν Για τθν επιλογι του μεγζκουσ του δείγματοσ, χρθςιμοποιείται ο οι τφποι ι nn n*, για πλθκυςμό πεπεραςμζνου μεγζκουσ N n N 1 Επειδι θ αναλογία p είναι κατά κανόνα άγνωςτθ, ςτον υπολογιςμό του μεγζκουσ δείγματοσ χρθςιμοποιοφμε είτε μια προγενζςτερθ εκτίμθςθ τθσ αναλογίασ p, είτε δίνουμε τθν τιμι p = 0.5. 24
Παράδειγμα 3 Μια εταιρεία καλλυντικϊν, ενδιαφζρεται να εκτιμιςει το ποςοςτό των γυναικϊν που χρθςιμοποιοφν τθν κρζμα προςϊπου Α. Από ζνα δείγμα 50 γυναικϊν, οι 26 απάντθςαν κετικά. Ζτςι, για τον υπολογιςμό του 95% δ.ε. για τθν αναλογία ςτον πλθκυςμό ζχουμε: Επομζνωσ, με πικανότθτα ςφάλματοσ α = 0.05, γνωρίηουμε ότι το ποςοςτό των γυναικϊν που χρθςιμοποιοφν τθν κρζμα προςϊπου Α, βρίςκεται εντόσ των ορίων 13.68% και 38.32%. Παρατθροφμε ότι το μικοσ αυτοφ του διαςτιματοσ είναι πολφ μεγάλο. Εάν θ εταιρεία επικυμεί να υπολογίςει το δ.ε. εμπιςτοςφνθσ με ακρίβεια 5% τότε κα πρζπει να πάρει ζνα δείγμα, μεγζκουσ 25