Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Κατανομή Δειγματοληψίας του Δειγματικού Μέσου
Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν πληθυσμό αποδίδει διαφορετικές τιμές στον δειγματικό μέσο X, είναι αυτονόητο ότι ο δειγματικός μέσος είναι ο ίδιος μια τυχαία μεταβλητή. Για να μπορέσουμε λοιπόν να χρησιμοποιήσουμε αποτελεσματικά τον δειγματικό μέσο στην στατιστική συμπερασματολογία, θα πρέπει πρώτα να προσδιορίσουμε τη συμπεριφορά του. Με άλλα λόγια, θα πρέπει πρώτα να βρούμε την κατανομή του δειγματικού μέσου. Ονομάζουμε Κατανομή Δειγματοληψίας του δειγματικού μέσου, τη συνάρτηση κατανομής πιθανότητας της τυχαίας μεταβλητής X. 3
Πώς δημιουργείται η κατανομή δειγματοληψίας του δειγματικού μέσου ένα πολύ απλό παράδειγμα. Η κατανομή δειγματοληψίας του δειγματικού μέσου δημιουργείται όταν από τον πληθυσμό πάρουμε όλα τα δυνατά δείγματα μεγέθους n, και υπολογίσουμε τους δειγματικούς τους μέσους. Έστω λοιπόν ότι έχουμε έναν πληθυσμό μεγέθους N 6 ότι οι τιμές που παίρνει η μεταβλητή X που ενδιαφερόμαστε να μελετήσουμε είναι 1, 2, 3, 4, 5, 6. X και % f i 0,16 0,11 0,06 0,01-0,04 1 2 3 4 5 6 Χ Έχουμε επομένως μία μεταβλητή η οποία ακολουθεί την ομοιόμορφη κατανομή και της οποίας η μέση τιμή είναι 1 2 3 4 5 6 21 3, 5 6 6 4
Πώς δημιουργείται η κατανομή δειγματοληψίας του δειγματικού μέσου ένα πολύ απλό παράδειγμα. Έστω λοιπόν τώρα, ότι δεν προχωράμε στον υπολογισμό της μέσης τιμής στον πληθυσμό αλλά αποφασίζουμε να εξάγουμε συμπεράσματα γι αυτήν από τον δειγματικό μέσο X, που υπολογίζεται επιλέγοντας τυχαίο δείγμα μεγέθους n 4. Είναι γνωστό ότι από ένα σύνολο 6 αντικειμένων μπορούμε να σχηματίσουμε 15 διαφορετικές τετράδες, όταν η επιλογή των αντικειμένων γίνεται χωρίς επανάθεση. Έτσι, από τον πληθυσμό μας δημιουργούνται τα εξής 15 δείγματα μεγέθους 4. 1 1, 2, 3, 4 2 1, 2, 3, 5 3 1, 2, 3, 6 4 1, 2, 4, 5 5 1, 2, 4, 6 6 1, 2, 5, 6 7 1, 3, 4, 5 8 1, 3, 4, 6 9 1, 3, 5, 6 10 1, 4, 5, 6 11 2, 3, 4, 5 12 2, 3, 4, 6 13 2, 3, 5, 6 14 2, 4, 5, 6 15 3, 4, 5, 6 5
Πώς δημιουργείται η κατανομή δειγματοληψίας του δειγματικού μέσου ένα πολύ απλό παράδειγμα. Από αυτά τα 15 ισοπίθανα δείγματα, παίρνουμε 15 δειγματικούς μέσους, δηλαδή 15 εκτιμήσεις της μέσης τιμής στον πληθυσμό. 1 2,5 2 2,75 3 3 4 3 5 3,25 6 3,5 7 3,25 8 3,5 9 3,75 10 4 11 3, 25 12 3,75 13 4 14 4,25 15 4,5 Έτσι λοιπόν, οι δειγματικοί μέσοι που υπολογίζονται από όλα τα δυνατά δείγματα μεγέθους 4 που μπορούμε να πάρουμε από τον πληθυσμό χωρίς επανάληψη, σχηματίζουν μία κατανομή. 0,20 0,18 % f i Κατανομή δειγματοληψίας του μέσου X 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 2,5 2,75 3 3,25 3,5 3,75 4 4,25 4,5 Δημιουργείται όλες τις διαφορετικές τιμές που λαμβάνει ο δειγματικός μέσος, όταν από τον πληθυσμό πάρουμε όλα τα δυνατά δείγματα ενός δεδομένου μεγέθους n X 6
Η Κατανομή του δειγματικού μέσου φαίνεται Κανονική, και όχι μόνον αυτό! % f i % f i 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 0,20 0,18 1 2 3 4 5 6 Χ Ξεκινήσαμε από έναν πληθυσμό με Ομοιόμορφη Κατανομή, και παίρνοντας όλα τα δυνατά δείγματος ίδιου μεγέθους, προσδιορίσαμε την κατανομή του δειγματικού μέσου, η οποία φαίνεται να είναι Κανονική. 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 Επιπλέον, όπως φαίνεται από το ιστόγραμμα, ο μέσος της κατανομής δειγματοληψίας είναι ίσος με τον μέσο της μεταβλητής X στον πληθυσμό. 0,00 2,5 2,75 3 3,25 3,5 3,75 4 4,25 4,5 X Δηλαδή 3,5 X, όπου ο μέσος της μεταβλητής X στον πληθυσμό και X ο μέσος όλων των δειγματικών μέσων (μέγεθος δειγμάτων n=4) 7
Κεντρικό Οριακό Θεώρημα Έστω τα τυχαία δείγματα μεγέθους n, που επιλέγονται από έναν 2 πληθυσμό με μέση τιμή, και διασπορά Ο δειγματικός μέσος X είναι μία τυχαία μεταβλητή που ακολουθεί προσσεγγιστικά Κανονική Κατανομή με μέση τιμή και διασπορά δηλαδή X 2 X 2 N, και Z N 0, 1 n n 1) Εάν ο πληθυσμός που μελετάμε ακολουθεί Κανονική Κατανομή, τότε ο δειγματικός μέσος X ακολουθεί επίσης Κανονική Κατανομή, οποιοδήποτε και αν είναι το μέγεθος του δείγματος που επιλέγουμε. 2) Εάν ο πληθυσμός που μελετάμε δεν ακολουθεί Κανονική Κατανομή, τότε ο δειγματικός μέσος X ακολουθεί Κανονική Κατανομή, όταν το μέγεθος του δείγματος είναι μεγάλο. 3) Η τυπική απόκλιση n των δειγματικών μέσων ονομάζεται τυπικό σφάλμα του μέσου και εκφράζει το μέγεθος του σφάλματος της εκτιμώμενης από την πραγματική τιμή. 2 n 8
Όσο το μέγεθος n του δείγματος μεγαλώνει, η κατανομή του δειγματικού μέσου τείνει προς την Κανονική Κατανομή, οποιαδήποτε και αν είναι η κατανομή του πληθυσμού. Επίσης, η διασπορά του γίνεται ολοένα μικρότερη, καθώς το μέγεθος του δείγματος μεγαλώνει. Αυτό σημαίνει, ότι το σύνολο των δειγματικών τιμών του μέσου, δηλαδή το σύνολο των δυνατών εκτιμήσεων που μπορούμε να πάρουμε από τα δείγματα μεγέθους n, συγκεντρώνονται σε ένα πολύ μικρό διάστημα γύρω από το μέσο των δειγματικών μέσων, και συνεπώς γύρω από την πραγματική τιμή της παραμέτρου στον πληθυσμό. 9
Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης
Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία, αποτελείται από όλες εκείνες τις μεθόδους που μας επιτρέπουν να εξάγουμε συμπεράσματα για τον πληθυσμό και να λαμβάνουμε αποφάσεις. Αυτές οι μέθοδοι, xρησιμοποιούν την πληροφορία που περιέχεται σε ένα δείγμα που λαμβάνεται από τον πληθυσμό για να εξάγουν συμπεράσματα. Η Στατιστική Συμπερασματολογία μπορεί να χωριστεί σε δύο κύριους κλάδους. o Εκτίμηση Παραμέτρων (Parameter Estimation) Σημειακές Εκτιμήσεις (Point Estimates) Διαστήματα Εμπιστοσύνης (Confidence Intervals) o Έλεγχοι Υποθέσεων (Hypothesis Testing) 11
Σημειακή Εκτίμηση (Point Estimate) Σημειακή εκτίμηση μιας παραμέρου του πληθυσμού, ονομάζεται η μοναδική τιμή ˆ που παράγεται από ένα δείγμα με τη βοήθεια του κατάλληλου στατιστικού (statistic) (ή σημειακού εκτιμητή (point estimator) ) Για παράδειγμα, έστω η τυχαία μεταβλητή X, η οποία ακολουθεί Κανονική Κατανομή με άγνωστη μέση τιμή. Η συνάρτηση δειγματικού μέσου, που δίνεται από τον τύπο 1 2 n n είναι ο σημειακός εκτιμητής, της παραμέτρου. Όταν αντικαταστήσουμε στον παραπάνω τύπο τις τιμές από ένα δείγμα, η δειγματική μέση τιμή X που προκύπτει θα είναι μία σημειακή εκτίμηση της παραμέτρου. ˆ X Σημειακή Εκτίμηση της παραμέτρου 12
Παράμετροι Πληθυσμού Η μέση τιμή, ενός πληθυσμού Σημειακές Εκτιμήσεις Ο δειγματικός μέσος X x x x ˆ X 1 2 n n Η διασπορά 2, ενός πληθυσμού Η δειγματική διασπορά ˆ n 2 2 1 2 s X i X n 1 i 1 2 s Η αναλογία (ποσοστό) p των ατόμων ενός πληθυσμού που ανήκουν σε μία κατηγορία. Η δειγματική αναλογία x pˆ n όπου x το πλήθος παρατηρήσεων σε ένα δείγμα μεγέθους n, που ανήκουν στην κατηγορία. Παράμετροι πληθυσμού και οι σημειακές τους εκτιμήσεις 13
Παράμετροι Πληθυσμού Σημειακές Εκτιμήσεις Η διαφορά των μέσων τιμών δύο πληθυσμών 1 2 Η διαφορά ανάμεσα στους δειγματικούς μέσους δύο τυχαίων ανεξάρτητων δειγμάτων X X ή ˆ ˆ 1 2 1 2 Η διαφορά της αναλογίας ανάμεσα σε δύο πληθυσμούς p p 1 2 Η διαφορά ανάμεσα σε δύο δειγματικές αναλογίες που υπολογίζονται από δύο τυχαία ανεξάρτητα δείγματα x1 x2 ή pˆ pˆ 1 2 n n 1 2 Παράμετροι του πληθυσμού και οι σημειακές τους εκτιμήσεις 14
Πλεονεκτήματα Μειονεκτήματα των Σημειακών Εκτιμητών Οι σημειακοί εκτιμητές κατασκευάζονται με τέτοιο τρόπο ώστε να ικανοποιούν συγκεκριμένες ιδιότητες, όπως η αμεροληψία, η συνέπεια και η αποτελεσματικότητα. Έτσι εξασφαλίζεται ότι η σημειακή εκτίμηση που παράγουν, είναι η βέλτιστη εκτίμηση της παραμέτρου που θα μπορούσαμε να πάρουμε από το μοναδικό δείγμα που διαθέτουμε. Παρόλα αυτά, οι σημειακές εκτιμήσεις παρουσιάζουν κάποια μειονεκτήματα. 1) Στην πραγματικότητα, μια σημειακή εκτίμηση είναι πάντα εσφαλμένη. Είναι, δηλαδή, απίθανο να πετύχουμε ακριβώς τον στόχο. 2) Δεν γνωρίζουμε πόσο κοντά στην πραγματική τιμή της παραμέτρου βρίσκεται η σημειακή μας εκτίμηση. 3) Δεν μας δίνουν πληροφορίες για την επίδραση του μεγέθους του δείγματος στην εκτίμηση της παραμέτρου. 15
Διαστήματα Εμπιστοσύνης (Confidence Intervals) Το Διάστημα Εμπιστοσύνης μιας παραμέτρου, είναι ένα διάστημα τιμών LU,, για το οποίο η πιθανότητα να περιέχει (να έχει εντοπίσει) την πραγματική τιμή της παραμέτρου είναι αυξημένη και ίση με μια δεδομένη τιμή 1 α. Δηλαδή Καθώς το διάστημα εμπιστοσύνης μιας παραμέτρου κατασκευάζεται από τον σημειακό της εκτιμητή, λαμβάνει υπόψη του την κατανομή δειγματοληψίας του εκτιμητή και αντανακλά τις συνέπειες του μεγέθους το δείγματος. Τα άκρα ενός διαστήματος εμπιστοσύνης είναι τυχαίες μεταβλητές. Αυτό σημαίνει ότι διαφορετικά δείγματα του ίδιου μεγέθους θα δώσουν διαφορετικά διαστήματα εμπιστοσύνης, κάποια από τα οποία θα έχουν αποτύχει να εντοπίσουν την τιμή της παραμέτρου στον πληθυσμό. 16
Διαστήματα Εμπιστοσύνης Συμβολισμοί και Ερμηνεία Η πιθανότητα (1 α) το διάστημα εμπιστοσύνης να περιέχει την πραγματική τιμή της παραμέτρου στον πληθυσμό, ονομάζεται συντελεστής (ή επίπεδο) εμπιστοσύνης (confidence coefficient / level). Τότε, η πιθανότητα α δεν είναι τίποτα άλλο παρά η πιθανότητα σφάλματος, δηλαδή η πιθανότητα το διάστημα εμπιστοσύνης να μην περιέχει την πραγματική τιμή της παραμέτρου. Ονομάζουμε αυτή την πιθανότητα επίπεδο σημαντικότητας (significance level). Ονομάζουμε ένα διάστημα εμπιστοσύνης από τον συντελεστή εμπιστοσύνης του. Για παράδειγμα, όταν λέμε 95% δ.ε., αυτό σημαίνει ότι η πιθανότητα το διάστημα εμπιστοσύνης να περιέχει την πραγματική τιμή της παραμέτρου είναι 95% (1 α = 0.95) Το εύρος ενός διαστήματος εμπιστοσύνης εξαρτάται από το συντελεστή εμπιστοσύνης, το μέγεθος του δείγματος και το τυπικό σφάλμα της σημειακής εκτίμησης. Το εύρος αυξάνεται όταν αυξάνεται το τυπικό σφάλμα της εκτιμήτριας ή ο συντελεστής εμπιστοσύνης, ενώ μειώνεται όταν αυξάνει το μέγεθος του δείγματος. 17
Διάστημα Εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού
100(1 α )% Διάστημα Εμπιστοσύνης του μέσου μ όταν η διασπορά σ 2 και η Κατανομή του πληθυσμού μας είναι άγνωστες Προϋποθέσεις χρήσεις του τύπου Μεγάλο Δείγμα (n > 30) s n Z a 2 όπου: s Η πιθανότητα σφάλαμτος (συντελεστής εμπιστοσύνης) Το μέγεθος του δείγματος Ο δειγματικός μέσος Η δειγματική τυπική απόκλιση Τιμές που βρίσκονται από τον πίνακα της Κανονικής Κατανομής και τη σχέση 19
Παράδειγμα 1 Λύση 20
100(1 α )% Διάστημα Εμπιστοσύνης του μέσου μ όταν η Διασπορά σ 2 είναι άγνωστη αλλά η Κατανομή του είναι Κανονική Προϋποθέσεις χρήσεις του τύπου Ο πληθυσμός να είναι Κανονικός όπου: Η δειγματική τυπική απόκλιση τιμή από τον πίνακα της Κατανομής t - Student ΣΗΜΑΝΤΙΚΕΣ ΠΑΡΑΤΗΡΗΣΕΙΣ Όταν έχουμε μεγάλο δείγμα (n > 30), τότε η τιμή μπορεί να αντικατασταθεί από την τιμή Όταν η Κατανομή του πληθυσμού ΔΕΝ ΕΙΝΑΙ Κανονική ΚΑΙ το ΔΕΙΓΜΑ είναι ΜΙΚΡΟ, το διάστημα εμπιστοσύνης του μέσου ΔΕΝ ΜΠΟΡΕΙ ΝΑ ΥΠΟΛΟΓΙΣΤΕΙ. 21
Παράδειγμα 2 Λύση 22
(1- α)% - Διάστημα Εμπιστοσύνης του μέσου Στην περίπτωση που η διασπορά σ 2 του πληθυσμού είναι γνωστή, για τον υπολογισμό των παραπάνω διαστημάτων εμπιστοσύνης χρησιμοποιείτα ο τύπος 23
n 1 Πίνακας της Κατανομής t - Student 24
Σημαντική Παρατήρηση Η πιθανότητα σφάλματος, είναι η πιθανότητα το διάστημα εμπιστοσύνης που εκτιμήσαμε να μην περιέχει την πραγματική τιμή της παραμέτρου, και όχι η πιθανότητα η πραγματική τιμή της παραμέτρου να μην περιέχεται στο διάστημα εμπιστοσύνης!!! Παρόλο που φαίνεται ότι οι παραπάνω δύο εκφράσεις αναφέρονται στο ίδιο γεγονός, για τη Θεωρία των Πιθανοτήτων και τη Στατιστική έχουν μία σημαντική διαφορά. Η πραγματική τιμή της παρμέτρου είναι μοναδική και βρίσκεται σε συγκεκριμένο σταθερό σημείο. Το ερώτημα, λοιπόν, είναι εάν το διάστημα εμπιστοσύνης που εκτιμούμε έχει καταφέρει να «κλείσει» μέσα στα όριά του, αυτό το σημείο. Η πιθανότητα σφάλματος χαρακτηρίζει το διάστημα εμπιστοσύνης και όχι την παράμετρο. Με άλλα λόγια, είναι η πιθανότητα το διάστημα εμπιστοσύνης που εκτιμούμε να αποτύχει, τελικά, στο σκοπό του. 25
Επιλογή του συντελεστή εμπιστοσύνης Στο παράδειγμα 2, επιλέξαμε συντελεστή εμπιστοσύνης 90% για την εκτίμηση του διαστήματος εμπιστοσύνης, το οποίο βρέθηκε (4934.263, 5065.738) Τί θα γινόταν, αν επιλέγαμε έναν πολύ μεγαλύτερο συντελεστή εμπιστοσύνης, για παράδειγμα 99%; Το μόνο που θα άλλαζε, θα ήταν η τιμή t ;n 1 η οποία τώρα θα 2 ήταν μεγαλύτερη από πρίν. t t 2. 947 αντί t t 1. 753 ; 16 1 0. 005; 15 ; 16 1 0. 05; 15 0. 01 0. 10 2 2 Αυτό θα είχε σαν αποτέλεσμα να πάρουμε ένα διάστημα εμπιστοσύνης το οποίο θα ήταν μεγαλύτερο από το προηγούμενο. Δηλαδή το (4906.363, 5093.638) αντί του (4934.263, 5065.738) Και αυτό συμβαίνει πάντα. Για δεδομένο μέγεθος δείγματος και για την ίδια διασπορά, το μόνο που καταφέρνουμε όταν επιλέγουμε μεγαλύτερους συντελεστές εμπιστοσύνης, είναι να εκτιμούμε μεγαλύτερα διαστήματα. Στην πράξη όμως, ένα μεγάλο διάστημα εμπιστοσύνης μπορεί να μην έχει καμία χρησιμότητα. 26
Επιλογή του συντελεστή εμπιστοσύνης Επιθυμούμε ακρίβεια στις εκτιμήσεις μας. Όταν το διάστημα εμπιστοσύνης μεγαλώνει, η ακρίβεια χάνεται. Κατασκευάσαμε διαστήματα εμπιστοσύνης, για να μπορούμε να πούμε κάτι καλύτερο, π.χ. από το ότι «το μέσο ύψος των καταθέσεων όψεως είναι περίπου 5000». Κατασκευάσαμε διαστήματα εμπιστοσύνης, ακριβώς για να προσδιορίσουμε, να «ποσοτικοποιήσουμε», να δώσουμε νόημα σε αυτό το «περίπου». Θέλουμε να έχουμε διαστήματα αρκετά μικρά, ώστε να ικανοποιούν την ανάγκη μας για ακρίβεια, και ταυτόχρονα να έχουν έναν υψηλό συντελεστή εμπιστοσύνης. Αυτά όμως τα δύο κριτήρια βρίσκονται σε σύγκρουση. Στην πράξη, οι ποιό συνηθισμένες επιλογές συντελεστή εμπιστοσύνης είναι 0.90 (α = 0.10) και 0.95 (α = 0.05) 27