Ιωάννης Παραβάντης Επίκουρος Καθηγητής Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών Πανεπιστήµιο Πειραιώς Μάρτιος 2010 ειγµατοληπτική κατανοµή 1. Εισαγωγή Με την ενότητα αυτή, µπαίνουµε στις έννοιες της επαγωγικής στατιστικής (inferential statistics). Με τις µεθόδους της επαγωγικής στατιστικής αναλύουµε ένα δείγµα (sample) µε στόχο να γενικεύσουµε τα ευρήµατά µας στον πληθυσµό (population) από τον οποίο προέρχεται το δείγµα. 2. Παράδειγµα παικτών µπάσκετ 2.1. Πληθυσµός Θεωρείστε ένα πολύ µικρό πληθυσµό (population) που αποτελείται από τους παίκτες µιας οµάδας µπάσκετ. Έστω ότι η µόνη µεταβλητή (variable) που µετράµε είναι το ύψος τους (εκφρασµένο σε ίντσες). Η µέση τιµή του ύψους είναι 76+ 78+ 79+ 81+ 86 µ= = 80 5 Συµβολίζουµε τη µέση τιµή (mean) του ύψους µε µ και όχι µε x γιατί πρόκειται να την µέση τιµή του πληθυσµού και όχι του δείγµατος. Επιβεβαιώνουµε την τιµή αυτή και µε την εκτύπωση των περιγραφικών στατιστικών, που µας δίνει στατιστικό πακέτο. 1
DescriptiveStatistics HEIGHT N5 Mean 80.000 SD3.8079 Minimum76.000 1stQuarti77.000 Median79.000 3rdQuarti 83.500 Maximum 86.000 2.2.Έναδείγµα Ανκαιοπληθυσµόςπουεξετάζουµεείναιπολύµικρός,αςσκεφτούµεγιαδείγµαταπουµπορούµε ναπάρουµεαπότονπληθυσµόαυτό. Συγκεκριµένα,έναδείγµαµεγέθους2θαµπορούσενααποτελείταιαπότονπαίκτηB(ύψος78)και τονπαίκτηe(ύψος86),µεµέσούψος 78 + 86 = 82 x= 2 Παρατηρούµεότιστοδείγµααυτόέτυχεοµέσοςόροςτουδείγµατος(82)ναείναιµεγαλύτερος απότηµέσητιµήτουπληθυσµό(80). Αςπάρουµεέναάλλοδείγµατουιδίουµεγέθους,πουνααποτελείταιαπότουςπαίκτεςΑ(ύψος 76)καιτονπαίκτηC(ύψος79).Τοδείγµααυτόέχειµέσούψος 76 + 79 x= = 77.5 2 πουείναιµικρότεροαπότηµέσητιµήτουπληθυσµό(80). Γίνεταιαντιληπτόότιάλλαδείγµατα(π.χ.CκαιD)θαέχουνµέσοόροπολύκοντάήακριβώςίδιο µετονµέσοόροτουπληθυσµού. 2
2.3. Πολλά δείγµατα Ας κάνουµε τώρα ένα σηµαντικό άλµα στην κατανόηση των εννοιών της επαγωγικής στατιστικής, θεωρώντας όλα τα δείγµατα µεγέθους 2 που µπορούµε να πάρουµε από τον πληθυσµό αυτό. Στον παρακάτω πίνακα φαίνονται και τα 10 αυτά δείγµατα µε την µέση τιµή του καθενός. Πως ήξερα ότι τα δείγµατα είναι 10; Εφόσον η σειρά δεν έχει σηµασία (π.χ. το δείγµα A,C είναι ίδιο µε το C,A), µπορούµε να βρούµε εύκολα τον αριθµό των δειγµάτων µε τον τύπο των συνδυασµών (combinations) χωρίς επανάληψη (repetition), δηλαδή χωρίς να µπορούµε να πάρουµε δυο φορές τον ίδιο αριθµό: ( ) C n,k n! 1 2 3 n = = ( n k )! k! 1 2 3 ( n k) [ 1 2 3 k] όπου το τύπος δίνει τον συνολικό αριθµό των συνδυασµών k τιµών που τις παίρνουµε από σύνολο n τιµών. Το θαυµαστικό (!) δηλώνει το παραγοντικό (factorial). Να πως προκύπτουν τα 10 δείγµατα µεγέθους δυο (k= 2 ) από πληθυσµό µεγέθους 5 (n= 5 ): 5! 5! 1 2 3 4 5 120 120 C( 5,2) = = = = = = 10 5 2! 2! 3! 2! 1 2 3 1 2 6 2 12 ( ) ( ) ( ) Εάν η σειρά ήταν σηµαντική (δηλαδή το δείγµα A,C θεωρείτο διαφορετικό από το δείγµα C,A), θα έπρεπε να κάνουµε χρήση άλλου τύπου, για τις αποκαλούµενες µεταθέσεις (permutations) χωρίς επανάληψη. ηλαδή, ο όρος συνδυασµοί αναφέρεται σε µη διατεταγµένα δείγµατα ενώ ο όρος µεταθέσεις σε διατεταγµένα. 3
Στο επόµενο σχήµα φαίνεται ένα διάγραµµα κουκίδων για τους µέσους όρους των δειγµάτων µεγέθους 2. Τι θα συνέβαινε άραγε εάν παίρναµε µεγαλύτερα δείγµατα; Στον επόµενο πίνακα φαίνονται όλα τα δείγµατα µεγέθους 4 και οι µέσοι όροι τους. Ας βεβαιωθούµε ότι δεν έχουµε ξεχάσει κανένα δείγµα: 5! 5! 1 2 3 4 5 120 120 C( 5,4) = = = = = = 5 5 4! 4! 1! 4! 1 1 2 3 4 1 24 24 ( ) ( ) ( ) Πράγµατι, από ένα πληθυσµό µεγέθους 5 µπορούµε να πάρουµε συνολικά 5 δείγµατα µεγέθους 4 (χωρίς επανάληψη και εφόσον η διάταξη δεν έχει σηµασία). Στο επόµενο σχήµα φαίνονται διαγράµµατα κουκίδων για τους µέσους όρους όλων των δειγµάτων µεγέθους 1, 2, 3, 4 και 5. Παρατηρούµε ότι όσο µεγαλώνει το µέγεθος του δείγµατος, τόσο πιο κοντά στον µέσο όρο του πληθυσµό µαζεύονται οι µέσοι όροι των δειγµάτων! Μπορούµε να σκεφτούµε τη διαφορά ανάµεσα στον µέσο όρο του δείγµατος και το µέσο όρο του πληθυσµού σαν σφάλµα που οφείλεται στο ότι εξετάζουµε ένα δείγµα και όχι όλο τον πληθυσµό. ηλαδή, µπορούµε να πούµε ότι το δειγµατοληπτικό σφάλµα (sampling error) µειώνεται όσο αυξάνεται το µέγεθος του δείγµατος! 4
2.4. ειγµατοληπτική κατανοµή Άµα σκεφτούµε προσεκτικά, αντιλαµβανόµαστε ότι οι µέσοι όροι των δειγµάτων έχουν και αυτοί τη δική τους κατανοµή, όπως και τα πρωτογενή δεδοµένα ενός δείγµατος. Η κατανοµή αυτή ονοµάζεται δειγµατοληπτική κατανοµή (sampling distribution) του µέσου όρου και είναι εξαιρετικά σηµαντική έννοια, που µας επιτρέπει να κάνουµε το λογικό άλµα από την περιγραφική στην επαγωγική στατιστική. Η δειγµατοληπτική κατανοµή του µέσου όρου έχει µια πολύ σηµαντική ιδιότητα. Η µέση τιµή της ισούται ( µ x ) µε την µέση τιµή του πληθυσµού (µ ): και αυτό ισχύει για όλα τα µεγέθη δειγµάτων. µ x=µ Με άλλα λόγια, η µέση τιµή των µέσων όρων όλων των δυνατών δειγµάτων του ιδίου µεγέθους είναι ίση µε την µέση τιµή του πληθυσµού. Ας επιβεβαιώσουµε ότι αυτό ισχύει για τις δειγµατοληπτικές κατανοµές του µέσου όρου των δειγµάτων µεγέθους 2 και 5 που εξετάσαµε αναλυτικά. 5
Για τα 10 δείγµατα µεγέθους 2: 77.0+ 77.5+ 78.5+ 81+ 78.5+ 79.5+ 82+ 80+ 82.5+ 83.5 µ x= = 80 10 και για τα 5 δείγµατα µεγέθους 4: Πράγµατι ισχύει. 78.5+ 79.75+ 80.25+ 80.50+ 81 µ x= = 80 5 Εκτός όµως από τη µέση τιµή της δειγµατοληπτικής κατανοµής του µέσου όρου, γνωρίζουµε και την τυπική της απόκλιση, η οποία ονοµάζεται τυπικό σφάλµα (standard error). Η τυπική απόκλιση της δειγµατοληπτικής κατανοµής του µέσου όρου ( σ x ) ισούται µε σ = x σ n όπου σ είναι η τυπική απόκλιση του πληθυσµού και n είναι το µέγεθος του δείγµατος. Ο τύπος επιβεβαιώνει ότι όσο αυξάνει το µέγεθος τους δείγµατος (n) µικραίνει η τυπική απόκλιση της δειγµατοληπτικής κατανοµής του µέσου όρου, δηλαδή η διασπορά των σηµείων αριστερά και δεξιά από το µέσο όρο της κατανοµής. Ας υπολογίσουµε την τυπική απόκλιση των δειγµατοληπτικών κατανοµών του µέσου όρου των δειγµάτων που βρήκαµε προηγουµένως. Για τα 10 δείγµατα µεγέθους 2: Συνεχίζοντας µε παρόµοιο τρόπο βρίσκουµε τις τυπικές αποκλίσεις των δειγµατοληπτικών κατανοµών του µέσου όρου των δειγµάτων όλων των µεγεθών. 6
Για σύγκριση, η τυπική απόκλιση του πληθυσµού είναι: Να λοιπόν που και αριθµητικά επιβεβαιώνουµε ότι η διασπορά των δειγµατοληπτικών κατανοµών του µέσου όρου µειώνεται όσο αυξάνει το µέγεθος του δείγµατος. Με λίγα λόγια, µεγαλύτερα δείγµατα πάσχουν από µικρότερο δειγµατοληπτικό σφάλµα! 2.5. Συµπεράσµατα Αυτές οι ιδιότητες της δειγµατοληπτικής κατανοµής του µέσου όρου είναι εξαιρετικά σηµαντικές γιατί, στην επαγωγική στατιστική, ο πληθυσµός είναι άγνωστος και το µόνο που ξέρουµε είναι ένα δείγµα από αυτόν. Καταλαβαίνουµε επίσης ότι είναι ένα µεγαλύτερο δείγµα είναι καλύτερο από ένα µικρότερο. Βέβαια δεν ξέρουµε όλα τα δείγµατα (συγκεκριµένου µεγέθους) από ένα πληθυσµό αλλά αυτό ξεπερνιέται µε τους στατιστικούς ελέγχους που θα µάθουµε. 7
8
9
10