Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές Στην ενότητα «Από τις Πιθανότητες τη Στατιτική» εξηγήαμε ότι τη Στατιτική «όλα αρχίζουν από τα δεδομένα» Δηλαδή, ότι ε υμπεράματα για έναν πληθυμό του οποίου δε γνωρίζουμε την κατανομή, οδηγούματε με βάη «αυτό που παρατηρείται» ε ένα τυχαίο δείγμα τιμών του Στη υνέχεια, την ενότητα «Περιγραφική Στατιτική», προκειμένου να περιγράψουμε με ποοτικούς όρους την κατανομή ενός δείγματος, ορίαμε διάφορα αριθμητικά περιγραφικά μέτρα (δειγματική μέη τιμή, δειγματική διαπορά, ποοτημόρια του δείγματος, κά τα οποία, όπως αναφέραμε, ονομάζονται τατιτικά (statistics Τα αντίτοιχα αριθμητικά μέτρα που αφορούν όλο τον πληθυμό ονομάζονται παράμετροι (parameters (πληθυμιακή μέη τιμή, πληθυμιακή διαπορά, κά και εξηγήαμε ότι οι παράμετροι ενός πληθυμού είναι, για κάθε πληθυμό, υγκεκριμένοι/μοναδικοί αριθμοί (που μπορεί να μας είναι ή να μη μας είναι γνωτοί ενώ τα τατιτικά, μεταβάλλονται από δείγμα ε δείγμα που παίρνουμε από τον πληθυμό, αλλά μπορούμε να τα υπολογίουμε Δηλαδή, για κάθε υγκεκριμένο δείγμα, τα τατιτικά, μας είναι γνωτά Επομένως, «αυτό που παρατηρείται» ε ένα δείγμα, και με βάη το οποίο θα δούμε τη υνέχεια πώς μπορούμε να οδηγηθούμε ε υμπεράματα για τον πληθυμό από τον οποίο αυτό προέρχεται, μπορούμε να το εκφράουμε, να το ποοτικοποιήουμε, με διάφορα τατιτικά που υπολογίζουμε από αυτό Τα τατιτικά ονομάζονται και τατιτικές υναρτήεις ή δειγματουναρτήεις, γιατί όπως είδαμε, είναι υναρτήεις του δείγματος, δηλαδή, υναρτήεις ανεξάρτητων και ιόνομων τυχαίων μεταβλητών,,, Υπενθυμίζουμε, ότι τη Στατιτική, με τον όρο πληθυμός (populatio, εννοούμε όλες τις τιμές που μπορεί να πάρει ένα κοινό χαρακτηριτικό μιας ομάδας υποκειμένων (ατόμων, αντικειμένων, φυτών, ζώων, τόπων, κτλ το οποίο μεταβάλλεται από υποκείμενο ε υποκείμενο και ονομάζεται μεταβλητή Κάθε υποκείμενο επί του οποίου μετράμε/παρατηρούμε το κοινό χαρακτηριτικό ονομάζεται δειγματοληπτική ή πειραματική μονάδα Υπενθυμίζουμε, επίης, ότι ως τυχαίο δείγμα τιμών μιας μεταβλητής Χ (ενός πληθυμού μεγέθους, ορίαμε ανεξάρτητες και ιόνομες τυχαίες μεταβλητές,,,, αφού κάθε φορά που επαναλαμβάνουμε τη διαδικαία «παίρνω ένα τυχαίο δείγμα τιμών της Χ», οι τιμές της Χ που παίρνουμε αλλάζουν από επανάληψη ε επανάληψη (ακριβέτερα, μπορεί να αλλάζουν Όλες οι τυχαίες μεταβλητές,,,,, είναι ιόνομες γιατί έχουν την ίδια κατανομή, αυτήν της Χ, δηλαδή, την κατανομή του πληθυμού Δεδομένα ονομάζουμε τις υγκεκριμένες τιμές, x, x,, x, της Χ που έχουμε διαθέιμες μετά από μια πραγματοποίηη του τυχαίου δείγματος,,, Επιημαίνουμε και πάλι, ότι βαικό χαρακτηριτικό μιας τατιτικής υνάρτηης, έτω T = T,,,, είναι ότι για υγκεκριμένη πραγματοποίηη, ( x, x,, x, του τυχαίου δείγματος,,,, η τιμή της, T ( x, x,, x, μπορεί να υπολογιθεί, όμως κάθε φορά που την υπολογίζουμε για μια άλλη πραγματοποίηη του τυχαίου δείγματος, αλλάζει, δηλαδή, μια τατιτική υνάρτηη είναι τυχαία μεταβλητή Γι αυτό, τις τατιτικές υναρτήεις τις υμβολίζουμε με κεφαλαία γράμματα, όπως τις τυχαίες μεταβλητές Για παράδειγμα, η δειγματική μέη τιμή, όπως είδαμε την Περιγραφική Στατιτική, υπολογίζεται από το δείγμα, είναι δηλαδή μια τατιτική υνάρτηη-τυχαία μεταβλητή, υμβολίζεται με και ορίζεται από τον τύπο, Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 84
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές = i Η υγκεκριμένη τιμή της, που, κάθε φορά, υπολογίζεται από μια πραγματοποίηη, x, x,, x, του τυχαίου δείγματος,,,, υμβολίζεται με x, δηλαδή, x = x i Δύο άλλες τατιτικές υναρτήεις, που γνωρίαμε την Περιγραφική Στατιτική, είναι η δειγματική διαπορά και η δειγματική τυπική απόκλιη, που ορίζονται, αντίτοιχα, από τους τύπους, = ( i και = ( i Αυτές οι τρεις τατιτικές υναρτήεις, όπως θα διαπιτώουμε τη υνέχεια, είναι πολύ χρήιμες (ακριβέτερα, είναι απαραίτητες τη τατιτική υμπεραματολογία, όπως και άλλες, «πιο ύνθετες», για παράδειγμα, η τατιτική υνάρτηη, ( μ T = Βέβαια, η T, είναι-ύμφωνα με τα προηγούμενα-τατιτική υνάρτηη, μόνο εφόον η παράμετρος μ (η μέη τιμή της Χ είναι γνωτή (ή αν υποθέουμε/θεωρήουμε κάποια τιμή μ 0, ως τιμή της γιατί μόνο τότε μπορούμε να υπολογίουμε την τιμή της από ένα τυχαίο δείγμα Εφόον μια, οποιαδήποτε, τατιτική υνάρτηη είναι τυχαία μεταβλητή, έχει κάποια κατανομή πιθανοτήτων των δυνατών τιμών της Η κατανομή πιθανοτήτων των τιμών που μπορεί να πάρει μια τατιτική υνάρτηη για όλα τα τυχαία δείγματα ίδιου μεγέθους από τον ίδιο πληθυμό (ή αλλιώς, για όλες τις πραγματοποιήεις ενός τυχαίου δείγματος, ονομάζεται δειγματοληπτική κατανομή ή δειγματική κατανομή ή κατανομή δειγματοληψίας (samplig distributio της τατιτικής υνάρτηης Έτι, αν γνωρίζουμε την κατανομή μιας τατιτικής υνάρτηης, για παράδειγμα της, μπορούμε να υπολογίουμε την πιθανότητα P( a, δηλαδή, την πιθανότητα, ε μια πραγματοποίηη του τυχαίου δείγματος, η δειγματική μέη τιμή να πάρει την τιμή a ή κάποια μεγαλύτερη Επίης, θα μπορούμε να υπολογίουμε την πιθανότητα P( a b ή οποιαδήποτε άλλη πιθανότητα για τη δειγματική μέη τιμή Αυτή η δυνατότητα, να μπορούμε να υπολογίζουμε πιθανότητες που αφορούν τατιτικές υναρτήεις, αποτελεί όπως θα διαπιτώουμε τις ενότητες που ακολουθούν, ημείο κλειδί τη τατιτική υμπεραματολογία Εύλογα, επομένως, γεννάται το ερώτημα: πώς βρίκουμε την κατανομή μιας τατιτικής υνάρτηης, δηλαδή, μια δειγματοληπτική κατανομή; Ένας τρόπος είναι να αξιοποιήουμε τα υμπεράματα χετικών τατιτικών θεωρημάτων ή άλλα πιθανοθεωρητικά αποτελέματα, τα οποία, για διάφορες περιπτώεις τατιτικών υναρτήεων, μας δίνουν επακριβώς ή προεγγιτικά την αντίτοιχη δειγματοληπτική κατανομή Ένας δεύτερος τρόπος (ιδιαίτερα χρήιμος όταν τα χετικά τατιτικά θεωρήματα δε βοηθούν είναι να πάρουμε όλα τα δυνατά τυχαία δείγματα μεγέθους, για καθένα από αυτά να υπολογίουμε την τιμή της τατιτικής υνάρτηης που μας ενδιαφέρει, και να κατακευάουμε το ιτόγραμμα χετικών υχνοτήτων όλων αυτών των τιμών Όμως, επειδή υνήθως, ο αριθμός όλων των τυχαίων δειγμάτων (ιδίου μεγέθους που Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 85
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές μπορούμε να πάρουμε από έναν πληθυμό είναι πολύ μεγάλος, ακόμη και όταν το μέγεθος του πληθυμού δεν είναι μεγάλο, μπορούμε, αντί για όλα τα τυχαία δείγματα, να πάρουμε έναν αριθμό μόνο από αυτά, και να εκτιμήουμε/προεγγίουμε (αντί να υπολογίουμε επακριβώς τη δειγματοληπτική κατανομή που μας ενδιαφέρει Όο μεγαλύτερος είναι ο αριθμός των τυχαίων δειγμάτων που παίρνουμε, τόο καλύτερη, προφανώς, είναι η προέγγιη της δειγματοληπτικής κατανομής Ας δούμε τώρα κάποια αποτελέματα της Θεωρίας Πιθανοτήτων και της Στατιτικής, χρήιμα τη μελέτη τατιτικών υναρτήεων, τα οποία θα αξιοποιήουμε τα επόμενα Οριμένα από αυτά μας είναι ήδη γνωτά από το Α Μέρος Κατανομή της δειγματικής μέης τιμής, ( Αν,,,, τυχαίο δείγμα από κανονικό πληθυμό με μέη τιμή μ και διαπορά, δηλαδή, αν i για κάθε i =,,,, τότε, όπως είδαμε το Α Μέρος, για οποιοδήποτε μέγεθος δείγματος, α E [ ] = μ β Var[ ] = = γ Η κατανομή της είναι κανονική Δηλαδή, αν i, i =,,,, τότε, μ, Ερώτηη: Στο παρακάτω χήμα φαίνεται η υνάρτηη πυκνότητας της κατανομής ενός κανονικού πληθυμού με μ = 9 και = 4 και η υνάρτηη πυκνότητας της δειγματικής μέης τιμής, για δείγματα μεγέθους = 4 από αυτό τον πληθυμό Ποια από τις δύο καμπύλες αντιτοιχεί τη υνάρτηη πυκνότητας της ; 3 7 5 ( Αν το τυχαίο δείγμα,,,, προέρχεται από πληθυμό που ακολουθεί οποιαδήποτε κατανομή, με μέη τιμή μ και διαπορά, τότε, όπως είδαμε το Α Μέρος (ΚΟΘ, για μεγάλο μέγεθος δείγματος (εν γένει, αν 30, η κατανομή της είναι κατά προέγγιη κανονική με E [ ] = μ και Var[ ] = =, δηλαδή, μ, κατά προέγγιη Αν η κατανομή του πληθυμού είναι κανονική προφανώς η προέγγιη αυτή είναι τέλεια για οποιοδήποτε (βλ προηγούμενη περίπτωη Υπόδειξη: Στο ημείο αυτό, είναι χρήιμο να θυμηθείτε τα χετικά με την κατανομή της θέματα που υζητήαμε το Α Μέρος (και τις χετικές ακήεις και προβλήματα Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 86
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές Κατανομή του δειγματικού ποοτού, Pˆ Έτω,,, τυχαίο δείγμα από πληθυμό που ακολουθεί την κατανομή Beroulli με παράμετρο p (πιθανότητα επιτυχίας, δηλαδή, με μέη τιμή μ = p και + + + διαπορά = p ( p Η τυχαία μεταβλητή, δηλαδή, η δειγματική μέη τιμή, η οποία προφανώς εκφράζει το ποοτό των επιτυχιών το δείγμα Pˆ, για μεγάλα, προεγγίζεται ικανοποιητικά από την κανονική κατανομή p ( p με μέη τιμή p και διαπορά (ΚΟΘ Δηλαδή, για μεγάλα,έχουμε, + + + p p Pˆ ( = ~ N p,, κατά προέγγιη Η προέγγιη αυτή είναι ικανοποιητική αν p > 5 και ( p > 5 ή p ( p 0 (θυμηθείτε ότι το πόο μεγάλο πρέπει να είναι το, την περίπτωη αυτή, εξαρτάται και από το p Σημείωη: Η τιμή του δειγματικού ποοτού Pˆ, για υγκεκριμένη πραγματοποίηη, x, x,, x, του τυχαίου δείγματος,,,,, υμβολίζεται με pˆ, δηλαδή, x+ x + + x pˆ = ( μ Με βάη όα αναφέραμε προηγουμένως για την κατανομή της δειγματικής μέης ( μ τιμής, η τυχαία μεταβλητή, προφανώς, ακολουθεί την τυποποιημένη κανονική κατανομή, N (0,, αν το τυχαίο δείγμα προέρχεται από κανονικό πληθυμό ή προεγγίζεται ικανοποιητικά από την τυποποιημένη κανονική κατανομή, N (0,, ανεξάρτητα από την κατανομή του πληθυμού, αν το μέγεθος του δείγματος είναι μεγάλο (εν γένει, αν 30 ( μ ( Αν,,, τυχαίο δείγμα από κανονικό πληθυμό, με μέη τιμή μ και διαπορά, δηλαδή, αν i για κάθε i =,,,, τότε, η τυχαία ( μ μεταβλητή, με = όπου = ( i, ακολουθεί την t- κατανομή με - βαθμούς ελευθερίας, δηλαδή, ( μ ~ t ( Αν,,, τυχαίο δείγμα με μεγάλο (εν γένει, αν 30 αποδεικνύεται ( μ (ΚΟΘ και θεώρημα lutsky ότι η κατανομή της τυχαίας μεταβλητής προεγγίζεται ικανοποιητικά από την τυποποιημένη κανονική κατανομή, N (0, Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 87
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές Στο ημείο αυτό, αξίζει να αναφέρουμε λίγα τοιχεία για την προέλευη της t- κατανομής (κατανομής tudet Η t-κατανομή ή κατανομή tudet, προτάθηκε το 908 από τον William Gosset Στη χετική εργαία που δημοίευε ("The probable error of a mea", Biometrika, 6, -5, 908 χρηιμοποίηε το ψευδώνυμο tudet O Gosset είχε πουδάει Χημεία και Μαθηματικά και εργαζόταν το Δουβλίνο για τη γνωτή ζυθοποιία Guiess ε θέματα τατιτικής υμπεραματολογίας Τα προβλήματα τατιτικής υμπεραματολογίας που μελετούε, αφορούαν πειράματα το κτήμα της ζυθοποιίας για τη βελτίωη ποικιλιών κριθαριού!!! Αφετηρία της ιδέας του Gosset ήταν μια απλή παρατήρηη Επειδή ήταν αναγκαμένος να εργάζεται με μικρού μεγέθους δείγματα (και επομένως δεν «καλυπτόταν» από την περίπτωη ( που είδαμε προηγουμένως παρατήρηε ότι η ( μ κατανομή της τυχαίας μεταβλητής για μικρά δείγματα, έχει μεν κωδωνοειδή μορφή και είναι υμμετρική ως προς τον κατακόρυφο άξονα το 0 όπως η Z 0,, όμως έχει πιο «παχιές» ουρές Παρατήρηε, δηλαδή, ότι για μικρά ( μ δείγματα, η Z 0,, για πολύ μικρές και πολύ μεγάλες τιμές της προβλέπει μικρότερες πιθανότητες από αυτές με τις οποίες υμβαίνουν Δείτε το χήμα που ακολουθεί, όπου φαίνεται η Z 0, και το ιτόγραμμα 500 τιμών της ( μ που υπολογίθηκαν από 500 δείγματα μεγέθους = 4 το καθένα από μια κανονική κατανομή Η παρατήρηη του Gosset είναι προφανής Δηλαδή, η κατανομή t, προέκυψε από την αναζήτηη της κατανομής της τυχαίας ( μ μεταβλητής Η αξία και η χρηιμότητα της t-κατανομής τη τατιτική υμπεραματολογία αναγνωρίθηκε και αναδείχθηκε, πολλά χρόνια αργότερα, από τον διακεκριμένο τατιτικό και γενετιτή R A Fisher ("Applicatios of "tudet's" distributio", Metro 5: 90 04, 95 Έκτοτε, η t-κατανομή είναι γνωτή και ως κατανομή tudet (tudet distributio Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 88
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές ( Αν,,, τυχαίο δείγμα από κανονικό πληθυμό με μέη τιμή μ και διαπορά, δηλαδή, αν i για κάθε i =,,,, τότε, για ( οποιοδήποτε μέγεθος δείγματος, η τυχαία μεταβλητή = i, ακολουθεί την κατανομή χι τετράγωνο (chi-square με - βαθμούς ελευθερίας, δηλαδή, ( ~ χ Στη τατιτική υμπεραματολογία, όπως θα διαπιτώουμε τα επόμενα, παρουιάζονται και προβλήματα που αναφέρονται όχι ε έναν, αλλά ε δύο πληθυμούς Σε αυτές τις περιπτώεις, μας ενδιαφέρουν οι κατανομές τατιτικών υναρτήεων που ορίζονται όχι με βάη ένα τυχαίο δείγμα, αλλά με βάη δύο τυχαία δείγματα, ένα από κάθε πληθυμό Ας δούμε κάποιες τέτοιες περιπτώεις που θα μας χρειαθούν τα επόμενα Στις περιπτώεις που παρουιάζουμε τη υνέχεια, θεωρούμε ότι έχουμε δύο ανεξάρτητα τυχαία δείγματα,,, Y,, Y, ένα από κάθε πληθυμό αντίτοιχα (με μεγέθη, αντίτοιχα, και Επίης, με μ και υμβολίζουμε τη μέη τιμή και τη διαπορά του πληθυμού από τον οποίο προέρχεται το δείγμα,,, και με μ και υμβολίζουμε τη μέη τιμή και τη διαπορά του πληθυμού από τον οποίο προέρχεται το δείγμα Y, Y,, Y Τέλος, με και υμβολίζουμε τη μέη τιμή και τη διαπορά του δείγματος,,, και με Y και τη μέη τιμή και τη διαπορά του δείγματος Y, Y,, Y Δηλαδή, και =, i = ( i Y = Y, j = j= ( Y j Y j= Αν τα δείγματα προέρχονται από κανονικούς πληθυμούς, δηλαδή, αν,,,,, ~ (, Y Y N μ αποδεικνύεται ότι η τυχαία μεταβλητή ακολουθεί την κατανομή F με και βαθμούς ελευθερίας, δηλαδή, ~ F ; Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 89
Στατιτικές Συναρτήεις και Δειγματοληπτικές Κατανομές Y ( Αν τα δύο ανεξάρτητα τυχαία δείγματα,,,, Y,, Y προέρχονται από κανονικούς πληθυμούς, δηλαδή, αν,,, Y,, Y μ,, η κατανομή της τυχαίας μεταβλητής Y είναι κανονική με Y ~ N μ + μ, και επομένως, Y ( μ μ = Z 0, + Σημείωη: Αν τα δείγματα είναι μεγάλα (εν γένει, αν, 30, τα παραπάνω, ιχύουν κατά προέγγιη, ακόμη και αν οι πληθυμοί από τους οποίους προέρχονται τα δείγματα δεν είναι κανονικοί ( Αν τα δύο ανεξάρτητα τυχαία δείγματα,,,, Y,, Y προέρχονται από κανονικούς πληθυμούς, και επιπλέον, οι διαπορές των δύο πληθυμών είναι ίες, = =, δηλαδή, αν,,, και Y, Y,, Y μ,, τότε, Y ( μ μ ~ + t + ( + ( όπου, = μια εκτιμήτρια, με βάη και τα δύο δείγματα, + της κοινής διαποράς των δύο πληθυμών (3 Αν τα δύο ανεξάρτητα τυχαία δείγματα,,,, Y,, Y προέρχονται, αντίτοιχα, από δύο πληθυμούς όχι κατ ανάγκη κανονικούς, αλλά οποιουδήποτε, και αν τα δείγματα είναι μεγάλα (εν γένει, αν 30, τότε, Y ( μ μ 0, κατά προέγγιη +, Ας δούμε τώρα ( επιτέλους που μας χρηιμεύουν όλα τα παραπάνω! Εργατήριο Μαθηματικών&Στατιτικής/Γ Παπαδόπουλος (wwwauagr/gpapadopoulos 90