Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos)
Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο Α Μέρος, είδαμε πώς μπορούμε να χρησιμοποιήσουμε βασικές μεθόδους και εργαλεία που μας προσφέρει η Θεωρία Πιθανοτήτων για να μελετήσουμε τυχαίες μεταβλητές. Μάθαμε, για παράδειγμα, να υπολογίζουμε την πιθανότητα η ποσότητα, έστω Χ, ενός συντηρητικού που περιέχει μια φιάλη αναψυκτικού, τυχαία επιλεγμένη από την παραγωγή μιας εταιρείας Α, να υπερβαίνει ένα ανώτατο επιτρεπτό όριο ή πώς μπορούμε να προσδιορίσουμε εκείνη την ποσότητα, x, συντηρητικού, πάνω από την οποία βρίσκεται, π.χ., το % της παραγωγής της εταιρείας, δηλαδή να προσδιορίσουμε την τιμή x της Χ για την οποία P ( X > x ) =., ή πώς μπορούμε να προσδιορίσουμε ένα συμμετρικό, γύρω από τη μέση τιμή μ της Χ, διάστημα, εντός του οποίου να βρίσκεται, π.χ., το 95% της παραγωγής, δηλαδή, ένα διάστημα της μορφής μ x, μ + ) τέτοιο ώστε P( μ x < X < μ + x ) =.95, κ.τλ. ( x Στη Θεωρία Πιθανοτήτων, όπως διαπιστώσαμε, απαραίτητη προϋπόθεση για να απαντήσουμε σε τέτοιου είδους ερωτήματα και γενικότερα για να μελετήσουμε μια τυχαία μεταβλητή είναι να γνωρίζουμε την κατανομή της. Δηλαδή, μπορούμε να απαντήσουμε σε ερωτήματα όπως αυτά που αναφέραμε προηγουμένως και αφορούν στην τυχαία μεταβλητή Χ (ποσότητα συντηρητικού ανά φιάλη αναψυκτικού της εταιρείας Α) μόνο αν γνωρίζουμε την κατανομή της Χ, για παράδειγμα, αν γνωρίζουμε ότι είναι κανονική με μέση τιμή μ = 4mgr και τυπική απόκλιση σ =.5mgr, δηλαδή ότι X ~ N(4,.5 ). Είναι προφανές, ότι λέγοντας «γνωρίζουμε την κατανομή της τυχαίας μεταβλητής» δεν εννοούμε μόνο τη μορφή της (την οικογένεια κατανομών που ανήκει) αλλά και τις παραμέτρους της. Για παράδειγμα, αν γνωρίζουμε ότι το ποσοστό των οπωροφόρων δένδρων στον αργολικό κάμπο που προσβάλλονται κάθε άνοιξη από μια ασθένεια (που τελικά θεραπεύεται) είναι %, τότε, μπορούμε να απαντήσουμε, π.χ., στο ερώτημα, «ποια είναι η πιθανότητα, σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο, να βρεθούν τουλάχιστον 5 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια», γιατί γνωρίζουμε όχι μόνο ότι η κατανομή της τυχαίας μεταβλητής, έστω Υ, που εκφράζει τον αριθμό των δένδρων, από τα 3, που έχουν προσβληθεί είναι Διωνυμική, αλλά και τις παραμέτρους της ( και p), δηλαδή, ότι Y ~ B(3,.). Γεννάται επομένως το εύλογο ερώτημα: μπορούμε και πώς, να μελετήσουμε ένα στοχαστικό φαινόμενο ή πείραμα που περιγράφεται από μια τυχαία μεταβλητή, όταν δε γνωρίζουμε την κατανομή της ή όταν γνωρίζουμε μόνο τη μορφή της (την οικογένεια κατανομών στην οποία ανήκει) και δε γνωρίζουμε (ή δε γνωρίζουμε όλες) τις παραμέτρους της; Η απάντηση είναι ότι μπορούμε και το πώς μας το λέει η Στατιστική. Στη συνέχεια, στις ενότητες που ακολουθούν, θα δούμε σε λεπτομέρεια τις βασικές μεθόδους που μας προσφέρει η Στατιστική και θα επιμείνουμε ιδιαίτερα στη λογική και τα όρια εφαρμογής τους. Στο σημείο αυτό αρκούμαστε να επισημάνουμε μόνο ότι, ενώ στη Θεωρία Πιθανοτήτων για να μελετήσουμε μια τυχαία μεταβλητή πρέπει να γνωρίζουμε την κατανομή της, στη Στατιστική αυτό που, κατ αρχήν, απαιτείται για τη μελέτη μιας τυχαίας μεταβλητής είναι να γνωρίζουμε κάποιες τιμές της (συγκεκριμένα, ένα τυχαίο δείγμα τιμών της). Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos)
Έτσι, στη Θεωρία Πιθανοτήτων, μπορούμε όπως είδαμε στα προηγούμενα, να θέσουμε και να απαντήσουμε, για παράδειγμα, το ερώτημα, «αν το ποσοστό των οπωροφόρων δένδρων στον αργολικό κάμπο που προσβάλλονται κάθε άνοιξη από μια ασθένεια (που τελικά θεραπεύεται) είναι %, ποια είναι η πιθανότητα, σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο, να βρεθούν τουλάχιστον 5 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια», στη Στατιστική, το αντίστοιχο ερώτημα θα ήταν, «αν σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο βρέθηκαν 5 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια, είναι λογικό το ποσοστό των δένδρων που έχουν προσβληθεί φέτος στον αργολικό κάμπο να είναι % ή μήπως κάτι έχει αλλάξει (είναι ίσως μεγαλύτερο ή ίσως μικρότερο από %)». Παρατηρείστε, ότι στο συγκεκριμένο στατιστικό ερώτημα, γνωρίζουμε τη μορφή της κατανομής της τυχαίας μεταβλητής που μελετάμε (Διωνυμική) αλλά δε γνωρίζουμε/ αμφιβάλλουμε/αμφισβητούμε την τιμή μιας παραμέτρου της, της p, και θέλουμε να οδηγηθούμε σε κάποιο συμπέρασμα για αυτήν, με βάση αυτό που παρατηρήσαμε (ότι στα 3 δένδρα που ελέγχθηκαν, βρέθηκαν να έχουν προσβληθεί τα 5). Η Στατιστική δεν απαντάει μόνο σε τέτοιου είδους προβλήματα, όπου, για την κατανομή της τυχαίας μεταβλητής που περιγράφει κάποιο στοχαστικό φαινόμενο ή πείραμα, γνωρίζουμε τη μορφή της (σε ποια οικογένεια κατανομών ανήκει) και θέλουμε, με βάση αυτό που παρατηρήσαμε σε ένα τυχαίο δείγμα τιμών της, να εκτιμήσουμε ή να οδηγηθούμε σε κάποιο συμπέρασμα για κάποια παράμετρό της (ή κάποιες παραμέτρους της) που δε γνωρίζουμε. Απαντάει και σε ερωτήματα που αφορούν μια τυχαία μεταβλητή ακόμη και όταν δε γνωρίζουμε τη μορφή της κατανομής της ή σε ερωτήματα που ελέγχουν τη μορφή της αλλά και σε άλλα που αφορούν δύο ή περισσότερες τυχαίες μεταβλητές. Για το πώς η Στατιστική, με βάση ένα τυχαίο δείγμα, απαντάει σε τέτοιου είδους ερωτήματα, θα αναφερθούμε, στην έκταση και το βάθος που απαιτείται, στη συνέχεια. Στο σημείο αυτό θα επισημάνουμε μόνο ότι αυτό επιτυγχάνεται με αξιοποίηση αποτελεσμάτων και μεθόδων της Θεωρίας Πιθανοτήτων. Γιατί «αυτό που παρατηρείται» στο τυχαίο δείγμα, εκφράζεται μέσω Στατιστικών Συναρτήσεων/ Δειγματοσυναρτήσεων οι οποίες, όπως θα δούμε, είναι τυχαίες μεταβλητές των οποίων, σε πολλές περιπτώσεις, γνωρίζουμε τις αντίστοιχες κατανομές!!!. Μία τέτοια τυχαία μεταβλητή-δειγματοσυνάρτηση (τη δειγματική μέση τιμή X ), γνωρίσαμε ήδη στο Α Μέρος. Θυμηθείτε και τα προβλήματα-εφαρμογές του Κεντρικού Οριακού Θεωρήματος που συζητήσαμε. Όπως, θα διαπιστώσουμε και στη συνέχεια, οι στατιστικές μέθοδοι αποτελούν εφαρμογές της Θεωρίας Πιθανοτήτων. Επομένως, για να τις κατανοήσουμε, ώστε να μπορούμε να τις εφαρμόζουμε σωστά, πρέπει να έχουμε κατανοήσει τα θέματα πιθανοθεωρίας που πραγματευθήκαμε στο Α Μέρος. Στην ενότητα «Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση», αναφερθήκαμε στους τρεις βασικούς κλάδους της Στατιστικής:. Πειραματικός Σχεδιασμός (Experimetal Desig) και Θεωρία Δειγματοληψίας (Samplig Theory) Είναι κλάδοι της Στατιστικής που, σε γενικές γραμμές, έχουν ως αντικείμενο την ανάπτυξη μεθόδων για τη συλλογή τιμών της τυχαίας μεταβλητής που μελετάμε μέσω της εκτέλεσης πειραμάτων ή δειγματοληψιών αντίστοιχα.. Περιγραφική Στατιστική (Descriptive Statistics) Είναι ο κλάδος της Στατιστικής που έχει ως αντικείμενο την ανάπτυξη μεθόδων για τη συνοπτική και εύληπτη παρουσίαση τιμών της τυχαίας μεταβλητής που μελετάμε ώστε να μπορέσουμε να περιγράψουμε και να κατανοήσουμε την κατανομή τους. Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 3
3. Στατιστική Συμπερασματολογία (Statistical Iferece) Είναι ο κλάδος της Στατιστικής που έχει ως αντικείμενο την ανάπτυξη μεθόδων για την ανάλυση τιμών της τυχαίας μεταβλητής που μελετάμε και την εξαγωγή συμπερασμάτων για αυτήν. Διακρίνεται στην παραμετρική και τη μη παραμετρική συμπερασματολογία. Στη συνέχεια, δε θα αναφερθούμε σε θέματα δειγματοληψίας και πειραματικού σχεδιασμού. Θα κάνουμε την παραδοχή ότι τα δείγματα που έχουμε στη διάθεσή μας είναι αντιπροσωπευτικά δείγματα. Δηλαδή, ότι έχουν επιλεγεί σύμφωνα με τις αρχές, τα κριτήρια και τις μεθόδους της Θεωρίας Δειγματοληψίας και του Πειραματικού Σχεδιασμού. Στο ερώτημα «πώς μπορούμε να επιλέξουμε ένα αντιπροσωπευτικό δείγμα» δε θα απαντήσουμε στο πλαίσιο του παρόντος. Υπενθυμίζουμε μόνο ότι, όπως είχαμε αναφέρει και στην ενότητα «Στατιστική Προσέγγιση Προβλημάτων: Μια Γενική Επισκόπηση», η απάντηση που δίνουν στο ερώτημα αυτό η Θεωρία Δειγματοληψίας και ο Πειραματικός Σχεδιασμός είναι μια ποικιλία εναλλακτικών σχεδίων δειγματοληψίας και πειραματικών σχεδίων τα οποία ως κοινή βασική αρχή έχουν την απλή τυχαία δειγματοληψία. Έτσι, στη συνέχεια, θα θεωρούμε ότι τα δείγματα που έχουμε στη διάθεσή μας είναι τυχαία δείγματα. Στα επόμενα, ένα τυχαίο δείγμα τιμών μιας τυχαίας μεταβλητής, έστω Χ, θα το συμβολίζουμε με X,... (δηλαδή με κεφαλαία γράμματα όπως τις τυχαίες μεταβλητές) γιατί πρόκειται για τυχαίες μεταβλητές αφού κάθε φορά που επαναλαμβάνουμε τη διαδικασία «από έναν πληθυσμό παίρνω ένα τυχαίο δείγμα μεγέθους» οι τιμές της Χ που παίρνουμε αλλάζουν από επανάληψη σε επανάληψη (ακριβέστερα, μπορεί να αλλάζουν). Γι αυτό και ως τυχαίο δείγμα ορίζουμε ανεξάρτητες τυχαίες μεταβλητές X,... που ακολουθούν την ίδια κατανομή (αυτήν του πληθυσμού από τον οποίο παίρνουμε το δείγμα, δηλαδή την κατανομή της Χ). Οι συγκεκριμένες τιμές της Χ που έχουμε διαθέσιμες για επεξεργασία μετά τη λήψη του δείγματος, αποτελούν μια μόνο πραγματοποίηση ανεξάρτητων και ισόνομων τυχαίων μεταβλητών X,... και στα επόμενα θα τις συμβολίζουμε με x, x,..., x. Οι συγκεκριμένες αυτές τιμές, x, x,..., x, που προκύπτουν από μια πραγματοποίηση του δείγματος X,..., ονομάζονται δεδομένα (data) και από αυτές «αρχίζουν όλα» στη Στατιστική!! Αφετηρία μας λοιπόν στη Στατιστική είναι τα δεδομένα! Γι αυτό εξάλλου χαρακτηρίζεται και ως επιστήμη των δεδομένων. Αρχίζοντας από τα δεδομένα x, x,..., x (που πήραμε από μια πραγματοποίηση τυχαίου δείγματος X,... ), το πρώτο που πρέπει να κάνουμε είναι να τα επεξεργασθούμε κατάλληλα με στόχο, κατ αρχήν, να κατανοήσουμε και να περιγράψουμε την κατανομή τους, δηλαδή, πώς αυτά κατανέμονται στο διάστημα των δυνατών τιμών της τυχαίας μεταβλητής Χ που μελετάμε και από την οποία προέρχονται. Έτσι, θα μπορούμε να δούμε/θα γνωρίζουμε, πόσο συχνά και ποιες τιμές της Χ εμφανίσθηκαν στο δείγμα που πήραμε, πόσο διασκορπισμένες είναι, ποιο είναι το εύρος τους, ο μέσος όρος τους, η μορφή της κατανομής τους, η θέση της, κ.τλ. Τις μεθόδους που μας βοηθούν να κατανοήσουμε και να περιγράψουμε την κατανομή των δεδομένων μας και έτσι να αποκτήσουμε εμπειρική γνώση για την άγνωστη κατανομή της τυχαίας μεταβλητής Χ που μελετάμε, μας τις προσφέρει η Περιγραφική Στατιστική και τις παρουσιάζουμε (και δείχνουμε πώς εφαρμόζονται) στην ενότητα που ακολουθεί. Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 4
Σε επόμενες ενότητες δείχνουμε πώς, αξιοποιώντας τα αποτελέσματα της επεξεργασίας των δεδομένων μας, x, x,..., x, με μεθόδους της Περιγραφικής Στατιστικής αλλά και τις γνώσεις μας στη Θεωρία Πιθανοτήτων, μπορούμε να εφαρμόζουμε μεθόδους της Στατιστικής Συμπερασματολογίας και ειδικότερα, Εκτιμητικής, για την εκτίμηση των άγνωστων παραμέτρων του πληθυσμού που μελετάμε, δηλαδή, της κατανομής της τυχαίας μεταβλητής Χ (όπως, της μέσης τιμής της E [X ] = μ ή της διασποράς της V [ X ] = σ ) και Στατιστικού ελέγχου υποθέσεων, για τον έλεγχο υποθέσεων σχετικών με την κατανομή της Χ (με τις άγνωστες παραμέτρους της ή/και με τη μορφή της). Θα δούμε επίσης, πώς μπορούμε να ελέγξουμε υποθέσεις που αφορούν τη σύγκριση άγνωστων παραμέτρων δύο ή περισσότερων τυχαίων μεταβλητών, καθώς και πώς μπορούμε να ελέγξουμε αν δύο τυχαίες μεταβλητές είναι ή όχι ανεξάρτητες. Θα μπορούμε έτσι, να απαντάμε σε ερωτήματα/προβλήματα όπως αυτά που θέσαμε στην αρχή αυτής της σύντομης εισαγωγής (και όχι μόνο!!!). Δεν πρέπει βέβαια να ξεχνάμε ότι οι απαντήσεις της Στατιστικής αφορούν ερωτήματα που προκύπτουν από τη μελέτη στοχαστικών φαινομένων ή πειραμάτων και επομένως υπόκεινται σε σφάλματα, έστω και ελεγχόμενα (όποια από αυτά). Δηλαδή, δεν πρέπει να ξεχνάμε ότι βεβαιότητες στα στοχαστικά φαινόμενα και πειράματα δεν υπάρχουν! Ολοκληρώνουμε αυτή τη σύντομη εισαγωγή, με ένα σχόλιο που από την εμπειρία μας εκτιμάμε ότι είναι χρήσιμο να κάνουμε. Όπως θα διαπιστώσουμε στη συνέχεια, η εφαρμογή των στατιστικών μεθόδων, ακόμη και όταν αφορά μικρά δείγματα, απαιτεί πολλούς υπολογισμούς και διαφόρων ειδών γραφικές αναπαραστάσεις. Από το πρόβλημα αυτό μας απαλλάσσουν πλέον οι υπολογιστές. Έχει αναπτυχθεί μια πλειάδα κατάλληλων προγραμμάτων, γνωστά στην αργκό των υπολογιστών ως στατιστικά πακέτα, τα οποία και προσιτά είναι αλλά και απλά στη χρήση τους (όπως το SPSS, το Statgraphics, το Statistica, το Miitab κ.ά.). Μάλιστα, έχουν αναπτυχθεί και ειδικά προγραμματιστικά περιβάλλοντα (όπως το περιβάλλον R). Τα προγράμματα αυτά, δε μας απαλλάσσουν όμως μόνο από το μεγάλο όγκο υπολογισμών. Μας δίνουν τη δυνατότητα για καλύτερη και πληρέστερη διερεύνηση των δεδομένων μας. Μας δίνουν, για παράδειγμα, τη δυνατότητα να ελέγξουμε τις προϋποθέσεις εφαρμογής των στατιστικών μεθόδων με πολλούς ή και όλους τους εναλλακτικούς τρόπους που μας προσφέρει η Στατιστική και όχι μόνο με τους απολύτως απαραίτητους ή τους πιο απλούς, γιατί ακριβώς μας απαλλάσσουν από τον υπολογιστικό «θόρυβο». Πέραν όλων αυτών, τα τελευταία χρόνια, έχουν αναπτυχθεί νέες, πολύ ενδιαφέρουσες στατιστικές μέθοδοι οι οποίες δε θα είχαν πρακτική αξία αν δεν υπήρχαν οι δυνατότητες που μας προσφέρουν οι υπολογιστές (όπως, μέθοδοι που βασίζονται σε προσομοιώσεις, επαναλήψεις, τυχαιοποιήσεις). Όμως, η ευρεία διάδοση και η ευκολία χρήσης αυτών των προγραμμάτων «διευκολύνει» και την κακή χρήση της Στατιστικής και αυτόν τον κίνδυνο θέλουμε να επισημάνουμε με αυτό το σχόλιο. Είναι μεγάλο λάθος να νομίζει κάποιος ότι η στατιστική ανάλυση δεδομένων που έκανε, είναι σωστή επειδή «την έκανε ο υπολογιστής». Ο υπολογιστής έκανε τους απαιτούμενους υπολογισμούς για ό,τι εμείς του ζητήσαμε. Εμείς (πρέπει να) γνωρίζουμε ποιες είναι οι κατάλληλες στατιστικές μέθοδοι που πρέπει να εφαρμοσθούν, υπό ποιες προϋποθέσεις και πώς αυτές ελέγχονται. Πρέπει, δηλαδή, να ξέρουμε τι ζητάμε από τον υπολογιστή. Για την επιλογή των κατάλληλων στατιστικών μεθόδων και τη σωστή εφαρμογή τους, κυρίως, απαιτείται, κατανόηση της λογικής, του νοήματος και των ορίων εφαρμογής τους ώστε να ερμηνεύουμε σωστά τα αποτελέσματα και να διατυπώνουμε σωστά συμπεράσματα με επίγνωση του μεγέθους της αβεβαιότητας σε αυτά. Μάλλον υπερβολικό, αλλά και άδικο, να απαιτούμε όλα αυτά από τους υπολογιστές (προς το παρόν τουλάχιστον...)!! Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 5