Β Μέρος Περιγραφική Στατιστική & Στατιστική Συμπερασματολογία
8
8. Από τις πιθανότητες στη στατιστική Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο Α Μέρος, είδαμε πώς μπορούμε να χρησιμοποιήσουμε βασικές μεθόδους και εργαλεία που μας προσφέρει η Θεωρία Πιθανοτήτων για να μελετήσουμε τυχαίες μεταβλητές. Μάθαμε, για παράδειγμα, να υπολογίζουμε την πιθανότητα η ποσότητα, έστω Χ, ενός συντηρητικού που περιέχει μια φιάλη αναψυκτικού, τυχαία επιλεγμένη από την παραγωγή μιας εταιρείας Α, να υπερβαίνει ένα ανώτατο επιτρεπτό όριο ή πώς μπορούμε να προσδιορίσουμε εκείνη την ποσότητα, x, συντηρητικού, πάνω από την οποία βρίσκεται, π.χ., το 1% της παραγωγής της εταιρείας, δηλαδή να προσδιορίσουμε την τιμή x της Χ για την οποία P ( X > x ) =. 1, ή πώς μπορούμε να προσδιορίσουμε ένα συμμετρικό, γύρω από τη μέση τιμή μ της Χ, διάστημα, εντός του οποίου να βρίσκεται, π.χ., το 95% της παραγωγής, δηλαδή, ένα διάστημα της μορφής μ x, μ + ) τέτοιο ώστε P( μ x < X < μ + x ) =.95, κτλ. ( x Στη Θεωρία Πιθανοτήτων, όπως διαπιστώσαμε, απαραίτητη προϋπόθεση για να απαντήσουμε σε τέτοιου είδους ερωτήματα και γενικότερα για να μελετήσουμε μια τυχαία μεταβλητή είναι να γνωρίζουμε την κατανομή της. Δηλαδή, μπορούμε να απαντήσουμε σε ερωτήματα όπως αυτά που αναφέραμε προηγουμένως και αφορούν στην τυχαία μεταβλητή Χ (ποσότητα συντηρητικού ανά φιάλη αναψυκτικού της εταιρείας Α) μόνο αν γνωρίζουμε την κατανομή της Χ, για παράδειγμα, αν γνωρίζουμε ότι είναι κανονική με μέση τιμή μ = 4mg και τυπική απόκλιση σ = 1.5mg, δηλαδή ότι X ~ N(4, 1.5 ). Είναι προφανές, ότι λέγοντας «γνωρίζουμε την κατανομή της τυχαίας μεταβλητής» δεν εννοούμε μόνο τη μορφή της (την οικογένεια κατανομών που ανήκει) αλλά και τις παραμέτρους της. Για παράδειγμα, αν γνωρίζουμε ότι το ποσοστό των οπωροφόρων δένδρων στον αργολικό κάμπο που προσβάλλονται κάθε άνοιξη από μια ασθένεια (που τελικά θεραπεύεται) είναι %, τότε, μπορούμε να απαντήσουμε, π.χ., στο ερώτημα, «ποια είναι η πιθανότητα, σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο, να βρεθούν τουλάχιστον 15 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια», γιατί γνωρίζουμε όχι μόνο ότι η κατανομή της τυχαίας μεταβλητής, έστω Υ, που εκφράζει τον αριθμό των δένδρων, από τα 3, που έχουν προσβληθεί είναι Διωνυμική, αλλά και τις παραμέτρους της (n και p), δηλαδή, γνωρίζουμε ότι Y ~ B(3,.). Γεννάται επομένως το εύλογο ερώτημα: μπορούμε και πώς, να μελετήσουμε ένα στοχαστικό φαινόμενο ή πείραμα που περιγράφεται από μια τυχαία μεταβλητή, όταν δε γνωρίζουμε την κατανομή της ή όταν γνωρίζουμε μόνο τη μορφή της (την οικογένεια κατανομών στην οποία ανήκει) και δε γνωρίζουμε (ή δε γνωρίζουμε όλες) τις παραμέτρους της; Η απάντηση είναι ότι μπορούμε και το πώς μας το λέει η Στατιστική. Στη συνέχεια, στις ενότητες που ακολουθούν, θα δούμε σε λεπτομέρεια τις βασικές μεθόδους που μας προσφέρει η Στατιστική και θα επιμείνουμε ιδιαίτερα στη λογική και τα όρια εφαρμογής τους. Στο σημείο αυτό αρκούμαστε να επισημάνουμε μόνο ότι, ενώ στη Θεωρία Πιθανοτήτων για να μελετήσουμε μια τυχαία μεταβλητή πρέπει να γνωρίζουμε την κατανομή της, στη Στατιστική αυτό που, κατ αρχάς, απαιτείται για τη μελέτη μιας τυχαίας μεταβλητής είναι να γνωρίζουμε κάποιες τιμές της (συγκεκριμένα, ένα τυχαίο δείγμα τιμών της). Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 9
Από τις Πιθανότητες στη Στατιστική Έτσι, στη Θεωρία Πιθανοτήτων, μπορούμε όπως είδαμε στα προηγούμενα, να θέσουμε και να απαντήσουμε, για παράδειγμα, το ερώτημα, «αν το ποσοστό των οπωροφόρων δένδρων στον αργολικό κάμπο που προσβάλλονται κάθε άνοιξη από μια ασθένεια (που τελικά θεραπεύεται) είναι %, ποια είναι η πιθανότητα, σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο, να βρεθούν τουλάχιστον 15 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια», στη Στατιστική, το αντίστοιχο ερώτημα θα ήταν, «αν σε 3 (τυχαία επιλεγμένα) οπωροφόρα δένδρα που ελέγχθηκαν φέτος την άνοιξη στον αργολικό κάμπο βρέθηκαν 15 που να έχουν προσβληθεί από τη συγκεκριμένη ασθένεια, είναι λογικό το ποσοστό των δένδρων που έχουν προσβληθεί φέτος στον αργολικό κάμπο να είναι % ή μήπως κάτι έχει αλλάξει (είναι ίσως μεγαλύτερο ή ίσως μικρότερο από %)». Παρατηρείστε, ότι στο συγκεκριμένο στατιστικό ερώτημα, γνωρίζουμε τη μορφή της κατανομής της τυχαίας μεταβλητής που μελετάμε (Διωνυμική) αλλά δε γνωρίζουμε/ αμφιβάλλουμε/αμφισβητούμε την τιμή μιας παραμέτρου της, της p, και θέλουμε να οδηγηθούμε σε κάποιο συμπέρασμα για αυτήν, με βάση αυτό που παρατηρήσαμε (ότι στα 3 δένδρα που ελέγχθηκαν, βρέθηκαν να έχουν προσβληθεί τα 15). Η Στατιστική δεν απαντάει μόνο σε τέτοιου είδους προβλήματα, όπου, για την κατανομή της τυχαίας μεταβλητής που περιγράφει κάποιο στοχαστικό φαινόμενο ή πείραμα, γνωρίζουμε τη μορφή της (σε ποια οικογένεια κατανομών ανήκει) και θέλουμε, με βάση αυτό που παρατηρήσαμε σε ένα τυχαίο δείγμα τιμών της, να εκτιμήσουμε ή να οδηγηθούμε σε κάποιο συμπέρασμα για κάποια παράμετρό της (ή κάποιες παραμέτρους της) που δε γνωρίζουμε. Απαντάει και σε ερωτήματα που αφορούν μια τυχαία μεταβλητή ακόμη και όταν δε γνωρίζουμε τη μορφή της κατανομής της ή σε ερωτήματα που ελέγχουν τη μορφή της αλλά και σε άλλα που αφορούν δύο ή περισσότερες τυχαίες μεταβλητές. Για το πώς η Στατιστική, με βάση ένα τυχαίο δείγμα, απαντάει σε τέτοιου είδους ερωτήματα, θα αναφερθούμε, στην έκταση και το βάθος που απαιτείται, στη συνέχεια. Στο σημείο αυτό θα επισημάνουμε μόνο ότι αυτό επιτυγχάνεται με αξιοποίηση αποτελεσμάτων και μεθόδων της Θεωρίας Πιθανοτήτων. Γιατί «αυτό που παρατηρείται» στο τυχαίο δείγμα, εκφράζεται μέσω Στατιστικών Συναρτήσεων/ Δειγματοσυναρτήσεων οι οποίες, όπως θα δούμε, είναι τυχαίες μεταβλητές των οποίων, σε πολλές περιπτώσεις, γνωρίζουμε τις αντίστοιχες κατανομές!!!. Μία τέτοια τυχαία μεταβλητή-δειγματοσυνάρτηση γνωρίσαμε ήδη στο Α Μέρος. Πρόκειται για το δειγματικό μέσο X. Θυμηθείτε και τα προβλήματα-εφαρμογές του Κεντρικού Οριακού Θεωρήματος που συζητήσαμε. Όπως, θα διαπιστώσουμε και στη συνέχεια, οι στατιστικές μέθοδοι αποτελούν εφαρμογές της Θεωρίας Πιθανοτήτων. Επομένως, για να τις κατανοήσουμε, ώστε να μπορούμε να τις εφαρμόζουμε σωστά, πρέπει να έχουμε κατανοήσει τα θέματα πιθανοθεωρίας που πραγματευθήκαμε στο Α Μέρος. Στο 1 ο Κεφάλαιο είδαμε ότι η Στατιστική διαρθρώνεται σε τρείς βασικούς κλάδους: Πειραματικός Σχεδιασμός (Experimental Design) και Θεωρία Δειγματοληψίας (Sampling Theory), Περιγραφική Στατιστική (Descriptive Statistics) και Στατιστική Συμπερασματολογία (Statistical Inference). Σε θέματα Δειγματοληψίας και Πειραματικού Σχεδιασμού δε θα αναφερθούμε. Θα κάνουμε την παραδοχή ότι τα δείγματα που έχουμε στη διάθεσή μας είναι αντιπροσωπευτικά δείγματα, δηλαδή, ότι έχουν επιλεγεί σύμφωνα με τις αρχές, τα κριτήρια και τις μεθόδους της Θεωρίας Δειγματοληψίας και του Πειραματικού Σχεδιασμού. Στο ερώτημα επομένως «πώς επιλέγουμε ένα αντιπροσωπευτικό δείγμα» Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 3
Από τις Πιθανότητες στη Στατιστική δε θα απαντήσουμε. Υπενθυμίζουμε μόνο (ξαναδείτε το εισαγωγικό 1 ο Κεφάλαιο), ότι η απάντηση που δίνουν στο ερώτημα αυτό η Θεωρία Δειγματοληψίας και ο Πειραματικός Σχεδιασμός είναι μια ποικιλία εναλλακτικών σχεδίων δειγματοληψίας και πειραματικών σχεδίων τα οποία ως κοινή βασική αρχή έχουν την απλή τυχαία δειγματοληψία. Έτσι, στη συνέχεια, θα θεωρούμε ότι τα δείγματα που έχουμε στη διάθεσή μας είναι τυχαία δείγματα. Ένα τυχαίο δείγμα ν τιμών μιας τυχαίας μεταβλητής, έστω Χ, συμβολίζεται όπως είδαμε με X 1, X, K, Xν, δηλαδή με κεφαλαία γράμματα όπως οι τυχαίες μεταβλητές, γιατί πρόκειται για ν τυχαίες μεταβλητές αφού κάθε φορά που επαναλαμβάνουμε τη διαδικασία «από έναν πληθυσμό παίρνω ένα τυχαίο δείγμα μεγέθους ν» οι ν τιμές της Χ που παίρνουμε αλλάζουν από επανάληψη σε επανάληψη (ακριβέστερα, μπορεί να αλλάζουν). Γι αυτό και ως τυχαίο δείγμα ορίζουμε ν ανεξάρτητες τυχαίες μεταβλητές X 1, X, K, Xν που ακολουθούν την ίδια κατανομή (την κατανομή των τιμών της Χ). Οι συγκεκριμένες ν τιμές της Χ που έχουμε διαθέσιμες για επεξεργασία μετά τη λήψη του δείγματος, αποτελούν μια μόνο πραγματοποίηση ν ανεξάρτητων και ισόνομων 1 τυχαίων μεταβλητών X 1, X, K, X ν και στα επόμενα θα τις συμβολίζουμε με x 1, x, K, xν. Οι συγκεκριμένες αυτές τιμές, x 1, x, K, xν, που προκύπτουν από μια πραγματοποίηση του δείγματος X 1, X, K, Xν, ονομάζονται δεδομένα (data) και από αυτές «αρχίζουν όλα» στη Στατιστική!! Αφετηρία μας λοιπόν στη Στατιστική είναι τα δεδομένα! Γι αυτό εξάλλου χαρακτηρίζεται και ως επιστήμη των δεδομένων. Αρχίζοντας από τα δεδομένα x 1, x, K, xν (που πήραμε από μια πραγματοποίηση τυχαίου δείγματος X 1, X, K, Xν ), το πρώτο που πρέπει να κάνουμε είναι να τα επεξεργασθούμε κατάλληλα με στόχο, κατ αρχάς, να κατανοήσουμε και να περιγράψουμε την κατανομή τους, δηλαδή, πώς αυτά κατανέμονται στο διάστημα των δυνατών τιμών της τυχαίας μεταβλητής Χ που μελετάμε και από την οποία προέρχονται. Έτσι, θα μπορούμε να δούμε/θα γνωρίζουμε, ποιες τιμές της Χ και πόσο συχνά εμφανίσθηκαν στο δείγμα που πήραμε, πόσο διασκορπισμένες είναι, ποιο είναι το εύρος τους, ο μέσος όρος τους, η μορφή της κατανομής τους, η θέση της, κτλ. Τις μεθόδους που μας βοηθούν να κατανοήσουμε και να περιγράψουμε την κατανομή των δεδομένων μας και έτσι να αποκτήσουμε εμπειρική γνώση για την άγνωστη κατανομή της τυχαίας μεταβλητής Χ που μελετάμε, μας τις προσφέρει η Περιγραφική Στατιστική και τις παρουσιάζουμε (και δείχνουμε πώς εφαρμόζονται) στο κεφάλαιο που ακολουθεί. Στα επόμενα κεφάλαια κάνουμε το επόμενο βήμα. Μαθαίνουμε πώς από την κατανομή των δεδομένων οδηγούμαστε επαγωγικά σε συμπεράσματα για την άγνωστη κατανομή της τυχαίας μεταβλητής από την οποία αυτά προέρχονται. Μαθαίνουμε δηλαδή να εφαρμόζουμε (σωστά) μεθόδους της Στατιστικής Συμπερασματολογίας. Πιο συγκεκριμένα, αξιοποιούμε τις γνώσεις μας στη Θεωρία Πιθανοτήτων ώστε να κατανοήσουμε τον τρόπο εφαρμογής και κυρίως το νόημα και τη λογική βασικών μεθόδων εκτιμητικής, για την εκτίμηση των άγνωστων παραμέτρων ενός πληθυσμού, δηλαδή, των άγνωστων παραμέτρων της κατανομής μιας τυχαίας μεταβλητής που μελετάμε (π.χ. της μέσης τιμής της μ, ή της διακύμανσής της σ ) 1 Ισόνομες ονομάζονται οι τ.μ. που ακολουθούν την ίδια κατανομή. Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 31
Από τις Πιθανότητες στη Στατιστική και στατιστικού ελέγχου υποθέσεων, για τον έλεγχο υποθέσεων σχετικά με τις άγνωστες παραμέτρους ενός ή περισσοτέρων πληθυσμών αλλά και άλλου είδους υποθέσεων (που αφορούν, για παράδειγμα, την ανεξαρτησία τυχαίων μεταβλητών). Θα μπορούμε έτσι, να απαντάμε σε ερωτήματα/προβλήματα όπως αυτά που θέσαμε στην αρχή αυτής της σύντομης εισαγωγής (και όχι μόνο!). Δεν πρέπει βέβαια να ξεχνάμε ότι οι απαντήσεις της Στατιστικής αφορούν ερωτήματα που προκύπτουν από τη μελέτη στοχαστικών φαινομένων ή πειραμάτων και επομένως υπόκεινται σε σφάλματα, έστω και ελεγχόμενα (όποια από αυτά). Δηλαδή, δεν πρέπει να ξεχνάμε ότι βεβαιότητες στα στοχαστικά φαινόμενα και πειράματα δεν υπάρχουν! Ολοκληρώνουμε αυτή τη σύντομη εισαγωγή, με ένα σχόλιο που από την εμπειρία μας εκτιμάμε ότι είναι χρήσιμο να κάνουμε. Όπως θα διαπιστώσουμε στη συνέχεια, η εφαρμογή των στατιστικών μεθόδων, ακόμη και όταν αφορά μικρά δείγματα, απαιτεί πολλούς υπολογισμούς και διαφόρων ειδών γραφικές αναπαραστάσεις. Από το πρόβλημα αυτό μας απαλλάσσουν πλέον οι υπολογιστές. Έχει αναπτυχθεί μια πλειάδα κατάλληλων προγραμμάτων, γνωστά στην αργκό των υπολογιστών ως στατιστικά πακέτα, τα οποία και προσιτά είναι αλλά και απλά στη χρήση τους (όπως το SPSS, το Statgraphics, το Statistica, το Minitab κ.ά.). Μάλιστα, έχουν αναπτυχθεί και ειδικά προγραμματιστικά περιβάλλοντα (όπως το περιβάλλον R). Τα προγράμματα αυτά, δε μας απαλλάσσουν μόνο από το μεγάλο όγκο υπολογισμών. Μας δίνουν τη δυνατότητα για καλύτερη και πληρέστερη διερεύνηση των δεδομένων μας. Μας δίνουν, για παράδειγμα, τη δυνατότητα να ελέγξουμε τις προϋποθέσεις εφαρμογής των στατιστικών μεθόδων με πολλούς ή και όλους τους εναλλακτικούς τρόπους που μας προσφέρει η Στατιστική και όχι μόνο με τους απολύτως απαραίτητους ή τους πιο απλούς, γιατί ακριβώς μας απαλλάσσουν από τον υπολογιστικό «θόρυβο». Πέραν όλων αυτών, τα τελευταία χρόνια, έχουν αναπτυχθεί νέες, πολύ ενδιαφέρουσες στατιστικές μέθοδοι οι οποίες δε θα είχαν πρακτική αξία αν δεν υπήρχαν οι δυνατότητες που προσφέρουν οι υπολογιστές (όπως, μέθοδοι που βασίζονται σε προσομοιώσεις, επαναλήψεις, τυχαιοποιήσεις). Όμως, η ευρεία διάδοση και η ευκολία χρήσης αυτών των προγραμμάτων «διευκολύνει» και την κακή χρήση της Στατιστικής και αυτόν τον κίνδυνο θέλουμε να επισημάνουμε με αυτό το σχόλιο. Είναι μεγάλο λάθος να νομίζει κάποιος ότι η στατιστική ανάλυση δεδομένων που έκανε, είναι σωστή επειδή «την έκανε ο υπολογιστής». Ο υπολογιστής έκανε τους απαιτούμενους υπολογισμούς για ό,τι εμείς του ζητήσαμε. Εμείς (πρέπει να) γνωρίζουμε ποιες είναι οι κατάλληλες στατιστικές μέθοδοι που πρέπει να εφαρμοσθούν, υπό ποιες προϋποθέσεις και πώς αυτές ελέγχονται. Πρέπει, δηλαδή, να ξέρουμε τι ζητάμε από τον υπολογιστή. Για την επιλογή των κατάλληλων στατιστικών μεθόδων και τη σωστή εφαρμογή τους, κυρίως, απαιτείται, κατανόηση της λογικής, του νοήματος και των ορίων εφαρμογής τους ώστε να ερμηνεύουμε σωστά τα αποτελέσματα και να διατυπώνουμε σωστά συμπεράσματα με επίγνωση του μεγέθους της αβεβαιότητας σε αυτά. Μάλλον υπερβολικό, αλλά και άδικο, να απαιτούμε όλα αυτά από τους υπολογιστές (προς το παρόν τουλάχιστον...)!! Γεωπονικό Πανεπιστήμιο Αθηνών/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 3