ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Στα πλαίσια της ΣΤΑΤΙΣΤΙΚΗΣ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑΣ προσπαθούµε να προσεγγίσουµε τα χαρακτηριστικά ενός συνόλου (πληθυσµός) δια της µελέτης των χαρακτηριστικών αυτών επί ενός µικρού υποσυνόλου του (δείγµα), των δεδοµένων µας. 1 Παράµετρος είναι ένας αριθµός ο οποίος περιγράφει τον πληθυσµό. Η παράµετρος έχει µια συγκεκριµένη τιµή, την οποία δεν ξέρουµε, κι ούτε πρόκειται ποτέ να µάθουµε. Στατιστικό είναι ένας αριθµός ο οποίος περιγράφει ένα δείγµα. Η τιµή του στατιστικού µας είναι γνωστή µετά τη δειγµατοληψία, αλλά µπορεί να µεταβάλλεται από δείγµα σε δείγµα. Χρησιµοποιούµε ένα στατιστικό για να εκτιµήσουµε µια παράµετρο 2 1
Σε µια πρόσφατη έρευνα, 2500 ενήλικες ρωτήθηκαν αν συµφωνούν ή διαφωνούν µε το ότι «η οικονοµική κατάσταση βελτιώνεται σταθερά τα τελευταία 10 χρόνια». Από αυτούς οι 1650, δηλαδή το 66% απάντησε ότι συµφωνεί. Ο αριθµός 0.66 είναι ένα στατιστικό. Ο πληθυσµός για τον οποίο η έρευνα επιθυµεί να βγάλει συµπεράσµατα είναι οι κάτοικοι της Ελλάδος, ηλικίας άνω των 18 ετών. Η παράµετρος που µας ενδιαφέρει είναι το ποσοστό όλων των ενηλίκων κατοίκων της Ελλάδος οι οποίοι θα είχαν απαντήσει «συµφωνώ» στη συγκεκριµένη ερώτηση. ε ξέρουµε τη τιµή αυτής της παραµέτρου. 3 Σχηµατίζουµε ένα µεγάλο αριθµό δειγµάτων ίδιου µεγέθους από το συγκεκριµένο πληθυσµό (µε τυχαία δειγµατοληψία). Υπολογίζουµε το ποσοστό pˆ στα δεδοµένα του καθενός εξ αυτών των δειγµάτων. Είναι εντελώς απίθανο να βρούµε το ίδιο. Εποµένως, το στατιστικό δεν είναι παρά µια τυχαία µεταβλητή και υπόκειται στους γνωστούς νόµους. Η κατανοµή πιθανοτήτων του στατιστικού ονοµάζεται δειγµατική κατανοµή και δείχνει µε ποιο τρόπο το στατιστικό διαφοροποιείται µέσα σε επαναλαµβανόµενες δειγµατοληψίες (: όλα τα δυνατά δείγµατα ίδιου µεγέθους). 4 2
Ηδειγµατική κατανοµή του ποσοστού pˆ για 1000 τυχαία δείγµατα µεγέθους 100 ενός πληθυσµού µε p = 0.6. (Είναι X = 0.598, S = 0.051). 5 Εκτός των δειγµατικών κατανοµών για τα στατιστικά που προκύπτουν από τις δειγµατοληψίες που κάνουµε σ έναν πληθυσµό, υπάρχει και η πληθυσµιακή κατανοµή του. Η κατανοµή του ύψους των γυναικών ηλικίας µεταξύ 18 και 24 ετών είναι η κανονική, µε µέση τιµή 64.5inches και τυπική απόκλιση 2.5. Μια γυναίκα επιλέγεται τυχαία και καταγράφεται το ύψος της. Το αποτέλεσµα είναι µια τυχαία µεταβλητή, έστω Χ. εν ξέρουµε το ύψος της τυχαίας επιλεγείσας γυναίκας, αλλά ξέρουµε ότι σε επαναλαµβανόµενες δειγµατοληψίες της Χ, θα έχουµε την ίδια Ν(64.5, 2.52) κατανοµή, η οποία περιγράφει το πρότυπο του ύψους σ ολόκληρο τον πληθυσµό. Η κατανοµή Ν(64.5, 2.52) είναι η πληθυσµιακή κατανοµή. 6 3
Ηπληθυσµιακή κατανοµή µιας µεταβλητής είναι η κατανοµή των τιµών της για όλα τα στοιχεία του πληθυσµού. Είναι επίσης η κατανοµή πιθανοτήτων της µεταβλητής που προκύπτει όταν επιλέγεται τυχαία ένα υποκείµενο του συγκεκριµένου πληθυσµού. 7 Η ΚΑΤΑΝΟΜΗ ΤΟΥ ΕΙΓΜΑΤΙΚΟΥ ΜΕΣΟΥ ΟΡΟΥ (δειγµατική κατανοµή) Έστω ένα δείγµα µεγέθους n από κάποιο πληθυσµό. Σε κάθε υποκείµενο του δείγµατος µετράµε ένα χαρακτηριστικό (: δηµιουργούµε µια µεταβλητή Χ). Τα δεδοµένα σχηµατίζονται από τις παρατηρήσεις των n τυχαίων µεταβλητών Χ1, Χ2,, Χn. Το κάθε Xi είναι µια µέτρηση για κάποιο υποκείµενο του πληθυσµού που επιλέχτηκε τυχαία από τον πληθυσµό και συνεπώς έχει την κατανοµή του. Αν ο πληθυσµός είναι αρκετά µεγάλος, συγκρινόµενος µε το δείγµα που έχουµε, µπορούµε να θεωρήσουµε ότι οι Χ1, Χ2,, Χn είναι ανεξάρτητες τυχαίες µεταβλητές (η κάθε µια µε την ίδια κατανοµή). 8 4
Αποδεικνύεται ότι µ = µ X σ 2 X σ n 2 = (Τυπικό σφάλµα) Όπου µ, σ η µέση τιµή και η τυπική απόκλιση του πληθυσµού 9 Τι µπορούµε να πούµε για τη µορφή της ; 10 5
Άσκηση: Έστω ότι το ύψος των Ελλήνων ακολουθεί την κανονική κατανοµή µε µ = 170cm και σ = 10cm. ιαλέγουµε ένα τυχαίο δείγµα µεγέθους n =25 και ζητάµε την πιθανότητα η µέση τιµή των υψών στο δείγµα να είναι µεγαλύτερη ή ίση των 174cm. 11 12 6
Άσκηση 2: Ο χρόνος που χρειάζεται ένας µαθητής για να τελειώσει την προετοιµασία των ηµερήσιων µαθηµάτων του ακολουθεί κάποια κατανοµή µε µέση τιµή µ = 94min και τυπική απόκλιση σ = 10min. Για ένα δείγµα 64 µαθητών να υπολογιστεί η πιθανότητα ο µέσος χρόνος να κυµαίνεται µεταξύ 92 και 96 πρώτων λεπτών. Άσκηση 3: Ο χρόνος Χ που χρειάζεται ένας τεχνίτης για να πραγµατοποιήσει προληπτική συντήρηση σ ένα air-condition ακολουθεί την εκθετική κατανοµή. Ο µέσος χρόνος ανέρχεται σε µ = 1hr ενώ η τυπική απόκλιση είναι σ = 1hr. Στα γραφεία µιας εταιρείας υπάρχουν 70 τέτοια air-conditions. Ποια είναι η πιθανότητα ότι ο µέσος χρόνος προληπτικής τους συντήρησης θα ξεπεράσει τα 50min; 13 Εκτιµητές σε σηµείο 14 7
Παράδειγµα: Στα πλαίσια µιας µελέτης για την ανάπτυξη της σόγιας, ένας βιολόγος «µεγάλωσε» 13 φυτά του είδους Wells II. Οι συνθήκες ανάπτυξής τους ήταν εργαστηριακές, κι ύστερα από 16 ηµέρες ο βλαστός του καθενός φυτού είχε φτάσει (cm) : 20.2 22.9 23.3 20.0 19.4 22.0 22.1 22.0 21.9 21.5 19.7 21.5 20.9 X = 21.3385 cm S = 1.2190 cm 15 ιαστήµατα εµπιστοσύνης Εκτιµούµε την άγνωστη παράµετρο θ µε ένα διάστηµα τιµών (L, U). Τα άκρα του διαστήµατος ορίζονται από τη σχέση: PL ( < θ < U) = 1 α Το διάστηµα αυτό λέγεται 100(1-α)% διάστηµα εµπιστοσύνης για την παράµετρο θ και η πιθανότητα 1-α λέγεται συντελεστής εµπιστοσύνης. ΣΥΝΗΘΩΣ : 95% δ.ε. & 99% δ.ε. 16 8
ιάστηµα εµπιστοσύνης για την µέση τιµή του πληθυσµού (διασπορά γνωστή) Ξέρουµε ότι για την κατανοµή πιθανοτήτων του δειγµατικού µέσου ισχύει : X N 2 σ ( µ, ) n Z ( X µ ) n = σ N(0,1) 17 Εποµένως το ζητούµενο δ.ε. είναι το X ± z α /2 σ n 18 9
Πρακτικό πρόβληµα η διακύµανση του πληθυσµού σ 2 να µας είναι γνωστή. Αντικατάσταση από τον εκτιµητή της διακύµανσης S 2. Τότε η ποσότητα ( X µ ) S n ακολουθεί την t-κατανοµή µε n-1 β.ε. Το ζητούµενο δ.ε. γίνεται X ± t n 1; α /2 S n 19 Παράδειγµα: Στα πλαίσια µιας µελέτης για την ανάπτυξη της σόγιας, ένας βιολόγος «µεγάλωσε» 13 φυτά του είδους Wells II. Οι συνθήκες ανάπτυξής τους ήταν εργαστηριακές, κι ύστερα από 16 ηµέρες ο βλαστός του καθενός φυτού είχε φτάσει (cm) : 20.2 22.9 23.3 20.0 19.4 22.0 22.1 22.0 21.9 21.5 19.7 21.5 20.9 Να βρεθεί το 95% δ.ε. για τη µέση τιµή µ του µήκους των φυτών σόγιας. 20 10
Τι εννοούµε λέγοντας 100(1-α)% δ.ε. (για τη µέση τιµή µ) 21 22 11