Κεφάλαιο 2 Γενικά περί Στατιστικής Συµπερασµατολογίας Σε πάρα πολλούς τοµείς της ανθρώπινης δραστηριότητας δεδοµένα συλλέγονται και αναλύονται µε σκοπό την απόκτηση γνώσης, την εξαγωγή συµπερασµάτων και σε πολλές περιπτώσεις τη λήψη αποφάσεων. Ενδεικτικά παραδείγµατα αποτελούν: Η πρόβλεψη εκλογικών αποτελεσµάτων. Ο έλεγχος ποιότητας ενός προϊόντος, πριν διατεθεί µαζικά στην α- γορά. Η σύγκριση δύο ανταγωνιστικών «προϊόντων», όπως ϑεραπευτικών αγωγών, ϕαρµάκων, µεθόδων διδασκαλίας. Η αναζήτηση ποιοτικής ή ποσοτικής σχέσης (µαθηµατικού µοντέλου) µεταξύ καθορισµένων επιβαρυντικών παραγόντων και συγκεκριµένης ασθένειας. Σε αδρές γραµµές, Στατιστική είναι η επιστήµη που ασχολείται µε τη συλλογή δεδοµένων, την ανάλυση τους και την ερµηνεία τους. Στα αρχικά στάδια της ανάπτυξης της η Στατιστική περιοριζόταν στην απλή καταγραφή στοιχείων και τη συνοπτική παρουσίαση τους µέσω πινάκων, σχεδιαγραµµάτων και υπολογισµών απλών δεικτών (µέσοι όροι, ποσοστά κ.λ.π.). Αρχικά λοιπόν η Στατιστική είχε εµπειρικό (περιγραφικό) χαρακτήρα (Περιγραφική Στατιστική). Από τις αρχές του 20ου αιώνα όµως, µε 41
42 Γενικά περί Στατιστικής Συµπερασµατολογίας την ανάπτυξη και τη µαθηµατική ϑεµελίωση της Θεωρίας Πιθανοτήτων, η Στατιστική εκτός από την αρχική περιγραφική της µορφή (που εξακολουθεί να διατηρεί) άρχισε παράλληλα να προσλαµβάνει αυστηρή και µαθηµατική µορφή (Μαθηµατική Στατιστική) και να αναδεικνύεται ως έ- νας νέος αυτοδύναµος κλάδος των Θετικών Επιστηµών. Κατά τα τελευταία είκοσι χρόνια περίπου, σε συνδυασµό µε τη διαθέσιµη και ολοένα αυξανόµενη ισχύ των υπολογιστών, έχει παρατηρηθεί µεγάλη ανάπτυξη της Στατιστικής προς την κατεύθυνση της ϑεωρίας και µεθοδολογίας ανάλυσης µεγάλου έως τεράστιου µεγέθους δεδοµένων (Big Data Statistics). Σήµερα η Στατιστική (Περιγραφική ή Μαθηµατική) έχει εφαρµογές στις οικονοµικές επιστήµες (Economic and Business Statistics), στις ϕυσικές επιστήµες (Physical and Engineering Sciences Statistics), στις κοινωνικές επιστήµες (Social Statistics), στις επιστήµες υγείας (Medical Statistics, Biostatistics, Statistical Genetics), στη Βιοµηχανία (Industrial Statistics), στην Ψυχολογία (Psychometrics), στη Λογοτεχνία (Stylometry, the statistical analysis of literary style), και αλλού. Στη Μαθηµατική Στατιστική τα προς ανάλυση δεδοµένα ϑεωρούνται τι- µές τυχαίων µεταβλητών, έχουν δηλαδή προκύψει από ένα πείραµα τύχης (random experiment, Ενότητα 1.1) σύµφωνα µε κάποια κατανοµή πιθανότητας. Ανάλογα µε το υπό µελέτη ϕυσικό πρόβληµα, αυτή η κατανοµή πιθανότητας είναι εντελώς ή εν µέρει άγνωστη. (στο Παράδειγµα 2.1 παρακάτω η κατανοµή είναι εν µέρει άγνωστη.) Ο πυρήνας της Μαθηµατικής Στατιστικής είναι η Στατιστική Συµπερασµατολογία, που έχει ως αντικεί- µενο την εξαγωγή συµπερασµάτων από τα δεδοµένα, για µία παράµετρο (κάποιο χαρακτηριστικό) της προαναφερθείσης κατανοµής πιθανότητας. Αυτή η παράµετρος έχει άγνωστη τιµή, γι αυτό ϑα αναφέρεται στη συνέχεια ως άγνωστη παράµετρος και συνήθως, στην πράξη, έχει ϕυσική ερµηνεία, δηλαδή µπορεί να είναι π.χ. η µέση τιµή, η διασπορά, ένα ποσοστό της κατανοµής ή ακόµη και η ίδια η συνάρτηση κατανοµής. Στην τελευταία περίπτωση, τα συµπεράσµατα αφορούν την ίδια την άγνωστη κατανοµή πιθανότητας. Τέλος τα συµπεράσµατα αυτά µπορούν εν συνεχεία να χρησιµοποιηθούν για τη λήψη αποφάσεων στο υπό µελέτη ϕυσικό
43 πρόβληµα. Η Στατιστική Συµπερασµατολογία (Σ.Σ.) περιλαµβάνει κυρίως τρεις κλάδους. 1. Εκτιµητική ή Σηµειοεκτιµητική (εκτίµηση µε µία τιµή, ένα σηµείο). Είναι ο κλάδος της Σ.Σ. που ασχολείται µε µεθόδους εκτίµησης της άγνωστης παραµέτρου. Η εκτίµηση γίνεται µε τον προσδιορισµό µιας κατάλληλης συνάρτησης, του εκτιµητή, οι τιµές του οποίου α- ναµένουµε να είναι «κοντά» στην τιµή της άγνωστης παραµέτρου. 2. ιαστήµατα Εµπιστοσύνης. Είναι ο κλάδος της Σ.Σ. που ασχολείται µε τον προσδιορισµό διαστήµατος (περιοχής γενικότερα) που περιέχει µε «µεγάλη» πιθανότητα την άγνωστη παράµετρο. Αντί λοιπόν µιας τιµής που παρέχει ένας εκτιµητής, δίνεται ένα διάστηµα τιµών για την άγνωστη παράµετρο. Σε πολλές περιπτώσεις, ένα διάστηµα εµπιστοσύνης παρέχει, επί πλέον, πληροφορίες για το σφάλµα της εκτίµησης της άγνωστης παραµέτρου από ένα συγκεκριµένο εκτι- µητή. 3. Ελεγχος Στατιστικών Υποθέσεων. Είναι ο κλάδος της Σ.Σ. που α- σχολείται µε τον έλεγχο ισχυρισµών (υποθέσεων) για την τιµή της άγνωστης παραµέτρου, η οποία, όπως ήδη αναφέρθηκε, µπορεί να είναι ακόµη και η συνάρτηση κατανοµής. Σε αυτήν την περίπτωση, ο ισχυρισµός µπορεί να είναι ότι τα δεδοµένα έχουν προκύψει από («υπακούουν» σε) µια κατανοµή πιθανότητας, συγκεκριµένης παραµετρικής µορφής. Για να εξηγήσουµε καλύτερα τα παραπάνω, ας εξετάσουµε ένα παράδειγµα. Παράδειγµα 2.1. Εστω ότι µια ϐιοµηχανία, προκειµένου να αποφασίσει, εάν ϑα ϑέσει σε µαζική παραγωγή ένα νέο τύπο ηλεκτρικών λαµπτή- ϱων, ενδιαφέρεται να µελετήσει προκαταβολικά τον µέσο χρόνο Ϲωής τους, θ. Καθώς το νέο αυτό προϊόν δεν έχει ακόµα παραχθεί και δοκιµαστεί, ο µέσος χρόνος Ϲωής θ είναι άγνωστος. Από προηγούµενη εµπειρία η
44 Γενικά περί Στατιστικής Συµπερασµατολογίας Βιοµηχανία ϑεωρεί ότι ο χρόνος Ϲωής X ενός τέτοιου λαµπτήρα µπορεί να περιγραφεί ικανοποιητικά από µια τυχαία µεταβλητή που ακολουθεί την εκθετική κατανοµή. (Μία συζήτηση για την υιοθέτηση της εκθετικής κατανοµής γίνεται στο τέλος του κεφαλαίου.) Επειδή από τον ορισµό του θ έχουµε EX = θ, η πυκνότητα της τυχαίας µεταβλητής X είναι f(x;θ) = (1/θ)e x/θ, x > 0, θ > 0. Το θ είναι στην προκειµένη περίπτωση η άγνωστη παράµετρος. Συµπεράσµατα για το θ µπορούν να εξαχθούν, εκτελώντας ένα απλό πείραµα τύχης: δείγµα n λαµπτήρων τίθεται σε λειτουργία και για καθέναν καταγράφεται (παρατηρείται) ο χρόνος Ϲωής του, έστω, x i,i = 1,2,...,n. Οι αριθµητικές τιµές x 1,x 2,...,x n αποτελούν τα προς ανάλυση δεδοµένα. Εστω ακόµη X i,i = 1,2,...,n, η τυχαία µεταβλητή που εκφράζει το χρόνο Ϲωής του i-οστού λαµπτήρα, πριν την εκτέλεση του πειράµατος. Τα x 1,x 2,...,x n είναι λοιπόν, αντίστοιχα, οι παρατηρηθείσες τιµές των τυχαίων µεταβλητών X 1,X 2,...,X n, η κατανο- µή των οποίων, δηλαδή η παραπάνω εκθετική κατανοµή, είναι εν µέρει άγνωστη, γιατί έχει µεν δεδοµένο µαθηµατικό τύπο, εξαρτάται όµως από την άγνωστη παράµετρο θ. Ας δούµε τώρα τι µπορεί να σηµαίνει καθένας από τους τρεις αυτούς κλάδους στο συγκεκριµένο παράδειγµα. 1. Λόγω της ϕυσικής ερµηνείας του θ ως µέσου χρόνου Ϲωής όλων των λαµπτήρων, η συνάρτηση T(X 1,...,X n ) = (X 1 + + X n )/n, δηλαδή ο µέσος χρόνος Ϲωής των λαµπτήρων του δείγµατος, είναι λογικό να ληφθεί ως εκτιµητής του θ. Η τιµή του εκτιµητή, T(x 1,...,x n ) = (x 1 + + x n )/n, για τις παρατηρηθείσες τιµές x 1,...,x n των X 1,...,X n, ανακοινώνεται ως εκτίµηση (της τιµής) του θ. Αυστηρά, η χρησιµοποίηση του T(X ) µπορεί να δικαιολογηθεί ως εξής. Επειδή από τον Ισχυρό Νόµο των Μεγάλων Αριθµών, Θεώρηµα 1.10.2, X 1 + +X n n µ.π.1 E θ X 1 = θ, καθώς n, αναµένουµε η εκτίµηση (x 1 + + x n )/n να είναι «κοντά» στην άγνωστη τιµή του θ, τουλάχιστον για «µεγάλο» n.
45 2. Ενα διάστηµα εµπιστοσύνης για το θ είναι το διάστηµα της µορφής (T c 1,T + c 2 ), όπου c 1,c 2 ϑετικές, γνωστές, σταθερές και T ο παραπάνω εκτιµητής. Σηµειώνουµε ότι το διάστηµα ορίστηκε µε το σκεπτικό να περιέχει τον εκτιµητή. Εάν π.χ. (x 1 + +x n )/n = 720 ώρες και c 1 = c 2 = 40, τότε η εκτίµηση του θ είναι 720 ώρες µε διάστηµα εµπιστοσύνης (όρια κύµανσης του θ) (680, 760). Οι σταθερές c 1 και c 2 εδώ ελήφθησαν αυθαίρετα, για χάρη απλότητας, γενικά όµως, ο προσδιορισµός τους αποτελεί µέρος της κατασκευής του διαστήµατος εµπιστοσύνης. Εναλλακτικά το διάστηµα αυτό µπορεί να δοθεί στη µορφή720±40, δηλώνοντας έτσι ότι το (µέγιστο) σφάλ- µα της εκτίµησης είναι (κατ εκτίµηση) 40 ώρες. Ενα άλλο διάστηµα εµπιστοσύνης για το θ είναι το διάστηµα της µορφής (c 3 T,c 4 T), ό- που 0 < c 3 < 1 < c 4 είναι γνωστές (προσδιορίσιµες) σταθερές. Η συνθήκη, την οποία ικανοποιούν οι σταθερές, εξασφαλίζει ξανά τη λογική απαίτηση, ώστε το διάστηµα να περιέχει τον εκτιµητή Τ. 3. Η Βιοµηχανία ισχυρίζεται ότι ο µέσος χρόνος Ϲωής των λαµπτήρων είναι τουλάχιστον θ 0, δηλαδή θ θ 0, όπου θ 0 είναι κάποια γνωστή σταθερά. Ο έλεγχος αυτού του ισχυρισµού µπορεί να γίνει χρησιµοποιώντας την εκτίµηση του θ, T(x 1,...,x n ) = (x 1 + + x n )/n. Ο ισχυρισµός µπορεί να απορριφθεί, εάν π.χ. η εκτίµηση T(x 1,...,x n ) είναι «αρκετά» µικρότερη του θ 0. Σηµειώνουµε ότι, αν, αντί για εκθετική, η κατανοµή του χρόνου Ϲωής των λαµπτήρων ϑεωρηθεί εντελώς άγνωστη, η συνάρτησηt(x 1,...,X n ) = (X 1 + +X n )/n µπορεί πάλι να ϑεωρηθεί ως εκτιµητής του θ, λόγω της ϕυσικής ερµηνείας του θ και του ΙΝΜΑ. Οµως τότε απολαµβάνει µόνον ό- σες ιδιότητες δεν συνδέονται µε την εκθετική κατανοµή, π.χ. την ιδιότητα της αµεροληψίας (Πρόταση 4.2.3) και την ιδιότητα της συνέπειας (Ενότητα 7.2). Υιοθετώντας την εκθετική κατανοµή ο ) είναι, επί πλέον, T(X αποδοτικός εκτιµητής (Παράδειγµα 5.2.8). Από το Παράδειγµα 2.1 γίνεται ϕανερό ότι η Σ.Σ. έχει επαγωγικό χα- ϱακτήρα (Επαγωγική Στατιστική), αφού χρησιµοποιεί το δείγµα, δηλαδή
46 Γενικά περί Στατιστικής Συµπερασµατολογίας Θεωρία Πιθανοτήτων Πληθυσµός είγµα Στατιστική Σχήµα 2.1: Στατιστική και Θεωρία Πιθανοτήτων ένα µέρος του υπό µελέτη «πληθυσµού», για να εξάγει συµπεράσµατα για (ολόκληρο) τον «πληθυσµό». Στο Παράδειγµα 2.1, ο «πληθυσµός» είναι το σύνολο των υπό παραγωγή λαµπτήρων. Συµπεράσµατα για το άγνωστο πιθανοθεωρητικό µοντέλο (πυκνότητα) του «πληθυσµού», f(x; θ) = (1/θ)e x/θ, x > 0, µπορούν να εξαχθούν εκτιµώντας το µε το µοντέλο f(x;ˆθ) = (1/ˆθ)e x/ˆθ, x > 0, όπου ˆθ = T(x 1,...,x n ) = (x 1 + +x n )/n. Αντίθετα, στη Θεωρία Πιθανοτήτων το πιθανοθεωρητικό µοντέλο του πλη- ϑυσµού ϑεωρείται πλήρως γνωστό ή δεδοµένο και εποµένως συµπεράσµατα µποϱούν να εξαχθούν (από τον πληθυσµό) για οποιοδήποτε µέρος (δείγµα) αυτού. Αν, για παράδειγµα, γνωρίζαµε ότι θ = 700(ώρες), το πιθανοθεωρητικό µοντέλο (η πυκνότητα) του χρόνου Ϲωής των λαµπτήρων ϑα ήταν f(x;700) = 1 700 e x/700, x > 0, οπότε, π.χ., η πιθανότητα ένας λαµπτήρας να έχει διάρκεια Ϲωής µεγαλύτερη από 1000 ώρες ϑα υπολογιζόταν ως P(X > 1000) = 1 1000 700 e x/700 dx = e 10/7 0.24. Ετσι, η Θεωρία Πιθανοτήτων έχει απαγωγικό χαρακτήρα (ϐλ. Σχήµα 2.1). Στο Παράδειγµα 2.1, η συναρτησιακή µορφή του πιθανοθεωρητικού µοντέλου (της πυκνότητας), f(x; θ) είναι δεδοµένη, και άγνωστη είναι µόνον η τιµή της παραµέτρου θ. Σε αυτές τις περιπτώσεις η Στατιστική Συµπερασµατολογία αναφέρεται ως Παραµετρική Στατιστική Συµπερασµατολογία. Εύλογα όµως µπορεί να τεθεί το ερώτηµα: πάνω σε ποια ϐάση, υποθέτουµε ότι η πυκνότητα ενός πληθυσµού έχει συγκεκριµένη παραµετρική µορφή; Ας µη λησµονούµε ότι πολλά παραµετρικά µοντέλα κατανο- µών πιθανότητας είναι προϊόντα ϐασικής έρευνας µε κίνητρο την ερµηνεία και την πρόβλεψη της συµπεριφοράς αντίστοιχων τυχαίων ϕαινοµένων. Η αναζήτηση τέτοιων µοντέλων είναι σε ένα µεγάλο ϐαθµό το αντικείµενο της Στοχαστικής Μοντελοποίησης, ως κλάδου της Θεωρίας Πιθανοτήτων.
47 Για παράδειγµα, δεδοµένα ορισµένων τροχαίων ατυχηµάτων ή εκποµπών ϱαδιενεργών σωµατιδίων από ϱαδιενεργό υλικό (είναι γνωστό ότι) µπορούν να µοντελοποιηθούν µέσω της κατανοµής Poisson P(θ), θ > 0. Επίσης, δεδοµένα που αφορούν διάρκεια Ϲωής, π.χ. ηλεκτρονικών εξαρτηµάτων, περιγράφονται σε ορισµένες περιπτώσεις ικανοποιητικά από την εκθετική E(θ), θ > 0 ή την Γάµµα G(α, β), θ = (α, β) ή την Weibull κατανοµή, W(α, β), θ = (α, β). εδοµένα, όπως ύψους ή ϐάρους πληθυσµού, που προκύπτουν ως αθροιστικό (συσσωρευτικό) αποτέλεσµα πολλών πα- ϱαγόντων, γενετικών, περιβαλλοντικών κλπ, µπορούν να προσεγγιστούν από την κανονική κατανοµή N(µ, σ 2 ), θ = (µ, σ 2 ), λόγω του Κεντρικού Οριακού Θεωρήµατος. Περαιτέρω, σε δηµοσκόπηση πρόθεσης ψή- ϕου, χρησιµοποιώντας ένα µεγάλο και αντιπροσωπευτικό (τυχαίο) δείγµα n ψηφοφόρων, δεν ϑα υπήρχε, µάλλον, καµία αντίρρηση ο αριθµός X των ψήφων συγκεκριµένου κόµµατος σε επικείµενες ϐουλευτικές εκλογές να προσεγγιστεί από τη διωνυµική κατανοµή, B(n, θ), όπου θ είναι το ποσοστό των ψήφων του κόµµατος στο σύνολο του εκλογικού σώµατος. Σε τελική ανάλυση, η υπόθεση πυκνότητας δοθείσης παραµετρικής µορφής µπορεί να ελεγχθεί µε µεθοδολογίες του Ελέγχου Στατιστικών Υποθέσεων. Υπάρχουν (επίσης) περιπτώσεις κατά τις οποίες, µε ϐάση προηγούµενη ή άλλη γνώση, µπορεί να τεκµηριωθεί η υιοθέτηση ενός γνωστού πιθανοθεωρητικού µοντέλου που περιέχει όµως κάποια άγνωστη παράµετρο. Εάν όµως η συναρτησιακή µορφή του πιθανοθεωρητικού µοντέλου του πληθυσµού είναι εντελώς άγνωστη, τότε η Στατιστική Συµπερασµατολογία αναφέρεται ως Απαραµετρική ή Μη Παραµετρική Στατιστική Συµπερασµατολογία. Ενδεικτικά, οι Προτάσεις 4.2.3, 4.2.4, 4.2.5 και 4.2.6, καθώς και η Ενότητα 4.3 αφορούν σε αυτόν τον κλάδο της Στατιστικής Συµπερασµατολογίας. Το ηλεκτρονικό αυτό ϐοήθηµα πραγµατεύεται κυρίως ϑέµατα Παραµετρικής Στατιστικής Συµπερασµατολογίας. Τα ϑέµατα αυτά είναι το αντικείµενο µελέτης πολλών ελληνικών και ξένων συγγραµµάτων. Στη ϐιβλιογραφία που ακολουθεί παρατίθενται ορισµένα από αυτά στα οποία ο αναγνώστης µπορεί να ανατρέξει.
48 Γενικά περί Στατιστικής Συµπερασµατολογίας Βιβλιογραφία 1. Bickel, P.J. and Doksum, K.A. (1977). Mathematical Statistics: Basic Ideas and Selected Topics. San Francisco: Holden-Day. 2. Casella, G. and Berger, R.L. (2002). Statistical Inference. Duxbury Press; 2nd edition. 3. DeGroot, M.H. and Schervish, M.J. (2010). Probability and Statistics. Pearson Education; 4th edition. 4. Hogg, R.V., McKean, J. and Craig, A.T. (2004). Introduction to Mathematical Statistics. Pearson; 6th edition. 5. Larsen, R.J. and Marx, M.L. (2012). An Introduction to Mathematical Statistics and Its Applications. Pearson; 5th edition. 6. Lehmann, E.L. and Casella, G. (1998). Theory of point estimation. Springer; 2nd edition. 7. Mood, A.M., Graybill, F.A. and Boes, D.C. (1974). Introduction to the Theory of Statistics. McGraw-Hill; 3rd edition. 8. Rice, J.A. (1995). Mathematical Statistics and Data Analysis. Duxbury Press; 2nd edition. 9. Rohatgi, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. John Wiley and Sons, New York. 10. Roussas, G.G. (1997). A Course in Mathematical Statistics. Academic Press; 2nd edition. 11. Roussas, G.G. (2003). An Introduction to Probability and Statistical Inference. Academic Press; 1st edition. 12. Samaniego, F.J. (2014). Stochastic Modeling and Mathematical Statistics: A Text for Statisticians and Quantitative Scientists.Chapman and Hall.
Βιβλιογραφία 49 13. αµιανού, Χ. και Κούτρας Μ. (2003). Εισαγωγή στη Στατιστική. Μέ- ϱος Ι. Σ. Αθανασόπουλος & Σια Ο.Ε. 14. Ηλιόπουλος, Γ. (2013). Βασικές Μέθοδοι Εκτίµησης Παραµέτρων. Εκδόσεις Σταµούλη; 2η έκδοση. 15. Κάκουλλος, Θ. Ν. (1972). Στατιστική Θεωρία και Εφαρµογαί. Αθήνα. 16. Κολυβά - Μαχαίρα, Φ. (1998). Μαθηµατική Στατιστική. Τόµος Ι : Εκτιµητική. Ζήτη Πελαγία & Σια Ο.Ε. 17. Παπαϊωάννου, Π. και Φερεντίνος, Κ. (2001). Μαθηµατική Στατιστική, Εκτιµητική Ελεγχος Υποθέσεων Εφαρµογές. Σταµούλης; 2η έκδοση. 18. Ρούσσας, Γ. (1994). Στατιστική συµπερασµατολογία, Τόµος Ι : Εκτι- µητική. Ζήτη Πελαγία & Σια Ο.Ε.; 2η έκδοση.
50 Γενικά περί Στατιστικής Συµπερασµατολογίας