ΚΕΦΑΛΑΙΟ 8. Εισαγωγή στη Μέθοδο Bootstrap

Σχετικά έγγραφα
Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στη θεωρία ακραίων τιμών

ΚΕΦΑΛΑΙΟ 6. Τεχνικές ελάττωσης διακύμανσης

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

X = = 81 9 = 9

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική. Εκτιμητική

Στατιστική Συμπερασματολογία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

Το Κεντρικό Οριακό Θεώρημα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Στατιστική Συμπερασματολογία

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα

ΕΙΣΑΓΩΓΗ Η μελέτη διαφόρων στοχαστικών φαινομένων μπορεί γενικά να γίνει χρησιμοποιώντας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Συμπερασματολογία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 7. Εκτίμηση χαρακτηριστικών ελέγχων υποθέσεων

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Εφαρμοσμένη Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Εφαρμοσμένη Στατιστική

Μέθοδος μέγιστης πιθανοφάνειας

Ενδεικτικές ασκήσεις ΔΙΠ 50

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Στατιστική Επιχειρήσεων ΙΙ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ

Pr(10 X 15) = Pr(15 X 20) = 1/2, (10.2)

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Κεφάλαιο 9. Έλεγχοι υποθέσεων

1 ή Ι = 0 διαφορετικά. Με άλλα λόγια επιλέγουμε τυχαία ένα σημείο στο τετράγωνο (0,1) (0,1) R 2, το (U 1,U 2 ), και εξετάζουμε αν

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 13 Μαρτίου /31

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον ίδιο τον ποταμό;

Εισαγωγή στην Εκτιμητική

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

2. Στοιχεία Πολυδιάστατων Κατανοµών

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ για τη λήψη αποφάσεων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Στατιστική Επιχειρήσεων ΙΙ

Απαραμετρική Στατιστική. Έλεγχοι για k 2 ανεξάρτητους πληθυσμούς

Στατιστική Συμπερασματολογία

Τεχνικές Αναδειγµατοληψίας

Στατιστική Συμπερασματολογία

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Εφαρμοσμένη Στατιστική

5. Έλεγχοι Υποθέσεων

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Εκτιμήτριες. Κώστας Γλυκός ΜΑΘΗΜΑΤΙΚΟΣ. Ασκήσεις για ΑΕΙ και ΤΕΙ. Kglykos.gr. σε Εκτιμήτριες. μέθοδος ροπών και μέγιστης πιθανοφάνειας

9. Παλινδρόμηση και Συσχέτιση

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Transcript:

ΚΕΦΑΛΑΙΟ 8 Εισαγωγή στη Μέθοδο Bootstrap Υπενθυμίζεται ότι έως τώρα ασχοληθήκαμε με το πρόβλημα της εκτίμησης μιας ποσότητας μέσω ενός (ψευδο)τυχαίου δείγματος που παρήχθη με την βοήθεια ενός H/Y. Στο κεφάλαιο αυτό θα μελετήσουμε ένα διαφορετικό πρόβλημα για την αντιμετώπιση όμως του οποίου απαιτείται η χρήση προσομοίωσης. Ο σκοπός είναι αφενός να παρουσιαστεί μία διαφορετική εφαρμογή της μεθόδου προσομοίωσης και αφετέρου να γίνει μία σύντομη εισαγωγή στην πολύ ενδιαφέρουσα μέθοδο Bootstrap. Ας υποθέσουμε ότι λαμβάνουμε ένα (πραγματικό) τυχαίο δείγμα Χ, Χ,..., Χ από έναν πληθυσμό με κατανομή (ενδεχομένως, τα Χ R r και πολυδιάστατη κατανομή) και επιθυμούμε, με βάση το δείγμα αυτό, να εξάγουμε κάποια συμπεράσματα σχετικά με μία παράμετρο θ της κατανομής. Το αρχικό ερώτημα που τίθεται εδώ είναι: - Ποια στατιστική συνάρτηση = (,,..., ) θα χρησιμοποιηθεί για το σκοπό αυτό; και στη συνέχεια ανακύπτουν ερωτήματα της μορφής: - Ποια τα χαρακτηριστικά της (όπως π.χ. κατανομή, μεροληψία, διασπορά, κ.α.); - Πως μπορούμε να κατασκευάσουμε ένα δ.ε. για το θ χρησιμοποιώντας την ; κ.ο.κ. Τα παραπάνω μπορούν να θεωρηθούν από τα βασικά ερωτήματα που θέτει κανείς ξεκινώντας μία οποιαδήποτε στατιστική μελέτη. Οι απαντήσεις βασίζονται στις υποθέσεις που κάνουμε για το εκάστοτε μοντέλο. Ως γνωστό, διακρίνουμε δύο μεγάλες κατηγορίες μοντέλων: τα παραμετρικά και τα απαραμετρικά μοντέλα. Στα παραμετρικά μοντέλα, η κατανομή θεωρείται γνωστή εκτός από κάποιες παραμέτρους της (μία εκ των οποίων προφανώς είναι και η θ), ενώ στα μη παραμετρικά μοντέλα η μορφή της είναι εντελώς άγνωστη. Σε πολλά παραμετρικά μοντέλα τα παραπάνω ερωτήματα μπορούν με ευκολία να απαντηθούν. Για παράδειγμα, αν Χ, Χ,..., Χ ~ N(μ,σ ) και θ = μ, τότε το θ εκτιμάται από την στατιστική συνάρτηση =, η οποία ακολουθεί κατανομή Ν(μ,σ /). Ακόμη και αν είναι άγνωστη η διασπορά της σ.σ. Τ, μπορεί να εκτιμηθεί από το S /, όπου S είναι η δειγματική διασπορά. Επίσης, είναι εύκολο να κατασκευάσουμε δ.ε. για το θ είτε το σ είναι γνωστό είτε είναι άγνωστο. Σε αρκετά όμως παραμετρικά μοντέλα και πολύ περισσότερο σε αρκετά απαραμετρικά, δεν μπορούμε εύκολα να προσδιορίσουμε μία κατάλληλη σ.σ. Τ και στη συνέχεια να βρούμε ή να εκτιμήσουμε τα χαρακτηριστικά της. Αλλά ας δούμε ένα τέτοιο παράδειγμα. Παράδειγμα. Έστω (U,Χ ), (U,Χ ),..., (U,Χ ) ο πληθυσμός τυχαία επιλεγμένων πόλεων των ΗΠΑ τα έτη 90 και 930 αντίστοιχα (U : πληθυσμός τις -πόλης το 90, Χ : πληθυσμός της -πόλης το 930). Αυτό που μας ενδιαφέρει είναι να εκτιμήσουμε τον συνολικό πληθυσμό d των ΗΠΑ το 930 με βάση το συγκεκριμένο δείγμα και γνωρίζοντας ότι το 90 ο πληθυσμός των ΗΠΑ ήταν ίσος με a. Αν οι ΗΠΑ έ- χουν συνολικά k το πλήθος πόλεις, τότε ισχύει ότι a d E ( U ) =, ) = k k και επομένως ο συνολικός πληθυσμός d το 930 θα είναι Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 64

) d = a = a θ. U ) Έστω λοιπόν ότι διαθέτουμε μία πραγματοποίηση (u,x ), =,,..., των (U,Χ ), =,,...,. Συγκεκριμένα, ο παρακάτω πίνακας περιέχει = 49 ζεύγη τιμών (u,x ), =,,..., (σε χιλιάδες κατοίκους, Cochra, 977, p.5) u x u x u x 38 43 76 80 67 67 93 04 38 464 0 5 6 69 387 459 7 83 79 60 78 06 66 86 48 75 60 57 46 65 37 63 507 634 3 9 50 50 64 44 58 3 48 77 89 64 63 30 64 77 56 4 50 40 60 40 64 38 5 36 39 6 30 46 53 43 9 87 05 7 79 56 88 43 6 5 57 94 85 43 50 98 37 36 46 6 3 74 93 45 53 36 54 50 58 Το γράφημα διασποράς των παραπάνω ζευγών θα είναι: 700 600 500 400 300 00 00 0-00 0 00 00 300 400 500 600 U Σε αυτή την περίπτωση δεν φαίνεται να υπάρχει κάποιο προφανές παραμετρικό μοντέλο για την από κοινού κατανομή των (U, ). Εάν είχαμε υποθέσει ότι τα ζεύγη προέρχονται από μία συγκεκριμένη διδιάστατη κατανομή, τότε θα μπορούσαμε να προσδιορίσουμε μία κατάλληλη Τ (π.χ. εκτιμήτρια μέγιστης πιθανοφάνειας του θ = )/U)), να βρούμε την μεροληψία και την διασπορά της και να κατασκευάσουμε δ.ε. για το θ. Στην περίπτωση όπως που δεν επιθυμούμε να κάνουμε καμία υπόθεση σχετικά με την κατανομή των (U, ), πως μπορούμε να βρούμε κατάλληλη Τ και, α- κόμη δυσκολότερο, να εκτιμήσουμε τα χαρακτηριστικά της (ώστε π.χ. να κατασκευάσουμε δ.ε. για το θ); 7.. Εύρεση εκτιμητριών με βάση την εμπειρική συνάρτηση κατανομής. Σε αυτή την παράγραφο θα επιχειρήσουμε να προτείνουμε μία λύση στο αρχικό πρόβλημα που τέθηκε παραπάνω: Δοθέντος ενός τ.δ. Χ, Χ,..., Χ ~ (όπου άγνωστη), ποια στατιστική συνάρτηση = (,,..., ) μπορούμε να χρησιμοποιή- Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 65

σουμε προκειμένου να εκτιμήσουμε μία παράμετρο θ της κατανομής χωρίς να κάνουμε καμία υπόθεση για την μορφή της ; Το πρώτο βήμα είναι να περιγράψουμε την εξάρτηση της παραμέτρου θ από την. Θα γράφουμε ότι θ = θ για να υποδηλώσουμε την εξάρτηση αυτή. Για παράδειγμα, αν θ είναι η μέση τιμή ή η διασπορά ή το άνω a-σημείο της κατανομής, τότε θ = xd( ή ( ) θ = ( ) x d x xd x ή θ ( a) =, αντίστοιχα. Εναλλακτικά, μπορούμε να περιγράψουμε την εξάρτηση της θ από την, εκφράζοντας την θ με τη βοήθεια μιας τ.μ. Χ ~. Για παράδειγμα, αν θ είναι και πάλι η μέση τιμή ή η διασπορά της κατανομής, τότε η εξάρτηση αυτή περιγράφεται γράφοντας θ = ) ή V() ή θ : Pr( > θ ) = a αντίστοιχα, όπου Χ ~. Αυτή η αναπαράσταση της παραμέτρου θ οδηγεί σε μία γόνιμη ιδέα για την εύρεση εκτιμήτριάς της. Είναι γνωστό ότι η σ.κ. μπορεί να εκτιμηθεί, χωρίς να κάνουμε καμία υπόθεση για την μορφή της, από την εμπειρική συνάρτηση κατανομής ˆ που προκύπτει από το δείγμα Χ,Χ,...,Χ. Η ιδέα εδώ είναι να χρησιμοποιήσουμε την ˆ για να εκτιμήσουμε και το θ. Δηλαδή να χρησιμοποιήσουμε ως εκτίμηση του θ το θ. Για παράδειγμα, αν θ ˆ είναι η μέση τιμή της κατανομής, τότε ως εκτιμήτρια της μπορούμε να θεωρήσουμε την θ xd (x = ) = ), ˆ όπου Χ είναι μία τυχαία μεταβλητή με κατανομή την ˆ. Αν οι τιμές του δείγματος Χ,Χ,...,Χ («πριν» την πραγματοποίηση του «πειράματος») είναι x, x,...,x («μετά» την πραγματοποίηση του «πειράματος»), τότε Pr( = x ) = ( x ) ( x ) =, =,,...,, και επομένως, αν θ είναι η μέση τιμή Ε(Χ) της κατανομής τότε θ = ) = x x x x ˆ Pr( = ) = =, = = ενώ αντίστοιχα αν θ είναι η διασπορά V(Χ) της κατανομής τότε θ ( ) = x d ( xd ( = x Pr( = x ) x Pr( = x ) = = = V = x x = x x = ( x = s. = = = Υπενθυμίζεται ότι η εμπειρική συνάρτηση κατανομής που προκύπτει από το τ.δ. Χ, Χ,..,Χ είναι: x ˆ #{ } ( = I( =, x R, = όπου Ι( = ή 0 ανάλογα με το αν x ή όχι. Από τον νόμο των μεγάλων αριθμών θα ισχύει ότι ( = I( I( ) = Pr( I( = ) = Pr( = (, με πιθ. = για κάθε x (επιπλέον, σύμφωνα με το Θεώρημα Glveko-Catell η σύγκλιση αυτή θα είναι ομοιόμορφη ως προς το x, με πιθ. ). Η παραπάνω εκτίμηση της είναι απαραμετρική διότι δεν βασίζεται σε καμμία υπόθεση για την μορφή της. Η κατανομή που έχει σαν σ.κ. την ˆ που προέρχεται από δείγμα x,...,x κατανέμει πιθανότητα / σε κάθε ένα από τα δειγματικά σημεία x,...,x. Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 66

Επομένως, στις δύο απλές αυτές περιπτώσεις, ο πληθυσμιακός μέσος και η πληθυσμιακή διασπορά εκτιμώνται, με βάση την ˆ, από τον δειγματικό μέσο και την πληθυσμιακή διασπορά (ελαφρά τροποποιημένη). Επίσης, αν π.χ. θ = ( a) τότε θ = ( a) και παρατηρώντας ότι ( x( ) ) = / προκύπτει ότι ( / ) = x( ) (x() x () είναι οι διατεταγμένες x,,x ) και αν a = /, δηλαδή = ( a) τότε ( a) = x( ( a )). Με τον τρόπο αυτό μπορούμε να προτείνουμε μία εκτιμήτρια για οποιαδήποτε παράμετρο θ μιας (άγνωστης) κατανομής χωρίς να κάνουμε καμία υπόθεση για την μορφή της. Αν π.χ. η θ μπορεί να γραφεί στη μορφή θ = Ε(g()) με Χ ~, τότε λαμβάνουμε ως εκτίμηση της θ την θ = g( )), ~. Λόγω του ότι ˆ (όταν ), η παραπάνω θα είναι συνεπής εκτιμήτρια του θ. Παράδειγμα. (συνέχεια) Στο παράδειγμα, το πηλίκο θ = Ε(Χ)/Ε(U) είναι μία παράμετρος της από κοινού συνάρτησης κατανομής (u, των, U. Επειδή εδώ έχουμε δύο τ.μ., η ˆ βάσει των τιμών του δείγματος (u,x ), =,,..., θα είναι η u x u x ˆ #{(, ) (, )} ( u, = I( u u, x = = η οποία κατανέμει πιθανότητα / σε κάθε ένα από τα σημεία (u,x ), =,,..., του R. Συνεπώς, σύμφωνα με τα παραπάνω, η εκτιμάται από την όπου ( U, θ ) ~ ˆ. R R = ) θ = = U ) xd ( u, = ud ( u, U R R ) = ) xd( u, ud( u, x u 03.43 = =.390 7.796 7.. Η μέθοδος Bootstrap για τη μελέτη χαρακτηριστικών εκτιμητριών. Αφού απαντήσαμε στο αρχικό ερώτημα που αφορούσε την εύρεση εκτιμήτριας Τ του θ με βάση ένα τ.δ. Χ, Χ,..., Χ ~, προχωράμε στην αντιμετώπιση των χρησιμοποιώντας τη γενικευμένη αντίστροφη της πιο συγκεκριμένα προκύπτει ότι όπου το είναι τέτοιο ώστε διαφορετικά. = θ ( a) = m{ x : ( a} = x( ) ( ) / < a /, δηλ. = ( a) αν ( a) Ν και = ( a) + Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 67

επόμενων ερωτημάτων που τέθηκαν και αφορούν τα χαρακτηριστικά της στατιστικής συνάρτησης Τ (π.χ. μεροληψία, διασπορά, ποσοστημόρια ή γενικότερα κατανομή). Αν η κατανομή των Χ, Χ,..., Χ ήταν γνωστή, θα μπορούσαμε να προσδιορίσουμε τα χαρακτηριστικά της Τ μέσω της κατανομής της. Επειδή όμως δεν έ- χουμε κάνει κάποια υπόθεση για την, θα πρέπει με κάποιο τρόπο να εκτιμήσουμε και τα χαρακτηριστικά αυτά ή γενικότερα την κατανομή της Τ από το δείγμα. Πως μπορούμε όμως να εκτιμήσουμε την κατανομή της στατιστικής συνάρτησης από το δείγμα; Η συνάρτηση κατανομής της Τ = (,,..., ) εξαρτάται από την (την κατανομή των Χ ), η οποία όπως είδαμε μπορεί να εκτιμηθεί από την ˆ. Η βασική ιδέα της μεθόδου Bootstrap είναι να εκτιμήσουμε την κατανομή της Τ χρησιμοποιώντας αντί της (άγνωστης) την ˆ. Συγκεκριμένα, εκτιμούμε την κατανομή της = (,,..., ) όπου Χ ~ από την κατανομή της τ.μ. = (,,..., ) όπου ~ ˆ. Επομένως, όλα τα ζητούμενα χαρακτηριστικά της Τ μπορούν να εκτιμηθούν από τα αντίστοιχα χαρακτηριστικά της Τ. Π.χ. η μέση τιμή ) της εκτιμάται από την = = = = = = E ( ) (,,..., )) = ( x, x,..., x ) Pr( = x ) Pr( = x Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 68 ( x., x,..., x ) (Υπενθυμίζεται ότι αν οι τιμές του δείγματος Χ,Χ,...,Χ είναι x, x,...,x, τότε οι έχουν συνάρτηση πιθανότητας Pr( = x ) = /, =,,,). Γενικότερα, η μέση τιμή g()) μίας συνάρτησης της, εκτιμάται από την g( )) = g( )) = g( (,,..., ))) = g( ( x, x,..., x )). = = (π.χ. αν g( ) = I( τότε g( )) = Pr( = ( ). Οι παραπάνω εκτιμήσεις καλούνται Bootstrap εκτιμήσεις των χαρακτηριστικών της. Σε ορισμένες ειδικές περιπτώσεις, η παραπάνω μέση τιμή υπολογίζεται εύκολα, π.χ. όταν = οι Bootstrap εκτιμήσεις της μέσης τιμής και της διασποράς της = θα είναι: E = ( ) ) = ) = = x = x = ) Pr( ) x = x = = = και V ( ) = V ( ) = V ( ) = ( x s =. = Γενικότερα όμως, η Bootstrap εκτίμηση της g()) θα πρέπει να υπολογίζεται από το πολλαπλό άθροισμα g( )) = g( )) = g( ( x, x,..., x )) = = το οποίο αποτελείται από όρους. Αν π.χ. έχουμε ένα σχετικά μικρό δείγμα μεγέθους 0, τότε θα πρέπει να υπολογίσουμε 0 0 = 04.857.600.000.000.000.000.000.000 )

όρους! Αν εξαιρέσουμε λοιπόν ορισμένες πολύ ειδικές περιπτώσεις, ο ακριβής υπολογισμός του παραπάνω αθροίσματος είναι πρακτικά αδύνατος (για > 3 «με το χέρι» και για > 7 ή 8 με Η/Υ). Πως μπορούμε λοιπόν εναλλακτικά να υπολογίσουμε ή τουλάχιστον να προσεγγίσουμε την μέση τιμή E ( g( )) ; Ένας πολύ απλός τρόπος είναι αυτός που έχουμε χρησιμοποιήσει πολλές φορές μέχρι τώρα: μέσω προσομοίωσης. Για το σκοπό αυτό, αρχικά παράγουμε τυχαίους αριθμούς,,..., από την σ.κ. ˆ. Η παραγωγή ενός τυχαίου αριθμού από την κατανομή ˆ είναι εύκολη, γιατί η ˆ κατανέμει πιθανότητα / σε κάθε ένα από τα σημεία x, x,..., x. Συγκεκριμένα, ως επιλέγουμε τυχαία (ισοπίθανα) ένα από τα x, x,..., x, ως επιλέγουμε τυχαία και πάλι ένα από τα x, x,..., x κ.ο.κ. για τα 3,...,. Ουσιαστικά λοιπόν επιλέγουμε τυχαία αριθμούς,,..., από το πραγματικό δείγμα x, x,..., x, με επανάθεση. Από αυτούς τους αριθμούς υπολογίζουμε την = (,,..., ). Στη συνέχεια επαναλαμβάνουμε το ίδιο k φορές και υπολογίζουμε διαδοχικά τα,,..., k. Μία (mote carlo) εκτίμηση λοιπόν του E ( g( )) θα είναι η k g( )) = g( ). k Παράδειγμα 3. Έστω ότι λαμβάνουμε (πραγματικό) δείγμα Χ, Χ,..., Χ μεγέθους = 4, συγκεκριμένα x =, x =3, x 3 = 4, x 4 = 9, και θέλουμε να μελετήσουμε την κατανομή της τ.μ. =. Επιλέγουμε π.χ. k = 0 τυχαία δείγματα μεγέθους = 4 (με επανάθεση) από το πραγματικό δείγμα, 3, 4, 9 : δείγμα,, = (,,, ) = = 3, 4, 4, 4,.5,,, 9 3 3 3,,, 3 4 4, 9, 9, 3 6.5 5 4, 3, 9, 3 4.75 6 9, 3, 4, 4 5 7 4, 9, 9, 3 6.5 8 4, 9, 4, 3 5 9, 9, 4, 9 5.75 0 4, 9, 9, 4 6.5 Το δείγμα.5, 3,, 6.5, 4.75, 5, 6.5, 5, 5.75, 6.5 προέρχεται από την κατανομή της (καθένα από τα παίρνει τις τιμές, 3, 4, 9 με πιθανότητα ¼) η οποία όπως είδαμε εκτιμά την κατανομή της. Εάν αντί για k = 0 πάρουμε k = 000, λαμβάνουμε ένα δείγμα μεγέθους 000 το οποίο έχει εμπειρική συνάρτηση κατανομής 4 0.8 0.6 0.4 0. 4 6 8 Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 69

η οποία εκτιμά (μέσω προσομοίωσης) την σ.κ. της, η οποία με την σειρά της α- ποτελεί μία (bootstrap) εκτίμηση της κατανομής της (με βάση μόνο το δείγμα, 3, 4, 9, χωρίς καμία άλλη υπόθεση!). Η πρώτη εκτίμηση (μέσω προσομοίωσης) βελτιώνεται όσο περισσότερες επαναλήψεις k χρησιμοποιήσουμε στην προσομοίωση, ενώ η δεύτερη δεν μπορεί να βελτιωθεί περισσότερο διότι εξαρτάται αποκλειστικά από το μέγεθος του αρχικού (πραγματικού) δείγματος. Εάν π.χ. θέλαμε να εκτιμήσουμε την Ε( e ) μέσω της Ε( e ) τότε παράγουμε με τον ίδιο τρόπο k (π.χ. 000) «ανεξάρτητα αντίγραφα» της e και εκτιμούμε την Ε( e ) από τον μέσο όρο αυτών των k τιμών. Π.χ. με βάση το δείγμα, 3, 4, 9 βρίσκουμε ότι E ( e ) e ) 30 ενώ το e βρέθηκε μόλις e 70.. Έτσι x ( + 3+ 4+ 9)/ 4 μ ) E x εάν θέλαμε να εκτιμήσουμε το e = e μέσω του e ( ) = e τότε θα είχαμε μεροληψία b = e ) e η οποία έχει (bootstrap) ) εκτίμηση ) x b = e ) e = e ) e 30 70. = 59.9. Από τα παραπάνω γίνεται φανερό λοιπόν ότι, σύμφωνα με τη μέθοδο Bootstrap, εκτιμούμε τα διάφορα χαρακτηριστικά οποιασδήποτε Τ(Χ,Χ,,Χ ) λαμβάνοντας k τυχαία δείγματα μεγέθους το καθένα (με επανάθεση), από το αρχικό (πραγματικό) δείγμα x, x,..., x. Πρόκειται δηλαδή για δειγματοληψία από το δείγμα. Αυτό αρχικά ίσως να φαίνεται παράλογο αλλά όπως εκθέσαμε παραπάνω είναι απόλυτα δικαιολογημένο. Η συγκεκριμένη μέθοδος επαναδειγματοληψίας (resamplg) είναι γνωστή ως (απαραμετρική) μέθοδος Bootstrap διότι η ιδέα να χρησιμοποιήσουμε τα δεδομένα για να παράγουμε και άλλα δεδομένα θυμίζει ένα «κόλπο» που χρησιμοποίησε ο μυθικός Βαρόνος Muchause ο οποίος για να ξεφύγει από τον βυθό μιας λίμνης που είχε πέσει, τράβηξε τον εαυτό του προς τα πάνω από τις λουρίδες της μπότας του (bootstraps). Η μέθοδος αυτή τα τελευταία χρόνια έχει αναπτυχθεί (και αναπτύσσεται ακόμη) ώστε να καλύπτει σχεδόν όλες τις περιοχές της στατιστικής ανάλυσης (παραμετρικά και μη παραμετρικά μοντέλα). Παράδειγμα 4 (συνέχεια παραδ. ). Ας εφαρμόσουμε τα παραπάνω και στο παράδειγμα με την εκτίμηση του πληθυσμού των ΗΠΑ. Εδώ όπως είδαμε έχουμε ένα αρχικό δείγμα από = 49 ζεύγη τιμών (u,x ), =,,..., και επιθυμούμε να εκτιμήσουμε το πηλίκο θ = Ε(Χ)/Ε(U) χρησιμοποιώντας την εκτιμήτρια Τ= / U. Προφανώς, δεν μπορούμε να γνωρίζουμε τίποτε για την κατανομή της συγκεκριμένης εκτιμήτριας αφού δεν έχουμε κάνει καμία υπόθεση σχετικά με την κατανομή των παρατηρήσεων. Έτσι, σε αυτή την περίπτωση θα χρησιμοποιήσουμε την μέθοδο Bootstrap. Αρχικά ας δούμε ποια είναι η Bootstrap εκτίμηση της μέση τιμής και της δεύτερης ροπής της εκτιμήτριας = / U : ˆ = E = E = E και ˆ E = E U U = U U U αντίστοιχα, όπου τα ζεύγη ( U, ),( U, ),...,( U, ) είναι μεταξύ τους ανεξάρτητα και καθένα από αυτά κατανέμεται σύμφωνα με την διδιάστατη εμπειρική συνάρτηση κατανομής που προέρχεται από το δείγμα των 49 παρατηρήσεων (u, x ) που δίνονται σε παραπάνω πίνακα. Δηλαδή, Pr(( U, ) = ( u, x )) =, =,,...,, Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 70

και το ίδιο ισχύει για όλα τα ζεύγη ( U, ). Θα χρησιμοποιήσουμε προσομοίωση j j για να εκτιμήσουμε την μέση τιμή E ( / U ) και την E (( / U ) ). Χρησιμοποιούμε τον παρακάτω αλγόριθμο (προσομοίωση με k επαναλήψεις): BHMA 0. Θέτουμε s = 0, s = 0, j = 0. BHMA. Για =,,...,: Παράγουμε έναν τυχαίο αριθμό U ~ U(0,), και θέτουμε Z = U + και ( U, ) = ( u, x ). = BHMA. Υπολογίζουμε το πηλίκο = =. U BHMA 3. Θέτουμε s = s +, s = s +, j = j + και αν j < k επιστρέφουμε στο. Αλλιώς πάμε στο 4. BHMA 4. Τυπώνουμε την εκτίμηση s /k της E ( / U ) και s /k της E (( / U ) ). = U Z Z Μέσω του Mathematca θα είναι (k = 0000 επαναλήψεις): Sample={{38,43},{93,04},{6,69},{79,60},{48,75},{37,63},{9,50},{3,48},{30,},{,50},{38,5},{46,53},{7,79}, {5,57},{98,37},{74,93},{50,58},{76,80},{38,464}, {387,459},{78,06},{60,57},{507,634},{50,64},{77,89},{64,77},{40,60},{36,39},{43,9},{56,88},{94,85},{36,46}, {45,53},{67,67},{0,5},{7,83},{66,86},{46,65}, {,3},{44,58},{64,63},{56,4},{40,64},{6,30}, {87,05},{43,6},{43,50},{6,3},{36,54}}; k = 0000; = 49; U = able[{0, 0}, {}]; s = 0; s = 0; Do[ Do[Z=loor[Radom[]]+; U[[]]=Sample[[Z]],{,,}]; = Sum[U[[,]],{,,}]/Sum[U[[,]],{,,}]; s = s + ; s = s + ^;, {j,, k}]; Prt[N[s/k]]; Prt[N[s/k]]; Prt[N[s/k - (s/k)^]].468.54306 0.009748 Επομένως, μία εκτίμηση της μέσης τιμής και της δεύτερης ροπής της / U είναι.468 και.54306 αντίστοιχα. Επίσης μια εκτίμηση της διασποράς της / U είναι η 0.009748. Ουσιαστικά, οι εκτιμήσεις αυτές είναι εκτιμήσεις των Bootstrap εκτιμήσεων. Συγκεκριμένα, η εκτίμηση π.χ..468 είναι η εκτίμηση μέσω προσομοίωσης της Bootstrap εκτίμησης E ( / U ) της μέσης τιμής Ε( / U ). Η μεροληψία (bas) της συγκεκριμένης εκτιμήτριας ) E, U U ) και η Bootstrap εκτίμησή της θα είναι b = E U U ) ) = E U x = E u U x u / U είναι ίση με.468.390 = 0.0066. Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 7

/ U θα εί- Επίσης, η Bootstrap εκτίμηση του μέσου τετραγωνικού σφάλματος της ναι ) E = + ( ) 0.0066 + 0.009748 = 0.0038456 ( ) b V. U E U U Επίσης, μπορούμε να εκτιμήσουμε την κατανομή της / U από αυτήν της /U. Για την τελευταία μπορούμε να πάρουμε μία ιδέα από το ιστόγραμμα συχνοτήτων που προκύπτει από προσομοίωση. Το σχετικό πρόγραμμα είναι παρόμοιο με αυτό που χρησιμοποιήσαμε παραπάνω (τώρα, σε κάθε επανάληψη καταγράφουμε σε μία λίστα το παραγόμενο πηλίκο = /U ): k=0000; =49; U=able[{0,0},{}]; smvalues=able[0,{k}]; Do[ Do[Z=loor[Radom[]]+; U[[]]=Sample[[Z]],{,,}]; = Sum[U[[, ]],{,,}]/Sum[U[[, ]],{,,}]; smvalues[[j]] = ;, {j,, k}]; << Graphcs`Graphcs` Hstogram[smValues, HstogramScale ->, HstogramCategores -> able[, {,.,.4, 0.0}]] 0 8 6 4.5..5.3.35 Επίσης, μπορούμε να συγκρίνουμε το παραπάνω ιστόγραμμα με την σ.π.π. της κανονικής κατανομής με μέση τιμή και διασπορά εκτιμημένες από το Bootstrap δείγμα. << Statstcs`DescrptveStatstcs` << Statstcs`CotuousDstrbutos` m = Mea[N[smValues]]; s = (Varace[N[smValues]])^0.5; h = Hstogram[smValues, HstogramScale ->, HstogramCategores -> able[, {,.,.4, 0.0}]]; p = Plot[PD[NormalDstrbuto[m, s], x], {x,.,.4}]; Show[h, p] 0 8 6 4.5..5.3.35 Παρατηρούμε μία μικρή δεξιά λόξωση στο ιστόγραμμα των προσομοιωμένων τιμών της /U και συνεπώς δεν πρέπει η = / U να κατανέμεται κανονικά. Αυτό Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 7

μπορεί να γίνει φανερό και από το παρακάτω Q-Q plot που κατασκευάσθηκε από k = 000 προσομοιωμένες τιμές,,..., k της = /U (κατασκευάζουμε το γράφημα των σημείων ( ( ), μ + σ Φ ( ) ), =,,..., k το ο- k + ποίο θα πρέπει να βρίσκεται «κοντά» στην διαγώνιο y = x, διότι αν ~ N( μ, σ ), ( ) μ τότε Φ( σ )) =, =,,..., k k + ): s = Sort[smValues]; l = LstPlot[ able[{s[[]],m+squatle[normaldstrbuto[0,],/(k+)]},{,,k}],plotstyle->{potsze[0.005]}]; l = Plot[x, {x,.5,.35}]; Show[l, l].35.3.5.5.5.3.35.5 7.3. o Βασικό Bootstrap Διάστημα Εμπιστοσύνης. Κλείνουμε την σύντομη αυτή εισαγωγή στην μέθοδο Bootstrap εξετάζοντας και το τελευταίο ερώτημα που τέθηκε παραπάνω σχετικά με την κατασκευή ενός διαστήματος εμπιστοσύνης για την παράμετρο θ. Θα βασιστούμε και πάλι σε ένα τ.δ. Χ, Χ,..., Χ ~ ( άγνωστη) και σε μία εκτιμήτρια του θ, την Τ = Τ(Χ,Χ,...,Χ ). Από την εκτίμηση της μεροληψίας b και την εκτίμηση s της διασποράς της εκτιμήτριας Τ (που εξετάσαμε ήδη), μπορούμε, υποθέτοντας ότι η Τ ακολουθεί κανονική κατανομή, να κατασκευάσουμε δ.ε. (ή π.χ. να πραγματοποιήσουμε ελέγχους υ- ποθέσεων) για την παράμετρο θ της κατανομής. Πράγματι, τότε, b θ ~ N(0,) s και συνεπώς, ένα δ.ε. συντελεστού α για το θ θα είναι το b s za /, b+ s za /. Δυστυχώς όμως, σε αρκετές περιπτώσεις δεν μπορούμε να υποθέσουμε ότι η εκτιμήτρια που χρησιμοποιούμε κατανέμεται ασυμπτωτικά κανονικά (π.χ. στο παραπάνω παράδειγμα η = / U δεν φαίνεται να ακολουθεί κανονική κατανομή). Σε αυτή την περίπτωση μπορούμε και πάλι να αξιοποιήσουμε την ιδέα του Bootstrap και να εκτιμήσουμε μέσω της μεθόδου αυτής και τα ποσοστημόρια της Τ. Συγκεκριμένα, για να κατασκευάσουμε δ.ε. για το θ θα πρέπει να εκτιμήσουμε τα ποσοστημόρια της τ.μ. θ. Ειδικότερα, πρέπει να εκτιμήσουμε τα σημεία c a/, c -a/ για τα οποία ισχύουν Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 73

Pr( θ > ca / ) = a /, Pr( θ > c a / ) = a /, διότι τότε Pr( c a / θ ca / ) = a και το διάστημα ( ca /, c a / ) είναι ένα δ.ε. συντελεστού εμπιστοσύνης a για το θ. Για το c a/ θα ισχύει ότι Pr( θ > c a / ) = a / ( c a / + θ ) = a / c a / = ( a / ) θ και επομένως, η Bootstrap εκτίμησή του (αντικαθιστούμε την με την ˆ και επομένως την με την Τ ) θα είναι η cˆ = θ, a / ( a / ) όπου = (,,..., ) και,,..., είναι ανεξάρτητες τ.μ. με σ.κ. την ε- μπειρική συνάρτηση κατανομής ˆ που προέρχεται από το αρχικό δείγμα x,x,...,x. Επειδή, όπως έχουμε δει και παραπάνω, είναι πρακτικά αδύνατο να υπολογιστεί η ( a / ) θα χρησιμοποιήσουμε και πάλι προσομοίωση. Αν παράγουμε,,..., k τυχαίους αριθμούς τότε η σ.κ. προσεγγίζεται από την εμπειρική συνάρτηση κατανομής = ˆ k ˆ ( = I( k. Αν διατάξουμε ( ), (),..., ( k ) τους τυχαίους αριθμούς,,..., k από τον μικρότερο προς τον μεγαλύτερο, παρατηρούμε ότι στο σημείο x = ( j) η θα προσεγγίζεται από j ˆ k ( j = I ( ) ) ( ( j) ) = k = k, από όπου προκύπτει ότι ˆ ( j / k) = ( j ). Άρα αν j/k = a/ j = k( a/), μπορούμε να πάρουμε ˆ ( / ) =. Συνεπώς τελικά, και το διάστημα ˆ a cˆ a / ( k ( a / ) ) = θ, cˆ a / = ( ka / ) θ ˆ ˆ ( k ( a / ) ) ˆ ( ca /, c a / ) = ( ( ( ), ( )) k ( a / ) ) θ ˆ ( ka / ) θ ˆ είναι ένα δ.ε. συντελεστού εμπιστοσύνης a για το θ. Αν μάλιστα έχουμε θέσει Τ = θ, τότε το δ.ε. είναι ίσο με ( ˆ, ) ( k ( a / ) ) ( ka / ). Το παραπάνω δ.ε. 3 καλείται βασικό bootstrap διάστημα εμπιστοσύνης συντελεστού εμπιστοσύνης a για το θ. Στην απλή περίπτωση που το θ είναι ο μέσος μ της κατανομής, τότε, για μεγάλο k (επαναλήψεις προσομοίωσης), το παραπάνω δ.ε. θα είναι 3 Στη βιβλιογραφία, μερικές φορές χρησιμοποιείται ο ίδιος τύπος, μόνο που στη θέση του k τίθεται k + διότι γενικά αποδεικνύεται ότι για συνεχείς τ.μ. Χ,Χ,...,Χ k ~ ισχύει ότι U = ( ) ~ U (0,) και οι διατεταγμένες U = () ( () ) ακολουθούν κατανομή Βήτα με ( ( ) )) =, ( k + ) V ( ( )) 0 k ( ) =, + ( k + ) ( k + ) 4( k + ) k και συνεπώς θα ισχύει ότι ( ( ) ) /( k + ) ή ισοδύναμα ( /( k + )) (παραπάνω θεωρήσαμε ότι ( j / k) = ). Για μεγάλα k πάντως δεν υπάρχει ουσιαστική ( ) διαφορά. ˆ ( j ) Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 74

( (, ) ( ( / ), ( / )) k ( a / ) ) ( ka / ) a a και αν το μέγεθος του αρχικού (πραγματικού) δείγματος είναι και αυτό αρκετά μεγάλο, τότε ( μ) / σ ~ N(0,) προσεγγιστικά, και το παραπάνω δ.ε. γίνεται περίπου ίσο με σ σ S S ( μ za /, μ + za / ) ( za /, + za / ), (επειδή για, μ, S σ ) δηλαδή προσεγγίζει το γνωστό δ.ε. για το μέσο της κατανομής. Παράδειγμα 5. (συνέχεια παράδ. 4) Ας εφαρμόσουμε για άλλη μία φορά τα παραπάνω στο παράδειγμα με την εκτίμηση του πληθυσμού των ΗΠΑ. Στη συγκεκριμένη περίπτωση έχουμε ένα αρχικό δείγμα από = 49 ζεύγη τιμών (u,x ), =,,..., και επιθυμούμε να εκτιμήσουμε μέσω ενός δ.ε. το πηλίκο θ = Ε(Χ)/Ε(U) χρησιμοποιώντας την εκτιμήτρια / U. Το βασικό Bootstrap δ.ε. θα είναι της μορφής x x ( ( ( k ( a / ) ) θ ), ( ( ka / ) θ )) = ( k ( a / ) ), ( ka / ) u u όπου ( k ( a / ) ) είναι η k( a / ) -διατεταγμένη παρατήρηση από ένα προσομοιωμένο δείγμα μεγέθους k από την κατανομή της = /U. Τα ( k ( a / ) ), ( ka / ) μπορούν π.χ. να βρεθούν από το παρακάτω (a = 0.05) k = 5000; = 49; U = able[{0, 0}, {}]; smvalues = able[0, {k}]; Do[Do[Z=loor[Radom[]]+; U[[]]=Sample[[Z]],{,,}]; = N[Sum[U[[,]],{,,}]/Sum[U[[,]],{,,}]]; smvalues[[j]] = ;,{j,, k}]; s = Sort[smValues]; Prt[s[[loor[k0.05]]], " ", s[[loor[k0.975]]]].7743.348 και άρα, (. 7743 ka / ) =, (. 348 k ( a / ) ) = από όπου τελικά προκύπτει το δ.ε. συντελεστού 95% για το θ = ) / U ): x u x u ( ka k ( a / ), (.390.348,.390.7743) ) ( / ) = = (.634,.3006). Υπογραμμίζεται και πάλι ότι το παραπάνω δ.ε. είναι απαραμετρικό διότι δεν βασίζεται σε καμία υπόθεση για την κατανομή των (U, ). Εάν είχαμε θεωρήσει ότι η εκτιμήτρια / U κατανέμεται προσεγγιστικά κανονικά, τότε θα μπορούσαμε να κατασκευάσουμε το δ.ε. x x b s za /, b+ s za / = b s za /, b+ s za / u u και επειδή παραπάνω έχουμε εκτιμήσει ότι b = 0.0066, = 0.009748 τελικά το (.390 0.0066 ± 0.009748.96) = (.6576,.30696) θα είναι το αντίστοιχο δ.ε. 95% για το θ = ) / U ). s. Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 75

Όπως είναι φυσικό, η μέθοδος Bootstrap μπορεί κατάλληλα προσαρμοσμένη να εφαρμοσθεί σχεδόν σε κάθε περιοχή της στατιστικής (π.χ. ανάλυση παλινδρόμησης, γενικευμένα γραμμικά μοντέλα, ανάλυση επιβίωσης, χρονοσειρές κ.ο.κ) σε απαραμετρικά αλλά και παραμετρικά μοντέλα. Ασκήσεις.. Έστω Χ, Χ,..., Χ ένα τυχαίο δείγμα από μία άγνωστη κατανομή της οποίας ε- πιθυμούμε να εκτιμήσουμε την διασπορά σ. (α) Αν = και x =, x = 3, ποια είναι η (ακριβής) Bootstrap εκτίμηση της διασποράς V(S ) της δειγματικής διασποράς. (β) Αν το δείγμα είναι x,x,,x, περιγράψτε έναν αλγόριθμο μέσω του οποίου μπορούμε να λάβουμε μία Bootstrap εκτίμηση (μέσω προσομοίωσης) της V(S ). Πως μπορούμε να κατασκευάσουμε ένα (απαραμετρικό) bootstrap δ.ε. συντελεστού 95% για το σ ;. Έστω Χ, Χ,..., Χ ένα τυχαίο δείγμα από μία άγνωστη κατανομή με μέση τιμή μ. Επιθυμούμε να εκτιμήσουμε το μ 3 3 χρησιμοποιώντας την εκτιμήτρια. () Αν = και το τ.δ. είναι το x, x, ποια είναι η (ακριβής, χωρίς προσομοίωση) 3 Bootstrap εκτίμηση της μεροληψίας της ; () Αν το δείγμα είναι x,x,,x, περιγράψτε έναν αλγόριθμο μέσω του οποίου μπορούμε να λάβουμε μία Bootstrap εκτίμηση (μέσω προσομοίωσης) της μεροληψίας της 3. 3. Έστω ότι έχουμε το τυχαίο δείγμα 0,.,, 0.8, 0.,., 4.3, 6.6, 3.5, 40 από μία άγνωστη κατανομή της οποίας επιθυμούμε να εκτιμήσουμε τον μέσο μ μέσω του δειγματικού μέσου. (α) Εκτιμήστε την κατανομή της εκτιμήτριας χρησιμοποιώντας επαναδειγματοληψία από το δείγμα (bootstrap) (κατασκευάστε κατάλληλο ιστόγραμμα προσομοιώνοντας k=0000 τιμές της εκτιμήτριας). Μπορούμε να υποθέσουμε ότι η προσεγγίζεται ικανοποιητικά από μία κανονική κατανομή; (β) Κατασκευάστε ένα bootstrap δ.ε. 95% για το μ και συγκρίνετέ το με το αντίστοιχο δ.ε. που προέρχεται θεωρώντας κανονική προσέγγιση. Ποιο από τα δύο θεωρείται καλύτερο; 4. Έστω Χ, Χ,..., Χ ένα τυχαίο δείγμα από μία άγνωστη κατανομή της οποίας ε- πιθυμούμε να εκτιμήσουμε την διασπορά σ. (α). Αν = και x =, x = 3, ποια είναι η (ακριβής) Bootstrap εκτίμηση της διασποράς V(S ) της δειγματικής διασποράς. (β). Αν ένα δείγμα μεγέθους = 5 είναι 5, 4, 9, 6,, 7,, 0, 7, 0,, 5, 3, 6, 8, δώστε μία Bootstrap εκτίμηση (μέσω προσομοίωσης) για την V(S ). (γ). Χρησιμοποιώντας τα δεδομένα του (β): () Κατασκευάστε ένα δ.ε. συντελεστού 95% για το σ υποθέτοντας ότι τα δεδομένα προέρχονται από κανονική κατανομή. () Κατασκευάστε ένα (απαραμετρικό) bootstrap δ.ε. συντελεστού 95% για το σ. 5. Έστω y () < y () <... < y (), = m + (m N) οι διατεταγμένες τιμές ενός τυχαίου δείγματος y, y,..., y που προέρχεται από μία κατανομή με διάμεσο θ. Επιθυμούμε να εκτιμήσουμε τη διάμεσο θ χρησιμοποιώντας τη δειγματική διάμεσο Υ (m+). Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 76

(α) Να δειχθεί ότι η (ακριβής) bootstrap κατανομή της εκτιμήτριας Υ (m+) περιγράφεται από την σχέση m j j l l Pr( Y( m+ ) > y( l) ) = j= 0 j (η τ.μ. Y ( m+) είναι η δειγματική διάμεσος των ανεξάρτητων τ.μ. Y, Y,..., Y που κατανέμονται σύμφωνα με την εμπειρική συνάρτηση κατανομής που προέρχεται από το δείγμα y, y,..., y ). (β) Για = δείξτε ότι Pr( Y( m + ) y(3) ) = Pr( Y( m+ ) y(9) ) = 0. 05, και με βάση αυτό δείξτε ότι το (ακριβές) bootstrap δ.ε. 90% για την διάμεσο θ της κατανομής είναι το y y,y ). ( ( 6) (9) (6) y(3) 6. Κατά τον έλεγχο αποτελεσματικότητας ενός φαρμάκου χρησιμοποιούμε δύο ομάδες από πειραματόζωα (cotrol και treatmet group) από τις οποίες λαμβάνουμε τους χρόνους επιβίωσης (σε ώρες): (cotrol group, χωρίς φάρμακο): 4 53 88 03 46 Y (treatmet group, με φάρμακο): 6 0 90 54 7 30 5 390 Επιθυμούμε να ελέγξουμε σε επίπεδο σημαντικότητας a = 0.05 αν υπάρχει διαφορά μεταξύ των δύο ομάδων (δηλ. Η 0 : Y = ) χρησιμοποιώντας την στατιστική συνάρτηση Y. Πραγματοποιήστε τον έλεγχο αυτόν χρησιμοποιώντας την μέθοδο Bootstrap. (Υπόδειξη: Κάτω από την Η 0, οι παρατηρήσεις και από τις δύο ομάδες προέρχονται από την ίδια κατανομή, η οποία εκτιμάται από την εμπειρική συνάρτηση κατανομής ˆ με βάση και τις 4 παρατηρήσεις. Επομένως αρκεί να βρούμε την Bootstrap εκτίμηση του p- value του ελέγχου p value = Pr( Y > y x H0) 6 8 όπου = 6 =, Y = 8 = Y και οι ανεξάρτητες, Y ~ ˆ. Αφού εκτιμηθεί η παραπάνω πιθανότητα μέσω προσομοίωσης, συγκρίνεται με το a του ελέγχου). Boutskas M.V. (005) Σημειώσεις μαθήματος «Μέθοδοι Προσομοίωσης και Στατιστικές Υπολογιστικές Τεχνικές» 77