.5. ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ Η μέθοδος κατασκευής διαστήματος εμπιστοσύνης για την πιθανότητα που περιγράφεται στην προηγούμενη ενότητα μπορεί να χρησιμοποιηθεί για την κατασκευή διαστημάτων εμπιστοσύνης για συγκεκριμένες τιμές της συνάρτησης κατανομής F X (x) μιας μεταβλητής Χ. Αναφερόμενοι στην γραφική παράσταση μιας συνάρτησης κατανομής, όπως για παράδειγμα του σχήματος.5., μπορούμε να πούμε ότι, δοθείσης μίας τιμής x, μπορούμε να κατασκευάσουμε ένα «κατακόρυφο» διάστημα εμπιστοσύνης για την άγνωστη πιθανότητα FX (x ). Ας υποθέσουμε τώρα ότι ενδιαφερόμαστε για το «αντίστροφο» πρόβλημα, δηλαδή ότι, δοθείσης μίας τιμής της πιθανότητας (x ), έστω, ενδιαφερόμαστε να FX κατασκευάσουμε ένα «οριζόντιο» διάστημα εμπιστοσύνης για την άγνωστη τιμή x. Επειδή κάθε τιμή x της τυχαίας μεταβλητής Χ είναι τιμή ενός ποσοστιαίου σημείου, x της κατανομής της μεταβλητής Χ (είναι, δηλαδή, ένα -ποσοστιαίο σημείο για κάποια τιμή του ), η τιμή x μπορεί να θεωρηθεί ως η τιμή του -ποσοστιαίου σημείου της μεταβλητής Χ. Τότε, το πρόβλημα που μας ενδιαφέρει μπορεί ισοδύναμα να διατυπωθεί ως εξής: Δοθείσης της τιμής της πιθανότητας FX (x ), να κατασκευασθεί ένα «οριζόντιο» διάστημα εμπιστοσύνης για το άγνωστο -ποσοστιαίο σημείο x. Αυτού του είδους το διάστημα εμπιστοσύνης, κατασκευάζεται όταν επιθυμούμε να εκτιμήσουμε ένα συγκεκριμένο ποσοστιαίο σημείο, όπως είναι η διάμεσος, το άνω ή
κάτω τεταρτημόριο ή, γενικότερα, ένα οποιοδήποτε -ποσοστιαίο σημείο, όπου είναι μία συγκεκριμένη σταθερά,. Σχήμα.5. Γράφημα μιας τυχούσας συνάρτησης κατανομής Eστω τυχαίο δείγμα X παρατηρήσεων πάνω στην, X,..., X n μεταβλητή Χ. Η κλίμακα μέτρησης των Χ i, i =,,, n είναι τουλάχιστον κλίμακα διάταξης. Το δείγμα που προκύπτει αν οι παρατηρήσεις διαταχθούν κατά αύξουσα σειρά μεγέθους είναι X () X ()... X (n). Η κατασκευή ενός διαστήματος εμπιστοσύνης για την τιμή x με συντελεστή εμπιστοσύνης περίπου ίσο με α ισοδυναμεί με τον προσδιορισμό δύο ακεραίων αριθμών r s (r s), ακολούθως, του διαστήματος [X, X ] με την ιδιότητα x X ) = (r x < X ) α, αν Χ συνεχής α, αν Χ διακριτή. Συνεχής Περίπτωση Υπενθυμίζεται ότι το -ποσοστιαίο σημείο x μίας συνεχούς κατανομής ορίζεται ως; η τιμή x με την ιδιότητα < x ) =. Oπως είναι γνωστό,
x X ) = x ) > x ). Επομένως, θέτοντας x ) = α x ) = α >, οι ακέραιες τιμές r s που θα προσδιορισθούν, έτσι ώστε: > x ) = α α/ x ) = α α/, οδηγούν σε διάστημα της μορφής [X, X ] με την ιδιότητα x X ) = α α α. Το διάστημα, δηλαδή, που προσδιορίζεται με την παραπάνω διαδικασία, αποτελεί ένα διάστημα εμπιστοσύνης για το ποσοστιαίο σημείο x με συντελεστή εμπιστοσύνης περίπου ίσο με ( α)%. Προσδιορισμός των τιμών r s: Για τον προσδιορισμό της τιμής r, απαιτείται ο καθορισμός της πιθανότητας > x ). Παρατηρούμε ότι, για r =, () > x ) = P(min{X, X,..., X } > x = > x, X > x,...,x n > x Επειδή οι παρατηρήσεις Χ i, i =,,, n είναι ανεξάρτητες ισόνομες τυχαίες μεταβλητές, η παραπάνω ισότητα παίρνει την μορφή () > x ) = > x ), η οποία, από τον ορισμό του -ποσοστιαίου σημείου, γράφεται n i= () n > x ) = ( ). i n ) ). 3
() Για r =, το ενδεχόμενο {X > x } ισοδυναμεί με την ένωση των ενδεχομένων {ακριβώς n παρατηρήσεις υπερβαίνουν την τιμή x } {ακριβώς n παρατηρήσεις υπερβαίνουν την τιμή x }. Αυτό είναι άμεση συνέπεια του γεγονότος ότι, όπως προκύπτει από το σχήμα.5.3, δύο είναι οι δυνατές θέσεις της τιμής x σε σχέση με τις παρατηρήσεις του δείγματος: Αριστερά της τιμής Χ () ή μεταξύ των τιμών Χ () Χ (). x () x () x (n) Σχήμα.5.3 Κατά συνέπεια, () > x ) = P({όλα τα X > x }U{n από τα X > x i 4 = P(τουλάχιστον n παρατηρήσεις > x ) = P(το πολύ παρατήρηση < x ). Από τον ορισμό του -ποσοστιαίου σημείου, ισχύει ότι < x ), i =,,, n. Επομένως, i = () x n x > x ) = n ( ) x= x. Συνεχίζοντας με τον ίδιο τρόπο, αποδεικνύεται ότι r n x n x > x ) = x ( ). x= Το δεξί μέλος της παραπάνω ισότητας ταυτίζεται με την αθροιστική συνάρτηση κατανομής μίας διωνυμικής μεταβλητής, έστω Χ, με παραμέτρους n,. Άρα, > x ) = r n, ). i })
Επειδή η μεταβλητή Χ είναι συνεχής, x ) = > x ). Επομένως, με όμοιο τρόπο, μπορεί να αποδειχθεί ότι x ) = s n, ). Aρα, οι τιμές r s μπορούν να προσδιορισθούν με βάση τον πίνακα της διωνυμικής κατανομής (πίνακα του παραρτήματος) για τις δοθείσες τιμές των α, n έτσι ώστε: r n, ) = α α/, s n, ) = α α/. Παρατήρηση: Η κατασκευή ενός διαστήματος εμπιστοσύνης της μορφής [X, X ] με συντελεστή εμπιστοσύνης περίπου ίσο με α α α ισοδυναμεί με τον έλεγχο των υποθέσεων H = H * x * x σε επίπεδο σημαντικότητας α +α α. Παράδειγμα.5.5: Ένα τυχαίο δείγμα 5 παρατηρήσεων πάνω στο βάρος ενός πληθυσμού (σε κιλά) έδωσε τα εξής αποτελέσματα: () 7.6 (3) 7. (8) 7.3 (4) 7 (5) 7.9 () 6.8 (3) 76. (5) 9. () 7.5 (7) 7. (6) 7. (4) 8.6 (9) 7.9 () 7.8 () 65.7 (Οι αριθμοί που εμφανίζονται στην παρένθεση αναφέρονται στην κατ αύξουσα σειρά διάταξη των παρατηρήσεων). Σε επίπεδο σημαντικότητας περίπου %, να ελεγχθούν οι εξής υποθέσεις για την διάμεσο x του πληθυσμού: 5
Η H = 7. 7. Λύση: Ο έλεγχος των υποθέσεων αυτών ισοδυναμεί με την κατασκευή ενός διαστήματος εμπιστοσύνης για την διάμεσο x του πληθυσμού με συντελεστή εμπιστοσύνης περίπου ίσο με 9%, δηλαδή, ενός τυχαίου διαστήματος της μορφής [X, X ] με x X ) 9%. όπου Προφανώς, οι τιμές r s ορίζονται αντίστοιχα από τις σχέσεις r n = 5, = ) = α.5, s n = 5, = ) = α, X ορίζεται όπως στα προηγούμενα. Από τον πίνακα της διωνυμικής μεταβλητής προκύπτει ότι r = 4 (ισοδύναμα, r = 5) όταν α =.59 s = (ισοδύναμα, s = ) όταν α =.59. (5) () Επομένως x X ) =.59.59 =.886 9%. Κατασκευάσθηκε, δηλαδή, ένα διάστημα εμπιστοσύνης για την διάμεσο x του πληθυσμού με άκρα την 5η την η κατά αύξουσα σειρά μεγέθους παρατήρηση, συγκεκριμένα το διάστημα [7.9, 7.6], με συντελεστή εμπιστοσύνης 88.6%. Το διάστημα αυτό περιέχει την τιμή 7.. Αυτό συνεπάγεται ότι, σε επίπεδο σημαντικότητας = α + α =.59 +.59.484, δεν απορρίπτεται η μηδενική α = υπόθεση. 6
Παράδειγμα.5.6: Ποιο είναι το 95% διάστημα εμπιστοσύνης για το 95ο ποσοστιαίο σημείο του πληθυσμού των οδηγών, από τον οποίο επελέγη το δείγμα του προηγούμενου παραδείγματος.5.; Λύση: Πρέπει να κατασκευασθεί ένα διάστημα της μορφής [X, X ] με x X ) = α. Το αριστερό μέλος της ισότητας αυτής είναι ίσο με x ) > x ) ή (επειδή έχουμε συνεχή πληθυσμό) > x ) > x ). Θέτουμε > x ) = - α.975 > x ) = α.5. Αλλά, > x ) = s - n =, = ) > x ) = r - n =, = ). Επομένως, οι τιμές των s r ορίζονται από τις σχέσεις s - n =, = ).975 r - n =, = ).5. Επειδή το μέγεθος του δείγματος είναι μεγάλο ισχύει ότι n 5 n( ) 5, μπορεί να χρησιμοποιηθεί η προσέγγιση της διωνυμικής κατανομής από την κανονική. Επομένως, οι τιμές των s r προσδιορίζονται από τις σχέσεις s 95 r 95 P Z =.975 P(Z ) =.5. 4.75 4.75 7
Από την πρώτη σχέση, έχουμε, s 95 = z.975 =.96 s = 99.7. 4.75 () Aρα, X = X = 9. Με όμοιο τρόπο, προκύπτει ότι (9) r = 9.7 9. Επομένως, X = X = 76.3 κατά συνέπεια, ένα 95% διάστημα εμπιστοσύνης για το x, το 95ο ποσοστιαίο σημείο της κατανομής του ύψους, είναι το διάστημα (76.3, 9). Συχνά, απαιτείται η κατασκευή μονόπλευρων διαστημάτων εμπιστοσύνης, δηλαδή, διαστημάτων της μορφής (, X ] με συντελεστή εμπιστοσύνης α α, ή της μορφής [X, + ) με συντελεστή εμπιστοσύνης α α. Τα διαστήματα αυτά μπορούν να προκύψουν μέσω του προσδιορισμού της ακέραιης τιμής r, έτσι ώστε x ) = α α ή της ακέραιης τιμής s, έτσι ώστε x ) = α α, αντίστοιχα. ώστε Από την θεωρία που αναπτύχθηκε, η τιμή r προσδιορίζεται έτσι r n, ) = α α, ενώ η τιμή s προσδιορίζεται έτσι ώστε s n, ) = α α. Oπως στην περίπτωση των αμφίπλευρων διαστημάτων εμπιστοσύνης, οι δύο μορφές μονόπλευρων διαστημάτων εμπιστοσύνης ισοδυναμούν με ελέγχους υποθέσεων για το - ποσοστιαίο σημείο ενός πληθυσμού. Συγκεκριμένα, η κατασκευή του μονόπλευρου διαστήματος εμπιστοσύνης της μορφής (, X ] με συντελεστή εμπιστοσύνης α α ισοδυναμεί με τον έλεγχο των υποθέσεων 8
H * x H >, * x σε επίπεδο σημαντικότητας α α. Αντίστοιχα, η κατασκευή διαστήματος εμπιστοσύνης της μορφής [X, + ) με συντελεστή εμπιστοσύνης α α ισοδυναμεί με τον έλεγχο των υποθέσεων H σε επίπεδο σημαντικότητας α α. * x H <, * x Παράδειγμα.5.7: Ας υποθέσουμε ότι στο προηγούμενο παράδειγμα ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος του βάρους του πληθυσμού δεν υπερβαίνει την τιμή 7. σε επίπεδο σημαντικότητας περίπου ίσο με %. Είναι προφανές ότι οι προς έλεγχο υποθέσεις έχουν την μορφή H H 9 7. > 7.. Ο έλεγχος των υποθέσεων αυτών ισοδυναμεί με την κατασκευή ενός διαστήματος εμπιστοσύνης της μορφής (, X ] τέτοιου ώστε P( < x X ) 9% ή, ισοδύναμα, x ) = α 9%. * Από την σχετική θεωρία που αναπτύχθηκε, η τιμή s προσδιορίζεται έτσι ώστε s n = 5, = ) = α 9%. Από τον πίνακα της διωνυμικής κατανομής, προκύπτει ότι s = 9 (ισοδύναμα, s = ) όταν α =.848
Επομένως, το πάνω άκρο του διαστήματος που αντιστοιχεί σε συντελεστή εμπιστοσύνης 84.8% είναι η η κατά αύξουσα σειρά μεγέθους παρατήρηση του δείγματος, δηλαδή η τιμή 7.5. Όπως παρατηρείται, η τιμή 7. περιλαμβάνεται στο διάστημα (, 7.5] που αποτελεί ένα 84.8% διάστημα εμπιστοσύνης για την διάμεσο του πληθυσμού. Επομένως, σε επίπεδο σημαντικότητας α =.848=9 η μηδενική υπόθεση δεν απορρίπτεται. Με ανάλογο τρόπο μπορούμε να προχωρήσουμε για τον έλεγχο των εξής υποθέσεων για την διάμεσο του πληθυσμού H H 7. < 7., σε επίπεδο σημαντικότητας περίπου ίσο με %. Όπως προηγουμένως, για τον έλεγχο αυτών των υποθέσεων αρκεί να κατασκευασθεί ένα διάστημα [X, + ) με την ιδιότητα x < + ).9 ή, ισοδύναμα, με την ιδιότητα x ).9. Η τελευταία σχέση γράφεται με την μορφή x ) %. Επομένως, η τιμή r μπορεί να προσδιορισθεί από τον πίνακα της διωνυμικής κατανομής, έτσι ώστε: r n = 5, = ) = α %. Πράγματι, από τον πίνακα της διωνυμικής κατανομής προκύπτει ότι r = 5 (ισοδύναμα, r =6) όταν α = 9, δηλαδή, το κάτω άκρο του διαστήματος που αντιστοιχεί σε συντελεστή εμπιστοσύνης α = 9=.849 είναι η 6η κατά αύξουσα σειρά μεγέθους παρατήρηση του δείγματος έχει την τιμή 7.. Παρατηρούμε ότι η τιμή 7. ανήκει στο κατασκευασθέν διάστημα [7., + ) που
αποτελεί ένα διάστημα εμπιστοσύνης για την διάμεσο του πληθυσμού με συντελεστή εμπιστοσύνης α = 9=.849. Επομένως, σε επίπεδο σημαντικότητας α = 9, η μηδενική υπόθεση δεν απορρίπτεται. Διακριτή Περίπτωση Υπενθυμίζεται ότι ως -ποσοστιαίο σημείο μίας διακριτής κατανομής ορίζεται η τιμή x με την ιδιότητα > x ) < x ). Όπως ήδη αναφέρθηκε στα προηγούμενα, στόχος είναι η κατασκευή ενός διαστήματος της μορφής [X, X ] με την ιδιότητα x < X ) α. Προσδιορισμός των τιμών r s: Όπως αποδείχθηκε στην συνεχή περίπτωση, η τιμή r προσδιορίζεται από την σχέση > x ) = r n, ). Από τον ορισμό, όμως, του -ποσοστιαίου σημείου, ισχύει ότι < x ). Επομένως, οι τιμές της X τείνουν να υπερβαίνουν την τιμή x με πιθανότητα μικρότερη από αυτήν της συνεχούς περίπτωσης. Επίσης, πάλι από τον ορισμό της τιμής x, ισχύει ότι > x ). Άρα, οι τιμές της Χ τείνουν να είναι τουλάχιστον ίσες με την τιμή x με πιθανότητα μεγαλύτερη από αυτήν της συνεχούς περίπτωσης. Συνεπώς, ακολουθώντας τα ίδια βήματα, όπως στην συνεχή περίπτωση, έχουμε ότι > x ) r n, ) α.
Με όμοιο τρόπο x ) r n, ) α. Επομένως, οι τιμές r s μπορούν να προσδιορισθούν από τον πίνακα της διωνυμικής κατανομής για τις δοθείσες τιμές των n έτσι ώστε r n, ) α α/ s n, ) α α/. Είναι προφανές ότι το διάστημα [X, X ] που προκύπτει αντιστοιχεί σε διάστημα εμπιστοσύνης για την διάμεσο ενός διακριτού πληθυσμού με συντελεστή εμπιστοσύνης x X ) = x ) > x ) = α α α. Παράδειγμα.5.8: Ας υποθέσουμε ότι ενδιαφερόμαστε να κατασκευάσουμε ένα διάστημα εμπιστοσύνης για την διάμεσο του πληθυσμού των τελειοφοίτων μαθητών γυμνασίου του παραδείγματος.5. με συντελεστή εμπιστοσύνης περίπου 9%. Σύμφωνα με τα παραπάνω, το ζητούμενο διάστημα θα είναι της μορφής [X, X ] με την ιδιότητα x X ). 9, όπου r s ορίζονται έτσι ώστε: r n =, = ) α.5 s n =, = ) α. Από τον πίνακα της διωνυμικής κατανομής προκύπτει ότι r = 6 (ισοδύναμα, r = 7) όταν α =.577
s = 3 (ισοδύναμα, s = 4) όταν α =.943. Επομένως, η 7η η 4η κατά αύξουσα σειρά μεγέθους παρατήρηση του δείγματος αποτελούν τα άκρα του διαστήματος, που αποτελεί ένα διάστημα εμπιστοσύνης για την διάμεσο του πληθυσμού, συγκεκριμένα του [7, 37], με συντελεστή εμπιστοσύνης τουλάχιστον ίσο με α α.8846. = Περίπτωση Μεγάλων Δειγμάτων (n ): Στην περίπτωση μεγάλων δειγμάτων είναι δυνατή η χρησιμοποίηση της προσέγγισης της διωνυμικής κατανομής από την κανονική κατανομή για τον προσδιορισμό των τιμών r s, ως αποτέλεσμα του γεγονότος ότι > x ) r n, ) < r n, ) r n r μ n, σ n( )) P < = = = Z <. N(μ,σ ) n( ) Τότε, για τιμή αυτής της πιθανότητας ίση με α/, δηλαδή, έπεται ότι r n α P Z < =, n( ) r n = z α/ = z n( ) α/ ή, ισοδύναμα, Με όμοιο τρόπο, προκύπτει ότι r α/ + = z n( ) n. s α/ + = z n( ) n. Οι τιμές των r s οι οποίες προκύπτουν από την παραπάνω σχέση στρογγυλοποιούνται στην αμέσως μεγαλύτερη ακέραιη τιμή. 3
Στην συνέχεια, το κατά προσέγγιση διάστημα εμπιστοσύνης είναι της μορφής [, X ] X με συντελεστή εμπιστοσύνης α (αν η κατανομή είναι συνεχής) ή α (αν η κατανομή είναι διακριτή). Με ανάλογο τρόπο, αντιμετωπίζονται οι περιπτώσεις μονόπλευρων διαστημάτων εμπιστοσύνης. Παράδειγμα.5.9: Στο προηγούμενο παράδειγμα, n=, α.9. Επομένως z α/ = z =.645 r = ().645 ()() = 6.3 7 s = (. 5) +.645 ()() = 3.68 4. Κατά συνέπεια, το κατά προσέγγιση διάστημα εμπιστοσύνης για την διάμεσο του πληθυσμού με συντελεστή εμπιστοσύνης περίπου ίσο με.9 είναι το διάστημα [7, 34] του οποίου άκρα αποτελούν η 7η η 4η κατά αύξουσα σειρά μεγέθους παρατήρηση του δείγματος. 4