.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test) Ο διωνυμικός έλεγχος μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων αναφερομένων στα ποσοστιαία σημεία μίας τυχαίας μεταβλητής. Στην περίπτωση αυτή ονομάζεται Έλεγχος Ποσοστιαίων Σημείων (Quantile Test). Για παράδειγμα, ενδέχεται να ενδιαφερόμαστε να εξετάσουμε αν ένα τυχαίο δείγμα τιμών μιας τυχαίας μεταβλητής Χ παρέχει ενδείξεις υπέρ της υπόθεσης ότι η διάμεσος της Χ είναι μεγαλύτερη από κάποια τιμή. Η κλίμακα μέτρησης είναι συνήθως τουλάχιστον κλίμακα διάταξης, παρά το ότι για τον διωνυμικό έλεγχο απαιτείται η (ασθενέστερη) ονομαστική κλίμακα. Έστω Χ, Χ,, Χ n τυχαίο δείγμα παρατηρήσεων πάνω στην τυχαία μεταβλητή Χ και το -ποσοστιαίο σημείο της κατανομής της. Υπενθυμίζεται ότι το -ποσοστιαίο σημείο μίας κατανομής ορίζεται ως το σημείο με την ιδιότητα P(X > P(X < ) ) = και P(X < ) (διακριτή περίπτωση) (συνεχής περίπτωση) Έστω ότι και είναι κάποιες συγκεκριμένες τιμές, < <. Οι υποθέσεις που ενδέχεται να ενδιαφερόμαστε να ελέγξουμε μπορούν να έχουν μία από τις εξής τρεις μορφές. Α. (Αμφίπλευρος Έλεγχος) =
Β. (Μονόπλευρος Έλεγχος) < Γ. (Μονόπλευρος Έλεγχος) > Και στις τρεις περιπτώσεις, το δείγμα Χ, Χ,, Χ n των παρατηρήσεων πάνω στην μεταβλητή Χ μπορεί να θεωρηθεί ως μία ακολουθία αποτελεσμάτων n ανεξαρτήτων δοκιμών. Κάθε αποτέλεσμα ανήκει στην κατηγορία { X < } (επιτυχία) με πιθανότητα = P(X < ) ή στην κατηγορία { X > = P(X > ). } (αποτυχία) με πιθανότητα Α. (Αμφίπλευρος Έλεγχος) Συνεχής περίπτωση Από τον ορισμό του -ποσοστιαίου σημείου, προκύπτει ότι η μηδενική υπόθεση : P(X ). < = = είναι ισοδύναμη με την υπόθεση Επομένως, ένα τυχαίο δείγμα μεγέθους n θα περιέχει Τ επιτυχίες κάθε μία από τις οποίες έχει πιθανότητα = P(X < ). Κατά συνέπεια, η μηδενική υπόθεση = είναι ισοδύναμη με την υπόθεση : =. Άρα ο έλεγχος των υποθέσεων της μορφής Α είναι
ισοδύναμος με έναν διωνυμικό έλεγχο για την παράμετρο μιας διωνυμικής κατανομής με παραμέτρους n,. Παράδειγμα.5.: Πρόκειται να κατασκευασθεί ένα καινούργιο αυτοκίνητο, που να χωράει άνετα ψηλούς οδηγούς εκτός από το 5% των πιο ψηλών οδηγών. Παλιότερες μελέτες δείχνουν ότι το 95ο ποσοστιαίο σημείο της κατανομής του ύψους των οδηγών της περιοχής ήταν (σε εκατοστά). Για να ελεγχθεί αν αυτό ισχύει ακόμα, επελέγη ένα τυχαίο δείγμα μεγέθους και βρέθηκε ότι τα ύψη των πιο ψηλών ατόμων ήταν τα εξής: 8.5 75 78.3 76.3 77. 9. 75.3 8.3 77.8 76.5 79.8 8. Είναι εύλογο να χρησιμοποιηθεί η τιμή 75.8 ως το 95ο ποσοστιαίο σημείο; Λύση: Οι προς έλεγχο υποθέσεις είναι.95.95 = 75.8 75.8 : P(X < 75.8 =.95 : P(X < 75.8).95 Για τον έλεγχο των υποθέσεων αυτών, η προφανής επιλογή στατιστικής συνάρτησης είναι η Τ = # των X i < 75.8, η οποία ακολουθεί την διωνυμική κατανομή με παραμέτρους n= και =P(X<75.8). (Συμβολικά, Τ ~ διων (n=, = P(X<75.8))). Επομένως, κάτω από την, Τ~ διων (n =, = P(X<75.8)=.95). Άρα, η κρίσιμη περιοχή του 3
ελέγχου μεγέθους α ορίζεται από τις ανισότητες T t και T > t t και t ορίζονται από τις σχέσεις και P(T t n =, =.95) α/ P(T > t n =, =.95) α/., όπου Επειδή το μέγεθος του δείγματος είναι μεγάλο (n=) και n 5, n( ) 5, μπορεί να χρησιμοποιηθεί η προσέγγιση της διωνυμικής κατανομής με n= και =.95 από την κανονική κατανομή N(μ = n = 95,σ = n( ) = 4.75). Τότε, α P(T t P(X N(μ, σ ) t t 95 = P Z. 4.75 n =, =.95) μ = 95, σ = 4.75) και t 95 = z 4.75 t 95 = z 4.75 α/ α/ = z. α/ Η κρίσιμη περιοχή του ελέγχου μεγέθους α ορίζεται, επομένως, από τις ανισότητες t 95.8 z α/ και t > 95 +.8 z α/ 4
Η παρατηρούμενη τιμή της Τ είναι 9 (= +). Έτσι, η κρίσιμη περιοχή μεγέθους.5, που ορίζεται από τις σχέσεις t 9.7 και t > 99., συνεπάγεται απόρριψη της Η σε επίπεδο σημαντικότητας 5%. Το κρίσιμο επίπεδο του ελέγχου είναι αˆ = P(T 9 9 95 = P Z 4.75 = P(Z.5) = = (- P(Z (-.9938) =.4. n =, =.95) <.5)) Επομένως, οι ενδείξεις που παρέχει το δείγμα δεν υποστηρίζουν την υπόθεση ότι το.95-ποσοστιαίο σημείο της κατανομής του ύψους είναι η τιμή 75.8. Διακριτή περίπτωση Από τον ορισμό του -ποσοστιαίου σημείου της κατανομής της μεταβλητής Χ, προκύπτει ότι οι προς έλεγχο υποθέσεις είναι ισοδύναμες με τις υποθέσεις = : P(X ) και P(X < ) < ή : P(X ) P(X > < ). Για τον έλεγχο των υποθέσεων αυτής της μορφής θεωρούμε δύο στατιστικές συναρτήσεις: 5
και T = # παρατηρήσεων X i που είναι T = # παρατηρήσεων X i που είναι <. Επομένως, η κρίσιμη περιοχή του ελέγχου, αντιστοιχεί σε τιμές της T που είναι πολύ μεγάλες και σε τιμές της στατιστικής συνάρτησης T που είναι πολύ μικρές. Αυτό, γιατί οι μεγάλες τιμές της Τ είναι ενδεχομένως ενδεικτικές του ότι η πιθανότητα του ενδεχομένου { X < } υπερβαίνει την τιμή. Αντίστοιχα, οι μικρές τιμές της Τ είναι ενδεχομένως ενδεικτικές του ότι η πιθανότητα του ενδεχομένου { X } είναι μικρότερη από την τιμή. Δεδομένου ότι, όπως είναι προφανές, οι στατιστικές συναρτήσεις T και T ακολουθούν κάτω από την μηδενική υπόθεση την διωνυμική κατανομή με παραμέτρους n,, ο κανόνας απόρριψης έχει την εξής μορφή: Η υπόθεση Η απορρίπτεται σε επίπεδο σημαντικότητας α +α α αν T t ή αν T > t, όπου οι τιμές t και t προσδιορίζονται από τον πίνακα της διωνυμικής κατανομής (πίνακας του παραρτήματος) έτσι ώστε P(T t n, = ) = α α/ και P(T > t n, = ) = α α/. Παράδειγμα.5.: Ένα δείγμα τελειοφοίτων μαθητών Γυμνασίου έδειξε τα εξής αποτελέσματα σ ένα διαγώνισμα με άριστα το. 6
4 34 98 9 3 3 54 93 37 86 9 6 44 58 65 8 7 8 3 Να ελεγχθεί σε επίπεδο σημαντικότητας α.5 η υπόθεση ότι η διάμεσος της κατανομής των βαθμών είναι η τιμή 3. Λύση: Στην πραγματικότητα, θέλουμε να ελέγξουμε τις υποθέσεις:.5 = 3 ή, ισοδύναμα,.5 3 : P(X 3).5 και P(X < 3).5 : P(X 3) <.5 ή P(X < 3) >.5. Τα κρίσιμα σημεία t και t θα καθορισθούν έτσι ώστε και P(T t n =, =. 5) = α.5% P(T > t n =, =. 5) = α.5%. Από τον πίνακα της διωνυμικής κατανομής (πίνακας του παραρτήματος) έχουμε t = 5 αν α =.7 και t = 4 αν α =.7. Από τα δεδομένα, προκύπτει ότι οι παρατηρηθείσες τιμές των στατιστικών συναρτήσεων Τ και Τ είναι τ =6 και τ =4, αντίστοιχα. Επομένως, σε επίπεδο σημαντικότητας.44, δεν απορρίπτεται η μηδενική υπόθεση Η. 7
Επειδή έχουμε δύο ελεγχοσυναρτήσεις, ο αμφίπλευρος έλεγχος ισοδυναμεί με τον συνδυασμό των μονόπλευρων ελέγχων των περιπτώσεων Β και Γ. Επομένως, το κρίσιμο επίπεδο αˆ του ελέγχου ορίζεται από την σχέση: αˆ = min { αˆ, ˆ } α, όπου αˆ = P(η T έχει μία τιμή ίση ή πιο ακραία από την παρατηρηθείσα τ ) = P(T 6 n =, =.5) =.577 ˆ P(η T έχει μία τιμή ίση ή πιο ακραία από την παρατηρηθείσα τ ). α = = P(T 4 n =, =.5) =.59 =.994. Άρα α ˆ = (.577) =. 54. Β. (Μονόπλευρος Έλεγχος) Για τον έλεγχο των υποθέσεων < της περίπτωσης αυτής, θεωρούμε μία τιμή, τέτοια ώστε =. = Σχήμα.5. 8
Τότε, από τον ορισμό του -ποσοστιαίου σημείου μιας κατανομής,, ισχύει ότι P(X P(X P(X < < < Aρα, οι προς έλεγχο υποθέσεις είναι ισοδύναμες με τις υποθέσεις ) ) ). : P(X < ) < >. : P(X ) Η προφανής επιλογή στατιστικής ελεγχοσυνάρτησης για τον έλεγχο των παραπάνω υποθέσεων είναι ο αριθμός των παρατηρήσεων του δείγματος που δεν υπερβαίνουν την τιμή. Δηλαδή, T = # παρατηρήσεων X i που είναι <. Επομένως, ο κανόνας απόρριψης είναι ο εξής: Η υπόθεση Η απορρίπτεται σε επίπεδο σημαντικότητας περίπου ίσο με α αν T > t, όπου η τιμή t ορίζεται από την σχέση P(T > t n, = ) α. Παράδειγμα.5.3: Αν στο προηγούμενο παράδειγμα με τις βαθμολογίες των μαθητών είχαμε να ελέγξουμε τις υποθέσεις.5.5 3 < 3, θα θεωρούσαμε ισοδύναμα τις υποθέσεις 9
: P(X < 3).5 : P(X < 3) >.5. Η κρίσιμη περιοχή του ελέγχου ορίζεται από την ανισότητα T > t, όπου η τιμή t ορίζεται έτσι ώστε P(T > t n =, =.5) = α α =.5. Από τον πίνακα της διωνυμικής κατανομής (πίνακας του παραρτήματος) έχουμε ότι t = 3 αν α =.577. Δεδομένου ότι η παρατηρηθείσα τιμή τ =4 της στατιστικής συνάρτησης T δεν υπερβαίνει την κρίσιμη τιμή, η μηδενική υπόθεση δεν απορρίπτεται σε επίπεδο σημαντικότητας.577. Το κρίσιμο επίπεδο του ελέγχου είναι αˆ = P(T 4 n =, =.5) = -P(T 3 n =, =.5) =.3=.9987 Γ. (Μονόπλευρος Έλεγχος) Για τον έλεγχο των υποθέσεων >, θεωρούμε πάλι μία τιμή τέτοια ώστε = και παρατηρούμε ότι, από τον ορισμό του -ποσοστιαίου σημείου,, ισχύει ότι P(X ) P(X ). Άρα οι προς έλεγχο υποθέσεις είναι ισοδύναμες με τις υποθέσεις : P(X ) : P(X ) <. Η προφανής επιλογή ελεγχοσυνάρτησης για τον έλεγχο των παραπάνω υποθέσεων είναι η T = # παρατηρήσεων X i που είναι και
η κρίσιμη περιοχή του ελέγχου ορίζεται από την ανισότητα T t, όπου η τιμή t ορίζεται από την σχέση P(T t n, = ) = α α. Παράδειγμα.5.4: Αν στο προηγούμενο παράδειγμα η εναλλακτική υπόθεση ήταν.5 > 3, οι προς έλεγχο υποθέσεις θα ήταν ισοδύναμες με τις υποθέσεις : P(X.5.5 3 > 3 3).5 : P(X 3) <.5. Ο κανόνας απόφασης έχει την μορφή: Η υπόθεση Η απορρίπτεται σε επίπεδο σημαντικότητας περίπου ίσο με α, αν T t, όπου η τιμή t ορίζεται από την σχέση P(T t n =, =. 5) = α α. Από τον πίνακα του παραρτήματος προκύπτει ότι t = 6, αν α =.577. Η παρατηρηθείσα τιμή της στατιστικής συνάρτησης Τ είναι t = 6. Επομένως, η μηδενική υπόθεση Η απορρίπτεται σε επίπεδο σημαντικότητας.577. Το κρίσιμο επίπεδο του ελέγχου είναι αˆ = P(T 6 n =, =.5) =.577.