Vahemikhinnangud Vahemikhinnangud Olgu α juhusliku suuruse X parameeter ja α = α (x 1,..., x n ) parameetri α hinnang. Kui ε > 0 on kindel suurus, siis vahemiku (α ε, α +ε) otspunktid on samuti juhuslikud suurused. P(α (α ε, α + ε)) = β. β usaldusnivoo, l β = (α ε, α + ε) usaldusvahemik α ε ja α + ε usalduspiirid Kui P(α α ε) = P(α α + ε) = 1 β, siis on tegemist sümmeetrilise usaldusvahemikuga. Vasakpoolne usaldusvahemik (, α v ) usaldusnivooga β määratakse seosest P(α < α v ) = β ja parempoolne usaldusvahemik (α p, + ) seosest P(α > α p ) = β. Üldkogumi keskväärtuse usaldusvahemik x = 1 n n i=1 x i, E x = EX, D x = σ n. Tsentraalse piirteoreemi kohaselt on x asümptootiliselt normaalne, st. kui n on küllalt suur, siis x on ligikaudu normaaljaotusega parameetritega EX ja D x = σ/ n. l β = ( x P(EX ( x ε β, x + ε β )) s n Φ 1 ( β ), x + s n Φ 1 ( β )). Näide. Olgu {x 1,..., x 1, y 1,..., y 1 } = {z 1,..., z 4 }. Siis z = 3, 58 ja s z = 8, 39. Kui β = 0, 9, siis ( ) 8, 39 0, 9 ε 0.9 Φ 1 = 1, 71 1, 645 =, 8, l 0,9 (0, 76; 6, 4) 4 1
Normaaljaotusele alluva üldkogumi keskväärtuse usalduspiirkond Kui X on normaaljaotusega, siis T n 1 = n( x EX) on Studenti jaotusega vabadusastmete arvuga n 1. ( ) n x EX nεβ P( x EX < ε β ) = β P < = β s s ( ) nεβ P T n 1 < = β s ε β = st ( β l β = x st β, x + st ) β. n n n Näide jätkub. Eeldame, et Z on normaaljaotusega. t 0,9;3 = 1, 71, ε 0,9 = 1, 71 1, 71 =, 93 l 0,9 = (0, 65; 6, 51) s Normaaljaotusele alluva üldkogumi dispersiooni usalduspiirkond Kui X on normaaljaotusega, siis Y n 1 vabadusastmete arvuga n 1. P(ν 1 < Y n 1 < ν ) = β, = (n 1)s /DX on χ jaotusega kus ja P(Y n 1 < ν 1 ) = 1 β ( ) ν 1 = χ 1 1 β n 1 P(Y n 1 < ν ) = 1 + β ( ) ν = χ 1 1 + β n 1. ( ) (n 1)s (n 1)s l β =,. ν ν 1
Näide jätkub. Eeldame, et Z on normaaljaotusega ning β = 0, 98. ν 1 = χ 3 1 (0, 01) = 10,, ν = χ 3 1 (0, 99) = 41, 64 ( ) 3 70, 43 3 70, 43 l β =, = (38, 9; 158, 8). 41, 64 10, Normaaljaotusele alluva üldkogumi standarhälbe usaldusvahemik Kui on teada dispersiooni usaldusvahemik siis ehk P(r 1 < DX < r ) = β, r 1 < DX < r r 1 < σ < r r 1 < σ < r P( r 1 < σ < r ) = β. Vahemik l β = ( r 1, r ) on standardhälbe usaldusvahemik usaldusnivool β. Näide jätkub. Eeldame, et Z on normaaljaotusega ning β = 0, 98. P(38, 9 < DX < 158, 8) = 0, 98 l β = ( 38, 9; 158, 8) = (6, ; 1, 6). Vahemikhinnang korrelatsioonikordajale Saab näidata, et juhuslik suurus T n = r 1 r n allub Studenti jaotusele vabadusastmete arvuga n ning juhuslikku suurust Z = 1 ln 1 + r 1 r 3
võib käsitleda normaaljaotusega juhusliku suurusena, mille standardhälbe hinnang on 1 s z =. n 3 Tähistame β = P( Z < ε β ) Φ z = 1 ( εβ s z ) ( ) β ε β s z Φ 1 ln 1 + r 1 r antud valimi põhjal leitud Z-i väärtust (s.t. kõigepealt on leitud korrelatsioonikordaja punktihinnang r). Z-i usaldusvahemik on seega P(Z (z ε β, z +ε β )) = β. Tähistame z 1 = z ε β ja z = z +ε β. Korrelatsioonikordaja usaldusvahemiku leiame valemiga ( e z 1 ) 1 P < r < ez 1 β. e z 1 + 1 e z + 1 Kuna Z = 1 ln 1 + r 1 r = arth(r), siis r = tanh(z), s.t. P(tanh(z 1 ) < r < tanh(z )) β. Näide jätkub. Leiame korrelatsioonikordaja usaldusvahemiku usaldusnivool β = 0, 95. z = arth(0, 36) = 0, 377 s z = Leiame veel 1 1 3 = 1 3 ε 1 3 Φ 1 ( 0, 95 z 1 = 0, 377 0, 653 = 0, 76 z = 0, 377 + 0, 653 = 1, 03. Korrelatsioonikordaja usaldusvahemik on l 0,95 = (tanh( 0, 76); tanh(1, 03)) = ( 0, 8; 0, 77). ) = 0, 653 4
Vahemikhinnang sündmuse tõenäosusele p Bernoulli piirteoreemi kohaselt koondub tõenäosuse järgi sündmuse A sagedus katsete arvu tõkestamatul kasvamisel sündmuse A toimumise tõenäosuseks. Kui X on binoomjaotusega, siis saab näidata, et p = k on parameetri n ( ) pq p nihketa hinnang ning X/n on ligikaudu normaaljaotusega N p,. n Tõenäosuse sümmeetrilise usaldusvahemiku leiame järgmiselt: millest β = P( p p < ε β ) Φ ε β p (1 p ) n ( ) β p ε β Φ 1 (1 p ), l β (p ε β, p + ε β ). n Vahemikhinnang sündmuse tõenäosusele p (näide) 1 Münti visati 100 korda ja 58 korral tuli kiri. Leidke 95% usaldusvahemik sündmuse mündi viskamisel tuleb kiri tõenäosusele. p = 58 = 0, 58, 100 ( ) 0, 95 0, 58 (1 0, 58) ε 0,95 Φ 1 100 Usaldusvahemik ehk l 0,95 = (0, 48; 0, 68). P(0, 48 < p < 0, 68) 0, 95. = 1, 96 0, 05 = 0, 1 5
Hüpoteeside kontroll Hüpoteeside kontroll Definitsioon 1. Iga oletust tundmatu jaotusseaduse kuju või parameetrite kohta nimetatakse (statistiliseks) hüpoteesiks. Kontrollitavat hüpoteesi nimetatakse tavaliselt nullhüpoteesiks ja tähistatakse H 0. Kõrvuti nullhüpoteesiga vaadeldakse konkureerivat ehk alternatiivset hüpoteesi H 1, st H 0 ja H 1 on teineteist välistavad. Hüpoteesi H 0 kontrollimiseks kasutatakse valimi x 1, x,..., x n põhjal spetsiaalselt koostatud statistikut θn(x 1, x,..., x n ), mille kui juhusliku suuruse täpne või ligikaudne jaotus on teada. Statistiku θn kõigi võimalike väärtuste hulk jaotatakse kaheks mittelõikuvaks osahulgaks: kriitiliseks hulgaks 1 (hüpoteesi H 0 tagasilükkamise piirkond) ja lubatud hulgaks 0 (hüpoteesi H 0 vastuvõtmise piirkond). Valimi jaotuse põhjal määratakse 1 selliselt, et kui hüpotees H 0 on õige, siis P(θn 1 ) = α, kus α on etteantud väike arv. Lihtsamad kriitilised hulgad 1 on: 1. parempoolne kriitiline hulk (θ kr, + );. vasakpoolne kriitiline hulk (, θ kr ); 3. kahepoolne kriitiline hulk (, θ krv ) (θ krp, + ), kusjuures P(θ n (, θ krv )) = P(θ n (θ krp, + )); 4. sümmeetriline kriitiline hulk (, θ kr ) (θ kr, + ). Parempoolse kriitilise hulga (θ kr, + ) korral: θ n > θ kr hüpotees H 0 lükatakse tagasi, θ n < θ kr hüpotees H 0 võetakse vastu. Vasakpoolse kriitilise hulga (, θ kr ) korral: θ n < θ kr hüpotees H 0 lükatakse tagasi, θ n > θ kr hüpotees H 0 võetakse vastu. 6
Kahepoolse kriitilise hulga korral: θn < θ krv θn > θ krp hüpotees H 0 lükatakse tagasi, θ kr < θn < θ krp hüpotees H 0 võetakse vastu. Sümmeetrilise kriitilise hulga korral: θn > θ kr hüpotees H 0 lükatakse tagasi, θ n < θ kr hüpotees H 0 võetakse vastu. hüpotees H 0 võetakse vastu lükatakse tagasi õige õige otsus esimest liiki viga vale teist liiki viga õige otsus Definitsioon. Esimest liiki vea lubatavuse tõenäosust α nimetatakse kriteeriumi olulisuse nivooks. β teist liiki vea lubatavuse tõenäosus. Definitsioon 3. Teist liiki vea mittelubatavuse tõenäosust 1 β nimetatakse kriteeriumi võimsuseks. α = P[(θ n 1 )(H 0 on õige)] β = P[(H 0 on vale)(θ n 0 )] Kahe jaotuse keskväärtuste võrdsuse kontrollimine Olgu teada DX ja DY ning sõltumatud valimid {x 1,..., x n }, {y 1,..., y m } Kontrollime keskväärtuste võrdsust, st. H 0 : EX = EY olulisuse nivool α. E x = EX, Eȳ = EY, σ x = σ X / n, σ x = σ Y / m. 7
Ligikaudu x N(EX, σ X / n) ja ȳ N(EY, σ Y / m). Kui H 0 on õige, siis teststatistik θ x ȳ = N(0, 1). σ X /n + σy /m Valimi põhjal arvutatakse θ. Kriitilise piirkonna valik sõltub konkureerivast hüpoteesist: ( ) 1 α H 1 : EX EY Kasutame sümmeetrilist kriitilist hulka, kus θ kr = Φ 1. H 1 : EX > EY Kasutame parempoolset kriitilist hulka, kus θ kr = Φ 1 (1 α). H 1 : EX < EY Kasutame vasakpoolset kriitilist hulka, kus θ kr = Φ 1 (1 α). Näide. Olgu DX = 80, DY = 70 ning n = 50 ja m = 40. Valimitest saadi, et x = 60 ja ȳ = 67. Kontrollime olulisuse nivool 0, 0 hüpoteesi, et H 0 : EX = EY. θ 60 67 = 3, 8. 80/50 + 70/40 H 1 : EX EY θ kr = Φ 1 (0, 49) =, 33. Kuna θ > θ kr, siis lükkame H 0 tagasi. H 1 : EX > EY θ kr = Φ 1 (0, 48), 054. Kuna θ < θ kr, siis ei ole alust H 0 tagasi lükata. H 1 : EX < EY θ kr = Φ 1 (0, 48), 054. Kuna θ < θ kr, siis lükkame H 0 tagasi. Valimi keskväärtuste võrdsuse kontrollimine normaaljaotusega üldkogumi keskmisega Üldkogumi dispersioon σ on teada, kuid oletatakse, et EX = a 0. Teststatistik arvutatakse valimist mahuga n järgmiselt θ = ( x a 0) n σ N(0, 1). Näide. (Ül. 13) ühes ja samas terase sulamis mõõdeti kroomi sisaldust protsentides: 17, 4 17, 9 8, 1 0, 3 1, 7 19, 1, 7 8
Kas olulisuse nivool nivool 0, 05 on mõõtmistulemus 8, 1 usaldusväärne, kui üldkogumi standardhälve on %? x = 0, 9 θ = (0, 9 8, 1) 7 = 9, 5 θ kr = Φ 1 (0, 475) = 1, 96 Kuna θ > θ kr, siis lükkame hüpoteesi H 0 tagasi. Üldkogumi dispersioon ei ole teada, kuid oletatakse, et EX = a 0. Teststatistik arvutatakse valimist mahuga n järgmiselt θ = ( x a 0) n s T n 1 ja allub t-jaotusele vabadusastmete arvuga n 1. Näide. (Ül. 19) Polümerisatsiooni oletatav keskmine kiirus on 4% tunnis, mida kontrolliti kaheksa proovi uurimisel: 3, 6, 8 7 4, 8 6, 4 4, 3 3, 9 5, 0 Otsustada olulisuse nivool 0, 1, kas nende tulemuste põhjal on piisavalt alust väita, et kiirus erineb oletatavast väärtusest. x = 4, 73 s = 1, 41 θ = (4, 73 4) 8 = 1, 45 1, 41 ) ( Kuna θ kr = t 1 8 1 1 0, 1 = t 1 7 (0, 95) = 1, 89, siis θ < θ kr. Hüpoteesi H 0 ei saa tagasi lükata. Märkus. Kui valimi maht on küllalt suur n 30, siis võib lugeda s σ ning sel juhul θ = ( x a 0) n s N(0, 1) Valimi dispersiooni võrdlemine normaaljaotusega üldkogumi dispersiooniga Üldkogumi dispersioon σ ei ole teada, kuid oletatakse, et σ = σ0. Teststatistik θ (n 1)s = χ σ0 n 1 allub hii-ruut jaotusele vabadusastmete arvuga n 1. 9
1. parempoolse kriitilise hulga korral arvutatakse θ kr = χ n 1 1 (1 α),. vasakpoolse kriitilise hulga korral arvutatakse θ kr = χ n 1 1 (α), 3. kahepoolse kriitilise hulga korral arvutatakse θ krv = χ n 1 1 (α/) ja θ krp = χ n 1 1 (1 α/). Näide. (Ül. 117) Mõõteriista täpsust kontrollitakse mõõtmistulemuste dispersiooni järgi, mis ei tohi ületada 0, 04. Kontrollida olulisuse nivool 0, 01 hüpoteesi, et mõõteriista piisavalt suure täpsuse kohta järgmiste tulemuste alusel: 5, 5, 1 4, 8 5, 5 5, 8 4, 9 5, 5, 8 5, 4 H 0 : σ 0, 04 H 1 : σ > 0, 04 Valimist leiame s = 0, 18. Kriitiliseks hulgaks on parempoolne kriitiline hulk. θ 8 0, 18 = = 5, 6 θ kr = χ 9 1 1 (1 0, 01) = χ 8 1 (0, 99) = 0, 09 0, 04 Kuna θ > θ kr, siis hüpotees H 0 lükatakse tagasi. Suhtelise sageduse võrdlemine tõenäosusega Sündmuse A esinemise tõenäosus ei ole teada, kuid oletatakse, et see võrdub arvuga p 0. Valimist mahuga n arvutatakse sündmuse A toimumise suhteline sagedus p = n A /n. Teststatistik hüpoteesi H 0 : p = p 0 kontrollimiseks θ = (p p 0 ) n p0 (1 p 0 ) on valimi küllalt suure mahu korral ligikaudu normeeritud normaaljaotusega. Kahepoolse kriitilise piirkonna korral θ kr = Φ 1 ((1 α)/). Näide (Ül. 138) Antud täringu kohta on teada, et sündmus S= viie või kuue silma saamine ühel viskel esineb tõenäosusega 1/3. Täringut visatakse 100 korda, kusjuures sündmus S esines 5 korda. Kontrollida olulisuse nivool α = 0, 05 hüpoteesi H 0 : p = 1/3. Valime alternatiivseks hüpoteesiks H 1 : p 1/3. Lähteandmetest saame θ = (0, 5 1/3) 100 1/3 (1 1/3) = 1, 77, θ kr = Φ 1 (0, 475) = 1, 96 Kuna θ < θ kr, siis nullhüpoteesi tagasi ei lükata. 10
Normaaljaotusega üldkogumite dispersioonide võrdlemine Hüpoteeside paarid: Teststatistik z = H 0 : DX 1 = DX, H 1 : DX 1 > DX, (n 1 1)s 1 1 σ n 1 1 (n 1)s 1 σ n 1 = s 1 s H 0 : DX 1 = DX, H 1 : DX 1 DX, F (n 1 1, n 1) on nullhüpoteesi kehtivuse korral F-jaotusega (ehk Fisheri) jaotusega vabadusastmete arvuga n 1 1 (lugeja) ja n 1 (nimetaja). 1. Kui H 1 : DX 1 > DX, siis kasutatakse parempoolset kriitilist piirkonda, kus z kr = F 1 (1 α; n 1 1, n 1).. Kui H 1 : DX 1 DX, siis kasutatakse kahepoolset kriitilist piirkonda, kus z krv = F 1 (α/; n 1 1, n 1), z krp = F 1 (1 α/; n 1 1, n 1). Normaaljaotusega üldkogumite keskväärtuste võrdlemine (n < 30) Olgu uuritav tunnus mõlemas üldkogumis normaaljaotusega ja sama dispersiooniga. Ühise standardhälbe hinnang (n 1 1)s 1 + (n 1)s s = n 1 + n ja valimkeskmiste standardhälve s s x1 x = + s 1 = s + 1. n 1 n n 1 n Juhuslik suurus t = x 1 x 1 s + 1 = n 1 n x 1 x (n1 1)s 1 + (n 1)s n 1 + n 11 1 n 1 + 1 n
on t-jaotusega vabadusastmete arvuga n 1 + n. Hüpoteeside paarid: H 0 : EX 1 = EX, H 1 : EX 1 > EX, H 0 : EX 1 = EX, H 1 : EX 1 < EX, H 0 : EX 1 = EX, H 1 : EX 1 EX, Teststatistik nullhüpoteesi kehtivuse korral on t = x 1 x (n1 1)s 1 + (n 1)s n 1 + n 1 n 1 + 1 n Parempoolse (vasakpoolse) kriitilise piirkonna korral t kr = t 1 n 1 +n (1 α) (t kr = t 1 n 1 +n (α)). Kahepoolse kriitilise piirkonna korral t kr = t 1 n 1 +n (1 α/). Näide. Olgu antud juhusliku vektori (X, Y ) valim x i 8 18 11 1 0 7 3 8 4 30 18 30 y i 10 19 11 14 5 6 30 36 5 30 3 1 Kontrollime olulisuse nivool 0, 05 hüpoteesi H 0 : EX = EY. Selleks kontrollime kõigepealt hüpoteesi H 0 : DX = DY. Valime H 1 : DX DY. z = s x s y = 76, 7 70, 75 = 1, 08. z krv = F 1 (0, 05; 11, 11) = 0, 9, z krp = F 1 (0, 975; 11, 11) = 3, 47 Kuna z krv < z < z krp, siis ei saa hüpoteesi H 0 : DX = DY tagasi lükata. t = 3, 9 3, 5 11 76, 7 + 11 70, 75 1 1 + 1 1 = 0, 19 Alternatiivse hüpoteesi EX EY korral t kr = t 1 (0, 975) =, 07. 1
Korrelatsioonikordaja hinnangu usaldatavus Teststatistik H 0 : ρ = 0, H 1 : ρ 0, t = r s r = r 1 r n allub t-jaotusele vabadusastmete arvuga n (r on korrelatsioonikordaja punkthinnang). Kahepoolne kriitiline piirkond t kr = t 1 n (1 α/), kus α on olulisuse nivoo. Näide jätkub. Kontrollime usaldusnivool 0, 1 hüpoteesi ρ 0., r = 0, 36 t = 0, 36 1 0, 36 = 1, 1 Kuna t kr = t 1 10 (0, 95) = 1, 81, siis ei saa nullhüpoteesi tagasi lükata. χ -test: kahe tunnuse sõltumatuse kontrollimine Olgu reatunnusel r võimalikku väärtust ja veerutunnusel v võimalikku väärtust. Koostame sagedustabeli (r rida ja v veergu) ning püstitame hüpoteesid H 0 : read ja veerud on sõltumatud ja H 1: read ja veerud on sõltuvad. Näide (Ül. 66) Valijate suhtumine erakonda: Positiivne Erapooletu Negatiivne Mehed 4 41 18 83 Naised 1 49 7 77 45 90 5 Arvutatakse ridade ja veergude sageduste summad: n r i = v n ij, n v j = j=1 r n ij, n = i=1 r n r i = i=1 v n v j. j=1 13
χ -test: kahe tunnuse sõltumatuse kontrollimine 0 Kui eeldame sõltumatust st. kehtib nullhüpotees, siis ilmselt ñ ij n = nr i n nv j n, Nullhüpoteesile vastav teststatistik ñ ij = nr i n v j n. θ = r v (n ij ñ ij ) ñ i=1 j=1 ij allub χ jaotusele vabadusastmete arvuga k = (r 1) (v 1). Kriitiliseks piirkonnaks on parempoolne kriitiline piirkond θ kr = χ k 1 (1 α), kus α on usaldusnivoo. Näide NB! χ testi kasutamisel n ij 5. Näide (Ül. 66) Valijate suhtumine erakonda: Positiivne Erapooletu Negatiivne Mehed 4 41 18 83 Naised 1 49 7 77 45 90 5 Kas olulisuse nivool 0, 05 võib väita, et suhtumine erakonda sõltub valija soost? 3,3 46,7 13,0 1,7 43,3 1,0 θ = (4 3, 3) (41 46, 7) + + 3, 3 46, 7 (49 43, 3) (7 1) + + 43, 3 1 (18 13) 13 + (1 1, 7) 1, 7 = 5, 5 θ kr = χ 1 (0, 95) = 6, 0 + 14