TESTY DOBREJ ZHODY
Testy dobrej zhody = testy hypotéz zhody rozdelení (= testy dobrej zhody / ft testy / Goodness of Ft Tests) Overujeme, č emprcké rozdelene je štatstcky zhodné s nektorým z teoretckých rozdelení pravdepodobnost, prípadne s ným emprckým rozdelením. H 0 : f(x) = g(x) ; H 1 : f(x) g(x)
Testy dobrej zhody Pearsonov Ch-kvadrát ( ) test (unverzálny test pre dskrétne aj spojté dstrbučné funkce s dostatočne veľkým rozsahom n) Kolmogorovov test (test pre jednoznačne určené spojté dstrbučné funkce) Kolmogorovov-Smrnovov test (test zhody dvoch emprckých dstrbučných funkcí) Testy normalty cez momenty (testy normalty pomocou koefcentu škmost a špcatost) Testy extrémnych hodnôt (za predpokladu normalty súboru dát)
Všeobecný postup 1. Navrhnúť predpokladaný typ rozdelena pravdepodobnost, napr. na základe grafckého zobrazena rozdelena početností emprckých údajov. Odhadnúť parametre vybraného rozdelena (ntervaly spoľahlvost) 3. Overť zhodu rozdelena výberových údajov s vybraným rozdelením s odhadnutým parametram pomocou testov dobrej zhody
Príklad 1 - test (Normálne rozdelene) Náhodným výberom bola vybratá vzorka rozsahu n = 50. Frekvenčná tabuľka Počet ntervalov k = 5 Rozsah ntervalu h = Mn = 6, Max = 14 z n 1 6 6 8 11 3 10 19 4 1 9 5 14 5 =50 Overte na hladne významnost = 5%, č emprcké rozdelene početností zodpovedá normálnemu rozdelenu.
Výpočet bodových odhadov parametrov rozdelena z n =z *n =(z -premer) *n 1 6 6 36 88.4736 8 11 88 37.416 3 10 19 190 0.4864 4 1 9 108 41.9904 5 14 5 70 86.58 suma stĺpcov: 50 49 54.7 výberový premer: 9.84 = 49 / 50 výberová smerodajná odchýlka:.8 = 54,7 / (50-1)
Absolútna početnosť Relatívna kumulatívna početnosť Emprcké rozdelene N[10,4] Graf rozdelena emprckých početností Graf kumulatívnej emprckej dstrbučnej funkce 10.00% Další; 100.00% 0 18 16 10; 19 100.00% 80.00% 1; 88.00% 14; 100.00% 14 1 8; 11 60.00% 10; 56.00% 10 1; 9 8 6 6; 6 14; 5 40.00% 8; 8.00% 4 0.00% 0 6 8 10 1 14 Tredy 0.00% 6; 4.00% 6 8 10 1 14 Další Tredy
Teoretcké rozdelene N[10,4] Graf hustoty pravdepodobnost normálneho rozdelena N[10,4] Graf kumulatívnej dstrbučnej funkce normálneho rozdelena N[10,4]
Četnost Četnost Teoretcké a emprcké rozdelene N[10,4] Graf hustoty pravdepodobnost normálneho rozdelena N[10,4] Graf kumulatívnej dstrbučnej funkce normálneho rozdelena N[10,4] 10.00% 0 18 16 10; 19 100.00% 80.00% 1; 88.00% 14; 100.00% 14 1 8; 11 60.00% 10; 56.00% 10 1; 9 8 6 6; 6 14; 5 40.00% 8; 8.00% 4 0.00% 0 6 8 10 1 14 Třídy 0.00% 6; 4.00% 6 8 10 1 14 Třídy
Testy dobrej zhody Hodnoty skúmanej vybranej premennej - náhodne vybranej vzorky rozsahu n, sú rozdelené do k tred (varačné tredene) Porovnáva sa mera zhody pozorovaných emprckých početností n týchto tred s teoretckým početnosťam np zodpovedajúcm týmto tredam (p teoretcká pravdepodobnosť výskytu hodnôt z -tej tredy podľa skúmaného zákona rozdelena pravdepodobnost (normálne, Possonove, bnomcké rozdelene a né))
Testovaca charakterstka testu dobrej zhody P P k ( n ) k n n 1 1 Charaktestka P alebo má rozdelene s počtom stupňov voľnost k-1-r, kde r je počet odhadnutých parametrov predpokladaného teoretckého rozdelena, n sú emprcké, skutočne zstené početnost hodnôt x /z p je teoretcká pravdepodobnosť, že hodnoty náhodnej velčny leža v -tom ntervale
Testovaca charakterstka testu dobrej zhody P ( ) P k 1 ( n Charakterstka P alebo má rozdelene s počtom stupňov voľnost k-1-r, ) kde r je počet odhadnutých parametrov predpokladaného teoretckého rozdelena, k je počet tred varačného tredena n sú emprcké, skutočne zstené početnost hodnôt x dskrétnej premennej alebo ntervalov (t -1 ; t hodnôt z spojtej premennej a np sú príslušné teoretcké, očakávané početnost. N je rozsah výberového súboru p je pravdepodobnosť hodnoty premennej s predpokladaným rozdelením, resp. pravdepodobnosť ntervalu hodnôt je teoretcká pravdepodobnosť, že hodnoty náhodnej velčny leža v - tom ntervale (t -1 ; t spojtej premennej. k 1 n n
Postup výpočtu testu (t -1 ; t t -1 v -1 Φ ( v -1) p n*p ran Coch- n*p (po cochranov) Coch Početnost -ran sčítané (np -n ) /(np ) 1 5 ; 7 - - 0 0.10565 5.8 ok 5.8 ok 6 0.09745833 ( 7 ; 9 7-1.5 0.106 0.5004 1.50 ok 1.50 ok 11 0.180468065 3 ( 9 ; 11 9-0.37 0.356 0.3398 16.964 ok 16.964 ok 19 0.44319937 4 ( 11 ; 13 11 0.51 0.695 0.76 11.138 ok 15.51 ok 14 0.10661373 5 ( 13 ; 15 13 1.39 0.918 0.086 4.113 sčítať sčítať 6 1 = P = 0,65 Horná a dolná hranca ntervalu (pokračovane predchádzajúcej tabuľky) Dolná hranca ntervalu. Prvý a posledný nterval zabezpečuje pokryte celého teoretckého rozsahu rozdelena Hodnota normovanej náhodnej velčny v 1 (z - x) s 1 Dstrbučná funkca normovaného normálneho rozdelena - hodnoty sú tabelované, pre z < 0, platí ( v 1) 1 ( v 1) Teoretcká pravdepodobnosť, že hodnoty náhodnej velčny leža v -tom ntervale (rozdel hodnôt dvoch po sebe dúcch radkov) p v ) ( v ) ( 1
Cochranovo pravdlo je požadované splnene podmenky n.p >= 5 pre = 1,,..., k. ( = 1,,..., k). Splnene tejto podmenky možno dosahnuť dodatočne, zlučovaním susedných tred. Avšak jej prísne dodržavane je nutné ba pr malom počte stupňov voľnost. Bolo overené, že pre k-1-r 3 stačí, aby 4 a pre k-1-r 6 stačí, aby 1 ; ( =1,,... k).
Postup výpočtu χ testu dobrej zhody (t -1 ; t t -1 v -1 Φ ( v -1) p n*p cochran n*p (po cochranov) cochr Početnost an sčítané (np -n ) /(np ) 1 ( 5 ; 7 - - 0 0.10565 5.8 ok 5.8 ok 6 0.09745833 ( 7 ; 9 7-1.5 0.106 0.5004 1.50 ok 1.50 ok 11 0.180468065 3 ( 9 ; 11 9-0.37 0.356 0.3398 16.964 ok 16.964 ok 19 0.44319937 4 ( 11 ; 13 11 0.51 0.695 0.76 11.138 ok 15.51 ok 14 0.10661373 5 ( 13 ; 15 13 1.39 0.918 0.086 4.113 sčítať 6 = P = 0,65 Neplatí nerovnosť 0,65 = P > χ γ;k-1-r = 3,84, preto hypotézu H 0 nezametame na hladne významnost. Údaje pochádzajú z normálneho rozdelena. g 0.95 r (počet parametrov rozdelena)= k-1-r = 4-1- = 1 Tabelovaná hodnota kvantlu: g (k-1-r) =3.84
Príklad - test (Bnomcké rozdelene) Bolo skúmané dodržavane šestch pravdel domáceho poradku nájomníkm. Jednoduchý náhodný výber 00 bytov odhall nasledujúce skutočnost. Na 5%-nej hladne významnost vykonajte test hypotézy a určte, č vzorka pochádza z rozdelena, v ktorom počet prestupkov (zo šestch možných prestupkov = n) na 1 byt je bnomcky rozdelená náhodná premenná. H 0 : Počet prestupkov na 1 byt vo všetkých mestských bytoch je bnomcky rozdelený s pravdepodobnosťou úspechu v každom pokuse p=0,3. H 1 : Počet prestupkov na jeden byt v celom meste ne je opísateľný bnomckým rozdelením.
Príklad - test P k 1 ( n ) k 1 n n (Bnomcké rozdelene) Počet možných prestupkov na 1 byt početnosť početnosť prestupkovp Teoretcký počet n*p početnost cochran n*p (po cochranov) cochransčítané (np -n ) /(np ) 0 31 0 0.1176 3.53 ok 3.530 ok 31.37163 1 51 51 0.305 60.51 ok 60.505 ok 51 1.4934 70 140 0.341 64.83 ok 64.87 ok 70 0.4179 3 3 96 0.185 37.04 ok 37.044 ok 3 0.68680 4 9 36 0.0595 11.91 ok 14.094 ok 16 0.5776 5 5 5 0.010.04 sčítať sčítať 6 1 0.0007 0.15 sčítať sčítať 00 360 1.0000 00.00 00.000 00 k = 7 alfa = 0.05 n x n x p P( x). p. 1 p x X n p DX n. p. 1 p E. n n!. pre n k 0; nak 0 x k!( n k)! k=počet ntervalov = 7 E(X)= 1.8 = n= 6 p= 0.3
Príklad - test P k 1 ( n ) k 1 n n (Bnomcké rozdelene) Počet možných prestupkov na 1 byt početnosť početnosť prestupkovp Teoretcký počet n*p početnost cochran n*p (po cochranov) cochransčítané (np -n ) /(np ) 0 31 0 0.1176 3.53 ok 3.530 ok 31.37163 1 51 51 0.305 60.51 ok 60.505 ok 51 1.4934 70 140 0.341 64.83 ok 64.87 ok 70 0.4179 3 3 96 0.185 37.04 ok 37.044 ok 3 0.68680 4 9 36 0.0595 11.91 ok 14.094 ok 16 0.5776 5 5 5 0.010.04 sčítať sčítať 6 1 0.0007 0.15 sčítať sčítať 00 360 1.0000 00.00 00.000 00 r (počet parametrov rozdelena)= p = 5. g 0.95 k (po Cochranov)= 5 k-1-r = 5-1- = g (k-1-r) = 5.99 Testovaca charakterstka P ne je väčša ako ch-kvadrát, preto hypotézu H0 nezametame na hladne významnost 0.05. Údaje pochádzajú z bnomckého rozdelena.
Príklad - test (Possonovo rozdelene) Pr výrobe sa môže vyskytovať určtý počet chýb na 1 výrobku. Predpokladá sa, že rozdelene počtu chýb sa rad Possonovým rozdelením. Jednoduchým náhodným výberom sme vybral stý počet výrobkov. Počty chýb sú uvedené v tabuľke. Test zhody s Possonovým rozdelením vykonajte na hladne významnost a. H 0 : Výsledky expermentu sú realzácou náhodnej velčny s Possonovym rozdelením. H 1 : Výsledky expermentu ne sú realzácou náhodnej velčny s Possonovym rozdelením
Príklad - test P k 1 ( n ) k 1 n n (Possonovo rozdelene) Pearson Posson k= 6 Počet chýb x Počet výrobko v počet chýb spolu p Teoretcký počet výrobkov n*p cochran n*p (po cochranov) cochran početno st sčítané (np -n ) /(np ) 0 43 0 0.556 41.71 ok 41.71 ok 43 0.03978 1 4 4 0.363 4.47 ok 4.47 ok 4 0.0091 5 10 0.0957 7.18 ok 8.813 ok 8 0.07500 3 6 0.0187 1.40 sčítať sčítať 4 1 4 0.007 0.1 sčítať sčítať 5 a vac 0 0 0.0003 0.0 sčítať sčítať 75 44 1.0000 75.00 74.997 75 0.139 p P( x) e x x! E X D(X ) = 44/75 K = počet ntervalov = 6 E(x) = 0.58670 E =.7188 K = počet ntervalov po Cochranov= 3
0, 0,95 Príklad - test P k 1 ( n ) k 1 n n (Possonovo rozdelene) Pearson Posson k= 6 Počet chýb x Počet výrobko v počet chýb spolu Teoretcký počet výrobkov n*p n*p (po početno st sčítané (np -n ) /(np ) p cochran cochranov) cochran 0 43 0 0.556 41.71 ok 41.71 ok 43 0.03978 1 4 4 0.363 4.47 ok 4.47 ok 4 0.0091 5 10 0.0957 7.18 ok 8.813 ok 8 0.07500 3 6 0.0187 1.40 sčítať sčítať 4 1 4 0.007 0.1 sčítať sčítať 5 a vac 0 0 0.0003 0.0 sčítať sčítať 75 44 1.0000 75.00 74.997 75 0.139 Krtcký obor: χ 0,95;(k-1-r) = χ 0,95 ;(3-1-1) =χ 0,95 ;(1) = 6.635 P = 0.14 ne je > 6.635 - preto H0 nezametam. Na hladne významnost α = 0.01 môžeme rozdelene počtu chýb považovať za Possonovo s parametrom λ = 0.5867
0, 0,95 Príklad 3 - test P k 1 ( n ) k 1 n n (Exponencálne rozdelene) f t,. e 0. t t t 0 0 E T 1/ 1/ D T
0, 0,95 Príklad 4 Kolmogorovov test Kolmogorovov test Parametre rozdelena: Premer: 100 Rozptyl: 4 sm.odch.: Alfa 0.01 Rozsah 3 H 0 : Uvedený výberový súbor pochádza z rozdelena N(100; 9). H 1 : Uvedený výberový súbor pochádza z ného rozdelena. x n N (x -m)/s F (x ) F 8 (x ) 1 88.5 1 1-5.75 4.4617E-09 0.043478 0.0434786 4.46E-09 91.5 3-4.5 1.06885E-05 0.130435 0.1304409 0.0434676 3 94.5 5 -.75 0.00979763 0.17391 0.1441154 0.17455 4 97.5 6 11-1.5 0.105649774 0.47861 0.376111 0.1117415 5 100.5 5 16 0.5 0.59870636 0.69565 0.09694585 0.104455 6 103.5 5 1 1.75 0.959940843 0.913043 0.04689736 0.64887 7 106.5 3 3.5 0.9994975 1 0.00057703 0.0863795 Výsledok testu: tabelovaná krtcká hodnota testovacej charakterstky hodnota D1 = 0.37611096 > 0.33 = D0.01(3) = D(n) t.j. H 0 zametame. Výberový súbor nepochádza z daného rozdelena.
0, 0,95 Príklad 5 Kolmogorovov-Smrnovov test Máme k dspozíc údaje o popolnatost vzorek uhla z dodávok dvoch banských závodov (v % popola): I. 5, 4,8 1,9 5,6 5,5 3,4 5,3 6,4 3,5 3,8 II. 4,8 5,0 5,7 5,4 5,5 4,4 4, 5,0 5,3 5,0 Pomocou Kolmogorovovho-Smrnovho testu preverte na hladne významnost 5% hypotézu, že obdva výberové súbory pochádzajú z toho stého základného súboru. Zadane: súbor1: súbor. 1 5. 4.8 4.8 5 3 1.9 5.7 4 5.6 5.4 5 5.5 5.5 6 3.4 4.4 7 5.3 4. 8 6.4 5 9 3.5 5.3 10 3.8 5 H 0 : Obdva výberové súbory pochádzajú z toho stého základného súboru. H 1 : Výberové súbory nepochádzajú z toho stého základného súboru. (ak sú rozsahy výberov malé) Ak sú rozsahy výberov veľké, testovane je podobné ako pr Kolmogorovovom teste cez ntervaly. Varačný rad: 1 1.9 3.4 3 3.5 4 3.8 5 4. 6 4.4 7 4.8 7 4.8 9 5 9 5 9 5 1 5. 13 5.3 13 5.3 15 5.4 16 5.5 16 5.5 18 5.6 19 5.7 0 6.4
0, 0,95 Príklad 5 Kolmogorovov-Smrnovov test Rešene: j I j-1 I j <I j-1 ;I j ) F 10 (x) G 10 (x) F 10 (x) - G 10 (x) 1.- 1.9 (.- ; 1.9) 0.00 0.00 0.00 1.9 3.4 <1.9; 3.4) 0.10 0.00 0.10 3 3.4 3.5 <3.4; 3.5) 0.0 0.00 0.0 4 3.5 3.8 <3.5; 3.8) 0.30 0.00 0.30 5 3.8 4. <3.8; 4.) 0.40 0.00 0.40 6 4. 4.4 <4.; 4.4) 0.40 0.10 0.30 7 4.4 4.8 <4.4; 4.8) 0.40 0.0 0.0 8 4.8 5 <4.8; 5) 0.50 0.30 0.0 9 5 5. <5; 5.) 0.50 0.60 0.10 10 5. 5.3 <5.; 5.3) 0.60 0.60 0.00 11 5.3 5.4 <5.3; 5.4) 0.70 0.70 0.00 1 5.4 5.5 <5.4; 5.5) 0.70 0.80 0.10 13 5.5 5.6 <5.5; 5.6) 0.80 0.90 0.10 14 5.6 5.7 <5.6; 5.7) 0.90 0.90 0.00 15 5.7 6.4 <5.7; 6.4) 0.90 1.00 0.10 16 6.4. <6.4;. ) 1.00 1.00 0.00
0, 0,95 Príklad 5 Kolmogorovov-Smrnovov test Rešene: d n. max Fn ( x) Gn ( x) 0.05 xr n 1 = 10 n = 10 testovaca charakterstka d = 10 * 0,4 = 4 Hypotézu H 0 zametame, ak testovaca charakterstka je väčša ako tabelovaná hodnota = 7 - ne je väčša - nezametam H 0
0, 0,95 Príklad 6 Testy extrém.hodnôt Zadane: 0.05 extrém: n = 1 Prvotná tabuľka 1 Na hladne významnost 5% rozhodnte pomocou Grubbsovho a Dxonovho testu, č hodnota 3 je extrémna. H 0 : Hodnota NIE JE extrémna. H 1 : Hodnota JE extrémna. max pre extrémy spomedz mnmálnych hodnôt, použť príslušné vzorce Rešene: Varačný rad: usporadať hodnoty prvotnej tabuľky od najmenšej hodnoty po najväčšu 13 A) Grubbsov test: 1 výberový premer: 15 11 výb. smer. odchýlka: 3.33 13 15 testovaca charakterstka: T(1) =.509 >.387= T0.05(1) H 0 zametame 18 Hodnota 3 JE xn xn 1 16 B) Dxonov test Q( n) extrémna. xn x1 17 3 testovaca charakterstka: Q(1) =0.417 > 0.376= Q0.05(1) t.j. H 0 zametame 16 Hodnota 3 JE 14 extrémna. T n x n x. s n n 1
u 0, 0,95 1 g u 1 g Príklad 7 Testy normalty pomocou koefcentu škmost a špcatost H 0 : Výberový súbor pochádza zo súboru s normálnym rozdelením. H 1 : Výberový súbor nepochádza zo súboru s normálnym rozdelením. Test normalty pomocou koefcentu škmost. D 3 = škmosť = -0.4083 abs(g 3 )= 0.40833 NIE JE > 0.88077 = D 3 *u (1+ g )/ rozsah súboru = 3 alfa= 0.05 t.j. H 0 nezametame. 0.4494 Výberový súbor pochádza z normálneho rozdelena. = 1.9600 Test normalty pomocou koefcentu špcatost. D 4 = špcatosť = -0.4873 abs(g 4 +6/(n+1))= 0.3774 NIE JE > 1.457355 = D 4 *u (1+ g )/ rozsah súboru = 3 alfa= 0.05 t.j. H 0 nezametame. 0.7436 Výberový súbor pochádza z normálneho rozdelena. = 1.9600