χ 2 test (Hi-kvadrat test) Jedan od prvih statističkih testova je χ 2 -test. Predložio ga je K. Pearson 900. godine, pa je poznat i pod nazivom Pearsonov test. χ 2 test je neparametarski test. Pomoću χ 2 -testa testiramo nultu hipotezu da obilježje X ima odredenu (teorijsku)razdiobu protiv alternativne da nema tu razdiobu. Isto tako pomoću χ 2 -testa ispitujemo nezavisnost dva statistička obilježja, kao i homogenost populacija. Za sve navedeno test-statistika je (općenito): H = r (f i ) 2 gdje su f i eksperimentalne, a teorijske frekvencije. Ako je za neki i očekivana (teorijska) frekvencija < 5 združimo taj razred sa susjednim(a) razredom(ima) tako da novodobiveni razred zadovoljava uvjet da mu je očekivana frekvencija barem 5. Uz pretpostavku da je H 0 točna hipoteza za velike n (n ) H χ 2 (r l ) gdje χ 2 (r l ) označava χ 2 razdiobu s (r l ) stupnjeva slobode. r je (konačan) broj razreda u uzorku, a l broj nepoznatih parametara. Za zadanu pogrešku prve vrste α, kritično područje odredujemo iz uvjeta Dakle, kritično područje je: P (H > χ 2 (r l ) H 0 ) = α. C 0 = [χ 2 α(r l ), χ 2 α(r l ) čitamo iz tablica. Ako s h označiimo vrijednost test statistike izračunate iz uzorka, onda nultu hipotezu odbacujemo ako h C 0 tj. h χ 2 α(r l ).
χ 2 - test o prilagodbi modela podacima Neka je X statističko obilježje koje promatramo. Iz podataka u uzorku najčešće mozemo naslutiti kakva je populacijska razdioba. U ovom slučaju nulta hipoteza je: H 0 : X ima pretpostavljenu razdiobu, a alternativna: H : X nema pretpostavljenu razdiobu. Primjer. Kocka se baca 0 puta. Rezultati su dani u tablici: Broj na kocki 2 3 4 5 Broj pojavljivanja 3 9 8 5 4 Da li je kocka ispravna? U ovom primjeru hipoteze su: H 0 : kocka je ispravna i H : kocka nije ispravna. Statističko obiljezje je X broj na kocki. Prirodno je ispitati da li se iz tablice frekvencija može zaključiti da empirijska razdioba bitno ne odstupa od teorijske diskretne uniformne razdiobe (vjerojatnosti pojavljivanja svakog broja na kocki su jednake, tj. broj pojavljivanja -frekvencija svakog broja u 0 bacanja je 0). Stoga definiramo hipoteze: H 0 : X ima diskretnu uniformnu razdiobu i H : X nema diskretnu uniformnu razdiobu. Ako je H 0 istinita hipoteza onda bi funkcija vjerojatnosti obilježja X bila: ( ) 2 3 4 5 X. Kako bismo izračunali vrijednost odgovarajuće test-statistike trebaju nam teorijske frekvencije. Njih računamo po formuli = np i gdje je p i odgovarajuća vjerojatnost, odnosno u ovom slučaju odgovarajuća proporcija. Kako je p i =, za svaki i, to je f t i = 0. Formirajmo tablicu: f i (f i ) 2 3 0 0.9 9 0 8. 0 0. 8 0 0.4 5 0 2.5 4 0 3. 0 0 5. 2
Vrijednost test satatistike je h = 5., broj razreda r =, broj nepoznatih parametara l = 0. Iz tablica oǐtamo χ 2 α(r l ) = χ 2 0.0(5) = 5.08, pa je kritično područje C 0 = [5.08,. Vrijednost test satatistike h = 5. pripada kritičnom podruǰu, pa nultu hipotezu odbacujemo i prihvaćamo alternativnu, tj kocka nije ispravna. Primjer 2.Anketirano je 00 studenata i dobiven je prosječan broj njihovih odlazaka u kazalište tijekom godine. S nivoom signifikantnosti 0.05, testirajte hipotezu da se radi o uzorku iz populacije s normalnom distribucijom. broj posjeta [0, 2 [2, 4 [4, [, 8 [8, 0 [0, 2 [2, 4 broj studenata 5 0 20 33 8 0 4. Normalna distribucija ima 2 parametra - očekivanje µ i varijancu σ 2. Kako nijedan od njih nije zadan, moramo ih procijeniti, pa odmah slijedi da je l = 2. Procjenitelj za očekivanje je ˆµ = x a za varijancu ˆσ 2 = s 2 n. U tablici su dani sortirani podaci. Vidimo da je 5 studenata išlo u kazalište 0 ili put ali ne znamo koliko točno od tih 5 je išlo 0 a koliko put. Treba nam predstavnik tog razreda - uzimamo sredinu razreda. Sada ˆµ = x = r 5 + 3 0 + 5 20 + 7 33 + 9 8 + 0 + 3 4 x i f i = n 00 ( n ) ( r ) ˆσ 2 = s 2 = x 2 i n x 2 = x 2 i f i n x 2 n n =.9 s 2 = ( 2 5 + 3 2 0 + 5 2 20 + 7 2 33 + 9 2 8 + 2 0 + 3 2 4 00.9 2) = 8.03 99 Postavljamo (nultu) hipotezu da slučajna varijabla X koja broji odlaske u kazalište ima normalnu distribuciju: H 0 : X N(.9, 8.03) 3
Sljedeći korak je odrediti teorijske frekvencije = 00 p i. Imamo ( 0.9 p = P (0 X < 2) = P Z < 2.9 ) 8.03 8.03 = Φ(.74) Φ( 2.45) = Φ(2.45) Φ(.74) = 0.4928572 0.459 = 0.0338 f t = 3.38 ( 2.9 p 2 = P (2 X < 4) = P Z < 4.9 ) 2.83 2.83 = Φ(.03) Φ(.74) = Φ(.74) Φ(.03) = 0.459 0.3485 = 0.0 f t2 =.0 p 3 = P (4 X < ) = P (.03 Z < 0.32) = Φ( 0.32) Φ(.03) = 0.223 f t3 = 22.3 p 4 = P ( X < 8) = P ( 0.32 Z < 0.39) = Φ(0.39) Φ( 0.32) = 0.2772 f t4 = 27.72 p 5 = P (8 X < 0) = P (0.39 Z <.0) = Φ(.0) Φ(0.39) = 0.22 f t5 = 2.2 p = P (0 X < 2) = P (. Z <.8) = Φ(.8) Φ(.) = 0.09974 f t = 9.97 p 7 = P (2 X < 4) = P (.8 Z < 2.52) = Φ(2.52) Φ(.8) = 0.0300 f t7 = 3 Budući je f t < 5 i f t7 < 5, spojit ćemo prva dva i posljednja dva razreda, pa će tako ostati ukupno 5 razreda. Dakle, r = 5. Formiramo tablicu: f i (f i ) 2 5 4.44 0.022 20 22.3 0.237 33 27.72.00 8 2.2 0.499 4 2.97 0.082 00 00.84 Vrijednost test-statistike je prema tome a 5 (f i ) 2 h = =.84, χ 2 α(r l ) = χ 2 0.05(2) = 5.99 4
Kritično područje je: C 0 = [5.99,. Kako h =.84 ne pripada kritičnom području C 0 tj. h < χ 2 0.05(2), nultu hipotezu ne možemo odbaciti, odnosno zaključujemo da se radi o uzorku iz normalno distribuirane populacije. χ 2 - test nezavisnosti dviju varijabli Neka je (X, Y ), (X 2, Y 2 ),..., (X n, Y n ) slučajni uzorak za dvodimenzionalno diskretno statističko obilježje (X, Y ) i neka je pritom: Skup vrijednosti obilježja X : Skup vrijednosti obilježja Y : Skup vrijednosti obilježja (X, Y ) : R(X) = {a,..., a r }; R(Y ) = {b,..., b s }; R[(X, Y )] = {(a i, b j ) : i r, j s}. Nadalje, f ij : frekvencija od (a i, b j ) u uzorku f i : (marginalna) frekvencija od a i u uzorku : (marginalna) frekvencija od b j u uzorku g j Vrijedi: f i = s f ij, g j = j= r f ij Kontingencijska frekvencijska tablica: X Y b b 2... b s Σ a f f 2... f s f a 2 f 2 f 22... f 2s f 2...... a r f r f r2... f rs f r Σ g g 2... g s n 5
Označimo: p ij = P (X = a i, Y = b j ) p i = P (X = a i ) q j = P (X = b j ) Hipoteze su: H 0 : X i Y su nezavisna obilježja i H : X i Y su zavisna obilježja, tj. H 0 : p ij = p i q j za sve i i j, a H : postoje i, j takvi da p ij p i q j Uz pretpostavku da je H 0 točna hipoteza, procjene za p i i q j su: ˆp i = f i n, ˆq j = g j n Očekivane (teorijske) vrijednosti j od f ij uz H 0 su: j = n ˆp i ˆq j = n fi n gj n = f i g j n Test-statistika je: H = r Ako je H 0 istinita, tada za n : s (f ij j ) 2 j= j H χ 2 ((r ) (s )), gdje χ 2 ((r ) (s )) označava χ 2 razdiobu s ((r ) (s )) stupnjeva slobode. Za zadanu pogrešku prve vrste α, kritično područje odredujemo iz uvjeta Dakle, kritično područje je: P (H > χ 2 ((r ) (s )) H 0 ) = α. C 0 = [χ 2 α((r ) (s )),, pritome χ 2 α((r ) (s )) čitamo iz tablica. Ako s h označiimo vrijednost test statistike izračunate iz uzorka, onda nultu hipotezu odbacujemo ako h C 0 tj. h χ 2 α((r ) (s )).
Primjer. U cilju ispitivanja uspješnosti na kolokvijima iz statistike interesira nas da li prolaznost na drugom kolokviju ovisi o prolaznosti na prvom kolokviju! Za slučajno odabranih 20 studenata dobiveni su podaci dani u tablici. Možete li na osnovu ovih podataka zaključiti da uspjeh na drugom kolokviju ovisi o uspjehu na prvom kolokviju, uz razinu značajnosti 0.0? Kolokvij Položili Pali. 45 25 70 2. 20 30 50 5 55 20 Neka je X = prolaznost na prvom kolokviju, a Y = prolaznost na drugom kolokviju. R(X) = R(Y ) = { polozio, pao } Testiramo: H 0 : X i Y su nezavisna obilježja, uz alternativnu H : X i Y su zavisna obilježja. Test statistika je: H χ 2 ((2 ) (2 )) = χ 2 (). Uz razinu značajanosti α = 0.0, χ 2 0.0() = (tablice) =.3, pa je kritično područje: C 0 = [.3,. Očekivane(teorijske) frekvencije su: Kolokvij Položili Pali. 37.92 32.08 70 2. 27.08 22.9 50 5 55 20 Vrijednost test statistike je: h = (45 37.92)2 37.92 + (25 32.08)2 32.0b + (20 27.08)2 27.08 + (30 22.92)2 22.92 =.92. Kako h =.92 pripada kritičnom području, tj. h >.3, uz rizik od % odbacujemo hipotezu nezavisnosti. Dakle, uspjeh na drugom kolokviju ovisi o uspjehu na prvom kolokviju. 7