(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

Σχετικά έγγραφα
Testiranje statističkih hipoteza Materijali za nastavu iz Statistike

3 Populacija i uzorak

4 Testiranje statističkih hipoteza

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

Testiranje statistiqkih hipoteza

PISMENI ISPIT IZ STATISTIKE

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Slučajne varijable. Diskretna slučajna varijabla X je promjenjiva veličina koja poprima vrijednosti iz skupa

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

VJEROJATNOST I STATISTIKA 2. kolokvij lipnja 2016.

Statistička obrada podataka

18. listopada listopada / 13

numeričkih deskriptivnih mera.

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

ELEKTROTEHNIČKI ODJEL

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Matematička analiza 1 dodatni zadaci

3.1 Granična vrednost funkcije u tački

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

Linearna algebra 2 prvi kolokvij,

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Uvod u neparametarske testove

10. domaća zadaća. 3. Neka je X neprekidna slučajna varijabla takva da je X N(0, 1). S točnošću od odredite:

Operacije s matricama

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

TRIGONOMETRIJSKE FUNKCIJE I I.1.

5. Karakteristične funkcije

1.4 Tangenta i normala

Riješeni zadaci: Nizovi realnih brojeva

Elementi spektralne teorije matrica

Slučajne varijable Materijali za nastavu iz Statistike

Riješeni zadaci: Limes funkcije. Neprekidnost

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

IZVODI ZADACI (I deo)

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

2. Ako je funkcija f(x) parna onda se Fourierov red funkcije f(x) reducira na Fourierov kosinusni red. f(x) cos

Prilagodba modela podacima. Vjeºbe - Statistika Praktikum Statisti ki testovi (2)

13. TESTIRANJE HIPOTEZE O NEPOZNATIM KARAKTERISTIKAMA POPULACIJE

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

7 Algebarske jednadžbe

VJEROJATNOST popravni kolokvij veljače 2017.

Izbor statističkih testova Ana-Maria Šimundić

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Ispitivanje toka i skiciranje grafika funkcija

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

SVEUČILIŠTE U RIJECI GRAĐEVINSKI FAKULTET U RIJECI. Specijalistički diplomski stručni studij

PRIMJER 3. MATLAB filtdemo

X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

Diskretan slučajni vektor

Teorijske osnove informatike 1

( , treći kolokvij) 3. Na dite lokalne ekstreme funkcije z = x 4 + y 4 2x 2 + 2y 2 3. (20 bodova)

Vjeºbe - Statistika Praktikum Statisti ki testovi (1)

Funkcije dviju varjabli (zadaci za vježbu)

Uvod u teoriju brojeva

RIJEŠENI ZADACI I TEORIJA IZ

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Osnove teorije uzoraka

( ) ( ) Zadatak 001 (Ines, hotelijerska škola) Ako je tg x = 4, izračunaj

Numerička matematika 2. kolokvij (1. srpnja 2009.)

radni nerecenzirani materijal za predavanja

MJERA I INTEGRAL 2. kolokvij 30. lipnja (Knjige, bilježnice, dodatni papiri i kalkulatori nisu dozvoljeni!)

Matematičke metode u marketingumultidimenzionalno skaliranje. Lavoslav ČaklovićPMF-MO

Kaskadna kompenzacija SAU

π π ELEKTROTEHNIČKI ODJEL i) f (x) = x 3 x 2 x + 1, a = 1, b = 1;

Slučajni procesi Prvi kolokvij travnja 2015.

BILJEŠKE ZA PREDAVANJA (za internu uporabu)

Linearna algebra 2 prvi kolokvij,

1 Promjena baze vektora

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

Statističko zaključivanje jedna varijabla

Vjerojatnost i matematička statistika

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

Sadrˇzaj. Sadrˇzaj 1 9 DVODIMENZIONALNI SLUČAJNI VEKTOR DISKRETNI DVODIMENZIONALNI

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

9.1 Testovi hipoteza u statistici

Matematika 1 - vježbe. 11. prosinca 2015.

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

9. TESTIRANJE HIPOTEZA O PARAMETRU. Josipa Perkov, prof., pred. 1

(BIO)STATISTIKA. skripta. studij: Prehrambena tehnologija i Biotehnologija. doc. dr. sc. Iva Franjić 2012.

Zadaci iz Osnova matematike

Grafičko prikazivanje atributivnih i geografskih nizova

( x) ( ) ( ) ( x) ( ) ( x) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

ANALIZA TABLICA KONTINGENCIJE

Transcript:

χ 2 test (Hi-kvadrat test) Jedan od prvih statističkih testova je χ 2 -test. Predložio ga je K. Pearson 900. godine, pa je poznat i pod nazivom Pearsonov test. χ 2 test je neparametarski test. Pomoću χ 2 -testa testiramo nultu hipotezu da obilježje X ima odredenu (teorijsku)razdiobu protiv alternativne da nema tu razdiobu. Isto tako pomoću χ 2 -testa ispitujemo nezavisnost dva statistička obilježja, kao i homogenost populacija. Za sve navedeno test-statistika je (općenito): H = r (f i ) 2 gdje su f i eksperimentalne, a teorijske frekvencije. Ako je za neki i očekivana (teorijska) frekvencija < 5 združimo taj razred sa susjednim(a) razredom(ima) tako da novodobiveni razred zadovoljava uvjet da mu je očekivana frekvencija barem 5. Uz pretpostavku da je H 0 točna hipoteza za velike n (n ) H χ 2 (r l ) gdje χ 2 (r l ) označava χ 2 razdiobu s (r l ) stupnjeva slobode. r je (konačan) broj razreda u uzorku, a l broj nepoznatih parametara. Za zadanu pogrešku prve vrste α, kritično područje odredujemo iz uvjeta Dakle, kritično područje je: P (H > χ 2 (r l ) H 0 ) = α. C 0 = [χ 2 α(r l ), χ 2 α(r l ) čitamo iz tablica. Ako s h označiimo vrijednost test statistike izračunate iz uzorka, onda nultu hipotezu odbacujemo ako h C 0 tj. h χ 2 α(r l ).

χ 2 - test o prilagodbi modela podacima Neka je X statističko obilježje koje promatramo. Iz podataka u uzorku najčešće mozemo naslutiti kakva je populacijska razdioba. U ovom slučaju nulta hipoteza je: H 0 : X ima pretpostavljenu razdiobu, a alternativna: H : X nema pretpostavljenu razdiobu. Primjer. Kocka se baca 0 puta. Rezultati su dani u tablici: Broj na kocki 2 3 4 5 Broj pojavljivanja 3 9 8 5 4 Da li je kocka ispravna? U ovom primjeru hipoteze su: H 0 : kocka je ispravna i H : kocka nije ispravna. Statističko obiljezje je X broj na kocki. Prirodno je ispitati da li se iz tablice frekvencija može zaključiti da empirijska razdioba bitno ne odstupa od teorijske diskretne uniformne razdiobe (vjerojatnosti pojavljivanja svakog broja na kocki su jednake, tj. broj pojavljivanja -frekvencija svakog broja u 0 bacanja je 0). Stoga definiramo hipoteze: H 0 : X ima diskretnu uniformnu razdiobu i H : X nema diskretnu uniformnu razdiobu. Ako je H 0 istinita hipoteza onda bi funkcija vjerojatnosti obilježja X bila: ( ) 2 3 4 5 X. Kako bismo izračunali vrijednost odgovarajuće test-statistike trebaju nam teorijske frekvencije. Njih računamo po formuli = np i gdje je p i odgovarajuća vjerojatnost, odnosno u ovom slučaju odgovarajuća proporcija. Kako je p i =, za svaki i, to je f t i = 0. Formirajmo tablicu: f i (f i ) 2 3 0 0.9 9 0 8. 0 0. 8 0 0.4 5 0 2.5 4 0 3. 0 0 5. 2

Vrijednost test satatistike je h = 5., broj razreda r =, broj nepoznatih parametara l = 0. Iz tablica oǐtamo χ 2 α(r l ) = χ 2 0.0(5) = 5.08, pa je kritično područje C 0 = [5.08,. Vrijednost test satatistike h = 5. pripada kritičnom podruǰu, pa nultu hipotezu odbacujemo i prihvaćamo alternativnu, tj kocka nije ispravna. Primjer 2.Anketirano je 00 studenata i dobiven je prosječan broj njihovih odlazaka u kazalište tijekom godine. S nivoom signifikantnosti 0.05, testirajte hipotezu da se radi o uzorku iz populacije s normalnom distribucijom. broj posjeta [0, 2 [2, 4 [4, [, 8 [8, 0 [0, 2 [2, 4 broj studenata 5 0 20 33 8 0 4. Normalna distribucija ima 2 parametra - očekivanje µ i varijancu σ 2. Kako nijedan od njih nije zadan, moramo ih procijeniti, pa odmah slijedi da je l = 2. Procjenitelj za očekivanje je ˆµ = x a za varijancu ˆσ 2 = s 2 n. U tablici su dani sortirani podaci. Vidimo da je 5 studenata išlo u kazalište 0 ili put ali ne znamo koliko točno od tih 5 je išlo 0 a koliko put. Treba nam predstavnik tog razreda - uzimamo sredinu razreda. Sada ˆµ = x = r 5 + 3 0 + 5 20 + 7 33 + 9 8 + 0 + 3 4 x i f i = n 00 ( n ) ( r ) ˆσ 2 = s 2 = x 2 i n x 2 = x 2 i f i n x 2 n n =.9 s 2 = ( 2 5 + 3 2 0 + 5 2 20 + 7 2 33 + 9 2 8 + 2 0 + 3 2 4 00.9 2) = 8.03 99 Postavljamo (nultu) hipotezu da slučajna varijabla X koja broji odlaske u kazalište ima normalnu distribuciju: H 0 : X N(.9, 8.03) 3

Sljedeći korak je odrediti teorijske frekvencije = 00 p i. Imamo ( 0.9 p = P (0 X < 2) = P Z < 2.9 ) 8.03 8.03 = Φ(.74) Φ( 2.45) = Φ(2.45) Φ(.74) = 0.4928572 0.459 = 0.0338 f t = 3.38 ( 2.9 p 2 = P (2 X < 4) = P Z < 4.9 ) 2.83 2.83 = Φ(.03) Φ(.74) = Φ(.74) Φ(.03) = 0.459 0.3485 = 0.0 f t2 =.0 p 3 = P (4 X < ) = P (.03 Z < 0.32) = Φ( 0.32) Φ(.03) = 0.223 f t3 = 22.3 p 4 = P ( X < 8) = P ( 0.32 Z < 0.39) = Φ(0.39) Φ( 0.32) = 0.2772 f t4 = 27.72 p 5 = P (8 X < 0) = P (0.39 Z <.0) = Φ(.0) Φ(0.39) = 0.22 f t5 = 2.2 p = P (0 X < 2) = P (. Z <.8) = Φ(.8) Φ(.) = 0.09974 f t = 9.97 p 7 = P (2 X < 4) = P (.8 Z < 2.52) = Φ(2.52) Φ(.8) = 0.0300 f t7 = 3 Budući je f t < 5 i f t7 < 5, spojit ćemo prva dva i posljednja dva razreda, pa će tako ostati ukupno 5 razreda. Dakle, r = 5. Formiramo tablicu: f i (f i ) 2 5 4.44 0.022 20 22.3 0.237 33 27.72.00 8 2.2 0.499 4 2.97 0.082 00 00.84 Vrijednost test-statistike je prema tome a 5 (f i ) 2 h = =.84, χ 2 α(r l ) = χ 2 0.05(2) = 5.99 4

Kritično područje je: C 0 = [5.99,. Kako h =.84 ne pripada kritičnom području C 0 tj. h < χ 2 0.05(2), nultu hipotezu ne možemo odbaciti, odnosno zaključujemo da se radi o uzorku iz normalno distribuirane populacije. χ 2 - test nezavisnosti dviju varijabli Neka je (X, Y ), (X 2, Y 2 ),..., (X n, Y n ) slučajni uzorak za dvodimenzionalno diskretno statističko obilježje (X, Y ) i neka je pritom: Skup vrijednosti obilježja X : Skup vrijednosti obilježja Y : Skup vrijednosti obilježja (X, Y ) : R(X) = {a,..., a r }; R(Y ) = {b,..., b s }; R[(X, Y )] = {(a i, b j ) : i r, j s}. Nadalje, f ij : frekvencija od (a i, b j ) u uzorku f i : (marginalna) frekvencija od a i u uzorku : (marginalna) frekvencija od b j u uzorku g j Vrijedi: f i = s f ij, g j = j= r f ij Kontingencijska frekvencijska tablica: X Y b b 2... b s Σ a f f 2... f s f a 2 f 2 f 22... f 2s f 2...... a r f r f r2... f rs f r Σ g g 2... g s n 5

Označimo: p ij = P (X = a i, Y = b j ) p i = P (X = a i ) q j = P (X = b j ) Hipoteze su: H 0 : X i Y su nezavisna obilježja i H : X i Y su zavisna obilježja, tj. H 0 : p ij = p i q j za sve i i j, a H : postoje i, j takvi da p ij p i q j Uz pretpostavku da je H 0 točna hipoteza, procjene za p i i q j su: ˆp i = f i n, ˆq j = g j n Očekivane (teorijske) vrijednosti j od f ij uz H 0 su: j = n ˆp i ˆq j = n fi n gj n = f i g j n Test-statistika je: H = r Ako je H 0 istinita, tada za n : s (f ij j ) 2 j= j H χ 2 ((r ) (s )), gdje χ 2 ((r ) (s )) označava χ 2 razdiobu s ((r ) (s )) stupnjeva slobode. Za zadanu pogrešku prve vrste α, kritično područje odredujemo iz uvjeta Dakle, kritično područje je: P (H > χ 2 ((r ) (s )) H 0 ) = α. C 0 = [χ 2 α((r ) (s )),, pritome χ 2 α((r ) (s )) čitamo iz tablica. Ako s h označiimo vrijednost test statistike izračunate iz uzorka, onda nultu hipotezu odbacujemo ako h C 0 tj. h χ 2 α((r ) (s )).

Primjer. U cilju ispitivanja uspješnosti na kolokvijima iz statistike interesira nas da li prolaznost na drugom kolokviju ovisi o prolaznosti na prvom kolokviju! Za slučajno odabranih 20 studenata dobiveni su podaci dani u tablici. Možete li na osnovu ovih podataka zaključiti da uspjeh na drugom kolokviju ovisi o uspjehu na prvom kolokviju, uz razinu značajnosti 0.0? Kolokvij Položili Pali. 45 25 70 2. 20 30 50 5 55 20 Neka je X = prolaznost na prvom kolokviju, a Y = prolaznost na drugom kolokviju. R(X) = R(Y ) = { polozio, pao } Testiramo: H 0 : X i Y su nezavisna obilježja, uz alternativnu H : X i Y su zavisna obilježja. Test statistika je: H χ 2 ((2 ) (2 )) = χ 2 (). Uz razinu značajanosti α = 0.0, χ 2 0.0() = (tablice) =.3, pa je kritično područje: C 0 = [.3,. Očekivane(teorijske) frekvencije su: Kolokvij Položili Pali. 37.92 32.08 70 2. 27.08 22.9 50 5 55 20 Vrijednost test statistike je: h = (45 37.92)2 37.92 + (25 32.08)2 32.0b + (20 27.08)2 27.08 + (30 22.92)2 22.92 =.92. Kako h =.92 pripada kritičnom području, tj. h >.3, uz rizik od % odbacujemo hipotezu nezavisnosti. Dakle, uspjeh na drugom kolokviju ovisi o uspjehu na prvom kolokviju. 7