1 Chi-kvadrat test Chi-kvadrat (χ2) test Test za proporcije, porede se frekvence Neparametarski test Koriste se dihotomne varijable Proverava se veza između dva faktora Npr. tretmana i bolesti pola i smrtnosti 2
Koraci u testiranju hipoteze 1. Izabrati odgovarajući test 1. test homogenosti 2. test nezavisnosti 2. Odabrati nivo značajnosti: α 3. Formulisati statističku hipotezu 4. Izračunati statističku veličinu (χ 2 ) 5. Odrediti broj stepene slobode 6. Uporediti izračunatu statističku veličinu sa tebelarnom / kritičnom vrednošću 3 1. Odabiranje odgovarajućeg testa Chi-kvadrat test se koristi kada su obe varjable izražene u nominalnim skalama. Podaci koji su predstavljeni u vidu skale odnosa ili ordinalnoj skali mogu da se kategorišu u mali broj grupa. Podaci su po principu slučajnosti selektovani iz populacije Svi podaci su nezavisni (jedna osoba se pojavljuje samo jednom u tabeli i nema preklapanje kategorija) Nije bitna vrsta distribucije ni homogenost varjanse. 4
1. Odabiranje odgovarajućeg testa Testiranje nezavisnosti između dva kriterijuma klasifikacije kod jedne grupe podataka Koristi se kada istraživač želi da proceni da li su dva ishoda u vezi ili nezavisni jedan od drugog, a ispitivani su u populaciji Za testiranje nezavisnosti između dva kriterijuma klasfikacije koji su primenjeni kod jedne grupe podataka Testiranje homogenosti grupa Koristi se kada su uzorci selektovani iz različitih populacija, a istraživač ispituje da li je udeo nekog ishoda isti u obe populacije 5 2. Nivo značajnosti α predeterminisana vrednost Uobičajene vrednosti α =.05 α =.01 α =.001 6
3. Formulisanje hipoteze: Da li ima veze između podataka ili ne? Test nezavisnosti: H o : Dve varijabale su nezavisne H a : Dve varijable su u vezi Test homogenosti: H o : Dve varijabale su homogene u odnosu na nivo klasifikacije H a : Dve varijabale nisu homogene u odnosu na nivo klasifikacije 7 4. Izračunavanje statističke veličine Što su dobijene frekvence bliže očekivanim, to je veća verovatnoća da je H 0 ispravna Za testiranje H 0 koristi se Pearson Chi-kvadrat. Izračunavaju se kvadrati razlika dobijenih i očekivanih frekvenci u odnosu na očekivane frekvence Statistička veličina Pearson χ2 izračunava se prema izrazu: χ = 2 2 ( f d f o ) f o 8
9 5. Broj stepeni slobode df = (R-1)(K-1) Broj redova Broj kolona 6. Poređenje izračunate vrednosti sa tabelarnom / kritičnom vrednošću Izračunata vrednost Pearson chi- kvadrata poredi se sa kritičnom vrednošću kako bi se testirala hipoteza. Kritična vrednost se dobija iz tabele i zavisi od distribucije podataka Ukoliko je izračunati χ 2 veći od tabelarnog χ 2, odbacuje se H o 10
Primer (test nezavisnosti) Ispitivano je 90 osoba uživalaca droge i procenjivano je agresivno ponašanje u zavisnosti od stepena uživanja droge. Od 25 lakih i 25 srednjih uživalaca droge po 10 se ponašalo agresivno, a od 40 teških uživalaca droge 30 se ponašalo agresivno. Ispitati da li postoji veza između agresivnog ponašanju i stepena uživanja droge? 11 Tabela kontigencije Lako Srednje Teško f red Agresivno 10 10 30 50 ponašanje Ostali 15 15 10 40 f kolone 25 25 40 n = 90 12
Hipoteza Ho : Postoji nezavisnost između agresivnog ponašanja i stepena korišćenja droge Ha : Nema nezavisnosti (postoji veza) između agresivnog ponašanja i stepena korišćenja droge 13 Agresivno ponašanje 4. Izračunavanje statističke veličine Lako Srednje Teško f red f d =10 f o =13.9 Ostali f d =15 f o =11.1 f d =10 f o =13.9 f d =15 f o =11.1 = 50*25/90 f d =30 f o =22.2 f d =10 f o =17.8 f kolona 25 25 40 n = 90 50 40 14
Agresivno ponašanje 4. Izračunavanje statističke veličine Lako Srednje Teško f red f o =10 f e =13.9 Ostali f o =15 f e =11.1 f o =10 f e =13.9 = 40* 25/90 f o =15 f e =11.1 f o =30 f e =22.2 f o =10 f e =17.8 f kolona 25 25 40 n = 90 50 40 15 4. Izračunavanje statističke veličine 2 (10 13.89) χ = 13.89 2 (10 13.89) + 13.89 2 (30 22.2) + 22.2 2 + (15 11.11) 11.11 2 (15 11.11) + 11.11 2 (10 17.8) + 17.8 2 = 11.03 16
5. Izračunavanje stepena slobode df = (R-1)(K-1) = (2-1)(3-1) = 2 Upper Tail Area DF.995.95.05 1... 0.004 3.841 2 0.010 0.103 5.991 17 6. Poređenje izračunate i tabelarne vrednosti α = 0.05 df = 2 Kritična tabelarna vrednost = 5.991 Izračunata vrednost, 11.03 Odbacuje se 0 5,991 χ 2 18
6. Poređenje izračunate i tabelarne vrednosti Izračunata vrednost, 11,03 veća od kritične vrednosti 5,991 Odbacuje se nulta hipoteza Postoji veza između agresivnog ponašanja i stepena uživanja droge 19 Ograničenja Podaci su odabrani po principu slučajnosti. Neophodan je relativno veliki uzorak (najmanje 20 ispitanika) Apsolutne frekvence (ne procenti) Najmanje 5 podataka po ćeliji. U suprotnom treba primeniti Yates korekciju. Posmatranja moraju da budu nezavisna. 20
Kalkulatori http://faculty.vassar.edu/lowry/newcs.html? http://people.ku.edu/~preacher/chisq/chisq.h tm 21 Zadatak 1 Novi postoperativni postupak primenjuje se u jednoj velikoj bolnici. Cilj istraživanja je da se ispita postojanje zavisnost između stava prema novoj proceduri i stepena obrazovanja? U istraživanje je uključeno 400 zaposlenih zdravstvenih radnika. Grupe Nova Stara Neutralni Sestre 100 80 20 Doktori 50 120 30 22
TEST NEZAVISNOSTI H o : Dve varjabale su nezavisne H a : Dve varjable su u vezi χ 2 =26.67, p<0.001 Prihvata se alternativna hipoteza Postoji zavisnost između stepena obrazovanja i primene nove procedure 23 Zadatak 2 Od 25 žena sa kancerom materice, 20 se izjasnilo da je uzimalo estrogen. Od 30 žena iz kontrolne grupe 5 se izjasnilo da je uzimalo estrogen. Da li je udeo žena koje su uzimale estrogen isti u obe ispitivane grupe? 24
Test homogenosti Pacijenti Kontrole Da estrogen 20 5 Ne estrogen 5 25 H o : Dve varjabale su homogene u odnosu na nivo klasifikacije H a : Dve varjabale nisu homogene u odnosu na nivo klasifikacije χ 2 =19.58, p<0.001 Prihvata se alternativna hipoteza Udeo žena koje su koristile estrogen nije isti u dve ispitivane grupe. Veći je udeo u grupi pacijentkinja. 25 Zadatak 3 Istraživači su selektovali uzorak od 150 učenika srednjih škola iz tri različite opštine sa ciljem istraživanja: Da li deca dolaze u školu vozeći kola sama ili ih dovoze njihovi roditelji? Testira se da li je udeo učenika koji voze kola sama isti u sve tri škole? School 1 School 2 School 3 No 32 28 34 Yes 18 22 16 26
Test homogenosti H o : Dve varjabale su homogene u odnosu na nivo klasifikacije H a : Dve varjabale nisu homogene u odnosu na nivo klasifikacije χ 2 =1.6, p=0.4493 Prihvata se nulta hipoteza Udeo dece koja kola voze sama je isti u sve tri ispitivane škole. 27 Fisher's exact test, (za mali uzorak) McNemar testza poređenje dve proporcije. Svi podaci su zavisni(jedna osoba se pojavljuje u više kategorija) (repeated measurements). 28
McNemar test Ispitivanje je izvršeno na 300 osoba koje su korisnici kredita u nekoj banci. Pitanje je bilo koliko bi osoba pristalo na refinansiranje kredita. Nakon toga banke su promenile uslove refinansiranja kredita i opet je istoj grupi ispitanika postavljeno pitanje o refinansiranju kredita. Cilj banke je bio da utvrdi da li će promena u uslovima refinansiranja povećati broj osoba koje će koristiti tu uslugu. 29 McNemar Test Pre promene uslova Nakon promene uslova da ne ukupno da 118 2 120 ne 22 158 180 ukupno 140 160 300 H 0 : π 1 π 2 : Promena u uslovima je neefektivna H 1 : π 1 < π 2 : Promena u uslovima povećava refinansiranje 30
McNemar Test Pre promene uslova Nakon promene uslova da ne ukupno da 118 2 120 ne 22 158 180 ukupno 140 160 300 The test statistic is: B C Z = = B + C p= 2.23E-05 2 22 2 + 22 = 4.08 31