Statističko zaključivanje - testiranje hipoteza. Katedra za medicinsku statistiku i informatiku

Σχετικά έγγραφα
Uvod u neparametarske testove

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Str

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

Uvod u neparametarske testove

numeričkih deskriptivnih mera.

Testiranje statistiqkih hipoteza

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

Binomna, Poissonova i normalna raspodela

NEPARAMETRIJSKE TEHNIKE

X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

Chi-kvadrat test. Chi-kvadrat (χ2) test

Uvod u neparametrijske testove. Usporedba. Neparametrijske inačice t-testa za dva nezavisna uzorka. dr. sc. Goran Kardum

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Izbor statističkih testova Ana-Maria Šimundić

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

3.1 Granična vrednost funkcije u tački

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Populacija Ciljna/uzoračka populacija

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

TESTIRANJE ZNAČAJNOSTI RAZLIKE

Regresija i korelacija

POSTAVLJANJE I TESTIRANJE HIPOTEZA

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Zavrxni ispit iz Matematiqke analize 1

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

3 Populacija i uzorak

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Ispitivanje toka i skiciranje grafika funkcija

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Računarska grafika. Rasterizacija linije

SISTEMI NELINEARNIH JEDNAČINA

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

5. Karakteristične funkcije

Statistiqki softver 4 Sedmi qas

Obrada signala

GRAĐEVINSKI FAKULTET SVEUČILIŠTE U RIJECI. Specijalistički diplomski stručni studij MANN-WHITNEY-WILCOXONOV TEST ZA NEZAVISNE UZORKE.

9.1 Testovi hipoteza u statistici

Teorijske osnove informatike 1

Testiranje hipoteza statistika zaključivanja

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Elementi spektralne teorije matrica

Testiranje statističkih hipoteza Materijali za nastavu iz Statistike

Računarska grafika. Rasterizacija linije

Uvod Teorija odlučivanja je analitički i sistematski pristup proučavanju procesa donošenja odluka Bez obzira o čemu donosimo odluku imamo 6 koraka za

Operacije s matricama

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

21. ŠKOLSKO/OPĆINSKO/GRADSKO NATJECANJE IZ GEOGRAFIJE GODINE 8. RAZRED TOČNI ODGOVORI

9. TESTIRANJE HIPOTEZA O PARAMETRU. Josipa Perkov, prof., pred. 1

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

Studentov t-test. razlike. t = SG X

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

III VEŽBA: FURIJEOVI REDOVI

13. TESTIRANJE HIPOTEZE O NEPOZNATIM KARAKTERISTIKAMA POPULACIJE

Konstruisanje. Dobro došli na... SREDNJA MAŠINSKA ŠKOLA NOVI SAD DEPARTMAN ZA PROJEKTOVANJE I KONSTRUISANJE

IZVODI ZADACI (I deo)

41. Jednačine koje se svode na kvadratne

MATEMATIKA 2. Grupa 1 Rexea zadataka. Prvi pismeni kolokvijum, Dragan ori

DODATNI MATERIJAL SA NASTAVE (2017/18)

Analiza varijanse (ANOVA) Analiza varijanse sa jednim faktorom ANOVA 07/12/2017. Tehnike za analizu podataka. Multivarijacione tehnike

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Statističke metode. doc. dr Dijana Karuović

ANALIZA TABLICA KONTINGENCIJE

Prosta linearna regresija (primer)

Populacija vs. uzorak - Opisivanje, ocenjivanje i testiranje. Jelena Marinković, maj 2012.

Eliminacijski zadatak iz Matematike 1 za kemičare

5 Ispitivanje funkcija

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

18. listopada listopada / 13

Dvanaesti praktikum iz Analize 1

SVEUČILIŠTE U RIJECI GRAĐEVINSKI FAKULTET U RIJECI. Specijalistički diplomski stručni studij

Grafičko prikazivanje atributivnih i geografskih nizova

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Oblasti izučavanja. IX.1. Osnove analize podataka. IX. Analiza podataka UVOD U ANALIZU PODATAKA 13/11/15

OBRTNA TELA. Vladimir Marinkov OBRTNA TELA VALJAK

APROKSIMACIJA FUNKCIJA

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

4 Testiranje statističkih hipoteza

Mašinsko učenje. Regresija.

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

7 Algebarske jednadžbe

RAČUNSKE VEŽBE IZ PREDMETA POLUPROVODNIČKE KOMPONENTE (IV semestar modul EKM) IV deo. Miloš Marjanović

REGRESIONA I KORELACIONA ANALIZA

Zaključivanje o jednakosti distribucija temeljeno na dva uzorka

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

PISMENI ISPIT IZ STATISTIKE

7. glava STATISTIČKO OCENJIVANJE CILJEVI POGLAVLJA. Nakon čitanja ovoga poglavlja bićete u stanju da:

Analitička statistika Testiranje hipoteze.

Transcript:

Statističko zaključivanje - testiranje hipoteza

Statističko zaključivanje Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo zaključke o populaciji (statističko zaključivanje). 1. Kako da korišćenjem podataka iz uzorka ocenimo vrednost populacionog parametra? i 2. Kako da korišćenjem uzoračkih statistika testiramo (proverimo) iskaz o populaciji (populacionim parametrima)?

Testiranje hipoteza / osnovni pojmovi i procedura Statistička hipoteza je iskaz ili pretpostavka o populaciji. Primeri hipoteza: Iskustvo govori da je verovatnoća da je pod određenim uslovima broj novorođenih devojčica i dečaka isti; Lekari tvrde da prosečna telesna temperatura zdravih osoba nije 37%C; Testiranje hipoteza je standardni statistički metod kojim se ispituje neki iskaz / tvrdnja / pretpostavka o populaciji.

Koraci 1. Hipoteze 2. Izbor nivoa značajnosti 3. Izbor test statistike 4. Izračunavanje statistike testa 5. Statistički zaključak

Hipoteze Nulta hipoteza ili hipoteza koja se ovim procesom testira (H o ) - hipoteza o nepostojanju razlike H 0 : 1 = 2 H 1 : 1 2 Alternativna hipoteza iskaz o onome što istraživač veruje da je tačno u slučaju da su uzorački podaci doveli do odbacivanja nulte hipoteze (H 1 ) Jednosmerna (>, <) Dvosmerna ()

Izbor nivoa značajnosti nivo značajnosti (α nivo) - maksimalno dozvoljena verovatnoća greške prvog tipa - odbacivanje tačne nulte hipoteze verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača najčešće: α =0.05 i 0.01

Izbor Test statistike bilo koja statistika koja može biti izračunata iz dostupnih podataka u uzorku Služi kao kriterijum za donošenje odluke (odluka o odbacivanju ili neodbacivanju nulte hipoteze zavisi od veličine izračunate statistike) tip podataka iskazi o populacionim parametrima i broj grupa / uzoraka Parametarski testovi Neparametarski testovi

Izračunavanje statistike testa Izračunavanje vrednosti test statistike iz dostupnih podataka i poredjenje sa regionom prihvatanja i odbacivanja koji su već definisani

Statistički zaključak Ključ statističkog zaključivanja je uzoračka raspodela: Vrednosti test statistike koje imaju manju šansu pojavljivanja kada je nulta hipoteza tačna region odbacivanja Vrednosti test statistike koje imaju veću šansu pojavljivanja kada je nulta hipoteza tačna region prihvatanja Odluka o tome koje vrednosti pripadaju jednom, a koje drugom regionu, donosi se na osnovu izabranog nivoa značajnosti (α)

Statistički zaključak Nulta hipoteza se odbacuje ako je izračunata vrednost test statistike u regionu odbacivanja. U suprotnom, ne odbacuje se. poređenje izračunate (empirijske) statistike testa i kritične (teorijske) vrednosti ako je p-vrednost jednaka ili manja od α, odbacujemo nultu hipotezu. Ako je p vrednost veća od α, ne odbacujemo nultu hipotezu. p-vrednost predstavlja verovatnoću opserviranih, ili ekstremnijih, razlika uzoračkih statistika, pod pretpostavkom važenja nulte hipoteze

Testiranje hipoteza 0.95 2 2 Kritična vrednost Kritična vrednost

Greške Greška I tipa (α) je verovatnoća odbacivanja tačne nulte hipoteze Greška II tipa (β) neodbacivanje netačne nulte hipoteze Istina (populacija) Odluka na osnovu analize uzoračkih podataka Prihvatanje nulte hipoteze Nulta hipoteza tačna 1- Nulta hipoteza netačna greška drugog tipa Odbacivanje nulte hipoteze greška prvog tipa 1-

Greške u zaključivanju Greška prvog tipa odbacivanje tačne nulte hipoteze. Greška drugog tipa neodbacivanje pogrešne nulte hipoteze. Istovremeno se može napraviti samo jedan tip greške. Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto. Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača tako što unapred određuje maksimalno dozvoljenu verovatnoću greške prvog tipa - nivo značajnosti (α nivo). Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka. Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina koju treba otkriti. Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.

Parametarski statistički testovi Bazirani su na ocenama jednog ili više populacionih parametara (npr. aritmetička sredina i standardna devijacija) dobijenih na osnovu uzoračkih podataka. Koriste se za testiranje hipoteza o populacionim parametrima (npr. o jednakosti aritmetičkih sredina dve populacije μ 1 =μ 2 ). Pretpostavljaju normalnost raspodele u osnovnom skupu. z-test t-test

Provera normalnosti raspodele 1. CV>30% ukazuje na odstupanje od normalne raspodele 2. Vrednosti skjunisa i kurtosisa od -1 do 1 ukazuju na normalnu raspodelu. Vrednosti skjunisa i kurtosisa veće od 3 i manje od -3 ukazuju na odstupanje od normalne raspodele. 3. Statističko testiranje normalnosti npr. Kolmogorov- Smirnov test, Shapiro-Wilk test ili D'Agostino-Pearson test. Ako je p<0.05 u ovim testovima, empirijska raspodela statistički značajno odstupa od normalne raspodele Grafičke metode: 4. Histogram vizuelna procena da li je empirijska raspodela slična zvonastoj simetričnoj raspodeli 5. Normalni Q Q grafikon. Ako je raspodela normalna tačke će biti na pravoj liniji. Odstupanje tačaka od prave linije ukazuje na odstupanje raspodele od normalne. 6. Detrendovan normalni Q Q grafikon. Ako je raspodela normalna tačke će biti ravnomerno raspoređene iznad i ispod horizontalne linije. Ako raspodela nije normalna raspored tačaka će imati neki oblik kao npr. slovo J 7. Grafikon kutije ( boxplot ). Ako postoji nekoliko ekstremnih vrednosti ili neobičnih vrednosti na bilo kom kraju raspodele to ukazuje na odstupanje od normalne raspodele. Ako medijana nije u centru grafikona kutije već je znatno bliža jednom od krajeva kutije, to ukazuje na odstupanje od normalne raspodele

Učestalost Učestalost Oblik empirijske raspodele Osnovne informacije o obliku empirijske raspodele se mogu dobiti iz grafičkih prikaza (histogram, poligon frekvencija, štapićasti dijagrm, stubičasti dijagram) Oblik se obično klasifikuje kao unimodalan, bimodalan ili multimodalan. Unimodalan oblik može biti simetričan ili asimetričan (pozitivno ili desno iskošen, negativno ili levo iskošen). Unimodalna raspodela Bimodalna raspodela 20 15 10 5 1 0 1 2 3 3 4 4 5 5 6 6 9 18 17 16 14 12 11 11 8 5 4 3 2 2 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 20 15 10 5 1 0 1 2 3 3 7 4 12 5 18 6 13 7 9 8 4 9 2 10 1 1 11 12 18 12 11 10 6 4 3 13 14 15 16 17 18 19 2 20 1

Asimetričan oblik raspodele Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a vrednost manja od -1 na levu iskošenost Desna iskošenost Leva iskošenost

Zašiljenost / zaravnjenost raspodele Vrednosti kurtosisa veće od 1 ukazuju na šiljatu raspodelu, a manje od -1 ukazuju na zaravnjenu raspodelu Mezokurtična Leptokurtična Platikurtična Zašiljena Zaravnjena

Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama z-test Varijanse osnovnih skupova poznate, ili Varijanse osnovnih skupova nepoznate, uzorci veliki (n 1 >30, n 2 >30) z statistika standardna normalna raspodela t-test Varijanse osnovnih skupova nepoznate, uzorci mali (n 1 30, n 2 30) t-statistika t-raspodela

Z-test Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine i proporcije (jedan uzorak) z z x 0 n p 0 n

Z-test Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama dva nezavisna uzorka x x 1 2 z 2 2 sd1 sd2 n n z 1 2 p p 1 2 p1 (1 p1 ) p2 (1 p2 ) n n 1 2 Testiranje hipoteza o populacionim prosečnim vrednostima i proporcijama, zavisni uzorci z d d d n

z Testiranje razlike dve uzoračke proporcije p1 p2 p1 (1 p1 ) p2 (1 p2 ) n n 1 2 p proporcija posmatranog događaja Primer: Registrovani su neželjeni efekti lekova A i B. U grupi od 107 pacijenta koji su primali lek A neželjeni efekti su registrovani kod 38. U grupi od 155 pacijenta koji su primali lek B neželjeni efekti su registrovani kod 73. Da li se lekovi značajno razlikuje prema učestanosti neželjenih efekata? z 38 107 73 p 155 0.355 0.470 p1 0.355 2 0.470 0.355(1 0.355) 0.470(1 0.470) 107 155 1.88 Kritična vrednost z testa za nivo značajnosti od 0.05 je 1.96. Vrednost 1.88 je manja od kritične vrednosti pa se ne može odbaciti nulta hipoteza. Razlika nije statistički značajna (z=1.88, p>0.05)

t-test (Studentov t test) Testiranje hipoteze o jednakosti aritmetičkih sredina (H 0 : μ 1 =μ 2 ) Test je baziran na t raspodeli pretpostavka za primenu t-testa je da podaci potiču iz populacija sa normalnom raspodelom, robustan je na blagu narušenost ove pretpostavke

t-test Testiranje značajnosti razlike uzoračke i populacione aritmetičke sredine (jedan uzorak) t x sd x x sd 0 0 n broj stepena slobode: DF = n - 1

t-test Primer: Aritmetička sredina broja leukocita 9 bolesnika je 12.210 9 /L, a standardna devijacija sd=1.910 9 /L. Očekivalo se da će aritmetička sredina biti 9.110 9 /L. Da li se dobijene vrednosti razlikuju od očekivanih (H 0 : 1 = 0, H 1 : 1 0 )? Testirati na nivou značajnosti 0.05. sd x sd 1.9 0.633 n 9 x 12.2 9.1 t 4.897 sd 0.633 x Kritična vrednost u tablici t raspodele za DF = 8 i nivo značajnosti 0.05 je 2.306. Statistika testa (4.897) je veća od kritične vrednosti. Zaključak: Odbacuje se nulta hipoteza. Vrednosti leukocita su statistički značajno veće od očekivanih (t = 4.897, DF = 8, p 0.05)

t-test Primer : Aritmetička sredina sistolne arterijske tenzije 10 bolesnika sa akutnim koronarnim sindromom iznosi 139 mmhg, a standardna devijacija sd=11,9 mmhg. Na osnovu prethodnih istraživanja očekivalo se da će aritmetička sredina za tu populaciju bolesnika iznositi 145 mmhg. Da li se može reći da populacija iz koje potiče aktuelni uzorak ima aritmetičku sredinu jednaku očekivanoj? Testirati na nivou značajnosti od 0.05.

Zaključak: Dobijena p-vrednost veća je od 0,05 pa zaključujemo da se vrednost aritmetičke sredine sistolne arterijske tenzije populacije iz koje potiče uzorak ne razlikuje od očekivanih vrednosti (t=1,585; DF=9, p=0,147).

t-test Testiranje hipoteza o populacionim prosečnim vrednostima dva nezavisna uzorka x x, DF= 2 1 2 t n1 n2 2 2 ( n1 1) sd1 ( n2 1) sd2 n1 n2 n n 2 n n 1 2 1 2

Primer: Dve grupe ispitanika lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) iznosila je: prva grupa: 15, 17, 20, 14, 19, 17, 18, 19 druga grupa: 16, 14, 17, 15, 18, 17, 16 Da li je značajna razlika prosečnih vrednosti sedimentacije između ove dve grupe? Testirati na nivou značajnosti 0.05. x 1 x 1 2 x 2 x 2 2 15 225 16 256 17 289 14 196 20 400 17 289 14 196 15 225 19 361 18 324 17 289 17 289 18 324 16 256 19 361 139 2445 113 1835

x 1 x1 139 17.38 mm/h n 8 sd sd 1 2 1 2 2 2 x n x 2445 817.38 2.07 n 1 8 1 2 2 2 x n x 1835 7 16.14 1.35 n 1 7 1 t 17.38 16.14 =1.35, 2 2 (8 1) 2.07 (7 1) 1.35 1 1 8 7 2 8 7 DF=8 7 2 13 x 2 x2 113 16.14 mm/h n 7 2 Kritična vrednost u tabeli t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza. Zaključak: Razlika prosečnih vrednosti sedimentacije eritrocita nije statistički značajna (t=1.35, DF=13, p>0.05).

Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita u Tretmanu A iznosi 17,4±2,1 mm/h, a u Tretmanu B iznosi 16,1±1,3 mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita između ispitivanih grupa (t=1.345, DF=13, p=0.201).

t-test Testiranje hipoteza o populacionim prosečnim vrednostima, zavisni uzorci registrovanje vrednosti jednog obeležja na istim jedinicama dva ili više puta mečovana kontrolna grupa H 0 : μ d = 0 H 0 : μ d 0 t d d 2 d n n( n 1) DF=n 1, n - broj parova podataka 2

Neparametarski statistički testovi Ne zahtevaju poznavanje oblika raspodele u osnovnom skupu i normalnost raspodele Ne zahtevaju homogenost u smislu varijabiliteta Neparametarski testovi mogu biti primenjeni u svim uslovima u kojima nisu ispunjene pretpostavke za primenu parametarskih testova. Takođe mogu biti primenjeni i u uslovima kada jesu ispunjene pretpostavke za primenu parametarskih testova, ali tada prednost treba dati parametarskim testovima jeru su oni snažniji. Za svaki parametarski test postoji najmanje jedan ekvivalentan neparametarski test

Testiranje hipoteza o učestalostima Hi kvadrat test Test tačne verovatnoće McNemarov test broj uzoraka nezavisni/zavisni uzorci

Hi-kvadrat test najčešće korišćen statistički test procenjuje se značajnost razlike opaženih (empirijskih) i očekivanih (teorijskih) učestalosti baziran je na hi-kvadrat raspodeli apsolutne učestalosti (frekvencije) statistika hi-kvadrat testa 2 ( f f ) f f opažena, f' očekivana učestalost 2

Hi-kvadrat test Ukoliko je hi-kvadrat statistika jednaka ili veća od odgovarajuće granične vrednosti, odbacujemo nultu hipotezu i zaključujemo da je razlika opaženih i očekivanih učestalosti statistički značajna. test slaganja test nezavisnosti ili test homogenosti

hi-kvadrat test slaganja testiramo hipotezu da li se učestalosti u populaciji, opažene i predstavljene uzorkom, razlikuju od očekivanih učestalosti jedan uzorak, jedna varijabla očekivane učestalosti određene su na osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili pretpostavljene na neki drugi način DF = r 1, r- broj kategorija uslovi za primenu testa slaganja: apsolutne učestalosti uzorak čine nezavisne opservacije, odnosno svaka opservacija može biti samo jednom pobrojana u učestalostima u slučaju postojanja samo dve kategorije (r=2), nijedna očekivana frekvencija ne sme biti manja od 5 u slučaju postojanja više od dve kategorije (r>2), ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija

Primer: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba, nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Na osnovu ranijih istraživanja poznato je da je relativna učestalost tih krvnih grupa: O 44.5%, A 38.9%, B 12.1%, AB 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih? Testirati na nivou značajnosti od 0.05.

Očekivane frekvencije (f') u ovom slučaju dobijamo tako što totalnu frekvenciju (140) množimo sa očekivanim proporcijama krvnih grupa. Radna tabela krvna grupa f f' ( f f ) f 2 O 55 140 0.445 = 62.30 (55 62.3) 2 /62.3 = 0.855 A 59 140 0.389 = 54.46 0.378 B 19 140 0.121 = 16.94 0.251 AB 7 140 0.045 = 6.30 0.078 Ukupno 140 140.00 2 = 1.562 DF = 4 1 = 3. Hi-kvadrat statistika (1.56) manja je od granične vrednosti (7.82) za DF = 3 i nivo značajnosti 0.05, pa nema osnova za odbacivanje nulte hipoteze. Zaključak: učestalost krvnih grupa u našem istraživanju ne razlikuje se statistički značajno od očekivanih na osnovu prethodnih istraživanja (χ 2 = 1.562, DF = 3, p > 0.05).

Hi-kvadrat test za r x k tabele testiranje hipoteza kada su podaci organizovani u vidu tabela kontingencije tabela kontingencije je složena kombinovana tabela u kojoj raspodela zavisi od dve varijable Zavisno od cilja istraživanja i načina biranja uzorka, analizom tabela kontingencije možemo testirati 1. nezavisnost dve varijable ili 2. homogenost dve populacije

Hi-kvadrat test nezavisnosti ispitujemo da li u tabeli kontingencije raspodela po jednoj varijabli uslovno zavisi od raspodele po drugoj varijabli Nultom hipotezom tvrdimo da su varijable nezavisne, odnosno da raspodela po jednoj varijabli ne zavisi od raspodele po drugoj varijabli. U slučaju da nultu hipotezu odbacimo, zaključujemo da varijable nisu nezavisne, odnosno da između njih postoji povezanost (asocijacija, korelacija).

Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri. Formiran je slučajan uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Rezultati su prikazani u tabeli kontingencije: Patološki nalaz na jetri + Svega Konzumiranje alkohola + 10 16 26 13 79 92 Ukupno 23 95 118 U ovom istraživanju biran je samo jedan uzorak sa unapred predviđenom veličinom, pa je u tabeli kontingencije pod kontrolom bila samo totalna učestalost (118). Istraživač nije imao pod kontrolom marginalne učestalosti, jer pre istraživanja nije znao koliko će u uzorku biti konzumenata alkohola, niti koliko će biti osoba sa patološkim nalazom na jetri. Analizom ovakve tabele kontingencije istraživač može doći do zaključka o tome da li su ove dve varijable povezane na neki način, na primer da li postoji tendencija da oni koji konzumirju alkohol češće imaju patološki nalaz na jetri.

Hi-kvadrat test homogenosti Ispitujemo da li se dve ili više populacija razlikuju prema proporciji događaja od interesa. Nultom hipotezom tvrdimo da su proporcije u populacijama jednake. U slučaju da nultu hipotezu odbacimo, zaključujemo da populacije nisu homogene prema proporciji događaja od interesa. Istraživač kontroliše marginalne učestalosti, koje odgovaraju veličini uzorka iz svake od populacija, pa samim tim i totalnu učestalost.

Primer. Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za patološke promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je slučajan uzorak veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Kod svih ispitanika zabeležen je anamnestički podataka o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije: Konzumiranje alkohola Patološki nalaz na jetri + Svega + 31 36 67 29 68 97 Ukupno 60 104 164 U ovom istraživanju birana su dva uzorka, što znači da su u tabeli kontingencije pod kontrolom istraživača bile marginalne učestalosti koje odgovaraju uzorku osoba sa patološkim promenama (60) i uslovno zdravih (104), a samim tim pod kontrolom je bila i tolalna učestalost (164). Analizom ovakve tabele kontingencije istraživač može uporediti proporcije konzumenata alkohola u ispitivanim populacijama. Ukoliko nađe da populacije nisu homogene, na primer da je proporcija konzumenata alkohola veća u populaciji osoba sa patološkim promenama, može doneti zaključak da je konzumiranje alkohola faktor rizika za nastanak patoloških promena na jetri.

Testiranje nezavisnosti i homogenosti očekivane učestalosti izračunavaju se množenjem odgovarajućih marginalnih učestalosti i deljenjem sa totalnom učestalošću a b a + b c d c + d a + c b + d N hi-kvadrat testom za tabelu kontingencije 2 x 2 očekivane učestalosti izračunavaju se pomoću formula: f' a = (a + b) x (a + c) / N f' b = (a + b) x (b + d) / N f' c = (c + d) x (a + c) / N f' d = (c + d) x (b + d) / N N je totalna učestalost u tabeli kontingencije 2 ( f f ) f broj stepena slobode DF = (r 1)(k 1) 2

Uslovi za primenu hi kvadrat testa su: Za tabelu 2 x 2: Kada je N > 40 test se može upotrebiti ako su sve očekivane frekvencije 1 Kada je N od 20 do 40 test se može upotrebiti ako su sve očekivane frekvencije 5 Kada je N < 20 test se ne može upotrebiti Za tabelu veću od 2 x 2: nijedna očekivana učestalost ne sme biti manja od 1, i ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija

Cilj u istraživanju bio je ocena povezanosti pušenja i oboljevanja od akutnih respiratornih infekcija u toku zime. Nađeno je: od 85 nepušača obolela je 21 (25%) osoba, od 73 pušača sa popušenih do 20 cigareta dnevno obolelo je 28 (38%) osoba, od 68 pušača sa popušenih preko 20 cigareta dnevno obolela je 31 (46%) osoba. Da li je pušenje povezano sa oboljevanjem od akutnih respiratornih infekcija? Testirati na nivou znašajnosti od 0.05. Tabela opaženih učestalosti Akutna respiratorna infekcija Pušenje (cigareta/d) + Svega 0 21 64 85 do 20 28 45 73 preko 20 31 37 68 Ukupno 80 148 226

Polje tabele f f (f - f ) 2 / f a 21 30.09 2.75 b 64 54.91 1.50 c 28 25.84 0.18 d 45 47.16 0.10 e 31 24.07 1.99 f 39 43.93 1.09 χ 2 = 7.62 DF = (3 1) x (2 1) = 2 Dobijena hi-kvadrat statistika (7.65) veća je od granične vrednosti (5.99) za DF = 2 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 7.65, DF = 2, p 0.05).

Radi se o istom istraživanju, ali ovog puta sa manjim učestalostima zbog čega će biti izvršeno sažimanje susednih kategorija. Opažene učestalosti prikazane su u tabeli: Akutna respiratorna infekcija Pušenje (cigareta/d) + Svega 0 3 17 20 do 20 6 8 14 preko 20 5 4 9 Ukupno 14 29 43

U tabeli tri ćelije imaju očekivane učestalosti manje od 5. To su učestalosti 4.56, 2.93 i 6.07. Zbog toga što je broj tih ćelija veći od 20% (2 / 6 = 33,3%) moramo izvršiti sažimanje susednih kategorija. Sabraćemo redove sa pušačima. Tako umesto tabele 3 x 2 dobijamo tabelu kontingencije dimenzija 2 x 2: Akutna respiratorna infekcija + Svega Nepušači 3 17 20 Pušenje Pušači 11 12 23 Ukupno 14 29 43 Iz ove tabele izračunavanjem dobijamo hi-kvadrat statistiku od 5.25, koja je veća od granične vrednosti (3.84) za DF = 1 i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 5.25, DF = 1, p 0.05).

Fisherov test tačne verovatnoće alternativa hi-kvadrat testu za tabele r k, može se koristiti uvek, bez obzira na učestalosti u tabelama kontingencije, pa i u slučajevima kada se ne može koristiti hi-kvadrat test zbog malih učestalosti procedura testa zahteva izračunavanje verovatnoće aktuelno opserviranih učestalosti u tabeli kontingencije, ali i svih drugih mogućih učestalosti uz uslov da marginalne učestalosti ostanu nepromenjene Za tabelu kontingencije 2 2: a b a + b c d c + d a + c b + d N verovatnoća datih učestalosti iznosi: P ( a b)!( c d)!( a c)!( b N! a! b! c! d! d)!

Primer. Cilj u studiji bio je ispitivanje konzumranja alkohola kao faktora rizika za arterijsku hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz populacije uslovno zdravih slučajan uzorak veličine 6. Kod svih ispitanika zabeležen je anamnestički podatak o konzumiranju alkohola. Rezultati su prikazani u tabeli kontingencije: Arterijska hipertenzija + Svega Konzumiranje alkohola + 4 3 7 1 3 4 Ukupno 5 6 11

Testirati hipotezu o jednakosti populacija sa i bez arterijske hipertenzije prema proporciji konzumenata alkohola. Zbog malih učestalosti nije adekvatno primeniti hi-kvadrat test. Tačna verovatnoća aktuelno opserviranih podataka iznosi: P 7!4!5!6! 11!4!31!!3! 0.303 Dobijena verovatnoća nije jednaka ili manja od 0.05, tako da ne odbacujemo nultu hipotezu. Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji osoba koje konzumiraju alkohol (p > 0.05).

McNemarov test primenjuje se za ocenu značajnosti razlike učestalosti dihotomnih podataka vezani uzorci iste jedinice opservirane dva ili više puta ili individualno mečovane jedinice dva uzorka podatke za McNemarov test treba organizovati u vidu tabele 2x2: Prvi uzorak (ili prva opservacija) Statistika testa : 2 Drugi uzorak (ili druga opservacija) + + a b a+b c d c+d b c b c a+c b+d N sledi hi-kvadrat raspodelu za 1 stepen slobode 2

Primer. U istraživanju, sa ciljem ocene delovanja leka na simptom vrtoglavice, bilo je uključeno 210 ispitanika. Pre davanja leka vrtoglavicu je imalo 65 ispitanika. Posle davanja leka vrtoglavicu je imalo 43 ispitanika, od kojih je 36 vrtoglavicu imalo i pre terapije. Da li se posle davanja leka promenila učestalost vrtoglavice?

Posle davanja leka + Pre davanja leka + 36 29 65 7 138 145 43 167 210 2 29 7 29 7 2 13.44 Donošenje odluke o nultoj hipotezi: hi-kvadrat statistika 13.44 veća je od graniče tablične vrednosti 3.84 (za DF = 1 i nivo značajnosti 0.05), pa odbacujemo nultu hipotezu. Zaključak: Učestalost vrtoglavice pre davanja leka iznosila je 31.0%, a posle davanja leka 20.5%. Učestalost vrtoglavice je statički značajno manja posle davanja leka (hi-kvadrat = 13.44, p 0.05).

Testiranje hipoteza o rangovima Test sume rangova Test ekvivalentnih parova nezavisni/zavisni uzorci

Test sume rangova (Mann-Whitney test, Wilcoxon-Mann-Whitney test) testiranje nulte hipoteze o jednakosti raspodela ili jednakosti medijana dve populacije ordinalni ili numerički podaci, ili rangirani podaci koristi se umesto Studentovog t-testa za dva nezavisna uzorka kada nisu ispunjeni uslovi za primenu tog testa (raspodela numeričkih podataka nije normalna, ili se radi o ordinalnim ili rangiranim podacima)

Mann-Whitney test (Test sume U testu se, umesto originalnih podataka, koriste rangovi Rangirati opservacije zajedno za obe grupe Rangiranje može biti obavljeno od najmanje do najveće vrednosti ili obrnuto Statistika testa je manja suma rangova manjeg uzorka Za uzorak se mogu izračunati dve sume rangova R i R. Dovoljno je za manji uzorak izračunati R, a R se izračunava po formuli: rangova) Dve populacije se razlikuju statistčki značajno prema raspodelama ili medijanama ako je statistika testa jednaka ili manja od teorijske vrednosti R n n 1 m m R m

Primer. Ispitivan je odnos nadmorske visine prebivališta i koncentracije fibrinogena. Podaci o koncentraciji fibrinogena (g/l) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj visini do 200 m, i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta razlikuju prema koncentraciji fibrinogena.

Statistika testa (48.5) veća je od granične vrednosti (38) za nivo značajnosti od 0.05 i veličine uzoraka 7 i 8, pa ne odbacujemo nultu hipotezu. Zaključak: Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine ne razlikuju se statistički značajno prema koncentraciji fibrinogena (p > 0.05).

Wilcoxonov test ekvivalentnih parova Dizajn: zavisni uzorci Koristi se umesto Studentovog t-testa za zavisne uzorke kada nisu ispunjeni uslovi za primenu tog testa Najmanje ordinalna skala merenja ili rangirani podaci testira se nulta hipoteza da vezani uzorci predstavljaju istu populaciju Postupak Formiranje parova podataka : U dizajnu pre-posle, par podataka se odnosi na iste statističke jedinice, ali opservirane u dva različita vremena U dizajnu mečovanih ispitanika, par podataka se odnosi na dva mečovana ispitanika Izračunavanje razlike vrednosti podataka za svaki par Objedinjeno rangiranje poretka razlika, nezavisno od toga koji predznak ta razlika ima, razlike koje su jednake nuli se ne rangiraju Sabiranje rangova posebno za pozitivne i negativne razlike Statistika testa je manja od dve sume rangova: sume rangova pozitivnih i sume rangova negativnih razlika

Primer. Date su vrednosti Lp(a) pre početka terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj istraživača bio je da ispitaju da li dolazi do promene vrednosti Lp(a) posle davanja antilipemika. Redni broj Lp(a) pre terapije (mg/dl) Lp(a) posle terapije (mg/dl) Razlika (d) Rang razlike (R d ) 1 20 8 12 6 2 36 9 27 9 3 13 30-17 7.5 4 16 10 6 3 5 23 6 17 7.5 6 10 9 1 1 7 17 15 2 2 8 50 15 35 10 9 13 13 0 10 17 7 10 5 11 16 7 9 4 Suma rangova pozitivnih razlika Suma rangova negativnih razlika Statistika testa (7.5) manja je od granične vrednosti (8) za nivo značajnosti od 0.05 i broj rangiranih parova n=10. Zaključak: Vrednosti Lp(a) posle terapije statistički značajno su niže u odnosu na vrednosti pre terapije (p 0.05). 47.5 7.5

Izbor statističkog testa Tip podataka Broj uzoraka Kontinuirani sa normalnom raspodelom Kontinuirani bez normalne raspodele ili ordinalni Kategorijalni 2 nezavisna uzorka t test za nezavisne uzorke Mann-Whitney test Hi-kvadrat test 2 zavisna (vezana) uzorka t test za zavisne uzorke Wilcoxonov test McNemarov test >2 nezavisna uzorka ANOVA Kruskal-Wallis test Hi-kvadrat test >2 zavisna (vezana) uzorka ANOVA ponovljenih merenja Friedmanov test Cochranov test