Vjeºbe - Statistika Praktikum Statisti ki testovi (1)

Σχετικά έγγραφα
(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

3 Populacija i uzorak

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

Testiranje statističkih hipoteza Materijali za nastavu iz Statistike

Prilagodba modela podacima. Vjeºbe - Statistika Praktikum Statisti ki testovi (2)

3.1 Granična vrednost funkcije u tački

Testiranje statisti kih hipoteza. Vjeºbe - Statistika Praktikum

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

Zaključivanje o jednakosti distribucija temeljeno na dva uzorka

Elementi spektralne teorije matrica

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Izbor statističkih testova Ana-Maria Šimundić

PISMENI ISPIT IZ STATISTIKE

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

ELEKTROTEHNIČKI ODJEL

Uvod u neparametarske testove

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

numeričkih deskriptivnih mera.

1 Promjena baze vektora

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

Linearna algebra 2 prvi kolokvij,

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

18. listopada listopada / 13

1.4 Tangenta i normala

5. Karakteristične funkcije

Uvod u neparametrijske testove. Usporedba. Neparametrijske inačice t-testa za dva nezavisna uzorka. dr. sc. Goran Kardum

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Linearna algebra 2 prvi kolokvij,

TRIGONOMETRIJSKE FUNKCIJE I I.1.

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

RIJEŠENI ZADACI I TEORIJA IZ

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Testiranje statistiqkih hipoteza

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

IZVODI ZADACI (I deo)

Matematička analiza 1 dodatni zadaci

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

Optimalnost u procjeni Nepristran procjenitelj minimalne varijance Cramer-Rao donja granica - ekasnost Konzistentnost. Vjeºbe - Statistika II.

4 Testiranje statističkih hipoteza

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Funkcije dviju varjabli (zadaci za vježbu)

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Operacije s matricama

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

VJEROJATNOST I STATISTIKA 2. kolokvij lipnja 2016.

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

7 Algebarske jednadžbe

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Riješeni zadaci: Nizovi realnih brojeva

Teorijske osnove informatike 1

Dijagonalizacija operatora

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

SISTEMI NELINEARNIH JEDNAČINA

10. domaća zadaća. 3. Neka je X neprekidna slučajna varijabla takva da je X N(0, 1). S točnošću od odredite:

41. Jednačine koje se svode na kvadratne

MATEMATIKA 1 8. domaća zadaća: RADIJVEKTORI. ALGEBARSKE OPERACIJE S RADIJVEKTORIMA. LINEARNA (NE)ZAVISNOST SKUPA RADIJVEKTORA.

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

Kaskadna kompenzacija SAU

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Teorem 1.8 Svaki prirodan broj n > 1 moºe se prikazati kao umnoºak prostih brojeva (s jednim ili vi²e faktora).

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

ELEMENTARNA MATEMATIKA 1

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

21. ŠKOLSKO/OPĆINSKO/GRADSKO NATJECANJE IZ GEOGRAFIJE GODINE 8. RAZRED TOČNI ODGOVORI

Dvanaesti praktikum iz Analize 1

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

Uvod u teoriju brojeva

Slučajne varijable. Diskretna slučajna varijabla X je promjenjiva veličina koja poprima vrijednosti iz skupa

PRIMJER 3. MATLAB filtdemo

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Statistička obrada podataka

Uvod u neparametarske testove

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

Riješeni zadaci: Limes funkcije. Neprekidnost

Chi-kvadrat test. Chi-kvadrat (χ2) test

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Matematika 4. t x(u)du + 4. e t u y(u)du, t e u t x(u)du + Pismeni ispit, 26. septembar e x2. 2 cos ax dx, a R.

Numerička matematika 2. kolokvij (1. srpnja 2009.)

VJEŽBE IZ MATEMATIKE 1

ANALIZA TABLICA KONTINGENCIJE

Slučajni procesi Prvi kolokvij travnja 2015.

Metode procjene parametara

SVEUČILIŠTE U RIJECI GRAĐEVINSKI FAKULTET U RIJECI. Specijalistički diplomski stručni studij

GRAĐEVINSKI FAKULTET SVEUČILIŠTE U RIJECI. Specijalistički diplomski stručni studij MANN-WHITNEY-WILCOXONOV TEST ZA NEZAVISNE UZORKE.

Transcript:

Vjeºbe - Statistika Praktikum Statisti ki testovi (1)

Usporedba o ekivanja dviju normalno distribuiranih populacija (t-test) Nevezani uzorci Mjerimo neko statisti ko obiljeºje u dvije razli ite populacije i nezavisno sakupimo dva slu ajna uzorka (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). (mjerene vrijednosti iz jedne populacije nisu u nikakvoj vezi s mjerenim vrijednostima iz druge populacije) Pretpostavke - normalna distribuiranost i jednake varijance: X 1i N (µ 1, σ 2 ) X 2i N (µ 2, σ 2 ) Ozna imo uzora ke sredine i varijance dva uzorka s X1, X2, S 2 1, S 2 2.

Za testiranje hipoteza H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 \ µ 1 < µ 2 \ µ 1 > µ 2 test statistika je T = X 1 X2 1 H0 t n1+n S d 1 2 2, n 1 + 1 n 2 pri emu je S d procjenitelj standardne devijacije na osnovu dva uzorka 2 2 (n 1 1) S S d = 1 + (n 2 1) S 2. n 1 + n 2 2 R sintaksa: t.test(x, y, alternative = c("two.sided", "less", "greater"), var.equal = TRUE)

Ukoliko ne znamo da li su varijance jednake, tj. X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2) Tada se moºe pokazati da test statistika pribliºno ima t distribuciju, ali s druk ijim brojem stupnjeva slobode Ovo je tzv. Welchov t-test, a u R-u se dobiva analogno, ispu²taju i pretpostavku var.equal=true t.test(x, y, alternative = c("two.sided", "less", "greater"))

Primjer 1. Studentska sluºba ºeli vidjeti postoji li razlika u prosje noj dobi izmežu studenata koji studiraju na klasi an na in i onih koji studiraju putem Interneta. Prikupljeni podaci o dobi nalaze se u datoteci student.txt. Na nivou zna ajnosti α = 0.05, postoji li razlika izmežu dobi ove dvije skupine studenata?

Vezani uzorci (spareni podaci) ƒesto imamo potrebu usporeživati neku karakteristiku u zavisnim uzorcima (npr. usporediti u inkovitost nekog lijeka na istim pacijentima, prije i poslije tretmana). U takvim slu ajevima uzorci nisu nezavisni pa prethodni testovi nisu prikladni. Dakle, imamo dva uzorka (X 11,..., X 1,n ) i (X 21,..., X 2,n ). i pretpostavljamo normalnu distribuiranost: X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2)

Znamo da i ºelimo testirati D := X 1i X 2i N (µ 1 µ 2, σ 2 ), H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 0 \ µ 1 µ 2 < 0 \ µ 1 µ 2 > 0 ²to se svodi na t-test na jednom uzorku. R sintaksa: t.test(x, y, alternative = c("two.sided", "less", "greater"), paired = TRUE)

Primjer 2. U datoteci ocjene.txt nalaze se podaci o ocjenama koje daju dva suca na nekom natjecanju. Testirajte jesu li njihove prosje ne ocjene zna ajno razli ite uz razinu zna ajnosti 0.05, uz pretpostavku normalne distribuiranosti ocjena.

Usporedba varijanci dviju normalno distribuiranih populacija (F -test) Pretpostavke X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2) Za testiranje hipoteza test statistika je R sintaksa H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 \ σ 2 1 < σ 2 2 \ σ 2 1 > σ 2 2 T = S 2 1 S 2 2 H0 F (n1 1,n 2 1). var.test(x, y, alternative = c("two.sided", "less", "greater"))

Primjer 3. Za podatke iz student.txt testirajte jesu li varijance jednake ili ne na nivou zna ajnosti 0.05.

Usporedba o ekivanja dviju populacija na osnovu velikih uzoraka Mjerimo neko statisti ko obiljeºje u dvije razli ite populacije i nezavisno sakupimo dva slu ajna uzorka Neka je (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). E[X 1i ] = µ 1, Var(X 1i ) = σ 2 1 < E[X 2i ] = µ 1, Var(X 2i ) = σ 2 2 < i i Ozna imo uzora ke sredine i konzistentne procjene varijanci dva uzorka s X1, X2, ˆσ 2 1, ˆσ2 2.

Za testiranje hipoteza H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 \ µ 1 < µ 2 \ µ 1 > µ 2 test statistika je T = X 1 X2 H0 A N (0, 1), ˆσ 1 2 n 1 + ˆσ2 2 n 2 i kriti no podru je se odrežuje kao kod z-testa na jednom uzorku.

Usporedba proporcija Specijalan slu ajan prethodnog testa za obiljeºje iz Bernoullijeve distribucije, tj. nezavisno sakupimo dva slu ajna uzorka (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). Neka je ( ) ( ) 0 1 0 1 X 1i, X 1 2i p 1 p 1 1 p 2 p 2 Ozna imo procjenitelje za p 1 i p 2 (uzora ke sredine) ˆp 1 = X1, ˆp 2 = X2. Neka je ˆp procjenitelj vjerojatnosti uspjeha za oba uzorka zajedno ˆp = n 1ˆp 1 + n 2ˆp 2 n 1 + n 2.

Za testiranje hipoteza H 0 : p 1 = p 2 H 1 : p 1 p 2 \ p 1 < p 2 \ p 1 > p 2 test statistika je T = ˆp 1 ˆp 2 1 ˆp(1 H0 A N (0, 1), ˆp) 1 n 1 + 1 n 2 i kriti no podru je se odrežuje kao kod z-testa na jednom uzorku. R funkcija: (ova funkcija temelji se na druga ijoj test statistici koja ima χ 2 distribuciju) prop.test(x, n, alternative = c("two.sided", "less", "greater"))

Primjer 4. U nekom gradu su se dvije osobe kandidirale za gradona elnika. Grad je podijeljen na dva dijela: A i B. U dijelu A je uzet uzorak od 300 glasa a i medu njima je 168 glasovalo za prvog kandidata, dok je u dijelu B iz uzorka od 200 glasa a njih 96 glasovalo za prvog kandidata. Je li prvi kandidat popularniji u dijelu A? (α = 0.05)

Zadaci Zadatak 1. U paketu BSDA pronažite bazu Achieve koja sadrºi podatke o rezultatima testa iz matematike 25 u enika srednje ²kole po spolu. Pretpostavimo da su podaci normalno distribuirani. Provjerite moºemo li pretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Postoji li razlika u prosje nom rezultatu u enika i u enica na razini zna ajnosti 0.05? Testirajte je li prosje an rezultat u enica ve i od u enika na razini zna ajnosti 0.05?

Zadatak 2. U paketu BSDA pronažite bazu Asthmati. Baza sadrºi podatke o 9 pacijenata koji boluju od astme. Pacijentima je prvo dan laºni lijek (placebo) a zatim pravi lijek te su biljeºeni indeksi koji mjere teºinu simptoma (ve a vrijednost - teºi simptomi). Pretpostavimo da su rezultati normalno distribuirani. Testirajte moºe li se na nivou zna ajnosti 0.05 re i da je lijek djelotvoran?

Zadatak 3. Tvornica automobila naru uje sklop mjenja a od dva kooperanta. Povremeno se dogodi da isporu eni mjenja i budu neispravni. U bazi Autogear nalaze se podaci o broju neispravnih mjenja a dva kooperanta, A i B, tijekom 20 mjeseci. Pretpostavimo da su podaci normalno distribuirani. Postoji li, na razini zna ajnosti 0.05, razlika u prosje nom broju neispravnih mjenja a izmežu dva kooperanta? Provjerite moºemo li pretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Za kojeg proizvoža a mjenja a bi se tvornica trebala odlu iti?

Zadatak 4. U paketu BSDA nalazi se baza Blood koja sadrºi podatke o krvnom tlaku 15 osoba. Tlak je izmjeren dva puta, jednom je mjerenje izvr²io urežaj, a jednom lije nik ekspert. Pretpostavimo da su vrijednosti normalno distribuirane. Na razini zna ajnosti 0.05, razlikuju li se u prosjeku izmjerene vrijednosti, tj. jesu li urežaj i lije nik jednako precizni?

Zadatak 5. U paketu BSDA nalazi se baza Bones koja sadrºi podatke o gusto i kosti 35 ºena koje su zi ki aktivne i 35 ºena koje nisu zi ki aktivne. Na nivou zna ajnosti 0.05, imaju li zi ki aktivne ºene u prosjeku gu² e kosti?

Zadatak 6. Poljoprivrednik je isprobao zasijati novu vrstu skupljeg sjemena. Zanima ga ho e li s novom vrstom sjemena njegov prinos biti manje varijabilan. Sa svojih njiva, izra unao je podatke o prinosima po m 2 na nekoliko mjesta, ovisno o tome je li zasijano novo ili standardno sjeme. Podaci se nalaze u datoteci sjeme.txt i pretpostavimo da su normalno distribuirani. Je li na nivou zna ajnosti prinos s novim sjemenom manje varijabilan?

Zadatak 7. Sredinom 80-tih godina pro²log stolje a provedeno je istraºivanje o utjecaju estog uzimanja aspirina na rizik od sr anog udara. Tijekom 5 godina ispitanici su svaki drugi dan uzimali tablete, jedna skupina je uzimala aspirin, a druga skupina je uzimala placebo. Od 11034 ispitanika na placebu njih 189 je doºivilo sr ani udar. Od 11037 ispitanika na aspirinu njih 104 je doºivilo sr ani udar. Smanjuje li uzimanje aspirina rizik od sr anog udara, na nivou zna ajnosti 0.05?

Kontigencijske tablice Promatramo dvodimenzionalno diskretno obiljeºje (X, Y ) i neka je dan slu ajan uzorak (X 1, Y 1 )..., (X n, Y n ). Ozna imo slike slu ajnih varijabli X i Y i slu ajnog vektora (X, Y ) ImX = {a 1,..., a r }, ImY = {b 1,..., b c } Neka je Im(X, Y ) = {(a i, b j ) : 1 i r, 1 j c}. N ij = frekvencija od (a i, b j ) u uzorku N i = marginalna frekvencija od a i u uzorku M j = marginalna frekvencija od b j u uzorku c r N i = N ij, M j = N ij. j=1 i=1

Kontigencijska frekvencijska tablica X \Y b 1 b 2 b c Σ a 1 N 11 N 12 N 1c N 1 a 2 N 21 N 22 N 2c N 2............ a r N r1 N r2 N rc N r Σ M 1 M 2 M c n

Primjer 5. U jednom razredu od n = 30 u enika promatra se ocjena iz matematike (X ) i zike (Y ). (1, 3), (4, 3), (2, 2), (3, 2), (1, 2), (1, 1), (2, 2), (4, 4), (2, 2), (5, 5), (3, 3), (2, 2), (3, 3), (4, 4), (5, 5), (3, 5), (2, 1), (2, 3), (2, 2), (2, 2), (3, 3), (3, 2), (4, 4), (2, 2), (3, 3), (2, 1), (3, 2), (3, 2), (3, 2), (2, 2).

Kontigencijska frekvencijska tablica X \Y 1 2 3 4 5 Σ 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 1 0 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 Σ 3 14 7 3 3 30 Tablica relativnih frekvencija X \Y 1 2 3 4 5 Σ 1 1/30 1/30 1/30 0 0 3/30 2 2/30 8/30 1/30 0 0 11/30 3 0 5/30 4/30 1/30 0 10/30 4 0 0 1/30 3/30 0 4/30 5 0 0 0 0 2/30 2/30 Σ 3/30 14/30 7/30 3/30 3/30 1

χ 2 test o nezavisnosti Pretpostavimo da imamo dvodimenzionalno obiljeºje i ºelimo testirati Ozna imo H 0 : X i Y su nezavisna obiljeºja H 1 : X i Y su zavisna obiljeºja p ij = P(X = a i, Y = b j ), p i = P(X = a i ), Onda H 0 moºemo zapisati kao q j = P(Y = b j ). H 0 : p ij = p i q j, za sve i, j Procijenimo p i i q j relativnim frekvencijama ˆp i = N i n, ˆq j = M j n.

Tada, u uvjetima H 0, o ekivane frekvencije su ˆn ij = nˆp i ˆq j = N i M j n. Test statistika r c (N ij ˆn ij ) 2 H = H0 A χ 2 ((r 1)(c 1)). ˆn ij i=1 j=1 R sintaksa chisq.test(x)

Primjer 6. Utvrdite da li su ocjene koje u enici dobivaju iz matematike i iz zike nezavisne. (α = 0.05)

χ 2 test o homogenosti Pretpostavimo da nas zanima razdioba istog diskretnog statisti kog obiljeºja u m razli itih populacijama. šelimo na osnovu nezavisnih uzoraka uzetih iz tih populacija testirati nul-hipotezu da su razdiobe od X u tim populacijama jednake (homogene). Neka su X (i) slu ajne varijable koje predstavljaju X u i-toj populaciji Iz svake populacije nezavisno odabiremo slu ajan uzorak Neka je X (i) X (1) 1,..., X (1) n 1 X (2) 1,..., X (2) n 2. X (m) 1,..., X (m) nm ( ) a1 a k, i = 1,..., m, p i1 p ik p j = P(X = a j ), j = 1,..., k.

Tablica frekvencija uzoraka populacija \X a 1 a 2 a k Σ 1 N 11 N 12 N 1k n 1 2 N 21 N 22 N 2k n 2............ m N m1 N m2 N mk n m Σ M 1 M 2 M k n šelimo testirati H 0 : X (1) D = X (2) D = D= X (m), tj. p ij = p j, j = 1,..., k, i = 1,..., m H 1 : i, j t.d. X (i) D X (j)

Test statistika je ista kao i prije m k (N ij ˆn ij ) 2 H = H0 A χ 2 ((m 1)(k 1)). ˆn ij i=1 j=1 R sintaksa chisq.test(x)

Test o nezavisnosti i homogenosti se provode jednako, ali imaju razli ite hipoteze. U emu je razlika? Razlika proizlazi iz dizajna eksperimenta za koji se provodi test. Kod testa nezavisnosti, uzorkovanje se vr²i tako da se iz cijele populacije bira slu ajan uzorak koji se onda klasicira po kategorijama. U tom slu aju je i broj realizacija po kategorijama slu ajan. (primjer: ispitamo ocjene na cijelom razredu, ne znamo koliko e biti primjerice petica iz matematike) Kod testa homogenosti, uzorkovanje se vr²i nezavisno po kategorijama. To zna i da je veli ina uzorka po kategorijama utvržena unaprijed. (primjer: odlu imo promatrati ocjene iz zike za 10 u enika koji imaju 1 iz matematike, 5 u enika koji imaju 2 iz matematike itd.) Ako se radi o jednostavnom slu ajnom uzorku, tada su nezavisnost i homogenost ekvivalentne.

Zadaci Zadatak 8. Neki fakultet ima etiri smjera: elektrotehnika, brodogradnja, strojarstvo i ra unarstvo. Odabran je slu ajan uzorak od 500 studenata i dobiveni podaci su dani sljede om tablicom. Ovisi li odabir smjera o spolu na razini zna ajnosti 0.05? elektroteh. brodogradnja strojarstvo ra unarstvo Σ student 100 80 70 50 300 studentica 50 50 50 50 200 Σ 150 130 120 100 500

Zadatak 9. Za obradu odreženog nastavnog gradiva primjenjene su dvije razli ite nastavne metode. Metoda M1 primijenjena je u skupini A od 100 u enika, a metoda M2 u skupini B od 200 u enika. Da bi se utvrdio u inak, svi su u enici ispitani i ocijenjeni odgovaraju om ocjenom od 1 do 5. Jesu li obje metode jednako u inkovite na razini zna ajnosti 0.05? Analizirajte o ekivane frekvencije pod uvjetom da je nulta hipoteza istinita u odnosu na opaºene frekvencije? Koja metoda daje bolje rezultate? skupina \ ocjena 1 2 3 4 5 Σ A 14 26 34 16 10 100 B 18 36 58 56 32 200 Σ 32 62 92 72 42 300

Zadatak 10. 180 ljudi ispitano je u istraºivanju kojemu je cilj odrediti postoji li povezanost izmežu pu²enja i povi²enog krvnog tlaka. Testirajte postoji li povezanost na razini zna ajnosti 0.05. nepu²a blagi pu²a te²ki pu²a Σ normalan tlak 48 26 19 93 povi²en tlak 21 36 30 87 Σ 69 62 49 180

Zadatak 11. U paketu BSDA nalazi se baza Politic koja sadrºi podatke iz ankete u kojoj su se ispitanici odlu ivali izmežu tri politi ke stranke i zabiljeºen je njihov spol. Ovisi li odabir politi ke stranke o spolu? (α = 0.05)

Zadatak 12. Provedeno je istraºivanje o rasprostranjenosti alkoholizma za etiri kategorije zanimanja posebno. Je li alkoholizam jednako rasprostranjen u navedenim populacijama? alkoholi ari nealkoholi ari Σ sluºbenici 32 268 300 nastavnici 51 199 250 menadºeri 67 233 300 trgovci 83 267 350 Σ 233 967 1200

Vježbe 5. statistički testovi ########################################################################### # t-test - Usporedba očekivanja dviju normalno distribuiranih populacija # ########################################################################### ######################################### # Nevezani uzorci ######################################### # Primjer 1. #testiramo: # H0: mu1 = mu2 # H1: mu1!= mu2 #Uočimo da su dva uzorka nezavisna, dob jednih ne ovisi o dobi drugih. Primjerice, ako su jedni stariji, ne znači da će drugi # biti stariji ili mlađi. stud <- read.table("student.txt", header=true) str(stud) attach(stud) t.test(klas, Inter, var.equal=true) # p-vrijednost veća od 0.05 -> ne odbacujemo nultu hipotezu. Na razini značajnosti 0.05 ne možemo tvrditi # da se prosječna dob razlikuje. #Ako nismo sigurni u jednakost varijanci, onda je bolje koristiti Welchovu verziju t-testa #jednostavno izostavimo var.equal=true, jer je default opcija var.equal=false t.test(klas, Inter) ######################################### # Vezani uzorci ######################################### ################# # Primjer 2. #testiramo: # H0: mu1 = mu2 # H1: mu1!= mu2 #Uočimo da podaci nisu nezavisni jedni od drugih jer očito svaki sudac ocjenjuje istu stvar. Očekujemo da ako jedan sudac # da veću ocjenu, onda će i drugi i obrnuto. To je baš karakteristika zavisnosti. Stoga moramo koristiti t-test za sparene podatke! ocjene <- read.table("ocjene.txt", header=true) str(ocjene) attach(ocjene) t.test(s1,s2,alternative=c("two.sided"), paired=true) #p-vrijednost manja od 0.05, odbacujemo H_0, i zaključujemo da se na nivou značajnosti 0.05 1

# ocjene dva suca razlikuju. #KAD BI POGREŠNO NAPRAVILI t-test za nevezane uzorke t.test(s1,s2,alternative=c("two.sided")) #ne bi odbacili H_0 - POGREŠNO! ########################################################################### # F-test - Usporedba varijanci dviju normalno distribuiranih populacija # ########################################################################### #Primjer za bazu studenti #testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2!= sigma^2 var.test(klas, Inter) #na nivou značajnosti ne odbacujemo H_0 var(klas) var(inter) ########################################################################### # Usporedba proporcija # ########################################################################### #Primjer #Radi se o usporedbi proporcija u dva dijela grada #testiramo # H0: pa = pb # H1: pa > pb #funkcija prop.test kao prvi parametar uzima vektor frekvencija, a kao drugi vektor s ukupnim brojem podataka glasovi <- c(168,96) broj <- c(300,200) prop.test(glasovi, broj, alternative="greater") #p<0.05 => odbacujemo H0 i zaključujemo da je prvi kandidat popularniji u dijelu grada A #Kasnije ćemo vidjeti da je ovo zapravo isto kao Chi^2 test za dvije populacije, ali tamo ne možemo testirati #hipoteze veće i manje. ######################################## ## ZADACI ######################################## ############### #### Zadatak 1. # 2

library(bsda) Achieve str(achieve) zenski <- Achieve$Score[Achieve$Gender==1] muski <- Achieve$Score[Achieve$Gender==2] zenski muski #ili se može iz trećeg stupca pa maknuti NA vrijednosti #zenski <- Achieve$Female[!is.na(Achieve$Female)] #Prvo testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2!= sigma^2 var.test(zenski,muski) #p-vrijednost >0.05 pa ne odbacujemo H_0. Nema dokaza da je varijanca različita. #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(zenski,muski,var.equal=true) #p-vrijednost <0.05 pa odbacujemo H_0. Prosječan rezultat razlikuje se kod muških i ženskih učenika #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(zenski,muski,alternative="greater",var.equal=true) #"greater" znači prva varijabla ima veće očekivanje od druge #p-vrijednost <0.05 pa odbacujemo H_0. Učenice imaju veći prosječni rezultat. ############### #### Zadatak 2. # Asthmati str(asthmati) attach(asthmati) #Radi se o t-testu za sparene podatke, jer su to jedni te isti pacijenti, pa svakako dva uzorka nisu nezavisna #Neka je mu1 očekivanje od Placebo i mu2 očekivanje od Drug #Testiramo hipoteze # H0: mu1 = mu2 (lijek nije djelotvoran, nema poboljšanja # H1: mu1 > mu2 (lijek je djelotvoran, smanjio se prosječni indeks težine simptoma) t.test(placebo,drug,paired=true,alternative="greater") #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da je lijek djelotvoran. 3

############### #### Zadatak 3. # Autogear str(autogear) attach(autogear) #Neka je mu1 očekivanje od A i mu2 očekivanje od B #Testiramo hipoteze # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(a,b) #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da se dvije tvornice razlikuju # u prosječnom broju neispravnih mjenjača. #testiramo jesu li varijance jednake var.test(a,b) #p>0.05 pa ne odbacujemo H_0 (jednake varijance). Dakle, ne možemo tvrditi da su varijance različite. t.test(a,b, var.equal=true) #I uz tu pretpostavku će rezultat biti isti, p-vrijednost se nezntno promjeni # Mean(B) je veći od mean(a), pa se čini da je druga tvornica lošija (veći broj neispravnih) #Sad ćemo testirati i to # H0: mu1 = mu2 # H1: mu1 < mu2 t.test(a,b, var.equal=true, alternative="less") #p<0.05, pa na nivou značajnosti 0.05 odbacujemo H0 i zaključujemo da prva tvornica ima #manji prosječan broj neipravnih mjenjača. Treba se odlučiti za prvu tvornicu. ############### #### Zadatak 4. # Blood str(blood) attach(blood) #Radi se o sparenim podacima, tlak se mjeri na istim osobama, pa uzorci nisu nezavisni. #Ako uređaj izmjeri više, za očekivati je da će i liječnik i obrnuto. #Testiramo # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(machine, Expert, paired=true) #p>0.05 => ne možemo odbaciti nultu hipotezu na razini značajnosti 0.05 #Nema dokaza da se preciznost uređaja i liječnika razlikuje 4

############### #### Zadatak 5. # Bones str(bones) aktiv <- Bones$Density[Bones$group==1] neaktiv <- Bones$Density[Bones$group==2] #Testiramo # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(aktiv,neaktiv,alternative="greater") #p>0.05 pa na nivou značajnosti 0.05 ne možemo odbaciti H0, tj. nema dokaza da fizički aktivne žene imaju gušće kosti ############### #### Zadatak 6. # sjeme <- read.table("sjeme.txt", header=true) str(sjeme) sjeme attach(sjeme) #Treba testirati jesu li varijance u dva uzorka jednake ili je varijanca veća za standardno sjeme #hipoteze # H0: sigma1^2 = sigma2^2 # H1: sigma1^2 > sigma2^2 var.test(standardno, novo, alternative="greater") #p>0.05 pa ne odbacujemo H0, stoga, nema dokaza da je varijabilnost prinosa manja za novo sjeme ############### #### Zadatak 7. # #Radi se o usporedbi proporcija, svaka osoba je bernoullijeva sl. var. - ili doživi srčani udar ili ne. #Neka je p1 vjerojatnost srčanog udara za osobu na placebu i p2 za osobu na aspirinu. #Hipoteze # H0: p1 = p2 # H1: p1 > p2 su <- c(189,104) ukupno <- c(11034,11037) prop.test(su,ukupno,alternative="greater") #p<0.05 pa odbacujemo H0 na razini značajnosti 0.05. Redovno uzimanje aspirina smanjuje rizik od srčanog udara. 5

######################################## ## Kontigencijske tablice ########################################?table ocjene <- read.table("ocjenemf.txt", header=true) ocjene str(ocjene) #Funkcija koja daje kontigencijsku tablicu na osnovu niza podataka je table() #Može primiti razne argumente (data.frame, vektore i sl) kont <- table(ocjene) kont table(ocjene$mat, ocjene$fiz) kontigencijske tablice #prva varijabla će biti retci druga stupci margin.table(kont, 1) #daje marginalne frekvencije po 1-retcima, 2-stupcima margin.table(kont, 2) #Tablica relativnih frekvencija dobije se funkcijom prop.table #Zadavanjem dodatnog parametra 1 ili 2, dobiju se #uvjetne relativne frekvencije od fiz uvjetno na mat=i, odnosno od mat uvjetno na fiz=i prop.table(kont) prop.table(kont,1) prop.table(kont,2) ########################################################################### # Chi^2 test o nezavisnotsti # ########################################################################### #Primjer #Funkcija chisq.test prima kao argument kontigencijsku tablicu, ili općenito bilo koju matricu #Bitno je da su elementi nenegativni cijeli brojevi (moguće je zadati i vektore podataka, ali bolje je prije složiti kontigencijsku tablicu kont chisq.test(kont) #p<0.05 pa odbacujemo nultu hipotezu o nezavisnosti, tj. na razini značajnosti 0.05 postoji veza između #ocjena iz matematike i fizike #Warning koji dobijemo je zbog malog broja podataka po ćelijama, tada bi aproksimacija test #statistike mogla biti neprecizna. ######################################## ## ZADACI ######################################## ############### #### Zadatak 8. 6

# #Radi se o chi^2 testu nezavisnosti. Uzorak je na cijeloj populaciji, a i pitanje je postavljeno tako. #Hipoteze # H0: smjer je nezavisan o spolu # H1: postoji zavisnost #trebamo napraviti kontigencijsku tablicu. #jednostavno ćemo stavit podatke u matricu tabl <- matrix(c(100,80,70,50,50,50,50,50), byrow=true, ncol=4) tabl #(postoje brojni načini zadavanja matrice - pogledati prve vježbe) #Možemo dodati imena stupcima i retcima da dobijemo ljepši pregled colnames(tabl) <- c("elektrotehnika", "brodogradnja", "strojarstvo", "racunarstvo") rownames(tabl) <- c("student","studentice") tabl chisq.test(tabl) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir smjera ovisi o spolu na razini značajnosti 0.05. ############### #### Zadatak 9. # #Radi se o chi^2 testu homogenosti. Veličina uzorka u A i B je unaprijed određena. #I na osnovu pitanja zaključujemo da se radi o testu homogenosti. #Hipoteze # H0: distribucija ocjena je ista i kod metode A i kod metode B # H1: distribucija nije ista tabl <- matrix(c(14,26,34,16,10,18,36,58,56,32), byrow=true, ncol=5) tabl colnames(tabl) <- c("1", "2", "3", "4", "5") rownames(tabl) <- c("a","b") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Dvije metode rezultiraju različitm distribucijama ocjena, na nivou značajnosti 0.05. chisq.test(tabl)$expected #daje očekivane frekvencije, ako je H0 istinita chisq.test(tabl)$observed #tablica koju smo unijeli #idemo zaokružit te brojeve round(chisq.test(tabl)$expected) chisq.test(tabl)$observed #možemo promatrati i razlike: chisq.test(tabl)$observed - round(chisq.test(tabl)$expected) #više je boljih ocjena kof druge metode - ona je bolja. #### Zadatak 10. # 7

#Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna tabl <- matrix(c(48,26,19,21,36,30), byrow=true, ncol=3) tabl colnames(tabl) <- c("nepusac", "blagi pusac", "teski pusac") rownames(tabl) <- c("normalan tlak","povisen tlak") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Postoji veza između pušenja i krvnog tlaka. #### Zadatak 11. # #Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna library(bsda) str(politic) #Sad imamo podatke i treba nam kontigencijska tablica koju dobijemo s table() kont <- table(politic) kont chisq.test(kont) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir političke stranke ovisi o spolu. #### Zadatak 12. # #Radi se o chi^2 testu o homogenosti. Populacije se fiksno odabrane i u svakoj od njih je nezavisno provedena anketa. #Testiramo homogenost. #Hipoteze # H0: alkoholizan je jednako rasprotranjen # H1: nije jednako rasprotranjen tabl <- matrix(c(32,268,51,199,67,233,83,267), byrow=true, ncol=2) tabl colnames(tabl) <- c("alkoholičar", "nealkoholičar") rownames(tabl) <- c("službenici","nastavnici", "menadžeri", "trgovci") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Alkoholizam nije jednako distribuiran među različitim zanimanjima. 8