Vjeºbe - Statistika Praktikum Statisti ki testovi (1)
Usporedba o ekivanja dviju normalno distribuiranih populacija (t-test) Nevezani uzorci Mjerimo neko statisti ko obiljeºje u dvije razli ite populacije i nezavisno sakupimo dva slu ajna uzorka (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). (mjerene vrijednosti iz jedne populacije nisu u nikakvoj vezi s mjerenim vrijednostima iz druge populacije) Pretpostavke - normalna distribuiranost i jednake varijance: X 1i N (µ 1, σ 2 ) X 2i N (µ 2, σ 2 ) Ozna imo uzora ke sredine i varijance dva uzorka s X1, X2, S 2 1, S 2 2.
Za testiranje hipoteza H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 \ µ 1 < µ 2 \ µ 1 > µ 2 test statistika je T = X 1 X2 1 H0 t n1+n S d 1 2 2, n 1 + 1 n 2 pri emu je S d procjenitelj standardne devijacije na osnovu dva uzorka 2 2 (n 1 1) S S d = 1 + (n 2 1) S 2. n 1 + n 2 2 R sintaksa: t.test(x, y, alternative = c("two.sided", "less", "greater"), var.equal = TRUE)
Ukoliko ne znamo da li su varijance jednake, tj. X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2) Tada se moºe pokazati da test statistika pribliºno ima t distribuciju, ali s druk ijim brojem stupnjeva slobode Ovo je tzv. Welchov t-test, a u R-u se dobiva analogno, ispu²taju i pretpostavku var.equal=true t.test(x, y, alternative = c("two.sided", "less", "greater"))
Primjer 1. Studentska sluºba ºeli vidjeti postoji li razlika u prosje noj dobi izmežu studenata koji studiraju na klasi an na in i onih koji studiraju putem Interneta. Prikupljeni podaci o dobi nalaze se u datoteci student.txt. Na nivou zna ajnosti α = 0.05, postoji li razlika izmežu dobi ove dvije skupine studenata?
Vezani uzorci (spareni podaci) ƒesto imamo potrebu usporeživati neku karakteristiku u zavisnim uzorcima (npr. usporediti u inkovitost nekog lijeka na istim pacijentima, prije i poslije tretmana). U takvim slu ajevima uzorci nisu nezavisni pa prethodni testovi nisu prikladni. Dakle, imamo dva uzorka (X 11,..., X 1,n ) i (X 21,..., X 2,n ). i pretpostavljamo normalnu distribuiranost: X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2)
Znamo da i ºelimo testirati D := X 1i X 2i N (µ 1 µ 2, σ 2 ), H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 0 \ µ 1 µ 2 < 0 \ µ 1 µ 2 > 0 ²to se svodi na t-test na jednom uzorku. R sintaksa: t.test(x, y, alternative = c("two.sided", "less", "greater"), paired = TRUE)
Primjer 2. U datoteci ocjene.txt nalaze se podaci o ocjenama koje daju dva suca na nekom natjecanju. Testirajte jesu li njihove prosje ne ocjene zna ajno razli ite uz razinu zna ajnosti 0.05, uz pretpostavku normalne distribuiranosti ocjena.
Usporedba varijanci dviju normalno distribuiranih populacija (F -test) Pretpostavke X 1i N (µ 1, σ 2 1) X 2i N (µ 2, σ 2 2) Za testiranje hipoteza test statistika je R sintaksa H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 \ σ 2 1 < σ 2 2 \ σ 2 1 > σ 2 2 T = S 2 1 S 2 2 H0 F (n1 1,n 2 1). var.test(x, y, alternative = c("two.sided", "less", "greater"))
Primjer 3. Za podatke iz student.txt testirajte jesu li varijance jednake ili ne na nivou zna ajnosti 0.05.
Usporedba o ekivanja dviju populacija na osnovu velikih uzoraka Mjerimo neko statisti ko obiljeºje u dvije razli ite populacije i nezavisno sakupimo dva slu ajna uzorka Neka je (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). E[X 1i ] = µ 1, Var(X 1i ) = σ 2 1 < E[X 2i ] = µ 1, Var(X 2i ) = σ 2 2 < i i Ozna imo uzora ke sredine i konzistentne procjene varijanci dva uzorka s X1, X2, ˆσ 2 1, ˆσ2 2.
Za testiranje hipoteza H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 \ µ 1 < µ 2 \ µ 1 > µ 2 test statistika je T = X 1 X2 H0 A N (0, 1), ˆσ 1 2 n 1 + ˆσ2 2 n 2 i kriti no podru je se odrežuje kao kod z-testa na jednom uzorku.
Usporedba proporcija Specijalan slu ajan prethodnog testa za obiljeºje iz Bernoullijeve distribucije, tj. nezavisno sakupimo dva slu ajna uzorka (X 11,..., X 1,n1 ) i (X 21,..., X 2,n2 ). Neka je ( ) ( ) 0 1 0 1 X 1i, X 1 2i p 1 p 1 1 p 2 p 2 Ozna imo procjenitelje za p 1 i p 2 (uzora ke sredine) ˆp 1 = X1, ˆp 2 = X2. Neka je ˆp procjenitelj vjerojatnosti uspjeha za oba uzorka zajedno ˆp = n 1ˆp 1 + n 2ˆp 2 n 1 + n 2.
Za testiranje hipoteza H 0 : p 1 = p 2 H 1 : p 1 p 2 \ p 1 < p 2 \ p 1 > p 2 test statistika je T = ˆp 1 ˆp 2 1 ˆp(1 H0 A N (0, 1), ˆp) 1 n 1 + 1 n 2 i kriti no podru je se odrežuje kao kod z-testa na jednom uzorku. R funkcija: (ova funkcija temelji se na druga ijoj test statistici koja ima χ 2 distribuciju) prop.test(x, n, alternative = c("two.sided", "less", "greater"))
Primjer 4. U nekom gradu su se dvije osobe kandidirale za gradona elnika. Grad je podijeljen na dva dijela: A i B. U dijelu A je uzet uzorak od 300 glasa a i medu njima je 168 glasovalo za prvog kandidata, dok je u dijelu B iz uzorka od 200 glasa a njih 96 glasovalo za prvog kandidata. Je li prvi kandidat popularniji u dijelu A? (α = 0.05)
Zadaci Zadatak 1. U paketu BSDA pronažite bazu Achieve koja sadrºi podatke o rezultatima testa iz matematike 25 u enika srednje ²kole po spolu. Pretpostavimo da su podaci normalno distribuirani. Provjerite moºemo li pretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Postoji li razlika u prosje nom rezultatu u enika i u enica na razini zna ajnosti 0.05? Testirajte je li prosje an rezultat u enica ve i od u enika na razini zna ajnosti 0.05?
Zadatak 2. U paketu BSDA pronažite bazu Asthmati. Baza sadrºi podatke o 9 pacijenata koji boluju od astme. Pacijentima je prvo dan laºni lijek (placebo) a zatim pravi lijek te su biljeºeni indeksi koji mjere teºinu simptoma (ve a vrijednost - teºi simptomi). Pretpostavimo da su rezultati normalno distribuirani. Testirajte moºe li se na nivou zna ajnosti 0.05 re i da je lijek djelotvoran?
Zadatak 3. Tvornica automobila naru uje sklop mjenja a od dva kooperanta. Povremeno se dogodi da isporu eni mjenja i budu neispravni. U bazi Autogear nalaze se podaci o broju neispravnih mjenja a dva kooperanta, A i B, tijekom 20 mjeseci. Pretpostavimo da su podaci normalno distribuirani. Postoji li, na razini zna ajnosti 0.05, razlika u prosje nom broju neispravnih mjenja a izmežu dva kooperanta? Provjerite moºemo li pretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Za kojeg proizvoža a mjenja a bi se tvornica trebala odlu iti?
Zadatak 4. U paketu BSDA nalazi se baza Blood koja sadrºi podatke o krvnom tlaku 15 osoba. Tlak je izmjeren dva puta, jednom je mjerenje izvr²io urežaj, a jednom lije nik ekspert. Pretpostavimo da su vrijednosti normalno distribuirane. Na razini zna ajnosti 0.05, razlikuju li se u prosjeku izmjerene vrijednosti, tj. jesu li urežaj i lije nik jednako precizni?
Zadatak 5. U paketu BSDA nalazi se baza Bones koja sadrºi podatke o gusto i kosti 35 ºena koje su zi ki aktivne i 35 ºena koje nisu zi ki aktivne. Na nivou zna ajnosti 0.05, imaju li zi ki aktivne ºene u prosjeku gu² e kosti?
Zadatak 6. Poljoprivrednik je isprobao zasijati novu vrstu skupljeg sjemena. Zanima ga ho e li s novom vrstom sjemena njegov prinos biti manje varijabilan. Sa svojih njiva, izra unao je podatke o prinosima po m 2 na nekoliko mjesta, ovisno o tome je li zasijano novo ili standardno sjeme. Podaci se nalaze u datoteci sjeme.txt i pretpostavimo da su normalno distribuirani. Je li na nivou zna ajnosti prinos s novim sjemenom manje varijabilan?
Zadatak 7. Sredinom 80-tih godina pro²log stolje a provedeno je istraºivanje o utjecaju estog uzimanja aspirina na rizik od sr anog udara. Tijekom 5 godina ispitanici su svaki drugi dan uzimali tablete, jedna skupina je uzimala aspirin, a druga skupina je uzimala placebo. Od 11034 ispitanika na placebu njih 189 je doºivilo sr ani udar. Od 11037 ispitanika na aspirinu njih 104 je doºivilo sr ani udar. Smanjuje li uzimanje aspirina rizik od sr anog udara, na nivou zna ajnosti 0.05?
Kontigencijske tablice Promatramo dvodimenzionalno diskretno obiljeºje (X, Y ) i neka je dan slu ajan uzorak (X 1, Y 1 )..., (X n, Y n ). Ozna imo slike slu ajnih varijabli X i Y i slu ajnog vektora (X, Y ) ImX = {a 1,..., a r }, ImY = {b 1,..., b c } Neka je Im(X, Y ) = {(a i, b j ) : 1 i r, 1 j c}. N ij = frekvencija od (a i, b j ) u uzorku N i = marginalna frekvencija od a i u uzorku M j = marginalna frekvencija od b j u uzorku c r N i = N ij, M j = N ij. j=1 i=1
Kontigencijska frekvencijska tablica X \Y b 1 b 2 b c Σ a 1 N 11 N 12 N 1c N 1 a 2 N 21 N 22 N 2c N 2............ a r N r1 N r2 N rc N r Σ M 1 M 2 M c n
Primjer 5. U jednom razredu od n = 30 u enika promatra se ocjena iz matematike (X ) i zike (Y ). (1, 3), (4, 3), (2, 2), (3, 2), (1, 2), (1, 1), (2, 2), (4, 4), (2, 2), (5, 5), (3, 3), (2, 2), (3, 3), (4, 4), (5, 5), (3, 5), (2, 1), (2, 3), (2, 2), (2, 2), (3, 3), (3, 2), (4, 4), (2, 2), (3, 3), (2, 1), (3, 2), (3, 2), (3, 2), (2, 2).
Kontigencijska frekvencijska tablica X \Y 1 2 3 4 5 Σ 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 1 0 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 Σ 3 14 7 3 3 30 Tablica relativnih frekvencija X \Y 1 2 3 4 5 Σ 1 1/30 1/30 1/30 0 0 3/30 2 2/30 8/30 1/30 0 0 11/30 3 0 5/30 4/30 1/30 0 10/30 4 0 0 1/30 3/30 0 4/30 5 0 0 0 0 2/30 2/30 Σ 3/30 14/30 7/30 3/30 3/30 1
χ 2 test o nezavisnosti Pretpostavimo da imamo dvodimenzionalno obiljeºje i ºelimo testirati Ozna imo H 0 : X i Y su nezavisna obiljeºja H 1 : X i Y su zavisna obiljeºja p ij = P(X = a i, Y = b j ), p i = P(X = a i ), Onda H 0 moºemo zapisati kao q j = P(Y = b j ). H 0 : p ij = p i q j, za sve i, j Procijenimo p i i q j relativnim frekvencijama ˆp i = N i n, ˆq j = M j n.
Tada, u uvjetima H 0, o ekivane frekvencije su ˆn ij = nˆp i ˆq j = N i M j n. Test statistika r c (N ij ˆn ij ) 2 H = H0 A χ 2 ((r 1)(c 1)). ˆn ij i=1 j=1 R sintaksa chisq.test(x)
Primjer 6. Utvrdite da li su ocjene koje u enici dobivaju iz matematike i iz zike nezavisne. (α = 0.05)
χ 2 test o homogenosti Pretpostavimo da nas zanima razdioba istog diskretnog statisti kog obiljeºja u m razli itih populacijama. šelimo na osnovu nezavisnih uzoraka uzetih iz tih populacija testirati nul-hipotezu da su razdiobe od X u tim populacijama jednake (homogene). Neka su X (i) slu ajne varijable koje predstavljaju X u i-toj populaciji Iz svake populacije nezavisno odabiremo slu ajan uzorak Neka je X (i) X (1) 1,..., X (1) n 1 X (2) 1,..., X (2) n 2. X (m) 1,..., X (m) nm ( ) a1 a k, i = 1,..., m, p i1 p ik p j = P(X = a j ), j = 1,..., k.
Tablica frekvencija uzoraka populacija \X a 1 a 2 a k Σ 1 N 11 N 12 N 1k n 1 2 N 21 N 22 N 2k n 2............ m N m1 N m2 N mk n m Σ M 1 M 2 M k n šelimo testirati H 0 : X (1) D = X (2) D = D= X (m), tj. p ij = p j, j = 1,..., k, i = 1,..., m H 1 : i, j t.d. X (i) D X (j)
Test statistika je ista kao i prije m k (N ij ˆn ij ) 2 H = H0 A χ 2 ((m 1)(k 1)). ˆn ij i=1 j=1 R sintaksa chisq.test(x)
Test o nezavisnosti i homogenosti se provode jednako, ali imaju razli ite hipoteze. U emu je razlika? Razlika proizlazi iz dizajna eksperimenta za koji se provodi test. Kod testa nezavisnosti, uzorkovanje se vr²i tako da se iz cijele populacije bira slu ajan uzorak koji se onda klasicira po kategorijama. U tom slu aju je i broj realizacija po kategorijama slu ajan. (primjer: ispitamo ocjene na cijelom razredu, ne znamo koliko e biti primjerice petica iz matematike) Kod testa homogenosti, uzorkovanje se vr²i nezavisno po kategorijama. To zna i da je veli ina uzorka po kategorijama utvržena unaprijed. (primjer: odlu imo promatrati ocjene iz zike za 10 u enika koji imaju 1 iz matematike, 5 u enika koji imaju 2 iz matematike itd.) Ako se radi o jednostavnom slu ajnom uzorku, tada su nezavisnost i homogenost ekvivalentne.
Zadaci Zadatak 8. Neki fakultet ima etiri smjera: elektrotehnika, brodogradnja, strojarstvo i ra unarstvo. Odabran je slu ajan uzorak od 500 studenata i dobiveni podaci su dani sljede om tablicom. Ovisi li odabir smjera o spolu na razini zna ajnosti 0.05? elektroteh. brodogradnja strojarstvo ra unarstvo Σ student 100 80 70 50 300 studentica 50 50 50 50 200 Σ 150 130 120 100 500
Zadatak 9. Za obradu odreženog nastavnog gradiva primjenjene su dvije razli ite nastavne metode. Metoda M1 primijenjena je u skupini A od 100 u enika, a metoda M2 u skupini B od 200 u enika. Da bi se utvrdio u inak, svi su u enici ispitani i ocijenjeni odgovaraju om ocjenom od 1 do 5. Jesu li obje metode jednako u inkovite na razini zna ajnosti 0.05? Analizirajte o ekivane frekvencije pod uvjetom da je nulta hipoteza istinita u odnosu na opaºene frekvencije? Koja metoda daje bolje rezultate? skupina \ ocjena 1 2 3 4 5 Σ A 14 26 34 16 10 100 B 18 36 58 56 32 200 Σ 32 62 92 72 42 300
Zadatak 10. 180 ljudi ispitano je u istraºivanju kojemu je cilj odrediti postoji li povezanost izmežu pu²enja i povi²enog krvnog tlaka. Testirajte postoji li povezanost na razini zna ajnosti 0.05. nepu²a blagi pu²a te²ki pu²a Σ normalan tlak 48 26 19 93 povi²en tlak 21 36 30 87 Σ 69 62 49 180
Zadatak 11. U paketu BSDA nalazi se baza Politic koja sadrºi podatke iz ankete u kojoj su se ispitanici odlu ivali izmežu tri politi ke stranke i zabiljeºen je njihov spol. Ovisi li odabir politi ke stranke o spolu? (α = 0.05)
Zadatak 12. Provedeno je istraºivanje o rasprostranjenosti alkoholizma za etiri kategorije zanimanja posebno. Je li alkoholizam jednako rasprostranjen u navedenim populacijama? alkoholi ari nealkoholi ari Σ sluºbenici 32 268 300 nastavnici 51 199 250 menadºeri 67 233 300 trgovci 83 267 350 Σ 233 967 1200
Vježbe 5. statistički testovi ########################################################################### # t-test - Usporedba očekivanja dviju normalno distribuiranih populacija # ########################################################################### ######################################### # Nevezani uzorci ######################################### # Primjer 1. #testiramo: # H0: mu1 = mu2 # H1: mu1!= mu2 #Uočimo da su dva uzorka nezavisna, dob jednih ne ovisi o dobi drugih. Primjerice, ako su jedni stariji, ne znači da će drugi # biti stariji ili mlađi. stud <- read.table("student.txt", header=true) str(stud) attach(stud) t.test(klas, Inter, var.equal=true) # p-vrijednost veća od 0.05 -> ne odbacujemo nultu hipotezu. Na razini značajnosti 0.05 ne možemo tvrditi # da se prosječna dob razlikuje. #Ako nismo sigurni u jednakost varijanci, onda je bolje koristiti Welchovu verziju t-testa #jednostavno izostavimo var.equal=true, jer je default opcija var.equal=false t.test(klas, Inter) ######################################### # Vezani uzorci ######################################### ################# # Primjer 2. #testiramo: # H0: mu1 = mu2 # H1: mu1!= mu2 #Uočimo da podaci nisu nezavisni jedni od drugih jer očito svaki sudac ocjenjuje istu stvar. Očekujemo da ako jedan sudac # da veću ocjenu, onda će i drugi i obrnuto. To je baš karakteristika zavisnosti. Stoga moramo koristiti t-test za sparene podatke! ocjene <- read.table("ocjene.txt", header=true) str(ocjene) attach(ocjene) t.test(s1,s2,alternative=c("two.sided"), paired=true) #p-vrijednost manja od 0.05, odbacujemo H_0, i zaključujemo da se na nivou značajnosti 0.05 1
# ocjene dva suca razlikuju. #KAD BI POGREŠNO NAPRAVILI t-test za nevezane uzorke t.test(s1,s2,alternative=c("two.sided")) #ne bi odbacili H_0 - POGREŠNO! ########################################################################### # F-test - Usporedba varijanci dviju normalno distribuiranih populacija # ########################################################################### #Primjer za bazu studenti #testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2!= sigma^2 var.test(klas, Inter) #na nivou značajnosti ne odbacujemo H_0 var(klas) var(inter) ########################################################################### # Usporedba proporcija # ########################################################################### #Primjer #Radi se o usporedbi proporcija u dva dijela grada #testiramo # H0: pa = pb # H1: pa > pb #funkcija prop.test kao prvi parametar uzima vektor frekvencija, a kao drugi vektor s ukupnim brojem podataka glasovi <- c(168,96) broj <- c(300,200) prop.test(glasovi, broj, alternative="greater") #p<0.05 => odbacujemo H0 i zaključujemo da je prvi kandidat popularniji u dijelu grada A #Kasnije ćemo vidjeti da je ovo zapravo isto kao Chi^2 test za dvije populacije, ali tamo ne možemo testirati #hipoteze veće i manje. ######################################## ## ZADACI ######################################## ############### #### Zadatak 1. # 2
library(bsda) Achieve str(achieve) zenski <- Achieve$Score[Achieve$Gender==1] muski <- Achieve$Score[Achieve$Gender==2] zenski muski #ili se može iz trećeg stupca pa maknuti NA vrijednosti #zenski <- Achieve$Female[!is.na(Achieve$Female)] #Prvo testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2!= sigma^2 var.test(zenski,muski) #p-vrijednost >0.05 pa ne odbacujemo H_0. Nema dokaza da je varijanca različita. #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(zenski,muski,var.equal=true) #p-vrijednost <0.05 pa odbacujemo H_0. Prosječan rezultat razlikuje se kod muških i ženskih učenika #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(zenski,muski,alternative="greater",var.equal=true) #"greater" znači prva varijabla ima veće očekivanje od druge #p-vrijednost <0.05 pa odbacujemo H_0. Učenice imaju veći prosječni rezultat. ############### #### Zadatak 2. # Asthmati str(asthmati) attach(asthmati) #Radi se o t-testu za sparene podatke, jer su to jedni te isti pacijenti, pa svakako dva uzorka nisu nezavisna #Neka je mu1 očekivanje od Placebo i mu2 očekivanje od Drug #Testiramo hipoteze # H0: mu1 = mu2 (lijek nije djelotvoran, nema poboljšanja # H1: mu1 > mu2 (lijek je djelotvoran, smanjio se prosječni indeks težine simptoma) t.test(placebo,drug,paired=true,alternative="greater") #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da je lijek djelotvoran. 3
############### #### Zadatak 3. # Autogear str(autogear) attach(autogear) #Neka je mu1 očekivanje od A i mu2 očekivanje od B #Testiramo hipoteze # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(a,b) #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da se dvije tvornice razlikuju # u prosječnom broju neispravnih mjenjača. #testiramo jesu li varijance jednake var.test(a,b) #p>0.05 pa ne odbacujemo H_0 (jednake varijance). Dakle, ne možemo tvrditi da su varijance različite. t.test(a,b, var.equal=true) #I uz tu pretpostavku će rezultat biti isti, p-vrijednost se nezntno promjeni # Mean(B) je veći od mean(a), pa se čini da je druga tvornica lošija (veći broj neispravnih) #Sad ćemo testirati i to # H0: mu1 = mu2 # H1: mu1 < mu2 t.test(a,b, var.equal=true, alternative="less") #p<0.05, pa na nivou značajnosti 0.05 odbacujemo H0 i zaključujemo da prva tvornica ima #manji prosječan broj neipravnih mjenjača. Treba se odlučiti za prvu tvornicu. ############### #### Zadatak 4. # Blood str(blood) attach(blood) #Radi se o sparenim podacima, tlak se mjeri na istim osobama, pa uzorci nisu nezavisni. #Ako uređaj izmjeri više, za očekivati je da će i liječnik i obrnuto. #Testiramo # H0: mu1 = mu2 # H1: mu1!= mu2 t.test(machine, Expert, paired=true) #p>0.05 => ne možemo odbaciti nultu hipotezu na razini značajnosti 0.05 #Nema dokaza da se preciznost uređaja i liječnika razlikuje 4
############### #### Zadatak 5. # Bones str(bones) aktiv <- Bones$Density[Bones$group==1] neaktiv <- Bones$Density[Bones$group==2] #Testiramo # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(aktiv,neaktiv,alternative="greater") #p>0.05 pa na nivou značajnosti 0.05 ne možemo odbaciti H0, tj. nema dokaza da fizički aktivne žene imaju gušće kosti ############### #### Zadatak 6. # sjeme <- read.table("sjeme.txt", header=true) str(sjeme) sjeme attach(sjeme) #Treba testirati jesu li varijance u dva uzorka jednake ili je varijanca veća za standardno sjeme #hipoteze # H0: sigma1^2 = sigma2^2 # H1: sigma1^2 > sigma2^2 var.test(standardno, novo, alternative="greater") #p>0.05 pa ne odbacujemo H0, stoga, nema dokaza da je varijabilnost prinosa manja za novo sjeme ############### #### Zadatak 7. # #Radi se o usporedbi proporcija, svaka osoba je bernoullijeva sl. var. - ili doživi srčani udar ili ne. #Neka je p1 vjerojatnost srčanog udara za osobu na placebu i p2 za osobu na aspirinu. #Hipoteze # H0: p1 = p2 # H1: p1 > p2 su <- c(189,104) ukupno <- c(11034,11037) prop.test(su,ukupno,alternative="greater") #p<0.05 pa odbacujemo H0 na razini značajnosti 0.05. Redovno uzimanje aspirina smanjuje rizik od srčanog udara. 5
######################################## ## Kontigencijske tablice ########################################?table ocjene <- read.table("ocjenemf.txt", header=true) ocjene str(ocjene) #Funkcija koja daje kontigencijsku tablicu na osnovu niza podataka je table() #Može primiti razne argumente (data.frame, vektore i sl) kont <- table(ocjene) kont table(ocjene$mat, ocjene$fiz) kontigencijske tablice #prva varijabla će biti retci druga stupci margin.table(kont, 1) #daje marginalne frekvencije po 1-retcima, 2-stupcima margin.table(kont, 2) #Tablica relativnih frekvencija dobije se funkcijom prop.table #Zadavanjem dodatnog parametra 1 ili 2, dobiju se #uvjetne relativne frekvencije od fiz uvjetno na mat=i, odnosno od mat uvjetno na fiz=i prop.table(kont) prop.table(kont,1) prop.table(kont,2) ########################################################################### # Chi^2 test o nezavisnotsti # ########################################################################### #Primjer #Funkcija chisq.test prima kao argument kontigencijsku tablicu, ili općenito bilo koju matricu #Bitno je da su elementi nenegativni cijeli brojevi (moguće je zadati i vektore podataka, ali bolje je prije složiti kontigencijsku tablicu kont chisq.test(kont) #p<0.05 pa odbacujemo nultu hipotezu o nezavisnosti, tj. na razini značajnosti 0.05 postoji veza između #ocjena iz matematike i fizike #Warning koji dobijemo je zbog malog broja podataka po ćelijama, tada bi aproksimacija test #statistike mogla biti neprecizna. ######################################## ## ZADACI ######################################## ############### #### Zadatak 8. 6
# #Radi se o chi^2 testu nezavisnosti. Uzorak je na cijeloj populaciji, a i pitanje je postavljeno tako. #Hipoteze # H0: smjer je nezavisan o spolu # H1: postoji zavisnost #trebamo napraviti kontigencijsku tablicu. #jednostavno ćemo stavit podatke u matricu tabl <- matrix(c(100,80,70,50,50,50,50,50), byrow=true, ncol=4) tabl #(postoje brojni načini zadavanja matrice - pogledati prve vježbe) #Možemo dodati imena stupcima i retcima da dobijemo ljepši pregled colnames(tabl) <- c("elektrotehnika", "brodogradnja", "strojarstvo", "racunarstvo") rownames(tabl) <- c("student","studentice") tabl chisq.test(tabl) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir smjera ovisi o spolu na razini značajnosti 0.05. ############### #### Zadatak 9. # #Radi se o chi^2 testu homogenosti. Veličina uzorka u A i B je unaprijed određena. #I na osnovu pitanja zaključujemo da se radi o testu homogenosti. #Hipoteze # H0: distribucija ocjena je ista i kod metode A i kod metode B # H1: distribucija nije ista tabl <- matrix(c(14,26,34,16,10,18,36,58,56,32), byrow=true, ncol=5) tabl colnames(tabl) <- c("1", "2", "3", "4", "5") rownames(tabl) <- c("a","b") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Dvije metode rezultiraju različitm distribucijama ocjena, na nivou značajnosti 0.05. chisq.test(tabl)$expected #daje očekivane frekvencije, ako je H0 istinita chisq.test(tabl)$observed #tablica koju smo unijeli #idemo zaokružit te brojeve round(chisq.test(tabl)$expected) chisq.test(tabl)$observed #možemo promatrati i razlike: chisq.test(tabl)$observed - round(chisq.test(tabl)$expected) #više je boljih ocjena kof druge metode - ona je bolja. #### Zadatak 10. # 7
#Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna tabl <- matrix(c(48,26,19,21,36,30), byrow=true, ncol=3) tabl colnames(tabl) <- c("nepusac", "blagi pusac", "teski pusac") rownames(tabl) <- c("normalan tlak","povisen tlak") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Postoji veza između pušenja i krvnog tlaka. #### Zadatak 11. # #Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna library(bsda) str(politic) #Sad imamo podatke i treba nam kontigencijska tablica koju dobijemo s table() kont <- table(politic) kont chisq.test(kont) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir političke stranke ovisi o spolu. #### Zadatak 12. # #Radi se o chi^2 testu o homogenosti. Populacije se fiksno odabrane i u svakoj od njih je nezavisno provedena anketa. #Testiramo homogenost. #Hipoteze # H0: alkoholizan je jednako rasprotranjen # H1: nije jednako rasprotranjen tabl <- matrix(c(32,268,51,199,67,233,83,267), byrow=true, ncol=2) tabl colnames(tabl) <- c("alkoholičar", "nealkoholičar") rownames(tabl) <- c("službenici","nastavnici", "menadžeri", "trgovci") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Alkoholizam nije jednako distribuiran među različitim zanimanjima. 8