SVEUČILIŠTE U RIJECI GRAĐEVINSKI FAKULTET U RIJECI Specijalistički diplomski stručni studij Test hipoteze o jednakosti aritmetičkih sredina K osnovnih skupova Seminarski rad Kolegij: Odabrana poglavlja inženjerske matematike Nastavnik: mr.sc. Ines Radošević, prof. Ak.god.: 2016/2017 Student: Stefan Kačuba
Sadržaj: 1.Uvod... 3 2. Analiza varijance... 4 3. Testiranje hipoteze... 5-7 4. Primjeri zadataka... 8-10 5. Popis pitanja... 11 5. Literatura... 12 2
1. Uvod Statistika je grana primijenjene matematike koja se bavi prikupljanjem i analizom podataka te interpretacijom rezultata analize uz uporabu dobro definiranih metoda. Jedna od čestih i popularnih metoda je Analiza varijance (skraćeno ANOVA). Metodu (ANOVU), kao određeni matematički model i praktičnu tehniku za istraživanje nekih bioloških fenomena, prvi je razvio i dao joj ime (eng. analysis of variance) poznati engleski statističar R. A. Fisher (1890-1962). ANOVA je specijalni slučaj linaerne regresije, koja je opet specijalni slučaj generaliziranih linearnih modela kojima je zajedničko da minimiziraju grešku modela. 3
2. Analiza Varijance Analiza varijance sastoji se od skupa postupaka kojima se raščlanjuje varijanca slučajne varijable prema izvorima varijabilnosti njezinih vrijednosti. Komponente varijance u svezi s danim izvorom podloga su za zaključivanje o njihovoj značajnosti radi objašnjenja varijabilnosti aritmetičkih sredina, odnosno prikladnosti primjenjenog statističkog modela. Podaci su vrijednosti statističke varijable dobivene na temelju slučajnog uzorka ili su realizacije statističkih procesa. Analiza varijance (ANOVA) primjenjuje se u mnogim područjima. Na temelju rezultata analize varijance, primjerice, testira se hipoteza o jednakosti aritmetičkih sredina K osnovnih skupova pomoću nezavisnih slučajnih uzoraka. ANOVA je osobito zastupljena u analizi nacrta statističkih pokusa. Pomoću pokazatelja u sklopu analize varijance testiraju se hipoteze o parametrima (varijablama) u regresijskim modelima. 4
3. Testiranje hipoteze Test hipoteze o jednakosti aritmetičkih sredina K osnovnih skupova provodi se polazeći od ovih hipoteza: = = = = =µ; Ǝ µ; j=1,2,,k. Svaki postupak testiranja polazi od nulte hipoteze i alternativne hipoteze. Sadržaj alternativne hipoteze uvijek proturiječi sadržaju nulte hipoteze. Nulta hipoteza sadrži tvrdnju da su aritmetičke sredine svih osnovnih skupova jednake sredini (konstanti) µ, a alternativna hipoteza sadrži tvrdnju da postoji barem jedan osnovni skup čija je aritmetička sredina različita od µ. Za provođenje testa na temelju slučajnih uzoraka pretpostavlja se: 1. Da je varijabla o čijoj se aritmetičkoj sredini provodi test u svakom skupu raspoređena po normalnoj distribuciji. 2. Da distribucije osnovnih skupova imaju jednake varijance, tj: = = = σ² 3. Da su uzorci izabrani iz osnovnih skupova nezavisni. Podloga za provođenje testa jesu slučajni uzorci iz K osnovnih skupova. Uzorak iz prvog osnovnog skupa je, iz drugog, ili općenito iz j-tog osnovnog skupa elemenata. S n će se označiti broj vrijednosti u svim uzorcima, odnosno n= + + + + +. Vrijednost varijable xij označuje i-tu vrijednost u j-tom uzorku. Polazna osnovica za postupak analize jest raščlamba kvadrata odstupanja vrijednosti od zajedničke aritmetičke sredine. Zajednička aritmetička sredina jednaka je omjeru zbroja vrijednosti varijable u svim uzorcima i broja tih vrijednosti. Odstupanja su dana izrazom: -, i = 1,2,,, j = 1,2, K; =, n = Odstupanje vrijednosti xij od zajedničke aritmetičke sredine može se pisati na sljedeći način: ( ) = ( ) + ( - ), =, j=1,2, K. 5
Prvi član s desne strane jednakosti predočuje odstupanje aritmetičke sredine j-tog uzorka od zajedničke aritmetičke sredine, a drugi je član odstupanje vrijednosti varijable j-tog uzorka od njegove aritmetičke sredine. Ako se navedena jednakost najprije kvadrira, a zatim zbroji, dobiva se sljedeća jednakost: = ( - ² + Može se pokazati da je međučlan kvadrata binoma s desne strane polaznog izraza jednak nuli, što slijedi iz svojstva aritmetičke sredine. S lijeve strane jednakosti je zbroj kvadrata odstupanja vrijednosti varijable u svim uzorcima od zajedničke aritmetičke sredine uzoraka. Taj se zbroj naziva ukupnim zbrojem (SST, total sum of squares). Ukupni zbroj kvadrata vezuje se s n-1 brojem stupnjeva slobode. Prvi član s desne strane jednakosti zboj je kvadrata odstupanja aritmetičkih sredina uzoraka od zajedničke aritmetičke sredine. Uz taj član vezuje se K-1 stupanj slobode. Spomenuti je član veličina pomoću koje se izračunava dio ukupne varijabilnosti koja izvire iz varijacije sredina uzoraka ( SSB ). Drugi član s desne strane jednakosti predočuje zbroj kvadrata odstupanja vrijednosti varijable iz svih uzoraka od njihove aritmetičke sredine, pa odražava varijabilnosti unutar uzoraka ( SSW ). Uz taj zbroj kvadrata vezuje se n-k stupnjeva slobode. U razvijenom je obliku izraz za ukupni zbroj kvadrata: SST = = - (T..)², T.. Razvijeni je izraz za zbroj kvadrata odstupanaja sredina uzoraka od zajedničke aritmetičke sredine: SSB = ( - )² = - (T..)², =, j = 1,2, K. U razvijenom obliku zbroj kvadrata odstupanja vrijednosti u uzorcima od njihovih aritmetičkih sredina jest razlika SST-SSB ili prema izrazu: SSW = = - 6
U navedenim izazima T je zbroj vrijednosti varijable X svih uzoraka, Tj je zbroj vrijednosti varijable j-tog uzorka. Ako se zbrojevi kvadrata podijele s pripadajućim brojem stupnjeva slobode, dobiva se sredina kvadrata ( Mean Squares ), tj: MSB = SSB/ (K-1), MSW/ (n-k). Očekivane su vrijednosti sredina kvadrata: E [MSB] = σ² +, E [MSW] = σ². Ako je nulta hipoteza istinita (aritmetičke su sredine osnovnih skupova jednake), obje će sredine kvadrata biti približno jednake, a njihov omjer približno jednak jedan. U protivnome, sredina kvadrata MSB bit će veća od sredine kvadrata MSW. Testna je veličina empirijski F- omjer, koji je dan izrazom F = MSB/MSW. Ako su ispunjene pretpostavke od kojih se polazi u testu, tada se može pokazati da je test veličina raspoređena prema F distribuciji s (K-1) i (n-k) stupnjeva slobode. Za razinu signifikantnosti α odluka se donosi usporedbom empirijskog F omjera i teorijske vrijednosti F distribucije, ili pomoću p vrijednosti. Nulta se hipoteza prihvaća na danoj razini signifikantnosti ako je F Fα, [K-1, n-k], a u protivnome se nulta hipoteza ne prihvaća. Odluka pomoću empirijske razine signifikantnosti donosi se na uobičajeni način. Tablica analize varijance sadrži sve elemente za testiranje hipoteze o jednakosti sredina K osnovnih skupova i tipično je sljedećeg oblika: Izvor varijacija razlike među uzorcima (skupinama) razlike unutar uzoraka (skupina) Stupnjevi slobode Zbroj kvadrata Sredina kvadrata K-1 SSB= ( )² MSB= SSB/(K-1) Empirijski F - omjer MSB/MSW p-vrijednost SSW= n-k MSW= - - SSW/(n-K) ukupno n-1 SST== - - - 7
4. Primjeri zadataka Primjer 1. Poznato je da napon u električnoj mreži od 220 volti ima normalnu distribuciju sa standarnom devijacijom od 6 volti. Ako je 16 nezavisnih mjerenja dalo rezultate: 208, 216, 215, 228, 210, 224, 212, 213, 224, 218, 206, 209, 208, 218, 220, 206, s razinom značajnosti 0.01 provjerite pretpostavku da je došlo do pada srednjeg napona u elektičnoj mreži. Rješenje: X ~ N (μ, 6²), n = 16 Postavljamo hipoteze: H0 : μ = 220 H1 : μ < 220 Nulta hipoteza je da je srednja vrijednost napona jednaka 220 (odnosno da je veća od te vrijednosti), dakle da nije došlo do pada napona, dok je alternativna da je srednja vrijednost napona manja od 220, odnosno da je došlo do pada napona, što je tvrdnja za koju želimo provjeriti da li vrijedi. Kad bismo kao alternativnu hipotezu uzeli H1 : μ 220, u slučaju odbacivanja nulte hipoteze H0 : μ = 220, mogli bismo zaključiti samo da srednji napon nije jednak 220, no ne bismo znali je li on veći ili manji od te vrijednosti. Računamo vrijednost test-statistike: Z = μ0 = 220, 16 = 214.6875 z = = - 3.54167 ako je Z < - ili Z > - odbacujemo H0 zα = z0.01 = 2.325 ako je - Z - ne možemo odbaciti H0 z < -z0.01 Odbacujemo nultu hipotezu H0, tj. došlo je do pada napona! 8
Primjer 2. Uzorci od 300 glasača iz županije A i 200 glasača iz županije B pokazali su da će 56% i 48% ljudi, redom, glasati za nekog određenog kandidata. Može li se, uz razinu značajnosti 0.05, zaključiti da: a) postoji razlika medu županijama b) tog kandidata više vole u ˇžupaniji A. Rješenje: n1 = 300, p1 = 0.56 n2 = 200, p2 = 0.48 H0 : p1 = p2 H1 : p1 p2 p = = = 0.528 z = = = 1.75 = = 1.96 z < ako je - Z - ne možemo odbaciti H0 Ne možemo odbaciti nultu hipotezu, tj. ne možemo zaključiti da postoji razlika među županijama. H0 : p1 = p2 H1 : p1 p2 Zα = = 1.64 z > ako je Z < - ili Z > - odbacujemo H0 Odbacujemo nultu hipotezu, tj. možemo zaključiti da kandidata više vole u županiji A. 9
Primjer 3. Bacamo simetričnu kocku. Kolika je vjerojatnost da je pao paran broj? Rješenje: Skup elementarnih događaja ovog slučajnog pokusa je: Ω = {1, 2, 3, 4, 5, 6}. Primijetimo da je kardinalni broj tog skupa Ω = 6 Označimo s A događaj čiju vjerojatnost želimo izračunati: A = {na kocki je pao paran broj}. Ako nije paran, kakav još broj može biti? Neparan, naravno. Označimo: B = {na kocki je pao neparan broj}. Budući 3 elementarna ishoda daju paran broj, tj. A = {2, 4, 6} i isto tako 3 elementarna ishoda daju neparan broj, tj. B = {1, 3, 5}, jasno je da se događaji A i B pojavljuju s jednakom vjerojatnošću, odnosno vrijedi: P(A) = P(B) = 10
5. Popis pitanja Što je Anova? Jednofaktorska analiza varijance skraćeno Anova (ANalysis Of VAriance) je test koji koristimo za usporedbu očekivanja barem dvije normalno distribuirane populacije. Kako se testiraju statističke hipoteze? Pomoću jednog ili više slučajnih uzoraka. 11
6. Literatura Knjige: Šošić, I., Primijenjena statistika, Školska knjiga,zagreb, 2004. Franjić, I,. Biostatistika ( skripta ), 2012. Web: http://digre.pmf.unizg.hr/4051/1/diplomski%20rad.pdf 12