ANOVA Analiza varijanse (ANOVA) Analiza varijanse sa jednim faktorom Proširena ANOVA tabela 2 Tehnike za analizu podataka Analiza varijanse sa jednim faktorom Posmatra se samo jedna promenljiva Posmatra se više promenljivih istovremeno Univarijacione Multivarijacione 3 Decembar 2012 4 1
Univarijacione za analizu podataka Podaci su nemetrički (nominalna i ordinalna skala) Neparametarske statističke Podaci su metrički (intervalna i skala odnosa) Parametarske statističke - t-test - z-test Parametarske statističke Postoji samo jedan uzorak Postoje dva ili više uzoraka - t-test - z-test - ANOVA Nezavisni uzorci Zavisni uzorci - Upareni t- test 5 6 U istraživanjima kad kažemo faktorčešće mislimo na faktor u faktorskoj analizi Koncepti eksperimentalne analize na koje se pozivamo Varijabla ishoda zavisna varijabla Faktori nezavisne varijable Tretmani različiti nivoi nezavisnih varijabli, t.j. faktora Svrha većine statističkih eksperimenata je: 1. Da se utvrdi da li različiti tretmani imaju različite efekte na varijablu ishoda, i 2. Ako imaju različite efekte, onda se želi oceniti (izmeriti) ta razlika. 7 Analiza varijanse sa jednim faktorom Naziva se i jednosmerna analiza varijanse; Mere se efekti r tretmana jednog faktora na (jednu) varijablu ishoda Zatim se proverava da li postoje značajne razlike između srednjih vrednosti različitih tretmana: H 0 : µ 1 = µ 2 = µ 3 =... = µ r H a : najmanje 2 od µ 1, µ 2, µ 3,..., µ r su različiti Računa se odnos između varijanse između-tretmana i varijanse unutar-tretmana Ako je varijansa između značajno veća nego varijansa unutar, odbacuje se nulta hipoteza 8 2
Pretpostavke modela Pre početka analize se uvek formalno proverava ispunjenost pretpostavki modela: 1. Reziduali po grupama imaju normalnu raspodelu - proveravamo Kolmogorov-Smirnovljevim testom normalnosti; 2. Varijanse reziduala različitih grupa su jednake (homoskedastičnost) - proveravamo Levinovim testom homogenosti varijanse; 3. U pitanju su nezavisni slučajni uzorci. Ukupna i srednje vrednosti grupa, kao i njihova odstupanja 9 10 Varijansa između tretmana Varijansa unutar tretmana Ocena varijanse između tretmana se zasniva na varijaciji između srednjih vrednosti dobijenih za svaki nivo tretmana: SS b = n p X p X r p =1 ( ) 2, t.j.: SS b suma kvadrata između nivoa tretmana X p srednja vrednost za tretman p X ukupna srednja vrednost n p broj opservacija za tretman p r ukupan broj tretmana MSS b = SS b r 1 11 Ocena varijanse unutar tretmana se zasniva na varijaciji u okviru svakog nivoa tretmana ( neobjašnjena ): n p r SS w = ( x ip X p ) 2, t.j.: MSS w = SS w N r SS w suma kvadrata unutar tretmana X p srednja vrednost za tretman p X ip realizacija i za nivo tretmana p n p ukupan broj opservacija za tretman p r ukupan broj tretmana N ukupna veličina uzorka i=1 p =1 12 3
Ukupna, objašnjena i neobjašnjena varijansa Varijansa između tretmana se naziva i varijansom objašnjenom nivoom tretmana Varijansa unutar tretmana se naziva i varijansom neobjašnjenom nivoom tretmana Ukupna (totalna) varijacija ili totalna suma kvadrata je: SS = SS + SS t b w Izvor varijacije Objašnjena varijacija Neobjašnjena varijacija Varijacija, suma kvadrata (SS) r ANOVA tabela ( ) 2 SS b = n p X p X SS w = p =1 k r i=1 p =1 k ( x ip X p ) 2 ( ) 2 Ukupno SS t = x ip X N 1 r i=1 p =1 St. slobode Ocena (df) varijanse (MSS) F-odnos r 1 N r MSS b = SS b r 1 MSS w = SS w N r MSS b MSS w 13 14 F-statistika F = MSS b MSS w Ako bi nulta hipoteza bila istinita (nivoi tretmana nemaju značajan efekat) onda bi F-odnos trebalo da bude blizu 1; u suprotnom F-odnos ima veće vrednosti Čita se vrednost iz tablica F-rasporeda za (r-1) i (N-r) stepeni slobode Na osnovu toga se zaključuje da li postoji razlika uslovljena nivoom tretmana i za koji nivo značajnosti ova razlika postoji 15 Jačina povezanosti ρ - deskriptivni statistički pokazatelj, mera jačine povezanosti, koji predstavlja meru proporcije varijanse koja je objašnjena podacima iz uzorka : SSb ρ = SSt Vrednost ρ na bazi uzorka teži da bude pristrasna naviše, pa je bolje koristiti : ˆ ω 2 = SS b (r 1)MSS w SS t + MSS w 16 4
Primer: Koliko sati učiš nedeljno? Provera pretpostavki modela Pre početka analize se uvek formalno proverava ispunjenost pretpostavki modela: 1. Varijanse reziduala različitih grupa su jednake (homoskedastičnost) - proveravamo Levinovim testom homogenosti varijanse; 2. Reziduali po grupama imaju normalnu raspodelu - proveravamo Kolmogorov-Smirnovljevim testom normalnosti; 3. U pitanju su nezavisni slučajni uzorci. 17 18 1. Test homogenosti varijanse Nulta hipoteza je da su varijanse reziduala različitih grupa jednake, t.j. da postoji homoskedastičnost, ili homogenost varijansi, putem Levinovog testa: Logaritmovani podaci p=0,027 < α=0,05 è odbacujemo nultu hipotezu Respecifikacija varijabli putem logaritamske transformacije! 19 20 5
Ponovljeni test homogenosti varijanse 2. Kolmogorov-Smirnovljev test normalnosti Ne odbacujemo nultu hipotezu - na logaritmovanim podacima varijanse se statistički ne razlikuju; Možemo nastaviti analizu proverom ispunjenosti uslova normalnosti. Koristi se za testiranje hipoteze o normalnosti raspodele Nulta hipoteza je da varijabla prati normalan raspored, a alternativna je da ne prati Dakle, nastavićemo sa daljom analizom samo ako test pokaže da se ne odbacuje nulta hipoteza. 21 22 Ukupna i srednje vrednosti grupa, kao i njihova odstupanja Sve tri p-vrednosti su veće od 0,05, pa ne odbacujemo nultu hipotezu o normalnosti rasporele! 23 24 6
ANOVA izlazna tabela Analiza varijanse sa više faktora Na nivou značajnosti od 5% ne bismo odbacili Ho; Na nivou značajnosti od 10% bismo odbacili Ho i zaključili bismo da postoje razlike po godinama u odnosu na vreme provedeno u učenju tokom semestra. 25 26 Tehnike za analizu podataka Multivarijacione Univarijacione Decembar 2012 Posmatra se samo jedna promenljiva Posmatra se više promenljivih istovremeno Multivarijacione 27 Jedna zavisna varijabla Tehni ke z avi snosti - ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih efekata Više zavisnih varijabli - MANOVA i MANCOVA - Kanonička korelacija Tehni ke međuz avi snosti Fokus na varijablama - Faktorska analiza Fokus na predmetima posmatranja - Analiza skupina - Višedimenzionalno skaliranje 28 7
Proširena ANOVA tabela Primer dvofaktorske analize: Koliko sati učiš nedeljno? U ovom modelu postoji više varijabli tretmana (faktora) Dodavanjem nove varijable tretmana tipično se povećava objašnjeni varijabilitet Druga varijabla tretmana se naziva blok-varijabla, jer se formira jedan ili više blokova Takođe je moguće da se uključi više varijabli tretmana Interakcija Efekat interakcije znači da uticaj jednog tretmana neće biti isti za svaki nivo onog drugog tretmana Hipoteza o tome da nema interakcije se može testirati korišćenjem ANOVA tabele 29 30 Putem dvofaktorske analize varijanse u ovom primeru možemo testirati sledeće hipoteze: ne postoji razlika među polovima u odnosu na broj časova provedenih u učenju, postoji razlika među polovima u odnosu na broj časova provedenih u učenju; korišćenje Fejsbuka ne utiče na broj časova provedenih u učenju, korišćenje Fejsbuka utiče na broj časova provedenih u učenju; nema interakcije između pola i korišćenja Fejsbuka u odnosu na broj časova provedenih u učenju, postoje interakcije između pola i korišćenja Fejsbuka u odnosu na broj časova provedenih u učenju. Levinov test jednakosti varijansi reziduala p=0,021 < α=0,05 è odbacujemo nultu hipotezu Respecifikacija varijabli putem logaritamske transformacije! 31 32 8
Respecifikovane varijable (logaritmovanje) Ponovljeni test homogenosti varijanse Ne odbacujemo nultu hipotezu - na logaritmovanim podacima varijanse se statistilčki ne razlikuju. 33 34 Hipoteze koje testiramo: ne postoji razlika među polovima u odnosu na broj časova provedenih u učenju, postoji razlika među polovima u odnosu na broj časova provedenih u učenju; korišćenje Fejsbuka ne utiče na broj časova provedenih u učenju, korišćenje Fejsbuka utiče na broj časova provedenih u učenju; nema interakcije između pola i korišćenja Fejsbuka u odnosu na broj časova provedenih u učenju, postoji interakcije između pola i korišćenja Fejsbuka u odnosu na broj časova provedenih u učenju. Koje od navedenih hipoteza ćemo odbaciti, a koje nećemo? 35 36 9