TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI X. Testiranje hipoteza Osnovni koncepti testiranja hipoteza Unakrsno tabeliranje i hi-kvadrat Testiranje hipoteza o srednjoj vrednosti i proporcijama ANOVA Osnovni koncepti testiranja hipoteza Nulta i alternativna hipoteza Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća Izbor kritične vrednosti 3 4 1
Izbor statističkog testa i odgovarajućeg rasporeda Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.: Poređenje uzorka i populacije po određenim karakteristikama, ili Poređenje dva uzorka po određenim karakteristikama (srednje vrednosti, proporcije, varijanse,..) Različiti statistički testovi se koriste u različite svrhe, što zavisi i od: Veličine uzorka, Da li je poznata populacijska standardna devijacija. Nulta i alternativna hipoteza Cilj je da se donese sud o razlici između statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije, ili Cilj je da se donese sud o razlici između statističkih pokazatelja dva uzorka. 5 6 Izbor kritične vrednosti Nivo značajnosti, α Nivo značajnosti, α, pokazuje procenat uzoračkih realizacija koje se nalaze izvan definisanih granica Stepeni slobode Jednostrani (jednosmerni) ili dvostrani (dvosmerni) testovi Ø Ako u zadatku nije naveden nivo značajnosti, smatra se da je α=0,05 (tj. 5%). 7 8
Unakrsno tabeliranje i hi-kvadrat testovi Hi-kvadrat test nezavisnosti Mere povezanosti za nominalne varijable Hi-kvadrat test prilagođenosti 9 Pretpostavke na kojima se zasniva χ -test Da je uzorak prost slučajan uzorak; Nezavisnosti opservacija je od kritične važnosti Nezavisnost opservacija znači da je izbor i merenje obavljeno na jednom članu uzorka potpuno nezavisno od izbora ostalih članova uzorka, odnosno merenja; Ne sme da bude preklapanja kategorija (disjunktnost) i sve opservacije moraju biti uključene; Uzorak dovoljno velik Empirijsko pravilo koje se lako proverava, a koje ćemo mi koristiti, je da očekivana frekvencija u svakom polju ne sme biti manja od 5. 10 Hi-kvadrat test nezavisnosti Primenjuje se u tabelama kontingencije H 0 : Dve (nominalne) varijable su međusobno nezavisne H a : Postoji zavisnost među dvema varijablama Hi-kvadrat raspored je određen svojim stepenima slobode, v = ( r 1) ( c 1), r br.redova, c br.kolona Hi-kvadrat-statistika, χ, je mera razlike između stvarnog broja opservacija u polju i, u oznaci O i, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, E i. ( ) χ = = k Oi Ei i 1 Ei 11 Primer A Istraživanje na EF se bavilo zainteresovanošću studenata za društvenu mrežu Fejsbuk (da li student ima ili nema otvoren nalog na FB), u zavisnosti od pola studenata. Istraživanje je obavljeno na uzorku veličine n=380 studenata EF. Podaci dobijeni na uzorku su tabelirani u tabeli kontingencije. Na nivou značajnosti od 0,05, da li možemo da zaključimo da postoji povezanost između pola studenata i njihove sklonosti da imaju otvoren nalog na Fejsbuku? 1 3
Kakve su ovo varijable? Koliko imaju kategorija (nivoa)? Da li su disjunktni? Koje još informacije možemo pročitati iz tabele kontingencije? Nulta i alternativna hipoteza, Hikvadrat statistika H 0 : H a : Nema povezanosti između pola studenata EF i da li imaju otvoren nalog na Fejsbuku ili ne; Postoji povezanost između ove dve varijable. χ ( O E ) k i = i = 1 E i O, E opservirana i očekivana frekvencija u polju r, c - broj redova i kolona u tabeli kontingencije k = r c Broj stepeni slobode: v = (r 1) (c 1) i 13 14 Očekivana frekvencija (1) Računamo šta bismo očekivali da bude u tim poljima ako bi dva događaja bila nezavisna Verovatnoća složenog događaja koji se sastoji od dva statistički nezavisna događaja se računa kao proizvod verovatnoća ta dva nezavisna događaja: Očekivana frekvencija () Odnosno, očekivana frekvencija za polje muški pol/ otvoren FB nalog, bi bila: gde je n ukupan broj ispitanika. 15 16 4
Očekivana frekvencija Izlazni rezultat SPSS Opservirana frekvencija (83 93) = 93 Hi-kvadrat test Vrednost Hi-kvadrat statistike ( ) χ k O i E i = = i=1 (4 14) + 14 E i + (41 51) 51 Stepeni slobode (Degrees of freedom, df) (3 ) + = 7,887 p-vrednost p-vrednost je manja od nivoa značajnosti, t.j. 0,005<0,05, odnosno χ =7,887 > 3,83 (tablična vrednost za α=5% iz χ -raspodele sa 1 stepenom slobode), pa sledi: Ø Odbacujemo H 0 i zaključujemo da bi mogla da postoji statistički značajna povezanost između korišćenja FB i pola studenata EF. 17 18 p-vrednosti Dvostrani test Pravila koja važe za testiranje svih hipoteza preko p-vrednosti su sledeća: Ø Ako je p α, H 0 se odbacuje, odnosno Ø Ako je p > α, H 0 se ne odbacuje. Kada statistički softver prikaže p-vrednost za dvostrani test, a nama je potreban jednostrani, datu p- vrednost treba podeliti sa ; Ako je data p-vrednost za jednostrani test, a nama je potrebna dvosmerna, prikazanu p-vrednost treba pomnožiti sa. 19 0 5
Primer B Na bazi obavljenog istraživanja nad studentima EF proveriti da li postoji povezanost između stavova studenata o tome da li institucije u Srbiji dovoljno štite i poštuju ljudska prava, sa jedne strane, i da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci, sa druge strane. Studenti su na postavljena pitanja odgovarali sa da ili ne. Podatke dobijene iz uzorka koji su obrađeni na programskom paketu SPSS ilustruje tabela; koristimo α=0,05. 1 H 0 : H a : Nulta i alternativna hipoteza Nema povezanosti između dva stava kod studenata EF: 1. da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i. da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci,; Postoji povezanost između ova dva stava. Opservirana frekvencija Očekivana frekvencija Računamo Hi-kvadrat statistiku za razliku između opserviranih i očekivanih frekvencija 3 4 6
Hi-kvadrat test p=0,003, manje od α=0,05, pa se nulta hipoteza odbacuje u korist alternativne; Ø Verovatno postoji povezanost između stavova; ( Verovatno jer i dalje postoji mogućnost greške I vrste) p-vrednost Jačina povezanosti i mere povezanosti za nominalne varijable Hi-kvadrat statistika: Sumarni pokazatelj odstupanja očekivanih od opserviranih frekvencija, logična mera jačine povezanosti, ali Njena veličina je direktno proporcionalna veličini uzorka; Rezultati su validni samo ako je vrednost očekivane frekvencije u svakom polju tabele najmanje 5; Mere koje se baziraju na Hi-kvadrat statistici: Fi-koeficijent; Koeficijent kontingencije, C; i Kramerovo V. 5 6 Fi-koeficijent Nije osetljiv na veličinu uzorka; Daje informaciju o jačini povezanosti samo za tabele dimenzija x: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; Za ostale tabele nema gornju granicu; Poređenje jačine povezanosti različitih tabela je smisleno samo ako su one istih dimenzija. ϕ = χ n, ϕ = ϕ 7 Koeficijent kontingencije Vrednost uvek između 0 i 1, ali nikad 1. približava se sa povećanjem broja dimenzija. Gornja granica zavisi od broja redova i kolona. Pruža dobru informaciju o jačini veze nekog para varijabli kada one imaju jednak broj kategorija: Tada se može izračunati tačna vrednost gornje granice prema obrascu (r-1)/r, gde je r broj kolona, odnosno redova; toliko iznosi vrednost C kada postoji savršena veza. C = χ χ + n, 8 7
V = ϕ Kramerovo V = min (r 1),(c 1) χ n, min (r 1),(c 1) Daje mogućnost poređenja tabela sa različitim brojem redova i kolona; Ima vrednosti između 0 i 1, ali je sada 1 savršena povezanost i može se postići za svaki tip tabele (bez obzira da li ima jednak broj redova i kolona ili ne). ALI: teži ka jedinici sa povećanjem razlike između broja redova i kolona, čak i ako zapravo ne postoji smislena veza između varijabli. Primer C Proveriti da li je povezanost između stavova o: 1. Da li institucije u Srbiji dovoljno štite i poštuju ljudska prava (da/ne), i. Da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci (da/ne), jača kod muške ili kod ženske populacije studenata EF. Podaci su dati tabelom. 9 30 31 3 8
Mere jačine povezanosti Za tabele kontingencije dimenzija x, kao što su ove, sva 3 koeficijenta imaju definisane gornje granice i možemo da posmatramo apsolutne veličine koeficijenata; Koeficijenti imaju slične vrednosti za obe tabele: Pokazuju da je jača veza postignuta u poduzorku muške populacije; Veza nije mnogo jaka jer koeficijenti nisu ni blizu svojih gornjih granica (gornje granice su po redosledu koeficijenata u tabeli: 1; 1; i 0,5); Veza posebno slaba u ženskom poduzorku. 33 34 Hi-kvadrat test nezavisnosti Na oba poduzorka testiramo hipotezu: H 0 : nema povezanosti između dva stava studenata EF: da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci; H a : postoji povezanost između dva stava. Za ženski poduzorak, ne odbacujemo nultu hipotezu i zaključujemo da nema povezanosti između ova dva stava kod studentkinja (p=0,160 > α=0,05); Kod muškog poduzorka je drugačije (p=0,036 < α=0,05). p-vrednost 35 Hi-kvadrat test prilagođenosti Koristi se da se odredi da li populacijski raspored odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća Koristi se u obliku: χ = Broj stepeni slobode: v = (k 1). k ( Oi Ei ) i= 1 E i O i = realizacija u polju i E i = očekivana vrednosti u polju i k = broj međusobno odvojenih kategorija 36 9
Primer D Postavlja se pitanje da li je broj dolazaka studenata u čitaonicu ravnomerno raspoređen tokom radnih dana. Jedan student je svakog radnog dana dolazio u čitaonicu u isto vreme i brojao prisutne studente. Kako će testirati pretpostavku o ravnomernosti dolazaka u čitaonicu? Pretpostavićemo da svaki student ima pravo da koristi čitaonicu samo jednom nedeljno (da bi opservacije bile nezavisne, odnosno da bismo mogli koristiti Hikvadrat). Koristićemo nivo značajnosti od 1% (0,01). Empirijska raspodela za Primer D 37 38 Štapićasti dijagram za Primer D Frequency 100 80 60 40 0 0 0 1 3 4 odlasci_u_čitaonicu 5 6 Mean =.75 Std. Dev. =1.35 N =339 H 0 : H a : Nulta i alternativna hipoteza Raspodela dolaska sudenata u čitaonicu prati uniformnu raspodelu radnim danima; Raspodela dolaska sudenata u čitaonicu ne prati uniformnu raspodelu radnim danima. Testira se putem Hi-kvadrat testa prilagođenosti: χ = k ( Oi Ei ) i= 1 E i Broj stepeni slobode: v = (k 1). O i = realizacija u polju i E i = očekivana vrednosti u polju i k = broj međusobno odvojenih kategorija 39 40 10
Opservirana i očekivana frekvencija Opservirana frekvencija Očekivana frekvencija Broj stepeni slobode (degrees of freedom) Vrednost Hi-kvadrat statistike p-vrednost p=0 < 0,01, pa se odbacuje nulta hipoteza, Ø Broj odlazaka u čitaonicu radnim danom ne prati uniformnu raspodelu. 41 4 11