X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

Σχετικά έγγραφα
Uvod u neparametarske testove

numeričkih deskriptivnih mera.

NEPARAMETRIJSKE TEHNIKE

Testiranje statistiqkih hipoteza

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Uvod u neparametarske testove

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

Str

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Chi-kvadrat test. Chi-kvadrat (χ2) test

3.1 Granična vrednost funkcije u tački

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Ispitivanje toka i skiciranje grafika funkcija

Elementi spektralne teorije matrica

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

IZVODI ZADACI (I deo)

5. Karakteristične funkcije

Statističko zaključivanje - testiranje hipoteza. Katedra za medicinsku statistiku i informatiku

Izbor statističkih testova Ana-Maria Šimundić

Teorijske osnove informatike 1

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

ELEKTROTEHNIČKI ODJEL

Računarska grafika. Rasterizacija linije

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

Eliminacijski zadatak iz Matematike 1 za kemičare

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Osnovne teoreme diferencijalnog računa

III VEŽBA: FURIJEOVI REDOVI

9.1 Testovi hipoteza u statistici

Obrada signala

18. listopada listopada / 13

Računarska grafika. Rasterizacija linije

APROKSIMACIJA FUNKCIJA

Analiza varijanse (ANOVA) Analiza varijanse sa jednim faktorom ANOVA 07/12/2017. Tehnike za analizu podataka. Multivarijacione tehnike

41. Jednačine koje se svode na kvadratne

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Regresija i korelacija

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Trigonometrijske nejednačine

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

SISTEMI NELINEARNIH JEDNAČINA

Matematička analiza 1 dodatni zadaci

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Riješeni zadaci: Nizovi realnih brojeva

Zavrxni ispit iz Matematiqke analize 1

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

PRILOG. Tab. 1.a. Dozvoljena trajna opterećenja bakarnih pravougaonih profila u(a) za θ at =35 C i θ=30 C, (θ tdt =65 C)

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

7 Algebarske jednadžbe

Testiranje statističkih hipoteza Materijali za nastavu iz Statistike

POSTAVLJANJE I TESTIRANJE HIPOTEZA

3 Populacija i uzorak

POTPUNO RIJEŠENIH ZADATAKA PRIRUČNIK ZA SAMOSTALNO UČENJE

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

1 Promjena baze vektora

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Testiranje hipoteza statistika zaključivanja

Oblasti izučavanja. IX.1. Osnove analize podataka. IX. Analiza podataka UVOD U ANALIZU PODATAKA 13/11/15

Dvanaesti praktikum iz Analize 1

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Program testirati pomoću podataka iz sledeće tabele:

INTELIGENTNO UPRAVLJANJE

TRIGONOMETRIJSKE FUNKCIJE I I.1.

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Otpornost R u kolu naizmjenične struje

5 Ispitivanje funkcija

TESTIRANJE ZNAČAJNOSTI RAZLIKE

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Linearna algebra 2 prvi kolokvij,

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

SEMINAR IZ KOLEGIJA ANALITIČKA KEMIJA I. Studij Primijenjena kemija

DIMENZIONISANJE PRAVOUGAONIH POPREČNIH PRESEKA NAPREGNUTIH NA PRAVO SLOŽENO SAVIJANJE

Mašinsko učenje. Regresija.

ASIMPTOTE FUNKCIJA. Dakle: Asimptota je prava kojoj se funkcija približava u beskonačno dalekoj tački. Postoje tri vrste asimptota:

Dijagonalizacija operatora

TEORIJA BETONSKIH KONSTRUKCIJA 79

Zadaci iz trigonometrije za seminar

Konstruisanje. Dobro došli na... SREDNJA MAŠINSKA ŠKOLA NOVI SAD DEPARTMAN ZA PROJEKTOVANJE I KONSTRUISANJE

21. ŠKOLSKO/OPĆINSKO/GRADSKO NATJECANJE IZ GEOGRAFIJE GODINE 8. RAZRED TOČNI ODGOVORI

POVRŠINA TANGENCIJALNO-TETIVNOG ČETVEROKUTA

SEKUNDARNE VEZE međumolekulske veze

DODATNI MATERIJAL SA NASTAVE (2017/18)

Skup svih mogućih ishoda datog opita, odnosno skup svih elementarnih događaja se najčešće obeležava sa E. = {,,,... }

Transcript:

TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI X. Testiranje hipoteza Osnovni koncepti testiranja hipoteza Unakrsno tabeliranje i hi-kvadrat Testiranje hipoteza o srednjoj vrednosti i proporcijama ANOVA Osnovni koncepti testiranja hipoteza Nulta i alternativna hipoteza Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća Izbor kritične vrednosti 3 4 1

Izbor statističkog testa i odgovarajućeg rasporeda Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.: Poređenje uzorka i populacije po određenim karakteristikama, ili Poređenje dva uzorka po određenim karakteristikama (srednje vrednosti, proporcije, varijanse,..) Različiti statistički testovi se koriste u različite svrhe, što zavisi i od: Veličine uzorka, Da li je poznata populacijska standardna devijacija. Nulta i alternativna hipoteza Cilj je da se donese sud o razlici između statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije, ili Cilj je da se donese sud o razlici između statističkih pokazatelja dva uzorka. 5 6 Izbor kritične vrednosti Nivo značajnosti, α Nivo značajnosti, α, pokazuje procenat uzoračkih realizacija koje se nalaze izvan definisanih granica Stepeni slobode Jednostrani (jednosmerni) ili dvostrani (dvosmerni) testovi Ø Ako u zadatku nije naveden nivo značajnosti, smatra se da je α=0,05 (tj. 5%). 7 8

Unakrsno tabeliranje i hi-kvadrat testovi Hi-kvadrat test nezavisnosti Mere povezanosti za nominalne varijable Hi-kvadrat test prilagođenosti 9 Pretpostavke na kojima se zasniva χ -test Da je uzorak prost slučajan uzorak; Nezavisnosti opservacija je od kritične važnosti Nezavisnost opservacija znači da je izbor i merenje obavljeno na jednom članu uzorka potpuno nezavisno od izbora ostalih članova uzorka, odnosno merenja; Ne sme da bude preklapanja kategorija (disjunktnost) i sve opservacije moraju biti uključene; Uzorak dovoljno velik Empirijsko pravilo koje se lako proverava, a koje ćemo mi koristiti, je da očekivana frekvencija u svakom polju ne sme biti manja od 5. 10 Hi-kvadrat test nezavisnosti Primenjuje se u tabelama kontingencije H 0 : Dve (nominalne) varijable su međusobno nezavisne H a : Postoji zavisnost među dvema varijablama Hi-kvadrat raspored je određen svojim stepenima slobode, v = ( r 1) ( c 1), r br.redova, c br.kolona Hi-kvadrat-statistika, χ, je mera razlike između stvarnog broja opservacija u polju i, u oznaci O i, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, E i. ( ) χ = = k Oi Ei i 1 Ei 11 Primer A Istraživanje na EF se bavilo zainteresovanošću studenata za društvenu mrežu Fejsbuk (da li student ima ili nema otvoren nalog na FB), u zavisnosti od pola studenata. Istraživanje je obavljeno na uzorku veličine n=380 studenata EF. Podaci dobijeni na uzorku su tabelirani u tabeli kontingencije. Na nivou značajnosti od 0,05, da li možemo da zaključimo da postoji povezanost između pola studenata i njihove sklonosti da imaju otvoren nalog na Fejsbuku? 1 3

Kakve su ovo varijable? Koliko imaju kategorija (nivoa)? Da li su disjunktni? Koje još informacije možemo pročitati iz tabele kontingencije? Nulta i alternativna hipoteza, Hikvadrat statistika H 0 : H a : Nema povezanosti između pola studenata EF i da li imaju otvoren nalog na Fejsbuku ili ne; Postoji povezanost između ove dve varijable. χ ( O E ) k i = i = 1 E i O, E opservirana i očekivana frekvencija u polju r, c - broj redova i kolona u tabeli kontingencije k = r c Broj stepeni slobode: v = (r 1) (c 1) i 13 14 Očekivana frekvencija (1) Računamo šta bismo očekivali da bude u tim poljima ako bi dva događaja bila nezavisna Verovatnoća složenog događaja koji se sastoji od dva statistički nezavisna događaja se računa kao proizvod verovatnoća ta dva nezavisna događaja: Očekivana frekvencija () Odnosno, očekivana frekvencija za polje muški pol/ otvoren FB nalog, bi bila: gde je n ukupan broj ispitanika. 15 16 4

Očekivana frekvencija Izlazni rezultat SPSS Opservirana frekvencija (83 93) = 93 Hi-kvadrat test Vrednost Hi-kvadrat statistike ( ) χ k O i E i = = i=1 (4 14) + 14 E i + (41 51) 51 Stepeni slobode (Degrees of freedom, df) (3 ) + = 7,887 p-vrednost p-vrednost je manja od nivoa značajnosti, t.j. 0,005<0,05, odnosno χ =7,887 > 3,83 (tablična vrednost za α=5% iz χ -raspodele sa 1 stepenom slobode), pa sledi: Ø Odbacujemo H 0 i zaključujemo da bi mogla da postoji statistički značajna povezanost između korišćenja FB i pola studenata EF. 17 18 p-vrednosti Dvostrani test Pravila koja važe za testiranje svih hipoteza preko p-vrednosti su sledeća: Ø Ako je p α, H 0 se odbacuje, odnosno Ø Ako je p > α, H 0 se ne odbacuje. Kada statistički softver prikaže p-vrednost za dvostrani test, a nama je potreban jednostrani, datu p- vrednost treba podeliti sa ; Ako je data p-vrednost za jednostrani test, a nama je potrebna dvosmerna, prikazanu p-vrednost treba pomnožiti sa. 19 0 5

Primer B Na bazi obavljenog istraživanja nad studentima EF proveriti da li postoji povezanost između stavova studenata o tome da li institucije u Srbiji dovoljno štite i poštuju ljudska prava, sa jedne strane, i da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci, sa druge strane. Studenti su na postavljena pitanja odgovarali sa da ili ne. Podatke dobijene iz uzorka koji su obrađeni na programskom paketu SPSS ilustruje tabela; koristimo α=0,05. 1 H 0 : H a : Nulta i alternativna hipoteza Nema povezanosti između dva stava kod studenata EF: 1. da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i. da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci,; Postoji povezanost između ova dva stava. Opservirana frekvencija Očekivana frekvencija Računamo Hi-kvadrat statistiku za razliku između opserviranih i očekivanih frekvencija 3 4 6

Hi-kvadrat test p=0,003, manje od α=0,05, pa se nulta hipoteza odbacuje u korist alternativne; Ø Verovatno postoji povezanost između stavova; ( Verovatno jer i dalje postoji mogućnost greške I vrste) p-vrednost Jačina povezanosti i mere povezanosti za nominalne varijable Hi-kvadrat statistika: Sumarni pokazatelj odstupanja očekivanih od opserviranih frekvencija, logična mera jačine povezanosti, ali Njena veličina je direktno proporcionalna veličini uzorka; Rezultati su validni samo ako je vrednost očekivane frekvencije u svakom polju tabele najmanje 5; Mere koje se baziraju na Hi-kvadrat statistici: Fi-koeficijent; Koeficijent kontingencije, C; i Kramerovo V. 5 6 Fi-koeficijent Nije osetljiv na veličinu uzorka; Daje informaciju o jačini povezanosti samo za tabele dimenzija x: u intervalu je od 0 do 1, što je bliže 1 to je povezanost jača; Za ostale tabele nema gornju granicu; Poređenje jačine povezanosti različitih tabela je smisleno samo ako su one istih dimenzija. ϕ = χ n, ϕ = ϕ 7 Koeficijent kontingencije Vrednost uvek između 0 i 1, ali nikad 1. približava se sa povećanjem broja dimenzija. Gornja granica zavisi od broja redova i kolona. Pruža dobru informaciju o jačini veze nekog para varijabli kada one imaju jednak broj kategorija: Tada se može izračunati tačna vrednost gornje granice prema obrascu (r-1)/r, gde je r broj kolona, odnosno redova; toliko iznosi vrednost C kada postoji savršena veza. C = χ χ + n, 8 7

V = ϕ Kramerovo V = min (r 1),(c 1) χ n, min (r 1),(c 1) Daje mogućnost poređenja tabela sa različitim brojem redova i kolona; Ima vrednosti između 0 i 1, ali je sada 1 savršena povezanost i može se postići za svaki tip tabele (bez obzira da li ima jednak broj redova i kolona ili ne). ALI: teži ka jedinici sa povećanjem razlike između broja redova i kolona, čak i ako zapravo ne postoji smislena veza između varijabli. Primer C Proveriti da li je povezanost između stavova o: 1. Da li institucije u Srbiji dovoljno štite i poštuju ljudska prava (da/ne), i. Da li žene imaju ista prava i mogućnosti u našem društvu kao i muškarci (da/ne), jača kod muške ili kod ženske populacije studenata EF. Podaci su dati tabelom. 9 30 31 3 8

Mere jačine povezanosti Za tabele kontingencije dimenzija x, kao što su ove, sva 3 koeficijenta imaju definisane gornje granice i možemo da posmatramo apsolutne veličine koeficijenata; Koeficijenti imaju slične vrednosti za obe tabele: Pokazuju da je jača veza postignuta u poduzorku muške populacije; Veza nije mnogo jaka jer koeficijenti nisu ni blizu svojih gornjih granica (gornje granice su po redosledu koeficijenata u tabeli: 1; 1; i 0,5); Veza posebno slaba u ženskom poduzorku. 33 34 Hi-kvadrat test nezavisnosti Na oba poduzorka testiramo hipotezu: H 0 : nema povezanosti između dva stava studenata EF: da institucije u Srbiji dovoljno štite i poštuju ljudska prava, i da žene imaju ista prava i mogućnosti u našem društvu kao i muškarci; H a : postoji povezanost između dva stava. Za ženski poduzorak, ne odbacujemo nultu hipotezu i zaključujemo da nema povezanosti između ova dva stava kod studentkinja (p=0,160 > α=0,05); Kod muškog poduzorka je drugačije (p=0,036 < α=0,05). p-vrednost 35 Hi-kvadrat test prilagođenosti Koristi se da se odredi da li populacijski raspored odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća Koristi se u obliku: χ = Broj stepeni slobode: v = (k 1). k ( Oi Ei ) i= 1 E i O i = realizacija u polju i E i = očekivana vrednosti u polju i k = broj međusobno odvojenih kategorija 36 9

Primer D Postavlja se pitanje da li je broj dolazaka studenata u čitaonicu ravnomerno raspoređen tokom radnih dana. Jedan student je svakog radnog dana dolazio u čitaonicu u isto vreme i brojao prisutne studente. Kako će testirati pretpostavku o ravnomernosti dolazaka u čitaonicu? Pretpostavićemo da svaki student ima pravo da koristi čitaonicu samo jednom nedeljno (da bi opservacije bile nezavisne, odnosno da bismo mogli koristiti Hikvadrat). Koristićemo nivo značajnosti od 1% (0,01). Empirijska raspodela za Primer D 37 38 Štapićasti dijagram za Primer D Frequency 100 80 60 40 0 0 0 1 3 4 odlasci_u_čitaonicu 5 6 Mean =.75 Std. Dev. =1.35 N =339 H 0 : H a : Nulta i alternativna hipoteza Raspodela dolaska sudenata u čitaonicu prati uniformnu raspodelu radnim danima; Raspodela dolaska sudenata u čitaonicu ne prati uniformnu raspodelu radnim danima. Testira se putem Hi-kvadrat testa prilagođenosti: χ = k ( Oi Ei ) i= 1 E i Broj stepeni slobode: v = (k 1). O i = realizacija u polju i E i = očekivana vrednosti u polju i k = broj međusobno odvojenih kategorija 39 40 10

Opservirana i očekivana frekvencija Opservirana frekvencija Očekivana frekvencija Broj stepeni slobode (degrees of freedom) Vrednost Hi-kvadrat statistike p-vrednost p=0 < 0,01, pa se odbacuje nulta hipoteza, Ø Broj odlazaka u čitaonicu radnim danom ne prati uniformnu raspodelu. 41 4 11