Uzorkovanje
Osnovni pojmovi Populacija univerzum osnovni skup statistička masa Populacija je skup na koji želimo da vršimo generalizaciju Pojedince, stvari ili događaje koji čine taj skup nazivamo članovima populacije Potreba za uzorkovanjem nastaje onda kada je populacija nedostupna istraživaču, jer je: prevelika ili čak beskonačna, nije ograničena teritorijalno, nije ograničena vremenski... Populacija je konačna ako je omeđena: brojem članova, teritorijalno, vremenski... 2
Osnovni principi uzorkovanja Uz pomoć statistike zaključivanja nalaze dobijene na uzorku možemo generalizovati na populaciju Generalizacija ili zaključivanje sa uzorka na populaciju nikad nije potpuno tačno Statistika obezbeđuje da stepen tačnosti zaključaka bude nepristrasno izračunljiv poznat Pri tome se uzima u obzir samo uzoračka greška, odnosno varijansa uzorka, odnosno standardna greška Neuzoračka greška, generalno, nije izračunljiva 3
Reprezentativnost Da bi zaključivanje sa uzorka na populaciju bilo što tačnije, uzorak mora biti REPREZENTATIVAN Da bi bio reprezentativan, uzorak mora biti: izabran na pravi način i mora biti dovoljno velik 4
Osnovni problem uzorkovanja Osnovni problem uzorkovanja je u tome što ne znamo koje vrednosti poseduju članovi populacije na osobini koju merimo Možemo da znamo sve drugo o članovima, ali ako ne poznajemo osobinu koju merimo, moramo da: Sprovedemo popis ili Da nagađamo pomoću uzorka 5
Koji je način biranja pravi Nema jednog jedinog pravog načina biranja Postoje tri osnovna pristupa načinu uzorkovanja: Korišćenje svih raspoloživih informacija o osobini koju merimo Poznavanje distribucije osobine u populaciji Poznavanje povezanosti sa drugim osobinama... Korišćenje jednakih ili poznatih verovatnoća biranja jedinica, ako nemamo dodatnih informacija ili im ne verujemo Kombinacija prethodna dva 6
Koji je način biranja pravi Način biranja se prilagođava svrsi Prvi pristup se koristi u eksplorativnim i kvalitativnim istraživanjima kada želimo da napipamo uzroke, razloge, povezanosti... Mali namerni uzorci: tipičan slučaj, najbolji slučaj, najgori slučaj itd. Drugi pristup se koristi u deskriptivnim i konfirmativnim istr. gde su ne-generalizabilni zaključci besmisleni i gde se koriste probabilistički uzorci Treći pristup se najbolje ilustruje kvotnim ili mešovitim uzorcima 7
Nepristrasnost Ne sme postojati nikakav razlog za biranje nekog člana, a ne nekog drugog, takav da taj razlog ima veze sa pojavom koju istražujemo. Nepristrasnost je verovatno jedino pravilo koje se može smatrati univerzalnim za sve uzorke 8
Statistička nepristrasnost U statistici se smatra da je nepristrasnost optimalno obezbeđena kada je verovatnoća biranja svake jedinice unapred određena na osnovu objektivnih kriterijuma Dakle, svi članovi populacije moraju imati POZNATU verovatnoću izbora, veću od nule Najjasniji primer takvog načina izbora je prosto slučajno biranje biranje sa JEDNAKIM verovatnoćama 9
Veličina uzorka Što pojave koje se mere imaju veći varijabilitet u populaciji, to uzorak mora biti veći Što veću moć statističkog testa i viši nivo značajnosti želimo, to uzorak mora biti veći Ako koristimo kontrolne varijable, odnosno ako želimo da uzorak delimo na poduzorke po nekom kriterijumu, ukupni uzorak mora biti veći Što više ima poduzoraka koji nastaju delovanjem kontrolnih varijabli, ukupan uzorak mora biti veći. Mora se obratiti pažnja na veličinu najmanjeg poduzorka 10
Načini određivanja veličine uzorka Određivanje na osnovu beta nivoa, tj. moći testa Određivanje na osnovu alfa nivoa ili intervala poverenja U zavisnosti od posebnih tehnika. Npr. U MVA se zahteva da odnos broja ispitanika i varijabli ne bude ispod 5:1 Minimalna očekivana vrednost u kućici tabele za kontingenciju je 1, ili 2, ili 5... Za određivanje preciznosti ocenjivanja mogu se koristiti i simulacije (Monte Karlo, resampling, krosvalidacija) 11
Određivanje veličine uzorka na osnovu alfa nivoa Varijabilnost pojave u populaciji je obično nepoznata, pa se ona procenjuje i obično se uzima najveća varijabilnost Ako je varijabilnost pojave maksimalna, onda je najjednostavnija formula za izračunavanje veličine uzorka : n 1 greška 2 12
Određivanje veličine uzorka na osnovu alfa nivoa Na primer: dva predsednička kandidata imaju podjednake šanse. Da bismo predvideli pobedu jednog od njih sa marginom greške od ±3%, potreban nam je uzorak od: n 1 1 0,03 2 0,0009 1100 13
Greška tipa I Greška iz prethodnog primera je greška I tipa, odnosno α greška: predvidećemo pobedu jednog kandidata, a on neće pobediti. Greška I tipa, odnosno α greška je kada pogrešno odbacimo H 0 Do greške I tipa dolazi onda kada utvrdimo da neka pojava postoji, a ona stvarno ne postoji Greške se u statističkom zaključivanju ne mogu izbeći Možemo samo da se odlučimo za neki nivo greške koji će nam biti prihvatljiv U slučaju greške I tipa to se naziva α nivo Bez ikakvog posebnog razloga, koriste se dva nivoa: 0,05 i 0,01, odnosno 95% i 99% nivo 14
Greška tipa II Grešku II tipa, ili β grešku ćemo napraviti ako pogrešno zadržimo H 0 To znači da smo propustili da uočimo pojavu koja stvarno postoji Postoje procedure za određivanje one veličine uzorka kod koje je greška II tipa minimalna. Tradicionalno, pod statističkom greškom se obično podrazumeva α greška, ali se danas sve više ukazuje na značaj β greške 15
Moć statističkog testa (1- β ) se naziva moć testa. Moć da otkrijemo pojavu koja stvarno postoji (1- β ) nije jednaka α Greške I i II tipa su međusobno povezane, ali njihov odnos nije jednostavan i zavisi od sledećih faktora od alternativne hipoteze (jednosmerena ili dvosmerena, razlika stvarnog parametra u odnosu na nultu hipotezu) Od varijabilnosti pojave (koja uključuje i veličinu uzorka i pouzdanost merenja) Od odabranog alfa nivoa 16
Moć statističkog testa Na primer: ako je stvarna korelacija u populaciji 0,30, da bismo je otkrili sa verovatnoćom od 0,95 (1 β), a da verovatnoća lažnog otkrivanja ne bi bila veća 0,05 (α), moramo imati uzorak od najmanje 115 slučajeva (program GPower) 17
H 0, H 1, greške I i II tipa i moć 18
H 0, H 1, greške I i II tipa i moć Siva površina predstavlja nivo značajnosti za odabrani α-nivo. Na apscisi, ona definiše region odbacivanja nulte hipoteze Bela površina, na apscisi (1- α), definiše region zadržavanja Plava površina predstavlja verovatnoću greške tipa II, odnosno verovatnoću da ne uočimo pojavu koja postoji Oker bojom je označena moć statističkog testa (1- β ) ne obraćajte pažnju na sivu površinu, ona ne pripada toj distribuciji Ovo je jednostrani slučaj. Za dvostrani test treba dodati još jednu plavo/smeđu distribuciju na levoj strani. 19
Bootstrap Iz postojećeg uzorka izvlače se uzorci iste veličine, ali sa vraćanjem (WR) Okvirno, preporučuje se oko 1000 takvih uzoraka Na svakom uzorku se izračunaju potrebni statistici i sačuvaju Na kraju imamo npr. 1000 AS, koje čine distribuciju čija AS predstavlja bootstrap ocenu parametra populacije, a SD ocenu standardne greške Za bootstrap važi: populacija prema uzorku =boootstrap uzorak prema istraživačkom uzorku 20
Tipovi biranja vrste uzoraka 21
Verovatnosni (slučajni) uzorci Sprovode se na osnovu plana uzorka iz koga se unapred može izračunati verovatnoća izbora svakog člana populacije Nužan preduslov je spisak populacije ili okvir uzorkovanja Drugim rečima, slučajni uzorci se u praksi vade iz konačnih populacija To su obično razne kartoteke, spiskovi, imenici Mogu poslužiti i sami članovi populacije, ako su neposredno i lako dostupni, na jednom mestu, u istom vremenu... 22
Prosto slučajno biranje SRS Sa vraćanjem (WR) i bez vraćanja (WOR) Tabele slučajnih brojeva i generatori slučajnih brojeva ne garantuju da nema ponavljanja (daju WR) Sistematsko biranje, ako je populacija sortirana slučajno, daje u praksi SRS WOR Jednostavno je, ali ne daje najbolje rezultate ako: je populacija heterogena po merenom svojstvu (svojstvima) su subpopulacije koje su heterogene vrlo različite veličine 23
Sistematsko biranje SS Sistematsko biranje biranje po koraku Sa i bez vraćanja, cirkularno i necirkularno, sa celim i razlomljenim korakom Jedno od najčešćih biranja Ako je spisak slučajno sortiran, necirkularno SS u celini imitira SRS WOR Ako je spisak sortiran po veličini jedinice/klastera/škole (itd.) oponaša PPS Ako je spisak sortiran po stratumima, oponaša stratifikaciju (implicitna stratifikacija) Ipak, SS jeste jeftino i jednostavno, ali ne daje najtačnije ocene parametara 24
Proporcionalno biranje PPS Biranje sa nejednakim verovatnoćama Jedinice nemaju jednaku verovatnoću, nego im je verovatnoća biranja proporcionalna veličini p i = X i /X, gde je X i veličina i-te jedinice, a X veličina populacije (stratuma) Načelno, ne mora se uzeti veličina, nego može stepen prisustva bilo kog svojstva 25
Proporcionalno biranje PPS Može se kombinovati sa: Sistematskim biranjem, kada se korak odbrojava prema veličini Stratifikovanim biranjem, kada se p i =X i /X određuje u okviru svakog stratuma Jednostavno je ako je sa vraćanjem Komplikovano ako je bez vraćanja Obično se koristi u prvim etapama uzorkovanja kada se biraju klasteri/skupine 26
Stratifikovano slučajno biranje Ovo biranje garantuje pravilnu zastupljenost stratuma populacije u uzorku Što su stratumi unutar sebe homogeniji, a između sebe heterogeniji, to je preciznost stratifikovanog uzorkovanja veća Povećava preciznost (reprezentativnost) smanjuje standardnu grešku Omogućuje kontrolu veličine uzorka iz svakog stratuma Da bude dovoljan i pogodan za statističku obradu ili Da bude reprezentativan za populaciju 27
Stratifikovano slučajno biranje Proporcionalno uzorkovanje daje veličine stratuma u uzorku reprezentativne za populaciju svi stratumi imaju istu frakciju uzorkovanja Neproporcionalno biranje Obično da u uzorku budu više zastupljeni stratumi sa većom varijabilnošću optimalna stratifikacija Ili da veličina stratuma u uzorku bude jednaka, zadata... U okviru svakog stratuma može se birati jednim od već pomenutih načina Ako kriterijumi (varijable) za stratifikaciju nisu jasni, ili nisu dobri, stratifikacija nije korisna Nije korisna ni ako se stratumi ne razlikuju bitno prema osobinama koje se mere 28
Uzorak skupina i višeetapni uzorak Klaster ili zonsko biranje, uzorak skupina Odaberu se neke ustanove (klasteri), ili Opštine (zone) Pa se ispitaju svi članovi klastera-zone Višeetapno biranje Kombinacije klaster biranja, biranja po koraku i sl. Slučajno biranje telefonskih brojeva - RDD 29
Neprobabilistički uzorci Verovatnoća izbora bilo kog člana populacije nije poznata U kvalitativnim istraživanjima U kvantitativnim istraživanjima koja imaju preliminarnu (pilot istraživanja) ili eksploratornu namenu, a primena slučajnih uzoraka bi bila suviše skupa i dugotrajna, Kad god je to jedina izvodljiva mogućnost, odnosno kada slučajno biranje sa spiska nije izvodljivo Opšta sugestija: dati varijabilnosti šansu 30
Neprobabilistički uzorci Prigodno biranje Oni koji su dostupni Recimo, svi koji prisustvuju nekom skupu Izlaze sa skupa, utakmice, filma Posetioci robne kuće i sl. 31
Neprobabilistički uzorci Namerno biranje Generalno je bolje od prigodnog Biranje modalnih članova tipični članovi Biranje eksperata eksperti u nekoj oblasti, tzv. panel diskusije Heterogeno biranje biranje ekstremnih i devijantnih slučajeva Biranje lancem preporuka snowball 32
Neprobabilistički uzorci Kvotno biranje Za kvotna obeležeja ili kvotne kriterijume biramo tzv. tvrda obeležja Moramo poznavati njihovu distribuciju u populaciji Moraju biti relevantna za istraživanje Obično su to demografska obeležja: pol, starost, obrazovanje... 33
Kvotni uzorak Zastupljenost kvotnih obeležja u uzorku se odredi tako da bude kao populaciji, npr.: Kvote po starosti Muškarci Žene Ukupno 18 29 3 1 4 30 39 2 2 4 40 49 2 2 4 50 59 2 2 4 60+ 1 3 4 Ukupno 10 10 20 34
Kvotni uzorak Istraživač dobije zadatak da ispuni kvote, a pojedince bira samostalno Problemi: Tvrda obeležja nisu uvek tvrda (npr. ako se biraju na osnovu vlastitih izjava, rezultati pokazuju da su žene obično mlađe u odnosu na popis, a muškarci bogatiji) Problem vezanih kvota 35
Mešovito biranje Višeetapno biranje, koje koristi probabilističke i neprobabilističke uzorke Najčešća kombinacija: zonsko i kvotno biranje 36
Poređenje prob. i neprob. uzoraka U neprobabilističkim uzorcima se ne može izračunati verovatnoća biranja, pa ne podležu zakonima teorije verovatnoće Zbog toga se na njih ne mogu primeniti pravila statistike zaključivanja (nema S.G. i I.P.). Pošto se ne mogu izvesti statistički pokazatelji preciznosti uzorka (intervali poverenja), ne možemo izvesti ni statistički valjane zaključke. Na primer, ne možemo testirati nulte hipoteze 37
Poređenje prob. i neprob. uzoraka Međutim, prob. uzorci imaju stalne probleme: tačan spisak populacije razlika planiranog i realizovanog uzorka stopa neodgovora, etapa ispitanika i etapa anketara Tačno određivanje preciznosti: uzorci bez vraćanja i sa vraćanjem, konačne i beskonačne populacije, problem izbora pravilne formule kod složenih uzoraka... 38