Populacija i uzorak
Sadržaj predavanja Šta je populacija, šta je uzorak a šta uzorkovanje? Statističko zaključivanje Klasifikacija uzoraka: sa i bez verovatnoće, sa i bez zamenjivanja Uzoračke raspodele verovatnoća Uzoračka raspodela aritmetičkih sredina uzoraka, Centralna granična teorema Uzoračka raspodela proporcija uzoraka Uzoračka raspodela varijansi uzoraka
Šta je populacija? Populacija skup svih istovrsnih elemenata (jedinica posmatranja: ljudi, objekata, dogadjaja) koji imaju neku zajedničku karakteristiku od interesa Ciljna/uzoračka populacija Ciljna populacija: skup elemenata za koji želimo da generalizujemo zaključak. Uzoračka populacija: populacija koja je dostupna i koja predstavlja ciljnu populaciju (blisko koliko je to moguće), i iz koje potiče uzorak.
Šta je uzorak? UZORAČKA POPULACIJA UZORAK Uzorak podskup osnovnog skupa (izabran na neki način) CILJNA POPULACIJA Cilj i primena u statistici: ispitivanje određene osobine i generalizacija zaključka na populaciju
Šta je uzorkovanje? Uzorkovanje Proces odabira reprezentativnog dela cele populacije. Sastavni deo istraživačke metodologije. Element, jedinica posmatranja Osnovna jedinica o kojoj se informacije sakupljaju. Reprezentativnost Reprezentativan uzorak poseduje karakteristike slične onima u populaciji. Preduslovi reprezentativnosti: 1. Način izbora statističkih jedinica u uzorak mora biti nezavisan od vrednosti posmatranog obeležja. 2. Verovatnoća statističkih jedinica da uđu u uzorak mora biti unapred poznata. Pristrasan uzorak izabran na takav način da su neke jedinice iz uzoračke populacije imale veću verovatnoću da uđu u uzorak.
Tehnike uzorkovanja Sa verovatnoćom (slučajni) Bez verovatnoće (neslučajni)
Slučajni/ Neslučajni uzorak Slučajni uzorak Slučajna selekcija jedinica. Svaka jedinica u populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uđe u uzorak. Neslučajni uzorak Nije slučajna selekcija jedinica. Nije poznata verovatnoća jedinica posmatranja u osnovnom skupu da budu izabrane za uzorak.
Prost slučajni uzorak 1. Jedinice posmatranja imaju podjednaku verovatnoću da uđu u uzorak. 2. Uključuje definisanje populacije i identifikaciju uzoračkog okvira. 3. Vremenski je zahtevno. 4. Moze biti i nemoguće dobiti kompletnu listu uzoračke populacije. 5. Izbor jedinica iz uzoračkog okvira može se uraditi uz pomoć kompjuterski generisanog procesa odabiranja ili tablice slučajnih brojeva. Uzorkovanje sa zamenom nakon što je element izabran, zamenjuje se i slučajno se odabira drugi element. Ovo može dovesti do toga da isti element bude izabran više puta. Češće se primenjuje uzorkovanje bez zamene. Obezbeđuje da, na svakom koraku, svaki element koji je preostao u populaciji ima istu verovatnoću da će biti izabran.
Zaključci o populaciji se mogu doneti...
...odabirom reprezentativnog uzorka iz populacije
Sistematski uzorak Jedinice posmatranja se biraju sa liste uzoračke populacije izborom svake K-te jedinice. K korak izbora (uzorački interval), zavisi od veličine liste I željene veličine uzorka. K = N / n, gde je N veličina uzoračke populacije, a n veličina uzorka Nakon što je prva jedinica odabrana (slučajni početak) automatski se biraju ostale. Može dati korisne informacije ako kod jedinica u uzoračkoj populaciji postoji uređenost po intenzitetu posmatrane karakteristike. Nije pogodan ako postoje ciklične varijacije posmatrane karakteristike.
Stratifikovani uzorak Primenjuje se kod heterogenih populacija u odnosu na neku varijablu npr. starosna grupa, pol, geografska lokacija (stratifikujuća varijabla). Populacija se deli na stratume iz kojih se bira slučajni uzorak. Osigurava da je svaka subpopulacija odgovarajuće zastupljena u uzorku.
podela populacije na klastere (grupe) zatim se na slučajan način biraju klasteri koji ulaze u uzorak (tako da se na slučajan način biraju grupe - klasteri, a ne individue) koristan kada je populacija velika ili geofraski široko rasprostranjena Klaster uzorak
Uzorkovanje bez verovatnoće Karakteristike uzorkovanja Elementi uzorka su odabrani na bazi sopstvene procene istraživača. Rezultati sprovođenja ovih tehnika su pristrasni. Nedostaje objektivnost u odabiru uzoraka. Uzorci nisu pouzdani. Ove tehnike su pogodne i ekonomične za korišćenje. Generalizacija zaključaka Valjanost generalizacije zaključaka sa neslučajnih uzoraka na osnovni skup ostaje nepoznata.
Tipovi uzoraka bez verovatnoće Prigodni uzorak Izbor lako dostupnih jedinica posmatranja. Kvota uzorak Podela populacije na kategorije, npr. po polu, i neslučajan odabir ispitanika iz tih kategorija prema unapred utvrđenom broju (kvota). Namerni uzorak Istraživač bira one jedinice posmatranja za koje smatra da reprezentuju osnovni skup. Koristan za pilot studije.
Proces uzorkovanja Definisati Populaciju Odrediti uzorački okvir Izabrati način uzorkovanja Uzorci sa verovatnoćom Uzorci bez verovatnoće Odrediti veličinu uzorka Pristupiti realizaciji
Parametri, statistike tj. parametri populacije i uzoračke statistike Parametri populacije su nepoznati i nepristupačni za merenje. Npr, prosečna visina muškaraca u Srbiji (18+) je nepoznata i nemerljiva Zbog toga računamo uzoračku statistiku koja se odnosi na parametar od interesa, i donosimo zaključak. 1. Parametar statistička mera date varijable u populaciji 2. Uzoračka statistika statistička mera date varijable u uzorku Statistička mera Aritmetička sredina Parametri populacije Uzoračke statistike x Varijansa 2 sd 2 Standardna devijacija sd Proporcija p
Uzoračke raspodele verovatnoća Uzoračka raspodela verovatnoća je raspodela verovatnoća neke statistike. Uzoračka raspodela verovatnoća dobija se na osnovu raspodele svih mogućih vrednosti iste statistike kreiranih u svim mogućim slučajnim uzorcima iste veličine koji su izabrani na isti način iz iste populacije.
Uzoračke raspodele verovatnoća Uzoračka raspodela uzoračkih aritmetičkih sredina Uzoračka raspodela uzoračkih proporcija Uzoračka raspodela uzoračkih varijansi Uzoračka raspodela aritmetičkih sredina, proporcija, varijansi svih uzoraka iste veličine izabranih na isti način iz iste populacije.
Kreiranje uzoračke raspodele Podaci o populaciji Veličina populacije N=4 Slučajna promenljiva, X, je starost osobe Vrednosti X su: 18, 20, 22, 24 (godina) A B C D
Kreiranje uzoračke raspodele Parametri, zbirne mere, populacione raspodele: (nastavak) μ 1 N i X i 18 20 22 4 24 21 σ 1 i ( X i N μ) 2 2.236
Kreiranje uzoračke raspodele Formirajmo sve moguće uzorke veličine n = 2 1 va 2 ga Opservacija Ops 18 20 22 24 18 18,18 18,20 18,22 18,24 16 uzoračkih aritmetičkih sredina (nastavak) 20 20,18 20,20 20,22 20,24 22 22,18 22,20 22,22 22,24 24 24,18 24,20 24,22 24,24 16 mogućih uzoraka (uzorkovanje sa vraćanjem) 1ca 2ga Opservacija Ops 18 20 22 24 18 18 19 20 21 20 19 20 21 22 22 20 21 22 23 24 21 22 23 24
Kreiranje uzoračke raspodele (nastavak) Uzoračka raspodela svih uzoračkih aritmetičkih sredina 16 uzoračkih aritmetičkih sredina 1va 2ga Opservacija Ops 18 20 22 24 18 18 19 20 21 20 19 20 21 22 22 20 21 22 23 24 21 22 23 24 P(X).3.2.1 0 _ Raspodela uzoračkih aritmetičkih sredina 18 19 20 21 22 23 24 _ X
Kreiranje uzoračke raspodele Zbirne mere uzoračke raspodele: (nastavak) E(X) 1 N X i 18 19 21 16 24 21 μ σ X 1 N (X i μ) 2 (18-21) 2 (19-21) 16 2 (24-21) 2 1.58
Poređenje populacije sa uzoračkom raspodelom p(x).3.2.1 Populacija N = 4 μ σ Uzoračka raspodela aritmetičkih sredina; n = 2 p(x).3.2.1 μ X _ σx 0 18 20 22 24 A B C D X 0 18 19 20 21 22 23 24 _ X
21 = 21 x 1,58 = 2,236 x n s X = SE n = 2,236 2 = 2,236 1, 41 =1,58 STANDARDNA GREŠKA (ARITMETIČKE SREDINE) (standardna devijacija uzoračke raspodele svih mogućih aritmetičkih sredina kreiranih u uzorcima koji su na isti način i iste veličine slučajno izabrani iz iste populacije)
Uopštavamo Ako je populacija normalno raspodeljena Normalna populaciona raspodela Normalna uzoračka raspodela sa istom aritmetičkom sredinom μ x μ x x
Uopštavamo centralna granična teorema Ako populacija nije normalno raspodeljena a uzorak je dovoljne veličine - n 30 (centralna granična teorema) Populaciona raspodela Uzoračka raspodela (postaje normalna sa porastom n) Manja veličina uzorka μ Veća veličina uzorka x μ x x
Centralna granična teorema Kada je veličina uzorka dovoljno velika n Uzoračka raspodela postaje normalna bez obzira kakva je raspodela populacije. x
Uopštavamo - Studentova t-raspodela Ako populaciona varijansa nije poznata u prethodno navedenim situacijama t = x - m sd / n sd 2 = 1 n -1 N å i=1 ( x i - x) 2 Mali uzorci a populacija je normalno raspodeljena (ili bar simetrično) William Gosset, 1908 g., pseudonim Student tipična kada je populaciona varijansa nepoznata pa se ocenjuje na osnovu uzoračkih podataka
Studentova t - raspodela Normalna raspodela t raspodela, n=2, df=1 t raspodela, n=10, df=9 t raspodela, n=30, df=29
Jedan uzorak ili mnogi? Da li uvek imamo sve moguće uzorke iste veličine izabrane na isti način iz iste populacije? NE, imamo po pravilu samo JEDAN uzorak i jasno nam je da će izračunata statistika verovatno biti različita da smo izabrali neki drugi uzorak. U tom jednom uzorku uvek smo sigurni da je SE (standardna greška) mera odstupanja/variranja aritmetičke sredine tog uzorka od aritmetičke sredine populacije. Dakle, ne trebaju nam svi mogući uzorci, dovoljan je samo jedan da bi donosili zaključke o populaciji iz koje taj uzorak potiče.
Uzoračka raspodela proporcija p je populaciona proporcija a p je uzoračka proporcija Raspodela svih mogućih uzoračkih proporcija ima binomnu raspodelu koja može da se aproksimira normalnom (CGT) kada je: np(1 p) > 9 (ili: np 5 i n(1-p) 5) p = x n m p = p s p 2 = p(1- p ) n
Uzoračka raspodela varijansi Uzoračka varijansa je: Uzoračka raspodela varijansi (s 2 ima aritmetičku sredinu σ 2 Ako je populaciona distribucija normalna tada je Ako je populaciona distribucija normalna tada promenljiva s 2 1 n 1 n i 1 m s 2 =s 2 (x s s 2 2 = 2s 4 n -1 i x) 2 ima 2 distribuciju sa n 1 stepena slobode (n-1)s 2 σ 2
p( 2 ) 2 (hi-kvadrat) raspodela uzoračka raspodela varijanse n=9 n=29 n=99 0 50 100 150 2
Inferencijalna statistika statistika zaključivanja Zaključujemo o parametrima populacije (na osnovu uzoračkih statistika, a sada znamo kako se one raspodeljuju i koliko jedan uzorak odstupa od populacije iz koje potiče). Kakav tip zaključaka donosimo?