3 Populacija i uzorak 1
3.1 Slučajni uzorak X varijabla/stat. obilježje koje izučavamo Cilj statističke analize na osnovi uzorka izvesti odredene zaključke o (populacijskoj) razdiobi od X 2
Primjer 3.1. (Primjer 1.2) U nekom gradu u SADu, u glasačke liste upisano je 25 000 glasača. Ispitivanjem slučajnog uzorka od 1 600 osoba želimo procijeniti postotak glasača za Demokratsku stranku (DS). Nakon ispitivanja pokazuje se da u uzorku ima 917 glasača za DS. 3
Kako biramo osobe u uzorak? jednostavni slučajni uzorak bez ponavljanja jednostavni slučajni uzorak s ponavljanjem Varijabla čija nas razdioba zanima: X = 1 ukoliko je osoba glasač za DS, inače je 0 X je indikator glasača za DS 4
Neka je: N = 25000 veličina populacije M = (nepoznata) veličina glasača za DS u populaciji p = M N = proporcija glasača za DS u populaciji Želimo procijeniti parametar p iz uzorka duljine n. 5
n = 1600 = veličina uzorka Neka su: X 1 = indikator je li 1. osoba na sl. način izabrana u uzorak glasač za DS X 2 = indikator je li 2. osoba na sl. način izabrana u uzorak glasač za DS X n = indikator je li n-ta osb. na sl. način izabrana u uzorak glasač za DS Y := X 1 + X 2 + + X n = ukupan broj (frekvencija) glasača za DS u slučajnom uzorku 6
Slučaj jednostavnog sl. uzorka s ponavljanjem Slučajne su varijable X 1, X 2,..., X n jednako distribuirane Bernoullijeve ( ) 0 1 X i, i = 1, 2,..., n 1 p p nezavisne Y B(n, p) 7
Slučaj jednostavnog sl. uzorka bez ponavljanja Slučajne su varijable X 1, X 2,..., X n Bernoullijeve (jednako distribuirane?) zavisne su. Y hipergeometrijska (N, M, n) 8
U oba slučaja je procjenitelj parametra p statistika Vrijedi: ˆp = Y n ˆp = 917 1600 = 57.3% Ako je Y B(n, p), tada: p(1 p) E[ˆp] = p, Var[ˆp] =. n Ako je Y hipergeometrijska (M, N, n), tada: E[ˆp] = p, Var[ˆp] = p(1 p) n 1 N n 1 N 1. 9
Zadatak 1. Dokažite izraze za matematičko očekivanje i varijancu hipergeometrijske razdiobe, te za pripadni procjenitelj parametra proporcije. 10
Teorem 3.1. Neka je (X N ) niz hipergeometrijskih s.v. s parametrima (N, M N, n). Ako je n konstantno i lim N M N N = p, tada lim P(X N = k) = ( n N k ) p k q n k, k {0, 1,..., n}. Interpretacija: P(X = k) ( n) p k q n k, k {0, 1,..., n}, k za velike N i M i p = M/N. 11
Zadatak 2. Dokažite teorem 3.1. 12
Primjer 3.2. Moguće je da je novčić nesimetričan. Želimo procijeniti vjerojatnost da će pasti pismo. Uzimamo uzorak duljine n na sljedeći način. Označimo sa X 1 ishod 1. bacanja novčića, sa X 2 ishod 2. bacanja, itd., sa X n ishod n-tog bacanja. Sva bacanja su bila neovisna od drugih i izvedena pod istim uvjetima. X 1, X 2,..., X n su n.j.d. s.v. 13
Bitna razlika izmedu primjera 3.1 i 3.2: U primjeru 3.1 populacija je bila konačna, a u primjeru 3.2 beskonačna. U danom kontekstu, ukoliko je populacija konačna i velika, slučajni uzorci s i bez ponavljanja su po distribuciji približno jednaki (Teorem 3.1!). 14
Definicija. Slučajni uzorak duljine n za X je niz od n nezavisnih, jednako distribuiranih slučajnih varijabli X 1, X 2,..., X n kojima je distribucija jednaka (populacijskoj) razdiobi varijable X. Realizaciju slučajnog uzorka (= opažene vrijednosti x i od X i, i = 1,..., n) zovemo uzorkom. 15
3.2 Parametar i statistika Neka je X statistička varijabla čiju populacijsku distribuciju izučavamo, te neka je X 1, X 2,..., X n slučajni uzorak za X iz te populacije. 16
Parametrom razdiobe od X nazivamo onu vrijednost (broj, vektor, graf,...) koja je funkcija populacijske razdiobe od X. Statistika je funkcija slučajnog uzorka. 17
Statistike su slučajne varijable. Njihova razdioba se zove uzoračka razdioba. Primjer 3.3. Uzoračka razdioba statistike Y iz primjera 3.1 je binomna ako se radi o jednostavnom sl. uzorku s ponavljanjem, a ako je uzorak bez ponavljanja, onda je uzoračka razdioba te iste statistike hipergeometrijska. 18
Primjer 3.4. Neka X ima normalnu populacijsku razdiobu N(µ, σ 2 ), te neka je X 1, X 2,... X n pripadni slučajni uzorak. Aritmetička sredina X := 1 n (X 1 + X 2 + + X n ) je statistika. Njena uzoračka razdioba je X N ( µ, σ2 n ). 19
3.3 Empirijska funkcija distribucije Neka je F funkcija distribucije populacijske razdiobe varijable X. Slučajni uzorak za X: X 1, X 2,..., X n Empirijska funkcija distribucije (e.f.d.) je slučajna funkcija: ˆF n ( )(ω) : R R, ω Ω t.d. je ˆF n (x) := 1 n n i=1 1 {Xi x} = #{i : X i x}, x R. n 20
Svojstva e.f.d.: 1. Za svaki fiksni x R je n ˆF n (x) B(n, F (x)) E[ ˆF n (x)] = F (x), Var[ ˆF n (x)] = 1 F (x)(1 F (x)). n 21
2. Za svaki fiksni ω Ω je x ˆF n (x)(ω) funkcija distribucije neke diskretne razdiobe. Neka je x (1) x (2) x (n) jedna uredena realizacija slučajnog uzorka. Graf... ˆF n (x) = #{i : x (i) x}. n 22
1.25 1 0.75 0.5 0.25 0 0.25 3 2 1 0 1 2 3 x (2) x (1) x (3) x (4) 23
3. Iz prethodnog grafa slijedi: sup ˆF n (x) F (x) = x R = max max{ F (x 1 i n (i) ) i 1 n, F (x (i) ) i n }. Teorem 3.2 (Glivenko-Cantelli) P (Dokaz.) ( lim n sup ˆF n (x) F (x) = 0 x R ) = 1 24
U dokazu se koristi: Borelov jaki zakon velikih brojeva Ako je X n B(n, p), n N, niz binomnih s.v., tada P ( lim n X n n = p ) = 1. 25