7. glava STATISTIČKO OCENJIVANJE CILJEVI POGLAVLJA. Nakon čitanja ovoga poglavlja bićete u stanju da:

Σχετικά έγγραφα
numeričkih deskriptivnih mera.

3.1 Granična vrednost funkcije u tački

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Uvod u neparametarske testove

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Str

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Osnovne teoreme diferencijalnog računa

5. Karakteristične funkcije

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

SISTEMI NELINEARNIH JEDNAČINA

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

IZVODI ZADACI (I deo)

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Uvod u neparametarske testove

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

Testiranje statistiqkih hipoteza

Računarska grafika. Rasterizacija linije

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

Elementi spektralne teorije matrica

Teorijske osnove informatike 1

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

Populacija Ciljna/uzoračka populacija

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

III VEŽBA: FURIJEOVI REDOVI

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Ispitivanje toka i skiciranje grafika funkcija

APROKSIMACIJA FUNKCIJA

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Jednodimenzionalne slučajne promenljive

3 Populacija i uzorak

Uvod Teorija odlučivanja je analitički i sistematski pristup proučavanju procesa donošenja odluka Bez obzira o čemu donosimo odluku imamo 6 koraka za

ASIMPTOTE FUNKCIJA. Dakle: Asimptota je prava kojoj se funkcija približava u beskonačno dalekoj tački. Postoje tri vrste asimptota:

Zavrxni ispit iz Matematiqke analize 1

41. Jednačine koje se svode na kvadratne

Skup svih mogućih ishoda datog opita, odnosno skup svih elementarnih događaja se najčešće obeležava sa E. = {,,,... }

RAČUNSKE VEŽBE IZ PREDMETA POLUPROVODNIČKE KOMPONENTE (IV semestar modul EKM) IV deo. Miloš Marjanović

Računarska grafika. Rasterizacija linije

4 Numeričko diferenciranje

IZVODI ZADACI (I deo)

DODATNI MATERIJAL SA NASTAVE (2017/18)

18. listopada listopada / 13

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

Mašinsko učenje. Regresija.

Deljivost. 1. Ispitati kada izraz (n 2) 3 + n 3 + (n + 2) 3,n N nije deljiv sa 18.

Elektrotehnički fakultet univerziteta u Beogradu 17.maj Odsek za Softversko inžinjerstvo

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Riješeni zadaci: Limes funkcije. Neprekidnost

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

Operacije s matricama

NUMERIČKA INTEGRACIJA

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

SKUPOVI I SKUPOVNE OPERACIJE

Metod uzorka i karakteristike nekih planova

ELEKTROTEHNIČKI ODJEL

PID: Domen P je glavnoidealski [PID] akko svaki ideal u P je glavni (generisan jednim elementom; oblika ap := {ab b P }, za neko a P ).

4.7. Zadaci Formalizam diferenciranja (teorija na stranama ) 343. Znajući izvod funkcije x arctg x, odrediti izvod funkcije x arcctg x.

5 Ispitivanje funkcija

Univerzitet u Nišu, Prirodno-matematički fakultet Prijemni ispit za upis OAS Matematika

Prediktor-korektor metodi

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Zadaci iz trigonometrije za seminar

7 Algebarske jednadžbe

Program testirati pomoću podataka iz sledeće tabele:

RIJEŠENI ZADACI I TEORIJA IZ

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

Matematička analiza 1 dodatni zadaci

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

( , 2. kolokvij)

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

1. zadatak , 3 Dakle, sva kompleksna re{ewa date jedna~ine su x 1 = x 2 = 1 (dvostruko re{ewe), x 3 = 1 + i

Numerička matematika 2. kolokvij (1. srpnja 2009.)

9.1 Testovi hipoteza u statistici

Neka su A i B proizvoljni neprazni skupovi. Korespondencija iz skupa A u skup B definiše se kao proizvoljan podskup f Dekartovog proizvoda A B.

TRIGONOMETRIJSKE FUNKCIJE I I.1.

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

POSTAVLJANJE I TESTIRANJE HIPOTEZA

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

Riješeni zadaci: Nizovi realnih brojeva

Algebarske strukture sa jednom operacijom (A, ): Ako operacija ima osobine: zatvorenost i asocijativnost, onda je (A, ) polugrupa

Trigonometrijske nejednačine

1 Promjena baze vektora

Statističke metode. doc. dr Dijana Karuović

Ovo nam govori da funkcija nije ni parna ni neparna, odnosno da nije simetrična ni u odnosu na y osu ni u odnosu na

METODA SEČICE I REGULA FALSI

Obrada signala

SOPSTVENE VREDNOSTI I SOPSTVENI VEKTORI LINEARNOG OPERATORA I KVADRATNE MATRICE

Transcript:

STATISTIČKO OCENJIVANJE CILJEVI POGLAVLJA Nakon čitanja ovoga poglavlja bićete u stanju da: 1. razumete smisao statističkog ocenjivanja 2. shvatite razliku između tačkastih i intervalnih ocena 3. konstruišete i korektno interpretirate interval poverenja za aritmetičku sredinu i interval za proporciju skupa 4. odredite potrebnu veličinu uzorka prilikom ocenjivanja aritmetičke sredine i proporcije Statističko zaključivanje predstavlja postupak donošenja zaključaka o vrednostima parametara osnovnog skupa na osnovu informacija dobijenih iz uzorka. Statističko zaključivanje se sastoji iz statističkog ocenjivanja i testiranja statističkih hipoteza. Kao kriterijum za izbor između ocenjivanja i testiranja, tradicionalno se u literaturi koristila dostupnost informacija kojima istraživač raspolaže pre izbora uzorka. U tom smislu često se navodi preporuka koja je ilustrovana Slikom 7.1. 7. glava Slika 7.1 Oblasti statističkog zaključivanja

144 OSNOVI STATISTIKE Slika 7.1 sugeriše da se postupak statističkog ocenjivanja (eng. estimation) primenjuje kada ne raspolažemo podacima na osnovu kojih bismo mogli da pretpostavimo vrednost određene numeričke karakteristike skupa, tj. parametra. S druge strane, ako raspolažemo određenim informacijama o skupu primenićemo postupak testiranja statističkih hipoteza (eng. hypothesis testing). Mada su do nedavno posmatrane kao među sobom odvojene i ravnopravne oblasti, u poslednje vreme sve je veći broj statističara koji prednost daju ocenjivanju u odnosu na testiranje. Po njima čak i u slučaju kada se sprovede testiranje, analizi obavezno treba pridružiti rezultate ocenjivanja. U sledećem poglavlju upoznaćemo se sa razlozima zbog kojih je došlo do ove promene mišljenja. Oba navedena metoda statističkog zaključivanja sprovode se korišćenjem informacija iz uzorka. Najčešće se kao predmet ocenjivanja i testiranja javljaju aritmetička sredina, proporcija i varijansa skupa. Budući da je uzorak samo deo skupa, a potrebno je doneti odluku o čitavom skupu, u statističkom zaključivanju se uvek javlja mogućnost greške. Preciznije rečeno, nikada na osnovu uzorka ne možemo doneti stav o skupu u koji ćemo 100% biti sigurni. Dakle, prava vrednost nepoznatog parametra u statistici (osim ukoliko se ne sprovede popis) uvek će ostati nepoznata. Zbog toga zaključke ocenjivanja i testiranja moramo veoma pažljivo formulisati, kako bismo uvek uključili mogućnost greške. Statističko zaključivanje ima smisla sprovoditi samo ako je uzorak slučajan, ili ako je istraživač uveren da je uzorak reprezentativan. Ovo poslednje smo naveli jer je u praksi (na primer u medicini i farmaciji) najčešće nemoguće izabrati slučajan uzorak korišćenjem tablica slučajnih brojeva, ili kompjuterskih generatora slučajnih brojeva. Razlog je jednostavan istraživač ne raspolaže listom svih elemenata skupa, odnosno svim pacijentima koji boluju od određene bolesti. 7.1 OCENE I NJIHOVE OSOBINE Pretpostavimo da nas interesuje prosečna ocena iz statistike svih studenata prve godine na ekonomskim fakultetima u Srbiji koji su studiranje otpočeli po Bolonjskoj deklaraciji. Budući da je a) teško doći do podataka za sve studente i b) do sada nikakvo istraživanje ovakve vrste nije sprovedeno, opredelićemo se za postupak statističkog ocenjivanja. Šta je skup, a šta parametar u ovom primeru? Osnovni skup sačinjavaju sve ocene studenata prve godine iz statistike na ekonomskim fakultetima, koji studiraju u skladu sa Bolonjskom deklaracijom. Parametar je aritmetička sredina skupa, jer se traži prosečna ocena. Postavlja se pitanje kako da, u nedostatku podataka o ocenama svih studenata, dođemo do što je moguće preciznije informacije o prosečnoj oceni u skupu?

POGLAVLJE 7 Statističko ocenjivanje 145 Osnovni princip statističkog zaključivanja sastoji se u tome da iz osnovnog skupa izaberemo njegov reprezentativni deo i da na osnovu tog dela formulišemo zaključak koji će važiti za čitav skup. Bitno je uočiti da takav zaključak neće biti proizvod pukog nagađanja, već će biti zasnovan na primeni teorije verovatnoća, dakle naučno fundiran. Pretpostavimo da smo izabrali prost slučajan uzorak od 100 studenta i da smo došli do podataka o njihovim ocenama iz statistike. Postavlja se pitanje koji pokazatelj uzorka, tj. koja statistika uzorka će dati najbolju informaciju o prosečnoj oceni svih studenata u skupu? Da li da se opredelimo za prosek, medijanu, ili možda modus uzorka? Intuicija nam sugeriše da treba odabrati prosek uzorka. Kao što ćemo kasnije videti, statistička teorija to potvrđuje: ako je osnovni skup normalan ili ne odstupa znatno od normalnog rasporeda najbolje je prosek u skupu ocenjivati na osnovu proseka uzorka. Pretpostavimo dalje, da aritmetička sredina našeg uzorka iznosi x = 7. Tada bismo mogli grubo da prihvatimo da i prosečna ocena svih studenata u osnovnom skupu iznosi 7. Na ovaj način, generalno, nepoznati parametar ocenjujemo jednim brojem, odnosno jednom tačkom na numeričkoj skali. Usled toga, u opštem slučaju, ovakve ocene nazivamo tačkastim ocenama. Međutim, ako bismo uzeli drugi uzorak od 100 studenata dobili bismo neku drugu prosečnu ocenu u njemu, jer bi se elementi uzorka razlikovali, a samim tim i aritmetičke sredine. Generalno, različiti uzorci iz istog osnovnog skupa davaće različite aritmetičke sredine, koje će se po pravilu manje ili više razlikovati od proseka skupa. Ako bi se statističko ocenjivanje svelo samo na tačkastu ocenu, tada bismo uvek znali da se naša ocena razlikuje od parametra za neki iznos, ali ne bismo mogli da odredimo veličinu greške; dakle, tačkasta ocena je po pravilu netačna. Zbog toga se u statistici parametri skupa najčešće ocenjuju intervalom vrednosti koji formiramo oko realizovane vrednosti statistike uzorka (tj. tačkaste ocene). Ključna prednost ovakve ocene je što nam daje mogućnost da formiramo interval koji će uz unapred izabrani rizik obuhvatiti nepoznati parametar. Tako, na primer, možemo tvrditi da interval [6,8;7,2] sadrži pravu vrednost prosečne ocene u skupu, uz rizik greške od 5%. Dakle, kao što uočavamo, ocene parametara populacije mogu biti tačkaste i intervalne. Objasnimo sada u čemu je razlika između parametara i ocena. Parametri skupa su neki, nama nepoznati brojevi, i to fiksni brojevi, odnosno konstante. Na primer, prosečna ocena svih studenata iz statistike jednaka je nekoj vrednosti, koja se u momentu posmatranja ne može promeniti. Parametre skupa ocenjujemo na osnovu odgovarajuće statistike uzorka, koja se naziva tačkasta ocena. Da li je tačkasta ocena isto konstanta? Odgovor je negativan, jer ocene od uzorka do uzorka uzimaju različite vrednosti. Kako je pre uzimanja uzorka nemoguće predvideti konkretnu vrednost ocene, zaključujemo da su ocene slučajne promenljive. Nakon što smo odabrali uzorak možemo izračunati konkretnu, tj. realizovanu vrednost ocene. Takva vrednost, u opštem slučaju, se naziva ocenjena vrednost. Jasno je da će ocenjena vrednost za

146 OSNOVI STATISTIKE konkretni uzorak uvek biti jednaka nekom broju; dakle ocenjene vrednosti su konstante, kao i parametri. U skladu sa različitom "statističkom prirodom" parametra, ocena i ocenjenih vrednosti, u statistici je uobičajeno da se za svaku od njih uvedu posebne, prepoznatljive, oznake. Poznato nam je da se parametri označavaju grčkim slovima. Ocene ćemo u ovoj knjizi označavati velikim slovima latinice, a ocenjene vrednosti malim slovima. Na primer, aritmetičku sredinu skupa označavaćemo sa μ, njenu tačkastu ocenu sa, a ocenjenu vrednost sa x. U Tabeli 7.1 se nalazi pregled parametara populacije i njihovih ocena. Tabela 7.1 Parametri skupa i njihove ocene Parametar populacije (konstanta) Ocena parametra populacije (slučajna promenljiva) Ocenjena vrednost parametra populacije (konstanta) Aritmetička sredina μ x Proporcija π P r p Standardna devijacija σ S S Intervalna ocena parametra populacije dobija se kao interval vrednosti formiran oko odgovarajuće statistike uzorka. Kao što ćemo videti, interval se konstruiše na takav način da on sa određenom verovatnoćom obuhvata vrednost parametra osnovnog skupa. Naziva se još interval pouzdanosti, ili interval poverenja (eng. confidence interval). Ovaj interval bi trebalo da bude dovoljno širok da obuhvati pravu vrednost parametra, ali istovremeno ne suviše širok jer bi u tom slučaju bio neprecizan, a samim tim i nedovoljno informativan. Šta bi nam, na primer, značio zaključak da se prosečna ocena iz statistike nalazi između 6 i 10? S druge strane, ako bismo formirali suviše uzak interval, postojala bi realna šansa da on ne obuhvati pravu vrednost parametra skupa, odnosno, porastao bi rizik da je doneseni zaključak pogrešan. Potrebno je, dakle, formirati relativno uzak interval, a istovremeno minimizirati rizik greške. Na osnovu rezultata teorije verovatnoće, veličinu ovog rizika možemo da kontrolišemo ukoliko koristimo slučajan uzorak. U daljem izlaganju ćemo se baviti prvenstveno intervalnim ocenama. Koristićemo ih za ocenjivanje aritmetičke sredine i proporcije skupa, a u ocenjivanju varijanse skupa zadržaćemo se na njenoj tačkastoj oceni. 7.1.1 Osobine ocena Kao što smo videli prilikom ocenjivanja parametara skupa moguće je koristiti različite statistike. Da bismo izabrali najbolju moguću ocenu moramo se upoznati sa njihovim osobinama. Najznačajnije karakteristike ocena su nepristrasnost, efikasnost, konzistentnost i dovoljnost.

POGLAVLJE 7 Statističko ocenjivanje 147 Nepristrasna ocena Ocena parametra skupa je nepristrasna ako je njena očekivana vrednost jednaka parametru tog skupa tj. ako je E( θ ) = θ, gde smo sa θ obeležili nepoznati parametar skupa, a sa θ (čitamo " theta kapa") njegovu tačkastu ocenu. Dakle, iz nekog skupa potrebno je je odabrati sve moguće uzorke iste veličine i kod svakog od njih izračunati ocenjenu vrednost parametra. Ako je prosek svih tih ocenjenih vrednosti ujedno jednak parametru skupa, tada za takvu ocenu kažemo da je nepristrasna. U prethodnom poglavlju smo videli da je prosek aritmetičkih sredina uzoraka uvek jednak aritmetičkoj sredini skupa: E ( ) = μ, što znači da je uvek nepristrasna ocena parametra μ. Ista osobina važi i za 2 2 proporciju uzorka ( EP ( r ) = π ) i za varijansu uzorka ( ES ( ) = σ ). Da li je medijana uzorka nepristrasna ocena aritmetičke sredine skupa? U statistici je pokazano da to zavisi od oblika rasporeda skupa. Od ranije nam je poznato da kod normalnog ili simetričnog skupa aritmetička sredina ima istu vrednost kao i medijana. Zato će u tom slučaju i medijana uzorka biti nepristrasna ocena ne samo medijane skupa, već istovremeno i njegove aritmetičke sredine. tj. E (M e )=μ. Za ocenu parametra populacije koja nije nepristrasna kažemo da je pristrasna, a veličinu njene pristrasnosti merimo razlikom E( θ ) θ. Ukoliko je ova razlika negativna, za ocenu parametra kažemo da je pristrasna "naniže", a ako je ova razlika pozitivna za ocenu kažemo da je pristrasna "naviše". U prvom slučaju ocena u proseku potcenjuje stvarnu vrednost parametra, dok je u drugom slučaju u proseku precenjuje. Ako bi varijansu uzorka računali na analogan način kao što se izračunava varijansa skupa, po sledećoj formuli: 1 S ( ), n 2* 2 = i n i= 1 ona ne bi zadovoljila uslov nepristrasnosti. Naime, može se pokazati da je 2* 2 ES ( ) < σ, jer je varijabilitet u većini uzoraka manji od varijabiliteta u osnovnom skupu, pa je prosek varijansi uzoraka (veličine n) manji od σ 2. Sada možemo shvatiti zašto se varijansa uzorka ne izračunava deljenjem sume kvadrata sa n: tako formulisana varijansa uzorka bila bi pristrasna ocena varijanse skupa i u proseku bi potcenjivala njenu vrednost. Razlog zašto se deli baš sa n-1 objasnićemo u Odeljku 7.3.

148 OSNOVI STATISTIKE Na slici 7.2 su prikazani rasporedi verovatnoće nepristrasne (a) i pristrasne ocene (b). Vidimo da je očekivana vrednost nepristrasne ocene jednaka parametru, dok se očekivana vrednost pristrasne ocene razlikuje od njega 1. a) b) Efikasna ocena Slika 7.2 Rasporedi verovatnoće nepristrasne i pristrasne ocene Druga poželjna osobina ocena parametara populacije je osobina efikasnosti. Ona se odnosi na preciznost neke ocene i važi samo u slučaju da je takva ocena ujedno i nepristrasna. Kažemo da je jedna nepristrasna ocena efikasnija od druge ako je njena varijansa, odnosno standardna greška manja, za istu veličinu uzorka. Na Slici 7.3 su prikazani rasporedi verovatnoće dve nepristrasne ocene, 1 θ i θ 2. Ocena θ 1 je efikasnija od θ 2 jer njene vrednosti u proseku odstupaju manje od parametra θ. Slika 7.3 Poređenje varijabiliteta dve nepristrasne ocene 1 Napomenimo da je medijana uzorka pristrasna ocena aritmetičke sredine skupa, ako skup ima asimetričan raspored. Što se tiče standardne devijacije uzorka, intuicija nam govori da bi ona trebalo da bude nepristrasna ocena standardne devijacije skupa. Međutim, ovo je tipičan primer gde se na intuiciju u statistici ne bi trebalo previše oslanjati; standardna devijacija uzorka je pristrasna ocena standardne devijacije skupa, čak i kada se suma kvadrata deli sa n-1 umesto sa n.

POGLAVLJE 7 Statističko ocenjivanje 149 Za ocenjivanje aritmetičke sredine skupa (μ) koji ima normalan ili simetričan raspored, pored aritmetičke sredine uzorka ( ) možemo koristiti i medijanu uzorka (M e ). Koja od ove dve nepristrasne ocene je efikasnija, tj. varira manje od uzorka do uzorka? U statistici je pokazano da je kod normalno raspoređenog osnovnog skupa za 57% efikasnija ocena od M e, ukoliko se koriste veliki uzorci 2. Konzistentna ocena Ocena parametra skupa je konzistentna ako sa povećanjem veličine uzorka ona teži tom parametru. Kako se n povećava, to se realizovane vrednosti ocene u uzorcima sve više koncentrišu oko prave vrednosti parametra populacije, a za n poklapaju se sa njegovom vrednošću. Tako, na primer, je konzistentna ocena aritmetičke sredine μ. Na slici 7.4 a) je prikazan njen raspored verovatnoće. Sa grafika se uočava da je ona nepristrasna, a sa povećanjem veličine uzorka njena varijansa σ 2 teži nuli, tj. realizovane vrednosti x u uzorcima teže da se izjednače sa μ. a) b) Slika 7.4 Nepristrasna i pristrasna konzistentna ocena Varijansa uzorka S 2 je konzistentna ocena varijanse skupa, σ 2. Međutim, i 2* ocena S poseduje svojstvo konzistentnosti. Dakle, konzistentna ocena ne mora biti i nepristrasna. Na Slici 7.4 b) je prikazan raspored verovatnoće ocene 2* S. Sa grafika se vidi da je ocena pristrasna, ali istovremeno sa povećanjem n njena pristrasnost se smanjuje. 2 Ovo praktično znači sledeće: prilikom ocenjivanja parametra µ, isti nivo preciznosti postižemo kada intervalnu ocenu formiramo na osnovu aritmetičke sredine uzorka od 100 elemenata, kao i kada je formiramo na osnovu medijane uzorka od 157 elemenata.

150 OSNOVI STATISTIKE Dovoljna ocena Ocena parametra je dovoljna ako koristi sve informacije iz uzorka. je dovoljna ocena aritmetičke sredine skupa, jer zavisi od vrednosti svih elemenata uzorka. To znači da ako se u uzorku promeni bilo koja vrednost, promeniće se i vrednost aritmetičke sredine. Takođe, proporcija uzorka, P r, predstavlja dovoljnu ocenu proporcije skupa. Međutim, medijana uzorka, M e, nije dovoljna ocena parametra μ, jer ona kao poziciona srednja vrednost ne zavisi od vrednosti svih elemenata uzorka. 7.2 INTERVAL POVERENJA ZA ARITMETIČKU SREDINU SKUPA μ KADA JE POZNATA STANDARDNA DEVIJACIJA SKUPA σ Da bismo objasnili logiku koja važi kod određivanja svakog intervala poverenja poći ćemo od najjednostavnijeg slučaja. Pokazaćemo kako se formira interval poverenja za aritmetičku sredinu skupa, μ. Pri tome ćemo pretpostaviti da je statistički skup normalno raspoređen i da je standardna devijacija skupa, σ, poznata. Ako iz normalno raspoređenog skupa biramo proste slučajne uzorke, onda, kao što znamo, statistika ima normalan raspored sa aritmetičkom sredinom μ i standardnom devijacijom σ. Na osnovu osobine normalnog μ rasporeda, za standardizovanu promenljivu Z = važi: σ iz čega dobijamo: μ P( 1,96 1,96) = 0,95, σ P( μ 1,96σ μ+ 1,96 σ ) = 0,95. Dakle, verovatnoća da će se vrednost statistike naći u intervalu [ μ 1,96 σ, μ + 1,96 σ ] jednaka je 0,95. To znači da 95% slučajnih uzoraka ima aritmetičku sredinu koja se nalazi u intervalu (7.2) (videti Sliku 6.6). Samim tim, pre izbora slučajnog uzorka možemo biti 95% sigurni da ćemo izabrati jedan od uzoraka čija aritmetička sredina,, odstupa od μ za najviše 1,96σ. Pošto je odstupanje od parametra μ jednako odstupanju μ od, sledi da smo i 95% sigurni da će se aritmetička sredina populacije μ naći u intervalu: (7.1) (7.2) [ 1,96σ, + 1,96σ ]. (7.3)

POGLAVLJE 7 Statističko ocenjivanje 151 Drugim rečima, ako bismo izvukli sve moguće uzorke veličine n, i na osnovu aritmetičke sredine svakog uzorka formirali interval (7.3), onda bi 95% intervala sadržalo aritmetičku sredinu populacije; ipak, u 5% slučajeva vrednost μ bi se našla van formiranog intervala (7.3). Na Slici 7.5 prikazano je devet intervala, među kojima jedan ne sadrži μ. Slika 7.5 Raspored i postupak određivanja intervala poverenja za μ sa pouzdanošću od 95% Međutim, u praksi ocenjivanje sprovodimo na osnovu samo jednog slučajnog uzorka i njegove aritmetičke sredine, x, oko koje formiramo interval (7.3). Zbog slučajnih kolebanja uzoraka i mogućnosti greške, ne znamo da li ćemo dobiti korektan interval poverenja. Postoji mogućnost da interval ne sadrži tačnu vrednost parametra. Zbog toga pri ocenjivanju parametra μ ne možemo biti 100% sigurni u tačnost zaključka. U ovom slučaju sa pouzdanošću od 95% tvrdimo da se μ nalazi u intervalu (7.3), odnosno, prihvatamo rizik od 5% da on neće sadržati vrednost parametra μ. Drugim rečima, postoji mogućnost da u proseku na osnovu jednog od 20 uzoraka napravimo grešku i da interval (7.3) ne obuhvati nepoznati parametar. Interval [ x 1,96σ, x + 1,96σ ] predstavlja 95%-tni interval poverenja za aritmetičku sredinu populacije μ. PRIMER 7.1: Pretpostavimo da iz normalno raspoređenog osnovnog skupa biramo uzorak veličine n=9, u cilju ocene aritmetičke sredine skupa, sa

152 OSNOVI STATISTIKE pouzdanošću od 95%. Neka je poznato da je standardna devijacija skupa σ =6, a dobijena vrednost aritmetičke sredine u izvučenom uzorku x = 59. Zamenom ovih vrednosti u (7.3) dobijamo interval 59 1,96 6 /3 μ 59 + 1, 96 6 /3 55, 08 μ 62, 92. Sa pouzdanošću od 95% tvrdimo da je aritmetička sredina osnovnog skupa jednaka jednoj vrednosti iz intervala [55, 08; 62, 92]. U opštem slučaju, nivo pouzdanosti (nivo poverenja) se obeležava sa (1 α ) 100%, gde je α rizik greške, odnosno verovatnoća da interval neće sadržati nepoznati parametar. Vrednost 1-α, koja nije izražena u procentima, se naziva koeficijent pouzdanosti. Izbor nivoa pouzdanosti U praksi se nepoznata aritmetička sredina populacije najčešće ocenjuje sa pouzdanošću od 95%, odnosno, za konstrukciju intervala poverenja koristimo tabličnu vrednost z=1,96. Osnovni razlog je što se ovim izborom istovremeno obezbeđuje relativno visoka pouzdanost i dobija relativno uzak interval. Pokažimo kako se određuje tablična vrednost za bilo koji nivo pouzdanosti. Sa promenom koeficijenta pouzdanosti, (1-α), menjaće se i vrednost z u jednačini (7.1). Označimo tu vrednost sa z α /2 i zamenimo je u (7.1): odakle rešavanjem dobijamo: odnosno: P( z Z z ) = 1, α/2 α/2 α 2 Fz ( α /2 ) 1= 1 α, Fz ( α /2 ) = 1 α /2. (7.5) Vrednost u indeksu α/2 ukazuje da se rizik α raspoređuje simetrično na krajeve rasporeda, po α/2, tako da je površina između z i z jednaka 1. α/2 α/2 α Izračunajmo z α /2 za 99% interval poverenja. Budući da je (1-α) 100%=99%, sledi da je α=0,01, odnosno, α/2=0,005. Na osnovu (7.5), sledi da je Fz ( α /2) =0,995, za koju u Tablici 1 nalazimo vrednost z α /2 =2,57. Interval poverenja za aritmetičku sredinu populacije, za nivo pouzdanosti od (1-α) 100%, kada je poznata standardna devijacija populacije σ, a populacija je normalno raspoređena, je u opštem slučaju oblika: [ x z σ, x+ z σ ] (7.6) α/2 α/2 (7.4) Rezultat koji smo naveli odnosi se na izbor uzoraka iz beskonačnih skupova ili na izbor uzoraka sa ponavljanjem iz konačnih skupova. Ukoliko, pod gore navedenim pretpostavkama slučajnim putem biramo uzorke veličine

POGLAVLJE 7 Statističko ocenjivanje 153 n (bez ponavljanja) iz konačnih skupova veličine N, tada aritmetičku sredinu, sa pouzdanošću (1-α) 100%, ocenjujemo primenom sledećeg intervala: x N n z σ, α /2 n N 1 x N n + z σ ], α n N 1 [ /2 (7.7) ako je stopa izbora veća od 0,05. Pošto je standardna greška aritmetičkih sredina uzoraka bez ponavljanja (izabranih iz konačnih skupova) manja od standardne greške aritmetičkih sredina uzoraka izabranih iz beskonačnih skupova, za istu veličinu uzorka i isti nivo pouzdanosti dobijamo uži interval poverenja aritmetičke sredine skupa. Postupak statističkog ocenjivanja je prikazan sledećim dijagramom. Postupak statističkog ocenjivanja 1. Na osnovu postavljenog problema određuje se parametar koji se ocenjuje i bira nivo pouzdanosti, (1-α) 100%. 2. Uzima se slučajan uzorak, bira odgovarajuća statistika uzorka tj. tačkasta ocena parametra i izračunava njena realizovana vrednost. 3. Proverava se da li su ispunjene pretpostavke na kojima se zasniva statističko ocenjivanje i postavlja se interval poverenja. 4. Izračunava se interval poverenja. 5. Formuliše se zaključak u kontekstu postavljenog problema. Dijagram 7.1 Etape u statističkom ocenjivanju PRIMER 7.2: U banci "Commonwealth" jednog dana je obavljeno ukupno 300 transakcija čija je vrednost (u dolarima) normalno raspoređena. U slučajnom uzorku od 4 transakcije, koje su obavljene toga dana, prosečna vrednost je iznosila 178 dolara. Na osnovu istraživanja prethodnih meseci, poznata je standardna devijacija osnovnog skupa, koja iznosi 16 dolara. Sa pouzdanošću od 95% ocenite prosečan iznos transakcija koji je obavljen pomenutog dana u toj banci. Postupak statističkog ocenjivanja sprovodimo po etapama prikazanim u dijagramu 7.1.

154 OSNOVI STATISTIKE Etapa 1. U ovoj etapi najpre određujemo parametar populacije koji treba oceniti. U našem primeru to je aritmetička sredina statističkog skupa. Traženi nivo pouzdanosti iznosi 95%, tj. 1 α = 0,95, pa je α = 0,05. Etapa 2. Tačkasta ocena aritmetičke sredine skupa je, a njena realizovana vrednost u već izabranom uzorku iznosi x = 178. Etapa 3. Na osnovu raspoloživih informacija: 1) osnovni skup ima normalan raspored i 2) σ je poznata (σ=16 dolara), ocenjivanje sprovodimo primenom Z rasporeda, tj. interval poverenja za aritmetičku sredinu populacije je oblika: [ x z α /2σ, x+ z α /2σ ]. Etapa 4. Za 1 α = 0,95, F( z α /2) = 1 α /2 =1-0,025=0,975, pa u Tablici 1 nalazimo da je z α /2 = 1,96. Zamenom vrednosti iz našeg primera dobijamo: 16 16 178 1,96 μ 178 + 1,96, 4 4 odnosno: 162, 32 μ 193,68. Etapa 5. Sa pouzdanošću od 95% zaključujemo da se prosečan iznos transakcija koji je obavljen pomenutog dana u banci nalazi u intervalu od 162,32 dolara do 193,68 dolara. Ocenjivanje agregata U primeru 7.2 pored prosečne vrednosti transakcija pomenutog dana, važan podatak za banku predstavlja i ukupna vrednost obavljenih transakcija. Ovu agregatnu veličinu ocenjujemo na osnovu ocenjene prosečne vrednosti. Budući da je μ = x i / N, ukupna vrednost iznosi: N xi i= 1 = μ N. Kako smo parametar μ ocenili intervalom vrednosti, sledi da i agregatnu veličinu možemo oceniti intervalom. Interval poverenja agregata, za nivo pouzdanosti od (1-α) 100%, je: [( x z σ ) N, ( x+ z σ ) N] α/2 α/2 (7.8) Pošto smo sa pouzdanošću od 95% zaključili da se prosečna vrednost transakcija obavljenih u banci pomenutog dana nalazi u intervalu 162, 32 μ 193,68, onda sa istom pouzdanošću tvrdimo da se ukupna vrednost istih transakcija (u dolarima) nalazi u intervalu: 48696 UV 58104.

POGLAVLJE 7 Statističko ocenjivanje 155 Pravilna interpretacija intervala pouzdanosti Svaki interval pouzdanosti u statistici dobija se na osnovu ocene parametra i proizvoda odgovarajuće tablične vrednosti i standardne greške. Generalno, izraz za bilo koji interval pouzdanosti glasi [ocena - tablična vrednost standardna greška, ocena + tablična vrednost standardna greška] Dobijeni interval pouzdanosti obavezno mora da se interpretira na korektan, probabilistički način. U primeru 7.2 nije ispravno interval 162, 32 μ 193, 68 tumačiti rečima: prosečna vrednost transakcija obavljenih u banci pomenutog dana se nalazi u datom intervalu. Ovo je pogrešno jer bi ukazivalo na to da smo mi 100% sigurni u navedeno tvrđenje. Takođe, pogrešno je dati interval interpretirati u terminima verovatnoće, na primer rečima: sa verovatnoćom od 0,95 tvrdimo da se prosečna vrednost transakcija obavljenih u banci pomenutog dana nalazi u datom intervalu. Ovo je nekorektno jer dati interval nakon uzimanja uzorka ili uključuje nepoznati parametar, pa je verovatnoća jednaka 1, ili ga ne uključuje, pa je verovatnoća jednaka 0. Postoje dva, podjednako ispravna, načina da se korektno interpretira dobijeni interval poverenja. Jedan je da ga povežemo sa pouzdanošću, a drugi sa rizikom greške. Primenjeno na Primer 7.2 to bi značilo da su sledeće dve interpretacije korektne: a) sa pouzdanošću od 95% zaključujemo da se prosečna vrednost transakcija obavljenih u banci pomenutog dana nalazi u datom intervalu, ili b) sa rizikom greške od 5% tvrdimo da se prosečna vrednost transakcija obavljenih u banci pomenutog dana nalazi u datom intervalu 7.3 INTERVAL POVERENJA ZA ARITMETIČKU SREDINU SKUPA μ KADA JE NEPOZNATA STANDARDNA DEVIJACIJA SKUPA σ U prethodnom odeljku smo pokazali kako se konstruiše z interval poverenja za aritmetičku sredinu osnovnog skupa. Da bi primena ovog intervala bila opravdana, odnosno, da bi se dobili validni rezultati neophodno je da su ispunjene istovremeno dve pretpostavke: (1) da je osnovni skup normalno raspoređen (ili je uzorak veliki pa važi CGT) i (2) da je standardna devijacija skupa poznata. U stvarnosti, međutim, pretpostavka da prilikom ocenjivanja parametra μ raspolažemo vrednošću σ po pravilu nije ispunjena. Ovo je i logično, jer da bi se izračunala standardna devijacija skupa moramo poznavati njegovu aritmetičku sredinu! Dakle, z interval poverenja za aritmetičku sredinu skupa ima uglavnom teorijski značaj, i zato se i ne nalazi u većini statističkih softvera.

156 OSNOVI STATISTIKE Kako onda intervalno oceniti prosek u skupu? U ovom odeljku pokazaćemo da se to postiže na osnovu drugačijeg intervala pouzdanosti, zasnovanog na Studentovom t rasporedu. Ukoliko je osnovni skup normalno raspoređen znamo da će standardizovana slučajna promenljiva Z = ( μ)/ σ imati N (0,1) raspored. Poznato nam je takođe da je imenilac promenljive Z, u stvari, standardna greška aritmetičke sredine σ = σ / n. Budući da skoro nikada ne znamo vrednost standardne devijacije skupa, σ, jasno je da ne možemo ni izračunati standardnu grešku. Kako prevazići ovaj problem? Šta biste Vi, nakon čitanja dosadašnjeg dela poglavlja o ocenjivanju, predložili? Jasno se nameće ideja da nepoznatu vrednost σ, zamenimo njenom ocenom, standardnom devijacijom uzorka, S! Na taj način, standardnu grešku σ = σ / n zamenjujemo njenom ocenom S = S/ n. Standardna greška aritmetičke sredine Ocena standardne greške aritmetičke sredine Ocenjena vrednost standardne greške aritmetičke sredine σ = σ / n S = S/ n s = s/ n Postavlja se pitanje kakav će raspored imati nova standardizovana promenljiva? Ovu slučajnu promenljivu obeležavamo sa t i ona je oblika: μ t =. (7.9) S Kao što možemo uočiti na osnovu formule (7.9), promenljiva t je funkcija dve slučajne promenljive i S, za razliku od promenljive Z, koja je funkcija samo jedne slučajne promenljive. Zbog toga promenljiva t ima veću disperziju od promenljive Z. Naime, ako bi posmatrali veliki broj uzoraka iste veličine (n) sa istom aritmetičkom sredinom ( x ), vrednost promenljive Z bi bila ista u svim uzorcima, dok bi vrednost promenljive t zavisila i od standardne devijacije koja se razlikuje od uzorka do uzorka. Zbog toga, raspored verovatnoća slučajne promenljive t prikazujemo jednim novim teorijskim rasporedom verovatnoća, tzv. Studentovim t rasporedom. Studentov t raspored Studentov raspored je formulisao britanski statističar Goset (W. S. Gossett) 1908. godine, a naziv je dobio po pseudonimu "Student" pod kojim je autor iz poslovnih razloga publikovao rad. t raspored zavisi od jednog parametra - broja stepeni slobode, koji ćemo obeležavati sa ν (čita se ni), a koji u potpunosti određuje raspored verovatnoća slučajne promenljive t. Postoji

POGLAVLJE 7 Statističko ocenjivanje 157 čitava familija Studentovih rasporeda u zavisnosti od različitih vrednosti ν. Zbog njihovog međusobnog razlikovanja, svaka promenljiva t se piše sa indeksom ν (t ν, ν = 1, 2,..., ). Broj stepeni slobode Pojam stepeni slobode ćemo objasniti na sledećem primeru. Pretpostavimo da imamo uzorak od četiri elementa i da je njegova aritmetička sredina jednaka 10 tj.: x + x + x + x x = 1 2 3 4 = 10. 4 Postavlja se pitanje koliko najviše elemenata uzorka mora biti poznato da bi vrednost preostalih bila u potpunosti određena? Pošto je x1 + x2 + x3 + x 4 = 10 4 = 40, možemo slobodno izabrati tri elementa i dodeliti im proizvoljne vrednosti, a četvrti će biti u potpunosti određen. Dakle, jedan od četiri elementa ne možemo birati proizvoljno, ovaj element uzorka je "izgubio svoju slobodu". Na primer, ako izaberemo tri elementa sa vrednostima 20, 10, 8, da bi aritmetička sredina uzorka iznosila 10, četvrti element mora imati vrednost 2. Generalno, ukoliko nam je poznato da je aritmetička sredina uzorka od n elemenata jednaka nekoj konstanti c, onda je zbir tih n elemenata jednak + + = n c, 1 n što znači da možemo proizvoljno izabrati n-1 elemenata uzorka, a n-ti će biti određen jednakošću (7.10). (7.10) Stepeni slobode Broj stepeni slobode predstavlja broj nezavisnih (slobodnih) opservacija u uzorku, koji se dobije kada se od veličine uzorka oduzme broj ograničenja koja se nameću ovim vrednostima. Za svako uvedeno ograničenje gubi se po jedan stepen slobode. Sada možemo da shvatimo zašto kod izračunavanja varijanse uzorka, 2 2 S, sumu kvadrata ( i ) delimo sa n-1, a ne sa n. Uslov ( ) = 0 mora biti zadovoljen, zbog čega je, posle n-1 nezavisnih kvadrata i odstupanja, n-ti kvadrat odstupanja potpuno određen. Dakle, varijansa uzorka 2 S je određena sa n-1 slobodnih opservacija.

158 OSNOVI STATISTIKE Osobine Studentovog rasporeda 1. Studentov raspored je, kao i normalan raspored, simetričan i unimodalan raspored. 2. Promenljiva t je neprekidna i uzima vrednosti od - do +, pa je njen interval varijacije jednak +. Ukupna površina ispod krive jednaka je 1. 3. Očekivana vrednost tj. aritmetička sredina Studentovog rasporeda je jednaka nuli, kao i kod standardizovanog normalnog rasporeda. 4. Varijansa t rasporeda je veća od 1, tj. od varijanse Z rasporeda. Slika 7.6 t i z rasporedi Na Slici 7.6 grafički je prikazano nekoliko Studentovih krivih, zajedno sa standardizovanom normalnom krivom. Ako uporedimo t i Z raspored, vidimo da je za mali broj stepeni slobode t raspored više spljošten i na krajevima širok, dok sa porastom ν, on teži standardizovanom normalnom rasporedu i poklapa se sa njim za ν =. Pokažimo kako se primenjuje tablica za Studentov t raspored (Tablica 2, u prilogu). U ovoj tablici se nalaze vrednosti t ν,α, za koje važi: P ( t ν > t ν, α ) =α, što znači da je t ν,α ona vrednost promenljive t ν, koja na desnom kraju rasporeda "odseca" površinu ispod krive jednaku α. Na primer, ako imamo promenljivu t sa 10 stepeni slobode i ako je α = 0,10, odgovarajuću tabličnu vrednost t ν,α nalazimo u preseku reda ν = 10 i kolone α = 0,10, tj. t 10; 0,10 = 1,372. Ovo znači da je verovatnoća da je promenljiva t 10 veća od 1,372 jednaka 10% (videti sliku 7.7.a): P (t 10 > 1,372) = 0,10. Zbog simetričnosti t rasporeda, važi i sledeće (videti sliku 7.7.b): P ( t 10 < -1,372) = P (t 10 > 1,372) = 0,10.

POGLAVLJE 7 Statističko ocenjivanje 159 a) b) c) Slika 7.7 Ilustracija primene Tablice Studentovog raspored Ostaje još da vidimo kako primenom Tablice 2 izračunavamo granice u kojima će se naći promenljiva t ν sa verovatnoćom (1-α) (Slika 7.7.c). Zbog simetričnosti t rasporeda treba naći onu vrednost promenljive t ν koja na desnom kraju rasporeda "odseca" površinu ispod krive jednaku α/2. Obeležimo ovu vrednost sa t ν,α/2. Tada je: P(-t ν,α/2 t ν t ν,α/2 ) = 1 - α. (7.11) Na primer, ako imamo promenljivu t sa 10 stepeni slobode i ako je (1-α) = 0,95, tj. α = 0,05, odgovarajuću tabličnu vrednost nalazimo u preseku kolone α/2 = 0,025 i reda ν= 10. Dakle: P ( t10;0,025 t 10 t 10;0,025 ) = 0,95, odnosno: P (-2,2281 t 10 2,2281) = 0,95. Ovo znači da je verovatnoća da se promenljiva t 10 nađe u intervalu od -2,2281 do 2,2281 jednaka 0,95. Primetimo da je ovaj interval širi nego kod Z rasporeda, gde on iznosi [-1,96, 1,96]. To jasno pokazuje da je, za mali broj stepeni slobode, t raspored više spljošten i da su mu krajevi deblji nego kod Z rasporeda. Interval poverenja za aritmetičku sredinu skupa μ Budući da u praksi standardna devijacija normalno raspoređenog skupa skoro nikada nije poznata za ocenjivanje parametra μ, umesto Z rasporeda koristimo t raspored sa n - 1 stepeni slobode. Na osnovu (7.4) i (7.7) sledi: μ P( tn 1; α/2 tn 1; α/2 ) = 1 α, S odakle, rešavajući nejednačinu u zagradi po μ, dobijamo njenu intervalnu ocenu.

160 OSNOVI STATISTIKE Interval poverenja aritmetičke sredine normalno raspoređenog skupa za nivo pouzdanosti od (1-α) 100%, kada je nepoznata standardna devijacija populacije σ, je oblika: x t s μ x+ t s odnosno n 1; α/2 n 1; α/2 [ x t s, x+ t s ]. n 1; α/2 n 1; α/2 Ako slučajnim putem biramo uzorke veličine n (bez ponavljanja) iz konačnih skupova veličine N, tada aritmetičku sredinu, sa pouzdanošću (1- α) 100%, ocenjujemo primenom sledećeg intervala: (7.12) s N n s N n x tn 1; α /2, x + tn 1; α /2 ], n N 1 n N 1 (7.13) ukoliko je σ nepoznato i ako je stopa izbora veća od 0,05. PRIMER 7.3: U cilju ocene prosečnog vremena trajanja jedne vrste bankarskih usluga (u min.), izvučen je prost slučajan uzorak iz normalno raspoređenog statističkog skupa i zabeležen je sledeći rezultat: Vreme trajanja usluge u minutima Oceniti prosečno vreme trajanja ove vrste bankarskih usluga, sa pouzdanošću od 90%. Etapa 1. Potrebno je oceniti aritmetičku sredinu osnovnog skupa. Nivo pouzdanosti je 90%, pa je α = 0,10. Etapa 2. Tačkasta ocena aritmetičke sredine skupa je, a njena realizovana vrednost u već izabranom uzorku je 4 ' i Broj klijenata (f) 5-9 3 9-13 4 13-17 6 17-21 2 fx i i 1 193 x = = = = 12,87 n 15 Tabela 7.2 Međurezultati za Primer 7.3 x (f) ' x 5-9 9-13 13-17 17-21 3 4 6 2 7 11 15 19 ' fx 21 44 90 38 '2 f x 147 484 1350 722 15 193 2703

POGLAVLJE 7 Statističko ocenjivanje 161 Etapa 3. Na osnovu raspoloživih informacija: 1) osnovni skup ima normalan raspored i 2) σ je nepoznato, ocenjivanje sprovodimo primenom t rasporeda, tj. interval poverenja za aritmetičku sredinu populacije je oblika: x t s, x+ t s ], [ n 1; α/2 n 1; α/2 Etapa 4. Za n=15, i α=0,10, sledi da je ν =n-1=14, i α/2=0,05, pa je t 14;0,05 = 1,7613 (nalazimo u Tablici 2). Standardna devijacija uzorka iznosi: 4 '2 2 fx i i nx 2 i 1 2703 15 12,87 s = = = = 3,95. n 1 14 Zamenom vrednosti iz našeg primera dobijamo: 3,95 3,95 12,87 1,7613 μ 12,87 + 1,7613, 15 15 odnosno: 11,07 μ 14,67. Etapa 5. Sa pouzdanošću od 90% zaključujemo da se prosečno vreme trajanja ove bankarske usluge nalazi u intervalu od 11,07 minuta do 14,67 minuta. Sa porastom veličine uzorka, t raspored teži Z rasporedu. U prošlosti je zbog toga bilo uobičajeno da se kod velikih uzoraka umesto t intervala poverenja izvrši aproksimacija z intervalom poverenja. Jedan od razloga je taj što su tablice normalnog rasporeda bile više dostupne, i nešto lakše za korišćenje. Međutim, danas je sve više autora koji smatraju da nema potrebe za takvom aproksimacijom, iz dva razloga: (1) tablice Studentovog rasporeda su svakome dostupne i (2) u praksi se ocenjivanje uvek sprovodi nekim statističkim softverom i nema nikakvog opravdanja da se umesto egzaktnog intervala uzima približni softver će izračunati korektni t interval istom brzinom kao i z. Na Slici 7.8 se nalazi algoritam za izbor odgovarajućeg teorijskog rasporeda u ocenjivanju aritmetičke sredine skupa. U zavisnosti od ispunjenosti određenih pretpostavki, koje se odnose na osobine osnovnog skupa i veličinu uzorka, biraćemo ili Z ili t raspored. Slučajevi u kojima primena razmatranih parametarskih metoda u ocenjivanju parametra μ ne bi bila opravdana, na slici 7.8 su označeni (*) 3. 3 U ovakvim situacijama na raspolaganju su nam tri strategije: (1) povećati uzorak, (2) da primenimo neki neparametarski metod i (3) da koristimo metode ponovljenih uzoraka.

162 OSNOVI STATISTIKE Slika 7.8 Izbor metoda za ocenjivanje µ u zavisnosti od ispunjenosti polaznih pretpostavki 7.4 INTERVAL POUZDANOSTI ZA PROPORCIJU SKUPA π U marketingu, istraživanju tržišta, finansijskoj analizi, bankarstvu, kontroli kvaliteta proizvodnje, kao i drugim oblastima ekonomije i biznisa nas često interesuje proporcija elemenata populacije sa određenom karakteristikom. Tako, na primer, predmet analize može biti procenat stanovništva koji koristi bankomate, ili kreditne kartice ili kupuje preko Interneta, procenat neispravnih proizvoda u ukupnoj proizvodnji, proporcija studenata prve godine u Srbiji koji su položili sve ispite do oktobarskog roka, proporcija siromašnih ili bogatih u Srbiji itd. U ovakvim situacijama potrebno je oceniti proporciju skupa, π. Iz prethodnog poglavlja nam je poznato da se, ako su ispunjeni uslovi n 30, n π > 5 i n (1 - π) > 5, raspored proporcija uzoraka može aproksimirati

POGLAVLJE 7 Statističko ocenjivanje 163 normalnim rasporedom, tj. P r : približno N( μp, σ P). Standardizovanjem proporcije uzorka dobijamo promenljivu Z oblika: Pr μp Pr π Z = = : N ( 0,1). σ σ Na osnovu relacija (8.9) i (7.4), sledi: P π P( z z ) = 1 α. P r α/2 α/2 σ P Rešavanjem nejednakosti u zagradi po π, dobijamo interval poverenja proporcije osnovnog skupa za nivo pouzdanosti (1-α) 100%: [ p z σ, p+ z σ ], P α/2 P α/2 gde proporcija uzorka p predstavlja učešće elemenata sa određenom osobinom (proporciju "uspeha") u uzorku veličine n. Pošto standardna greška proporcije σ P P 2 π ( 1 π ) = zavisi od nepoznatog n parametra π ne možemo je izračunati, već je ocenjujemo na osnovu proporcije uzorka. Ocena standardne greške je: ( 1 P ) Pr r SP =, (7.15) n a njenu realizovanu vrednost (ocenjenu vrednost standardne greške) izračunavamo na osnovu vrednosti p iz izabranog uzorka: ( 1 p) p sp =. n Šta pokazuje standardna greška proporcije? Grubo rečeno prosek odstupanja proporcija uzoraka od proporcije skupa. Zamenom σ P njenom ocenjenom vrednošću, s P, dobijamo interval poverenja proporcije skupa, za nivo pouzdanosti (1-α) 100%: p z s π p+ z s, odnosno α/2 P α/2 [ p z s, p+ z s ]. α/2 P α/2 Ako slučajnim putem biramo uzorke veličine n (bez ponavljanja) iz konačnih skupova veličine N, tada proporciju skupa ocenjujemo sa pouzdanošću (1- α) 100%, uvođenjem popravnog faktora. Ako je stopa izbora veća od 0,05, interval pouzdanosti za proporciju skupa imaće oblik: P P (7.14) (7.16)

164 OSNOVI STATISTIKE [ p zα /2 p(1 p) N n n N 1, p(1 p) N n p+ zα /2 n N 1 ] (7.17) PRIMER 7.4: U cilju ispitivanja koliko sati građani Srbije mesečno provode na Internetu, krajem novembra 2005. sprovedena je Internet anketa 4. U anketi je učestvovalo 2832 posetilaca sajta www.krstarica.com, od kojih je 14,5 % izjavilo da provodi više od 100 sati mesečno na Internetu. Pod pretpostavkom da je uzorak reprezentativan, ocenite, sa pouzdanošću od 95%, učešće svih građana Srbije koji provode više od 100 sati mesečno na Internetu. Na osnovu ključnog izraza "ocenite učešće građana", potrebno je oceniti proporciju osnovnog skupa. Nivo pouzdanosti je 95%, pa je α = 0,05. Tačkasta ocena proporcije skupa je P r, a njena realizovana vrednost u uzorku tj. proporcija građana koji provode više od 100 sati mesečno na Internetu, u uzorku je: p = 0,145. Uslovi na kojima se zasniva ocenjivanje proporcije skupa su ispunjeni, jer je 1) n = 2832 > 30, 2) n p = 2832 0,145 = 410,64 > 5 i 3) n (1 - p) = 2832 0,855 = 2421,36 > 5. Ocenjena vrednost standardne greške jednaka je: ( 1 p) 0,145 ( 1 0,145) p sp = = = 0,0067, n 2832 pa zamenom dobijenih vrednosti u (7.16) izračunavamo interval poverenja proporcije osnovnog skupa: 0,145-1,96 0,0067 π 0,145 + 1,96 0,0067, odnosno: 0,132 π 0,158. Sa pouzdanošću od 95% tvrdimo da se učešće svih građana Srbije koji provode više od 100 sati mesečno na Internetu nalazi u intervalu od 13,2% do 15,8%. Ocena agregata Kada smo ocenili proporciju skupa, možemo oceniti i ukupan broj "uspeha" u osnovnom skupu. Pošto je proporcija skupa jednaka količniku ukupnog broja "uspeha" u skupu i veličine skupa tj. π = N1 / N, sledi da je: N1 = π N. 4 www.krstarica.com

POGLAVLJE 7 Statističko ocenjivanje 165 Na osnovu intervala (7.16) dobijamo interval poverenja za N 1, za nivo pouzdanosti (1-α) 100%: [( p z s ) N, ( p+ z s ) N]. α/2 P α/2 P (7.18) Ako se, sa pouzdanošću od 90%, proporcija građana Srbije koji provode više od 100 sati mesečno na Internetu nalazi u intervalu: 0,134 π 0,156, onda, sa istom pouzdanošću (od 90%), tvrdimo da je njihov ukupan broj u Srbiji, koja ima oko 1500000 korisnika Interneta, jedan ceo broj iz intervala: 201000 N1 234000. R E Z I M E Statističko zaključivanje predstavlja postupak donošenja zaključaka o vrednostima parametara osnovnog skupa na osnovu informacija dobijenih iz uzorka. Sastoji se iz statističkog ocenjivanja i testiranja statističkih hipoteza. Statističko ocenjivanje najčešće primenjujemo kada ne raspolažemo podacima na osnovu kojih bismo mogli da pretpostavimo vrednost određenog parametra skupa. Zaključak o nepoznatoj vrednosti parametra donosimo na osnovu podataka uzorka. Pri tome dobijamo ocenu parametra populacije, koja može biti tačkasta i intervalna. Tačkasta ocena parametra je odgovarajuća statistika uzorka, a njena realizovana vrednost u uzorku je tačkasta ocenjena vrednost parametra. Intervalna ocena parametra predstavljena je intervalom vrednosti formiranim oko statistike uzorka. Logika intervalnog ocenjivanja parametara se zasniva na tome da se na osnovu slučajnog uzorka izabere odgovarajuća statistika uzorka tj. tačkasta ocena parametra, a zatim oko nje formira interval poverenja. Taj interval sa određenom pouzdanošću sadrži vrednost parametra osnovnog skupa. Prilikom ocenjivanja aritmetičke sredine skupa koriste se dva intervala pouzdanosti, z i t. Z interval zahteva da poznajemo vrednost standardne devijacije skupa, σ. Oba intervala se zasnivaju na preduslovu da je raspored osnovnog skupa normalan, ili da se koristi veliki uzorak (n>30). Kako u praksi skoro nikada ne znamo vrednost standardne devijacije skupa, najčešće se za ocenjivanje aritmetičke sredine skupa primenjuje t interval poverenja. Pri formiranju ovog intervala standardnu devijaciju skupa ocenjujemo standardnom devijacijom uzorka, i koristimo Studentov (t) raspored, sa n-1 stepeni slobode. Proporciju skupa, π, ocenjujemo na osnovu z intervala poverenja. Da bi se ovaj interval mogao primeniti neophodno je da budu ispunjena tri uslova: n >30, np>5 i n(1- p )>5. Proporciju skupa nikada ne ocenjujemo pomoću t intervala poverenja.

166 OSNOVI STATISTIKE KLJUČNI NOVI POJMOVI Statističko zaključivanje Tačkasta ocena Intervalna ocena Nepristrasna ocena Efikasna ocena Konzistentna ocena Dovoljna ocena z interval pouzdanosti Broj stepeni slobode Studentov t-raspored t interval pouzdanosti Standardna greška ocene proporcije KONTROLNA PITANJA I ZADACI 1. Šta je ocena a šta ocenjena vrednost parametra? 2. Navedite dve vrste statističkog ocenjivanja i njihove karakteristike. 3. Zašto se intervalna ocena koristi više od tačkaste? 4. Zašto je veličina uzorka značajna u statističkom zaključivanju? 5. Da li su tačna sledeća tvrđenja: a) μ je slučajna promenljiva i predstavlja nepristrasnu ocenu ; b) Ako uzorak povećamo 10 puta, za toliko će se smanjiti standardna greška pa će i ocena biti 10 puta preciznija. 6. Da li je medijana uzorka nepristrasna ocena μ? Kada ćete je koristiti za ocenjivanje μ i zašto? 7. Ako se uzorak sastoji od 20 elemenata, koliko stepeni slobode ima pri ocenjivanju aritmetičke sredine skupa? Rešenje: 19. 8. Šta je interval pouzdanosti, a šta nivo pouzdanosti? 9. Kada iz normalno raspoređenog osnovnog skupa sa poznatom varijansom izvlačite uzorak, koja je najmanja veličina uzorka potrebna da biste pri ocenjivanju μ koristili Z raspored? 10. Kada izvlačite uzorak iz normalno raspoređenog skupa, da li količnik ( μ)/ S ima normalan raspored? Objasnite. 11. Kada iz normalno raspoređenog osnovnog skupa sa poznatom varijansom izvlačite uzorak, sa ciljem da ocenite μ, da li je veličina uzorka važna i zašto? Objasnite. 12. Ako je uz nivo pouzdanosti od 95% interval poverenja za μ širok, na koji način možete dobiti precizniju ocenu? 13. Interval poverenja za aritmetičku sredinu skupa biće širi u slučaju da se istovremeno: a) koeficijent poverenja povećava i veličina uzorka povećava,

POGLAVLJE 7 Statističko ocenjivanje 167 b) koeficijent poverenja smanjuje i veličina uzorka smanjuje, c) koeficijent poverenja smanjuje, a veličina uzorka povećava, d) koeficijent poverenja povećava, a veličina uzorka smanjuje. 14. Studentov t-raspored je : a) simetričan i više spljošten od normalnog, b) simetričan i manje spljošten od normalnog, c) asimetričan, a spljoštenost je približno normalna, d) simetričan, a spljoštenost je približno normalna e) pozitivno asimetričan i manje spljošten od normalnog, f) umereno asimetričan, a spljoštenost je približno normalna. 15. Mesečni prihodi u 20 slučajno izabranih prodavnica (u mil. din.) su: 25,8 7,6 8,2 9,3 10,9 10,6 4,9 9,6 7,0 3,7 13,7 7,4 9,8 7,4 10,4 12,7 4,6 9,0 9,9 6,0 Ako prihodi imaju normalan raspored, ocenite sa pouzdanošću od 95% prosečan i ukupan prihod svih prodavnica, ako je stopa izbora 10%. Rešenje: 7, 25 μ 11, 6 ; 1450 UP 2320. 16. Standardna devijacija veka trajanja jedne vrste TV tranzistora je σ = 500 ; vek trajanja ovih tranzistora ima normalan raspored. U uzorku od 15 tranzistora, prosečan vek trajanja je 8900h. Uz nivo pouzdanosti od 90% odredite prosečan vek trajanja ovog tipa tranzistora. Rešenje: 8687 μ 9113. 17. Ako u zadatku 16. standardna devijacija skupa nije poznata, ocenite sa pouzdanošću od 95% prosečan vek trajanja baterija. Standardna devijacija u uzorku je 500h. Rešenje: 8623 μ 9177. 18. Raspolažemo podacima o dužini lečenja jedne bolesti terapijom A na slučajnom uzorku od 6 bolesnika: Dužina lečenja u danima 12 8 16 14 5 5 Pod pretpostavkom da osnovni skup ima normalan raspored, sa pouzdanošću od 95% ocenite prosečnu dužinu lečenja bolesti terapijom A. Rešenje: 5, 078 μ 14, 922 19. Osnovni skup se sastoji od 240 studenata, čija je visina normalno raspoređena. U slučajnom uzorku od 16 studenata prosečna visina iznosi 176,5 cm, a standardna devijacija uzorka je 10 cm. Sa pouzdanošću od 95% ocenite prosečnu visinu studenata u osnovnom skupu. Rešenje: 171, 34 μ 181, 66 20. Slučajnim putem je izabrano 420 studenata jednog fakulteta i zabeležen je broj položenih ispita u dva ispitna roka: Broj ispita 0 1 2 3 4 5 6 Br. studenata 88 142 106 57 21 4 2 Ocenite proporciju svih studenata tog fakulteta koji su položili više od 2 ispita u pomenutim rokovima (nivo pouzdanosti je 95%). Rešenje: 0, 162 π 0, 238

168 OSNOVI STATISTIKE 21. Od 30 učenika jednog razreda 5 učenika je dobilo ocenu 5, 7 učenika je dobilo ocenu 4, 12 je dobilo ocenu 3 i 4 učenika je dobilo ocenu 2. Ostali su dobili slabu ocenu (1). Pod pretpostavkom da je uzorak slučajan ocenite (sa pouzdanošću od 95%) učešće učenika sa ocenom većom od 3. Rešenje: 0, 225 π 0, 575. 22. U uzorku od 68 obolelih lica koja su lečena novim lekom, 4 je ozdravilo. Ocenite proporciju obolelih lica koja se mogu izlečiti posmatranim tretmanom; nivo pouzdanosti je 99%. Rešenje: Ne možemo oceniti proporciju obolelih lica, jer nije ispunjen jedan od uslova za aproksimaciju rasporeda proporcija normalnim rasporedom. 23. U slučajnom uzorku od 35 proizvoda (izabranom iz osnovnog skupa od 2500 proizvoda) našli smo 7 neispravnih proizvoda. Ocenite, sa pouzdanošću od 99% ukupan broj ispravnih proizvoda u celom skupu. Rešenje: 0,626 π 0,974. 24. U uzorku od 250 studenata jednog univerziteta, 121 su studenti nekog tehničkog fakulteta. Sa pouzdanošću od 99% ocenite učešće studenata tehničkih fakulteta i njihov ukupan broj na ovom univerzitetu, ako je stopa izbora 0,02. Rešenje: 0,4023 π 0,5657 ; 5029 N1 7071. 25. Pekara "Klas" isporučuje potrošačima između ostalog vekne hleba čija je deklarisana težina 750 grama. Za težinu vekni hleba poznato je da ima normalan raspored.u cilju provere težine vekni hleba izvučen je uzorak od 8 vekni hleba i u uzorku su zabeležene sledeće težine u gramima: 756.9 758.3 758.6 757.8 749.2 750.0 760.1 748.6 U uzorku su izračunate sledeće statistike: prosečna težina vekni hleba 754,94 grama i prosečno odstupanje svih podataka od prosečne težine 4,79 grama. a) Sa koeficijentom pouzdanosti od 95%, oceniti prosečnu težinu vekni hleba u pekari "Klas". Da li je proizvodnja hleba pod kontrolom? b) Oceniti ukupnu dnevnu proizvodnju hleba u pekari, ako je stopa izbora m 0,016. 26. Od svih gledalaca jedne televizijske kuće anketirano je 500 gledalaca. Na pitanje da li redovno gledaju televizijsku seriju koja se već mesecima prikazuje ili ne potvrdno je odgovorilo 120 gledalaca a) Oceniti proporciju onih gledalaca koji redovno gledaju seriju. b) Ukoliko formirani uzorak čini 1,25% skupa gledalaca ove televizijske kuće, oceniti ukupan broj gledalaca koji ne prate redovno televizijsku seriju.