Verovatoća i statistika ideali model i pojavi oblici Dr Biljaa Popović, redovi profesor Prirodo matematički fakultet u Nišu 3. april 2004. godie Matematička statistika je primejea matematička disciplia sroda teoriji verovatoće. Bazira se a pitajima i metodima teorije verovatoće, ali rešava svoje specifiče (probleme) zadatke svojim metodama. (Svaka matematička teorija se razvija u okviru ekog modela koji opisuje odredjei krug realih pojava čijim se proučavajem i bavi data teorija.) U teoriji verovatoće se polazi od pretpostavke da je pozat prostor verovatoća (Ω, F,P), gde je Ω skup svih elemetarih ishoda, F je σ-algebra a skupu Ω a P je verovatoća. Verovatoća P, u praktičim problemima koje treba rešavati, ije u potpuosti pozata. U većii slučajeva se pretpostavlja da P P, gde je P = {P} familija verovatoća. Takvi praktiči problemi azivaju se statističkim modelima. Dakle, za razliku od modela teorije verovatoća, statistički model je (Ω, F, P). Primer 1. (Šema Berulija.) Obavlja se ezavisih opita u kojima se realizuje 0 ili 1 sa verovatoćama redom 1 p = q i p, 0 p 1. Ishod ovog eksperimeta je Ω = {ω : ω = (ε 1, ε 2,..., ε ), ε i = 0, 1}. Pri tome je verovatoća pojediog elemetarog ishoda P (ω) = p ε i q ε i. Ako verovatoća p ije prethodo pozata, ozačićemo je sa θ i tu ozaku ćemo adalje koristiti za svaki epozati parametar. U tom slučaju jedia iformacija koju imamo o parametru ovog primera je da je θ Θ = [0, 1]. Tačije, imamo jedio iformaciju da raspodela verovatoća kojom ovaj eksperimet opisujemo pripada familiji P = {P θ, θ Θ}, gde je P θ = θ ε i (1 θ) ε i. U prethodom primeru je defiisa jeda statistički model, dakle model koji u sebi sadrži eku vrstu eodredjeosti. Zadatak matematičke statistike je da se korišćejem iformacije dobijee posmatrajem ishoda eksperimeta, dakle statističkih podataka, smaji ta eodredjeost, odoso da se, što je moguće tačije, izvrši izbor P P. 1
Matematička statistika je auka o statističkom zaključivaju. Statističko zaključivaje podrazumeva rešavaje zadataka obrutih od oih koje rešava teorija verovatoće: oa utvrdjuje strukturu statističkih modela prema rezultatima sprovedeih posmatraja, dakle, odredjuje prostor verovatoća a osovu eksperimeta. Pri tome posmatraja e mogu biti proizvolja. Naime, oa moraju biti ekvivaleta statističkom eksperimetu: može se poavljati proizvolja broj puta pod istim uslovima, uapred je defiisao šta se registruje u eksperimetu pri čemu su pozati svi mogući ishodi i ishod pojediačog eksperimeta ije uapred pozat. Za prve svese pokušaje defiisaja i primee statističkog zaključivaja uzimaju se popisi staovištva koje su sprovodili vladari još ekoliko vekova pre aše ere radi utvrdjivaja broja vojih podaika ili poreskih obvezika. Zasivaje statistike kao auke vezuje se za pojavu škole političkih aritmetičara u Egleskoj u XV II veku. Po ekima, delo Natural ad Political Observatios upo the Bills of Mortality, koje je apisao Dž. Grat (J. Graut) i objavio 1622. godie, ozačava početak statistike kao auke. Dugo vremea je statistika smatraa aučim metodom za proučavaje društveih auka. Medjutim, matematičari koji su emiovo bili uključei u kostituisaje, formalo defiisaje, i postali odgovori za razvoj statističkog metoda zaključivaja, odgovori su i za početak primee statistike u prirodim aukama. Tu ideju medju prvima je prihvatio egleski biolog Galto (Sir Fracis Galto, 1822-1911), koji je primeio statistički metod u istraživajima u biologiji. Teorijski doprios razvoju matematičke statistike dao je medju prvima švajcarski matematičar Jakob Beruli (Jacob Beroulli, 1654-1705) defiišući i obrazlažući zako velikih brojeva u svom delu Ars cojectadi. Krupa korak u tom pravcu dao je i fracuski astroom i matematičar Laplas (Pierre Simo, Marquis de Laplace, 1749-1827). Pozato je jegovo delo Théorie aalytique de probabilités. Bura razvoj matematičke statistike kao teorijske disciplie u XX veku omoguće je, pre svega, razvojem teorije verovatoća u ovom periodu. 1 Osovi pojmovi statistike Statistički eksperimet se izvodi ad elemetima ekog skupa a kojima se posmatra jedo ili više zajedičkih svojstava. Defiicija 1. Populacija ili geerali skup je skup elemeata čija se zajedička svojstva izučavaju statističkim metodima. Populacija se simbolički beleži sa Ω, a je elemet sa ω. Defiicija 2. Obeležje je zajedičko svojstvo elemeata jede populacije (koje se ispituje). Obeležje može biti kvatitativo (umeričko) ili kvalitativo (atributivo). Pri izvodjeju statističkog eksperimeta polazi se od pretpostavke da se tom prilikom realizuju eki slučaji dogadjaji. Dakle, pretpostavlja se da se ishod eksperimeta može 2
prikazati slučajom veličiom X. Ukoliko je eksperimet poavlja puta, ishod se predstavlja slučajim vektorom X = (X 1, X 2,..., X ). Pri proučavaju ovog slučajog vektora poželjo je pozavati jegovu raspodelu. S tim u vezi reći ćemo da treba odrediti gustiu raspodele obeležja, a adalje ćemo to pojasiti. Ovde će se koristiti termi gustia raspodele u uopšteom začeju, tj. vezivaće se i za slučaje promeljive diskretog tipa. Primer 2. Za slučaju promeljivu sa biomom raspodelom B (1, p), kazaćemo da ima gustiu raspodele { p f(x) = x (1 p) 1 x, x = 0, 1 0, x 0, 1. Neka je Y slučaja promeljiva defiisaa kao fukcija slučajih promeljivih X 1, X 2,..., X, tj. eka je Y = u(x 1, X 2,..., X ). Odredjivaje gustie raspodele ove slučaje promeljive a osovu pozavaja zajedičke gustie raspodele vektora slučajih promeljivih X = (X 1, X 2,..., X ), u ozaci f(x 1, x 2,..., x ), (x 1, x 2,..., x ) R, je jeda od zadataka matematičke statistike. Sam slučaji vektor X i fukcije od jegovih kompoeata su okosica matematičke statistike. Defiicija 3. Uzorak je deo populacije a kome se ispituje posmatrao obeležje. Broj elemeata u uzorku se aziva obim uzorka. Na uzorku se sprovodi statistički eksperimet. Ishod tog eksperimeta će biti vektor X, koji je po svojim karakteristikama slučaja promeljiva.vektor X još zovemo slučajim uzorkom za razliku od jegove realizovae vredosti po obavljeom eksperimetu. Defiicija 4. Vektor x = (x 1, x 2,..., x ) koji predstavlja realizaciju vektora X po obavljeom eksperimetu zovemo realizovai uzorak. U daljem tekstu će se pod uzorkom podrazumevati slučaji uzorak, a kada bude reči o realizovaom uzorku, to će biti aglašeo. Detaljije o uzorku i ačiima za izbor uzoraka pripada poseboj oblasti matematičke statistike koja se zove Teorija uzoraka. 2 Slučaja promeljiva i obeležje Populacija ima ešto širi smisao od izvesog dogadjaja u teoriji verovatoće, dok je obeležje ešto širi pojam od pojma slučaje promeljive. Naime, izvesa dogadjaj je skup svih mogućih elemetarih ishoda jedog eksperimeta, pri čemu se podrazumevaju različiti ishodi. Populacija je, medjutim, skup svih elemeata a kojima se posmatra eko svojstvo (skup ljudi, skup sijalica, deo tla, itd.). Obeležje je fukcija iz skupa Ω, populacije, u skup koji čie kategorije jedog svojstva. Precizije, a skupu Ω se defiiše relacija ekvivalecije: dva elemeta populacije su u relaciji ako su im jedake vredosti obeležja koje se a elemetima populacije posmatra. Tom relacijom se vrši razbijaje 3
skupa Ω a klase ekvivalecije, odoso, defiiše se faktor skup. Klase ekvivalecije su kategorije, te se ajpre defiiše preslikavaje populacije a faktor skup tako što se svakom elemetu populacije pridružuje jegova klasa ekvivalecije. Iz faktor skupa je moguće defiisati ovu fukciju sa vredostima u skupu realih brojeva, R, koja je, zapravo, slučaja promeljiva, a u žargou matematičke statistike, kaže se da se ovom fukcijom vrši kodiraje vredosti obeležja. U tom smislu se može govoriti o raspodeli obeležja posredstvom raspodele ovako defiisae slučaje promeljive, te će se i obeležje, kao i slučaja promeljiva, ozačavati velikim slovom latiice sa kraja abecede, X,Y,Z,.... U vezi sa uopštejem pojma gustie raspodele smatraće se da svako obeležje ima svoju gustiu raspodele. Primer 3. Za populaciju ćemo uzeti studete Prirodo-matematičkog fakulteta u Nišu. Neka je obeležje koje posmatramo a toj populaciji obrazovi profil. U ovom mometu ćemo posmatrati samo osovi profil, tj. matematika, fizika, hemija, biologija, geografija. Ovih 5 kategorija bi čiile razbijaje skupa Ω. Dakle, studeti istog odseka obrazovog profila bi čiili jedu klasu ekvivalecije. Nadalje bismo svakom odseku pridružili broj (kod), recimo eka su to prirodi brojevi od 1 do 5. Time bi bila defiisaa slučaja promeljiva. Sa gledišta matematičke statistike dato obeležje X je potpuo odredjeo ako je odredjea jegova raspodela, P {X S}, gde je S B 1, a (R, B 1, P ) fazi prostor. To je istovremeo i jeda od glavih problema kojima se bavi matematička statistika: odredjivaje raspodele obeležja. Pri tome je moguće da uapred ije pozata familija dopustivih raspodela ili da je oa pozata, a da iz je treba apraviti pravi izbor oceom vredosti epozatih parametara koji u raspodeli figurišu. Dakle, osovi problem statističkog zaključivaja je da a osovu statističkog eksperimeta ešto zaključi o raspodeli obeležja. 3 Zaključivaje a osovu uzorka Zaključivaje o raspodeli obeležja vrši se a osovu izabraog uzorka. Otuda je važo da izabrai uzorak bude reprezetativa, tj. da bude takav da se sa dovoljom tačošću zaključak o raspodeli posmatraog obeležja dobijeoj a uzorku može da ekstrapoluje a čitavu populaciju. Okosica auče oblasti koju zovemo matematičkom statistikom ili, jedostavo, statistikom, je fukcija od uzorka koja je osovi alat u procesu statističkog zaključivaja, a koja je opisaa sledećom defiicijom: Defiicija 5. Statistika je fukcija od uzorka čiji aalitički izraz e zavisi od epozatih parametara obeležja, tj. fukcija od uzorka i pozatih kostaata. Primeri ekih statistika su: T = X i total uzorka X = 1 X i sredia uzorka 4
S 2 = 1 1 S 2 = 1 (X i X ) 2 disperzija uzorka S = S 2 uzoračka stadarda devijacija (X i X ) 2 popravljea disperzija uzorka R = X max X mi raspo uzorka. Za dva obeležja X i Y i uzorak ((X 1, Y 1 ), (X 2, Y 2 ),..., (X, Y )) iz populacije a kojoj se posmatra dvodimezioo obeležje (X, Y ) može se defiisati statistika R XY = 1 (X i X )(Y i Y ) uzorački koeficijet korelacije, S X S Y gde su sa S X i S Y ozačee uzoračke stadarde devijacije za obeležja X i Y redom. Posebo mesto medju statistikama imaju tzv. statistike poretka. Ove se statistike defiišu posredstvom varijacioog iza: Defiicija 6. Varijacioi iz čie elemeti uzorka poredjai u eopadajućem poretku. Za uzorak (X 1, X 2,..., X ) varijacioi iz čii iz slučajih promeljivih sačije od elemeata ovog uzorka u ozaci X (1), X (2),..., X () za koji važi X (1) X (2)... X (). Za realizovae vredosti varijacioog iza koristi se isti termi varijacioi iz, bez opasosti od zabue, a ozačavaju se malim slovima: x (1) x (2)... x (). Defiicija 7. Statistika poretka reda k uzorka obima, 1 k, je k ti elemet varijacioog iza posmatraog uzorka, dakle slučaja promeljiva X (k). Neka je uzorak X = (X 1, X 2,..., X ) prost slučaji uzorak iz populacije sa obeležjem X čija je fukcija raspodele F. U defiisaju fukcije raspodele biće sve vreme korišćea eprekidost s desa. Za svako x R defiisaćemo slučaju veličiu µ (x) kao broj elemeata uzorka X koji su maji ili jedaki x, tj. Defiicija 8. µ (x) = card{j X j x, j = 1, 2,..., }, x R. Nadalje se može defiisati slučaja promeljiva S (x) koja daje vredosti slučaje promeljive µ (x) u relativom odosu prema obimu uzorka: 5
Defiicija 9. Empirijska fukcija raspodele uzorka X je statistika S (x) def = µ (x), x R. Slučaja promeljiva S (x) je statistika čiji je kodome skup ili jegov pravi podskup sa verovatoćama P {S (x) = k/} = P {µ (x) = k} = {0, 1/, 2/,..., ( 1)/, 1} ( ) (F (x)) k (1 F (x)) k, k = 0, 1,...,. k Ovo otuda što, prema defiiciji, slučaja promeljiva µ (x) ima biomu raspodelu, B(, p) sa p = P {X x} = F (x), x R. Statistiku S (x) možemo posmatrati i kao aritmetičku srediu idikatora I Ai = { 1, ω Ai 0, ω A i, A i = {ω X i (ω) x}, a s obzirom da je E(I Ai ) = F (x) za fiksirao x R, važi teorema: Teorema 1. Za fiksirao x R, S (x) F (x), skoro izveso, tj. P {S (x) F (x), } = 1. Za realizovai uzorak (x 1, x 2,..., x ), S (x), x R, je mootoo eopadajuća fukcija sa mogućim skokovima u tačkama varijacioog iza x (1) x (2)... x () : S (x) = k, x [x (k), x (k+1) ), k = 0, 1,...,. Pri tome su uvedee ozake x (0) =, i u tom slučaju je i leva graica itervala otvorea, i x (+1) = +. Ukoliko su svi elemeti u realizovaom uzorku različiti, skokovi su veličie 1/. Kovergecija o kojoj je bilo reči u prethodoj teoremi, ostvaruje se i uiformo po x R. O tome govori tzv. cetrala teorema matematičke statistike. Jeda od jeih oblika je sledeći. Teorema 2 (Gliveko-Kateli) Neka je F fukcija raspodele obeležja X i S (x), x R, empirijska fukcija raspodele uzorka obima iz populacije sa obeležjem X. Tada važi P {sup S (x) F (x) 0, } = 1. x R 6