Statistika Statistika je zastvea disciplia koja se bavi prikupljajem podataka, jihovim orgaizirajem (sistematizirajem) i aalizirajem, te iiterpretacijom dobiveih rezultata Sami podaci mogu biti umeričke i eumeričke prirode Statističke metode služe am da uočimo pravilosti i zakoitosti po kojima se vlada cijeli kolektiv, a e jeda odredea jedika Kao zaost statistika se pojavila relativo kaso, u 19 stoljeću, iako su se statističkim metodama služili još u starom vijeku Sam aziv ima porijeklo u latiskom jeziku, a veza je uz prikupljaje podataka koji su služili samo državoj upravi Daas se statističke metode i modeli primijejuju u mogobrojim stručim i zastveim djelatostima (tehici, ekoomiji, sociologiji, biologiji, fizici, medicii, meteorologiji, demografiji i dr) 1 Osovi statistički pojmovi Skup podataka kojeg proučavamo azivamo statističkim skupom Elemeti statističkog skupa (životije, biljke, osobe, stvari, poslovi subjekti, regije, države, ) odlikuju se ekim statističkim obilježjima (svojstvima, veličiama) Predmet statističke aalize isu sami elemeti statističkog skupa, već jedo ili više jihovih promatraih obilježja Razlikujemo kvatitativa (umerička) od kvalitativih (atributivih) obilježja Kod kvatitativih obilježja, vrijedosti obilježja možemo izraziti brojčaim podacima (visia, težia, kapacitet, treje, izos plaće, broj djece, ) i ad tim podacima možemo vršiti račuske operacije Kvalitativa obilježja izražavaju se eumerički (boja, vrsta proizvoda, spol, vjerska pripadost, sjedište tvrtke, mjesto rodeja, ) Ako kvatitativo obilježje može poprimiti vrijedosti samo iz koačog ili diskretog skupa, azivamo ga diskretim obilježjem Ako, pak, može poprimiti sve vrijedosti iz ekog itervala, ili više jih (ili čak sve reale vrijedosti), azivamo ga kotiuiraim obilježjem Vrsta obilježja aravo ovisi o karakteru obilježja: broj djece ili broj eopravdaih izostaaka očito su diskreta obilježja, a visia čovjeka ili tlak zraka kotiuiraa obilježja Kod promatraja kotiuiraih obilježja podatke uvijek grupiramo u razrede 1
Obilježje koje promatramo ozačit ćemo s X Promatrajem (mjerejem, bilježejem, opažajem, brojajem) vrijedosti obilježja X a svim elemetima statističkog skupa, ili ekog uzorka iz tog skupa, dobivamo iz podataka (vrijedosti) x 1, x 2, x 3, kojeg azivamo statističkim izom 2 Disktero statističko obilježje Neka statistički skup ima elemeata Promatrajmo a jemu diskreto obilježje X Registrirajem vrijedosti obilježja X dobivamo iz statističkih podataka x 1, x 2, x 3,, x Vrijedosti x i su elemeti skupa A = {a 1, a 2, a 3,, a k }, x i {a 1, a 2, a 3,, a k }, i = 1, 2,, Prebrojimo li koliko se puta svaka od vrijedosti a 1, a 2,, a k javlja u promatraom statističkom izu, dobivamo brojeve f 1, f 2,, f k koje azivamo frekvecijama vrijedosti a 1, a 2,, a k u izu statističkih podataka Dakle, vrijedost a 1 se u izu javlja f 1 puta, vrijedost a 2 se u izu javlja f 2 puta, itd Svakoj vrijedosti a j, j = 1,, k, možemo pridružiti i relativu frekveciju, Očigledo vrijedi i r 1 + r 2 + + r k = r j = f j f 1 + f 2 + + f k = r j = f j = 1 f j = = 1 Prikupljee podatke običo prezetiramo u tablici frekvecija i relativih frekvecija Vrijedosti a j Frekvecije f j Rel frekvecije r j a 1 f 1 r 1 a 2 f 2 r 2 Podatke možemo predočiti i grafički, crtajem grafikoa frekvecija i grafikoa relativih frekvecija - u koordiatom sustavu a os apscisa x aesemo vrijedosti a 1, a 2,, a k, a os ordiata y aesemo frekvecije f 1, f 2,, f k (odoso relative frekvecije r 1, r 2,, r k ) i ozačimo točke s koordiatama (a 1, f 1 ), (a 2, f 2 ),, (a k, f k ) (točke s koordiatama (a 1, r 1 ), (a 2, r 2 ),, (a k, r k )) Spojimo li ucrtae točke dužiama, dobivamo poligo frekvecija, odoso poligo relativih frekvecija 2
3 Kotiuirao statističko obilježje Neka statistički skup ima elemeata Promatrajmo a jemu kotiuirao obilježje X Registrirajem vrijedosti obilježja X dobivamo iz statističkih podataka x 1, x 2, x 3,, x Vrijedosti x i koje se pojavljuju u tom izu elemeti su skupa [a, b] R Budući da se medu podacima rijetko poavljaju iste vrijedosti, ema smisla račuati frekvecije pojavljivaja različitih vrijedosti, već je prirodo podatke sortirati u razrede Defiiramo brojeve a 0 < a 1 < a 2 < < a k i promatramo koliko je elemeata statističkog iza u svakom od razreda [a 0, a 1, [a 1, a 2,, [a k 1, a k Naravo, a 0 i a k biramo tako da je a 0 mi {x 1, x 2,, x } < max {x 1, x 2,, x } < a k Broj k ovisi o broju podataka i u praksi se običo uzima izmedu 10% i 30% od broja Razredi mogu biti ekvidistati (svi itervali su jedako široki) i eekvidistati Mi ćemo se baviti ekvidistatim razredima Ozačimo širiu razreda s d Očito je d = a k a 0 k Za svaki od razreda [a j 1, a j, j = 1,, k, odredimo - frekveciju f j, tj broj podataka u izu koji pripadaju itervalu [a j 1, a j, - relativu frekveciju - i srediu koja reprezetira razred r j = f j, a j = a j 1 + a j 2 Običo ove podatke zapisujemo u tablici frekvecija i relativih frekvecija Razredi Sredie razreda a j Frekvecije f j Rel frekvecije r j [a 0, a 0 a 1 f 1 r 1 [a 1, a 2 a 2 f 2 r 2 Kao i kod diskretog statističkog obilježja, očito vrijedi 3
i r 1 + r 2 + + r k = f 1 + f 2 + + f k = r j = f j = 1 f j = = 1 Podatke predočavamo grafički, crtajem grafikoa frekvecija i grafikoa relativih frekvecija tako da u koordiatom sustavu a os apscisa x aesemo sredie razreda a 1, a 2,, a k, a os ordiata y aesemo frekvecije f 1, f 2,, f k (odoso relative frekvecije r 1, r 2,, r k ) i ozačimo točke s koordiatama (a 1, f 1 ), (a 2, f 2 ),, (a k, f k ) (odoso točke s koordiatama (a 1, r 1 ), (a 2, r 2 ),, (a k, r k )) Spojimo li ucrtae točke dužiama, dobivamo poligo frekvecija odoso poligo relativih frekvecija Histogram frekvecija (histogram relativih frekvecija) dobijemo tako da a os x aesemo razrede, i izad svakog od jih acrtamo pravokutik visie jedake odgovarajućoj frekveciji (relativoj frekveciji) razreda 4 Numeričke karakteristike iza statističkih podataka Sortirajem i grafičkim prikazom stekli smo okviru sliku o podacima Sada bismo htjeli uvesti brojeve koji bi a eki ači reprezetirali dai iz podataka Takve brojeve azivamo umeričkim karakteristikama (parametrima) iza statističkih podataka Ovakvih parametara ima mogo, a mi ćemo spomeuti dva ajčešće korištea Ako je zada statistički iz x 1, x 2,, x, aritmetičku srediu (sredju vrijedost, prosjek) tog iza račuamo po formuli x = 1 (x 1 + x 2 + + x ) = 1 x i, Uočimo da je (x 1 x) + (x 2 x) + + (x x) = x i x = x x = 0 Najčešće am sama aritmetička sredia e daje dovoljo iformacija o podacima Npr prosjek godia osamdesetogodišje bake i tri četverogodišje uučice isti je kao i prosjek godia četiriju dvadesettrogodišjih djevojaka U drugom slučaju rasipaja podataka oko sredje vrijedosti x = 23 uopće ema Disperzija (varijaca) statističkog iza ajvažija je mjera rasipaja iza statističkih podataka oko sredje vrijedosti Račuamo je po formuli s 2 0 = 1 [ (x1 x) 2 + (x 2 x) 2 + + (x x) 2] = 1 (x i x) 2 4
Vrijedi s 2 0 = 1 (x i x) 2 = 1 (x 2 i 2x i x+x 2 ) = 1 x 2 i 2x 1 x i +x 2 1 1 = 1 x 2 i x 2, pa za račuaje disperzije možemo koristiti i formulu s 2 0 = 1 x 2 i x 2 Stadarda devijacija ili stadardo odstupaje dao je formulom σ = s 2 0 Može se pokazati da se u itervalu [x 2σ, x + 2σ] alazi ajmaje 75% svih podataka statističkog iza x 1, x 2, x, a da ih se u itervalu [x 3σ, x + 3σ] alazi ajmaje 89% U slučaju da podaci potječu iz diskretog obilježja, aritmetičku srediu i disperziju možemo račuati i s pomoću frekvecija Naime, vrijedi i s 2 0 = 1 x = 1 (a 1 f 1 + a 2 f 2 + + a k f k ) = 1 a j f j = [ (a1 x) 2 f 1 + (a 2 x) 2 f 2 + + (a k x) 2 f k ] = 1 a j r j (a j x) 2 f j = (a j x) 2 r j odoso, s 2 0 = 1 a 2 j f j x 2 = a 2 j r j x 2 Ako podaci potječu iz kotiuiraog obilježja, raču možemo pojedostaviti tako da ako grupiraja podataka u k razreda, umjesto prave aritmetičke sredie i disperzije statističkog iza, x = 1 x i, s 2 0 = 1 (x i x) 2, izračuamo veličie x = 1 a j f j, s 2 0 = 1 (a j x) 2 f j, 5
gdje je a j sredia j-tog razreda Pogreška koja se time čii ije velika, a raču se bito pojedostavljuje Ubuduće, dakle, u slučaju kotiuiraog obilježja, poistovjećujemo x i x, te s 2 0 i s2 0, smatrajući da je x = 1 a j f j i s 2 0 = 1 (a j x) 2 f j = 1 a j2 f j x 2 6