Statistika 1. Uvodna razmatranja o statistici
ZAŠTO STATISTIKA? Statistički način mišljenja jednog će dana za svakodnevni život građana postati jednako neophodan kao znanje čitanja i pisanja. H. G. Wells(1866-1946). Statistika je obrada brojčanih podataka radi jasnijeg prikazivanja. Statistička metodologija postala je u suvremenom životu donekle čak dio općeg obrazovanja i opće kulture, jer je npr. teško zamisliti danas čovjeka bilo koje struke, ako posjeduje visoko obrazovanje, da mu ne bi bili poznati pojmovi aritmetičke sredine, varijabiliteta i tome slično. 2
DESKRIPTIVNA STATISTIKA-opisuje jedan niz podataka, sažima podatke radi preglednosti (grupiranje, uređenje, grafički prikaz, osnovni pokazatelji-srednje vrijednosti i mjere disperzije) INFERENCIJALNA (ANALITIČKA) STATISTIKA omogućuje nam izvođenje zaključaka; uključuje postupke pomoću kojih na osnovi dijela podataka(uzorka) donosimo sud o karakteristikama cjeline(populacije). 4
Definicija Statistika je nauka o metodama za istraživanje masovnih pojava s pomoću brojčanog (Serdar, 1977, str. 1) izražavanja. 5
2. Osnovni pojmovi statistike Statistička masa Statistička jedinica Obilježja jedinica 6
Obilježje statističke jedinice To je svako ono svojstvo o kojem se prikupljaju podaci, koje karakterizira tu jedinicu i pomoću kojeg je razlikujemo od ostalih. Za jedinicu učenik to mogu biti: Ime i prezime, Dob, Spol, Mjesto rođenja, Nacionalna pripadnost, Škola koju pohađa, Razred, Odjeljenje, Uspjeh u školi, Visina, težina Rezultati u određenim testovima, Slobodne aktivnosti kojima se bavi, Izvanškolske aktivnosti kojima se bavi, Udaljenost stanovanja od škole, Socijalni status obitelji, Zvanje roditelja, Je li cijepljen protiv određenih zaraznih bolesti, 9
Sistematizacija obilježja Prostorna povezuju JSM s nekim geografskim lokalitetom: mjesto rođenje, zemlja porijekla Vremenska vrijeme ili trenutak s kojim je JSM povezana: godina rođenja (intervalna i trenutna) Stvarna (sva ostala) Atributivna i numerička Diskontinuirana i kontinuirana 10
Diskontinuirana i kontinuirana obilježja NUMERIČKA: Diskontinuirana obilježja - cjelobrojne vrijednosti: broj učenika, škola, razrednih odjela, učitelj, računala Kontinuirana obilježja decimalne vrijednosti: visina učenika, brzina trčanja, kapacitet pluća i sl. 11
Statistički podaci s numeričkim obilježjem mogu biti grupirani i negrupirani. -NEGRUPIRANI: Za svaka JSM iskazana vrijednost numeričkog obilježja -GRUPIRANI: Jedinice osnovnog skupa su prikazane prema istim ili sličnim vrijednostima numeričkog obilježja (grupe se zovu razredi) 12
Osnovni statistički pojmovi 13
14
15
Skale mjerenja Mjerenje je pridruživanje mjernih oznaka nekom objektu. Za razliku od prirodnih znanosti, u društvenim obično nema direktnih fizičkih skala, zato je definirano postojanje više vrsta mjernih skala: Nominalna skala (kategorije) Ordinalna skala (rangovi) Intervalna skala Omjerna skala 19
Nominalna skala Broj koji se navodi uz neki objekt služi samo kao identifikacija, tj. služi kategorizaciji (npr., kategorija spol- žene=1, muškarci=2) Nominalne skale ustvari i nisu nikakve skale, jer nam brojevi služe samo za identifikaciju Pr. brojevi na dresovima igrača Pr. boja očiju kod skupine ljudi Matematičko-statistički postupci koje možemo koristiti na ovoj skali su: Brojenje (frekvencije) dominantna vrijednost proporcija Hi-kvadrat test Fi Cramerov fi Koeficijent kontingencije 20
Ordinalna skala Dosta naprednija od nominalne Na ovoj skali postoji određen redoslijed, tj. služe za određivanje redoslijeda Njima se određuje što je veće, a što manje, ali ne i razlika među vrijednostima Pr. top ljestvice Pr. brojevi na kućama u ulici Korištene računske operacije Sve iz nominalne skale + Centralna vrijednost Koeficijent korelacije Ro koeficijent korelacije Tau Teta Koeficijent konkordancije Poluinterkvartilno raspršenje 21
Intervalna skala Poznat je redoslijed vrijednosti, ali i razlika među njima Primjerice, razlika između IQ-a od 80 i 90, jednaka je kao kod 110 i 120, jer je u tim skalama neka definirana razlika jednaka na svakom dijelu skale Mnogi rezultati u društvenim znanostima često su na ovoj skali, npr., vrijednost koeficijenta inteligencije Nulta vrijednost određena je arbitrarno, tj. nije apsolutna nula Na ovoj skali ne možemo dijeliti jer ne postoji apsolutna nula 22
Pr. ako je A B = C, onda je i (A + D) (B + D) = C Pr. 5 2 = 3, onda je (5 + 4) (2 + 4) = 3 Ovo pravilo mora vrijediti na intervalnoj skali Celzijevi stupnjevi, -273,15 C je apsolutna nula IQ=0, apsolutna nula? Korištene računske operacije: Sve iz nominalne i ordinalne skale + Aritmetička sredina Standardna devijacija Z-vrijednost Koeficijente korelacije Parcijalnu i multiplu korelaciju 23
Omjerna skala Kao kod intervalne, poznat poredak, razlika među vrijednostima/rezultatima, samo što ovdje postoji i apsolutnu nulu Definirani brojčani odnosi uvijek imaju jednake omjere (konstante) na bilo kojem dijelu skale Pr. A / B = C => A * D / B * D = C Pr. 10 / 2 = 5 => 10 * 2 / 2 * 2 = 5 Većina fizikalnih jedinica pripada ovoj skali: metri, vrijeme (sekunda), težina (kilogram), sila, otpor 24
Zadatak 1. Nominalna skala 2. Ordinalna skala 3. Intervalna skala 4. Omjerna skala 1. Test znanja anorganske kemije 2. Broj otkucaja u testu brzina na pisaćem stroju 3. Prikupljanje podataka o profesiji roditelja 4. Veličina školskog prostora na jednog učenika 5. Redoslijed škola u natjecanju iz ekologije 6. Broj bodova u baždarenoj skali anksioznosti 33
4. Sređivanje statističkih podataka Signiranje Grupiranje Grafički i Tablični prikazi 34
Signiranje Signiranje predstavlja određivanje oznaka (šifre ili kodovi) za svaki pojedini podatak. Kategorizacija je predstavlja postupak u kojem se neki podaci raspoređuju u određene matrice ili kategorije. 35
Grupiranje Zabilježba znakova, ili Sortiranje dokumenata. Grupiranje je sažimanje rezultata koji se značajno ne razlikuju po kvantitativnoj vrijednosti u određeni broj klasa ili razreda. 36
Broj jedinica statističke mase u razredu je frekvencija razreda. Apsolutne frekvencije navedene u apsolutnim brojevima Relativne frekvencije - dobijemo tako da svaku apsolutnu frekvenciju podijelimo sumom frekvencija; suma rel.fr. uvijek je jednaka 1 Kumulativne frekvencije dobijemo zbrajanjem numeričkog niza odozgo prema dolje ili obrnuto; razlikujemo ( manje od i više od kum.niz). Korigirane frekvencije ukoliko veličina razreda nije ista ne možemo uspoređivati frekvencije; računamo korig. tako da svaku apsolutnu dijelimo s intervalom razreda 37
Sređivanje podataka u razrede ima prednosti: -Podatke možemo lakše i brže statistički obraditi -Postoji očit odnos između veličine rezultata i čestine kojom se on javlja -Izjednačavanjem numeričke vrijednosti rezultata unutar jednog razreda moguća je veća točnost izračunavanja statističkih vrijednosti 38
Razredi moraju biti jednaki po veličini Svaki razred mora obuhvatiti jednako velik interval: Svaki razred ima donju i gornju graničnu vrijednost: Razlika između njih se zove INTERVAL oznaka i -Što je interval veći više rezultata ulazi unutar tog intervala -Ne smije biti premalen jer će frekvencija biti relativno mala - interval: odredimo raspon rezultata kojeg podijelimo s željenim brojem razreda -RASPONOM nazivamo razliku između najvećeg i najmanjeg rezultata 39
RAZREDNA SREDINA predstavlja točku koja se nalazi na sredini između gornje i donje razredne granice. Matematičkim putem razredna sredina se računa tako da se zbroje gornja i donja stvarna granica i njihov zbroj se podijeli s dva. oznaka X ili n (ovisno o literaturi) Prave gornje granice razreda dobijemo tako da uzmemo sredinu između gornje vrijednosti jednog razreda i donje vrijednosti idućeg razreda. 40
PRIMJER: Na jednom čovjeku je izvršeno 50 mjerenja vremena reakcije i dobili smo slijedeće rezultate: 196 173 186 189 173 165 167 160 140 174 180 151 157 164 154 169 190 180 163 157 169 167 165 160 177 165 157 177 159 175 166 173 185 177 184 183 162 192 174 162 165 172 158 169 146 170 171 169 168 153 Broj razreda obično između 10 i 20 negdje 7 i 15 (manji broj mjerenja uzimamo i manji broj razreda) Grupiranje: 1. Odredimo raspon: Xmax. Xmin = 196-140 = 56 2. Odlučimo s kojim brojem razreda ćemo raditi (npr. 12) 3. Izračunamo interval: 56/12= 4,67 = 5 4. Formiramo razrede počevši s 140 (može i manje), razred mora obuhvatiti sve rezultate od 140 do 144 jer je i=5, svaki razred polazi za jedinicu više nego što prethodni završi 5. Sredina razreda: 139,5+144,5/2=142 6. Relativna frekvencija: 1/50= 0.02 7. Kumulativna frekvencija: 1, 1+1=2, 2+3=5 itd 41
Razred (ista točnost) Frekvencij a Razred (veća točnost) Sred.raz reda Relativna f Kumulativ na f 140-144 1 139,5-144,5 142 0,02 1 145-149 1 144,5-149,5 147 0,02 2 150-154 3 149,5-154,5 152 0,06 5 155-159 5 154,5-159,5 157 0,1 10 160-164 6 Itd. 162 0,12 16 165-169 12 167 0,24 28 170-174 8 172 0,16 36 175-179 4 177 0,08 40 180-184 4 182 0,08 44 185-189 3 187 0,06 47 190-194 2 192 0,04 49 195-199 1 197 0,02 50 50 1 42
Sređivanje podataka na osnovi diskontinuiranih kvalitativnih karakteristika zove se KVALITATIVNA KLASIFIKACIJA. -Prikazuje samo činjenično stanje, ne daje odgovor na pitanje -Za interpretaciju potreban viši stupanj statističke analize -Podatke prikazujemo u tablicama i grafikonima -U statistici često bez slike ne možemo dobiti pregled nad rezultatima; grafički način mišljenja - brže i lakše razumijevanje nekih procesa i uspješnija komunikacija među stručnjacima 43
1. Kada se radi o deskripciji međusobno nezavisnih ili slabo zavisnih podataka najčešći način grafičkog prikazivanja je u horizontalnim ili vertikalnim stupcima i u kružnim dijagramima 2. Kada imamo rezultate koji se razvijaju u vremenu (npr. znanje, temperatura) ili koji se grupiraju oko neke reprezentativne vrijednosti služimo se grafičkim sistemom koordinantnog sustava. Položaj točke je određen s dvije koordinate međusobno okomite; apscisa os x = vrijednosti mjerenja ordinata os y = frekvencija 44
Ako su rezultati grupirani u razrede na apscisu unesemo: razrede tada rezultate prikazujemo histogramom (sastoji se od niza pačetvorina kojima površina (visina) odgovara frekvenciji pojedinog razreda ili sredinu razreda tada rezultate prikazujemo poligonom frekvencija (iznad sredine svakog razreda označimo točku koja odgovara frekvenciji razreda 45
Distribucija rezultata varijable auditivno razumijevanje (AR) u razrede,apsolutne, kumulativne i relativne frekvencije, te sredine razreda REZULTATI X FREKVENCIJE F RELATIVNE FREKVENCIJE F R KUMULATIVNE FREKVENCIJE F K KUMULATIVNE RELATIVNE FREKVENCIJE (F K ) R SREDINE RAZREDA SR 11 16 3 0,09 3 0,09 13,5 16 21 8 0,25 11 0,34 18,5 21 26 11 0,35 22 0,69 23,5 26 31 6 0,19 28 0,86 28,5 31 36 3 0,09 31 0,97 33,5 36 41 1 0,03 32 1,00 38,5 32 1,00 46
Frekvencije Grafički prikaz distribucije frekvencija pomoću histograma 12 10 8 6 4 2 Histogram 0 11-16 16-21 21-26 26-31 31-36 36-41 47
Frekvencije Grafički prikaz distribucije frekvencija pomoću poligona frekvencija 12 10 Poligon frekvencija 8 6 4 2 0 13,5 18,5 23,5 28,5 33,5 38,5 48
Kumulativne frekvencije Grafički prikaz kumulativnog grafa Kumulativni graf 35 30 25 20 15 10 5 0 16 21 26 31 36 41 49
Tablični prikaz zaglavlje polje Zbrojni red prvi stupac stupci Zbrojni stupac 50
Jednostavne tablice Šk. god. Broj škola 1954./55. 717 1955./56. 854 1956./57. 794 1957./58. 677 1958./59. 722 1959./60. 792 1960./61. 932 51
Kombinirana tablica (tablica s dva ulaza) Škola Slobodna aktivnost Broj članova po spolu M. Ž. Ukupno A Tehnička 12 8 20 Sportska 34 15 49 Umjetnička 20 15 35 Ukupno 66 38 104 B Tehnička 23 24 47 Sportska 17 26 43 Umjetnička 32 41 73 Ukupno 72 91 163 52
Tablica s tri ulaza Škola Spol Broj članova po slobodnim aktivnostima tehnička sportska umjetnička ukupno A M. 12 34 20 66 Ž. 8 15 15 38 Ukupno 20 49 35 104 B M. 23 17 32 72 Ž. 24 26 41 91 Ukupno 47 43 73 163 53
Zadatak Studenti prve godine su pisali ispit iz statistike i postigli su sljedeće rezultate izražene u postotcima: 50 40 32 36 37 41 47 52 64 41 44 43 28 31 28 28 42 35 33 37 27 0 49 52 49 46 42 41 46 43 43 43 47 43 43 39 44 41 57 56 43 35 35 Grupirajte podatke i prikažite ih u tablici. Razredni interval prvog razreda neka bude 20. Nominalna vrijednost donje granice prvog razreda neka bude 0, a gornja vrijednost posljednjeg razreda neka bude 99. 54
Rješenje Broj bodova u ispitu iz statistike 80-99 0 60-79 1 40-59 27 20-39 14 0-19 1 Ukupno 43 Broj studenata 55
Zadatak Rezultate dobivene na ispitu iz statistike grupirajte u razrede čiji interval će biti 10 i počevši s prvim razredom koji ima donju nominalnu granicu 0. Podatke unesite u tablicu. Nacrtajte grafikon poligona frekvencija na temelju dobivenih rezultata. 56
Rješenje Broj bodova Broj studenata 90-99 0 80-89 0 70-79 0 60-69 1 50-59 5 40-49 22 30-39 10 20-29 4 10-19 0 0-9 1 Ukupno 43 57
Rješenje Rezultati ispita iz statistike 25 20 15 10 5 0 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 58
Razredne granice i razredni interval Nominalna i stvarna granica Broj učitelja u aktivu 26-30 2 21-25 5 16-20 10 11-15 12 6-10 3 1-5 1 Ukupno 33 Broj aktiva 60
Nominalne i stvarne granice Nominalna granice prvog intervala su 1 (donja) i 5 (gornja). Stvarna granica trećeg intervala su 10,5 (donja) i 15,5 (gornja). Razredni interval se računa tako da se od gornje stvarne granice oduzme donja stvarna granica. Npr. 15,5-10,5 = 5. 61
Zadatak REDNI BROJ UČENIK X Y 1. A. L. 38 35 2. B. Ž. 24 18 3. B. A. 48 44 4. B. N. 47 52 5. Ć. D. 33 28 6. Č. M. 44 49 7. E. A. 23 15 8. F. M. 41 45 9. K. M. 34 34 10. K. M. 26 19 11. L. A. 29 28 12. P. K. 47 43 13. R. M. 24 16 14. R. M. 25 29 15. S. T. 37 34 16. V. I. 49 49 17. Z. I. 34 30 Sredite podatke iz tablice tako da ih grupirate u razrede s jednakim razrednim intervalom koji iznosi 10. Prvi razred ima donju nominalnu granicu 1. Podatke prikažite tablično i u obliku histograma. 62
Rješenje Broj bodova Broj učenika X 51-60 0 1 1 41-50 6 5 11 31-40 5 3 8 21-30 6 4 10 11-20 0 4 4 1-10 0 0 0 S 17 17 34 Y S 63
Rješenje Rezultati ispita brzine čitanja 7 6 5 4 3 2 1 0 51-60 41-50 31-40 21-30 11-20 1-10 X Y 64
5. SREDNJE VRIJEDNOSTI MJERE CENTRALNE TENDENCIJE Mjere centralne tendencije nam služe kako bi što bolje reprezentirali tendiranje ka nekoj vrijednosti u nekoj populaciji ovisno o pojavi koju mjerimo Vrijednosti oko kojih se gomilaju rezultati najbolje reprezentiraju ono što je karakteristično i tipično za čitav skup rezultata Usporedna točka za pojedinačne vrijednosti Srednja vrijednost razdiobe frekvencija je prosječna vrijednost numeričkog obilježja jedinica mase. 65
Središnje vrijednosti dijelimo na : IZRAČUNATE : ARITMETIČKA SREDINA HARMONIJSKA SREDINA GEOMETRIJSKA SREDINA POZICIJSKE: MEDIJAN (centralna vrijednost) MOD (dominantna vrijednost) 66
Izračunate središnje vrijednosti: Pod utjecajem svakog pojedinačnog rezultata Na njih osobiti djeluju ekstremni rezultati Pri obradi pedagogijskih podataka najviše se upotrebljava aritmetička sredina Središnje vrijednosti položaja: Nisu toliko osjetljive na numeričke vrijednosti svakog pojedinačnog rezultata Na njih djeluje rang rezultata i čestina rezultata 67
Središnje vrijednosti vrijednosti koje prezentiraju skupinu rezultata, u slučaju kada rezultati imaju tendenciju grupiranja oko neke vrijednosti. Termin prosječan? Najčešći Srednji Prosječni Statistički parametri središnjih vrijednosti: Aritmerička sredina Mod Medijan Geometrijska sredina Harmonijska sredina
ARITMETIČKA SREDINA (M) Najčešća i najpoznatija mjera prosjeka Smije se računati kada su rezultati: a) na intervalnoj i omjernoj mjernoj skali b) potječu iz istovrsnog mjerenja (istog ispitivanja) c) dovoljno velik broj mjerenja (min N=30) d) distribucija rezultata ne smije se (mnogo) razlikovati od normalne distribucije
Aritmetička sredina Dakle, uvjet je da distribucija bude simetrična, da postoji jasna tendencija grupiranja Aritmetička sredina osjetljiva je i na vrijednost i na broj rezultata! -vrijednost- više individualne vrijednosti, viša M -broj- veći broj rezultata, manja promjena M dodavanjem novih rezultata Formula za izračunavanje: M = Σ x / N Suma (zbroj) svih rezultata, podijeljen brojem tih rezultata
Dob studenata Informacijskih znanosti 15 13 17 21 21 21 21 21 12 21 22 21 27 21 21 23 21 21 21 20 21 21 30 22 26 28 Izračunajte prosječnu dob vaše studijske grupe! M= ΣX/N= 546/26 = 21,1 godina
TEŽIŠNA VRIJEDNOST: ARITMETIČKA SREDINA - simbol = X ili M (mean) - težište svih rezultata nekog skupa - dobije se kada se individualne vrijednosti obilježja u nekom skupu podijele sa brojem elemenata skupa - uvijek se interpretira kao PROSJEK - suma odstupanja pojedinih članova niza od X uvijek je jednaka 0 - kvaliteta aritmetičke sredine ovisi o karakteru numeričkog niza iz kojeg je računamo; uz X uvijek je potrebno izračunati i odstupanja od nje 72
Suma svih rezultata na nekoj varijabli podijeljena sa brojem tih rezultata naziva se aritmetička sredina. Aritmetička sredina, koja se još naziva i prosječna vrijednost, računa se po formuli X gdje je X rezultat, a n broj ispitanika. Primjenjujemo kod negrupiarnih rezultata. n X 73
Djeca sa oštećenjem vida postigla su slijedeće rezultate na varijabli "auditivno razumjevanje" (AR): 15 23 27 35 21 28 18 27 21 18 19 23 11 19 37 23 24 31 21 30 32 19 30 28 21 19 15 24 20 20 23 21 Izračunati aritmetičku sredinu. Rješenje: 15 23 27 21 744 X 23,25 32 32 74
PRIMJER: Na jednom čovjeku je izvršeno 50 mjerenja vremena reakcije i dobili smo slijedeće rezultate: 196 173 186 189 173 165 167 160 140 174 180 151 157 164 154 169 190 180 163 157 169 167 165 160 177 165 157 177 159 175 166 173 185 177 184 183 162 192 174 162 165 172 158 169 146 170 171 169 168 153 Zbrojimo sve rezultate i podijelimo ih njihovim brojem X = 8458/50 = 169,16 Ali postupak je dugotrajan i naporan kod velikog broja podataka, zato ih grupiramo u razrede. 75
Razred Frekvencija (f) Sredina razreda (X) 140-144 1 142 142 145-149 1 147 147 150-154 3 152 456 155-159 5 157 785 160-164 6 162 972 165-169 12 167 2004 170-174 8 172 1376 175-179 4 177 708 180-184 4 182 728 185-189 3 187 561 190-194 2 192 384 195-199 1 197 197 50 fx= 8460 fx 76
Aritmetičku sredinu računamo tako da sredinu svakog razreda (X) pomnožimo frekvencijom pojedinog razreda (f) i sumu tih umnožaka podijelimo brojem rezultata : X = fx / N = 8460/50 = 169,2 77
Zajednička aritmetička sredina Ako u svakoj skupini nema jednaki broj rezultata: zajednička aritmetička sredina ne smije se računati tako da se zbroje sve ostale aritmetičke sredine. Potrebno ju je računati na način: Da se svaka `posebna` aritmetička sredina pomnoži s brojem rezultata, te se svi takvi rezultati podijele sa sumom svih mjerenja.
ZAJEDNIČKA ARITMETIČKA SREDINA Ako imamo grupe s vlastitim aritmetičkim sredinama I (N=8) II (N=6) III (N=12) 167 171 163 153 186 170 162 170 170 162 174 176 150 180 175 180 188 193 173 176 177 176 215 183 182 185
Zajednička aritmetička sredina 16 7 18 0 I (N=8) II (N=6) III (N=12) 17 1 17 5 16 3 18 0 15 3 18 8 18 6 19 3 17 0 17 3 16 2 17 6 17 0 17 7 17 0 17 6 16 2 21 5 17 4 18 3 17 6 18 2 15 0 18 5 175,27
CENTRALNA VRIJEDNOST: MEDIJAN C Centralna vrijednost (C) je vrijednost koja se u nizu rezultata poredanih po veličini nalazi točno u sredini. -ona je središnja vrijednost jer ima jednak broj rezultata koji su od njega veći i manji -Prednost centralne vrijednosti pred aritmetičkom sredinom sastoji se u tome što na nju ne utječe vrijednost pojedinih rezultata, pa prema tome jedan vrlo ekstremni rezultat neće ništa promijeniti vrijednost C, koja je uvjetovana samo brojem rezultata. 84
-Kod negrupiranih podataka medijan ćemo odrediti tako da rezultate rangiramo prema veličini i nađemo vrijednost koja je točno u sredini niza -Neparan broj: medijanu odgovara jedna stvarna vrijednost (stvarni) -Parni broj: medijan je polovina zbroja dvaju rezultata koji se nalaze oko sredine niza (izvedeni) Bitno je znati redno mjesto rezultata koji predstavlja Medijan Kod NG rezultata određuje se tako da polovici broja dobivenih rezultata pribrojimo 0,5 Rc = N/2 + 0,5 -važno: Rc redno mjesto C vrijednost C 85
Primjer: Ako u jednom mjerenju dobijemo ovih 11 rezultata: 7 9 4 7 8 7 10 6 6 9 8, pa ih poredamo po veličini: 4 6 6 7 7 7 8 8 9 9 10. Budući da imamo 11 rezultata, srednji rezultat je šesti rezultat (jer imamo 5 rezultata ispred i 5 rezultata iza njega) pa je C=7, položaj rezultata koji zauzima centralna vrijednost, može se odrediti pomoću formule: Položaj C= (N+1)/2. Ako je broj rezultata paran, centralna se vrijednost izračunava tako da se zbroje dva srednja rezultata, a suma podijeli s 2: Primjer: Kad bismo imali rezultate: 4 5 5 6 8 9, C= (5+6)/2 = 5,5. 86
Kad su rezultati grupirani potrebno je najprije odrediti kumulativne frekvencije, potom odredimo medijalnu frekvenciju (N/2) i iz kumulativnog grafa očitamo C. 1.Redno mjesto kojega vrijednost predstavlja C odredit ćemo tako da broj rezultata podijelimo s dva 2.Pogledamo u koji razred spada taj rezultat i potom linearnom interpolacijom odredimo vrijednost medijana C a N / 2 n a- donja granica razreda u kojoj se nalazi medijan N- ukupan broj rezultata F- zbroj kumulativnih frekvencija svih rezultata do donje gr. u kojoj se nalazi medijan n- broj apsolutnih frekvencija u razredu u kojem se nalazi medijan F i 87
Primjer: 10 25 33 37 39 41 43 47 53 60 11 25 34 37 39 42 44 48 53 62 18 27 35 38 39 42 45 49 56 64 20 28 36 38 40 43 46 50 57 71 22 29 36 38 41 43 47 52 58 72 Negrupirani: N= 50 Rc= 50/2 + 0,5= 25,5 C= 41 Grupirani: N=50, Rc= 50/2= 25 C= 36,5+ (25-15 /19 10) C=36,5 + ( 0,52 10)= =36,5+5,2=41,7 razred x f fc 7-16 11,5 2 2 17-26 21,5 5 7 27-36 31,5 8 15 37-46 41,5 19 34 47-56 51,5 9 43 57-66 61,5 5 48 67-76 71,5 2 50 88
DOMINANTNA VRIJEDNOST: MOD D Dominantna vrijednost (D)je ona vrijednost koja je u nizu mjerenja najčešće postignuta (dakle koja dominira ). Određuje se bez posebnog računa - Prednost D vrijednosti ispred aritmetičke sredine je što na nju ne utječe ni broj ni vrijednost rezultata, već samo frekvencija pojedinih rezultata -dominantnu vrijednost možemo koristiti kad je broj rezultata dovoljno velik i kad samo jedna vrijednost dominira -NG podatci: D odgovara vrijednost rezultata koji je najčešće dobiven -G podatci prikazani razredima: određivanje Moda je složenije 89
Primjer:Uzorak od 550 bračnih parova ima ukupno 1660 djece. Prosjek za utvrđivanje gradnje stanova računao bi na 3,02 djeteta po bračnom paru i znatno pogriješio u procjeni. Broj djece: 0 1 2 3 4 5 6 7 8 9 10 11 12 Broj bračnih parova s tim brojem djece: 70 90 108 86 70 47 30 20 15 5 4 3 2. D vrijednost je dvoje djece (108 bračnih parova). 90
- Ukoliko veličine razreda nisu jednake najprije izračunamo korigirane frekvencije - Modalni razred (b) je onaj s najvećom kor.frekvencijom, - Ukoliko su frekvencije prije (a) i poslije (c) modalnog razreda jednake, tada je Mod točno u sredini donje (L1) i gornje (L2) granice modalnog razreda. - Ako je frekvencija a veća od c Mod će se pomaknuti prema donjoj granici razreda i obrnuto. D L 1 b a b c b a i 91
Godine života Broj stanovnika (f) Veličina razreda (i) Korigirane frekvencije 0-5 280,056 5 56.011,2 5-10 314,697 5 62.939,4 10-20 657,716 10 65.771,6 a 20-40 1403,657 20 70.182,9 b 40-60 1221,144 20 61.057,2 c 60-75 618,090 15 41.206,0 75 i više 216,898 15 14.459,9 ukupno 4 712,258 D 20 70.182,9 65.771,6 70.182,9 65.771,6 70.182,9 61.057,2 20 20 4.411,3 4.411,3 9.125,7 20 20 6,52 26,52 92
MOD (dominantna vrijednost, D) Predstavlja rezultat s najvećom frekvencijom (broj koji dominira) To je nekakva mjera prosječne vrijednosti, a na nju ne utječe ni broj ni vrijednost rezultata, samo frekvencija Primjer: Broj djece kod bračnih parova Br. djece 0 1 2 3 4 5 6 7 8 9 10 11 12 f 70 90 10 8 86 70 47 30 20 15 5 4 3 2 *zajednička aritmetička sredina?
MEDIJAN (centralna vrijednost, C) Medijan predstavlja rezultat koji se nalazi na sredini kada rangiramo sve rezultate Koristi se na svim skalama, osim na nominalnoj Prikladniji od aritmetičke sredine, kod prisustva asimetričnih distribucija i ekstremnih rezultata Na medijan ne utječe vrijednost pojedinih rezultata, nego samo broj rezultata. Formula za računanje: Rc = (N + 1) / 2 *Rc- označava mjesto rezultata, ne i sami rezultat! Ako je broj rezultata paran, medijan se izračunava tako da se zbroje dva srednja rezultata i podijele se s dva
Medijan (C) Primjer: Iz navedena dva skupa podataka izračunajte aritmetičku sredinu i medijan I.Sku p II. Skup I.Sku p Rang II. Skup rang 6 5 5 5 3 4 5 7 5 5 6 5 5 5 3 4 5 7 5 25 3 4 5 5 5 5 5 5 6 7 3 4 5 5 5 5 5 5 6 25
I.Sku p Rang II. Skup rang Medijan (C) 3 4 5 5 5 5 5 5 6 7 3 4 5 5 5 5 5 5 6 25 M1 = 5; Rc1= (10+1)/2= 5,5 (mjesto medijana) C1= (5+5)/2=5 M2= 7; Rc2= (10+1)/2= 5,5 C2= 5
6.MJERE VARIJABILNOSTI RASPRŠENJA REZULTATA Kod mjerenja mnogih pojava možemo opaziti da se rezultati grupiraju oko jedne srednje vrijednosti. Jedino pod tom pretpostavkom i imamo pravo računati neku vrijednost, npr. aritmetičku sredinu, jer želimo da nam ona na neki način reprezentira sve naše rezultate. Naime, sama aritmetička sredina nije nam još nikakva garancija da se rezultati grupiraju oko te aritmetičke sredine i zato je uvijek potrebno znati kako i koliko se oni grupiraju, tj. da li nam je dobivena aritmetička sredina dobar ili loš reprezentant naših rezultata. 97
RASPON REZULTATA Najjednostavnija (ali i najnetočnija) mjera grupiranja rezultata oko neke srednje vrijednosti je tzv. raspon, tj. razlika između najvećeg i najmanjeg rezultata. Primjer: Prilikom dva puta mjerenja po 10 mjerenja neke pojave, dobili smo ova dva niza rezultata (rezultati su poredani po veličini): 1.mjerenje: 8 8,5 8,5 9 9 9 9 9,5 9,5 10 2.mjerenje: 1 2 3 5 9 9 13 15 16 17. U oba slučaja suma rezultata = 90 i aritmetička sredina = 9,0 što govori da se u prvom mjerenju rezultati bolje grupiraju oko aritmetičke sredine, a u drugom ne. 98
U prvom je slučaju raspon 10 8 = 2, a u drugom slučaju 17 1 = 16. Prema tome, prva aritmetička sredina mnogo je vrednija, jer ona znatno reprezentira rezultate iz kojih je dobivena. Međutim, raspon je vrlo nesigurna i varljiva mjera varijabilnosti rezultata, jer bilo koji osamljeni ekstremni rezultat znatno povećava raspon a da se grupacija rezultata oko aritmetičke sredine ipak nije bitno promijenila. Osnovni se nedostatak raspona sastoji u tom što je on obično to veći što je veći broj mjerenja neke pojave. 99
Raspon Najjednostavnija, ali i najnetočnija mjera grupiranja rezultata oko neke srednje vrijednosti Razlika između najvećeg i najmanjeg rezultata Raspon se povećava povećanjem broja rezultata Nedostaci: ako imamo jedan ekstreman rezultat, bitno utječe na raspon, onda ne dobivamo pravu sliku I II III IV N=2 N=5 N=5 N=10 163 173 580 164 165 173 173 170 165 165 190 166 166 184 146 146 187 154 192 177 189 158 2 27 434 38
SREDNJE ODSTUPANJE NEGRUPIRANI PODACI: Zanima li nas prosječna veličina odstupanja pojedinačnih rezultata (bez obzira na smjer odstupanja), možemo izračunati srednje odstupanje prema formuli srednje odstupanje = D X N X 101
U formuli oznake u zagradi predstavljaju apsolutnu veličinu odstupanja, dakle bez obzira na predznak. Primjer: Ako imamo ove rezultate: Rezultati: 5 7 4 6 5 6 5 2 4 6/ Σ= 50, X = 50/10 = 5,0 Odstupanja: 0 2 1 1 0 1 0 3 1 1/ Σ= 10 Srednje odstupanje = 10/10 = 1 Rezultati, prema tome, prosječno odstupaju od aritmetičke sredine za 1. 102
103
Rez 5 7 4 6 5 6 5 2 4 6 Ods t 0 2 (-)1 1 0 1 0 (-)3 (-)1 1 M=5,0; N=10 SO= (0+2+1+1+0+1+0+3+1+1)/10=10/10= 1
INTERKVARTILNO RASPRŠENJE Q - Računa se kao razlika između vrijednosti rezultata koji se nalaze na granici između 1. i 3. četvrtine rezultata poredanih po veličini 2, 4, 6, ) 8, 10, 12, 14, 16, 18, ( 20, 22, 24 Q = 18-8 = 10 Ako su podaci grupirani potrebno je odrediti donji kvartil Q1 i gornji kvartil Q3, a interkvartil se određuje : Q = Q3 Q1 105
Redno mjesto prvog kvartila odgovara rezultatu N/4, a trećeg kvartila N/4 3 Donji i gornji kvartil se računa analogno izračunavanju medijana i n F N a Q 4 / 1 i n F N a Q 3 4 / 3 106
R f fc 8-13 1 1 14-19 4 5 20-25 9 14 26-31 15 29 32-37 25 54 Q 1 25,5 25,5 7,25 15 21,2514 15 6 6 28,40 38-43 13 67 44-49 10 77 50-55 6 83 56-61 2 85 Q 3 37,5 37,5 9,75 13 63,7554 13 6 42 6 Q Q Q 42 28,40 3 1 13,6 107
STANDARDNA DEVIJACIJA Kada bismo prosječno odstupanje računali vodeći računa o predznaku, onda bismo uvijek kao sumu dobili nulu. Razlog tome već nam je poznat: aritmetička sredina, kao težište rezultata, je vrijednost od koje suma odstupanja iznad i ispod nje uvijek iznosi 0. Jedan od načina da se izbjegnu predznaci odstupanja je taj da se odstupanja kvadriraju. Ako tako kvadrirana odstupanja zbrojimo i izračunamo im aritmetičku sredinu, dobit ćemo mjeru varijabiliteta koja se u statistici naziva varijanca. s 2 X N X 1 2 108
Međutim korijen iz varijance može se kako ćemo vidjeti prikazati kao potpuno definirani razmak na skali rezultata. Taj drugi korijen iz varijance nazvan je standardna devijacija i označava se sa s ili S.D. Ili σ, i to zato što se ta mjera koristi kao standard za mjerenje varijabiliteta rezultata. s s 2 109
X 1 1 X 1 X X 1 1 X 1 2 8-1 1 8,5-0,5 0,25 8,5-0,5 0,25 9 0 0 9 0 0 s 3 9 0,333 0,58 9 0 0 9 0 0 9,5 0,5 0,25 9,5 0,5 0,25 10 1 1 =90 =3,00 X 1 9,0 110
Standardna devijacija pokazuje nam koliko vrijedi dobivena aritmetička sredina. Kada su rezultati simetrično i normalno grupirani oko aritmetičke sredine onda je u intervalu koji obuhvaća, 68,26 % svih rezultata, odnosno X 2S 95,44 % svih rezultata i konačno X 3S 99,73 % svih rezultata. Stoga ukoliko u našem primjeru na jednu i na drugu stranu dodamo vrijednost standardne devijacije aritmetičkoj sredini: ( 9-0,58=8,42 tj. 9,0+0,58=9,58), 68,26 % svih rezultata nalazi se između 8,42 i 9,58., X 1S 111
KOEFICIJENT VARIJABILNOSTI Kada su nam poznate aritmetička sredina i standardna devijacija nekih rezultata, onda su ti rezultati potpuno definirani i možemo ih uspoređivati s nekim drugim rezultatima. Ako imamo dvije različite aritmetičke sredine teško je na prvi pogled odmah ustanoviti koji rezultati relativno više variraju? Da bismo mogli međusobno uspoređivati varijabilnost različitih pojava i svojstava, služimo se tzv. koeficijentom varijabilnosti (V)koji nam pokazuje koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije: V S 100 X 112
Koeficijent varijabilnosti Ako postoje dvije jednake aritmetičke sredine i njihove standardne devijacije, onda je na temelju s. d. relativno lako zaključiti koji rezultati više variraju. Međutim, kada se uspoređuju različite aritmetičke sredine teško je procijeniti samo na temelju s. d. koji su rezultati relativno varijabilniji. Da bi se mogla uspoređivati varijabilnost različitih pojava, koristi se KOEFICIJENT VARIJABILNOSTI koji pokazuje koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije. V S 100 X
Koeficijent varijabilnosti vrlo je korisna mjera u svim onim slučajevima kada želimo znati: u kojem svojstvu neka grupa varira više, a u kojem manje; koja od grupa varira više, a koja manje u istom svojstvu Primjer: Jednim mjerenjem zagrebačke školske omladine utvrđeno je da 10-godišnji dječaci (N=612) imaju visinu 134,4, Sv= 6,06, a težinu 29,2 kg, St= 3,89 kg. Variraju li više dječaci u visini ili težini? V s 100 X V v 6,06100 134,4 4,51% V t 3,89100 29,2 13,32% 114
Prilikom istog mjerenja utvrđeno je da 10- godišnje djevojčice (N=684) imaju visinu 134,9, Sv=6,43, a težinu 29,7, St=4,78. Variraju li u visini i u težini više dječaci ili djevojčice? V s 100 X V vdv 6,43100 134,9 4,77% V tdv 4,78100 29,7 16,09% Prema tome, djevojčice variraju i u visini i u težini više od dječaka. 115
Frekvencija 7. NORMALNA RASPODJELA REZULTATA Ako su svi rezultati nekog mjerenja jednaki tada grafički prikaz te distribucije izgleda kao: Svi rezultati su isti 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 Rezultat 116
Frekvencije Kad bi svi rezultati bili međusobno različiti i ako ne bi bilo grupiranja rezultata oko neke srednje vrijednosti onda bi grafički prikaz takve distribucije bio kao: Grafički prikaz distribucije ako je frekvencija rezultata 1 1,2 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 8 9 Rezultati (X) 117
Ovi ekstremni slučajevi nisu predmet statističke analize! Većina rezultata pokazuje obje tendencije: Tendenciju grupiranja oko srednje vrijednosti Tendenciju raspršenja oko srednje vrijednosti Analiziraju se rezultati koji se grupiranju oko neke srednje vrijednosti i imaju tendenciju raspršenja oko te vrijednosti. Takvi rezultati distribuiraju se prema n o r m a l n o j ili g a u s s o v o j krivulji 118
Frekvencije Simetrična distribucija X=Me=Mo 119
120
Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu: 1. Da se ono što mjerimo stvarno raspoređuje po normalnoj raspodjeli 2. Da imamo veliki broj rezultata (mjerenja) 3. Da su dva mjerenja provedena jednakom metodom i u što sličnijim vanjskim prilikama 4. Skupina na kojoj obavljamo mjerenja mora biti homogena po ostalim svojstvima, a heterogena (neselekcionirana) po onom svojstvu koje mjerimo 121
Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu su ovi: 1. Ono što mjerimo moralo bi se i u prirodi normalno distribuirati 2. Mora postojati veliki broj rezultata zakon vjerojatnosti (kod malog broja mjerenja neke pojave pa bila ona i idealno normalno distribuirana u prirodi, pukim slučajem možemo dobiti distribuciju koja nimalo ne sliči normalnoj) 3. Da su sva mjerenja provedena istom metodom i u što sličnijim vanjskim prilikama 4. Skupina na kojoj se vrše mjerenja morala bi biti homogena po ostalim svojstvima, a heterogena po svojstvu koje se mjeri. (kod mjerenja visine da su homogeni po dobi, spolu i sl, a heterogeni po visini)
Normalna distribucija u potpunosti je opisana aritmetičkom sredinom i varijancom (sd). Mjesto infleksije (gdje iz konveksne prelazi u konkavnu) iznad ±1sd Potpuno je simetrična distribucija, zvonolikog oblika, koja se približava osi apscise Svi koeficijenti asimetrije kod normalne krivulje su nula Značajke normalne distribucije Vrijednost koeficijenta zaobljenosti ili kurtičnosti je kod normalne distribucije jednak 3
Oblici normalne distribucije: -različite aritmetičke sredine, jednaka varijabilnost
Oblici normalne distribucije: - različita varijabilnost rezultata
Oblici normalne distribucije: - leptokurtična (izrazitije grupiranje rezultata oko središnje vrijednosti, odnosno u smanjeno raspršenje rezultata)
Pozitivno i negativno asimetrične distribucija Pozitivno asimetrične: -veći dio rezultata se grupira oko nižih vrijednosti Npr., vrijeme reakcije
128
Pozitivno i negativno asimetrične distribucija Negativno asimetrične: -veći dio rezultata se grupira oko viših vrijednosti Npr., školske ocjene
130
Ako aritmetičkoj sredini : dodamo lijevo i desno po jednu standardnu devijaciju (mjeru varijabilnosti), obuhvatili smo površinu koja čini oko 68% cijele površine krivulje, odnosno 68,26% svih rezultata. S dvije SD oko aritmetičke sredine, obuhvaćamo oko 95, 44% svih rezultata, a s tri standardne devijacije gotovo sve rezultata, tj. 99,73% rezultata. Doslovno se ne mogu obuhvatiti svi rezultati i s nekoliko SD, jer se krivulja normalne distribucije asimptomatski približava apscisi, pa se teoretski spajaju u beskonačnost.
Kao što smo već spomenuli kod normalne raspodjele u navedenim intervalima imamo slijedeći postotak rezultata: X 1s 68,26% X X 2s 95,44% 3s 99,73% 132
133
Osnovna karakteristika normalne raspodjele da se tzv. mjesto infleksije nalazi iznad ± 1s Normalna raspodjela je potpuno definirana ako joj znamo aritmetičku sredinu i standardnu devijaciju, zbog toga imamo normalne raspodjele različite širine : uske leptokurtične i vrlo široke - platikurtične 134
Grafički prikaz normalne distribucije koja ima iste aritmetičke sredine a različite standardne devijacije X 1 X 2 s 1 s 2 135
8. POLOŽAJ POJEDINOG REZULTATA U GRUPI z VRIJEDNOST Aritmetička sredina i standardna devijacija potpuno definiraju neku raspodjelu rezultata Zbog toga je za svaki rezultat moguće izračunati na koji dio standardne devijacije on pada Na temelju tog podataka određujemo koliko imamo rezultata većih, a koliko manjih od tog ODREĐUJEMO POLOŽAJ POJEDINCA U GRUPI 136
Svaki rezultat na nekoj varijabli može se izraziti u dijelovima standardne devijacije,tj. izračunamo na koji dio standardne devijacije taj rezultat pada Izražavanje rezultata u dijelovima standardne devijacije naziva se s t a n d a r d i z a c i j a ili pretvaranje u z- vrijednosti 137
Standardizacija rezultata izvodi se na slijedeći način: Z X s X Što znači da izračunamo razliku rezultata kojeg trebamo standardizirati i aritmetičke sredine i dobiveni broj dijelimo standardnom devijacijom 138
Primjer : Mjereći visinu neke grupe ispitanika dobiveni su slijedeći rezultati X 170cm 10cm Koliko je posto ispitanika viših od 180 cm? Z 180170 10 10 10 1 139
Znači da rezultat 180 pada točno na + 1s znamo da aritmetička sredina + 1s obuhvaća 34% rezultata, tako da nam do kraja krivulje na desnoj strani ostaje 16% rezultata 50% - 34% = 16% 140
Grafički prikaz primjera nalazi se na slijedećoj slici: 50% 50% -3σ - 2σ -1σ 0 1σ 2σ 3σ 141
Primjer 1. Neko dijete s oštećenjem vida postiglo je na varijablama "AR" i "AAS" po 28 bodova. Na kojoj varijabli dijete ima bolji rezultat ako su zadane slijedeće vrijednosti? " AR": X 23,25; 5,88; X 28 " AAS": X 21,72; 8,77; X 28 Z Z AR AAS 28 23,25 0,81 5,88 28 21,72 0,72 8,77 Odgovor: Dijete je postiglo bolji rezultat na varijabli "AR" (0,81). 142
Primjer 2 Dijete broj 2 postiglo je na varijabli "AR" rezultat 23, a na varijabli "AAS" rezultat 25. Dijete broj 29 postiglo je na varijabli "AR" rezultat 20, a na varijabli "AAS" rezultat 27. Koje od ovo dvoje djece ima bolji rezultata na obje varijable zajedno? " AR": X 23,25; 5,88 " AAS ": X 21,72; 8,77 VARIJABLE 2. DIJETE 29. DIJETE AR 23 20 AAS 25 27 Z Z 11 21 2. dijete: Z 23 23,25 0,04; Z 5,88 20 23,25 0,55; Z 5,88 2 29. dijete: Z 29 Z 11 Z 2 Z 21 12 0,04 0,37 0,33 Z 22 12 22 25 21,72 0,37 8,77 27 21,72 0,60 8,77 0,55 0,60 0,05 2. dijete ima bolji rezultat na obje varijable zajedno! 143
Primjer 3. U skupini od 1000 mladića nađena je prosječna visina koja iznosi 171,5 cm i prosječno odstupanje rezultata od aritmetičke sredine koje iznosi 9,8 cm. Koliko je mladića visok između 172 i 175 cm? Z Z 1 2 172171,5 9,8 175171,5 9,8 0,05 0,36 Iz statističkih tablica dobiva se površina ispod Normalne ili Gaussove krivulje od aritmetičke sredine do Z 1 = 0,05 i ona iznosi: P(Z 1 ) = 0,01990 Isto tako dobiva se i površina ispod Normalne krivulje od aritmetičke sredine do Z 2 = 0,36 i ona iznosi: P(Z 2 ) = 0,14060 Površina ispod Normalne krivulje dobivena kao P = P(Z 2 ) - P(Z 1 ) = 0,1406 0,0199 = 0,1207 = 12% predstavlja postotak mladića visokih između 172 i 175 cm. Broj mladića = 0,1207 x 1000 = 120 144
Primjer 4. Koliki postotak djece s oštećenjem vida ima razultat manji od 17 bodova na varijabli "AR"? " AR": X 23,25; 5,88; X 17 Z 17 23,25 5,88 1,06 Površina ispod Normalne krivulje dobivena kao P = 0,5 - P(Z) = 0,5 0,3554 = 0,1446 = 14,46% Rezultat manji od 17 bodova na varijabli "AR" ima 14,46% djece sa oštećenjem vida. 145
Primjer 5. Koliki postotak djece s oštećenjem vida ima rezultat između 24 i 27 bodova na varijabli "AR"? Z 1 24 23,25 5,88 0,13 Z 2 27 23,25 5,88 0,64 Temeljem površina ispod Normalne krivulje, od aritmetičke sredine do 0,13 i 0,64 standardne devijacije izračunava se postotak djece na slijedeći način P = P(Z 2 ) - P(Z 1 ) = 0,2389 0,0517 = 0,1872 = 18,72% Rezultata između 24 i 27 bodova na varijabli "AR" ima 18,72% djece s oštećenjem vida 146
Primjer 6. Ispod kojeg se rezultata nalazi 30% najslabije djece sa oštećenjem vida na varijabli "AR"? P(Z) = 0,50 0,30 = 0,20 Temeljem površine ispod Normalne krivulje, od aritmetičke sredine do Z vrijednosti, koja iznosi 0,20 može se iz statističkih tablica pročitati odgovarajuća Z vrijednost i to -0,53. Rezultat ispod kojega se nalazi 30% najslabije djece izračunat će se na slijedeći način Z X X ; Z 0,53; 0,53 X 23,25 ; 5,88 X 23,25 0,535,88; X 20 Odgovor: 30% najslabije djece ima rezultate manje od 20 bodova. 147
9. METODE UZORAKA UZORAK PREDSTAVLJA DIO POPULACIJE ILI OSNOVNOG SKUPA MJERIMO SAMO OGRANIČEN BROJ SLUČAJEVA ARITMETIČKU SREDINU, ST.DEV. TIH UZORAKA NAZIVAMO PROCJENAMA TIH ISTIH PARAMETARA AKO JE POPULACIJA NA KOJOJ ŽELIMO PROVJERITI NEKE VARIJABLE VELIKA ILI ČAK NEIZMJERNA, NEOPHODNO JE IZ TAKVE POPULACIJE FORMIRATI UZORAK KOJI MORA BITI DOBAR REPREZENTANT TE POPULACIJE. 148
UZORAK SE FORMIRA ZBOG - PROCJENE PARAMETARA POPULACIJE - TESTIRANJA HIPOTEZA Postoji nekoliko načina formiranja uzoraka iz populacije. Prema načinu formiranja uzorke dijelimo na 1) namjerne ili pristrane 2) slučajne 149
Da bi zaključci o karakteristikama osnovnog skupa doneseni na temelju uzorka bili valjani, uzorak mora biti reprezentativan. Reprezentativnost uzorka se postiže odabirom odgovarajućeg načina izbora elemenata u uzorak. 150
Metoda uzoraka S obzirom na način izbora jedinica, razlikuju se slučajni i namjerni uzorci. Namjerni uzorak se dobiva izborom jedinica za koje istraživač, prema svom osobnom uvjerenju, smatra da su tipične i reprezentativne za dani osnovni skup. Za slučajni uzorak imamo slučajan izbor jedinica, nekom od metoda slučajnog izbora 151
Metoda uzoraka Reprezentativnost uzorka izabranog na temelju prosudbe istraživača zavisi isključivo od njegove osobne prosudbe i stručnosti. U namjerne uzorke pored uzoraka koje istraživač bira isključivo prema subjektivnoj prosudbi, spadaju prigodni i kvotni uzorak. Prigodni uzorak se bira ispitivanjem jednostavno dostupnih članova osnovnog skupa. Kod kvotnog uzorka izbor jedinica određuju istraživači (anketari), ali u sklopu dodijeljene kvote. 152
Metoda uzoraka Reprezentativnost uzorka se postiže slučajnim izborom jedinica. Za slučajne uzorke u statističkoj teoriji su razvijene metode za statističko zaključivanje o osnovnom skupu uz objektivnu procjenu prihvatljivosti takvih zaključaka. Među slučajnim uzorcima najpoznatiji je jednostavan slučajan uzorak, a još se koriste stratificirani uzorak i uzorak skupina. 153
Metoda uzoraka Ako se iz osnovnog skupa veličine N izabire n elemenata ( n N) u uzorak tako da svaki mogući uzorak ima jednaku vjerojatnost da bude izabran, onda se takav uzorak naziva jednostavan slučajan uzorak. Jednostavan slučajan uzorak može biti uzorak s ponavljanjem ili bez ponavljanja. Izbor jedinica u uzorak iz konačnog skupa provodi se pomoću tablice slučajnih brojeva. Tablica slučajnih brojeva predstavlja niz znamenki (ili skupina znamenki) u kojem svaka znamenka ima jednaku vjerojatnost pojavljivanja. 154
Metoda uzoraka Slučajan izbor jedinica u uzorak se koristi kada su jedinice osnovnog skupa relativno homogene s obzirom na karakteristike koje su predmet istraživanja. Ako postoji značajna varijabilnost elemenata statističkog skupa, koristi se stratificirani uzorak. Prvo se osnovni skup podijeli na homogene skupine elemenata koji se nazivaju stratumi. Iz svakog stratuma se slučajnim izborom bira određeni broj jedinica u uzorak, proporcionalno veličini stratuma. 155
Sampling varijacija i sampling distribucija Pretpostavimo da iz populacije veličine N želimo formirati uzorak veličine n. Ako se za svaki uzorak izračuna aritmetička sredina i standardna devijacija, te ako se distribuiraju aritmetičke sredine svih uzoraka, dobit će se sampling distribucija. Sampling distribucija je normalna distribucija kod koje su aritmetičke sredine uzoraka distribuirane oko aritmetičke sredine populacije. što neka pojava manje varira u populaciji i što je uzorak veći to će i aritmetička sredina uzorka biti bliža svom parametru aritmetičkoj sredini populacije 156
Sampling distribucija ima svoje parametre - aritmetičku sredinu - standardnu devijaciju Parametri populacije procjenjuju se pomoću parametara uzorka koji je reprezentativan za tu populaciju. 157
Pod pretpostavkom da rezultata uzorka približno reflektira raspršenje rezultata u populaciji možemo odrediti i standardnu pogrešku aritmetičke sredine uzorka x n x Standardna pogreška je mjera variranja aritmetičkih sredina uzoraka oko prave aritmetičke sredine populacije. Na osnovi standardne pogreške moguće je postaviti hipotezu u kojim se vrijednosnim granicama određenim vjerojatnošću nalazi prava aritmetička sredina 158
Pri postavljanju intervalne procjene važno je je odrediti granice pouzdanosti Istraživači se slažu kako granica pouzdanosti ne smije biti ispod 95% i više (99%), odnosno razina rizika ne smije biti veća od 5% tj. 1%. Pri zahtijevanju da pouzdanost bude 95% mi određujemo vrijednosni interval u kojem imamo 95% vjerojatnosti da se u njemu nalazi prava vrijednost a samo 5% vjerojatnosti da prava vrijednost leži van tih granica: -2,5% mana od granice intervala i 2,5% veća od granice intervala 159
Frekvencije Sampling distribucija prikazana je na slijedećoj slici Sampling distribucija 2,5% 1,96S x X 0 X 1 1,96S x 2,5% za 95% površine Z = 1,96 za 99% površine Z = 2,58 160
Na temelju ovoga može se napisati interval pouzdanosti za aritmetičku sredinu populacije: X z x 161
-Pri određivanju vrijednosnih granica pouzdanosti služimo se tablicama normalne krivulje -Srednje vrijednosti uzorka se raspodjeljuju oko prave vrijednosti u obliku normalne raspodjele samo ako su uzorci dovoljno veliki 162
Primjer: Rezultati testa matematike za 900 učenika osmih razreda. Ostvareno 70 bodova u prosjeku, a standardna devijacija iznosi 15? Koji je najbolji, a koji najlošiji rezultat? Što možemo reći kakav rezultat se može u prosjeku očekivati od svih učenika osmih razreda svih osnovnih škola? 70 3*15=25 ; 70 + 3* 15= 115 x n 15 900 0,50 X z x 70 1,960,50 70 0,98 Znači aritmetička sredina populacije se nalazi u intervalu od 69,02 do 70,98 sto tvrdimo uz rizik od 5% 163
Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti Ako znamo da je prosječno trajanje menstrualnog ciklusa X=28 dana, da li se uzorak srednjoškolki (N=150) značajno razlike od ove vrijednosti, ako im je aritmetička sredina ciklusa M=31, sd =4,5 *prije svega, potrebno izračunati granice pouzdanosti, a potom i pogrešku aritmetičke sredine -uz 5% vjerojatnosti donošenja pogrešnog zaključka (da ovaj uzorak ne pripada istoj populaciji), interval pouzdanosti je 1,96 -Zašto 1,96? Na prikazu normalne distribucije, p=0,025 znači da je do z=1,96 do kraja krivulje 2,5% rezultata, s obje strane distribucije S M =?
Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti
Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti
Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti
24 22 20 18 16 f 14 12 28 10 8 6 4 2 0 29,8 30,2 30,6 31,0 31,4 31,8 32,2 Menstrualni ciklus (dani)
PROVJERAVANJE ZNAČAJNOSTI RAZLIKA MEĐU STATISTIČKIM VRIJEDNOSTIMA Svako znanstveno istraživanje ima za svrhu provjeriti određenu hipotezu Provjeravamo je li razlika slučajna ili je rezultat utjecaja nekog čimbenika To ćemo provjeriti testiranjem značajnosti razlika među ta dva skupa;testiramo nul hipotezu tj. pretpostavku da oba skupa pripadaju istoj populaciji tj. da između njih ne postoji razlika 169
To je potrebno zbog toga što svaka razlika ne pokazuje nužno da nezavisna varijabla stvarno mijenja pojavu koju proučavamo Razlike su značajne ako su tolike da postoji mala vjerojatnost da bi se našle među uzorcima iste populacije tj. nisu slučajne već vrlo vjerojatno i postoje 170
PROVJERAVANJE ZNAČAJNOSTI RAZLIKE IZMEĐU DVIJE ARITMETIČKE SREDINE Bitno je voditi računa o: - Veličini uzorka: veliki uzorci N>30 mali uzorci N < 30 - Jesu li uzorci zavisni ili nezavisni 171
Testiranje razlika između aritmetičkih sredina velikih uzoraka izvodi se na temelju standardne pogreške između dviju aritmetičkih sredina tih uzoraka X 1 X 2 2 x 1 2 x 2 172
Budući da je x N standardna pogreška razlika između aritmetičkih sredina računa se po formuli: d X 2 1 1 X 2 N N 1 2 2 2 X d X 1 X 2 173
Testiranje značajnosti razlika između dviju aritmetičkih sredina uzoraka obavlja se pomoću t ili studentova testa Znači t odnos nam ukazuje koliko je puta neka razlika veća od svoje pogreške, a taj odnos ćemo dobiti ukoliko razliku podijelimo njenom pogreškom. 174
Ukoliko je dobivena t vrijednost veća od 1,96 onda je smatramo statistički značajnom na nivou od 5%, a ukoliko je dobivena t vrijednost jednaka ili veća od 2,58 onda je smatramo statistički značajnom na nivou od 1%. 175
Određivanje granice značajnosti Područje odbacivanja Područje prihvaćanja H 0 hipoteze Područje odbacivanja H 0 hipoteze H 0 hipoteze Granica značajnosti predstavlja područje odbacivanja H 0 hipoteze 176
Postavljanje hipoteza Hipoteze se obično postavljaju u obliku: H 0 : NULTA HIPOTEZA H 1 : ALTERNATIVNA HIPOTEZA Prije testiranja razlika t-testom uvijek postavljamo tzv. nul-hipotezu, pretpostavku o rezultatu t-testa, koja najčešće glasi empirijski dobivena razlika među aritmetičkim sredinama je slučajna i aritmetičke se sredine ne razlikuju statistički značajno. Odnosno, uzorci potječu iz iste populacije Određivanje granica odbacivanja nulte hipoteze POGREŠKE KOD TESTIRANJA HIPOTEZE - Vjerojatnost pogreške TIPA I. - Vjerojatnost pogreške TIPA II. 177
H 0 NE ODBACUJEMO H 0 ODBACUJEMO H 0 ISTINITA + POGREŠKA TIPA I H 0 LAŽNA POGREŠKA TIPA II + 178
Granice značajnosti -2,58-1,96 X H 1,96 2,58 Područje prihvaćanja Ho hipoteze za 5% Područje prihvaćanja H 0 hipoteze za 1% Granica značajnosti označava područje odbacivanja H 0 hipoteze. Zbog toga je vjerojatnost pogreške TIPA I jednaka granici značajnosti. Vjerojatnost pogreške TIPA II označavamo sa. i su obrnuto proporcionalne veličine. Kad je veća je manja i obrnuto. 179
Inferencijalna statistika Cijelo područje zaključivanja (uključujući t- testove i druge analize) iz konkretnog (uzoraka) na općenito (populacije) spada u 'statistiku zaključivanja' ili inferencijalnu statistiku, za razliku od deskriptivne ili opisne statistike, gdje nas zanimaju samo karakteristike ispitivanog uzorka.
T-distribucija Distribucija mogućih t-omjera T-distribucija je po obliku slična normalnoj, simetrična je i ima zvonast oblik, ali je prema dnu šira od normalne raspodjele, i to je šira, što je uzorak manji.
Oblici t-testova Ovisno o veličini uzorka, te zavisnosti/nezavisnosti uzorka (ponavljana mjerenja ili različite skupine ispitanika) Prema tome, postoje t-testovi za: 1. Velike nezavisne uzorke 2. Velike zavisne uzorke 3. Male nezavisne uzorke (N<30) 4. Male zavisne uzorke (N<30) Kod nezavisnih uzoraka je poželjno da su uzorci slične ili jednake veličine, pogotovo ako su mali uzorci, kad su uzorci iznad 100 ne trebaju biti slične veličine.
Testiranje značajnosti razlika između dviju aritmetičkih sredina velikih nezavisnih uzoraka obavlja se pomoću t ili studentova testa na slijedeći način: t X d X x 1 x 2 d d Znači t odnos nam ukazuje koliko je puta neka razlika veća od svoje pogreške, a taj odnos ćemo dobiti ukoliko razliku podijelimo njenom pogreškom. 183
Primjer: Na testu auditivnog razumijevanja kod 32 djece sa oštećenjem vida dobivena je aritmetička sredina 23,25 i standardna devijacija 5,88. Na istom testu, 30 djece sa mentalnom retardacijom postiglo je prosječno 17,34 boda uz standardnu devijaciju 6,36. Da li je razlika na auditivnom razumijevanju između ove dvije skupine ispitanika statistički značajna? Rješenje: X N 1 1 1 23,25; 5,88; 32; N 2 2 X 2 17,34 6,36 30 X d d t X d d X x 1 1 X 2 x 2 5,91 1,56 23,2517,34 5,91 N 2 1 1 3,788 N 2 2 2 34,5744 32 40,4496 30 1,56 Dobiveni t veći je od tabličnog t=z=1,96 za 5% pogreške, može se reći da se aritmetičke sredine ovih dvaju uzoraka međusobno razlikuju. 184
185
186