Statistika. 1. Uvodna razmatranja o statistici

Σχετικά έγγραφα
numeričkih deskriptivnih mera.

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

Aritmetička sredina Medijan Mod. Harmonijska sredina

4. MJERE DISPERZIJE. Josipa Perkov, prof., pred. 1

3 Populacija i uzorak

PISMENI ISPIT IZ STATISTIKE

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Izbor statističkih testova Ana-Maria Šimundić

3.1 Granična vrednost funkcije u tački

Uvod u neparametarske testove

7 Algebarske jednadžbe

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

ELEKTROTEHNIČKI ODJEL

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

1 Promjena baze vektora

Edukacijsko-rehabilitacijski fakultet Sveučilišta u Zagreb S T A T I S T I K A. Skripta. Pripremio: Branko Nikolić. Zagreb 2015./2016.

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Linearna algebra 2 prvi kolokvij,

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

1.4 Tangenta i normala

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Uvod u neparametrijske testove. Usporedba. Neparametrijske inačice t-testa za dva nezavisna uzorka. dr. sc. Goran Kardum

Riješeni zadaci: Limes funkcije. Neprekidnost

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

UVOD DEFINICIJA: Statistika planiranje i provođenje pokusa skupljanje podataka interpretacija

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Operacije s matricama

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

Linearna algebra 2 prvi kolokvij,

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

9. TESTIRANJE HIPOTEZA O PARAMETRU. Josipa Perkov, prof., pred. 1

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

41. Jednačine koje se svode na kvadratne

TRIGONOMETRIJSKE FUNKCIJE I I.1.

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

VJEROJATNOST I STATISTIKA 2. kolokvij lipnja 2016.

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

( , 2. kolokvij)

Grafičko prikazivanje atributivnih i geografskih nizova

Matematička analiza 1 dodatni zadaci

Determinante. a11 a. a 21 a 22. Definicija 1. (Determinanta prvog reda) Determinanta matrice A = [a] je broj a.

GLAZBENA UMJETNOST. Rezultati državne mature 2010.

Numerička matematika 2. kolokvij (1. srpnja 2009.)

IZVODI ZADACI (I deo)

Slučajne varijable. Diskretna slučajna varijabla X je promjenjiva veličina koja poprima vrijednosti iz skupa

RIJEŠENI ZADACI I TEORIJA IZ

u statistici označava raspodjelu rezultata, odnosno frekvenciju kojom se u nekom skupu rezultata, poredanih po veličini pojavljuju

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

18. listopada listopada / 13

Funkcije dviju varjabli (zadaci za vježbu)

Teorijske osnove informatike 1

( ) ( ) Zadatak 001 (Ines, hotelijerska škola) Ako je tg x = 4, izračunaj

10. domaća zadaća. 3. Neka je X neprekidna slučajna varijabla takva da je X N(0, 1). S točnošću od odredite:

Ĉetverokut - DOMAĆA ZADAĆA. Nakon odgledanih videa trebali biste biti u stanju samostalno riješiti sljedeće zadatke.

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Elementi spektralne teorije matrica

Uvod u matematičku statistiku

Eliminacijski zadatak iz Matematike 1 za kemičare

POVRŠINA TANGENCIJALNO-TETIVNOG ČETVEROKUTA

INTELIGENTNO UPRAVLJANJE

Testiranje statistiqkih hipoteza

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

6 Polinomi Funkcija p : R R zadana formulom

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Str

Riješeni zadaci: Nizovi realnih brojeva

KONTINUIRANE SLUČAJNE VARIJABLE

TOLERANCIJE I DOSJEDI

Dijagonalizacija operatora

SVEUČILIŠTE U RIJECI GRAĐEVINSKI FAKULTET U RIJECI. Specijalistički diplomski stručni studij

radni nerecenzirani materijal za predavanja

21. ŠKOLSKO/OPĆINSKO/GRADSKO NATJECANJE IZ GEOGRAFIJE GODINE 8. RAZRED TOČNI ODGOVORI

SISTEMI NELINEARNIH JEDNAČINA

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

Matematika 1 - vježbe. 11. prosinca 2015.

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

( , treći kolokvij) 3. Na dite lokalne ekstreme funkcije z = x 4 + y 4 2x 2 + 2y 2 3. (20 bodova)

OSNOVE STATISTIKE I KINEZIOMETRIJE

5. Karakteristične funkcije

Ispitivanje toka i skiciranje grafika funkcija

PRIMJER 3. MATLAB filtdemo

POTPUNO RIJEŠENIH ZADATAKA PRIRUČNIK ZA SAMOSTALNO UČENJE

- pravac n je zadan s točkom T(2,0) i koeficijentom smjera k=2. (30 bodova)

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

NEPARAMETRIJSKE TEHNIKE

Transcript:

Statistika 1. Uvodna razmatranja o statistici

ZAŠTO STATISTIKA? Statistički način mišljenja jednog će dana za svakodnevni život građana postati jednako neophodan kao znanje čitanja i pisanja. H. G. Wells(1866-1946). Statistika je obrada brojčanih podataka radi jasnijeg prikazivanja. Statistička metodologija postala je u suvremenom životu donekle čak dio općeg obrazovanja i opće kulture, jer je npr. teško zamisliti danas čovjeka bilo koje struke, ako posjeduje visoko obrazovanje, da mu ne bi bili poznati pojmovi aritmetičke sredine, varijabiliteta i tome slično. 2

DESKRIPTIVNA STATISTIKA-opisuje jedan niz podataka, sažima podatke radi preglednosti (grupiranje, uređenje, grafički prikaz, osnovni pokazatelji-srednje vrijednosti i mjere disperzije) INFERENCIJALNA (ANALITIČKA) STATISTIKA omogućuje nam izvođenje zaključaka; uključuje postupke pomoću kojih na osnovi dijela podataka(uzorka) donosimo sud o karakteristikama cjeline(populacije). 4

Definicija Statistika je nauka o metodama za istraživanje masovnih pojava s pomoću brojčanog (Serdar, 1977, str. 1) izražavanja. 5

2. Osnovni pojmovi statistike Statistička masa Statistička jedinica Obilježja jedinica 6

Obilježje statističke jedinice To je svako ono svojstvo o kojem se prikupljaju podaci, koje karakterizira tu jedinicu i pomoću kojeg je razlikujemo od ostalih. Za jedinicu učenik to mogu biti: Ime i prezime, Dob, Spol, Mjesto rođenja, Nacionalna pripadnost, Škola koju pohađa, Razred, Odjeljenje, Uspjeh u školi, Visina, težina Rezultati u određenim testovima, Slobodne aktivnosti kojima se bavi, Izvanškolske aktivnosti kojima se bavi, Udaljenost stanovanja od škole, Socijalni status obitelji, Zvanje roditelja, Je li cijepljen protiv određenih zaraznih bolesti, 9

Sistematizacija obilježja Prostorna povezuju JSM s nekim geografskim lokalitetom: mjesto rođenje, zemlja porijekla Vremenska vrijeme ili trenutak s kojim je JSM povezana: godina rođenja (intervalna i trenutna) Stvarna (sva ostala) Atributivna i numerička Diskontinuirana i kontinuirana 10

Diskontinuirana i kontinuirana obilježja NUMERIČKA: Diskontinuirana obilježja - cjelobrojne vrijednosti: broj učenika, škola, razrednih odjela, učitelj, računala Kontinuirana obilježja decimalne vrijednosti: visina učenika, brzina trčanja, kapacitet pluća i sl. 11

Statistički podaci s numeričkim obilježjem mogu biti grupirani i negrupirani. -NEGRUPIRANI: Za svaka JSM iskazana vrijednost numeričkog obilježja -GRUPIRANI: Jedinice osnovnog skupa su prikazane prema istim ili sličnim vrijednostima numeričkog obilježja (grupe se zovu razredi) 12

Osnovni statistički pojmovi 13

14

15

Skale mjerenja Mjerenje je pridruživanje mjernih oznaka nekom objektu. Za razliku od prirodnih znanosti, u društvenim obično nema direktnih fizičkih skala, zato je definirano postojanje više vrsta mjernih skala: Nominalna skala (kategorije) Ordinalna skala (rangovi) Intervalna skala Omjerna skala 19

Nominalna skala Broj koji se navodi uz neki objekt služi samo kao identifikacija, tj. služi kategorizaciji (npr., kategorija spol- žene=1, muškarci=2) Nominalne skale ustvari i nisu nikakve skale, jer nam brojevi služe samo za identifikaciju Pr. brojevi na dresovima igrača Pr. boja očiju kod skupine ljudi Matematičko-statistički postupci koje možemo koristiti na ovoj skali su: Brojenje (frekvencije) dominantna vrijednost proporcija Hi-kvadrat test Fi Cramerov fi Koeficijent kontingencije 20

Ordinalna skala Dosta naprednija od nominalne Na ovoj skali postoji određen redoslijed, tj. služe za određivanje redoslijeda Njima se određuje što je veće, a što manje, ali ne i razlika među vrijednostima Pr. top ljestvice Pr. brojevi na kućama u ulici Korištene računske operacije Sve iz nominalne skale + Centralna vrijednost Koeficijent korelacije Ro koeficijent korelacije Tau Teta Koeficijent konkordancije Poluinterkvartilno raspršenje 21

Intervalna skala Poznat je redoslijed vrijednosti, ali i razlika među njima Primjerice, razlika između IQ-a od 80 i 90, jednaka je kao kod 110 i 120, jer je u tim skalama neka definirana razlika jednaka na svakom dijelu skale Mnogi rezultati u društvenim znanostima često su na ovoj skali, npr., vrijednost koeficijenta inteligencije Nulta vrijednost određena je arbitrarno, tj. nije apsolutna nula Na ovoj skali ne možemo dijeliti jer ne postoji apsolutna nula 22

Pr. ako je A B = C, onda je i (A + D) (B + D) = C Pr. 5 2 = 3, onda je (5 + 4) (2 + 4) = 3 Ovo pravilo mora vrijediti na intervalnoj skali Celzijevi stupnjevi, -273,15 C je apsolutna nula IQ=0, apsolutna nula? Korištene računske operacije: Sve iz nominalne i ordinalne skale + Aritmetička sredina Standardna devijacija Z-vrijednost Koeficijente korelacije Parcijalnu i multiplu korelaciju 23

Omjerna skala Kao kod intervalne, poznat poredak, razlika među vrijednostima/rezultatima, samo što ovdje postoji i apsolutnu nulu Definirani brojčani odnosi uvijek imaju jednake omjere (konstante) na bilo kojem dijelu skale Pr. A / B = C => A * D / B * D = C Pr. 10 / 2 = 5 => 10 * 2 / 2 * 2 = 5 Većina fizikalnih jedinica pripada ovoj skali: metri, vrijeme (sekunda), težina (kilogram), sila, otpor 24

Zadatak 1. Nominalna skala 2. Ordinalna skala 3. Intervalna skala 4. Omjerna skala 1. Test znanja anorganske kemije 2. Broj otkucaja u testu brzina na pisaćem stroju 3. Prikupljanje podataka o profesiji roditelja 4. Veličina školskog prostora na jednog učenika 5. Redoslijed škola u natjecanju iz ekologije 6. Broj bodova u baždarenoj skali anksioznosti 33

4. Sređivanje statističkih podataka Signiranje Grupiranje Grafički i Tablični prikazi 34

Signiranje Signiranje predstavlja određivanje oznaka (šifre ili kodovi) za svaki pojedini podatak. Kategorizacija je predstavlja postupak u kojem se neki podaci raspoređuju u određene matrice ili kategorije. 35

Grupiranje Zabilježba znakova, ili Sortiranje dokumenata. Grupiranje je sažimanje rezultata koji se značajno ne razlikuju po kvantitativnoj vrijednosti u određeni broj klasa ili razreda. 36

Broj jedinica statističke mase u razredu je frekvencija razreda. Apsolutne frekvencije navedene u apsolutnim brojevima Relativne frekvencije - dobijemo tako da svaku apsolutnu frekvenciju podijelimo sumom frekvencija; suma rel.fr. uvijek je jednaka 1 Kumulativne frekvencije dobijemo zbrajanjem numeričkog niza odozgo prema dolje ili obrnuto; razlikujemo ( manje od i više od kum.niz). Korigirane frekvencije ukoliko veličina razreda nije ista ne možemo uspoređivati frekvencije; računamo korig. tako da svaku apsolutnu dijelimo s intervalom razreda 37

Sređivanje podataka u razrede ima prednosti: -Podatke možemo lakše i brže statistički obraditi -Postoji očit odnos između veličine rezultata i čestine kojom se on javlja -Izjednačavanjem numeričke vrijednosti rezultata unutar jednog razreda moguća je veća točnost izračunavanja statističkih vrijednosti 38

Razredi moraju biti jednaki po veličini Svaki razred mora obuhvatiti jednako velik interval: Svaki razred ima donju i gornju graničnu vrijednost: Razlika između njih se zove INTERVAL oznaka i -Što je interval veći više rezultata ulazi unutar tog intervala -Ne smije biti premalen jer će frekvencija biti relativno mala - interval: odredimo raspon rezultata kojeg podijelimo s željenim brojem razreda -RASPONOM nazivamo razliku između najvećeg i najmanjeg rezultata 39

RAZREDNA SREDINA predstavlja točku koja se nalazi na sredini između gornje i donje razredne granice. Matematičkim putem razredna sredina se računa tako da se zbroje gornja i donja stvarna granica i njihov zbroj se podijeli s dva. oznaka X ili n (ovisno o literaturi) Prave gornje granice razreda dobijemo tako da uzmemo sredinu između gornje vrijednosti jednog razreda i donje vrijednosti idućeg razreda. 40

PRIMJER: Na jednom čovjeku je izvršeno 50 mjerenja vremena reakcije i dobili smo slijedeće rezultate: 196 173 186 189 173 165 167 160 140 174 180 151 157 164 154 169 190 180 163 157 169 167 165 160 177 165 157 177 159 175 166 173 185 177 184 183 162 192 174 162 165 172 158 169 146 170 171 169 168 153 Broj razreda obično između 10 i 20 negdje 7 i 15 (manji broj mjerenja uzimamo i manji broj razreda) Grupiranje: 1. Odredimo raspon: Xmax. Xmin = 196-140 = 56 2. Odlučimo s kojim brojem razreda ćemo raditi (npr. 12) 3. Izračunamo interval: 56/12= 4,67 = 5 4. Formiramo razrede počevši s 140 (može i manje), razred mora obuhvatiti sve rezultate od 140 do 144 jer je i=5, svaki razred polazi za jedinicu više nego što prethodni završi 5. Sredina razreda: 139,5+144,5/2=142 6. Relativna frekvencija: 1/50= 0.02 7. Kumulativna frekvencija: 1, 1+1=2, 2+3=5 itd 41

Razred (ista točnost) Frekvencij a Razred (veća točnost) Sred.raz reda Relativna f Kumulativ na f 140-144 1 139,5-144,5 142 0,02 1 145-149 1 144,5-149,5 147 0,02 2 150-154 3 149,5-154,5 152 0,06 5 155-159 5 154,5-159,5 157 0,1 10 160-164 6 Itd. 162 0,12 16 165-169 12 167 0,24 28 170-174 8 172 0,16 36 175-179 4 177 0,08 40 180-184 4 182 0,08 44 185-189 3 187 0,06 47 190-194 2 192 0,04 49 195-199 1 197 0,02 50 50 1 42

Sređivanje podataka na osnovi diskontinuiranih kvalitativnih karakteristika zove se KVALITATIVNA KLASIFIKACIJA. -Prikazuje samo činjenično stanje, ne daje odgovor na pitanje -Za interpretaciju potreban viši stupanj statističke analize -Podatke prikazujemo u tablicama i grafikonima -U statistici često bez slike ne možemo dobiti pregled nad rezultatima; grafički način mišljenja - brže i lakše razumijevanje nekih procesa i uspješnija komunikacija među stručnjacima 43

1. Kada se radi o deskripciji međusobno nezavisnih ili slabo zavisnih podataka najčešći način grafičkog prikazivanja je u horizontalnim ili vertikalnim stupcima i u kružnim dijagramima 2. Kada imamo rezultate koji se razvijaju u vremenu (npr. znanje, temperatura) ili koji se grupiraju oko neke reprezentativne vrijednosti služimo se grafičkim sistemom koordinantnog sustava. Položaj točke je određen s dvije koordinate međusobno okomite; apscisa os x = vrijednosti mjerenja ordinata os y = frekvencija 44

Ako su rezultati grupirani u razrede na apscisu unesemo: razrede tada rezultate prikazujemo histogramom (sastoji se od niza pačetvorina kojima površina (visina) odgovara frekvenciji pojedinog razreda ili sredinu razreda tada rezultate prikazujemo poligonom frekvencija (iznad sredine svakog razreda označimo točku koja odgovara frekvenciji razreda 45

Distribucija rezultata varijable auditivno razumijevanje (AR) u razrede,apsolutne, kumulativne i relativne frekvencije, te sredine razreda REZULTATI X FREKVENCIJE F RELATIVNE FREKVENCIJE F R KUMULATIVNE FREKVENCIJE F K KUMULATIVNE RELATIVNE FREKVENCIJE (F K ) R SREDINE RAZREDA SR 11 16 3 0,09 3 0,09 13,5 16 21 8 0,25 11 0,34 18,5 21 26 11 0,35 22 0,69 23,5 26 31 6 0,19 28 0,86 28,5 31 36 3 0,09 31 0,97 33,5 36 41 1 0,03 32 1,00 38,5 32 1,00 46

Frekvencije Grafički prikaz distribucije frekvencija pomoću histograma 12 10 8 6 4 2 Histogram 0 11-16 16-21 21-26 26-31 31-36 36-41 47

Frekvencije Grafički prikaz distribucije frekvencija pomoću poligona frekvencija 12 10 Poligon frekvencija 8 6 4 2 0 13,5 18,5 23,5 28,5 33,5 38,5 48

Kumulativne frekvencije Grafički prikaz kumulativnog grafa Kumulativni graf 35 30 25 20 15 10 5 0 16 21 26 31 36 41 49

Tablični prikaz zaglavlje polje Zbrojni red prvi stupac stupci Zbrojni stupac 50

Jednostavne tablice Šk. god. Broj škola 1954./55. 717 1955./56. 854 1956./57. 794 1957./58. 677 1958./59. 722 1959./60. 792 1960./61. 932 51

Kombinirana tablica (tablica s dva ulaza) Škola Slobodna aktivnost Broj članova po spolu M. Ž. Ukupno A Tehnička 12 8 20 Sportska 34 15 49 Umjetnička 20 15 35 Ukupno 66 38 104 B Tehnička 23 24 47 Sportska 17 26 43 Umjetnička 32 41 73 Ukupno 72 91 163 52

Tablica s tri ulaza Škola Spol Broj članova po slobodnim aktivnostima tehnička sportska umjetnička ukupno A M. 12 34 20 66 Ž. 8 15 15 38 Ukupno 20 49 35 104 B M. 23 17 32 72 Ž. 24 26 41 91 Ukupno 47 43 73 163 53

Zadatak Studenti prve godine su pisali ispit iz statistike i postigli su sljedeće rezultate izražene u postotcima: 50 40 32 36 37 41 47 52 64 41 44 43 28 31 28 28 42 35 33 37 27 0 49 52 49 46 42 41 46 43 43 43 47 43 43 39 44 41 57 56 43 35 35 Grupirajte podatke i prikažite ih u tablici. Razredni interval prvog razreda neka bude 20. Nominalna vrijednost donje granice prvog razreda neka bude 0, a gornja vrijednost posljednjeg razreda neka bude 99. 54

Rješenje Broj bodova u ispitu iz statistike 80-99 0 60-79 1 40-59 27 20-39 14 0-19 1 Ukupno 43 Broj studenata 55

Zadatak Rezultate dobivene na ispitu iz statistike grupirajte u razrede čiji interval će biti 10 i počevši s prvim razredom koji ima donju nominalnu granicu 0. Podatke unesite u tablicu. Nacrtajte grafikon poligona frekvencija na temelju dobivenih rezultata. 56

Rješenje Broj bodova Broj studenata 90-99 0 80-89 0 70-79 0 60-69 1 50-59 5 40-49 22 30-39 10 20-29 4 10-19 0 0-9 1 Ukupno 43 57

Rješenje Rezultati ispita iz statistike 25 20 15 10 5 0 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 58

Razredne granice i razredni interval Nominalna i stvarna granica Broj učitelja u aktivu 26-30 2 21-25 5 16-20 10 11-15 12 6-10 3 1-5 1 Ukupno 33 Broj aktiva 60

Nominalne i stvarne granice Nominalna granice prvog intervala su 1 (donja) i 5 (gornja). Stvarna granica trećeg intervala su 10,5 (donja) i 15,5 (gornja). Razredni interval se računa tako da se od gornje stvarne granice oduzme donja stvarna granica. Npr. 15,5-10,5 = 5. 61

Zadatak REDNI BROJ UČENIK X Y 1. A. L. 38 35 2. B. Ž. 24 18 3. B. A. 48 44 4. B. N. 47 52 5. Ć. D. 33 28 6. Č. M. 44 49 7. E. A. 23 15 8. F. M. 41 45 9. K. M. 34 34 10. K. M. 26 19 11. L. A. 29 28 12. P. K. 47 43 13. R. M. 24 16 14. R. M. 25 29 15. S. T. 37 34 16. V. I. 49 49 17. Z. I. 34 30 Sredite podatke iz tablice tako da ih grupirate u razrede s jednakim razrednim intervalom koji iznosi 10. Prvi razred ima donju nominalnu granicu 1. Podatke prikažite tablično i u obliku histograma. 62

Rješenje Broj bodova Broj učenika X 51-60 0 1 1 41-50 6 5 11 31-40 5 3 8 21-30 6 4 10 11-20 0 4 4 1-10 0 0 0 S 17 17 34 Y S 63

Rješenje Rezultati ispita brzine čitanja 7 6 5 4 3 2 1 0 51-60 41-50 31-40 21-30 11-20 1-10 X Y 64

5. SREDNJE VRIJEDNOSTI MJERE CENTRALNE TENDENCIJE Mjere centralne tendencije nam služe kako bi što bolje reprezentirali tendiranje ka nekoj vrijednosti u nekoj populaciji ovisno o pojavi koju mjerimo Vrijednosti oko kojih se gomilaju rezultati najbolje reprezentiraju ono što je karakteristično i tipično za čitav skup rezultata Usporedna točka za pojedinačne vrijednosti Srednja vrijednost razdiobe frekvencija je prosječna vrijednost numeričkog obilježja jedinica mase. 65

Središnje vrijednosti dijelimo na : IZRAČUNATE : ARITMETIČKA SREDINA HARMONIJSKA SREDINA GEOMETRIJSKA SREDINA POZICIJSKE: MEDIJAN (centralna vrijednost) MOD (dominantna vrijednost) 66

Izračunate središnje vrijednosti: Pod utjecajem svakog pojedinačnog rezultata Na njih osobiti djeluju ekstremni rezultati Pri obradi pedagogijskih podataka najviše se upotrebljava aritmetička sredina Središnje vrijednosti položaja: Nisu toliko osjetljive na numeričke vrijednosti svakog pojedinačnog rezultata Na njih djeluje rang rezultata i čestina rezultata 67

Središnje vrijednosti vrijednosti koje prezentiraju skupinu rezultata, u slučaju kada rezultati imaju tendenciju grupiranja oko neke vrijednosti. Termin prosječan? Najčešći Srednji Prosječni Statistički parametri središnjih vrijednosti: Aritmerička sredina Mod Medijan Geometrijska sredina Harmonijska sredina

ARITMETIČKA SREDINA (M) Najčešća i najpoznatija mjera prosjeka Smije se računati kada su rezultati: a) na intervalnoj i omjernoj mjernoj skali b) potječu iz istovrsnog mjerenja (istog ispitivanja) c) dovoljno velik broj mjerenja (min N=30) d) distribucija rezultata ne smije se (mnogo) razlikovati od normalne distribucije

Aritmetička sredina Dakle, uvjet je da distribucija bude simetrična, da postoji jasna tendencija grupiranja Aritmetička sredina osjetljiva je i na vrijednost i na broj rezultata! -vrijednost- više individualne vrijednosti, viša M -broj- veći broj rezultata, manja promjena M dodavanjem novih rezultata Formula za izračunavanje: M = Σ x / N Suma (zbroj) svih rezultata, podijeljen brojem tih rezultata

Dob studenata Informacijskih znanosti 15 13 17 21 21 21 21 21 12 21 22 21 27 21 21 23 21 21 21 20 21 21 30 22 26 28 Izračunajte prosječnu dob vaše studijske grupe! M= ΣX/N= 546/26 = 21,1 godina

TEŽIŠNA VRIJEDNOST: ARITMETIČKA SREDINA - simbol = X ili M (mean) - težište svih rezultata nekog skupa - dobije se kada se individualne vrijednosti obilježja u nekom skupu podijele sa brojem elemenata skupa - uvijek se interpretira kao PROSJEK - suma odstupanja pojedinih članova niza od X uvijek je jednaka 0 - kvaliteta aritmetičke sredine ovisi o karakteru numeričkog niza iz kojeg je računamo; uz X uvijek je potrebno izračunati i odstupanja od nje 72

Suma svih rezultata na nekoj varijabli podijeljena sa brojem tih rezultata naziva se aritmetička sredina. Aritmetička sredina, koja se još naziva i prosječna vrijednost, računa se po formuli X gdje je X rezultat, a n broj ispitanika. Primjenjujemo kod negrupiarnih rezultata. n X 73

Djeca sa oštećenjem vida postigla su slijedeće rezultate na varijabli "auditivno razumjevanje" (AR): 15 23 27 35 21 28 18 27 21 18 19 23 11 19 37 23 24 31 21 30 32 19 30 28 21 19 15 24 20 20 23 21 Izračunati aritmetičku sredinu. Rješenje: 15 23 27 21 744 X 23,25 32 32 74

PRIMJER: Na jednom čovjeku je izvršeno 50 mjerenja vremena reakcije i dobili smo slijedeće rezultate: 196 173 186 189 173 165 167 160 140 174 180 151 157 164 154 169 190 180 163 157 169 167 165 160 177 165 157 177 159 175 166 173 185 177 184 183 162 192 174 162 165 172 158 169 146 170 171 169 168 153 Zbrojimo sve rezultate i podijelimo ih njihovim brojem X = 8458/50 = 169,16 Ali postupak je dugotrajan i naporan kod velikog broja podataka, zato ih grupiramo u razrede. 75

Razred Frekvencija (f) Sredina razreda (X) 140-144 1 142 142 145-149 1 147 147 150-154 3 152 456 155-159 5 157 785 160-164 6 162 972 165-169 12 167 2004 170-174 8 172 1376 175-179 4 177 708 180-184 4 182 728 185-189 3 187 561 190-194 2 192 384 195-199 1 197 197 50 fx= 8460 fx 76

Aritmetičku sredinu računamo tako da sredinu svakog razreda (X) pomnožimo frekvencijom pojedinog razreda (f) i sumu tih umnožaka podijelimo brojem rezultata : X = fx / N = 8460/50 = 169,2 77

Zajednička aritmetička sredina Ako u svakoj skupini nema jednaki broj rezultata: zajednička aritmetička sredina ne smije se računati tako da se zbroje sve ostale aritmetičke sredine. Potrebno ju je računati na način: Da se svaka `posebna` aritmetička sredina pomnoži s brojem rezultata, te se svi takvi rezultati podijele sa sumom svih mjerenja.

ZAJEDNIČKA ARITMETIČKA SREDINA Ako imamo grupe s vlastitim aritmetičkim sredinama I (N=8) II (N=6) III (N=12) 167 171 163 153 186 170 162 170 170 162 174 176 150 180 175 180 188 193 173 176 177 176 215 183 182 185

Zajednička aritmetička sredina 16 7 18 0 I (N=8) II (N=6) III (N=12) 17 1 17 5 16 3 18 0 15 3 18 8 18 6 19 3 17 0 17 3 16 2 17 6 17 0 17 7 17 0 17 6 16 2 21 5 17 4 18 3 17 6 18 2 15 0 18 5 175,27

CENTRALNA VRIJEDNOST: MEDIJAN C Centralna vrijednost (C) je vrijednost koja se u nizu rezultata poredanih po veličini nalazi točno u sredini. -ona je središnja vrijednost jer ima jednak broj rezultata koji su od njega veći i manji -Prednost centralne vrijednosti pred aritmetičkom sredinom sastoji se u tome što na nju ne utječe vrijednost pojedinih rezultata, pa prema tome jedan vrlo ekstremni rezultat neće ništa promijeniti vrijednost C, koja je uvjetovana samo brojem rezultata. 84

-Kod negrupiranih podataka medijan ćemo odrediti tako da rezultate rangiramo prema veličini i nađemo vrijednost koja je točno u sredini niza -Neparan broj: medijanu odgovara jedna stvarna vrijednost (stvarni) -Parni broj: medijan je polovina zbroja dvaju rezultata koji se nalaze oko sredine niza (izvedeni) Bitno je znati redno mjesto rezultata koji predstavlja Medijan Kod NG rezultata određuje se tako da polovici broja dobivenih rezultata pribrojimo 0,5 Rc = N/2 + 0,5 -važno: Rc redno mjesto C vrijednost C 85

Primjer: Ako u jednom mjerenju dobijemo ovih 11 rezultata: 7 9 4 7 8 7 10 6 6 9 8, pa ih poredamo po veličini: 4 6 6 7 7 7 8 8 9 9 10. Budući da imamo 11 rezultata, srednji rezultat je šesti rezultat (jer imamo 5 rezultata ispred i 5 rezultata iza njega) pa je C=7, položaj rezultata koji zauzima centralna vrijednost, može se odrediti pomoću formule: Položaj C= (N+1)/2. Ako je broj rezultata paran, centralna se vrijednost izračunava tako da se zbroje dva srednja rezultata, a suma podijeli s 2: Primjer: Kad bismo imali rezultate: 4 5 5 6 8 9, C= (5+6)/2 = 5,5. 86

Kad su rezultati grupirani potrebno je najprije odrediti kumulativne frekvencije, potom odredimo medijalnu frekvenciju (N/2) i iz kumulativnog grafa očitamo C. 1.Redno mjesto kojega vrijednost predstavlja C odredit ćemo tako da broj rezultata podijelimo s dva 2.Pogledamo u koji razred spada taj rezultat i potom linearnom interpolacijom odredimo vrijednost medijana C a N / 2 n a- donja granica razreda u kojoj se nalazi medijan N- ukupan broj rezultata F- zbroj kumulativnih frekvencija svih rezultata do donje gr. u kojoj se nalazi medijan n- broj apsolutnih frekvencija u razredu u kojem se nalazi medijan F i 87

Primjer: 10 25 33 37 39 41 43 47 53 60 11 25 34 37 39 42 44 48 53 62 18 27 35 38 39 42 45 49 56 64 20 28 36 38 40 43 46 50 57 71 22 29 36 38 41 43 47 52 58 72 Negrupirani: N= 50 Rc= 50/2 + 0,5= 25,5 C= 41 Grupirani: N=50, Rc= 50/2= 25 C= 36,5+ (25-15 /19 10) C=36,5 + ( 0,52 10)= =36,5+5,2=41,7 razred x f fc 7-16 11,5 2 2 17-26 21,5 5 7 27-36 31,5 8 15 37-46 41,5 19 34 47-56 51,5 9 43 57-66 61,5 5 48 67-76 71,5 2 50 88

DOMINANTNA VRIJEDNOST: MOD D Dominantna vrijednost (D)je ona vrijednost koja je u nizu mjerenja najčešće postignuta (dakle koja dominira ). Određuje se bez posebnog računa - Prednost D vrijednosti ispred aritmetičke sredine je što na nju ne utječe ni broj ni vrijednost rezultata, već samo frekvencija pojedinih rezultata -dominantnu vrijednost možemo koristiti kad je broj rezultata dovoljno velik i kad samo jedna vrijednost dominira -NG podatci: D odgovara vrijednost rezultata koji je najčešće dobiven -G podatci prikazani razredima: određivanje Moda je složenije 89

Primjer:Uzorak od 550 bračnih parova ima ukupno 1660 djece. Prosjek za utvrđivanje gradnje stanova računao bi na 3,02 djeteta po bračnom paru i znatno pogriješio u procjeni. Broj djece: 0 1 2 3 4 5 6 7 8 9 10 11 12 Broj bračnih parova s tim brojem djece: 70 90 108 86 70 47 30 20 15 5 4 3 2. D vrijednost je dvoje djece (108 bračnih parova). 90

- Ukoliko veličine razreda nisu jednake najprije izračunamo korigirane frekvencije - Modalni razred (b) je onaj s najvećom kor.frekvencijom, - Ukoliko su frekvencije prije (a) i poslije (c) modalnog razreda jednake, tada je Mod točno u sredini donje (L1) i gornje (L2) granice modalnog razreda. - Ako je frekvencija a veća od c Mod će se pomaknuti prema donjoj granici razreda i obrnuto. D L 1 b a b c b a i 91

Godine života Broj stanovnika (f) Veličina razreda (i) Korigirane frekvencije 0-5 280,056 5 56.011,2 5-10 314,697 5 62.939,4 10-20 657,716 10 65.771,6 a 20-40 1403,657 20 70.182,9 b 40-60 1221,144 20 61.057,2 c 60-75 618,090 15 41.206,0 75 i više 216,898 15 14.459,9 ukupno 4 712,258 D 20 70.182,9 65.771,6 70.182,9 65.771,6 70.182,9 61.057,2 20 20 4.411,3 4.411,3 9.125,7 20 20 6,52 26,52 92

MOD (dominantna vrijednost, D) Predstavlja rezultat s najvećom frekvencijom (broj koji dominira) To je nekakva mjera prosječne vrijednosti, a na nju ne utječe ni broj ni vrijednost rezultata, samo frekvencija Primjer: Broj djece kod bračnih parova Br. djece 0 1 2 3 4 5 6 7 8 9 10 11 12 f 70 90 10 8 86 70 47 30 20 15 5 4 3 2 *zajednička aritmetička sredina?

MEDIJAN (centralna vrijednost, C) Medijan predstavlja rezultat koji se nalazi na sredini kada rangiramo sve rezultate Koristi se na svim skalama, osim na nominalnoj Prikladniji od aritmetičke sredine, kod prisustva asimetričnih distribucija i ekstremnih rezultata Na medijan ne utječe vrijednost pojedinih rezultata, nego samo broj rezultata. Formula za računanje: Rc = (N + 1) / 2 *Rc- označava mjesto rezultata, ne i sami rezultat! Ako je broj rezultata paran, medijan se izračunava tako da se zbroje dva srednja rezultata i podijele se s dva

Medijan (C) Primjer: Iz navedena dva skupa podataka izračunajte aritmetičku sredinu i medijan I.Sku p II. Skup I.Sku p Rang II. Skup rang 6 5 5 5 3 4 5 7 5 5 6 5 5 5 3 4 5 7 5 25 3 4 5 5 5 5 5 5 6 7 3 4 5 5 5 5 5 5 6 25

I.Sku p Rang II. Skup rang Medijan (C) 3 4 5 5 5 5 5 5 6 7 3 4 5 5 5 5 5 5 6 25 M1 = 5; Rc1= (10+1)/2= 5,5 (mjesto medijana) C1= (5+5)/2=5 M2= 7; Rc2= (10+1)/2= 5,5 C2= 5

6.MJERE VARIJABILNOSTI RASPRŠENJA REZULTATA Kod mjerenja mnogih pojava možemo opaziti da se rezultati grupiraju oko jedne srednje vrijednosti. Jedino pod tom pretpostavkom i imamo pravo računati neku vrijednost, npr. aritmetičku sredinu, jer želimo da nam ona na neki način reprezentira sve naše rezultate. Naime, sama aritmetička sredina nije nam još nikakva garancija da se rezultati grupiraju oko te aritmetičke sredine i zato je uvijek potrebno znati kako i koliko se oni grupiraju, tj. da li nam je dobivena aritmetička sredina dobar ili loš reprezentant naših rezultata. 97

RASPON REZULTATA Najjednostavnija (ali i najnetočnija) mjera grupiranja rezultata oko neke srednje vrijednosti je tzv. raspon, tj. razlika između najvećeg i najmanjeg rezultata. Primjer: Prilikom dva puta mjerenja po 10 mjerenja neke pojave, dobili smo ova dva niza rezultata (rezultati su poredani po veličini): 1.mjerenje: 8 8,5 8,5 9 9 9 9 9,5 9,5 10 2.mjerenje: 1 2 3 5 9 9 13 15 16 17. U oba slučaja suma rezultata = 90 i aritmetička sredina = 9,0 što govori da se u prvom mjerenju rezultati bolje grupiraju oko aritmetičke sredine, a u drugom ne. 98

U prvom je slučaju raspon 10 8 = 2, a u drugom slučaju 17 1 = 16. Prema tome, prva aritmetička sredina mnogo je vrednija, jer ona znatno reprezentira rezultate iz kojih je dobivena. Međutim, raspon je vrlo nesigurna i varljiva mjera varijabilnosti rezultata, jer bilo koji osamljeni ekstremni rezultat znatno povećava raspon a da se grupacija rezultata oko aritmetičke sredine ipak nije bitno promijenila. Osnovni se nedostatak raspona sastoji u tom što je on obično to veći što je veći broj mjerenja neke pojave. 99

Raspon Najjednostavnija, ali i najnetočnija mjera grupiranja rezultata oko neke srednje vrijednosti Razlika između najvećeg i najmanjeg rezultata Raspon se povećava povećanjem broja rezultata Nedostaci: ako imamo jedan ekstreman rezultat, bitno utječe na raspon, onda ne dobivamo pravu sliku I II III IV N=2 N=5 N=5 N=10 163 173 580 164 165 173 173 170 165 165 190 166 166 184 146 146 187 154 192 177 189 158 2 27 434 38

SREDNJE ODSTUPANJE NEGRUPIRANI PODACI: Zanima li nas prosječna veličina odstupanja pojedinačnih rezultata (bez obzira na smjer odstupanja), možemo izračunati srednje odstupanje prema formuli srednje odstupanje = D X N X 101

U formuli oznake u zagradi predstavljaju apsolutnu veličinu odstupanja, dakle bez obzira na predznak. Primjer: Ako imamo ove rezultate: Rezultati: 5 7 4 6 5 6 5 2 4 6/ Σ= 50, X = 50/10 = 5,0 Odstupanja: 0 2 1 1 0 1 0 3 1 1/ Σ= 10 Srednje odstupanje = 10/10 = 1 Rezultati, prema tome, prosječno odstupaju od aritmetičke sredine za 1. 102

103

Rez 5 7 4 6 5 6 5 2 4 6 Ods t 0 2 (-)1 1 0 1 0 (-)3 (-)1 1 M=5,0; N=10 SO= (0+2+1+1+0+1+0+3+1+1)/10=10/10= 1

INTERKVARTILNO RASPRŠENJE Q - Računa se kao razlika između vrijednosti rezultata koji se nalaze na granici između 1. i 3. četvrtine rezultata poredanih po veličini 2, 4, 6, ) 8, 10, 12, 14, 16, 18, ( 20, 22, 24 Q = 18-8 = 10 Ako su podaci grupirani potrebno je odrediti donji kvartil Q1 i gornji kvartil Q3, a interkvartil se određuje : Q = Q3 Q1 105

Redno mjesto prvog kvartila odgovara rezultatu N/4, a trećeg kvartila N/4 3 Donji i gornji kvartil se računa analogno izračunavanju medijana i n F N a Q 4 / 1 i n F N a Q 3 4 / 3 106

R f fc 8-13 1 1 14-19 4 5 20-25 9 14 26-31 15 29 32-37 25 54 Q 1 25,5 25,5 7,25 15 21,2514 15 6 6 28,40 38-43 13 67 44-49 10 77 50-55 6 83 56-61 2 85 Q 3 37,5 37,5 9,75 13 63,7554 13 6 42 6 Q Q Q 42 28,40 3 1 13,6 107

STANDARDNA DEVIJACIJA Kada bismo prosječno odstupanje računali vodeći računa o predznaku, onda bismo uvijek kao sumu dobili nulu. Razlog tome već nam je poznat: aritmetička sredina, kao težište rezultata, je vrijednost od koje suma odstupanja iznad i ispod nje uvijek iznosi 0. Jedan od načina da se izbjegnu predznaci odstupanja je taj da se odstupanja kvadriraju. Ako tako kvadrirana odstupanja zbrojimo i izračunamo im aritmetičku sredinu, dobit ćemo mjeru varijabiliteta koja se u statistici naziva varijanca. s 2 X N X 1 2 108

Međutim korijen iz varijance može se kako ćemo vidjeti prikazati kao potpuno definirani razmak na skali rezultata. Taj drugi korijen iz varijance nazvan je standardna devijacija i označava se sa s ili S.D. Ili σ, i to zato što se ta mjera koristi kao standard za mjerenje varijabiliteta rezultata. s s 2 109

X 1 1 X 1 X X 1 1 X 1 2 8-1 1 8,5-0,5 0,25 8,5-0,5 0,25 9 0 0 9 0 0 s 3 9 0,333 0,58 9 0 0 9 0 0 9,5 0,5 0,25 9,5 0,5 0,25 10 1 1 =90 =3,00 X 1 9,0 110

Standardna devijacija pokazuje nam koliko vrijedi dobivena aritmetička sredina. Kada su rezultati simetrično i normalno grupirani oko aritmetičke sredine onda je u intervalu koji obuhvaća, 68,26 % svih rezultata, odnosno X 2S 95,44 % svih rezultata i konačno X 3S 99,73 % svih rezultata. Stoga ukoliko u našem primjeru na jednu i na drugu stranu dodamo vrijednost standardne devijacije aritmetičkoj sredini: ( 9-0,58=8,42 tj. 9,0+0,58=9,58), 68,26 % svih rezultata nalazi se između 8,42 i 9,58., X 1S 111

KOEFICIJENT VARIJABILNOSTI Kada su nam poznate aritmetička sredina i standardna devijacija nekih rezultata, onda su ti rezultati potpuno definirani i možemo ih uspoređivati s nekim drugim rezultatima. Ako imamo dvije različite aritmetičke sredine teško je na prvi pogled odmah ustanoviti koji rezultati relativno više variraju? Da bismo mogli međusobno uspoređivati varijabilnost različitih pojava i svojstava, služimo se tzv. koeficijentom varijabilnosti (V)koji nam pokazuje koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije: V S 100 X 112

Koeficijent varijabilnosti Ako postoje dvije jednake aritmetičke sredine i njihove standardne devijacije, onda je na temelju s. d. relativno lako zaključiti koji rezultati više variraju. Međutim, kada se uspoređuju različite aritmetičke sredine teško je procijeniti samo na temelju s. d. koji su rezultati relativno varijabilniji. Da bi se mogla uspoređivati varijabilnost različitih pojava, koristi se KOEFICIJENT VARIJABILNOSTI koji pokazuje koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije. V S 100 X

Koeficijent varijabilnosti vrlo je korisna mjera u svim onim slučajevima kada želimo znati: u kojem svojstvu neka grupa varira više, a u kojem manje; koja od grupa varira više, a koja manje u istom svojstvu Primjer: Jednim mjerenjem zagrebačke školske omladine utvrđeno je da 10-godišnji dječaci (N=612) imaju visinu 134,4, Sv= 6,06, a težinu 29,2 kg, St= 3,89 kg. Variraju li više dječaci u visini ili težini? V s 100 X V v 6,06100 134,4 4,51% V t 3,89100 29,2 13,32% 114

Prilikom istog mjerenja utvrđeno je da 10- godišnje djevojčice (N=684) imaju visinu 134,9, Sv=6,43, a težinu 29,7, St=4,78. Variraju li u visini i u težini više dječaci ili djevojčice? V s 100 X V vdv 6,43100 134,9 4,77% V tdv 4,78100 29,7 16,09% Prema tome, djevojčice variraju i u visini i u težini više od dječaka. 115

Frekvencija 7. NORMALNA RASPODJELA REZULTATA Ako su svi rezultati nekog mjerenja jednaki tada grafički prikaz te distribucije izgleda kao: Svi rezultati su isti 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 Rezultat 116

Frekvencije Kad bi svi rezultati bili međusobno različiti i ako ne bi bilo grupiranja rezultata oko neke srednje vrijednosti onda bi grafički prikaz takve distribucije bio kao: Grafički prikaz distribucije ako je frekvencija rezultata 1 1,2 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 8 9 Rezultati (X) 117

Ovi ekstremni slučajevi nisu predmet statističke analize! Većina rezultata pokazuje obje tendencije: Tendenciju grupiranja oko srednje vrijednosti Tendenciju raspršenja oko srednje vrijednosti Analiziraju se rezultati koji se grupiranju oko neke srednje vrijednosti i imaju tendenciju raspršenja oko te vrijednosti. Takvi rezultati distribuiraju se prema n o r m a l n o j ili g a u s s o v o j krivulji 118

Frekvencije Simetrična distribucija X=Me=Mo 119

120

Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu: 1. Da se ono što mjerimo stvarno raspoređuje po normalnoj raspodjeli 2. Da imamo veliki broj rezultata (mjerenja) 3. Da su dva mjerenja provedena jednakom metodom i u što sličnijim vanjskim prilikama 4. Skupina na kojoj obavljamo mjerenja mora biti homogena po ostalim svojstvima, a heterogena (neselekcionirana) po onom svojstvu koje mjerimo 121

Glavni uvjeti da kod nekog mjerenja dobijemo normalnu raspodjelu su ovi: 1. Ono što mjerimo moralo bi se i u prirodi normalno distribuirati 2. Mora postojati veliki broj rezultata zakon vjerojatnosti (kod malog broja mjerenja neke pojave pa bila ona i idealno normalno distribuirana u prirodi, pukim slučajem možemo dobiti distribuciju koja nimalo ne sliči normalnoj) 3. Da su sva mjerenja provedena istom metodom i u što sličnijim vanjskim prilikama 4. Skupina na kojoj se vrše mjerenja morala bi biti homogena po ostalim svojstvima, a heterogena po svojstvu koje se mjeri. (kod mjerenja visine da su homogeni po dobi, spolu i sl, a heterogeni po visini)

Normalna distribucija u potpunosti je opisana aritmetičkom sredinom i varijancom (sd). Mjesto infleksije (gdje iz konveksne prelazi u konkavnu) iznad ±1sd Potpuno je simetrična distribucija, zvonolikog oblika, koja se približava osi apscise Svi koeficijenti asimetrije kod normalne krivulje su nula Značajke normalne distribucije Vrijednost koeficijenta zaobljenosti ili kurtičnosti je kod normalne distribucije jednak 3

Oblici normalne distribucije: -različite aritmetičke sredine, jednaka varijabilnost

Oblici normalne distribucije: - različita varijabilnost rezultata

Oblici normalne distribucije: - leptokurtična (izrazitije grupiranje rezultata oko središnje vrijednosti, odnosno u smanjeno raspršenje rezultata)

Pozitivno i negativno asimetrične distribucija Pozitivno asimetrične: -veći dio rezultata se grupira oko nižih vrijednosti Npr., vrijeme reakcije

128

Pozitivno i negativno asimetrične distribucija Negativno asimetrične: -veći dio rezultata se grupira oko viših vrijednosti Npr., školske ocjene

130

Ako aritmetičkoj sredini : dodamo lijevo i desno po jednu standardnu devijaciju (mjeru varijabilnosti), obuhvatili smo površinu koja čini oko 68% cijele površine krivulje, odnosno 68,26% svih rezultata. S dvije SD oko aritmetičke sredine, obuhvaćamo oko 95, 44% svih rezultata, a s tri standardne devijacije gotovo sve rezultata, tj. 99,73% rezultata. Doslovno se ne mogu obuhvatiti svi rezultati i s nekoliko SD, jer se krivulja normalne distribucije asimptomatski približava apscisi, pa se teoretski spajaju u beskonačnost.

Kao što smo već spomenuli kod normalne raspodjele u navedenim intervalima imamo slijedeći postotak rezultata: X 1s 68,26% X X 2s 95,44% 3s 99,73% 132

133

Osnovna karakteristika normalne raspodjele da se tzv. mjesto infleksije nalazi iznad ± 1s Normalna raspodjela je potpuno definirana ako joj znamo aritmetičku sredinu i standardnu devijaciju, zbog toga imamo normalne raspodjele različite širine : uske leptokurtične i vrlo široke - platikurtične 134

Grafički prikaz normalne distribucije koja ima iste aritmetičke sredine a različite standardne devijacije X 1 X 2 s 1 s 2 135

8. POLOŽAJ POJEDINOG REZULTATA U GRUPI z VRIJEDNOST Aritmetička sredina i standardna devijacija potpuno definiraju neku raspodjelu rezultata Zbog toga je za svaki rezultat moguće izračunati na koji dio standardne devijacije on pada Na temelju tog podataka određujemo koliko imamo rezultata većih, a koliko manjih od tog ODREĐUJEMO POLOŽAJ POJEDINCA U GRUPI 136

Svaki rezultat na nekoj varijabli može se izraziti u dijelovima standardne devijacije,tj. izračunamo na koji dio standardne devijacije taj rezultat pada Izražavanje rezultata u dijelovima standardne devijacije naziva se s t a n d a r d i z a c i j a ili pretvaranje u z- vrijednosti 137

Standardizacija rezultata izvodi se na slijedeći način: Z X s X Što znači da izračunamo razliku rezultata kojeg trebamo standardizirati i aritmetičke sredine i dobiveni broj dijelimo standardnom devijacijom 138

Primjer : Mjereći visinu neke grupe ispitanika dobiveni su slijedeći rezultati X 170cm 10cm Koliko je posto ispitanika viših od 180 cm? Z 180170 10 10 10 1 139

Znači da rezultat 180 pada točno na + 1s znamo da aritmetička sredina + 1s obuhvaća 34% rezultata, tako da nam do kraja krivulje na desnoj strani ostaje 16% rezultata 50% - 34% = 16% 140

Grafički prikaz primjera nalazi se na slijedećoj slici: 50% 50% -3σ - 2σ -1σ 0 1σ 2σ 3σ 141

Primjer 1. Neko dijete s oštećenjem vida postiglo je na varijablama "AR" i "AAS" po 28 bodova. Na kojoj varijabli dijete ima bolji rezultat ako su zadane slijedeće vrijednosti? " AR": X 23,25; 5,88; X 28 " AAS": X 21,72; 8,77; X 28 Z Z AR AAS 28 23,25 0,81 5,88 28 21,72 0,72 8,77 Odgovor: Dijete je postiglo bolji rezultat na varijabli "AR" (0,81). 142

Primjer 2 Dijete broj 2 postiglo je na varijabli "AR" rezultat 23, a na varijabli "AAS" rezultat 25. Dijete broj 29 postiglo je na varijabli "AR" rezultat 20, a na varijabli "AAS" rezultat 27. Koje od ovo dvoje djece ima bolji rezultata na obje varijable zajedno? " AR": X 23,25; 5,88 " AAS ": X 21,72; 8,77 VARIJABLE 2. DIJETE 29. DIJETE AR 23 20 AAS 25 27 Z Z 11 21 2. dijete: Z 23 23,25 0,04; Z 5,88 20 23,25 0,55; Z 5,88 2 29. dijete: Z 29 Z 11 Z 2 Z 21 12 0,04 0,37 0,33 Z 22 12 22 25 21,72 0,37 8,77 27 21,72 0,60 8,77 0,55 0,60 0,05 2. dijete ima bolji rezultat na obje varijable zajedno! 143

Primjer 3. U skupini od 1000 mladića nađena je prosječna visina koja iznosi 171,5 cm i prosječno odstupanje rezultata od aritmetičke sredine koje iznosi 9,8 cm. Koliko je mladića visok između 172 i 175 cm? Z Z 1 2 172171,5 9,8 175171,5 9,8 0,05 0,36 Iz statističkih tablica dobiva se površina ispod Normalne ili Gaussove krivulje od aritmetičke sredine do Z 1 = 0,05 i ona iznosi: P(Z 1 ) = 0,01990 Isto tako dobiva se i površina ispod Normalne krivulje od aritmetičke sredine do Z 2 = 0,36 i ona iznosi: P(Z 2 ) = 0,14060 Površina ispod Normalne krivulje dobivena kao P = P(Z 2 ) - P(Z 1 ) = 0,1406 0,0199 = 0,1207 = 12% predstavlja postotak mladića visokih između 172 i 175 cm. Broj mladića = 0,1207 x 1000 = 120 144

Primjer 4. Koliki postotak djece s oštećenjem vida ima razultat manji od 17 bodova na varijabli "AR"? " AR": X 23,25; 5,88; X 17 Z 17 23,25 5,88 1,06 Površina ispod Normalne krivulje dobivena kao P = 0,5 - P(Z) = 0,5 0,3554 = 0,1446 = 14,46% Rezultat manji od 17 bodova na varijabli "AR" ima 14,46% djece sa oštećenjem vida. 145

Primjer 5. Koliki postotak djece s oštećenjem vida ima rezultat između 24 i 27 bodova na varijabli "AR"? Z 1 24 23,25 5,88 0,13 Z 2 27 23,25 5,88 0,64 Temeljem površina ispod Normalne krivulje, od aritmetičke sredine do 0,13 i 0,64 standardne devijacije izračunava se postotak djece na slijedeći način P = P(Z 2 ) - P(Z 1 ) = 0,2389 0,0517 = 0,1872 = 18,72% Rezultata između 24 i 27 bodova na varijabli "AR" ima 18,72% djece s oštećenjem vida 146

Primjer 6. Ispod kojeg se rezultata nalazi 30% najslabije djece sa oštećenjem vida na varijabli "AR"? P(Z) = 0,50 0,30 = 0,20 Temeljem površine ispod Normalne krivulje, od aritmetičke sredine do Z vrijednosti, koja iznosi 0,20 može se iz statističkih tablica pročitati odgovarajuća Z vrijednost i to -0,53. Rezultat ispod kojega se nalazi 30% najslabije djece izračunat će se na slijedeći način Z X X ; Z 0,53; 0,53 X 23,25 ; 5,88 X 23,25 0,535,88; X 20 Odgovor: 30% najslabije djece ima rezultate manje od 20 bodova. 147

9. METODE UZORAKA UZORAK PREDSTAVLJA DIO POPULACIJE ILI OSNOVNOG SKUPA MJERIMO SAMO OGRANIČEN BROJ SLUČAJEVA ARITMETIČKU SREDINU, ST.DEV. TIH UZORAKA NAZIVAMO PROCJENAMA TIH ISTIH PARAMETARA AKO JE POPULACIJA NA KOJOJ ŽELIMO PROVJERITI NEKE VARIJABLE VELIKA ILI ČAK NEIZMJERNA, NEOPHODNO JE IZ TAKVE POPULACIJE FORMIRATI UZORAK KOJI MORA BITI DOBAR REPREZENTANT TE POPULACIJE. 148

UZORAK SE FORMIRA ZBOG - PROCJENE PARAMETARA POPULACIJE - TESTIRANJA HIPOTEZA Postoji nekoliko načina formiranja uzoraka iz populacije. Prema načinu formiranja uzorke dijelimo na 1) namjerne ili pristrane 2) slučajne 149

Da bi zaključci o karakteristikama osnovnog skupa doneseni na temelju uzorka bili valjani, uzorak mora biti reprezentativan. Reprezentativnost uzorka se postiže odabirom odgovarajućeg načina izbora elemenata u uzorak. 150

Metoda uzoraka S obzirom na način izbora jedinica, razlikuju se slučajni i namjerni uzorci. Namjerni uzorak se dobiva izborom jedinica za koje istraživač, prema svom osobnom uvjerenju, smatra da su tipične i reprezentativne za dani osnovni skup. Za slučajni uzorak imamo slučajan izbor jedinica, nekom od metoda slučajnog izbora 151

Metoda uzoraka Reprezentativnost uzorka izabranog na temelju prosudbe istraživača zavisi isključivo od njegove osobne prosudbe i stručnosti. U namjerne uzorke pored uzoraka koje istraživač bira isključivo prema subjektivnoj prosudbi, spadaju prigodni i kvotni uzorak. Prigodni uzorak se bira ispitivanjem jednostavno dostupnih članova osnovnog skupa. Kod kvotnog uzorka izbor jedinica određuju istraživači (anketari), ali u sklopu dodijeljene kvote. 152

Metoda uzoraka Reprezentativnost uzorka se postiže slučajnim izborom jedinica. Za slučajne uzorke u statističkoj teoriji su razvijene metode za statističko zaključivanje o osnovnom skupu uz objektivnu procjenu prihvatljivosti takvih zaključaka. Među slučajnim uzorcima najpoznatiji je jednostavan slučajan uzorak, a još se koriste stratificirani uzorak i uzorak skupina. 153

Metoda uzoraka Ako se iz osnovnog skupa veličine N izabire n elemenata ( n N) u uzorak tako da svaki mogući uzorak ima jednaku vjerojatnost da bude izabran, onda se takav uzorak naziva jednostavan slučajan uzorak. Jednostavan slučajan uzorak može biti uzorak s ponavljanjem ili bez ponavljanja. Izbor jedinica u uzorak iz konačnog skupa provodi se pomoću tablice slučajnih brojeva. Tablica slučajnih brojeva predstavlja niz znamenki (ili skupina znamenki) u kojem svaka znamenka ima jednaku vjerojatnost pojavljivanja. 154

Metoda uzoraka Slučajan izbor jedinica u uzorak se koristi kada su jedinice osnovnog skupa relativno homogene s obzirom na karakteristike koje su predmet istraživanja. Ako postoji značajna varijabilnost elemenata statističkog skupa, koristi se stratificirani uzorak. Prvo se osnovni skup podijeli na homogene skupine elemenata koji se nazivaju stratumi. Iz svakog stratuma se slučajnim izborom bira određeni broj jedinica u uzorak, proporcionalno veličini stratuma. 155

Sampling varijacija i sampling distribucija Pretpostavimo da iz populacije veličine N želimo formirati uzorak veličine n. Ako se za svaki uzorak izračuna aritmetička sredina i standardna devijacija, te ako se distribuiraju aritmetičke sredine svih uzoraka, dobit će se sampling distribucija. Sampling distribucija je normalna distribucija kod koje su aritmetičke sredine uzoraka distribuirane oko aritmetičke sredine populacije. što neka pojava manje varira u populaciji i što je uzorak veći to će i aritmetička sredina uzorka biti bliža svom parametru aritmetičkoj sredini populacije 156

Sampling distribucija ima svoje parametre - aritmetičku sredinu - standardnu devijaciju Parametri populacije procjenjuju se pomoću parametara uzorka koji je reprezentativan za tu populaciju. 157

Pod pretpostavkom da rezultata uzorka približno reflektira raspršenje rezultata u populaciji možemo odrediti i standardnu pogrešku aritmetičke sredine uzorka x n x Standardna pogreška je mjera variranja aritmetičkih sredina uzoraka oko prave aritmetičke sredine populacije. Na osnovi standardne pogreške moguće je postaviti hipotezu u kojim se vrijednosnim granicama određenim vjerojatnošću nalazi prava aritmetička sredina 158

Pri postavljanju intervalne procjene važno je je odrediti granice pouzdanosti Istraživači se slažu kako granica pouzdanosti ne smije biti ispod 95% i više (99%), odnosno razina rizika ne smije biti veća od 5% tj. 1%. Pri zahtijevanju da pouzdanost bude 95% mi određujemo vrijednosni interval u kojem imamo 95% vjerojatnosti da se u njemu nalazi prava vrijednost a samo 5% vjerojatnosti da prava vrijednost leži van tih granica: -2,5% mana od granice intervala i 2,5% veća od granice intervala 159

Frekvencije Sampling distribucija prikazana je na slijedećoj slici Sampling distribucija 2,5% 1,96S x X 0 X 1 1,96S x 2,5% za 95% površine Z = 1,96 za 99% površine Z = 2,58 160

Na temelju ovoga može se napisati interval pouzdanosti za aritmetičku sredinu populacije: X z x 161

-Pri određivanju vrijednosnih granica pouzdanosti služimo se tablicama normalne krivulje -Srednje vrijednosti uzorka se raspodjeljuju oko prave vrijednosti u obliku normalne raspodjele samo ako su uzorci dovoljno veliki 162

Primjer: Rezultati testa matematike za 900 učenika osmih razreda. Ostvareno 70 bodova u prosjeku, a standardna devijacija iznosi 15? Koji je najbolji, a koji najlošiji rezultat? Što možemo reći kakav rezultat se može u prosjeku očekivati od svih učenika osmih razreda svih osnovnih škola? 70 3*15=25 ; 70 + 3* 15= 115 x n 15 900 0,50 X z x 70 1,960,50 70 0,98 Znači aritmetička sredina populacije se nalazi u intervalu od 69,02 do 70,98 sto tvrdimo uz rizik od 5% 163

Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti Ako znamo da je prosječno trajanje menstrualnog ciklusa X=28 dana, da li se uzorak srednjoškolki (N=150) značajno razlike od ove vrijednosti, ako im je aritmetička sredina ciklusa M=31, sd =4,5 *prije svega, potrebno izračunati granice pouzdanosti, a potom i pogrešku aritmetičke sredine -uz 5% vjerojatnosti donošenja pogrešnog zaključka (da ovaj uzorak ne pripada istoj populaciji), interval pouzdanosti je 1,96 -Zašto 1,96? Na prikazu normalne distribucije, p=0,025 znači da je do z=1,96 do kraja krivulje 2,5% rezultata, s obje strane distribucije S M =?

Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti

Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti

Testiranje značajnosti aritmetičke sredine i fiksirane vrijednosti

24 22 20 18 16 f 14 12 28 10 8 6 4 2 0 29,8 30,2 30,6 31,0 31,4 31,8 32,2 Menstrualni ciklus (dani)

PROVJERAVANJE ZNAČAJNOSTI RAZLIKA MEĐU STATISTIČKIM VRIJEDNOSTIMA Svako znanstveno istraživanje ima za svrhu provjeriti određenu hipotezu Provjeravamo je li razlika slučajna ili je rezultat utjecaja nekog čimbenika To ćemo provjeriti testiranjem značajnosti razlika među ta dva skupa;testiramo nul hipotezu tj. pretpostavku da oba skupa pripadaju istoj populaciji tj. da između njih ne postoji razlika 169

To je potrebno zbog toga što svaka razlika ne pokazuje nužno da nezavisna varijabla stvarno mijenja pojavu koju proučavamo Razlike su značajne ako su tolike da postoji mala vjerojatnost da bi se našle među uzorcima iste populacije tj. nisu slučajne već vrlo vjerojatno i postoje 170

PROVJERAVANJE ZNAČAJNOSTI RAZLIKE IZMEĐU DVIJE ARITMETIČKE SREDINE Bitno je voditi računa o: - Veličini uzorka: veliki uzorci N>30 mali uzorci N < 30 - Jesu li uzorci zavisni ili nezavisni 171

Testiranje razlika između aritmetičkih sredina velikih uzoraka izvodi se na temelju standardne pogreške između dviju aritmetičkih sredina tih uzoraka X 1 X 2 2 x 1 2 x 2 172

Budući da je x N standardna pogreška razlika između aritmetičkih sredina računa se po formuli: d X 2 1 1 X 2 N N 1 2 2 2 X d X 1 X 2 173

Testiranje značajnosti razlika između dviju aritmetičkih sredina uzoraka obavlja se pomoću t ili studentova testa Znači t odnos nam ukazuje koliko je puta neka razlika veća od svoje pogreške, a taj odnos ćemo dobiti ukoliko razliku podijelimo njenom pogreškom. 174

Ukoliko je dobivena t vrijednost veća od 1,96 onda je smatramo statistički značajnom na nivou od 5%, a ukoliko je dobivena t vrijednost jednaka ili veća od 2,58 onda je smatramo statistički značajnom na nivou od 1%. 175

Određivanje granice značajnosti Područje odbacivanja Područje prihvaćanja H 0 hipoteze Područje odbacivanja H 0 hipoteze H 0 hipoteze Granica značajnosti predstavlja područje odbacivanja H 0 hipoteze 176

Postavljanje hipoteza Hipoteze se obično postavljaju u obliku: H 0 : NULTA HIPOTEZA H 1 : ALTERNATIVNA HIPOTEZA Prije testiranja razlika t-testom uvijek postavljamo tzv. nul-hipotezu, pretpostavku o rezultatu t-testa, koja najčešće glasi empirijski dobivena razlika među aritmetičkim sredinama je slučajna i aritmetičke se sredine ne razlikuju statistički značajno. Odnosno, uzorci potječu iz iste populacije Određivanje granica odbacivanja nulte hipoteze POGREŠKE KOD TESTIRANJA HIPOTEZE - Vjerojatnost pogreške TIPA I. - Vjerojatnost pogreške TIPA II. 177

H 0 NE ODBACUJEMO H 0 ODBACUJEMO H 0 ISTINITA + POGREŠKA TIPA I H 0 LAŽNA POGREŠKA TIPA II + 178

Granice značajnosti -2,58-1,96 X H 1,96 2,58 Područje prihvaćanja Ho hipoteze za 5% Područje prihvaćanja H 0 hipoteze za 1% Granica značajnosti označava područje odbacivanja H 0 hipoteze. Zbog toga je vjerojatnost pogreške TIPA I jednaka granici značajnosti. Vjerojatnost pogreške TIPA II označavamo sa. i su obrnuto proporcionalne veličine. Kad je veća je manja i obrnuto. 179

Inferencijalna statistika Cijelo područje zaključivanja (uključujući t- testove i druge analize) iz konkretnog (uzoraka) na općenito (populacije) spada u 'statistiku zaključivanja' ili inferencijalnu statistiku, za razliku od deskriptivne ili opisne statistike, gdje nas zanimaju samo karakteristike ispitivanog uzorka.

T-distribucija Distribucija mogućih t-omjera T-distribucija je po obliku slična normalnoj, simetrična je i ima zvonast oblik, ali je prema dnu šira od normalne raspodjele, i to je šira, što je uzorak manji.

Oblici t-testova Ovisno o veličini uzorka, te zavisnosti/nezavisnosti uzorka (ponavljana mjerenja ili različite skupine ispitanika) Prema tome, postoje t-testovi za: 1. Velike nezavisne uzorke 2. Velike zavisne uzorke 3. Male nezavisne uzorke (N<30) 4. Male zavisne uzorke (N<30) Kod nezavisnih uzoraka je poželjno da su uzorci slične ili jednake veličine, pogotovo ako su mali uzorci, kad su uzorci iznad 100 ne trebaju biti slične veličine.

Testiranje značajnosti razlika između dviju aritmetičkih sredina velikih nezavisnih uzoraka obavlja se pomoću t ili studentova testa na slijedeći način: t X d X x 1 x 2 d d Znači t odnos nam ukazuje koliko je puta neka razlika veća od svoje pogreške, a taj odnos ćemo dobiti ukoliko razliku podijelimo njenom pogreškom. 183

Primjer: Na testu auditivnog razumijevanja kod 32 djece sa oštećenjem vida dobivena je aritmetička sredina 23,25 i standardna devijacija 5,88. Na istom testu, 30 djece sa mentalnom retardacijom postiglo je prosječno 17,34 boda uz standardnu devijaciju 6,36. Da li je razlika na auditivnom razumijevanju između ove dvije skupine ispitanika statistički značajna? Rješenje: X N 1 1 1 23,25; 5,88; 32; N 2 2 X 2 17,34 6,36 30 X d d t X d d X x 1 1 X 2 x 2 5,91 1,56 23,2517,34 5,91 N 2 1 1 3,788 N 2 2 2 34,5744 32 40,4496 30 1,56 Dobiveni t veći je od tabličnog t=z=1,96 za 5% pogreške, može se reći da se aritmetičke sredine ovih dvaju uzoraka međusobno razlikuju. 184

185

186