Analiza i prikazivanje podataka prof.dr.sc. Sanja Varošanec 23.9.2012. 1
HNOS (iz 2006.) Ključni pojmovi: obilježje skupa podataka, frekvencija i relativna frekvencija, tablični prikaz, stupčasti dijagram, kružni dijagram Obrazovna postignuća: prepoznati obilježje skupa podataka odredivati vrijednosti tog obilježja, prikazivati prikupljene podatke pomoću tablice frekvencije i relativne frekvencije, grafički pomoću stupčastog i kružnog dijagrama izračunavati aritmetičku sredinu interpretirati rezultate. 2
NOK 1. ciklus Učenici će: prikupiti, razvrstati i organizirati podatke koji proizlaze iz svakodnevnoga života te ih prikazati jednostavnim tablicama, piktogramima (slikovnim dijagramima) i stupčastim dijagramima pročitati i protumačiti podatke prikazane jednostavnim tablicama, piktogramima i stupčastim dijagramima 3
NOK 2. ciklus Učenici će: prikupiti, razvrstati i organizirati podatke te ih na prikladan način prikazati tablicom, tablicom frekvencija, piktogramom, stupčastim i kružnim dijagramom te sustavnom listom pročitati i protumačiti podatke prikazane tablicama, slikama, listama te različitim grafovima i dijagramima odrediti i primijeniti aritmetičku sredinu, raspon i medijan niza numeričkih podataka 4
NOK 3. ciklus Učenici će: prikupiti, klasificirati i organizirati podatke te ih na prikladan način, pomoću računala i bez njega, prikazati sustavnom listom, tablicom, tablicom frekvencija, linijskim, stupčastim i kružnim dijagramom, grafikonom, brkatom kutijom (box and whiskers dijagram) i grafom pročitati, tumačiti i analizirati podatke prikazane na različite načine odrediti i primijeniti frekvenciju i relativnu frekvenciju za dane podatke te aritmetičku sredinu, medijan, kvartile, mod, raspon i interkvartilni raspon niza numeričkih podataka 5
Učenička postignuća na kraju četvrtog odgojno-obrazovnog ciklusa (srednjoškolsko strukovno obrazovanje) Učenici će: J1. prikupiti, klasificirati i organizirati podatke, te ih na prikladan način, pomoću računala i bez njega, prikazati za potrebe statističke analize, J2. pročitati, tumačiti i analizirati podatke prikazane na različite načine, J3. odrediti i primijeniti srednje vrijednosti (aritmetička sredina, medijan, mod) i raspršenost (raspon, interkvartilni raspon) niza numeričkih podataka, J4. rabiti jednostavne računalne programe za statističku obradu podataka. 6
Učenička postignuća na kraju četvrtog odgojno-obrazovnog ciklusa (srednjoškolsko gimnazijsko obrazovanje) Učenici će: J1. sustavno prikupiti, klasificirati i organizirati podatke, te ih prikazati i analizirati pomoću srednjih vrijednosti (aritmetička sredina, medijan, mod) i raspršenosti (raspon, interkvartilni raspon, standardna devijacija), J2. procijeniti parametar srednje vrijednosti uz zadani pouzdani interval J3. prepoznati približnu linearnu vezu dviju varijabli, odrediti njezine koeficijente, te ju rabiti pri modeliranju, J4. interpretirati složene dogadaje pomoću skupovnih operacija te izračunati njihovu vjerojatnost, J5. primijeniti normalnu razdiobu. 7
Medicinske škole - novi program od 2012.2013. 1. razred Učenici će: - prikupiti podatke iz primarnih izvora pomoću upitnika i eksperimenta, bilježeći opažanja, mjerenja i/ili rezultate, te raspraviti je li metoda prikupljanja podataka valjana - prikupiti podatke iz sekundarnih izvora (tzv. sekundarni podatci) - razvstati i organizirati diskretne (npr. krvna grupa, spol, boja očiju) i kontinuirane (npr. visina, tjelesna masa, temperatura) primarne i sekundarne podatke - prikazati podatke na primjeran način pomoću tablice i kružnog dijagrama te stupčastog dijagrama i histograma s pravilno označenim osima, nazivima, skalama te razredima jednake širine - pročitati, protumačiti i donijeti zaključke o primarnim i sekundarnim podatcima prikazanima tablicom, dijagramom (uključujući stupčasti dijagram, višestruki stupčasti dijagram, kružni dijagram) i drugim grafičkim prikazima - odrediti i primijeniti srednje vrijednosti (aritmetička sredina, medijan, mod) niza numeričkih podataka - prikupiti, organizirati, prikazati i protumačiti podatke iz svakodnevnog života, drugih nastavnih predmeta i zdravstvene struke - rabiti džepno računalo i primjenski program za izradu proračunskih tablica za organizaciju i prikazivanje podataka. 8
2. razred Učenici će: - radeći timski, isplanirati, organizirati i provesti statističko istraživanje - prikazati podatke pomoću tablice, kružnog i stupčastog dijagrama, histograma i linijskog dijagrama (razlomljenog - diskretni podatci na x-osi, a kontinuirani na y-osi; kontinuirani podatci na obje osi) -pročitati, protumačiti i donijeti zaključke o primarnim i sekundarnim podatcima prikazanim tablicom, dijagramom (uključujući stupčasti dijagram, dvostruki stupčasti dijagram, kružni dijagram, linijski dijagram, percentilnu krivulju) i drugim grafičkim prikazima - odrediti, usporediti i protumačiti srednje vrijednosti (aritmetička sredina, medijan, mod, kvartili, percentili) i mjere raspršenosti (raspon, interkvartilni raspon) niza numeričkih podataka 9
- protumačiti utjecaj dodavanja ili uklanjanja jednog ili više podataka na srednje vrijednosti niza numeričkih podataka - usporediti sličnosti i razlike izmedu dva srodna skupa podataka rabeći razne strategije (npr. prikazivanjem podataka pomoću tablica crtica ili višestrukog stupčastog dijagrama; usporedbom srednjih vrijednosti i mjera raspršenosti; opisujući oblik grafičkog prikaza podataka) - prepoznati grafove u kojima se manipulira podatcima (npr. grafove koji prenaglašuju promjenu počinjući na vertikalnoj osi od točke pridružene broju većem od nule) - razlikovati reprezentativni uzorak, slučajni uzorak i populaciju - protumačiti trendove u podatcima - rabiti džepno računalo i primjenski program za izradu proračunskih tablica za organizaciju i prikazivanje podataka. 10
Statistički skup ili populacija je skup istovrsnih elemenata. Primjeri: skup svih učenika jednog razrednog odjela, skup svih zaposlenih stanovnika RH na dan 1.10.2011. Statističko obilježje je ono svojstvo elemenata populacije po kojem se ti elementi razlikuju i nalikuju. Primjeri: spol, stručna sprema, mjesto rodenja, način studiranja, ocjena na ispitu, površina stana Vrijednosti obilježja - stanja koja to obilježje može imati 11
Vrste podataka: primarni i sekundarni Klasifikacija obilježja: - kategorijalna obilježja - nominalna i redoslijedna (ordinalna, rangirana) - numerička - diskretna i kontinuirana 12
Faze statističke djelatnosti - statističko promatranje (mjerenje, brojenje, ocjenjivanje, opažanje, evidencija, anketiranje) - klasificiranje (grupiranje) - analiza 13
Vrste podataka Primjer 1.1. (kategorijsko nominalno obilježje) Prošli tjedan u Zavodu za transfuziju 50 je osoba dobrovoljno dalo krv. Svakom je davatelju odredena krvna grupa i dobiven je ovaj niz podataka A A B 0 B AB 0 0 0 0 0 0 B AB AB 0 0 B A A A 0 0 0 B 0 0 A A A B B 0 A 0 A 0 0 0 0 0 0 0 A B 0 0 0 B 0 tip krvne grupe broja osoba koje imaju taj tip grupe (frekvencija) 0 27 A 11 B 9 AB 3 14
Primjer 1.2. (kategorijsko rangirano (redoslijedno) obilježje) Na ispitu znanja iz matematike učenici 1.b razreda postigli su sljedeće rezultate: ocjenu odličan dobilo je 3 učenika, ocjenu vrlo dobar 9 učenika, ocjenu dobar 9 učenika, ocjenu dovoljan 5 učenika, a ocjenu nedovoljan 4 učenika. Prikažimo te podatke u tablici i odredimo frekvenciju pojedine ocjene. Što je obilježje, a što vrijednost obilježja? ocjena broj učenika odličan 3 vrlo dobar 9 dobar 9 dovoljan 5 nedovoljan 4 15
Primjer 1.3. (numeričko diskretno obilježje) Bolnički je administrator pregledavajući kartone pacijenata primljenih na bolničko liječenje u rujnu dobio sljedeći niz podataka koji sadrži broj dana provedenih na bolničkom liječenju: 6 3 2 4 4 6 6 6 2 1 1 3 3 8 5 3 4 4 5 6 1 2 9 7 3 2 2 6 6 6 broj dana broj pacijenata koji su bolničkog liječenja proveli u bolnici taj broj dana 1 3 2 5 3 5 4 4 5 2 6 8 7 1 8 1 9 1 16
Primjer 1.4. (numeričko kontinuirano obilježje) Učenicima 1.a razreda izmjerena je visina i dobiveni su ovi podatci (iskazani u centimetrima): 182 153 164 173 184 175 180 155 201 177 180 183 186 188 182 178 169 168 173 159 152 162 163 185 17
Razredi Grupiranje u 6 razreda jednake širine. Vrijednosti ima 201 152 + 1 = 50. 50 : 6 = 8.3, broj 8.3 zaokružimo na 9. Širina razreda je 9. visina x učenika (u cm) frekvencija 152 x 160 4 161 x 169 5 170 x 178 5 179 x 187 8 188 x 196 1 197 x 205 1 18
precizne granice razreda visina učenika (u cm) precizne granice frekvencija razreda 152 160 151.5 160.5 4 161 169 160.5 169.5 5 170 178 169.5 178.5 5 179 187 178.5 187.5 8 188 196 187.5 196.5 1 197 205 196.5 205.5 1 19
peteljka-list dijagram ( stem-leaf dijagram ili ST dijagram) 15 2359 16 23489 17 33578 18 002234568 19 20 1 Legenda: 15 2=152 cm 20
Grafički prikaz pomoću piktograma: Primjer 1.1. tip krvne grupe broja osoba koje imaju taj tip grupe (frekvencija) 0 27 A 11 B 9 AB 3 SLIKA 21
Primjer 2.1. Učenici 1a razreda anketirani su o najomiljenijoj vrsti voća. Njihovi odgovori i frekvencije svakog od voća dani su u ovoj tablici: najomiljenija broj učenika kojima vrsta voća je to voće najomiljenije jabuke 6 kruške 2 naranče 4 banane 9 šljive 4 Prikažimo ove podatke grafički. 22
Stupci mogu biti polegnuti i vodoravno. 23
najomiljenija broj učenika relativna relativna vrsta voća kojima je to voće frekvencija frekvencija (frekvencija) najomiljenije u% jabuke 6 0.24 24% kruške 2 0.08 8% naranče 4 0.16 16% banane 9 0.36 36% šljive 4 0.16 16% Stupčasti dijagram relativnih frekvencija Korelacija: proporcionalnost, postotci 24
Primjer 2.2. Podatke o dobrovoljnim davateljima krvi iznesenima u Primjeru 1.1 pomoću kružnog dijagrama. tip krvne grupe frekvencija 0 27 A 11 B 9 AB 3 zbroj: 50 27 : 50 = α : 360 α = 27 360 50 α = 194.4 25
Korelacija: proporcionalnost, krug, kut 26
Histogram - spojeni stupci čija je površina proporcionalna frekvencijama, odnosno relativnim frekvencijama. Primjer 2.3. Ispitujući količinu lijekova koje dnevno uzimaju pacijenti, došlo se do sljedećih podataka o broju lijekova u obliku tableta koje svaki dan uzimaju pacijenti bolničkog odjela: broj tableta broj pacijenata koje se uzimaju svakodnevno koji uzimaju taj broj lijekova 1 24 2 43 3 12 4 2 5 1 a) Izračunajmo relativne frekvencije danih podataka. b) Prikažimo ih grafički. 27
broj tableta broj pacijenata (f i ) relativne frekvencije 24 1 24 =29.3% 82 43 2 43 =52.4% 82 24 3 12 =14.6% 82 24 4 2 =2.4% 82 24 5 1 =1.2% 82 28
broj precizne granice sredina frekvencije tableta razreda razreda 1 0.5 1.5 1 24 2 1.5 2.5 2 43 3 2.5 3.5 3 12 4 3.5 4.5 4 2 5 4.5 5.5 5 1 29
30
31
Primjer 2.4. Prikažimo stupčastim i linijskim dijagramom, te histogramom podatke dane u primjeru 1.4. visina precizne granice frekvencija sredina učenika razreda razreda 152 160 151.5 160.5 4 156 161 169 160.5 169.5 5 165 170 178 169.5 178.5 5 174 179 187 178.5 187.5 8 183 188 196 187.5 196.5 1 192 197 205 196.5 205.5 1 201 32
Za histogram su potrebne i korigirane relativne frekvencije (gustoća). To je kvocijent relativne frekvencije i širine razreda. Dodamo još dva stupca. visina precizne granice frek. sredina rel. korig. učenika razreda razreda frek. rel. frekv 4 152 160 151.5 160.5 4 156 24 5 161 169 160.5 169.5 5 165 24 5 170 178 169.5 178.5 5 174 24 8 179 187 178.5 187.5 8 183 24 1 188 196 187.5 196.5 1 192 24 197 205 196.5 205.5 1 201 1 24 4 216 5 216 5 216 8 216 1 216 1 216 33
34
Višestruki stupčasti dijagrami 35
Aritmetička sredina, medijan i mod Aritmetička sredina x = x 1 + x 2 +...+ x n. n Težinska (vagana, ponderirana) aritmetička sredina x = f 1x 1 + f 2 x 2 +...+ f k x k n Zaokružuje se na jedno decimalno mjesto više od onoga kako su dani podaci. Primjer 3.4. Mjereno je vrijeme (u satima) trajanja baterija tipa AA. Dobiveni su podatci grupirani u 7 razreda i dani su u tablici frekvencija. Izračunajmo prosječno vrijeme trajanja baterija. vrijeme trajanja u satima Broj baterija precizne granice razreda (frekvencija) 25.5 85.5 25 85.5 145.5 128 145.5 205.5 423 205.5 265.5 398 265.5 325.5 154 325.5 385.5 73. 36
precizne granice broj baterija sredina razreda x i f i razreda (frekvencija) f i x i 25.5 85.5 25 55.5 1387.5 85.5 145.5 128 115.5 14784 145.5 205.5 423 175.5 74236.5 205.5 265.5 398 235.5 93729 265.5 325.5 154 295.5 45507 325.5 385.5 73 355.5 25951.5 Ukupno: 1201 255595.5 x = x 1f 1 +...+ x n f n n = 255595.5 1201 x = 212.8 212.81890 37
Medijan je broj koji se u nizu podataka poredanih po veličini nalazi u sredini. Primjer 3.5. Odredimo medijan nizova a) 35, 38, 47, 49, 52, 56, 60; b) 35, 38, 47, 49, 52, 56. Rješenje. a) Niz ima 7 brojeva. Sredina niza je četvrti broj. M = 49. b) Niz ima 6 članova i sredina se nalazi izmedu trećeg i četvrtog člana. M = 47 + 49 2 =48. 38
Kada imamo neparan broj podataka, tj. kad ih ima 2k 1, tada je medijan jednak k-tom podatku, tj. M = x k. Kada imamo paran broj podataka, tj. kad ih ima 2k, tada je medijan jednak aritmetičkoj sredini k-tog i (k + 1)-ovog podatka, tj. M = x k + x k+1 2. 39
Mod je jednak podatku koji se javlja najveći broj puta (ali više od jedanput). Primjer 3.6. Odredite mod niza podataka danih peteljka-list dijagramom: 2 001239 3 004455777 4 01112222375 5 1235788 Legenda: 2 0 = 20. Broj 42 se u dijagramu pojavljuje 4 puta, a svi ostali brojevi se pojavljuju manje puta. M o = 42. unimodalna, bimodalna, višemodalna razdioba 40
Primjer 3.8. Učenici 1.a razreda su na pitanje koliko imaju braće i sestara dali ove odgovore broj braće i sestara broj učenika koji imaju toliki broj braće i sestara (f i ) 0 12 1 8 2 2 3 1 4 2 x = 0.12+1.8+2.2+3.1+4.2 =0.9. 25 M o = 0, tj. u 1.a razredu najviše učenika nema ni brata ni sestru. 41
Mjere varijabilnosti ili raspršenja - raspon, varijanca i standardna devijacija σ 2 = (x 1 x) 2 +(x 2 x) 2 +...(x n x) 2 n. σ = (x 1 x) 2 +(x 2 x) 2 +...(x n x) 2 n. Unutar dvije standardne devijacije oko aritmetičke sredine nalazi se 75% podataka. Barem 88.89% podataka se nalazi unutra 3 standardne devijacije oko aritmetičke sredine. 42
Standardna vrijednost ili z-vrijednost podatka x i je broj z 1 definiran kao z i = x i x σ Taj nam broj kazuje za koliko standardnih devijacija je podatak x i udaljen od aritmetičke sredine niza. 43
Primjer 4.1 Učenici 1a razreda pisali su test iz hrvatskog jezika i iz matematike. Test iz hrvatskog jezika imao je aritmetičku sredinu 40 i standardnu devijaciju 10, dok je test iz matematike imao aritmetičku sredinu 25 i standardnu devijaciju 5. Marko je na testu iz hrvatskog osvojio 50 bodova, dok je na testu iz matematike osvojio 35 bodova. Na kojem je testu postigao bolji uspjeh? Rješenje. z H = x i x σ = 50 40 10 =1, Markov se rezultat iz testa iz hrvatskog nalazi 1 standardnu devijaciju od aritmetičke sredine. z M = x i x 35 25 = =2, σ 5 Markov se rezultat iz matematike nalazi 2 standardne devijacije od aritmetičke sredine. 44
Kvartili i percentili Donji kvartil (u oznaci Q 1 ) je ona vrijednost numeričkog obilježja koja sve podatke dijeli na jednu četvrtinu podataka i oni su jednaki ili manji od donjeg kvartila, i na tri četvrtine podataka, koji su jednaki ili veći od donjeg kvartila. Gornji kvartil (u oznaci Q 3 ) je ona vrijednost numeričkog obilježja koja sve podatke dijeli na tri četvrtine podataka i oni su jednaki ili manji od gornjeg kvartila, i na četvrtinu podataka, koji su jednaki ili veći od gornjeg kvartila. Interkvartilni raspon ili kraće interkvartil (u oznaci IQR) je razlika izmedu gornjeg i donjeg kvartila. 45
Primjer 5.1. Odredimo medijan, kvartile i interkvartilni raspon nizova podataka: a) 51, 62, 78, 94, 96, 99, 105 b) 4, 6, 12, 13, 15, 17, 22, 45. a) n =7,M = 94. Donji je kvartil medijan niza 51, 62, 78. Medijan tog podniza je 62, tj. Q 1 = 62. Gornji kvartil je medijan niza onih brojeva koji su veći od medijana, tj. Q 3 = 99. Interkvartilni je raspon jednak IQR =99 62 = 37. b) n =8,M = 13+15 2 = 14. Donji kvartil je medijan niza 4,6,12,13, Q 1 = 6+12 = 2 9. Gornji kvartil je medijan niza 15,17,22,45, a to je Q 3 = 17+22 =19.5. 2 Interkvartilni je raspon jednak IQR = 19.5 9 = 10.5. 46
Q 1 = Q 3 = x k+1 ako n nije cijeli i k je cijeli dio broja n 4 4 x k + x k+1 ako je n 4 2 cijeli i k = n 4 x k+1 ako 3n nije cijeli i k je cijeli dio broja 3n 4 4 x k + x k+1 ako je 3n 4 2 cijeli i k = 3n 4 47
Dijagram pravokutnika (eng. box-plot diagram, eng. box and whisker diagram, brkata kutija). 51, 62, 78, 94, 96, 99, 105 3 2 Q 1 =62,M=94,Q 3 =99,IQR= Q 3 Q 1 =37. 37 3 IQR = =55.6, 2 Q 1 3 IQR =62 55.5 =6.5 2 Q 3 + 3 IQR = 99 + 55.5 = 154.5 2 Granice (6.5, 154.5) - brkovi. 48
4,6,12,13,15,17,22,45, Q 1 =9,M=14,Q 3 =19.5, IQR= Q 3 Q 1 =10.5. Granice brkova su Q 1 3 IQR =9 15.75 = 6.75 2 i Q 3 + 3 IQR =35.25. 2 45 > 35.25 outlier. 49
Percentili P p = x k+1 x k + x k+1 2 ako pn 100 nije cijeli i k je cijeli dio broja pn 100 ako je pn 100 cijeli i k = pn 100 Q 1 = P 25,M= P 50,Q 3 = P 75 Primjer 5.2. Odredimo 40. percentil ovog niza podataka 51, 62, 78, 94, 96, 99, 105. 3. Podataka ima 7. Broj pn = 40 7 =2.8 nije cijeli broj. 100 100 Njegov cijeli dio je 2, a uvećamo li ga za 1 dobivamo P 40 = 78. 50
Primjer 5.4. Promotrimo podatke dane u Primjeru 3.4. i odredimo medijan, kvartile i 15. percentil tih podataka. vrijeme trajanja u satima Broj baterija precizne granice razreda (frekvencija) 25.5 85.5 25 85.5 145.5 128 145.5 205.5 423 205.5 265.5 398 265.5 325.5 154 325.5 385.5 73 51
precizne granice razreda broj baterija kumulativne (frekvencija) relativne frekvencije 25.5 85.5 25 25 1201 =2.08% 85.5 145.5 128 153 1201 =12.74% 145.5 205.5 423 576 1201 =47.96 205.5 265.5 398 974 1201 =81.1% 265.5 325.5 154 1128 1201 =93.92% 325.5 385.5 73 1 = 100% 52
Kumulativne relativne frekvencije - Baterije 120 kum. rel. frekv. u % 100 80 60 40 20 0 0 2.08 12.74 47.96 81.1 93.92 100 385.5 325.5 265.5 205.5 145.5 85.5 25.5 trajanje baterija u satima 53
T 1 (205.5, 47.96) i T 2 (265.5, 81.1). y y 1 = y 2 y 1 (x x 1 ) x 2 x 1 81.1 47.96 y 47.96 = (x 205.5) 265.5 205.5 y 41.96 = 33.14 (x 205.5) 60 y = 0.5523x 65.54 Za y =50x = 209.2 =M Za y =75x = 254.5, tj. Q 3 = 254.5. 54