2.2 Srednje vrijednosti aritmetička sredina, medijan, mod Podaci (realizacije varijable X): x 1,x 2,...,x n (1) 1
2.2.1 Aritmetička sredina X je numerička varijabla. Aritmetička sredina od (1) je broj: x = 1 n (x 1 + x 2 + + x n )= 1 n n i=1 x i. 2
Ako se u (1) ponavljaju brojevi: a 1,a 2,...,a k, (2) s frekvencijama f 1,f 2,...,f k tada je x = 1 n (f 1a 1 + f 2 a 2 + + f k a k )= 1 n Primijetimo: k j=1 f j a j. {a 1,a 2,...,a k } ImX 3
Primjer 2.3 (nastavak) i f i 0 11 1 4 2 2 3 2 4 1 5 30 0 20 x = 11 0+4 1+2 2+2 3+1 4 20 =0.9 4
Zadatak 1. Pokažite da je aritmetička sredina invarijantna na afine transformacije skupa podataka. Preciznije: neka su a, b R(a 0), te y 1,y 2,...y n novi skup podataka dobiven iz (1) transformacijom: Tada je y i := ax i + b, 1 i n. ȳ = a x + b. 5
Zadatak 2. Pokažite da je aritmetička sredina skupa podataka (1) jedinstveni broj u kojem realna funkcija v(µ) := postiže svoj minimum. n i=1 (x i µ) 2 6
Harmonijska sredina? Geometrijska sredina? 7
2.2.2 Medijan X je numerička ili ordinalna varijabla. Medijan je vrijednost od X za koju vrijedi da je 50% podataka manje od ili jednako toj vrijednosti i 50% podataka je veće od ili jednako njoj. 8
Uredimo podatke (1): x (1) x (2) x (n). (3) Definicija. Neka su podaci (1) brojevi. Medijan je broj: m = x (k) ako je n =2k 1 m = 1 2 (x (k) + x (k+1)) ako je n =2k 9
Primjer 2.4 (nastavak) Uredeni podaci: 22 23 24 24 24 24 25 25 25 26 26 26 26 26 27 27 27 28 29 30 n =20=2 10 m = 1 2 (x (10) + x (11) )=1 (26 + 26) = 26 2 10
Zadatak 1. Pokažite da je medijan invarijantan na afine transformacije skupa podataka. 11
Zadatak 2. Pokažite da postoji jedinstveni broj m u kojem realna funkcija d(µ) := n i=1 x i µ postiže svoj minimum ako i samo ako je n neparan broj ili je x (k) = x (k+1) za n =2k. U tom slučaju je m medijan od (1). Koliko točaka minimuma ima funkcija d ako je n = 2k paran broj i x (k) <x (k+1)? Koja je veza medijana od (1) s tim točkama? 12
2.2.3 Mod Mod je vrijednost od X s najvećom frekvencijom. Primjer 2.2 (nastavak) a i f i S 9 M 30 L 16 55 mod = M 13
2.3 Mjere raspršenja raspon, interkvartil, varijanca i standardna devijacija 2.3.1 Raspon podataka R = max 1 i n x i min 1 i n x i = x (n) x (1) 14
Za β = k + α (k =[β] cijeli broj i 0 α<1), x (β) := x (k) + α(x (k+1) x (k) ) 2.3.2 Interkvartil Izračunamo donji (q L )igornji (q U ) kvartil: q L := x ( n+1 4 ), q U := x ( ) 3(n+1) 4 Interkvartil: IQR := q U q L 15
Primjer 2.6 Mjerenjem koncentracije β-endorphina u krvnoj plazmi 11 trkača nakon utrke, dobiveni su sljedeći podaci (pmol/l): 66, 72, 79, 84, 102, 110, 123, 144, 162, 169, 414 n =11 m = x ( ) 11+1 = x (6) = 110 2 ) = x (3) =79 q L = x ( 11+1 4 q U = x ( ) 3 11+1 = x (9) = 162 4 IQR = 162 79 = 83 x (1) = 66, x (11) = 414 R = 414 66 = 348. 16
Karakteristična petorka uzorka: (x (1),q L,m,q U,x (n) ) Dijagram pravokutnika ( box and whisker plot ) 17
Primjer 2.7. Raspolažemo sa 100 podataka o iznosima šteta zbog popuštanja vodovodnih instalacija po policama osiguranja kućanstava. 243 306 271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 487 127 74 523 164 366 343 330 436 141 388 293 464 200 392 265 403 372 259 426 262 221 355 324 374 347 261 278 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 464 337 308 359 352 273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 343 414 291 299 265 318 415 372 238 323 411 494 18
19
2.3.3 Uzoračka varijanca i standardna devijacija Uzoračka varijanca: s 2 = 1 n 1 n i=1 (x i x) 2, s 2 = 1 n 1 k j=1 f j (a j x) 2 Uzoračka standardna devijacija: s := + s 2. 20
Ekvivalentne formule: s 2 = 1 n 1 s 2 = 1 n 1 n i=1 k j=1 x 2 i f j a 2 j n n 1 x2 n n 1 x2 21
Primjer 2.4 (nastavak) Frekvencijska tablica: i f i f i a i f i a 2 i 22 1 22 484 23 1 23 529 24 4 96 2304 25 3 75 1875 26 5 130 3380 27 3 81 2187 28 1 28 784 29 1 29 841 30 1 30 900 20 514 13284 x = 514 20 =25.7 s 2 = 13284 = 3.91 19 20 s = 3.91 = 2.0 19 25.72 = 22
Zadatak 1. Neka su podaci y 1,y 2,...,y n dobiveni afinom transformacijom y i = ax i + b, i =1, 2,...,n (a 0) podataka (1). Tada je uzoračka varijanca s 2 (y) transformiranih podataka jednaka s 2 (y) =a 2 s 2, odn. standarna devijacija je s(y) = a s. 23
Zadatak 2. (Čebiševljeva nejednakost) Neka je ε>0 proizvoljan broj, a x i s 2 arit. sredina i uzoračka varijanca podataka (1). Tada vrijedi: #{i : x i x ε} (n 1)s2 ε 2. Koristeći tu nejednakost izračunajte kolika je relativna frekvencija podataka koji se od aritmetičke sredine razlikuju za ne više od k standardnih devijacija (k >1). 24
2.4 Mjere lokacije Decili: D k := x ( ) k, k =1, 2,...,9 10 (n+1) Percentili: P k := x ( k 100 (n+1)), k =1, 2,...,99 25
Kvantili: Za broj α 0, 1 t.d. je α(n +1)<n, α-kvantil je broj q α := x (α(n+1)) 26
2.5 Momenti Neka je r prirodan broj. r-ti moment podataka (1) je broj: M r := 1 n n i=1 x r i. Ukoliko su svi podaci x i pozitivni brojevi, r-ti moment se može definirati za bilo koji realni pozitivni broj r. 27
Neka je r prirodan broj. r-ti centralni moment podataka (1) je broj: C r := 1 n n i=1 (x i x) r. 28
2.6 Standardizacija podataka Neka su x i s arit. sredina i std. devijacija od (1). Transformirajmo podatke iz (1): z i := x i x, i =1, 2,...,n (4) s Niz (4) zovemo standardizirani niz od (1). 29
2.7 Koeficijent asimetrije α 3 := 1 n 1 n i=1 ( xi x s ) 3 Koja je ekvivalentna formula ukoliko raspolažemo frekvencijskom tablicom? 30
Ako je α 3 = 0 podaci su simetrični α 3 < 0 podaci su negativno asimetrični α 3 > 0 podaci su pozitivno asimetrični 31
32
2.7 Koeficijent zaobljenosti α 4 := 1 n 1 n i=1 ( ) xi x 4 3 s Koja je ekvivalentna formula ukoliko raspolažemo frekvencijskom tablicom? 33
2.8 Dvodimenzionalna obilježja Podaci: (X, Y ):Ω K L (x 1,y 1 ), (x 2,y 2 ),...,(x n,y n ) (5) 34
Ako je: Im X = {a 1,a 2,...,a r } Im Y = {b 1,b 2,...,b c } Im (X, Y )={(a i,b j ):1 i r, 1 j c} f ij = frekvencija od (a i,b j ) u (5) f i = (marginalna) frekvencija od a i u (5) g j = (marginalna) frekvencija od b j u (5) f i = c j=1 f ij, g j = r f ij i=1 35
Kontingencijska frekvencijska tablica: X\Y b 1 b 2 b c a 1 f 11 f 12 f 1c f 1 a 2 f 21 f 22...... f 2c. f 2. a r f r1 f r2 f rc f r g1 g 2 g c n 36
Primjer 2.8. U jednom razredu od n = 30 učenika promatra se ocjena iz matematike (X) i fizike (Y ). Podaci: (1, 3), (4, 3), (2, 2), (3, 2), (1, 2), (1, 1), (2, 2), (4, 4), (2, 2), (5, 5), (3, 3), (2, 2), (3, 3), (4, 4), (5, 5), (3, 5), (2, 1), (2, 3), (2, 2), (2, 2), (3, 3), (3, 2), (4, 4), (2, 2), (3, 3), (2, 1), (3, 2), (3, 2), (3, 2), (2, 2) 37
Kontingencijska frekvencijska tablica: X\Y 1 2 3 4 5 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 0 1 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 3 14 7 3 3 30 38
Marginalna distribucija distribucija od X distribucija od Y 39
Primjer 2.8. (nastavak) Kontingencijska tablica frekvencija tablica relativnih frekvencija: X\Y 1 2 3 4 5 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 0 1 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 3 14 7 3 3 30 X\Y 1 2 3 4 5 1 1 1 3 1 0 0 30 30 30 30 2 8 1 2 0 0 11 30 30 30 30 5 4 1 10 3 0 0 30 30 30 30 1 3 4 4 0 0 0 30 30 30 2 5 0 0 0 0 3 30 14 30 7 30 3 30 2 30 30 3 1 30 40
Uvjetne distribucije distribucija od X uz dano Y = b j distribucija od Y uz dano X = a i 41
Primjer 2.8. (nastavak) Uvjetne distribucije od X: X\Y 1 2 3 4 5 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 0 1 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 3 14 7 3 3 30 X\Y = y 1 2 3 4 5 1 1 1 1 0 0 3 14 7 2 8 1 2 0 0 3 14 7 5 4 3 0 0 1 14 7 3 1 4 0 0 1 0 7 5 0 0 0 0 2 3 1 1 1 1 1 42
Uvjetne distribucije od Y : X\Y 1 2 3 4 5 1 1 1 1 0 0 3 2 2 8 1 0 0 11 3 0 5 4 0 1 10 4 0 0 1 3 0 4 5 0 0 0 0 2 2 3 14 7 3 3 30 X = x\y 1 2 3 4 5 1 1 1 1 0 0 1 3 3 3 2 8 1 2 0 0 1 11 11 11 5 4 1 3 0 0 1 10 10 10 1 3 4 0 0 0 1 4 4 5 0 0 0 0 1 1 43
Regresijske funkcije x :ImY R x(y) := arit. sredina uvjetne distrib. od X uz dano Y = y ȳ :ImX R ȳ(x) := arit. sredina uvjetne distrib. od Y uz dano X = x 44
Primjer 2.8. (nastavak) X\Y 1 2 3 4 5 ȳ(x) 1 1 1 1 0 0 3 2 2 2 8 1 0 0 11 21 11 3 0 5 4 0 1 10 27 10 4 0 0 1 3 0 4 15 4 5 0 0 0 0 2 2 5 3 14 7 3 3 30 x(y) 5 3 14 32 19 7 4 13 3 45