Oddelek za matematiko in računalništvo Fakulteta za naravoslovje in matematiko Univerza v Mariboru 1. marec 2010
Obvestila. http://um.fnm.uni-mb.si/ Prosojnice se lahko spremenijo v tednu po predavanjih. Prosim, sporočite pripombe na prosojnice na bokal@uni-mb.si. Primeri na predavanjih: sodelovanje.
Opisna statistika. Obdelava opisnih spremenljivk. Bistven je prikaz podatkov. Malo kategorij: frekvenca f : frekvenčne tabele: absolutne in relativne frekvence kategorij, strukturni krogi: relativna frekvenca kot krožni izsek (kos torte), strukturni stolpci: relativna frekvenca kot delež višine. Več kategorij in ordinalna spremenljivka: kumulativna frekvenca F: delež vrednosti strogo manjših od izbrane kategorije, strukturni stolpci: podlaga, kumulativna frekvenca kot višina pod kategorijo.
Opisna statistika. Odnos kategorij znotraj dveh spremenljivk: kontingenčna tabela (celične frekvence parov kategorij, robne frekvence kategorij), strukturni stolpci, poleg frekvenc parov kategorij lahko tudi relativne frekvence. Klasifikacije: združevanje kategorij v hierarhijo.
Obravnava številskih podatkov - izhodišča. X številska statistična spremenljivka na populaciji G. H G vzorec (lahko H = G). x 1, x 2,..., x n vrednosti statistične spremenlivke X na H. x (1) x (2)... x (n) ranžirna vrsta. Število v oklepaju: rang statistične enote. Več enakih enot (enačaji) povprečna vrednost. Relativni rang p = r n - delež enot z manjšo ali enako vrednostjo. Zgled.
Načini prikazovanja. Načini prikazovanja frekvenc diskretnih vrednosti: stolpični diagram, frekvenčni poligon, prikazujeta tudi frekvenčno porazdelitev. Načini prikazovanja frekvenc zveznih vrednosti: združevanje v razrede, nato kot diskretne, običajno med 5 in 20 razredov, histogram - stolpični diagram, kjer se stolpci dotikajo, prikaz kumulativne frekvence. Odnos med številskimi spremenljivkami: razsevni ali točkovni diagram, koordinate točk podatkov so enake vrednostim statističnih spremenljivk.
Mere centralne tendence. Srednja vrednost: osrednja tendenca statistične spremenljivke. Pogosto jo ocenjujemo iz vzorca: srednja vrednost v vzorcu. Različne mere srednje vrednosti: modus, mediana, povprečje.
Modus. Najpogostejša vrednost M v populaciji (vzorcu). Najbolj preprost, najmanj uporaben. Lahko jih je več: nehomogenost spremenljivke.
Mediana. Vrednost srednjega elementa v ranžirni vrsti. { ) 1 m = 2 (x (k) + x (k+1) ; n = 2k x (k) ; n = 2k + 1.
Povprečje. Aritmetična sredina vseh vrednosti. x = 1 n n i=1 x i. Grupirano v r razredov s frekvencami f i in vrednostmi x i : x = 1 n r i=1 f i x i. Slabost pri zelo nehomogenih spremenljivkah: velik vpliv ekstremnih vrednosti. Grupirano v s skupin s frekvencami f i in povprečji x i : x = s i=1 f i x i s i=1 f. i
Mere razpršenosti (variabilnosti). Poleg srednje vrednosti pomembna tudi razpršenost okrog nje. Variabilnost je osnova veliko statističnih metod. Dve vrsti mer: razmiki, odkloni.
Mere razpršenosti - razmiki. Variacijski razmik: razlika med največjo in najmanjšo vrednostjo: vr = x max x min, groba, zelo nestabilna mera odvisna od ekstremnih vrednosti vzorca. Kvantil: X zvezna, p število z lastnostjo 0 < p < 1, p-ti kvantil: najmanjše število q p, za katero velja, da ima q p % populacije vrednost manjšo od q p, Ni nujno enolično določen.
Mere razpršenosti - razmiki. Vzorčni kvantil: naj bo r = np, definiramo p-ti vzorčni kvantil: q p = x (r), kvartili, decili, centili. Kvartilni razmik: razlika med tretjim in prvim kvartilom, kr = q 34 q 14, pri enakomerni razporeditvi 50% vrednosti vzorca, zanesljivejši od variacijskega razmika, Škatla z brki. Decilni dr, centilni cr razmik: razlika med prvim in zadnjim intervalom.
Mere razpršenosti - odkloni. Odkloni, porojeni iz razmikov: mediana: q 12, kvartilni odklon: ko = kr 2, decilni odklon: do = dr 2, centilni odklon: co = cr 2. Varianca, standardni odklon: σ 2 = n 1 n i=1 (x i x) 2. Grupirani podatki? σ 2 = n 1 n i=1 x2 i 1 n 2 ( n i=1 x i) 2, standardni odklon: σ = σ 2 = 1n n i=1 (x i x) 2.
Mere razpršenosti - odkloni. Vzorčna disperzija: s 2 = n 1 1 n i=1 (x i x) 2, pomembna pri za oceno populacijske disperzije, vzorčni standardni odklon: s = s 2 = 1 n 1 n i=1 (x i x) 2. Variacijski koeficient: kv = s x.
Porazdelitvene mere. Opisujejo tip in obliko porazdelitve številskih podatkov. Število modusov: unimodalne, bimodalne, polimodalne porazdelitve. Zvezne spremenljivke: lokalni modus porazdelitev. Primeri bimodalnih porazdelitev. V nadaljevanju le unimodalne spremenljivke.
Centralni moment - posplošitev variance. k-ti centralni moment: m k = 1 n n i=1(x i x) k, simetrična frekvenčna porazdelitev: M = m = x, padanje relativne frekvence počasneje proti desni: M m x, padanje relativne frekvence počasneje proti levi: M m x, koeficient asimetrije: A = m 3, m 3 2 simetrična porazdelitev: A = 0. asimetrija v desno: A > 0, v levo A < 0, koeficient sploščenosti (kurtozis): K = m 4 m 2 3, normalna porazdelitev: K = 0. K < 0 bolj položna, K > 0 bolj koničasta.