Matemaatiline statistika ja modelleerimine Kirjeldav statistika EMÜ doktorikool DK.7 Tanel Kaart Sagedused ja osakaalud diskreetne tunnus Mittearvuliste või diskreetsete tunnuste (erinevate väärtuste arv suhteliselt väike) ülevaatlikuks kirjeldamiseks on lihtne lugeda kokku, mitu korda iga erinevat väärtust esineb ja kirjutada saadud arvud tabeli kujul. Väärtuse esinemiste arvu nimetatakse tema sageduseks. Tihti leitakse lisaks iga väärtuse (protsentuaalne) osakaal valimis, mida nimetatakse ka suhteliseks sageduseks. Mullatüüp liiv liivmuld liivmuld liiv liivmuld Niiskus niiske paras niiske kuiv paras paras niiske paras paras kuiv Suvinisu viljakus (kg/ha) 364 478 474 397 463 49 46 4935 535 45 Mullatüüp Sagedus 5 liivmuld 3 liiv Osakaal,5,3, Osakaal (%) 5 Tanel Kaart 1
Sagedustabeli asemel võib kokkuvõtliku info väärtuste esinemissagedustest esitada ka kas tulp- või ringdiagrammina (sektordiagrammina). Mullatüüpide esinemissagedused 5 4 Mullatüüpide osakaalud Sagedus 3 1 liivmuld liiv Mullatüüpide esinemissagedused Osakaal (%) 4 liivmuld liiv liivmuld (3) Mullatüüpide osakaalud liivmuld (5) liiv () 5 liiv Sagedused ja osakaalud pidev tunnus Pidevate tunnuste puhul on tunnuse võimalike väärtuste arv (teoreetiliselt) lõpmatu seega kui sagedustabelis vastaks igale väärtusele üks rida, siis kaoks praktiliselt erinevus sagedustabeli ja originaalandmete vahel. Seetõttu jagatakse tunnuse võimalikud väärtused intervallidesse ja sagedustabel näitab, mitu väärtust langeb ühte või teise intervalli. Intervallide arv ei tohiks olla liiga suur ja see oleneb valimi suurusest ( n). Sagedus 4 3 1 [35-4) [4-45) [45-5) [5-55) Suvinisu saagikus kg/ha Saagikus Sagedus Osakaal Osakaal (%) [35-4), [4-45) 3,3 [45-5) 4,4 4 [5-55) 1,1 1 Jaotus 5 9 1 Pideva tunnuse sagedustabeli põhjal saadud tulpdiagrammi nimetatakse histogrammiks. Tanel Kaart
Märkusi ja soovitusi Erinevalt tulpdiagrammist, mis on antud andmete korral üheselt määratud, võime samade andmete põhjal saada üsna erineva kujuga histogramme. 35% 5% 15% 1 5% (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Lammaste kehamass, kg (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Sagedus 1 4 7 5 Suhteline sagedus 4,76% 19,5% 33,33% 9,5% 3,81%, 9,5% Lammaste kehamass, kg (5,6] (6,7] (7,8] (8,9] Sagedus 1 11 7 Suhteline sagedus 4,76% 5,38% 33,33% 9,5% 5 4 1 (5,6] (6,7] (7,8] (8,9] Märkusi ja soovitusi On tungivalt soovitav, et kõik kasutatud vahemikud oleksid võrdse pikkusega! Joonisele tuleb kanda ka vahemikud, kuhu ühtki objekti ei sattunud! Avatud vahemikke tuleks võimaluse korral vältida. 6 35% 45% 15% <6 6-65 65-8 >8 5% 15% 1 5% (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] 5 4 1 (55,65] (65,75] (75,85] (85,95] Tanel Kaart 3
Märkusi ja soovitusi 7 6 Teaduslikult korrektsel histogrammil on ka x-telg esitatud pideval (mitte diskreetsel) skaalal. Selle Excel is teostamine on muidugi üks paras nikerdus... 7 6 5 4 3 1 55 6 65 7 75 8 85 9 5 4 3 1 (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Märkusi ja soovitusi Sagedused versus osakaalud 5 15 Kütitud ulukid Põder Punahirv Pruunkaru Metssiga Metskits Hunt 1 8 6 4 Kütitud ulukid Põder Punahirv Pruunkaru Metssiga Metskits Hunt 1 5 1991 1995 5 1991 1995 5 Skaala! Eestis kütitud põdrad 5 46 Eestis kütitud põdrad 4 43 3 4 1 37 3 4 5 34 3 4 5 Tanel Kaart 4
Ringdiagrammile eelistada tulpdiagrammi (eriti võrdlemisel). Märkusi ja soovitusi 4 1 Kütitud ulukid. aastal (osakaal, %) 35,3% 38,6% 3,3%,5%,%, Hunt Metskits Metssiga Pruunkaru Punahirv Põder 4 1 Kütitud ulukid 5. aastal (osakaal, %) 38,8% 43, 17,5%,1%,1%,5% Hunt Metskits Metssiga Pruunkaru Punahirv Põder Kütitud ulukid. aastal (osakaal, %) Metskits 35,3% Metssiga 38,6% Hunt,5% Pruunkaru,% Punahirv, Põder 3,3% Kütitud ulukid 5. aastal (osakaal, %) Metskits 38,8% Metssiga 43, Hunt,1% Pruunkaru,1% Punahirv,5% Põder 17,5% Vältida tuleks 3-mõõtmelisi graafikuid, eriti ringdiagramme. Märkusi ja soovitusi Rahva eelistused poliitiliste erakondade osas Valged Sinised Erakond Sinised Punased Mustad Valged Osakaal (%) 34 31 1 3 Mustad Punased Rahva eelistused poliitiliste erakondade osas Sinised 4 35 3 5 15 1 5 Rahva eelistused poliitiliste erakondade osas Sinised Punased Mustad Valged Valged Mustad Punased Tanel Kaart 5
Arvkarakteristikud andmestiku suurus (valimi maht, sample size) n n = = (aritmeetiline) keskmine [average, mean] x x 1 i n i mediaan (nn 5-punkt) [median] mood [mode] enim esinev (suurima sagedusega) väärtus Näide. Uuringu all olnud 5-l haigestunud loomal määrati haiguse peiteajaks vastavalt 8, 16, 1, 6 ja 14 päeva (üks uuritud loomadest oli ilmselt geneetiliselt erinev või siis sai juba mingit muud, haiguse avaldumist pärssivat ravi). Haiguse keskmine peiteaeg on 8+ 16+ 1+ 6+ 14 11 x = = = päeva. 5 5 Peiteaeg, millest pooltel loomadel avaldus haigus varem ja pooltel hiljem, on leitav kui kasvavalt järjestatud peiteaegade keskmine väärtus e mediaan: 8, 1, 14, 16, 6 = med Keskmise omadusi 1. cx = cx, kus c on konstant. x + c = x + c, kus c on konstant 3. x + y = x + y n 4. x = nx i= 1 i 5. f ( x) f ( x), kus f on monotoonne teisendus Mediaani omadusi ( ) = ( ) med ( 1 x ) ( med x ) 1. med f ( x) f med( x), kus f on monotoonne teisendus Näiteks, kui log ( ) =, siis log 1 ( ) = med ( x) = 1 = 1. n. x n med( x) i= 1 i Tanel Kaart 6
Vaatluste hajuvus miinimum, maksimum, haare [range] = max min n standardhälve [standard deviation] s = 1 ( x ) 1 1 i x n i= dispersioon [(sample) variance] standardviga [standard error] s se = s n Näide. Uuriti 5 metsiku ja 4 puhtatõulise laborihiire reaktsiooni ärritajale. Tulemuseks saadi järgmised väärtused: metsikud hiired 15, 45, 3, 1, 5; labori hiired, 5, 3, 5. Keskmised reaktsioonid kummagi grupi jaoks on 15+ 45+ 3 + 1 + 5 15 + 5+ 3+ 5 1 x m = = = 5, x l = = = 5. 5 5 4 4 s m s l (15 5) + (45 5) + (3 5) + (1 5) + (5 5) 75 = = = 187,5 13,69; 5 1 4 ( 5) + (5 5) + (3 5) + (5 5) 5 = = 16,67 4,8. 4 1 3 Standardhälbe ja dispersiooni omadusi 1. s ( cx) = c s ( x), kus c on konstant. s( cx) = cs( x) 3. s ( x + c) = s ( x) 4. s( x + c) = s( x) 5. kui x ja y on sõltumatud uuritavad tunnused, siis s x + y = s x + s y ( ) ( ) ( ) Teades vaid uuritava tunnuse keskväärtust (populatsiooni keskmist) ja standardhälvet, võime uuritava tunnuse väärtuste kohta öelda järgmist: vähemalt 3/4 uuritava tunnuse väärtustest asuvad keskväärtusele lähemal kui kaks standardhälvet (enamasti asub kahe standardhälbe kaugusel keskväärtusest umbes 95% vaatlustest); vähemalt 8/9 uuritava tunnuse väärtustest asuvad keskväärtusele lähemal kui kolm standardhälvet (enamasti asub kolme standardhälbe kaugusel keskväärtusest rohkem kui 99% vaatlustest). Tanel Kaart 7
Arvkarakteristikud Näiteid kirjandusest Arvkarakteristikud Näiteid kirjandusest Tanel Kaart 8
Variatsioonikordaja [coefficient of variation] v = s 1 x Aga mis siis, kui keskmine on negatiivne? Näide. Keskmine St. hälve Var. kordaja Piim, kg 3,3 5,3 17,6 Rasv, % 4,13,74 17,98 Valk, % 3,17,4 7,59 SRA, tuh/ml 695,9 1111,99 159,79 Energiabilanss, MJ -36,4 5,99-146, Kvantiilid, protsentiilid kvartiilid alumine kvartiil e 5%-punkt ja ülemine kvartiil e 75%-punkt [lower, upper quartile] kvartiilide vahe [interquartile range, IQR] kasutatakse varieeruvuse iseloomustamiseks detsiilid, protsentiilid e protsendipunktid/kvantiilid min, max α-kvantiiliks [α-quantile] nimetatakse sellist uuritava tunnuse väärtust, millest väiksemate väärtuste osakaal mõõtmistulemuste seas on α. Min 5 Kvartiilide vahe 95%-punkt Alumine kvartiil Mediaan Ülemine kvartiil Max 5% 5% 5% 5% 95% 5% Tanel Kaart 9
Karp-vurrud diagramm [boxplot] Karpvurrud-diagramm Näiteid kirjandusest Tanel Kaart 1
Karpvurrud-diagramm Sünnimass 8 3 3 34 36 38 Ertsma Halinga Langerma Libatse Farm Vasikate sünnimass farmide kaupa. Väärtused, mis jäävad alumisest või ülemisest kvartiilist kaugemale kui 1,5-kordne kvartiilide vahe, on loetud erandlikeks ja tähistatud sümboliga. 3D diagrammid Tanel Kaart 11
3D diagrammid 3-mõõtmelised pinnad sobivad sageli illustreerimaks matemaatilise modelleerimise tulemusi. Tanel Kaart 1
Diagramme võib omavahel kombineerida -3 - -1 1 3-3 - -1 1 3 Mõnikord võib terve ettekande mahutada ühele joonisele... Tanel Kaart 13