Matemaatiline statistika ja modelleerimine

Σχετικά έγγραφα
Töökorraldus. Õppematerialid. Töökorraldus. Harvey Motulsky Intuitive Biostatistics (2010, 1995)

2.2.1 Geomeetriline interpretatsioon

Funktsiooni diferentsiaal

Kompleksarvu algebraline kuju

Vektorid II. Analüütiline geomeetria 3D Modelleerimise ja visualiseerimise erialale

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED LEA PALLAS XII OSA

Ruumilise jõusüsteemi taandamine lihtsaimale kujule

Geomeetrilised vektorid

Lokaalsed ekstreemumid

Graafiteooria üldmõisteid. Graaf G ( X, A ) Tippude hulk: X={ x 1, x 2,.., x n } Servade (kaarte) hulk: A={ a 1, a 2,.., a m } Orienteeritud graafid

Kirjeldab kuidas toimub programmide täitmine Tähendus spetsifitseeritakse olekuteisendussüsteemi abil Loomulik semantika

7.7 Hii-ruut test 7.7. HII-RUUT TEST 85

Matemaatiline analüüs I iseseisvad ülesanded

9. AM ja FM detektorid

2. Normi piiride määramine (R.D. Smith)

Statistiline andmetöötlus, VL-0435 sügis, 2008

HULGATEOORIA ELEMENTE

Excel Statistilised funktsioonid

ITI 0041 Loogika arvutiteaduses Sügis 2005 / Tarmo Uustalu Loeng 4 PREDIKAATLOOGIKA

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED, ÜLESANDED LEA PALLAS VII OSA

2. Normi piiride määramine

Andmeanalüüs molekulaarbioloogias

HAPE-ALUS TASAKAAL. Teema nr 2

Jätkusuutlikud isolatsioonilahendused. U-arvude koondtabel. VÄLISSEIN - COLUMBIA TÄISVALATUD ÕÕNESPLOKK 190 mm + SOOJUSTUS + KROHV

KOMBINATSIOONID, PERMUTATSIOOND JA BINOOMKORDAJAD

Matemaatiline statistika ja modelleerimine

Planeedi Maa kaardistamine G O R. Planeedi Maa kõige lihtsamaks mudeliks on kera. Joon 1

Ehitusmehaanika harjutus

Compress 6000 LW Bosch Compress LW C 35 C A ++ A + A B C D E F G. db kw kw /2013

1.1. NATURAAL-, TÄIS- JA RATSIONAALARVUD

Wilcoxoni astakmärgitest (Wilcoxon Signed-Rank Test)

1 Funktsioon, piirväärtus, pidevus

PLASTSED DEFORMATSIOONID

4 T~oenäosuse piirteoreemid Tsentraalne piirteoreem Suurte arvude seadus (Law of Large Numbers)... 32

T~oestatavalt korrektne transleerimine

STM A ++ A + A B C D E F G A B C D E F G. kw kw /2013

Mõõtm., andmetöötlus ja autom. piimanduses ja lihanduses, VL-1112 ja VL-1122 Praktikum 1

Matemaatiline analüüs I iseseisvad ülesanded

Praktikum 1. Matemaatiline statistika ja modelleerimine, DK.0007

Energiabilanss netoenergiavajadus

1 Reaalarvud ja kompleksarvud Reaalarvud Kompleksarvud Kompleksarvu algebraline kuju... 5

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Veaarvutus ja määramatus

DEF. Kolmnurgaks nim hulknurka, millel on 3 tippu. / Kolmnurgaks nim tasandi osa, mida piiravad kolme erinevat punkti ühendavad lõigud.

Sisukord. 4 Tõenäosuse piirteoreemid 36

Sisukord. 3 T~oenäosuse piirteoreemid Suurte arvude seadus (Law of Large Numbers)... 32

Eesti koolinoorte XLI täppisteaduste olümpiaad

Praktikum 2. Kommentaarid andmestiku kohta

Eesti koolinoorte XLVIII täppisteaduste olümpiaadi

Suhteline salajasus. Peeter Laud. Tartu Ülikool. peeter TTÜ, p.1/27

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Kontrollijate kommentaarid a. piirkondliku matemaatikaolümpiaadi

Funktsioonide õpetamisest põhikooli matemaatikakursuses

Arvuteooria. Diskreetse matemaatika elemendid. Sügis 2008

Andmete haldus ja analüüs MS Excelis Praktikum 1

Matemaatika VI kursus Tõenäosus, statistika KLASS 11 TUNDIDE ARV 35

Kontekstivabad keeled

SELEKTSIOONIINDEKSID

4.2.5 Täiustatud meetod tuletõkestusvõime määramiseks

4.1 Funktsiooni lähendamine. Taylori polünoom.

1 Kompleksarvud Imaginaararvud Praktiline väärtus Kõige ilusam valem? Kompleksarvu erinevad kujud...

Lexical-Functional Grammar

siis on tegemist sümmeetrilise usaldusvahemikuga. Vasakpoolne usaldusvahemik x i, E x = EX, D x = σ2

Juhuslik faktor ja mitmetasandilised mudelid

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Eesti elektrienergia hinna analüüs ja ühesammuline prognoosimine ARIMA tüüpi mudelitega

Eesti koolinoorte XLIX täppisteaduste olümpiaad

Matemaatiline statistika ja modelleerimine

Enam kui kahe grupi keskmiste võrdlus

Annegrete Peek. Üldistatud aditiivne mudel. Bakalaureusetöö (6 EAP)

ELEKTRIMÕÕTMISTE TÄIENDKOOLITUS

3. LOENDAMISE JA KOMBINATOORIKA ELEMENTE

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Arvuti kasutamine uurimistöös

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

Koduseid ülesandeid IMO 2017 Eesti võistkonna kandidaatidele vol 4 lahendused

Arvutatavad statistikud. Programmi LSTATS kasutamisjuhend

; y ) vektori lõpppunkt, siis

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

,millest avaldub 21) 23)

Smith i diagramm. Peegeldustegur

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Epidemioloogiliste terminite lühisõnastik

KEEMIAÜLESANNETE LAHENDAMISE LAHTINE VÕISTLUS

Biostatistics for Health Sciences Review Sheet

Ecophon Line LED. Süsteemi info. Mõõdud, mm 1200x x x600 T24 Paksus (t) M329, M330, M331. Paigaldusjoonis M397 M397

Mõõtmised, andmetöötlus ja automaatika lihanduses ja piimanduses, VL-1112 & VL-1122

Tuletis ja diferentsiaal

2. HULGATEOORIA ELEMENTE

A - suurepärane % B - väga hea 81-90% C - hea 71-80% D - rahuldav 61-70% E - kasin 51-60% F - puudulik 0 50% Kirjeldav statistika

sin 2 α + cos 2 sin cos cos 2α = cos² - sin² tan 2α =

Statistiline andmetöötlus VL.0435

1 Entroopia ja informatsioon

Seminar II: Mitmemõõtmeline dispersioonanalüüs (MANOVA)

2017/2018. õa keemiaolümpiaadi piirkonnavooru lahendused klass

KATEGOORIATEOORIA. Kevad 2010

Mõõtmised, andmetöötlus ja automaatika lihanduses ja piimanduses, VL-1112 & VL-1122

KATEGOORIATEOORIA. Kevad 2016

ALGEBRA I. Kevad Lektor: Valdis Laan

6 Mitme muutuja funktsioonid

Transcript:

Matemaatiline statistika ja modelleerimine Kirjeldav statistika EMÜ doktorikool DK.7 Tanel Kaart Sagedused ja osakaalud diskreetne tunnus Mittearvuliste või diskreetsete tunnuste (erinevate väärtuste arv suhteliselt väike) ülevaatlikuks kirjeldamiseks on lihtne lugeda kokku, mitu korda iga erinevat väärtust esineb ja kirjutada saadud arvud tabeli kujul. Väärtuse esinemiste arvu nimetatakse tema sageduseks. Tihti leitakse lisaks iga väärtuse (protsentuaalne) osakaal valimis, mida nimetatakse ka suhteliseks sageduseks. Mullatüüp liiv liivmuld liivmuld liiv liivmuld Niiskus niiske paras niiske kuiv paras paras niiske paras paras kuiv Suvinisu viljakus (kg/ha) 364 478 474 397 463 49 46 4935 535 45 Mullatüüp Sagedus 5 liivmuld 3 liiv Osakaal,5,3, Osakaal (%) 5 Tanel Kaart 1

Sagedustabeli asemel võib kokkuvõtliku info väärtuste esinemissagedustest esitada ka kas tulp- või ringdiagrammina (sektordiagrammina). Mullatüüpide esinemissagedused 5 4 Mullatüüpide osakaalud Sagedus 3 1 liivmuld liiv Mullatüüpide esinemissagedused Osakaal (%) 4 liivmuld liiv liivmuld (3) Mullatüüpide osakaalud liivmuld (5) liiv () 5 liiv Sagedused ja osakaalud pidev tunnus Pidevate tunnuste puhul on tunnuse võimalike väärtuste arv (teoreetiliselt) lõpmatu seega kui sagedustabelis vastaks igale väärtusele üks rida, siis kaoks praktiliselt erinevus sagedustabeli ja originaalandmete vahel. Seetõttu jagatakse tunnuse võimalikud väärtused intervallidesse ja sagedustabel näitab, mitu väärtust langeb ühte või teise intervalli. Intervallide arv ei tohiks olla liiga suur ja see oleneb valimi suurusest ( n). Sagedus 4 3 1 [35-4) [4-45) [45-5) [5-55) Suvinisu saagikus kg/ha Saagikus Sagedus Osakaal Osakaal (%) [35-4), [4-45) 3,3 [45-5) 4,4 4 [5-55) 1,1 1 Jaotus 5 9 1 Pideva tunnuse sagedustabeli põhjal saadud tulpdiagrammi nimetatakse histogrammiks. Tanel Kaart

Märkusi ja soovitusi Erinevalt tulpdiagrammist, mis on antud andmete korral üheselt määratud, võime samade andmete põhjal saada üsna erineva kujuga histogramme. 35% 5% 15% 1 5% (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Lammaste kehamass, kg (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Sagedus 1 4 7 5 Suhteline sagedus 4,76% 19,5% 33,33% 9,5% 3,81%, 9,5% Lammaste kehamass, kg (5,6] (6,7] (7,8] (8,9] Sagedus 1 11 7 Suhteline sagedus 4,76% 5,38% 33,33% 9,5% 5 4 1 (5,6] (6,7] (7,8] (8,9] Märkusi ja soovitusi On tungivalt soovitav, et kõik kasutatud vahemikud oleksid võrdse pikkusega! Joonisele tuleb kanda ka vahemikud, kuhu ühtki objekti ei sattunud! Avatud vahemikke tuleks võimaluse korral vältida. 6 35% 45% 15% <6 6-65 65-8 >8 5% 15% 1 5% (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] 5 4 1 (55,65] (65,75] (75,85] (85,95] Tanel Kaart 3

Märkusi ja soovitusi 7 6 Teaduslikult korrektsel histogrammil on ka x-telg esitatud pideval (mitte diskreetsel) skaalal. Selle Excel is teostamine on muidugi üks paras nikerdus... 7 6 5 4 3 1 55 6 65 7 75 8 85 9 5 4 3 1 (55,6] (6,65] (65,7] (7,75] (75,8] (8,85] (85,9] Märkusi ja soovitusi Sagedused versus osakaalud 5 15 Kütitud ulukid Põder Punahirv Pruunkaru Metssiga Metskits Hunt 1 8 6 4 Kütitud ulukid Põder Punahirv Pruunkaru Metssiga Metskits Hunt 1 5 1991 1995 5 1991 1995 5 Skaala! Eestis kütitud põdrad 5 46 Eestis kütitud põdrad 4 43 3 4 1 37 3 4 5 34 3 4 5 Tanel Kaart 4

Ringdiagrammile eelistada tulpdiagrammi (eriti võrdlemisel). Märkusi ja soovitusi 4 1 Kütitud ulukid. aastal (osakaal, %) 35,3% 38,6% 3,3%,5%,%, Hunt Metskits Metssiga Pruunkaru Punahirv Põder 4 1 Kütitud ulukid 5. aastal (osakaal, %) 38,8% 43, 17,5%,1%,1%,5% Hunt Metskits Metssiga Pruunkaru Punahirv Põder Kütitud ulukid. aastal (osakaal, %) Metskits 35,3% Metssiga 38,6% Hunt,5% Pruunkaru,% Punahirv, Põder 3,3% Kütitud ulukid 5. aastal (osakaal, %) Metskits 38,8% Metssiga 43, Hunt,1% Pruunkaru,1% Punahirv,5% Põder 17,5% Vältida tuleks 3-mõõtmelisi graafikuid, eriti ringdiagramme. Märkusi ja soovitusi Rahva eelistused poliitiliste erakondade osas Valged Sinised Erakond Sinised Punased Mustad Valged Osakaal (%) 34 31 1 3 Mustad Punased Rahva eelistused poliitiliste erakondade osas Sinised 4 35 3 5 15 1 5 Rahva eelistused poliitiliste erakondade osas Sinised Punased Mustad Valged Valged Mustad Punased Tanel Kaart 5

Arvkarakteristikud andmestiku suurus (valimi maht, sample size) n n = = (aritmeetiline) keskmine [average, mean] x x 1 i n i mediaan (nn 5-punkt) [median] mood [mode] enim esinev (suurima sagedusega) väärtus Näide. Uuringu all olnud 5-l haigestunud loomal määrati haiguse peiteajaks vastavalt 8, 16, 1, 6 ja 14 päeva (üks uuritud loomadest oli ilmselt geneetiliselt erinev või siis sai juba mingit muud, haiguse avaldumist pärssivat ravi). Haiguse keskmine peiteaeg on 8+ 16+ 1+ 6+ 14 11 x = = = päeva. 5 5 Peiteaeg, millest pooltel loomadel avaldus haigus varem ja pooltel hiljem, on leitav kui kasvavalt järjestatud peiteaegade keskmine väärtus e mediaan: 8, 1, 14, 16, 6 = med Keskmise omadusi 1. cx = cx, kus c on konstant. x + c = x + c, kus c on konstant 3. x + y = x + y n 4. x = nx i= 1 i 5. f ( x) f ( x), kus f on monotoonne teisendus Mediaani omadusi ( ) = ( ) med ( 1 x ) ( med x ) 1. med f ( x) f med( x), kus f on monotoonne teisendus Näiteks, kui log ( ) =, siis log 1 ( ) = med ( x) = 1 = 1. n. x n med( x) i= 1 i Tanel Kaart 6

Vaatluste hajuvus miinimum, maksimum, haare [range] = max min n standardhälve [standard deviation] s = 1 ( x ) 1 1 i x n i= dispersioon [(sample) variance] standardviga [standard error] s se = s n Näide. Uuriti 5 metsiku ja 4 puhtatõulise laborihiire reaktsiooni ärritajale. Tulemuseks saadi järgmised väärtused: metsikud hiired 15, 45, 3, 1, 5; labori hiired, 5, 3, 5. Keskmised reaktsioonid kummagi grupi jaoks on 15+ 45+ 3 + 1 + 5 15 + 5+ 3+ 5 1 x m = = = 5, x l = = = 5. 5 5 4 4 s m s l (15 5) + (45 5) + (3 5) + (1 5) + (5 5) 75 = = = 187,5 13,69; 5 1 4 ( 5) + (5 5) + (3 5) + (5 5) 5 = = 16,67 4,8. 4 1 3 Standardhälbe ja dispersiooni omadusi 1. s ( cx) = c s ( x), kus c on konstant. s( cx) = cs( x) 3. s ( x + c) = s ( x) 4. s( x + c) = s( x) 5. kui x ja y on sõltumatud uuritavad tunnused, siis s x + y = s x + s y ( ) ( ) ( ) Teades vaid uuritava tunnuse keskväärtust (populatsiooni keskmist) ja standardhälvet, võime uuritava tunnuse väärtuste kohta öelda järgmist: vähemalt 3/4 uuritava tunnuse väärtustest asuvad keskväärtusele lähemal kui kaks standardhälvet (enamasti asub kahe standardhälbe kaugusel keskväärtusest umbes 95% vaatlustest); vähemalt 8/9 uuritava tunnuse väärtustest asuvad keskväärtusele lähemal kui kolm standardhälvet (enamasti asub kolme standardhälbe kaugusel keskväärtusest rohkem kui 99% vaatlustest). Tanel Kaart 7

Arvkarakteristikud Näiteid kirjandusest Arvkarakteristikud Näiteid kirjandusest Tanel Kaart 8

Variatsioonikordaja [coefficient of variation] v = s 1 x Aga mis siis, kui keskmine on negatiivne? Näide. Keskmine St. hälve Var. kordaja Piim, kg 3,3 5,3 17,6 Rasv, % 4,13,74 17,98 Valk, % 3,17,4 7,59 SRA, tuh/ml 695,9 1111,99 159,79 Energiabilanss, MJ -36,4 5,99-146, Kvantiilid, protsentiilid kvartiilid alumine kvartiil e 5%-punkt ja ülemine kvartiil e 75%-punkt [lower, upper quartile] kvartiilide vahe [interquartile range, IQR] kasutatakse varieeruvuse iseloomustamiseks detsiilid, protsentiilid e protsendipunktid/kvantiilid min, max α-kvantiiliks [α-quantile] nimetatakse sellist uuritava tunnuse väärtust, millest väiksemate väärtuste osakaal mõõtmistulemuste seas on α. Min 5 Kvartiilide vahe 95%-punkt Alumine kvartiil Mediaan Ülemine kvartiil Max 5% 5% 5% 5% 95% 5% Tanel Kaart 9

Karp-vurrud diagramm [boxplot] Karpvurrud-diagramm Näiteid kirjandusest Tanel Kaart 1

Karpvurrud-diagramm Sünnimass 8 3 3 34 36 38 Ertsma Halinga Langerma Libatse Farm Vasikate sünnimass farmide kaupa. Väärtused, mis jäävad alumisest või ülemisest kvartiilist kaugemale kui 1,5-kordne kvartiilide vahe, on loetud erandlikeks ja tähistatud sümboliga. 3D diagrammid Tanel Kaart 11

3D diagrammid 3-mõõtmelised pinnad sobivad sageli illustreerimaks matemaatilise modelleerimise tulemusi. Tanel Kaart 1

Diagramme võib omavahel kombineerida -3 - -1 1 3-3 - -1 1 3 Mõnikord võib terve ettekande mahutada ühele joonisele... Tanel Kaart 13