Matemaatiline statistika ja modelleerimine

Σχετικά έγγραφα
2.2.1 Geomeetriline interpretatsioon

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED, ÜLESANDED LEA PALLAS VII OSA

HAPE-ALUS TASAKAAL. Teema nr 2

Statistiline andmetöötlus, VL-0435 sügis, 2008

Funktsiooni diferentsiaal

Vektorid II. Analüütiline geomeetria 3D Modelleerimise ja visualiseerimise erialale

Praktikum 2. Kommentaarid andmestiku kohta

MATEMAATIKA TÄIENDUSÕPE MÕISTED, VALEMID, NÄITED LEA PALLAS XII OSA

Matemaatiline statistika ja modelleerimine

Lokaalsed ekstreemumid

Mõõtmised, andmetöötlus ja automaatika lihanduses ja piimanduses, VL-1112 & VL-1122

Enam kui kahe grupi keskmiste võrdlus

Mõõtmised, andmetöötlus ja automaatika lihanduses ja piimanduses, VL-1112 & VL-1122

Kompleksarvu algebraline kuju

Geomeetrilised vektorid

PLASTSED DEFORMATSIOONID

Ruumilise jõusüsteemi taandamine lihtsaimale kujule

Matemaatiline statistika ja modelleerimine

9. AM ja FM detektorid

Excel Statistilised funktsioonid

Graafiteooria üldmõisteid. Graaf G ( X, A ) Tippude hulk: X={ x 1, x 2,.., x n } Servade (kaarte) hulk: A={ a 1, a 2,.., a m } Orienteeritud graafid

siis on tegemist sümmeetrilise usaldusvahemikuga. Vasakpoolne usaldusvahemik x i, E x = EX, D x = σ2

Matemaatiline analüüs I iseseisvad ülesanded

ITI 0041 Loogika arvutiteaduses Sügis 2005 / Tarmo Uustalu Loeng 4 PREDIKAATLOOGIKA

,millest avaldub 21) 23)

Planeedi Maa kaardistamine G O R. Planeedi Maa kõige lihtsamaks mudeliks on kera. Joon 1

Kirjeldab kuidas toimub programmide täitmine Tähendus spetsifitseeritakse olekuteisendussüsteemi abil Loomulik semantika

Matemaatiline analüüs I iseseisvad ülesanded

7.7 Hii-ruut test 7.7. HII-RUUT TEST 85

Lexical-Functional Grammar

Ehitusmehaanika harjutus

Seminar II: Mitmemõõtmeline dispersioonanalüüs (MANOVA)

T~oestatavalt korrektne transleerimine

Annegrete Peek. Üldistatud aditiivne mudel. Bakalaureusetöö (6 EAP)

Funktsioonide õpetamisest põhikooli matemaatikakursuses

1 Funktsioon, piirväärtus, pidevus

Lisa 2 ÜLEVAADE HALJALA VALLA METSADEST Koostanud veebruar 2008 Margarete Merenäkk ja Mati Valgepea, Metsakaitse- ja Metsauuenduskeskus

Andmeanalüüs molekulaarbioloogias

SELEKTSIOONIINDEKSID

4.2.5 Täiustatud meetod tuletõkestusvõime määramiseks

KOMBINATSIOONID, PERMUTATSIOOND JA BINOOMKORDAJAD

Wilcoxoni astakmärgitest (Wilcoxon Signed-Rank Test)

2. Normi piiride määramine

Tuletis ja diferentsiaal

Kontekstivabad keeled

Suhteline salajasus. Peeter Laud. Tartu Ülikool. peeter TTÜ, p.1/27

sin 2 α + cos 2 sin cos cos 2α = cos² - sin² tan 2α =

20. SIRGE VÕRRANDID. Joonis 20.1

Energiabilanss netoenergiavajadus

Sissejuhatus mehhatroonikasse MHK0120

Eesti koolinoorte XLVIII täppisteaduste olümpiaadi

Töökorraldus. Õppematerialid. Töökorraldus. Harvey Motulsky Intuitive Biostatistics (2010, 1995)

KEEMIAÜLESANNETE LAHENDAMISE LAHTINE VÕISTLUS

Compress 6000 LW Bosch Compress LW C 35 C A ++ A + A B C D E F G. db kw kw /2013

4.1 Funktsiooni lähendamine. Taylori polünoom.

KORDAMINE RIIGIEKSAMIKS V teema Vektor. Joone võrrandid.

28. Sirgvoolu, solenoidi ja toroidi magnetinduktsiooni arvutamine koguvooluseaduse abil.

KORDAMINE RIIGIEKSAMIKS VII teema Vektor. Joone võrrandid.

Veaarvutus ja määramatus

Eesti elektrienergia hinna analüüs ja ühesammuline prognoosimine ARIMA tüüpi mudelitega

1 MTMM Kõrgem matemaatika, eksamiteemad 2014

Vektorid. A=( A x, A y, A z ) Vektor analüütilises geomeetrias

MUDELLENNUKI TASAKAAL JA PÜSIVUS

Matemaatika VI kursus Tõenäosus, statistika KLASS 11 TUNDIDE ARV 35

HULGATEOORIA ELEMENTE

2017/2018. õa keemiaolümpiaadi piirkonnavooru lahendused klass

5. OPTIMEERIMISÜLESANDED MAJANDUSES

1 Entroopia ja informatsioon

2. Normi piiride määramine (R.D. Smith)

Jätkusuutlikud isolatsioonilahendused. U-arvude koondtabel. VÄLISSEIN - COLUMBIA TÄISVALATUD ÕÕNESPLOKK 190 mm + SOOJUSTUS + KROHV

8. KEEVISLIITED. Sele 8.1. Kattekeevisliide. Arvutada kahepoolne otsõmblus terasplaatide (S235J2G3) ühendamiseks. F = 40 kn; δ = 5 mm.

Praktikum 1. Matemaatiline statistika ja modelleerimine, DK.0007

ELEKTRIMÕÕTMISTE TÄIENDKOOLITUS

Sõiduki tehnonõuded ja varustus peavad vastama järgmistele nõuetele: Grupp 1 Varustus

A - suurepärane % B - väga hea 81-90% C - hea 71-80% D - rahuldav 61-70% E - kasin 51-60% F - puudulik 0 50% Kirjeldav statistika

1.1. NATURAAL-, TÄIS- JA RATSIONAALARVUD

Metsa kõrguse kaardistamise võimalustest radarkaugseirega. Aire Olesk, Kaupo Voormansik

Formaalsete keelte teooria. Mati Pentus

RF võimendite parameetrid

Ecophon Line LED. Süsteemi info. Mõõdud, mm 1200x x x600 T24 Paksus (t) M329, M330, M331. Paigaldusjoonis M397 M397

Juhuslik faktor ja mitmetasandilised mudelid

STM A ++ A + A B C D E F G A B C D E F G. kw kw /2013

MATEMAATIKA RAKENDUSED, REAALSETE PROTSESSIDE UURIMINE

Arvutatavad statistikud. Programmi LSTATS kasutamisjuhend

Analüütilise geomeetria praktikum II. L. Tuulmets

Ecophon Square 43 LED

1 Kompleksarvud Imaginaararvud Praktiline väärtus Kõige ilusam valem? Kompleksarvu erinevad kujud...

Mõõtm., andmetöötlus ja autom. piimanduses ja lihanduses, VL-1112 ja VL-1122 Praktikum 1

Epidemioloogiliste terminite lühisõnastik

Krüptoräsid (Hash- funktsioonid) ja autentimine. Kasutatavaimad algoritmid. MD5, SHA-1, SHA-2. Erika Matsak, PhD

2. HULGATEOORIA ELEMENTE

Sisukord. 4 Tõenäosuse piirteoreemid 36

Κεφάλαιο 1 Πραγματικοί Αριθμοί 1.1 Σύνολα

Segmenteerimine peidetud Markovi mudelite segude korral

SORTEERIMINE JA FILTREERIMINE

Arvuteooria. Diskreetse matemaatika elemendid. Sügis 2008

Andmete haldus ja analüüs MS Excelis Praktikum 1

6 Mitme muutuja funktsioonid

Sisukord. 3 T~oenäosuse piirteoreemid Suurte arvude seadus (Law of Large Numbers)... 32

Mathematica kasutamine

Transcript:

Matemaatiline statistika ja modelleerimine Kahe arvtunnuse ühine käitumine, korrelatsioon- ja regressioonanalüüs EMÜ doktorikool DK.0007 Tanel Kaart Lineaarne e Pearsoni korrelatsioonikordaja Millal kasutada ja mida näitab? Mõõdab kahe pideva (normaaljaotusega) tunnuse vahelise lineaarse seose tugevust ja suunda. n ( x 1 i x)( yi y) i Arvutusvalem: r n 2 n 2 ( x 1 i x) ( y 1 i y) i j Omadused: -1 r 1; kui r > 0, siis tunnuse X suurenedes suureneb keskmiselt ka tunnus Y; kui r < 0, siis X-i suurenedes Y keskmiselt kahaneb ja X-i kahanedes Y keskmiselt suureneb; kui tunnused X ja Y on sõltumatud, siis r = 0; kui tunnuste X ja Y vahel on täpne lineaarne seos, siis r = 1; mida suurem on korrelatsioonikordaja absoluutväärtus, seda tugevam on korrelatiivne seos tunnuste vahel. Tanel Kaart 1

Hajuvusdiagramm e korrelatsiooniväli [scatter plot] Lineaarne e Pearsoni korrelatsioonikordaja Lineaarne e Pearsoni korrelatsioonikordaja Tanel Kaart 2

Rümba hind, EEK/kg Lineaarne e Pearsoni korrelatsioonikordaja Kokkuleppelised piirid seose tugevuse iseloomustamiseks: r 0,3 nõrk seos; 0,3 < r < 0,7 keskmine seos; r 0,7 tugev seos. Seose statistiline olulisus H 0 : r = 0 H 1 : r 0 Teststatistik t r n r t 2 1 2 ~ n 2 H0 Olulisustõenäosus p = S t + S t 1-2S t t-jaotuse tihedusf.-n 0 t Näiteks MS Excelis saab olulisustõenäosuse p leidmiseks kasutada funktsiooni TDIST(t;n-2;2). S t -t S t Lineaarne e Pearsoni korrelatsioonikordaja Näide. Lineaarne seos lamba lihakeha massi ja makstava 1 kg hinna vahel (n = 686). Andmed aastast 2002. 50 45 40 35 30 25 20 15 10 5 0 10 20 30 40 50 Rümba mass, kg r = 0,473 Teststatistik t r n 2 1 r 2 0, 473 686 2 1 ( 0, 473) 14, 039, millest t = 14,039. Viimase alusel leitav olulisuse tõenäosus p = 1,577*10-37 < 0,05, mistõttu võime lugeda tõestatuks negatiivse seose olemasolu lamba lihakeha massi ja rümba 1 kg hinna vahel (H 1 : r 0) mida suurem on tapamajja viidav lammas, seda vähem ühe kg liha eest makstakse. 2 Tanel Kaart 3

Korrelatsioonimaatriks Näide. Lineaarsed seosed mesilaste peamiste kehamõõtude vahel (n = 1380). Tergiit Tiiva laius Tiiva pikkus Tiiva laius 0,052 Tiiva pikkus 0,061 * 0,210 *** Iminokk -0,035 0,074 ** 0,253 *** * p<0,05; ** p<0,01; *** p<0,001 Osa SAS-i protseduuri CORR väljundist Lineaarne e Pearsoni korrelatsioonikordaja NB! Lineaarne korrelatsioonikordaja mõõdab üksnes lineaarset seost. Korrelatsioonikordaja ei ütle midagi seose põhjuslikkuse kohta. Korrelatsioonikordajale vastav p-väärtus ei puugi anda mingit infot seose tugevuse kohta näiteks n = 39000 korral on ka korrelatsioonikordajale r = 0,01 vastav p < 0,05. p 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 r = 0,01 r = 0,05 r = 0,1 0 500 1000 1500 2000 2500 n Tanel Kaart 4

Astakkorrelatsioonikordaja e Spearmani korrelatsioonikordaja Millal kasutada ja mida näitab? Mõõdab kahe arvtunnuse vahelise monotoonse seose tugevust ja suunda. Ei ole tundlik erindite suhtes ega eelda tunnuste normaalset jaotumist (on põhimõtteliselt kasutatav ka järjestustunnuste puhul). Arvutamine: leitakse kui seos vaatluste järjekorranumbrite e astakute vahel: n 2 6 ( x 1 ( i) y( )) i i 1, kus x 2 (i) on tunnuse X väärtuse x i astak nn ( 1) ja y (i) on tunnuse Y väärtuse y i astak. Omadused: -1 ρ 1; kui tunnuste vahel on kasvav monotoonne seos, siis ρ > 0; kui tunnuste vahel on kahanev monotoonne seos, siis ρ < 0; kui tunnused X ja Y on sõltumatud, siis ρ = 0; kui tunnuste X ja Y vahel on funktsionaalne monotoonne seos, siis ρ = 1. Lineaarne versus astakkorrelatsioonikordaja ρ = 1 monotoonne seos r = 0,873 lineaarne seos ρ = 1 r = 0,513 ρ = 0,667 r = -0,295 Tanel Kaart 5

Lineaarne versus astakkorrelatsioonikordaja ρ = 0,88 r = 0,53 Kendalli korrelatsioonikordaja Millal kasutada ja mida näitab? Mõõdab kahe arv- või järjestustunnuse vahelise monotoonse seose tugevust ja suunda. Ei ole tundlik erindite suhtes ega eelda tunnuste pidevust ja normaalset jaotumist (minimaalne nõue on vaatluste järjestatavus). Arvutamine: vaadeldakse kõikvõimalikke väärtuste paare x i -x j ja y i -y j kokku on selliseid N=n(n-1)/2 ning loetakse kokku samasuunaliste ja vastassuunaliste erinevustega paarid, vastavalt n s ja n v. Kendalli korrelatsioonikordaja avaldatakse seosest ns nv 2nv 1. N N N Omadused: analoogsed astakkorrelatsioonikordaja omadustele. Tanel Kaart 6

t, C NH3, ppm NRR LIN NH3, ppm GMot SubMot PMot LSM MTDR-H VCL ALH HOS-2 HOS-3 HOS-1 Osakorrelatsioonikordaja Millal kasutada ja mida näitab? Kasutatakse kirjeldamaks kahe tunnuse vahelist seost elimineerides kolmanda tunnuse mõju. r r r r XY XZ YZ XY, Z 2 2 rxz ryz (1 )(1 ) Näide. 16 12 20 18 16 8 r t, O2 = 0,9538 r NH3, t = 0,8614 4 20 0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 O 2 r NH3, O2 = 0,7912 16 12 8 4 14 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 O 2 r NH3, O2 t = 0,1998 0 14 16 18 20 t, C Korrelatsioonimaatriks NRR LIN GMot SubMot PMot LSM MTDR-H VCL ALH HOS-2 HOS-3 HOS-1 Tiinestumise (NRR) ja sperma kvaliteedinäitajate vahelised seosed. Ringide suurus (pindala) näitab seose tugevust (diagonaalil on tunnuste seosed iseendaga, st seos on maksimaalse tugevusega ehk lineaarne korrelatsioonikordaja r = 1) ja värvus seose suunda (mustad ringid vastavad positiivsele ja valged negatiivsele seosele). Tanel Kaart 7

Rümba hind, EEK/kg ( y ) Rümba hind, EEK/kg (y) Lineaarne regressioonanalüüs Millal kasutada ja mida näitab? Kasutatakse prognoosimaks ühe arvtunnuse väärtusi teis(t)e järgi. 45 35 25 15 Regressioonivõrrand: yi a+bxi Tunnust y nimetatakse funktsioon- ja tunnust x argumenttunnuseks. Näide. Rümba 1 kg hind = a + b*rümba mass 5 0 10 20 30 40 50 Rümba mass, kg (x ) Regressioonivõrrandi parameetrid a ja b hinnatakse vähimruutude meetodil, st et minimiseeritakse prognoosi jäägid: n i 1 y i ( a+bx ) min i 2 45 35 25 15 5 y i ( a+bx i) 0 10 20 30 40 50 Rümba mass, kg (x ) Lineaarne regressioonanalüüs Regressioonivõrrandi parameetrite a ja b vähimruutude hinnangud: n n 2 ( ) ( i ), i i i 1 i 1 b= x y xy x x a y bx Regressioonivõrrandi kordajate geomeetriline tähendus: vabaliige a märgib kohta, kus regressioonisirge lõikab y-telge, ning regressioonikordaja b iseloomustab nurka, mille alla regressioonisirge kulgeb x-telje suhtes (matemaatilisemalt väljendudes tan(β) = b, kus β on sirge tõusunurk). Sisulise tähenduse kohaselt näitab regressioonikordaja b, kui mitme ühiku võrra muutub funktsioontunnuse väärtus, kui argumenttunnus muutub 1 ühiku võrra. β y a y = a + bx x NB! y = a + bx > x = a/b + y/b Tanel Kaart 8

Näide. Rümba 1 kg hind = a + b*rümba mass = 48,178 + ( 0,7113)*Rümba mass Carcass weight, kg Matemaatiline statistika ja modelleerimine, DK.0007 Lineaarne regressioonanalüüs Näide. Rümba 1 kg hind = a + b*rümba mass = 48,178 + ( 0,7113)*Rümba mass Seega kaasneb lamba lihakeha massi suurenemisega 1 kg võrra 0,71-kroonine hinnalangus 1 kg liha eest. Aga prognoosides teistpidi: Rümba mass = 31,12 0,3145*Rümba 1 kg hind ( 48,178 + Rümba 1 kg hind) / 0,7113 = 67,732 1,406*Rümba 1 kg hind 60 50 40 30 y = -1,4059x + 67,732 y = -0,3145x + 31,12 R 2 = 0,2237 20 10 0 5 15 25 35 45 55 Carcass price, EEK/kg Lineaarne regressioonanalüüs jäägid Vaatluse jrk nr ( i ) Tegelik rümba 1 kg hind ( y i ) Prognoositud rümba 1 kg hind ( a + b*x i ) Prognoosi jäägid y i ( a + b*x i ) 1 39 31,250 7,750 2 39 37,367 1,633 3 40 37,083 2,917 4 39 30,824 8,176 5 39 33,171 5,829 6 37 34,593 2,407 7 39 32,175 6,825 8 39 32,744 6,256 9 37 31,250 5,750 10 34 31,677 2,323 11 37 35,304 1,696 12 33 37,936-4,936 13 33 39,216-6,216 14 37 33,597 3,403 15 39 32,175 6,825 Tanel Kaart 9

Regressioonimudeli sobivus Determinatsioonikordaja R 2 ütleb, kui suure osa uuritava tunnuse varieeruvu-sest mudel ära kirjeldab, 0 R 2 1. Mida suurem, seda parem! n 2 Leitakse kui mudelile vastava hajuvuskomponendi SS1 i 1 ( a bxi) y ja uuritava tunnuse koguhajuvust kirjeldava hälvete ruutude summa n SS jagatis: 2 i 1( yi y) 2 R SS1 SS. Mudeli standardviga SE on mudeli prognoosijäägi standardhälve. Mida väiksem, seda parem! Hüpoteeside kontroll 1) Hüpotees mudeli, kui terviku kohta (võrreldakse konstrueeritud mudeli ja nn konstantse mudeli y = a jääkide varieeruvust): H 0 : mudel ei ole parem võrreldes konstantse mudeliga, H 1 : mudel on parem võrreldes konstantse mudeliga. 2) Hüpoteesid mudeli parameetrite kohta kontrollitakse väidet iga parameetri nullist erinemise kohta: H 0 : a = 0 H 0 : b = 0 H 1 : a 0 H 1 : b 0 Regressioonimudeli sobivus Näide. Rümba 1 kg hind = a + b*rümba mass = 48,178 + ( 0,7113)*Rümba mass MS Exceli protseduuri Regression väljund: Mitmene korrelatsioonikordaja mõõdab uuritava tunnuse ja tema prognoositud väärtuste vahelist korrelatsiooni. Mida suurem, seda parem! Mudeli standardviga Determinatsioonikordaja R 2 ja selle väikeste valimite tarvis kohandatud [adjusted] väärtus H 0 : mudel ei ole parem võrreldes konstantse mudeliga H 1 : mudel on parem võrreldes konstantse mudeliga Mudeli parameetrite hinnangud Hüpoteeside kontroll mudeli iga parameetri kohta: H 0 : a = 0 H 1 : a 0 H 0 : b = 0 H 1 : b 0 Tanel Kaart 10

Rümba hind, EEK/kg Regressioonanalüüsi eeldused Regressioonivõrrandi parameetrite hindamine ei eelda tunnuste jaotumist vastavalt normaaljaotuse seaduspäradele! Mudeli täpsuse ja statistilise olulisuse hindamiseks peavad: mudeli (prognoosi) jäägid olema ligikaudu normaaljaotusega (kontrollimiseks histogramm, tõenäosuspaber); mudeli jäägid olema ühtlase varieeruvusega (hajuvusdiagramm). Ükskõik kumma eelduse rikutuse korral ei pruugi mudeli kohta käivate hüpoteeside kontrollimisel arvutatavate teststatistikute jaotusseadused kehtida, mistõttu ei pruugi õiged olla ka otsustused mudeli sobivuse ja rakendatavuse üle. Eelkõige teise eelduse paikapidamatus võib vihjata mittesobivale mudelile (vale matemaatiline funktsioon, mõni arvestamata jäänud argument vmt). Regressioonanalüüsi mudeli valik/diagnostika Näide. Seos lamba lihakeha massi ja makstava 1 kg hinna vahel (n = 686). 65 55 45 Rümba 1 kg hind = 27,605 + 1,131*Rümba mass + (- 0,0378)*(Rümba mass) 2 R 2 = 0,290 Rümba 1 kg hind = 48,178 + (- 0,7113)*Rümba mass R 2 = 0,224 35 25 15 5 0 10 20 30 40 50 Rümba mass, kg Tanel Kaart 11

Rümba hind, EEK/kg (y) Rümba hind, EEK/kg (y) Rümba hind, EEK/kg (y) Sagedus Prognoosijäägid Prognoosijäägid Matemaatiline statistika ja modelleerimine, DK.0007 Regressioonanalüüsi mudeli jääkide analüüs Näide. Seos lamba lihakeha massi ja makstava 1 kg hinna vahel (n = 686). Prognoosijäägid on leitud ruutvõrrandi baasil: Rümba 1 kg hind = 27,605 + 1,131*Rümba mass + (- 0,0378)*(Rümba mass) 2 30 20 10 0-10 -20-30 Jääkide hajuvusdiagramm 0 10 20 30 40 50 Rümba mass, kg 300 Jääkide histogramm Erindid?! 30 20 10 0-10 -20-30 Prognoosijääkide tõenäosuspaber 0 20 40 60 80 100 Normaaljaotuse protsendipunktid Kaks erinevat gruppi?! 250 200 150 100 50 0-25 -20-15 -10-5 0 5 10 15 20 25 30 35 Prognoosijäägid Regressioonanalüüsi mudeli valik/diagnostika Rümbad jaotatuna kahte kategooriasse: 1. alla 1 aasta vanuste lammaste e. tallede rümbad 2. kõigi teiste lammaste rümbad 40 35 30 25 20 15 10 Lambad (vanus > 12 kuu) y = - 0,0108x 2 + 0,473x + 15,295 R 2 = 0,1375 Erindid?! y = - 0,1559x + 23,882 R 2 = 0,0926 55 45 y = 0,4573x + 29,29 R 2 = 0,1274 Talled (vanus alla 1 aasta) 5 0 10 20 30 40 50 60 Rümba mass, kg (x) 35 30 Lambad (vanus > 12 kuu) 25 15 5 y = - 0,1141x 2 + 4,7521x - 9,5525 R 2 = 0,3308 0 5 10 15 20 25 30 35 Rümba mass, kg (x) 25 20 15 10 5 y = - 0,0067x 2 + 0,1915x + 19,692 R 2 = 0,2038 y = - 0,2034x + 25,147 R 2 = 0,1846 0 10 20 30 40 50 60 Rümba mass, kg (x) Tanel Kaart 12

Mitmene regressioonanalüüs Piimatoodang, kg = a + b 1 * Söödakulud (EEK/1 kg piim) + b 2 *Lakt_nr + b 3 *Poeg_aasta Otsus: mudel on parem võrreldes konstantse mudeliga (H 1 ) Piimatoodang, kg = 711091 + 88,11 * Söödakulud (EEK/1 kg piim) + 1558,83*Lakt_nr 353,33*Poeg_aasta Determinatsioonikordaja R 2 (kohandatud) väärtus ütleb, et konstrueeritud mudeli abil on võimalik ära kirjeldada 35% piimatoodangu varieeruvusest Hüpoteeside kontroll mudeli iga parameetri kohta: b 1 0 (H 1 ); b 2 0 (H 1 ); b 3 = 0 (H 0 ) (vabaliiget a tavaliselt mudelist välja ei jäeta) Otsus: uus mudel kujul Piimatoodang, kg = a + b 1 * Söödakulud (EEK/1 kg piim) + b 2 *Lakt_nr Veel regressioonanalüüsi eeldustest: esindav valim Tanel Kaart 13

Veel regressioonanalüüsi eeldustest: mittelineaarne seos Mittelineaarne seos: lähendamine polünoomiga Tanel Kaart 14

Küllastunud mudel (overfitting) Mittelineaarne seos: jagame X-i väärtused klassidesse Liiga palju klasse kaotame täpsuses! Liiga vähe klasse kaotame informatsiooni! Tanel Kaart 15

Mittelineaarne seos: mudeli parandamine uuritava tunnuse transformeerimise teel Veel regressioonanalüüsi eeldustest: vaatluste hajuvus Tanel Kaart 16

Veel regressioonanalüüsi eeldustest: jääkide hajuvus Multikollineaarsus Olukorda, kus argumenttunnused (sõltumatud muutujad) on omavahel küllalt tugevalt seotud, nimetatakse multikollineaarsuseks. Sellisel on tulemuseks ebatäpsed hinnangud (võivad olla isegi vale märgiga) ja seega ka ebatäpsed prognoosid. Lisaks tekib probleeme regressioonikordajate tõlgendamisel kui argumenttunnuste vahel pole sõltuvust, määrab parameeter keskmise sõltuva tunnuse muutuse kui vastav argumenttunnus muutub ühiku võrra ja teised argumenttunnused ei muutu. Argumenttunnuste sõltuvuse korral aga muutuvad argumendid üheaegselt. Multikollineaarsust loetakse suureks, kui argumentide vaheline korrelatsioon on suurem kui samade argumentide ja uuritava tunnuse vaheline korrelatsioon. Tanel Kaart 17

Multikollineaarsus Mõõduks: o tolerants (tolerance) TOL on multikollineaarsuse mõõt, mis näitab kui suur osa argumendi varieeruvusest jääb ülejäänud argumentide poolt kirjeldamata; o varieeruvusindeks ehk dispersiooni mõju faktor (variance inflation factor) VIF näitab argumendi mõju regressiooniparameetri hajuvusele ja on tolerantsi pöördväärtus. Empiiriline kriteerium: kui TOL < 0,15 või VIF > 10 on tegemist multikollineaarsusega. Näide. USA 2000. aasta presidendivalimised (Bush versus Gore) otsustasid valijate eelistused Florida osariigis. Palm Beach i maakonna valijad protestisid tulemused väites, et valimissedeli mitmetimõistetavuse tõttu hääletati Gore asemel 3. kandidaadi, Buchanan i poolt. USA kohus proteste ei arvestanud ja kordusvalimisi ei tulnud, Georg W. Bush võitis Al Gore i Floridas <1000 häälega ning valiti Florida valijameeste häältega aastaiks 2000-2004 USA presidendiks Tanel Kaart 18

Tanel Kaart 19