DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 1

Σχετικά έγγραφα
DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 2

Laboratorinis darbas Nr. 2

Matematika 1 4 dalis

Elektronų ir skylučių statistika puslaidininkiuose

I dalis KLAUSIMŲ SU PASIRENKAMUOJU ATSAKYMU TEISINGI ATSAKYMAI

Dviejų kintamųjų funkcijos dalinės išvestinės

Ekonometrija. Trendas ir sezoninė laiko eilutės komponentė

Temos. Intervalinės statistinės eilutės sudarymas. Santykinių dažnių histogramos brėžimas. Imties skaitinių charakteristikų skaičiavimas

Spalvos. Šviesa. Šviesos savybės. Grafika ir vizualizavimas. Spalvos. Grafika ir vizualizavimas, VDU, Spalvos 1

EKONOMETRIJA 1 (Regresinė analizė)

Vilniaus universitetas. Edmundas Gaigalas A L G E B R O S UŽDUOTYS IR REKOMENDACIJOS

Įvadas į laboratorinius darbus

X galioja nelygyb f ( x1) f ( x2)

I.4. Laisvasis kūnų kritimas

Įžanginių paskaitų medžiaga iš knygos

Matematika 1 3 dalis

MATEMATINĖ LOGIKA. Įžanginių paskaitų medžiaga iš knygos

Atsitiktinių paklaidų įvertinimas

AIBĖS, FUNKCIJOS, LYGTYS

2009 m. matematikos valstybinio brandos egzamino VERTINIMO INSTRUKCIJA Pagrindinė sesija 1 6 uždavinių atsakymai

2008 m. matematikos valstybinio brandos egzamino VERTINIMO INSTRUKCIJA Pagrindinė sesija

Matematinės analizės konspektai

Specialieji analizės skyriai

Specialieji analizės skyriai

FUNKCIJOS. veiksmu šioje erdvėje apibrėžkime dar viena. a = {a 1,..., a n } ir b = {b 1,... b n } skaliarine sandauga

MONTE KARLO METODAS. Gediminas Stepanauskas IVADAS Sistemos Modeliai Modeliavimas ir Monte-Karlo metodas...

4 laboratorinis darbas. PARAMETRŲ ĮVERČIAI IR STATISTINĖS HIPOTEZĖS

Matematinė logika. 1 skyrius Propozicinės formulės. žodį, Graikiškas žodis logos (λóγoς) reiškia

Ketvirtos eilės Rungės ir Kutos metodo būsenos parametro vektoriaus {X} reikšmės užrašomos taip:

1. Individualios užduotys:

EUROPOS CENTRINIS BANKAS

VILNIAUS UNIVERSITETAS MATEMATIKOS IR INFORMATIKOS FAKULTETAS PROGRAMŲ SISTEMŲ KATEDRA. Algoritmų teorija. Paskaitų konspektas

1 TIES ES IR PLOK TUMOS

Pav1 Žingsnio perdavimo funkcija gali būti paskaičiuota integruojant VIPF. Paskaičiavus VIPF FFT gaunamo amplitudinė_dažninė ch_ka.

Remigijus Leipus. Ekonometrija II. remis

1. Įvadas į sistemas ir signalus. 1. Signalas, duomenys, informacija ir žinios

IV. FUNKCIJOS RIBA. atvira. intervala. Apibrėžimas Sakysime, kad skaičius b yra funkcijos y = f(x) riba taške x 0, jei bet kokiam,

Rankinio nustatymo ventiliai MSV-F2, PN 16/25, DN

2015 M. MATEMATIKOS VALSTYBINIO BRANDOS EGZAMINO UŽDUOTIES VERTINIMO INSTRUKCIJA Pagrindinė sesija. I dalis

Diskrečioji matematika

FDMGEO4: Antros eilės kreivės I

1.4. Rungės ir Kuto metodas

APRAŠOMOJI STATISTIKA

Balniniai vožtuvai (PN 16) VRG 2 dviejų eigų vožtuvas, išorinis sriegis VRG 3 trijų eigų vožtuvas, išorinis sriegis

2 laboratorinis darbas. TIKIMYBINIAI MODELIAI

1 teorinė eksperimento užduotis

4.1 Skaliarinė sandauga erdvėje R n Tarkime, kad duota vektorinė erdvė R n. Priminsime, kad šios erdvės elementai yra vektoriai vektoriu

Dirbtiniai neuroniniai tinklai

V skyrius ĮVAIRŪS PALŪKANŲ APSKAIČIAVIMO KLAUSIMAI

ATSITIKTINIAI PROCESAI. Alfredas Račkauskas. (paskaitų konspektas 2014[1] )

1 Tada teigini Ne visi šie vaikinai yra studentai galima išreikšti formule. 2 Ta pati teigini galima užrašyti ir taip. 3 Formulė U&B C reiškia, kad

Vilijandas Bagdonavi ius. Julius Jonas Kruopis MATEMATIN E STATISTIKA

PNEUMATIKA - vožtuvai

Su pertrūkiais dirbančių elektrinių skverbtis ir integracijos į Lietuvos elektros energetikos sistemą problemos

0.1. Bendrosios sąvokos

Šotkio diodo voltamperinės charakteristikos tyrimas

LIETUVOS RESPUBLIKOS ÐVIETIMO IR MOKSLO MINISTERIJA NACIONALINIS EGZAMINØ CENTRAS 2014 METŲ MATEMATIKOS VALSTYBINIO BRANDOS EGZAMINO REZULTATŲ

Statistinė termodinamika. Boltzmann o pasiskirstymas

KOMPTONO EFEKTO TYRIMAS

2.5. KLASIKINĖS TOLYDŽIŲ FUNKCIJŲ TEOREMOS

Rinktiniai informacijos saugos skyriai. 3. Kriptografija ir kriptografijos protokolai: Klasikinė kriptografija

Algoritmai. Vytautas Kazakevičius

Vilius Stakėnas. Kodavimo teorija. Paskaitu. kursas

Analizės uždavinynas. Vytautas Kazakevičius m. lapkričio 1 d.

Taikomieji optimizavimo metodai

II dalis Teisingas atsakymas į kiekvieną II dalies klausimą vertinamas 1 tašku g/mol

MATAVIMO PRIEMONIŲ METROLOGINö PRIEŽIŪRA

Integriniai diodai. Tokio integrinio diodo tiesiogin įtampa mažai priklauso nuo per jį tekančios srov s. ELEKTRONIKOS ĮTAISAI 2009

ANALIZINĖ GEOMETRIJA III skyrius (Medžiaga virtualiajam kursui)

1. Klasifikavimo su mokytoju metodai

FIZ 313 KOMPIUTERINĖ FIZIKA. Laboratorinis darbas FIZIKOS DIFERENCIALINIŲ LYGČIŲ SPRENDIMAS RUNGĖS KUTOS METODU

VIII. FRAKTALINĖ DIMENSIJA. 8.1 Fraktalinės dimensijos samprata. Ar baigtinis Norvegijos sienos ilgis?

MATAVIMAI IR METROLOGIJOS PAGRINDAI

0.1. Bendrosios sąvokos

AUTOMATINIO VALDYMO TEORIJA

Paprastosios DIFERENCIALINĖS LYGTYS

JONAS DUMČIUS TRUMPA ISTORINĖ GRAIKŲ KALBOS GRAMATIKA

Paskait u konspektas. Jam padėjo Aristidas Vilkaitis ir Donatas Šepetys 2006 metais

Modalumo logikos S4 kai kurios išsprendžiamos klasės

Pagrindiniai pasiekimai kokybin je molekulių elektronin s sandaros ir cheminių reakcijų teorijoje. V.Gineityt

Skalbimo mašina Vartotojo vadovas Πλυντήριο Ρούχων Εγχειρίδιο Χρήστη Mosógép Használati útmutató Automatická pračka Používateľská príručka

2018 METŲ MATEMATIKOS VALSTYBINIO BRANDOS EGZAMINO REZULTATŲ STATISTINĖ ANALIZĖ

DISKREČIOJI MATEMATIKA

Paprastosios DIFERENCIALINĖS LYGTYS

APRAŠO DALIŲ TVARKYMAS

III.Termodinamikos pagrindai

ŠVIESOS SKLIDIMAS IZOTROPINĖSE TERPĖSE

dr. Juozas Gudzinskas, dr. Valdas Lukoševičius, habil. dr. Vytautas Martinaitis, dr. Edvardas Tuomas

SIGNALAI TELEKOMUNIKACIJŲ SISTEMOSE

LIETUVOS ŽEMĖS ŪKIO UNIVERSITETAS Vandens ūkio ir žemėtvarkos fakultetas Fizikos katedra. Juozas Navickas FIZIKA. I dalis MOKOMOJI KNYGA

APLINKOS RADIACINIO FONO MATAVIMAS DOZIMETRAIS

Gairės audito institucijoms dėl audito atrankos metodų ir m. programavimo laikotarpiai

Vidutinės biokuro (žaliavos) kainos Lt/t ne galimi apskaičiavimo netikslumai

Skysčiai ir kietos medžiagos

1 Įvadas Neišspręstos problemos Dalumas Dalyba su liekana Dalumo požymiai... 3

FRANKO IR HERCO BANDYMAS

2014 M. FIZIKOS VALSTYBINIO BRANDOS EGZAMINO UŽDUOTIES VERTINIMO INSTRUKCIJA Pagrindinė sesija

LIETUVOS JAUNŲ J Ų MATEMATIKŲ MOKYKLA

UAB Aveva planuojamos ūkinės veiklos metu į aplinkos orą išmetamų teršalų sklaidos modeliavimas

III. MATRICOS. DETERMINANTAI. 3.1 Matricos A = lentele žymėsime taip:

Transcript:

DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 1 Marijus Radavičius, Tomas Rekašius 2010 m. vasario 9 d. Santrauka Pirmas laboratorinis darbas skirtas išmokti generuoti nesudėtingus duomenų rinkinius, susipažinti su mažiausių kvadratų metodu (MKM), iš duomenų įvertinti optimalius paprastosios tiesinės regresijos funkcijos parametrus, suprasti ką reiškia koreliacijos ρ ir determinacijos R 2 koeficientai.

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 2 Turinys 1 Kas tai yra ID ir kam jis reikalingas 3 2 Užduotis 3 2.1 Apytikslis regresijos funkcijos parinkimas............... 3 2.2 Tikslus regresijos funkcijos parinkimas................ 3 2.3 Papildoma užduotis........................... 3 3 Duomenų generavimas 4 4 Pastabos 4 4.1 Sklaidos diagrama ir koreliacijos koeficientas............. 4 4.2 Paprastosios tiesinės regresijos modelis................ 5 4.3 Parametrų įvertinimas ir prognozė................... 6 5 Atsiskaitymas už darbą 7

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 3 1 Kas tai yra ID ir kam jis reikalingas Studento ID (identifikatorius) yra triženklis skaičius, kurio pirmas skaitmuo yra grupės numeris, o kiti du skaitmenys yra studento numeris grupės sąraše. Pvz., ID = 307 reiškia, kad studentas su šiuo ID yra 7-tas 3-iosios grupės sąraše. Laboratorinių darbų užduotys turės keletą variantų. Jeigu nenurodyta kitaip, studentas, kurio ID = id, iš m galimų variantų pasirenka k-ąjį variantą, kur k = (id 1)(mod m) + 1. MS Excel k randamas pagal formulę MOD(A1 1; B1) + 1. Čia celėje A1 įrašytas id, o celėje B1 įrašytas užduoties variantų skaičius m. Kad neiškiltų nesusipratimų, geriausia būtų, jog kiekvienam studentui jo variantą k pagal grupės sąrašą paskaičiuotų seniūnas. 2 Užduotis 2.1 Apytikslis regresijos funkcijos parinkimas Nubraižyti iš anksto sugeneruotų duomenų sklaidos diagramą ir vizualiai parinkti geriausiai juos aprašiančią tiesę y = ã + bx. Įvertinti parametrus ã ir b, apskaičiuoti R(ã, b) ir R(a, b). Čia R(a, b) yra vidutiniai kvadratiniai nuostoliai tiesinei prognozei (regresijos funkcijai) f(x) = a + bx. 2.2 Tikslus regresijos funkcijos parinkimas Tiems patiems duomenims rasti parametrų a ir b mažiausių kvadratų įverčius (MKĮ ) â ir ˆb, apskaičiuoti vidutinius kvadratinius nuostolius R(â, ˆb) ir palyginti su R(ã, b) bei R(a, b). Kiekvienu atveju suskaičiuoti determinacijos koef. R 2, o taip pat empirinį koreliacijos koeficientą ρ(x, Y ). 2.3 Papildoma užduotis Klausimas, kaip, Jūsų nuomone, pasikeistų paminėtos charakteristikos, jeigu duomenys būtų generuoti šiek tiek kitaip. Pvz., x i pasiskirstęs tolygiai ne pagal U( 2s, 2s), o pagal U( 3s, 3s) bei e i pasiskirstęs normaliai ne pagal N (0, s), o pagal N (0, 5s). Kaip sužinoti, kad šiame darbe kintamojo Y prognozei tikslinga taikyti tiesinę regresiją? Kam lygus teorinis R 2 ir koreliacijos koef. ρ(x, Y ). Kaip jie susiję tarpusavyje?

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 4 3 Duomenų generavimas Duomenys sudaromi pagal formulę: kur: n = 12, a = 3 + id 0.3, b = ( 1) id (0.2 id), y i = a + bx i + e i, i = 1,..., n, x i U( 2s, 2s) pasiskirstęs pagal tolygų skirstinį, e i N (0, s) pasiskirstęs pagal normalųjį skirstinį, s = 1 + id/10. 4 Pastabos 4.1 Sklaidos diagrama ir koreliacijos koeficientas Duomenis sudaro kintamųjų X ir Y stebinių poros (x i, y i ). Kiekvieną tokią stebinių porą atitinka taškas plokštumoje. Tokiu būdu atvaizdavus visas stebėtų kintamųjų poras gaunama sklaidos diagrama. Jei taškai (x i, y i ) pakankamai glaudžiai išsibarstę apie tiesę, kintamojo Y prognozei galima taikyti tiesinę regresiją. Sklaidos glaudumui, arba kitaip kintamųjų X ir Y tiesinei priklausomybei įvertinti naudojamas koreliacijos koeficientas:

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 5 ρ(x, Y ) = cov(x, Y ) DXDY = N (x i x)(y i ȳ), N N (x i x) 2 (y i ȳ) 2 1 ρ(x, Y ) 1. Atvejis kai ρ(x, Y ) = 0 reiškia, kad tiesinės priklausomybės nėra, ρ(x, Y ) = ±1 reiškia kintamųjų funkcinę priklausomybę, t.y. jokio atsitiktinumo nebėra, o sklaidos diagramoje visi taškai guli tiksliai ant tiesės. 4.2 Paprastosios tiesinės regresijos modelis Šiame lab. darbe nagrinėjamas paprastosios tiesinės regresijos modelis. Tai reiškia, kad vienas kintamasis nuo kito priklauso tiesiškai, bet ne logaritmiškai, kvadratiškai ar dar kaip nors kitaip. Bendras tiesinis tikimybinis modelis susiejantis intervalinius kintamuosius Y ir X, atrodo taip: Y = a + bx + e, kur a ir b yra nežinomi kintamieji, o e atsitiktinė paklaida (pvz. atsiradusi matavimo metu ar pan.). Kada kintamasis X įgyja konkrečią reikšmę x i, modelis atrodo taip: y i = a + bx i + e i. Čia x i yra neatsitiktinė fiksuota reikšmė, o e i atsitiktinė paklaida. Iš čia turėtų būti aišku, kad ir esant tai pačiai x i reikšmei, y i reikšmės nebūtinai turi būti tos pačios. Tai priklauso nuo atsitiktinių paklaidų. Tiesinės regresijos modelyje joms iškeliami tam tikri reikalavimai. e i normaliai pasiskirstę ats. dydžiai, visų e i vidurkis lygus nuliui, Ee i = 0, visų e i dispersijos lygios σ 2, De i = σ 2, e i yra nepriklausomi ats. dydžiai. Trumpiau šias modelio prielaidas galima užrašyti taip: e i N (0, σ 2 ). Kadangi paklaidos e i yra normalieji ats. dydžiai, su kiekviena fiksuota x i reikšme kintamieji y i taip pat yra normalieji ats. dydžiai. Nulinis paklaidų vidurkis svarbus susiejant kintamojo Y vidurkį su kintamuoju X. Gaunama, kad Ey i su x i susietas jau determinuota tiesine lygtimi Ey i = a+bx i, kurios parametrai a ir b yra nežinomi, ir kuriuos įvertinus gautą lygtį galima naudoti Y prognozei. Dispersijų

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 6 lygybės reikalavimas svarbus tam, kad su kiekviena fiksuota x i reikšme galimų y i reikšmių sklaida būtų vienoda ir neiškreiptų prognozės. Paklaidų e i nepriklausomumas tuo pačiu reiškia ir visų y i nepriklausomumą, t.y. y i reikšmė nepriklauso nuo y i 1. Tai gali reikšti pvz. kad y i matavimai nepriklauso nuo laiko. Plačiau apie šias prielaidas ir išvadas iš jų teorijos paskaitose. 4.3 Parametrų įvertinimas ir prognozė Tikslas parametrų a ir b įverčius ã ir b parinkti taip, kad gautos kintamojo y prognozės ỹ(x i ) = ã + bx i reikšmės taškuose x i kuo mažiau skirtųsi nuo anksčiau sugeneruotų reikšmių y i, t.y. išmokti gerai prognozuoti. Reiktų stengtis, kad parinkta tiesė duotų kuo mažesnius vidutinius kvadratinius nuostolius. Nuostoliai (kur juos pavaizduoti ant grafiko?) čia suprantami kaip skirtumas tarp prognozės ir tikrosios kintamojo Y reikšmės y i : R(a, b) = 1 n (y i (a + bx i )) 2. Šiame lab. darbe pirma prognozė vyksta remiantis tik savo nuojauta, kada regresijos tiesė, o tuo pačiu ir įverčiai ã ir b, parenkami iš akies. Siekis būtų išlavinti tokį prognozės būdą taip, kad R(ã, b) R(a, b). Jei taip pavyktų, tai reikštų, kad iš akies galite prognozuoti neblogiau nei kad originalus modelis, pagal kurį buvo generuoti duomenys. Kada parametrų a ir b įverčiai â ir ˆb randami minimizuojant vidutinius kvadratinius nuostolius, toks metodas vadinamas mažiausių kvadratų metodu (MKĮ). Tai

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 7 reiškia, jog reikia spręsti optimizavimo uždavinį: (y i a bx i ) 2 min. Šią sumą minimizuoja parametrai ( ) ( ) ( ) n x i y i x i y i ˆb = ( ) ( ) 2 ir â = n x i x 2 i 1 n y i ˆb 1 n x i. Tokiu metodu gauti įverčiai yra nepaslinktieji ir turi mažiausias dispersijas (pasikartoti matematinės statistikos kursą apie įverčių savybes). Ar galima taikyti tiesinės regresijos modelį sprendėme iš sklaidos diagramos ir koreliacijos koef. reikšmės. Tačiau kaip žinoti, ar parinktas modelis yra geras? Vienas iš tokių rodiklių yra determinacijos koeficientas R 2 : R 2 = (ŷ 1 ȳ) 2. (y i ȳ) 2 Šios trupmenos vardiklis yra visa kvadratų suma SST, o skaitiklis regresijos kvadratų suma SSR. Iš čia galima nesunkiai suprasti, kad determinacijos koeficientas yra santykis dispersijos, kurią paaiškina regresijos modelis su visa kintamojo Y dispersija. 5 Atsiskaitymas už darbą Darbas bus ginamas prie kompiuterio. Laboratoriniame darbe reikia: nubraižyti sklaidos diagramą, iš duomenų įvertinti koreliacijos koef. ˆρ, įvertinti regresijos koef. ã ir b įvertis iš akies, įvertinti regresijos koef. â ir ˆb MKĮ įvertis, paskaičiuoti ir tarpusavyje palyginti vidutinius kvadratinius nuostolius skirtingais būdais gautiems įverčių komplektams: R(a, b), R(ã, b), R(â, ˆb),

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 8 paskaičiuoti determinacijos koef. R 2. Reikia mokėti paaiškinti, ką reiškia šitos charakteristikos, mokėti jas interpretuoti, daryti išvadas. Literatūra [1] Čekanavičius V., Murauskas G. Statistika ir jos taikymai II - Vilnius, TEV, 2001. [2] Kruopis J. Matematinė statistika - Vilnius, Mokslas, 1993.