DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 1 Marijus Radavičius, Tomas Rekašius 2010 m. vasario 9 d. Santrauka Pirmas laboratorinis darbas skirtas išmokti generuoti nesudėtingus duomenų rinkinius, susipažinti su mažiausių kvadratų metodu (MKM), iš duomenų įvertinti optimalius paprastosios tiesinės regresijos funkcijos parametrus, suprasti ką reiškia koreliacijos ρ ir determinacijos R 2 koeficientai.
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 2 Turinys 1 Kas tai yra ID ir kam jis reikalingas 3 2 Užduotis 3 2.1 Apytikslis regresijos funkcijos parinkimas............... 3 2.2 Tikslus regresijos funkcijos parinkimas................ 3 2.3 Papildoma užduotis........................... 3 3 Duomenų generavimas 4 4 Pastabos 4 4.1 Sklaidos diagrama ir koreliacijos koeficientas............. 4 4.2 Paprastosios tiesinės regresijos modelis................ 5 4.3 Parametrų įvertinimas ir prognozė................... 6 5 Atsiskaitymas už darbą 7
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 3 1 Kas tai yra ID ir kam jis reikalingas Studento ID (identifikatorius) yra triženklis skaičius, kurio pirmas skaitmuo yra grupės numeris, o kiti du skaitmenys yra studento numeris grupės sąraše. Pvz., ID = 307 reiškia, kad studentas su šiuo ID yra 7-tas 3-iosios grupės sąraše. Laboratorinių darbų užduotys turės keletą variantų. Jeigu nenurodyta kitaip, studentas, kurio ID = id, iš m galimų variantų pasirenka k-ąjį variantą, kur k = (id 1)(mod m) + 1. MS Excel k randamas pagal formulę MOD(A1 1; B1) + 1. Čia celėje A1 įrašytas id, o celėje B1 įrašytas užduoties variantų skaičius m. Kad neiškiltų nesusipratimų, geriausia būtų, jog kiekvienam studentui jo variantą k pagal grupės sąrašą paskaičiuotų seniūnas. 2 Užduotis 2.1 Apytikslis regresijos funkcijos parinkimas Nubraižyti iš anksto sugeneruotų duomenų sklaidos diagramą ir vizualiai parinkti geriausiai juos aprašiančią tiesę y = ã + bx. Įvertinti parametrus ã ir b, apskaičiuoti R(ã, b) ir R(a, b). Čia R(a, b) yra vidutiniai kvadratiniai nuostoliai tiesinei prognozei (regresijos funkcijai) f(x) = a + bx. 2.2 Tikslus regresijos funkcijos parinkimas Tiems patiems duomenims rasti parametrų a ir b mažiausių kvadratų įverčius (MKĮ ) â ir ˆb, apskaičiuoti vidutinius kvadratinius nuostolius R(â, ˆb) ir palyginti su R(ã, b) bei R(a, b). Kiekvienu atveju suskaičiuoti determinacijos koef. R 2, o taip pat empirinį koreliacijos koeficientą ρ(x, Y ). 2.3 Papildoma užduotis Klausimas, kaip, Jūsų nuomone, pasikeistų paminėtos charakteristikos, jeigu duomenys būtų generuoti šiek tiek kitaip. Pvz., x i pasiskirstęs tolygiai ne pagal U( 2s, 2s), o pagal U( 3s, 3s) bei e i pasiskirstęs normaliai ne pagal N (0, s), o pagal N (0, 5s). Kaip sužinoti, kad šiame darbe kintamojo Y prognozei tikslinga taikyti tiesinę regresiją? Kam lygus teorinis R 2 ir koreliacijos koef. ρ(x, Y ). Kaip jie susiję tarpusavyje?
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 4 3 Duomenų generavimas Duomenys sudaromi pagal formulę: kur: n = 12, a = 3 + id 0.3, b = ( 1) id (0.2 id), y i = a + bx i + e i, i = 1,..., n, x i U( 2s, 2s) pasiskirstęs pagal tolygų skirstinį, e i N (0, s) pasiskirstęs pagal normalųjį skirstinį, s = 1 + id/10. 4 Pastabos 4.1 Sklaidos diagrama ir koreliacijos koeficientas Duomenis sudaro kintamųjų X ir Y stebinių poros (x i, y i ). Kiekvieną tokią stebinių porą atitinka taškas plokštumoje. Tokiu būdu atvaizdavus visas stebėtų kintamųjų poras gaunama sklaidos diagrama. Jei taškai (x i, y i ) pakankamai glaudžiai išsibarstę apie tiesę, kintamojo Y prognozei galima taikyti tiesinę regresiją. Sklaidos glaudumui, arba kitaip kintamųjų X ir Y tiesinei priklausomybei įvertinti naudojamas koreliacijos koeficientas:
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 5 ρ(x, Y ) = cov(x, Y ) DXDY = N (x i x)(y i ȳ), N N (x i x) 2 (y i ȳ) 2 1 ρ(x, Y ) 1. Atvejis kai ρ(x, Y ) = 0 reiškia, kad tiesinės priklausomybės nėra, ρ(x, Y ) = ±1 reiškia kintamųjų funkcinę priklausomybę, t.y. jokio atsitiktinumo nebėra, o sklaidos diagramoje visi taškai guli tiksliai ant tiesės. 4.2 Paprastosios tiesinės regresijos modelis Šiame lab. darbe nagrinėjamas paprastosios tiesinės regresijos modelis. Tai reiškia, kad vienas kintamasis nuo kito priklauso tiesiškai, bet ne logaritmiškai, kvadratiškai ar dar kaip nors kitaip. Bendras tiesinis tikimybinis modelis susiejantis intervalinius kintamuosius Y ir X, atrodo taip: Y = a + bx + e, kur a ir b yra nežinomi kintamieji, o e atsitiktinė paklaida (pvz. atsiradusi matavimo metu ar pan.). Kada kintamasis X įgyja konkrečią reikšmę x i, modelis atrodo taip: y i = a + bx i + e i. Čia x i yra neatsitiktinė fiksuota reikšmė, o e i atsitiktinė paklaida. Iš čia turėtų būti aišku, kad ir esant tai pačiai x i reikšmei, y i reikšmės nebūtinai turi būti tos pačios. Tai priklauso nuo atsitiktinių paklaidų. Tiesinės regresijos modelyje joms iškeliami tam tikri reikalavimai. e i normaliai pasiskirstę ats. dydžiai, visų e i vidurkis lygus nuliui, Ee i = 0, visų e i dispersijos lygios σ 2, De i = σ 2, e i yra nepriklausomi ats. dydžiai. Trumpiau šias modelio prielaidas galima užrašyti taip: e i N (0, σ 2 ). Kadangi paklaidos e i yra normalieji ats. dydžiai, su kiekviena fiksuota x i reikšme kintamieji y i taip pat yra normalieji ats. dydžiai. Nulinis paklaidų vidurkis svarbus susiejant kintamojo Y vidurkį su kintamuoju X. Gaunama, kad Ey i su x i susietas jau determinuota tiesine lygtimi Ey i = a+bx i, kurios parametrai a ir b yra nežinomi, ir kuriuos įvertinus gautą lygtį galima naudoti Y prognozei. Dispersijų
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 6 lygybės reikalavimas svarbus tam, kad su kiekviena fiksuota x i reikšme galimų y i reikšmių sklaida būtų vienoda ir neiškreiptų prognozės. Paklaidų e i nepriklausomumas tuo pačiu reiškia ir visų y i nepriklausomumą, t.y. y i reikšmė nepriklauso nuo y i 1. Tai gali reikšti pvz. kad y i matavimai nepriklauso nuo laiko. Plačiau apie šias prielaidas ir išvadas iš jų teorijos paskaitose. 4.3 Parametrų įvertinimas ir prognozė Tikslas parametrų a ir b įverčius ã ir b parinkti taip, kad gautos kintamojo y prognozės ỹ(x i ) = ã + bx i reikšmės taškuose x i kuo mažiau skirtųsi nuo anksčiau sugeneruotų reikšmių y i, t.y. išmokti gerai prognozuoti. Reiktų stengtis, kad parinkta tiesė duotų kuo mažesnius vidutinius kvadratinius nuostolius. Nuostoliai (kur juos pavaizduoti ant grafiko?) čia suprantami kaip skirtumas tarp prognozės ir tikrosios kintamojo Y reikšmės y i : R(a, b) = 1 n (y i (a + bx i )) 2. Šiame lab. darbe pirma prognozė vyksta remiantis tik savo nuojauta, kada regresijos tiesė, o tuo pačiu ir įverčiai ã ir b, parenkami iš akies. Siekis būtų išlavinti tokį prognozės būdą taip, kad R(ã, b) R(a, b). Jei taip pavyktų, tai reikštų, kad iš akies galite prognozuoti neblogiau nei kad originalus modelis, pagal kurį buvo generuoti duomenys. Kada parametrų a ir b įverčiai â ir ˆb randami minimizuojant vidutinius kvadratinius nuostolius, toks metodas vadinamas mažiausių kvadratų metodu (MKĮ). Tai
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 7 reiškia, jog reikia spręsti optimizavimo uždavinį: (y i a bx i ) 2 min. Šią sumą minimizuoja parametrai ( ) ( ) ( ) n x i y i x i y i ˆb = ( ) ( ) 2 ir â = n x i x 2 i 1 n y i ˆb 1 n x i. Tokiu metodu gauti įverčiai yra nepaslinktieji ir turi mažiausias dispersijas (pasikartoti matematinės statistikos kursą apie įverčių savybes). Ar galima taikyti tiesinės regresijos modelį sprendėme iš sklaidos diagramos ir koreliacijos koef. reikšmės. Tačiau kaip žinoti, ar parinktas modelis yra geras? Vienas iš tokių rodiklių yra determinacijos koeficientas R 2 : R 2 = (ŷ 1 ȳ) 2. (y i ȳ) 2 Šios trupmenos vardiklis yra visa kvadratų suma SST, o skaitiklis regresijos kvadratų suma SSR. Iš čia galima nesunkiai suprasti, kad determinacijos koeficientas yra santykis dispersijos, kurią paaiškina regresijos modelis su visa kintamojo Y dispersija. 5 Atsiskaitymas už darbą Darbas bus ginamas prie kompiuterio. Laboratoriniame darbe reikia: nubraižyti sklaidos diagramą, iš duomenų įvertinti koreliacijos koef. ˆρ, įvertinti regresijos koef. ã ir b įvertis iš akies, įvertinti regresijos koef. â ir ˆb MKĮ įvertis, paskaičiuoti ir tarpusavyje palyginti vidutinius kvadratinius nuostolius skirtingais būdais gautiems įverčių komplektams: R(a, b), R(ã, b), R(â, ˆb),
Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 1 8 paskaičiuoti determinacijos koef. R 2. Reikia mokėti paaiškinti, ką reiškia šitos charakteristikos, mokėti jas interpretuoti, daryti išvadas. Literatūra [1] Čekanavičius V., Murauskas G. Statistika ir jos taikymai II - Vilnius, TEV, 2001. [2] Kruopis J. Matematinė statistika - Vilnius, Mokslas, 1993.