DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 2

DISPERSINĖ, FAKTORINĖ IR REGRESINĖ ANALIZĖ Laboratorinis darbas Nr. 2 Marijus Radavičius, Tomas Rekašius 2010 m. vasario 23 d. Santrauka Antras laboratorinis darbas skirtas išmokti sudarinėti daugialypės tiesinės regresijos modelį, konstruoti jam plano matricą, MKM metodu įvertinti parametrus (šiuo atveju tolydinės laužtės parametrus), patikrinti hipotezę apie modelio parametrus. 1

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 2 Turinys 1 Kas tai yra ID ir kam jis reikalingas 3 2 Užduotis 3 2.1 Laužtės parametrų įvertinimas..................... 3 2.2 Hipotezės tikrinimas.......................... 3 3 Duomenų generavimas 3 4 Pastabos 4 4.1 Daugialypės tiesinės regresijos modelis................ 4 4.2 Parametrų vertinimas.......................... 5 4.3 Plano matricos sudarymas....................... 6 4.4 Hipotezės tikrinimas.......................... 7 5 Atsiskaitymas už darbą 7

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 3 1 Kas tai yra ID ir kam jis reikalingas Studento ID (identifikatorius) yra dviženklis skaičius, kuris atitinka studento numerį grupės sąraše. ID1 ir ID2 yra atitinkamai pirmas ir antras ID skaitmuo. Laboratorinių darbų užduotys turės keletą variantų. Jeigu nenurodyta kitaip, studentas, kurio ID = id, iš m galimų variantų pasirenka k-ąjį variantą, kur k = (id 1)(mod m) + 1. MS Excel varianto numeris k randamas pagal formulę MOD(A1 1; B1) + 1. Čia celėje A1 įrašytas id, o celėje B1 įrašytas užduoties variantų skaičius m. Kad neiškiltų nesusipratimų, geriausia būtų, jog kiekvienam studentui jo variantą k pagal grupės sąrašą paskaičiuotų seniūnas. 2 Užduotis 2.1 Laužtės parametrų įvertinimas Nubraižyti iš anksto sugeneruotų taškų porų (x i, y i ) sklaidos diagramą ir mažiausių kvadratų metodu (MKM) įvertinti tolydinės laužtės f(x) parametrus. Įvertinti paklaidų dispersiją σ 2 ir apskaičiuoti determinacijos koef. R 2. 2.2 Hipotezės tikrinimas Patikrinti nulinę hipotezę H 0 : f(x) yra tiesė prieš alternatyvą H 1 : f(x) nėra tiesė. Reikšmingumo lygmuo α = 0, 1. 3 Duomenų generavimas Duomenys laboratoriniui darbui sudaromi pagal formulę kur: n = 11, s = 4 id/10, x i = i 1, i = 1,..., n, y i = f(x i ) + e i, i = 1,..., n, e i, i = 1,..., n, yra atsitiktinės paklaidos, lūžio taškas x 0 = 3 + id2 0, 5.

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 4 Funkcija f(x) yra tolydinė laužtė su lūžio tašku x 0. Tai reiškia, kad { a1 + b f(x) = 1 x, kai x x 0, a 2 + b 2 x, kai x > x 0. Generuojant duomenis naudojami tokie laužtės parametrai: a 1 = 2 + id 0, 3, a 2 = a 1, b 1 = ( 1, 2) id2 0, 5, b 2 = b 1, kai 2 < id2 < 7, ir b 2 = 1/b 1 kitais atvejais. Atsitiktinių paklaidų variantai: 1. e i U( 2s, 2s) pasiskirsčiusios pagal tolygų skirstinį, 2. e i N (0, s) pasiskirsčiusios pagal normalųjį skirstinį, 3. e i L(0, s) pasiskirsčiusios pagal Laplaso skirstinį. Čia L(µ, λ) žymi Laplaso arba kitaip dvigubą eksponentinį skirstinį. Tokiu atveju paklaidų e i tankis yra o pasiskirstymo funkcija { F (x) = 4 Pastabos f(x) = λ 2 e λ x µ, 1 2 e λ x µ, kai x 0, 1 1 2 e λ x µ, kai x > 0. 4.1 Daugialypės tiesinės regresijos modelis Daugialypės tiesinės regresijos (DTR) modelis: DTR modelio matricinis pavidalas: Čia X yra DTR modelio plano matrica: y i = β 0 + β x i + e i, i = 1,..., n, (1) Y = Xβ + E. (2)

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 5 X := ( 1 n X 1 X 2... X k ), (3) X i := ( x i (1), x i (2),..., x i (n) ), i = 1,..., k (4) 1 n := ( ) 1, 1,..., 1 R }{{} n, (5) β := n kartų ( β 0, β ) R k+1, (6) E := ( e 1 e 2... e n ). (7) 4.2 Parametrų vertinimas DTR modelio parametrų β mažiausių kvadratų įvertinys (MKĮ) arba kitu būdu ˆβ = ( ˆβ0, ˆβ ) = (X X) 1X Y, (8) ˆβ 0 = ȳ ˆβ x, (9) ˆβ = (Ẋ ) 1Ẋ Ẋ Ẏ. (10) Čia x yra prediktorių aritmetinių vidurkių vektorius-stulpelis, ȳ yra y-kų aritmetinis vidurkis, Ẋ := ( Ẋ 1 Ẋ 2... Ẋ k ), (11) o Ẋi ir Ẏ yra atitinkamai i-ojo prediktoriaus x i ir aiškinamojo kintamojo y centruotų stebėjimų vektoriai-stulpeliai, t.y., Ẋ i := Ẏ := ( ), x i (1) x i, x i (2) x i,..., x i (n) x i (12) (, y(1) ȳ, y(2) ȳ,..., y(n) ȳ) i = 1,..., k. (13) Determinacijos koeficiento R 2 formulė DTR modeliui R 2 = ˆβ Ẋ Ẏ Ẏ Ẏ = ˆẎ Ẏ Ẏ 2 = ˆẎ 2. (14) Ẏ 2 Pastebėkime, kad Ẏ prognozė ˆẎ = Ẋ ˆβ, ˆẎ Ẏ = ˆẎ ˆẎ = ˆẎ 2, vardiklis Ẏ Ẏ = Ẏ 2, o Ẋ Ẏ jau buvo suskaičiuotas skaičiuojant MKĮ ˆβ formulėje (10).

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 6 4.3 Plano matricos sudarymas 2.1 uždavinio sprendinys laužtė f(x) yra iš klasės F = { visos tolydinės laužtės su lūžio tašku x 0 }. Tolydinės laužtės nusakomos dviem tiesėm, y = f 1 (x) = a 1 + b 1 x ir y = f 2 (x) = a 2 +b 2 x, tenkinanciom tolydaus sujungimo sąlygą f 1 (x 0 ) = f 2 (x 0 ), iš kur gauname, kad, pvz. a 2, išsireiškia per kitus parametrus a 2 = a 1 + (b 1 b 2 )x 0. (15) Kaip sudaryti Y aišku, parametrai β = (a 1, b 1, b 2 ), o plano matricos X sudarymui galima taikyti įvairius metodus. Empirinis. Kadangi yra trys nežinomi parametrai a 1, b 1, b 2, tai bendras DTR modelio pavidalas turėtų atrodyti taip: y i = a 1 x i0 + b 1 x i1 + b 2 x i2 + e i, i = 1,..., n. (16) Kol kas prediktoriai x 0, x 1, x 2 yra nenusakyti, bet juos lengva nustatyti, remiantis tuo, kad, kai x i x 0, regresijos funkcija yra f 1 (x), kitais atvejais ji yra lygi f 2 (x), ir be to turi buti patenkinta sujungimo salyga (15). Aišku, kad kol x i x 0, x i0 1, o x i1 x i, ir t.t. Analitinis. Įvykio {x x0} indikatorių žymėsime 1{x x0}. Tuomet, remiantis siūlomu regresijos funkcijos f pavidalu, galima parašyti y = f 1 (x)1{x x0} + f 2 (x)1{x > x0} + e = ( a 1 + b 1 x ) ( (a1 1{x x0} + + (b 1 b 2 ) x0 ) ) + b 2 x 1{x > x0} + e (17) = a 1 + b 1 min(x, x0) + b 2 (x x0) + + e. Čia a + standartiškai žymi max(a, 0). Tegul duomenis sudaro tokios (x i, y i ) poros, o pasikeitimo momentas x 0 = 0.5. x 2 1 0 1 2 3 y 2 6 4 5 1 3 Tada gauname tokią DTR modelį atitinkančią plano matricą 1 2 0 1 1 0 X = 1 0 0 1 x 0 1 x 0. 1 x 0 2 x 0 1 x 0 3 x 0 Belieka pritaikyti mažiausių kvadratų metodą ir įvertinti parametrus a 1, b 1 ir b 2.

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 7 4.4 Hipotezės tikrinimas Iš užduoties aišku, kad kai x > x 0 keičiasi funkcijos f(x) parametras b, kuris tiesės lygtyje atitinka krypties koeficientą. Vadinasi, tiesė f(x) taške x 0 keičia savo kryptį užlūžta. Jei nesikeistų ir parametras b, laužtė f(x) būtų tiesė. Tokiu būdu 2.2 užduotyje suformuluota hipotezė { H0 : f(x) yra tiesė H 1 : f(x) nėra tiesė performuluojama į hipotezę apie funkcijos f(x) parametrus: { H0 : b 1 = b 2 H 1 : b 1 b 2 arba apibendrintai: { H0 : τβ = θ 0 H 1 : τβ θ 0. Nesunku pastebėti, kad tokią hipotezę atitinka vektorius τ = (0, 1, 1) ir θ 0 = 0. Tada kriterijaus statistika T = τ ˆβ θ 0 s2 λ, kur 2 λ 2 = τ(x X) 1 τ, o s 2 = 1 n 3 n e 2 i. Čia ˆβ = (â 1, ˆb 1, ˆb 2 ) yra parametrų įverčių vektorius, o s 2 yra nepaslinktas paklaidų dispersijos įvertis. Jei H 0 teisinga, tokiai hipotezei statistika T turi Stjudento t skirstinį su n 3 laisvės laipsniais. Hipotezė H 0 atmetama jei T > t α/2 (n 3). Jei parametro b pasikeitimas reiškia akcizo pridėjimą (arba atėmimą), jos interpretacija gali būti tokia: nulinė hipotezė H 0 reiškia, kad akcizo įvedimas įtakos neturėjo. Alternatyva H 1 sako, kad akcizo įvedimas turėjo įtakos. Tada nulinės hipotezės H 0 atmetimas reiškia, kad pastarasis teiginys yra (statistiškai) pagrįstas (įrodytas). i=0 5 Atsiskaitymas už darbą Darbas bus ginamas prie kompiuterio. Reikia žinoti kaip sudaroma plano matrica, kaip įvertinami modelio parametrai ir ką jie reiškia. Ką galima spręsti iš modelio paklaidų dispersijos ir dydžio R 2? Hipotezės tikrinimo eiga, kokias statistikas reikia paskaičiuoti, koks yra hipotezės priėmimo kriterijus, kritinė sritis? Į kokius klausimus galima atsakyti priėmus ar atmetus nulinę hipotezę?

Dispersinės, faktorinės ir regresinės analizės lab. darbas Nr. 2 8 Literatūra [1] Čekanavičius V., Murauskas G. Statistika ir jos taikymai II - Vilnius, TEV, 2001. [2] Kruopis J. Matematinė statistika - Vilnius, Mokslas, 1993.