2.2. MAATRIKSI P X OMADUSED 19 2.2.1 Geomeetriline interpretatsioon Maatriksi X (dimensioonidega n k) veergude poolt moodustatav vektorruum (inglise k. column space) C(X) on defineeritud järgmiselt: Defineerides vektori normi valemiga C(X) = {θ : θ = Xβ, β R k }. x = (x T x) 1/2, langeb kahe vektori y 1 ja y 2 vaheline kaugus y 1 y 2 kokku tavalise eukleidilise kaugusega. Sellisel juhul langeb vähimruutude meetodi ülesanne kokku ülesandega leida vektor θ C(X) selliselt, et kaugus y θ oleks minimaalne. Teoreem 2.5 1. Minimaalne kaugus vektorite y ja θ C(X) vahel saavutatakse sellise vektori ˆθ C(X) korral, mille puhul (y ˆθ) C(X). (2.11) Selgitus: Väide 2.11 tähendab, et y ˆθ on risti (ortogonaalne) k~oigi vektoritega x C(X) ehk ˆθ on vektori y ortogonaalne (rist-) projektsioon vektorruumi C(X). 2. Leidub selline vektor ˆθ C(X), mis rahuldab n~ouet 2.11, ta on ühene ja avaldub kujul: ˆθ = P X y = X(X T X) X T y, kus P X = X(X T X) X T on ortogonaalne projektor alamruumi C(X). T~oestus. 1. Olgu ˆθ C(X) selline, et (y ˆθ) C(X), st x T (y ˆθ) = 0 iga x C(X) korral. Siis θ C(X) korral y θ 2 = (y ˆθ + ˆθ θ) T (y ˆθ + ˆθ θ) = (y ˆθ) T (y ˆθ) + (ˆθ θ) T (ˆθ θ) y ˆθ 2,
20 PEATÜKK 2. MUDELI PARAMEETRITE HINDAMINE kuna (y ˆθ) T (ˆθ θ) = 0 ortogonaalsuse n~oudest tulenevalt. On selge, et y θ 2 saavutab miinimumi kui valime θ = ˆθ. 2. Kuna ˆθ C(X), siis v~oime esitada ta maatriksi X veergude lineaarkombinatsioonina: ˆθ = Xβ. Lisan~oudest X T (y ˆθ) = 0 saame, et X T (y Xβ) = 0 ehk X T Xβ = X T y. Saadud v~orrandisüsteem on lahenduv, lahendiks sobib ˆβ = (X T X) X T y, ja seega ˆθ = X ˆβ = X(X T X) X T y = P X y. Seega vähimruutude meetodi puhul minimiseeritakse vaadeldud väärtuste vektori y ja tema prognoosi ŷ = Xβ vaheline eukleidiline kaugus, ˆθ := X ˆβ = arg min β Y Xβ, vaata ka joonist 2.1. Märkus. Olles projektor alamruumi C(X) jätab P X muutmata mistahes vektori x C(X), st P X x = x. Veendume selles. Väide x C(X) tähendab, et vektor x on esitatav kujul x = Xv. Seega P X x = P X Xv = Xv = x. Lemma 2.3 C(X) = C(P X ) T~oestus: x C(X) v,x = Xv. Seega x C(X) kehtib: x = Xv = P X Xv C(P X ). x C(P X ) kehtib: x = P X v = X (X T X) X T v C(X). Järeldus: rank(x) = rank(p X ). (2.12) Näide 2.1 Vaatame erakordselt lihtsat mudelit ja andmestikku. Olgu tehtud kaks vaatlust, y 1 = 4 ja y 2 = 2. Mudeliks, mida soovime hinnata, on y i = µ+ε i. Mudeli poolt määratud vektorruum C(X) on antud juhul kirja pandav järgmisel kujul: {v v = c (1, 1) T,c R}. Olukorda illustreerib alljärgnev joonis.
2.2. MAATRIKSI P X OMADUSED 21 Joonis 2.1: Vaatlusvektori Y projektsioon maatriksi X veergude ruumile on lineaarse mudeli prognoos, Ŷ = P Y (= X ˆβ)
22 PEATÜKK 2. MUDELI PARAMEETRITE HINDAMINE 2.3 Suurima t~oepära hinnang Sageli on v~oimalik teha eelduseid ka uuritava tunnuse jaotuse kohta. Teades uuritava tunnuse jaotust v~oime otsitavad parameetrid leida suurima t~oepära meetodil. Üks praktikas k~oige sagedamini esinev jaotus on normaaljaotus. Antud peatükis vaatamegi, millise hinnangu parameetritele saame, kui uuritava tunnuse Y jaotuseks oleks normaaljaotus. Vaatame lineaarset mudelit kus mudeli jääkide jaotuseks on normaaljaotus: Antud mudelit v~oime kirja panna ka kujul: Y = Xβ + ε, (2.13) ε N(0;σ 2 I). (2.14) Y N(Xβ;σ 2 I). (2.15) Kui juhusliku suuruse Y jaotuseks on mitmem~o~otmelise normaaljaotus, Y N(µ;Σ), siis Y tihedusfunktsioon on kirja pandav kujul f Y = 2πΣ 1/2 exp( (Y µ) T Σ 1 (Y µ)/2). (2.16) Seega on valimi t~oepärafunktsiooniks ( L(β, σ) = 2πσ 2 I 1/2 exp (y Xβ)T (σ 2 I) 1 ) (y Xβ) 2 ( = (2πσ 2 ) n/2 exp (y ) Xβ)T (y Xβ) 2σ 2 ja log-t~oepära (2.17) (2.18) l(β, σ) = n 2 log(2πσ2 ) (y Xβ)T (y Xβ) 2σ 2. (2.19) Maksimiseerime log-t~oepära saamaks suurima t~oepära hinnangut. Leiame esmalt tuletise β järgi = 1 (y Xβ) T (y Xβ) 2σ 2 = 1 (y Xβ) 2σ 2 2(y Xβ) = 1 2σ 2( XT )2(y Xβ)
2.3. SUURIMA T~OEPÄRA HINNANG 23 ja v~ordsustame saadud tuletise seejärel nulliga = 0 1 2σ 2( XT )2(y Xβ) = 0 X T Xβ = X T Y. Saadud v~orrandisüsteemi lahendiks sobib aga ju hinnang ˆβ ML = (X T X) X T y: X T X ˆβ ML = X T X(X T X) X T y = X T P X y = X T y Seega langeb suurima t~oepära meetodil saadud hinnang (mis ei pruugi olla ühene!) parameetervektorile β kokku vähimruutude meetodil saadud hinnanguga, ˆβ ML = ˆβ. Kui vähimruutude meetod ei pakkunud meile v~oimalust hinnata jääkide dispersiooni σ 2, siis suurima t~oepära meetodil v~oime saada hinnangu ka sellele parameetrile. Leiame log-t~oepärafunktsiooni tuletise σ 2 järgi, asendame β leitud suurima t~oepära hinnanguga ning saamegi kätte lahendi. σ 2 = n 2 (2πσ2 ) 1 (2π) (y Xβ)T (y Xβ) ( 1σ 4 ) 2 = n 1 2 σ 2 + ((I P X)y) T ((I P X )y) 1 2 (σ 2 ) 2 Paneme tähele, et (I P X ) T (I P X ) = (I P X )(I P X ) = (I P X ). Seega saame tuletise v~ordsustamisel nulliga tulemuseks σ 2 = 0 n 1 2 σ 2 + ((I P X)y) T ((I P X )y) 1 2 (σ 2 ) 2 = 0 n 2 σ2 = y T (I P X )y/2 σ 2 = yt (I P X )y n Märkus: Nagu hiljem näeme, on saadud suurima t~oepära hinnang dispersioonile nihkega hinnang. Saadud hinnangut kasutatakse praktikas harva, pigem eelistatakse nihketa hinnangut.