Peatükk 2 Juhuslik faktor ja mitmetasandilised mudelid Uurime inimese verer~ohku. Inimese verer~ohk on üsnagi varieeruv ja s~oltub üsnagi tugevalt hetkeolukorrat mida inimene on enne m~o~otmist söönud/joonud, milline on tema emotsionaalne seisund jne. Seega v~oiksime ühel inimesel tehtud verer~ohu m~o~otmise jaoks kirja panna järgmise mudeli: Y j = µ + ε j, kus Y j on antud inimesel tehtud j m~o~otmise tulemus, µ on antud inimese keskmine verer~ohk ja ε j on j. m~o~otmise k~orvalekalle keskmisest kas siis m~o~otmisveast tingitult v~oi arsti juurde tulekule eelnenud tegevusest tulenev hetke omapära. Tundub m~oistlik eeldada, et Eε j = 0 (me ei tee oma m~o~otmiste käigus süstemaatilist viga). Kui uurimise all on korraga enam kui üks inimene, peaksime m~o~otmistele lisama inimese järjekorranumbri. Nii näeks i. inimesel tehtud verer~ohum~o~otmiste mudel välja järgmine: Y ij = µ i + ε ij, (2.1) ku µ i on i. inimese keskmine verer~ohk. Sageli huvitabki uurijat mitte ühe konkreetse uuritava inimese verer~ohk, vaid uuritava populatsiooni (näiteks eestlaste) keskmine verer~ohk µ. Iga üksiku eestlase (keskmine) verer~ohk µ i avaldub aga populatsiooni keskmise kaudu järgmisel kujul: µ i = µ + γ i, (2.2) 9
10PEATÜKK 2. JUHUSLIK FAKTOR JA MITMETASANDILISED MUDELID Kus γ i tähistab i. inimese omapära, erinevust keskmisest. Juhul, kui inimesed on uuringusse saadud juhusliku valimi abil, on Eγ i = 0. Tasub tähele panna, et antud kontekstis on juhuslikud nii µ i ja γ i (milline inimene sattub valimisse i. inimeseks on juhuslik). Ühendades mudelid 2.1 (kutsutud ka m~o~otmise taseme mudeliks kirjeldab mudeli üksikute m~o~otmiste jaoks) ja 2.2 (inimese tase kirjeldab, millest s~oltub üksikindiviidi keskmine) saame järgmise mudeli: Y ij = µ + γ i + ε ij. (2.3) Tulemus näeb välja peaaegu samasugune, kui ühefaktorilise dispersioonanalüüsi mudel. Siiski on nende kujult sarnaste mudelite sisu m~onev~orra erinev. Nimelt eeldame antud kontekstis, et γ i väärtused on juhuslikud tegemist on juhusliku valimiga mingist suuremast populatsioonist (k~oigi eestlaste seast). Millised konkreetseid väärtuseid me kohtame on juhuslik see s~oltub meie uuringusse kaasatud juhuslikult valitud inimestest. Kui v~otaksime m~one teise valimi, oleksid γ i väärtused teistsugused. Ülaltoodu mudel 2.3 on üheks lihtsamaks mitmetasandilise mudeli näiteks. Loomulikult v~oime ülaltoodud mudelit mitmel viisil keerukamaks muuta näiteks v~oime indiviidi taseme mudelisse lisada inimese vanuse (nii, et inimese keskmine verer~ohk jääks s~oltuma inimese vanusest) vms. Oletame nüüd, et uurimise all polnud mitte ainult eestlased. Oletame, et maailma rahvaste seast valiti juhuslikult välja kümmekond erinevat rahvast. Iga väljavalitud rahva seast v~oeti juhuslikult uurimise alla m~oned inimesed, keda siis m~o~odeti-uuriti juhuslikult valitud ajahetkedel. Sellise skeemi puhul tekib üks täiendav tase rahvuse tase ning mudelit v~oib muuta veelgi keerukamaks. K~oiki kolme tasandit ühendav mudel r. rahvusest pärit i. inimese j. m~o~otmistulemuse jaoks oleks sellisel juhul järgmine: Y rij = µ + τ r + γ ri + ε rij, kus µ oleks keskmine verer~ohk üle erinevate rahvuste (NB! mitte maakera inimeste keskmine verer~ohk, vaid erinevate rahvaste keskmiste verer~ohkude keskmine!), µ+τ r oleks r. rahva keskmine verer~ohk (τ r iseloomustaks r. rahva omapära ), µ+τ r +γ ri oleks aga r. rahva seast juhuslikult valitud i. inimese keskmine verer~ohk (keskmine üle k~oigi m~oeldavate üksikm~o~otmiste). Muidugi on v~oimalik mudelit 2.3 üldistada ka m~onel teisel moel. Riigi sissetoomise asemel v~oime arutleda, et inimese verer~ohk kipub inimese vananedes muutuma. Seet~ottu v~oime kirjeldada i. inimese j. m~o~otmisel saadud verer~ohku hoopis järgmise mudeli abil:
11 Y ij = µ i + c i vanus ij + ε ij, (2.4) Kus vanus ij on i. inimese vanus j. m~o~otmise ajal. Edasi v~oime arutleda, et i. inimesel vanuse ees olev kordaja (sirge t~ous) v~oib erinevatel p~ohjustel veidi varieeruda m~oni sööb tervislikumat toitu, m~oni teeb füüsilist tööd, m~onel halveneb veresoonte kvaliteet geneetilise eelsoodumuse t~ottu kiiremini kui teistel... seega v~oime arvata, et inimeste individuaalsete sirgete t~ousud (v~oi langused) k~oiguvad populatsiooni üldkeskmise sirge t~ousu ümber: c i = c + τ i, Eτ i = 0. Samuti vabaliikmed ehk see, mis juhtus inimestega noorena, millises algseisundis nad uuringusse sattusid, v~oib varieeruda. Seega: µ i = µ + γ i, Eγ i = 0. Kokkuv~ottes saaksime inimese verer~ohum~o~otmiste mudeliks järgmise mudeli: Y ij = µ + c vanus ij + γ i + τ i vanus ij + ε ij. (2.5) Mudeli fikseeritud osa, µ + c vanus ij, kirjeldab, milline on keskmine verer~ohk antud vanuses inimestel: E(Y ij vanus ij ) = E (µ + c vanus ij + γ i + τ i vanus ij + ε ij ) = µ + c vanus ij + E (γ i ) + E (τ i ) vanus ij + 0 = µ + c vanus ij. Selles näiteks toodud mudelis on meie jaoks tundmatud konstandid µ ja c fikseeritud parameetrid me eeldame, et nende väärtused jäävad samaks üksk~oik millise valimiga on parajasti tegemist (kuigi nende suurustele valimi p~ohjal leitud hinnang jääb muidugi valimist s~oltuma). Seevastu suurused τ i,γ i,ε ij on juhuslikud nende suuruste tegelikud väärtused jäävad s~oltuma konkreetsest valimist (kui esimeseks m~o~odetud inimeseks juhtub olema Kalle, siis on τ 1 Kalle verer~ohu t~ousu kiiruse omapära (mis on suurem nullist, sest Kalle sööb palju kolesteroolirikast toitu ja ei spordi eriti...), kui aga juhuse tahtel sattuks esimeseks uuritavaks inimeseks Mai, oleks τ 1 < 0 sest Mai sööb ainult salatilehti ja mängib iga päev tennist. Toodud mudelit tuntakse vahel ka juhusliku regressioonimudeli (random regression) nime all, vaata ka järgnevat joonist.
12PEATÜKK 2. JUHUSLIK FAKTOR JA MITMETASANDILISED MUDELID Selles peatükis oleme esitanud mudeleid nn üksikvaatlusele kasutades tervet posu indekseid vaatluse üheseks määramiseks. Sageli on mugavam töötada maatrikskujul kirja pandud mudelit kasutades. Jagame esmalt juhuslikud efektid kaheks: jääkideks (toodud näites ε ij ) ja ülejäänud (eelnenud näites τ i, γ i ). Jääkidest moodustame vektori ε, ülejäänud juhuslikud efektid kombineerime aga ühte suurde juhuslikku (valimist s~oltuvasse) vektorisse, mille tähistame γ-ga. Fikseeritud efektidest (toodud näites µ ja c) moodustame fikseeritud parameetrite vektori β. Saame mudeli kujul: Y = Xβ + Zγ + ε, (2.6) kus X on n p fikseeritud effektide disainimaatriks (v~oi mudelimaatriks), β on p 1 fikseeritud parameetreid sisaldav vektor, Z on n z juhuslike efektide disainimaatriks, γ on meile tundmatuid juhuslikke efekte sisaldav z-pikkusega vektor ja ε on n 1 mudeli vigu ehk jääke sisaldav vektor.
Peatükk 3 Segamudel Oleme j~oudnud piisavalt kaugele, et l~opuks ametlikult sisse tuua segamudel. Segamudel: Y = Xβ + Zγ + ε, (3.1) kus EY = Xβ (3.2) Eγ = 0, Eε = 0 (3.3) G := Dγ, R := Dε, γ ε (3.4) V := DY = ZGZ T + R (3.5) Juhuslikke parameetreid sisaldab vektor γ, fikseeritud parameetrid on koondatud vektorisse β. 3.1 Näide (mitmetasemeline mudel) Juhuslikult valiti välja 3 kooli. Esimeses koolis testiti kolme, teistes kahte juhuslikult valitud ~opilast. Fikseeritud faktoriks on sugu. Andmeid (testituemust) kirjeldav segamudel on järgmine: y 11 y 12 y 13 y 21 y 22 y 31 y 32 = 1 1 µ β tdruk β poiss + 13 0 0 0 0 0 0 0 γ 1 γ 2 γ 3 + ε 11 ε 12 ε 13 ε 21 ε 22 ε 31 ε 32,
14 PEATÜKK 3. SEGAMUDEL kus γ 1 on 1. kooli omapära (1. kooli keskmise testitulemuse erinevus koolide keskmiste keskmisest), µ + β tdruk on tüdrukute keskmine testitulemus, µ + β poiss on poiste keskmine testitulemus jne. 3.2 Näide (Aastad, p~ollud ja sort) Tahetakse teada, kas paremat saaki annab sort A v~oi sort B. Juhuslikult valiti välja 3 p~oldu ja juhuslikult valiti uuringu tegemiseks kaks aastat (2005, 2006). Ühele katselapile p~ollul külvati sorti A, teisele sorti B. Vaadati, kuidas saak on. P~ollul i aastal j katselapil k saadud saaki y ijk kirjeldab järgmine segamudel: y 111 y 112 y 121 y 122 y 211 y 212 y 311 y 312 y 321 y 322 = ( βa β B ) + 0 0 0 0 0 0 0 0 0 0 0 0 ξ 1 ξ 2 ξ 3 τ 1 τ 2 + ε 111 ε 112 ε 121 ε 122 ε 211 ε 212 ε 311 ε 312 ε 321 ε 322 ; Dγ = σξ 2 0 0 0 0 0 σξ 2 0 0 0 0 0 σξ 2 0 0 0 0 0 στ 2 0 0 0 0 0 στ 2 Dε = σ 2 εi. 3.3 Näide (juhuslik regressioon) Vaatame mitmetasandilist mudeli, kus lapsi on testitud 3-s koolis, igas koolis kaht last. Lapse testitulemus v~oib s~oltuda lapse sotsiaalmajanduslikust staatusest (SES), kusjuures see s~oltuvus v~oib igas koolis olla erinev.
3.3. NÄIDE (JUHUSLIK REGRESSIOON) 15 y 11 y 12 y 21 y 22 y 31 y 32 = 1 12 1 10 1 15 1 18 1 28 1 17 Dγ = ( µ c ) + 2 0 0 0 0 0 0 5 0 0 8 0 0 0 0 28 0 0 7 σγ 2 0 0 r γ,τ 0 0 0 σγ 2 0 0 r γ,τ 0 0 0 σγ 2 0 0 r γ,τ r γ,τ 0 0 στ 2 0 0 0 r γ,τ 0 0 στ 2 0 0 0 r γ,τ 0 0 στ 2 Dε = σ 2 εi. γ 1 γ 2 γ 3 τ 1 τ 2 τ 3 + Miks juhuslike efektide kovariatsioonimaatriks G pole erinevalt eelnenud juhtudest diagonaalne? Antud mudel lubab sama kooli juhuslikul vabaliikmel ja sirge t~ousu eripäral olla korreleeritud, cov(γ i,τ i ) = r γ,τ. See tähendab, et koolides, kus vaesest perest pärit lapsi halvasti ~opetatakse (vabaliige suhteliselt väike) v~oib rikaste laste käsi käia siiski suhteliselt hästi (rikkus v~oimaldab palgata era~opetajaid, kes rikkurite lastel lasevad siiski enam-vähem normaalse hariduse omandada hoolimata kooli saamatusest...), ehk τ i oleks suhteliselt suur. Kirjeldatud olukorra korral peaksid väikesed γ i väärtused käima koos suurte τ i väärtustega ehk r γ,τ < 0. ε 11 ε 12 ε 21 ε 22 ε 31 ε 32 ;