Matemaatiline tatitika ja modelleerimine Üldied lineaared mudelid [general linear model, GLM] EMÜ doktorikool DK.0007 Tanel Kaart Katepõhine v mudelipõhine uuring Katepõhine uuring katetingimued range kontrolli all, uhtelielt vähe ja enamati taakaalu [balanced] andmed, analüüik tandardne regreioon- või diperioonanalüü (t-tet). Mudelipõhine uuring juhulikud ja enamati mittetaakaalu [unbalanced] andmed, mittekontrollitud katetingimued, peamine analüüi alu on uurija intuitioon/analüüitava materjali tundmine, meetodeik mitmefaktorilied, ageli mittetandarde vaatlute kovariatioonitruktuuriga mudelid. Mudel mõlemal juhul mõõdetud väärtu = obitatud väärtu + viga. Tanel Kaart 1
Sõltuvad ja õltumatud tunnued Uuritavad e õltuvad tunnued [dependent variable] tunnued, mille käitumine huvi pakub. Argument- e õltumatud tunnued [idependent variable] e faktorid tunnued, mille mõju uuritavatele tunnutele oovitake elgitada. Faktortunnue erinevaid väärtui nimetatake taemetek e nivoodek [level]. Iga faktor jaguneb vatavalt oma taemete ieloomule dikreetek või pidevak, arvuliek (kvantitatiivne) või klaifiteerivak (kvalitatiivne). Näitek on lehma ünniaata, laktatioon jne dikreeted arvulied faktorid; farm taemetega (väärtutega) 'Vorbue', 'Ülenurme' jne on dikreetne klaifiteeriv faktor; laktatiooni pikku, piimatoodang, pekipaku jne (mõõdetud tunnued) on aga pidevad faktorid. Faktorite vahekord mudeli Faktorid on lihtad ja tuletatud. Lihtate faktorite väärtued on vahetult mõõdetud või regitreeritud, tuletatud faktorid moodutatake lihtatet. Tüüpilied tuletatud faktorid on interaktioonid e. koomõjud ning arvulite faktorite korrutied. Näitek on farm, ia ja laktatiooni pikku lihtad faktorid; farm*ia (koomõju) ja laktatioon*laktatioon (arvulie faktori kõrgem järk) aga tuletatud faktorid. Praktika on faktorite vahel ageli ka alluvueoed. Faktor A allub faktorile B, kui A iga nivoo (tae) eineb koo vaid ühe B nivooga. B Näitek võime me tavalielt lugeda farmi allutatuk maakonnale; kui iga ema on ritatud kindla iaga, A on ema allutatud iale. Faktorid A ja B on riteoe, kui A iga nivoo kombineerub (aab B põhimõttelielt kombineeruda) B kõigi nivoodega. A Näitek kui viiel aatal on uuritud pullide tütarde jõudluandmeid ja igal pullil on igal aatal tütreid, on pull ja aata riteoe; kui aga igal aatal on valitud uued pullid, allub pull aatale. Tanel Kaart
Lineaared mudelid Lineaarne mudel ialdab komplekti faktoreid, mi mõjutavad vaatlui aditiivelt, kujuure mingi muutuja faktori ieelt võib olla näitek ruutu võetud. Lineaareid mudeleid obib rakendada enamute bioloogilite uuringute. Mittelineaared eoed on tihti lähendatavad lineaare mudeliga. Traditiooniline lineaarne mudel kooneb kolmet oat: võrrand mudeli eitu faktorite mõjude ummana; juhulike muutujate kekväärtued ja diperioonitruktuur; eeldued, kitendued ja piirangud. Näiteandmetik Lehm Tõug Farm Aretuväärtu Piim. kg 1 EHF F1 105 8804.56 EHF F3 11 915.84 3 EHF F4 98 7055.046 4 EHF F 89 3856.88 5 EHF F1 98 6768.067 6 EHF F4 99 7676.58 7 EHF F4 104 98.086 8 EHF F1 10 816.694 9 EHF F1 110 10017.95 10 EHF F1 93 56.356 11 EPK F 98 5431.155 1 EPK F 108 7406.513 13 EPK F4 98 515.659 14 EPK F3 100 4797.637 15 EPK F3 96 5011.46 16 EPK F4 108 7369.143 17 EPK F 107 666.611 18 EPK F 104 6170.835 19 EPK F 9 3948.81 0 EPK F3 10 6113.998 Dikreeted faktorid Pidevad faktorid Sõltuv muutuja Tanel Kaart 3
Piim, kg Piim, kg Mudeli eitu 11000 Regreioonanalüüi mudel: y i = μ + b AV i + ε i 9000 7000 y i = 16176,5 + 6,4 AV i 5000 3000 85 95 105 115 Aretuväärtu Mudeli eitu 11000 Diperioonanalüüi mudel: y ij = μ + B i + ε ij 9000 7000 5000 3000 Tõu EHF mõju (efekt) B 1 = +916,7 B = 916,7 Tõu EPK mõju (Kekmine piimatoodang Tõug = EHF ) = μ + B 1 = 7636, kg Kekmine piimatoodang = μ = 6719,5 kg (Kekmine piimatoodang Tõug = EPK ) = μ + B = 580,8 kg Tanel Kaart 4
Mudeli eitu y ijk = μ + T i + F j + b AV ijk + ε ijk y 11 = μ + 0 T 1 + 1 T + 1 F 1 + 0 F + 0 F 3 + 0 F 4 + b AV 11 + ε 11 8804 1 0 1 1 105 ε 11 = μ Tõug 1 Tõug Farm 1 Farm Farm 3 Farm 4 b + y = X β + ε 8804,3 915,3 7055,0 3856,9 6768,1 7676,3 98,1 816,7 10018,0 56,4 5431, 7406,5 515,7 4797,6 5011,4 7369,1 666,6 6170,8 3948,3 6114,0 = 1 1 0 1 105 1 1 1 0 11 1 1 0 1 98 1 1 0 0 1 0 0 89 1 1 0 1 98 1 1 0 1 99 1 1 0 1 104 1 1 0 1 10 1 1 0 1 110 1 1 0 1 93 1 0 1 0 1 0 0 98 1 0 1 0 1 0 0 108 1 0 1 1 98 1 0 1 0 0 1 0 100 1 0 1 0 0 1 0 96 1 0 1 1 108 1 0 1 0 1 0 0 107 1 0 1 0 1 0 0 104 1 0 1 0 1 0 0 9 1 0 1 1 10 μ Tõug 1 Tõug Farm 1 Farm Farm 3 Farm 4 b Tanel Kaart 5
Hinnatavad efektid, reparametrieerimine ˆ T 1 T y Xβ ε β ( X X) X y Probleem on, et β ei ole üheelt hinnatav. Vaatame näitek ANOVA-mudelit: y ij = μ + B i + ε ij Kekmine piimatoodang (Tõug = EHF ) = μ 1 = μ + B 1 = 7636, kg Kekmine piimatoodang (Tõug = EPK ) = μ = μ + B = 580,8 kg Meil on võrrandit ja 3 tundmatut parameetrit. Lahendu? Reparametriatioon = liakitendued Klaikaline reparametriatioon: B 1 + B = 0 (μ = 6719,5; B 1 = 916,7; B = 916,7) SAS-i reparametriatioon: B = 0 (B 1 = 1833,4; μ = 580,8) R-i reparametriatioon : B 1 = 0 (B = 1833,4; μ = 7636,) Hinnatavad efektid, reparametrieerimine Tanel Kaart 6
Hinnatavad efektid, reparametrieerimine Hinnatavad funktioonid, kontratid Kontrat on mudeli parameetrite hinnatav lineaarkombinatioon. Kontratide eitamiek obib kautada maatrikkorrutit kujul lβ. Näitek kontrat, hindamak tõugudevahelit erinevut, on eitatav kujul l β Tõug1 Tõug Farm Farm Farm3 Farm4 b 1 0 1 1 0 0 1 Tõug1 1 Tõug Milline efekt (erinevu) on hinnatav reavektori l abil: l = ( 0,5 0,5 0,5 0,5 0)? Tanel Kaart 7
Vähimruutkekmied [leat quare mean] Vähimruutkekmine [LSM] kujutab eneet mingi faktori mingile taemele vatavate väärtute kekmit, mi on hinnatud mudelit obivalt defineeritud kontrati kujul. Näitek. farmi lehmade piimatoodangu vähimruutkekmine hinnatake kujul LSM( Farm ) 1 0 1 0 0 av 1 1 Tõug Tõug 1 1 1 Tõug1 Tõug Farm1 Farm Farm3 Farm4 b Farm b av Vähimruutkekmied [leat quare mean] kekmine aretuväärtu ( F1 F F3 F4) LSM EHF Intercept 1 EHF 0 EPK coef BV 4 ( 95,5 678, 753,5 0) 16637,1 157,3 7,1 101,15 7479,5 4 Tanel Kaart 8
I ja III tüüpi ruutude ummad I ja III tüüpi ruutude ummad Tanel Kaart 9
Vaikimii: var( ε) Korduvad mõõtmied var( ε) I e 0 0 e 0 e 0 e 0 0 Kompaund-ümmeetriline kovariatioonitruktuur: 0 0 0 0 0 0 ID Lakt. Piim, kg 3396 1 4119 3396 5857 3396 3 660 3990 1 3106 3990 3934 3990 3 5171 4390 1 473 4390 3301 4390 3 958 Eimet järku autoregreiivne kovariatioonitruktuur: 1 1 1 1 1 var( ε), 1 1 Juhulikud faktorid, egamudel Näide 1 Näide Tetitake kolme erineva rahuti mõju (kolmel arnael patientide grupil) Uut tüüpi ütitavat inuliini tetitake kolme kliiniku yij i ij yij i ij α i ravimi i mõju, i=1,,3, kujuure kõik kolm tetitavat ravimit on eelnevalt võrdlemiek välja valitud vaatlue all on iga ravimi efekt fikeeritud efektid, fikeeritud mudel α i kliiniku i mõju, i=1,,3, kujuure uuringu oalenud kliinikud on valitud juhulikult huvi pakub kliiniku oa ravimi mõju koguvarieeruvuet juhulikud efektid, juhulik mudel Tanel Kaart 10
Juhulikud faktorid, egamudel Kui palju on faktoril taemeid? Kui vähe, ii on ilmelt tegu fikeeritud faktoriga. Kui palju, ii võib tegu olla juhuliku faktoriga. Ka faktori taemete arv populatiooni on potentiaalelt lõpmatu? Kui jah, on tegu juhuliku faktoriga. Ka ekperimendi kordamiel on (võivad olla) uuritavad amad taemed? Kui jah, on faktor fikeeritud. Huvi pakub kõigi (ka andmete eindamata) taemete kekmine mõju, ehk ee, kui uur oa uuritava tunnue koguvarieeruvuet on kirjeldatud antud faktori poolt? Kui jah, on ilmelt mõtteka käitleda faktorit juhulikuna. Ka faktori taemed on valitud ihipäraelt (mitte juhulikult)? Kui jah, ii ilmelt tuleb faktorit käitleda fikeerituna. Juhulikud faktorid, egamudel Eelied Segamudelid võimaldavad tunduvalt ülditada tehtavaid tatitilii järeldui. Segamudelid võimaldavad paindlikult modelleerida vaatlute kovariatioonitruktuuri. Segamudelite aluel tehtavad järeldued on vähem tundlikud andmete ebatäielikkue ja/või mittetaakaaluliue uhte. Puudued Tehtavate tõenäoujaotulike eeldute ja kautatavate lähendute hulk on uurem, mi võib viia nihkega hinnanguteni. Mudelite uurem kompliteeritu võib muuta keeruliek andmete töötlemie ja tulemute eitamie. Tanel Kaart 11
Fikeeritud ja juhuliku mudeli karakteritikud ühefaktoriliel DA-l matemaatika mõite Karakteritik Fikeeritud mudel Juhulik mudel Mudel yij i ij y ij i ij E(y ij ) E(y ij ) = μ + α i E(y ij α i ) = μ + α i E(y ij ) = μ α i fik. tundmatu kontant i ~i.i.d.(0, ) ni ˆi y i. i ( y i. ni ) i ~i.i.d.(0, ) ~i.i.d.(0, ) ε ij var(y ij ) cov( y, y ) ij i j var( ) ij y var( y ij ) cov( y, y ) ij i j, i i, j j 0, mujal i cov( y, y ) ij i j, i i, j j, i i, j j 0, mujal Juhulikud faktorid, egamudel pulli, kummaltki 3 järglat. Mudel, hindamak ia mõju järglate: yij i ij Ia, kui fikeeritud faktor Ia, kui juhulik faktor y 11 y y3 y11 y1 y13 y1 y y3 0 0 y1 0 0 var( y) y13 0 0 y1 0 0 0 0 0 0 var( y) y11 y1 y13 y1 y y3 Tanel Kaart 1
Segamudeli üldkuju y Xβ Zu e y Xβ y ZGZT R GZT R E u 0 ja var u ZG G 0, var( u) G, var( e) R e 0 e R 0 R Fikeeritud efektide β ülditatud vähimruutude hinnangud [GLS, generalized leat quare]: βˆ ( XTV 1X) XTV 1y Juhulike faktorite realieerunud väärtute u parim lineaarne nihketa prognoo [BLUP, bet linear unbiaed prediction]: uˆ GZTV 1( y Xβˆ ) (Henderoni) egamudeli võrrand [mixed model equation]: ˆ Z R X Z R Z G uˆ Z R y XTR 1X XTR 1Z T 1 β X R y T 1 T 1 1 T 1 Kui R I ja n e G Ia u, ii XTX XTZ T β Xy T T e Z X Z Z T I uˆ Zy u ˆ Mudelite võrdlemine Hierarhilite mudelite võrdlemiek lihtamal juhul diperioonanalüü (F-tatitik -> p-väärtu) keeruliemal juhul tõepärauhte tet [likelihood ratio tet] Lˆ ( z ) ˆ ˆ ˆ( ) ~ k ( z) ln ln Lk ( z) ln L( z) ( r) L z H0 Üldiema võrdlemie tarvi AIC (Akaike informatiooni kriteerium) BIC (Bayei informatiooni kriteerium) NB! Tetida ei aa, mida väikem väärtu, eda parem. Tanel Kaart 13