POSTAVITEV IN TESTIRANJE HIPOTEZ

Σχετικά έγγραφα
POSTAVITEV IN TESTIRANJE HIPOTEZ

Diferencialna enačba, v kateri nastopata neznana funkcija in njen odvod v prvi potenci

Postavitev hipotez NUJNO! Milena Kova. 10. januar 2013

NEPARAMETRIČNI TESTI. pregledovanje tabel hi-kvadrat test. as. dr. Nino RODE

matrike A = [a ij ] m,n αa 11 αa 12 αa 1n αa 21 αa 22 αa 2n αa m1 αa m2 αa mn se števanje po komponentah (matriki morata biti enakih dimenzij):

Tretja vaja iz matematike 1

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 5. december Gregor Dolinar Matematika 1

Funkcijske vrste. Matematika 2. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 2. april Gregor Dolinar Matematika 2

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 22. oktober Gregor Dolinar Matematika 1

Reševanje sistema linearnih

MATRIČNI ZAPIS MODELA IN OSNOVE MATRIČNE OPERACIJE

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 21. november Gregor Dolinar Matematika 1

Multivariatna analiza variance

Booleova algebra. Izjave in Booleove spremenljivke

Kontrolne karte uporabljamo za sprotno spremljanje kakovosti izdelka, ki ga izdelujemo v proizvodnem procesu.

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 15. oktober Gregor Dolinar Matematika 1

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 14. november Gregor Dolinar Matematika 1

KODE ZA ODKRIVANJE IN ODPRAVLJANJE NAPAK

Osnove sklepne statistike

Splošno o interpolaciji

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 10. december Gregor Dolinar Matematika 1

Enačba, v kateri poleg neznane funkcije neodvisnih spremenljivk ter konstant nastopajo tudi njeni odvodi, se imenuje diferencialna enačba.

Delovna točka in napajalna vezja bipolarnih tranzistorjev

Podobnost matrik. Matematika II (FKKT Kemijsko inženirstvo) Diagonalizacija matrik

Kvadratne forme. Poglavje XI. 1 Definicija in osnovne lastnosti

13. Jacobijeva metoda za računanje singularnega razcepa

Statistična analiza. doc. dr. Mitja Kos, mag. farm. Katedra za socialno farmacijo Univerza v Ljubljani- Fakulteta za farmacijo

SKUPNE PORAZDELITVE VEČ SLUČAJNIH SPREMENLJIVK

*M * Osnovna in višja raven MATEMATIKA NAVODILA ZA OCENJEVANJE. Sobota, 4. junij 2011 SPOMLADANSKI IZPITNI ROK. Državni izpitni center

Numerično reševanje. diferencialnih enačb II

V tem poglavju bomo vpeljali pojem determinante matrike, spoznali bomo njene lastnosti in nekaj metod za računanje determinant.

Matrike. Poglavje II. Matrika je pravokotna tabela realnih števil. Na primer: , , , 0 1

PONOVITEV SNOVI ZA 4. TEST

1.3 Vsota diskretnih slučajnih spremenljivk

Sistem normalnih ena b in metoda me²anega modela

MATEMATIČNI IZRAZI V MAFIRA WIKIJU

Kotne in krožne funkcije

Statistika 2 z računalniško analizo podatkov. Statistično sklepanje

DISKRETNA FOURIERJEVA TRANSFORMACIJA

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 12. november Gregor Dolinar Matematika 1

Tema 1 Osnove navadnih diferencialnih enačb (NDE)

Metoda glavnih komponent

REˇSITVE. Naloga a. b. c. d Skupaj. FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost 2. kolokvij 23.

8. Diskretni LTI sistemi

1. Trikotniki hitrosti

STATISTIKA ANALIZA VARINCE Doc.dr. Tadeja Kraner Šumenjak

Osnove elektrotehnike uvod

Iterativno reševanje sistemov linearnih enačb. Numerične metode, sistemi linearnih enačb. Numerične metode FE, 2. december 2013

Zanesljivost psihološkega merjenja. Osnovni model, koeficient α in KR-21

Odvode odvisnih spremenljivk po neodvisni spremenljivki bomo označevali s piko: Sistem navadnih diferencialnih enačb prvega reda ima obliko:

DISKRIMINANTNA ANALIZA

Analiza 2 Rešitve 14. sklopa nalog

vezani ekstremi funkcij

Transformator. Delovanje transformatorja I. Delovanje transformatorja II

Matematika. Funkcije in enačbe

1 Fibonaccijeva stevila

8. Posplošeni problem lastnih vrednosti

diferencialne enačbe - nadaljevanje

Matematika 2. Diferencialne enačbe drugega reda

Navadne diferencialne enačbe

Linearna algebra. Bojan Orel Fakulteta za računalništvo in informatiko

Uporabna matematika za naravoslovce

IZPIT IZ ANALIZE II Maribor,

VEKTORJI. Operacije z vektorji

Funkcije več spremenljivk

Statistika 2 z računalniško analizo podatkov. Multipla regresija in polinomski regresijski model

p 1 ENTROPIJSKI ZAKON

Statistika II z računalniško analizo podatkov. Bivariatna regresija, tipi povezanosti

Linearne preslikave. Poglavje VII. 1 Definicija linearne preslikave in osnovne lastnosti

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

Poliedri Ines Pogačar 27. oktober 2009

Algebraične strukture

3.1 Reševanje nelinearnih sistemov

5.1 Predpogojevanje. K 1 Ax = K 1 b,

Fazni diagram binarne tekočine

Frekvenčna analiza neperiodičnih signalov. Analiza signalov prof. France Mihelič

Na pregledni skici napišite/označite ustrezne točke in paraboli. A) 12 B) 8 C) 4 D) 4 E) 8 F) 12

Definicija 1. Naj bo f : D odp R funkcija. Funkcija F : D odp R je primitivna funkcija funkcije f, če je odvedljiva in če velja F = f.

FAKULTETA ZA STROJNIŠTVO Matematika 4 Pisni izpit 22. junij Navodila

Lastne vrednosti in lastni vektorji

CM707. GR Οδηγός χρήσης SLO Uporabniški priročnik CR Korisnički priručnik TR Kullanım Kılavuzu

Matematika vaja. Matematika FE, Ljubljana, Slovenija Fakulteta za Elektrotehniko 1000 Ljubljana, Tržaška 25, Slovenija

8.4 χ 2 -preizkus Preizkušanje hipoteze enake verjetnosti

Integralni račun. Nedoločeni integral in integracijske metrode. 1. Izračunaj naslednje nedoločene integrale: (a) dx. (b) x 3 +3+x 2 dx, (c) (d)

Osnove linearne algebre

1. UREJENE OBLIKE KVADRATNE FUNKCIJE

Regularizacija. Poglavje Polinomska regresija

Matematično modeliranje. Simpleksna metoda.

Tabele termodinamskih lastnosti vode in vodne pare

POROČILO 3.VAJA DOLOČANJE REZULTANTE SIL

Kanonična oblika linearnega programa. Simpleksna metoda. Bazne rešitve kanoničnega linearnega programa.

Izpeljava Jensenove in Hölderjeve neenakosti ter neenakosti Minkowskega

1. Definicijsko območje, zaloga vrednosti. 2. Naraščanje in padanje, ekstremi. 3. Ukrivljenost. 4. Trend na robu definicijskega območja

1. Έντυπα αιτήσεων αποζημίωσης Αξίωση αποζημίωσης Έντυπο Πίνακας μεταφράσεων των όρων του εντύπου...

Interpolacija in aproksimacija funkcij

INTEGRALI RACIONALNIH FUNKCIJ

Specifični faktorji E i bodo imeli majhne variance, če so opazovane spremenljivke blizu faktorju F.

Matematika 1. Gregor Dolinar. 2. januar Fakulteta za elektrotehniko Univerza v Ljubljani. Gregor Dolinar Matematika 1

Kombinatorika. rekurzivnih enačb in rodovne funkcije. FMF Matematika Finančna matematika. Vladimir Batagelj. Ljubljana, april

Inverzni problem lastnih vrednosti evklidsko razdaljnih matrik

Transcript:

Biometrija 1 Poglavje 1 POSTAVITEV IN TESTIRANJE HIPOTEZ Testiranje hipotez je osrednja naloga pri vsaki obdelavi podatkov. Od postavitve hipotez je odvisen načrt preizkusa, torej moramo hipoteze postaviti še pred izpeljavo poskusa. Po izvedbi poskusa je včasih potrebno stvari celo popraviti ali prilagoditi, saj se kaj rado zgodi, da pri poskusu poteka kakšna reč drugače, kot smo predvideli. Preizkus hipotez opravimo v treh korakih: 1. Preizkusimo, ali je model značilen. Č 2. Preizkusimo, kateri vplivi v modelu so značilni in kateri niso. 3. Preizkusimo, kateri nivoji pri značilnih vplivih se med seboj razlikujejo. Nikoli ne preizkušamo razlik med nivojema dveh različnih vplivov, izogibamo se tudi kombiniranim razlikam. Hipoteze naredimo čimbolj enostavne, da jih je tudi enostavno razložiti. 1.1 Postavitev hipoteze 1.1.1 Ničelna in alternativna hipoteza Hipoteza ima dve komponenti: ničelno hipotezo H 0 (1.1) in alternativno hipotezo H 1 (1.2). Ničelna hipoteza ima lahko dve obliki. Prva oblika pomeni, da se linearne kombinacije K (lokacijskih) parametrov β ne razlikujejo od vektorja 0, v drugem primeru pa pričakujemo pri rezultatu linearnih kombinacij konstantno vrednost v vektorju m. Prvi primer je zelo običajen, saj najprej preverjamo ali so dobljeni rezultati od 0 različne. H 0 : Kβ = 0 H 0 : Kβ = m [1.1] [1.2] Alternativna hipoteza (H 1 ali tudi Ha) lahko zavzema vse druge možnosti ali pa samo del. Zelo pomembno je, da alternativno hipotezo nazorno nakažemo. Hipotezi v naslednjih vrsticah vključujeta vse alternative ničelni hipotezi. Pri prvi hipotezi 1.3, ki je alternativa ničelni hipotezi 1.1, ovržemo ničelno hipotezo, če da katerakoli linearna kombinacija iz matrike K rezultat različen od 0. Druga hipoteza v 1.4 je alternativa ničelni hipotezi v enačbi 1.2. Alternativno hipotezo sprejmemo, če je vrednost najmanj ene linearne kombinacije iz matrike K različna od vrednosti v vektorju m. Ne moremo pa kombinirati niti ničelno hipotezo v 1.1 z alternativno hipotezo v 1.4 niti ničelno hipotezo v 1.2 z alternativno hipotezo v 1.3. H 1 : Kβ 0 H 1 : Kβ m [1.3] [1.4] Če npr. ničelna hipoteza pokriva možnost, da med pasmami ni razlik, oziroma bolj dosledno, da so razlike med pasmami enake nič, alternativna hipoteza predstavlja vse možnosti, ko med pasmami obstajajo razlike. Že ob eni sami od nič različni razliki bo ničelna hipoteza zavržena in sprejeta alternativna

2 Biometrija hipoteza. V primeru, da drži ničelna drži, nobena od razlik ni dokazano od nič različna. Vsako nadaljnje razglabljanje in iskanje razlik je neprimerno. Le v primeru, da so razvidni kakšni trendi, lahko predlagamo, da se poskus dopolni s potrebnimi meritvami ali pa ponovno zastavi s primernimi popravki (velikost vzorca, način vzorčenja itd.), da bi dobili potrditev ali zavrnitev nakazanega trenda. Alternativna hipoteza pa lahko vključuje samo del alternativnih možnosti. Najpogostejši obliki sta v tem primeru hipotezi, ki vključujeta samo tiste možnosti, ko so ocene linearnih kombinacij večje od 0 (1.5), manjše od 0 (1.7), večje od konstant v vektorju m (1.6) ali manjše od konstant v vektorju m (1.8). Alternativni hipotezi v 1.5 in 1.7 lahko kombiniramo z ničelno hipotezo 1.1, ostali dve (1.6 in 1.8) pa z 1.2. Drugih možnosti ni. H 1 : Kβ > 0 H 1 : Kβ > m H 1 : Kβ < 0 H 1 : Kβ < m [1.5] [1.6] [1.7] [1.8] Za ponazoritev moramo poiskati nov primer, nesmiselno bi bilo primer razlagati na primeru pasem. V selekcijkskem programu predvidevamo, da bo selekcijsko delo prineslo načrtovan genetski napredek. Čez leta lahko genetski napredek preverimo. Ker je bilo vloženega dela in kapitala mnogo, se ne moremo zadovoljiti z genetskim trendom, ki bi bil samo različen od nič. Negativni trendi, vrednosti manjše od nič, so še slabše, kot če bi genetskega napredka sploh ne gi bilo (genetski trend enak nič). Torej nas zanima le genetski napredek (trend) z ocenami, ki so večje od nič. Še bolj pogosto pa se odločamo v tem primeru za hipotezo, ki v vektorju m hrani načrtovane, planirane genetske spremembe. Vlogi hipotez pa sta v praksi nekoliko drugačni kot v statistični teoriji. V praksi praviloma želimo dokazati, da obstajajo razlike, da obstajajo trendi ali povezave med spremenljivkami. Tako bi nam bilo skoraj bolj razumljivo, da poskušamo postaviti to kot ničelno, izhodiščno hipotezo. V statistiki pa vedno najprej ovržemo možnost, da razlik ni oziroma niso dovolj velike. Šele nato iščemo, kateri nivoji se med seboj razlikujejo. Če smo dobili odgovor, da nivoji niso različni od nič, je vsako nadaljne iskanje samo izguba časa. Nobena razlika ni značilna. Po domače bi rekli "ni dovolj pomembna" ali "ni dovolj prepričljiva". Paziti moramo, ker nam lahko napačno izbrani testi razliko pokažejo, čeprav so nam z njimi na krožniku postregli najboljši statistični paketi. Naloga statističnih paketov je, da uporabniku olajšajo delo tako, da jim ni potrebno poznati vseh številnih formul. Tudi mi bomo lahko po izpitu kakšno pozabili. Ne morejo pa pomagati pri izboru orodij, med njimi tudi pravilnih statističnih testov. Tako kot moramo na kmetiji vedeti, s katerimi stroji bomo pomolzli krave in s čim bomo orali njivo, moramo vedeti, katera so najprimernejša orodja za obdelavo podatkov, ki jih v živinoreji zbiramo. O izboru metod za obdelavo podatkov smo raypravljali v predhodnem poglavju. 1.1.2 Postavitev linearnih kombinacij Hipoteze lahko predstavimo oziroma oblikujemo v matrični obliki. Z matrično obliko lahko nazorno ponazorimo posamezne hipoteze. Kot smo prikazali v skalarni obliki, so hipoteze pogosto enostavne. Takšne je tudi laže razložiti. Če pa je struktura podatkov nekoliko bolj zapletena (manjkajoči podatki, interakcije...), je lahko hipoteza tudi bolj sestavljena. Našo hipotezo predstavimo v matriki linearnih kombinacij parametrov K. Če je hipoteza ocenljiva, potem bo produkt Kβ vedno enak, ne glede na to katero izmed neskončno velikega števila možnih rešitev smo izbrali. Za matriko hipotez je pomembno, da ni v njej linearno odvisnih hipotez. Te dodatne hipoteze ne prinesejo novih spoznanj, ampak samo prikažejo rezultate v drugi luči. PRIMER: 2

Biometrija 3 Vzemimo npr. primer mladic iz preizkusa v proizvodnih razmerah. Proučujemo le vpliva pasme (P i ) in farme ( F j ) s po tremi nivoji. Ocene parametrov za sistematske vplive so nanizane v vektorju β (enačba 1.9). Pri tem ne smemo pozabiti na srednjo vrednost (µ). β = [ µ P 1 P 2 P 3 F 1 F 2 F 3 ] [1.9] Zanimajo nas razlike med pasmami. Imamo tri možne razlike (prva-druga, prva-tretja in druga-tretja). Prvi dve razliki smo vnesli v prvi dve vrstici matrike H. Lahko pa bi nas zanimala tudi dvakratna razlika med drugo in tretjo pasmo, kar smo ponazorili v tretji vrstici. V matriki H je tretja vrstica dvakratna razlika med drugo in prvo vrstico: je linearna kombinacija prvih dveh. To v praksi pomeni, da je tretja razlika logični zaključek prvih dveh. V matriki, ki jo uporabljamo pri testiranju hipotez, uporabimo katerokoli kombinacijo samo linearno neodvisnih vrstic iz matrike H. Matriko katerekoli teh kombinacij bomo poimenovali K. Imeti mora polni rang v vrsticah, po stolpcih pa ni omejitve. H = 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 0 2 2 0 0 0 [1.10] Razlike med pasmami torej testiramo z naslednjimi hipotezami. Našli bi lahko še druge možnosti. Vrednosti, ki so različne od nič, so pogosto 1 in -1, tako kot v spodnjih dveh. Tako zapišemo npr. razliko med dvema nivjema znoraj vpliva. K = K = [ 0 1 1 0 0 0 0 0 1 0 1 0 0 0 [ 0 1 1 0 0 0 0 0 0 1 1 0 0 0 ] ] [1.11] [1.12] Vajo bi lahko ponovili tudi za razlike med farmami. Z linearnimi kombinacijami iz 1.13 pa si ne moremo veliko pomagati. Poskušajmo prebrati prvo vrstico. Zanima nas razlika med prvo pasmo in drugo farmo. Takšna vrednost pa živinorejca bolj malo zanima. Kaj bi se iz razlike naučil? Ali bi kupil živali prve pasme, ali pa morda farmo 2? Vsekakor takšne dileme ne obstajajo. Odločamo se med pasmami ali med farmami. Konec koncev bi se lahko zgodilo, da bi želel kupiti farmo in živali. Še vedno pa bi farmo izbiral med farmami in bi te primerjave ločno opravil. Pasme (živali) pa bi izbiral med pasmami. K = [ 0 1 0 0 1 0 0 0 0 0 1 0 0 1 ] [1.13] Če bi bili pogoji med farmami zelo različni, bi pred nakupom živali hotel preveriti, ali s pasmami dosega različne proizvodne rezultate na posameznih farmah. V tem primeru pa bi želel preveriti tudi interakcije. β = [ µ P 1 P 2 P 3 F 1 F 2 F 3 ] β [ = µ P 1 P 2 P 3 F 1 F 2 F 3 PF 11 PF 12 PF 13 PF 21 PF 22 PF 23 PF 31 PF 32 PF 33 ] Če imamo težavo s postavitvijo hipoteze, si lahko pomagamo na naslednji način. 1) Sestavite linearno kombinacijo (vrstico), ki predstavlja pričakovano vrednost pri določeni pasmi! E (y i ) = 1µ + 1P i + 1/3 (F 1 + F 2 + F 3 ) [1.14] 3

4 Biometrija Sestavimo linearni kombinaciji za pričakovano vrednost pri pasmah 1 in 2. Pri tem upoštevamo srednjo vrednost, vpliv izbrane pasme in povprečen učinek farm. Ker so farme tri, vzamemo tretjino vsake farme. k 1 = [ 1 1 0 0 1 3 k 2 = [ 1 0 1 0 1 3 1 3 1 3 1 3 1 3 ] ] [1.15] [1.16] 2) Sestavite linearno kombinacijo (vrstico), ki predstavlja razliko pričakovanih vrednosti med izbranima pasmama i in i. Poiščimo razliko pasme 1 (1.15) in pasme 2 (1.16). Iz dobljenega rezultata 1.17 vidimo, da je razlika med pasmama očiščena drugih vplivov. k 12 = k 1 k 2 = [ 0 1 1 0 0 0 0 ] [1.17] 1.2 Vsota kvadratov in stopinje prostosti Metode najmanjših kvadratov, tehtanih najmanjših kvadratov in splošnih najmanjših kvadratov sprejemajo svoje zaključke na osnovi vsote kvadratov, ki ga pojasnijo posamezni vplivi, vsote kvadratov za ostanek, ki praviloma služi za primerjavo, in stopinj prostosti, to je, številu parametrov, ki smo jih porabili za opis posameznega vpliva. Pri biometriji moramo biti zelo natančni: ostanek (e) je razlika med resnično in ocenjeno vrednostjo. Ker pa resnične vrednosti ne poznamo, na njeni osnovi ne moremo narediti nobenih zaključkov. Preostane nam samo ena ali več meritev, s katerimi se poskušamo čimbolj približati dejanski vrednosti. Razlika med izmerjeno in ocenjeno vrednostjo je tako nadomestek dejanskega ostanka, je torej samo napoved za ostanek (ê). Brali boste lahko tudi o oceni ostanka, a ocena je povezana s sistematskimi vplivi, ostanek pa je naključna spremenljivka. Vsote kvadratov si bomo ogledali kasneje, s stopinjami prostosti pa smo se spoznali že v poglavju o modelih. 1.3 Preveritev modela Primer. Za ilustracijo primera ponovno obudimo primer enajstih merjenih mladic. V prvem delu bomo uporabili samo meritve za dnevni prirast (tabela 1.1). Poskusimo preveriti model! Zaradi lažjega razumevanja pa začnimo pri najbolj enostavnem modelu: v prvi model smo dali samo srednjo vrednost in ostanek. Ker bomo parametre ocenjevali po metodi najmanjših kvadratov, je kriterij za odločitve vsota kvadratov za ostanek. Seveda pa moramo najprej oceniti neznane parametre. V našem preprostem primeru je to samo srednja vrednost µ, ki znaša 550 g/dan. y i = µ + e i [1.18] Razvrstimo rezultate v tabelo 1.2. Vsoto kvadriranih meritev smo tako razdelili na del, ki ga pojasni srednja vrednost in ostanek. Vsoto kvadratov smo razdelili torej na dve neodvisni komponenti. Srednja vrednost je pojasnila skoraj vso variabilnost, za to pa smo porabili samo en parameter, eno stopinjo prostosti. V ostanku pa je ostalo še 10 stopinj prostosti. Ko ugotavljamo pomen parametrov, uporabimo srednji kvadrat. Ta pove, koliko vsote kvadratov v povprečju pojasni ena stopinja prostosti. Za primerjavo si praviloma izberemo srednji kvadrat za ostanek, le izjemona kaj drugega. Sedaj lahko obogatimo primer še s formulami. Uporabili bomo oznake izpeljane iz angleških izrazov. 4

Biometrija 5 140 130 Iymerjena vrednost Indeks plemenske vrednosti 120 110 100 90 80 ostanek Ocenjena vrednost 70 60 80 82 84 86 88 90 Leto preiykusa Slika 1.1: Napoved ostanka 5

6 Biometrija Tabela 1.1: Izračun vsote kvadratov za ostanek pri modelu 1.18 Žival Pasma Mesec Dnevni prirast ˆµ (g/dan) ê i = y i E (y i ) ê 2 i j 1 SL JAN 540 550-10 100 2 SL JAN 550 550 0 0 3 SL FEB 550 550 0 0 4 SL FEB 580 550 30 900 5 LW JAN 520 550-30 900 6 LW FEB 500 550-50 2500 7 LW FEB 490 550-60 3600 8 NL JAN 560 550 10 100 9 NL JAN 550 550 0 0 10 NL FEB 600 550 50 2500 11 NL FEB 610 550 60 3600 Skupaj 14200 Tabela 1.2: Viri variabilnosti za dnevni prirast iz modela 1.18 Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 2343.3 <0.0001 Ostanek 10 14200.00 1420.00 Skupno 11 3341700.00 a) Skupna vsota kvadratov (Total Sum of Square, TS S ) je vsota kvadriranih opazovanj. TS S = y 2 i [1.19] V matrični obliki je skupna vsota kvadratov zapisana s kvadratno obliko 1.20. Matrika kvadratne oblike, ki predstavlja skupno vsoto kvadratov, je inverza matrike fenotipskih varianc (V 1 ). Z njo pri izračunu skupne vsote kvadratov stehtamo opazovanja. TS S = y V 1 y [1.20] Ko so ostanki identično in neodvisno porazdeljeni (V = Iσ 2 e), je skupna vsota kvadratov poenostavljena v 1.21. TS S = y V 1 y = y Iσ 2 e y = y yσ 2 e [1.21] Ker je v tem primeru varianca za ostanek σ 2 e konstantna vrednost, ista pri vseh meritvah, in nastopa pri vseh vsotah kvadratov, deljenje z varianco ni potrebno. Pri testiranju hipotez vedno računamo razmerje dveh vsot kvadratov. Tako se varianca iz vsote kvadratov v števcu in imenovalcu pokrajšata. Skupno vsoto kvadratov lahko izračunamo torej brez tehtanja, enostavno kot vsoto kvadriranih opazavanj iz 1.22. TS S = y y [1.22] b) Korigirana skupna vsota kvadratov Iz skupne vsote kvadratov najprej odstranimo vsoto kvadratov, ki jo pojasnjuje ocena srednje vrednosti µ. CTS S = y 2 i µ 2 [1.23] 6

Biometrija 7 Povprečno vrednost v matrični obliki zapišemo v obliki 1.24, v kateri 1 predstavlja vrstični vektor samih enic, kot je prikazano v enačbi 1.22. µ = 1 n 1 y 1 = [ 1 1 1 ] [1.24] [1.25] Korigirano skupno vsoto kvadratov zapišimo v obliki kvadratne forme! Predpostavimo še, da so ostanki identično in neodvisno porazdeljeni, zato tehtanje z variancami ni potrebno. Prvi člen iz 1.23 je skupna vsota kvadratov iz 1.23 CTS S = y y y 1 1 1 n n 1 y = y (I 1n ) 2 11 y [1.26] Poskusite napisati korigirano skupno vsoto kvadratov, če so meritve korelirane, struktura varianc in kovarianc pa ponazorjena v matriki V! c) Vsota kvadratov za model (model sum of square, MS S ) je enaka vsoti kvadratov 1.27 za pričakovane vrednosti potem, ko smo odstranili vsoto kvadratov, ki jo pojasnjuje srednja vrednost. Z drugimi besedami MS S 1.28 predstavlja razliko med korigirano vsoto kvadratov CT S S in vsoto kvadratov za ostanek RS S. MS S = (E(y i )) 2 µ 2 [1.27] MS S = CTS S RS S [1.28] Izjema je model, ki vsebuje samo srednjo vrednost in ostanek. Tam ne izvrednotimo korigirane skupne vsote kvadratov, vsota kvadratov za model je kar vsota kvadratov, ki jo pojasnjuje srednja vrednost. Preizkusimo se še v matričnem zapisu! MS S = y 1 1 1 n n 1 y d) Vsota kvadratov za ostanek (residual sum of square, RS S ) je vsota kvadriranih ostankov1.29. RS S = (y i E(y i )) 2 [1.29] e) Srednji kvadrat 1.30 dobimo tako, da vsoto kvadratov delimo s stopinjami prostosti. Znak x v enačbi zamenjamo s katerokoli vsoto kvadratov za model ali za posamezni vpliv. MS x = xs S d. f. x [1.30] f) F statistika je razmerje med dvema srednjima kvadratoma. V imenovalcu je tistai srednji kvadrat, s katerim primerjamo ostale. Kar praviloma je to srednji kvadrat za ostanek. F-statistika ima porazdelitev F, ko drži ničela hipoteza. F = MS x MS e [1.31] 7

8 Biometrija g) P vrednost je verjetnost, da vpliv (v našem primeru je to tudi celoten model ali pa smo srednja vrednost) ni pomemben. Pravzaprav bi morali reči, da je to verjetnost, da drži ničelna hipoteza. Da pa bi lažje razumeli, smo pač ubrali preprostejšo obliko. S testiranjem modela in posameznih vplivov presojamo, koliko variabilnosti smo pojasnili. Primerjavo praviloma delamo z variabilnostjo ostanka. Po domače bi lahko rekli, da del, ki ga pojasni posamezni vpliv, primerjamo z informacijami, ki so v ostanku še ostale. h) Analiza variance za model Izračunane vrednosti uredimo v tabelo t1.3, kjer razčlenimo vsote kvadratov na posamezne komponente in določimo stopinje prostost (d. f ). Pri preizkušanju modela v celoti imamo samo tri komponente: srednjo vrednost, ostali del modela in ostanek. Nato izvrednotimo srednje kvadrate, F vrednosti in iz tabel odčitamo P vrednosti. Praviloma nas ne zanima vrstica, ki je namenjena srednji vrednosti (prva vrstica v tabeli), test je usmerjen na model (druga vrstica v tabeli). Tabela 1.3: Viri variabilnosti za dnevni prirast za model Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost P Srednja vrednost 1 µ 2 bµ 2 MS µ 1 MS e MS Model d. f. MS S MS M M MS e Ostanek n 1 d. f. RS S MS e Skupno n TS S Značilnost srednje vrednosti nas zanima, kadar obdelujemo razlike med pari. Tako bi poskus opravljali lahko na enojajčnih dvojčkih, sestrah/bratih in polsestrah/polbratih. Imamo dve pokusni skupini. Sorodnike uvrstimo v različni skupini in tako sestavimo pare. Skupini nista neodvisni: meritve povezuje genetski del variabilnosti. Da bi se motnji izognili, ne obdelamo meritev samih, ampak razlike med živalima v paru. Pri ničelni hipotezi je pričakovana vrednost (srednja vrednost) enaka nič. Primer. Skupno vsoto kvadratov (TS S ) bomo sedaj razdelili na tri komponente in sicer na tisto: kar pojasni srednja vrednost (S S (ˆµ)), kar pojasnijo ostali vplivi v modelu (MS S ) in kar je ostalo (RS S ). Skupna vsota kvadratov 1.32 in vsota kvadratov 1.33, ki jo pojasni srednja vrednost µ, se nista spremenili v primerjavi z modelom 1.18 (glej tabelo 1.2). Korigirana vsota kvadratov CTS S iz 1.34 je enaka kot vsota kvadratov za ostanek v enostavnem modelu 1.18. TS S = 540 2 + 550 2 + 550 2 + 580 2 +... + 600 2 + 610 2 = 3341700.00 [1.32] S S (ˆµ) = 550 2 + 550 2 + 550 2 +... = 11 550 2 = 3327500.00 [1.33] CTS S = TTS S S (ˆµ) = 3341700. 3327500. = 14200.00 [1.34] Uredimo v tabelo za analizo variance 1.4. Iz tabele lahko vidimo samo, da je srednja vrednost zelo različna od 0. Seveda to za dnevni prirast pri rastočih živalih tudi pričakujemo. Pri odraslih živalih, zlasti samicah v času laktacije, pa lahko imamo tudi negativne dnevne priraste. Ker živalim primanjkuje hranilnih snovi v zaužiti krmi za prirejo mleka, koristijo telesne rezerve. V takih primerih so lahko rezultati tudi drugačni. Na splošno pa nas povprečja ne zanimajo, da bi zmanjšali numerične probleme, ki jih računalnikom povzročajo velike številke, se statistični paketi srednje vrednosti znebijo in opravijo 8

Biometrija 9 Tabela 1.4: Viri variabilnosti za dnevni prirast iz modela 1.18 Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 2343.31 <0.0001 Ostanek 10 14200.00 1420.00 Skupno 11 3341700.00 analizo variance brez nje. Mi jo bomo v prikazih zaradi kompletnosti obdržali, rezultati pa zaradi tega niso nič boljši in nič slabši. So enaki. Pravzaprav v ostanku pri modelu 1.18 ni ostalo veliko stvari nepojasnjenih. Vseeno dodajmo modelu 1.18 vpliv pasme (P i ). Tako dobimo še vedno preprost model 1.35. y i j = µ + P i + e i j [1.35] Vpliv pasme predstavlja edini res pravi vpliv v modelu1.35. Tako smo iz vsote kvadratov za ostanek iz tabele 1.42 oziroma CTS S iz 1.34 pojasnili še dodatno variabilnost, ki je ocenjena v enačbi 1.36. Slednja vsota predstavlja kvadrirane odklone srednjih vrednosti po pasmah od skupne srednje vrednosti za vsako meritev. Ker vemo, da imamo pri pasmi 1 štiri meritve, pri pasmi 2 tri in pri pasmi 3 zopet štiri meritve, smo izračun pač nekoliko poenostavili (enačba 1.36). MS S = S S (P) = 4 (555 550) 2 + 3 (503.33 550) 2 + 4 (580 550) 2 = 10233.33 [1.36] Za isto vsoto pa se je zmanjšala vsota kvadratov za ostanek 1.37. RS S = ê 2 i j = 3966.67 [1.37] Izračun posameznih vsot kvadratov smo ponazorili tudi v tabeli 1.5. Tabela 1.5: Izračun vsote kvadratov za ostanek pri modelu 1.35 Žival Pasma Mesec Dnevni prirast ˆµ + ˆP i P2 ˆ i (g/dan) ê i = y i E (y i ) ê 2 i j 1 SL JAN 540 555.00 25.00-15.00 225.00 2 SL JAN 550 555.00 25.00-5.00 25.00 3 SL FEB 550 555.00 25.00-5.00 25.00 4 SL FEB 580 555.00 25.00 25.00 625.00 5 LW JAN 520 503.33 2177.77 16.67 277.89 6 LW FEB 500 503.33 2177.77-3.33 11.09 7 LW FEB 490 503.33 2177.77-13.33 177.69 8 NL JAN 560 580.00 900.00-20.00 400.00 9 NL JAN 550 580.00 900.00-30.00 900.00 10 NL FEB 600 580.00 900.00 20.00 400.00 11 NL FEB 610 580.00 900.00 30.00 900.00 Sedaj uredimo vsote kvadratov še v tabelo za analizo variance (1.6) in izvrednotimo srednje kvadrate, F stratistiko in določimo P vrednost. Srednja vrednost je tudi v tem modelu pojasnila največji del variabilnosti, za kar smo porabili 1 stopinjo prostosti. V podatkih smo imeli 3 pasme, zato porabimo za vpliv pasme 2 stopinji prostosti, za ostanek nam je ostalo samo 8 stopinj prostosti. Kljub temu razmerje med srednjim kvadratom za vpliv pasme in srednjim kvadratom za ostanek pokaže, da je vpliv pasme pomemben. Tudi P vrednost, ki jo preberemo iz tabel oziroma izračunamo, potrjuje naše sklepanje. Ker je vpliv pasme edini vpliv v modelu 1.35, veljajo isti zaključki tudi za celotni model. Kot smo že omenili, vsoto kvadratov, ki jo povzroča srednja vrednost, obravnavamo posebej. Pravzaprav se z njo praviloma niti ne ukvarjamo. 9

10 Biometrija Tabela 1.6: Viri variabilnosti za dnevni prirast iz modela 1.35 Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 6710.97 <0.0001 Pasma 2 10233.33 5116.67 10.32 0.0061 Ostanek 8 3966.67 495.83 CTSS 10 14200.00 Skupno 11 3341700.00 Primer. Vzemimo še en enostaven model in vključimo vanj le vpliv meseca (M i )1.38. y i j = µ + M i + e i j [1.38] Vsoto kvadratov za model (enačba 1.39) izračunamo podobno kot v zgornjem primeru (enačba 1.36). Pojasnjena vsota je precej manjša kot pri pasmi. Dobili smo jo tako, da smo kvadrirali odklone srednjih vrednosti po pasmah od skupne srednje vrednosti za vsako meritev. Pričakovana vrednost za januar je 544, za februar pa 555. Ker vemo, da imamo v januarju pet meritev, v februarju pa šest, smo izračun pač nekoliko poenostavili (enačba 1.39). MS S = S S (M) = 5 (544 550) 2 + 6 (555 550) 2 = 330.00 [1.39] Izvrednotiti moramo še vsoto kvadratov za ostanek (1.40). Dobimo jo lahko tako, da izračunamo ostanke, jih kvadriramo in kvadrate seštejemo. RS S = ê 2 i j = 13870 [1.40] Lahko pa uberemo krajšo pot (enačba 1.41). Od korigirane skupne vsote kvadratov (CTS S ) smo odšteli tisti del (MS S ), ki ga pojasni model. RS S = CTS S MS S = 14200 330 = 13870 [1.41] Uredimo izračune v tabelo za analizo variance 1.7. Vpliv meseca je nepomemben. Vsota kvadratov in srednji kvadrat sta majhna v primerjavi z ostankom. Ker je bil vpliv pasme pomemben, že sedaj vemo, da so zaključki iz modela z mesecem neuporabni. Model smo uporabili le zato, da bomo kasneje lažje razmišljali o dodajanju vplivov v modele in presojanju pomena dodatnih vplivov. Tabela 1.7: Viri variabilnosti za dnevni prirast iz modela 1.35 Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 2159.16 <0.0001 Mesec 1 330.00 330.00 0.21 0.6545 Ostanek 9 13870.00 1541.11 CTSS 10 14200.00 Skupno 11 3341700.00 Primer. Dodajmo modelu z vplivom pasme (enačba 1.35) še vpliv meseca, kot prikazuje model 1.42. y i jk = µ + P i + M j + e i jk [1.42] 10

Biometrija 11 Skupna vsota kvadratov in vsota kvadratov za srednjo vrednost sta ostali nespremenjeni. Iz tega sledi, da je nespremenjena tudi korigirana vsota kvadratov CT S S. Vsota kvadratov za ostanek 1.43 je zmanjšana, kar je pričakovano: z novim vplivom pričakujemo, da bodo podatki bolje predstavljeni. RS S = 2900.00 [1.43] Vsota kvadratov za model 1.44 je tako povečana. Oba vpliva v modelu skupaj pojasnita pomemben delež variabilnosti. Srednji kvadrat za model je zmanjšan, ker smo za pojasnitev porabili večje število stopinj prostosti. Nekoliko se je zmanjšala tudi F statistika, kar pa ni močno vplivalo na verjetnost P. To seveda ne velja za vse modele. V našem primeru imamo majhno število opazovanj, dokaj izenačene skupine, izbrali pa smo tudi meseca, ko so proizvodni rezultati bolj podobni. Dodatno je bilo pojasnjeno le nekaj malega vsote kvadratov. Dobra informacija o tem, koliko model doprinese, je vsota kvadratov, ki jo pojasni ena stopinja prostosti. V modelu 1.42 imamo tri stopinje prostosti, vsota kvadratov za model je nekoliko povečana, srednji kvadrat, vsota kvadratov na stopinjo prostosti pa je zmanjšana. Model je še vedno značilen, med dvema vplivoma v modelu je vsaj eden statistično značilen, pri vsaj enem bomo ovrgli ničelno in sprejeli altrnativno hipotezo. Naša naloga je, da sedaj ugotovimo, kateri vpiv je to. Lahko pa bi bila tudi oba. MS S = CTS S RS S = 14200.00 2900.00 = 11300.00 [1.44] Tabela 1.8: Viri variabilnosti za dnevni prirast iz modela 1.42 Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001 Model 3 11300.00 3766.67 9.09 0.0082 Ostanek 7 2900.00 414.29 Skupno 11 3341700.00 1.4 Preveritev vplivov Nadaljujmo kar z istim primerom. Novi model (1.42) je skupno pojasnil večjo vsoto kvadratov, na porabljeno stopinjo prostosti smo pojasnili nekoliko manj kot pri prejšnjem modelu (1.35), a je kljub temu zadostovalo, da je model značilen. Nadalje nas zanima, koliko k modelu doprineseta posamezna vpliva. 1.4.1 Vsota kvadratov tipa I Vsota kvadratov tipa I je izračunana iz razlike med polnim modelom in poenostavljenim modelom, kjer smo predpostavili, da je opazovani vpliv nepomemben in smo ga zato izpustili. V tem primeru smo vsoto kvadratov razdelili tako, da je vsota vseh posameznih vsot kvadratov natanko skupna vsota kvadratov. Imenujemo jih tudi sekvenčne vsote kvadratov. Nastavimo tabelo za analizo variance pri modelu 1.42. Vsoto kvadratov za model (enačba 1.44) moramo razdeliti na vsoto, ki jo pojasni pasma, in vsoto, ki jo pojasni mesec. Vsoto kvadratov za pasmo smo že izračunali v enačbi 1.36. Razlika (1.47) med vsotama kvadratov za modela 1.42 in 1.35 je vsota kvadratov, ki jo pri tipu I pripišemo vplivu mesec. Mesec je v tem primeru vključen za pasmo. S S (M) = 11300.00 10233.33 = 1066.67 [1.45] Uredimo rezultate v tabelo za analizo variance 1.9. Razvidno je, da so med pasmami razlike, med meseci pa ne. Toda pa bodite pozorni! Verjetnost (P-vrednost) se je za mesec precej zmanjšala v primerjavi, ko 11

12 Biometrija v modelu ni bilo pasme (tabela 1.7). Tako je vpliv meseca skoraj postal značilen, kar pri pitanju prašičev običajno pričakujemo. Neznačilen je morda zato, ker imamo malo opazovanj ali pa se meseca januar in februar nista bistveno razlikovala v temperaturi ali drugih klimatskih dejavnikih. Praviloma sta to tipična zimska meseca. Tabela 1.9: Viri variabilnosti za dnevni prirast iz modela 1.42 tip - I Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001 Pasma 2 10233.33 5116.67 12.35 0.0051 Mesec 1 1066.67 1066.67 2.57 0.1526 Ostanek 7 2900.00 414.29 Skupno 11 3341700.00 Sedaj pa uporabimo isti model, le vrstni red vplivov v modelu zamenjajmo. y i jk = µ + M i + P j + e i jk [1.46] Vsoto kvadratov za ostanek se ne spremeni. Ker je mesec prvi vpliv, zanj velja vsota kvadratov, izračunana v enačbi 1.39. S S (P) = 11300.00 330.00 = 10970.00 [1.47] Uredimo rezultate še v tabelo za analizo variance 1.10. Vsoto kvadratov za model smo razdelili v prvem (tabela 1.9) in drugem (tabela 1.10) primeru različno. Zaključki sicer slučajno niso različni, vendar pa se lahko zgodi celo to. Ko smo vpliv dodali kot drugi vpliv, je pojasnil več variance kot takrat, ko smo ga napisali na prvo mesto. Primer pa nam vseeno jasno pokaže, da je pri tem načinu izbora vsot lahko dobimo različne zaključke. Če se držimo nenapisanega pravila, da navajamo vplive v modelih glede na značilnost (oziroma glede na srednje kvadrate), in predvsem pravilno interpretiramo, pa se neljubim zapletom lahko izognemo. Kljub vsemu bi se radi izognili različnim rezultatom, zato bomo poiskali boljšo rešitev. Vrstni red v modelu pač ne sme vplivati na zaključke. Tabela 1.10: Viri variabilnosti za dnevni prirast iz modela 1.46 tip - I Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 8031.90 <0.0001 Mesec 1 330.00 330.00 0.80 0.4018 Pasma 2 10970.00 5485.00 13.24 0.0042 Ostanek 7 2900.00 414.29 CTSS 10 14200.00 Skupno 11 3341700.00 Vsota kvadratov tipa I je izračunana vsakokrat avtomatsko. Izračunana vsota kvadratov je odvisna od vrstnega reda vplivov v modelu. Zanje tudi velja, da vsota predstavlja vsoto kvadratov za model brez vsote kvadratov, ki jo pojasni srednja vrednost. V primeru neuravnoteženih podatkov vsot kvadratov tipa I ne smemo uporabljati, ker so odvisne od strukture podatkov. Preizkusi tipa I so primerni za: uravnotežene ANOVA modele, če zagotovimo pravilni vrstni red vplivov (npr. interakcije za glavnimi vplivi...) popolnoma hierarhične modele, če zagotovimo pravilni vrstni red vplivov (npr. nadrejenimi...) vgnezdeni za regresijske modele s polinomi, če zagotovimo pravilni vrstni red vplivov (npr. višje stopnje sledijo nižjim...). 12

Biometrija 13 Tabela 1.11: Zmanjšanje vsote kvadratov v modelu s tremi vplivi Vpliv Tip I Tip II Tip III Tip IV A R(A) R(A B, C) B R(B A) R(B A, C) C R(C A, B) R(C A, B) Tabela 1.12: Zmanjšanje vsote kvadratov v modelu z dvema vplivoma in interakcijo Vpliv Tip I Tip II Tip III Tip IV A R(A) R(A B) B R(B A) R(B A) A B R(A B A, B) R(A B A, B) Zmanjšanje vsote kvadratov za ostanek Predno nadaljujemo se bomo dogovorili še za poseben zapis, s katerim bomo opisali zmanjšanje (redukcija) vsote kvadratov za ostanek. R(P) - zmanjšanje vsote kvadratov zaradi vpliva P R(P µ)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo dodamo še vpliv P R(P µ, M)- zmanjšanje vsote kvadratov za ostanek, ko modelu s srednjo vrednostjo in vplivom M dodamo še vpliv P Pri modelu s tremi vplivi A, B in C razdelimo vsoto kvadratov na načina prikazana v tabeli 1.11. Vsote kvadratov pri tipu I dobimo tako, da sekvenčno dodajamo vplive. Vrstni red dodajanja vplivov je pomemben. Pri tipu II pa izvrednotimo, koliko pridobimo, če ostalim vplivom v modelu dodamo še vpliv, za katerega računamo vsoto kvadratov. 1.4.2 Vsota kvadratov tipa II Vsota kvadratov pri tipu II ni odvisna od vrstnega reda vplivov v modelu. Hipoteze naj bi bile pravilne za večino setov podatkov, primerov, če lahko zagotovimo, da ni v modelu interakcij ali vgnezdenih vplivov. Vsota kvadratov za interakcijo in dodatni vpliv je pravilna, nepravilna je vsota kvadratov za vpliva, med katerima nastopa interakcija. Če je interakcija neznačilna, bo test za glavni vpliv tudi sprejemljiv. Pričakovano se je spremenila razporeditev vsote kvadratov med vplivoma pasma in mesec ter ostankom. Novi vpliv mesec je pojasnil dobro četrtino ostanka iz enostavnejšega modela 1.35. Nekoliko večja je bila tudi vsota kvadratov za pasmo. Ta prerazporeditev je posledica nekoliko spremenjenih rešitev za vpliv pasme, ko vključimo dodatno še vpliv meseca. S S (P) = 10970.00 [1.48] S S (M) = 1066.67 [1.49] Vsota kvadratov za model naj bi bila tudi vsota kvadratov vseh vplivov v modelu. V našem primeru imamo vpliv pasme in vpliv meseca. Če vsoti seštejemo 1.50, pa dobimo večjo vsoto kvadratov kot pri 1.44. Vsote kvadratov niso neodvisne. Tako smo razliko 12036.67 11300.00, kar znese 736.67, šteli dvakrat: enkrat pri pasmi in enkrat pri mesecu. Oba vpliva smo obravnavali s pretvezo, da drugega ni v modelu. Tako smo prišli do nelogičnega rezultata, da skupek vplivov pojasni več variabilnosti kot model. Na ta način pojasnjujemo neko dodatno variabilnost, ki je sploh ni. MS S = S S (P)+S S (M) =10970.00+1066.67=12036.67 [1.50] 13

14 Biometrija Vsota kvadratov za model, ko smo odstranili vsoto kvadratov za srednjo vrednost, pri tipu I znaša 11300.00. Pri tipu II je vsota kvadratov za model večja in sicer znaša 12036.67. Vsekakor razliko 736.67 ne smemo kar izbrisati, potem bi bil seštevek premajhen. Ena od možnosti je prikazana v tabeli 1.13, da razliko 736.67 upoštevamo pri vplivu pasme, pri vplivu meseca pa ne. Vpliv pasme je značilen, pomemben, kar smo dokazali že s preprostejšim modelom 1.35, v modelu 1.42 z dodatnim vplivom se je vpliv pasme še bolj potrdil. To sicer ne smemo posplošiti na vse primere. Vsota kvadratov za vpliv meseca je v tem primeru sorazmeroma majhna (330.00). Ko imamo v modelu že pasmo, z mesecem ne pridobimo veliko. Tabela 1.13: Viri variabilnosti za dnevni prirast iz modela 1.42 tip - II Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 3327500.00 8031.81 <0.0001 Pasma 2 10970.00 5485.00 13.24 0.0042 Mesec 1 1066.67 330.00 0.797 0.1526 Ostanek 7 2900.00 414.29 CTSS 10 14200.00 Skupno 11 3341700.00 y i jk = µ + P i + M j + PM i j + e i jk [1.51] Pri modelu z interakcijami za glavna vpliva P in M ne moremo poiskati vsote kvadratov, ki bi model očistila tudi interakcije PM. Interakcijo lahko vključimo šele, ko sta v modelu oba glavna vpliva. Kadar je interakcija značilna, preizkus glavnih vplivov s pomočjo vsote kvadratov tipa II ni primeren. Tabela 1.14: Viri variabilnosti za dnevni prirast iz modela 1.51 tip - II Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 Mesec 1 1066.67 1066.67 8.21 0.0352 Pasma 2 10970.00 5485.00 42.19 0.0007 Mesec*pasma 2 2250.00 1125.00 8.65 0.0238 Ostanek 5 650.00 130.00 CTSS 10 14200.00 Skupno 11 3341700.00 Tip II vsote kvadratov so primerne: za uravnotežene primere (drugače odvisni od strukture podatkov) za modele samo z glavnimi vplivi za čiste regresijske modele za vpliv, ki ni vključen v drugi vpliv uporaben tudi za popolnoma hierarhične modele 1.4.3 Vsota kvadratov tipa III in IV Vsote kvadratov za ta dva tipa so vse izračunane z medodo splošnih linearnih hipotez. Uporabnik mora poznati ocenljive funkcije ali pa si jih izpisati, da prepozna hipoteze, ki so bile preverjene. Potreboval jih bo pri interpretaciji rezultatov. 14

Biometrija 15 Vsota kvadratov tipa III 1.14 za posamezni vpliv je neodvisna od vrstnega reda. Predstavlja vsoto, ki je dodatno pojasnjena, če je vpliv v modelu, oziroma je izpuščen. Pri tem smo popustli pri dejstvu, da se vsote kvadratov seštejejo do skupne vsote kvadratov. Izračun vsote kvadratov temelji na hipotezi, ki jo želimo preveriti. O hipotezah in ocenljivosti se bomo pogovarjali kasneje. Ker izračun vsot kvadratov za posamezne vplive ni enostaven, bomo verjeli statističnim paketom. Iste preizkuse živinorejci poznajo iz Harvey-evega programa. Tip III lahko praktično vedno uporabljamo. Vsote tipa I ali II pa uporabljamo v živinoreji samo takrat, ko so vrednosti v tabelah enake kot pri tipu III ter pri popolnem hierarhičnem modelu. Učimo se jih bolj zaradi razumevanja. Včasih moramo poznati enostavnejši primer, da razumemo malo bolj zapletene. Pomembna predpostavka pri tipu III je, da so vse celice vsi podrazredi zasedeni. Polna celica ima najmanj eno opazovanje. Praviloma to ni zadostno za dober poskus, a to je že druga zgodba. Če vemo, da je ena celica slabo zasedena, pa tistih nekaj podatkov pustimo v obelavi, ker bo izpeljava hipotez in s tem interpretacija lažja. Vedeti pa moramo, da bodo vse primerjave s slabo zasedeno celico oziroma skupino nezanesljive. Če so pri interakciji manjkajoče celice, izberemo vsote kvadratov tipa IV, ker so lahko boljše. Še vedno velja, da poskus ni bil najbolj posrečeno zasnovan. Zgodi pa se lahko, da smo šele na koncu poskusa ugotovili, da je interakcija pomembna. Takrat pa celic ne moremo več popolniti in iz poskusa poskušamo izvleči, kar se da. Pri modelu z vplivom meseca in pasme 1.42 je delitev vsote kvadratov pri tipu III (tabela 1.15) enaka kot pri tipu II (tabela 1.13). Vpliv meseca ni značilen. Če dodamo vpliv pasme, dodatni vpliv pojasni vsoto kvadratov v znesku 10970.00 in za to porabi dve stopinji prostosti. Dodani del variabilnosti tudi v tem primeru pojasni pomemben delež variabilnosti. Vpliv pasme je značilen. Za preizkus vplivov lahko uporabimo vsoto kvadratov po tipu II ali III. Tabela 1.15: Viri variabilnosti za dnevni prirast iz modela 1.42 tip - III Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 Mesec 1 1066.67 1066.67 2.57 0.1526 Pasma 2 10970.00 5485.00 13.24 0.0042 Ostanek 7 2900.00 414.29 CTSS 10 14200.00 Skupno 11 3341700.00 Pri modelu z vključeno interakcijo (1.51) se vsote kvadratov med tipoma II (1.14) in III (1.16) razlikujeta. Pri interakciji je vsota kvadratov enaka, pri glavnih vplivih pa je pri tipu II precenjena. Pri podobnih modelih uporabljamo pri preizkušanju vplivov vsote kvadratov, izračunane po tipu III. Tabela 1.16: Viri variabilnosti za dnevni prirast iz modela 1.51 tip - III Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 3327500.00 Mesec 1 558.57 558.57 4.45 0.0887 Pasma 2 8450.00 4225.00 32.50 0.0014 Mesec*pasma 2 2250.00 1125.00 8.65 0.0238 Ostanek 5 650.00 130.00 CTSS 10 14200.00 Skupno 11 3341700.00 V uporabljenih modelih so vsote kvadratov pri tipu IV enake kot pri tipu III, ker nimamo praznih celic. 15

16 Biometrija 1.4.4 Analiza variance v modelih za debelino hrbtne slanine Uporabimo ista modela 1.35 in 1.13 še pri debelini hrbtne slanine. Pri tej lastnosti je več opazovanj, dodali pa bomo še model s korekcijo na skupno maso 100 kg. y i jkl = µ + P i + M j + b(x i jk 100) + e i jkl [1.52] Tabela 1.17: Viri variabilnosti za debelino hrbtne slanine iz modela 1.52 tip I Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 8800.00 Pasma 2 399.29 199.65 30.49 <0.0001 Mesec 1 19.38 19.38 2.96 0.1035 Masa 1 0.023 0.023 0.00 0.9537 Ostanek 17 111.31 6.55 CTSS 21 530.00 Skupno 22 9330.00 Tabela 1.18: Viri variabilnosti za debelino hrbtne slanine iz modela 1.52 za tip II, III in IV Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F-vrednost P-vrednost Srednja vrednost 1 8800.00 Pasma 2 256.44 128.22 19.58 <0.0001 Mesec 1 10.87 10.87 1.66 0.2148 Masa 1 0.023 0.023 0.00 0.9537 Ostanek 17 111.30 6.55 CTSS 21 530.00 Skupaj 22 9330.00 y i jkl = µ + P i + M j + PM i j + b(x i jk 100) + e i jkl [1.53] Tabela 1.19: Viri variabilnosti za debelino hrbtne slanine Vir variabilnosti d.f. Vsota kvadratov Srednji kvadrat F1-vrednost P-vrednost Srednja vrednost 1 8800.00 Pasma 2 Mesec 1 Pasma*mesec 2 Masa 1 Ostanek 15 CTSS 21 Skupaj 22 9330.00 1.5 Preveritev nivojev znotraj vpliva 1.6 Nov naslov V naslednji tabeli Povprečja po pasmah in letih. Model. Ali so razlike 16

Biometrija 17 Tabela 1.20: Povprečja po pasmah in letih x i j P i y i j y 2 ( i j yi j E ( )) 2 y i j 80 11 68 81 11 82 82 11 90 83 11 109 84 11 104 85 11 105 86 11 107 87 11 111 88 11 115 89 11 114 90 11 115 91 11 122 92 11 128 93 11 140 94 11 132 95 11 140 96 11 167 97 11 169 80 22 89 81 22 105 82 22 100 83 22 120 84 22 114 85 22 111 86 22 108 87 22 113 88 22 115 89 22 116 90 22 110 91 22 118 92 22 123 93 22 137 94 22 126 95 22 142 96 22 166 97 22 154 83 33 125 84 33 128 85 33 121 86 33 122 87 33 130 88 33 129 89 33 126 90 33 125 91 33 131 92 33 132 93 33 146 94 33 130 95 33 139 96 33 166 97 33 166 17

18 Biometrija 180 Indeks plemenske vrednosti 160 140 120 100 80 60 80 82 84 86 88 90 92 94 96 Leto preiyku[nje 18

Biometrija 19 19

20 Biometrija 180 Indeks plemenske vrednosti 160 140 120 100 80 60 80 82 84 86 88 90 92 94 96 Leto preiyku[nje 20

Biometrija 21 21

22 Biometrija 160 Indeks plemenske vrednosti 140 120 100 80 60 80 82 84 86 88 90 92 94 96 Leto preiykusa 22

Biometrija 23 23

24 Biometrija 160 Indeks plemenske vrednosti 140 120 100 80 Odstopanje meritve od pri;akovane vrednosti ya pasmo duroc Odstopanje pri;akovane vrednosti ya pasmo duroc od pri;akovane vrednosti celotnega vyorca 60 80 82 84 86 88 90 92 94 96 Leto preiykusa 24

Biometrija 25 F-test in t-test Pri testiranju modelov bolj preprost model, ki privzame ničelno hipotezo, primerjamo z obsežnejšim, kompleksnejšim modelom, ki zastopa alternativno hipotezo. Preprostejšega dobimo tako, da postavimo na nič nekatere parametre, parametre izenačimo ali izenačimo z neko komstanto iz obsežnejšega modela. Pri preizkušanju modelov praviloma predpostavimo, da eden od vplivov ni pomemben in ga tako izpustimo. Pri testiranju hipotez uporabljamo F test, kadar imamo več nivojev pri proučevanih vplivih. V izjemnih razmerah lahko uporabimo tudi t test in sicer ima proučevani vpliv samo dva nivoja. V tem primeru je t statistika le kvadratni koren F statistike. F ( f A, f B, λ A ) = y Ay/ f A y By/ f B [1.54] Oba testa zahtevata, da so neodvisne slučajne spremenljivke in ostanki normalno porazdeljeni. To omogoča, da je vsota kvadratov porazdeljena po distribuciji χ 2. χ 2 (r(q), λ = β X QXβ/2) [1.55] Primer: Vzemimo opazovanja y (1.56), ki so porazdeljena normalno s pričakovano vrednostjo Xβ in varianco V. Model vključuje naključno spremenljivko u, ki je tudi normalno porazdeljena (1.57). y N (Xβ, V) [1.56] u N (0, G) [1.57] e N (0, R) [1.58] Poleg tega morata biti kvadratni formi neodvisni. Pri kvadratni formi v imenovalcu mora biti λ = 0. 1) Preveri ocenljivost hipoteze! Hipoteza je ocenljiva, če velja: K ( X V 1 X ) ( X V 1 X ) = K [1.59] Preverjanje ocenljivosti je potrebno tudi zaradi interpretacije rezultatov. Če določena linearna kombinacija ni ocenljiva, se je moramo izogibati tudi pri interpretaciji. PRIMER: Podatki za test mladic Tako npr. ni ocenljiv sistematski vpliv pasme, zato v tekstu ne moremo napisati: Vpliv pasme P 1 je bil večji kot vpliv pasme P 2. K sreči so lahko ocenljive razlike med pasmami. Tako lahko napišemo: Prašiči P 1 so bili boljši (slabši) kot prašiči P 2. Zgodi pa se lahko, da zaradi strukture podatkov tudi razlike med pasmami niso ocenljive. Če se nam poskus zavleče več mesecev, moramo imeti pasme v vseh mesecih, da lahko ločimo vpliva sezone in pasme. Preizkusite ničelno hipotezo, da so razlike med pasmami enake 0. Ponovite vajo tako, da pri pasmi švedska landrace ne upoštevate podatkov v januarju in februarju. 2) Preuči distribucije odvisnih (y) in neodvisdnih (u ) naključnih spremenljivk in ostanka (e)! Ta zahteva, da so podatki porazdeljeni normalno, je lahko bila kršena dokler smo iskali rešitve. Brž ko jih začenjamo primerjati, z drugimi besedami testirati hipoteze, pa morajo biti opazovanja y (1.56), naključne spremenljivke u (1.57) in ostanek e (1.58) normalno porazdeljene. 25

26 Biometrija 3) Preveri, ali je produkt matrike kvadratne oblike Q in V idempotenten! QVQV = QV [1.60] Matrika M je idempotentna, če velja 1.61. Tu bomo praktično prvič uporabili kvadrat matrike. M = M 2 = MM [1.61] Pri teh matrikah veljata tudi naslednji dve koristni pravili. Produkt idempotentne matrike M in matrike dogodkov X je 0 (1.62). MX = 0 [1.62] Rank idempotentne matrike M je enak njeni sledi (1.63). rank(m) = tr(m) [1.63] To zagotavlja, da je vsota kvadratov neodvisna od parametrov, to je od sistematskih vplivov. 4) Ugotovi rang matrike Q 5) Izračunaj λ 1.6.1 Metoda splošnih najmanjših kvadratov 1.6.1.1 Kvadratna oblika za model Poiščimo kvadratno obliko (ang. quadratic form) za model 1.64pri metodi splonih najmanjših kvadratov. Kvadratno obliko prepoznamo po tem, da je matrika kvadratne oblike Q od spredaj pomnožena z vrstičnim vektorjem opazovanj y, od zadaj pa s stolpičnim vektorjem opazovanj y. Torej ima obliko y Q y. Porazdelitev opazovanj y je normalna s pričakovano vrednostjo Xβ in varianco opisano z matriko V (1.65). Tudi naključni vpliv u (1.66) in ostanek e (1.67) sta normalno porazdeljena. Pri obeh vektorjih so vse pričakovane vrednosti enake 0. Varianca za naključni vpliv je opisana v matriki G, za ostanek pa v matriki R. y = Xβ + Zu + e [1.64] y N (Xβ, V) [1.65] u N (0, G) [1.66] e N (0, R) [1.67] Rešitev β po metodi splošnih kvadratov dobimo z enačbo 1.68. β = ( X V 1 X ) 1 X V 1 y [1.68] Vsoto kvadratov za model dobimo tako, da kvadriramo pričakovane vrednosti in jih stehtamo z ustreznimi variancami. To bi lahko imenovali tudi vsoto splošnih kvadratov. Ker je matrika fenotipskih 26

Biometrija 27 varianc V lahko sorazmeroma sestavljena, bomo uporabili kar matrično obliko zapisa. Tako torej levi izraz 1.69 predstavlja vsoto splošnih kvadratov za model. V izrazu na desni strani pa smo pričakovano vrednost opazovanj ŷ zamenjali z izrazom X β, ki ga uporabljamo pri izračunu. ŷ V 1 ŷ = β X V 1 X β = [1.69] Namesto rešitev β vstavimo desno stran enačbe 1.68. V izrazu 1.70 smo torej že dobili vrstični in stolpični vektor, osrednji del pa predstavlja matriko kvadratne oblike Q. β β { }} { y V 1 X ( X V 1 X ) { }} { 1 ( X V 1 ) ( X X V 1 X ) 1 X V 1 y [1.70] Predno pa jo dokončno proglasimo matriko kvadratne oblike Q, izraz še malo preuredimo. V osrednjem delu je matrika koeficientov ( X V 1 X ) iz desne in leve pomnožena z inverzo. Produkt se poenostavi, ostane le inverza matrike koeficientov, kot je prikazano v 1.71. ( X V 1 X ) 1 ( X V 1 X ) ( X V 1 X ) 1 = ( X V 1 X ) 1 [1.71] Vrnimo se v izraz 1.70 in nadomestimo osrednji del z rezultatom iz 1.71. Kvadratna oblika za model je prikazana v 1.88. = y V 1 X ( X V 1 X ) 1 X V 1 } {{ } y Q [1.72] Sedaj pa preverimo, če je QV idempotentna matrika. Dokazati moramo, da je velja 1.73. QV QV = QV [1.73] Ko smo vstavili Q iz enačbe 1.71, dobimo 1.74. V sredini izraza smo dobili desni in levi produkt matrike varianc V z njenimi inverzami. V 1 X ( X V 1 X ) 1 X V } 1 {{ VV 1 } X ( X V 1 X ) 1 X V 1 V [1.74] V 1 Po poenostavitvi nam ostane samo še inverza V 1, dobili pa smo matriko koeficientov X V 1 X v enačbi 1.75. V 1 X ( X V 1 X ) 1 X V 1 X ( X V 1 X ) 1 } {{ } I X V 1 V } {{ } I [1.75] Ponovno imamo desni in levi produkt matrike koeficientov z inverzami, iz tega produkta izberemo npr. desni produkt, ki nam da identično matriko in nam ostane torej samo še inverza matrike koeficientov v enačbi 1.76. Sicer bi lahko poenostavili tudi skrajno desno stran enačbe, a lahko zaenkrat kar pustimo nespremenjeno. Tako bomo laže prepoznali matriko kvadratne oblike Q, ostala pa nam bo tudi matrika varianc V v enačbi 1.76. V 1 X ( X V 1 X ) 1 X V 1 V = QV [1.76] 27

28 Biometrija Končno smo dokazali, da je matrika kvadratne oblike idempotentna. Ugotovimo tudi rank matrike Q! Rank idempotentne matrike 1.77 je enak sledi matriki 1.78. ( rank V 1 X ( X V 1 X ) ) 1 X V 1 V = [1.77] ( = tr V 1 X ( X V 1 X ) ) 1 X = [1.78] Pri sledi zavrtimo matrike in sicer matriko dogodkov X postavimo na začetek izraza (1.79). ( = tr X V 1 X ( X V 1 X ) ) 1 = [1.79] Tako smo dobili produkt matrike koeficientov in njene inverze. Produkt je identična matrika I, red določa število neznanih lokacijskih parametrov p (1.80). tr ( I p ) = p [1.80] b) Vsota kvadratov za ostanek RS S = y V 1 y y V 1 X ( X V 1 X ) 1 X V 1 y = ( y V 1 V 1 X ( X V 1 X ) 1 X V 1) } {{ } Q y [1.81] Preverimo, če je matrika kvadratne oblike res idempotentna. ( V 1 V 1 X ( X V 1 X ) 1 X V 1) ( V V 1 V 1 X ( X V 1 X ) 1 X V 1) V (I V 1 X ( X V 1 X ) 1 X ) ( I V 1 X ( X V 1 X ) 1 X ) (I 2V 1 X ( X V 1 X ) 1 X + V 1 X ( X V 1 X ) 1 X V 1 X ( X V 1 X ) 1 X ) (I 2V 1 X ( X V 1 X ) 1 X + V 1 X ( X V 1 X ) 1 X ) (I V 1 X ( X V 1 X ) 1 X ) ( I V 1 X ( X V 1 X ) 1 X ) V 1 V 28

Biometrija 29 1.6.2 Metoda najmanjših kvadratov Vzemimo sedaj enostavnejši model, kjer so ostanki identični in neodvisni. Porazdeljeni pa so normalno. V takih primerih lahko uporabimo metodo najmanših kvadratov. y = Xβ + e y N ( Xβ, Iσ 2 ) e [1.82] [1.83] β = ( X X ) 1 X y [1.84] Vsota kvadratov za model ŷ ŷ = β X X β = [1.85] Nadomestimo ocene parametrov β z desno stranjo enačbe 1.84. = y X ( X X ) 1 ( X X ) ( X X ) 1 X y = [1.86] Srednji del izraza 1.86 se poenostavi, ker velja 1.87. ( X X ) 1 ( X X ) ( X X ) 1 = ( X X ) 1 [1.87] V izrazu 1.88 = y X ( X X ) 1 X } {{ } y Q [1.88] Matrika kvadratne oblike je idempotentna Q 2 = [ X ( X X ) 1 X ] [ X ( X X ) 1 X ] = X ( X X ) 1 X [1.89] rank (Q) = p [1.90] Vsota kvadratov za ostanek RS S = y y y X (X X) 1 X y = y ( I X ( X X ) 1 X ) } {{ } M y [1.91] rank (M) = n p M 2 = [1.92] ( I X ( X X ) 1 X ) ( I X ( X X ) 1 X ) = [1.93] = I 2X ( X X ) 1 X + X ( X X ) 1 X X ( X X ) 1 X = [1.94] = I X ( X X ) 1 X = M [1.95] 29

30 Biometrija MX = ( I X ( X X ) 1 X ) X = X X = 0 [1.96] Če je V = Iσ 2 e, potem E (RS S ) = E ( y My ) = tr (MV) + β X MXβ = tr ( MIσ 2 e) + 0 = (n p) σ 2 e [1.97] ( ) RS S E = σ 2 e n p [1.98], nepristranska ocena variance za ostanek metoda REML (omejene največje zanesljivosti) ˆσ 2 e = y My n p [1.99] Pri metodi ML (največje zanesljivosti) dobimo pristranske rezultate - rezultat je podcenjen, vendar pa je varianca ocene manjša - ocena je bolj natančna. Razlika je pomembnejša, ko je v modelu veliko sistematskih vplivov (ali veliko nivojev). Ko pa je število opazovanj v primerjavi s stopinjami prostosti za model veliko, pa je razlika minimalna. ML ( σ 2 ) y My e = n [1.100] E ( ML ( σ 2 e var ( ML ( σ 2 e )) (n p) = σ 2 e [1.101] n )) ( n p ) = var n σ2 e = ( n p ) 2 ( ) var σ 2 e n [1.102] Tabela 1.21: V k = n/p (np) /n (1 1/k) 2 1 0 0 2 1/2 1/4 3 2/3 4/9 10 9/10 81/100 limml ( σ 2 e) = REML ( σ 2 e ) = ˆσ 2 e k 1 1 1.6.3 Pričakovana vrednost kvadratne oblike y (Xβ, V) [1.103] E ( tr ( y Qy )) = [1.104] = E ( tr ( Qyy )) = tr ( E ( Qyy )) = tr ( QE ( yy )) = [1.105] = tr ( Q ( V + Xββ X )) = [1.106] 30

Biometrija 31 = tr (QV) + tr ( QXββ X ) = [1.107] = tr (QV) +tr ( β X QXβ ) } {{ } = skalar [1.108] = tr (QV) + β X } {{ } E (y ) Q Xβ }{{} E (y) [1.109] 1.6.4 Distribucija kvadratne oblike y N (Xβ, V) [1.110] ( β y Qy χ [rank 2 X )] QXβ (Q), λ = 2 [1.111] Rank matrike kvadratne oblike Q predstavlja stopinje prostosti (degree of freedom). Pri vrednosti 0 je χ 2 distribucija centralna, drugače pa necentralna. Da je porazdelitev kvadratne oblike χ 2, morata biiti izpolnjena dva pogoja: opazovanja morajo biti porazdeljena normalno QV mora biti idempotentna: QVQV = QV Vrednost λ postane po- Vrednost λ predstavlja parameter necentralnosti (noncentrality parameter). membna pri testiranju hipotez, kar se lahko zgodi v dveh primerih: Xβ = 0 QX = 0 PRIMER: } λ = 0 [1.112] y = Xβ + Zu + e [1.113] Vzemimo vsoto kvadratov za ε pri metodi splošnih najmanjših kvadratov (1.114). (y Xβ) V 1 (y Xβ) [1.114] ε = y Xβ y V 1 y [1.115] [1.116] y N (0, V) [1.117] QVQV = V 1 V V 1 V = II = I [1.118] rank ( V 1) = n [1.119] λ = 1 2 E ( y ) QE (y ) = 0 [1.120] 31