STATISTIKA ANALIZA VARINCE 16.3.011 Doc.dr. Tadeja Kraner Šumenjak
ANALIZA VARIANCE Proučuje, kako ena ali več neodvisnih spremenljivk (faktorjev) vpliva na slučajno odvisno spremenljivko Y, ki meri izid poskusa. Odgovori na vprašanje: Ali so odstopanja zaradi vpliva različnih faktorjev ali pa so slučajna?
Variabilnost izida poskusa povzročajo Proučevani dejavniki Kontrolirani moteči dejavniki Nekontrolirani moteči dejavniki. Ta del variabilnosti ostane nepojasnjen. Imenujemo ga OSTANEK ali EKSPERIMENTALNA NAPAKA
Primer V vsaki skupini živali so potomci drugega očeta. Zanimajo nas dnevni prirastki mas v posameznih skupinah v določenem starostnem obdobju. Če potomci določenega očeta hitreje pridobivajo na masi, so primernejši za vzrejo. Pri meritvah smo dobili dnevne prirastke mas (v gramih), ki so prikazani v preglednici:
Ponovitev 1. skupina. skupina 3. skupina 4. skupina 1 89 849 795 95 871 885 87 908 3 81 910 817 917 4 93 795 903 1000 5 869 93 841 881 6 894 898 7 937 Skupaj 4367 60 48 559 Povprečje skupine 873,5 886,0 845,6 91,5
Če glede na velikost aritmetičnih sredin, sklepamo, da biki četrte skupine najhitreje pridobivajo na masi, lahko pridemo do napačnih zaključkov. Poleg genetskih lastnosti namreč na pridobivanje mase vplivajo tudi drugi dejavniki kot so prebolele bolezni, vplivi okolja in drugi. Zato moramo za primerjavo aritmetičnih sredin uporabiti metodo, ki bo izločila slučajne vplive.
Pri analizi variance skušamo sprejeti eno izmed hipotez: H 1 : najmanj dve aritmetični sredini nista enaki. H 0 : M 1 = M = M 3 = = M k
Rešitev K= naredimo t-test za neodvisne vzorce K=3 tri parne primerjave (pogojno) H 0 : M 1 = M H 0 : M 1 = M 3 H 0 : M = M 3 K>3 ne smemo narediti vse parne primerjave, ker so medsebojno odvisne. To bi imelo za posledico, da bi zavrnili več H 0, kot bi jih smeli pri predpisani vrednosti α. K 3 ANOVA OPOMBA: pri K= tudi lahko uporabljamo ANOVO, vendar je t- preizkus enostavnejši
ENOSMERNA ANALIZA VARIANCE (SLUČAJNE SKUPINE) Y naj bo slučajna spremenljivka, ki meri izid poskusa. Y i naj opisuje izid pri i-tem obravnavanju (obravnavanja so lahko različne sorte, gostote setve) Y i ~N(M i,σ) Za analizo variance mora biti izpolnjena predpostavka o homogenosti varianc, torej standardni odklon populacije je za vsa obravnavanja enak (LEVENOV TEST). Zagotovljena mora biti medsebojna neodvisnost obravnavanj. Mi si bomo ogledali le primer, ko je število ponovitev pri vseh obravnavanjih enako.
k je število skupin n je število ponovitev n=k n 0 0 Q k n 0 i1 j1 ( x ij x) n k 0 i1 ( x i x) k n 0 i1 j1 ( x ij x i ) Skupna vsota kvadratov Merjena z vsoto kvadratov odklonov opazovanih vrednosti od aritmetične sredine Q = Q n +Q g Vsota kvadratov pojasnjena z obravnavanji (Zaradi razlik med obravnavanji) Nepojasnjena variabilnost Ostanek, napaka x skupno povprečje x povprečje za i-to skupino i Različni viri variiranja
Vpeljimo parameter C, ki je definiran kot: C 1 n k n 0 i1 j1 x ij Nato izračunamo skupno vsoto kvadratov odstopanj od skupne aritmetične sredine. Ta je: Q k n i1 j1 ( x ij x) k n0 k n0 x ij i1 j1 n i1 j1 0 1 x ij k n 0 i1 j1 x ij C Vsota kvadratov odstopanj aritmetičnih sredin skupin od skupne aritmetične sredine pa je: Q g k n0 ( xi x) 1 n i1 0 i1 j1 k n 0 x ij C
Vir variabilnosti Vsota kvadrato v Število prostostnih stopenj Srednji kvadriran odklon F F kritični OBRAVNAVANJE (med obravnavanji) Q g k - 1 s g s g sn tabelirana vrednost NAPAKA (znotraj obravnavanj) Q n n - k s n Skupaj Q n - 1 Povprečje vsote kvadratov dobimo: s s g n Q g k 1 Qn n k
Izkaže se, da je v primeru, ko je ničelna hipoteza pravilna kvocient F s s g n je porazdeljen po Fisherjevi F(k1, Nk) porazdelitvi. Ničelno hipotezo, ki pravi, da so aritmetične sredine posameznih skupin enake lahko zavrnemo, če je gornji izraz večji od tabelirane vrednosti F - porazdelitve pri izbrani stopnji tveganja. Rečemo, da so razlike statistično značilne.
Pri merjenju debeline hrbtnega sala treh pasem svinj smo dobili naslednje rezultate (v mm) Ali je debelina sala odvisna od pasme? Zap. številka 1. pasma. pasma 3. pasma 1 36,6 31,0 35,9 36,1 7,0 33,6 3 36,1 6,8 36,4 4 38,3 31,3 35,8 5 36,6 9,0 35, 6 39, 30,5 9,
V poljedelskem poskusu smo preverjali štiri sorte krompirja in ugotavljali višino pridelka (v tonah) Ali je pridelek krompirja glede na posamezne sorte statistično različen? Ponovitev Sorta A Sorta B Sorta C Sorta D 1 33 7 37 11 5 43 17 48 3 0 36 8 14 4 19 0 40 3 5 4 6 36
Between Groups Within Groups Sum of Squares df Mean Square F Sig. 191,654 95,87,181,000 64,803 15 4,30 Total 56,458 17 Sum of Squares df Mean Square F Sig. Between Groups 36,150 3 1,050,094,96 Within Groups 050,400 16 18,150 Total 086,550 19
Primer 17
Primer 18
R.MEAD-NASVET Potrebno število enot n v poskusu: 10 df 0 Več kot 0 ni potrebno, 10 je premalo. df za ostanek (napaka) 19
PREIZKUSI MNOGOTERIH PRIMERJAV Med povprečnimi vrednostmi obstajajo statistično značilne razlike. ANALIZO VARIANCE NADALJUJEMO: -PREIZKUSI MNOGOTERIH PRIMERJAV (LSD, Tukey,Duncan) -NAČRTOVANE PRIMERJAVE KONTRASTI
ENOSMERNA ANALIZA VARIANCE (SLUČAJNI BLOKI) Bloki Skupine (t) 1 j b Skupaj Pov. 1 x 11 x 1 x 1j x 1b x 10 x 1 x x j x b x 0 : i x i1 x i x ij x ib x i0 : t x t1 x t x tj x tb x t0 Skupaj x 01 x 0 x 0j x 0b Pov.
x 00 00 i0 0 j B skupno povprečje x skupna vsota x povprečje skupin i 1,,..., t x povprečje blokov j 1,,..., b x Q x x C t b t b 00 ij ij i1 j1 bt i1 j1 x 00 C ; bt n C je korekcijski člen bt Q b j1 t x t 0 j C x i0 i1 Qg C b Q Q Q Q n B g
Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F BLOKI Q b -1 B OBRAVN. Q k -1 g Q Q ( b1)( t1) g k-1 Q ( k 1) g n NAPAKA Q ( b-1)( t-1) n Qn ( b-1)( t-1) SKUPAJ Q bt -1
Testiramo ničelno domnevo, da so aritmetične sredine po obravnavanjih enake. Izračunan F je porazdeljen po Fisherjevi F(k1, (B-1)(K-1)) porazdelitvi. Ničelno hipotezo, ki pravi, da so aritmetične sredine posameznih skupin enake lahko zavrnemo, če je gornji izraz večji od tabelirane vrednosti F - porazdelitve pri izbrani stopnji tveganja. Rečemo, da so razlike statistično značilne.
Postavitev NAKLJUČNI BLOK Primerjava pridelkov zrnja (t/ha, 14% vlaga) štirih hibridov koruze, v petih ponovitvah (Vir: Hadživuković, 1989). H1 5 H4 4 H3 4,3 H 4,8 I H 5 H3 4, H1 5,7 H4 4,9 II H3 H1 H4 H 5 4,6 4,1 4,5 III H4 H H1 H3 5 H4 4,6 H 5, H3 4 H1 IV 4,4 5,4 4, 5,3 V 5
1 3 4 5 sum pov 1 5 5,7 4,6 5, 5,3 5,8 5,16 4,8 5 4,5 4,6 5,4 4,3 4,86 3 4,3 4, 5 4 4, 1,7 4,34 4 4 4,9 4,1 5 4,4,4 4,48 sum 18,1 19,8 18, 18,8 19,3 94, pov 4,55 4,95 4,55 4,7 4,85 4,71
x 00 00 4,71 x =94, t b Q x C 448,34 443, 68 4, 658 i1 j1 ij x 00 (94, ) C 443, 68 bt 0 b x 0 j j1 (18,1 19,8 18, 18,8 19,3 ) QB C 443, 68 444, 05 443, 68 0,53 t t x i0 i1 (5,8 4,3 1, 7, 4 ) Qg C b Q Q Q Q,06 n B g 5 4 443, 68, 074
Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F BLOKI 0,53 4 OBRAVN.,074 3 0,6913 4,06 NAPAKA,06 1 0,1717 SKUPAJ 4,658 19 Ničelno domnevo zavrnemo. Pri 5% tveganju lahko trdimo, da ima hibrid statistično značilen vpliv na pridelek.
Potek dela: 1. zapis podatkov v Excel-ovo tabelo (neodvisne spremenljivke; hibrid, ponovitev in odvisna spremenljivka; pridelek) 9
. tabelo (neposredno) prenesemo v statistični program SPSS, STATISTIX, STATGRAPH... 30
. tabelo (neposredno) prenesemo v statistični program SPSS, STATISTIX, STATGRAPH... 31
3. naredimo (ustrezno) analizo variance ANOVA 3
33
34
3. naredimo (ustrezno) analizo variance ANOVA :,034 Interpretiranje rezultatov: GLEJ P-vrednost!! P blok ne interpretiramo P hibrid 0,05 s 5%-nim tveganjem oz. 95% zanesljivostjo lahko trdimo, da ima hibrid statistično značilen vpliv na pridelek (*) Po domače: ni vseeno kateri hibrid sejemo! 35
Še en primer: Namen: ugotoviti vpliv dodatne svetlobe na nesnost kokoši v zimskem času. Obravnavanja:- K kontrola Poskusni material: -PDan podaljšani dan (14 ur) -Blisk (K+1 krat 0 sek bliskavice na noč) 4 kurniki v vsakem 3 kletke v vsaki kletki po šest kokoši Poskusna zasnova: slučajni bloki (en kurnik je blok). Narediti moramo slučajni izbor za vsak kurnik posebej. Izid: skupno število jajc na kletko v času od 1. decembra do. februarja 36
Tabela: Skupno število jajc na kletko po obravnavanjih in blokih. kurnik K Pdan Blisk 1 330 37 359 88 340 337 3 95 343 373 4 313 341 30 37