NEPARAMETRIČNI TESTI 5.3.011 Doc.dr. Tadeja Kraner Šumenjak
Slabosti parametričnih preizkusov: -stroge predpostavke (predpostavka o normalni porazdelitvi) -veliko računanja -težave, če spremenljivke niso kvantitativne (številske)
Neparametrični testi so namenjeni predvsem za preizkušanje neparametričnih hipotez. To so hipoteze, ki se tičejo funkcijske oblike neznanega porazdelitvenega zakona. Vendar se tudi testi za preizkušanje parametrične hipoteze imenuje neparametričen, če je neodvisen od porazdelitvenega zakona.
1. PRILAGODITVENI TESTI So namenjeni preizkušanju ničelne hipoteze H 0, da je neznana porazdelitev F x statistične spremenljivke X enaka neki znani porazdelitvi F 0 proti alternativni hipotezi H 1, da je ta porazdelitev različna od F 0, t.j. H 0 : F x =F 0 H 0 : F x F 0 Omenili bomo test Kolmogorova in Pearsonov hi kvadrat.
Test Kolmogorova Lahko uporabimo pri zveznih porazdelitvah in to najbolj zanesljivo v primeru velikih vzorcev. Test je matematično zapleten, zato ga ne bomo predstavili. Ta test ima vgrajen tudi program SPSS pod imenom One-Sample Kolmogorov-Smirnov test in se uporablja za testiranje ali je porazdelitev normalna, eksponentna, enakomerna ali Poissonova.
Porazdelitev ni normalna
Pearsonov hi kvadrat Je uporaben tako pri zveznih kot pri diskretnih porazdelitvah (za velike vzorce). Zalogo vrednosti statistične spremenljivke X razdelimo na r razredov: S 1, S,,S r. Za vsak k=1,,,r naj bo p k verjetnost, da statistična spremenljivka X ob pravilni hipotezi H 0 zavzame vrednost iz razreda S k. Če je n velikost vzorca, potem je np k = frekvenca (teoretična) razreda S k. f k hipotetična
Vzorčne frekvence Hipotetične frekvence S1 S S3 f 1 f f3 f 1 f f 3 S f r r f r Skupaj n n Ideja statističnega preizkusa je sledeča, če se dejanske in pričakovane frekvence dovolj dobro ujemajo, ničelno hipotezo obdržimo, sicer jo zavrnemo v korist alternativne hipoteze. Mera ujemanja temelji na razlikah frekvenc, ker so včasih razlike pozitivne, drugič pa negativne, mera upošteva kvadrate razlik ( f f ) k Karl Pearson je razvil mero ujemanja, imenujemo jo Pearsonova - statistika: r k 1 k ( fk f k ) f k
Izkaže se, da je za velike n statistika, ki ji pravimo Pearsonov hi kvadrat r ( fk f k ) ( r 1), k 1 f porazdeljena aproksimativno po zakonu hi kvadrat z r -1 prostostnimi stopnjami. Če je hipoteza H k 0 pravilna so vrednosti statistike majhne. Če je izračunana vrednost večja od kritične, potem zavrnemo hipotezo H. 0
Opomba Pearsonov hi kvadrat test se lahko uporabi zmeraj, ko je np k 5, sicer je potrebno združiti posamezne razrede.
PRIMER Generator slučajnih števil generira cela števila od 0 do 9. Denimo, da smo z njim izbrali 5000 števil in dobili frekvence izbir posameznih števil, ki so prikazane v preglednici. Zanima nas, če generira tak generator slučajnih števil pri poljubnem številu ponovitev, vsa števila enako pogosto. Število 0 1 3 4 5 6 7 8 9 Frekvenca 484 53 490 486 504 516 508 488 494 498
PRIMER V določenem časovnem obdobju je bilo 500 nesreč pri delu, od tega 130 ob ponedeljkih, 90 ob torkih, 100 ob sredah, 90 ob četrtkih in 90 ob petkih. Na podlagi teh podatkov bomo preverili domnevo, da je porazdelitev nesreč po dnevih enakomerna (stopnja tveganja je 0,05). ODG: Porazdelitev nesreč ni enakomerno porazdeljena po dnevih.
PRIMER Igralno kocko vržemo 100 krat. Pri tem smo dobili naslednje rezultate: 1 3 4 5 6 183 11 170 0 00 16 Na stopnji tveganja 0,05 preizkusimo hipotezo, da smo metali pošteno igralno kocko.
PRIMER Na BF so izvedli poskus, v katerem so križali dvoredni ječmen s črnimi plevami s šestrednim ječmenom z rumenimi plevami. V F generaciji je bilo od skupno 164 rastlin 735 črnih dvorednih (Č), 3 črnih šestrednih (Č6), 3 rumenih dvorednih (R) in 74 rumenih šestrednih (R6). Ali so dobljeni eksperimentalni rezultati v skladu s teoretičnim razmerjem, ki ga podaja Mendelova teorija: Č:Č6:R:R6=9:3:3:1 (α=0,05)?
. ANALIZA KONTINGENČNIH TABEL Velikokrat nas zanima ali sta statistični spremenljivki X in Y (opisni) na populaciji povezani (odvisni).
Poglejmo nekaj primerov
V vzorcu je bilo 6800 slučajno izbranih oseb. Za vsako so ugotavljali barvo las in barvo oči. Zanima nas ali sta barva las in barva oči povezani spremenljivki.
S slučajno izbiro so izbrali 100 žensk in 160 moških in ugotavljali njihovo izobrazbo. Zanima nas, ali je v proučevani populaciji izobrazbena struktura po spolu enaka.
NIČELNA: dejanska frekvenčna porazdelitev je enaka teoretični frekvenčni porazdelitvi (X in Y nista povezani (nista odvisni)) ALTERNATIVNA: dejanska frekvenčna porazdelitev ni enaka teoretični frekvenčni porazdelitvi (X in Y sta povezani (odvisni))
Vrednosti spremenljivke X razdelimo na r razredov A, A,..., A in vrednosti spremenljivke Y razdelimo na s 1 r razredov B, B,..., B. Denimo, da dobimo iz populacije 1 s vzorec velikosti n. Naj Nij označuje frekvenco dogodka AiB v tem vzorcu. Frekvence N predstavimo s kontingenčno tabelo (imenujemo jih tudi dejanske frekvence): ij j
X/Y B 1 B j B s A 1 N 11 N 1j N 1s L 1 : : : : : A i N i1 N ij N is L i : : : : A r N r1 N rj N rs L r S 1 S j S s n
Če ničelna domneva velja, je verjetnost za izid v (i,j)-ti celici enaka L i S j n n Teoretično frekvenco za (i,j)-to celico pa dobimo tako, da L i S L S n n n n j i j
Povejmo to pravilo z besedami: za izračun pričakovane frekvence v (i,j)-ti celici zmnožimo robno vsoto v i-ti vrstici z robno vsoto v j-tem stolpcu in produkt delimo z velikostjo vzorca. Poznamo mero ujemanja pričakovanih (teoretičnih) frekvenc z dejanskimi: r s i1 j1 ( fij f ij ) f ij Število stopenj prostosti je (r-1)(s-1).
Opomba Hi kvadrat statistika se vedno računa na frekvencah, nikoli na odstotkih ali deležih. Pogoj za uporabo je f 5, i 1,..., k, j=1,...,r ij
X/Y B1 B A1 N11 N1 L1 A N1 N L S1 S n V primeru, ko je r=s= moramo imeti izpolnjeno še dodatno predpostavko, da je L i S j 50n za i,j=1,. Če temu ni tako in je n 40 ali pa, če je L i S j 5n lahko uporabimo Yatesovo korekturo: n n( N N N N ) (1) L L S S 11 1 1 1 1
40 60 40 60 10 0 10 10 10
3. Koeficient korelacije ranga po Spearmanu Je neparametrična alternativa Pearsonovemu korelacijskemu koeficientu. Z njim ugotavljamo ali sta spremenljivki povezani. Računamo ga po enačbi R S 6 D 1, nn ( 1) kjer je D razlika med rangom spremenljivke X in rangom spremenljivke Y za posamezno enoto. Računamo ga tako, da vsem enotam v vzorcu določimo rang glede na spremenljivko X in glede na spremenljivko Y.
Če imata dve enoti (ali več) enako vrednost jim priredimo povprečni rang. Značilnost koeficienta korelacije določimo s tabelami (glej v knjigi Košmelj, Uporabna statistika). Spearmanov korelacijski koeficient zavzame vrednosti z intervala [-1,1]. Range grafično prikažemo z razsevnim grafikonom.
Spearmanov koeficient uporabljamo: Zveza med spremenljivkama ni linearna, ampak monotona. Podatki ene ali obeh spremenljivk so rangi. Podatki so nezanesljivi, za njihove predstavnike uporabimo pripadajoče range.
Primer V razredu je 17 dijakov. V njihovem abecednem seznamu jim je pripisal profesor slovenščine za znanje tale mesta: 17,1,1,3,8,15,16,,7,13,5,14,6,10,4,10,10. Profesor matematike pa mesta: 16,17,4,,8,15,1,1,10,9,3,1,1,14,5,7,6. Ali ti podatki potrjujejo domnevo, da sta znanji obeh predmetov povezani (stopnja značilnosti 0,05)?
torej je R S D 164, 6 D 6164 ( 1) 17(17 1) 1 1 0, 799 nn Za =0,05 in n=17 odčitamo 0,4877. Ugotovimo, da sta znanji obeh predmetov med seboj povezani.
Primer V vzorcu je bilo deset vrst jogurtov. Ocenjevala sta jih ocenjevalca A in B, tako da sta jih rngirala od 1 do 10 (1 najboljši in 10 najslabši). Delo sta opravila neodvisno drug od drugega. Zanima nas usklajenost obeh ocenjevalcev.
Jogurt A B 1 3 4 5 6 7 8 9 10 6 4 9 1 7 3 8 5 10 5 6 10 3 8 1 7 4 9