STATISTIKA 8.3.0 Doc.dr. Tadeja Kraer Šumejak
REGRESIJA IN KORELACIJA
KORELACIJSKA ANALIZA (al aalza kovarace) Proučuje povezaost dveh statstčh spremeljvk X Y a populacj, k sta dvostrasko odvsa pojava. To pome, da obee spremeljvke mamo za odvso al pa za eodvso spremeljvko (obe spremeljvk sta eakovred). PRIMER: vša teţa otrok, prodaja masla margare.
REGRESIJSKA ANALIZA Proučuje odos med dvema aključma spremeljvkama, scer, med odvso eo al več eodvsm (pojasjevalm) spremeljvkam. Ta odos se proučuje tako, da se uporablja regresjsk model. S pomočjo tega modela pa apovedujemo vredost odvse spremeljvke z ee al več eodvsh spremeljvk. Gre za prlagajaje ustreze matematče fukcje emprčm podatkom. PRIMER: admorska vša vplva a kolčo padav, dodatek gojla vplva a prdelek.
REGRESIJSKI MODELI Ločmo jh glede a: ŠTEVILO SPREMENLJIVK Bvarata regresja Multvarata regresja GLEDE NA VRSTO ODVISNE SPREMENLJIVKE Regresja-umerča (ormalo porazdeljea) Logstča regresja (odvsa spremeljvka ma bomsko porazdeltev) GLEDE NA OBLIKO Leara Neleara (kvadrata, kubča, ekspoeta, )
ENOSTAVNA LINEARNA REGRESIJA O lear regresj govormo, ko regresjska fukcja predstavlja regresjsko premco.
PRI OPAZOVANJU DOLŢINE NEKRAJŠIH CEPIČEV IN MASE CEPIČEV KULTIVARJA 'RENSKI RIZLING' NA LOKACIJI VIRŠTANJ SMO DOBILI PODATKE, PRIKAZANE V PREGLEDNICI: Dolža cepčev (cm) Masa cepčev (g) 5,04 5,078 7,4 6,94 9,5 8,49,34 9,6 0,38 8,564,06 8,8 0, 8,464 8,84 7,704 0,68 8,908 0,34 8,434
Podatke ajprej grafčo prkaţmo v razseve grafkou:
Očto je, da leţe točke v okolc premce, kar pome, da je med pojavoma leara odvsost. Premco, k se dam točkam ajbolje prlega, meujemo regresjska premca. Odvsost dveh pojavov lahko zapšemo z eačbo: = f() + e V gorjem zrazu je f() fukcjsk del povezave, e pa velkost slučajh vplvov (ezah, epojasjeh). Slučaj vplv, k odklajajo točke od premce, b lahko bl a prmer mkrosestava tal, zdravstveo staje, geetska struktura posameze trte podobo. Če so slučaj vplv majh je odvsost med pojavoma velka.
DOLOČANJE REGRESIJSKE PREMICE Regresjska premca ', k se tem točkam prlega ma oblko: ' = a + b Med točkam lahko potegemo več regresjskh premc, k se bodo tem točkam bolje al slabše prlegale. Zato moramo določt krterj, k bo eolčo določal, katera premca se dam točkam ajbolje prlega.
Najpogosteje uporabljamo krterj, k zahteva, da mora bt vsota kvadratov odstopaj od regresjske premce mmala. Ta krterj meujemo metoda ajmajšh kvadratov. Matematčo ga zapšemo takole: m F( a, b) m (, ) m ( a b ) smo ozačl vredost zmerjee odvse spremeljvke pr -t vredost eodvse spremeljvke
b a a F ) ( ) )( ( b a b F 0 ) ( b a 0 ) ( b a Da bo to veljalo, morata bt parcala odvoda eaka č. Zato je
Od tod dobmo sstem ormalh eačb za a b: a b a b Da lahko ta sstem eačb zapšemo, moramo zračuat vsote:
5,04 5,078 5,406 5,786084 5,593 7,4 6,94 50,9796 48,9364 49,56588 9,5 8,49 90,6304 7,4064 80,84384,34 9,6 8,5956 83,0456 03,37544 0,38 8,564 07,7444 73,34096 88,8943,06 8,8,336 66,064384 89,89568 0, 8,464 04,4484 7,63996 86,5008 8,84 7,704 78,456 59,3566 68,0336 0,68 8,908 4,066 79,35464 95,3744 0,34 8,434 06,956 7,3356 87,0756 94,56 79,83 99,47 650,0758 775,87 0 a + 94,56 b = 79,83 94,56 a + 99,47 b = 775,87 a=,567 b=0,5770 ' =,567 + 0,577
Skušajmo določt oba parametra a eostavejš ač. Najprej lahko ugotovmo, da sta artmetč sred varac obeh spremeljvk eak: ( ) ( ) Podobo strukturo kot varac za obe spremeljvk ma tud zraz: c ( )( )
Kolčo c meujemo kovaraca. Izraz za kovaraco lahko preoblkujemo tako, da ajprej pomoţmo zraza v oklepajh: c c c Če upoštevamo zraze za zraču artmetčh sred, lahko zapšemo:
( ) b a b a b b Pomoţmo prvo ormalo eačbo z drugo z dobmo: Vsota gorjh eačb je
Od tu lahko določmo parameter b: b b b c Če števec meovalec delmo z dobmo:
Če sedaj prvo ormalo eačbo delmo z, dobmo: a b a b a b a b Točka T(, ) leţ a regresjsk premc
KOEFICIENT DETERMINACIJE Regresjsk model je lahko boljš al slabš. Koefcet s katerm mermo learo povezavo določeo z regresjsko premco, meujemo determacjsk koefcet al koefcet določeost.
Varaco spremeljvke Y meujemo skupa varaca, katera se zračua po formul ( ) To skupo varaco lahko zapšemo kot vsoto dveh varac, scer pojasjee epojasjee ( ) e ( )
) ( T(, ) ( ) ( ) ( )
e r e. Prv sumad a des stra am pove kolkše del varace je pojasje, zato ta kvocet meujemo tud determacjsk koefcet, k ga bomo ozačl kot (, ).
Determacjsk koefcet račuamo po avad po tej formul, k je eostavejša od prejšje. r c Navado se zraţa v odstotkh zraţa odstotek varablost odvse spremeljvke, k je pojasje z regresjskm modelom. Preostal del varablost odvse spremeljvke z modelom pojasje. Izračuajte kolkše del varablost mase cepčev pojas dolţa cepčev? Kolkše del varablost mase cepčev s tem modelom pojasje?
e r e e r ( ) r e
S pomočjo regresjske premce lahko apovemo maso cepčev pr dolţ cepčev 8 cm. Prede se lotmo apoved, razmslmo, kje je doblje model reale. Model je veljave le a območju, k ga določajo vredost eodvse spremeljvke v podatkh. Dobmo točkovo oceo. ' = 7,43 V praks skoraj pojavov, k b bl fukcjsko poveza, zato apoved toča.
Med kolčo dodatka določee sestave v kokošj hra teţo kokoš smo ekspermetalo ugotovl asledje povezave: kolča dodatka 9 7 6 3 teţa kokoš 650 640 60 650 60 680 Ugotovte: a) oblko povezave. b) kolkšo teţo jajc lahko prčakujemo pr 0 eotah dodatka v hra? c) Kolkše del varablost odvse spremeljvke je pojasje z modelom?
STATISTIČNO SKLEPANJE PRI ENOSTAVNI LIN. REGRESIJI Pr lear regresj lahko zvedemo sklepaje z vzorca a populacjo, če prvzamemo asledje predpostavke: X slučaja spremeljvka Y je slučaja spremeljvka. Pr vsak vredost z defcjskega območja je slučaja spremeljvka Y porazdeljea ormalo. Njea povpreča vredost je a premc, stadard odklo σ pa je za vse vredost eak. Vredost za Y so pr razlčh med seboj eodvse.
p(=c) Prkaz porazdeltve odvse spremeljvke pr razlčh vredosth eodvse spremeljvke. 6 4 0 0 8 6 4 0 0 4 6 8
Zgorje predpostavke lahko povemo tud drugače: Porazdeltev slučajh vplvov (ostakov) e je ormala, s povprečjem 0 stadardm odkloom σ, so vredost e med seboj eodvse.
Grafč prkaz opremlje s stadardzram vredostm ostakov (resdualov) Če je regresjska eačba ustreza se varablost odvse spremeljvke e spremja s spremembo vredost eodvse spremeljvke, e b smelo bt obeega dokaza za vzorec a grafčem prkazu stadardzrah ostakov.
STANDARDNA NAPAKA REGRESIJE Stadard odklo ormale porazdeltve spremeljvke Y pr vredost, torej kolčo σ meujemo stadarda apaka regresje. Oceo za stadardo apako dobmo a osov epojasjee varace, k mer razpršeost točk okol premce. Teorja pokaţe, da eprstrasko oceo varace regresje zračuamo s ( )
Izpeljemo lahko formulo: s ( r ) S pomočjo te ocee lahko zračuamo terval zaupaja za apoved vredost spremeljvke Y pr določeem. O tervalh zaupaja za apoved ajdete v kjg Katare Košmelj, Uporaba statstka.
Tabela ANOVA S pomočjo tabele aalze varace testramo ustrezost regresjskega modela. Postavmo dve hpotez H o : b=0 H : b 0 Zama as torej, al je predpostavka, da je med pojavoma leara odvsost pravla. Če sprejmemo čelo hpotezo, je vredost spremeljvke odvsa le od slučajh vplvov.
Izvor varace Ocea vsote kvadratov Regresja Števlo prostosth stopej Ocea varace F F krtč s ( ' ) s ( ' ) s Okol regresje ( ') - se ( ') Skupaj ( ) - e tabelraa vredost Če je zračuaa vredost F večja od krtče vredost F(, -) pr da stopj tvegaja, lahko zaključmo, da je statstčo začla varablost spremeljvke astala zarad leare odvsost med spremeljvkama (model je ustreze). V prmeru, da je zračuaa vredost F majša od krtče vredost F(, -), pa lahko sprejmemo hpotezo, da lear model ustreze.
Naš prmer s SPSS-om Ostak so eodvs.
Ostak so ormalo porazdelje.
Vdmo, da je z dam regresjskm modelom pojasjee 9,3% varablost spremeljvke Y. s
Model je ustreze.
Povejmo še: S t-testom testramo čel hpotez za posameza parametra H 0 : b=0 H 0 : a=0