Korelacjska regresjska analza
Odnos među pojavama Odnos među pojavama može bt: determnstčk l funkconaln stohastčk l statstčk Kod determnstčkoga se odnosa za svaku vrjednost jedne pojave točno zna vrjednost druge pojave. Kod stohastčkoga se odnosa na osnov vrjednost jedne pojave ne može e sa sgurnošću u predvdjet vrjednost druge pojave. Prmjer determnstčkh odnosa: stranca kvadrata njegov opseg, kolčna na prodane robe dobven znos novca. Prmjer stohastčkh odnosa: cjena neke robe njezna potražnja nja, vsna starost stabla.
Osnovna su ptanja koja pr proučavanju odnosa zmeđu dvju l vše e pojava postavljamo: Jesu l statstčke varjable povezane? Na koj su načn povezane? Kolko su snažno no povezane? Može l se povezanost numerčk zrazt? Istražvanjem kvantfcranjem povezanost među promatranm pojavama, odnosno varjablama bav se korelacjska analza. Utvrđvanjem analtčkoga zraza povezanost među pojavama bav se regresjska analza.
Djagram raspa panja Polazna točka u korelacjskoj regresjskoj analz jest djagram raspanja. To je grafčk prkaz točaka u koordnatnome sustavu koje predstavljaju nz uređenh parova: (x 1, y 1 ), (x 2, y 2 ),,, ( (x n, y n ); pr čemu su x 1, x 2,, x n, vrjednost jedne varjable (X ), a y 1, y 2,, y n, vrjednost druge varjable (Y ). Uočmo l neku pravlnost u rasporedu točaka u djagramu raspa panja, možemo zaključt jesu l varjable korelrane l nsu.
Prmjer djagrama raspanja Y Y X X Postoj korelacja Nema korelacje
Y Y X X Lnearna nelnearna korelacja
Y Y X X Korelacje poztvnoga negatvnoga smjera
Y Y X X Jaka slaba korelacja
Y X Potpuna korelacja
Koefcjent korelacje Koefcjent korelacje su pokazateljp stupnja statstčke povezanost. Ako se stražuje veza zmeđu dvju varjabl ako je ta veza lnearna, stupanj povezanost zražava ava se koefcjentom lnearne korelacje. Istražuje l se postojanje lnearne veze jedne varjable u ovsnost od dvju l vše e drugh varjabl, stupanj povezanost zražava ava se koefcjentom všestruke lnearne korelacje. Stupanj nelnearne l krvolnjske veze zmeđu varjabl zražava ava se koefcjentom krvolnjske korelacje. Ako su promatrane pojave predstavljene redosljednm varjablama, stupanj njhove povezanost zražava ava se koefcjentom korelacje ranga.
Pearsonov * koefcjent korelacje Pearsonov koefcjent korelacje (r ) mjer jakost smjer lnearne korelacje. Računa se po formul: σxy r = (1), σ σ x y gdje su σ x σ y standardne devjacje varjabl X Y, a σ xy je kovarjanca -artmetčka sredna umnožaka odstupanja varjabl od njhovh artmetčkh sredna. Standardna devjacja nza n podataka oblježja X računa se po jenoj od formula: σ x = n 1 2 ( x x) n = 1 l σ x = 1 n n = 1 x 2 x 2 gdje je x artmetčka sredna nza podataka. *Karl Pearson (1857. - 1936.), englesk matematčar, ar, statstčar ar bolog.
Kovarjanca nza n uređenh parova vrjednost oblježja X Y računa se po jednoj od formula: σ xy = 1 n n = 1 ( x x)( y y) l σ xy = 1 n n =1 x y x y Uvrštavanjem vrjednost za transformra u: tavanjem vrjednost za σ x, σ y σ xy r = n = 1 x 2 n = 1 x nx y 2 xy u formulu (1), ta se formula nx y n = 1 y 2 ny 2
Uvjek je -1 r 1. Ako je r = 1, veza je funkconalna; ako je r = 0, 0 ne postoj lnearna korelacja među sptvanm pojavama. Smjer korelacje jednak je predznaku od r. Stupanj jakost korelacje okvrno je dan saljedećom tablcom: r 0 0-0,5 0,5-0,8 0,8-1 1 Jakost korelacje nema korelacje slaba korelacja srednje jaka korelacja jaka korelacja potpuna korelacja
Regresjska analza Regresjska analza bav se određvanjem funkconalne zavsnost zmeđu dvju l vše varjabl. Analtčk zraz te zavsnost zove se regresjsk model. Ako model zražava ava vezu zmeđu zavsne jedne nezavsne varjable, rječ je o jednostavnom regresjskom modelu. Ako model zražava ava vezu zmeđu zavsne dvju l vše e nezavsnh varjabl, rječ je o modelu všestruke regresje.
Modelom jednostavne regresje pokušavamo objasnt velčnu nu ( (Y ) preko samo jedne velčne ne (X),( a sv ostal utjecaj se zanemaruju. Takav je prstup u praks opravdan jer najčešće nsmo u mogućnost sagledat sve utjecaje na velčnu nu Y,, pa uzmamo u obzr samo najbtnje. No moguće e je da se analzom dođe do zaključka ka da velčna na Y značajno ajno zavs od vše e varjabl ( (X 1, X 2, X n. Tada T b određval model všestruke regresje.
Podac za regresjsku analzu nastaju opažanjem anjem l mjerenjem u statstčkm pokusma. U gospodarskm prmjenama regresjskog modela podac se javljaju kao: 1. brojčane vrjednost pojava za određene gospodarske l prostorne jednce 2. vremensk nzov 3. kombnacja 1. 2.
Regresjsk model mogu zražavat avat lnearne* nelnearne veze zmeđu promatranh pojava l varjabl. Najjednostavnj oblk zavsnost, odnosno najjednostavnj regresjsk model je model jednostavne lnearne regresje. *Model je lnearan ako svaka varjabla u modelu ma potencju 1.
Model jednostavne lnearne regresje je model oblka: gdje je a, b R. y = ax + b, Model všestruke lnearne regresje je model oblka: y = ax 1 + ax 2 + + ax k + b, gdje je a, b R, = 1,, k.
Model jednostavne lnearne regresje Pretpostavmo da je zadan djagram raspanja od n točaka ( (x 1, y 1 ), ( (x 2, y 2 ),..., ( (x n, y n ), te da nas oblk toga djagrama upućuje uje na postojanje lnearne korelacje među oblježjma jma X Y. Pravac regresje p ma jednadžbu bu: y = ax + b. Nagb (a)( ) odsječak (b)( ) određuju o se metodom najmanjh kvadrata.
Metoda najmanjh kvadrata Metoda najmanjh kvadrata bazra se na uvjetu da zbroj kvadrata vertkalnh odstupanja točaka u djagramu raspanja od traženog pravca regresje bude mnmalan. Y y = ax + b (x 1, y 1 ) (x 2, y 2 ) ε 1 ε 2 ax 1 + b ax 2 + b ε 3 (x 3 y 3 ) ax 3 + b X x 1 x 2 x 3 Vertkalna odstupanja od pravca regresje (rezdualna odstupanja)
Iz zadanog uvjeta dobje se: a σxy =, b = y a x, σ 2 x gdje je σ 2 x varjanca varjable X,, a σ xy kovarjanca zmeđu varjabl X Y. Uvrštavanjem vrjednost za σ x, σ y σ. xy u formulu kojom se zračunava koefcjent a,, ta se formula transformra u:, a n = 1 = n = 1 x x y 2 nx y nx 2.
Parametar a zove se regresjsk koefcjent. On pokazuje za kolko se u prosjeku promjen zavsna varjabla ako se nezavsna varjabla promjen za jedan. Parametar b je pokazuje vrjednost zavsne varjable u slučaju kada je nezavsna varjabla jednaka nul.,.
Prmjedba Kao što smo promatral pravac regresje velčne ne Y u odnosu na velčnu nu X, možemo promatrat obrnuto: pravac regresje velčne ne X u odnosu na velčnu nu Y.. Taj pravac ma jednadžbu bu: x = a y + b,, gdje je: σxy a =, 2 b = x a y. σ y.
Prmjer 1: Promatrana je veza zmeđu broja prozvedenh prozvoda (X) ukupnog profta (Y) (u tsućama kuna). Dobven podac dan su u tablc: x 100 105 110 120 145 150 y 26 29 33 36 41 43 a) Nacrtajte djagram raspanja. b) Odredte jednadžbu pravca regresje koj pokazuje ovsnost ukupnog profta o broju prozvedenh prozvoda označte značenje parametara. c) Ucrtajte pravac regresje u prethodn graf. d) Izračunajte regresjske vrjednost vrjednost rezdualnh odstupanja.
Rješenje: enje: a) 50 45 40 35 30 25 20 Seres1 15 10 5 0 0 20 40 60 80 100 120 140 160
b) x y x 2 x y 100 26 10000 2600 105 29 11025 3045 110 33 12100 3630 120 36 14400 4320 145 41 21025 5945 150 43 22500 6450 730 208 91050 25990
x 730 = = 121,67, y 6 = 208 6 = 34,67 a = x x y 2 nx y nx 2 = 25990 6 121,67 34,67 91050 6 121,67 2 = 680,2 2228,47 = 0,30523 b = y bx = 34,67 0,30523 121,67 = 2,46733 Jednadžba pravca regresje je: y = 0,30523x 2,46733
d) 50 45 40 y = 0,306x - 2,5597 R 2 = 0,9446 35 30 25 20 Seres1 Lnear (Seres1) 15 10 5 0 0 20 40 60 80 100 120 140 160
d) Izračunavanje regresjskh vrjednost vrjednost rezdualnh odstupanja. x y ŷ ε 100 26 28,05567-2,05567 105 29 29,58182-0,58182 110 33 31,10797 1,89203 120 36 34,16027 1,83973 145 41 41,79102-0,79102 150 43 43,31717-0,31717 730 208 208,0139 0 y ˆ = y
Prmjer 2: Analzraju se ukupn troškov prozvodnje u jednom poduzeću. u. Na temelju kvartalnh podataka utvrđene su kolčne ne prozvodnje ukupn troškov prozvodnje. Podac su dan u tablc. (a) Nacrtajte djagram raspanja. Što zaključujete ujete z djagrama? (b) Procjente vrjednost parametara regresjskog modela protumačte njhovo značenje. (c) Izračunajte regresjske vrjednost. (d) Odredte vrjednost rezdualnh odstupanja.
300 300 743 743 274 274 692 692 268 268 641 641 238 238 577 577 227 227 529 529 208 208 490 490 205 205 462 462 190 190 441 441 177 177 411 411 153 153 373 373 146 146 352 352 Uk Uk. tro. troškov kov Prozvodnja Prozvodnja
1303333 1303333 3134543 3134543 2386 2386 5711 5711 222900 222900 552049 552049 300 300 743 743 189608 189608 478864 478864 274 274 692 692 171788 171788 410881 410881 268 268 641 641 137326 137326 332929 332929 238 238 577 577 120083 120083 279841 279841 227 227 529 529 101920 101920 240100 240100 208 208 490 490 94710 94710 213444 213444 205 205 462 462 83790 83790 194481 194481 190 190 441 441 72747 72747 168921 168921 177 177 411 411 57069 57069 139129 139129 153 153 373 373 51392 51392 123904 123904 146 146 352 352 x y x 2 y x
x a b = = = 5711 2386 = 519,1818 y = = 216,9091 11 11 1303333 11 519,1818 216,9091 64565,17 = 2 3134543 11 519,1818 169495,84 216,9091 0,38092 519,1818 = 19,14236 = 0,38092 Jednadžba pravca regresje je: y = 0,38092x + 19,14236
- 0,0000 0,0000 2386,0001 2386,0001 1303333 1303333 3134543 3134543 2386 2386 5711 5711-0,72% 0,72% -2,1659 2,1659 302,1659 302,1659 222900 222900 552049 552049 300 300 743 743-3,19% 3,19% -8,7390 8,7390 282,7390 282,7390 189608 189608 478864 478864 274 274 692 692 1,75% 1,75% 4,6879 4,6879 263,3121 263,3121 171788 171788 410881 410881 268 268 641 641-0,39% 0,39% -0,9332 0,9332 238,9332 238,9332 137326 137326 332929 332929 238 238 577 577 2,80% 2,80% 6,3510 6,3510 220,6490 220,6490 120083 120083 279841 279841 227 227 529 529 1,06% 1,06% 2,2068 2,2068 205,7932 205,7932 101920 101920 240100 240100 208 208 490 490 4,82% 4,82% 9,8726 9,8726 195,1274 195,1274 94710 94710 213444 213444 205 205 462 462 1,51% 1,51% 2,8719 2,8719 187,1281 187,1281 83790 83790 194481 194481 190 190 441 441 0,73% 0,73% 1,2995 1,2995 175,7005 175,7005 72747 72747 168921 168921 177 177 411 411-5,38% 5,38% -8,2255 8,2255 161,2255 161,2255 57069 57069 139129 139129 153 153 373 373-4,95% 4,95% -7,2262 7,2262 153,2262 153,2262 51392 51392 123904 123904 146 146 352 352 ε,rel,rel ε x y x 2 y x ŷ
Korelacja ranga Spearmanov koefcjent korelacje ranga zračunava se kod sptvanja korelacje dvju varjabl ranga, tj. kod sptvanja povezanost dvaju redosljednh oblježja. ja. Računa se prema formul: gdje je: d = r x r y. r s n = 1 6 = 1 3 n d 2 n r x rang varjable X, r y rang varjable Y.
r S > 0 - poztvna korelacja ranga r S < 0 - negatvna korelacja ranga r S = 1 - savršena poztvna korelacja ranga r S = - 1 - savršena negatvna korelacja ranga
Prmjer: Novnar dvaju časopsa bral su menadžera era godne. Desetorc kanddata novnar pojednog časopsa su daval bodove kojma je mjerena njhova uspješnost. Izračunat ćemo stupanj korelacje krterja ocjenjvanja obaju urednštava: Redn broj kanddata Bodov dodjeljenh od urednštva časopsa A x B Rang vrjednost varjable X Rang vrjednost varjable Y y r( x ) ( ) Razlke rangova d r y Kvadrat razlka rangova 1 53 48 8 6 2 4 2 15 32 2 5-3 9 3 30 62 6 7-1 1 4 47 64 7 8-1 1 5 60 70 9 10-1 1 6 75 65 10 9 1 1 7 14 17 1 2-1 1 8 25 28 4.5 3 1.5 2.25 9 25 30 4.5 4 0.5 0.25 10 19 16 3 1 2 4 Ukupno - - 55 55 0 24.5 2 d
Objašnjenje rangova u 4. stupcu: najmanjoj vrjednost varjable X, 14, prdružen je rang 1. Sljedeć su po velčn n bodova 15 19, pa su njma prdružen rangov 2 3. nakon toga sljede dva po velčn n jednaka broja bodova, 25, a kako su na redu rangov 4 5, to je svakoj vrjednost prdružena artmetčka sredna th dvaju rangova, tj. 4,5. Sljed po velčn n 30 bodova, kojma je prdružen rang 6 td. r s n 2 d = 1 3 3 6 6 24.5 = 1 = 1 = 0.8515 n n 10 10 Spearmanov koefcjent korelacje ranga je dosta blzu jednce, što znač da je veza među rangovma dvju varjabl poztvna dosta jaka. Znač da je kanddat kojeg je jedno urednštvo ocjenlo dobro, prošao dobro kod drugog urednka obrnuto. To upućuje uje na dosta dobru usklađenost krterja obaju urednštva.