Korelacijska i regresijska analiza
Odnosi među pojavama Odnos među pojavama može biti: deterministički ili funkcionalni i stohastički ili statistički Kod determinističkoga se odnosa za svaku vrijednost jedne pojave točno zna vrijednost druge pojave. Kod stohastičkoga se odnosa na osnovi vrijednosti jedne pojave ne može e sa sigurnošću u predvidjeti vrijednost druge pojave. Primjeri determinističkih odnosa: stranica kvadrata i njegov opseg, količina ina prodane robe i dobiveni iznos novca. Primjeri stohastičkih odnosa: cijena neke robe i njezina potražnja nja, visina i starost stabla.
Osnovna su pitanja koja pri proučavanju odnosa između dviju ili više e pojava postavljamo: Jesu li statističke varijable povezane? Na koji su način povezane? Koliko su snažno no povezane? Može li se povezanost numerički izraziti? Istraživanjem i kvantificiranjem povezanosti među promatranim pojavama, odnosno varijablama bavi se korelacijska analiza. Utvrđivanjem analitičkog izraza povezanosti među pojavama bavi se regresijska analiza.
Dijagram raspršenja Polazna točka u korelacijskoj i regresijskoj analizi jest dijagram raspršenja enja. To je grafički prikaz točaka u koordinatnome sustavu koje predstavljaju niz uređenih parova (x 1, y 1 ), (x 2, y 2 ),,, ( (x n, y n ); pri čemu su x 1, x 2,, x n, vrijednosti jedne varijable (X ), a y 1, y 2,, y n, vrijednosti druge varijable (Y ). Uočimo li neku pravilnost u rasporedu točaka u dijagramu raspršenja enja, možemo zaključiti jesu li varijable korelirane ili nisu.
Primjeri dijagrama raspršenja Y Y X X Postoji korelacija Nema korelacije
Y Y X X Linearna i nelinearna korelacija
Y Y X X Korelacije pozitivnog i negativnog smjera
Y Y X X Jaka i slaba korelacija
Y X Potpuna korelacija
Koeficijenti korelacije Koeficijenti korelacije su pokazateljip stupnja statističke povezanosti. Ako se istražuje veza između dviju varijabli i ako je ta veza linearna, stupanj povezanosti izražava ava se koeficijentom linearne korelacije. Istražuje li se postojanje linearne veze jedne varijable u ovisnosti od dviju ili više e drugih varijabli, stupanj povezanosti izražava ava se koeficijentom višestruke linearne korelacije. Stupanj nelinearne ili krivolinijske veze između varijabli izražava ava se koeficijentom krivolinijske korelacije. Ako su promatrane pojave predstavljene redosljednim varijablama, stupanj njihove povezanosti izražava ava se koeficijentom korelacije ranga.
Pearsonov * koeficijent korelacije Pearsonov koeficijent korelacije (r ) mjeri jakost i smjer linearne korelacije. Računa se po formuli: r = σ gdje su σ x i σ y standardne devijacije varijabli X i Y, a σ xy je kovarijanca -aritmetička sredina umnožaka odstupanja varijabli od njihovih aritmetičkih sredina. Kovarijanca niza n uređenih parova vrijednosti obilježja X i Y računa se po formuli: σ x xy σ y, ili po formuli: σ xy σ = xy 1 n = n i= 1 n i=1 ( x x n i i y i x)( y i x y y) *Karl Pearson (1857. - 1936.), engleski matematičar, ar, statističar ar i biolog.
Uvijek je -1 r 1. Ako je r = 1, veza je funkcionalna; ako je r = 0, 0 ne postoji linearna korelacija među ispitivanim pojavama. Smjer korelacije jednak je predznaku od r. Stupanj jakosti korelacije okvirno je dan saljedećom tablicom: r 0 0-0,5 0,5-0,8 0,8-1 1 Jakost korelacije nema korelacije slaba korelacija srednje jaka korelacija jaka korelacija potpuna korelacija
Regresijska analiza Regresijska analiza bavi se određivanjem funkcionalne zavisnosti između dviju ili više varijabli. Analitički izraz te zavisnosti zove se regresijski model. Ako model izražava ava vezu između zavisne i jedne nezavisne varijable, riječ je o jednostavnom regresijskom modelu. Ako model izražava ava vezu između zavisne i dviju ili više e nezavisnih varijabli, riječ je o modelu višestruke regresije. Regresijski modeli mogu izražavati avati i linearne i nelinearne veze između promatranih pojava ili varijabli.
Najjednostavniji oblik zavisnosti, odnosno najjednostavniji regresijski model je model jednostavne linearne regresije*: gdje je a, b R. y = ax + b, Ovakvim modelom pokušavamo objasniti veličinu inu y preko samo jedne veličine ine (x),( a svi ostali utjecaji se zanemaruju. Takav je pristup u praksi opravdan jer smo najčešće e u nemogućnosti nosti sagledati sve utjecaje na veličinu inu y,, pa uzimamo u obzir samo najbitnije. *Model je linearan ako svaka varijabla u modelu ima potenciju 1.
No moguće e je da se analizom dođe do zaključka ka da je y u značajnoj ajnoj linearnoj zavisnosti od više varijabli. Tada bi određivali model oblika: y = ax 1 + ax 2 + + ax k + b, gdje je a i, b R, i = 1,, k. To je model višestruke linearne regresije.
Podaci za regresijsku analizu nastaju opažanjem anjem ili mjerenjem u statističkim pokusima. U gospodarskim primjenama regresijskog modela podaci se javljaju kao: 1. brojčane vrijednosti pojava za određene gospodarske ili prostorne jedinice 2. vremenski nizovi 3. kombinacija 1. i 2.
Model jednostavne linearne regresije Pretpostavimo da je zadan dijagram raspršenja od n točaka ( (x 1, y 1 ), ( (x 2, y 2 ),..., ( (x n, y n ), te da nas oblik tog dijagrama upućuje uje na postojanje linearne korelacije među obilježjima jima X i Y. Pravac regresije p ima jednadžbu bu: y = ax + b. Nagib (a)( ) i odsječak (b)( ) određuju o se metodom najmanjih kvadrata.
Metoda najmanjih kvadrata Metoda najmanjih kvadrata bazira se na uvjetu da zbroj kvadrata vertikalnih odstupanja točaka u dijagramu raspršenja od traženog pravca regresije bude minimalan. Y (x 1, y 1 ) ε 2 (x 2, y 2 ) y = ax + b (x 3 y 3 ) ε 1 ε 3 ax 1 + b ax 2 + b ax 3 + b X x 1 x 2 x 3 Vertikalna odstupanja od pravca regresije
Iz zadanog uvjeta dobije se: a σxy =, b = y a x, σ 2 x gdje je σ 2 x varijanca varijable X,, a σ xy kovarijanca između varijabli X i Y., Parametar «a» zove se regresijski koeficijent. On pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla promijeni za jedan. Parametar «b» je konstanta i pokazuje vrijednost zavisne varijable u slučaju kada je nezavisna varijabla jednaka nuli..
Primjedba Kao što smo promatrali pravac regresije veličine ine Y u odnosu na veličinu inu X, možemo promatrati i obrnuto: pravac regresije veličine ine X u odnosu na veličinu inu Y.. Taj pravac ima jednadžbu bu: x = a y + b,, gdje je: σxy a =, 2 b = x a y. σ y.
Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni su sljedeći podaci: Duljina klipa (X) 17,5 15,5 21,0 26,0 21,5 18,0 19,5 23,0 22,5 19,0 Broj zrna na klipu (Y) 480 456 564 714 602 558 640 648 562 565 Duljina klipa (X ) 20,5 17,0 16,5 15,5 22,0 25,0 21,0 18,0 19,5 23,0 Broj zrna na klipu (Y) 600 490 472 458 560 598 603 565 620 672 Na osnovi dobivenih podataka nacrtan je dijagram raspršenja. 700 650 600 550 500 450 5 10 15 20 25 Ovaj dijagram upućuje na zaključak da postoji linearna korelacija, pa ima smisla tražiti jednadžbu pravca regresije:
Za određivanje te jednadžbe treba izračunamti varijancu i kvarijancu, za zadane podatke. Izračunavanjem se dobiva: σ xy = 178,217; σ x = 2,96859; σ y = 71,9731. Uvrštavanjem u formule za određivanje nagiba i odsječka pravca regresije dobivamo: a = 178,217 2.96859 2 = 20,2232 b = y a x = 571,35 20,2232 20,125 = 164,358 Jednadžba pravca regresije je y = 20,2232x + 164,358. Njegov je graf dan je na sljedećoj slici. slici
700 650 600 550 500 450 5 10 15 20 25
Primjer 2: Promatrana je veza između broja proizvedenih proizvoda (X) i ukupnog profita (Y) (u tisućama kuna). Dobiveni podaci dani su u tablici: x i 100 105 110 120 145 150 y i 26 29 33 36 41 43 a) Nacrtajte dijagram raspršenja. b) Odredite jednadžbu pravca regresije koji pokazuje ovisnost ukupnog profita o broju proizvedenih proizvoda i označite značenje parametara. c) Ucrtajte pravac regresije u prethodni graf. d) Izračunajte regresijske vrijednosti i vrijednosti rezidualnih odstupanja.
Rješenje: enje: a) 50 45 40 35 30 25 20 Series1 15 10 5 0 0 20 40 60 80 100 120 140 160
b) x i y i x i 2 x i y i 100 26 10000 2600 105 29 11025 3045 110 33 12100 3630 120 36 14400 4320 145 41 21025 5945 150 43 22500 6450 730 208 91050 25990
x 730 = = 121,67, y 6 = 208 6 = 34,67 a = x i x y i 2 i nx y nx 2 = 25990 6 121,67 34,67 91050 6 121,67 2 = 680,2 2228,47 = 0,30523 b = y bx = 34,67 0,30523 121,67 = 2,46733 Jednadžba pravca regresije je: y = 0,30523x 2,46733
d) 50 45 40 y = 0,306x - 2,5597 R 2 = 0,9446 35 30 25 20 Series1 Linear (Series1) 15 10 5 0 0 20 40 60 80 100 120 140 160
d) Izračunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja. x i y i ŷi ε i 100 26 28,05567-2,05567 105 29 29,58182-0,58182 110 33 31,10797 1,89203 120 36 34,16027 1,83973 145 41 41,79102-0,79102 150 43 43,31717-0,31717 730 208 208,0139 0 y i ˆ = yi
Primjer 3: Analiziraju se ukupni troškovi proizvodnje u jednom poduzeću. u. Na temelju kvartalnih podataka utvrđene su količine ine proizvodnje i ukupni troškovi proizvodnje. Podaci su dani u tablici. (a) Nacrtajte dijagram rasipanja. Što zaključujete ujete iz dijagrama? (b) Procijenite vrijednosti parametara regresijskog modela i protumačite njihovo značenje. (c) Izračunajte regresijske vrijednosti. (d) Odredite vrijednosti rezidualnih odstupanja.
300 300 743 743 274 274 692 692 268 268 641 641 238 238 577 577 227 227 529 529 208 208 490 490 205 205 462 462 190 190 441 441 177 177 411 411 153 153 373 373 146 146 352 352 Uk Uk. tro. troškovi kovi Proizvodnja Proizvodnja
1303333 1303333 3134543 3134543 2386 2386 5711 5711 222900 222900 552049 552049 300 300 743 743 189608 189608 478864 478864 274 274 692 692 171788 171788 410881 410881 268 268 641 641 137326 137326 332929 332929 238 238 577 577 120083 120083 279841 279841 227 227 529 529 101920 101920 240100 240100 208 208 490 490 94710 94710 213444 213444 205 205 462 462 83790 83790 194481 194481 190 190 441 441 72747 72747 168921 168921 177 177 411 411 57069 57069 139129 139129 153 153 373 373 51392 51392 123904 123904 146 146 352 352 x i y i x i 2 y i x i
5711 2386 x = = 519,1818 y = = 216,9091 11 11 1303333 11 519,1818 216,9091 64565,17 a = = 2 3134543 11 519,1818 169495,84 b y = 216,9091 0,38092 519,1818 = 19,14236 = 19,14236 + 0,38092x = 0,38092
- 0,0000 0,0000 2386,0001 2386,0001 1303333 1303333 3134543 3134543 2386 2386 5711 5711-0,72% 0,72% -2,1659 2,1659 302,1659 302,1659 222900 222900 552049 552049 300 300 743 743-3,19% 3,19% -8,7390 8,7390 282,7390 282,7390 189608 189608 478864 478864 274 274 692 692 1,75% 1,75% 4,6879 4,6879 263,3121 263,3121 171788 171788 410881 410881 268 268 641 641-0,39% 0,39% -0,9332 0,9332 238,9332 238,9332 137326 137326 332929 332929 238 238 577 577 2,80% 2,80% 6,3510 6,3510 220,6490 220,6490 120083 120083 279841 279841 227 227 529 529 1,06% 1,06% 2,2068 2,2068 205,7932 205,7932 101920 101920 240100 240100 208 208 490 490 4,82% 4,82% 9,8726 9,8726 195,1274 195,1274 94710 94710 213444 213444 205 205 462 462 1,51% 1,51% 2,8719 2,8719 187,1281 187,1281 83790 83790 194481 194481 190 190 441 441 0,73% 0,73% 1,2995 1,2995 175,7005 175,7005 72747 72747 168921 168921 177 177 411 411-5,38% 5,38% -8,2255 8,2255 161,2255 161,2255 57069 57069 139129 139129 153 153 373 373-4,95% 4,95% -7,2262 7,2262 153,2262 153,2262 51392 51392 123904 123904 146 146 352 352 u i,rel i,rel u i x i y i x i 2 y i x i i ŷ