11. glava PROSTA KORELACIONA I REGRESIONA ANALIZA

Σχετικά έγγραφα
Prosta linearna regresija (primer)

3.1 Granična vrednost funkcije u tački

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

numeričkih deskriptivnih mera.

Mašinsko učenje. Regresija.

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Uvod u neparametarske testove

Elementi spektralne teorije matrica

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

IZVODI ZADACI (I deo)

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

Ispitivanje toka i skiciranje grafika funkcija

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Računarska grafika. Rasterizacija linije

SISTEMI NELINEARNIH JEDNAČINA

Teorijske osnove informatike 1

41. Jednačine koje se svode na kvadratne

Str

III VEŽBA: FURIJEOVI REDOVI

5. Karakteristične funkcije

Osnovne teoreme diferencijalnog računa

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Regresija i korelacija

Testiranje statistiqkih hipoteza

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

ASIMPTOTE FUNKCIJA. Dakle: Asimptota je prava kojoj se funkcija približava u beskonačno dalekoj tački. Postoje tri vrste asimptota:

RAČUNSKE VEŽBE IZ PREDMETA POLUPROVODNIČKE KOMPONENTE (IV semestar modul EKM) IV deo. Miloš Marjanović

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Računarska grafika. Rasterizacija linije

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

Uvod u neparametarske testove

IZVODI ZADACI (I deo)

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Program testirati pomoću podataka iz sledeće tabele:

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

5 Ispitivanje funkcija

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Deljivost. 1. Ispitati kada izraz (n 2) 3 + n 3 + (n + 2) 3,n N nije deljiv sa 18.

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

7 Algebarske jednadžbe

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Operacije s matricama

Zavrxni ispit iz Matematiqke analize 1

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

nvt 1) ukoliko su poznate struje dioda. Struja diode D 1 je I 1 = I I 2 = 8mA. Sada je = 1,2mA.

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

RIJEŠENI ZADACI I TEORIJA IZ

ELEKTROTEHNIČKI ODJEL

Elektrotehnički fakultet univerziteta u Beogradu 17.maj Odsek za Softversko inžinjerstvo

4 Numeričko diferenciranje

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

NEPARAMETRIJSKE TEHNIKE

Izbor statističkih testova Ana-Maria Šimundić

3 Populacija i uzorak

Linearna algebra 2 prvi kolokvij,

HEMIJSKA VEZA TEORIJA VALENTNE VEZE

Uvod Teorija odlučivanja je analitički i sistematski pristup proučavanju procesa donošenja odluka Bez obzira o čemu donosimo odluku imamo 6 koraka za

Na grafiku bi to značilo :

SKUPOVI I SKUPOVNE OPERACIJE

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

1 UPUTSTVO ZA IZRADU GRAFIČKOG RADA IZ MEHANIKE II

Matematička analiza 1 dodatni zadaci

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

Linearna algebra 2 prvi kolokvij,

Skup svih mogućih ishoda datog opita, odnosno skup svih elementarnih događaja se najčešće obeležava sa E. = {,,,... }

, i = 1, 2, n. Tabela 1 Koeficijent proste korelacije. Standardizovani regresioni koeficijent. Regresioni koeficijent b

( , 2. kolokvij)

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

4.7. Zadaci Formalizam diferenciranja (teorija na stranama ) 343. Znajući izvod funkcije x arctg x, odrediti izvod funkcije x arcctg x.

REGRESIONA I KORELACIONA ANALIZA

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Ĉetverokut - DOMAĆA ZADAĆA. Nakon odgledanih videa trebali biste biti u stanju samostalno riješiti sljedeće zadatke.

Univerzitet u Nišu, Prirodno-matematički fakultet Prijemni ispit za upis OAS Matematika

APROKSIMACIJA FUNKCIJA

1 Promjena baze vektora

X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

Dvanaesti praktikum iz Analize 1

PID: Domen P je glavnoidealski [PID] akko svaki ideal u P je glavni (generisan jednim elementom; oblika ap := {ab b P }, za neko a P ).

Prediktor-korektor metodi

18. listopada listopada / 13

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

Statističke metode. doc. dr Dijana Karuović

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

POTPUNO RIJEŠENIH ZADATAKA PRIRUČNIK ZA SAMOSTALNO UČENJE

TRIGONOMETRIJA TROKUTA

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

Transcript:

PROSTA KORELACIONA I REGRESIONA ANALIZA CILJEVI POGLAVLJA Nakon čitanja ovoga poglavlja bićete u stanju da: 1. shvatite razliku između funkcionalne i stohastičke veze i razumete stohastički model. znate kada se primenjuje korelacija, a kada regresija 3. primenite i shvatite koeficijent proste linearne korelacije i njegova ograničenja 4. formulišete prost linerani regresioni model, i da na osnovu njega ocenite i predvidite vrednost jedne pojave na osnovu vrednosti neke druge 5. shvatite logiku i primenite jedan od najvažnijih statističkih metoda, metod najmanjih kvadrata 6. interpretirate regresioni i korelacioni izlaz iz modernih statističkih softvera 11. glava U prethodnim poglavljima upoznali smo se sa metodima statističkog zaključivanja, odnosno kako se na osnovu informacije iz uzorka donose zaključci (putem ocenjivanja ili testiranja hipoteza) o nepoznatim karakteristikama osnovnog skupa. Sada ćemo naše interesovanje usmeriti na istraživanje međusobnih veza i uticaja dve ili više pojava. Tako, na primer, može nas interesovati da ispitamo zavisnost između vremena provedenog u spremanju statistike i ocene na ispitu, dohotka i izdataka za kulturu domaćinstava, između zarada zaposlenih i godina školovanja, kamatne stope i ponude novca, izdataka za propagandu i prodaje, troškova za istraživanje i profita firme, broja kriminalnih dela sa jedne strane i stope nezaposlenosti i stope inflacije sa druge strane, itd. U svakom od navedenih slučajeva analizu sprovodimo pomoću dva, verovatno najpoznatija statistička metoda, korelacije i regresije. Kao i do sada, naše zaključivanje zasnivaće se na uzorku. Ali sada ćemo na osnovu uzorka ispitivati kako su varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave. Cilj našeg istraživanja neće se naravno odnositi na uzorak, već na osnovni skup iz koga je uzorak izvučen.

50 OSNOVI STATISTIKE 11.1 FUNKCIONALNA I STOHASTIČKA VEZA Međusobne veze između pojava (promenljivih) možemo podeliti u dve grupe: funkcionalne i stohastičke. Funkcionalna (naziva se još i deterministička ili egzaktna) veza javlja u slučaju kada jednoj vrednosti nezavisne promenljive X odgovara samo jedna, tačno određena, vrednost zavisne promenljive Y. Tako, na primer, površina kvadrata izračunava se pomoću formule P = a. Za bilo koju željenu vrednost stranice kvadrata a, možemo egzaktno izračunati površinu P, jednostavnom zamenom numeričke vrednosti na desnoj strani jednakosti. Determinističke veze se retko sreću u društvenim naukama i ekonomiji. Posmatrajmo sada međuzavisnost dve ekonomske pojave, recimo, izdatke za propagandu (oglašavanje) kompjuterske opreme (kao nezavisne promenljive) i prihod od prodaje te opreme (kao zavisne promenljive). Prvo pitanje koje se ovde postavlja je: da li postoji funkcionalna veza između ove dve pojave? Drugačije rečeno, da li na osnovu poznavanja izdataka za propagandu možemo egzaktno da predvidimo nivo prihoda od prodaje, na primer, u vidu relacije Prihod od prodaje = 5 Troškovi reklamiranja (11.1) koja bi važila za sve firme u Srbiji? To bi praktično značilo da ako neka firma uloži 1000 evra u reklamiranje, prihod od prodaje bi iznosio tačno 5000 evra. Složićemo se da je odgovor negativan i to iz više razloga. Prodaja kompjuterske opreme ne zavisi samo od propagande, već i od niza drugih faktora, kao što su cena opreme, cena konkurentskih proizvoda, dohotka potencijalnih kupaca itd. Čak i kad bismo u model uključili veliki broj faktora od kojih zavisi prodaja, ne bi bilo moguće predvideti egzaktnu vrednost prodaje. Zbog čega? Zbog toga što na pojave u društvu i ekonomiji deluju specifični nepredvidljivi uticaji psihološke prirode, kao i različiti slučajni uticaji. Zato ni nismo u stanju da na osnovu poznavanja pojedinih vrednosti nezavisne promenljive u potpunosti odredimo vrednosti zavisne promenljive. Ipak, očekujemo da postoji određena pozitivna veza između propagande i prodaje, u smislu: veći izdaci za propagandu veća prodaja. Ovakva veza je slabija od funkcionalne i naziva se stohastička 1 (eng. stochastical) veza. Kod stohastičkih veza jednoj vrednosti nezavisne promenljive odgovara čitav niz mogućih vrednosti zavisne promenljive. U našoj formuli, odnosno modelu, (11.1), kod različitih firmi, za isti nivo izdataka za propagandu očekivali bismo različiti nivo prodaje. Drugim rečima, takav model ne samo da je suviše jednostavan, nego bi u praksi pokazivao manje ili veće greške. Kako onda da modeliramo veze između pojava u ekonomiji, koje su po svojoj prirodi stohastičke? Stohastičke veze između dve pojave modeliraćemo tako što ćemo u 1 Termin "stohastički" potiče od starogrčke reči στοχαστικός, što znači ciljati ili pogađati.

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 51 model, pored zavisne i nezavisne promenljive, uključiti još jednu komponentu, koja će obuhvatiti sve ostale faktore (osim X) koji utiču na Y. Bez uključivanja te komponente jasno je da bi naš model (11.1) za različite vrednosti X davao pogrešne vrednosti Y. Ta komponenta deluje na nepredvidljiv, slučajan način na Y. Kako da nazovemo tu komponentu koja na sasvim slučajan način dovodi do greške pri predviđanju u model (11.1)? Nazvaćemo je stohastički član ili slučajna greška modela, i već smo imali prilike da je upoznamo kod modela analize varijanse. Dakle, umesto relacije (11.1) međuzavisnost posmatrane dve pojave se neuporedivo bolje opisuje modelom Prihod od prodaje = 5 Izdaci za propagandu + Slučajna greška (11.) Ovakav model dozvoljava da za razne vrednosti X imamo više različitih vrednosti Y. Generalno, stohastički model, odnosno veza, može se prikazati na sledeći način. Generalna forma stohastičkog modela Y = Deterministički član + stohastički član (11.3) Posmatranjem modela (11.3) nameće se logično pitanje: kako je uopšte moguće analizirati takav model, ako on uključuje potpuno nepredvidljivu komponentu, preciznije rečeno, slučajnu promenljivu? Statističari su pokazali da se takvi modeli ipak mogu koristiti tako što će se uvesti određene pretpostavke o stohastičkom članu modela. Za sada ukažimo samo na jednu od njih. Budući da stohastički član u različitim situacijama deluje na slučajan način, nekada tako što utiče pozitivno na Y, nekada negativno, pretpostavićemo da se ti uticaji u zbiru potiru, odnosno da je u proseku njegov uticaj jednak nuli. Kako je stohastički član, u stvari, slučajna promenljiva, koji statistički pokazatelj označava prosek te slučajne promenljive? Podsetimo se, to je, očekivana vrednost E(X). Dakle, E(stohastičkog člana) = 0. Ako je u modelu (11.3) zavisna promenljiva Y funkcija stohastičkog člana, a ovaj je po svojoj prirodi slučajna promenljiva, koja je statistička priroda Y? Iz glave 4 znamo da je svaka funkcija slučajne promenljive i sama slučajna promenljiva. Zaključujemo stoga da je i Y slučajna promenljiva. Ostaje još samo da odredimo čemu je jednak prosek, tj. očekivana vrednost Y. Prosek Y, na osnovu relacije (11.3), biće jednak proseku zbira determinističkog i stohastičkog člana. Kako je prosek stohastičkog člana jednak nuli, zaključujemo da je Prosek Y = Deterministički član. (11.4) Da sumiramo: u ekonomiji stohastički model mnogo bolje opisuje realnost od determinističkog. On uvek u sebi uključuje bar jednu slučajnu promenljivu. Usled toga se u literaturi u poslednje vreme reči "stohastički" i "slučajni" shvataju kao sinonimi. Videti, na primer, Voght P., Dictionary of Statistics & Methodology a Nontethical

5 OSNOVI STATISTIKE Veze kod kojih porastû (opadanju) vrednosti nezavisne promenljive X istovremeno odgovara porast (opadanje) zavisne promenljive Y nazivamo direktnim vezama. Tipičan primer je odnos između primenjene količine određenog veštačkog đubriva i prinosa neke poljoprivredne kulture. Sa druge strane, ako porastû jedne promenljive odgovara opadanje druge, radi se o inverznim vezama (na primer, sa porastom cene avionskih karata opada broj putnika, uz konstantni realni dohodak). Naravno, ukoliko se ustanovi da sa promenama vrednosti jedne pojave druga promenljiva ostaje konstantna, zaključićemo da između njih ne postoji nikakva zavisnost. U stvarnosti, između dve ili više pojava moguće je postojanje najrazličitijih oblika veza, počev od onih koje se matematički mogu iskazati jednostavnom formulom, pa do onih veoma kompleksnih. Najjednostavniji oblik veze između pojava je linearna veza i u ovoj knjizi zadržaćemo se samo na takvim vezama. 11. RAZLIKA IZMEĐU REGRESIONE I KORELACIONE ANALIZE Prilikom istraživanja međuzavisnosti varijacija dve ili više pojava u statistici se primenjuju metodi regresione i korelacione analize. Iako su ovi statistički metodi u bliskoj vezi i međusobno se dopunjuju, između njih postoje i značajne razlike. Kod korelacije, pri analizi dve pojave svejedno je koja se od njih označava kao nezavisna, a koja kao zavisna promenljiva - dobija se identičan rezultat. Međutim, kao što ćemo videti u sledećoj glavi, pri ispitivanju korelacione veze između tri ili više pojava prethodno jedna od njih se mora definisati kao zavisna promenljiva, dok ostale dobijaju ulogu nezavisnih promenljivih. Cilj korelacione analize je da se ispita da li između varijacija posmatranih pojava postoji kvantitativno slaganje i, ako postoji, u kom stepenu. Kod regresione analize nužno je unapred identifikovati koja pojava će imati ulogu zavisne promenljive, a koja nezavisne promenljive. U statistici se kod regresije najčešće ne koristi termin "nezavisna promenljiva" 3, već objašnjavajuća promenljiva ili regresor. Naziva se objašnjavajuća jer pomoću nje pokušavamo da objasnimo varijacije zavisne promenljive. Koja promenljiva će biti izabrana za objašnjavajuću utvrđuje se na osnovu prethodnih teorijskih ili empirijskih saznanja, ili pretpostavki o prirodi analiziranih pojava. Guide for the Social Sciences, Sage, Thousand Oaks, 005, str. 31, ili: http://mathworld.wolfram.com/stochastic.html 3 Kod regresije se izbegava izraz nezavisna promenljiva jer to implicira da je X uzrok, a Y posledica. Međutim, regresionom analizom je nemoguće dokazati uzročnu vezu između pojava.

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 53 Svrha regresije jeste da se utvrdi oblik veze, odnosno zavisnosti između posmatranih pojava. To se postiže pomoću odgovarajućeg regresionog modela. Regresioni model je takav stohastički model koji kroz matematičku formulu i niz odgovarajućih pretpostavki najbolje opisuje kvantitativnu zavisnost između varijacija posmatranih pojava u realnosti. Regresioni model nije sam po sebi cilj regresije, već sredstvo koje nam služi da ocenimo i predvidimo vrednosti zavisne promenljive za željene vrednosti objašnjavajuće promenljive. Cilj regresione analize je da se odredi onaj regresioni model koji najbolje opisuje vezu između pojava i da se na osnovu toga modela ocene i predvide vrednosti zavisne promenljive Y za odabrane vrednosti objašnjavajuće promenljive X. Na osnovu navedenog jasno je da regresiona analiza ima daleko veći značaj u praktičnim istraživanjima od korelacije. Važno je napomenuti da pomoću regresije i korelacije nismo u stanju da otkrijemo da li između pojava postoji uzročno-posledična veza, u smislu da je jedna pojava uzrok, a druga posledica. To se može utvrditi drugim metodima kvantitativne ili pomoću kvalitativne analize. Prilikom istraživanja međusobnih veza dve promenljive primenjuju se metodi proste (eng. simple) regresione i korelacione analize, a u slučaju posmatranja više promenljivih, metodi višestruke (eng. multiple) regresije i korelacije. Reč "prosta" znači samo to da su u pitanju dve pojave, a nikako da je analiza jednostavna. U ovoj knjizi zadržaćemo se samo na prostoj korelaciji i regresiji. 11.3 DIJAGRAM RASPRŠENOSTI Dijagram raspršenosti (eng. scatter diagram) je dijagram kojim se prikazuje veza između dve kvantitativne promenljive. Bitno je shvatiti da se vrednosti ovih promenljivih dobijaju na osnovu merenja na istim jedinicama posmatranja (na primer istim studentima, istim firmama itd.). Na osnovu merenja dolazi se do uređenih parova podataka (x 1,y 1 ), (x,y ),...itd. Pretpostavimo da nas interesuje da li između visine i težine studenata Vašeg univerziteta postoji kvantitativno slaganje. Kod svakog studenta morali bismo da izmerimo visinu i težinu i na taj način formirali bismo uređenu listu parova podataka. Svaki od tih parova sastojao bi se od dva broja jednog koji bi označavao težinu određenog studenta i drugi koji bi se odnosio na njegovu visinu, na primer, (75 kg ; 185 cm). Osnovni skup u ovom slučaju čine svi parovi vrednosti (x i, y i ), pa kažemo da on sadrži sve realizovane vrednosti dvodimenzionalne promenljive. Dijagram raspršenosti nema smisla koristiti ako nemamo uređene parove podataka, na primer nema smisla grafički prikazivati podatke za visinu 10 studenata u Kragujevcu i težinu 10 studenata u Subotici. Ovo ujedno važi i za regresionu i korelacionu analizu. Dijagram raspršenosti se konstruiše u pravouglom koordinatnom sistemu. Pri

54 OSNOVI STATISTIKE tome se na apscisnu osu nanose jedinice pojave koju smo označili nezavisnom (u regresionoj analizi objašnjavajućom) promenljivom X, a na ordinatnu osu jedinice zavisne promenljive Y. Ucrtavanjem svih empirijskih parova podataka može se dobiti važna slika o eventualnom postojanju, obliku, smeru i jačini veze između posmatranih pojava. PRIMER 11.1: Uzmimo podatke Tabele 11.1, koja pokazuje izdatke za propagandu (u milionima dinara) i prihod od prodaje (u 100 miliona dinara), deset, na slučaj odabranih računarskih firmi u Srbiji. Tabela 11.1 Izdaci za propagandu i prihod od prodaje 10 računarskih firmi, na osnovu slučajnog uzorka Firma A B C D E F G H I J Izdaci za propagandu 8 10 3 3 7 5 6 5 4 Prihod od prodaje 10 14 3 5 4 1 8 9 7 6 Koju promenljivu označiti kao X, a koju kao Y? Odgovor zavisi od toga da li sprovodimo korelacionu ili regresionu analizu. Ako istražujemo vezu između posmatrane dve pojave, potpuno je svejedno da li ćemo na X osu nanositi vrednosti prve ili druge promenljive. Međutim, ako želimo da ispitamo da li se na osnovu ulaganja u propagandu mogu objasniti varijacije prodaje, kao objašnjavajuću promenljivu odabraćemo izdatke za propagandu. Budući da ćemo podatke Tabele 11.1 koristiti i u regresionoj analizi, izdatke za propagandu ćemo označiti kao X, a prodaju kao Y. Podatke uzorka prikazaćemo grafički pomoću dijagrama raspršenosti na Slici 11.1. 14 Dijagram raspršenosti 1 10 Prihod 8 6 4 0 0 4 Izdaci 6 8 10 Slika 11.1 Dijagram raspršenosti za podatke Tabele 11.1 Dijagram raspršenosti na Slici 11.1 pokazuje da između varijacija posmatranih pojava postoji kvantitativno slaganje. Naime, sa porastom ulaganja u propagandu raste i prihod od prodaje. Dakle, vidimo da se radi o direktnoj vezi između pojava. Takođe, raspored tačaka se približno grupiše u

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 55 vidu prave linije, što nam govori da je u pitanju linearna veza. Međutim, sve tačke se ne nalaze na samoj pravoj liniji, jer bi se onda radilo o funkcionalnom slaganju, što je izuzetno redak slučaj u ekonomiji. U pitanju je, dakle, stohastička veza, kod koje individualni slučajevi pokazuju odstupanja od opšte pravilnosti. Ukoliko su tačke više raspršene u odnosu na pravu liniju, utoliko je i slabija međuzavisnost dve pojave, i obrnuto. U slučaju kada je raspored tačaka sasvim raspršen zaključuje se da ne postoji nikakvo kvantitativno slaganje varijacija dve pojave. Na Slici 11. prikazane su različite mogućnosti povezanosti varijacija dve pojave na odgovarajućim dijagramima raspršenosti. Slika 11. Primeri različitih oblika veza na dijagramima raspršenosti Od navedenih grafičkih prikaza obratimo pažnju na onaj pod i) zbog njegove posebne važnosti u daljem izlaganju. Iako na prvi pogled izgleda da postoji pravolinijska funkcionalna veza između pojava, to nije tačno, jer za bilo koje vrednosti promenljive X promenljiva Y ostaje konstantna. Takođe, upozorimo na jednu specifičnost dijagrama raspršenosti na Slici 11.1 u odnosu na dijagrame sa Slike 11.. Naime, ranije smo naveli da kod stohastičke veze za svaku vrednost X postoji čitav niz vrednosti Y, a to se ne može uočiti na Slici

56 OSNOVI STATISTIKE 11.1 (izuzev što za vrednosti X = 3 i X = 5 imamo po dve vrednosti Y). Razlog je u tome što u našem primeru raspolažemo sa relativno malim uzorkom od samo 10 firmi. Na osnovu svega navedenog možemo zaključiti da dijagramom raspršenosti grafički prikazujemo varijacije dve pojave u cilju sagledavanja: 1. da li između njih postoji kvantitativno slaganje,. ako slaganje postoji, koji je njegov oblik (linearni ili krivolinijski), 3. koji je smer slaganja (direktni ili inverzni), i 4. koja je jačina slaganja. Bez dijagrama raspršenosti često se u praksi mogu dobiti potpuno nevalidni zaključci; stoga preporučujemo da se obavezno, pre bilo kakve kvantitativne analize, podaci prikažu na ovom dijagramu. 11.4 PROSTA KORELACIONA ANALIZA Podsetimo se da je svrha korelacione analize da se utvrdi da li između varijacija posmatranih pojava postoji kvantitativno slaganje (korelaciona veza) i, ako postoji, u kom stepenu. Ako se pri tome posmatraju dve pojave, govori se o prostoj korelaciji, a prilikom analize više pojava o višestrukoj korelaciji. Za razliku od regresije kod proste korelacije se ne pravi razlika između zavisne i nezavisne promenljive obe posmatrane pojave imaju jednaki status. Preciznije rečeno, obe posmatrane pojave tretiraju se kao slučajne promenljive. Dakle, potpuno je svejedno koju pojavu ćemo označiti kao X, a koju kao Y, pošto se dobijaju identični rezultati. Tako se, na primer, posmatranjem uspeha studenata na ispitu iz matematike i ispitu iz statistike može uočiti tendencija da će studenti koji imaju više ocene iz matematike, imati više ocene iz statistike, i obrnuto. Naravno, ovo važi u masi slučajeva, a ne kod svakog pojedinačnog studenta. Međutim, ne možemo kategorički nijednu od navedenih pojava označiti kao nezavisnu promenljivu. Slično, pri ispitivanju veze između stope inflacije i stope nezaposlenosti primećuju se slične tendencije porasta ili opadanja, ali nismo u mogućnosti da preciziramo koja je od njih nezavisna promenljiva. Zbog toga se kao cilj ispitivanja ne postavlja istraživanje jedne pojave u funkciji druge. 11.4.1 Koeficijent proste linearne korelacije Pomoću koeficijenta proste linearne korelacije ispituje se da li između varijacija dve pojave postoji linearna (pravolinijska) veza. Kao prvi korak u korelacionoj analizi, empirijski podaci se prikazuju grafički dijagramom raspršenosti da bi se sagledalo da li se oni približno grupišu oko prave linije. PRIMER 11.: Pretpostavimo da nas interesuje da li postoji linearna kvantitativna veza između broja zaposlenih i prihoda 500 najbolje rangiranih kompanija na svetu u 007. godini, na osnovu liste koju je sastavljena u

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 57 poznatom američkom poslovnom časopisu Fortune 4. U ovom slučaju osnovni skup se sastoji od 500 parova podataka. Da bismo odredili da li postoji korelacija u skupu morali bismo obuhvatiti svih 500 kompanija. Kako za neke od kompanija nisu dostupni podaci o broju zaposlenih, i, sajt je tako organizovan da iziskuje puno vremena da bi se došlo do podataka o broju zaposlenih, uzeli smo slučajan uzorak od 8 kompanija i dobili podatke kao u Tabeli 11.. Kompanija Tabela 11. Broj zaposlenih (u 000) i prihod (u milijardama $) 8 kompanija u 007. Tojota General Motors Walt Disney Pepsi Coca Microsoft cola Nike Sony Broj zaposlenih 99,4 80 133 168 71 71 8 163 Prihod 04,7 07,35 34,8 35,14 44,3 4,1 14,9 70,9 Budući da je svejedno koju ćemo pojavu identifikovati kao nezavisnu promenljivu, označimo, na primer, broj zaposlenih sa X, a prihod sa Y. Podatke slučajnog uzorka najpre ćemo prikazati pomoću dijagrama raspršenosti, na Slici 11.3. Dijagram raspršenosti za broj zaposlenih i prihod 00 150 Prihod 100 50 0 0 50 100 150 00 Broj zaposlenih 50 300 Slika 11.3 Broj zaposlenih i prihod 8 kompanija u slučajnom uzorku Slika 11.3 sugeriše da između varijacija posmatrane dve pojave u uzorku postoji kvantitativna veza, jer se uočava generalna tendencija da kompanije sa više zaposlenih ujedno imaju i veće prihode. Budući da se tačke približno grupišu oko prave linije ima smisla ispitati postojanje i jačinu linearne veze između posmatrane dve pojave. 4 Rang lista se naziva Fortune Global 500 i podaci su dostupni na sajtu: http://money.cnn.com/magazines/fortune/global500/007/

58 OSNOVI STATISTIKE Kao mera jačine proste linearne korelacione veze u uzorku koristi se relativna mera, koja se naziva Pirsonov koeficijent proste linearne korelacije, ili koeficijent proste linearne korelacije, ili često samo koeficijent korelacije. Formulisao ga je Karl Pirson 5 1896. godine. Ovaj koeficijent pokazuje stepen pravolinijskog kvantitativnog slaganja dve pojave. Označava se sa r i izračunava po formuli: Koeficijent proste linearne korelacije u uzorku r = n xy x y n x ( x) n y ( y) (11.5) gde je n veličina uzorka (broj parova podataka). Primećujemo da je formula (11.5) simetrična u odnosu na promenljive X i Y. Samim tim, potpuno je svejedno koju smo promenljivu označili sa X, a koju sa Y. Pirsonov koeficijent proste linearne korelacije, r, pokazuje stepen linearnog (pravolinijskog) kvantitativnog slaganja varijacija između dve numeričke promenljive (obeležja). Koeficijent proste linearne korelacije, kao relativna mera, uzima vrednosti od -1 do +1. Ukoliko uzima pozitivne vrednosti, korelacija između pojava je direktna ili pozitivna (obe pojave pokazuju istosmerne varijacije). U slučaju kada je r < 0, veza je inverzna ili negativna (kada jedna pojava raste druga opada, i obrnuto). Ako između posmatranih pojava postoji funkcionalna veza (sve empirijske tačke se nalaze tačno na pravoj liniji), govorimo o savršenoj (perfektnoj) korelaciji. Tada koeficijent korelacije uzima vrednost -1 (ako je veza inverzna) ili +1 (ako je veza direktna). Što je koeficijent korelacije po apsolutnoj vrednosti bliži jedinici, sve je jača korelaciona veza između pojava. Nasuprot tome, što je bliži nuli linearna veza je slabija. U ekstremnoj situaciji, kada koeficijent korelacije uzme vrednost jednaku nuli, zaključuje se da nema linearne veze između pojava. Obrnuto, ne važi. Dakle, kada se na osnovu uzorka dobije koeficijent korelacije jednak nuli, pogrešno je zaključiti da između dve pojave ne postoji kvantitativno slaganje. U takvom slučaju između pojava možda postoji neki oblik krivolinijskog slaganja (kao na Slici 11.4 f) ili uopšte nema nikakve kvantitativne veze (kao na Slici 11.4 e). Dakle, na osnovu nultog koeficijenta korelacije, bez dijagrama raspršenosti nismo u poziciji da zaključimo šta je od toga istina. 5 Osnovne ideje o korelaciji prvi je sugerisao Frensis Golton 1888. u članku "Corelations and their measurements, chiefly from anthropometric data. Proc R Soc London, 45, str. 19-47". Golton je prvi uveo oznaku r za koeficijent korelacije. Usled ovoga u poslednje vreme koeficijent proste korelacije neki autori nazivaju Golton-Pirsonov koeficijent.

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 59 Različite vrednosti koje može da uzme koeficijent korelacije r, u zavisnosti od stepena pravolinijskog kvantitativnog slaganja dve pojave, prikazane su na Slici 11.4. Slika 11.4 Raspršenost tačaka i odgovarajuće vrednosti r U statističkoj literaturi ne postoji potpuno slaganje u pogledu tumačenja značenja pojedinih mogućih vrednosti koeficijenta proste linearne korelacije. Ipak, možemo usvojiti sledeću grubu skalu, datu na Slici 11.5. Inverzna savršena Inverzna izražena Nije Izražena Direktna izražena Direktna savršena - 1-0,9-0,8-0,7 0 0,7 0,8 0,9 1 Inver zna jaka Inverzna veoma jaka Nema linearne veze Slika 1.5 Tumačenje vrednosti r Direktna jaka Direktna veoma jaka PRIMER 11. (nastavak): Da bismo izračunali koeficijent korelacije za

60 OSNOVI STATISTIKE podatke Tabele 11. formiraćemo Tabelu 11.3: Tabela 11.3 Izračunavanje koeficijenta proste linearne korelacije za podatke u Tabeli 11. Broj zaposlenih x Prihod y xy x y 99,4 80 133 168 71 71 8 163 04,7 07,35 34,8 35,14 44,3 4,1 14,9 70,9 6187,18 58058,00 4559,4 5903,5 3145,30 1711,10 417,0 11556,70 89640,36 78400 17689 84 5041 5041 784 6569 4190,09 4994,0 1175,11 134,81 196,49 580,81,01 506,81 113,4 635,67 146638,4 51388,36 95098,17 Primenimo formulu (11.5) da bismo izračunali r: 8 146638, 4 113, 4 635,67 401783,9 r = = = 0,9 8 51388,36 113, 4 8 95098,17 635,67 438387 Rezultat ukazuje na direktnu (pozitivnu), veoma jaku, linearnu vezu između broja zaposlenih i prihoda osam kompanija sa Fortune liste 500 najuspešnijih kompanija u 007. godini. Pošto smo prilikom izračunavanja koeficijenta korelacije r koristili podatke slučajnog uzorka, važno je shvatiti da r ukazuje samo na postojanje korelacije u uzorku. Međutim, nas interesuje da li u osnovnom skupu iz koga potiče uzorak postoji korelaciona veza? Lako je, stoga zaključiti, da r predstavlja ocenu nepoznatog koeficijenta korelacije u osnovnom skupu. Stoga je potrebno testirati značajnost dobijene ocene. 11.4. Testiranje značajnosti ocene koeficijenta proste linearne korelacije Koeficijent proste linearne korelacije u osnovnom skupu označava se sa grčkim slovom ρ (čita se: ro). On pokazuje jačinu pravolinijske veze između dve posmatrane pojave u osnovnom skupu. Budući da je on numerički pokazatelj skupa, jasno nam je da se radi o parametru. Njegove pojedinačne vrednosti se tumače istovetno kao i vrednosti koeficijenta korelacije u uzorku r. Da bismo tačno izračunali njegovu vrednost, morali bismo da raspolažemo svim podacima u skupu. Budući da u praksi uglavnom radimo sa uzorkom, sledi da će koeficijent korelacije ρ za nas ostati nepoznat. U našem primeru, njegovu

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 61 tačnu vrednost bismo izračunali ako bismo u obzir uzeli podatke za svih 500 kompanija sa globalne liste časopisa Fortune. Budući da te podatke nemamo, postavlja se pitanje, kako na osnovu koeficijenta korelacije u uzorku r doneti validan zaključak o tome da li u skupu postoji korelacija? Prilikom testiranja uvešćemo dodatnu pretpostavku da je zajednički raspored promenljive X i Y normalan. Zbog toga je jasno da ćemo primeniti parametarski test. Nultu hipotezu postavićemo u obliku: H 0 : ρ = 0 odnosno, da u osnovnom skupu ne postoji linearna korelacija, ili, što je isto, da ocena, r, nije statistički značajna. Ograničićemo se na dvosmernu alternativnu hipotezu: H 1 : ρ 0 Dakle, alternativna hipoteza ukazuje samo na to da u skupu postoji linearna veza, a ne govori ništa o jačini veze. Za nivo značajnosti uzmimo standardnu vrednost α = 0,05. Postavlja se pitanje koji statistički test, odnosno koju statistiku testa da primenimo? U teorijskoj statistici je pokazano da se kod testiranja proste linearne korelacije koristi t test sa n stepeni slobode. Polazeći od opšteg izraza za statistiku testa (10.1) i vodeći računa da hipotetična vrednost parametra iznosi 0, izraz za statistiku testa glasi: r t = (11.6) sr gde je s r standardna greška ocene koeficijenta proste linearne korelacije. Pri njenom izračunavanju koristi se formula: Standardna greška ocene koeficijenta proste linearne korelacije s r = 1 r n (11.7) Šta pokazuje ova standardna greška? Podsetimo se: svaka standardna greška u statistici pokazuje prosek odstupanja ocene od parametra. Dakle, s r pokazuje koliko u proseku koeficijent korelacije uzorka odstupa od koeficijenta korelacije skupa. PRIMER 11. (nastavak): Prilikom izračunavanja ocenjenog koeficijenta korelacije na podatke Tabele 11. dobili smo da je r = 0,9. Standardna greška ocene koeficijenta korelacije s r jednaka je: 1 r 1 0,9 sr = = = 0,16 n 8 pa će izračunata vrednost statistike Studentovog testa biti:

6 OSNOVI STATISTIKE r 0,9 t = = = 5,75 sr 0,16 Odredimo sada p-vrednost pomoću tablica Studentovog rasporeda. Broj stepeni slobode iznosi (n-)=6. Statistika testa je veća od 3,7074, pa zaključujemo da je p-vrednost < 0,01 (jer smo vrednost iz zaglavlja 0,005 pomnožiti sa pošto je test dvosmeran). Budući da je p-vrednost manja od postavljenog nivoa značajnosti α = 0,05, odbacujemo nultu hipotezu. Zaključujemo, uz rizik greške od 0,05, da da u skupu (koji se sastoji od 500 najboljih kompanija u svetu) postoji linearna veza između broja zaposlenih i prihoda. Prikažimo sada izlaze korelacione analize pomoću EduStata, Tabelom 11.4: Tabela 11.4 Izlaz iz EduStata pri rešavanju postojanja linearne korelacije Pirsonov koeficijent proste korelacije r Varijable X : Broj zaposlenih Y : Prihod r : 0,9165 TESTIRANJE Standardna greška koeficijenta Statistika t-testa P proste korelacije 0,1633 5,611 0,001365 H 0 : U osnovnom skupu NE postoji linearna korelacija H 1 : U osnovnom skupu postoji linearna korelacija Zaključak : Pri testiranju nulte hipoteze da u osnovnom skupu nema linearne korelacije dobijena p-vrednost 0,0014 ukazuje da u osnovnom skupu postoji linearna veza na nivou značajnosti od 0,01 jer je p- vrednost < 0,01. Zaključujemo da koeficijent proste korelacije r JESTE statistički značajan Statistički softver je dao preciznu p-vrednost koja potvrđuje našu analizu i zaključak da se nulta hipoteza odbacuje. 11.4.3 Interpretacija koeficijenta proste linearne korelacije Pravilna interpretacija koeficijenta proste linearne korelacije zahteva dopunska objašnjenja, naročito u pogledu eventualne uzročne veze posmatranih pojava. Ovo posebno napominjemo zbog činjenice da je u praksi koeficijent korelacije, uz aritmetičku sredinu, statistički pokazatelj koji se često pogrešno tumači. 1. Koeficijent proste korelacije r ukazuje samo na da li u uzorku postoji korelacija.. Pirsonov koeficijent korelacije pokazuje da li između dve posmatrane pojave postoji linearna veza; on ne ukazuje na postojanje eventualne krivolinijske veze, bez obzira na njenu jačinu. 3. r zahteva numeričke podatke. Pomoću njega je nemoguće ispitati, na

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 63 primer, da li postoji veza između plata i pola zaposlenih jer je pol atributivno obeležje. 4. r je relativna mera, a to znači da nije iskazan u mernim jedinicama originalnih pojava. 5. Postojanje korelacije ukazuje samo na opšte slaganje varijacija dve pojave i nikako ne važi za sve pojedinačne slučajeve. 6. Važno je naznačiti da se na osnovu postojanja linearne korelacione veze dve pojave, X i Y, ne sme zaključivati da je X uzrok, a Y posledica, ili obrnuto. Visok koeficijent korelacije, recimo, 0,95, ne znači da između posmatranih pojava postoji uzročna veza. U stvarnosti, moguće je: a) da X predstavlja uzrok, b) da Y uzrokuje varijacije X, c) da su obe pojave pod uticajem nekih drugih neidentifikovanih faktora, d) da između pojava postoji interakcija (uzajamno dejstvo), e) da smo izvukli nereprezentativan uzorak koji upućuje na postojanje korelacije, iako ona u skupu ne postoji, i f) da smo dobili tzv. iskrivljenu korelaciju. Između dve pojave postoji lažna korelacija (eng. spurious correlation) kada je koeficijent korelacije različit od nule, a nemamo nikakvog razloga da verujemo da su one međusobno povezane. Navešćemo tri primera, jer se korelacija može lako zloupotrebiti, odnosno neetički izvršiti analiza, tako što bi se primenila na neke dve pojave koje pokazuju istu tendenciju rasta tokom vremena, a između njih ne postoji nikakva logički opravdana povezanost. PRIMER 11.3: Poznati ekonometričar Dejvid Hendri 6 je 1980. izračunao da postoji izuzetno visoka korelacija između inflacije i kumulativno iskazane količine kiše u Velikoj Britaniji (r=0,998). Da li bi iko zaključio da padanje kiše uzrokuje inflaciju? PRIMER 11.4: Neka istraživanja su pokazala da postoji visoka direktna korelacija između dužine ruku osnovaca i stepena njihovog logičkog rezonovanja, odnosno da osnovci sa dužim rukama bolje rezonuju. Ali ovo je besmisleno jer je iz analize izostavljena treća važna varijabla, a to su godine starosti. Dakle, osnovci sa dužim rukama zaista rezonuju bolje, ali zato što su stariji! PRIMER 11.5: Ole Skog 7 je pokazao da korelacija između kvartalno iskazanih indeksa intravenoznog uzimanja droge u Stokholmu i tzv. Volferovog indeksa aktivnosti sunčevih pega u periodu od 1965.-1970. iznosi 0,91. Da li se na osnovu ovoga može zaključiti da sunce uzrokuje korišćenje droge? 6 Hendry D. "Econometrics - Alchemy or Science", Economica, 47, str. 387-406, 1980. 7 Skog, O.J., "Testing Causal Hypotheses about correlated trends: pitfalls and remedies" Contemporary Drug Problems, Winter, str. 565-606, 1988.

64 OSNOVI STATISTIKE 11.5 PROSTA LINEARNA REGRESIJA Regresiona analiza je jedan od najvažnijih i najčešće korišćenih statističkih metoda i ima veliku primenu u ekonomiji i ostalim društvenim naukama. Termin regresija prvi je upotrebio engleski naučnik Frensis Golton 1885. godine, prilikom istraživanja naslednih osobina. On je otkrio da visina sinova prema visini njihovih očeva pokazuje nazadovanje (regresiju) prema prosečnoj visini (očevi znatno viši od proseka imaće sinove niže od njih, ali više od proseka, i obrnuto) 8. Danas se, međutim, reč regresija koristi u znatno širem značenju: da ukaže na statistički metod koji omogućava da se formuliše regresioni model i na osnovu njega opiše, predvidi i kontroliše zavisna promenljiva na osnovu jedne ili više objašnjavajućih promenljivih. Tako, na primer, proizvođač može da uz pomoć regresione analize poboljša proces proizvodnje tako što će ispitati uticaje različitih faktora koji na njega utiču. Marketing menadžer može koristiti regresionu analizu da kroz ispitivanje faktora koji deluju na prodaju prilagodi svoju strategiju. Čitava jedna oblast ekonomske nauke, ekonometrija, velikim delom bavi se samo regresijom. Pogledajmo još jedan primer da bismo videli širinu upotrebe regresione analize. PRIMER 11.8: Početkom decembra 007. objavljeni su rezultati Programa za međunarodno testiranje učenika 9, koji su izazvali veliki odjek u javnosti. Finski učenici zauzeli su prvo mesto u studiji o obrazovanju PISA, koju je među više od 400.000 srednjoškolaca u 57 zemalja sprovela Organizacija za ekonomsku saradnju i razvoj (OECD) sa ciljem da ustanovi efikasnost obrazovnih sistema u svetu. Srbija se našla na 41. mestu, odnosno u delu tabele koji, kako se navodi, "statistički znatno zaostaje za prosekom OECD" (Blic, 4.1..007). Analiza podataka izvršena je pomoću posebne vrste regresije (tzv. multilevel regresije 10 ). Etape u linearnoj regresionoj analizi možemo prikazati na Dijagramu 11.1. 11.5.1 Jednačina prave linije i linija regresije O prostoj linearnoj regresiji govorimo kada posmatramo dve promenljive između kojih postoji linearna (pravolinijska) povezanost. Postavlja se pitanje, kako konkretno formulisati takav linearni model, kako za skup, tako i za uzorak? 8 Danas se takav način zaključivanja često naziva regresionom obmanom (regression fallacy) jer (a) izgledalo bi da postoji generalna tendencija ka uprosečavanju visine ljudi što nije tačno (b) ako bi se posmatrala visina sinova u odnosu na visinu njihovih očeva tada bi se moglo zaključiti da postoji tendencija divergencije (sinovi niži od proseka imali bi očeve više od proseka, i obrnuto. 9 (eng. Program for International Student Assessment) 10 Rezultati su objavljeni ba sajtu http://www.pisa.oecd.org

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 65 1. Identifikacija zavisne i objašnjavajuće promenljive.. Izvlačenje slučajnog uzorka. 3. Pomoću dijagrama raspršenosti sagledati da li prava linija dobro aproksimira empirijske vrednosti. Ako jeste, biramo linearni regresioni model. 4. Ispitivanje ispunjenosti pretpostavki modela. 5. Ocenjivanje parametara linearnog modela metodom najmanjih kvadrata. 6. Iznalaženje mera reprezentativnosti regresionog modela i testiranje validnosti modela. 7. Upotreba modela za ocenjivanje i predviđanje Y. Dijagram 11.1 Etape u prostoj linearnoj regresiji Pre nego što pređemo na razmatranje takvog modela podsetimo se elementarnog koncepta iz matematike jednačine prave linije: Odsečak Nagib Jednačina prave linije Y = β + β x 0 1 (11.8) Prava je u potpunosti definisana sa dva koeficijenta: ß 0, koji pokazuje odsečak (eng. intercept) na Y osi (odnosno vrednost Y kada je X jednako 0) i ß 1, koji se naziva koeficijent nagiba (eng. slope) i pokazuje tangens ugla koji zaklapa prava sa pozitivnim krakom X ose. Kada je ß 1 > 0 prava pokazuje rastuću tendenciju od donjeg levog ugla prema gornjem desnom uglu prvog kvadranta koordinatnog sistema, i opadajuću, u slučaju kada je ß 1 < 0. Ako su nam poznata dva navedena koeficijenta imamo svu potrebnu informaciju o pravoj liniji i po potrebi možemo grafički da je prikažemo. Na Slici 11.6 prikazana je jedna prava linija sa jednačinom Y = 1 + 0,5X. Sa Slike 11.6 se može sagledati još jedno, za nas važno, tumačenje koeficijenta ß 1 : on pokazuje promenu zavisne promenljive Y kada se nezavisna promenljiva X poveća za jednu svoju jedinicu.

66 OSNOVI STATISTIKE β 1 β 0 Slika 11.6 Grafički prikaz prave Y = 1 + 0,5X Vratimo se sada na Sliku 11.1, gde smo kroz dijagram raspršenosti prikazali podatke o izdacima za propagandu i prihode od prodaje 10 računarskih firmi. Analizirajmo pažljivo ovu sliku. Ako bi se sve empirijske tačke nalazile na istom pravcu, tada bi se jednostavno odredila jednačina prave linije. Zamenom neke određene vrednosti X dobila bi se lako željena vrednost za Y i osnovni cilj regresije bio bi ispunjen. Nažalost, takva veza je funkcionalna. Kao što znamo, u ekonomskoj stvarnosti preovladavaju stohastičke veze i kao posledicu imamo manja ili veća odstupanja tačaka od neke zamišljene prave linije, baš kao na našem dijagramu. Jasno je da je nemoguće pronaći pravu koja će da prolazi kroz sve tačke. Šta nam onda ostaje? Jedino da nađemo takvu pravu liniju koja će biti što je moguće bliže svim empirijskim vrednostima. Drugim rečima, pravu koja bi ucrtane tačke najbolje reprezentovala. Takva prava linija naziva se linijom regresije. Naš zadatak svodi se zato na nalaženje dva koeficijenta te prave linije (jer smo je samim tim u potpunosti definisali). Dolaženjem do vrednosti ta dva koeficijenta (odsečka i nagiba) omogućiće predviđanje Y za različite željene vrednosti X. Odmah da razjasnimo da takvo predviđanje neće biti egzaktno, jer se u obzir mora uzeti i greška zbog stohastičke prirode veze. 11.5. Prost linearni regresioni model Na osnovu Dijagrama 11.1 možemo sagledati da smo za podatke u Primeru 11.1 već prošli kroz prve tri etape regresije: 1. Prihode od prodaje smo identifikovali kao zavisnu, a izdatke za propagandu kao objašnjavajuću promenljivu.. Slučajan uzorak od 10 firmi je već izabran. 3. Na osnovu dijagrama raspršenosti 11.1 videli smo da se empirijske vrednosti približno grupišu oko prave linije. Sada ćemo da objasnimo sledeće dve etape, uz napomenu da se četvrtom etapom bavi prevashodno ekonometrija. Podaci koje smo grafički prikazali na Slici 11.1 odnose se na slučajan

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 67 uzorak od 10 firmi. Zadatak koji se pred nas postavlja je da nađemo matematički oblik zavisnosti (tj. formulu) koja najbolje opisuje vezu između izdataka za privrednu propagandu i prihoda od prodaje. Opredelili smo se za najjednostavniji model linearni model. Model polazi od jednačine prave linije, date izrazom (11.8), koja opisuje funkcionalnu vezu između dve pojave. Međutim, nama je poznato da u ekonomiji i društvenim naukama preovladavaju stohastičke veze. Usled toga, model (11.8) mora da se koriguje i prilagodi realnosti. Zato ćemo u regresionoj analizi koristiti modele poput (11.3). Drugim rečima, sve ostale faktore koji utiču na zavisnu promenljivu Y obuhvatićemo kroz stohastički član (ili, što je isto, slučajnu grešku). Stohastički član obeležićemo sa ε (grčko slovo epsilon). Na osnovu svega navedenog postavićemo prost linearni regresioni model. Formulisaćemo ga tako što ćemo napisati jednačinu za zavisnu promenljivu Y i : Prost linearni regresioni model Y = β + β x + ε i = 1,,...,N i 0 1 i i (11.9) deterministički stohastički gde su deo modela deo modela Y i i-ta zavisna promenljiva x i i-ta vrednost objašnjavajuće promenljive ß 0 i ß 1 su regresioni parametri: ß 0 je odsečak ili slobodni član, a ß 1 nagib ε i stohastički član ili slučajna greška N veličina osnovnog skupa i i-ta vrednost u osnovnom skupu. Šta opisuje ovaj regresioni model i u čemu je njegov smisao? Regresioni model opisuje (modelira) stohastičku zavisnost između posmatrane dve promenljive u osnovnom skupu, iz koga je izabran uzorak. Model je linearan, jer je njegov deterministički deo β 0 + β 1 x i prava linija. Objasnimo detaljnije konceptualnu osnovu modela. Vraćajući se na naš Primer 11.1, pretpostavimo za trenutak da su nam poznati podaci za sve firme u Srbiji koje se bave prodajom računarske opreme. Recimo da je njihov broj 1000 (N=1000) i da između izdataka za propagandu i prihoda od prodaje postoji stohastička linearna veza kao u (11.9). Grafički prikazano, dijagram raspršenosti mogao bi izgledati kao na Slici 11.7.

68 OSNOVI STATISTIKE Slika 11.7 Dijagram raspršenosti za osnovni skup Da se radi o stohastičkoj vezi vidimo po tome što za svaku vrednost objašnjavajuće promenljive X imamo čitav niz vrednosti Y. Teorijski, regresioni model podrazumeva da je broj takvih vrednosti Y beskonačan. Analizirajmo sada pažljivije raspored tačaka na Slici 11.7. Najpre uočavamo generalnu tendenciju: sa porastom X povećava se i Y. Takođe možemo videti da se sve prosečne vrednosti Y (za pojedine vrednosti X), koje su označene crnim krugovima, nalaze na pravoj liniji. Takva prava linija koja prolazi kroz sve prosečne vrednosti Y, označimo ih sa μ YX = x, 11 najbolje opisuje stohastičku i vezu između posmatrane dve pojave, odnosno najviše je prilagođena datim podacima. Ona se naziva linijom regresije skupa (populacije). Njena jednačina glasi: Regresiona linija osnovnog skupa μ = β + β x YX = xi 0 1 i (11.10) Parametar odsečka Parametar nagiba Ovo je sasvim u skladu sa izrazom (11.4), gde smo naveli da je prosek Y jednak determinističkom delu modela. Ako bi nam u praksi bile poznate vrednosti oba koeficijenta regresione linije skupa, tada bismo, jednostavnom zamenom pojedinih vrednosti x i, došli do predviđanja za prosečne vrednosti Y i. Nažalost, kako uvek radimo samo sa uzorkom, te koeficijente ne možemo izračunati i stoga ß 0 i ß 1 predstavljaju za nas nepoznate parametre (poput aritmetičke sredine skupa μ). Zadatak regresije svodi se, stoga, u njihovom ocenjivanju na osnovu podataka uzorka, kako bismo na osnovu ocena izvršili predviđanje. Nalaženjem takvih ocena, označimo ih sa b 0 μ = se čita: prosek Y za X jednako x i, ili prosek Y pod uslovom da je X 11 YX xi jednako x i.

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 69 i b 1, faktički se dolazi do koeficijenata prave linije u uzorku koja se naziva linijom regresije uzorka. Veza između dijagrama raspršenosti za populaciju i uzorak može se uočiti sa Slike 11.8. Slika 11.8 Dijagrami raspršenosti skupa i uzorka Sa Slike 11.8 se jasno sagledava kako se generišu podaci u slučajnom uzorku veličine n iz populacije veličine N. Dakle, ideja regresije je u sledećem: pronaći najbolju liniju regresije uzorka i nju koristiti kao "supstitut" za nepoznatu liniju regresije skupa. Karakteristike i pretpostavke regresionog modela Objasnimo sada detaljnije komponente regresionog modela. Krenimo od stohastičkog člana. Postavlja se pitanje, zbog čega model uključuje stohastički član ε. U uvodnom delu smo već delimično odgovorili na ovo pitanje. Ovde ćemo detaljnije navesti tri razloga: 1) Na zavisnu promenljivu Y ne deluje samo objašnjavajuća promenljiva X, već i veliki broj drugih faktora koji u modelu nisu identifikovani. U našem primeru, na prodaju računarske opreme, osim propagande, čije je dejstvo obuhvaćeno modelom, deluje i cena i kvalitet opreme, dohodak i starosna struktura stanovništva, preferencije, itd. ) U ekonomskim relacijama skoro uvek su prisutni subjektivni faktori, svojstveni ljudskom ponašanju, sa nepredvidljivim dejstvom. 3) Statistički podaci u uzorku sadrže greške u merenju. Navedeni faktori najčešće deluju zajedno, tako da se može prihvatiti da pojedini od njih deluju u suprotnim smerovima i da se u zbiru njihovi uticaji međusobno potiru. Usled toga je logično pretpostaviti da je stohastički član u

70 OSNOVI STATISTIKE proseku jednak nuli. Takođe, na osnovu Centralne granične teoreme može se prihvatiti da stohastički član ima normalan raspored. Već smo objasnili da je po statističkoj prirodi ε slučajna promenljiva. Prilikom objašnjenja pojma slučajne promenljive (odeljak 6.1) naveli smo da je svaka funkcija slučajne promenljive i sama slučajna promenljiva. Primenjeno na regresioni model, to znači da je i zavisna promenljiva Y slučajna promenljiva, jer je funkcija slučajne promenljive ε. U našem primeru, za bilo koje izdatke za propagandu, pre nego što se izvuče uzorak, prihode od prodaje nije moguće unapred predvideti, pa je Y slučajna promenljiva. Ostalo je još da objasnimo značenje dva regresiona parametra. Da bismo to učinili najpre ćemo da preciznije postavimo matematički izraz linije regresije u skupu, odnosno prave koja prolazi kroz prosečne vrednosti Y i : Populaciona linija regresije μ Y X = xi = E(Y i ) = β 0 + β 1 x i (11.11) Očekivana vrednost E(Y i ) pojavljuje se iz razloga što se radi o proseku slučajne promenljive Y i, pa ćemo, zbog toga, nadalje, za prosečnu vrednost Y i (za dato x i ) koristiti izraz sa očekivanom vrednošću. Poređenjem gornjeg izraza i izraza za model (11.9) vidimo da je razlika u tome da se model odnosi na pojedinačne vrednosti Y i, a linija regresije skupa na prosečne vrednosti E(Y i ). Na osnovu izraza (11.11) i Slike 11.6 možemo da damo tumačenje regresionih parametara. Regresioni parametri (koeficijenti) tumačenje Regresioni parametar ß 0 (odsečak) pokazuje prosečnu vrednost zavisne promenljive za nultu vrednost objašnjavajuće promenljive. Regresioni parametar ß 1 (nagib) pokazuje prosečnu promenu zavisne promenljive Y kada se objašnjavajuća promenljiva X poveća za jednu svoju jedinicu. Specifikacija regresionog modela kao statističkog modela ne podrazumeva samo njegov matematički izraz, već i pretpostavke koje obezbeđuju optimalno ocenjivanje nepoznatih parametara ß o i ß 1. Najčešće se uvodi sledećih pet pretpostavki: 1. Normalnost: slučajne greške ε i imaju normalan raspored.. E(ε i ) = 0. To znači da je stohastički član (slučajna greška) u proseku jednak nuli. 3. Homoskedastičnost. Ova pretpostavka se odnosi na disperziju stohastičkih članova i kaže da sve slučajne greške imaju jednaka disperziju, preciznije, jednake varijanse:

POGLAVLJE 11 Prosta korelaciona i regresiona analiza 71 Var (ε 1 ) = Var (ε ) =... = Var (ε N ) = σ Ukoliko je ova pretpostavka narušena pojavljuje se problem heteroskedastičnosti. Prve tri pretpostavke možemo jednostavno napisati na sledeći način: ε i : N(0, σ ) tj. stohastički član ima normalan raspored sa aritmetičkom sredinom 0 i varijansom σ. 4. Nema autokorelacije. To znači da između bilo koja dva stohastička člana ε i i ε j ne postoji linearna korelacija. 5. X nije slučajna promenljiva (otuda je u modelu objašnjavajuća promenljiva označena malim slovom). Ova pretpostavka ukazuje na to da su vrednosti objašnjavajuće promenljive fiksirane, tj. da ih istraživač unapred mora odabrati pre uzimanja uzorka. U našem primeru to bi značilo da bi se najpre fiksirali pojedini nivoi ulaganja u propagandu, a zatim za svaki od njih na slučaj birala firma i merila njena prodaja. Svih pet pretpostavki zajedno formiraju tzv. normalan linearni regresioni model. Budući da se koristi pretpostavka o normalnosti, jasno je da je linearna regresija parametarski statistički metod. 11.5.3 Ocenjivanje regresionog modela: Metod najmanjih kvadrata Videli smo da se druga etapa u prostoj regresionoj analizi svodi na grafičko prikazivanje podataka na dijagramu raspršenosti. Generalno, na osnovu dijagrama raspršenosti odabraćemo tip krive koji najviše odgovara empirijskim podacima. Tek kada nam dijagram (uz druga teorijska i empirijska saznanja) ukaže na linearnu zavisnost dve pojave, prelazimo na sledeću etapu - ocenjivanje nepoznatih parametara: slobodnog člana ß 0 i koeficijenta nagiba ß 1. Cilj je da se na osnovu uzorka dođe do najboljih mogućih ocena b 0 i b 1, i time postavi linija regresije u uzorku: Linija regresije u uzorku y = b + b x ˆi 0 1 gde je sa y ˆi označena ona vrednost Y koja se tačno nalazi na najbolje prilagođenoj liniji regresije uzorka, pa se naziva prilagođena vrednost Y. Ocene b 0 i b 1 imaju identično značenje kao kod osnovnog skupa, s tim što se odnose na uzorak. Linija regresije u skupu i uzorku se po pravilu razlikuju, jer se ocenjene vrednosti b 0 i b 1 razlikuju od stvarnih vrednosti parametara ß 0 i ß 1. Razlog je jednostavan: uzorak skoro nikada nije savršeno reprezentativan. i (11.1)

7 OSNOVI STATISTIKE Kakva je statistička priroda ocena b 0 i b 1? Pošto od uzorka do uzorka mogu uzimati različite vrednosti, koje ne možemo unapred predvideti, one su slučajne promenljive. Ovo je analogno ocenjivanju aritmetičke sredine skupa, gde je nepoznata aritmetička sredina skupa μ konstanta, njena ocena X slučajna promenljiva, a ocenjena (realizovana) vrednost x konstanta. U prostoj regresiji nepoznati parametri ß 0 i ß 1 su konstante, njihove ocene b 0 i b 1 slučajne promenljive, a nakon što se odabere uzorak, odgovarajuće ocenjene vrednosti b 0 i b 1 su konstante. Ove razlike možemo prikazati Tabelom 11.4. Tabela 11.4 Statistička priroda parametara, ocena i ocenjenih vrednosti u regresiji Parametri β 0 i β 1 Konstante Ocene b 0 i b 1 Slučajne promenljive Ocenjene vrednosti b 0 i b 1 Konstante Vratimo se našem primeru sa podacima Tabele 11.1, koji su grafički prikazani na Slici 11.1. Između tačaka na dijagramu raspršenosti teorijski je moguće povući beskonačno mnogo pravih linija. Sve one bi se, naravno, razlikovale po koeficijentima b 0 i b 1. Postavlja se sledeće pitanje: kako između empirijskih tačaka povući onu pravu liniju koja ih najbolje reprezentuje? Ta prava bi trebalo da prolazi što je moguće bliža svim tačkama i time bi nam dala optimalne ocene b 0 i b 1. Kao prvo rešenje nameće se grafički metod, tj. da se vizuelno odabere ona prava koja najviše odgovara opštoj tendenciji rasporeda tačaka. Nažalost, ovaj metod ima dve krupne slabosti (1) potpuno je subjektivne prirode i () ne daje mogućnost određivanja greške ocene. Zbog toga je u statistici predloženo više objektivnih metoda za rešavanje ovog problema. Najčešće se koristi metod najmanjih kvadrata (eng. method of least squares). Metod najmanjih kvadrata se zasniva na minimiziranju kvadrata odstupanja svih empirijskih tačaka od regresione linije. Osnovne ideje metode najmanjih kvadrata predložio je Karl Gaus. Radi jasnijeg sagledavanja ideje metoda najmanjih kvadrata prikažimo na Slici 11.9, u proizvoljnom dijagramu raspršenosti, pravu za koju pretpostavljamo da se najbolje prilagođava podacima. Poznato nam je da će zbog stohastičkog karaktera veze empirijske tačke pokazivati manja ili veća odstupanja od prave. Vertikalno odstupanje (razliku) između stvarne vrednosti y i i prilagođene vrednosti nazivamo rezidualom i označavamo sa e i : Rezidual e = y yˆ = y ( b + b x ) (11.13) i i i i 0 1 i Sa Slike 11.9 se može sagledati da će rezidual biti pozitivan ako se empirijska tačka nalazi iznad ocenjene linije, negativan ako tačka leži ispod, i biće jednak nuli ako se stvarna vrednost poklapa sa prilagođenom. U slučaju funkcionalne