Prosta linearna regresija (primer)

Σχετικά έγγραφα
Testiranje statistiqkih hipoteza

numeričkih deskriptivnih mera.

11. glava PROSTA KORELACIONA I REGRESIONA ANALIZA

Uvod u neparametarske testove

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

3.1 Granična vrednost funkcije u tački

Mašinsko učenje. Regresija.

Str

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Regresija i korelacija

Elementi spektralne teorije matrica

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

Računarska grafika. Rasterizacija linije

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Ispitivanje toka i skiciranje grafika funkcija

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

5. Karakteristične funkcije

SISTEMI NELINEARNIH JEDNAČINA

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

Uvod u neparametarske testove

IZVODI ZADACI (I deo)

III VEŽBA: FURIJEOVI REDOVI

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Računarska grafika. Rasterizacija linije

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

Teorijske osnove informatike 1

41. Jednačine koje se svode na kvadratne

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

RAČUNSKE VEŽBE IZ PREDMETA POLUPROVODNIČKE KOMPONENTE (IV semestar modul EKM) IV deo. Miloš Marjanović

Osnovne teoreme diferencijalnog računa

Statističke metode. doc. dr Dijana Karuović

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

7 Algebarske jednadžbe

Program testirati pomoću podataka iz sledeće tabele:

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

, i = 1, 2, n. Tabela 1 Koeficijent proste korelacije. Standardizovani regresioni koeficijent. Regresioni koeficijent b

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

9.1 Testovi hipoteza u statistici

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

REGRESIJSKA ANALIZA zavisnost (korelacija) regresijske tehnike kvantitativno zavisnost (korelaciju) linearna regresija

ELEKTROTEHNIČKI ODJEL

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

REGRESIONA I KORELACIONA ANALIZA

Operacije s matricama

1.4 Tangenta i normala

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

ASIMPTOTE FUNKCIJA. Dakle: Asimptota je prava kojoj se funkcija približava u beskonačno dalekoj tački. Postoje tri vrste asimptota:

5 Ispitivanje funkcija

Fakultet tehničkih nauka, Softverske i informacione tehnologije, Matematika 2 KOLOKVIJUM 1. Prezime, ime, br. indeksa:

Korelacijska i regresijska analiza

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Uvod Teorija odlučivanja je analitički i sistematski pristup proučavanju procesa donošenja odluka Bez obzira o čemu donosimo odluku imamo 6 koraka za

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

NEPARAMETRIJSKE TEHNIKE

Izbor statističkih testova Ana-Maria Šimundić

MATEMATIKA 2. Grupa 1 Rexea zadataka. Prvi pismeni kolokvijum, Dragan ori

Zavrxni ispit iz Matematiqke analize 1

Univerzitet u Nišu, Prirodno-matematički fakultet Prijemni ispit za upis OAS Matematika

Skup svih mogućih ishoda datog opita, odnosno skup svih elementarnih događaja se najčešće obeležava sa E. = {,,,... }

Autori: Dr Biljana Popović, redovni profesor Prirodno matematičkog fakulteta u Nišu Mr Borislava Blagojević, asistent Gradjevinskog fakulteta u Nišu

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

TAČKA i PRAVA. , onda rastojanje između njih računamo po formuli C(1,5) d(b,c) d(a,b)

I Pismeni ispit iz matematike 1 I

4 Numeričko diferenciranje

HEMIJSKA VEZA TEORIJA VALENTNE VEZE

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

( ) π. I slučaj-štap sa zglobovima na krajevima F. Opšte rešenje diferencijalne jednačine (1): min

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Linearna algebra 2 prvi kolokvij,

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

nvt 1) ukoliko su poznate struje dioda. Struja diode D 1 je I 1 = I I 2 = 8mA. Sada je = 1,2mA.

Numerička matematika 2. kolokvij (1. srpnja 2009.)

VEROVATNO A I STATISTIKA A - TEST 1 9. NOVEMBAR 2013.

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

Inženjerska grafika geometrijskih oblika (5. predavanje, tema1)

Jednodimenzionalne slučajne promenljive

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

OM2 V3 Ime i prezime: Index br: I SAVIJANJE SILAMA TANKOZIDNIH ŠTAPOVA

NUMERIČKA INTEGRACIJA

7. glava STATISTIČKO OCENJIVANJE CILJEVI POGLAVLJA. Nakon čitanja ovoga poglavlja bićete u stanju da:

APROKSIMACIJA FUNKCIJA

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

POSTAVLJANJE I TESTIRANJE HIPOTEZA

Kaskadna kompenzacija SAU

Transcript:

STATISTIKA Prosta linearna regresija (primer) Doc. Dr Slađana Spasić E-mail: sladjana.spasic@singidunim.ac.rs Ass. Ana Simićević E-mail: asimicevic@singidunim.ac.rs 7. 6. 010. Beograd Predavanje 15

Regresiona i korelaciona analiza Na ovom predavanju razmatraćemo međusobnu vezu dve promenljive i to na osnovu: 1. regresione analize. korelacione analize. Upotrebom regresionih modela može se oceniti kako se menja jedna promenljiva pod uticajem promene druge promenljive. Koeficijent korelacije u korelacionoj analizi pokazuje da li između varijacija dve promenljive postoji kvantitativno slaganje, ali on ne daje informaciju o stepenu promene jedne promenljive kojanastaje kao rezultat promene druge promenljive. 7. 6. 010. Beograd Predavanje 15 / 1

Deterministička i stohastička veza Naše interesovanje ćemo usmeriti na istraživanje međusobnih veza i uticaja između dve ili više pojava. Pojave na osnovu veza između promenljivih možemo podeliti na determinističke i stohastičke. Deterministička veza se javlja kada jednoj vrednosti nezavisno promenljive X odgovara tačno jedna vrednost zavisno promenljive Y. Ova veza se još naziva egzaktna ili funkcionalna. Stohastičke veze su slabije i kod njih jednoj vrednosti nezavisno promenljive X odgovara više mogućih vrednosti zavisno promenljive Y. Svaku od tih vrednosti zavisno promenljiva može uzeti sa određenom verovatnoćom, pa je zavisno promenljiva Y slučajna promenljiva. 7. 6. 010. Beograd Predavanje 15 /

Deterministička i stohastička veza Suština stohastičke veze je sledeća: Prosek Y f (X) Veze kod kojih porastu (opadanju) nezavisne promenljive X odgovara porast (opadanje) zavisno promenljive Y nazivaju se direktne veze. Ako porastu X odgovara opadanje Y takve veze se zovu inverzne (obrnute). Osim ovoga, veze mogu biti linearne ili nelinearne. 7. 6. 010. Beograd Predavanje 15 / 3

Ciljevi regresione i korelacione analize Regresiona i korelaciona analiza primenjuju se u istraživanju kvantitativnog slaganja varijacija između dve ili više pojava. Kod regresione analize neophodno je unapred odrediti koja pojava će imati ulogu nezavisne, a koja zavisne promenljive. Ovo je određeno prirodom analiziranih pojava. Kod korelacione analize je svejedno koja je pojava okarakterisana kao nezavisno, a koja kao zavisno promenljiva. Rezultat korelacione analize je isti u oba slučaja. U slučaju korelacione analize više pojava potrebno je fiksirati jednu zavisnu promenljivu, a ostale će biti nezavisne. 7. 6. 010. Beograd Predavanje 15 / 4

Ciljevi regresione i korelacione analize Cilj regresije je da se utvrdi priroda veze, tj. oblik zavisnosti među posmatranim pojavama. Ovo se postiže odgovarajućim regresionim modelima. Regresioni model je statistički model koji matematičkim formulama, uz određene pretpostavke najbolje opisuje kvantitativnu zavisnost između varijacija posmatranih pojava u realnosti. Kako je reč o stohastičkim vezama, regresioni model pokazuje prosečno slaganje varijacija ispitivanih pojava. Korelaciona analiza ispituje da li između varijacija posmatranih pojava postoji slaganje i, ako postoji, u kom stepenu. 7. 6. 010. Beograd Predavanje 15 / 5

Vrste regresionih modela Prilikom istraživanja međusobnih veza dveju promenljivih primenjuju se metode proste (linearne i nelinearne) regresione i korelacione analize. U slučaju više promenljivih reč je i metodama višestruke (linearne i nelinearne) regresione i korelacione analize. Mi ćemo se ograničiti na linarne metode. 7. 6. 010. Beograd Predavanje 15 / 6

Prosta linearna regresija Prost regresioni model je matematički model koji ima samo dve promenljive: zavisnu i nezavisnu. Zavisna promenljiva je ona čije varijacije treba objasniti na osnovu promena nezavisne promenljive. Prost linearni regresioni model je regresioni model kojim se opisuje linearna veza između zavisne i nezavisne promenljive. 7. 6. 010. Beograd Predavanje 15 / 7

Dijagram raspršenosti Prvi korak u analizi zavisnosti dve pojave je grafičko prikazivanje empirijske serije podataka, bilo da se odnose na osnovni skup ili uzorak. Na istim elementima skupa ili uzorka posmatramo dva obeležja, npr. kod 0 firmi posmatramo troškove reklame i obim prodaje. Zatim treba identifikovati koje obeležje predstavlja nezavisno promenljivu X, a koje zavisno promenljivu Y. Tako se dobija niz od n (N) uređenih parova (X 1,Y 1 ), (X,Y ),..., (X n,y n ). Na apscisu se nanose vrednosti nezavisno promenljive X, a na ordinatu vrednosti zavisno promenljive Y. Takav grafički prikaz naziva se dijagram raspršenosti. 7. 6. 010. Beograd Predavanje 15 / 8

Podsetimo se jednačine prave: Prost linearni regresioni Linearna jednačina ili jednačina linearne veze u ovom slučaju: y a + bx model x je nezavisno promenljiva y je zavisno promenljiva a je konstanta u linearnoj jednačini otsečak na y osi b je koeficijent nagiba prave 7. 6. 010. Beograd Predavanje 15 / 9

Prost linearni regresioni model Cilj regresije je predvideti vrednosti y za pojedine vrednosti x. Kako je reč o stohastičkim vezama između x i y ne može se tačno predvideti vrednost y za određenu vrednost x. Zato se kao moguće rešenje traži regresiona prava (kriva) koja će najmanje odstupati od empirijskih podataka. Određivanje koeficijenata te linearne jednačine omogućuje nam da vršimo traženo predviđanje. Takvo predviđanje neće biti egzaktno jer se mora uzeti u obzir i greška zbog stohastičke prirode veze. 7. 6. 010. Beograd Predavanje 15 / 10

Model proste linearne regresije u opštem obliku: gde su Y i x i Y i β 0 + β 1 x i + ε i i-ta zavisna promenljiva i 1,,, N i-ta vrednost nezavisna promenljiva β 0 i β 1 nepoznate konstante, regresioni parametri ε i Prost linearni regresioni model stohastički član ili slučajna greška N veličina osnovnog skupa Nezavisno promenljiva X se naziva objašnjavajućom promenljivom jer pomoću nje pokušavamo da objasnimo varijacije promenljive Y. 7. 6. 010. Beograd Predavanje 15 / 11

Ocenjivanje: Metod najmanjih kvadrata Na osnovu dijagrama raspršenosti odabira se tip krive koji najviše odgovara empirijskim podacima. Tek tada na osnovu dijagrama, ako on ukazuje na linearnu vezu dveju pojava, prelazimo na drugu etapu regresione analize ocenjivanje nepoznatih parametara: slobodnog člana β 0 i koeficijenta nagiba β 1. Slučajnom greškom u stohastičkom regresionom modelu obuhvaćene su: 1. nedostajuće ili izostavljene promenljive (efekti promenljivih koje nisu direktno uključene u model),. slučajne varijacije (domaćinstvo može u jednom mesecu da organizuje više zabava i potroši više na hranu, a sledećeg meseca zbog dečje ekskurzije ili kupovine nameštaja prištedeće na hrani. 7. 6. 010. Beograd Predavanje 15 / 1

U regresionom modelu su β 0 i β 1 parametri osnovnog skupa. Međutim, kako nisu poznati svi podaci o osnovnom skupu, regresioni model osnovnog skupa ocenjujemo na osnovu podataka iz uzorka. Ocene nepoznatih parametara, odsečka β 0 i koeficijenta nagiba β 1 se označavanju sa b 0 i b 1. Cilj je da se na osnovu uzorka dođe do najboljih mogućih ocena b 0 i b 1 i time postavi ocenjeni model uzorka (linija regresije u uzorku): Ocenjivanje: Metod najmanjih kvadrata ˆ + Yi b0 b1 x i gde je ona vrednost Y koja se tačno nalazi na najbolje Yˆi prilagođenoj liniji regresije, pa se naziva prilagođena ili predviđena vrednost Y. 7. 6. 010. Beograd Predavanje 15 / 13

Ocenjivanje: Metod najmanjih kvadrata Stvarne vrednosti promenljive Y nazivaju se empirijske vrednosti. Razlika između stvarne i očekivane (prosečne) vrednosti Y u osnovnom skupu predstavlja slučajnu grešku ε. Npr. To je razlika između iznosa koje je domaćinstvo jednog meseca stavrno potrošili za hranu i prosečne vrednosti dobijene na osnovu regresione prave osnovnog skupa. Razlika između stvarne i ocenjene vrednosti Y u uzorku naziva se rezidual i označava se sa e. Rezidual predstavlja ocenu slučajne greške, ε. e Yˆ Yˆ gde je Y stvarna vrednost, a ocenjena vrednost Y. Y 7. 6. 010. Beograd Predavanje 15 / 14

Ocenjivanje: Metod najmanjih kvadrata Dijagram raspršenosti i regresione prave Suma svih reziduala je uvek jednaka 0. ( Y Yˆ) 7. 6. 010. Beograd Predavanje 15 / 15 e 0

Ocenjivanje: Metod najmanjih kvadrata Kako je suma svih reziduala jednaka 0 njenim minimiziranjem i ne možemo dobiti najbolje prilagođenu regresionu krivu, ali minimiziranjem sume kvadrata reziduala (SKR) mogu se dobiti vrednosti b 0 i b 1 u regresionom modelu uzorka. Od svih mogućih pravih linija treba odabrati onu koja ima najmanju sumu kvadrata vertikalnih odstupanja (reziduala). SKR e gde jey stvarna vrednost, a ocenjena vrednost Y. Minimiziranjem sume kvadrata reziduala dobijaju se b 0 i b 1, kao ocene regresionih parametara β 0 i β 1. 7. 6. 010. Beograd Predavanje 15 / 16 Yˆ ( Y Yˆ)

Ocenjivanje: Metod najmanjih kvadrata Koeficijenti regresione prave uzorka, odnosno metodu najmanjih kvadrata glase: SP xy 1 b0 Y b1 X SK xx b ocene po SP xy XY X n Y SK xx X n X ( ) gde je SK i SP označavaju odgovarajuću sumu kvadrata i sumu proizvoda. 7. 6. 010. Beograd Predavanje 15 / 17

Testiranje značajnosti regresione veze Da bi primena regresione linije uzorka pri predviđanju vrednosti zavisne promenljive Y bila opravdana, neophodno je prethodno ispitati da li uopšte postoji linearno slaganje između varijacija posmatrane dve promenljive u osnovnom skupu. Prilikom testiranja hipoteze o regresionom parametru β 1 testiramo nultu hipotezu da je parametar β 1 0 što je ekvivalentno hipotezi da promenljiva X ne utiče na promenljivu Y. 7. 6. 010. Beograd Predavanje 15 / 18

Testiranje značajnosti regresione veze Nulte i alternativna hipoteza o regresionom parametru β 1 : H 0 : β 1 0 (Između varijacija posmatranih pojava ne postoji linearna veza, odnosno X ne utiče na Y) H 1 : β 1 0 (Između varijacija posmatranih pojava postoji linearna veza, odnosno X utiče na Y) Statistika t testa za testiranje hipoteze o β 1 glasi: b 1 1 t S 1 β b 1 b S b 1 S b Broj stepeni slobode je df n -. Testiranje se sprovodi na isti način kao kod aritmetičke sredine skupa. 7. 6. 010. Beograd Predavanje 15 / 19 1 x s n x

Prosta linearna korelacija Cilj korelacione analize je da se utvrdi da li između varijacija posmatranih pojava postoji kvantitativno slaganje (korelaciona veza) i ako postoji u kom stepenu. Ako se posmatraju dve pojave reč je o prostoj korelaciji, a ako je reč o više pojava onda o višestrukoj korelaciji. Takođe moguće je ispitati da li je reč o linearnoj ili krivolinijskoj vezi. Mi ćemo govoriti o prostoj linearnoj korelaciji. 7. 6. 010. Beograd Predavanje 15 / 0

Prosta linearna korelacija Za razliku od regresione analize u korelacionoj analizi se obe posmatrane pojave tretiraju kao slučajne promenljive. Ovde nema razlike između zavisne i nezavisne promenljive. Svejedno je koju ćemo pojavu označiti sa X a koju sa Y, jer će se dobiti identični rezultati. Zadatak proste linearne korelacije jeste da pokaže da između varijacija dve pojave postoji prosta pravolinijska veza. 7. 6. 010. Beograd Predavanje 1 / 1

Koeficijent proste linearne korelacije Koeficijent korelacije predstavlja pokazatelj stepena kvantitativnog slaganja između promenljivih. Koeficijent proste linearne korelacije u osnovnom skupu obeležava se sa ρ, a u uzorku sa r i može uzeti vrednosti samo u intervalu -1 i 1, tj. -1 ρ 1 i -1 r 1 Ako je r 1 između dve promenljive postoji perfektna pozitivna linearna korelacija, tj. sve tačke dijagrama raspršenosti se nalaze na rastućoj pravoj. Ako je r -1 između dve promenljive postoji perfektna negativna linearna korelacija, tj. sve tačke dijagrama raspršenosti se nalaze na opadajućoj pravoj. 7. 6. 010. Beograd Predavanje 15 /

Koeficijent proste linearne korelacije Ako su empirijske tačke raspršene svuda po dijagramu tada između dve promenljive ne postoji linearna korelacija i tada je r 0. Koeficijent proste linearne korelacije između dve promenljive u uzorku ili Pirsonov koeficijent korelacije, r, se izračunava kao: r n x n xy x ( x) n y ( y) y Formula je simetrična u odnosu na promenljive X i Y, pa je sve jedno koju smo promenljivu kako označili. 7. 6. 010. Beograd Predavanje 15 / 3

Testiranje značajnosti ocene koeficijenta proste linearne korelacije Testiranje hipoteze o koeficijentu proste linearne korelacije na osnovnom skupu ρ, na osnovu njegove ocene iz slučajnog uzirka r se zasniva na pretpostavci o normalnosti zajedničke raspodele za promenljive X i Y. Prilikom testiranja koristimo t raspodelu verovatnoća. Nulta hipoteza H 0 : ρ 0 (u osnovnom skupu ne postoji linearna korelacija između dve promenljive) Alternativna hipoteza H 1 : ρ 0 (u osnovnom skupu postoji linearna korelacija između dve promenljive) 7. 6. 010. Beograd Predavanje 15 / 4

Testiranje značajnosti ocene koeficijenta proste linearne korelacije Testiranje hipoteze o koeficijentu proste linearne korelacije na osnovnom skupu ρ se svodi na određivanje vrednosti statistike testa koja ima Studentovu t raspodelu sa (n ) stepena slobode: t 1 gde je r ocenjena vrednost parametra ρ. r n r 7. 6. 010. Beograd Predavanje 15 / 5

Regresiona analiza: kompletan primer Primer: Izabran je uzorak od 8 vozača koji poseduju polise osiguranja. U tabeli se nalaze podaci o vozačkom iskustvu u godinama i iznosu mesečne premije auto osiguranja u evrima. Vozačko iskustvo Premija auto osiguranja 5 64 87 1 50 9 71 15 44 6 56 5 4 16 60 7. 6. 010. Beograd Predavanje 15 / 6

Regresiona analiza: kompletan primer 1. Da li premija auto osiguranja zavisi od vozačkog iskustva ili vozačko iskustvo zavisi od premije osiguranja?. Da li se očekuje pozitivna ili negativna korelaciona veza između dve promenljive? Rešenje: Intuitivno, a i na osnovu teorije očekujemo da će premija osiguranja zavisiti od vozačkog iskustva. To znači da će premija osiguranja biti zavisna, a vozačko iskustvo objašnjavajuća promenljiva u regresionom modelu. Nove vozače osiguravajuće kuće tretiraju kao vozače visokog rizika, pa oni moraju da plate veće iznose premija. Zato, očekujemo da će linearna veza biti negativna, odnosno da će biti negativan znak koeficijenta korelacije osnovnog skupa ρ i regresionog parametra osnovnog skupa β 1. 7. 6. 010. Beograd Predavanje 15 / 7

Regresiona analiza: primer 3. Izračunati SK xx, SK yy i SK xy Vozačko iskustvo, x Premija auto osiguranja, y xy x y 5 64 30 5 4096 87 174 4 7569 1 50 600 144 500 9 71 639 81 5041 15 44 660 5 1936 6 56 336 36 3136 5 4 1050 65 1764 16 60 960 56 3600 Σx90 Σy474 Σxy4739 Σx 1396 Σx 964 7. 6. 010. Beograd Predavanje 15 / 8

Regresiona analiza: primer x x n Vrednosti aritmetičkih sredina za x i y su: 90 8 11,5 y y n 474 8 59,5 SP xy SK xx SK xy SK i SP označavaju odgovarajuće sume kvadrata i sume proizvoda. x xy n x y y 90 474 4739 593,5000 8 ( x) 90 1396 n 8 383,5000 7. 6. 010. Beograd Predavanje 15 / 9 ( y) 474 964 n 8 1557,5000

Regresiona analiza: primer 4. Na osnovu objašnjavajuće i zavisne promenljive iz 1. odrediti regresionu pravu po metodu najmanjih kvadrata. Koeficijenti regresione prave uzorka, odnosno metodu najmanjih kvadrata glase: b SP 593,5000 383,5000 xy 1 SK xx 1,5476 b0 y b1 x 559,5 ( 1,5476) 11,5 Ocenjena linija regresije u ovom primeru glasi: ˆ 1 ocene po 76,6605 y b + b x 76,6605 1, 5476x 0 7. 6. 010. Beograd Predavanje 15 / 30

Regresiona analiza: kompletan primer 5. Objasniti značenje dobijenih ocenjenih vrednosti b 0 i b 1. Rešenje: Ocenjena vrednost b 0 predstavlja vrednost za x0. To je prosečni mesečni nivo premije osiguranja za vozača bez vozačkog iskustva. Ocenjena vrednost b 1-1,5476 pokazuje da sa porastom vozačkog iskustva za 1 godinu, mesečna premija osiguranja u proseku opada za oko 1,55 evra. Kako je b 1 negativno, y opada sa porastom x. ŷ 7. 6. 010. Beograd Predavanje 15 / 31

Regresiona analiza: kompletan primer 6. Nacrtati dijagram raspršenosti i ocenjenu regresionu pravu. Dijagram raspršenosti i regresiona prava Premija osiguranja 100 90 80 70 60 50 40 30 0 10 0 0 10 0 30 Vozačko iskustvo Series1 Linear (Series1) 7. 6. 010. Beograd Predavanje 15 / 3

Koeficijent proste linearne korelacije Koeficijent proste linearne korelacije između dve promenljive u uzorku, r, se izračunava kao: r SK n SP xx xy SK x yy 7. Izračunajte koeficijente r i r i objasnite njihovo značenje. n ( xy x) 593,5 x n 383,5 1557,5 y y ( 0,77 y) ( 0,77) 0,59 Vrednost r -0,77 ukazuje da u uzorku od 8 vozača postoji jaka negativna korelaciona veza između vozačkog iskustva i mesečne premije auto osiguranja. Vrednost r se naziva koeficijent determinacije i ukazuje da je 59% ukupnih varijacija mesečne premije objašnjeno vozačkim iskustvom, a 41% je rezultat drugih uticaja. r 7. 6. 010. Beograd Predavanje 15 / 33

Regresiona analiza: primer 8. Oceniti mesečnu premiju auto osiguranja vozača sa 10 godina vozačkog iskustva. Na osnovu regresione prave uzorka, ocenjena vrednost y za x10 iznosi: ˆ 0 1 y b + b x 76,6605 1,5476x 76,6605 1,5476 10 61,18 evra Očekivani mesečni iznos premije auto osiguranja vozača sa 10 godina iskustva je 61,18 evra. 7. 6. 010. Beograd Predavanje 15 / 34

Regresiona analiza: primer 9. Izračunati standardnu grešku regresije. Standardna greška regresije je ocena standardne devijacije slučajne greške, S i iznosi: s SK yy b 1 n SP xy 1557,5 ( 1,5476) ( 593,5) 8 10,3199 7. 6. 010. Beograd Predavanje 15 / 35

Regresiona analiza: primer 9. Formirati 90% interval poverenja za parametar β 1. Ocenjena vrednost standardne greške ocene b 1 : s s 10,3199 S 0,570 1 383,5 b SK x n x xx Za 90% interval poverenja, površina na svakom kraju pod krivom t raspodele je: α/ (1-0,90)/ 0,05, a broj stepeni slobode je df n - 8 6. Na osnovu tablice t raspodele, tablična vrednost za α/0,05 i df 6 je 1,943. 90% interval poverenja za parametar β 1 je b 1 ts b1-1,5476 1,943 (0,570) -1,5476±1,040 -,57 < β 1 <,57 7. 6. 010. Beograd Predavanje 15 / 36

Testiranje hipoteze o parametru β 1 10. Sa nivoom značajnosti od 5% testirajte hipotezu da je β 1 negativno. Testiranje se obavlja u 5 etapa. Korak 1. Formulisanje nulte i alternativne hipoteze: H 0 : β 1 0 (Regresioni parametar je jednak 0) H 1 : β 1 < 0 (Regresioni parametar je jmanji od 0 ) Korak. Izbor raspodele koja će se koristiti. Kako σ ε nije poznato, za testiranje hipoteze ćemo koristiti t raspodelu, odnosno t statistiku testa. 7. 6. 010. Beograd Predavanje 15 / 37

Testiranje hipoteze o parametru β 1 Korak 3. Određivanje oblasti odbacivanja i neodbacivanja Nivo značajnosti je α0,05. Znak < u alternativnoj hipotezi ukazuje da je test levostran, sa jednom oblašću odbacivanja nulte hipoteze sa leve strane. Površina na levom kraju krive t raspodele je α 0,05. Broj stepeni slobode je df n - 8 6 Kritična vrednost t se nalazi u tablicama za t raspodelu, za vrednosti df 6 i površine (plavo) ispod krive t raspodele za 0,05 i iznosi -1,943. α 0,05-1,943 0 Odbacuje se H 0 Ne odbacuje se H 0 7. 6. 010. Beograd Predavanje 15 / 38

Testiranje hipoteze o parametru β 1 Korak 4. Izračunavanje vrednosti statistike testa Vrednost statistike testa izračunavamo na sledeći način: t b β 1 s b 1 1-1,5476-0,570 0 Iz H 0,937 7. 6. 010. Beograd Predavanje 15 / 39

Testiranje hipoteze o parametru β 1 Korak 5. Donošenje odluke Pošto se realizovana vrednost statistike t testa, t -,937 nalazi u oblasti odbacivanja nulte hipoteze donosimo odluku o odbacivanju nulte hipoteze. Sledi da nultu hipotezu odbacujemo uz nivo značajnosti od 0,05 i zaključujemo da je, na osnovu podataka u uzorku, parametar β1 negativan, odnosno da mesečni iznos premije auto osiguranja u osnovnom skupu vozača u proseku opada sa povećanjem vozačkog iskustva. 7. 6. 010. Beograd Predavanje 15 / 40

Hvala na pažnji! 7. 6. 010. Beograd Predavanje 15