Regresijska analiza 1 Regresijska analiza Regresijska zavisnost. Jednostavna regresija Regresijska se analiza koristi za donošenje zaključaka o nizu slučajnih varijabli Y 1,...,Y n koje ovise o nezavisnoj varijabli x. Zaključci se donose na temelju niza sparenih mjerenja (x 1, y 1 ),...,(x n, y n ), gdje su x 1,...,x n vrijednosti nezavisne varijable x, a y 1,...,y n odgovarajuće vrijednosti slučajnih varijabli Y 1,..., Y n. U konkretnim primjerima nezavisnu varijablu x često zovemo kontroliranom ili prediktornom varijablom (važno za odabir varijabli u programskom paketu Statistica). Primjer 1: Ako sa x označimo dob osobe, a sa Y krvni tlak osobe, zanimljivo je promatrati vezu izmedu dobi i krvnog tlaka. Krvni tlak za osobe iste dobi možemo modelirati kao slučajnu varijablu s pripadnom distribucijom (npr. normalnom). Budući se starenjem povećava krvni tlak, prirodno je tražiti svojevrstan matematički opis statističke zakonitosti koja obuhvaća vremensku promjenjivost krvnog tlaka. To zapravo znači da moramo promatrati familiju normalnih distribucija, tako da svakoj dobi x pripada odgovarajuća normalna razdioba N(µ(x), σ 2 (x)) krvnog tlaka Y x. Činjenica da se starenjem povećava krvni tlak odražava se na funkciju x µ(x) koja dobi pridružuje srednju vrijednost krvnog tlaka (upravo u toj dobi). Očito je da je ova funkcija monotono rastuća. Dakle, poanta svega je na temelju sparenih mjerenja (x 1, y 1 ),...,(x n, y n ) ustanoviti prirodu ovisnosti slučajnih varijabli Y i o nezavisnoj varijabli x. Ako matematički model definiramo relacijom Y i = f(x i ) + ε i, i = 1,...,n,
Regresijska analiza 2 gdje je x f(x) realna funkcija jedne realne varijable, a ε 1,...,ε n nezavisne slučajne varijable t.d. je E[ε i ] = 0 i V ar(ε i ) = σ 2, onda govorimo o jednodimenzionalnom regresijskom modelu. Prvi korak u uspostavljanju ovakvih veza izmedu varijabli Y i x je prikaz podataka u dijagramu raspršenosti iz kojeg se lako vidi grupiraju li se točke (sparena mjerenja) oko pravca (linearna zavisnost) ili neke krivulje (neka druga funkcijska zavisnost: polinomijalna (n 2), logaritamska,...). Primjer 2: krv.sta U bazi podataka krv.sta nalaze se podaci o mjerenim vrijednostima nekoliko različitih analiza krvi u definiranoj populaciji bolesnih osoba. Analitičar želi istražiti može li se odrediti veza izmedu izmjerenih vrijednosti ovih analiza. Utvrdivanje veze i jasno uspostavljanje zakona koji ih povezuje smanjio bi broj potrebnih pretraga krvi. Naime, trebalo bi napraviti samo one koje su medusobno nezavise, dok bi se ostale mogle na osnovu njih prognozirati. Za podatke iz baze prikažite svake dvije varijable u dijagramu raspršenosti i kratko ga proanalizirajte.
Regresijska analiza 3 Jednostavna linearna regresija. Regresijski pravac Da bismo postavili što realniju pretpostavku o regresijskoj funkciji, parove podataka (x 1, y 1 ),..., (x n, y n ) prikazujemo točkama u koordinatnom sustavu (dijagram raspršenosti ili scatterplot). Ako pretpostavimo da je graf funkcije f(x) pravac, tj. da je zakonitost koja povezuje nezavisnu varijablu x i vrijednosti slučajnih varijabli Y i linearnog tipa, regresijsku funkciju u algebarskom obliku zapisujemo na sljedeći način: f(x) = α + βx. U tom se slučaju parametar β (koeficijent smjera) naziva koeficijent regresije, a pravac y = α + βx regresijski pravac. Statistički model jednostavne linearne regresije: Pretpostavljamo da su vrijednosti zavisne varijable Y i povezane s vrijednostima nezavisne varijable na sljedeći način: Ovdje su: Y i = α + βx i + ε i, i = 1,..., n. x 1, x 2,..., x n vrijednosti nezavisne (prediktorne) varijable x koje je analitičar izabrao za studiju, ε 1, ε 2,...,ε n predstavljaju nepoznate komponenete greške koja je dodana na linearnu vezu. Ovo su slučajne varijable za koje pretpostavljamo da su medusobno nezavisne i da sve imaju normalnu distribuciju s očekivanjem 0 i istom varijancom σ 2, α i β su nepoznati parametri pretpostavljene veze koje treba procijeniti, tj. odrediti u postupku modeliranja. Kako? Metoda najmanjih kvadrata Problem procjene nepoznatih parametara α i β možemo identificirati sa procjenom nepoznatog nam regresijskog pravca.
Regresijska analiza 4 Pretpostavimo da je u sklopu dijagrama raspršenja nacrtan proizvoljan pravac y = α + βx. Iz slike je vidljivo da za vrijednost x i nezavisne varijable x, zavisna varijabla Y i poprima vrijednost (predicted value) α + βx i. Istovremeno uočimo da je stvarna Y i -vrijednost (observed value) jednaka y i. y_i y= + x + x_i x_i Nas će zanimati razlika izmedu tih vrijednosti: d i = y i (α + βx i ). Pretpostavimo da su (x 1, y 1 ),..., (x n, y n ) dani eksperimentalni podaci iz modela koji je upravo opisan. Tada regresijske parametre α i β procjenjujemo metodom najmanjih kvadrata. Ideja metode je da se minimizira suma kvadratnih odstupanja teoretskih od eksperimentalnih vrijednosti, tj. procjene ˆα i ˆβ regresijskih parametara α i β trebamo odrediti tako da vrijedi: D(ˆα, ˆβ) = [y i (ˆα+ˆβx i )] 2 = min (α,β) R 2 [y i (α+βx i )] 2 = min D(α, β). (α,β) R2 Takve procjene ˆα i ˆβ nazivamo procjenama u smislu metode najmanjih kvadrata ili least square estimates regresijskih parametara α i β. Jasno je da je tada najbolja procjena nepoznatog regresijskog pravca y = α + βx upravo pravac ŷ = ˆα + ˆβx.
Regresijska analiza 5 Za analitičko rješenje procjena ˆα i ˆβ parametara α i β potrebno nam je sljedeće: x = 1 n ȳ = 1 n x i y i aritmetička sredina vrijednosti x i aritmetička sredina vrijednosti y i S 2 x = 1 n S 2 y = 1 n S xy = 1 n (x i x) 2 srednje kvadratno odstupanje vrijednosti varijable x od x (y i ȳ) 2 srednje kvadratno odstupanje vrijednosti varijable y od ȳ (x i x)(y i ȳ) uzoračka kovarijanca Dobre procjene ˆα i ˆβ parametara α i β u smislu metode najmanjih kvadrata su: ˆβ = S xy, ˆα = ȳ S ˆβ x, x 2 pa je regresijski pravac (točnije, procjena nepoznatog regresijskog pravca) oblika: ŷ = ˆα + ˆβx. Uočimo da, koristeći formulu regresijskog pravca, za svaku pojedinu eksperimentalnu vrijednost x i možemo izračunati pripadnu teorijsku vrijednost y i, pa možemo točno izračunati koliko iznosi svako odstupanje teorijske od eksperimentalne vrijednosti: e i = y i ŷ i = y i (ˆα + ˆβx i ). Ovako dobiven niz vrijednosti e 1,...,e n zovemo rezidualima. Nadalje, suma kvadrata svih reziduala (sum of squares of errors = SSE) je upravo minimalna postignuta vrijednost za D(α, β) i predstavlja jednu
Regresijska analiza 6 mjeru kvalitete modela koju označavamo sa SSE: SSE = [y i (ˆα + ˆβx i )] 2 = e 2 i. Primjer 3: krv.sta Koristeći bazu podataka krv.sta odredite regresijski pravac izmedu varijabli CD4 i CD8. Odredite vrijednosti reziduala. Ponovite postupak za još nekoliko parova varijabli. Primjer 4: regresija.sta Koristeći bazu podataka regresija.sta odredite regresijski pravac izmedu varijabli x1 i x2. Odredite vrijednosti reziduala i prokomentirajte dobiveni rezultat. Primjer 5: regresija.sta Koristeći bazu podataka regresija.sta odredite regresijski pravac izmedu varijabli x2 i x2kv. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnosti linearnog modela za problem? Koji bi model bio prikladniji i zašto?
Regresijska analiza 7 Statističko zaključivanje pri regresijskoj analizi Najvažnija praktična pitanje na koje treba odgovoriti pri ovakvom modeliranju su: 1. Koliki dio promjena u mjerenim vrijednostima zavisne varijable je objašnjen dobivenim modelom? (test jakosti modela) Odgovor na ovo pitanje daje koeficijent determinacije R 2 : Odavde je očito da je R 2 = S2 xy. SxS 2 y 2 R = S xy S x S y. Koeficijent determinacije R 2 nam zapravo daje informaciju o tome koliko rasipanja izlaznih podataka potječe od funkcijske ovisnosti x α + βx, a koliko otpada na tzv. rezidualno ili neobjašnjeno rasipanje (tu informaciju očitavamo iz 1 R 2 ). Drugim riječima daje informaciju o tome koliko je jaka funkcijska veza izmedu x i Y. Što je vrijednost koeficijenta R2 bliža 1, zavisnost je jača. 2. Je li ovaj model (Y i = α+βx i +ε i ) bolji od nul-modela (Y i = α+ε i ), tj. modela u kojemu je koeficijent regresije β = 0? (test adekvatnosti modela) Osnova ovog dijela analize je utvrditi koji od gore navedenih modela bolje opisuje funkcijsku ovisnost slučajne varijable Y (čije realizacije označavamo sa y i ) i nezavisne (neslučajne) varijable x. Ukoliko je β = 0 ne možemo govoriti o funkcijskoj ovisnosti izmedu Y i x. Taj problem svodimo na testiranje nulte hipoteze koju formuliramo na jedan od sljedeća dva načina: H 0 : H 0 : β = 0. Funkcijska veza izmedu Y i x ne postoji.
Regresijska analiza 8 Sada je jasno da alternativnu hipotezu postavljamo na sljedeći način: H A : H A : β 0. Funkcijska veza izmedu Y i x postoji. Za testiranje ovih hipoteza koristimo T-test, pri čemu je vrijednost test statistike dana izrazom gdje je S x = 1 n 1 t = S x β s n 1 T(n 2), (x i x) 2, s = n SSE n 2 = e2 i n 2. 3. Analiza reziduala: utvrdujemo jesu li ispunjene sve početne pretpostavke koje reziduali trebaju ispunjavati, a te su: Varijance grešaka (koje su, kako znamo, slučajnog karaktera) su jednake. Homogenost varijanci reziduala provjeravamo analizom grafičkog prikaza ovisnosti reziduala e i o procjenjenim vrijednostima ŷ i = ˆα + ˆβx i (tzv. predicted and resids plot u programskom paketu Statistica). Jednostavno donošenje zaključaka o varijanci dano je pomoću sljedećih sličica: Slika 1. Horizontalno rasporedene točke sugeriraju homogenost varijanci.
Regresijska analiza 9 Slika 2. Ovakav raspored točaka sugerira stalan rast varijance, dakle varijance nisu homogene. Slika 3. Ovakav raspored točaka sugerira neadekvatnost linearnog modela. Reziduali su normalno distribuirani. Normalnost reziduala provjeravamo analizom histograma reziduala i p-plota reziduala u programskom paketu Statistica. Reziduali moraju biti medusobno nezavisni, tj. vrijednost reziduala koji se odnosi na realizaciju y i slučajne varijable Y nema nikakvog utjecaja na vrijednost reziduala koji se odnosi na realizaciju y j iste slučajne varijable. Ovu pretpostavku provjeravamo analizom grafičkog prikaza reziduala za svaki pojedini slučaj (Case numbers and resids plot u programskom paketu Statistica - promatramo položaj pravca i raspored reziduala u odnosu na njega) i crtanjem dijagrama raspršenja uredenih parova reziduala (e i, e i 1 ), i = 2,...,n.
Regresijska analiza 10 Ako reziduali e i zadovoljavaju prethodno navedene pretpostavke, smatramo ih dobrim procjenama stvarnih normalnih grešaka ε i. Primjer 6: statistika.sta Mnogi studenti odlučili su ispit iz Matematičke statistike položiti putem kolokvija. Pri tome se postignuti bodovi na svim kolokvijima zbrajaju i na temelju zbroja bodova procjenjuje ima li student pravo izaći na usmeni dio ispita. U bazi podataka statistka.sta nalazi se zbroj bodova sa prva dva kolokvija (varijabla kol-1-2) i ukupan broj bodova nakon svih provedenih kolokvija (varijabla Ukupno). Odredite regresijski pravac izmedu varijabli Kol-1-2 i Ukupno. Napravite potpunu regresijsku analizu (test jakosti, test adekvatnosti i analizu reziduala). Primjer 7: požar.sta U bazi podataka požar.sta nalaze se podaci o udaljenosti lokacije na kojoj je izbio požar od najbližeg vatrogasnog centra (varijabla Udaljenost-km) i podaci o iznosu štete nastale tim požarom (varijabla Steta-kn). Napravite potpunu regresijsku analizu (test jakosti, test adekvatnosti i analizu reziduala). Primjer 8: ptsp.sta Koristeći bazu podataka ptsp.sta odredite regresijski pravac izmedu varijabli ptspb i ptspb2 (ptspb2 sadrži rezultate testova nakon terapije nekim lijekom, a ptspb odražava stanje prije provedene terapije). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala). Analogno napravite za parove varijabli ptspc i ptspc2, te ptspd i ptspd2.
Regresijska analiza 11 Regresijska analiza - priprema za kolokvij Grupa A Primjer 1: regresija-1.sta Koristeći bazu podataka regresija-1.sta odredite regresijski pravac izmedu varijabli X-1 i X-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnosti linearnog modela za problem? Koji bi model bio prikladniji i zašto? Primjer 2: gorivo.sta Koristeći bazu podataka gorivo.sta odredite regresijski pravac izmedu varijabli Udaljenost-posao i Troskovi-gorivo (Udaljenost-posao sadrži podatke o udaljenosti radnog mjesta od mjesta stanovanja za 100 zaposlenih osoba, a Troskovi-gorivo iznos u kunama kojeg ispitanici troše na gorivo da bi se dovezli do posla). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).
Regresijska analiza 12 Regresijska analiza - priprema za kolokvij Grupa B Primjer 3: regresija-2.sta Koristeći bazu podataka regresija-2.sta odredite regresijski pravac izmedu varijabli Y-1 i Y-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnosti linearnog modela za problem? Koji bi model bio prikladniji i zašto? Primjer 4: glukoza.sta Koristeći bazu podataka glukoza.sta odredite regresijski pravac izmedu varijabli Dob-osobe i Koncentracija-glukoze (Dob-osobe sadrži podatke o starosti za 100 ispitanih osoba, a Koncentracija-glukoze nivo glukoze u krvi pojedinog ispitanika). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).
Regresijska analiza 13 Regresijska analiza - priprema za kolokvij Grupa C Primjer 5: regresija-3.sta Koristeći bazu podataka regresija-3.sta odredite regresijski pravac izmedu varijabli Z-1 i Z-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnosti linearnog modela za problem? Koji bi model bio prikladniji i zašto? Primjer 6: apartmani.sta Koristeći bazu podataka apartmani.sta odredite regresijski pravac izmedu varijabli Udaljenost-od-mora i Cijena-apartmana (Udaljenost-od-mora sadrži podatke o udaljenosti apartmana do najbliže plaže, a Cijena-apartmana cijenu apartmana po danu izraženu u kunama). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).
Regresijska analiza 14 Regresijska analiza - priprema za kolokvij Grupa D Primjer 7: regresija-4.sta Koristeći bazu podataka regresija-4.sta odredite regresijski pravac izmedu varijabli W-1 i W-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnosti linearnog modela za problem? Koji bi model bio prikladniji i zašto? Primjer 8: servis.sta Koristeći bazu podataka servis.sta odredite regresijski pravac izmedu varijabli Broj-km i Servis-kn (Broj-km sadrži podatke o prijedenom broju kilometara nekog tipa automobila prije obavljenog prvog servisa, a Servis-kn cijenu servisa nakon tog broja kilometara). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).