Regresija i korelacija Goran Trajković septembar, 008. godine
Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli. Korelacija podrazumeva analizu jačine i smera povezanosti. Regresija podrazumeva analizu oblika i smera povezanosti i analizu u smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli. Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable.
Smer povezanosti Pozitivan Negativan Karakteristike povezanosti Jačina povezanosti Deterministička (funkcionalna) povezanost Stohastička (statistička) povezanost Oblik povezanosti Linearan Nelinearan Zavisno od broja varijabli: Jednostruka (prosta) povezanost Višestruka (multipla) povezanost Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica.
Dijagram rasturanja Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dve varijable. Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije. Pozitivna linearna povezanost (r 0.65) Nema povezanosti (r 0.00) Negativna linearna povezanost (r -0,68) Krivolinijska povezanost
Pearsonov koeficijent linearne korelacije r SD x xy SD SD y SD xy kovarijansa, SD x i SD y standardne devijacije varijabl x i y SD xy xy x xy SD x y x SD y y n n n Testiranje hipoteze da li postoji povezanost dve varijable: H 0 : ρ 0, H 1 : ρ 0 Nulta hipotezu testira se t-testom: t r n 1 r za broj stepena slobode DF n
Osobine Pearsonovog koeficijenta linearne korelacije Bezdimenzionalna veličina tj. nema jedinicu mere. Vrednosti koeficijenta linearne korelacije kreću seu opsegu od 1 do 1. U procesu izračunavanja varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije. Smer povezanosti: Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable. Vrednosti od 1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable. r koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable
Interpretacija Pearsonovog koeficijenta linearne korelacije Jačina povezanosti 0.70 ili više Vrlo jaka povezanost 0.50 0.69 Jaka povezanost 0.30 0.49 Osrednja povezanost 0.11 0.9 Slaba povezanost 0.01 0.09 Zanemarljiva povezanost 0.00 Nepostojanje linearne povezanosti (ne isključuje postojanje nelinearnog oblika povezanosti)
Model jednostruke (proste) linearne regresije Regresiona jednačina y ˆ a + bx ŷ x a b očekivana vrednost zavisne varijable (ishodna varijabla) nezavisna varijabla, eksplanator, prediktor odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijabla jednaka nuli. nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable. a, b regresioni koeficijenti a, b su uzoračke ocene populacionih parametara α i β
Regresiona linija y ˆ a + bx y y Δy Δx a a b Δy / Δx x x
Metod najmanjih kvadrata a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja y x
Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu: b SD SD Ocena konstante u regresionom modelu: a xy x v v y bx Regresiona jednačina: y a + bx
Pretpostavke za primenu regresionog modela Odnos varijabli mora biti linearan Merenje je najmanje na ordinalnom nivou Opservacije su nezavisne (jedna opservacija po jedinici analize) Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable
Evaluacija regresionog modela Tabela analize varijanse Totalni varijabilitet zavisne (Y) varijable je podeljen na komponente: Varijabilitet objašnjen regresijom Rezidualni (neobjašnjeni) varijabilitet R Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom Standardna greška regresije
Predikcija pomoću regresionog modela interpolacija i ekstrapolacija Interpolacija predviđanje unutar opsega varijable x Ekstrapolacija predviđanje van opsega varijable x Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable.
Druge mere povezanosti Spearman ρ (r s ) Koeficijent korelacije za podatke sa ordinalne skale merenja. Neparametarski koeficijent korelacije. Point-biserial koeficijent korelacije Korelacija podataka sa intervalne (ili omerne) skale merenja i dihotomnih podataka. Phi koeficijent Mera povezanosti kada su podaci obe varijable dihotomni.
Spearmanov koeficijent korelacije rangova Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada: Najmanje jedna varijabla merena na ordinalnoj skali Podaci za najmanje jednu varijablu dati su u vidu rangova Najmanje jedna varijabla nema normalnu raspodelu Odnos između varijabli nije linearan
Izračunavanje Spearmanovog koeficijenta korelacije rangova Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima) Isto to učiniti i sa varijablom y Izračunati vrednosti koeficijenta korelacije rangova pomoću formule: r S 6 d 1 n i ( n 1) d razlika rangova, n broj jedinica analize
Spearmanov koeficijent korelacije rangova Testiranje hipoteze da li postoji povezanost dve varijable Hipoteze: H 0 : ρ 0, H 1 : ρ 0 Ako je broj jedinica analize 10 nulta hipotezu se testira t-testom za broj stepena slobode DF n : t r S n 1 r S Ako je broj jedinica analize 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti
Primer: Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina. ID 1 3 4 5 6 7 8 9 10 11 1 Starost 39 59 71 75 73 55 51 70 41 45 63 35 Sistolna TA 15 165 170 150 185 155 180 160 145 140 135 130 Sistolna TA (mmhg) 00 180 160 140 10 100 80 Dijagram rasturanja starosti i sistolne tenzije 30 40 50 60 70 80 Starost (godine)
105640 105640 8650 8650 4043 4043 1840 1840 677 677 Σ 4550 4550 16900 16900 15 15 130 130 35 35 8505 8505 185 185 3969 3969 135 135 63 63 6300 6300 19600 19600 05 05 140 140 45 45 5945 5945 105 105 1681 1681 145 145 41 41 1100 1100 5600 5600 4900 4900 160 160 70 70 9180 9180 3400 3400 601 601 180 180 51 51 855 855 405 405 305 305 155 155 55 55 13505 13505 345 345 539 539 185 185 73 73 1150 1150 500 500 565 565 150 150 75 75 1070 1070 8900 8900 5041 5041 170 170 71 71 9735 9735 75 75 3481 3481 165 165 59 59 4875 4875 1565 1565 151 151 15 15 39 39 x y y x y x 56.4 1 677 n x x v 3 153. 1 1840 n y y v
SD x x v x n 4043 56.4 1 13.6 SD xy SD y y v y n xy vv xy n r SD x xy SD SD 105640 1 y 8650 153.3 1 18.5 56.4 153.3 15.78 15.78 13.6 18.5 0.605 t 1 0.605 1 0.605.404 Postoji statistički značajna jaka pozitivna povezanost starosti i sistolne TA (r 0.605, t.4, DF 10, p 0.05). Koeficijent determinacije 0.366
Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu: b SD SD 15.78 185.74 xy x 0.83 Ocena konstante u regresionom modelu: a v v y bx 153.3 0.83 56.4 106.93 Regresiona jednačina: y a + bx 106.93+ 0. 83 x
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi: y a + bx 106.93+ 0.83 77 170.3 00 Sistolna TA (mmhg 180 160 140 10 100 80 30 40 50 60 70 80 Starost (godine)
Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05. tm na pocetku trudnoće Rx tm novorođ enčeta Ry d 63 7 3400 8 0.00 59.5 3300 7 1.5 57 1 800 1.5 0.5 63 7 3100 5 9.00 67 9 3600 9 1.00 60 4 300 6 1.00 63 7 3700 10 4.00 59.5 900 3 0.5 70 10 800 1.5 7.5 6 5 3000 4 4.00 Σ 11.00
Vrednosti koeficijenta korelacije rangova je: r S 6 di 6 11 1 1 n ( n 1) 10( 10 1) 0.31 Testiranje nulte hipoteze t-testom: t r S n 1 r 0.31 10 1 0.31 S 0.959 Ne postoji statistički značajna povezanost telesne mase trudnica na početku trudnoće i telesne mase novorođenčadi (r S 0.3, t0.96, DF 8, p > 0.05).