Regresija i korelacija

Σχετικά έγγραφα
Izbor statističkih testova Ana-Maria Šimundić

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

Uvod u neparametarske testove

numeričkih deskriptivnih mera.

REGRESIONA I KORELACIONA ANALIZA

, i = 1, 2, n. Tabela 1 Koeficijent proste korelacije. Standardizovani regresioni koeficijent. Regresioni koeficijent b

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Prosta linearna regresija (primer)

NEPARAMETRIJSKE TEHNIKE

Mašinsko učenje. Regresija.

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Str

Program testirati pomoću podataka iz sledeće tabele:

Računarska grafika. Rasterizacija linije

Elementi spektralne teorije matrica

Ispitivanje toka i skiciranje grafika funkcija

MODEL JEDNOSTAVNE LINEARNE REGRESIJE

Uvod u neparametarske testove

IX. Analiza podataka (2) IX.1. Diskriminaciona analiza MARKETINŠKO ISTRAŽIVANJE. Tehnike za analizu podataka. Multivarijacione tehnike

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Eliminacijski zadatak iz Matematike 1 za kemičare

Računarska grafika. Rasterizacija linije

III VEŽBA: FURIJEOVI REDOVI

5. Karakteristične funkcije

Korelacija i regresija seminar

X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

Testiranje statistiqkih hipoteza

APROKSIMACIJA FUNKCIJA

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

REGRESIJSKA ANALIZA zavisnost (korelacija) regresijske tehnike kvantitativno zavisnost (korelaciju) linearna regresija

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

SISTEMI NELINEARNIH JEDNAČINA

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

3.1 Granična vrednost funkcije u tački

Korelacijska i regresijska analiza

Osnove geostatistike

Analiza varijanse (ANOVA) Analiza varijanse sa jednim faktorom ANOVA 07/12/2017. Tehnike za analizu podataka. Multivarijacione tehnike

Obrada signala

10. STABILNOST KOSINA

Statističko zaključivanje - testiranje hipoteza. Katedra za medicinsku statistiku i informatiku

Uvod u neparametrijske testove. Usporedba. Neparametrijske inačice t-testa za dva nezavisna uzorka. dr. sc. Goran Kardum

11. glava PROSTA KORELACIONA I REGRESIONA ANALIZA

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

DIMENZIONISANJE PRAVOUGAONIH POPREČNIH PRESEKA NAPREGNUTIH NA PRAVO SLOŽENO SAVIJANJE

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

Numerička matematika 2. kolokvij (1. srpnja 2009.)

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

Chi-kvadrat test. Chi-kvadrat (χ2) test

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Zavrxni ispit iz Matematiqke analize 1

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

7 Algebarske jednadžbe

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Autori: Dr Biljana Popović, redovni profesor Prirodno matematičkog fakulteta u Nišu Mr Borislava Blagojević, asistent Gradjevinskog fakulteta u Nišu

Statističke metode. doc. dr Dijana Karuović

Obrada rezultata merenja

KORELACIJA Pearsonov koeficijent korelacije Produkt-moment - Spearmanov koeficijent korelacije rang korelacije

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

IZVODI ZADACI (I deo)

Funkcije dviju varjabli (zadaci za vježbu)

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

ELEKTROTEHNIČKI ODJEL

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

Zadaci iz trigonometrije za seminar

SEMINAR IZ KOLEGIJA ANALITIČKA KEMIJA I. Studij Primijenjena kemija

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

41. Jednačine koje se svode na kvadratne

Analitička statistika Testiranje hipoteze.

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Kaskadna kompenzacija SAU

( , 2. kolokvij)

Grafičko prikazivanje atributivnih i geografskih nizova

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

Populacija vs. uzorak - Opisivanje, ocenjivanje i testiranje. Jelena Marinković, maj 2012.

Sadrˇzaj. Sadrˇzaj 1 9 DVODIMENZIONALNI SLUČAJNI VEKTOR DISKRETNI DVODIMENZIONALNI

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

Konstruisanje. Dobro došli na... SREDNJA MAŠINSKA ŠKOLA NOVI SAD DEPARTMAN ZA PROJEKTOVANJE I KONSTRUISANJE

TESTIRANJE ZNAČAJNOSTI RAZLIKE

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

Moguća i virtuelna pomjeranja

Osnovne teoreme diferencijalnog računa

Prediktor-korektor metodi

Oblasti izučavanja. IX.1. Osnove analize podataka. IX. Analiza podataka UVOD U ANALIZU PODATAKA 13/11/15

S t r a n a 1. 1.Povezati jonsku jačinu rastvora: a) MgCl 2 b) Al 2 (SO 4 ) 3 sa njihovim molalitetima, m. za so tipa: M p X q. pa je jonska jačina:

1 UPUTSTVO ZA IZRADU GRAFIČKOG RADA IZ MEHANIKE II

Sistemi veštačke inteligencije primer 1

Testiranje hipoteza statistika zaključivanja

3 Populacija i uzorak

Transcript:

Regresija i korelacija Goran Trajković septembar, 008. godine

Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli. Korelacija podrazumeva analizu jačine i smera povezanosti. Regresija podrazumeva analizu oblika i smera povezanosti i analizu u smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli. Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable.

Smer povezanosti Pozitivan Negativan Karakteristike povezanosti Jačina povezanosti Deterministička (funkcionalna) povezanost Stohastička (statistička) povezanost Oblik povezanosti Linearan Nelinearan Zavisno od broja varijabli: Jednostruka (prosta) povezanost Višestruka (multipla) povezanost Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica.

Dijagram rasturanja Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dve varijable. Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije. Pozitivna linearna povezanost (r 0.65) Nema povezanosti (r 0.00) Negativna linearna povezanost (r -0,68) Krivolinijska povezanost

Pearsonov koeficijent linearne korelacije r SD x xy SD SD y SD xy kovarijansa, SD x i SD y standardne devijacije varijabl x i y SD xy xy x xy SD x y x SD y y n n n Testiranje hipoteze da li postoji povezanost dve varijable: H 0 : ρ 0, H 1 : ρ 0 Nulta hipotezu testira se t-testom: t r n 1 r za broj stepena slobode DF n

Osobine Pearsonovog koeficijenta linearne korelacije Bezdimenzionalna veličina tj. nema jedinicu mere. Vrednosti koeficijenta linearne korelacije kreću seu opsegu od 1 do 1. U procesu izračunavanja varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije. Smer povezanosti: Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable. Vrednosti od 1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable. r koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable

Interpretacija Pearsonovog koeficijenta linearne korelacije Jačina povezanosti 0.70 ili više Vrlo jaka povezanost 0.50 0.69 Jaka povezanost 0.30 0.49 Osrednja povezanost 0.11 0.9 Slaba povezanost 0.01 0.09 Zanemarljiva povezanost 0.00 Nepostojanje linearne povezanosti (ne isključuje postojanje nelinearnog oblika povezanosti)

Model jednostruke (proste) linearne regresije Regresiona jednačina y ˆ a + bx ŷ x a b očekivana vrednost zavisne varijable (ishodna varijabla) nezavisna varijabla, eksplanator, prediktor odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijabla jednaka nuli. nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable. a, b regresioni koeficijenti a, b su uzoračke ocene populacionih parametara α i β

Regresiona linija y ˆ a + bx y y Δy Δx a a b Δy / Δx x x

Metod najmanjih kvadrata a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja y x

Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu: b SD SD Ocena konstante u regresionom modelu: a xy x v v y bx Regresiona jednačina: y a + bx

Pretpostavke za primenu regresionog modela Odnos varijabli mora biti linearan Merenje je najmanje na ordinalnom nivou Opservacije su nezavisne (jedna opservacija po jedinici analize) Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable

Evaluacija regresionog modela Tabela analize varijanse Totalni varijabilitet zavisne (Y) varijable je podeljen na komponente: Varijabilitet objašnjen regresijom Rezidualni (neobjašnjeni) varijabilitet R Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom Standardna greška regresije

Predikcija pomoću regresionog modela interpolacija i ekstrapolacija Interpolacija predviđanje unutar opsega varijable x Ekstrapolacija predviđanje van opsega varijable x Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable.

Druge mere povezanosti Spearman ρ (r s ) Koeficijent korelacije za podatke sa ordinalne skale merenja. Neparametarski koeficijent korelacije. Point-biserial koeficijent korelacije Korelacija podataka sa intervalne (ili omerne) skale merenja i dihotomnih podataka. Phi koeficijent Mera povezanosti kada su podaci obe varijable dihotomni.

Spearmanov koeficijent korelacije rangova Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada: Najmanje jedna varijabla merena na ordinalnoj skali Podaci za najmanje jednu varijablu dati su u vidu rangova Najmanje jedna varijabla nema normalnu raspodelu Odnos između varijabli nije linearan

Izračunavanje Spearmanovog koeficijenta korelacije rangova Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima) Isto to učiniti i sa varijablom y Izračunati vrednosti koeficijenta korelacije rangova pomoću formule: r S 6 d 1 n i ( n 1) d razlika rangova, n broj jedinica analize

Spearmanov koeficijent korelacije rangova Testiranje hipoteze da li postoji povezanost dve varijable Hipoteze: H 0 : ρ 0, H 1 : ρ 0 Ako je broj jedinica analize 10 nulta hipotezu se testira t-testom za broj stepena slobode DF n : t r S n 1 r S Ako je broj jedinica analize 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti

Primer: Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina. ID 1 3 4 5 6 7 8 9 10 11 1 Starost 39 59 71 75 73 55 51 70 41 45 63 35 Sistolna TA 15 165 170 150 185 155 180 160 145 140 135 130 Sistolna TA (mmhg) 00 180 160 140 10 100 80 Dijagram rasturanja starosti i sistolne tenzije 30 40 50 60 70 80 Starost (godine)

105640 105640 8650 8650 4043 4043 1840 1840 677 677 Σ 4550 4550 16900 16900 15 15 130 130 35 35 8505 8505 185 185 3969 3969 135 135 63 63 6300 6300 19600 19600 05 05 140 140 45 45 5945 5945 105 105 1681 1681 145 145 41 41 1100 1100 5600 5600 4900 4900 160 160 70 70 9180 9180 3400 3400 601 601 180 180 51 51 855 855 405 405 305 305 155 155 55 55 13505 13505 345 345 539 539 185 185 73 73 1150 1150 500 500 565 565 150 150 75 75 1070 1070 8900 8900 5041 5041 170 170 71 71 9735 9735 75 75 3481 3481 165 165 59 59 4875 4875 1565 1565 151 151 15 15 39 39 x y y x y x 56.4 1 677 n x x v 3 153. 1 1840 n y y v

SD x x v x n 4043 56.4 1 13.6 SD xy SD y y v y n xy vv xy n r SD x xy SD SD 105640 1 y 8650 153.3 1 18.5 56.4 153.3 15.78 15.78 13.6 18.5 0.605 t 1 0.605 1 0.605.404 Postoji statistički značajna jaka pozitivna povezanost starosti i sistolne TA (r 0.605, t.4, DF 10, p 0.05). Koeficijent determinacije 0.366

Ocena regresionih koeficijenata Ocena nagiba u regresionom modelu: b SD SD 15.78 185.74 xy x 0.83 Ocena konstante u regresionom modelu: a v v y bx 153.3 0.83 56.4 106.93 Regresiona jednačina: y a + bx 106.93+ 0. 83 x

Prognozirana vrednost sistolne TA za starost od 77 godina iznosi: y a + bx 106.93+ 0.83 77 170.3 00 Sistolna TA (mmhg 180 160 140 10 100 80 30 40 50 60 70 80 Starost (godine)

Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05. tm na pocetku trudnoće Rx tm novorođ enčeta Ry d 63 7 3400 8 0.00 59.5 3300 7 1.5 57 1 800 1.5 0.5 63 7 3100 5 9.00 67 9 3600 9 1.00 60 4 300 6 1.00 63 7 3700 10 4.00 59.5 900 3 0.5 70 10 800 1.5 7.5 6 5 3000 4 4.00 Σ 11.00

Vrednosti koeficijenta korelacije rangova je: r S 6 di 6 11 1 1 n ( n 1) 10( 10 1) 0.31 Testiranje nulte hipoteze t-testom: t r S n 1 r 0.31 10 1 0.31 S 0.959 Ne postoji statistički značajna povezanost telesne mase trudnica na početku trudnoće i telesne mase novorođenčadi (r S 0.3, t0.96, DF 8, p > 0.05).