Matematičke metode u marketingu. Generalizirani linearni model. Lavoslav Čaklović PMF-MO

Σχετικά έγγραφα
2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

18. listopada listopada / 13

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

3 Populacija i uzorak

Numerička matematika 2. kolokvij (1. srpnja 2009.)

TRIGONOMETRIJSKE FUNKCIJE I I.1.

Matematičke metode u marketingumultidimenzionalno skaliranje. Lavoslav ČaklovićPMF-MO

Matematička analiza 1 dodatni zadaci

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

ELEKTROTEHNIČKI ODJEL

1.4 Tangenta i normala

3.1 Granična vrednost funkcije u tački

Funkcije dviju varjabli (zadaci za vježbu)

7 Algebarske jednadžbe

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

PRIMJER 3. MATLAB filtdemo

Kaskadna kompenzacija SAU

numeričkih deskriptivnih mera.

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Riješeni zadaci: Limes funkcije. Neprekidnost

Linearna algebra 2 prvi kolokvij,

π π ELEKTROTEHNIČKI ODJEL i) f (x) = x 3 x 2 x + 1, a = 1, b = 1;

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

5. Karakteristične funkcije

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

IZVODI ZADACI (I deo)

Ispitivanje toka i skiciranje grafika funkcija

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Linearna algebra 2 prvi kolokvij,

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

1 Promjena baze vektora

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Računarska grafika. Rasterizacija linije

2. Ako je funkcija f(x) parna onda se Fourierov red funkcije f(x) reducira na Fourierov kosinusni red. f(x) cos

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

( , treći kolokvij) 3. Na dite lokalne ekstreme funkcije z = x 4 + y 4 2x 2 + 2y 2 3. (20 bodova)

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

Operacije s matricama

Matematika 1 - vježbe. 11. prosinca 2015.

RIJEŠENI ZADACI I TEORIJA IZ

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

Slučajne varijable. Diskretna slučajna varijabla X je promjenjiva veličina koja poprima vrijednosti iz skupa

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

Sadrˇzaj. Sadrˇzaj 1 9 DVODIMENZIONALNI SLUČAJNI VEKTOR DISKRETNI DVODIMENZIONALNI

SISTEMI NELINEARNIH JEDNAČINA

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

Elementi spektralne teorije matrica

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

TRIGONOMETRIJA TROKUTA

41. Jednačine koje se svode na kvadratne

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Teorijske osnove informatike 1

3. poglavlje (korigirano) F U N K C I J E

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Više dokaza jedne poznate trigonometrijske nejednakosti u trokutu

Eliminacijski zadatak iz Matematike 1 za kemičare

Riješeni zadaci: Nizovi realnih brojeva

Uvod u teoriju brojeva

16 Lokalni ekstremi. Definicija 16.1 Neka je A R n otvoren, f : A R i c A. Ako postoji okolina U(c) od c na kojoj je f(c) minimum

( , 2. kolokvij)

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Računarska grafika. Rasterizacija linije

Kontinuirane slučajne varijable.

Dijagonalizacija operatora

Ĉetverokut - DOMAĆA ZADAĆA. Nakon odgledanih videa trebali biste biti u stanju samostalno riješiti sljedeće zadatke.

Ekstremi funkcije jedne varijable

2.6 Nepravi integrali

Prikaz sustava u prostoru stanja

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

KONVEKSNI SKUPOVI. Definicije: potprostor, afin skup, konveksan skup, konveksan konus. 1/5. Back FullScr

Zavrxni ispit iz Matematiqke analize 1

radni nerecenzirani materijal za predavanja

Determinante. a11 a. a 21 a 22. Definicija 1. (Determinanta prvog reda) Determinanta matrice A = [a] je broj a.

III VEŽBA: FURIJEOVI REDOVI

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Ako između tri slučajne varijable postoji veza ζ = f (ξ, η) i ako su poznate sve relevantne gustoće vjerojatnosti, tada je

MATEMATIKA Pokažite da za konjugiranje (a + bi = a bi) vrijedi. a) z=z b) z 1 z 2 = z 1 z 2 c) z 1 ± z 2 = z 1 ± z 2 d) z z= z 2

1 Obične diferencijalne jednadžbe

ZBIRKA POTPUNO RIJEŠENIH ZADATAKA

4 INTEGRALI Neodredeni integral Integriranje supstitucijom Parcijalna integracija Odredeni integral i

VJEROJATNOST popravni kolokvij veljače 2017.

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Obrada signala

SEMINAR IZ KOLEGIJA ANALITIČKA KEMIJA I. Studij Primijenjena kemija

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

FARMACEUTSKO-BIOKEMIJSKI FAKULTET SVEUČILIŠTA U ZAGREBU. IZVEDBENI PLAN akademska godina 2012./2013. zimski semestar

5. Aproksimacija i interpolacija

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

- pravac n je zadan s točkom T(2,0) i koeficijentom smjera k=2. (30 bodova)

Osnovne teoreme diferencijalnog računa

Vrijedi relacija: Suma kvadrata cosinusa priklonih kutova sile prema koordinatnim osima jednaka je jedinici.

Transcript:

Matematičke metode u marketingu. Generalizirani linearni model Lavoslav Čaklović PMF-MO 2016

Jedan loš linearni model n = 1000, i = 1,..., n { 1 ako yi > 0 y Y = i = 2x i + rnorm(n) 0 inače x i = round(0.001 i + rnorm(n), 1) Lijevo: OLS Desno: qqplot

Jedan loš linearni model n = 1000, i = 1,..., n { 1 ako yi > 0 y Y = i = 2x i + rnorm(n) 0 inače x i = round(0.001 i + rnorm(n), 1) Lijevo: OLS Desno: GLM

Što je uzrok slabe predikcije u modelu (R 2 = 0.2)? Problem je što su varijable (Y X = x i ) B(1, p i ) gdje p i ovisi o i pa i njihova varijanca m i p i (1 p i ) 1 nije konstantna. To može biti pogubno za linearnu regresiju (vidi qqplot na prethodnoj slici desno). Nešto bolji model. Jednostavnosti radi, promatrajmo jednu dihotomnu varijablu Y i jedan prediktor X. Promatramo p(x) := P(Y = 1 X = x) (1) i regresijski model (z (, + )) p(x) z := log 1 p(x) = β 0 + β 1 x + ɛ. (2) Zamjerka modelu: z ne poprima realne vrijednosti za p(x) = 0 i p(x) = 1. Ako je z R i p i u manjoj mjeri ovisno o i nema razloga ne koristiti model (2). 1 m i je učestalost podatka x i.

Što je uzrok slabe predikcije u modelu (R 2 = 0.2)? Problem je što su varijable (Y X = x i ) B(1, p i ) gdje p i ovisi o i pa i njihova varijanca m i p i (1 p i ) 1 nije konstantna. To može biti pogubno za linearnu regresiju (vidi qqplot na prethodnoj slici desno). Nešto bolji model. Jednostavnosti radi, promatrajmo jednu dihotomnu varijablu Y i jedan prediktor X. Promatramo p(x) := P(Y = 1 X = x) (1) i regresijski model (z (, + )) p(x) z := log 1 p(x) = β 0 + β 1 x + ɛ. (2) Zamjerka modelu: z ne poprima realne vrijednosti za p(x) = 0 i p(x) = 1. Ako je z R i p i u manjoj mjeri ovisno o i nema razloga ne koristiti model (2). 1 m i je učestalost podatka x i.

Neki osnovni pojmovi. Fukciju p log( p 1 p ) nazivamo logit funkcijom i u regresiji igra ulogu link-funkcije. Njoj inverzna (tzv. logistička funkcija) je Očito: Λ(z) = ez 1 + e z. (3) Λ (z) = Λ(z)(1 Λ(z)). (4) Lijevo: logit Desno: logistic

Logistička regresija Ideja logističke regresije je da se umjesto modela (2) i metode najmanjih kvadrata promatra model p(x) z := log 1 p(x) = β 0 + β 1 x (bez slučajne greške ɛ) uz pretpostavku da je odzivna varijabla binomna, tj. Y B(1, p). Želimo procijeniti p(x i ) := P(Y X = x i ) kao funkciju od θ = (β 0, β 1 ). Koeficijenti modela procjenjuju se maksimizacijom vjerodostojnosti 2 : n n L(θ) = P(Y = y i X = x i ) = p(x i, θ) y i (1 p(x i, θ) 1 y i ) (5) i=1 gdje y i {0, 1}, a p(x, θ) = i=1 eβ 0+β 1 x 1 + e β 0+β 1 x = Λ(β 0 + β 1 x). (6) 2 Vjerodostojnost danog uzorka je produkt individualnih vjerojatnosti.

Umjesto da maksimiziramo L maksimizirat ćemo njen logaritam. Zbog jednostavnosti računa uvedimo oznake p i = p(x i, θ) = Λ(z i ) i p = d dz Λ(z): log(l) = y i =1 log(p i ) + y i =0 log(1 p i ) d dz (log(l(z)) = p i p i (pa zbog (4) slijedi) p y i =1 i 1 p y i =0 i = p i (1 p i ) p i (1 p i ) = (1 p i ) p i. p y i =1 i 1 p y i =0 i y i =1 y i =0 Nužni uvjeti maksimalnosti su: log(l) β 0 = (1 p i ) z i z i p i = 0 β y i =1 0 β y i =0 0 log(l) β 1 = (1 p i ) z i z i p i = 0, β y i =1 1 β y i =0 1

odnosno (zbog z = β 0 + β 1 x) p i = 0 p i ) y i =1(1 y i =0 p i x i = 0. p i )x i y i =1(1 y i =0 Rješenja dobivenih jednadžbi nije moguće dobiti u zatvorenoj formi već se rješavaju numerički Newtonovim iterativnim postupkom. Gornji sustav jednadžbi nema rješenje u slučaju potpune separacije, a za djelomičnu separaciju Newtonova procedura može biti nestabilna. Za male uzorke, procjena parametara pomoću maksimalne vjerodostojnosti pati od pristranosti.

Primjer (Potpuna separacija) Najjednostavniji primjer potpune separacije je: x Y x 1 1 n 1 { n 2 {.. x 1 1 x 2 0.. x 2 0 Nužni uvjet ekstrema vodi na sustav jednadžbi n 1 (1 p 1 ) n 2 p 2 = 0 n 1 (1 p 1 )x 1 n 2 p 2 x 2 = 0 koji ima rješenje samo ako je x 1 = x 2. U slučaju djelomične separacije varijabla Y može u donjem bloku imati nekoliko vrijednosti 1. Potpuna separacija često se javlja kod klasifikacije bolesti koje su učestale sa starošću (prediktor x je vrijeme). U slučaju separacije svaki softverski paket upozorava korisnika.

Interpretacija modela Za izračunate β 0, β 1 vjerojatnost P(X = x) i vrijednost od z su: eβ 0+β 1 x p(x) = 1 + e β 0+β 1 x = Λ(β 0 + β 1 x) p(x) z(x) = log 1 p(x) = β 0 + β 1 x. Točka infleksije od Λ je x i := β 0 Λ(z i ) = 1 2 (maks. separiranost). β 1 = 0 = omjer ne ovisi o x β 1, exp(β 0 ) exp(β 1 ) je promjena omjera za jedinično povećanje x Marginalni efekt od p je: p (x) = β 1 Λ (z(x)) = β 1 Λ(z)(1 Λ(z)).

Probit model Funkcija Λ(z) je kumulativna distribucija standardne logističke distribucije LOG(0, 1) čija je gustoća e z π2 λ(z) =, µ = 0, σ = (1 + z) 2 3. To sugerira ideju da se umjesto logističke distribucije uzme kumulativna distribucija neke druge slučajne varijable. Probit model koristi kumulativnu distribuciju normalne razdiobe: p(x) = Φ(β 0 + β 1 x) = β0 +β 1 x ϕ(x)dx. Marginalni efekt za probit model (tj. derivacija od p) je p (x) = Φ x (x) = β 1ϕ(β 0 + β 1 x). (7) Logistički model i probit model u praksi nude iste zaključke uz neznatne razlike u procjeni koeficijenata.

Interpretacija marginalnog efekta Za logit model marginalni efekt p (x) = β 1 Λ(z(x))(1 Λ(z(x))) predstavlja promjenu poželjnosti od Y = 1 ako se vrijednost prediktora poveća za 1. Primijetimo da je predznak promjene jednak predznaku od β 1. Za probit model vrijedi isti zaključak (v. formulu (7)).

Kategorijski prediktor

Logistička regresija u R-u. glm(y ~ x + z, data = data_frame, family = binomial ) Zadaci Prouči R-kôd https://onlinecourses.science.psu.edu/stat504/node/225 Još neke zanimljivosti Prvi pokušaj modeliranja binarne ovisnosti: Anscombe, The transformation of Poisson..., Biometrika (1948). U posljednje vrijeme se proučavaju situacije kad je linearni model za binarnu odzivnu varijablu koristan, v. Ottar Hellevik, Linear versus logistic regression when the dependent variable is a dichotomy, Qual Auant (2009)