1 Guia de curs: Descripció de dades, Inferència, Regressió Simple i Múltiple, Regressió Logística Albert Satorra UPF, Mètodes Estadístics, 2015 Mètodes Estadístics, UPF, Hivern

2 Continguts 1 Descripció de dades i inferència estadística 2 Distribució bivariada: regressió simple 3 Regressió múltiple 4 Regressió en dades de paisos.sav Robust s.e. (Optional) 5 Regressió dades de pressupostos familiars, family.sav 6 Més exemple de regressió, amb dades de pressupostos familiars 7 Regressió Logística 8 Case Influence statistics 9 Multicolinealitat Multiple regression and multicolinearity 10 Case influence 11 Cluster effects: robust s.e. 12 Second data set: multiple regression and logistic regression 13 Another example of logistic regression Mètodes Estadístics, UPF, Hivern

3 Fitxer de Dades: dades de consum i renda Mostra aleatoria de mida n = 800 d una població Variables: despesa, renda, gènere (1/0, noi = 1), vot (1/0, partit A = 1) Fixer de dades és a la web (dues opcions.sav i el.txt): library(foreign) data=read.spss(" data= read.table(" header =T) names(data) "Lrenda" "Ldespeses" "Genere" "Vot" > head(data) Lrenda Ldespeses Genere Vot > tail(data) Lrenda Ldespeses Genere Vot Mètodes Estadístics, UPF, Hivern

4 Fitxer de dades Lrenda Ldespeses Genere Vot Mètodes Estadístics, UPF, Hivern

5 Anàlisi Univariant (repliqueu amb SPSS) : attach(data) renda=exp(lrenda) despeses = exp(ldespeses) summary(renda) Min. 1st Qu. Median Mean 3rd Qu. Max summary(despeses) Min. 1st Qu. Median Mean 3rd Qu. Max Mitjanes i desviacions estàndard: apply(data,2,mean) Lrenda Ldespeses Genere Vot apply( data,2,sd) Lrenda Ldespeses Genere Vot Destribució univariant (renda, Ldespeses): summary(renda) Min. 1st Qu. Median Mean 3rd Qu. Max sd(renda) = summary(ldespeses) Min. 1st Qu. Median Mean 3rd Qu. Max sd(ldespeses) = Diagrama de dispersió: Lrenda vs Ldespeses. Mètodes Estadístics, UPF, Hivern

6 Histograma de la variable Renda Histograma (freq.) de variable renda Frequency e+00 1e+05 2e+05 3e+05 4e+05 5e+05 renda Figure : Mètodes Estadístics, UPF, Hivern

7 Histograma de la variable log de Renda Lrenda = log(renda) Histograma (freq.) de la variable log de renda Frequency log(renda) Mètodes Estadístics, UPF, Hivern

8 Inferència sobre la renda mitjana de la població x = 36940, s = s.e. = /sqrt(800) = ± / 800 = [ , ] 95% IC de la mitjana aritmètica de la renda 1 Noteu que: mean(lrenda)= , sd(lrenda) = mean(lrenda) + 2*sd(Lrenda)/sqrt(800) = ; mean(lrenda) - 2*sd(Lrenda)/sqrt(800)= El 95% IC de la mitjana poblacional de Lrenda és: (9.96, 10.10) 1 Hom es pot preguntar si no aldria estimar la mediana en lloc de la mitjana aritmètica Mètodes Estadístics, UPF, Hivern

9 Comenteu, en aquesta base de dades: 1 Tipus de variables, tipus de distribució de les variables continues 2 Estandardització de X: x = x i x s x ( scale(lrenda) ) 3 Inferència sobre la renda mitjana µ de la població (estimació, intèrval de confiança,... ) 4 Mida de mostra per una determinada precisió: inferència sobre la mitjana de renda,sobre la proporció de vot =1, i altres paràmetres de la població. Mètodes Estadístics, UPF, Hivern

10 Relació bivariant: diagrama de dispersió 0e+00 1e+05 2e+05 3e+05 4e+05 5e renda despeses Figure : Diagrama de dispersió de despeses vs renda Mètodes Estadístics, UPF, Hivern

11 Relació bivariant: diagrama de dispersió 0e+00 1e+05 2e+05 3e+05 4e+05 5e renda Ldespeses Figure : Diagrama de dispersió de Ldespeses vs renda Mètodes Estadístics, UPF, Hivern

12 Relació bivariant: diagrama de dispersió Lrenda Ldespeses Figure : Diagrama de dispersió de Ldespeses sobre Lrenda, dades estandarditzades Mètodes Estadístics, UPF, Hivern

13 Coeficient de correlació, r > cor(renda,despeses) [1] > cor(renda,ldespeses) [1] > cor(lrenda,ldespeses) [1] > round(cor(lrenda,ldespeses),2) [1] 0.44 > (cor(lrenda,ldespeses))^2 [1] El coeficient de rcorrelació r entre log de despesa i el log de renda és: r = 0.44 El quadrat r 2 del coeficient de correlació, el , és el coeficient de determinació R 2 del tema següent, la regressió Mètodes Estadístics, UPF, Hivern

14 Funció esperança condicionada: E(Y X ) Regressió lineal: Regressió lineal simple: Y = α + βx + ɛ on ɛ és independent (incorrelacionada) amb X Regressió lineal múltiple: Y = α + β 1 X 1 + β 2 X β k X k + ɛ on ɛ és independent (incorrelacionada) amb X 1,..., X k Nomenclatura: α és el terme independent (la constant, el intercept ); els βs són coeficients de regressió. En la regressió múltiple, β 1,..., β k són coeficients de regressió parcial. El ɛ és el terme de perturbació del model. Mètodes Estadístics, UPF, Hivern

15 Efecte de Regressio scale(lrenda) scale(ldespeses) Y=X regressio Figure : Efecte de regressió Mètodes Estadístics, UPF, Hivern

16 Figure : Dades de Francis Galton: ( ): Recta de regressió de Alçada de Fills vs. Alçada Pare Mètodes Estadístics, UPF, Hivern

17 Exemple de regressió simple (dades estandarditzades) library(texreg) texreg(lm(scale(ldespeses) ~ scale(lrenda))) Model 1 (Intercept) 0.00 scale(lrenda) 0.44 (0.03) R Num. obs. 800 Table : Fit of the simple regression with standardized data Mètodes Estadístics, UPF, Hivern

18 Exemple de regressió simple Model de regressió: Y = α + βx + ɛ, ɛ (0, σ 2 ɛ ), on Y = Ldespesa, X=Lrenda. Estimacions de α i β a: 2.08 b: 0.29 (0.02) R Num. obs. 800 Table : Taula de resultats 19% de la variació de Y ve explicada per la variació de X El coeficient de regressió de Y sobre X és positiu, 0.29, i altament significatiu (p < 0.001) Un increment de una unitat de X va associada a un increment de 0.29 del valor esperat de Y (variables expressades en logaritmes) Coeficients beta: de Lrenda, sqrt(0.19) = 0.44 Són els coeficients de regressió quan les variables són estandarditzades (en aquest cas, els α = 0 ) Mètodes Estadístics, UPF, Hivern

19 Regressió Múltiple re=lm(ldespeses ~ Lrenda + texreg(re) Genere) Model de regressió: Y = α + β 1 X 1 + β 2 X 2 + ɛ, ɛ (0, σ 2 ɛ ), on Y = Ldespesa, X1=Lrenda, X2=Gènere Table : Multiple regression Estimates (Intercept) 2.98 Lrenda 0.22 (0.02) Genere (0.04) R n 800 this is OLS analysis Mètodes Estadístics, UPF, Hivern

20 The linear multiple regression model (a bit of theory) It assumes, the regression function E(Y X ) is lineal in its inputs X 1, X 2,..., X k ; i.e. E(Y ) = α + β 1 X β k X k β 1 is the expected change in Y when we increase X 1 by one unit ceteris paribus all the other variables being constant. for prediction purposes, can sometimes outperform fancier more complicated models, specially in situations with small sample size it applies to transformed variables, so they encompass a large variety of functions for E(Y X ) for the X s variables, it requires them to be continuous or binary variables we have Y = E(Y X ) + ɛ, where the disturbance term ɛ is a random variable assumed to be independent of X, typically with variance that does not change with X (homoscedastic residuals) for the fitted model, we have Ŷ = a + b 1 X b k X k, where the bs are partial regression coefficients (obtained usually by OLS), and e = Y Ŷ define de residuals Note that E(Y X 1 ) is different than E(Y X 1, X 2 ) or E(Y X 1, X 2..., X k ). So, the regression coefficient b 1 for X 1 will typically change depending on which additional variables, besides X 1, we are conditioning. In causal analysis, researchers are interested in the change on Y 1 when we change X 1. This is a complicated issue that can only be answer properly with more context regarding the design of the data collection. So far we have been dealing only with a conditional expectation model (no elements have been introduced yet for proper causal analysis) Mètodes Estadístics, UPF, Hivern

21 Regressió Múltiple 1 35% de variació de Y és explicada per la variació conjunta de Lrenda i Genere 2 Comparem el coeficients de regressió de Lrenda de la regressió simple i múltiple: 0.29 versus Interpretació dels coeficients de regressió: coeficients de regressió parcials. Variació de Y quan variem X1 ceteris paribus (control) les altres var. explicatives 4 La despesa difereix per gènere? 5... Mètodes Estadístics, UPF, Hivern

22 Residuals vs Fitted 164 Residuals Fitted values lm(ldespeses ~ Lrenda + Genere) Mètodes Estadístics, UPF, Hivern

23 library(faraway); prplot(re,1) Lrenda beta*lrenda+res Figure : Partial regression plot: Y versus X1 Mètodes Estadístics, UPF, Hivern

24 library(faraway); prplot(re,2) Genere beta*genere+res Figure : Partial regression plot: Y versus X2 Mètodes Estadístics, UPF, Hivern

25 Exemple de regressió múltiple: dades Paisos.sav Pregunta: calories en la dieta afecta a l esperança de vida? Sintaxis de SPSS Mètodes Estadístics, UPF, Hivern

26 Lectura de dades library(foreign) data=read.spss( " use.value.labels = TRUE, = max.value.labels = Inf, trim.factor.names = FALSE, trim_values = TRUE, reencode = NA, use.missings = c(99999)) > attach(data) attach(data) names(data) CALORIES[(CALORIES == 9999)]=NA Mètodes Estadístics, UPF, Hivern

27 Variables $ESPVIDA [1] [17] [33] [113] [129] [145] $PIB [1] [14] [105] [118] [131] NA NA NA NA NA [144] NA NA NA NA NA NA NA NA NA NA NA NA NA [157] NA NA NA NA $ALFAB [1] [17] [33] [49] [145] Mètodes Estadístics, UPF, Hivern

28 Data frame > > head(data) IDH NIVELL PAIS ESPVIDA PIB ALFAB CONT CALORIES HABMETG DIARIS TV baix Mozambique \300frica baix Tanzania \300frica baix Etiopia \300frica baix Sierra Leona \300frica baix Butan \300sia NA NA NA baix Nepal \300frica SANITAT AGRICULT INDUST NA > Mètodes Estadístics, UPF, Hivern

29 Diagrama de dispersió: Esper. vida vs. Calories CALORIES ESPVIDA Figure : Gràfic de dispersió: ESPEV versus CALORIES Mètodes Estadístics, UPF, Hivern

30 Regressió simple: ESPEV vs. CALORIES Model 1 (Intercept) CALORIES (0.0010) R Num. obs. 152 Table : Statistical models length(espvida)= 160 Mètodes Estadístics, UPF, Hivern

31 Regressió simple: ESPEV vs. CALORIES, ALFAB Model 1 (Intercept) CALORIES ( ) ALFAB (0.0227) R Num. obs. 152 Table : Fit of multiple regression Mètodes Estadístics, UPF, Hivern

32 plot matricial, variables en escala original ESPVIDA CALORIES PIB SANITAT HABMETG ALFAB DIARIS TV AGRICULT Figure : Matrix Plot Mètodes Estadístics, UPF, Hivern

33 plot matricial, variables en escala transformada ESPVIDA CALORIES LPIB SANITAT Lhabmetges ALFAB Ldiaris LTV AGRICULT Figure : Matrix Plot Mètodes Estadístics, UPF, Hivern

34 ESPEV regressed on CALORIES +LPIB + Lhabmetges +ALFAB Transformation of variables (linearizing regression): LPIB = log(pib); Lhabmetges = log(habmetg) (Intercept) Model CALORIES (0.0012) LPIB (0.4524) Lhabmetges (0.5231) ALFAB (0.0255) R Adj. R Num. obs. 120 p < 0.05 Table : Multivariate Regression res=lm(espvida ~ CALORIES +LPIB + Lhabmetges +ALFAB) texreg(re, stars=0.05, digits=4) ### residuls versus fitted y plot(res,1) Mètodes Estadístics, UPF, Hivern

35 Fitted values Residuals lm(espvida ~ CALORIES + LPIB + Lhabmetges + ALFAB) Residuals vs Fitted Figure : Residuals vs. fitted Y Mètodes Estadístics, UPF, Hivern

36 CALORIES beta*calories+res Figure : Gràfic de regressió parcial: ESPVI versus CALORIES Mètodes Estadístics, UPF, Hivern

37 Lhabmetges beta*lhabmetges+res Figure : Gràfic de regressió parcial: ESPVI versus Lhabmetges Mètodes Estadístics, UPF, Hivern

38 (Optional) Regression with regular s.e. r1=lm(ldespeses ~ Lrenda + Genere) Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** Lrenda <2e-16 *** Genere <2e-16 *** # get X matrix/predictors X <- model.matrix(r1) # number of obs n <- dim(x)[1] # n of predictors k <- dim(x)[2] # calculate stan errs as in the above # sq root of diag elements in vcov se <- sqrt(diag(solve(crossprod(x)) * as.numeric(crossprod(resid(r1))/(n-k)))) > se (Intercept) Lrenda Genere Mètodes Estadístics, UPF, Hivern

39 (Optional) Regression with heteroscedastic robust s.e. r1=lm(ldespeses ~ Lrenda + Genere) X <- model.matrix(r1) n <- dim(x)[1] k <- dim(x)[2] # residual vector u <- matrix(resid(r1)) # meat part Sigma is a diagonal with u^2 as elements meat1 <- t(x) %*% diag(diag(crossprod(t(u)))) %*% X # degrees of freedom adjust dfc <- n/(n-k) # like before se <- sqrt(dfc*diag(solve(crossprod(x)) %*% meat1 %*% solve(crossprod(x)))) > se (Intercept) Lrenda Genere Mètodes Estadístics, UPF, Hivern

40 (Optional) Regression with s.e. robust to clustering # clustered standard errors in regression #by : cl <- function(dat,fm, cluster){ require(sandwich, quietly = TRUE) require(lmtest, quietly = TRUE) M <- length(unique(cluster)) N <- length(cluster) K <- fm$rank dfc <- (M/(M-1))*((N-1)/(N-K)) uj <- apply(estfun(fm),2, function(x) tapply(x, cluster, sum)); vcovcl <- dfc*sandwich(fm, meat=crossprod(uj)/n) coeftest(fm, vcovcl) } Mètodes Estadístics, UPF, Hivern

41 (Optional) Regression with s.e. robust to clustering r1=lm(ldespeses ~ Lrenda + Genere) summary(r1) Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** Lrenda <2e-16 *** Genere <2e-16 *** clust= sample(1:40,800, replace=t) > tabulate(clust) [1] [26] cl(cbind(ldespesesa,genere, clust), fit, clust) Estimate Std. Error t value Pr(> t ) (Intercept) < 2.2e-16 *** Lrenda < 2.2e-16 *** Genere < 2.2e-16 *** Mètodes Estadístics, UPF, Hivern

42 Material addicional de regressió simple i multiple 1 web del curs M2014 M2012Setmanes12: Detalls de la regressió lineal simple i multiple + sintaxis SPSS 2 Idra UCLA: SPSS Web Books Regression with SPSS Mètodes Estadístics, UPF, Hivern

43 Regressió lineal simple Y i = α + βx i + ɛ i, i = 1,..., n Nomenclator α terme independent β coefficient de regressió E(Y i ) = α + βx i β és un increment en el valor esperat de Y d un augmenta unitari en la variable X terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = α + βx i Ajust de la regressió Ŷ i = a + bx i, i = 1,..., n a = ; b = , a i b són estimacions de α i β respectivament. Mètodes Estadístics, UPF, Hivern

44 Regressió lineal simple (cont.) Totes les estimacions estan subjectes a un error tipus (standard error). En el nostre exemple: Paràmetre α β Estimació error tipus Coeficient de determinació múltiple, R 2 = És a dir, 3.4% de la variació de Y és deguda a la variable X. Residual standard error: on 1912 degrees of freedom Mètodes Estadístics, UPF, Hivern

45 Table of estimates of simple regression Estimate Std. Error t value Pr(> t ) (Intercept) NMEMB Mètodes Estadístics, UPF, Hivern

46 Regressió múltiple: Y versus X1 X2 Variable AGE OF HEAD of the family. summary(age1.1[index == FALSE]) Min. 1st Qu. Median Mean 3rd Qu. Max Estimate Std. Error t value Pr(> t ) (Intercept) NMEMB AGE Mètodes Estadístics, UPF, Hivern

47 Regressió lineal multiple Y i = β 0 + β 1 X 1i + β 2 X 2i + ɛ i, i = 1,..., n β 0 terme independent β 1, β 2 coefficients de regressió parcial E(Y i ) = β 0 + β 1 X 1i + β 2 X 2i β 2 és un increment en el valor esperat de Y d un augmenta unitari en la variable X 2 quan X 1 és manté constant (ceteris paribus X 1 ). Idem per β 1 (versus X 2 ) terme de perturbació ɛ, variable estadística ɛ (0, σɛ 2 ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σɛ 2 representa la intensitat de variació de Y al voltant de la recta de regressió Y = β 0 + β 1 X 1i + β 2 X 2i Regressió estimada Ŷ i = b 0 + b 1 X 1i + b 2 X 2i, i = 1,..., n b 0 = ; b 1 = ,b 2 = R 2 = és un 4.4% de variació de Y ve explicada per la variació conjunta de X 1 i X 2 Mètodes Estadístics, UPF, Hivern

48 Fitxer de Dades Enquesta de pressupostos famliars. Mostra aleatoria de families de la població Espanya. Mida de mostra, n = variables de tipus de despesa i característiques familiars. Fitxers a la web (.dta,.sav): Mètodes Estadístics, UPF, Hivern

49 Histogram: log despeses en Entertainment histograma: log(despeses en entertainment) Frequency log(exp7.1[index == FALSE]) Figure : Mètodes Estadístics, UPF, Hivern

50 Relació amb no. de membres de la familia The variable number of people in the family table(nmemb.1) NMEMB round(table(nmemb.1)/2640,2) NMEMB Mètodes Estadístics, UPF, Hivern

51 Relation with number of people in the family b= aggregate(log(exp7.1[index==false]), list(nmemb.1[index==false]), mean) A=cbind(round(b[,2],2),table(list(NMEMB.1[index==FALSE]))) colnames(a) =c("cond. mean", "size of cond. sample") t(a) cond. mean size of cond. sample cond. mean size of cond. sample Mètodes Estadístics, UPF, Hivern

52 Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y Mètodes Estadístics, UPF, Hivern

53 Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y Mètodes Estadístics, UPF, Hivern

54 Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y Mètodes Estadístics, UPF, Hivern

55 Diagrama de dispersió: Consum versus no. membres familia X Y regression line conditional mean 2 sd cond. mean Mètodes Estadístics, UPF, Hivern

56 Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) NMEMB.1[index == FALSE] log(exp7.1[index == FALSE]) Mètodes Estadístics, UPF, Hivern

57 Relation with number of people in the family: Regression res=lm(log(exp7.1[index==false]) ~ NMEMB.1[index==FALSE]) > summary(res) Call: lm(formula = log(exp7.1[index == FALSE]) ~ NMEMB.1[index == FALSE]) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 NMEMB.1[index == FALSE] <2e-16 Residual standard error: on 1912 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 1912 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern

58 Regressió lineal simple Y i = α + βx i + ɛ i, i = 1,..., n Nomenclatura: α terme independent β coefficient de regressió E(Y i ) = α + βx i β és un increment en el valor esperat de Y d un augmenta unitari en la variable X terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = α + βx i Ajust de la regressió Ŷ i = a + bx i, i = 1,..., n a = ; b = , a i b són estimacions de α i β respectivament. Mètodes Estadístics, UPF, Hivern

59 Regressió lineal simple (cont.) Totes les estimacions estan subjectes a un error tipus (standard error). En el nostre exemple: Paràmetre α β Estimació error tipus Coeficient de determinació múltiple, R 2 = És a dir, 3.4% de la variació de Y és deguda a la variable X. Residual standard error: on 1912 degrees of freedom Mètodes Estadístics, UPF, Hivern

60 Table of estimates of simple regression Estimate Std. Error t value Pr(> t ) (Intercept) NMEMB Mètodes Estadístics, UPF, Hivern

61 Regressió múltiple: Y versus X1 X2 Variable AGE OF HEAD of the family. summary(age1.1[index == FALSE]) Min. 1st Qu. Median Mean 3rd Qu. Max Estimate Std. Error t value Pr(> t ) (Intercept) NMEMB AGE Mètodes Estadístics, UPF, Hivern

62 Regressió lineal multiple Y i = β 0 + β 1 X 1i + β 2 X 2i + ɛ i, i = 1,..., n Nomenclatura: β 0 terme independent β 1, β 2 coefficients de regressió parcial E(Y i ) = β 0 + β 1 X 1i + β 2 X 2i β 2 és un increment en el valor esperat de Y d un augmenta unitari en la variable X 2 quan X 1 és manté constant (ceteris paribus X 1 ). Idem per β 1 (versus X 2 ) terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = β 0 + β 1 X 1i + β 2 X 2i Ajust de la regressió Ŷ i = b 0 + b 1 X 1i + b 2 X 2i, i = 1,..., n b 0 = ; b 1 = ,b 2 = R 2 = és un 4.4% de Mètodes Estadístics, UPF, Hivern A. Satorra variació ( UPF, de Mètodes Y Estadístics, ve explicada 2015 ) per la variació conjunta de X 1 i X 2

63 Variable depenent Y binaria Fins ara Y era una variable continua Regressió logística (i la regressió probit ) Y és binaria Com en la regressió habitual, les variables explicatives poden ser continues o binaries Mètodes Estadístics, UPF, Hivern

64 No serveix la regressió lineal? La relació es no-lineal Els terme d error és heteroscedastics El terme d error no té distribució normal Exemple: Y = Vot, X = Lrenda Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** Lrenda <2e-16 *** Multiple R-squared: Ŷ = Lrenda + ɛ, R 2 =.22 Mètodes Estadístics, UPF, Hivern

65 Vot Lrenda Figure : Vot vs. Lrenda Mètodes Estadístics, UPF, Hivern

66 Regressió logística (el model) Suposem que Y i Bernoulli (π i ) π i = P(Y i = 1), i = 1,..., n probabilitats odds (probabilitats en contra) logit π o(odds) = π/(1 π) L(logit) = ln (o) L i = ln π i 1 π i π i = 1 1+e L i Model lineal logit: L i = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 Model no-lineal de probabilitat: π i = e (β 0+β 1 X 1 +β 2 X 2 +β 3 X 3 ) Mètodes Estadístics, UPF, Hivern

67 Ajust de la regressió logística Exemple: Y = Vot, X = Lrenda π i = 1 1+e L i π i = 1 1+e Lrenda i glm(vot ~ Lrenda, family = "binomial") oefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** Lrenda <2e-16 *** Number of Fisher Scoring iterations: 4 ˆL = Lrenda Mètodes Estadístics, UPF, Hivern

68 Vot linear model logistic model Lrenda Figure : Vot vs. Lrenda: linear versus logistic fits Mètodes Estadístics, UPF, Hivern

69 Interpretació dels paràmetres ˆL = Lrenda exp(-1.208)= = Odds disminueixen en un 70% quan X X + 1 % d augment/decreixement odds (exp(β) 1) 100 Mètodes Estadístics, UPF, Hivern

70 Vot versus Lrenda + Genere glm(formula = Vot ~ Lrenda + Genere, family = "binomial") (Intercept) <2e-16 *** Lrenda <2e-16 *** Genere <2e-16 *** ˆL = Lrenda Genere > 100*(exp( )-1) [1] > 100*(exp( )-1) [1] Mètodes Estadístics, UPF, Hivern

71 Lrenda Lrenda+1 disminueix un 73% els odds de Vot = 1, controlant per gènere Els odds de Vot = 1 dels nois (Gènere = 1) són un 1266% superiors que els de les noies (Gènere = 0), controlant per Renda Mètodes Estadístics, UPF, Hivern

72 Vot Simple Mult. Homes Mult. Dones Lrenda Figure : Corbes logístiques, marginals (reg. simple) i condicionals (regr. múltiple) Mètodes Estadístics, UPF, Hivern

73 (Optional) More on logistic regression: lrm lrm( Vot ~ Lrenda + Genere, y =T, x=t) Logistic Regression Model Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 800 LR chi R C d.f. 2 g Dxy Pr(> chi2) < gr gamma max deriv 5e-07 gp tau-a Brier Coef S.E. Wald Z Pr(> Z ) Intercept < Lrenda < Genere < Mètodes Estadístics, UPF, Hivern

74 (Optional) More on logistic regression: e b and the % of increment of odds Suppose the fitted logistic regression where L = x Logit2 = (x + 1)(e b 1) 100 = (e 2 1) 100 = 639% and an unit increase of x = 1, x x + 1. ### when p is around 0.5 x= 1 Logit1 = *x Logit2 = *(x+1) prob1= 1/(1+ exp( -Logit1)) prob2= 1/(1+ exp(-logit2 )) ((prob2-prob1)/prob1)*100 > prob1 [1] 0.5 > prob2 [1] ### p = molt baixa x= 1 Logit1 = *x Logit2 = *(x+1) (exp(2) -1)*100 prob1= 1/(1+ exp( -Logit1)) prob2= 1/(1+ exp(-logit2 )) A. Satorra ((prob2-prob1)/prob1)*100 ( UPF, Mètodes Estadístics, 2015 ) Mètodes Estadístics, UPF, Hivern

75 Optional: Case influence Y all exclude 2 and 11 exclude 1 exclude 1 and X Figure : Case influence in regression Mètodes Estadístics, UPF, Hivern

76 (Optional): multicolinearity datafile=read.table("/users/albertsatorra/rstudio/datasets/regressiomulticol.dat") reg=lm(y ~ X1+factor(X2)+X3) summary(reg) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) X factor(x2) factor(x2) ** factor(x2) ** X Signif. codes: 0 *** ** 0.01 * Residual standard error: on 94 degrees of freedom Multiple R-squared: 0.433, Adjusted R-squared: F-statistic: on 5 and 94 DF, p-value: 1.961e-10 Mètodes Estadístics, UPF, Hivern

77 Multicolinearity and Principal Components 1 p. 83 de : Regressio amb SPSS 2 Un altre exemple de multicolinealitat: multicolinealitat 3 Emprant les dades paisos.sav, amb transformacio logarítmica per PIB, DIARIS, TV, HABMETGE, fes una regressió amb un indicador de nivell de literacy (LITERACY, diaris, TV, etc. ) 4 Emprant les dades CIS1524.SAV, fes una anàlisi de regressió emprant indicadors per variables per medi de PCA (per exemple, les variables INFL1... INFL4). Idem amb el fitxer GSS.SAV Mètodes Estadístics, UPF, Hivern

78 Regression with a principal component > F1 = princomp(cbind(x1,x2,x3,x4))$score[,1] > fit1 = lm(y1 ~ F1+X5+factor(X6)) > summary(fit1) Call: lm(formula = Y1 ~ F1 + X5 + factor(x6)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** F e-16 *** X factor(x6) < 2e-16 *** factor(x6) factor(x6) Signif. codes: 0 *** ** 0.01 * Residual standard error: on 994 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 994 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern

79 Optional: Case influence Y all exclude 2 and 11 exclude 1 exclude 1 and X Figure : Case influence in regression Mètodes Estadístics, UPF, Hivern

80 (Optional) s.e. robust to cluster effects: library rms library(rms ) fit =lrm( Vot ~ Lrenda + Genere, y =T, x=t) library(rms ) length(vot) [1] 800 # assume we have a variable clust clust= sample(1:40,800, replace=t) robcov(fit,cluster=clust) Logistic Regression Model Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 800 LR chi R C d.f. 2 g Dxy Pr(> chi2) < gr gamma max deriv 5e-07 gp tau-a Brier Coef S.E. Wald Z Pr(> Z ) Intercept < Lrenda < Genere < Mètodes Estadístics, UPF, Hivern

81 (Optional) s.e. robust to cluster effects: bootstrap > bootcov(fit, cluster=clust) Logistic Regression Model lrm(formula = Vot ~ Lrenda + Genere, x = T, y = T) Coef S.E. Wald Z Pr(> Z ) Intercept < Lrenda < Genere < Mètodes Estadístics, UPF, Hivern

82 Material addicional de regressió logística 1 web del curs, M2014: Slides Logit Regression, més detalls sobre la regressió logistica + altre material en la secció de regressió logística. 2 Idra UCLA: SPSS Data Analysis Examples Logit Regression R Data Analysis Examples: Logit Regression Mètodes Estadístics, UPF, Hivern

83 Fitxer de Dades Mostra aleatoria de mida n = 1000 d una població Variables: data= read.table(" header =T) #data= read.spss(" names(data) "Y1" "Y2" "X1" "X2" "X3" "X4" "X5" "X6" head(data) > head(data) Y1 Y2 X1 X2 X3 X4 X5 X Y1 is logexpenses Y2 is voting X5 is home = 1 X6 is categorial X1 to X4 are indicators related with income (latent) Mètodes Estadístics, UPF, Hivern

84 Y Y2 X X2 X X X5 Figure : Matrix plot of the new data set Mètodes Estadístics, UPF, Hivern

85 Multiple regression fit1 = lm(y1 ~ X1+ X2+X3+X4+X5+factor(X6)) summary(fit1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** X X X X X factor(x6) <2e-16 *** factor(x6) factor(x6) Residual standard error: on 991 degrees of freedom Multiple R-squared: 0.454, Adjusted R-squared: F-statistic: 103 on 8 and 991 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern

86 Multiple regression (excluding X2) fit1 = lm(y1 ~ X1+X3+X4+X5+factor(X6)) summary(fit1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** X e-12 *** X X X factor(x6) < 2e-16 *** factor(x6) factor(x6) Residual standard error: on 992 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 7 and 992 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern

87 Diagnostic in linear multiple regression (Fox s library(car)) library(car) fit1 = lm(y1 ~ X1+X2+X3+X4+X5+factor(X6)) # Evaluate Collinearity vif(fit) # variance inflation factors sqrt(vif(fit)) > 2 # problem? VIF > 4? ncvtest(fit1) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = Df = 1 p = > durbinwatsontest(fit1) lag Autocorrelation D-W Statistic p-value Alternative hypothesis: rho!= 0 ## Multicolineality > vif(fit1) GVIF Df GVIF (1/(2*Df)) X X X X X factor(x6) # Evaluate Nonlinearity # component + residual plot crplots(fit1) Mètodes Estadístics, UPF, Hivern

88 X1 Component+Residual(Y1) X2 Component+Residual(Y1) X3 Component+Residual(Y1) X4 Component+Residual(Y1) X5 Component+Residual(Y1) factor(x6) Component+Residual(Y1) Component + Residual Plots Figure : component + residual plot Mètodes Estadístics, UPF, Hivern

89 Logistic Regression library(rms) lrm(formula = Y2 ~ X1 + X2 + X3 + X4 + X5 + factor(x6)) Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 1000 LR chi R C d.f. 8 g Dxy Pr(> chi2) < gr gamma max deriv 1e-07 gp tau-a Brier Coef S.E. Wald Z Pr(> Z ) Intercept X X < X X X X6= < X6= X6= Mètodes Estadístics, UPF, Hivern

90 Logistic Regression library(rms) lrm(formula = Y2 ~ X1 + X2 + X3 + X4 + X5 + factor(x6)) Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 1000 LR chi R C d.f. 8 g Dxy Pr(> chi2) < gr gamma max deriv 1e-07 gp tau-a Brier Coef S.E. Wald Z Pr(> Z ) Intercept X X < X X X X6= < X6= X6= Mètodes Estadístics, UPF, Hivern


