Guia de curs: Descripció de dades, Inferència, Regressió Simple i Múltiple, Regressió Logística Albert Satorra UPF, Mètodes Estadístics, 2015 Mètodes Estadístics, UPF, Hivern 2015 1
Continguts 1 Descripció de dades i inferència estadística 2 Distribució bivariada: regressió simple 3 Regressió múltiple 4 Regressió en dades de paisos.sav Robust s.e. (Optional) 5 Regressió dades de pressupostos familiars, family.sav 6 Més exemple de regressió, amb dades de pressupostos familiars 7 Regressió Logística 8 Case Influence statistics 9 Multicolinealitat Multiple regression and multicolinearity 10 Case influence 11 Cluster effects: robust s.e. 12 Second data set: multiple regression and logistic regression 13 Another example of logistic regression Mètodes Estadístics, UPF, Hivern 2015 2
Fitxer de Dades: dades de consum i renda Mostra aleatoria de mida n = 800 d una població Variables: despesa, renda, gènere (1/0, noi = 1), vot (1/0, partit A = 1) Fixer de dades és a la web (dues opcions.sav i el.txt): library(foreign) data=read.spss("http://www.econ.upf.edu/~satorra/dades/m2014dadessim.sav") data= read.table("http://www.econ.upf.edu/~satorra/dades/m2013regressiosamp.txt", header =T) names(data) "Lrenda" "Ldespeses" "Genere" "Vot" data=as.data.frame(data) > head(data) Lrenda Ldespeses Genere Vot 1 9.477 4.503 1 1 2 11.435 6.147 1 0 3 10.686 4.961 0 0 4 10.407 3.993 0 0 5 10.814 5.746 0 0 6 9.944 4.950 0 1 > tail(data) Lrenda Ldespeses Genere Vot 795 8.437 4.848 0 1 796 8.737 4.166 1 1 797 9.070 4.770 1 1 798 9.442 6.126 0 0 799 11.611 5.171 1 0 800 9.461 4.821 0 1 Mètodes Estadístics, UPF, Hivern 2015 3
Fitxer de dades Lrenda Ldespeses Genere Vot 1 9.477 4.503 1 1 2 11.435 6.147 1 0 3 10.686 4.961 0 0 4 10.407 3.993 0 0 5 10.814 5.746 0 0 6 9.944 4.950 0 1...... 795 8.437 4.848 0 1 796 8.737 4.166 1 1 797 9.070 4.770 1 1 798 9.442 6.126 0 0 799 11.611 5.171 1 0 800 9.461 4.821 0 1 Mètodes Estadístics, UPF, Hivern 2015 4
Anàlisi Univariant (repliqueu amb SPSS) : attach(data) renda=exp(lrenda) despeses = exp(ldespeses) summary(renda) Min. 1st Qu. Median Mean 3rd Qu. Max. 1306 11250 23970 36940 44270 528600 summary(despeses) Min. 1st Qu. Median Mean 3rd Qu. Max. 9.318 96.710 143.700 181.100 226.100 2343.000 Mitjanes i desviacions estàndard: apply(data,2,mean) Lrenda Ldespeses Genere Vot 10.031189 4.978471 0.515000 0.550000 apply( data,2,sd) Lrenda Ldespeses Genere Vot 1.0032099 0.6615195 0.5000876 0.4978049 Destribució univariant (renda, Ldespeses): summary(renda) Min. 1st Qu. Median Mean 3rd Qu. Max. 1306 11250 23970 36940 44270 528600 sd(renda) = 44358.15 summary(ldespeses) Min. 1st Qu. Median Mean 3rd Qu. Max. 2.232 4.572 4.968 4.978 5.421 7.759 sd(ldespeses) =0.6615195 Diagrama de dispersió: Lrenda vs Ldespeses. Mètodes Estadístics, UPF, Hivern 2015 5
Histograma de la variable Renda Histograma (freq.) de variable renda Frequency 0 100 200 300 400 500 600 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 renda Figure : Mètodes Estadístics, UPF, Hivern 2015 6
Histograma de la variable log de Renda Lrenda = log(renda) Histograma (freq.) de la variable log de renda Frequency 0 50 100 150 7 8 9 10 11 12 13 log(renda) Mètodes Estadístics, UPF, Hivern 2015 7
Inferència sobre la renda mitjana de la població x = 36940, s = 44358.15 s.e. = 44358.15/sqrt(800) = 1568.297 36890 ± 2 44358.15/ 800 = [33753.41, 40026.59] 95% IC de la mitjana aritmètica de la renda 1 Noteu que: mean(lrenda)= 10.03119, sd(lrenda) = 1.00321 mean(lrenda) + 2*sd(Lrenda)/sqrt(800) = 10.10213; mean(lrenda) - 2*sd(Lrenda)/sqrt(800)= 9.960251 El 95% IC de la mitjana poblacional de Lrenda és: (9.96, 10.10) 1 Hom es pot preguntar si no aldria estimar la mediana en lloc de la mitjana aritmètica Mètodes Estadístics, UPF, Hivern 2015 8
Comenteu, en aquesta base de dades: 1 Tipus de variables, tipus de distribució de les variables continues 2 Estandardització de X: x = x i x s x ( scale(lrenda) ) 3 Inferència sobre la renda mitjana µ de la població (estimació, intèrval de confiança,... ) 4 Mida de mostra per una determinada precisió: inferència sobre la mitjana de renda,sobre la proporció de vot =1, i altres paràmetres de la població. Mètodes Estadístics, UPF, Hivern 2015 9
Relació bivariant: diagrama de dispersió 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 0 500 1000 1500 2000 renda despeses Figure : Diagrama de dispersió de despeses vs renda Mètodes Estadístics, UPF, Hivern 2015 1
Relació bivariant: diagrama de dispersió 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 3 4 5 6 7 renda Ldespeses Figure : Diagrama de dispersió de Ldespeses vs renda Mètodes Estadístics, UPF, Hivern 2015 1
Relació bivariant: diagrama de dispersió 7 8 9 10 11 12 13 3 4 5 6 7 Lrenda Ldespeses Figure : Diagrama de dispersió de Ldespeses sobre Lrenda, dades estandarditzades Mètodes Estadístics, UPF, Hivern 2015 1
Coeficient de correlació, r > cor(renda,despeses) [1] 0.2613614 > cor(renda,ldespeses) [1] 0.32058 > cor(lrenda,ldespeses) [1] 0.4385204 > round(cor(lrenda,ldespeses),2) [1] 0.44 > (cor(lrenda,ldespeses))^2 [1] 0.1923001 El coeficient de rcorrelació r entre log de despesa i el log de renda és: r = 0.44 El quadrat r 2 del coeficient de correlació, el 0.1923, és el coeficient de determinació R 2 del tema següent, la regressió Mètodes Estadístics, UPF, Hivern 2015 1
Funció esperança condicionada: E(Y X ) Regressió lineal: Regressió lineal simple: Y = α + βx + ɛ on ɛ és independent (incorrelacionada) amb X Regressió lineal múltiple: Y = α + β 1 X 1 + β 2 X 2 + + β k X k + ɛ on ɛ és independent (incorrelacionada) amb X 1,..., X k Nomenclatura: α és el terme independent (la constant, el intercept ); els βs són coeficients de regressió. En la regressió múltiple, β 1,..., β k són coeficients de regressió parcial. El ɛ és el terme de perturbació del model. Mètodes Estadístics, UPF, Hivern 2015 1
3 2 1 0 1 2 3 4 2 0 2 4 Efecte de Regressio scale(lrenda) scale(ldespeses) Y=X regressio Figure : Efecte de regressió Mètodes Estadístics, UPF, Hivern 2015 1
Figure : Dades de Francis Galton: (1822-1911): Recta de regressió de Alçada de Fills vs. Alçada Pare Mètodes Estadístics, UPF, Hivern 2015 1
Exemple de regressió simple (dades estandarditzades) library(texreg) texreg(lm(scale(ldespeses) ~ scale(lrenda))) Model 1 (Intercept) 0.00 scale(lrenda) 0.44 (0.03) R 2 0.19 Num. obs. 800 Table : Fit of the simple regression with standardized data Mètodes Estadístics, UPF, Hivern 2015 1
Exemple de regressió simple Model de regressió: Y = α + βx + ɛ, ɛ (0, σ 2 ɛ ), on Y = Ldespesa, X=Lrenda. Estimacions de α i β a: 2.08 b: 0.29 (0.02) R 2 0.19 Num. obs. 800 Table : Taula de resultats 19% de la variació de Y ve explicada per la variació de X El coeficient de regressió de Y sobre X és positiu, 0.29, i altament significatiu (p < 0.001) Un increment de una unitat de X va associada a un increment de 0.29 del valor esperat de Y (variables expressades en logaritmes) Coeficients beta: de Lrenda, sqrt(0.19) = 0.44 Són els coeficients de regressió quan les variables són estandarditzades (en aquest cas, els α = 0 ) Mètodes Estadístics, UPF, Hivern 2015 1
Regressió Múltiple re=lm(ldespeses ~ Lrenda + texreg(re) Genere) Model de regressió: Y = α + β 1 X 1 + β 2 X 2 + ɛ, ɛ (0, σ 2 ɛ ), on Y = Ldespesa, X1=Lrenda, X2=Gènere Table : Multiple regression Estimates (Intercept) 2.98 Lrenda 0.22 (0.02) Genere -0.55 (0.04) R2 0.35 n 800 this is OLS analysis Mètodes Estadístics, UPF, Hivern 2015 1
The linear multiple regression model (a bit of theory) It assumes, the regression function E(Y X ) is lineal in its inputs X 1, X 2,..., X k ; i.e. E(Y ) = α + β 1 X 1 + + β k X k β 1 is the expected change in Y when we increase X 1 by one unit ceteris paribus all the other variables being constant. for prediction purposes, can sometimes outperform fancier more complicated models, specially in situations with small sample size it applies to transformed variables, so they encompass a large variety of functions for E(Y X ) for the X s variables, it requires them to be continuous or binary variables we have Y = E(Y X ) + ɛ, where the disturbance term ɛ is a random variable assumed to be independent of X, typically with variance that does not change with X (homoscedastic residuals) for the fitted model, we have Ŷ = a + b 1 X 1 + + b k X k, where the bs are partial regression coefficients (obtained usually by OLS), and e = Y Ŷ define de residuals Note that E(Y X 1 ) is different than E(Y X 1, X 2 ) or E(Y X 1, X 2..., X k ). So, the regression coefficient b 1 for X 1 will typically change depending on which additional variables, besides X 1, we are conditioning. In causal analysis, researchers are interested in the change on Y 1 when we change X 1. This is a complicated issue that can only be answer properly with more context regarding the design of the data collection. So far we have been dealing only with a conditional expectation model (no elements have been introduced yet for proper causal analysis) Mètodes Estadístics, UPF, Hivern 2015 2
Regressió Múltiple 1 35% de variació de Y és explicada per la variació conjunta de Lrenda i Genere 2 Comparem el coeficients de regressió de Lrenda de la regressió simple i múltiple: 0.29 versus 0.23 3 Interpretació dels coeficients de regressió: coeficients de regressió parcials. Variació de Y quan variem X1 ceteris paribus (control) les altres var. explicatives 4 La despesa difereix per gènere? 5... Mètodes Estadístics, UPF, Hivern 2015 2
Residuals vs Fitted 164 Residuals -2-1 0 1 2 305 201 4.0 4.5 5.0 5.5 6.0 Fitted values lm(ldespeses ~ Lrenda + Genere) Mètodes Estadístics, UPF, Hivern 2015 2
library(faraway); prplot(re,1) 7 8 9 10 11 12 13 0 1 2 3 4 Lrenda beta*lrenda+res Figure : Partial regression plot: Y versus X1 Mètodes Estadístics, UPF, Hivern 2015 2
library(faraway); prplot(re,2) 0.0 0.2 0.4 0.6 0.8 1.0 2 1 0 1 2 Genere beta*genere+res Figure : Partial regression plot: Y versus X2 Mètodes Estadístics, UPF, Hivern 2015 2
Exemple de regressió múltiple: dades Paisos.sav Pregunta: calories en la dieta afecta a l esperança de vida? Sintaxis de SPSS Mètodes Estadístics, UPF, Hivern 2015 2
Lectura de dades library(foreign) data=read.spss( "http://www.econ.upf.edu/~satorra/dades/paisos.sav", use.value.labels = TRUE, to.data.frame = max.value.labels = Inf, trim.factor.names = FALSE, trim_values = TRUE, reencode = NA, use.missings = c(99999)) > attach(data) attach(data) names(data) CALORIES[(CALORIES == 9999)]=NA Mètodes Estadístics, UPF, Hivern 2015 2
Variables $ESPVIDA [1] 46.4 52.1 47.5 39.0 50.7 53.5 44.9 50.2 55.6 43.5 47.5 56.5 45.6 47.3 51.0 46.5 [17] 60.4 46.0 47.4 65.2 50.4 55.7 48.0 66.7 48.9 45.0 65.5 55.0 47.6 49.4 61.5 56.0 [33] 68.5 44.5 56.0 51.5 71.9 67.7 53.7 60.5 63.6 51.0 62.7 62.1 70.4 59.4 49.3 66.3... 77.0 73.1 75.5 [113] 75.3 76.5 77.6 78.6 70.5 74.8 77.6 76.2 74.9 77.5 77.4 77.4 76.4 76.9 73.8 75.7 [129] 76.2 76.0 76.0 78.2 76.9 75.3 78.2 79.5 75.7 78.0 72.0 76.1 68.5 66.0 63.1 67.1 [145] 75.3 63.7 71.1 43.5 50.2 65.2 56.6 57.6 52.0 53.0 46.5 51.6 55.4 47.0 74.2 48.3 $PIB [1] 70 100 110 160 170 170 180 210 220 220 220 230 230 [14] 250 260 290 310 310 310 320 330 330 340 350 370 370... 6210 6380 [105] 7220 7390 7510 7780 7940 10300 11670 12660 12850 13460 14230 15710 15760 [118] 16970 17730 18110 18380 20790 20850 21070 21360 22630 22640 22690 22790 23360 [131] 23830 24300 26280 26310 27500 28690 35800 36730 NA NA NA NA NA [144] NA NA NA NA NA NA NA NA NA NA NA NA NA [157] NA NA NA NA $ALFAB [1] 36.9 64.4 32.7 28.7 39.2 25.6 58.6 32.9 36.4 51.7 44.9 77.0 53.9 56.8 53.5 12.4 [17] 49.9 27.2 17.4 97.5 52.5 74.5 75.3 64.7 75.2 35.6 58.0 47.9 32.9 53.9 35.7 60.7 [33] 79.3 33.0 55.6 36.2 89.3 70.7 83.4 68.6 49.1 36.6 82.5 92.6 45.0 80.7 30.5 94.0 [49] 59.6 66.4 90.0 69.7 54.2 40.6 80.7 74.0 88.4 70.7 83.9 96.0 69.8 53.0 92.2 90.3... [145] 94.9 81.1 90.0 28.9 32.0 91.9 42.6 82.0 74.1 42.7 36.0 29.0 35.4 17.0 86.4 43.2 Mètodes Estadístics, UPF, Hivern 2015 2
Data frame > data=as.data.frame(data) > head(data) IDH NIVELL PAIS ESPVIDA PIB ALFAB CONT CALORIES HABMETG DIARIS TV 1 167 baix Mozambique 46.4 70 36.9 \300frica 1680 33333 1 0 2 147 baix Tanzania 52.1 100 64.4 \300frica 2021 24970 1 0 3 171 baix Etiopia 47.5 110 32.7 \300frica 1610 33333 0 0 4 173 baix Sierra Leona 39.0 160 28.7 \300frica 1695 13620 0 1 5 160 baix Butan 50.7 170 39.2 \300sia NA 11111 NA NA 6 151 baix Nepal 53.5 170 25.6 \300frica 1957 16667 1 0 SANITAT AGRICULT INDUST 1 4.4 85 7 2 3.2 85 5 3 2.3 88 2 4 1.7 70 14 5 NA 92 3 6 2.2 93 1 > Mètodes Estadístics, UPF, Hivern 2015 2
Diagrama de dispersió: Esper. vida vs. Calories 1500 2000 2500 3000 3500 4000 40 50 60 70 80 CALORIES ESPVIDA Figure : Gràfic de dispersió: ESPEV versus CALORIES Mètodes Estadístics, UPF, Hivern 2015 2
Regressió simple: ESPEV vs. CALORIES Model 1 (Intercept) 28.7629 CALORIES 0.0135 (0.0010) R 2 0.5481 Num. obs. 152 Table : Statistical models length(espvida)= 160 Mètodes Estadístics, UPF, Hivern 2015 3
Regressió simple: ESPEV vs. CALORIES, ALFAB Model 1 (Intercept) 28.1428 CALORIES 0.0062 (0.0009 ) ALFAB 0.2714 (0.0227) R 2 0.7698 Num. obs. 152 Table : Fit of multiple regression Mètodes Estadístics, UPF, Hivern 2015 3
plot matricial, variables en escala original ESPVIDA 1500 3500 1 4 7 20 60 0 40 80 40 60 80 1500 3500 CALORIES PIB 0 30000 1 4 7 SANITAT HABMETG 0 30000 20 60 ALFAB DIARIS 0 40 80 0 40 80 TV 40 60 80 0 30000 0 30000 0 40 80 0 40 0 40 AGRICULT Figure : Matrix Plot Mètodes Estadístics, UPF, Hivern 2015 3
plot matricial, variables en escala transformada ESPVIDA 1500 3500 1 4 7 20 60 0 2 4 40 60 80 1500 3500 CALORIES LPIB 4 6 8 1 4 7 SANITAT Lhabmetges 6 8 11 20 60 ALFAB Ldiaris 0 2 4 0 2 4 LTV 40 60 80 4 6 8 6 8 11 0 2 4 0 40 0 40 AGRICULT Figure : Matrix Plot Mètodes Estadístics, UPF, Hivern 2015 3
ESPEV regressed on CALORIES +LPIB + Lhabmetges +ALFAB Transformation of variables (linearizing regression): LPIB = log(pib); Lhabmetges = log(habmetg) (Intercept) Model 1 55.4754 CALORIES 0.0007 (0.0012) LPIB 1.8209 (0.4524) Lhabmetges 2.3877 (0.5231) ALFAB 0.1653 (0.0255) R 2 0.8571 Adj. R 2 0.8521 Num. obs. 120 p < 0.05 Table : Multivariate Regression res=lm(espvida ~ CALORIES +LPIB + Lhabmetges +ALFAB) texreg(re, stars=0.05, digits=4) ### residuls versus fitted y plot(res,1) Mètodes Estadístics, UPF, Hivern 2015 3
45 50 55 60 65 70 75 80 10 5 0 5 10 Fitted values Residuals lm(espvida ~ CALORIES + LPIB + Lhabmetges + ALFAB) Residuals vs Fitted 10 58 66 Figure : Residuals vs. fitted Y Mètodes Estadístics, UPF, Hivern 2015 3
2000 2500 3000 3500 4000 5 0 5 10 CALORIES beta*calories+res Figure : Gràfic de regressió parcial: ESPVI versus CALORIES Mètodes Estadístics, UPF, Hivern 2015 3
6 7 8 9 10 11 30 25 20 15 10 Lhabmetges beta*lhabmetges+res Figure : Gràfic de regressió parcial: ESPVI versus Lhabmetges Mètodes Estadístics, UPF, Hivern 2015 3
(Optional) Regression with regular s.e. http://diffuseprior.wordpress.com/2012/06/15/standard-robust-and-clustered-standard-errors-computed-in-r/ r1=lm(ldespeses ~ Lrenda + Genere) Estimate Std. Error t value Pr(> t ) (Intercept) 2.97911 0.19970 14.92 <2e-16 *** Lrenda 0.22736 0.01927 11.80 <2e-16 *** Genere -0.54637 0.03867-14.13 <2e-16 *** # get X matrix/predictors X <- model.matrix(r1) # number of obs n <- dim(x)[1] # n of predictors k <- dim(x)[2] # calculate stan errs as in the above # sq root of diag elements in vcov se <- sqrt(diag(solve(crossprod(x)) * as.numeric(crossprod(resid(r1))/(n-k)))) > se (Intercept) Lrenda Genere 0.19969731 0.01927412 0.03866520 Mètodes Estadístics, UPF, Hivern 2015 3
(Optional) Regression with heteroscedastic robust s.e. r1=lm(ldespeses ~ Lrenda + Genere) X <- model.matrix(r1) n <- dim(x)[1] k <- dim(x)[2] # residual vector u <- matrix(resid(r1)) # meat part Sigma is a diagonal with u^2 as elements meat1 <- t(x) %*% diag(diag(crossprod(t(u)))) %*% X # degrees of freedom adjust dfc <- n/(n-k) # like before se <- sqrt(dfc*diag(solve(crossprod(x)) %*% meat1 %*% solve(crossprod(x)))) > se (Intercept) Lrenda Genere 0.19980279 0.01945393 0.03799626 Mètodes Estadístics, UPF, Hivern 2015 3
(Optional) Regression with s.e. robust to clustering # clustered standard errors in regression #by : http://thetarzan.wordpress.com/2011/06/11/clustered-standard-errors-in-r/ cl <- function(dat,fm, cluster){ require(sandwich, quietly = TRUE) require(lmtest, quietly = TRUE) M <- length(unique(cluster)) N <- length(cluster) K <- fm$rank dfc <- (M/(M-1))*((N-1)/(N-K)) uj <- apply(estfun(fm),2, function(x) tapply(x, cluster, sum)); vcovcl <- dfc*sandwich(fm, meat=crossprod(uj)/n) coeftest(fm, vcovcl) } Mètodes Estadístics, UPF, Hivern 2015 4
(Optional) Regression with s.e. robust to clustering r1=lm(ldespeses ~ Lrenda + Genere) summary(r1) Estimate Std. Error t value Pr(> t ) (Intercept) 2.97911 0.19970 14.92 <2e-16 *** Lrenda 0.22736 0.01927 11.80 <2e-16 *** Genere -0.54637 0.03867-14.13 <2e-16 *** clust= sample(1:40,800, replace=t) > tabulate(clust) [1] 14 22 16 16 23 21 25 19 21 29 17 20 21 22 16 19 23 17 19 22 23 25 26 17 17 [26] 10 25 26 24 22 21 17 14 18 21 15 17 26 16 18 cl(cbind(ldespesesa,genere, clust), fit, clust) Estimate Std. Error t value Pr(> t ) (Intercept) 2.139410 0.126312 16.938 < 2.2e-16 *** Lrenda -0.182044 0.011657-15.617 < 2.2e-16 *** Genere 0.459628 0.031029 14.813 < 2.2e-16 *** Mètodes Estadístics, UPF, Hivern 2015 4
Material addicional de regressió simple i multiple 1 web del curs M2014 M2012Setmanes12: Detalls de la regressió lineal simple i multiple + sintaxis SPSS 2 Idra UCLA: SPSS Web Books Regression with SPSS Mètodes Estadístics, UPF, Hivern 2015 4
Regressió lineal simple Y i = α + βx i + ɛ i, i = 1,..., n Nomenclator α terme independent β coefficient de regressió E(Y i ) = α + βx i β és un increment en el valor esperat de Y d un augmenta unitari en la variable X terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = α + βx i Ajust de la regressió Ŷ i = a + bx i, i = 1,..., n a = 2.46178; b = 0.16561, a i b són estimacions de α i β respectivament. Mètodes Estadístics, UPF, Hivern 2015 4
Regressió lineal simple (cont.) Totes les estimacions estan subjectes a un error tipus (standard error). En el nostre exemple: Paràmetre α β Estimació -2.46178 0.16561 error tipus 0.01976 Coeficient de determinació múltiple, R 2 = 0.03545. És a dir, 3.4% de la variació de Y és deguda a la variable X. Residual standard error: 1.221 on 1912 degrees of freedom Mètodes Estadístics, UPF, Hivern 2015 4
Table of estimates of simple regression Estimate Std. Error t value Pr(> t ) (Intercept) -2.4618 0.0755-32.61 0.0000 NMEMB.1 0.1656 0.0198 8.38 0.0000 Mètodes Estadístics, UPF, Hivern 2015 4
Regressió múltiple: Y versus X1 X2 Variable AGE OF HEAD of the family. summary(age1.1[index == FALSE]) Min. 1st Qu. Median Mean 3rd Qu. Max. 19.00 38.00 49.00 50.12 61.00 93.00 Estimate Std. Error t value Pr(> t ) (Intercept) -1.9677 0.1341-14.68 0.0000 NMEMB.1 0.1494 0.0200 7.47 0.0000 AGE1.1-0.0087 0.0020-4.45 0.0000 Mètodes Estadístics, UPF, Hivern 2015 4
Regressió lineal multiple Y i = β 0 + β 1 X 1i + β 2 X 2i + ɛ i, i = 1,..., n β 0 terme independent β 1, β 2 coefficients de regressió parcial E(Y i ) = β 0 + β 1 X 1i + β 2 X 2i β 2 és un increment en el valor esperat de Y d un augmenta unitari en la variable X 2 quan X 1 és manté constant (ceteris paribus X 1 ). Idem per β 1 (versus X 2 ) terme de perturbació ɛ, variable estadística ɛ (0, σɛ 2 ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σɛ 2 representa la intensitat de variació de Y al voltant de la recta de regressió Y = β 0 + β 1 X 1i + β 2 X 2i Regressió estimada Ŷ i = b 0 + b 1 X 1i + b 2 X 2i, i = 1,..., n b 0 = 1.967706; b 1 = 0.149370,b 2 = 0.149370 R 2 = 0.044 és un 4.4% de variació de Y ve explicada per la variació conjunta de X 1 i X 2 Mètodes Estadístics, UPF, Hivern 2015 4
Fitxer de Dades Enquesta de pressupostos famliars. Mostra aleatoria de families de la població Espanya. Mida de mostra, n = 2640. 30 variables de tipus de despesa i característiques familiars. Fitxers a la web (.dta,.sav): Mètodes Estadístics, UPF, Hivern 2015 4
Histogram: log despeses en Entertainment histograma: log(despeses en entertainment) Frequency 0 50 100 150 200 250 300 6 4 2 0 2 log(exp7.1[index == FALSE]) Figure : Mètodes Estadístics, UPF, Hivern 2015 4
Relació amb no. de membres de la familia The variable number of people in the family table(nmemb.1) NMEMB.1 1 2 3 4 5 6 7 8 9 10 11 269 612 589 675 307 126 42 12 6 1 1 round(table(nmemb.1)/2640,2) NMEMB.1 1 2 3 4 5 6 7 8 9 10 11 0.10 0.23 0.22 0.26 0.12 0.05 0.02 0.00 0.00 0.00 0.00 Mètodes Estadístics, UPF, Hivern 2015 5
Relation with number of people in the family b= aggregate(log(exp7.1[index==false]), list(nmemb.1[index==false]), mean) A=cbind(round(b[,2],2),table(list(NMEMB.1[index==FALSE]))) colnames(a) =c("cond. mean", "size of cond. sample") t(a) 1 2 3 4 5 6 7 8 cond. mean -2.54-2.16-1.9-1.74-1.61-1.65-1.66-1.03 size of cond. sample 112.00 359.00 448.0 581.00 257.00 111.00 30.00 10.00 9 10 11 cond. mean -1.45-1.21-0.39 size of cond. sample 4.00 1.00 1.00 Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y 2 4 6 8 10 6 4 2 0 2 Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y 2 4 6 8 10 6 4 2 0 2 + + + + + + + + + + + Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) X Y 2 4 6 8 10 6 4 2 0 2 + + + + + + + + + + + Mètodes Estadístics, UPF, Hivern 2015 5
Diagrama de dispersió: Consum versus no. membres familia 2 4 6 8 10 6 4 2 0 2 X Y + + + + + + + + + + + regression line conditional mean 2 sd cond. mean Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal: log(despeses) versus no.membres familia Lrenda = log(renda) 2 4 6 8 10 6 4 2 0 2 NMEMB.1[index == FALSE] log(exp7.1[index == FALSE]) Mètodes Estadístics, UPF, Hivern 2015 5
Relation with number of people in the family: Regression res=lm(log(exp7.1[index==false]) ~ NMEMB.1[index==FALSE]) > summary(res) Call: lm(formula = log(exp7.1[index == FALSE]) ~ NMEMB.1[index == FALSE]) Residuals: Min 1Q Median 3Q Max -5.0700-0.7207 0.1074 0.8396 4.1517 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -2.46178 0.07550-32.606 <2e-16 NMEMB.1[index == FALSE] 0.16561 0.01976 8.382 <2e-16 Residual standard error: 1.221 on 1912 degrees of freedom Multiple R-squared: 0.03545, Adjusted R-squared: 0.03494 F-statistic: 70.27 on 1 and 1912 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal simple Y i = α + βx i + ɛ i, i = 1,..., n Nomenclatura: α terme independent β coefficient de regressió E(Y i ) = α + βx i β és un increment en el valor esperat de Y d un augmenta unitari en la variable X terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = α + βx i Ajust de la regressió Ŷ i = a + bx i, i = 1,..., n a = 2.46178; b = 0.16561, a i b són estimacions de α i β respectivament. Mètodes Estadístics, UPF, Hivern 2015 5
Regressió lineal simple (cont.) Totes les estimacions estan subjectes a un error tipus (standard error). En el nostre exemple: Paràmetre α β Estimació -2.46178 0.16561 error tipus 0.01976 Coeficient de determinació múltiple, R 2 = 0.03545. És a dir, 3.4% de la variació de Y és deguda a la variable X. Residual standard error: 1.221 on 1912 degrees of freedom Mètodes Estadístics, UPF, Hivern 2015 5
Table of estimates of simple regression Estimate Std. Error t value Pr(> t ) (Intercept) -2.4618 0.0755-32.61 0.0000 NMEMB.1 0.1656 0.0198 8.38 0.0000 Mètodes Estadístics, UPF, Hivern 2015 6
Regressió múltiple: Y versus X1 X2 Variable AGE OF HEAD of the family. summary(age1.1[index == FALSE]) Min. 1st Qu. Median Mean 3rd Qu. Max. 19.00 38.00 49.00 50.12 61.00 93.00 Estimate Std. Error t value Pr(> t ) (Intercept) -1.9677 0.1341-14.68 0.0000 NMEMB.1 0.1494 0.0200 7.47 0.0000 AGE1.1-0.0087 0.0020-4.45 0.0000 Mètodes Estadístics, UPF, Hivern 2015 6
Regressió lineal multiple Y i = β 0 + β 1 X 1i + β 2 X 2i + ɛ i, i = 1,..., n Nomenclatura: β 0 terme independent β 1, β 2 coefficients de regressió parcial E(Y i ) = β 0 + β 1 X 1i + β 2 X 2i β 2 és un increment en el valor esperat de Y d un augmenta unitari en la variable X 2 quan X 1 és manté constant (ceteris paribus X 1 ). Idem per β 1 (versus X 2 ) terme de perturbació ɛ, variable estadística ɛ (0, σ 2 ɛ ), valor esperat zero i variància constant, ɛ i és un dels valors d aquesta variable Noteu que σ 2 ɛ representa la intensitat de variació de Y al voltant de la recta de regressió Y = β 0 + β 1 X 1i + β 2 X 2i Ajust de la regressió Ŷ i = b 0 + b 1 X 1i + b 2 X 2i, i = 1,..., n b 0 = 1.967706; b 1 = 0.149370,b 2 = 0.149370 R 2 = 0.044 és un 4.4% de Mètodes Estadístics, UPF, Hivern 2015 6 A. Satorra variació ( UPF, de Mètodes Y Estadístics, ve explicada 2015 ) per la variació conjunta de X 1 i X 2
Variable depenent Y binaria Fins ara Y era una variable continua Regressió logística (i la regressió probit ) Y és binaria Com en la regressió habitual, les variables explicatives poden ser continues o binaries Mètodes Estadístics, UPF, Hivern 2015 6
No serveix la regressió lineal? La relació es no-lineal Els terme d error és heteroscedastics El terme d error no té distribució normal Exemple: Y = Vot, X = Lrenda Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.89760 0.15615 18.56 <2e-16 *** Lrenda -0.23403 0.01549-15.11 <2e-16 *** Multiple R-squared: 0.2224 Ŷ = 2.89 0.23 Lrenda + ɛ, R 2 =.22 Mètodes Estadístics, UPF, Hivern 2015 6
Vot 0.0 0.2 0.4 0.6 0.8 1.0 7 8 9 10 11 12 13 Lrenda Figure : Vot vs. Lrenda Mètodes Estadístics, UPF, Hivern 2015 6
Regressió logística (el model) Suposem que Y i Bernoulli (π i ) π i = P(Y i = 1), i = 1,..., n probabilitats odds (probabilitats en contra) logit π o(odds) = π/(1 π) L(logit) = ln (o) L i = ln π i 1 π i π i = 1 1+e L i Model lineal logit: L i = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 Model no-lineal de probabilitat: π i = 1 1 + e (β 0+β 1 X 1 +β 2 X 2 +β 3 X 3 ) Mètodes Estadístics, UPF, Hivern 2015 6
Ajust de la regressió logística Exemple: Y = Vot, X = Lrenda π i = 1 1+e L i π i = 1 1+e 12.389+1.208Lrenda i glm(vot ~ Lrenda, family = "binomial") oefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 12.389 1.027 12.07 <2e-16 *** Lrenda -1.208 0.101-11.96 <2e-16 *** Number of Fisher Scoring iterations: 4 ˆL = 12.389 1.208 Lrenda Mètodes Estadístics, UPF, Hivern 2015 6
Vot 0.0 0.2 0.4 0.6 0.8 1.0 linear model logistic model 6 8 10 12 14 Lrenda Figure : Vot vs. Lrenda: linear versus logistic fits Mètodes Estadístics, UPF, Hivern 2015 6
Interpretació dels paràmetres ˆL = 12.389 1.208 Lrenda exp(-1.208)= 0.2987943 0.2987943 1 = 0.7012057 Odds disminueixen en un 70% quan X X + 1 % d augment/decreixement odds (exp(β) 1) 100 Mètodes Estadístics, UPF, Hivern 2015 6
Vot versus Lrenda + Genere glm(formula = Vot ~ Lrenda + Genere, family = "binomial") (Intercept) 12.2964 1.2207 10.07 <2e-16 *** Lrenda -1.3238 0.1229-10.77 <2e-16 *** Genere 2.6149 0.2017 12.97 <2e-16 *** ˆL = 12.2964 1.3238 Lrenda + 2.6149 Genere > 100*(exp( -1.3238 )-1) [1] -73.38779 > 100*(exp( 2.6149 )-1) [1] 1266.585 Mètodes Estadístics, UPF, Hivern 2015 7
Lrenda Lrenda+1 disminueix un 73% els odds de Vot = 1, controlant per gènere Els odds de Vot = 1 dels nois (Gènere = 1) són un 1266% superiors que els de les noies (Gènere = 0), controlant per Renda Mètodes Estadístics, UPF, Hivern 2015 7
Vot 0.0 0.2 0.4 0.6 0.8 1.0 Simple Mult. Homes Mult. Dones 6 8 10 12 14 Lrenda Figure : Corbes logístiques, marginals (reg. simple) i condicionals (regr. múltiple) Mètodes Estadístics, UPF, Hivern 2015 7
(Optional) More on logistic regression: lrm lrm( Vot ~ Lrenda + Genere, y =T, x=t) Logistic Regression Model Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 800 LR chi2 413.74 R2 0.540 C 0.881 0 360 d.f. 2 g 2.372 Dxy 0.763 1 440 Pr(> chi2) <0.0001 gr 10.718 gamma 0.764 max deriv 5e-07 gp 0.379 tau-a 0.378 Brier 0.140 Coef S.E. Wald Z Pr(> Z ) Intercept 12.2964 1.2207 10.07 <0.0001 Lrenda -1.3238 0.1229-10.77 <0.0001 Genere 2.6149 0.2017 12.97 <0.0001 Mètodes Estadístics, UPF, Hivern 2015 7
(Optional) More on logistic regression: e b and the % of increment of odds Suppose the fitted logistic regression where L = 2 + 2 x Logit2 = 2 + 2 (x + 1)(e b 1) 100 = (e 2 1) 100 = 639% and an unit increase of x = 1, x x + 1. ### when p is around 0.5 x= 1 Logit1 = -2 + 2*x Logit2 = -2 + 2*(x+1) prob1= 1/(1+ exp( -Logit1)) prob2= 1/(1+ exp(-logit2 )) ((prob2-prob1)/prob1)*100 > prob1 [1] 0.5 > prob2 [1] 0.8807971 ### p = molt baixa x= 1 Logit1 = -10 + 2*x Logit2 = -10 + 2*(x+1) (exp(2) -1)*100 prob1= 1/(1+ exp( -Logit1)) prob2= 1/(1+ exp(-logit2 )) A. Satorra ((prob2-prob1)/prob1)*100 ( UPF, Mètodes Estadístics, 2015 ) Mètodes Estadístics, UPF, Hivern 2015 7
Optional: Case influence 11 14 5 16 Y 5 0 5 all exclude 2 and 11 exclude 1 exclude 1 and 14 3 7 18 17 8 4 12 15 9 13 19 20 21 6 22 10 1 2 3 2 1 0 1 2 3 X Figure : Case influence in regression Mètodes Estadístics, UPF, Hivern 2015 7
(Optional): multicolinearity datafile=read.table("/users/albertsatorra/rstudio/datasets/regressiomulticol.dat") reg=lm(y ~ X1+factor(X2)+X3) summary(reg) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.4987 1.4834 0.336 0.73751 X1-0.8042 3.3921-0.237 0.81310 factor(x2)1 3.1534 1.7499 1.802 0.07475. factor(x2)2 5.4445 1.8216 2.989 0.00357 ** factor(x2)3 7.3730 2.4295 3.035 0.00311 ** X3 5.8343 3.3368 1.748 0.08365. --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.082 on 94 degrees of freedom Multiple R-squared: 0.433, Adjusted R-squared: 0.4028 F-statistic: 14.36 on 5 and 94 DF, p-value: 1.961e-10 Mètodes Estadístics, UPF, Hivern 2015 7
Multicolinearity and Principal Components 1 p. 83 de : Regressio amb SPSS 2 Un altre exemple de multicolinealitat: multicolinealitat 3 Emprant les dades paisos.sav, amb transformacio logarítmica per PIB, DIARIS, TV, HABMETGE, fes una regressió amb un indicador de nivell de literacy (LITERACY, diaris, TV, etc. ) 4 Emprant les dades CIS1524.SAV, fes una anàlisi de regressió emprant indicadors per variables per medi de PCA (per exemple, les variables INFL1... INFL4). Idem amb el fitxer GSS.SAV Mètodes Estadístics, UPF, Hivern 2015 7
Regression with a principal component > F1 = princomp(cbind(x1,x2,x3,x4))$score[,1] > fit1 = lm(y1 ~ F1+X5+factor(X6)) > summary(fit1) Call: lm(formula = Y1 ~ F1 + X5 + factor(x6)) Residuals: Min 1Q Median 3Q Max -4.6418-0.9351 0.0393 0.9297 4.1060 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -23.20763 0.11828-196.204 < 2e-16 *** F1 0.30851 0.03699 8.341 2.43e-16 *** X5-0.10188 0.12490-0.816 0.415 factor(x6)2 2.82883 0.14666 19.288 < 2e-16 *** factor(x6)3-0.06937 0.12767-0.543 0.587 factor(x6)4 0.02032 0.12875 0.158 0.875 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.439 on 994 degrees of freedom Multiple R-squared: 0.4509, Adjusted R-squared: 0.4482 F-statistic: 163.3 on 5 and 994 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern 2015 7
Optional: Case influence 11 14 5 16 Y 5 0 5 all exclude 2 and 11 exclude 1 exclude 1 and 14 3 7 18 17 8 4 12 15 9 13 19 20 21 6 22 10 1 2 3 2 1 0 1 2 3 X Figure : Case influence in regression Mètodes Estadístics, UPF, Hivern 2015 7
(Optional) s.e. robust to cluster effects: library rms library(rms ) fit =lrm( Vot ~ Lrenda + Genere, y =T, x=t) library(rms ) length(vot) [1] 800 # assume we have a variable clust clust= sample(1:40,800, replace=t) robcov(fit,cluster=clust) Logistic Regression Model Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 800 LR chi2 413.74 R2 0.540 C 0.881 0 360 d.f. 2 g 2.372 Dxy 0.763 1 440 Pr(> chi2) <0.0001 gr 10.718 gamma 0.764 max deriv 5e-07 gp 0.379 tau-a 0.378 Brier 0.140 Coef S.E. Wald Z Pr(> Z ) Intercept 12.2964 1.3397 9.18 <0.0001 Lrenda -1.3238 0.1359-9.74 <0.0001 Genere 2.6149 0.1790 14.61 <0.0001 Mètodes Estadístics, UPF, Hivern 2015 8
(Optional) s.e. robust to cluster effects: bootstrap > bootcov(fit, cluster=clust) Logistic Regression Model lrm(formula = Vot ~ Lrenda + Genere, x = T, y = T) Coef S.E. Wald Z Pr(> Z ) Intercept 12.2964 1.4004 8.78 <0.0001 Lrenda -1.3238 0.1420-9.32 <0.0001 Genere 2.6149 0.1814 14.41 <0.0001 Mètodes Estadístics, UPF, Hivern 2015 8
Material addicional de regressió logística 1 web del curs, M2014: Slides Logit Regression, més detalls sobre la regressió logistica + altre material en la secció de regressió logística. 2 Idra UCLA: SPSS Data Analysis Examples Logit Regression R Data Analysis Examples: Logit Regression Mètodes Estadístics, UPF, Hivern 2015 8
Fitxer de Dades Mostra aleatoria de mida n = 1000 d una població Variables: data= read.table("http://www.econ.upf.edu/~satorra/m/dadesregressio2014.txt", header =T) #data= read.spss("http://www.econ.upf.edu/~satorra/m/dadesme2014.sav") #data=as.data.frame(data) names(data) "Y1" "Y2" "X1" "X2" "X3" "X4" "X5" "X6" head(data) > head(data) Y1 Y2 X1 X2 X3 X4 X5 X6 1-19.18 0 0.96 2.78 0.84 2.32 0 2 2-19.66 0 4.25-0.44 3.82 3.24 0 2 3-24.35 1 2.47 1.04 2.85 3.23 0 4 4-20.75 0 3.10 0.90 1.66 2.63 0 2 5-22.46 0 2.60 1.36 1.84 2.36 0 3 6-22.82 1-0.17 3.95 0.77 2.49 1 3 Y1 is logexpenses Y2 is voting X5 is home = 1 X6 is categorial X1 to X4 are indicators related with income (latent) Mètodes Estadístics, UPF, Hivern 2015 8
Y1 0.0 0.4 0.8 1 1 3 5 1.0 2.5 4.0 28 22 16 0.0 0.4 0.8 Y2 X1 1 1 3 5 1 1 3 5 X2 X3 1 1 3 5 1.0 2.5 4.0 X4 28 22 16 1 1 3 5 1 1 3 5 0.0 0.4 0.8 0.0 0.4 0.8 X5 Figure : Matrix plot of the new data set Mètodes Estadístics, UPF, Hivern 2015 8
Multiple regression fit1 = lm(y1 ~ X1+ X2+X3+X4+X5+factor(X6)) summary(fit1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -22.98561 0.71205-32.281 <2e-16 *** X1 0.20459 0.17081 1.198 0.2313 X2-0.28337 0.16639-1.703 0.0889. X3-0.04619 0.05681-0.813 0.4163 X4 0.00525 0.11536 0.046 0.9637 X5-0.07055 0.12551-0.562 0.5742 factor(x6)2 2.83711 0.14656 19.359 <2e-16 *** factor(x6)3-0.08415 0.12816-0.657 0.5116 factor(x6)4 0.02103 0.12875 0.163 0.8703 Residual standard error: 1.437 on 991 degrees of freedom Multiple R-squared: 0.454, Adjusted R-squared: 0.4496 F-statistic: 103 on 8 and 991 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern 2015 8
Multiple regression (excluding X2) fit1 = lm(y1 ~ X1+X3+X4+X5+factor(X6)) summary(fit1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -24.074327 0.313959-76.680 < 2e-16 *** X1 0.472673 0.066398 7.119 2.09e-12 *** X3-0.042238 0.056819-0.743 0.457 X4 0.002787 0.115466 0.024 0.981 X5-0.100423 0.124402-0.807 0.420 factor(x6)2 2.822129 0.146432 19.273 < 2e-16 *** factor(x6)3-0.070031 0.128018-0.547 0.584 factor(x6)4 0.028213 0.128803 0.219 0.827 - Residual standard error: 1.438 on 992 degrees of freedom Multiple R-squared: 0.4524, Adjusted R-squared: 0.4485 F-statistic: 117.1 on 7 and 992 DF, p-value: < 2.2e-16 Mètodes Estadístics, UPF, Hivern 2015 8
Diagnostic in linear multiple regression (Fox s library(car)) library(car) fit1 = lm(y1 ~ X1+X2+X3+X4+X5+factor(X6)) # Evaluate Collinearity vif(fit) # variance inflation factors sqrt(vif(fit)) > 2 # problem? VIF > 4? ncvtest(fit1) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.2619034 Df = 1 p = 0.6088155 > durbinwatsontest(fit1) lag Autocorrelation D-W Statistic p-value 1-0.03516656 2.069103 0.286 Alternative hypothesis: rho!= 0 ## Multicolineality > vif(fit1) GVIF Df GVIF (1/(2*Df)) X1 14.969943 1 3.869101 X2 14.524505 1 3.811103 X3 1.136309 1 1.065978 X4 1.632153 1 1.277557 X5 1.907518 1 1.381129 factor(x6) 1.401702 3 1.057895 # Evaluate Nonlinearity # component + residual plot crplots(fit1) Mètodes Estadístics, UPF, Hivern 2015 8
1 0 1 2 3 4 5 4 2 0 2 4 X1 Component+Residual(Y1) 1 0 1 2 3 4 5 4 2 0 2 4 X2 Component+Residual(Y1) 1 0 1 2 3 4 4 2 0 2 4 X3 Component+Residual(Y1) 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4 2 0 2 4 X4 Component+Residual(Y1) 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 X5 Component+Residual(Y1) 1 2 3 4 4 2 0 2 4 6 factor(x6) Component+Residual(Y1) Component + Residual Plots Figure : component + residual plot Mètodes Estadístics, UPF, Hivern 2015 8
Logistic Regression library(rms) lrm(formula = Y2 ~ X1 + X2 + X3 + X4 + X5 + factor(x6)) Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 1000 LR chi2 405.30 R2 0.445 C 0.842 0 537 d.f. 8 g 2.003 Dxy 0.685 1 463 Pr(> chi2) <0.0001 gr 7.412 gamma 0.686 max deriv 1e-07 gp 0.341 tau-a 0.341 Brier 0.162 Coef S.E. Wald Z Pr(> Z ) Intercept -2.0695 1.2476-1.66 0.0972 X1 0.0250 0.3004 0.08 0.9336 X2 1.3035 0.2989 4.36 <0.0001 X3-0.0816 0.0967-0.84 0.3987 X4-0.0963 0.2039-0.47 0.6365 X5-0.1624 0.1986-0.82 0.4134 X6=2-2.6178 0.2996-8.74 <0.0001 X6=3 0.3319 0.2102 1.58 0.1144 X6=4 0.5034 0.2117 2.38 0.0174 Mètodes Estadístics, UPF, Hivern 2015 8
Logistic Regression library(rms) lrm(formula = Y2 ~ X1 + X2 + X3 + X4 + X5 + factor(x6)) Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 1000 LR chi2 405.30 R2 0.445 C 0.842 0 537 d.f. 8 g 2.003 Dxy 0.685 1 463 Pr(> chi2) <0.0001 gr 7.412 gamma 0.686 max deriv 1e-07 gp 0.341 tau-a 0.341 Brier 0.162 Coef S.E. Wald Z Pr(> Z ) Intercept -2.0695 1.2476-1.66 0.0972 X1 0.0250 0.3004 0.08 0.9336 X2 1.3035 0.2989 4.36 <0.0001 X3-0.0816 0.0967-0.84 0.3987 X4-0.0963 0.2039-0.47 0.6365 X5-0.1624 0.1986-0.82 0.4134 X6=2-2.6178 0.2996-8.74 <0.0001 X6=3 0.3319 0.2102 1.58 0.1144 X6=4 0.5034 0.2117 2.38 0.0174 Mètodes Estadístics, UPF, Hivern 2015 9