EPGE / FGV MFEE - ECONOMETRIA Gabarito - Monitoria 0-0/04/2007 Eduardo P Ribeiro eduardopr@fgvbr Professor Ilton G Soares iltonsoares@fgvmailbr Monitor 0 Sobre o coeficiente de determinação R 2 e o coeficiente de determinação ajustado R 2 responda: a O R 2 compara as variâncias de desvios em relação à previsão de y de que modelos? b Qual a relação entre o R 2 e o coeficiente de correlação em uma regressão simples? E em uma regressão múltipla? O que isso tem a ver com o intervalo no qual o R 2 está? c Que estimadores para o modelo y t β + β 2 x t + u t você obteria se utilizasse como critério de estimação a maximização do R 2? d O R 2 pode diminuir quando acrescentamos uma variável explicativa? e O que é o R 2? Explique sua utilidade e sua relação com a estatística t f Sempre que o modelo linear tiver pelo menos uma variável explicativa além do intercto, o R 2 será maior ou igual ao R 2 ajustado? SOLUÇÃO a Modelos lineares com intercto lembre das considerações feitas em sala sobre a dedução do R 2 b No modelo linear geral y i β + β 2 x 2i + β 3 x 3i + + β k x ki + û i ŷ i + û i o coeficiente de determinação R 2 corresponde ao quadrado do coeficiente de correlação entre y e ŷ, ou seja: R 2 [cor y, ŷ] 2 Isso num modelo de regressão simples significa R 2 [ cor y, β + β ] 2 2 x 2i Como β e β 2 são números dada a amostra então usando as propriedades do coeficiente de correlação discutidas em sala, temos R 2 [ cor y, β + β ] 2 2 x 2i [cor y, x2i ] 2 Obs: A seguir temos uma demonstração para o caso de regressão simples Note que yi y x 2i x 2 cor y, x 2i yi y 2 x2i x 2 2 logo, no modelo de regressão simples:
R 2 SQE SQT ŷi y 2 β2 yi y 2 2 x 2i x 2 2 yi y 2 x2i x 2 2 β 2 2 yi y 2 x2i x 2 y i y x2i x 2 2 2 x2i x 2 2 yi y 2 [ x 2i x 2 y i y] 2 x2i x 2 2 yi y 2 [cor y, x 2] 2 R 2 [cor y, ŷ] 2 como queríamos Uma vez que o coeficiente de correlação está limitado ao intervalo [, ], segue diretamente de R 2 [cor y, ŷ] 2 que R 2 [0, ] c Como R 2 SQR SQT e SQT não está sob nosso controle, então maximizar R 2 é o mesmo que minimizar SQR, isto é, o método de mínimos quadrados maximiza o R 2 d NÃO Note que a SQR é função não crescente do número de variáveis explicativas incluídas no modelo lembre do que comentamos em sala: um mínimo restrito é sempre maior ou igual a um mínimo irrestrito, assim como um máximo restrito é sempre menor ou igual a um máximo irrestrito Desse modo, por construção, o R 2 é função não decrescente do número de variáveis explicativas incluídas no modelo e O coeficiente de determinação ajustado, R 2, é definido por R 2 SQR/ n k SQT/ n Diferentemente do R 2, o R 2 penaliza a inclusão de novos regressores, assim, se a SQR não reduzir de maneira a compensar o aumento de k, o R 2 pode diminuir com a inclusão de uma nova variável explicativa Contudo, é possível provar que o R 2 irá aumentar sempre que o quadrado da estatística t associada ao coeficiente da variável incluída for maior do que f VERDADEIRO Lembre que R 2 SQR SQT e R2 SQR/n k SQT/n Com isso podemos escrever o R 2 como Assim, R 2 SQR n SQT n k R2 R 2 n n k R 2 n n k n n k R 2 R2 R 2 Logo, se tivermos uma ou mais variáveis explicativas, k, então n n k >, de modo que 2
R 2 R 2 > R 2 > R 2 R 2 < R 2 02 Maddala 2003, exercício 36 a Os resultados a seguir se referem à regressão y i α + βx i + e i, onde y taxa de demissão por 00 empregados em manufatura x taxa de desemprego Figura : Maddala, exercício 36 b Um intervalo de confiança de 95% para β é dado por : Pr t crit β β t crit 095 β [ Pr β t crit β ] β β t crit 095 assim, substituindo os valores temos Pr [ β β t crit β β ] + β t crit 095 Pr [ 028622 0062885 22 β 028622 + 0062885 22] 095 Pr [ 0425 β 047] 095 Assim, com probabilidade de 95% o intervalo calculado acima irá conter o verdadeiro parâmetro populacional β c É imediato do item anterior que ao nível de significância de 5% a hipótese nula será rejeitada, uma vez que 0 / [ 0425, 047] Contudo vamos conduzir o teste requerido Sabemos que as hipóteses do teste são: Note que t crit se refere ao valor crítico de t considerando n k graus de liberdade e um nível de significância de 5% Assim, consultando uma tabela da distribuição t ou o EViews, temos que t crit 22 3
H 0 : β 0 H 0 : β 0 e que a estatística de teste é dada por t calc β β β 028622 0062885 455348 Assim, como o valor calculado, t calc, é maior em valor absoluto que o valor crítico t crit 22, concluímos pela rejeição da hipótese nula de que β 0, como já haviamos adiantado d Uma vez que e que SQR σ 2 SQR σ 2 χ 2 n 2 n 2 σ2 σ 2 então o intervalo de confiança de 90% para σ 2 é dado por 2 : ] n 2 σ2 Pr [χ 2005, σ 2 χ 2 090 095, Pr [ Pr χ 2 095, σ 2 n 2 σ 2 [ n 2 σ 2 χ 2 σ 2 095, χ 2 005, n 2 σ2 χ 2 005, ] ] 090 090 logo, substituindo os valores temos [ 435 Pr 9675 σ2 435 ] 095 4575 Pr [ 00582 σ 2 024995 ] 095 e O modelo calculado apresenta autocorrelação Este tópico será discutido mais adiante 02 Maddala 2003, exercício 37 Sabemos que o método de mínimos quadrados aplicado para estimar os coeficientes do modelo Y i α βx i + u i consiste em obter α e β que resolvem o seguinte problema: de onde obtemos as seguintes CPOs: 2 χ 2 005, min SQR Y i α βx i 2 SQR α 0 2 Y i α βx i 0 SQR β 0 2 Y i α βx i X i 0 2 valor tabelado da distribuição qui-quadrado com nível de significância de 5% e graus de liberdade χ 2 valor tabelado da distribuição qui-quadrado com nível de significância de 95% e graus de 095, liberdade Assim, a área abaixo da curva que caracteriza a distribuição qui-quadrado com graus de liberdade entre χ 2 e 005, χ2 é 90% 095, 4
logo, como Y i α β X i û i, temos da CPO, obtida na derivação do estimador de mínimos quadrados de α, que t ûi 0 Além disso, da CPO 2 temos que i ûix i 0 02 Maddala 2003, exercício 30 σ Como V ar β 2 xi x, fica fácil ver que no caso do pesquisador 2, x 2 i x 2 é maior que na amostra do pesquisador, daí a razão pela qual o erro padrão de β para o primeiro é maior do que o erro padrão de β para o segundo 02 Maddala 2003, exercício 44 A função de produção apresentada no exercício é o log da função Cobb-Douglas ou seja, Q AK β K L β L exp u ln Q i β 0 + β K ln L i + β L ln L i + u i onde β 0 ln A Os valores estimados dessa relação são dados por ln Q i 37 + 0632 ln L i + 0452 ln L i + u i com R 2 098, cov b K, b L 0044, b K 0257, b L 029 e n 40 a Testar se β K β L é o mesmo que testar 3 A estatística de teste é dada por H 0 : β K β L 0 H : β K β L 0 t b K b L β K β L b K b L t n k Lembre que V ar X ± Y V ar X + V ar Y ± 2cov X, Y Com isso, substituindo os valores dados temos t 0632 0452 02572 + 029 2 2 0044 040048 Como t crit 2026, concluímos pela não rejeição da hipótese nula de que β K β L 0 b Testar retornos constantes de escala corresponde a testar as hipóteses A estatística de teste é dada por H 0 : β K + β L 0 H : β K + β L 0 t b K + b L β K + β L b K + b L Assim, substituindo os valores dados temos t t n k 0632 + 0452 02572 + 029 2 + 2 0044 6724 3 Observe que o livro apresenta um erro conceitual nessa questão pois o correto é testar β K β L e não b K b L De fato, esse último não precisa ser testado, basta comparar 5
Como t crit 2026, concluímos pela rejeição da hipótese nula de existência de retornos constantes de escala isto é, β K + β L 0 02 Maddala 2003, exercício 46 Sabemos que T 80 e ŷ t 220 + 004x t + 348x 2t + 034x 3t com α 34, β 0005, β2 22, β3 05, SQE 25, SQR 95 a Lembre que a estatística de teste para significância individual é t calc β β Em todos os três testes o valor crítico de t é t crit 99 Assim, temos: - Teste de significância para o coeficiente de x t : H 0 : β 0 H : β 0 β t calc β β β 040 0005 28 Como o valor calculado t calc 28 excede o valor tabelado t crit 99, rejeitamos a hipótese nula de que β 0 - Teste de significância para o coeficiente de x 2t : H 0 : β 2 0 H : β 2 0 t calc β 2 β 2 β2 348 22 58 Como o valor calculado t calc 58 é menor que o valor tabelado t crit 99, não rejeitamos a hipótese nula de que β 2 0 - Teste de significância para o coeficiente de x 3t : H 0 : β 3 0 H : β 3 0 t calc β 3 β 3 β2 034 05 227 Como o valor calculado t calc 227 é maior que o valor tabelado t crit 99, rejeitamos a hipótese nula de que β 3 0 b c R 2 SQE SQT SQE SQE + SQR 25 25 + 95 085227 R 2 R 2 n n k 085227 79 76 084644 6
02 Maddala 2003, exercício 49 a Para conduzir esse teste de hipóteses encadeadas ou entrelaçadas, temos MODELO RESTRITO: ŷ t 5 + 3 x t + x 2t 06x 3t R 2 R 0876 MODELO IRRESTRITO: ŷ t 2 + 35x t 07x 2t + 2x 3t R 2 IR 0982 Como visto em sala de aula, a estatística F utilizada para testar as hipóteses H 0 :MODELO RESTRITO β β 2 H :MODELO IRRESTRITO β β 2 pode ser escrita como F R 2 IR RR 2 /r RIR 2 / n k Assim, substituindo os valores do R 2 encontrados nos modelos restrito R 2 R 0876 e irrestrito R 2 IR 0982 na expressão anterior e sabendo que n 26, k 3 aqui usamos o k do modelo irrestrito e que o número de restrições é r, obtemos a estatística F calculada: F calc 0982 0876 / 0982 / 26 3 2956 Para concluir o teste basta apenas encontrar o valor tabelado F tab, com o qual devemos comparar F calc Como sabemos que a estatística de teste segue distribuição F com r graus de liberdade no numerador e n k graus de liberdade no denominador, então o valor tabelado considerando o nível de significância de 5% é F tab 430 você pode obter esse valor no EViews usando o comando @qfdist095,,22 Uma vez que o valor calculado F calc é superior ao valor tabelado F tab, concluímos pela rejeição da hipótese nula de que o modelo restrito é preferível em termos estatísticos ao modelo irrestrito b Lembre que o R 2 irá aumentar sempre que o quadrado da estatística t associada ao coeficiente da variável incluída for maior do que No presente caso, t 07 22 038, logo o R 2 deve diminuir c É só lembrar que o R2 é função não decrescente do número de variáveis explicativas 03 Derive o estimador de Máxima Verossimilhança em um modelo de regressão linear com erros normais iid Deixe claras as hipóteses do modelo Considere o modelo linear geral y i β + β 2 x 2i + β 3 x 3i + + β k x ki + ε i com ε i iidn 0, σ 2 Tratando as variáveis esplicativas x, x 2,, x k como não estocásticas a normalidade de ε i é transmitida para y i, logo y i N β + β 2 x 2i + β 3 x 3i + + β k x ki, σ 2 Note que a densidade conjunta de n variáveis aleatórias iid é o produto das densidades individuais: f y, y 2,, y n n f y i i n i /2 { 2πσ 2 exp } 2σ 2 y i β β 2 x 2i β k x ki 2 3 Assim, se y, y 2,, y n são conhecidos e β, β 2,,β k e σ 2 são desconhecidos, a função 3 é denominada função de verossimilhança, e a notação mais utilizada para ela é 7
L β, β 2,, β k, σ 2 L β, σ 2 n /2 { 2πσ 2 exp } 2σ 2 y i β β 2 x 2i β 3 x 3i β k x ki 2 i É comum trabalhar com o logaritmo natural da função de verossimilhança para tornar o processo de otimicação mais simples Nesse caso: l β, σ 2 ln L β, σ 2 ln i 2πσ 2 ln f y i i n 2 ln 2π n 2 ln σ2 2σ 2 /2 exp { 2σ 2 y i β β 2 x 2i β 3 x 3i β k x ki 2 y i β β 2 x 2i β 3 x 3i β k x ki 2 i Os estimadores de máxima verossimilhança do nosso problema são os valores β, β 2,, β k e σ 2 que maximizam L β, σ 2 ou l β, σ 2, que é equivalente pois a função ln é monótona crescente As CPO s associadas ao problema de maximização de l β, σ 2 são: lβ,σ 2 β 0 2 σ 2 lβ,σ 2 β 2 0 2 σ 2 lβ,σ 2 β 3 0 2 σ 2 y i β β 2 x 2i β 3 x 3i β k x ki 0 i i i y i β β 2 x 2i β 3 x 3i β k x ki x 2i 0 y i β β 2 x 2i β 3 x 3i β k x ki x 3i 0 } lβ,σ 2 β k 0 2 σ 2 lβ,σ 2 σ 2 i 0 n 2 σ 2 + 2 σ 4 y i β β 2 x 2i β 3 x 3i β k x ki x ki 0 i Dessa forma, as CPOs podem ser escritas como: y i β β 2 x 2i β 3 x 3i β k x ki 0 i i i y i β β 2 x 2i β 3 x 3i β k x ki x 2i 0 y i β β 2 x 2i β 3 x 3i β k x ki x 3i 0 y i β β 2 x 2i β 3 x 3i β k x ki 2 0 i y i β β 2 x 2i β 3 x 3i β k x ki x ki 0 n 2 σ 2 + 2 σ 4 i y i β β 2 x 2i β 3 x 3i β k x ki 2 0 8
Assim, percebemos que as CPOs associadas aos coeficientes β i são idênticas àquelas obtidas no método de mínimos quadrados, de modo que concluímos que no caso de regressão linear com erros normais, os coeficientes estimados por MQO e MV são iguais Contudo, deve-se notar que a variância do erro σ 2 estimada por MV é diferente daquela estimada por MQO: e não n 2 σ 2 + 2 σ 4 2 σ 4 σ 2 n como no caso MQO i i i y i β β 2 x 2i β 3 x 3i β k x ki 2 0 y i β β 2 x 2i β 3 x 3i β 2 n k x ki 2 σ 2 y i β β 2 x 2i β 3 x 3i β k x ki 2 n σ 2 n k 04 Derive o estimador de MQ em um modelo de regressão múltipla usando notação matricial Deixe clara a quantidade de equações nas condições de primeira ordem Considere o modelo linear geral i ε 2 i i ε 2 i y i β + β 2 x 2i + β 3 x 3i + + β k x ki + ε i Em notação matricial, temos y x 2 x 3 x k y 2 x 22 x 32 x k2 y n x 2n x 3n x kn β β 2 β 3 β k + ou, de forma mais compacta a função de regressão populacional F RP pode ser escrita como e a função de regressão amostral F RA: Y Xβ + ε Y X β + e Queremos obter β, o estimador de mínimos quadrados de β Para isso, β deve minimizar a soma dos quadrados dos resíduos note que SQR e e: ε ε 2 ε n Mas note que 4 min SQR min e e e e Y X β Y X β Y β X Y X β Y Y β X Y Y X β + β X X β como β XÝ é, Y X β é e um é o transposto do outro, então eles são iguais pois a transposta de um escalar é ele próprio Assim, eé YÝ 2 β XÝ + β X X β 4 Para lembrar das propriedades da transposta, ver Maddala 2003, pp 23-24 9
Tomando a CPO do problema 5, temos eé β 0 2X Y+2X X β 0 X X β X Y portanto, como X X é uma matriz qudrada de ordem k, a CPO se X X for inversível 6, podemos multiplicar ambos os lados da equação anterior por X X de modo que β X X X Y β 05 Quais hipóteses são necessárias para demonstrar que, em regressão múltipla, V σ 2 X X? Vimos no exercício anterior que β X X XÝ definição da F RP, Y Xβ + ε temos: Assim, substituindo Y por sua β X X X Y X X X Xβ + ε X X X Xβ + X X X ε β + X X X ε 4 Considerando X não estocástico, temos que a hipótese E ε 0 garante a ausência de viés de β, isto é: E β E β + X X X ε β + X X X E ε β Agora, lembre que se V é um vetor de variáveis aleatórias, então a variância desse vetor é dada por V ar V E {[V E V ] [V E V ] } Usando essa definição, temos que a variância de β é dada por V ar β β] ] } E {[ β E [ β E β ] E [ β β β β De 4 podemos concluir que β β X X X ε logo V ar β ] E [ β β β β [ ] E X X X ε X X X ε E [X X X εέx X X ] 5 Para lembrar dos principais conceitos associados a diferenciação matricial, ver Maddala 2003, pp 29 6 Lembre que X X é inversível se, e somente se, as colunas de X são linearmente indendentes, logo é preciso que não exista multicolinearidade perfeita, isto é, não é possível escrever nenhuma variável explicativa como combinação linear das demais 0
A hipótese de variância constante, ausência de autocorrelação e média zero do erro indica que V ar ε E εέ σ 2 I Assim, lembrando que estamos considerando X não estocástico, V ar β E [X X XέέX X X ] X X X E εέ X X X X X X σ 2 IX X X σ 2 X X