Econometrics02 2022
Econometrics02 2022
Econometrics02 2022
Lecture 2
log (wage) = β0 + β1 x + β2 x 2 + β3 s + γh + v
Empı́ricamente el problema para estimar una ecuación salarial como la anterior es que la
habilidad de una persona no es observable. Por lo tanto, la ecuación estimable es,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + u
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + γq + v (1)
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u (2)
donde u = γq + v .
Sin pérdida de generalidad se puede asumir que E (q) = 0 de forma tal que E (u) = 0.
En este modelo si q está correlacionada con alguna de las variables explicativas, entonces
u estará correlacionado también y tenemos el problema de la endogeneidad.
Sabemos que si no se satisface (al menos) el supuesto de exogeneidad contemporánea
MCC no dará estimaciones consistentes de los parámetros.
Escribamos la proyección lineal de q en las k variables explicativas observadas como,
q = δ0 + δ1 x1 + δ2 x2 + · · · + δk xk + r (3)
y = (β0 + γδ0 ) + (β1 + γδ1 )x1 + (β2 + γδ2 )x2 + · · · + (βk + γδk )xk + v + γr
donde el error v + γr cumple con el supuesto de exogeneidad estricta.
De la ecuación anterior surge claramente que MCC aplicado en (2) dará estimadores
consistentes, β̂j , de los parámetros βj + γδj .
Esta especificación es la más general que se puede tener. Muchas veces en la práctica la
variable omitida solo está relacionada con alguna de las variables explicativas observadas.
Esta especificación puede obtenerse haciendo ceros a los δj correspondientes en la
ecuación (3) arriba.
log (wage) = β0 + β1 x + β2 x 2 + β3 s + γh + v
la teorı́a económica sugiere correlación entre s y h. Las personas con mayor habilidad
alcanzan una educación más alta. Supongamos que la relación entre la habilidad y la
educación es h = π0 + π1 s.
Si omitimos h en la estimación,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + u
MCC dará un estimador de β3 sesgado y no consistente.
El problema de las variables omitidas puede ser solucionado si existe una variable proxy
para la variable no observada.
Los requerimientos formales para que una variable pueda ser considerada proxy de otra
son dos.
1 La variable proxy debe ser redundante en la ecuación estructural. Si w es una variable proxy
para q, el requerimiento de redundancia establece que E (y |x, q, w ) = E (y |x, q).
2 La correlación entre la variable omitida q y cada xj debe ser cero una vez que tomamos en
consideración w . En términos de una proyección lineal este supuesto establece que
L(q|1, x1 , . . . , xk , w ) = L(q|1, w ).
Es útil escribir el segundo punto en términos de una ecuación con error,
q = θ0 + θ1 w + r (4)
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u (5)
Para usar el enfoque de IV con xk endógena, necesitamos una variable observable z1 , que
no esté en (5) y que satisfaga dos condiciones:
1 z1 es una variable exógena en (5), es decir Cov (z1 , u) = 0.
6 0 en la proyección lineal de la variable endógena, xk , sobre todas las variables exógenas,
2 θ1 =
donde v = u + βk rk , αj = βj + βk δj y λ1 = βk θ1 .
Por nuestros supuestos, v no está correlacionado con ninguna de las variables explicativas
de (7) y por lo tanto MCC estima consistentemente los parámetros de la ecuación
reducida de y .
Algunas veces, estimar los parámetros de la ecuación reducida (7) tiene interés en si
mismo pero en general se trata de estimar en forma consistente los parámetros de (5).
Los supuestos hechos para IV también lo permiten.
y = xβ + u
E (z 0 u) = 0.
Por lo tanto,
z 0y = z 0 xβ + z 0 u ⇒ E (z 0 y ) = E (z 0 x)β + E (z 0 u)
⇒ E (z 0 y ) = E (z 0 x)β (8)
Usando la WLLN,
n
!
1X 0 p
zi xi −→ E (z 0 x)
n
i=1
Además,
n
1X 0 p
zi ui −→ E (z 0 u) = 0
n
i=1
y el estimador de IV es consistente.
Volviendo al ejemplo de la ecuación de salarios, la omisión de la habilidad (h) provoca que
la variable que mide educación (s) sea endógena en el modelo. Para obtener estimaciones
consistentes en la ecuación salarial necesitamos un instrumento para s.
Card(1995), por ejemplo, utiliza una variable binaria que indica si una persona creció en el
vecindario de una universidad como variable instrumental de años de educación.
donde, por definición, E (rk ) = 0 y rk no está correlacionado con ninguna de las variables
en el lado derecho de la ecuación.
Como ninguna combinación lineal de z está correlacionada con u
tampoco lo estará.
Si observáramos xk∗ podrı́amos utilizarla como instrumento para xk en (5).
x̂i,k = δ̂0 + δ̂1 xi,1 + · · · + δ̂k−1 xi,k−1 + θ̂1 zi,1 + · · · + θ̂M zi,M (13)
Ahora para cada observación i definamos el vector x̂i ≡ (1, xi,1 , . . . , xi,k−1 , x̂i,k ) y
estimemos por IV,
n
!−1 n
X X
0
β̂ = x̂i x x̂i0 y = (x̂ 0 x)−1 x̂ 0 y . (14)
i=1 i=1
x̂ = z δ̂ = z(z 0 z)−1 z 0 x = Pz x
En términos generales podemos resumir los resultados de 2SLS como sigue. Considere el
modelo,
y = xβ + u
donde x es de dimensión 1 × k y varios elementos de x pueden estar potencialmente
correlacionados con u.
Supuesto 1: Para algún vector 1 × L, z, E (z 0 u) = 0.
Note que el supuesto de exogeneidad estricta E (u|z) = 0 implica el supuesto 1.
Supuesto 2: (a) rango E (z 0 z) = L; (b) rango E (z 0 x) = k.
Técnicamente, la parte (a) del supuesto 2 es necesaria pero no especialmente importante.
La parte (b) del supuesto es la realmente importante porque es la condición de rango que
permite la identificación de los parámetros del modelo.
n
X
n−1/2 zi0 ui ∼ Normal(0, σ 2 E (z 0 z))
i=1
ûi = yi − xi β̂, i = 1, 2, . . . , n.
Por lo tanto σ̂ 2 ( ni=1 x̂i0 x̂i )−1 = σ̂ 2 (x̂ 0 x̂)−1 es un estimador válido de la matriz de
P
varianzas y covarianzas de los estimadores de 2SLS.
Bajo los supuestos 1, 2 y 3, los estimadores de 2SLS son eficientes dentro de la clase de
todos los estimadores de IV que usan instrumentos lineales en z.
Es posible detectar la presencia de variables explicativas endógenas?
Test de Hausman (1978)
Idea: bajo la hipótesis nula de no existencia de endogeneidad, el estimador de MCC,
β̂MCC , y el estimador de variables instrumentales, β̂2SLS , son estimadores consistentes de
β, y el estimador de MCC es el más eficiente.
Si la hipótesis nula es falsa, el estimador de variables instrumentales, β̂2SLS , es el único
consistente.
Entonces, bajo la hipótesis nula ambos estimadores deberı́an diferir solo por error
muestral. Es decir, aceptar la hipótesis nula del test es evidencia en favor de exogeneidad.
y1 = z1 δ 1 + α1 y2 + u1 (18)
con z1 un subconjunto 1 × L1 de z.
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 38 / 80
Función de Control
Las variables en z son exógenas en el mismo sentido qu con VI, es decir E (z0 u1 ) = 0.
Por lo tanto se puede estimar (δ 1 , α1 ) en forma consistente usando 2SLS (agregando la
condición de rango estándar).
En el método de la función de control la forma reducida de la variable endógena juega un
rol fundamental:
y2 = zπ2 + v2 (19)
0
E z v2 = 0 (20)
donde π2 es L × 1
En este modelo la endogenidad de y2 aparece si y solo si u1 está correlacionado con v2 .
Consideremos la proyección lineal de u1 sobre v2 :
u1 = ρ1 v2 + e1 (21)
donde ρ1 = E (v2 u1 ) /E v22 es el coeficiente poblacional.
Por definición E (v2 e1 ) = 0, y E (z0 e10 ) = 0 por que u1 y v2 no estan correlacionados con z.
Reemplazando (21) en (18) tenemos
y1 = z1 δ 1 + α1 y2 + ρ1 v2 + e1 (22)
y1 = z1 δ 1 + α1 y2 + ρ1 v2 + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ2 ) + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ2 ± zπ̂2 ) + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ̂2 ) + e1 + ρ1 (zπ̂2 − zπ2 )
= z1 δ 1 + α1 y2 + ρ1 v̂2 + error (23)
donde error = e1 + ρ1 (zπ̂2 − zπ2 ) depende del error muestral de π̂2 , salvo que ρ1 = 0.
Esto implica que la matriz de varianzas y covarianzas de los coeficientes estimados en el
segundo paso del procedimiento deberá tomar en cuenta este error muestral.
La estimación por MCC de (23) es una ejemplo de estimador de la función de control.
La inclusión de los residuos v̂2 “controla” por la endogeneidad de y2 en la ecuación
original (aunque lo hace con error muestral porque π2 6= π̂2 ).
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 41 / 80
Función de Control
E(y | z = 1) − E(y | z = 0)
τLATE = E (y1 − y0 | s1 − s0 = 1) =
P (s1 − s0 = 1)
E(y | z = 1) − E(y | z = 0)
=
P (s = 1 | z = 1) − P (s = 1 | z = 0)
E(y | z = 1) − E(y | z = 0) cov (y , z)
= = (28)
E (s | z = 1) − E (s | z = 0) cov (s, z)
Recordemos el ejemplo de una polı́tica educativa que consiste en reducir el tamaño de las
clases en la educación primaria y su efecto sobre el aprendizaje de los alumnos.
La polı́tica es tener clases con menos alumnos por profesor. La variable que mide el
aprendizaje son las notas en pruebas estandarizadas de fin de año.
En la práctica, la implementación más común de esta medida se realiza en dos etapas:
1 1ra Etapa: se eligen aleatoriamente algunas escuelas de la población de escuelas.
2 2da Etapa: Se asignan aleatoriamente las escuelas elegidas en la primera etapa a los grupos
de tratamiento y de control.
En este contexto, los alumnos de una misma escuela o clase tienden a tener puntajes en
las pruebas que están correlacionados ya que están sujetos a algunas de las mismas
influencias ambientales y de origen familiar.
yi = α + βsi + ui (29)
β̂ = (x 0 x)−1 x 0 y
= β + (x 0 x)−1 x 0 u (31)
n
!−1 n
X X
β̂ = β+ n−1 xi0 xi n−1 xi0 ui
i=1 i=1
p 0 −1 0
−→ β + [E (x x)] E (x u)
p
−→ β (33)
donde la primera convergencia se obtiene aplicando la WLLN y la segunda sigue del
supuesto de exogeneidad estricta.
Apropiadamente re-escalado, los estimadores de MCC son asintóticamente normales,
n
!−1 n
√ X X
n(β̂ − β) = + n−1 xi0 xi n−1/2 xi0 ui
i=1 i=1
d
−→ Normal(0, [E (x 0 x)]−1 E (x 0 uu 0 x)[E (x 0 x)]−1 )
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 54 / 80
Propiedades de MCC
Note que si la varianza de los errores fuera esférica, la ecuación anterior se reduce a la
matriz de varianzas y covarianzas asintótica que obtuvimos para MCC: σ 2 [E (x 0 x)]−1 .
Entonces, una consecuencia de la heterocedasticidad y/o de la correlación serial es que
matriz de varianzas y covarianzas asintótica convencional de MCC es incorrecta.
donde û son los residuos de la estimación por MCC. Esta es la matriz de varianzas y
covarianzas robusta ante la presencia de heterocedasticidad y correlación serial de White
(1980).
La raiz cuadrada de los elementos de la diagonal principal de (35) son los errores estándar
robustos. Los estadı́sticos t se calculan de la forma usual con estos errores estándar
robustos.
Para realizar contrastes sobre combinación lineal de coeficientes el estadı́stico de Wald se
construye con la fórmula habitual,
W = (R β̂ − r )0 [R Var
\ (β̂)R 0 ]−1 (R β̂ − r )/#r (36)
\
donde Var (β̂) está definida por la ecuación (35)
y∗ = x∗ β + u∗ , (38)
donde y∗ = Py , x∗ = Px y u∗ = Pu.
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 60 / 80
Mı́nimos Cuadrados Generalizados
y el modelo transformado cumple con los supuestos del modelo de regresión lineal
múltiple y puede ser estimado por MCC.
con,
La raiz cuadrada de los elementos de la diagonal principal de (42) son los errores estándar
de los estimadores de MCG y pueden utilizarse para construir los estadı́sticos t.
Restricciones lineales del tipo H0 : Rβ = r pueden contrastarse utilizando el test de Wald,
Prueba:
Por lo tanto,
Remark: Note que para poder obtener la consistencia del estimador de MCG es necesario
asumir que las variables explicativas son estrı́ctamente exógenas. Este supuesto es más
fuerte que el necesario para obtener consistencia de MCC que es, como vimos,
exogeneidad contemporánea.
Hasta ahora se asumió que Ω era conocida. En general, en la práctica, esto no es ası́ y se
necesita una estimación consistente de la misma.
El método que utiliza una estimación consistente de Ω es conocido como mı́nimos
cuadrados generalizados estimados (MCGE) ó feasible generalized least squares (FGLS).
Vamos a mostrar, en lo que sigue, que MCGE es asintóticamente equivalente a MCG.
donde,
n
1 X 0 0
Γ̂j = xi ûi ûi−j xi−j , j = 0, 1, 2, . . . , m
n
i=j+1
Test de White
H0 : No existe heterocedasticidad
H1 : Existe heterocedasticidad
Este contraste asume que la forma funcional de la heterocedasticidad es lineal en todas
las variables explicativas del modelo, sus cuadrados y sus productos cruzados.
Por ejemplo, suponga el siguiente modelo,
yi = α0 + α1 xi,1 + α2 xi,2 + ui
FGLS White
1. Estimar (50) por OLS y obtener las estimaciones de los parámetros del modelo.
2. Calcular los residuos del modelo y elevarlos al cuadrado, ûi2 .
3. Estimar (51) por OLS usando ûi2 como proxy de σi2 .
4. Usar las estimaciones de la regresión auxiliar y obtener las variancias ajustadas como:
ûi2
c
≡ σ̃i2 = γ̃0 + γ̃1 xi,1 + γ̃2 xi,2 + γ̃3 xi,1
2 2
+ γ̃4 xi,2 + γ̃5 xi,1 xi,2
σ̂i2
1
7. Usar σ̃i como ponderadores para estimar (50).
yi = α0 + α1 xi,1 + α2 xi,2 + ui
Test de Breusch-Godfrey
yi∗ = α0 c ∗ + α1 xi,1
∗ ∗
+ α2 xi,2 + ui∗
ˆ 0 , α̂
y obtenga nuevos estimadores α̂ ˆ 1 , α̂
ˆ2.
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 79 / 80
Mı́nimos Cuadrados Generalizados Estimados