1 2 Arellano Corregido
1 2 Arellano Corregido
1 2 Arellano Corregido
Prefacio xi
1 Introducción 1
I Modelos Estáticos 5
2 Heterogeneidad no observada 7
2.1 Descripción general 7
2.2 Modelos de efectos fijos 11
2.2.1 Suposiciones 11
2.2.2 Estimación dentro del grupo 14
2.3 Heteroscedasticidad y correlación serial 18
2.3.1 Errores estándar robustos para los estimadores dentro del grupo 18
2.3.2 GLS óptima con heterocedasticidad y autocorrelación de
forma desconocida 20
2.3.3 Estimación GMM y distancia mínima mejoradas bajo
Heterocedasticidad y Autocorrelación de la forma desconocida 20
2.4 Enfoques de verosimilitud 23
2.4.1 Probabilidad Conjunta 24
2.4.2 Probabilidad condicional 24
2.4.3 Probabilidad marginal (o integrada) 25
2.5 Modelos no lineales con efectos aditivos 27
2.5.1 Regresión no lineal 27
2.5.2 Ecuación estructural lineal 28
2.5.3 Ecuaciones Simultáneas No Lineales 29
3 Componentes de error 31
3.1 Una descomposición de la varianza 31
3.2 Regresión de errores-componentes 34
3.2.1 El modelo 34
Vii
viii
3.2.2 Estimación de GLS y ML 35
3.2.3 GLS, dentro de grupos y entre grupos 36
3.3 Prueba de heterogeneidad no observada correlacionada 37
3.3.1 Pruebas de especificación 38
3.3.2 Alternativas robustas 41
3.4 Modelos con información en niveles 42
3.5 Estimación de las distribuciones de componentes de error 44
4 Error en las variables 47
4.1 Introducción al modelo de regresión estándar con errores en variables 47
4.2 Sesgo de error de medición y sesgo de heterogeneidad no observada 49
4.3 Estimación de variables instrumentales con datos del panel 51
4.4 Ilustración: Cómo medir las economías de escala en la demanda
de dinero firme 53
Modelos de la Serie II Tiempo con Componentes de Error 55
5 Estructuras de covarianza para componentes de error dinámico 57
5.1 Introducción 57
5.2 Efectos de tiempo 60
5.3 Autocovarianzas medias móviles 64
5.4 Estimación de estructuras de covarianza 67
5.4.1 Estimación GMM / MD 68
5.4.2 Usar transformaciones de los momentos originales 70
5.4.3 Relación entre GMM y Pseudo ML 71
5.4.4 Prueba de restricciones de covarianza 73
5.5 Ilustración: Probando la Hipótesis de Ingresos Permanentes 75
6 Modelos autorregresivos con efectos individuales 81
6.1 Suposiciones 82
6.2 El estimador dentro del grupo 84
6.3 Estimación de variables instrumentales 88
6.4 Condiciones iniciales y heterocedasticidad 91
6.4.1 Estimación bajo estacionariedad 91
6.4.2 Condiciones iniciales sin restricciones 96
6.4.3 Heterocedasticidad de la serie temporal 107
6.4.4 Efectos de tiempo en modelos autorregresivos 108
6.5 Estacionariedad media 110
6.6 Raíces unitarias 113
6.7 Estimación y prueba de VAR para empleo y salarios en la empresa 116
ggg
ix
III Dinamica y Predeterminaciones 127
7 modelos con variables dependientes estrictamente exógenas y
retardadas 129
7.1 La naturaleza del modelo 129
7.2 Un ejemplo: adicción al cigarrillo 130
7.3 Estimación GMM 133
7.3.1 Estimación 2SLS desde una perspectiva T grande 133
7.3.2 Estimación IV óptima en una T pequeña, gran N Contexto 134
7.3.3 GMM con el número de momentos que aumenta con T 135
7.3.4 Variables explicativas no correlacionadas con los efectos 137
7.3.5 Aplicación de restricciones en la matriz de covarianza 137
7.4 Máxima verosimilitud 138
7.4.1 Estimación con matriz de covarianza no restringida 138
7.4.2 MLE con restricciones de covarianza 140
7.4.3 MLE con correlacionado xs 141
8 variables predeterminadas 143
8.1 Introducción y ejemplos 144
8.1.1 Ajuste parcial con comentarios 145
8.1.2 Ecuación de Euler para el consumo de los hogares 145
8.1.3 Crecimiento y convergencia entre países 148
8.2 Gran T Dentro de la Estimación del Grupo 149
8.3 Estimación GMM de pequeñas T 151
8.3.1 Momentos y matrices de peso 151
8.3.2 La irrelevancia del filtrado 152
8.4 Instrumentos óptimos 155
8.5 Instrumentos no correlacionados con los efectos 159
8.5.1 Estimadores del sistema 159
8.5.2 Restricciones de estacionariedad 161
8.5.3 Ilustración: una evaluación dinámica de la capacitación laboral 162
8.5.4 Variables explicativas invariantes en el tiempo 164
8.5.5 Momentos de niveles implicados por falta de correlación serial 164
8.6 Estimando el efecto de la fertilidad en la participación laboral femenina 165
8.7 Otros métodos de estimación 169
IV Apéndices 175
Estimación del Método de Momentos Generalizado 177
A.1 Método de problemas de estimación de momentos 177
A.2 Formulación general 180
A.3 Ejemplos: 2SLS y 3SLS 181
A.4 Consistencia de los Estimadores GMM 181
x
He tratado de encuestar tantas ideas de modelado como sea posible, en lugar de tratar
de presentarlas con la mayor generalidad. Las ideas de modelado a menudo son la entrada
clave en la econometría aplicada, y aunque el libro se ocupa de la metodología econométrica,
se ha hecho un esfuerzo para motivar las técnicas en el contexto de las aplicaciones.
xi
xii Prefacio
Blundell, Steve Bond, Olympia Bover, Costas Meghir y Enrique Sentana. Martin Browning,
Gary Chamberlain y Whitney Newey tuvieron un impacto intelectual particularmente grande
en mis puntos de vista sobre el tema de este libro. Mis ex estudiantes de investigación Lola
Collado, César Alonso-Borrego, Víctor Aguirregabiria, Raquel Carrasco y Javier Álvarez
también han sido una fuente constante de interacción fructífera. También me complace
reconocer a mis coautores, especialmente a Bo Honoré, ya que me he basado en gran medida
en nuestro trabajo conjunto. Estoy muy agradecido con Javier Alvarez, Jesús Carro, Tony
Lancaster, Francisco Peñaranda y Frank Windmeijer, quienes leyeron partes del manuscrito
e hicieron comentarios valiosos, y a James Davidson por su consejo sobre la composición
técnica del manuscrito. Agradecemos especialmente a Pedro Albarrán, Olympia Bover y
Enrique Sentana por sus comentarios, su ayuda y su disposición para analizar todos los
aspectos de la preparación del libro. Soy, por supuesto, el único responsable de los fallos que
quedan. Finalmente, mi más profundo agradecimiento a Olympia, Manuel y Jaime por su
apoyo incondicional.
M.A.
Madrid, julio de 2002
1
Introduccion
En un momento exótico, el uso de datos económicos tanto con series de tiempo como con
variaciones de corte transversal se ha convertido en un lugar común en la práctica
econométrica moderna. El término datos de panel es usado para una amplia variedad de
situaciones en econometría. Se refiere a cualquier conjunto de datos con observaciones
repetidas a lo largo del tiempo para el mismo individuo. Individuos pueden ser trabajadores,
hogares, empresas, industrias, regiones o países, por nombrar algunos.
Si agrupamos las cuentas nacionales de varios países, obtenemos un panel de país. Los datos
de este tipo han sido prominentes, por ejemplo, en investigaciones recientes sobre modelos
de crecimiento y convergencia. Además, se ha dirigido mucho interés a los paneles de estados
transversales porque estos datos a veces pueden proporcionar una variación exógena en las
instituciones o políticas que facilitan la identificación de parámetros de interés económico.
No es sorprendente que algunos de los problemas econométricos que surgen en este
contexto estén estrechamente relacionados con la econometría de series temporales. En los
paneles agregados, la dimensión de corte transversal y la serie temporal a menudo son de una
magnitud similar. Una cuestión central estática es el impacto de la variación de corte
transversal para la elección y las propiedades de muestreo de los estimadores.
Otra clase de conjuntos de datos son paneles de nivel de hogar o empresa, que se basan en
encuestas, censos, registros administrativos o balance de cuentas de la empresa. Estos
generalmente se denominan “micropaneles”. Típicamente, estos paneles consisten en
grandes secciones de corte transversal de individuos observados durante cortos períodos de
tiempo. Algunos ejemplos son los paneles de ingresos familiares de Michigan, Essex y la
Comunidad Europea1, o los paneles rotativos sobre los gastos domésticos realizados en los
EE. UU. Y en algunos países europeos.
1Estudio de Panel de Ingresos Dinámicos de la Universidad de Michigan (PSID), la Encuesta de Panel de Hogares
británicos de la Universidad de Essex (BHOS), y la Encuesta de Panel hogares de la Comunidad Europea (ECHS).
2 Introducción
modelos no lineales con errores aditivos, y hago que esta extensión sea explícita
ocasionalmente. Sin embargo, los modelos no lineales con errores no aditivos están fuera del
alcance de este libro. Algunos de estos modelos, como los modelos de elección discreta y
selección de muestras, son herramientas importantes en el mundo empírico.
Desafortunadamente, se sabe muy poco sobre el modelo de datos de panel no lineal con
variables explicativas que son predeterminadas, endógenas o medidas con error. En Arellano
y Honoré (2001).
Se puede encontrar una revisión del trabajo reciente sobre modelos de datos de panel no
lineales.
El texto principal está dividido en tres partes. Parte I trata de modelos estáticos y las Partes
II y III con modelos dinámicos. La Parte II discute modelos de series de tiempo puras,
mientras que los modelos dinámicos condicionales se consideran en la Parte III. En la
econometría de datos de panel, convergen dos tipos diferentes de motivaciones. Uno es el
deseo de controlar la heterogeneidad no observada; el otro es la posibilidad de modelar
respuestas dinámicas y componentes de error. Las tres partes del libro están organizadas en
torno a los dos temas y sus interrelaciones.
Finalmente, la Parte IV contiene dos apéndices que revisan los principales resultados en la
teoría del método generalizado de estimación de momentos y las variables instrumentales
óptimas.
El material introductorio en cada uno de los capítulos será útil para cualquier persona
interesada en el análisis de datos de panel. Se discuten muchos temas desde las perspectivas
T tanto pequeñas como largas, y presento ilustraciones empíricas para ambos micropaneles.
Este énfasis se refleja tanto en la organización del material como en la elección de los temas.
Datos Econométricos de Panel
MANUEL ARELLANO
OXFORD
UNIVERSITY PRESS
OXFORD
UNIVERSITY PRESS
Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida,
almacenado en un sistema de recuperación, o transmitido, en cualquier forma o por
cualquier medio,
sin el permiso previo por escrito de Oxford University Press,
o según lo expresamente permitido por la ley, o bajo los términos acordados con el
organización de derechos reprográficos. Consultas sobre reproducción
fuera del alcance de lo anterior debe enviarse al Departamento de Derechos,
Oxford University Press, en la dirección de arriba
ISBN 0-19-924528-2
ISBN 0-19-924529-0 (Pbk)
Para Olimpia, Manuel y Jaime
Parte I
Modelos Estáticos
2
Heterogeneidad no observada
Primero, el deseo de explotar los datos del panel para controlar la heterogeneidad
invariante en el tiempo no observada en el modelo de corte transversal.
Segundo, el uso de los datos del panel como una forma de desentrañar los
componentes de la varianza y estimar la transición las probabilidades entre los
estados, y más generalmente para estudiar la dinámica de poblaciones transversales.
Estas motivaciones pueden asociarse libremente con dos hilos de la literatura de datos del
panel etiquetados con efectos fijos y aleatorios modelos de efectos. A continuación, tomamos
estas dos motivaciones y tipos de modelos a su vez. Primero en el contexto de modelos
estáticos en Parte I, y luego en el contexto de modelos dinámicos en las Partes II y III.
7
8 Heterogeneidad no observada
Hay varios casos en los que esperaríamos una correlación entre observables y no observables.
Uno es el problema clásico de la simultaneidad de la oferta y la demanda debido a la
agregación de tiempo y al equilibrio de mercado. Eso es la regresión de la cantidad en el
precio no se puede interpretar como una ecuación de la demanda porque esperaríamos un
cambio exógeno no observable en la demanda para afectar no solo las compras, sino también
los precios a través del efecto secundario de la oferta de cantidades en precios.
Otro es el error de medición: si la variable explicativa que observamos no es la variable a la
que responden los agentes, sino una medida de error montado, el término inobservable en la
ecuación de interés contendrá el error de medición que se correlacionará con el regresor.
Finalmente, puede haber una correlación debido a la heterogeneidad no observada. Este ha
sido un problema omnipresente en análisis de regresión transversal. Si las características que
tienen un efecto directo sobre las variables del lado izquierdo y derecho son las variables
explicativas omitidas se correlacionarán con los errores y los coeficientes de regresión serán
medidas sesgadas del efectos estructurales Por lo tanto, los investigadores a menudo se han
enfrentado a conjuntos de datos transversales masivos de los cuales se pueden determinar
correlaciones precisas, pero que, sin embargo, no tenían información sobre parámetros de
interés de política.
La respuesta tradicional de la econometría a estos problemas ha sido la regresión múltiple y
la variable instrumental modelos. Lamentablemente, aunque la teoría estadística del problema
se comprende bien, a menudo nos faltan datos sobre la variable de acondicionamiento o los
instrumentos para lograr la identificación de parámetros estructurales de esa manera.
Una de las principales motivaciones para usar los datos de panel ha sido la capacidad de
controlar, posiblemente invariante en el tiempo, correlacionado heterogeneidad sin
observarlo.
Supongamos una regresión transversal de la forma:
Tal que 𝐸(𝑣𝑖1 ⃓𝑥𝑖1 , η𝑖 ) = 0. Si se observa ηi se puede identificar β a partir de una regresión
múltiple de y en x y η. Si ηi no es la identificación observada β requiere la falta de correlación
entre 𝑥𝑖1 𝑦 η𝑖 en ese caso.
𝐶𝑜𝑣(𝑥𝑖1 , y𝑖1 )
𝐶𝑜𝑣(𝑥𝑖1 , η𝑖 ) = 0 => 𝛽 = ,
𝑉𝑎𝑟(𝑥𝑖1 )
o la disponibilidad de un instrumento externo zi que no está correlacionado con 𝑣𝑖1 y ηi,
pero correlacionado con 𝑥𝑖1 , en cualquier caso
𝐶𝑜𝑣(𝑧𝑖1 , y𝑖1 )
𝐶𝑜𝑣(𝑧𝑖1 , η𝑖 ) = 0 => 𝛽 = ,
𝑉𝑎𝑟(𝑧𝑖1 , 𝑥𝑖1 )
Supongamos que ninguna de estas dos opciones está disponible, pero observamos y𝑖2 y
x𝑖2 para las mismas personas en un segundo período (de modo que T = 2) tal que
2.1 Descripción general 9
𝑦𝑖2 = 𝛽𝑥𝑖2 + η𝑖 + 𝑣𝑖2 (2.2)
Y
𝐶𝑜𝑣(∆𝑥𝑖2 , ∆y𝑖2 )
𝛽= . (2.4)
𝑉𝑎𝑟(∆𝑥𝑖2 )
El problema en este ejemplo es que xit generalmente carece de variación de series de tiempo.
Entonces una regresión en primeras diferencias no será capaz de identificar β en este caso.
En este contexto, los datos sobre hermanos y variables instrumentales transversales han
demostrado más útil para identificar los rendimientos de la educación sin sesgo de capacidad
que los datos de panel.
Este ejemplo ilustra un problema más general. La información sobre β en la regresión en
primeras diferencias dependerá en la relación de las varianzas de Δ v y Δ x. En la ecuación
de educación de ingresos, estamos en la situación extrema donde Var (Δx) = 0, pero si Var
(Δx) es pequeño, las regresiones en los cambios pueden contener muy poca información
sobre parámetros de interés incluso si el tamaño de muestra transversal es muy grande.
⁄ ⁄ ⁄
2 Escribir el costo de la empresa como 𝐶𝑖𝑡 = 𝑝𝑡 𝑥𝑖𝑡 + 𝑅𝑖𝑡 𝑚𝑖𝑡 + 𝑤𝑖𝑡 (𝑠𝑖𝑡𝑐 𝑏 𝑎𝑖−1 𝑏 𝑚𝑖𝑡
−(1−𝑏) 𝑏
), la ecuación (2.5)
resulta de la condición de primer orden 𝜕𝐶𝑖𝑡 ⁄𝜕𝑚𝑖𝑡 = 0 o
⁄ ⁄ −1⁄𝑏
𝑅𝑖𝑡 ⁄𝑤𝑖𝑡 = 𝑠𝑖𝑡𝑐 𝑏 𝑎𝑖−1 𝑏 𝑚𝑖𝑡 (1 − 𝑏)/𝑏.
2.1 Descripción general 11
Tenga en cuenta que la parte de la varianza de y explicada por xβ podría ser muy pequeña en
relación con η y v (5,80 y 15% no sería una situación poco realista.
en, por ejemplo, los modelos de oferta de mano de obra intertemporal del tipo considerado
por Heckman y MaCurdy (1980).3 En este caso, es fácil obtener R2 más alto al incluir
variables dependientes rezagadas o proxis para los efectos fijos. Las regresiones de este tipo
serían útiles en los ejercicios de pronóstico de corte transversal para la población de la cual
los datos (como en el puntaje crediticio o en la estimación de probabilidades de fraude
tributario), pero pueden no ser útiles si el objetivo es medir el efecto de x en y mantener
constante la heterogeneidad invariante en el tiempo. Una ecuación con intersecciones
específicas individuales aún puede ser útil cuando el interés está en pronósticos para el mismo
personas en diferentes períodos de tiempo, pero no cuando estamos interesados en las
previsiones de personas distintas de las incluido en la muestra.
No Exogeneidad y Coeficientes Aleatorios La identificación de los efectos causales a
través de coeficientes de regresión en las diferencias o desviaciones depende de la falta de
correlación entre x y v en todos los rezagos y derivaciones (Exogeneidad estricta). Si x se
mide con error (Capítulo 4) o es correlacionado con errores rezagados (Capítulo 8), las
diferencias en las desviaciones en realidad pueden empeorar las cosas.4 Otra dificultad surge
cuando el efecto de x y es en sí mismo heterogéneo. En tal caso, los coeficientes de regresión
en las diferencias en general no se pueden interpretar como efectos causales promedio.
Específicamente, supongamos que β puede variar transversalmente en (2.1) y (2.2) para que
𝑦𝑖𝑡 = 𝛽𝑖 𝑥𝑖𝑡 + η𝑖 + 𝑣𝑖𝑡 (𝑡 = 1,2) 𝐸(𝑣𝑖𝑡 ⃓ 𝑥𝑖1 , 𝑥𝑖2 , η𝑖 , 𝛽𝑖 ) = 0 (2.6)
En estas circunstancias, el coeficiente de regresión (2.4) difiere de E (βi) a menos que βi sean
la media independiente de Δ𝑥𝑖2 . La disponibilidad de datos de panel aún permite la
identificación de efectos causales promedio en modelos de coeficientes aleatorios siempre
que x es estrictamente exógeno. Sin embargo, si x no es exógeno y βi es heterogéneo,
encontramos una identificación seria problemas en paneles cortos.5
3 Como x β y η están potencialmente correlacionados, la varianza de y no necesita coincidir con la suma de las varianzas de
x β, η y v.
4 Ver Griliches y Mairesse (1998) para una historia de advertencia sobre soluciones de efectos fijos, y una evaluación de las
variables. El problema de la identificación a partir de paneles cortos con x noxígena se discute en Chamberlain (1993) y
Arellano y Honoré (2001). La estimación de paneles heterogéneos largos se considera en Pesaran y Smith (1995).
12 Heterogeneidad no observada
ʹ
𝑦𝑖𝑡 = 𝑥𝑖𝑡 𝛽 + η𝑖 + 𝑣𝑖𝑡 (2.7)
instancias aplicadas, será difícil imaginar cómo E (vit|xi)=0 se mantendría sin E(vit|xi,
ηi)= 0 también sosteniendo6.
Otra posibilidad es reemplazar supuestos de independencia media por falta de suposiciones
de correlación, pero se aplican observaciones similares: en la práctica puede ser difícil
imaginar las condiciones de proyección lineal E * (vit | xi) = 0 o E * (vit | xi, ηi) = 0 sin las
condiciones de independencia medias más fuertes también. Sin embargo, la falta de
correlación puede ser una forma conveniente de proporcionar un enfoque para la
presentación de resultados de identificación esenciales.
Obsérvese que bajo los supuestos A1 'y A2' tenemos la misma expresión para E (yi | xi) que
en (2.9) pero diferente para Var (yi | xi) ya que ηi y vi pueden correlacionarse
condicionalmente dado xi.
𝑽𝒂𝒓(𝒚𝒊 |𝒙𝒊 ) = 𝝈𝟐 𝑰𝑻 + 𝑽𝒂𝒓(𝜼𝒊 |𝒙𝒊 )𝑰𝑰′ + 𝑪𝒐𝒗(𝜼𝒊 , 𝒗𝒊 |𝒙𝒊 )𝑰′ + 𝑰𝑪𝒐𝒗(𝜼𝒊 , 𝒗𝒊 ′|𝒙𝒊 ). (2.12)
6
Tenga en cuenta que una suposición formalmente más débil sería 𝐸(𝑣𝑖𝑡 − 𝑣𝑖(𝑡−𝑖) |𝑥𝑖 ) = 0, ya que esto sería
equivalente a decir que E (vit | xi) podría ser una función arbitraria de xi que no varía con t. Sin embargo, si E
(vit | xi) = φ (xi) para cualquier t, podríamos siempre redefinir η i y vit como 𝜂𝑖† = 𝜂𝑖 + 𝜑(𝑥𝑖 ) 𝑦 𝑣𝑖† = 𝑣𝑖𝑡 −
𝜑(𝑥𝑖 ) respectivamente, de modo que 𝜂𝑖† todavía sería arreglado con el tiempo y 𝐸(𝑣𝑖† |𝑥𝑖 ) = 0.
14 Heterogeneidad no observada
Aquí imaginamos una muestra tomada al azar de una población multivariante de datos
observables y efectos no observables. Esta noción puede o no corresponderse con la
naturaleza física de la recopilación de datos. Sería así, por ejemplo, en el caso de algunas
encuestas de hogares, pero no con datos de todas las empresas cotizadas o países de la
OCDE. En esos casos, la población multivariada de la cual se supone que los datos provienen
es hipotética. Por otra parte, estamos interesados en modelos que solo especifican
características de la distribución condicional f (yi | xi, ηi). Por lo tanto, no nos preocupa si la
distribución que genera los datos en xi y ηi, f (xi, ηi) es representativa de una población
transversal o de los deseos del investigador. Consideramos (yi, xi, ηi) como una muestra
aleatoria de la población multivariada (quizás artificial) con distribución conjunta f (yi, xi, ηi)
= f (yi | xi, ηi) f (xi, ηi) y enfoque en la distribución condicional de yi. Así que, en común con
gran parte de la literatura econométrica, usamos el término efectos fijos para referirnos a una
situación en la que f (ηi | xi) no se restringe.
Con T = 2 solo hay una ecuación después de diferenciar. Bajo los supuestos A1 y A2, la
ecuación en las primeras diferencias es un modelo de regresión clásico y, por lo tanto, los
mínimos cuadrados ordinarios (MCO) en las primeras diferencias es el estimador óptimo de
β en el sentido de mínimos cuadrados estándar. Para ver la irrelevancia de las ecuaciones en
niveles en este modelo, tenga en cuenta que una transformación no singular del sistema de
dos ecuaciones original es
𝐸(𝑦𝑖1 |𝑥𝑖 ) = 𝑥′𝑖1 𝛽 + 𝐸(𝜂𝑖 |𝑥𝑖 )
𝐸(Δ𝑦𝑖2|𝑥𝑖 ) = Δ𝑥′𝑖2 𝛽
−1 1 ⋯ 0
𝐷=( ⋮ ⋱ ⋮ ) (2.14)
0 ⋯ −1 1
Siempre que cada uno de los errores en las primeras diferencias sean medios independientes
de los xs para todos los períodos (bajo la Asunción A1 o A1 ') E (Dvi | xi) = 0, las estimaciones
OLS de β en este sistema proporcionadas por
𝜷𝑂𝐿𝑆 = (∑𝑁
𝑖=1(𝐷𝑋𝑙 )′𝐷 𝑋𝑙 )
−1 ∑𝑁 (𝐷𝑋 )′𝐷
𝑖=1 𝑙 𝑦𝑙 (2.15)
será imparcial y consistente para N grande. Sin embargo, si los vs son errores clásicos
homoscedásticos y no autocorrelacionados (bajo Asunción A2 o A2 '), los errores en las
primeras diferencias se correlacionarán para periodos adyacentes con
Siguiendo la teoría de regresión estándar, el estimador óptimo en este caso está dado por
mínimos cuadrados generalizados (GLS), que toma la forma7
′
𝜷𝑊𝐺 = (∑𝑁 ′ −1
𝑖=1 𝑋𝑙 𝐷′(𝐷𝐷 ) 𝐷 𝑋𝑙 )
−1 ∑𝑁 (𝑋 )′𝐷′
𝑖=1 𝑙 (𝐷𝐷′ )−1 𝐷𝑦𝑙 (2.17)
Además, tenga en cuenta que, en este caso, GLS en sí es un estimador factible ya que DD'
no depende de coeficientes desconocidos. La matriz idempotente D' (DD ') - 1 D también
toma la forma7
𝐷′ (𝐷𝐷′ )−1 𝐷 = 𝐼𝑇 −𝑙𝑙⁄𝑇 = 𝒬, 𝑑𝑒𝑐𝑖𝑟 (2.18)
La matriz Q se conoce como el operador desviaciones del medio del tiempo o dentro del
grupo porque transforma las series temporales originales en desviaciones del tiempo significa:
𝑦̃𝑖 = 𝒬𝑦𝑖 , cuyos elementos están dados por
𝑦̃𝑖 = 𝑦𝑖𝑡 − 𝑦𝑖
𝑙𝑙 ′ ′ −1
+ 𝐷′(𝐷𝐷 ) 𝐷 = 𝐼𝑇
𝑇
Con 𝑦𝑖 = 𝑇 −1 ∑𝑇𝑠=1 𝑦𝑖𝑠 . Por lo tanto, 𝛽̂𝑊𝐺 también se puede expresar como OLS en las
desviaciones del tiempo significa
̂ 𝑊𝐺 = [∑𝑁
𝜷 𝑇
𝑖=1 ∑𝑡=1(𝑥𝑖𝑡 − 𝑥𝑖 ) (𝑥𝑖𝑡 − 𝑥𝑖 )′]
−1 ∑𝑁 ∑𝑇 (𝑥
𝑖=1 𝑡=1 𝑖𝑡 − 𝑥𝑖 )(𝑦𝑖𝑡 − 𝑦𝑖 )
(2.19)
Este es probablemente el estimador más popular en el análisis de datos de panel, y se lo
conoce bajo una variedad de nombres que incluyen un estimador de covarianza dentro del
grupo.8
También se lo conoce como el estimador de mínimos cuadrados variable variable o "efectos
fijos". Este nombre refleja el hecho de que desde 𝛽̂𝑊𝐺 es un estimador de mínimos cuadrados
después de restar medias individuales a las observaciones, es numéricamente el mismo que
el estimador de β que se obtendría en una regresión MCO de y sobre x y un conjunto de N
variables ficticias, una para cada individuo en el muestra. Así 𝑦𝑖 = 𝑋𝑖 𝛽 + 𝑙𝜂𝑖 + 𝑣𝑖 también
se puede considerar como el resultado de estimar conjuntamente por OLS β y las
realizaciones de los efectos individuales que aparecen en la muestra
Para ver esto, considere el sistema de ecuaciones T en niveles
𝑦𝑖 = 𝑋𝑖 𝛽 + 𝑙𝜂𝑖 + 𝑣𝑖
y escribirlo en forma apilada como
𝑦𝑖 = 𝑋𝑖 𝛽 + 𝐶𝜂𝑖 + 𝑣,
donde y = (y1', ..., yN') ' y v = (v1', ..., vN')' son NT × 1 vectores, X = (X1 ', ..., XN') ' es una
matriz NT × k, C es una matriz NT × N de variables ficticias individuales dadas por C = IN
⊗ ι, y η = (η1, ..., ηN) 'es el vector N × 1 de efectos específicos individuales o intersecciones
. Utilizando el resultado de la regresión particionada, la regresión MCO de y en X y C da la
siguiente expresión para la estimación de β
que claramente coincide con 𝛽̂𝑊𝐺 desde INT - C (C'C) -1C '= IN ⊗ Q.
No necesitamos ir más allá de la teoría de regresión estándar para obtener las propiedades de
muestreo de estos estimadores. El hecho de que 𝛽𝑊𝐺 es el GLS para el sistema de T - 1
ecuaciones en first-differences nos dice que será imparcial8
8
El nombre "dentro del grupo" se originó en el contexto de los datos con una estructura grupal (como los
datos sobre las familias y los miembros de la familia). Los datos del panel pueden considerarse como un caso
especial de este tipo de datos en el que el "grupo" está formado por las observaciones de series de tiempo de
un individuo dado.
2.2 Modelos De Efectos Fijos 17
y óptimo en muestras finitas. También será consistente ya que N tiende al infinito para T fijo
y asintóticamente normal bajo las condiciones de regularidad habituales. Los 𝜂̂ 𝑖 también
serán estimaciones imparciales de la 𝜂𝑖 Para muestras de cualquier tamaño, pero siendo
promedios de series temporales, su varianza solo puede tender a cero ya que T tiende a
infinito. Por lo tanto, no pueden ser consistentes estimaciones para T fijo y N. grande.
Claramente, las estimaciones dentro del grupo 𝜷 ̂ 𝑊𝐺 también serán consistente ya que T
tiende a infinito independientemente de si N es fijo o no.
Los modelos de efectos fijos o análisis de covarianza tienen una larga tradición en
econometría. Su uso fue sugerido por primera vez en dos documentos de la Comisión Cowles
por Hildreth (1949,1950), y las primeras aplicaciones fueron realizadas por Mundlak (1961)
y Hoch (1962). La motivación en estos dos estudios fue confiar en los efectos fijos con el fin
de controlar el sesgo de simultaneidad en la estimación de las funciones de producción
agrícola.
Desviaciones ortogonales
Finalmente, vale la pena descubrir la forma de la transformación a los datos originales que
resultan de hacer las primeras diferencias y aplicar una transformación GLS a los datos
diferenciados para eliminar la correlación serial de promedio móvil inducida por la
diferenciación (Arellano y Bover, 1995). La transformación requerida viene dada por la
matriz (T - 1) × T
𝐴 = (𝐷𝐷′ )−1/2 𝐷.
Si elegimos 𝐴 = (𝐷𝐷 ′ )−1/2 para ser la factorización triangular superior de Cholesky, se
puede demostrar que el operador A toma la forma A = diag [(T - 1) / T,. . . , 1/2] 1 / 2A +
donde
Por lo tanto, un error de serie temporal T × 1 transformado por A,𝑣𝑖∗ = 𝐴𝑣𝑖 consistirá de T
- 1 elementos de la forma
1
𝑣𝑖𝑡∗ = 𝑐𝑡 [𝑣𝑖𝑡 − (𝑣 + ⋯ + 𝑣𝑖𝑇 )]
(𝑇 − 𝑡) 𝑖(𝑡+1)
(2.23)
2
Donde 𝑐𝑡 − − 𝑡)𝑙(𝑇 − 𝑡 + 1). Claramente, A'A = Q y AA '= IT - 1.Luego nos referimos
(𝑇
a esta transformación como desviaciones ortogonales hacia adelante. Por lo tanto,si
Var(vi)=σ2IT también tenemos, también tenemos 𝑣𝑎𝑟(𝑣𝑖∗ = 𝜎 2 𝑙 𝑇−1 . De modo que las
desviaciones ortogonales se pueden considerar como una transformación alternativa, que en
común con la primera diferenciación elimina los efectos individuales pero, por el contrario,
no introduce una correlación serial en los errores transformados. Además, el estimador
dentro del grupo también se puede considerar como MCO en desviaciones ortogonales. En
términos de
18 Heterogeneidad No Observada
dentro del grupo de álgebra, no importa si se usan desviaciones ortogonales hacia delante o
hacia atrás. Sin embargo, las desviaciones ortogonales hacia adelante resultarán especialmente
útiles en la discusión de modelos dinámicos
2.3 Heteroscedasticidad y correlación serial
2.3.1 Errores estándar robustos para los estimadores dentro del grupo
Si la Asunción A1 se cumple pero A2 no (es decir, usando desviaciones ortogonales, si
𝐸(𝑣𝑖∗ |𝑥𝑖 ) pero 𝑉𝑎𝑟(𝑣𝑖∗ |𝑥𝑖 ) ≠ 𝜎 2 𝑙 𝑇−1 , Las fórmulas de regresión ordinarias para estimar la
varianza dentro del grupo conducirán a errores estándar inconsistentes. Tal fórmula es dada
por
̂ (𝛽̂𝑊𝐺 ) = 𝜎̂ 2 (𝑋 ∗′ 𝑋 ∗ )−1
𝑉𝑎𝑟 (2.24)
donde X * = (IN ⊗ A) X, y * = (IN ⊗ A) y, y 𝜎̂ 2 es la varianza residual imparcial
1
𝜎̂ 2 = 𝑁(𝑇−1)−𝑘 (𝑦 ∗ − 𝑋 ∗ 𝛽̂𝑊𝐺 )′(𝑦 ∗ − 𝑋 ∗ 𝛽̂𝑊𝐺 ) (2.25)
(2.26)
Con 𝑣̂𝑖∗ = 𝑦𝑖∗ − 𝑋𝑖∗ 𝛽̂𝑊𝐺 (Arellano, 1987). Para T grande y N fijo, sin embargo, tal estimación
de la varianza no sería consistente y se requerirá una estimación alternativa. A continuación
discutiremos este caso.
2.3 Heterocedasticidad Y Correlación en Serie 19
Errores estándar robustos para T grande y N fijo La teoría de distribución anterior para
T pequeña y N grande permitía la dependencia de series de tiempo arbitrarias, pero dependía
de la independencia de la sección transversal. Con T grande y N fijo, podemos permitir la
dependencia arbitraria de la sección transversal al depender de una dependencia de series
temporales suficientemente débil.
Que 𝛿̂ WG = ( 𝛽̂′ WG, ɳ′ ̂ ) ′denota el estimador dentro del grupo de β y η y que
wit=(𝑥′𝑖𝑡 , 𝑑′𝑖 ) donde 𝑑𝑖 es un vector de N × 1 uno en la posición i-ésima y cero en otro lugar.
Por otra parte, que
𝑇 𝑇 𝑁 𝑁
1
𝑉 = 𝑝 lim ∑ ∑ ∑ ∑ 𝑣𝑖𝑡 𝑣𝑗𝑠 𝑤𝑖𝑡 𝑤′𝑗𝑠 (2.27)
𝑇→∞𝑇
𝑡=1 𝑠=1 𝑖=1 𝑗=1
o equivalente
𝑇 𝑇
1
𝑉 = 𝑝 lim ∑ ∑ 𝑊′𝑡 𝑣𝑡 𝑣′𝑠 𝑊𝑠 (2.28)
𝑇→∞𝑇
𝑡=1 𝑠=1
Donde
𝑁
𝑉̂ = Ω
̂0 + ∑ 𝜔(ℓ, 𝑚)(Ω ̂ ℓ)
̂ ℓ + Ω′ (2.29)
𝑙=1
Donde 𝜔(ℓ, 𝑚) = 1 − [ / (𝑚 + 1)],
𝑇 𝑁 𝑁 𝑇
1 1
̂ℓ =
Ω ∑ ∑ ∑ 𝑣̂
𝑖𝑡 𝑣
̂𝑗(𝑡−𝑙) 𝑤𝑖𝑡 𝑤′𝑗(𝑡−𝑙) = ∑ 𝑊′𝑡 𝑣̂𝑡 𝑣̂′𝑡−𝑙 𝑊𝑡−𝑙 (2.30)
T T
𝑡=ℓ+1 𝑖=1 𝑗=1 𝑡=ℓ+1
𝛽̂𝑈𝐺𝐿𝑆 = (∑ 𝑋𝑖∗ ′ Ω−1 (𝑥𝑖 )𝑋𝑖∗ ) ∑ 𝑋𝑖∗ ′ Ω−1 (𝑥𝑖 )𝑦𝑖∗ (2.32)
𝑖=1 𝑖=1
Este estimador es inviable porque Ω (xi) es desconocido. Un estimador de GLS
semiparamétrico factible usaría en su lugar un estimador no paramétrico de
E(𝑣1∗ 𝑣1∗ ′ ⃓ 𝑥𝑖 )basado en residuos dentro del grupo. Bajo condiciones de regularidad
apropiadas y una elección adecuada del estimador no paramétrico, se puede demostrar que
GLS alcanza para N grande la misma eficiencia que 𝛽̂𝑈𝐺𝐿𝑆 usando los resultados en Robinson
(1987).
Un caso especial que da lugar a un GLS factible directo (para T pequeña y gran N),
discutido por primera vez por Kiefer (1980), es uno en el que la varianza condicional de 𝑣1∗
es una matriz constante pero no escalar: 𝑉𝑎𝑟(𝑣1∗ ⃓ 𝑥𝑖 ) = Ω. Esta suposición descarta la
heterocedasticidad condicional, pero permite la autocorrelación y la heterocedasticidad de
series de tiempo incondicionales en los errores de ecuaciones originales 𝑣𝑖𝑡 . En este caso, un
estimador de GLS factible toma la forma
𝑁 −1 𝑁
𝛽̂𝐹𝐺𝐿𝑆 = ̂ −1 𝑋𝑖∗ )
(∑ 𝑋𝑖∗ ′ Ω ∑ 𝑋𝑖∗ ′ Ω−1 𝑦𝑖∗ (2.33)
𝑖=1 𝑖=1
donde Ω̂ está dada por la matriz de covarianza residual intertemporal WG de desviación
ortogonal
𝑁
1
̂ = ∑ 𝑣̂𝑖∗ 𝑣̂𝑖∗ ′
Ω (2.34)
𝑁
𝑖=1
para funciones dadas ℎ𝑡 (𝑥𝑖 ) tales que β se identifica a partir de (2.35), podría usarse para
obtener un estimador GMM coherente de β.
2.3 Heterocedasticidad Y Correlación en Serie 21
2
En Ω(𝑥𝑖 ) = 𝜎 𝐼𝑇−1 las condiciones de momento óptimas están dadas por
𝐸[𝑋𝑖∗ ′𝑣𝑖∗ ] = 0 (2.36)
Bajo Asunción A2 𝐸(𝑍𝑖′ 𝑣𝑖∗ 𝑣𝑖∗′ 𝑍𝑖 ) = 𝜎 2 𝐸(𝑍𝑖′ 𝑍𝑖 ), y por lo tanto una elección óptima es
𝐴𝑁 = (∑𝑖 𝑍𝑖′ 𝑍𝑖 ) −1 . En tal caso, el estimador resultante es numéricamente el mismo que el
estimador dentro del grupo porque las columnas en 𝑋𝑖∗ son combinaciones lineales de las de
𝑍𝑖 .
9 El Apéndice B proporciona una revisión de los resultados en instrumentos óptimos en modelos condicionales. Sea p un
vector de coeficientes que satisfaga un conjunto de restricciones de parámetros 𝑝 = 𝑝 (𝜃), y sea 𝑝̂ un estimador no
restringido de 𝑝. Un estimador MD de θ minimiza [𝑝̂ − 𝑝(𝑐)]′𝐴𝑁 [𝑝̂ − 𝑝(𝑐)] para una matriz de peso AN
22 Heterogeneidad no observada
De manera más general, una elección óptima bajo heterocedasticidad y correlación serial de
forma desconocida viene dada por
−1
Distancia Mínima Estimadores del tipo anterior fueron considerados por Chamberlain
(1982, 1984) que los motivó como estimadores de distancia mínima (DM) a partir de una
proyección lineal de 𝑦𝑖 en 𝑥𝑖 :
Por lo tanto, toda la información sobre β en Π está contenida en Π *. Una estimación OLS ilimitada
de Π * viene dada por
10 Sea p un vector de coeficientes que satisfaga un conjunto de restricciones de parámetros p = p (θ), sea
un estimador no restringido de p. Un estimador MD de θ minimiza para una matriz de peso AN.
2.3 Heterocedasticidad Y Correlación en Serie 23
−1
̂ ∗ = ∑ 𝑦𝑖 ∗ 𝑥𝑖 ∗ (∑ 𝑥𝑖 𝑥𝑖 ∗ )
∏ , (2.46)
𝑖 𝑖
y un estimador óptimo de MD de β minimiza el criterio
[𝑣𝑒𝑐(∏̂ ∗ − ∏∗ )]′ 𝑉̂ −1 𝑣𝑒𝑐((∏
̂ ∗ − ∏∗ ) (2.47)
̂ ∗ ).
donde V es una estimación consistente de la gran varianza muestral de 𝑣𝑒𝑐(∏
La equivalencia con GMM se desprende de señalar que
−1
′
̂ ∗ − ∏∗ )] = 𝑣𝑒𝑐 [∑ 𝑣𝑖∗ 𝑥𝑖 ′ (∑ 𝑥𝑖 𝑥𝑖 ∗ ) ] = (∑ 𝑍𝑖 ′ 𝑍𝑖 )
[𝑣𝑒𝑐(∏
𝑖 𝑖 𝑖
𝑉̂ = (∑ 𝑍𝑖′ 𝑍𝐼 ) 𝐴𝑁
𝑖
Por lo tanto, el estimador MD que minimiza (2.47) coincide con el estimador WG cuando
AN = (ΣiZi'Zi) -1, y con 𝛽̂𝑂𝐺𝑀𝑀 cuando AN es igual a la opción robusta (2.41) .11
−1
̂ = (∑ 𝑦𝑖 (𝑥𝑖 − 𝑥̅ ) ′) (∑(𝑥𝑖 − 𝑥̅ )(𝑥𝑖 − 𝑥̅ ) ′)
∏
𝑖 𝑖
es decir, MCO con interceptaciones no restringidas en (2.42), obtenemos la misma equivalencia con WG y, en el caso
robusto, una equivalencia con un estimador GMM que, además de 𝑥𝑖 , usa interceptos específicos del período como
instrumentos.
24 Heterogeneidad no observada
(𝑇 − 1) 𝑛
𝑝 lim 𝜎̃ 2 = 𝜎
𝑛→∞ 𝑇
Por lo tanto, 𝜎̃ 2 tiene un sesgo de muestra grande negativo (sección transversal) dado por
𝜎 2 / T. Este es un ejemplo del problema de parámetro incidental estudiado por Neyman y
Scott (1948). El problema es que el estimador de máxima verosimilitud no necesita ser
consistente cuando la probabilidad depende de un subconjunto de parámetros (incidentales)
cuyo número aumenta con el tamaño de la muestra. En nuestro caso, la probabilidad depende
de β, 𝜎 2 y los parámetros incidentales ɳ1,. . . , ɳ𝑁 . El estimador de ML de β es consistente
pero el de 𝜎 2 no lo es.
En el modelo estático lineal, 𝑦̅𝑖 = 𝑇 −1 ∑𝑇𝑖=1 𝑦𝑖𝑡 es una estadística suficiente para ηi. Esto
significa que la densidad de yi dada xi, ηi, y 𝑦̅𝑖 no depende de ηi.
Y bajo (2.48)
𝜎2
𝑦̅|𝑥 ̅̅̅̅
′
𝑖 𝑖 , 𝑛𝑖 ∼ 𝑁 (𝑥 𝑖 𝛽 + 𝑛𝑖 , ),
𝑇
Entonces
1 𝑇
log 𝑓( 𝑦̅𝑖 |𝑥𝑖 , 𝑛𝑖 )𝛼 − 2 𝑙𝑜𝑔𝜎 2 − 2𝜎2 ̅̅̅̅
𝑣2𝑖 (2.53)
Sustituyendo (2.53) en (2.49) obtenemos:
(𝑇−1) 1
log 𝑓( 𝑦̅𝑖 |𝑥𝑖 , 𝑛𝑖 , 𝑦̅)𝛼
𝑖 − 𝑙𝑜𝑔𝜎 2 − 2𝜎2 ∑𝑇𝑡=1(𝑣𝑖𝑡 − 𝑣̅𝑖 )2 (2.54)
2
La cual no depende de 𝑛𝑖 porque esta es solo una función de errores dentro de grupos.
Así el logaritmo de la probabilidad condicional
Lc ( 𝛽, 𝜎 2 ; 𝑦, 𝑥) = ∑𝑇𝑡=1 log 𝑓(𝑦𝑖 |𝑥𝑖 , 𝑦̅)
𝑖 (2.55)
Es una función de β y 𝜎 2 que puede ser usada como una alternativa base por inferencia. Los
maximizadores de (2.55) son los estimadores WG de β y:
̅̅̅ 1 ̂𝑖 𝑣
𝜎 2 = 𝑁(𝑇−1) ∑𝑇𝑡=1 𝑣′ ̂𝑖 . (2.56)
Note que contrario a (2.51), (2.56) es consistente para N grande y T pequeño, además esto
no es exactamente imparcial como (2.5).
𝑖 𝑖 ) = ∫ 𝑓(𝑦
𝑓(𝑦̅|𝑥 𝑖 𝑖 , 𝑛𝑖 )𝑑𝐹 (𝑛𝑖 |𝑥𝑖 )
̅|𝑥
Donde F(𝑛𝑖 , 𝑥𝑖 ) denota la condicional cdf de 𝑛𝑖 , dado 𝑥𝑖 . Una posibilidad, en el espíritu del
enfoque MD discutido en la sección previa, se asume:
𝑛𝑖 |𝑥𝑖 ∼ 𝑁(𝛿 + 𝜆′𝑥𝑖 , 𝜎 2 𝑛 ),
(2.57)
26 Heterogeneidad no observada
Pero |det(𝐻)|= 𝑇 −1/2es una constante que puede ser ignorada para nuestros propósitos.
Además12
𝐶𝑜𝑣(𝑦𝑖∗ 𝑦̅|𝑥 ∗
𝑖 𝑖 , 𝑛𝑖 ) = 𝐸(𝑣𝑖 𝑣
̅𝑖 |𝑥𝑖 , 𝑛𝑖 )=0 (2.60)
Dada la normalidad tenemos que la densidad condicional de 𝑦𝑖 , factoriza dentro del grupo y
las densidades de desviación ortogonal:
∗
𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 ) = 𝑓(𝑦̅|𝑥
𝑖 𝑖 , 𝑛𝑖 )𝑓(𝑦𝑖 |𝑥𝑖 , 𝑛𝑖 ) (2.61)
Si 𝐹(𝑛𝑖 |𝑥𝑖 ) es irrestricto, e segundo término del lado derecho de (2.63) es desinformativo a
cerca de β entonces los estimadores marginales ML de β y 𝜎 2 coinciden con los
maximizadores de ∑𝑇𝑡=1 log 𝑓(𝑦𝑖∗ |𝑥𝑖 ), que nuevamente son dados por el estimador WG y
(2.56). Esto sigue siendo cierto cuando 𝐹(𝑛𝑖 |𝑥𝑖 ) se especifica que es gaussiano con una
proyección lineal no restringida de 𝑛𝑖 en 𝑥𝑖 , como en (2.57), pero no cuando se asume que
𝑛𝑖 es independiente de 𝑥𝑖 (i.e. 𝜆=0), así como veremos en el Capítulo 3.
12 note que
Donde ψ=𝜆+(L β/T) y ̅̅̅ 𝜎 2 = 𝜎𝑛2 + 𝜎 2 /𝑇. Si 𝜆 y 𝜎𝑛2 son parámetros libres, ψ y ̅̅̅
𝜎 2 son
2
desinformativos acerca de β y 𝜎 . Note que incluso si (2.57) es reemplazado con
̅̅̅𝑖 , 𝜎𝑛2 ),
𝑛𝑖 |𝑥𝑖 ∼ 𝑁(𝛿 + 𝜆′𝑥
Si A1 tiene, pero A2 no, por lo que 𝑉𝑎𝑟(𝑣𝑖∗ |𝑥𝑖 ) = 𝛺(𝑥𝑖 ), el estimador óptimo es de la forma:
28 Heterogeneidad no observada
𝛽̂ 𝑁 ′ ′ −1
𝑁𝑈𝐺𝐿𝑆 = arg 𝑚𝑖𝑛 ∑𝑡=1[𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)] 𝐴 𝛺 (𝑥𝑖 )𝐴[ 𝑦𝑖 − 𝑔(𝑥𝑖 , 𝛽)], (2.66)
La cual es una versión no lineal del estimador MCO no factible dado en (2.32).
En un caso estándar común, los niveles son poco informativos acerca de β en este modelo
porque 𝐸(𝑣𝑖 |𝑧𝑖 , 𝑛𝑖 ) es una función desconocida no restringida de 𝑧𝑖 . Por lo tanto, la
condición básica es 𝐸(𝑣𝑖∗ |𝑧𝑖 ) = 0 y el estimador de la variable instrumental ideal no factible
es
𝛽̂ 𝑁
𝑈𝐼𝑉 = (∑𝑡=1 𝐵( 𝑧𝑖 )′𝑋𝑖 )
∗ −1 𝑁
∑𝑡=1 𝐵( 𝑧𝑖 )′𝑦𝑖∗ (2.68)
Donde 𝐵(𝑧𝑖 ) denota la matriz (T-1) x k de instrumentos óptimos dados por (cf. Newey,
1993, y Apéndice B):
𝐵(𝑧𝑖 ) = 𝛺 −1 (𝑧𝑖 )𝐸(𝑋𝑖∗ |𝑧𝑖 ) (2.69)
𝐸(𝑣𝑖∗ 𝑧𝑖 ) = 0 (2.69)
La forma de estos estimadores es la misma que en (2.40) con 𝑍𝑖 = (𝐼𝑇−1 𝑧𝑖′ ). Usando la
inversa de (∑𝑖 𝑍𝐼′ 𝑍𝐼 ) como una matriz ponderada, obtenemos un estimador del tipo Mínimos
cuadrados en 2 etapas.
∗′
𝛽̂ ′
𝐼𝑉𝑊𝐺 = [(∑ 𝑋𝑖 𝑍𝑖 ) (∑ 𝑍𝑖 𝑍𝑖 )
−1
(∑ 𝑍𝑖′ 𝑋𝑖∗ )]−1
𝑖 𝑖 𝑖
2.5 Modelos no lineales con efectos aditivos 29
′
(∑𝑖 𝑋𝑖∗ 𝑍𝑖 ) (∑𝑖 𝑍𝑖′ 𝑍𝑖 )−1 (∑𝑖 𝑍𝑖′ 𝑦𝑖∗ ) (2.71)
que se puede apilar a lo largo del tiempo para que el individuo i otorgue el sistema de
ecuaciones 𝑔𝑇 𝑝(𝑥𝑖 , 𝜃) = (𝑙 𝑛𝑖 ) + 𝑣𝑖 . En este modelo 𝑛𝑖 denota un vector 𝑔 𝑥 1 de
efectos aditivos, y 𝑣𝑖 es un vector de errores para diferentes y periodos de tiempo de
dimensión 𝑔𝑇.
∑𝑁 ´
𝑖=1 𝐵(𝑧𝑖 ) (𝐴 ⨂𝐼𝑔)𝜌(𝜒𝑖 ; 𝜃) (2.74)
Y 𝛺(𝑧𝑖 ) = 𝑉𝑎𝑟(𝑣𝑖∗ |𝑧𝑖 ) es una matriz de covarianzas g(T − 1) × g(T – 1). Como antes, los
enfoques factibles incluyen el uso de los instrumentos óptimos estimados y la estimación
GMM basada en una elección particular de restricciones de momentos incondicionales