3 Aea4257 C9 Apunteacademico

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 15

APUNTE ACADÉMICO

MÉTODO MCO EN LA REGRESIÓN


LINEAL MÚLTIPLE

CLASE N°9: ESPECIFICACIÓN Y ESTIMACIÓN

UNIDAD 3: EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

ASIGNATURA: AEA4257 ECONOMETRÍA

FACULTAD DE INGENIERÍA Y NEGOCIOS


Introducción

Recordemos uno de los estudios científicos que hemos usado de ejemplo en las
clases anteriores:

“Elasticidades de demanda por manzanas chilenas


en el mercado de la unión europea: una estimación
econométrica”.

Este estudio está motivado por la necesidad de


pronosticar la demanda futura de las manzanas
chilenas al mercado de la UE debido al tamaño del
mercado, información necesaria para que los
productores locales puedan planificar mejor su producción futura. Para ello, los
autores, disponen de las variables PIB per cápita de la UE (PIBPC), el precio relativo
de las manzanas chilenas con respecto al precio de las manzanas de China (PREL),
el factor de variación del tipo de cambio promedio ponderado de los países de la
UE (FVTC) y la variable dicótoma que captura el brusco aumento de las
importaciones de manzanas chilenas durante los años 1991 y 1992 (D1).

La regresión teórica-matemática con las variables disponibles, queda de la siguiente


forma:

ln IMP = β0 + β1 ln PIBPC – β2 ln PREL – β3 ln FVTC + β4 D1

Con βi: constantes o parámetros del modelo de regresión.

En el estudio es necesario calcular los parámetros βi de la regresión lineal múltiple


para que estas nos resulten útiles y así para lograr obtener un modelo empírico cuyo
objetivo sea predecir o proyectar la importación de manzanas.

Se trata de un modelo de regresión lineal múltiple, pues disponemos de cuatro


variables independientes en la determinación de la importación de manzanas. Para
esto, se utilizan los datos medidos de las variables de interés obtenidos de una
muestra representativa. Luego, mediante algún software estadístico que actúa bajo
el MCO, se realiza la determinación de los parámetros estimados (denotados como
𝛽̂𝑖 , uno por cada variable independiente). De esta forma, las ecuaciones de
regresión teóricas, se vuelven objetos empíricos útiles que nos ayudan a predecir el
comportamiento y tomar decisiones.

En el estudio, el modelo resultante es el siguiente:


Ln IMP = 9,816 + 0,913 ln PIBPC - 0,368 ln PREL - 0,519 ln FVTC + 0,391 D1

(0,262) (0,258) (0,251) (0,219) (0,315)

Los valores entre paréntesis indican la desviación estándar de cada variable. Los
valores t-student calculados sugieren que, al nivel de significancia de 2%, todos los
coeficientes estimados son estadísticamente significativos.

El coeficiente R2 ajustado indica que las variables explicativas incluidas en el


modelo explican el 76,2% de la variación de las importaciones de manzanas
chilenas de la UE.

En la práctica, existen ocasiones donde disponemos de más de una variable


explicativa para dar respuesta a una variable explicada. Por ejemplo, es posible que
se disponga de la edad del trabajador, del número de habitantes en su hogar, de los
años de experiencia en el cargo, entre otra información para determinar el salario
de un grupo de trabajadores. Por lo tanto, se hace necesario contar con modelos de
regresión lineal múltiple, nominando a aquellos con más de una variable explicativa.
Motivación detrás de un Modelo múltiple y el MCO en el contexto
múltiple

La disponibilidad de más de una variable explicativa en la predicción de una variable


respuesta, provoca la necesidad de utilizarla bajo ciertos criterios de aprobación. En
la práctica, generalmente tenemos más de una variable independiente involucrada
en la explicación de un fenómeno. Cuando aumentamos la inclusión de variables
explicativas, aumentamos la bondad del ajuste siempre que las variables
explicativas incluidas no estén relacionadas entre ellas1. Por lo que, podemos
mejorar la capacidad de predicción de un modelo incluyendo más variables. Lo
anterior, indica la importancia de extendernos desde un modelo de regresión lineal
simple hacia el modelo de regresión lineal múltiple, es decir, una variable respuesta
y más de una variable explicativa.

Comencemos con un caso sencillo y analizaremos un modelo con dos predictoras,


con intención de desarrollar la teoría estadística de un modelo de regresión lineal
múltiple con dos variables:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖

Donde,

𝑌𝑖 : Variable dependiente, respuesta, predicha o explicada.

𝛽0 : Intercepto, constante o valor de la respuesta cuando todas las independientes


son cero. Representa el efecto medio en Y debido a variables no incluidas en el
modelo.

𝛽1 : Pendiente que acompaña a 𝑋1𝑖 y representa el efecto marginal en la respuesta


ante el aumento unitario en 𝑋1𝑖 cuando las otras variables se mantienen constantes.

𝛽2 : Pendiente que acompaña a 𝑋2𝑖 y representa el efecto marginal en la respuesta


ante el aumento unitario en 𝑋2𝑖 cuando las otras variables se mantienen constantes.

𝑋1𝑖 y 𝑋2𝑖 : Variables independientes, predictoras, explicativas o regresoras.

𝑢𝑖 : Perturbación estocástica, residuo o error aleatorio.

1
Sin problemas de multicolinealidad, tema que se tratará en la clase 10: “Inferencia y selección”.
Los supuestos del modelo son los siguientes (Gujarati & Porter, 2010):

1. Modelo de regresión estudiado, es lineal en los parámetros betas, es decir, un


cambio unitario en la Xi provoca el mismo efecto que en un inicio en la variable Y
efecto de la pendiente lineal 𝛽1.

2. Los valores de la X son independiente de los residuos estocásticos, es decir, no


hay covarianza entre ellos o relación de ningún tipo:

𝐶𝑜𝑣(𝑋1𝑖 , 𝑢𝑖 ) = 0

𝐶𝑜𝑣(𝑋2𝑖 , 𝑢𝑖 ) = 0

3. La perturbación estocástica promedio es cero.

𝐸(𝑢𝑖 |𝑋1𝑖 , 𝑋2𝑖 ) = 0

4. Homoscedasticidad o varianza constante de las 𝑢𝑖 o perturbaciones aleatorias2.

𝑉𝑎𝑟(𝑢𝑖 ) = 𝜎 2

5. Los residuos aleatorios desfasados en el tiempo, no están autocorrelacionados,


es decir, no hay autocorrelación serial entre perturbaciones3.

𝐶𝑜𝑣(𝑢𝑖 , 𝑢𝑗 ) = 0 con 𝑖 ≠ 𝑗

6. El tamaño de la muestra representativa n debe ser mayor que el número de


parámetros estimados 𝛽𝑖 , donde el número de parámetros estimados se representa
por k, entonces 𝑛 > 𝑘.

7. Debe haber variación en los valores de las variables X, no debe ser un valor fijo
pues la denominamos variables.

8. No debe haber colinealidad exacta entre las variables X. Esto se denomina


problema de multicolinealidad entre las independientes y quiere decir estas
variables no deben indicar correlación lineal entre ellas o ser linealmente
dependientes. Tema que será abordado en la próxima clase.

2
Homoscedasticidad se tratará en la clase 11: “Perturbaciones en el Modelo de Regresión Múltiple”.
3
Autocorrelación residual se tratará en la clase 11: “Perturbaciones en el Modelo de Regresión Múltiple”.
9. No hay sesgo de especificación. El modelo está especificado correctamente.

Ejemplo: Consideremos el modelo donde el Imacec (tasa) se explica a través del


comercio de bienes y servicios (CBS) y total de ingresos (TI), ambos en miles de
millones de pesos, datos anuales extraídos del Banco Central de Chile entre 2010
– 2020 (https://si3.bcentral.cl/siete):

El modelo resultante es el siguiente:

̂ 𝑖 = 68,495 − 0,000443 ∗ 𝐶𝐵𝑆𝑖 + 0,000000957𝑇𝐼𝑖


𝐼𝑚𝑎𝑐𝑒𝑐

𝑠. 𝑒. (3,21) (0,000109) (0,0000000829)

𝑟 2 = 0,9613

Es un modelo altamente lineal mediante un coeficiente de correlación de 𝑟 = 0,98


indicando que el Imacec se relaciona de forma lineal con el comercio de bienes y
servicios y total de ingresos.

El modelo de regresión lineal múltiple resulta que explica en un 96,13% los cambios
en el Imacec mediante variaciones en el comercio de bienes y servicios (CBS) y
total de ingresos (TI). Más adelante se retomará el ejemplo para desarrollarlo en
mayor profundidad.

En los siguientes párrafos iremos desarrollando la idea del funcionamiento del MCO
en el caso de las regresiones lineales múltiples en la determinación de los
parámetros.
Uso del MCO en la determinación de los coeficientes de la
regresión lineal múltiple

Para explicar el funcionamiento del MCO en modelos de regresión lineal múltiple,


vamos a diferenciar una función de regresión muestral (FRM) de una función de
regresión poblacional (FRP):

𝑌𝑖 = 𝛽̂0 + 𝛽̂1 𝑋1𝑖 + 𝛽̂2 𝑋2𝑖 + 𝑢̂𝑖

Con 𝑢̂𝑖 término residual.

Tal como vimos en el caso de la regresión lineal simple, el objetivo es minimizar la


suma de cuadrados residuales (𝑆𝐶𝑅 = ∑ 𝑢̂𝑖 2 ):

𝑀𝑖𝑛 ∑ 𝑢̂𝑖 2 = 𝑀𝑖𝑛 ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖 − 𝛽̂2 𝑋2 )2 (1)

Del proceso de minimización mediante la derivada de (1) y luego igualando a cero:

𝜕𝑆𝐶𝑅 𝜕𝑆𝐶𝑅
=0 𝑦 =0
𝜕𝛽̂1 𝜕𝛽̂0

Luego, se obtienen las ecuaciones normales (2) y (3):

∑ 𝑌𝑖 𝑋1𝑖 = 𝛽̂0 ∑ 𝑋1𝑖 + 𝛽̂1 ∑ 𝑋1𝑖


2
+ 𝛽̂2 ∑ 𝑋1𝑖 𝑋2𝑖 (2)

∑ 𝑌𝑖 𝑋2𝑖 = 𝛽̂0 ∑ 𝑋2𝑖 + 𝛽̂1 ∑ 𝑋1𝑖 𝑋2𝑖 + 𝛽̂2 ∑ 𝑋2𝑖


2
(3)

Luego, tomando en cuenta que letras minúsculas indican desvíos respecto al


promedio de la variable, se procede al despeje de los parámetros estimados de (2)
y (3):
2
(∑ 𝑦𝑖 𝑥1𝑖 )(∑ 𝑥2𝑖 ) − (∑ 𝑦𝑖 𝑥2𝑖 )(∑ 𝑥1𝑖 𝑥2𝑖 )
𝛽̂1 = 2 )(∑ 2 ) 2
(∑ 𝑥1𝑖 𝑥2𝑖 − (∑ 𝑥1𝑖 𝑥2𝑖 )

2
(∑ 𝑦𝑖 𝑥2𝑖 )(∑ 𝑥1𝑖 ) − (∑ 𝑦𝑖 𝑥1𝑖 )(∑ 𝑥1𝑖 𝑥2𝑖 )
𝛽̂2 = 2 )(∑ 2 ) 2
(∑ 𝑥1𝑖 𝑥2𝑖 − (∑ 𝑥1𝑖 𝑥2𝑖 )

𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅1 − 𝛽̂2 𝑋̅2

Con,

∑ 𝑢̂𝑖2
𝜎̂ 2 =
𝑛−𝑘

Para mayor detalle sobre la variabilidad de los estimadores, se recomienda revisar


la literatura Gujarati & Porter, 2010 en el capítulo 7.

En el desarrollo de nuestros ejercicios, utilizaremos el “análisis de datos” de Excel,


por su facilidad en aplicación y el logro de los resultados de forma rápida.

Propiedades de los estimadores MCO:

1. La línea de regresión pasa por los promedios de las variables. De forma


generalizada, podemos escribirlo:

𝑌̅ = 𝛽̂0 + 𝛽̂1 𝑋̅1 + 𝛽̂2 𝑋̅2 … + 𝛽̂𝑘+1 𝑋̅𝑘+1

2. El valor promedio estimado de la 𝑌̂𝑖 es igual al valor promedio observado 𝑌𝑖 ,


es decir:

𝑌̅̂𝑖 = 𝑌̅𝑖

3. El valor medio de los residuos es cero, es decir:


∑ 𝑢̂𝑖 = 𝑢̅̂ = 0

4. Los residuos no están correlacionados con las variables independientes


𝑋1𝑖 , 𝑋2𝑖 , … 𝑋𝑘𝑖 , es decir:

∑ 𝑢̂𝑖 𝑋1𝑖 = ∑ 𝑢̂𝑖 𝑋2𝑖 = ⋯ = ∑ 𝑢̂𝑖 𝑋𝑘𝑖 = 0

5. Los residuos no están correlacionados con las variables dependientes 𝑌𝑖 , es


decir:

∑ 𝑢̂𝑖 𝑌𝑖 = 0

6. Las varianzas de los estimadores son directamente proporcionales a 𝜎̂ 2 y a


la correlación existente entre las variables independientes.

7. Los estimadores MCO son lineales, insesgados, de mínima varianza. A esto


se le llama “estimadores MELI” y satisfacen el teorema de Gauss Markov,
tema tratado más adelante.

Además, mencionar que cuando tenemos más de tres variables independientes, el


MCO funciona de forma matricial en la determinación de los parámetros e
indicadores dentro de la regresión lineal múltiple.

Ejemplo: Realizando el modelo de regresión con el análisis de datos del Excel,


donde el Imacec se explica a través del comercio de bienes y servicios (CBS) y total
de ingresos (TI), datos anuales extraídos del Banco Central de Chile entre 2010 –
2020 (https://si3.bcentral.cl/siete):

Comercio de
Total
Periodo Imacec bienes y
ingresos
servicios

2010 86,00 14.135,43 25.651.732,40


2011 91,26 8.318,85 29.571.163,83

2012 96,11 66,06 30.935.031,07

2013 100,00 -1.409,60 31.197.676,95

2014 101,77 2.735,54 33.129.100,88

2015 104,11 -148,60 36.434.596,79

2016 105,89 1.549,63 38.370.223,00

2017 107,15 3.527,35 41.046.615,79

2018 111,13 -458,22 45.742.359,11

2019 112,17 -2.150,34 46.507.735,44

2020 105,70 13.370,57 44.273.551,24

Tabla: Datos anuales de Banco Central de Chile

Salida de coeficientes del análisis de datos de Excel:

Probabilida Inferior Superior


Coeficientes Error típico Estadístico t d 95% 95%

3,20645139 21,3614809
Intercepción 68,49455041 5 6 2,4266E-08 61,10046 75,88864

Comercio de
bienes y 0,00010185 -
servicios -0,00044274 8 -4,34663165 0,00245638 -0,000678 0,000208

Total 11,5457164 1,148E-


ingresos 0,000000957 8,28486E-08 6 2,8753E-06 7,66E-07 06

Se obtienen los coeficientes estimados para el modelo con sus respectivos errores
típicos, los que colaboran en el cálculo del valor crítico de la t-student en la
determinación del valor-p para medir significancia de los parámetros y si debido
intervalo de confiabilidad al 95%.

Podemos interpretar los coeficientes betas de la siguiente manera:


𝛽̂0 = 68,49 Se estima la tasa del Imacec en un 68,49 cuando los indicadores de
comercio de bienes y servicios y el total de ingresos son nulos o ceros.

𝛽̂1 = −0,00044 El Imacec disminuye en 0,00044 puntos cuando aumenta en mil


millones de pesos el comercio de bienes y servicios (considerando el total de
ingresos fijo).

𝛽̂1 = 0,0000000957 El Imacec aumenta en 0,000000957 puntos cuando aumenta en


mil millones de pesos el total de ingresos del país (considerando el comercio de
bienes y servicios fijos).

Puesto que el valor de probabilidad es inferior que el nivel de significancia, se


concluye que ambas variables son significativas parcialmente, lo que arroja
evidencia estadística de rechazo de la hipótesis nula. Por lo tanto, el comercio de
bienes y servicios; como el total de ingresos aportan significativamente en la
explicación del Imacec anual en el país.
Coeficiente de correlación, la bondad del ajuste o R cuadrado, y el
R cuadrado ajustado

Cuando estudiamos el modelo de regresión lineal simple, mostramos que el


coeficiente de determinación mide la bondad del ajuste a la ecuación. Esto es, el
porcentaje de variabilidad de la Y explicada por la variable X. Ahora, sucede que
tenemos más de una variable explicativa, por lo que la bondad del ajuste mide la
proporción de cambios de la variable respuesta Y que se atribute a todas las
variables X en el modelo.

Es necesario, tener un coeficiente que “castigue” según la cantidad de parámetros


estimados en el modelo (asociados al número de variables independientes
incluidas), conscientes de que no sólo se trata de incluir más variables explicativas
para aumentar la bondad del ajuste, sino más bien regirnos por el principio de
parsimonia donde queremos “explicar más con menos” y así medir la efectividad de
incluir alguna variable independiente extra en la explicación de una variable
dependiente:

𝑛−1
𝑅̅ 2 = 1 − (1 − 𝑟 2 )
𝑛−𝑘

Donde,

𝑛 : Tamaño de la muestra representativa en estudio.

𝑘: Numero de parámetros estimados en el modelo.

Ejemplo: Continuando con el ejemplo donde el Imacec se explica a través del


comercio de bienes y servicios (CBS) y total de ingresos (TI), en el cuadro resumen
de la regresión se obtiene (https://si3.bcentral.cl/siete):

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,980466446

Coeficiente de determinación R^2 0,961314452

R^2 ajustado 0,951643064


Error típico 1,781780291

Observaciones 11

Notamos que el coeficiente de determinación ajustado (95,16%) es más bajo que el


coeficiente de determinación sin ajuste al número de variables independientes
incluidas en la regresión (96,13%), recordando que “castiga” o considera la cantidad
de variables que hemos incluido en el modelo. Por lo tanto, es más realista al exigir
mejor ajuste considerando un mayor número de variables independientes en la
explicación de una variable respuesta.

El modelo de regresión lineal múltiple resulta que explica (con ajustes en a


consideración de los tres parámetros estimados) en un 95,16% los cambios en el
Imacec mediante variaciones en el comercio de bienes y servicios (CBS) y total de
ingresos (TI).

Predicciones

Tal como se realiza en el modelo de regresión lineal simple, también podemos


utilizar el modelo múltiple en la proyección o predicción de resultados futuros.
Recordemos que la predicción es uno de los objetivos de la econometría, que
consiste en extrapolar los resultados logrados de un análisis empírico a una
totalidad poblacional.

Ejemplo: Si quisiéramos estimar el Imacec para comercio de bienes y servicios


(CBS) de 10.000 y total de ingresos (TI) de 20.000, ambos en miles de millones de
pesos:

̂ 𝑖 = 68,495 − 0,000443 ∗ 10.000 + 0,000000957 ∗ 20.000 = 64,09


𝐼𝑚𝑎𝑐𝑒𝑐

Se espera una tasa de Imacec anual de 64,09 con los valores para las explicativas.
Conclusiones

En este apunte académico hemos retomado la metodología de mínimos cuadrados


ordinarios (MCO) que consiste en minimizar los residuos al cuadrado, de forma que
la línea recta (modelo estimado) pase lo más cerca de todos los puntos observados.
Mediante MCO logramos estimadores MELI cuya utilidad es desarrollar un modelo
de regresión lineal múltiple para poder extrapolar los resultados logrados mediante
una muestra para concluir acerca de la población.

Ahora tenemos un coeficiente que muestra la bondad del ajuste considerando la


inclusión de varias variables predictoras, llamado coeficiente de determinación
ajustado, donde refleja la eficiencia de un modelo de regresión lineal múltiple y que
sirve de comparativo en la búsqueda del modelo más eficiente dentro de una gama
a seleccionar.

Notamos que la regresión del análisis de datos de Excel, nos colabora en las salidas
rápidas de una masa de datos, sin embargo, debemos tener en cuenta el
procedimiento para lograr que la información nos permita interpretar bajo la teoría
económica y utilizarla en toma de decisiones.
Bibliografía

▪ Cerda, A., Lobos, G., Kufferath, E., & Sánchez, F. (2004). Elasticidades de
demanda por manzanas chilenas en el mercado de la Unión Europea: una
estimación econométrica. Agricultura técnica, 64(4), 399-408.

▪ Gujarati, D. N., & Porter, D. C. (2010). Econometría (5a.ed.--.). México.


McGraw Hill.

También podría gustarte