Regresion Lineal Múltiple
Regresion Lineal Múltiple
Regresion Lineal Múltiple
El análisis de regresión lineal múltiple es una extensión del análisis de regresión simple
a aplicaciones que implican dos o más variables independientes: 𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝑲 (𝑲 ≥ 𝟐)
que se relacionan con una variable dependiente 𝑌 mediante el modelo estadístico.
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲 + 𝜺
Donde:
𝑬(𝒀) = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲
Los demás coeficientes de regresión parcial 𝛽𝑖 son las pendientes de las línea de
regresión de 𝒀 con la variable 𝑿𝒊 cuando las otras variables independientes se
mantienen constantes.
Para visualizar la relación entre la variable dependiente 𝒀 con cada una de las variables
independientes 𝑿𝒊 se puede utilizar diagramas de dispersión. Estas gráficas nos
mostrarán descriptivamente la tendencia y las relaciones lineales: Nulas, débiles o
fuertes de 𝒀 con cada 𝑿𝒊 .
Se dice que el modelo de regresión lineal múltiple es de efectos fijos, si las variables
independientes, 𝑋1 , 𝑋2 , … . , 𝑋𝐾 , no son variables aleatorias. Si estas son variables
aleatorias, entonces, el modelo es denominado de efectos aleatorios. En este texto,
vamos a estudiar sólo el modelo de regresión de efectos fijos.
Por lo tanto, el objetivo es analizar un modelo de regresión lineal múltiple que pretende
explicar el comportamiento de la variable aleatoria 𝑌 (observada en escala al menos de
intervalo) aplicando información proporcionada por una muestra aleatoria de tamaño
n, denotada por las variables matemáticas, (𝑋1𝑖 , 𝑋2𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 ), donde, 𝑖 =
1,2, … , 𝑛 𝑦 𝑛 > 𝑘.
El análisis de regresión lineal múltiple es una técnica muy útil empleada en diversas
disciplinas. Con la aplicación de paquetes de cómputo se hace menos complicada la
solución de problemas en las que intervienen un gran número de variables
independientes. El modelo estadístico en función de la muestra de variables aleatorias
es:
Los supuestos del análisis de regresión múltiple, como ya se ha establecido, son los
mismos supuestos del análisis de regresión simple. Esto es, se supone que los residuos
𝜀𝑖 = 𝑌𝑖 − 𝜇𝑌𝑖 , tienen distribución normal. Este supuesto, se denomina “normalidad”.
Observe que las hipótesis de homocedasticidad y de normalidad son válidas para las
variables aleatorias 𝑌𝑖 pues depende de 𝜀𝑖 .
Observaciones anómalas: Está muy relacionada con la cuestión de los residuos, pero
merece destacarlo aparte. Debemos poner especial cuidado en identificarlas, pues
tienen gran influencia en el resultado.
ESTIMACIÓN DEL MODELO DE REGRESIÓN.
𝝁𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝑲 𝑿𝑲
̂ = 𝒃𝟎 + 𝒃𝟏 𝑿𝟏 + 𝒃𝟐 𝑿𝟐 + ⋯ + 𝒃𝒌 𝑿𝒌
𝒀
Donde:
𝑛𝑏0 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥𝑘 = ∑ 𝑦
𝑏0 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥1 𝑥𝑘 = ∑ 𝑥1 𝑦
𝑏0 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22 + ⋯ + 𝑏𝑘 ∑ 𝑥2 𝑥𝑘 = ∑ 𝑥2 𝑦
𝑏0 ∑ 𝑥𝑘 + 𝑏1 ∑ 𝑥𝑘 𝑥1 + 𝑏2 ∑ 𝑥𝑘 𝑥2 + ⋯ + 𝑏𝑘 ∑ 𝑥𝑘2 = ∑ 𝑥𝑘 𝑦
Las ecuaciones normales se obtiene derivando SCE cada vez con respecto a
𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑘 e igualando a cero
Ejercicio:
El gerente de ventas de la distribuidora “Delivery” realiza un estudio del sistema de
reparto de sus pedidos considerando las variables:
𝑌: 𝑇𝑖𝑒𝑚𝑝𝑜 𝑒𝑛 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑞𝑢𝑒 𝑑𝑒𝑚𝑜𝑟𝑎 𝑙𝑎 𝑒𝑛𝑡𝑟𝑒𝑔𝑎 𝑑𝑒𝑙 𝑝𝑒𝑑𝑖𝑑𝑜.
𝑋1 : 𝑃𝑒𝑠𝑜 𝑒𝑛 𝑘𝑖𝑙𝑜𝑔𝑟𝑎𝑚𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑝𝑒𝑑𝑖𝑑𝑜𝑠.
𝑌 𝑋1 𝑋2
30 12 7
28 10 7
25 9 6
23 7 6
20 6 5
18 6 5
15 5 4
15 5 4
12 3 3
10 2 2
a) Describa el modelo de regresión lineal de los tiempos de reparto con respecto a los
pesos de los pedidos a domicilio y al recorrido de la entrega.
b) Obtenga las ecuaciones normales de este problema de regresión.
c) Calcule la ecuación de regresión estimada y estime el tiempo que demoraría el
reparto de un pedido de 20 kilogramos para un recorrido de 10 kilómetros.
Solución:
a) El modelo de regresión para este problema es: 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀
La estimación del modelo de regresión es la ecuación:
𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2
Sin embargo, debido a que en este modelo las unidades de medición no son las mismas
en todas las variables, no podemos comparar directamente la importancia que tiene
cada variable independiente en la predicción, esto es, no podemos contestar
directamente la pregunta, ¿Cuál de las variables independientes contribuye más a la
predicción de los valores de a variable dependiente?. Para resolver este problema, se
aplican los coeficientes de regresión estandarizados o coeficientes beta.
Coeficientes Beta
Cuando el modelo de regresión múltiple tiene unidades de medición que son distintas
para las variables 𝑌, 𝑋1 , 𝑋2 , … , 𝑋𝑘 , no se puede comparar directamente de los
coeficientes de regresión la importancia o la contribución a la predicción de la variable
independiente.
En este caso, los coeficientes beta nos proporcionan el método para comparar la
importancia relativa de cada variable independiente en la predicción de la variable
dependiente.
Los coeficientes beta se definen como los coeficientes de la estimación estandarizada
del modelo de regresión múltiple estimada, cuyas variables están estandarizadas están
dadas por:
𝑌 − 𝑌̅ 𝑋𝑖 − 𝑋̅𝑖
𝑍𝑌 = , 𝑍𝑋𝑖 = , 𝑖 = 1,2, … , 𝑘.
𝑆𝑌 𝑆𝑋𝑖
𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 ,
Los coeficientes beta e interpreta como sigue: “por cada unidad estandarizada que
aumenta la variable independiente 𝑋𝑖 (cuando las demás X permanecen constantes),
cuando aumenta 𝑏𝑒𝑡𝑎𝑖 unidades la variable dependiente Y.
Una manera gráfica de medir el ajuste del modelo a los datos de la muestra, en el
modelo de regresión lineal simple, es contando la cantidad de puntos de la muestra que
se encuentran en la línea de regresión o fuera de ella.
Básicamente existen dos modelos descriptivos para medir el nivel de ajuste del modelo
a los datos de la muestra. El primero, es aplicar el coeficiente determinación múltiple
𝑅 2 . El segundo, es utilizar el error estándar de estimación multiple denotado por 𝑠 ó 𝜎.
𝑀𝐶𝐸 6.01⁄
𝑅𝐴2 =1− =1− 7 = 0.981
𝑀𝐶𝑇 414.4⁄9
La interpretación de 𝑅𝐴2 , es la misma de 𝑅 2 .
𝑆𝐶𝐸
𝑠=√ = √𝑀𝐶𝐸
𝑛−𝑘−1
𝑆𝐶𝐸
𝑠 = √𝑀𝐶𝐸 = √ = 0.9266.
𝑛−𝑘−1
Una vez obtenida la estimación del modelo de regresión lineal múltiple, debemos
analizar la idoneidad o validez del modelo. Es decir, debemos analizar si el modelo
estimado es el adecuado para ser utilizado en las predicciones de los valores de la
variable dependiente Y.
Básicamente hay dos formas de analizar la idoneidad del modelo. Una es la forma
descriptiva del ajuste del modelo a los datos, que ya fue desarrollada en la sección
anterior. La otra forma es la inferencial, que consiste en probar si o son significativos los
coeficientes de regresión obtenidos de los datos de la muestra.
Para esto, primero se realiza una prueba global de significación de los coeficientes de
regresión.
Si la decisión es aceptar que todos los coeficientes del modelo de regresión propuesto
son iguales a cero, entonces, no podemos utilizar el modelo estimado para predecir Y.
Finaliza el análisis de regresión.
Si por el contrario, se acepta que no todos los coeficientes de regresión poblacional son
iguales a cero, entonces se analiza la significación de los coeficientes de regresión
muestral en forma individual para determinar las variables que contribuyen
significativamente al modelo, descartando del modelo aquellas variables (cuyos
coeficientes reales son iguales a cero), que no contribuyen significativamente al modelo.
𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0
𝑛 − 1 = (𝑛 − 𝑘 − 1) + 𝑘
Estas dos estadísticas son independientes. Por tanto, el cociente de las dos chi –
cuadrados divididos entre sus respectivos grados de libertad, tiene distribución F con
grados de libertad k y (n-k-1), esto es,
Donde, 𝑀𝐶𝑅 = 𝑆𝐶𝑅⁄𝑘 𝑦 𝑀𝐶𝐸 = 𝑆𝐶𝐸 ⁄(𝑛 − 𝑘 − 1) , son los cuadrados medios o
medias cuadráticas de la regresión y del error respectivamente.
𝐴𝑁𝑂𝑉𝐴 𝑝𝑎𝑟𝑎 𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0
Las sumas de cuadrados SCT, SCR, SCE se calculan utilizando las siguientes expresiones:
𝑛 𝑛
𝑖=1 𝑖=1
𝑘 𝑛
Solución:
La hipótesis nula y alternativa de esta prueba ANOVA o prueba de adecuación del
modelo son:
𝐻0 : 𝛽1 = 𝛽2 = 0
Las sumas de cuadrados, los grados de libertad, los cuadrados medios y la estadística F
se resumen en la tabla 9.3.2 de análisis de varianza.
ANOVA para 𝐻0 : 𝛽1 = 𝛽2 = 0
Del modelo propuesto y buscar luego, la estimación del modelo con variables que
contribuyen significativamente al modelo de la regresión lineal.
𝐻0 : 𝐵𝑖 = 0 𝑐𝑜𝑛𝑡𝑟𝑎 𝐻0 : 𝐵𝑖 ≠ 0 ∀𝑖 = 1,2,3, … , 𝑘
Ejemplo:
Realice la prueba de hipótesis para las correcciones de regresión individuales, si se sabe
que el error estándar de 𝑏1 es 0.293 y de 𝑏2 es 0.575. ¿Qué variable eliminaría usted del
modelo de regresión propuesto?
Solución:
𝐻0 : 𝐵𝑖 = 0 𝑐𝑜𝑛𝑡𝑟𝑎 𝐻0 : 𝐵𝑖 ≠ 0 ∀𝑖 = 1,2
Por otro lado los límites de confianza inferior y superior de los intervalos de confianza
al 95% son:
Intervalo de confianza
Error Significación
modelo coeficientes 𝑡𝑐𝑎𝑙 inferior
estándar bilateral
superior
𝑏0 2.809
𝑏1 0.999 0.293 3.412 0.011 0.306 1.692
𝑏2 2.142 0.575 3.723 0.007 0.782 3.502
Ejemplo:
𝐸(𝑌) = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2 + 𝐵3 𝑋3 + 𝐵4 𝑋4
Para estimar el modelo lineal planteado se utilizó una muestra aleatoria de tamaño
n=13, resultando 𝑆𝐶𝐸𝑐 = 30.590, 𝑝𝑟𝑢𝑒𝑣𝑒 𝑠𝑖 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑋3 𝑦 𝑋4 𝑐𝑜𝑛𝑡𝑟𝑖𝑏𝑢𝑦𝑒𝑛
significativamente al modelo en forma conjunta, si se sabe que para el modelo reducido
𝐸(𝑌) = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2, se a obtenido 𝑆𝐶𝐸𝑥 = 46,952
Solución: