Estadística Aplicada
Estadística Aplicada
Estadística Aplicada
5 Regresión Lineal
El alumno evaluará la potencia de asociación lineal entre dos o más variables físicas y construirá un modelo
lineal que pronostique el comportamiento de una variable en función de otra u otras variables independientes.
El análisis de regresión es una técnica estadística para modelar la relación entre dos o más variables.
Con frecuencia un estadístico utiliza un modelo como representación de un ideal que, en esencia, define cómo
percibimos que el sistema en cuestión generó los datos. La ecuación lineal es una aproximación que representa
de manera simplificada algo desconocido y mucho más complicado.
En estadística se realiza la estimación de parámetros, mientras que los valores de variables aleatorias se
predicen.
Imagine que deseamos determinar la relación entre una sola variable independiente X y una variable dependiente
Y, la variable independiente X se supone como una variable continua. Se supone que la “verdadera” relación entre
X y Y es una línea recta y para cada X existe una variable aleatoria Y de respuesta. El valor esperado de Y para
cada valor de X es:
y 0 1 x y mx b
Donde:
0 Intersección con el eje “Y”
1 Pendiente de la recta
0 y 1 son parámetros desconocidos que es necesario estimar con base en las observaciones de X y Y
x Variable independiente o regresor
Y Variable dependiente o respuesta
error aleatorio
Suponemos que cada observación Y, puede describirse mediante el modelo de regresión lineal simple (verdadero)
Yˆ
5 Regresión Lineal 82
Estadística Aplicada a Ingeniería Civil
5.1.1 Estimación de parámetros por mínimos cuadrados
Suponga que tenemos n pares de observaciones de algún experimento o proceso que nos interesa, por ejemplo
y1, x1 , y2 , x2 ,... y3 , x3 , a partir de estos datos muestrales es posible estimar los parámetros 0 y 1 por
el método de mínimos cuadrados. Esto es, estimar 0 y 1 de manera que la suma de cuadrados de las
diferencias entre las observaciones y la línea de regresión sean mínimas, es decir, minimizando el error.
yi 0 1 xi i para i 1, 2,...n
Y la suma de cuadrados de las desviaciones de las observaciones respecto a la línea de regresión verdadera, es
decir, la suma de cuadrados de los errores
n n
SCE yi 0 1xi
2 2
i
i 1 i 1
Es evidente que, si un conjunto de n errores o residuales es grande, entonces el ajuste del modelo no es bueno.
Los residuales pequeños son indicadores de un ajuste adecuado.
Los estimadores de mínimos cuadrados de 0 y 1 se denotan como ̂0 y ̂1 y deben satisfacer
SCE
n
2 yi ˆ0 ˆ1 xi
0 i 1
SCE
n
2 yi ˆ0 ˆ1 xi xi
1 i 1
Al igualar a cero las derivadas parciales y reacomodar términos, obtenemos las ecuaciones normales por
mínimos cuadrados del modelo de regresión lineal simple:
n n
nˆ0 ˆ1 xi yi
i 1 i 1
n n n
ˆ0 xi ˆ1 xi 2 xi yi
i 1 i 1 i 1
La solución de las ecuaciones normales que nos da los estimadores por mínimos cuadrados es:
ˆ0 y ˆ1x
n
x x y y
i i
ˆ1 i 1
n 2
xi x
i 1
yˆ ˆ0 ˆ1 x
5 Regresión Lineal 83
Estadística Aplicada a Ingeniería Civil
Análisis de la calidad del modelo de regresión lineal, descompone la variabilidad de la variable independiente
n n n
yi y yˆi y yi yˆ
2 2 2
i 1 i 1 i 1
y y
2
i SCT Suma de Cuadrados Totales Variabilidad de la variable independiente
i 1
yˆ y
2
i SCR Suma de los Cuadrados de la Regresión Lo que el modelo explica de la variabilidad de Y
i 1
H 0 : 1 0 El modelo no es significativo
H1 : 1 0 El modelo es significativo
Estadístico de prueba
SCR
F(1,n 1) Tiene una distribución
SCE
n2
Si el valor calculado de la estadística cae en la región critica, se rechaza la hipótesis nula y se concluye que el
modelo si es relevante para explicar la variable Y con un nivel de significancia de α%
5 Regresión Lineal 84
Estadística Aplicada a Ingeniería Civil
n
y yˆ i
2
R 1
2 i 1
i
R2 1 Ajuste perfecto
n
yi yi
2
R2 0 Ajuste deficiente
i 1
5 Regresión Lineal 85