4.2 Regresion de Mínimos Cuadrados
4.2 Regresion de Mínimos Cuadrados
4.2 Regresion de Mínimos Cuadrados
Donde
y= valor proyectado, estimado o pronosticado de la variable y.
a= punto donde la recta corta al eje y.
b= la pendiente de la recta de tendencia.
x= cualquier valor de tiempo seleccionado
Características
Y = a+bx
Donde
y= valor proyectado, estimado o pronosticado de la variable y.
a= punto donde la recta corta al eje y.
b= la pendiente de la recta de tendencia.
t= cualquier valor de tiempo seleccionado
Por lo que, sabiendo que el método de los mínimos cuadrados calculara
la recta que pasa por la media de todas las observaciones
representadas por (x1, y1),(x2, y2),…(xn, yn), entonces la ecuación de
la recta será
r= y+b(x-x)
En donde
Y= media de y1, y2, … yn
X= media de x1, x2, … xn
Una tercera estrategia para ajustar una mejor línea es el criterio minimax. En esta técnica, la línea se elige de
manera que minimice la máxima distancia a que un punto se encuentra de la línea. Como se ilustra en la figura c,
tal estrategia es inadecuada para la regresión, ya que da excesiva influencia a puntos fuera del conjunto
Planteamiento del problema. Ajuste a una línea recta los valores x y y en las dos
primeras columnas de la tabla
donde a sy/x se le llama error estándar del estimado. El subíndice “y/x” designa que el error es para
un valor predicho de y correspondiente a un valor particular de x. También, observe que ahora
dividimos entre n – 2 debido a que se usaron dos datos estimados (a0 y a1), para calcular Sr; así, se
han perdido dos grados de libertad. Como lo hicimos en nuestro análisis para la desviación estándar,
otra justificación para dividir entre n – 2 es que no existe algo como “datos dispersos” alrededor de
una línea recta que une dos puntos. De esta manera, en el caso donde n = 2, la ecuación anterior, da
un resultado sin sentido, infinito.
Así como en el caso de la desviación estándar, el error estándar del estimado cuantifica la dispersión
de los datos. Aunque, sy/x cuantifica la dispersión alrededor de la línea de regresión, como se
muestra en la siguiente figura, a diferencia de la desviación estándar original sy que cuantifica la
dispersión alrededor de la media
Datos de regresión que muestran a) la dispersión de los datos alrededor de la media de la variable dependiente y b) la
dispersión de los datos alrededor de la línea de mejor ajuste. La reducción en la dispersión al ir de a) a b), como lo
indican las curvas en forma de campana a la derecha, representa la mejora debida a la regresión lineal.
Estimación de errores en el ajuste lineal por mínimos cuadrados
y el error estándar del estimado es
Planteamiento del problema. Calcule la desviación estándar total,
el error estándar del estimado y el coeficiente de correlación
para los datos del ejemplo anterior
La regresión lineal ofrece una poderosa técnica para ajustar una mejor línea a los datos. Sin embargo,
se considera el hecho de que la relación entre las variables dependiente e independiente es lineal. Éste
no es siempre el caso, y el primer paso en cualquier análisis de regresión deberá ser graficar e
inspeccionar los datos en forma visual, para asegurarnos que sea posible usar un modelo lineal. Por
ejemplo, la figura siguiente muestra algunos datos que obviamente son curvilíneos.
Un ejemplo es el modelo exponencial
Un tercer ejemplo de un modelo no lineal es la ecuación de razón del crecimiento
donde a3 y b3 son coeficientes constantes. Este modelo particularmente es adecuado para caracterizar la
razón de crecimiento poblacional bajo condiciones limitantes, también representa una relación no lineal
entre y y x (figura anterior c) que se iguala o “satura”, conforme x aumenta.
Linealización de una ecuación de potencias
El análisis anterior se puede extender fácilmente a este caso más general. Así, se reconoce que la
determinación de los coeficientes de un polinomio de m-ésimo grado es equivalente a resolver un
sistema de m + 1 ecuaciones lineales simultáneas. En este caso, el error estándar se formula como
sigue:
Esta cantidad se dividide entre n – (m + 1), ya que (m + 1) coeficientes obtenidos de los datos,
a0, a1,…, am, se utilizaron para calcular Sr; hemos perdido m + 1 grados de libertad. Además
del error estándar, también se calcula un coeficiente de determinación para la regresión
polinomial con la ecuación
Planteamiento del problema. Ajustar a un polinomio de segundo grado los datos
dados en las dos primeras columnas de la tabla
El coeficiente de determinación es
Estos resultados indican que con el modelo se explicó el 99.851% de la incertidumbre
original. Este resultado apoya la conclusión de que la ecuación cuadrática representa un
excelente ajuste.