Regresión Lineal Multiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

REGRESIÓN LINEAL MULTIPLE

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la


variable dependiente o respuesta (y) se determina a partir de un conjunto de variables
independientes llamadas predictores (𝑥1 , 𝑥2 , 𝑥3 ,..). Es una extensión de la regresión lineal
simple, por lo que es fundamental comprender esta última. Los modelos de regresión
múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar
la influencia que tienen los predictores sobre ella (este último se debe analizar con mucha
cautela para no mal interpretar causa - efecto).

1. DATOS ATÍPICOS

Un valor atípico es una observación que numéricamente es muy distinta al resto de


elementos de una muestra. Estos datos nos pueden causar problemas en la interpretación de
lo que ocurre en un proceso o en una población.

 ¿QUÉ HACEMOS CON ESOS VALORES ATÍPICOS?

La opción de ignorarlos a veces no es la mejor de las soluciones posibles si pretendemos


conocer que ha pasado con estos valores, lo bien cierto es que distorsionan los resultados
del análisis por lo que hay que identificarlos y tratarlos de forma adecuada. A veces se
excluyen si son resultados de un error, pero otras veces son datos potencialmente
interesantes en la detección de anomalías.

Los valores atípicos pueden deberse a errores en la recolección de datos validos que
muestran un comportamiento diferente, pero reflejan la aleatoriedad de la variable en
estudio. Es decir, valores que pueden haber aparecido como parte del proceso, aunque
parezca extraño. Si los valores atípicos son parte del proceso, deben conservarse. En
cambio, si ocurren por algún tipo de error (medida confiable…) lo adecuado es su
eliminación.
 CAUSAS COMUNES DE LOS VALORES ATÍPICOS

CAUSA ACCIONES POSIBLES


Error de entrada de Corregir el error y volver a analizar los datos
datos
Problema del proceso Investigar el proceso para determinar la causa del valor atípico
Factos faltante Determinar si no se consideró un factor que afecta el proceso
Probabilidad Investigar el proceso y el valor atípico para determinar si este
aleatorio se produjo en virtud de las probabilidades, realice el análisis
con y sin el valor atípico para ver su impacto en los resultados

Los valores atípicos a veces son subjetivos y existen numerosos métodos para clasificarlos.
La detención de valores atípicos se puede realizar a nivel univariante usando gráficos
sencillos como histogramas o diagramas de caja y bigotes. A nivel bivariante se puede
localizar mediante análisis de dispersión o análisis de los residuos. En el ámbito
multivariante se puede descubrir los valores atípicos mediante un análisis de la matriz de
residuos

El método más habitual por su sencillez y resultado es el test de tukey que toma como
referencia la diferencia entre el primer cuartil (Q1 ) y el tercer cuartil (Q 3 ), o rango
intercuartilico. En un diagrama de caja se considera un valor atípico el que se encuentra
1.5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia
(atípico extremo). Se trata de un método paramétrico que supone que la población es
normal
Los modelos lineales múltiples siguen la siguiente ecuación:

𝑦𝑡 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 + 𝑒𝑖 𝑖 = 1,2, … . 𝑛

Siendo n el tamaño de la muestra

Dónde:

𝛽0 = 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜

𝛽1 𝑎 𝛽𝑘 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑞𝑢𝑒 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑛 𝑙𝑎𝑠 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

𝑒𝑖 = 𝑒𝑠 𝑒𝑙 𝑟𝑒𝑠𝑖𝑑𝑢𝑜 𝑜 𝑒𝑟𝑟𝑜𝑟, 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑦 𝑒𝑙

𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜

El anterior modelo es una expresión abreviada para el siguiente conjunto de n


observaciones de ecuaciones simultáneas:

𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥21 + ⋯ + 𝛽𝑘 𝑥𝑘1 + 𝑒1


𝑦2 = 𝛽0 + 𝛽1 𝑥12 + 𝛽2 𝑥22 + ⋯ + 𝛽𝑘 𝑥𝑘2 + 𝑒2
… …. … .. … …. … … ….
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 + 𝑒𝑖

El sistema de ecuaciones anteriores se puede expresar de forma más compacta utilizando


notación matricial. Así, vamos a denominar.
𝑦1 1 𝑥11 𝑥21 … 𝑥𝑘1 𝛽1 𝑒1
1 𝑥12 𝑥22 … 𝑥𝑘2 𝛽 𝑒2
𝑦 = [𝑦…2 ] 𝑋=[ ... ] 𝛽 = [ 2] 𝑒 = […]
1 ... . . . … …
𝑦𝑖 1 𝑥1𝑖 𝑥2𝑖 … 𝑥𝑘𝑖 𝛽𝑘 𝑒𝑖

El modelo de regresión lineal múltiple expresado en notación matricial es el siguiente


𝑦1 1 𝑥11 𝑥21 … 𝑥𝑘1 𝛽1 𝑒1
1 𝑥12 𝑥22 … 𝑥𝑘2 𝛽 𝑒2
[𝑦…2 ] = [ . . .] [ 2] + […]
1 ... ... … …
𝑦𝑖 1 𝑥2𝑖 𝑥2𝑖 … 𝑥𝑘1 𝛽𝑘 𝑒𝑖
y= x 𝛽 + 𝑒
𝑛𝑥1 𝑛𝑥𝑘 𝑘𝑥1 𝑛𝑥1
Si tenemos en cuenta las denominaciones dadas a vectores y matrices, el modelo de
regresión lineal múltiple se puede expresar de forma compacta de la siguiente forma:
𝑦 = 𝑋𝛽 + 𝑒

2. MODELO ESTIMADO DE LA REGRESIÓN LINEAL MÚLTIPLE


𝑦̂ = 𝑥𝛽̂ + 𝑒̂
𝛽̂ = (𝑥 𝑡 𝑥)−1 𝑥 𝑡 𝑦
−1
𝑛 ∑ 𝑥1 ∑ 𝑥2 … ∑ 𝑥𝑖 ∑𝑦
𝑏0
𝑏1 ∑ 𝑥1 ∑ 𝑥12 ∑ 𝑥1 𝑥2 … ∑ 𝑥1 𝑥𝑖 ∑ 𝑥1 𝑦
𝑏2
… ∑ 𝑥2 ∑ 𝑥1 𝑥2 ∑ 𝑥22 … ∑ 𝑥2 𝑥𝑖 ∑ 𝑥2 𝑦
… … … … … …
( 𝑏𝑖 )
( ∑ 𝑥𝑖 ∑ 𝑥1 𝑥𝑖 ∑ 𝑥2 𝑥𝑖 … ∑ 𝑥𝑖2 ) ( ∑ 𝑥𝑖 𝑦 )

3. EL VECTOR DE LOS RESIDUOS


̂ = Y − Xβ̂
ε̂ = Y − Y
4. VARIACIÓN EXPLICADA POR EL MODELO (VE)
VE = β̂t Xt Y
5. VARIACIÓN NO EXPLICADA POR EL MODELO (VNE)

VNE = Y t Y − β̂t X t Y

6. VARIACIÓN TOTAL (VT)


VT = Y t Y
VT = VE + VNE

7. VARIANZA
Se descompone la variabilidad de la variable dependiente (y) en dos componentes o
fuentes de variabilidad una componente va a representar la variabilidad explicada por el
modelo de regresión y la otra componente va a representar la variabilidad no explicada por
el modelo y por tanto atribuye a factores aleatorios
n

nσ = ∑(yi − y̅)2
2

i=1
Es decir, la variabilidad de (y) es la suma de cuadrática de los valores que toma la variable
respecto a la media de la variable
Sumando y restando el valor pronosticado por el modelo de regresión obtenemos la
siguiente expresión
n n n

∑(yi − y̅)2 = ∑(ŷi − y̅)2 + ∑(yi − ŷi )2


i=1 i=1 i=1

Es decir, que la suma de cuadrados de la variable (y) respecto a su media se puede


descomponer en términos de la varianza residual. De esta expresión se deduce que “la
distancia (y) a su media se descompone como la distancia (y) a su estimación más la
distancia de su estimación a la media”.
Teniendo en cuenta que el ultimo termino representa la varianza no explicada tenemos:
VT = VE + VNE
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la
variable dependiente (y)
VT
Sy2 =
n−1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza
residual de la variable dependiente (y)
VNE
SR2 =
n − (K + 1)
Multicolinealidad.- Es cuando dos variables independientes están relacionadas, ya que si
existe relación entre las dos variables independientes no aportarían de nada en explicar a la
variable dependiente

SUPUESTOS DE REGRESIÓN MULTIPLE

 Normalidad.- se refiere a que tanto las variables independientes y dependientes


deben tener una distribución normal, es decir los residuos deben tener una
distribución normal.
 Independencia.- se refiere a que el modelo de regresión lineal es aditivo ósea que
cada variable independiente suma a la explicación de la variable dependiente. En
pocas palabras no hay relación entre las variables independientes
 Linealidad.- Cuando las variables se asocian linealmente y su coeficiente de
regresión es constante, es decir que debe haber una conexión entre las variables
independientes y dependiente y se debe realizar antes de la regresión
 Homocedasticidad.-Se verifica esta hipótesis cuando la varianza de los errores es
constante, es decir la variación de las variables independientes. El objetivo es
conseguir una dispersión por igual de la varianza de la variable dependiente a lo
largo del rango de los valores de la variable independiente

También podría gustarte