ANOVA y MANOVA

REGRESIÓN LINEAL
Es probablemente una de las herramientas más potentes y útiles disponibles para el análisis
estadístico. Este método usa una o más variables para explicar los valores de otra. Las
estadísticas por sí solas no pueden probar una relación de causa y efecto, pero podemos
mostrar cómo los cambios en un conjunto de mediciones están asociados con cambios de los
valores promedio en otro.
Observe cómo este enfoque es diferente del que se toma en el análisis de componentes
principales. En los componentes principales, todas las variables están asociadas entre sí y el
análisis estadístico intenta descubrir grupos de variables que varían juntas.
En contraste, en la regresión lineal, el analista de datos especifica cuáles de las variables deben
considerarse explicativas y cuáles comparten las respuestas a estas. Este proceso requiere una
buena comprensión de los datos. A veces tenemos una relación de causa y efecto donde
algunas condiciones están bajo nuestro control.
Más a menudo, hemos observado datos conjuntamente y queremos expresar el

comportamiento de algunas variables para unas condiciones dadas por las demás. Una
relación de causa y efecto es difícil de demostrar.
Podemos leer a Pearl (2009) para tener descripción detallada de los problemas involucrados.
Se asumen relaciones lineales entre todas las variables independientes y dependientes.
Comencemos por considerar los conjuntos de datos en el paquete de conjuntos de datos.
Este marco de datos contiene 11 mediciones en cada uno de los 32 modelos de automóviles
que estaban disponibles en 1973-1974. Estas 11 medidas se enumeran en la siguiente tabla:
Algunas características podrían considerarse características de diseño que podrían no

observarse fácilmente a menos que uno abriera el capó, o tal vez “habría que desmontar el
conjunto y contar los dientes en los diferentes engranajes”. Estas características de diseño
incluyen el número de cilindros, el desplazamiento “carrera de loscilindros”, la relación del eje
trasero, la disposición en “V” de los cilindros, el número de engranajes delanteros y el número
de carburadores. Otras características en esta lista son empíricas y fácilmente experimentadas
por el conductor. Esta lista incluye las millas por galón, la potencia, el peso y el tiempo de un
cuarto de milla. Un conductor casual no sabría el peso exacto o la potencia en caballos, por
supuesto, pero en términos relativos, estos experimentarían una comparación con otros
automóviles con valores marcadamente diferentes.
En este ejemplo, clasificaremos el tipo de transmisión (manual o automática) como una

característica de diseño, aunque también podría considerarse una característica empírica.
También desarrollaremos modelos matemáticos que utilizan las características de diseño para
explicar las diferencias en las características empíricas. El valor medio de cada característica
empírica se modela como una función lineal de todas las características de diseño.
El enfoque multivariable es hacer esto para todas las características empíricas y luego
examinar lo que quede de ese proceso de modelado, es decir, los residuos. Estos residuos
multivariados se utilizan para determinar si las características empíricas permanecen
correlacionadas después de haber tenido en cuenta los efectos lineales de las características
de diseño.
donde el error independiente, ei está normalmente distribuido, tiene una media 0 y varianza
constante σ2. Los coeficientes de regresión β son parámetros que deben estimarse a partir de
los datos observados (yi, xi). En el presente ejemplo, yi es la característica empírica observada
(como mpg) de su auto y xi el vector de valores de todas las características de diseño de ese
auto. El modelo lineal de una variable en términos de otra está motivado por las propiedades
de la distribución normal multivariada con media condicional y varianza dada.
Específicamente, los medios condicionales de Yi son lineales en las variables explicativas, y las
variaciones condicionales son independientes de los valores de las variables explicativas. Los
métodos de mínimos cuadrados se utilizan para obtener el valor del parámetro
esos son los valores medios estimados anticipados por el modelo. El parámetro estimado β son
aquellos valores que minimizan la suma de los residuos cuadrados ∑r2, donde los residuos son
las diferencias observadas entre los valores observados y esperados
ri = yi −β′xi.
Las estimaciones de mínimos cuadrados también son estimaciones de máxima probabilidad

normal. Las gráficas de los residuos residuales son fundamentales para identificar la falta de
ajuste y las desviaciones del modelo lineal.
En R, podemos ajustar una regresión lineal y también capturar los residuos, el coeficiente de
regresión estimado β y los valores ajustados. Estos aparecen en
Este resultado enumera, en las columnas respectivas, el coeficiente de regresión estimador de
β, su error estándar, las estadísticas de la prueba t y los valores p que prueban la hipótesis nula
de que el coeficiente de población (β) correspondiente, y es cero. Los asteriscos indican el nivel
de significación estadística.
En esta tabla de estimaciones de parámetros, vemos el número de cilindros (cil) y el peso

(peso) proporcionan una gran cantidad de valor explicativo al describir valores de mpg. El
número de carburadores (carb) tiene un valor limitado, y el tipo de transmisión (am:
automático o manual) hace una contribución mínima. Los coeficientes estimados para cilindros
y peso son negativos porque, intuitivamente, los motores más grandes y los autos más
pesados obtendrán menos millas por galón.
El análisis de varianza (ANOVA) expresa la suma total de cuadrados:
La suma total de cuadrados del yi observado sobre su promedio y es la cantidad total de

variabilidad en la variable dependiente. Esta cantidad puede dividirse en la suma de los valores
al cuadrado de los valores observados sobre el valor ajustado más la suma de los residuos al
cuadrado. La suma de los residuos al cuadrado se minimizó para estimar β. La suma de los
residuos al cuadrado es referida como la suma de cuadrados de error o la suma de cuadrados
sin explicación.
La suma de cuadrados sobre los valores ajustados yi es la cantidad de variabilidad atribuido al

conocimiento de las variables explicativas xi. Esto a menudo se llama “explicación” o suma del
modelo de cuadrados. Idealmente, queremos la suma de cuadrados del modelo sea grande en
relación con la suma de cuadrados de error. Esta diferencia es generalmente expresada como
una relación o, más específicamente, el estadístico F.
¿Cómo decidimos sobre este subconjunto de todas las características de diseño para usar en la
explicación los valores de mpg? Ayuda a tener una buena comprensión de la naturaleza de los
datos. En este caso, todos tenemos una comprensión básica de cómo funciona un automóvil.
Un pequeño ensayo y error identificó el número de cilindros, peso, automático/manual y

número de carburadores podría ser útil. Las variables útiles explicativas generalmente se
identifican por valores p extremadamente pequeños. La tabla de coeficientes ajustados en las
impresiones de la salida con * pueden guiar nuestra atención hacia aquellas variables
explicativas que son más altamente estadísticamente significativas.
Para cada parámetro (coeficiente) en el modelo de regresión, R proporciona un valor estimado

y un error estándar de esa estimación. El valor t es la proporción
Valor t = Estimación / Error estándar
La significancia estadística correspondiente de esta estadística t aparece debajo de Pr [> | t |].

Esto prueba la hipótesis nula de la población, ya que el parámetro es en realidad cero. Un valor
p pequeño para esta prueba indica que hay una relación fuerte entre las variables lo que no
pudo haber sucedido por casualidad solo.
Así tenemos que el modelo de regresión tiene la fórmula:
En pocas palabras, aumentar el número de cilindros, el peso y el número de carburadores

resulta en estimaciones que disminuyen las millas por galón. La diferencia entre transmisiones
manuales y automáticas son inferiores a 2 en mpg y no son estadísticamente significativas.
Para un rango de valores dentro de los contenidos en estos datos, dados un conjunto de
valores de cilindros, peso, tipo de transmisión y número de carburadores, esta última
expresión se puede usar para dar una estimación razonable del promedio de millas por galón
de un automóvil con esas características. Por último, se interpreta fácilmente y está de
acuerdo con nuestra intuición sobre los factores de influencia en mpg.
La salida de datos de antes, incluye una estimación de 2.5 para la desviación estándar de
errores asociados con el modelo lineal. Es decir, el modelo ajustado que se estima el mpg con
una desviación estándar de aproximadamente 2.5. Para apreciar el valor de la regresión,
comparemos este valor con la desviación estándar de los valores marginales de mpg,
ilustrando la variabilidad mucho mayor asociada sin el uso de modelo lineal.
Siempre debemos examinar los residuos del modelo ajustado. La complejidad de los valores
residuales y ajustados, que son como las distribuciones marginales, se muestran en el gráfico
como flecos de alfombra. Se identifican algunos valores inusuales en este gráfico.
La franja de la alfombra a lo largo del lado marginal izquierdo muestra los residuos de este
modelo ajustado aparece normalmente distribuido. No se observa un mal ajuste de datos. Los
tres autos identificados por nombre en la trama son notables. Los tres tienen millas altas por
galón, como se esperaba en el modelo. Dos modelos (Volvo 142E y Datsun, y Nissan 710)
tienen mucho menos mpg de lo esperado. El Toyota Corolla tiene mucho más consumo de
combustible de lo previsto por el modelo ajustado. Los supuestos del modelo parecen ser
razonable en este ejemplo. En tales parcelas buscamos evidencia de valores atípicos,
tendencias no explicadas por el modelo y la variabilidad no constante de los residuos.
Terminemos esta sección con una breve discusión de las opciones que R nos ofrece en la
realización de regresión lineal.
Usamos el parámetro formula = para especificar el modelo lineal que se ajustará.
La notación mpg ~ cil + peso que es
Además de lm (), los programas glm y aov tienen una sintaxis similar. El programa aov se
mostrará en la siguiente parte GLM es la abreviatura de modelo lineal generalizado y se
ilustrará aquí.
Para ilustrar el uso de glm (), podemos escribir:
Como vemos ale lo mismo

Regresión multivariable en R
La popularidad de la regresión lineal no puede ser subestimada. Es lógico que hay métodos
que generalizan a más de una variable dependiente. Tales métodos de regresión multivariable
se basan en la regresión lineal univariante de la sección anterior y luego seguir con los
componentes principales. También hay analogías multivariables al ANOVA llamado análisis de
varianza multivariable o MANOVA,
Pero esto no es de uso común hoy en día, “Ver Hand and Taylor” (1987) para más en el
análisis multivariado de varianza. La regresión lineal multivariable se realiza en dos pasos.
Primero, realizamos regresiones lineales separadas y univariadas para cada una de las
variables dependientes y capturar los residuos para cada una de estas regresiones. Cada uno
por separado. La regresión proporciona los coeficientes de regresión estimados,
independientemente de cómo varias variables dependientes están correlacionadas entre sí.
El segundo paso es realizar un componente principal o análisis factorial en los residuos para
ver si hay información adicional que dependa de lasvariables, después de haber corregido los
efectos de las variables explicativas x. Utilizamos métodos gráficos para verificar los supuestos
del modelo y examinar los residuos para valores atípicos y falta de ajuste.
La mejor manera de ilustrar la regresión lineal multivariable es trabajar a través de dos

ejemplos en detalle. En esta sección, examinamos las características de automóviles en el
conjunto de datos mtcars que también se examinó en el anterior sección.
En el ejemplo de mtcars, se identifica las variables que clasificamos como características de

diseño y aquellas que podrían describirse como características empíricas para ser
experimentadas por el propietario. Construimos una regresión lineal multivariable explicando
cada uno de las características empíricas (mpg, hp, wt, qsec), y de las características de diseño
(cyl, disp, am, drat, carb, vs, gear). Cuatro regresiones lineales separadas para estas
características empíricas se ajustaron usando
Que son todos los ANOVAS marginales del modelo, y que nos dan estas ecuaciones
La elección de variables explicativas no es la misma en cada una de estas regresiones. Se

eligieron usando un pequeño ensayo y error para incluir solo aquellos con valor explicativo
intuitivo y significación estadística. Los residuos de las cuatro regresiones separadas se pueden
capturar y combinar en un solo data.frame:
colnames(car.res)<- c("mpg_res", "hp_res", "wt_res", "qsec_res") para hacer un vector

En la figura se muestran cuatro parcelas marginales separadas de residuos ajustados y
residuales. Una serie de autos inusuales y notables se identifican por su nombre. Estos son por
lo general, las marcas económicas (Toyota, Duster y Datsun) o bien grandes, modelos de lujo
(Maserati, Lotus o Mercury).
Con pairs podemos sacar un modelo

multiple
Un examen multivariado de estos

residuos comienza con la matriz del
diagrama de dispersión presentado en el
panel superior. Esta cifra incluye el
modelo suavizado y no identifica
correlaciones fuertes entre residuos que
no fueron explicados por los modelos
lineales.
También podemos realizar una serie de pruebas para la distribución normal multivariante de
los residuos El panel inferior de la figura 9.3 es un gráfico QQ de la distancia Mahalanobis con
el centroide para los residuos de cuatro dimensiones.
El valor atípico claro (Mercury 230) se identifica por su nombre. La trama de univariante los
residuos se identificó este modelo de automóvil con un tamaño inusualmente grande cuarto
de milla de tiempo.
Pruebas estadísticas formales para el

comportamiento normal multivariante de los
residuos reflejar lo que se observa en la gráfica QQ.
Específicamente, el código
El ajuste a una distribución normal multivariante mejora ligeramente, pero sigue siendo
sospechoso. El siguiente paso en esta regresión lineal multivariable es realizar un análisis de
componentes principales en estos residuos. El objeto de este examen es ver si queda
información adicional entre los cuatro variables dependientes (mpg, hp, wt, qsec) después de
contabilizar los efectos lineales de las variables explicativas (cyl, disp, drat, vs, am, gear, carb).
El análisis de componentes principales en R es
En la lista de desviaciones estándar ordenadas, vemos los cuatro componentes principales son
comparables en magnitud; el más grande es solo un poco el doble tamaño de los más
pequeños. Aquí interpretamos que las cargas significan que los residuos de hp, wt y qsec están
altamente correlacionados con cada uno. Los residuos mpg son independientes de estos tres.
El biplot para los dos primeros componentes principales.

ANOVA y MANOVA

Cargado por

Copyright:

Formatos disponibles

ANOVA y MANOVA

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ANOVA y MANOVA

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL

Más a menudo, hemos observado datos conjuntamente y queremos expresar el

Comencemos por considerar los conjuntos de datos en el paquete de conjuntos de datos.

Algunas características podrían considerarse características de diseño que podrían no

En este ejemplo, clasificaremos el tipo de transmisión (manual o automática) como una

Las estimaciones de mínimos cuadrados también son estimaciones de máxima probabilidad

En esta tabla de estimaciones de parámetros, vemos el número de cilindros (cil) y el peso

El análisis de varianza (ANOVA) expresa la suma total de cuadrados:

La suma total de cuadrados del yi observado sobre su promedio y es la cantidad total de

La suma de cuadrados sobre los valores ajustados yi es la cantidad de variabilidad atribuido al

Un pequeño ensayo y error identificó el número de cilindros, peso, automático/manual y

Para cada parámetro (coeficiente) en el modelo de regresión, R proporciona un valor estimado

Valor t = Estimación / Error estándar

La significancia estadística correspondiente de esta estadística t aparece debajo de Pr [> | t |].

Así tenemos que el modelo de regresión tiene la fórmula:

En pocas palabras, aumentar el número de cilindros, el peso y el número de carburadores

Usamos el parámetro formula = para especificar el modelo lineal que se ajustará.

La notación mpg ~ cil + peso que es

Para ilustrar el uso de glm (), podemos escribir:

Como vemos ale lo mismo

La mejor manera de ilustrar la regresión lineal multivariable es trabajar a través de dos

En el ejemplo de mtcars, se identifica las variables que clasificamos como características de

La elección de variables explicativas no es la misma en cada una de estas regresiones. Se

colnames(car.res)<- c("mpg_res", "hp_res", "wt_res", "qsec_res") para hacer un vector

Con pairs podemos sacar un modelo

Un examen multivariado de estos

Pruebas estadísticas formales para el

El análisis de componentes principales en R es

También podría gustarte