ANOVA y MANOVA
ANOVA y MANOVA
ANOVA y MANOVA
Es probablemente una de las herramientas más potentes y útiles disponibles para el análisis
estadístico. Este método usa una o más variables para explicar los valores de otra. Las
estadísticas por sí solas no pueden probar una relación de causa y efecto, pero podemos
mostrar cómo los cambios en un conjunto de mediciones están asociados con cambios de los
valores promedio en otro.
Observe cómo este enfoque es diferente del que se toma en el análisis de componentes
principales. En los componentes principales, todas las variables están asociadas entre sí y el
análisis estadístico intenta descubrir grupos de variables que varían juntas.
En contraste, en la regresión lineal, el analista de datos especifica cuáles de las variables deben
considerarse explicativas y cuáles comparten las respuestas a estas. Este proceso requiere una
buena comprensión de los datos. A veces tenemos una relación de causa y efecto donde
algunas condiciones están bajo nuestro control.
Podemos leer a Pearl (2009) para tener descripción detallada de los problemas involucrados.
Se asumen relaciones lineales entre todas las variables independientes y dependientes.
Este marco de datos contiene 11 mediciones en cada uno de los 32 modelos de automóviles
que estaban disponibles en 1973-1974. Estas 11 medidas se enumeran en la siguiente tabla:
El enfoque multivariable es hacer esto para todas las características empíricas y luego
examinar lo que quede de ese proceso de modelado, es decir, los residuos. Estos residuos
multivariados se utilizan para determinar si las características empíricas permanecen
correlacionadas después de haber tenido en cuenta los efectos lineales de las características
de diseño.
donde el error independiente, ei está normalmente distribuido, tiene una media 0 y varianza
constante σ2. Los coeficientes de regresión β son parámetros que deben estimarse a partir de
los datos observados (yi, xi). En el presente ejemplo, yi es la característica empírica observada
(como mpg) de su auto y xi el vector de valores de todas las características de diseño de ese
auto. El modelo lineal de una variable en términos de otra está motivado por las propiedades
de la distribución normal multivariada con media condicional y varianza dada.
Específicamente, los medios condicionales de Yi son lineales en las variables explicativas, y las
variaciones condicionales son independientes de los valores de las variables explicativas. Los
métodos de mínimos cuadrados se utilizan para obtener el valor del parámetro
esos son los valores medios estimados anticipados por el modelo. El parámetro estimado β son
aquellos valores que minimizan la suma de los residuos cuadrados ∑r2, donde los residuos son
las diferencias observadas entre los valores observados y esperados
ri = yi −β′xi.
En R, podemos ajustar una regresión lineal y también capturar los residuos, el coeficiente de
regresión estimado β y los valores ajustados. Estos aparecen en
Este resultado enumera, en las columnas respectivas, el coeficiente de regresión estimador de
β, su error estándar, las estadísticas de la prueba t y los valores p que prueban la hipótesis nula
de que el coeficiente de población (β) correspondiente, y es cero. Los asteriscos indican el nivel
de significación estadística.
Para un rango de valores dentro de los contenidos en estos datos, dados un conjunto de
valores de cilindros, peso, tipo de transmisión y número de carburadores, esta última
expresión se puede usar para dar una estimación razonable del promedio de millas por galón
de un automóvil con esas características. Por último, se interpreta fácilmente y está de
acuerdo con nuestra intuición sobre los factores de influencia en mpg.
La salida de datos de antes, incluye una estimación de 2.5 para la desviación estándar de
errores asociados con el modelo lineal. Es decir, el modelo ajustado que se estima el mpg con
una desviación estándar de aproximadamente 2.5. Para apreciar el valor de la regresión,
comparemos este valor con la desviación estándar de los valores marginales de mpg,
ilustrando la variabilidad mucho mayor asociada sin el uso de modelo lineal.
Siempre debemos examinar los residuos del modelo ajustado. La complejidad de los valores
residuales y ajustados, que son como las distribuciones marginales, se muestran en el gráfico
como flecos de alfombra. Se identifican algunos valores inusuales en este gráfico.
La franja de la alfombra a lo largo del lado marginal izquierdo muestra los residuos de este
modelo ajustado aparece normalmente distribuido. No se observa un mal ajuste de datos. Los
tres autos identificados por nombre en la trama son notables. Los tres tienen millas altas por
galón, como se esperaba en el modelo. Dos modelos (Volvo 142E y Datsun, y Nissan 710)
tienen mucho menos mpg de lo esperado. El Toyota Corolla tiene mucho más consumo de
combustible de lo previsto por el modelo ajustado. Los supuestos del modelo parecen ser
razonable en este ejemplo. En tales parcelas buscamos evidencia de valores atípicos,
tendencias no explicadas por el modelo y la variabilidad no constante de los residuos.
Terminemos esta sección con una breve discusión de las opciones que R nos ofrece en la
realización de regresión lineal.
Además de lm (), los programas glm y aov tienen una sintaxis similar. El programa aov se
mostrará en la siguiente parte GLM es la abreviatura de modelo lineal generalizado y se
ilustrará aquí.
La popularidad de la regresión lineal no puede ser subestimada. Es lógico que hay métodos
que generalizan a más de una variable dependiente. Tales métodos de regresión multivariable
se basan en la regresión lineal univariante de la sección anterior y luego seguir con los
componentes principales. También hay analogías multivariables al ANOVA llamado análisis de
varianza multivariable o MANOVA,
Pero esto no es de uso común hoy en día, “Ver Hand and Taylor” (1987) para más en el
análisis multivariado de varianza. La regresión lineal multivariable se realiza en dos pasos.
Primero, realizamos regresiones lineales separadas y univariadas para cada una de las
variables dependientes y capturar los residuos para cada una de estas regresiones. Cada uno
por separado. La regresión proporciona los coeficientes de regresión estimados,
independientemente de cómo varias variables dependientes están correlacionadas entre sí.
El segundo paso es realizar un componente principal o análisis factorial en los residuos para
ver si hay información adicional que dependa de lasvariables, después de haber corregido los
efectos de las variables explicativas x. Utilizamos métodos gráficos para verificar los supuestos
del modelo y examinar los residuos para valores atípicos y falta de ajuste.
El valor atípico claro (Mercury 230) se identifica por su nombre. La trama de univariante los
residuos se identificó este modelo de automóvil con un tamaño inusualmente grande cuarto
de milla de tiempo.
El ajuste a una distribución normal multivariante mejora ligeramente, pero sigue siendo
sospechoso. El siguiente paso en esta regresión lineal multivariable es realizar un análisis de
componentes principales en estos residuos. El objeto de este examen es ver si queda
información adicional entre los cuatro variables dependientes (mpg, hp, wt, qsec) después de
contabilizar los efectos lineales de las variables explicativas (cyl, disp, drat, vs, am, gear, carb).
En la lista de desviaciones estándar ordenadas, vemos los cuatro componentes principales son
comparables en magnitud; el más grande es solo un poco el doble tamaño de los más
pequeños. Aquí interpretamos que las cargas significan que los residuos de hp, wt y qsec están
altamente correlacionados con cada uno. Los residuos mpg son independientes de estos tres.
El biplot para los dos primeros componentes principales.