ANOVA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 42

Estadística y Diseño de Experimentos

ANÁLISIS DE LA VARIANZA

(ANOVA)

AÑO 2015
Principios básicos

 Los tres principios básicos en el diseño de experimentos


son:
Obtención de réplicas
Aleatorización
Análisis por bloques
 Experimento: búsqueda planeada para obtener nuevos
conocimientos o para confirmar o no un resultado de
experiencias previas.
 Unidad experimental: es la unidad de material a la cual
se aplica un tratamiento.
Principios básicos

 Tratamiento: procedimiento cuyo efecto se mide y se


compara con otros.

 Unidad de muestreo: cierta fracción de la unidad


experimental.

 Error experimental: medida de la variación existente


entre observaciones sobre unidades experimentales
tratadas en forma similar.
Problema

 Se tomaron muestras de oxigeno de cuatro sitios de un río para


determinar si la cantidad de oxígeno disuelto, una medida de la
contaminación del agua, variaba de un sitio a otro. Los sitios 1 y 2
se seleccionaron río arriba de una planta industrial, uno cerca de la
orilla y el otro en la mitad de la corriente; el sitio 3 se seleccionó
junto a la descarga del agua industrial de la planta; y el punto 4
ligeramente río abajo, a la mitad de la corriente. En cada punto se
seleccionaron al azar cinco especimenes de agua.

Sitio Contenido medio de Oxígeno disuelto


1 5.9 6.1 6.3 6.1 6.0
2 6.3 6.6 6.4 6.4 6.5
3 4.8 4.3 5.0 4.7 5.1
4 6.0 6.2 6.1 5.8 6.0
Los datos en el MINITAB se cargan así
Análisis de la variancia – ANOVA

 Experimentos con un sólo factor: modelo unifactorial

 Factor que tiene a niveles distintos llamados tratamientos

 Es un contraste de hipótesis donde

 H0: 1 = 2 = 3 = ... = a
 H1: al menos dos de las medias son distintas

 Pero a esta conclusión se llega comparando variabilidad, de allí el


nombre de Análisis de la Variancia.
Análisis de la variancia – ANOVA

Problema
 Hipótesis:
H0: 1 = 2 = 3 = 4
H1: al menos una de las i es distinta a las
demás
 Factor: sitio
 Niveles o tratamientos: cada uno de los 4 sitios
 La respuesta a cada uno de los tratamientos es una variable
aleatoria.
 Objetivo: comprobar hipótesis acerca de los efectos del
tratamiento (sitio)
 Necesidad: aleatoriedad.
Análisis de la variancia – ANOVA

 En general obtenemos siempre una tabla así:

Tratamientos
Observaciones Totales Promedios
(nivel)
1 y11 y12 ... y1n y1. y1.
y1. 
n
2 y21 y22 ... y2n y2. y
y 2.  2.
n
... ... ... ... .... ... ...

a ya1 ya2 .... yan ya. ya. 


y a.
n
y.. y..
y.. 
n
Análisis de la variancia – ANOVA

 Se reconocen dos modelos:

 Efectos fijos:
• Los tratamientos seleccionados específicamente
por los investigadores.

 Efectos aleatorios:
• los a tratamientos seleccionados aleatoriamente de
un conjunto mayor.
Análisis de la variancia – ANOVA

 Cada observación puede expresarse:

 yij =  + i + ij

 i= 1, 2, ...,a ; j = 1, 2, ..., n

 Se pueden estimar los parámetros del modelo


: media general; : efecto tratamiento ;
2: variancia del error aleatorio
 Supuestos: i independientes, i  N(0, 2 )
Análisis de la variancia – ANOVA

 Modelo de Efectos fijos:


 i = desviaciones respecto a la media
 Luego a

 Notación: 
i 1
i 0

 yi.=
n
 yij y i. 
y i.
j1 n
 y..=
a n y..
  yij y.. 
i1 j1 N
Análisis de la variancia – ANOVA
Problema

Sitio Contenido medio de Oxígeno disuelto Total


1 5.9 6.1 6.3 6.1 6.0 30.4
2 6.3 6.6 6.4 6.4 6.5 32.2
3 4.8 4.3 5.0 4.7 5.1 23.9
4 6.0 6.2 6.1 5.8 6.0 30.1
Total 23.0 23.2 23.8 23.0 23.6 116.6

La hipótesis nula también puede formularse así:


H0: 1 = 2 = 3 = 4 = 0
H1: al menos un i  0, con i= 1, 2, 3, 4
Análisis de la variancia – ANOVA

 Partición o descomposición de la suma de cuadrados:

a n

 SST=
  ( y ij  y .. ) 2
i 1 j1

 sumando y restando yi .

a n a n
   ( y ij  y .. ) =  [( y i .  y .. ) + ( y ij  y i . )] 2
2
i  1 j 1 i 1 j 1
n
 El doble producto se anula ya que  ( y ij  y i . )  0
j 1
Análisis de la variancia – ANOVA

a n a 2 a n 2
  ( y ij  y .. ) 2 = n  ( y i .  y .. )    ( y ij  y i . )
i  1 j 1 i 1 i  1 j 1
 STotal = SSTratamiento + SSError

Total
Entre tratamientos
Dentro de los tratamientos
Análisis de la variancia – ANOVA

 Estimación de la Variancia del error

SSTrat SSTrat
 1) ˆ 
2
MSTrat =
a 1 a 1

SSE SSE
 2) ˆ 
2 MSError =
Na Na

 1) y 2) son dos estimadores de 2


Análisis de la variancia – ANOVA

SSTrat a
SSE
E( )    n i
2
E( ) 2
a 1 i1 Na
 Se comparan ambas esperanzas:
 Si no existe diferencia entre los tratamientos
a
y ambas estimaciones coinciden.  i  0
i 1

 Si las estimaciones no coinciden es porque hay efecto


tratamiento y se rechaza H0.
Análisis de la variancia – Problema
Box-Plot comparativo
Análisis de la variancia – Problema
Box-Plot comparativo
Análisis de la variancia – Problema
Salida de PC
Análisis de la variancia – Problema
Salida de PC

ANOVA unidireccional: Oxigeno vs. Sitio

Fuente GL SC CM F P
Sitio 3 7,8660 2,6220 68,10 0,000
Error 16 0,6160 0,0385
Total 19 8,4820

S = 0,1962 R-cuad. = 92,74% R-cuad.(ajustado) = 91,38%


Ventajas del diseño balanceado

El estadístico de prueba es insensible a


pequeñas variaciones en el supuesto de
igualdad de varianzas.

El poder de la prueba aumenta.


Estimación de los parámetros del modelo

Modelo: yij =  + i + ij

ˆ  y .. ˆ i  y i . ˆ i  y i .  y ..

i = 1, 2, ..., a
i: media del i-ésimo tratamiento

i =  + i
ANOVA - Intervalos de confianza

Si se supone que los errores están


2
normalmente distribuidos, las y i . ~ N ( i ; )
n

Intervalo de confianza para el i-ésimo


tratamiento MSE
y i.  t 
2 ; N a n
Intervalo de confianza para las diferencias
de medias 2 MSE
( y i .  y j. )  t 
2 ; N a n
Estimación de los parámetros del modelo
Problema

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Nivel N Media Desv.Est. ---+---------+---------+---------+------
1 5 6,0800 0,1483 (--*--)
2 5 6,4400 0,1140 (--*--)
3 5 4,7800 0,3114 (--*--)
4 5 6,0200 0,1483 (--*--)
---+---------+---------+---------+------
4,80 5,40 6,00 6,60

Desv.Est. agrupada = 0,1962


Estimación de los parámetros del modelo
Problema
Estadísticas descriptivas: Oxigeno
Error
estándar
de la
Variable N N* Media media Desv.Est. Mínimo Q1 Mediana Q3
Oxigeno 20 0 5,830 0,149 0,668 4,300 5,275 6,050 6,300

Variable Máximo
Oxigeno 6,600

ˆ1  y1.  y..  6.08  5.83  0.25


ˆ2  y2.  y..  6.44  5.83  0.61
ˆ3  y3.  y..  4.78  5.83  1.08
ˆ4  y4.  y..  6.02  5.83  0.19
Supuestos del análisis de la variancia

Las observaciones son descriptas


adecuadamente por el modelo:
yij =  + i + ij
 ~ N (0 , 2 ) e independientes
Las violaciones a estas suposiciones básicas
pueden investigarse analizando los residuos
Residuo de una observación e ij  y ij  ŷ ij
Donde: ŷij  ˆ ˆi  y  ( yi  y )  yi
Análisis de supuestos - ANOVA

1) Idoneidad del modelo


Modelo correcto  los residuos eij  y ij  ŷ ij  y ij  y i .

No tienen ningún patrón ni están relacionados con otra


variable.

Se grafican los eij contra ŷ ij  y i .


que no deben tener ningún patrón.
Análisis de supuestos - ANOVA

2) Independencia
 Graficar residuos contra tiempo, cuando se
conoce el orden de recopilación. Si hay
rachas + ó – hay correlación.
3) Normalidad:
 Analizar residuos inusitados.
 Es conveniente analizar los residuos
estandarizados.
Análisis de supuestos

4) Homogeneidad de variancia

 En la misma gráfica que para la idoneidad del


modelo.

 Aunque es preferible hacer una prueba


estadística como la de Bartlett o Levenne.
Análisis de supuestos
Análisis de supuestos
Análisis de supuestos
Análisis de supuestos
Comparación de las medias

 Método de Scheffe (compara todas)


 En general útil en experimentos exploratorios

 El error de tipo I es a lo sumo  en cualquier


comparación.
Comparación de las medias

 Mínima diferencia significativa


(LSD, compara parejas de medias, o sea H0: i = j )
 Se calcula el estadístico

2 MSE
 LSD  t  si es balanceado
2;N a n
1 1
 LSD  t  ;N a MSE(  ) si es desbalanceado
2 ni n j
Comparación de las medias

 Mínima diferencia significativa


 Se compara con y i .  y j. si es > LSD se concluye que
son diferentes

 Inconvenientes: El error de tipo I se puede


incrementar
 Procedimiento: se ordenan todas las medias de
tratamiento y se hacen todas las posibles diferencias
Comparación de las medias

 Prueba de los intervalos múltiples de Duncan


 Es muy eficaz y eficiente para detectar diferencias entre medias
cuando esas diferencias en realidad existen. Si el nivel de rechazo
es , estas pruebas tienen un nivel de significancia mayor o igual
que 

 Comparación con un control


(Prueba de Dunnett)
Análisis de la variancia – Problema
Salida de PC

Agrupar información utilizando el método de Tukey

Sitio N Media Agrupación


2 5 6,4400 A
1 5 6,0800 B
4 5 6,0200 B
3 5 4,7800 C

Las medias que no comparten una letra son significativamente


diferentes.
Análisis de la variancia – Problema
Salida de PC
Intervalos de confianza simultáneos de Tukey del 95%
Todas las comparaciones de dos a dos entre los niveles de Sitio

Nivel de confianza individual = 98,87%


Sitio = 1 restado de:

Sitio Inferior Centro Superior -------+---------+---------+---------+--


2 0,0046 0,3600 0,7154 (--*--)
3 -1,6554 -1,3000 -0,9446 (--*--)
4 -0,4154 -0,0600 0,2954 (-*--)
-------+---------+---------+---------+--
-1,2 0,0 1,2 2,4

Sitio = 2 restado de:

Sitio Inferior Centro Superior -------+---------+---------+---------+--


3 -2,0154 -1,6600 -1,3046 (--*--)
4 -0,7754 -0,4200 -0,0646 (-*--)
-------+---------+---------+---------+--
-1,2 0,0 1,2 2,4

Sitio = 3 restado de:

Sitio Inferior Centro Superior - ------+---------+---------+---------+--


4 0,8846 1,2400 1,5954 (--*--)
-------+---------+---------+---------+--
-1,2 0,0 1,2 2,4
Análisis de la variancia – Problema
Salida de PC
Análisis de la variancia – Problema
Salida de PC
Análisis de la variancia – Problema
Salida de PC

Gráfica de caja de Oxigeno

6,5

6,0
Oxigeno

5,5

5,0

4,5

4,0
1 2 3 4
Sitio

También podría gustarte