Departamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
Capitulo 1
Aplicaciones de la Prueba Chi-Cuadrado
Cuando el Seftor creé el mundo y las personas para vivir en él — obra que de acuerdo con la
ciencia moderna, levé mucho tiempo — podria muy bien imaginarme que razoné para si de la
siguiente manera: “Si hago todo predecible, estos seres humanos, a las que he dotado de
cerebros bastante buenos, indudablemente aprenderén a predecirlo todo, y por lo tanto no
tendrén aliciente para hacer nada, porque reconocerdn que el futuro estd totalmente
cdeterminado y en él no puede influir ninguna accién humana. Por otra parte, st todo lo hago
impredecible, gradualmente descubrirdn que no hay base racional para ninguna decision y
por tanto, como en el primer caso, no tendran motivos para hacer nada. Ninguno de estos dos
proyectos tiene sentido. Crearé, por lo tanto, una mezcla de los dos. Que unas cosas sean
predecibles y otras impredecibles. Tendrén entonces, entre muchas otras cosas, la importante
tarea de saber cuéil es cul.”
E. F, Schumacher,
1, Introduccién
Una de las mayores utilidades de la distribucién Chi-Cuadrado consiste en que permite
comparar frecuencias observadas (frecuencias obtenidas en un experimento 0 muestreo) con
frecuencias esperadas segtin un modelo supuesto (hipotesis nula). Esta caracteristica de la
distribucién Chi-Cuadrado permite efectuar las siguientes pruebas:
1. Pruebas de bondad de ajuste a una distribucién de probabilidades,
2. Prueba de homogeneidad de subpoblaciones,
3. Prueba de independencia
La metodologia a utilizar en cada uno de los tres casos seri muy similar, La diferencia
principal esti en la forma en que se calculan las frecuencias esperadas ya que estas
dependeran de la hipétesis nula en cuestin
2. Pruebas Chi-Cuadrado de Bondad de Ajuste
Las pruebas de bondad de ajuste permiten evaluar cuin bien (0 mejor dicho cuin mal) una
variable aleatoria se ajusta a una distribucion de probabilidades teérica, Otras pruebas de
bondad de ajuste son la de Anderson-Darling y la de Kolmogorov-Smimov. Mientras que la
prueba Chi-Cuadrado se basa en Ia comparacién de las frecuencias observadas con las
frecuencias esperadas bajo el supuesto de que la hipétesis nula es verdadera, las pruebas de
Anderson-Darling y de Kolmogorov-Smimov se basan en la comparacién de la distribucién
Ing, Rail Eyzaguirre Pérez 1
reyzaguirre@lamolina edi.peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
de probabilidades acumuladas empirica (resultado de la muestra) con la distribucién de
probabilidades acumuladas tedrica (segtin Ho)
2.1, Prueba de Bondad de Ajuste a una Distribucién de Frecuencias
Esta prueba permite analizar si las frecuencias observadas de una variable aleatoria en k clases
‘0 categorias se ajustan o no a ciertas frecuencias tedricas o esperadas. Esta prueba se aplica
principalmente con variables cualitativas como por ejemplo:
= Tipo de céncer en tos enfermos con céncer en una poblacién (1, 2, 3, 4 = otros tipos)
~ Alguna caractetistica genética heredada como por ejemplo el color de los ojos.
Hipotesis:
La hipétesis nula se define de acuerdo con las proporciones esperadas para cada una de las &
categorias.
para i=1,2,..
para al menos un /
ico de prueba tiene una distribucién Chi-Cuadrado con &-1 grados de libertad y se
define de la siguiente manera
2 ye n4
~ Kien
donde 0; son las frecuencias observadas y ¢; las frecuencias esperadas. Las frecuencias
esperadas se calculan multiplicando el tamaito de muestra n por cada una de las proporciones
supuestas en Hh
e=nm
Regla de decisién’
La hipétesis nuta se rechaza con un nivel de significacién a si el 7
valor de tabla ,*
resulta mayor que el
2 £1)
Ejemplo 1: Suponga que en una poblacién de enfermos con eéncer, histéricamente los 3
tipos mas frecuentes siguen las proporciones 35%, 24% y 18%, y que entonces un estudio
es desarrollado para evaluar si estas proporciones han cambiado (debido a Ia nueva
tecnologia médica, nuevos habitos de vida, etc.). En este caso Ia hipétesis nula seria’
Ho: Las proporciones poblacionales no han cambiado
Hy: m= 035m )=024 my
18 y= 0.23 (otros tipos de céncer)
y la hipétesis alterna:
Ing, Rail Eyzaguirre Pérez 2
reyzaguirre(@lamolina edu peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de ta Prueba Chi -Cuadrado
Hj: Las proporeiones poblacionales si han cambiado
Hj: Al menos uno de los 2, es diferente
Suponga que en el estudio se obtuvieron los siguientes resultados con una muestra
aleatoria de 1000 enfermos de cancer:
Tipo de cincer 1 2 3 4
Frecuencia observada | 341 220 185 254
Las frecuencias esperadas, si se supone que la hipétesis nula es verdadera (es decir que las
proporciones no han cambiado), sera:
Tipo de cincer 1 2 3 4
Frecuencia esperada 350 240 180 230
350
300
Frecuencias
150 200 250
100
50
1 2 3 4
Tipo de Cancer
Con estos datos, el estadistico de prueba resulta:
El valor de tabla ¢s 795, sy) =7.815. Como el valor caleulado es menor al valor de tabla,
Ja informacién muestral no es suficiente para rechazar Ho, y se concluye que no existe
suficiente evidencia estadistica para aceptar que las proporciones de enfermos de céncer
hhan cambiado.
Cuando las fiecuencias esperadas son pequefias, Ia aproximacién Chi-Cuadrado para la
distribucién del estadistico de prueba puede ser no muy buena. Para solucionar este problema
Ing, Rail Eyzaguirre Pérez 3
[email protected] peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
es aconsejable juntar categorias de modo que se eliminen las celdas con frecuencias esperadas,
muy pequeflas. Dos o mis categorias pueden juntarse siempre y cuando estas sean
combinables y el sentido de la hipétesis mula no se vea afectado por esta agrupacién. Por otro
lado, hay que tener presente, que por cada dos categorias que se junten se pierde un grado de
libertad y que el poder de Ia prueba puede disminuir. Algunos autores recomiendan tener
cuidado cuando hay muchas frecuencias esperadas menores a 5, 0 no permitir frecuencias
esperadas menores a I. La mayoria de los paquetes estadisticos muestran mensajes de
advertencia cuando se tienen frecuencias esperadas menores a 5 6 |
2.2, Prueba de Bondad de Ajuste a una Distribucién de Probabilidades
Esta prueba permite analizar si Ia distribucién de probabilidades de una variable aleatoria se
ajusta 0 no a una distribucién de probabilidades teérica dada, En esta seccién se presentarin
los casos de bondad de ajuste a la distribucién Binomial y a la Poisson. Sin embargo, el
estudiante podra aplicar esta metodologia a cualquier otra distribucion sin mucha dificultad.
Antes de continuar, recuerde algunas caracteristicas de las distribuciones Binomial y Poisson:
Distribucién Binomial
Una variable aleatoria X’ tendré distribucién Binomial con parimetros 7 y x si cumple con las
siguientes caracteristicas
- Xe el nimero de éxitos en n ensayos independientes de un experimento, o el niimero de
éxitos en una muestra de tamafio n, Para que los resultados de la muestra sean
independientes la poblacién debe ser infinita. Si la poblacién es finita el muestreo debe ser
con reemplazo.
= mes la probabilidad de éxito para cada uno de los n ensayos. Esta probabilidad debe ser
constante para los 7 ensayos,
Las siguientes variables podrian tener una distribucién Binomial:
= Naimero de articulos defectuosos por lote
~ _ Niimero de personas que responden favorablemente a un tratamiento.
= Niimero de penales que falla un jugador en una ronda de 12
~ Niimero de entrevistados que si estarian dispuestos a comprar un nuevo producto.
Decir que los n ensayos son independientes implica que el resultado obtenido en un ensayo en
particular no depende de los otros resultados. En el caso del nimero de penales fallados por
tun jugador, esto podria no ser cierto si se asume la existencia de un factor psicolégico de
modo que la confianza del jugador se vea mermada o incrementada segin haya fallado 0
anotado en los lanzamientos anteriores. La falta de independencia entre los resultados podria
‘ocurrir también en variables en las que todos los resultados estén afectados por algin factor
comiin de modo que exista cierta posibilidad de que todos los elementos corran con la misma
suerte; este podria ser por ejemplo el caso de la variable namero de animales enfermos por
corral (si es que la enfermedad es contagiosa).
Ing, Rail Eyzaguirre Pérez 4
reyzaguirre@lamolina edi.peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
Distribucién de Poisson
Una variable aleatoria X tendra distribucién de Poisson con pardmetro jt
las siguientes caracteristicas
1 si cumple con
- Xes el mimero de eventos u ocurrencias aleatoriamente distribuidos por intervalo (de
tiempo, longitud, volumen, ete.)
- Kesel nimero medio de eventos por intervalo unitario,
= fesel tamaio del intervalo.
~ Wes el mlimero medio de eventos por intervalo de tamafo
A la distribucién de Poisson se le conoce también como Ia distribucién de los eventos raros
(poco probables). La distribucién de Poisson fue desarrollada por el matemitico francés
Poisson en 1837 y su primera aplicacién fue la descripcidn del nimero de muertes por patada
de mala en la armada prusiana.
Las siguientes variables podrian tener una distribucién de Poisson:
~ Niimero de bacterias por ml
= Niimero de accidentes por semana en una interseceion,
= Namero de animales encontrados por Km’.
~ Niimero de emergencias atendidas en un hospital por dia.
El procedimiento para la prueba seri muy similar al presentado en la seccin anterior. La
tinica diferencia esti en la forma de calcular las frecuencias esperadas, que en este caso se
calculardn bajo el supuesto de que la variable tiene una distribucién de probabilidades dada.
Hipotesis
Hp: La variable X tiene una distribucién de probabilidades dada.
Hy: La variable X’no tiene una distribucion de probabilidades dada
Las frecuencias esperadas se calculan de la siguiente manera:
=",
donde p, son las probabilidades correspondientes a cada valor de segiin la distribucion de
probabilidades establecida en la hipétesis nula. Si la distribucién es Binomial las
probabilidades se calcularan con la siguiente formula:
(per
Si la distribucion es de Poisson las probabilidades se calcularan con:
f(x)
Ing, Rail Eyzaguirre Pérez 5
reyzaguirre@lamolina edi.peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
ett
aT
FO)=
Los grados de libertad para el estadistico de prueba son (k — 1 - m) donde kes el niimero de
categorias y m el niimero de parimetros estimados. En el caso de la distribucién Binomial
podria ser necesario estimar x y en el caso de la distribucién de Poisson podria ser necesario
estimar p.
Regla de Decisi
La hipétesis nula se rechaza con un nivel de significacién a si el 2 resulta mayor que el
valor de tabla 7 71-4,¢-1-m}
Ejemplo 2: Hay 1000 bolsas de naranjas, cada una de las cuales contiene 10 naranjas.
Algunas de las naranjas estén podridas. {Es la distribucién de probabilidades del namero
de naranjas podridas por bolsa una Binomial(10, 2)? Los resultados obtenidos tras analizar
Jas 1000 bolsas son los siguientes:
‘Nimero denaranjas podridas [0 | 1 | 2 | 3 | 4 | 5 | 6
Frecuencia observada (bolsas) | 334 | 369 | 191 | 63 | 22 | 12 | 9
Ho: El nimero de naranjas podridas por bolsa sigue una distribucién Binomial (10, 7) para
algin x.
Hy: El niimero de naranjas podridas por bolsa no sigue una distribucién Binomial (10, 7)
Dado que no se conoce la proporcién de naranjas podridas 2, este valor seré estimado con
Ja proporeién muestra
#denaranjas podridas __1142
US 0.1142
# de naranjas 10000
Ahora, se calculan las probabilidades binomiales para X= 0, 1, 2, 3, 4,5 y 66 mis, ya
partir de estas probabilidades se calculan las frecuencias esperadas’
‘Nim, de naranjas podridas () [0 i 2 [3 4 3 | 66+
Frecuencias observadas 334 | 369 |i | 63 [22 | 12 | 9
PX) (0.2974 | 0.3834 | 0.2224 | 0.0765 | 0.0173 | 0.0027 | 0.0003
Frecuencias esperadas 207.4 | 383.4 | 222.4] 765 | 173 | 27 | 03
Note que las dos tiltimas frecuencias esperadas son menores a 5, por lo que ser necesario
‘agrupar las tres iltimas categorias:
‘Namero de naranjas podridas (X)[ 0 1 2 3] 46+
Frecuencias observadas 334 | 309 | 91 | 63 4B
pO 0.2974 | 0.3834 | 0.2224 | 0.0765 | 0.0203
Frecuencias esperadas 2974 | 383.4 | 2224 | 765 | 203
Con estos datos el estadistico de prueba es:
Ing, Rail Eyzaguirre Pérez 6
reyzaguirre@lamolina edi.peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
sere
37.24
Los grados de libertad para el estadistico de prueba serin 3 (5 categorias ~ I~ 1 parémetro
estimado). El valor de tabla para un nivel de significacin del 5% eS i, xy) =7-815.
Como el valor calculado es mayor que el valor de tabla se rechaza Ho. En conclusién existe
suficiente evidencia estadistica para aceptar que el niimero de naranjas podridas por bolsa
no sigue una distribucién Binomial
Ejemplo 3: Un entomélogo esti analizando Ia distribucién de una especie de insecto en
una zona de cultivo, Para dicho estudio seleccioné 40 parcelas de 2m x 2m y contabiliz6 el
nimero de insectos de dicha especie en cada una, Los resultados son los siguientes’
Niimero de insectos 0 1 2 3 4
Niimero de parcelas 4 16 12 6 2
Pruebe con a =0.05 si los datos se ajustan a una distribucién de Poisson,
Ho: El niamero de insectos por parcela sigue una distribucién de Poisson (jt) para algtin j.
Hj: El niimero de insectos por parcela no sigue una distribucién de Poisson (11)
Dado que no se conoce el parimetto j, este valor seri estimado con la media muestra
EGS
#deparcelas 40
pay — Fae nse
Ahora, se calculan las probabilidades de la distribucién de Poisson para X= 0, 1,2,3y 46
mis, y a partir de estas probabilidades se calculan las frecuencias esperadas:
‘Numero de insectos (X) 0 1 2 3__|46 mas
Frecuencias observadas 4 16 12 6 2
PX 0.1920 | 03169 | 0.2614 [0.1438 | 0.0859
Frecuencias esperadas 7.68 | 12.68 | 1046 [5.75 | 3.43
Agrupando las dos iltimas categorias se tiene:
‘Niimero de insectos (X) 0 1 2 [3omis
Frecuencias observadas 4 16 2 8
pd) 0.1930 | 03169 | 0.2614 | 0.2206
Frecuencias esperadas 7.68 | 12.68 | 10.46 | 9.19
Con estos datos el estadistico de prueba es:
ye - 30175
Los grados de libertad para el estadistico de prueba serin 2 (4 categorias
estimado). El valor de tabla para un nivel de significacion del 5% es 73. sy =5.991.
Ing, Rail Eyzaguirre Pérez 7
reyzaguirre(@lamolina edu peDepartamento de Estadistica e Informética
Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado
‘Como el valor calculado es menor al valor de tabla no se rechaza Ho, En conclusion no
existe suficiente evidencia estadistica para rechazar que el nimero de insectos por parcela
siga una distribucién de Poisson
Una caracteristica importante de la distribucién de Poisson es que los eventos estin
distribuidos en forma aleatoria en el intervalo; por lo tanto, la prueba de bondad de ajuste a la
distribucién de Poisson puede ser utilizada para probar la aleatoriedad en la distribucién de
los eventos.
3. Pruebas Chi-Cuadrado para Tablas de Contingencia de dos Entradas
En esta seccién se verin las pruebas de homogencidad de subpoblaciones y de independencia.
Si bien ambas pruebas presentan el mismo procedimiento de calculo, las hipétesis a probar
son diferentes y por lo tanto las conclusiones obtenidas también,
3.1. Prueba de Homogeneidad de Subpoblaciones,
Esta prueba permite analizar si la distribucién de probabilidades de una variable es la misma
en r poblaciones.
Datos: Existen r poblaciones y una muestra aleatoria es extraida desde cada poblacién. Sea me
el tamafo de la muestra extraida de la /-ésima poblacién. Cada observacién de cada muestra
puede ser clasificada en una de c categorias diferentes. Los datos son arreglados en la
siguiente tabla de contingencia rc
Categoria 1 | Categoria 2 Categoria €] Total
Poblacion 1 ou on | Ore Me
on o
Poblacién r On re Dow
Total De Mac Naw
En la tabla, oy es ef nimero de observaciones de la muestra i clasificadas en la categoria j; ney
es el nlimero total de observaciones en la categoria j extraidas desde las r poblaciones y ri ¢s
el total de observaciones extraidas desde las r poblaciones.
Hipotesis:
Sea 7 la probabilidad de que una observacién seleccionada de la poblacién i sea clasificada
en la categoria j. Entonces las hipétesis son:
Ho: y= my = Ty para todo j= 1,2, ..¢
Hy: Al menos una igualdad no se cumple.
Ing, Rail Eyzaguirre Pérez 8
reyzaguirre(@lamolina edu pe