Métodos Estadísticos para La Investigación I - Teoria Prueba Chi-Cuadrado

Descargar como pdf
Descargar como pdf
Está en la página 1de 17
Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado Capitulo 1 Aplicaciones de la Prueba Chi-Cuadrado Cuando el Seftor creé el mundo y las personas para vivir en él — obra que de acuerdo con la ciencia moderna, levé mucho tiempo — podria muy bien imaginarme que razoné para si de la siguiente manera: “Si hago todo predecible, estos seres humanos, a las que he dotado de cerebros bastante buenos, indudablemente aprenderén a predecirlo todo, y por lo tanto no tendrén aliciente para hacer nada, porque reconocerdn que el futuro estd totalmente cdeterminado y en él no puede influir ninguna accién humana. Por otra parte, st todo lo hago impredecible, gradualmente descubrirdn que no hay base racional para ninguna decision y por tanto, como en el primer caso, no tendran motivos para hacer nada. Ninguno de estos dos proyectos tiene sentido. Crearé, por lo tanto, una mezcla de los dos. Que unas cosas sean predecibles y otras impredecibles. Tendrén entonces, entre muchas otras cosas, la importante tarea de saber cuéil es cul.” E. F, Schumacher, 1, Introduccién Una de las mayores utilidades de la distribucién Chi-Cuadrado consiste en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento 0 muestreo) con frecuencias esperadas segtin un modelo supuesto (hipotesis nula). Esta caracteristica de la distribucién Chi-Cuadrado permite efectuar las siguientes pruebas: 1. Pruebas de bondad de ajuste a una distribucién de probabilidades, 2. Prueba de homogeneidad de subpoblaciones, 3. Prueba de independencia La metodologia a utilizar en cada uno de los tres casos seri muy similar, La diferencia principal esti en la forma en que se calculan las frecuencias esperadas ya que estas dependeran de la hipétesis nula en cuestin 2. Pruebas Chi-Cuadrado de Bondad de Ajuste Las pruebas de bondad de ajuste permiten evaluar cuin bien (0 mejor dicho cuin mal) una variable aleatoria se ajusta a una distribucion de probabilidades teérica, Otras pruebas de bondad de ajuste son la de Anderson-Darling y la de Kolmogorov-Smimov. Mientras que la prueba Chi-Cuadrado se basa en Ia comparacién de las frecuencias observadas con las frecuencias esperadas bajo el supuesto de que la hipétesis nula es verdadera, las pruebas de Anderson-Darling y de Kolmogorov-Smimov se basan en la comparacién de la distribucién Ing, Rail Eyzaguirre Pérez 1 reyzaguirre@lamolina edi.pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado de probabilidades acumuladas empirica (resultado de la muestra) con la distribucién de probabilidades acumuladas tedrica (segtin Ho) 2.1, Prueba de Bondad de Ajuste a una Distribucién de Frecuencias Esta prueba permite analizar si las frecuencias observadas de una variable aleatoria en k clases ‘0 categorias se ajustan o no a ciertas frecuencias tedricas o esperadas. Esta prueba se aplica principalmente con variables cualitativas como por ejemplo: = Tipo de céncer en tos enfermos con céncer en una poblacién (1, 2, 3, 4 = otros tipos) ~ Alguna caractetistica genética heredada como por ejemplo el color de los ojos. Hipotesis: La hipétesis nula se define de acuerdo con las proporciones esperadas para cada una de las & categorias. para i=1,2,.. para al menos un / ico de prueba tiene una distribucién Chi-Cuadrado con &-1 grados de libertad y se define de la siguiente manera 2 ye n4 ~ Kien donde 0; son las frecuencias observadas y ¢; las frecuencias esperadas. Las frecuencias esperadas se calculan multiplicando el tamaito de muestra n por cada una de las proporciones supuestas en Hh e=nm Regla de decisién’ La hipétesis nuta se rechaza con un nivel de significacién a si el 7 valor de tabla ,* resulta mayor que el 2 £1) Ejemplo 1: Suponga que en una poblacién de enfermos con eéncer, histéricamente los 3 tipos mas frecuentes siguen las proporciones 35%, 24% y 18%, y que entonces un estudio es desarrollado para evaluar si estas proporciones han cambiado (debido a Ia nueva tecnologia médica, nuevos habitos de vida, etc.). En este caso Ia hipétesis nula seria’ Ho: Las proporciones poblacionales no han cambiado Hy: m= 035m )=024 my 18 y= 0.23 (otros tipos de céncer) y la hipétesis alterna: Ing, Rail Eyzaguirre Pérez 2 reyzaguirre(@lamolina edu pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de ta Prueba Chi -Cuadrado Hj: Las proporeiones poblacionales si han cambiado Hj: Al menos uno de los 2, es diferente Suponga que en el estudio se obtuvieron los siguientes resultados con una muestra aleatoria de 1000 enfermos de cancer: Tipo de cincer 1 2 3 4 Frecuencia observada | 341 220 185 254 Las frecuencias esperadas, si se supone que la hipétesis nula es verdadera (es decir que las proporciones no han cambiado), sera: Tipo de cincer 1 2 3 4 Frecuencia esperada 350 240 180 230 350 300 Frecuencias 150 200 250 100 50 1 2 3 4 Tipo de Cancer Con estos datos, el estadistico de prueba resulta: El valor de tabla ¢s 795, sy) =7.815. Como el valor caleulado es menor al valor de tabla, Ja informacién muestral no es suficiente para rechazar Ho, y se concluye que no existe suficiente evidencia estadistica para aceptar que las proporciones de enfermos de céncer hhan cambiado. Cuando las fiecuencias esperadas son pequefias, Ia aproximacién Chi-Cuadrado para la distribucién del estadistico de prueba puede ser no muy buena. Para solucionar este problema Ing, Rail Eyzaguirre Pérez 3 [email protected] pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado es aconsejable juntar categorias de modo que se eliminen las celdas con frecuencias esperadas, muy pequeflas. Dos o mis categorias pueden juntarse siempre y cuando estas sean combinables y el sentido de la hipétesis mula no se vea afectado por esta agrupacién. Por otro lado, hay que tener presente, que por cada dos categorias que se junten se pierde un grado de libertad y que el poder de Ia prueba puede disminuir. Algunos autores recomiendan tener cuidado cuando hay muchas frecuencias esperadas menores a 5, 0 no permitir frecuencias esperadas menores a I. La mayoria de los paquetes estadisticos muestran mensajes de advertencia cuando se tienen frecuencias esperadas menores a 5 6 | 2.2, Prueba de Bondad de Ajuste a una Distribucién de Probabilidades Esta prueba permite analizar si Ia distribucién de probabilidades de una variable aleatoria se ajusta 0 no a una distribucién de probabilidades teérica dada, En esta seccién se presentarin los casos de bondad de ajuste a la distribucién Binomial y a la Poisson. Sin embargo, el estudiante podra aplicar esta metodologia a cualquier otra distribucion sin mucha dificultad. Antes de continuar, recuerde algunas caracteristicas de las distribuciones Binomial y Poisson: Distribucién Binomial Una variable aleatoria X’ tendré distribucién Binomial con parimetros 7 y x si cumple con las siguientes caracteristicas - Xe el nimero de éxitos en n ensayos independientes de un experimento, o el niimero de éxitos en una muestra de tamafio n, Para que los resultados de la muestra sean independientes la poblacién debe ser infinita. Si la poblacién es finita el muestreo debe ser con reemplazo. = mes la probabilidad de éxito para cada uno de los n ensayos. Esta probabilidad debe ser constante para los 7 ensayos, Las siguientes variables podrian tener una distribucién Binomial: = Naimero de articulos defectuosos por lote ~ _ Niimero de personas que responden favorablemente a un tratamiento. = Niimero de penales que falla un jugador en una ronda de 12 ~ Niimero de entrevistados que si estarian dispuestos a comprar un nuevo producto. Decir que los n ensayos son independientes implica que el resultado obtenido en un ensayo en particular no depende de los otros resultados. En el caso del nimero de penales fallados por tun jugador, esto podria no ser cierto si se asume la existencia de un factor psicolégico de modo que la confianza del jugador se vea mermada o incrementada segin haya fallado 0 anotado en los lanzamientos anteriores. La falta de independencia entre los resultados podria ‘ocurrir también en variables en las que todos los resultados estén afectados por algin factor comiin de modo que exista cierta posibilidad de que todos los elementos corran con la misma suerte; este podria ser por ejemplo el caso de la variable namero de animales enfermos por corral (si es que la enfermedad es contagiosa). Ing, Rail Eyzaguirre Pérez 4 reyzaguirre@lamolina edi.pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado Distribucién de Poisson Una variable aleatoria X tendra distribucién de Poisson con pardmetro jt las siguientes caracteristicas 1 si cumple con - Xes el mimero de eventos u ocurrencias aleatoriamente distribuidos por intervalo (de tiempo, longitud, volumen, ete.) - Kesel nimero medio de eventos por intervalo unitario, = fesel tamaio del intervalo. ~ Wes el mlimero medio de eventos por intervalo de tamafo A la distribucién de Poisson se le conoce también como Ia distribucién de los eventos raros (poco probables). La distribucién de Poisson fue desarrollada por el matemitico francés Poisson en 1837 y su primera aplicacién fue la descripcidn del nimero de muertes por patada de mala en la armada prusiana. Las siguientes variables podrian tener una distribucién de Poisson: ~ Niimero de bacterias por ml = Niimero de accidentes por semana en una interseceion, = Namero de animales encontrados por Km’. ~ Niimero de emergencias atendidas en un hospital por dia. El procedimiento para la prueba seri muy similar al presentado en la seccin anterior. La tinica diferencia esti en la forma de calcular las frecuencias esperadas, que en este caso se calculardn bajo el supuesto de que la variable tiene una distribucién de probabilidades dada. Hipotesis Hp: La variable X tiene una distribucién de probabilidades dada. Hy: La variable X’no tiene una distribucion de probabilidades dada Las frecuencias esperadas se calculan de la siguiente manera: =", donde p, son las probabilidades correspondientes a cada valor de segiin la distribucion de probabilidades establecida en la hipétesis nula. Si la distribucién es Binomial las probabilidades se calcularan con la siguiente formula: (per Si la distribucion es de Poisson las probabilidades se calcularan con: f(x) Ing, Rail Eyzaguirre Pérez 5 reyzaguirre@lamolina edi.pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado ett aT FO)= Los grados de libertad para el estadistico de prueba son (k — 1 - m) donde kes el niimero de categorias y m el niimero de parimetros estimados. En el caso de la distribucién Binomial podria ser necesario estimar x y en el caso de la distribucién de Poisson podria ser necesario estimar p. Regla de Decisi La hipétesis nula se rechaza con un nivel de significacién a si el 2 resulta mayor que el valor de tabla 7 71-4,¢-1-m} Ejemplo 2: Hay 1000 bolsas de naranjas, cada una de las cuales contiene 10 naranjas. Algunas de las naranjas estén podridas. {Es la distribucién de probabilidades del namero de naranjas podridas por bolsa una Binomial(10, 2)? Los resultados obtenidos tras analizar Jas 1000 bolsas son los siguientes: ‘Nimero denaranjas podridas [0 | 1 | 2 | 3 | 4 | 5 | 6 Frecuencia observada (bolsas) | 334 | 369 | 191 | 63 | 22 | 12 | 9 Ho: El nimero de naranjas podridas por bolsa sigue una distribucién Binomial (10, 7) para algin x. Hy: El niimero de naranjas podridas por bolsa no sigue una distribucién Binomial (10, 7) Dado que no se conoce la proporcién de naranjas podridas 2, este valor seré estimado con Ja proporeién muestra #denaranjas podridas __1142 US 0.1142 # de naranjas 10000 Ahora, se calculan las probabilidades binomiales para X= 0, 1, 2, 3, 4,5 y 66 mis, ya partir de estas probabilidades se calculan las frecuencias esperadas’ ‘Nim, de naranjas podridas () [0 i 2 [3 4 3 | 66+ Frecuencias observadas 334 | 369 |i | 63 [22 | 12 | 9 PX) (0.2974 | 0.3834 | 0.2224 | 0.0765 | 0.0173 | 0.0027 | 0.0003 Frecuencias esperadas 207.4 | 383.4 | 222.4] 765 | 173 | 27 | 03 Note que las dos tiltimas frecuencias esperadas son menores a 5, por lo que ser necesario ‘agrupar las tres iltimas categorias: ‘Namero de naranjas podridas (X)[ 0 1 2 3] 46+ Frecuencias observadas 334 | 309 | 91 | 63 4B pO 0.2974 | 0.3834 | 0.2224 | 0.0765 | 0.0203 Frecuencias esperadas 2974 | 383.4 | 2224 | 765 | 203 Con estos datos el estadistico de prueba es: Ing, Rail Eyzaguirre Pérez 6 reyzaguirre@lamolina edi.pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado sere 37.24 Los grados de libertad para el estadistico de prueba serin 3 (5 categorias ~ I~ 1 parémetro estimado). El valor de tabla para un nivel de significacin del 5% eS i, xy) =7-815. Como el valor calculado es mayor que el valor de tabla se rechaza Ho. En conclusién existe suficiente evidencia estadistica para aceptar que el niimero de naranjas podridas por bolsa no sigue una distribucién Binomial Ejemplo 3: Un entomélogo esti analizando Ia distribucién de una especie de insecto en una zona de cultivo, Para dicho estudio seleccioné 40 parcelas de 2m x 2m y contabiliz6 el nimero de insectos de dicha especie en cada una, Los resultados son los siguientes’ Niimero de insectos 0 1 2 3 4 Niimero de parcelas 4 16 12 6 2 Pruebe con a =0.05 si los datos se ajustan a una distribucién de Poisson, Ho: El niamero de insectos por parcela sigue una distribucién de Poisson (jt) para algtin j. Hj: El niimero de insectos por parcela no sigue una distribucién de Poisson (11) Dado que no se conoce el parimetto j, este valor seri estimado con la media muestra EGS #deparcelas 40 pay — Fae nse Ahora, se calculan las probabilidades de la distribucién de Poisson para X= 0, 1,2,3y 46 mis, y a partir de estas probabilidades se calculan las frecuencias esperadas: ‘Numero de insectos (X) 0 1 2 3__|46 mas Frecuencias observadas 4 16 12 6 2 PX 0.1920 | 03169 | 0.2614 [0.1438 | 0.0859 Frecuencias esperadas 7.68 | 12.68 | 1046 [5.75 | 3.43 Agrupando las dos iltimas categorias se tiene: ‘Niimero de insectos (X) 0 1 2 [3omis Frecuencias observadas 4 16 2 8 pd) 0.1930 | 03169 | 0.2614 | 0.2206 Frecuencias esperadas 7.68 | 12.68 | 10.46 | 9.19 Con estos datos el estadistico de prueba es: ye - 30175 Los grados de libertad para el estadistico de prueba serin 2 (4 categorias estimado). El valor de tabla para un nivel de significacion del 5% es 73. sy =5.991. Ing, Rail Eyzaguirre Pérez 7 reyzaguirre(@lamolina edu pe Departamento de Estadistica e Informética Curso: Métodos Estadisticas para la Investigacion I Aplicaciones de la Prueba Chi -Cuadrado ‘Como el valor calculado es menor al valor de tabla no se rechaza Ho, En conclusion no existe suficiente evidencia estadistica para rechazar que el nimero de insectos por parcela siga una distribucién de Poisson Una caracteristica importante de la distribucién de Poisson es que los eventos estin distribuidos en forma aleatoria en el intervalo; por lo tanto, la prueba de bondad de ajuste a la distribucién de Poisson puede ser utilizada para probar la aleatoriedad en la distribucién de los eventos. 3. Pruebas Chi-Cuadrado para Tablas de Contingencia de dos Entradas En esta seccién se verin las pruebas de homogencidad de subpoblaciones y de independencia. Si bien ambas pruebas presentan el mismo procedimiento de calculo, las hipétesis a probar son diferentes y por lo tanto las conclusiones obtenidas también, 3.1. Prueba de Homogeneidad de Subpoblaciones, Esta prueba permite analizar si la distribucién de probabilidades de una variable es la misma en r poblaciones. Datos: Existen r poblaciones y una muestra aleatoria es extraida desde cada poblacién. Sea me el tamafo de la muestra extraida de la /-ésima poblacién. Cada observacién de cada muestra puede ser clasificada en una de c categorias diferentes. Los datos son arreglados en la siguiente tabla de contingencia rc Categoria 1 | Categoria 2 Categoria €] Total Poblacion 1 ou on | Ore Me on o Poblacién r On re Dow Total De Mac Naw En la tabla, oy es ef nimero de observaciones de la muestra i clasificadas en la categoria j; ney es el nlimero total de observaciones en la categoria j extraidas desde las r poblaciones y ri ¢s el total de observaciones extraidas desde las r poblaciones. Hipotesis: Sea 7 la probabilidad de que una observacién seleccionada de la poblacién i sea clasificada en la categoria j. Entonces las hipétesis son: Ho: y= my = Ty para todo j= 1,2, ..¢ Hy: Al menos una igualdad no se cumple. Ing, Rail Eyzaguirre Pérez 8 reyzaguirre(@lamolina edu pe

También podría gustarte