0% encontró este documento útil (0 votos)
34 vistas

NT4 Jicuadrada

Este documento explica cómo obtener valores críticos de la distribución chi-cuadrada y usarla para probar independencia entre variables. Proporciona ejemplos de cómo calcular valores críticos chi-cuadrada y usar la prueba chi-cuadrada de independencia para determinar si el sexo de una persona y su cerveza preferida son variables independientes. También resume cómo usar la prueba chi-cuadrada de bondad de ajuste para probar si un conjunto de datos se ajusta a una distribución específica como la normal.

Cargado por

Nataly Maya
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
34 vistas

NT4 Jicuadrada

Este documento explica cómo obtener valores críticos de la distribución chi-cuadrada y usarla para probar independencia entre variables. Proporciona ejemplos de cómo calcular valores críticos chi-cuadrada y usar la prueba chi-cuadrada de independencia para determinar si el sexo de una persona y su cerveza preferida son variables independientes. También resume cómo usar la prueba chi-cuadrada de bondad de ajuste para probar si un conjunto de datos se ajusta a una distribución específica como la normal.

Cargado por

Nataly Maya
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 16

Nota técnica 4.

Jicuadrada
Elaborado por:
Mtro. Efraín Nava Álvarez
Catedrático del IPN

Obtención de valores críticos de la distribución  2

Los valores críticos de la distribución ji cuadrada se obtienen de forma muy sencilla como
se muestra a continuación.

Ejemplos

Obtener los valores críticos para los grados de libertad (g. l.) y el área en el extremo
derecho (  ) que se da en cada uno de los siguientes ejercicios:

1. g.l.=24,   0.01. Este valor lo representaremos simbólicamente de la siguiente


manera:  2 (24,0.01)

Solución

En la tabla anexa, en la columna del extremo izquierdo (color amarillo, se busca el grado
de libertad igual a 24; en primer renglón (color verde) se busca el área igual a 0.10. Se
localiza la intersección perpendicular entre el renglón y la columna buscada, y se obtiene
el valor crítico; por lo tanto:  2 (24,0.01)  42.9798 .

2. Obtener  2 (15,0.025)

Solución
De igual manera, en la tabla anexa, en la columna del extremo izquierdo (color amarillo,
se busca el grado de libertad igual a 15; en primer renglón (color verde) se busca el área
igual a 0.025. Se localiza la intersección perpendicular entre el renglón y la columna

buscada, y se obtiene el valor crítico; por lo tanto:  2 (24,0.01)  42.9798 .

Por lo tanto:  2 (10,0.025)  20.4832

Observaciones

1. Los valores críticos cercanos a cero, es decir los del lado izquierdo, se utilizan
cuando se estiman intervalos de confianza para la varianza o la desviación
estándar; sin embargo, estos temas no forman parte del curso.
2. La tabla anexa contiene solo grados de libertad hasta el valor de 39. Puede
parecer que esto es muy limitado, al tener una mayor número de datos, 100, 150,
300, 1000, etc. Sin embargo, los grados de libertad están asociados al número de
celdas que se emplean en las tablas de contingencia, por lo cual para la gran
mayoría de las aplicaciones esta tabla contiene los valores suficientes.

Pruebas de independencia

Frecuentemente es de interés estudiar la relación entre dos variables, por ejemplo:


¿Qué relación existe entre los años de escolaridad y el ingreso que percibe una persona?
¿Qué relación existe entre el número de comerciales por televisión de un producto y las
ventas mensuales de dicho producto?

¿Qué relación existe entre la zona geográfica en que viven las personas y su preferencia
política?
¿Qué relación existe entre la formación profesional de los padres y la carrera universitaria
que eligen los hijos?

La estadística provee herramientas para estudiar la relación entre dos variable; si ambas
son cuantitativas, se puede utilizarla regresión y correlación lineal; en cambio si
ambas son cualitativas se emplean tablas de contingencia.

Los dos primeros casos se pueden analizar con la regresión lineal y los dos últimos con
las tablas de contingencia, en específico con las pruebas de independencia.

La distribución Ji cuadrada permite estudiar la independencia entre dos variables


principalmente en una escala nominal y cuyos datos quedan contenidos en un arreglo
tabula llamado “tabla de contingencias”.

La hipótesis nula para este tipo de pruebas tiene la forma:

: “Las variables contenidas en la tabla de contingencias son independientes”

El valor crítico, a una nivel dado de significancia, se busca en la tabla con un número de
grados de libertad gl en(rel 1)(c  1)
cual:
r  número de renglones

c  número de columnas

Ejemplo

Una cervecera desea saber si sus diferentes productos tiene igual aceptación entre
mujeres y hombres, para ello lleva a cabo una encuesta, la cual arroja los siguientes
resultados:

FRECUENCIAS CERVEZA CERVEZA CERVEZA


OBSERVADAS LIGERA CLARA OSCURA TOTALES

HOMBRES 30 15 45 90

MUJERES 10 40 33 83
40 55 78
TOTALES

Con estos datos se probará la hipótesis nula:


Ho : “El sexo de las personas es independiente del tipo de cerveza que prefieren”

Los datos de la encuesta corresponden a las frecuencias observadas, para calcular las
frecuencias esperadas de la ij-ésima celdas, se utiliza la siguiente relación:

Esta tabla corresponde a datos observados en 1 muestra.

Las frecuencias esperadas se calculan de la siguiente manera:

90(40) 90(55) 90(78)


fe11   20.80 fe12   28.61 fe13   40.57
173 173 173

83(40) 83(55) 83(78)


fe 21   19.19 fe 22   26.38 fe 23   38.42
173 173 173

Por lo tanto, las frecuencias esperadas son:

FRECUENCIAS CERVEZA CERVEZA CERVEZA


ESPERADAS LIGERA CLARA OSCURA

HOMBRES 20.80 20.61 40.57

MUJERES 19.19 26.38 38.42

Ahora se calcula la estadística de prueba

Con un nivel de significancia de 2.5% y gl  (r  1)(c  1)  (2  1)(3  1)  1(2)  2 , en la


tabla de la Ji-cuadrada obtenemos lo siguiente:
Finalmente para tomar la decisión respecto a la hipótesis nula, se compara el valor crítico
con la estadística de prueba.

Como se observa, la estadística de prueba cae en la región crítica, por lo que se rechaza
la hipótesis nula, por tanto, los datos arrojan una fuerte evidencia para afirmar que el sexo
de una persona y el tipo de cerveza preferida no son variables independientes, es decir, el
tipo de cerveza preferida depende del sexo de las personas.

Introducción

Al estudiar aplicaciones que involucren modelos probabilísticos, a priori se establece que


la variable aleatoria asociada a un conjunto de datos, o resumida mediante sus
parámetros, tiene una distribución de probabilidad específica, por ejemplo, se dice que la
variable es de tipo normal, del tipo poisson, etc., pero… ¿en verdad tiene la distribución
que se indica?. Seguramente que sí, pero más vale probarlo y la distribución ji-cuadrada
permite probar si un conjunto de datos corresponden a una distribución probabilística en
específico.

Bondad de Ajuste

Es otra de las aplicaciones de la distribución ji-cuadrada y consiste en observar un


conjunto de frecuencias observadas de una variable aleatoria, supone que tiene cierta
distribución de probabilidad y lleva a cabo una prueba de hipótesis para contrastar esta
idea.

La estadística de prueba es la misma que la utilizada en la pruebas de homogeneidad y


de independencia:

Es necesario construir una tabla de frecuencias para agrupar las frecuencias observadas.
Para el valor crítico, los grados de libertad a utilizar son gl  k  p  1
En la cual: k  Número de clases

p  Número de parámetros estimados

Ejemplo 1. Bondad de ajuste para la distribución normal

Los siguientes datos corresponden a los puntajes en un examen de certificación de 50


estudiantes de una especialidad.

70 58 55 75 72 58 44 80 88 77

55 70 70 64 31 77 90 66 56 54

84 90 80 55 56 64 85 75 74 72

75 45 90 50 74 75 70 50 61 80

60 80 40 50 47 50 50 46 50 49

Probar con un nivel de significancia del 5% si estos datos tienen distribución normal.

Solución

Se calcula la media y la desviación estándar de los 50 datos (se anotan únicamente los
resultados, esto corresponde a la estadística descriptiva y no debes tener problemas para
calcularlos. Al final se incluye un apéndice de cómo realizar estos cálculos utilizando
excel).

x
 x  3287  65.74 s
 (x  x) 2


9823.24
 14.16
n 50 n 1 49
Estos valores permiten construir las clases para agrupar los datos. De la fórmula
x
z se despeja “ x ” y resulta x  z  

Para agrupar los datos es necesario construir las clases para congregar los datos, como
50
se tienen 50 datos, conviene utilizar 10 clases  5 , ya que con esto se asegura que
10
cada clase tenga 5 datos, los cuales representarían las frecuencias esperadas y con ello
se cumple el supuesto de la distribución ji-cuadrada.

Para construir 10 clases, es necesario obtener 9 valores de la variable aleatoria, cada uno
de los cuales concentra a un 10% de datos.

El valor Z5 ocupa el centro de la distribución, por lo que su valor es cero.

La simetría de la distribución ayuda a simplificar el trabajo, ya que los valores de la


izquierda solo difieren del signo con respecto a los valores a la derecha de la media.

Determinación de Z1 y Z9

La primera clase contendrá el 10% de los datos al igual que la décima clase, pero ésta
tendrá 90% de datos acumulados a la izquierda. Por tanto, en ambos casos se busca 0.40
que es el área al centro.
Determinación de Z2 y Z8

La segunda clase contendrá el 20% de datos acumulados a la izquierda y la octava clase


tendrá 80% de datos acumulados a la izquierda. Por tanto, en ambos casos se busca 0.30
que es el área al centro.

Determinación de Z3 y Z7

La tercera clase contendrá el 30% de datos acumulados a la izquierda y la séptima clase


tendrá 70% de datos acumulados a la izquierda. Por tanto, en ambos casos se busca 0.20
que es el área al centro.
Determinación de Z4 y Z6

La cuarta clase contendrá el 40% de datos acumulados a la izquierda y la sexta clase


tendrá 600% de datos acumulados a la izquierda. Por tanto, en ambos casos se busca
0.10 que es el área al centro.

Por lo tanto, se sustituyen los valores en la fórmula x  z   y queda:


x1  z1    128(14.16)  65.74  47.61

x2  z 2    0.84(14.16)  65.74  53.84

x3  z3    0.52(14.16)  65.74  58.37

x4  z    0.25(14.16)  65.74  62.2

x5  0

x6  z 6    0.25(14.16)  65.74  69.28

x7  z 7    0.52(14.16)  65.74  73.10

x8  z8    0.84(14.16)  65.74  77.63

x9  z9    1.28(14.16)  65.74  83.86


Por tanto, si hacemos los ajustes apropiados para redondear los límites, tenemos la
siguiente agrupación:
Puntaje obtenido Frecuencia Frecuencia
observada esperada

Menos De 48 4 5

De 48 a menos de 53 8 5

De 53 a menos de 58 6 5

De 58 a menos de 62 4 5

De 62 a menos de 65 2 5

De 65 a menos de 69 1 5

De 69 a menos de 73 5 5

De 73 a menos de 78 7 5

De 73 a menos de 83 7 5

83 o más 6 5

Se calcula ahora la estadística de prueba

2 
 ( fo  fe) 2

, por comodidad, se añade una columna a la tabla anterior.


fe

Puntaje obtenido Frecuencia Frecuencia ( fo  fe) 2


observada esperada

Menos De 48 4 5 (4  5) 2  1

De 48 a menos de 53 8 5 (8  5) 2  9

De 53 a menos de 58 6 5 (6  5) 2  1

De 58 a menos de 62 4 5 (4  5) 2  1

De 62 a menos de 65 2 5 (2  3) 2  1
De 65 a menos de 69 1 5 (1  5) 2  16

De 69 a menos de 73 5 5 (5  5) 2  0

De 73 a menos de 78 7 5 (7  5) 2  4

De 73 a menos de 83 7 5 (7  5) 2  4

83 o más 6 5 (6  5) 2  1

 ( fo  fe) 2
 46

Por lo tanto  2 
 ( fo  fe) 2


46
 9.2
fe 5

Valor critico

De la tabla de la distribución ji-cuadrada, se busca el valor  c2( gl, ) donde gl  k  p  1


Donde:

k  Número de celdas = 5

p  Número de parámetros estimados = 2 (se estimaron la media y la desviación estándar


de los datos)

gl  k  p  1  5  2  1  2

Con un nivel de significancia del 5% la consulta de la tabla arroja siguiente resultado:

El valor crítico con el nivel de significancia de 5% es: 5.99


Decisión estadística

Como la estadística de prueba cae en la región de rechazo, se impugna la hipótesis nula,


por lo que la evidencia muestral contradice el hecho de que los datos tengan distribución
normal.

Ejemplo2. Bondad de ajuste parea la distribución de poisson

Suponga que el número de llamadas telefónicas que entran al conmutador de una


empresa durante intervalos de un minuto tiene una distribución de poisson. Usar un nivel
de significancia de   0.10 para probar que la hipótesis de que los siguientes datos de
las llamadas que entran tienen una distribución de poisson.
Número de llamadas Frecuencia

(durante un intervalo de un observada


minuto)

0 15

1 31

2 20

3 15

4 13

5 4

6 2

Hipótesis nula:

Ho: Los datos tienen una distribución de poisson.

Se calcula el valor esperado de la distribución:

0(15)  1(31)  2(20)  3(15)  4(13)  5(4)  6(2) 200


  2
15  31  20  15  13  4  2 100

Ahora utilizamos la distribución de poisson para calcular las probabilidades que


correspondan a las frecuencias observadas
e  x
El modelo de poisson es P( x)  y dado que   2 , se tiene:
x!

e 2 2 x
P( x) 
x!

Con esto se calculan las probabilidades y las frecuencias esperadas.

e 2 2 x Frecuencia esperada
x P( x)  n p = 100 P(x)
x!
0 0.1353 13.53
1 0.2706 27.06
2 0.2706 27.06
3 0.1804 18.04
4 0.0902 9.02
5 0.0360 3.60
6 0.0120 1.20

Observación

Un supuesto importante de la distribución ji-cuadrada establece que las frecuencias


esperadas sean de por lo menos 5 en cada categoría.

Notamos que las dos últimas clases no cumplen con esta condición, por lo que se deben
agrupar las clases para cumplir este requisito. Se agrupan las 3 últimas clases y se tiene
la siguiente distribución:

X e 2 2 x Frecuencia
P( x)  esperada
x! n p = 100 P(x)
0 0.1353 13.53
1 0.2706 27.06
2 0.2706 27.06
3 0.1804 18.04
4 o más 0.1382 13.82

Para que se conserve la correspondencia, también se deben agrupar las tres últimas
clases de la frecuencia observada.

Número de llamadas Frecuencia

(durante un intervalo de un observada


minuto)
0 15

1 31

2 20

3 15

4 o más 19

Estadística de prueba

Se calcula con la expresión:  2



 ( fo  fe) 2

fe
(15  13.53) 2 (31  27.06) 2 (20  27.06) 2 (15  18.04) 2 (19  13.82) 2
2       5.028
13.53 27.06 27.06 18.04 13.82

Valor critico

De la tabla de la distribución ji-cuadrada, se busca el valor  c2( gl, ) donde gl  k  p  1

Donde:

k  Número de celdas = 5

p  Número de parámetros estimados = 1 (la media de la distribución,  )

gl  k  p  1  5  1  1  3

Con un nivel de significancia del 5% la consulta de la tabla arroja siguiente resultado

El valor crítico es:  c2(3,0.05)  7.8147


Decisión estadística

Se compara el valor crítico  c2(3,0.05)  7.8147 con la estadística de prueba  2  5.028

Como la estadística de prueba cae no cae en la región crítica, no se rechaza Ho, por lo
tanto los datos si tienen una distribución del tipo poisson.

Tabla de la distribución ji cuadrada

GRADOS

DE

LIBERTAD
 = área en el extremo derecho

0.100 0.050 0.025 0.010 0.005


1 2.7055 3.8415 5.0239 6.6349 7.8794
2 4.6052 5.9915 7.3778 9.2104 10.5965
3 6.2514 7.8147 9.3484 11.3449 12.8381
4 7.7794 9.4877 11.1433 13.2767 14.8602
5 9.2363 1.07105 12.8325 15.0863 16.7496
6 10.6446 12.5916 14.4494 16.8119 18.5475
7 12.0170 14.0671 16.0128 18.4753 20.2777
8 13.3616 15.5073 17.5345 20.0902 21.9549
9 14.6837 16.9190 19.0228 21.6660 23.5893
10 15.9872 18.3070 20.4832 23.2093 25.1881
11 17.2750 19.6752 21.9200 24.7250 26.7569
12 18.5493 21.0261 23.3367 26.2170 28.2997
13 19.8119 22.3620 24.7356 27.6882 29.8193
14 21.0641 23.6848 26.1189 29.1412 31.3194
15 22.3071 24.9958 27.4884 30.5780 32.8015
16 23.5418 26.2962 28.8453 31.9999 34.2671
17 24.7690 27.5871 30.1910 33.4087 35.7184
18 25.9894 28.8693 31.5264 34.8052 37.1564
19 27.2036 30.1435 32.8523 36.1908 38.5821
20 28.4120 31.4104 34.1696 37.5663 39.9969
21 29.6151 32.6706 35.4789 38.9322 41.4009
22 30.8133 33.9245 36.7807 40.2894 42.7957
23 32.0069 35.1725 38.0756 41.6383 44.1814
24 33.1962 36.4150 39.3641 42.9798 45.5584
25 34.3816 37.6525 40.6465 44.3140 46.9280
26 35.5632 38.8851 41.9231 45.6416 48.2898
27 36.7412 40.1133 43.1945 46.9628 49.6450
28 37.9159 41.3372 44.4608 48.2782 50.9936
29 39.0875 42.5569 45.7223 49.5878 52.3355
30 40.2560 43.7730 46.9792 50.8922 53.6719
31 41.4217 44.9853 48.2319 52.1914 55.0025
32 42.5847 46.1942 49.4804 53.4857 56.3280
33 43.7452 47.3999 50.7251 54.7754 57.6483
34 44.9032 48.6024 51.9660 56.0609 58.9637
35 46.0588 49.8018 53.2033 57.3420 60.2746
36 47.2122 50.9985 54.4373 58.6192 61.5811
37 48.3634 52.1923 55.6680 59.8926 62.8832
38 49.5126 53.3835 56.8955 61.1620 64.1812
39 50.6598 54.5722 58.1201 62.4281 65.4753

Fuentes de información

http://www.edustatspr.com/Materiales/tablas/tabx2(df,a).php

También podría gustarte