PyE2 Unidad3 ML
PyE2 Unidad3 ML
PyE2 Unidad3 ML
Ensayo de Hipótesis y
Significación
Campus Universitario
Índice
1. Ensayo de Hipótesis y Significación ............................................................................. 3
1.1. Introducción ................................................................................................................. 3
2. Prueba de Hipótesis .................................................................................................... 3
3. Errores de tipo I y tipo II ............................................................................................. 4
4. Nivel de significancia .................................................................................................. 4
5. Pruebas Especiales de significación para muestras grandes ......................................... 5
6. Pruebas Especiales de significación para muestras pequeñas .................................... 15
6.1. Distribución t-Student................................................................................................ 16
Tabla de la Distribución t-Student ........................................................................................ 18
6.2. Prueba Ji-cuadrado para la bondad del ajuste .......................................................... 26
Tabla de la Distribución Ji-Cuadrado .................................................................................... 27
6.3. Tabla de contingencia ................................................................................................ 32
Coeficiente de Contingencia (CC) ......................................................................................... 33
Bibliografía...................................................................................................................... 39
2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
1.1. Introducción
En la práctica, en diferentes ramas del saber científico, nos vemos en la necesidad de tomar
decisiones relativas a una población sobre la base de las informaciones obtenidas de una
muestra. Para establecer si un método pedagógico es mejor que otro, si un medicamento
elimina en menos tiempo promedio una afección que otro medicamento, si la calificación
promedio en matemática de los alumnos egresados de la educación media ha disminuido
con los años, etc., podemos basar nuestra decisión en los datos de una muestra aleatoria
que extraemos de la población objeto de estudio. Para ello, debemos establecer una
hipótesis que enmarque nuestra línea de investigación, una premisa que nos permita
determinar el rumbo a seguir.
Una hipótesis es una suposición acerca del valor de un parámetro de una población que
establecemos con el propósito de discutir su validez. Son ejemplos de hipótesis:
Para validar las hipótesis utilizamos las pruebas o ensayos de hipótesis, que son
procedimientos, basados en la evidencia de la muestra y en la teoría de probabilidades, que
nos permite determinar si la hipótesis planteada es una afirmación razonable o no, si debe
ser aceptada o rechazada.
2. Prueba de Hipótesis
Levin, Rubin (2010) señalan lo siguiente: En una prueba de hipótesis, debemos establecer el
valor supuesto o hipotético del parámetro de la población antes de tomar la muestra. La
suposición que deseamos probar se conoce como hipótesis nula y se simboliza H 0 .
H0 : µ = 500
Si los resultados de nuestra muestra no respaldan la hipótesis nula, debemos contar con otra
opción para respaldar nuestra investigación. Cualquier hipótesis que difiera de la hipótesis
nula recibe el nombre de hipótesis alternativa su símbolo es H 1 . Consideremos tres
hipótesis alternas posibles:
3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
• H 1 > 500 la hipótesis alternativa es que la media de la población es mayor que 500.
• H 1 < 500 la hipótesis alternativa es que la media de la población es menor que 500.
Si suponemos que una hipótesis nula es verdadera, pero notamos que los resultados
muestrales difieren marcadamente de los esperados bajo la distribución de muestreo
seleccionada, podremos decir que las diferencias observadas son significativas y nos
inclinamos a rechazar la hipótesis nula, o por lo menos no aceptarla debida a la evidencia
muestral obtenida.
Los procedimientos que nos permiten aceptar o rechazar la hipótesis nula o lo que es lo
mismo, determinar si las muestras observadas difieren significativamente de los resultados
esperados reciben el nombre de pruebas de hipótesis.
Si por el contrario, aceptamos una hipótesis nula cuando ésta debía rechazarse, decimos que
se ha cometido un error de tipo II, su símbolo es β
Aceptar H 0 Rechazar H 0
H 0 verdadera Decisión correcta Error de tipo I = α
H 0 falsa Error de tipo II = β Decisión correcta
Tabla 1: Esquematización de los errores
4. Nivel de significancia
Spiegel, Schiller, Alu (2003) indican que al probar una hipótesis dada, la probabilidad máxima
con la que queremos tomar el riesgo de un error de tipo I se llama nivel de significación de la
prueba. Esta probabilidad se especifica antes de que se hayan tomado muestras, para que
los resultados no influyan en nuestra decisión.
Un nivel de significancia del 5% indica que el error de tipo I es α = 0,05 . Esto nos dice que
hay posibilidad de 5 en 100 de que rechacemos la hipótesis nula cuando deberíamos
aceptarla.
Es decir, siempre que la hipótesis nula sea verdadera, tenemos 95% de confianza de que
tomaremos la decisión correcta.
4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
En las pruebas que tendremos en cuenta, la hipótesis nula H 0 será una afirmación de que
cierto parámetro de una población tiene un valor específico, y la hipótesis alternativa será
alguna de las siguientes afirmaciones:
H0 : θ = θ0
H1 : θ > θ0
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
H0 : θ = θ0
H1 : θ < θ0
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
H0 : θ = θ0
H1 : θ ≠ θ0
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 1
La acción de un medicamento es tal que el cuerpo tolera dosis excesivas sin sufrir daño. Por
otra parte, las dosis insuficientes no producen el efecto médico deseado e interfieren con el
tratamiento del paciente. El hospital ha adquirido la cantidad de medicamento que necesita
al mismo fabricante durante varios años y sabe que la desviación estándar de la población es
2 cm3. El hospital inspecciona aleatoriamente, 50 dosis, tomadas de un envío muy grande y
encuentra que la media de estas dosis es 99,75 cm3.
Si el hospital establece un nivel de significación de 0,10 y nos pregunta si las dosis de esta
entrega son demasiados pequeñas, ¿cuál es la respuesta?
Solución
De la Tabla 2 notamos que el valor crítico de z para una prueba unilateral y para un nivel de
significancia de 0,10 es Z c = −1,28 .
7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si Z cal ≥ Z c = −1,28 se
Criterio de decisión acepta H 0 , se rechaza en
caso contrario
Como Z cal = −0,88 > Z c = −1,28 , se acepta H 0 para un nivel de significancia de 0,10. Por lo
tanto, el hospital debe aceptar la hipótesis nula, porque la media observada de la muestra
no es significativamente menor que la media hipotética de 100 cm3. Con base en esta
muestra de 50 dosis, el hospital debe concluir que las dosis de la entrega son adecuadas.
Ejemplo 2
Paraguay Cines sabe que la película 7 Cajas se exhibió con éxito un promedio de 84 días en
varios departamentos del país y que la desviación estándar correspondiente fue de 10 días.
El intendente de Ciudad del Este se interesó en comparar la popularidad de la película en
Alto Paraná con la que tuvo en otros departamentos. Eligió 75 lugares, entre cines, colegios,
barrios, etc., donde la película fue exhibida en su región y encontró que la película estuvo en
cartelera, en promedio 87 días. ¿El intendente de Ciudad del Este puede asegurar que en
Alto Paraná la película tuvo más éxito que en el resto del país?, pruebe las hipótesis
adecuadas al 1% de significancia.
8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
De la Tabla 2 notamos que el valor crítico de z para una prueba unilateral y para un nivel de
significancia de 0,01 es Z c = 2,33 .
Si se acepta
, se rechaza en caso
Criterio de decisión
contrario
9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
x−µ 87 − 84
Z cal = Z cal =
σ 10
n 75
Z cal = 2,60
Como Z cal = 2,60 > Z c = 2,33 , se rechaza H 0 para un nivel de significancia de 0,01. Por lo
tanto, el intendente no debe aceptar la hipótesis nula, porque la media observada de la
muestra es significativamente mayor que la media hipotética de 84 días. Con base en esta
muestra de 75 salas, el intendente tiene razón y debe concluir que la película tuvo más éxito
en Alto Paraná.
Ejemplo 3
Un ingeniero industrial afirma que un nuevo motor de cierto artefacto funciona sin
problemas con un promedio de 800 kilovatios de potencia diaria. La potencia a utilizar por
día es generada por un molino, se asume que la potencia tiene una distribución normal con
σ = 120 kilovatios. Se decide tomar una muestra de 45 observaciones del molino y se
obtuvo una media muestral de 776 kilovatios. Se puede asegurar que la potencia generada
por el molino diariamente servirá para que el motor funcione sin contratiempos. Pruebe las
hipótesis adecuadas al 5% de significancia.
Solución
10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
De la Tabla 2 notamos que el valor crítico de z para una prueba bilateral y para un nivel de
significancia de 0,05 es Z c = ±1,96
Si se
acepta , se rechaza en caso
Criterio de decisión
contrario
Hallamos el valor estandarizado, Z cal , de la media muestral x = 776 , dado que la desviación
estándar σ = 120 y n = 45
Como Z c = −1,96 < Z cal = −1,34 < Z c = 1,96 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto, se debe aceptar la hipótesis nula, porque la media observada de la
muestra no es significativamente diferente de la media hipotética de 800 kilovatios. Con
base en esta muestra de 45 observaciones, se debe concluir que la potencia generada por el
molino hará que el motor funcione sin contratiempos.
11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 4
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas.
El proceso de llenado puede suponerse normal, con desviaciones estándar de σ 1 = 0,015 y
σ 2 = 0,018 . El ingeniero de control de calidad sospecha que ambas máquinas no llenan el
volumen neto necesario. Se toma una muestra aleatoria de la salida de cada máquina. ¿El
ingeniero tiene razón?, pruebe las hipótesis para α = 0,05 .
Máquina 1 Máquina 2
16,03 16,01 16,02 16,03
16,04 15,96 15,97 16,04
16,05 15,98 15,96 16,02
16,05 16,02 16,01 16,01
16,02 15,99 15,99 16,00
Solución
Como conocemos las desviaciones estándar poblacionales de las dos máquinas y aunque
n1 = n2 = 10 son menores que 30, podemos utilizar la distribución normal.
De la Tabla 2 notamos que el valor crítico de z para una prueba bilateral y para un nivel de
significancia de 0,05 es Z c = ±1,96
12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si se
Criterio de decisión acepta , se rechaza en caso
contrario
Hallamos el valor estandarizado, Z cal , para ello calculamos las medias de la muestra de las
mediciones correspondientes a las máquinas 1 y 2; X 1 = 16,015 y X 2 = 16,005 , dados las
desviación estándar σ 1 = 0,015 y σ 2 = 0,018 y n1 = n2 = 10
Z cal =
(X 1 − X 2 ) − (µ1 − µ 2 )
σ 21 σ 22
+
n1 n2
16,015 − 16,005
Z cal = Z cal = 1,34
0,015 2 0,018 2
+
10 10
Como Z c = −1,96 < Z cal = 1,34 < Z c = 1,96 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto no existe evidencia estadística para pensar que las medias son diferentes,
por lo que concluimos que las sospechas del ingeniero son infundadas.
Ejemplo 5
13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es
razonable concluir que la línea de producción 1 produce una fracción más baja de producto
defectuoso que la línea 2? Use α = 0,01.
Solución
De la Tabla 2 notamos que el valor crítico de z para una prueba de cola izquierda y para un
nivel de significancia de 0,01 es Z c = −2,33 .
14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
( p1 − p 2 ) − (P1 − P2 )
Z cal =
p1 .(1 − p1 ) p 2 .(1 − p 2 )
+
n1 n2
Z cal =
(− 0,01) − (0) Z cal = −1,95
0,01.(1 − 0,01) 0,02.(1 − 0,02)
+
1.000 1.200
Como Z cal = −1,95 > Z c = −2,33 , se acepta H 0 para un nivel de significancia de 0,01. Por lo
tanto, no existe evidencia estadísticamente significativa para rechazar la hipótesis de que las
proporciones son iguales. Con base en estas muestras de 1.000 y 1.200 unidades, debemos
concluir que no es razonable decir que la línea de producción 1 produce una fracción más
baja de producto defectuoso que la línea 2.
Debemos, por lo tanto, estudiar distribuciones que permitan trabajar con pequeñas
muestras, como la distribución t de Student y la distribución ji-cuadrada. Destaquemos que
las distribuciones mencionadas son adecuadas para trabajar con muestras pequeñas, pero
también son útiles para muestras grandes.
15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
∑ (X )
n 2
X −µ ∧ −X
t= , donde s = i =1
es la estimación puntual de σ
i
∧
s n −1
n
Definimos los grados de libertad como la cantidad de valores que pueden ser asignados de
manera arbitraria antes de que empiecen a tomar valores de manera automática. Si
tenemos la suma de las edades de 20 personas, podemos asignar valores arbitrarios a las
edades de 19 de ellos, puesto que el valor de la vigésima dependerá del valor que haga falta
para completar la suma dada. Decimos entonces que tenemos 19 grados de libertad.
Por lo tanto para los problemas prácticos de esta sección, la definición analítica de los grados
de libertad que utilizaremos es:
v = n −1
Ejemplo 6
La vida útil promedio de una muestra aleatoria de 10 focos es 4000 horas, con una
desviación estándar muestral de 200 horas. Se supone que la vida útil de los focos tiene una
distribución aproximadamente normal. Estimar la vida útil promedio de la población de los
focos de la cual se tomó la muestra, utilizando un intervalo de confianza del 95%.
Solución
Notemos que el tamaño de la muestra es n = 10 y que los datos que tenemos son
muestrales.
∧
El promedio muestral es x = 4000 horas y la desviación típica muestral es s = 200 horas. Por
lo tanto:
16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Dadas las dos condiciones mencionadas, debemos utilizar la distribución t-Student para
realizar la estimación pedida.
Como el intervalo de confianza es del 95%, entonces α = 5% = 0,05 y eso nos indica que
α 0,05
1− = 1− = 0,975 .
2 2
t α = t 9; 0,975 = 2,262 .
v ; 1−
2
200 200
4.000 − 2,262. < µ < 4.000 + 2,262.
10 10
Para un nivel de confianza del 95%, la duración media de los focos está comprendida entre
3.857 y 4.143 horas.
17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
La tabla da áreas 1 − α y valores t1−α ; v , donde T tiene distribución t-Student con v grados de
libertad
Fuente: http://webs.uvigo.es/pintos-clapes/docencia/Tabla-t.doc
18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 7
En el pasado una máquina produjo empaques cuyo grosor medio era 0,05 cm. Para
determinar si la máquina estaba trabajando correctamente se tomó una muestra de 12
empaques. Se calculó el promedio de la muestra y la desviación estándar muestral y
resultaron 0,054 cm y 0,003 cm respectivamente. El resultado muestral hace creer que la
máquina produce empaques de un grosor mayor al promedio. Pruebe las hipótesis
adecuadas al 1% de significancia
Solución
Para llegar a la respuesta sigamos los mismos pasos establecidos en los ensayos
correspondientes a grandes muestras:
El nivel de significancia es α = 0,01 , y como el test es de una sola cola, el valor crítico es
t v ;1−α = t11; 0 ,99 . En la tabla t buscamos la fila correspondiente a 11 grados de libertad y la
columna 0,99
19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Como t cal = 2,77 > t11; 0 ,99 = 2,718 , se rechaza H 0 para un nivel de significancia de 0,01. Por
lo tanto, basado en la información obtenida de la muestra, la máquina produce empaques
cuyo grosor no es 0,05.
Ejemplo 8
Las horas extras promedio laboradas en el 2010 por 12 obreros de una tabacalera de la
región fue de 67,5 horas con una desviación estándar de 2,8 horas, mientras que 14 obreros
de la misma tabacalera en el 2011 tenían un promedio de horas extras laboradas igual a
68,2 horas con una desviación típica de 2,5 horas. El Gerente de Recursos Humanos de la
empresa mantiene que el promedio de horas extras laboradas por los obreros de la empresa
en el 2010 es más bajo que el promedio de horas extras laboradas por los obreros en el
2011. ¿Tiene razón el gerente?. Pruebe las hipótesis adecuadas con α = 0,05 .
20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
Partimos de la idea de que los promedios de las horas extras trabajadas son iguales en los
años 2010 y 2011
H 0 : µ1 = µ 2
H 1 : µ1 < µ 2
21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si se
Criterio de decisión acepta , se rechaza en caso
contrario
Hallamos el valor estandarizado, t cal , para ello extraemos los datos del problema dado,
donde las medias de las muestras son; x 1 = 67,5 y x 2 = 68,2 , y las desviaciones estándar
∧ ∧
muestrales son s 1 = 2,8 y s 2 = 2,5 y n1 = 12; n2 = 14
12 × 2,8 2 + 14 × 2,5 2
Sp = S p = 2,75
12 + 14 − 2
22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
t cal =
(67,5 − 68,2) − (0) t cal = −0,65
1 1
2,75 × +
12 14
Como t cal = −0,65 > t v ;1−α = t 24; 0,95 = −1,711 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto no existe evidencia estadística para pensar que las medias son diferentes,
por lo que concluimos que el Gerente no tiene razón.
Ejemplo 9
Solución
Como punto de partida sugerimos que los coeficientes de inteligencia, en promedio, son
iguales
H 0 : µ1 = µ 2
Contra la hipótesis que indica diferencia significativa entre los coeficientes de inteligencia
H 1 : µ1 ≠ µ 2
columna 0,995
23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
t α = t 27 ; 0,995 = 2,771
v ;1−
2
Hallamos el valor estandarizado, t cal , para ello extraemos los datos del problema dado,
donde las medias de las muestras son los coeficientes de inteligencia; x 1 = 107 y x 2 = 112 ,
∧ ∧
con las desviaciones estándar muestrales respectivas s 1 = 10 y s 2 = 8 y n1 = 15; n 2 = 14
24 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
15 × 10 2 + 14 × 8 2
Sp = S p = 9,42
15 + 14 − 2
t cal =
(107 − 112) − (0) t cal = −1,43
1 1
9,42 × +
15 14
Como − t 27 ;0 ,995 = −2,771 < t cal = −0,65 < t 27; 0 ,995 = 2,771 , se acepta H 0 para un nivel de
significancia de 0,01, no existe evidencia estadística para pensar que las medias son
diferentes, la diferencia observada entre las medias muestrales no es significativa.
25 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Consideraremos una prueba para determinar si una población tiene una distribución teórica
específica. La prueba se basa en qué tan buen ajuste tenemos, entre la frecuencia de
ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que
se obtienen a partir de la distribución hipotética.
Evento E1 E2 E3 … Ek
Frecuencias observadas o1 o2 o3 … ok
Frecuencias esperadas e1 e2 e3 … ek
Tabla 7: k posibles eventos y sus frecuencias
k
(oi − ei )2
χ =∑
2
i =1 ei
26 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
α
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 23,21 25,19
11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 50,89 53,67
Tabla 8: Distribución χ2´
27 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 10
En un supermercado, en una semana, se venden 120 latas de tomates en conserva de 500 g.
En una semana específica se observan las siguientes ventas por día:
El gerente de ventas del supermercado está interesado en saber si las ventas están
relacionadas con el día de la semana. Pruebe las hipótesis adecuadas para un nivel de
significación del 5%.
Solución
Para llegar a la respuesta sigamos los siguientes pasos establecidos para problemas de
ensayos de hipótesis:
Como los datos del problema son frecuencias, cantidad de ventas de latas, y queremos
probar si las ventas de distribuyen de manera uniforme en cada día de la semana,
utilizaremos la prueba Ji-Cuadrado.
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)
28 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si se
acepta , se rechaza en caso
Criterio de decisión
contrario
Hallamos el valor de χ 2 cal para lo cual completamos primero el cuadro de ventas diarias
dado en el problema con las frecuencias esperadas.
Si las ventas tienen una distribución uniforme, esperamos que en los seis días analizados se
venda la misma cantidad de latas. Esto es:
120 latas
= 20 latas / día
6 días
Como χ 2 =
(o1 − e1 )2 + (o2 − e2 )2 (ok − ek )2 , entonces:
+ ... +
e1 e2 ek
χ 2 cal =
(20 − 20)2 + (22 − 20 )2 + (17 − 20)2 + (18 − 20)2 + (19 − 20)2 + (24 − 20)2
20 20 20 20 20 20
29 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
χ 2 cal = 1,7
Como χ 2 cal = 1,7 < χ 2 5;0, 05 = 11,07 , se acepta H 0 para un nivel de significancia de 0,05. Por
lo tanto, las ventas diarias siguen una distribución uniforme.
Ejemplo 11
Las calificaciones de 150 alumnos de un curso de estadística para un semestre específico
fueron los siguientes:
El Director General del instituto está interesado en saber si las calificaciones tienen una
distribución uniforme. Pruebe las hipótesis adecuadas para un nivel de significación del 1%.
Solución
Como los datos del problema son frecuencias, cantidad de alumnos que tienen cierta
calificación, y queremos probar si las esas calificaciones se distribuyen de manera uniforme,
utilizaremos la prueba Ji-Cuadrado.
30 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)
Si se
acepta , se rechaza en caso
Criterio de decisión
contrario
Hallamos el valor de χ 2 cal para lo cual completamos primero el cuadro de las calificaciones
con las frecuencias esperadas.
Si las calificaciones tienen una distribución uniforme, esperamos que las cinco calificaciones
analizadas sean obtenidas por la misma cantidad de alumnos.
150 alumnos
= 30 alumnos / calificación
5 calificaciones
31 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Como χ 2 =
(o1 − e1 )2 + (o2 − e2 )2 (ok − ek )2 , entonces:
+ ... +
e1 e2 ek
χ 2 cal =
(35 − 30)2 + (25 − 30)2 + (33 − 30)2 + (40 − 30)2 + (17 − 30)2
30 30 30 30 30
χ 2 cal = 10,93
Como χ 2 cal = 10,93 < χ 2 4;0, 01 = 13,28 , se acepta H 0 para un nivel de significancia de 0,01,
las calificaciones obtenidas por los alumnos siguen una distribución uniforme.
Afiliación Política
P. Colorado P. Liberal
Género Hombre a b
Mujer c d
32 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si al final del estudio concluimos que las variables no están relacionadas podremos concluir
con un determinado nivel de confianza que ambas son independientes.
n.(a.d − b.c )
2
χ2 =
(a + b )(. c + d )(. a + c )(. b + d )
Bajo la hipótesis nula de independencia, χ 2 tiene una distribución ji-cuadrado con
v = (F − 1)(
. C − 1) grados de libertad.
variables cualitativas.
2
n
n. a.d − b.c −
χY 2 = 2
(a + b)(. c + d )(. a + c )(. b + d )
χ 2 cal
CC =
n
Este coeficiente toma valores entre 0 y 1 y para tablas de contingencia 2x2 se interpreta de
la siguiente manera:
• Si el coeficiente es cercano a uno, la dependencia es alta
• El valor 0 se obtiene cuando hay independencia.
Ejemplo 12
Afiliación Política
P. Colorado P. Liberal
Género Hombre 43 207
Mujer 105 1645
33 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
Para los ensayos de hipótesis que involucran tablas de contingencia, también seguimos los
pasos ya establecidos en las pruebas anteriores.
Como los datos del problema están presentados en una tabla de contingencia, utilizaremos
la prueba Ji-Cuadrado.
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)
34 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Si se
acepta , se rechaza en caso
Criterio de decisión
contrario
Afiliación Política
P. Colorado P. Liberal
Género Hombre a = 43 b = 207 a + b = 250
Mujer c = 105 d = 1.645 c + d = 1.750
a + c = 148 b + d = 1.852 n = 2.000
n.(a.d − b.c )
2
χ2 =
(a + b )(. c + d )(. a + c )(. b + d )
2.000 × (43 × 1645 − 207 × 105)
2
χ =
2
χ 2 cal = 40,04
35 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
χ 2 cal
También calculamos el coeficiente de contingencia CC = n
40,04
CC =
2.000 CC = 0,14
Como χ 2 cal = 40,04 > χ 21;0, 05 = 3,84 , se rechaza H 0 para un nivel de significancia de 0,05, la
afiliación política no es independiente del género.
Ejemplo 13
Un médico desea saber si el bajo peso de los bebés recién nacidos es independiente de la
condición de fumadora de la madre.
Para ello toma una muestra de recién nacidos de bajo y no bajo peso al nacer y los
resultados se describen en la siguiente tabla:
Solución
Como los datos del problema están presentados en una tabla de contingencia, utilizaremos
la prueba Ji-Cuadrado.
36 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)
Si se
acepta , se rechaza en caso
Criterio de decisión
contrario
Hallamos el valor de χ 2 cal con la corrección de Yates, porque la muestra es pequeña, con los
datos de la tabla de contingencia.
37 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
2
n
n. a.d − b.c −
χY 2 = 2
(a + b)(. c + d )(. a + c )(. b + d )
2
29
29 × 10 × 8 − 6 × 5 −
χY 2 = 2
16 × 13 × 15 × 14
χ 2 cal = χ Y 2 = 0,84
χ 2 cal
También calculamos el coeficiente de contingencia CC = n
0,84
CC =
29 CC = 0,17
Como χ 2 cal = 0,84 < χ 21;0,10 = 2,71 , se acepta H 0 para un nivel de significancia de 0,10, el
bajo peso al nacer es independiente a la condición de fumadora de la madre.
38 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Bibliografía
LEVIN, R.; RUBIN, R. 2010. Estadística para administración y economía. 7ª Edición. México.
Pearson Educación.
WALPOLE, R.; MYERS, R.; MYERS, S.; YE, K. 2007. Probabilidad y Estadística para ingeniería y
ciencias. 8ª Edición. México. Pearson Educación. 816 p.
MIGALLÓN V. 2011. Distribución Normal con Geogebra (en línea). Consultado 8 agosto 2013.
Disponible en http://blogs.ua.es/violeta/2011/04/01/distribucion-normal-con-
geogebra/
SPIEGEL, M.; SCHILLER, J.; ALU, R. 2003. Probabilidad y Estadística. 2ª Edición. México.
McGraw-Hill. 416 p.
39 www.virtual.facen.una.py