U4 Estadísticas2
U4 Estadísticas2
Fuente:Freepik.com.es
86
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Teoría de la Estimación
Introducción
La mayoría de las personas hacemos estimaciones cotidianamente. Cuando alguien va a
cruzar la calle, hace una estimación de la velocidad de los automóviles que se acercan,
de la distancia que hay entre él y los autos y la velocidad de dicha persona. Después de
estimar estos factores decide si espera, camina o se hecha a correr.
Como ciudadano instruido y como profesionales, uno deberá ser capaz de hacer
estimaciones más útiles mediante la aplicación de las técnicas descritas en este capítulo.
La teoría de la probabilidad constituye la base de la inferencia estadística.
Tipos de Estimación
Podemos hacer dos tipos de estimaciones concernientes a una población:
- Estimación Puntual.
- Estimación de Intervalo
Una estimación puntual es un solo número que se utiliza para estimar un parámetro de
población desconocido.
Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos
opciones: es correcta o está equivocada.
87
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro
del intervalo. En este caso, el jefe de departamento diría algo como lo siguiente: Estimo
que la inscripción real de este curso para el próximo semestre estará entre 230 y 280 y
es muy probable que la inscripción exacta caiga dentro de este intervalo.
Estimaciones puntuales
x
x
n
3.570
El resultado obtenido es x 102 jeringas
35
88
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Así pues, al usar la media de la muestra, x , como nuestro estimador, la estimación
puntual de la media de la población , es de 102 jeringas por caja. El precio de
fabricación de cada jeringa hipodérmica desechable es bastante bajo, de modo que tanto
el comprador como el vendedor aceptarían esta estimación puntual como base para
hacer la facturación, y el fabricante puede ahorrarse el tiempo y el gasto de contar cada
una de las jeringas contenidas en las caja
Estimaciones de Intervalo
Una estimación de intervalo describe un intervalo de valores dentro del cual es posible
que esté un parámetro de población.
Intervalo de confianza
Un conjunto de valores obtenidos a partir de los datos muestrales, en el que hay una
determinada probabilidad de que se encuentre el parámetro.
Por ejemplo, se estima que en una determinada región el ingreso anual de los
trabajadores de la construcción es $65.000 (dólares). El intervalo de esta estimación
puede ser de $61.000 a $69.000. Se puede indicar qué tan seguro se está de que el
parámetro poblacional se encuentre en este intervalo dando una probabilidad. Se puede
indicar por ejemplo, que se tiene una seguridad de 90% de que el salario anual medio de
los trabajadores de la construcción en esa región esté entre $61.000 y $69.000
1- Noventa y cinco por ciento de las medias muestrales obtenidas de una población se
encuentran a no más de 1,96 desviaciones estándar de la media poblacional .
2- Noventa y nueve por ciento de las medias muestrales obtenidas de una población se
encuentran a no más de 2,58 desviaciones estándar de la media poblacional .
89
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El 95%, por ejemplo, se refiere al 95% central de las observaciones. Por tanto, el 5%
Restante queda repartido en dos partes iguales entre las dos colas.
El valor 0,4750, que es la mitad de 0,95 (95%) se busca en la tabla en la sección de las
probabilidades, al tener este valor vemos a que valor de z corresponde y ahí obtenemos
el valor 1,96.
De manera similar podemos calcular los valores de z para otros intervalos de confianza.
s
X z
n
Nivel de Valor
Confianza z
90% 1,65
95% 1,96
99% 2,58
Ejemplo
a) ¿Cuál es la media estimada de las ventas diarias? ¿Cómo se llama a esta estimación?
b) ¿Cuál es el intervalo de confianza de 99%
c) Interprete sus resultados.
Solución.
s
X z
n
90
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tenemos entonces.
$300
$2.000 2,58
40
$2.000 122
Ejercicios propuestos
1- De una población normal se toma una muestra de 49 observaciones. La media
muestral es 55 y la desviación estándar es 10. Determine un intervalo de confianza de
99% para la media poblacional.
10
R: 51,314 y 58,686, que se obtiene de 55 2,58
49
2- Una empresa dedicada a hacer encuestas realiza una para determinar la cantidad
media semanal que gasta en cigarrillos un fumador. La media en una muestra de 49
fumadores es X = $20 y s = $5.
$5
b) $20 1,96 , los limites son $18,60 y $21,40
49
3- El dueño de una gasolinera quiere estimar la cantidad media de galones de gasolina
que vende a sus clientes. De su registro de ventas toma una muestra aleatoria de 60
ventas, y encuentra que la cantidad media de galones vendidos es 8,60 y la desviación
estándar es 2,30 galones.
91
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Estimaciones de intervalos
mediante la distribución t
En los ejemplos que hemos tratado hasta este punto, los tamaños de la muestra eran
todos mayores a 30. Cuando el tamaño de la muestra es menor de 30 y se desconoce la
desviación estándar poblacional se utiliza la distribución t, llamada también distribución
“t de student”.
Características de la distribución t
1- La distribución t es, una distribución continua.
2- La distribución t es una distribución simétrica y en forma de campana.
3- hay una familia de distribución t. Todas la distribuciones t tienen media cero, pero su
desviación estándar varía de acuerdo con el tamaño de la muestra n. Hay una
distribución t para una muestra de tamaño 20, otra para una de tamaño 22, y así
sucesivamente. La desviación estándar de una distribución t para 5 observaciones es
mayor que la de una distribución t para 20 observaciones.
4- La distribución t es más extendida y es más plana en el centro que la distribución
normal. Pero conforme aumente el tamaño de la muestra, la distribución t se aproxima a
la distribución normal estándar porque el error disminuye al usar s en lugar de
cuando las muestras son grandes.
s
X t
n
92
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Distribución t
Áreas en los dos extremos combinados para la distribución t de Student
Ejemplo
93
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
la media poblacional del espesor de recubrimiento restante es 0.30 pulgadas?
Solución.
Según la información dada, X 0,32 , s = 0,09 y n = 10.
Para identificar el intervalo de confianza de 95% restamos 1 – 0,95 = 0,05. Este valor
ubicamos en la tabla y bajamos “su columna” hasta el valor 9 de la columna “grados de
libertad”.
0,09
Tenemos entonces: 0,32 2,262 = 0,32 0.064
10
Ejercicios propuestos
1- Use la tabla t para localizar los valores de t en las siguientes situaciones:
94
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Gasto en dólares
5,54
R: Entre 95,39 y 101,81 que se obtiene de 98,6 1,833
10
3- La tabla detalla los días de ausencia, del mes pasado, de una muestra de 10
trabajadores de una empresa.
4 1 2 2 1 2 2 1 0 3
R: a) X = 1,8 ; s = 1,1353
1,1353
b) 1,80 2,262 = 1,80 0,81
10
s
Ecuación E= z
n
95
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tamaño de la muestra para estimar la media poblacional
Ecuación.
2
zs
n=
E
Ejemplo.
Solución.
2
1,96.$1.000
Se tiene: n= = 384,16.
$100
Este valor se redondea a 385
Ejercicios propuestos
1- En una universidad se quiere determinar la media aritmética de las calificaciones de
todos los egresados durante los últimos 10 años. Las calificaciones van de 2,0 a 4,0. La
media se estima entre más o menos 0,05 de la media poblacional. Se estima que la
desviación estándar es 0,279.
R: n = 208
R: n = 97
3- Se requiere hacer una encuesta para determinar el número medio de horas que un
ejecutivo ve televisión. Un estudio piloto indica que la media semanal es 12 horas, con
3 horas de desviación estándar. Se desea que el error máximo al estimar la cantidad
media de horas sea un cuarto de hora. Se quiere un el nivel de confianza de 95%. ¿A
cuántos ejecutivos habrá que entrevistar?
96
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
R: n = 554
4- Se desea estimar el ingreso medio por familia en una zona rural mediante la
realización de un estudio muestral. ¿Cuántas familias deberá tomarse en la muestra?. En
un estudio piloto realizado en 10 familias, la desviación estándar fue $500. Se desea que
se use el nivel de confianza de 95%.
R: n = 97
5- Food Tigre, una tienda local, vende bolsas de plástico para basura y ha recibido unas
cuantas quejas con respecto a la resistencia de tales bolsas. Parece que las bolsas que se
venden en la tienda son menos resistentes que las que vende su competidor y, en
consecuencia, se rompen más a menudo. John Tiger, gerente encargado de
adquisiciones, está interesado en determinar el peso máximo promedio que puede
resistir una de las bolsas sin que se rompa. Si la desviación estándar del peso limite que
puede aguantar una bolsa es de 1,2 kg, determine el número de bolsas que deben ser
probadas con el fin que el señor Tigre tenga una certeza de 95% de que el peso limite
promedio está dentro de 0,5 kg del promedio real.
R: n = 23
DISTRIBUCIÓN CHI-CUADRADO
se dice que tiene una distribución CHI con n grados de libertad. Su función de densidad
es
1
f (x) x ( n 2) / 2 e x / 2 x0
n n
2
2
siendo (P) X P 1e x dx la función gamma de Euler, con P>0. La función de
0
distribución viene dada por
x
F( x ) P( X x ) f ( x )dx
0
97
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Si consideramos una variable aleatoria Z~N(0,1), la variable aleatoria X=Z2 se
distribuye según una ley de probabilidad distribución CHI con un grado de libertad.
aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php
98
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
La distribución Chi muestra su importancia cuando queremos determinar la variabilidad
(sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un
mecanismo normal.
X i
n
X X
2
X i 1
N , y i 2n 1
n n i 1
(n 1)s 2
2
2
Esta función matemática está caracterizada por el valor del número de grados de
libertad υ=n-1 (donde n es el tamaño muestral). Al igual que la t-Student, el valor total
del área bajo la curva es igual a la unidad, pero la diferencia principal es que esta no es
simétrica respecto al origen, sino que se extiende desde 0 hasta + ∞ porque no puede ser
negativa.
aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php
A medida que los grados de libertad aumentan, la curva cambia de forma y sus valores
se han tabulado en el anexo de tablas estadísticas, donde se muestran los valores del
área bajo la curva, para los principales valores de χ2, a la derecha de éste. O sea, se
muestra la zona de rechazo para diferentes niveles de significación y de grados de
libertad, lo cuales varían entre 1 y 100. Más allá, conviene usar directamente la función
de Gauss.
99
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Para cada grado de libertad hay una tabla de valores que pueden obtenerse variando el
nivel de significación, parecida a la de Gauss. El problema de calcular los valores
críticos, para un nivel de confianza dado, se resuelve de dos maneras: usando
computadoras para resolver los cálculos, y la otra más común, usando tablas resumidas,
en forma análoga a la vista para el modelo de t-Student. La distribución de χ2 se usa
principalmente para analizar dispersiones. Se compara la dispersión muestral expresada
a través de sus cuadrados medios contra la dispersión poblacional cuantificada a través
de la varianza (σ2).
Ejercicios propuestos
1. La desviación típica de las alturas de 16 estudiantes elegidos al azar de una
escuela de 1000 alumnos es 2,40 pulgadas. Hallar los límites de confianza del
95% y 99% de la desviación típica para todos los estudiantes de la escuela.
INFERENCIA ESTADÍSTICA
Hipótesis
Una hipótesis es una aseveración acerca de una población.
100
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
En el análisis estadístico se hace una aseveración, es decir, se plantes una hipótesis,
después se hacen pruebas para verificar la aseveración o para determinar que no es
verdadera. Se pude definir la hipótesis como: “Enunciado acerca de una población
elaborado con el propósito de poner a prueba”.
En la mayoría de los casos la población es tan grande que resulta imposible estudiar
todos los elementos, sin embargo una alternativa es tomar una muestra de la población.
Prueba de hipótesis
En la prueba de hipótesis, debemos establecer el valor supuesto o hipotetizado del
parámetro de la población antes de toma la muestra. La suposición que deseamos
probar se conoce como hipótesis nula, y se simboliza H0.
Podemos resumir entonces que la hipótesis nula es una afirmación acerca del valor de
un parámetro poblacional.
Hay que subrayar que si la hipótesis nula no se rechaza con base a los datos muestrales,
no es posible afirmar que sea verdadera. En otras palabras, el no poder rechazar la
hipótesis nula no prueba que H0 sea verdadera.
Paso 2
Se selecciona el nivel de significancia.
Paso 3
Se identifica el estadístico de prueba.
101
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Paso 4
Se fórmula la regla de decisión.
Paso 5
Se toma una muestra y se decide: a) Se acepta H0
b) Se rechaza H0 y se acepta H1
Nivel de significancia
El nivel de significancia se denota mediante la letra griega . A veces también se lo
denomina factor de riesgo. Este último es un término más adecuado, ya que es el riesgo
que se corre de rechazar la hipótesis nula cuando, en realidad es verdadera.
No hay un nivel de significancia que se aplique a todas las pruebas. Se usa el nivel 0,05
(con frecuencia se enuncia como nivel 5%), el nivel 0,01 y el nivel 0,10.
Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis,
mayor será la probabilidad d rechazar una hipótesis nula cuando es cierta
El investigador debe decidir qué nivel de significancia usar antes de formular una regla
de decisión y recopilar los datos muestrales.
Error tipo I.
Error tipo II
Es aceptar una hipótesis nula cuando es falsa. Su probabilidad se simboliza con la letra
griega .
Estadístico de prueba.
102
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
X
z =
n
La región de rechazo define la ubicación de todos los valores que son tan grandes o tan
pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis
nula es verdadera, es muy remota.
Región de
rechazo
No se
rechaza H0
I
0 1,65
0,95 0,05
Probabilidad Probabilidad
Valor
Crítico
Valor crítico
Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región
en la que no se rechaza la hipótesis nula.
Prueba para una media poblacional, con una desviación estándar poblacional
conocida.
103
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
PRUEBA DE UNA COLA
En esta tipo de pruebas la región de rechazo está sólo en la cola derecha (superior) de la
curva o en la cola izquierda (inferior).
H0 : ?
H1 : < ?
H0 : ?
H1 : > ?
Se observa que el signo igual siempre está en la hipótesis nula, nunca en la hipótesis
alternativa.
Ejemplos.
El hospital desea saber si las dosis reales son de 100c, para ello inspecciona
aleatoriamente 50 dosis de la medicina, tomadas de un suministro grande y encuentra
que la media de estas dosis es 99,75cc.
104
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Si se usa un nivel de significancia de 0,10:
Solución:
a) H0 : 100cc
H1 : 100cc
= 0,10
X
b) z =
n
99,75 100
z = = - 0,88 (valor calculado de z)
2
50
El grafico muestra las regiones de rechazo y de aceptación:
105
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El valor calculado de z, -0,88, cae en la zona de aceptación, en consecuencia se acepta
la hipótesis nula. La media observada de la muestra no es significativamente menor que
nuestra media hipotetizada de 100cc.
2) Un fabricante suministra los ejes traseros para los camiones de correo de un servicio
postal. Estos ejes deben soportar 80.000 libras por pulg2 en pruebas de carga, pero un
eje excesivamente fuerte eleva los costos de producción de manera significativa. La
larga experiencia indica que la desviación estándar de la fuerza de sus ejes es
4.000libras por pulg2. El fabricante selecciona una muestra de 100 ejes de la
producción, los prueba y encuentra que la capacidad de carga media de la muestra es
79,600lb/pulg2.
Solución.
H0: = 80.000
H1: 80.000
= 0,05
79,600 80.000
z = = -1
4.000
100
106
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejercicios propuestos
1) En los dos ejercicios siguientes responda a las siguientes preguntas:
a- ¿Es una prueba de una o de dos colas?
b- ¿Cuál es la regla de decisión?
c- ¿Cuál es el valor del estadístico de prueba?
d- ¿Cuál es su decisión respecto a H0
H0: 20
H1: 20
107
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
a) Plantee la hipótesis nula y la alternativa.
b) ¿Cuál es la probabilidad de cometer un error del tipo I?
c) Proporcione la fórmula para el estadístico de prueba.
d) Enuncie la regla de decisión.
e) Una muestra de 64 frascos de 200 aspirinas, indicó una media de 5,84. ¿Debe
rechazarse la hipótesis de que la media poblacional es 6? Interprete el resultado.
X
R: a) H0: 6 ; H1 = 6 . b) 0,05. c) z = . d) No se rechaza la
n
hipótesis nula si el valor calculado de z queda entre – 1,96 y + 1,96
3) Un fabricante de llantas para camiones, radial X-15 con cinturón de acero, afirma que
el millaje medio del neumático en estado útil, es 60.000, la desviación estándar de los
recorridos es 5.000, una empresa camionera compró 48 llantas y halló que la duración
media fue 59.500 millas. ¿Difiere la experiencia de esta empresa de lo que afirma el
fabricante de las llantas? Use el nivel de significancia 0,05
X es la media de la muestra
es la media poblacional hipotética.
s es la desviación estándar de la muestra.
n es el número de observaciones en la muestra.
108
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejemplo.
Para evaluar el efecto de estas medidas, la empresa tomó una muestra aleatoria de 26
reclamaciones recientes. El costo medio por reclamación fue $57, y la desviación
estándar, $10. ¿Pueden concluir que la diferencia entre la media muestral ($ 0,57) y la
media poblacional ($60) se debe a la casualidad? Use el nivel de significancia 0,01.
H0: $60
H1: $60
= 0,01
X
t
s
n
Paso 4. Se formula la regla de decisión.
En este caso se tiene una prueba de una cola, así que se localiza en la tabla la parte
titulada “una cola”. Se localiza la columna con el nivel de significancia elegido. En este
ejemplo el nivel de significancia es 0,01. Se recorre hacia abajo la columna
correspondiente a “0,01” hasta llegar a la intersección con el renglón correspondiente a
25 grados de libertad.
109
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El valor de t es 2,485. Como esta es una prueba de una cola y la región de rechazo está
en la cola izquierda, el valor crítico es negativo.
Datos: X = $57
= $60
s = $10
n = 26
57 60
t = - 1,530
10
26
Como – 1,530 se encuentra en la región a la derecha del valor crítico -2,485, con el
nivel de significancia 0,01, no se rechaza la hipótesis nula. No hay diferencia
estadísticamente importante entre X y .
Esto significa que las medidas tomadas para reducir los costos no han reducido el costo
promedio por reclamación a menos de $60.
110
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejercicios propuestos
1) Dadas las siguientes hipótesis:
H0: 10
H1: 10
2) El gerente de ventas de una empresa editora de libros de texto, afirma que los
representantes de ventas hacen en promedio 40 llamadas semanales a profesores. Varios
representantes consideran que esta estimación es muy baja. Para investigar esto, se toma
una muestra aleatoria de 28 representantes de ventas y se encuentra que la media de
llamadas es 42. la desviación estándar muestral es 2,1 llamadas. Usando el nivel de
significancia 0,05. ¿Se puede concluir que el número medio de llamadas semanales es
mayor que 40?
111
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
42 39 42 45 43 40 39 41 40 42 43 42
¿Es razonable concluir que la longitud de las barras ha variado? Use 0,02 como nivel de
significancia.
Análisis de Varianza
Características de la Distribución F
S12
F 2
S2
S12 y S22 son las varianzas muestrales para las dos muestras. La hipótesis nula se
rechaza si el cálculo del estadístico de prueba es más grande que el valor crítico (de
tablas) con nivel de confianza α /2 y grados de libertad para el numerador y el
denominador.
Ejemplo:
•Colin, agente de bolsa del Critical Securities, reportó que la tasa media de retorno en
una muestra de 10 acciones de software fue 12.6% con una desviación estándar de
3.9%. La tasa media de retorno en una muestra de 8 acciones de compañías de servicios
fue 10.9% con desviación estándar de 3.5%. Para .05 de nivel de significancia, ¿puede
Colin concluir que hay mayor variación en las acciones de software?
•Paso 1:
H0:s u H1:s u
•Paso 2: H0 se rechaza si F > 3.68,
gl = (9, 7), α = .05
112
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 3
F (39 . )2 12416
. )2 / (35 .
•Paso 4: H0 no se rechaza. No hay evidencia suficiente para asegurar que hay mayor
variación en las acciones de software.
•La distribución F también se usa para probar la igualdad de más de dos medias con
una técnica llamada análisis de varianza (ANOVA).
ANOVA requiere las siguientes condiciones:·la población que se muestrea tiene una
distribución normal.
·las poblaciones tienen desviaciones estándar iguales
·las muestras se seleccionan al azar y son independientes
SS (total ) X 2
X 2
n
T X
2 2
SST c
nc n
SSE SS (total) - SST
Ejemplo:
113
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
restaurantes Sylvania, Perrysburg y Point Place para una muestra de cinco días. Con .05
de nivel de significancia, ¿puede Katy concluir que hay una diferencia en el número
medio de comidas de carne vendidas por día en los tres restaurantes?
1 7 to ta l
T c 5 1 4 6 8 5 1 8 2
n c 4 4 5 1 3
6 5 3 5 3 4 1 4 4 7 2 6 3 4
86 -76.25=9.75
114
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
1 1
(17 12.75) 2.228 .975
4 5
4.25 1.48 ( 2.77 ,5.73)
B 2 ( X ) 2
SSB r
k n
Ejemplo:
•La Bieber Manufacturing Co. opera 24 horas al día, cinco días a la semana. Los
trabajadores rotan su turno cada semana. Todd Bieber, el propietario, se interesa en
saber si hay una diferencia en el número de unidades producidas cuando los empleados
trabajan diferentes turnos. Se seleccionó una muestra de cinco trabajadores y se registró
su producción en cada turno. Con .05 de nivel de significancia, ¿se puede concluir que
existe una diferencia en la producción media por turno y por empleado?
•Variable de tratamiento
Neary 33 26 33
Schoen 28 24 30
Thompson 30 29 28
Wagner 28 26 27
•Paso 1: H0: m1= m2= m3 H1: no todas las medias son iguales.
•Paso 2: H0 se rechaza si F > 4.46, gl = (2, 8).
•Calcule la variable de suma de cuadrados: SS (total) = 139.73, SST = 62.53, SSB =
33.73, SSE = 43.47. gl(bloque) = 4, gl(tratamiento) = 2, gl(error) = 8.
•Paso 3: F = [62.53 /2] /[43.47 /8] = 5.75
•Paso 4: H0 se rechaza. Existe una diferencia en el número promedio de unidades
producidas para los distintos periodos o turnos.
115
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Variable de bloqueo:
·Paso 1: H0: m1= m2= m3= m4= m5 H1: no todas las medias son iguales.·Paso 2: H0
se rechaza si F > 3.84, gl = (4,8)
·Paso 3: F = [33.73 / 4] / [43.47 / 8] = 1.55
·Paso 4: H0 no se rechaza ya que no existe una diferencia significativa en el número
promedio de unidades producidas para los distintos trabajadores.
Análisis de Varianza
Características de la Distribución chi-cuadrada
g.l. 3
g.l. 5
g.l.10
f f 2
x
2 0 e
fe
Ejemplo:
116
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Día Frecuencia
Lunes 120
Martes 45
Miércoles 60
Jueves 90
Viernes 130
•El U.S. Bureau of the Census indica que 63.9% de la población está casada, 7.7% es
viuda, 6.9% divorciada (y no vuelta a casar) y 21.5% soltera (nunca casada). Una
muestra de 500 adultos del área de Filadelfia indica que 310 personas estaban casadas,
40 viudas, 30 divorciadas y 120 solteras. Para .05 de nivel de significancia ¿se puede
concluir que el área de Filadelfia es diferente al de Estados Unidos como un todo?
Estado fo fe (fo-fe)2/fe
Casado 310 319.5 0.2825
Viudo 40 38.5 0.0584
Divorciado 30 34.5 0.5870
Soltero 120 107.5 1.4535
Total 500 2.3814
117
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 1: H0 : la distribución no ha cambiado.
•H1 : la distribución cambió.
•Paso 2: H0 se rechaza si.
x 2 > 7.815, gl = 3,
α =.05
•Paso 3:
x 2 2.3824
Ejemplo:
•Nota: para calcular para la primera clase, primero se calcula la probabildad de esta
clase. P(X<6)=P[Z<(6-10)/2]=.0228. Así, es (.0228) (500)=11.4
cantidad
gastada fo área fe (fo-fe)2/fe
<$6 20 0.02 11.40 6.49
$6-8 60 0.14 67.95 0.93
$8-10 140 0.34 170.65 5.50
$10-12 120 0.34 170.65 15.03
$12-14 90 0.14 67.95 7.16
>$14 70 0.02 11.40 301.22
Total 500 500 336.33
Divorciado 30 34.5 0.5870
Soltero 120 107.5 1.4535
Total 500 2.3814
118
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 1: H0 : la distribución es normal.
•H1 : la distribución no es normal.
•Paso 2: H0 se rechaza si x 2 > 11.07, gl = 5, =.05
•Paso 3:
x 2 336.33
Ejercicios propuestos
1. La empresa T Company ensambla componentes eléctricos. Durante los últimos
10 días la compañía ha experimentado un promedio de 9 productos defectuosos,
con una desviación estándar de 2. Otra compañía ha elaborado en promedio 8,5
componentes con defectos, con una desviación de 1,5 productos durante el
mismo periodo. Al nivel del 0.05, es posible concluir que hay más variación en
el número de componentes defectuosos al día que se atribuyen a T Company?
2. Una compañía realizó un estudio acerca de los hábitos de escuchar la radio por
parte de hombres y mujeres. Un aspecto del estudio comprendió el tiempo
promedio de audición. Se descubrió que tal tiempo para los varones es de 35
min. al día. La desviación de la muestra de 10 personas del sexo masculino que
se estudiaron fue de 10 min. diarios. El tiempo promedio de audición para las 12
mujeres en el estudio fue también de 35 minutos., pero la desviación de la
muestra resulto de 12 min. Al nivel del 0.1, es posible concluir que existe una
diferencia en la variación en el nº de minutos que los hombres y mujeres
escuchan la radio?
Lugar Ventas
Cerca del pan 20 15 24 18
Cerca de las cervezas 12 18 10 15
Con otros limpiadores 25 28 30 32
119
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tratamiento 1 Tratamiento 2 Tratamiento 3
9 13 10
7 20 9
11 14 15
9 13 14
12 15
10
6. Una empresa vende 3 champús: para cabello seco, normal y graso. Las ventas en
millones de $, durante los últimos cinco meses, se presentan en la siguiente
tabla:
Ventas (miles de $)
Mes Seco Normal Graso
Junio 7 9 12
Julio 11 12 14
Agosto 13 11 8
Setiembre 8 9 7
Octubre 9 10 13
Utilizando el nivel de 0.05, aplique el procedimiento ANOVA para probar si: a) las
ventas promedio de los tipos de productos para los diferentes tipos de pelo son iguales,
b) las ventas promedio son las mismas para cada uno de los cinco meses?
Aplicaciones de Chi-cuadrado
120
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
durante toda la semana. Se usara el nivel de 0.01. Los resultados de la muestra
son:
Ausencias
Lunes 12
Martes 9
Miércoles 11
Jueves 10
Viernes 9
Sábado 9
Hora nº de accidentes
8 a 9 am 6
9 a 10 am 6
10 a 11 am 20
11 a 12 pm 8
1 a 2 pm 7
2 a 3 pm 8
3 a 4 pm 19
4 a 5 pm 6
Utilizando la prueba de bondad de ajuste y el nivel del 0.01, determine si los accidentes
están distribuidos uniformemente o no durante el día. De una breve explicación acerca
de la conclusión.
121
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Vida util (años) Frecuencia
Hasta 4 7
4a5 14
5a6 25
6a7 22
7a8 16
8 o mayor 6
5. Una socióloga estuvo investigando esta cuestión: existe alguna relación entre el
nivel de educación y las actividades sociales de una persona? Decidió manejar
tres niveles de educación: asistió o termino la instrucción universitaria, asistió o
termino la preparatoria y asistió o termino la primaria o inferior. Cada persona
llevo un registro de sus actividades sociales. La socióloga los dividió en
frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al
promedio.
Actividad social
Instrucción Superior Inferior
al promedio Promedio al promedio
Universitaria 18 12 10
Preparatoria 17 15 13
Primaria 9 9 22
Al nivel de significancia de 0.05, se puede concluir que existe una relación entre el tipo
de comunidad donde la persona reside y la parte del diario que lee primero?
122
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Bibliografía
Sitios web
aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php
www.eyeintheskygroup.com/.../Calculo-Distribucion-Chi-Ji-Cuadrado.htm
123
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas