0% encontró este documento útil (0 votos)
210 vistas

U4 Estadísticas2

Este documento presenta conceptos básicos sobre la teoría de la estimación e inferencia estadística. Explica que existen dos tipos de estimación: estimación puntual, que es un solo número para estimar un parámetro desconocido de la población, y estimación de intervalo, que es un rango de valores para estimar dicho parámetro. Luego, describe cómo calcular la estimación puntual mediante la media muestral y cómo construir un intervalo de confianza para realizar una estimación de intervalo, el cual indica la probabilidad de que el parámetro

Cargado por

Yolanda Sanabria
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
210 vistas

U4 Estadísticas2

Este documento presenta conceptos básicos sobre la teoría de la estimación e inferencia estadística. Explica que existen dos tipos de estimación: estimación puntual, que es un solo número para estimar un parámetro desconocido de la población, y estimación de intervalo, que es un rango de valores para estimar dicho parámetro. Luego, describe cómo calcular la estimación puntual mediante la media muestral y cómo construir un intervalo de confianza para realizar una estimación de intervalo, el cual indica la probabilidad de que el parámetro

Cargado por

Yolanda Sanabria
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 39

UNIDAD IV

TEORÍA DE LA ESTIMACIÓN E INTERFERENCIA


ESTADÍSTICA
ESTADÍSTICA II
Módulo IV
TEORÍA DE ESTIMACIÓN
E INFERENCIA
ESTADÍSTICA
CONCEPTOS BÁSICOS

Fuente:Freepik.com.es

86
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Teoría de la Estimación

Introducción
La mayoría de las personas hacemos estimaciones cotidianamente. Cuando alguien va a
cruzar la calle, hace una estimación de la velocidad de los automóviles que se acercan,
de la distancia que hay entre él y los autos y la velocidad de dicha persona. Después de
estimar estos factores decide si espera, camina o se hecha a correr.

Los administradores también deben hacer sus estimaciones rápidas. El resultado de


tales estimaciones puede afectar sus organizaciones de manera muy seria.

Los jefes de departamentos de una universidad hacen estimaciones acerca de las


inscripciones para el semestre siguiente en tal o cual materia. Los directores de crédito
estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen
estimaciones concernientes al comportamiento de las tasa de interés de los préstamos
hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de que su
comportamiento sea científico o no, pero con la esperanza de que las estimaciones
posean una semejanza razonable con el resultado.

Como ciudadano instruido y como profesionales, uno deberá ser capaz de hacer
estimaciones más útiles mediante la aplicación de las técnicas descritas en este capítulo.
La teoría de la probabilidad constituye la base de la inferencia estadística.

Tipos de Estimación
Podemos hacer dos tipos de estimaciones concernientes a una población:

- Estimación Puntual.
- Estimación de Intervalo

Una estimación puntual es un solo número que se utiliza para estimar un parámetro de
población desconocido.

Por ejemplo, el jefe de departamento de una universidad estaría haciendo una


estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia
tendremos 250 estudiantes el siguiente semestre”.

Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos
opciones: es correcta o está equivocada.

Una estimación de intervalo es un intervalo de valores que se utiliza para estimar un


parámetro de población.

87
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro
del intervalo. En este caso, el jefe de departamento diría algo como lo siguiente: Estimo
que la inscripción real de este curso para el próximo semestre estará entre 230 y 280 y
es muy probable que la inscripción exacta caiga dentro de este intervalo.

Estimaciones puntuales

La media de la muestra x es el mejor estimador de la media poblacional  .

Es imparcial, coherente y siempre y cuando la muestra sea lo suficientemente grande, su


distribución de muestreo puede ser aproximada por distribución normal.

Si conocemos la distribución de muestreo de x , podemos llegar a conclusiones con


respecto a cualquier estimación que podamos hacer a partir de la información de
muestreo.

Observemos a una compañía que produce jeringas hipodérmicas desechables. Cada


jeringa viene en una envoltura estéril que a su vez es empacada en grandes cajas de
cartón, éstas contienen diferentes cantidades de aquéllas. Debido a que las jeringas se
venden por pieza, la compañía necesita una estimación del número de piezas que hay
por caja, para propósito de facturación. Hemos tomado una muestra aleatoria de 32
cajas y registrado el número de jeringas contenidas en cada caja.

En la tabla se ilustran los resultados:

Número de jeringas por caja

101 103 112 102 98 97 93


105 100 97 107 93 94 97
97 100 110 106 110 103 99
93 98 106 100 112 105 100
114 97 110 102 98 112 99

Calculamos la media de la muestra con la conocida ecuación.

x
x
n

3.570
El resultado obtenido es x 102 jeringas
35

88
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Así pues, al usar la media de la muestra, x , como nuestro estimador, la estimación
puntual de la media de la población  , es de 102 jeringas por caja. El precio de
fabricación de cada jeringa hipodérmica desechable es bastante bajo, de modo que tanto
el comprador como el vendedor aceptarían esta estimación puntual como base para
hacer la facturación, y el fabricante puede ahorrarse el tiempo y el gasto de contar cada
una de las jeringas contenidas en las caja

Estimaciones de Intervalo
Una estimación de intervalo describe un intervalo de valores dentro del cual es posible
que esté un parámetro de población.

Intervalo de confianza
Un conjunto de valores obtenidos a partir de los datos muestrales, en el que hay una
determinada probabilidad de que se encuentre el parámetro.

A esta probabilidad se le conoce como el nivel de confianza.

Por ejemplo, se estima que en una determinada región el ingreso anual de los
trabajadores de la construcción es $65.000 (dólares). El intervalo de esta estimación
puede ser de $61.000 a $69.000. Se puede indicar qué tan seguro se está de que el
parámetro poblacional se encuentre en este intervalo dando una probabilidad. Se puede
indicar por ejemplo, que se tiene una seguridad de 90% de que el salario anual medio de
los trabajadores de la construcción en esa región esté entre $61.000 y $69.000

La información que se tiene acerca de la forma de la distribución muestral de la media


muestral, permite localizar un intervalo que tenga una determinada probabilidad de
contener a la media poblacional  .

Si se tienen muestras razonablemente grandes, el teorema del límite central permite


establecer lo siguiente:

1- Noventa y cinco por ciento de las medias muestrales obtenidas de una población se
encuentran a no más de 1,96 desviaciones estándar de la media poblacional  .
2- Noventa y nueve por ciento de las medias muestrales obtenidas de una población se
encuentran a no más de 2,58 desviaciones estándar de la media poblacional  .

Aquí la desviación estándar, de la que se tata, es la desviación estándar de la


distribución muestral de la media muestral. A esta desviación estándar se la llama
generalmente “error estándar”. A los intervalos calculados de esta manera se les llama
intervalos de confianza de 95% e intervalo de confianza de 99%

¿Coma se obtiene los valores 1,96 y 12,58?

Estos valores se obtienen de la tabla de distribución normal de probabilidades.

89
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El 95%, por ejemplo, se refiere al 95% central de las observaciones. Por tanto, el 5%
Restante queda repartido en dos partes iguales entre las dos colas.

El valor 0,4750, que es la mitad de 0,95 (95%) se busca en la tabla en la sección de las
probabilidades, al tener este valor vemos a que valor de z corresponde y ahí obtenemos
el valor 1,96.

De manera similar podemos calcular los valores de z para otros intervalos de confianza.

En general un intervalo de confianza para la media poblacional se calcula como sigue:

s
X  z
n

Donde z depende del nivel de confianza.

Niveles de confianza más utilizados

Nivel de Valor
Confianza z
90% 1,65
95% 1,96
99% 2,58

Es importante recordar que el número de observaciones debe ser de 30 por lo menos

Ejemplo

1- En una muestra de 40 restaurantes de comida rápida, la venta media fue de $2.000, y


la desviación estándar, $300.

a) ¿Cuál es la media estimada de las ventas diarias? ¿Cómo se llama a esta estimación?
b) ¿Cuál es el intervalo de confianza de 99%
c) Interprete sus resultados.

Solución.

a) La media poblacional se usa para estimar el valor de la media poblacional, entonces


el valor es $2.000. A esto se le llama una estimación puntual.

b) Para calcular este intervalo usamos la ecuación

s
X  z
n

90
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tenemos entonces.
$300
$2.000  2,58
40

$2.000  122

c) Los extremos del intervalo de confianza son $ 1.878 y $ 2.122. Aproximadamente


99% de los intervalos obtenidos de manera similar contendrán a la media poblacional

Ejercicios propuestos
1- De una población normal se toma una muestra de 49 observaciones. La media
muestral es 55 y la desviación estándar es 10. Determine un intervalo de confianza de
99% para la media poblacional.

10
R: 51,314 y 58,686, que se obtiene de 55  2,58
49

2- Una empresa dedicada a hacer encuestas realiza una para determinar la cantidad
media semanal que gasta en cigarrillos un fumador. La media en una muestra de 49
fumadores es X = $20 y s = $5.

a) ¿Cuál es la estimación puntual de la media poblacional?

b) Usando el nivel de confianza de 95%, determine el intervalo de confianza para 

R: a) $20 Esta es nuestra mejor estimación de la media poblacional.

$5
b) $20  1,96 , los limites son $18,60 y $21,40
49
3- El dueño de una gasolinera quiere estimar la cantidad media de galones de gasolina
que vende a sus clientes. De su registro de ventas toma una muestra aleatoria de 60
ventas, y encuentra que la cantidad media de galones vendidos es 8,60 y la desviación
estándar es 2,30 galones.

a) ¿Cuál es la estimación puntual de la media poblacional?


b) Determine el intervalo de confianza de 99% para la media poblacional
c) Interprete el resultado del inciso anterior.

R: a) 8,60 galones; b) 7,83 y 9,37; c) Si se 100 de estos intervalos, en


aproximadamente 99 de ellos estaría la media poblacional.

91
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Estimaciones de intervalos
mediante la distribución t

En los ejemplos que hemos tratado hasta este punto, los tamaños de la muestra eran
todos mayores a 30. Cuando el tamaño de la muestra es menor de 30 y se desconoce la
desviación estándar poblacional se utiliza la distribución t, llamada también distribución
“t de student”.

Características de la distribución t
1- La distribución t es, una distribución continua.
2- La distribución t es una distribución simétrica y en forma de campana.
3- hay una familia de distribución t. Todas la distribuciones t tienen media cero, pero su
desviación estándar varía de acuerdo con el tamaño de la muestra n. Hay una
distribución t para una muestra de tamaño 20, otra para una de tamaño 22, y así
sucesivamente. La desviación estándar de una distribución t para 5 observaciones es
mayor que la de una distribución t para 20 observaciones.
4- La distribución t es más extendida y es más plana en el centro que la distribución
normal. Pero conforme aumente el tamaño de la muestra, la distribución t se aproxima a
la distribución normal estándar porque el error disminuye al usar s en lugar de 
cuando las muestras son grandes.

Intervalo de confianza para la media poblacional cuando no


se conoce 

s
X t
n

En otras palabras, para determinar un intervalo de confianza para la media poblacional


cuando no se conoce la desviación estándar poblacional:

1- Se considera que las muestras provienen de una población normal.


2- Se estima la desviación estándar poblacional (  ) por medio de la desviación
estándar muestral (s)
3- Se usa la distribución t en lugar de la distribución z.

92
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Distribución t
Áreas en los dos extremos combinados para la distribución t de Student

Ejemplo

1- Un fabricante de llantas quiere investigar cuál es el tiempo de vida del recubrimiento


de sus llantas. En una muestra de 10 llantas que se corrieron 50 mil millas, se encontró
que el espesor medio de recubrimiento restante era de 0,32 pulgadas con una desviación
estándar de 0,09 pulgadas. Determine un intervalo de confianza de 95% para la media
poblacional. ¿Sería razonable que el fabricante concluyera que después de 50 mil millas

93
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
la media poblacional del espesor de recubrimiento restante es 0.30 pulgadas?

Solución.
Según la información dada, X  0,32 , s = 0,09 y n = 10.

Cálculo del valor t

Calculamos los “grados de libertad” con la ecuación n – 1 o sea 10 -1 = 9 en nuestro


ejemplo.

Para identificar el intervalo de confianza de 95% restamos 1 – 0,95 = 0,05. Este valor
ubicamos en la tabla y bajamos “su columna” hasta el valor 9 de la columna “grados de
libertad”.

El valor de t encontrado es 2,262.

Sustituimos estos valores en la fórmula


s
X  t
n

0,09
Tenemos entonces: 0,32  2,262 = 0,32  0.064
10

Los extremos del intervalo de confianza son 0,256 y 0.384

Es razonable concluir que la media poblacional se encuentra en este intervalo. El


fabricante puede estar razonablemente seguro (95% de seguridad) de que el espesor
medio del recubrimiento sobrante esta entre 0,256 y 0,384 pulgadas. Como 0,30 está
en este intervalo es posible que la media poblacional sea 0,30.

Ejercicios propuestos
1- Use la tabla t para localizar los valores de t en las siguientes situaciones:

a) El tamaño de la muestra es 12 y el nivel de confianza es 95%


b) El tamaño de la muestra es 20 y el nivel de confianza es 90%
c) El tamaño de la muestra es 8 y el nivel de confianza es 99%

R: a) 2,201 b) 1,729 c) 3,499

2- Dos empresas con una gran cantidad de empleados consideran la posibilidad de


ofrecer en conjunto el servicio de guardería para los hijos de sus empleados. Como parte
de su estudio de viabilidad, desean saber el costo semanal medio de los cuidadores de
niños. En una muestra de 10 empleados que han contratado a cuidadores para la
atención de sus hijos, se encontraron las siguientes cantidades gastadas la semana
pasada:

94
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Gasto en dólares

107 92 97 95 105 101 99 95 104

Determine un intervalo de confianza de 90% para la media poblacional. Interprete el


resultado

5,54
R: Entre 95,39 y 101,81 que se obtiene de 98,6  1,833
10

3- La tabla detalla los días de ausencia, del mes pasado, de una muestra de 10
trabajadores de una empresa.

4 1 2 2 1 2 2 1 0 3

a) Determine la media y la desviación estándar.


b) Proporcione un intervalo de confianza de 95% para la media poblacional

R: a) X = 1,8 ; s = 1,1353

1,1353
b) 1,80  2,262 = 1,80  0,81
10

Elección del tamaño de


muestra apropiado
Una pregunta frecuente al diseñar un estudio estadístico es “¿Cuántos objetos deben
tomarse en la muestra?”. Si la muestra es demasiado grande, se desperdicia dinero al
obtener los datos. Si la muestra es demasiado pequeña, la conclusión obtenida será
insegura.

El tamaño de la muestra depende de tres factores:

1- El nivel de confianza deseado.


2- El margen de error que el investigador está dispuesto a tolerar.
3- La variabilidad de la población que se estudia.

Error máximo permitido E

s
Ecuación E= z
n

95
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tamaño de la muestra para estimar la media poblacional
Ecuación.
2
zs
n=  
 E

Ejemplo.

1- Un estudiante de administración pública quiere determinar el ingreso medio mensual


de los miembros del consejo ciudadano de una ciudad grande. El error al estimar la
media debe ser menor de $100 con un nivel de confianza de 95%. El estudiante
encontró un informe de la Secretaría de Trabajo en el que se estimó que la desviación
estándar era $1.000. ¿De qué tamaño deberá ser la muestra?

Solución.

Para los valores: E = $100


z = 1,96
s = $1.000

2
 1,96.$1.000 
Se tiene: n=   = 384,16.
 $100 
Este valor se redondea a 385

Ejercicios propuestos
1- En una universidad se quiere determinar la media aritmética de las calificaciones de
todos los egresados durante los últimos 10 años. Las calificaciones van de 2,0 a 4,0. La
media se estima entre más o menos 0,05 de la media poblacional. Se estima que la
desviación estándar es 0,279.

Calcule el tamaño de la muestra utilizando un nivel de confianza de 99%.

R: n = 208

2- Se estima que la desviación estándar de una población es 10. Se requiere estimar la


media poblacional con un error máximo de 2, y un nivel de confianza de 95%. ¿De qué
tamaño debe ser la muestra?

R: n = 97

3- Se requiere hacer una encuesta para determinar el número medio de horas que un
ejecutivo ve televisión. Un estudio piloto indica que la media semanal es 12 horas, con
3 horas de desviación estándar. Se desea que el error máximo al estimar la cantidad
media de horas sea un cuarto de hora. Se quiere un el nivel de confianza de 95%. ¿A
cuántos ejecutivos habrá que entrevistar?

96
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
R: n = 554

4- Se desea estimar el ingreso medio por familia en una zona rural mediante la
realización de un estudio muestral. ¿Cuántas familias deberá tomarse en la muestra?. En
un estudio piloto realizado en 10 familias, la desviación estándar fue $500. Se desea que
se use el nivel de confianza de 95%.

El error máximo de estimación debe ser de $100. ¿Cuántas familias deberá


entrevistarse?

R: n = 97

5- Food Tigre, una tienda local, vende bolsas de plástico para basura y ha recibido unas
cuantas quejas con respecto a la resistencia de tales bolsas. Parece que las bolsas que se
venden en la tienda son menos resistentes que las que vende su competidor y, en
consecuencia, se rompen más a menudo. John Tiger, gerente encargado de
adquisiciones, está interesado en determinar el peso máximo promedio que puede
resistir una de las bolsas sin que se rompa. Si la desviación estándar del peso limite que
puede aguantar una bolsa es de 1,2 kg, determine el número de bolsas que deben ser
probadas con el fin que el señor Tigre tenga una certeza de 95% de que el peso limite
promedio está dentro de 0,5 kg del promedio real.

R: n = 23

DISTRIBUCIÓN CHI-CUADRADO

Si (X1,X2,...,Xn) son n variables aleatorias normales independientes de media 0 y


varianza 1, la variable definida como
Yn  X12    Xn2  i1 Xi2
n

se dice que tiene una distribución CHI con n grados de libertad. Su función de densidad
es
1
f (x)  x ( n 2) / 2 e  x / 2 x0
n n
  2
2

siendo (P)   X P 1e  x dx la función gamma de Euler, con P>0. La función de
0
distribución viene dada por
x
F( x )  P( X  x )   f ( x )dx
0

La media de esta distribución es E(X)=n y su varianza V(X)=2n. Esta distribución es


básica en un determinado número de pruebas no paramétricas.

97
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Si consideramos una variable aleatoria Z~N(0,1), la variable aleatoria X=Z2 se
distribuye según una ley de probabilidad distribución CHI con un grado de libertad.

Si tenemos n variable aleatoria independientes Zi~N(0,1), la suma de sus cuadrados


respectivos es una distribución CHI con n grados de libertad.
n
Z i  N(0,1)   Z i2   2n
i 1

La media y varianza de esta variable son respectivamente, E(X)=n y V(X)=2n

Ejemplo: El espesor de un semiconductor se controla mediante la variación estándar


no mayor a =0.60 mm. Para mantener controlado el proceso se toman muestras
aleatoriamente de tamaño de 20 unidades, y se considera que el sistema está fuera de
control cuando la probabilidad de que 2 tome valor mayor o igual al valor de la
muestra observado es que es 0.01. Que se puede concluir si s=0.84mm?

Solución. Existe fuera de control si (n  1)s 2 /  2 con n=20 y =0.60, excede


 02.01,19  36.191
(n  1)s 2 19 * 0.84 2
Entonces,   37.24
2 0.60 2
Por tanto, el sistema está fuera de control

La función de distribución CHI tienen importantes variaciones de acuerdo con los


grados de libertad y del tamaño muestral (menor tamaño muestral y mayor tamaño
muestral respectivamente).

aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php

En consecuencia, si tenemos X1,..,Xn, variable aleatoria independientes, donde cada


X i  N( i , i ) , se tiene:
2
n
 Xi  i 
 
i 1  i
   2n

98
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
La distribución Chi muestra su importancia cuando queremos determinar la variabilidad
(sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un
mecanismo normal.

Teorema (Cochran). Sean X1,…,Xn con distribución N(,), la variable aleatoria


independiente, entonces:

X i
   n
X X
2

X i 1
 N ,  y   i    2n 1
n  n i 1   

La función Chi-cuadrado es igual a la función normal elevada al cuadrado. Esto es, el


producto de dos distribuciones de Gauss es una distribución de Chi-cuadrado. Si de una
población normal, o aproximadamente normal, se extraen muestras aleatorias e
independientes, y se le calcula el estadígrafo χ2 usando el valor muestral de la varianza y
el poblacional con:

(n  1)s 2
2 
2

Esta función matemática está caracterizada por el valor del número de grados de
libertad υ=n-1 (donde n es el tamaño muestral). Al igual que la t-Student, el valor total
del área bajo la curva es igual a la unidad, pero la diferencia principal es que esta no es
simétrica respecto al origen, sino que se extiende desde 0 hasta + ∞ porque no puede ser
negativa.

aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php

A medida que los grados de libertad aumentan, la curva cambia de forma y sus valores
se han tabulado en el anexo de tablas estadísticas, donde se muestran los valores del
área bajo la curva, para los principales valores de χ2, a la derecha de éste. O sea, se
muestra la zona de rechazo para diferentes niveles de significación y de grados de
libertad, lo cuales varían entre 1 y 100. Más allá, conviene usar directamente la función
de Gauss.

99
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Para cada grado de libertad hay una tabla de valores que pueden obtenerse variando el
nivel de significación, parecida a la de Gauss. El problema de calcular los valores
críticos, para un nivel de confianza dado, se resuelve de dos maneras: usando
computadoras para resolver los cálculos, y la otra más común, usando tablas resumidas,
en forma análoga a la vista para el modelo de t-Student. La distribución de χ2 se usa
principalmente para analizar dispersiones. Se compara la dispersión muestral expresada
a través de sus cuadrados medios contra la dispersión poblacional cuantificada a través
de la varianza (σ2).

Ejercicios propuestos
1. La desviación típica de las alturas de 16 estudiantes elegidos al azar de una
escuela de 1000 alumnos es 2,40 pulgadas. Hallar los límites de confianza del
95% y 99% de la desviación típica para todos los estudiantes de la escuela.

2. La desviación típica de las duraciones de una muestra de 200 bombillas es de


100 horas. Hallar los límites de confianza del 95% y 99% para la desviación
típica de todas las bombillas de donde se extrajo la muestra.

3. Para una distribución chi-cuadrado con 12 grados de libertad hallar el valor de


X2 tal que a) el área a la derecha de X2 sea 0,05, b) el área a la izquierda sea 0,99,
c) el área a la derecha sea 0,025.

INFERENCIA ESTADÍSTICA

Pruebas de Hipótesis: Prueba de una sola muestra


La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos
con respecto a un parámetro de población. Después recolectamos datos de muestra,
producimos estadísticas de muestra y usamos esta información para decidir qué tan
probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la
hipótesis. En capítulos anteriores vimos se determina un intervalo de confianza.

Un intervalo de confianza es una variedad de valores en la que se espera encuentre el


parámetro poblacional. En este capítulo, en lugar de determinar un intervalo de valores
en la que se espera que se encuentre el parámetro poblacional, se desarrolla un
procedimiento para probar la validez de una aseveración acerca de un parámetro
poblacional.

Hipótesis
Una hipótesis es una aseveración acerca de una población.

100
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
En el análisis estadístico se hace una aseveración, es decir, se plantes una hipótesis,
después se hacen pruebas para verificar la aseveración o para determinar que no es
verdadera. Se pude definir la hipótesis como: “Enunciado acerca de una población
elaborado con el propósito de poner a prueba”.

En la mayoría de los casos la población es tan grande que resulta imposible estudiar
todos los elementos, sin embargo una alternativa es tomar una muestra de la población.

Para probar la validez de nuestra suposición determinamos la diferencia que existe


entre el valor hipotetizado y el valor real de la media de la muestra. Después juzgamos
si la diferencia obtenida es significativa o no. Mientras más pequeña sea dicha
diferencia, mayor será la probabilidad de que nuestro valor hipotetizado para la media
sea correcto

Desafortunadamente, la diferencia entre el parámetro de la población hipotetizado y la


estadística rara vez es tan grande que nos obligue a rechazar nuestra hipótesis, ni tan
pequeña que simplemente la aceptemos sin dilación.

Prueba de hipótesis
En la prueba de hipótesis, debemos establecer el valor supuesto o hipotetizado del
parámetro de la población antes de toma la muestra. La suposición que deseamos
probar se conoce como hipótesis nula, y se simboliza H0.

Podemos resumir entonces que la hipótesis nula es una afirmación acerca del valor de
un parámetro poblacional.

La hipótesis alternativa describe lo que se concluirá si se rechaza la hipótesis nula. Se


lo designa por H1. Se lo conoce también como la hipótesis de investigación. La
hipótesis alternativa se acepta si los datos muestrales proporcionan suficientes
evidencias de que la hipótesis nula es falsa.

Hay que subrayar que si la hipótesis nula no se rechaza con base a los datos muestrales,
no es posible afirmar que sea verdadera. En otras palabras, el no poder rechazar la
hipótesis nula no prueba que H0 sea verdadera.

Procedimiento de los cinco pasos para probar una hipótesis


Paso 1
Se plantean la hipótesis nula y la alternativa.

Paso 2
Se selecciona el nivel de significancia.

Paso 3
Se identifica el estadístico de prueba.

101
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Paso 4
Se fórmula la regla de decisión.

Paso 5
Se toma una muestra y se decide: a) Se acepta H0
b) Se rechaza H0 y se acepta H1

Nivel de significancia
El nivel de significancia se denota mediante la letra griega  . A veces también se lo
denomina factor de riesgo. Este último es un término más adecuado, ya que es el riesgo
que se corre de rechazar la hipótesis nula cuando, en realidad es verdadera.

No hay un nivel de significancia que se aplique a todas las pruebas. Se usa el nivel 0,05
(con frecuencia se enuncia como nivel 5%), el nivel 0,01 y el nivel 0,10.

Tradicionalmente se selecciona el nivel 0,05 para proyectos de investigación sobre


consumo, el nivel 0,01 para aseguramiento de calidad, y el 0,10 para encuestas políticas.

Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis,
mayor será la probabilidad d rechazar una hipótesis nula cuando es cierta

El investigador debe decidir qué nivel de significancia usar antes de formular una regla
de decisión y recopilar los datos muestrales.

Error tipo I.

Es el rechazo de la hipótesis nula cuando es verdadera. La probabilidad de cometer un


error del tipo I es  .

Error tipo II

Es aceptar una hipótesis nula cuando es falsa. Su probabilidad se simboliza con la letra
griega  .

Estadístico de prueba.

Valor determinado a partir de la información muestral, que se utiliza para determinar si


se rechaza la hipótesis nula.

Existen muchos estadísticos de prueba. Nosotros utilizaremos “z” y “t”

En las pruebas de hipótesis para la media (  ), cuando se conoce  , o cuando el


tamaño de la muestra es grande, el valor estadístico de prueba z se determina con la
fórmula:

102
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
X 
z =

n

Formular regla de decisión


Una regla de decisión establece las condiciones específicas en las que se rechaza la
hipótesis nula y las condiciones en las que no se rechaza la hipótesis nula.

La región de rechazo define la ubicación de todos los valores que son tan grandes o tan
pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis
nula es verdadera, es muy remota.

Región de
rechazo
No se
rechaza H0
I

0 1,65

0,95 0,05
Probabilidad Probabilidad
Valor
Crítico

Obsérvese que en el diagrama:

1- La región en la que la hipótesis nula no se rechaza se encuentra a la izquierda de


1,65.
2- El área de rechazo está a la derecha de 1,65.
3. Se está realizando una prueba de una cola.
4- Se eligió el nivel de significancia de 0,05.
5- La distribución muestral del valor estadístico z en una distribución normal.
6- El valor 1,65 separa las regiones de rechazo y de aceptación de la hipótesis nula.
7- El valor 1,65 se denomina valor crítico.

Valor crítico
Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región
en la que no se rechaza la hipótesis nula.

Prueba para una media poblacional, con una desviación estándar poblacional
conocida.

103
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
PRUEBA DE UNA COLA
En esta tipo de pruebas la región de rechazo está sólo en la cola derecha (superior) de la
curva o en la cola izquierda (inferior).

Si la región de rechazo está en el extremo inferior, la hipótesis nula y la hipótesis


alternativa serán de la forma:

H0 :   ?
H1 :  < ?

Si la región de rechazo está en el extremo superior, la hipótesis nula y la hipótesis


alternativa serán de la forma:

H0 :   ?
H1 :  > ?

Se observa que el signo igual siempre está en la hipótesis nula, nunca en la hipótesis
alternativa.

Tabla de valores críticos de z para ensayos de una y dos colas

Nivel de significancia 0,10 0,05 0,01


Valores críticos de z para - 1,28 -1,65 -2,33
ensayos de una cola o 1,28 o 1,65 o 2,33
Valores críticos de z para -1,65 -1,96 -2,58
ensayos de dos colas y 1,65 y 1,96 y 2,58

Ejemplos.

Prueba de una cola


1) Un hospital usa grandes dosis de un medicamento en particular. La dosis individual
de esta medicina es de 100cc. La acción del remedio es tal que el cuerpo tolerará
inocuamente dosis excesivas. Por otra parte, las dosis insuficientes no producen el
efecto médico deseado, e interfieren en el tratamiento del paciente.

El hospital ha adquirido la cantidad de dicho medicamento que necesita al mismo


fabricante durante varios años y se sabe que la desviación estándar de la población es
2cc.

El hospital desea saber si las dosis reales son de 100c, para ello inspecciona
aleatoriamente 50 dosis de la medicina, tomadas de un suministro grande y encuentra
que la media de estas dosis es 99,75cc.

104
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Si se usa un nivel de significancia de 0,10:

a) Plantee la hipótesis nula y alternativa.


b) Proporcione la fórmula para el estadístico de prueba.
c) Enuncie la regla de decisión.
d) En base a la prueba tomada, ¿Se debe aceptar la hipótesis nula?

Solución:

a) H0 :   100cc
H1 :   100cc
 = 0,10

X 
b) z =

n

c) No se rechaza la hipótesis nula si el valor z calculado es mayor que - 1,28

d) Cálculo del valor de z.

99,75 100
z = = - 0,88 (valor calculado de z)
2
50
El grafico muestra las regiones de rechazo y de aceptación:

105
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El valor calculado de z, -0,88, cae en la zona de aceptación, en consecuencia se acepta
la hipótesis nula. La media observada de la muestra no es significativamente menor que
nuestra media hipotetizada de 100cc.

Prueba de dos colas.

2) Un fabricante suministra los ejes traseros para los camiones de correo de un servicio
postal. Estos ejes deben soportar 80.000 libras por pulg2 en pruebas de carga, pero un
eje excesivamente fuerte eleva los costos de producción de manera significativa. La
larga experiencia indica que la desviación estándar de la fuerza de sus ejes es
4.000libras por pulg2. El fabricante selecciona una muestra de 100 ejes de la
producción, los prueba y encuentra que la capacidad de carga media de la muestra es
79,600lb/pulg2.

Si el fabricante de ejes utiliza un nivel de significancia de 0,05 en la prueba, ¿satisfarán


los ejes sus requerimientos de carga?

Solución.

Datos:  = 80.000 (valor hipotetizado de la población)


 = 4.000 (desviación estándar de la población)
n = 100 (tamaño de la muestra)
X = 79.600 (media de la muestra)

Planteo de las hipótesis.

H0:  = 80.000
H1:   80.000
 = 0,05

Calculo del valor de z.

79,600  80.000
z = = -1
4.000
100

Puesto que – 1 no cae en la región de rechazo, no se rechaza H0. Se concluye no hay


diferencia significativa entre la media hipotetizada 80.000 y la media observada de los
ejes de la muestra.

106
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejercicios propuestos
1) En los dos ejercicios siguientes responda a las siguientes preguntas:
a- ¿Es una prueba de una o de dos colas?
b- ¿Cuál es la regla de decisión?
c- ¿Cuál es el valor del estadístico de prueba?
d- ¿Cuál es su decisión respecto a H0

A) Se tiene la siguiente información:


H0:  = 50
H1:   50

La media muestral es 49, y el tamaño de la muestra, 36. la desviación estándar de la


población es 5. Utilice el nivel de significancia 0,05

R: a) De dos colas; b) Se rechaza H0 si z no cae en la región -1,96 a 1,96


b) z = -1,2 ; d) Se falla al rechazar H0

B) Una muestra de 36 observaciones se selecciona de una población normal. La media


muestral es 21, y la desviación estándar de la muestra es 5. Efectúe la siguiente prueba
de hipótesis utilizando el nivel de significancia 0,05

H0:   20
H1:   20

R: a) De una cola. b) Rechazar H0 y aceptar H1 donde z > 1,65


c) z = 1,2 d) Se falla al rechazar H0 a nivel de significancia de 0,05

2) La tasa anual media de renovación de frascos de aspirina con 200 pastillas es de 6,


con una desviación estándar 0,50 (Esto significa que las existencias del medicamento
deben renovarse en promedio 6 veces al año). Se sospecha que este promedio de ventas
ha cambiado y ya no es 6. Use el nivel de significancia 0,05 para probar esta hipótesis.

107
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
a) Plantee la hipótesis nula y la alternativa.
b) ¿Cuál es la probabilidad de cometer un error del tipo I?
c) Proporcione la fórmula para el estadístico de prueba.
d) Enuncie la regla de decisión.
e) Una muestra de 64 frascos de 200 aspirinas, indicó una media de 5,84. ¿Debe
rechazarse la hipótesis de que la media poblacional es 6? Interprete el resultado.

X 
R: a) H0:   6 ; H1 =   6 . b) 0,05. c) z = . d) No se rechaza la

n
hipótesis nula si el valor calculado de z queda entre – 1,96 y + 1,96

e) Si. El valor de z calculado es – 2,56; se rechaza H0 para el nivel de significancia


0,05. Se acepta H1, la media no es igual a 6.

3) Un fabricante de llantas para camiones, radial X-15 con cinturón de acero, afirma que
el millaje medio del neumático en estado útil, es 60.000, la desviación estándar de los
recorridos es 5.000, una empresa camionera compró 48 llantas y halló que la duración
media fue 59.500 millas. ¿Difiere la experiencia de esta empresa de lo que afirma el
fabricante de las llantas? Use el nivel de significancia 0,05

R: a) H0:   60.000 ; H1:   60.000; b) Se rechaza H0 si z < -1,96 o z > 1,96


c) z = -0,69; d) No se descarta H0

4) Una encuesta nacional reciente halló que estudiantes de bachillerato veían un


promedio de 6,8 películas por mes. Una muestra aleatoria de 36 alumnos universitarios
reveló que el número de videos vistos el mes pasado fue 6,2 con una desviación
estándar de 0,5. En el nivel de significancia de 0,05 ¿puede concluirse que los
estudiantes de universidad ven menos películas en video que los de bachillerato?

R: a) H0.   6,8 ; H 1:   6,8 ; b) Se rechaza H0 si z < - 1,65


b) z = - 7,2 ; d) Se rechaza H0

Prueba para una media poblacional: muestra pequeña,


desviación estándar poblacional desconocida
Uso de la distribución t
X 
Prueba para la media, muestra pequeña: t
s
n
Con n – 1 grados de libertad, donde:

X es la media de la muestra
 es la media poblacional hipotética.
s es la desviación estándar de la muestra.
n es el número de observaciones en la muestra.

108
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejemplo.

El departamento de quejas de una empresa encuentra que el costo promedio de atender


una queja es $60. Una corporación mostró que esta cantidad era mayor que en otras
compañías de seguros, por lo que se tomaron medidas para disminuir los costos.

Para evaluar el efecto de estas medidas, la empresa tomó una muestra aleatoria de 26
reclamaciones recientes. El costo medio por reclamación fue $57, y la desviación
estándar, $10. ¿Pueden concluir que la diferencia entre la media muestral ($ 0,57) y la
media poblacional ($60) se debe a la casualidad? Use el nivel de significancia 0,01.

Se usará el procedimiento de los cinco pasos para la prueba de hipótesis.

Paso 1. Se establece la hipótesis nula y la hipótesis alternativa.

H0:   $60
H1:   $60

La prueba es de una cola.

Paso 2. Se elige el nivel de significancia.

 = 0,01

Paso 3. se selecciona el estadístico de prueba

Se usa la distribución t porque no se tiene la desviación estándar poblacional y la


muestra es pequeña; n = 26

X 
t
s
n
Paso 4. Se formula la regla de decisión.

Los valores críticos de t se dan en la tabla. La columna que se encuentra en el extremo


izquierdo de la tabla tiene como título “Grados de libertad, gl”. El número de grados de
libertad se calcula restando 1 del número de observaciones (n – 1). En este ejercicio
gl = 26 – 1 = 25.

Para encontrar el valor crítico se localiza primero el renglón correspondiente a los


grados de libertad. A continuación se determina si la prueba es de una o de dos colas.

En este caso se tiene una prueba de una cola, así que se localiza en la tabla la parte
titulada “una cola”. Se localiza la columna con el nivel de significancia elegido. En este
ejemplo el nivel de significancia es 0,01. Se recorre hacia abajo la columna
correspondiente a “0,01” hasta llegar a la intersección con el renglón correspondiente a
25 grados de libertad.

109
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
El valor de t es 2,485. Como esta es una prueba de una cola y la región de rechazo está
en la cola izquierda, el valor crítico es negativo.

La regla de decisión es rechazar H0 si el valor de t es menor que – 2,485

Paso 5. Tomar una decisión.

Datos: X = $57
 = $60
s = $10
n = 26

57  60
t = - 1,530
10
26

Como – 1,530 se encuentra en la región a la derecha del valor crítico -2,485, con el
nivel de significancia 0,01, no se rechaza la hipótesis nula. No hay diferencia
estadísticamente importante entre X y  .

Esto significa que las medidas tomadas para reducir los costos no han reducido el costo
promedio por reclamación a menos de $60.

110
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Ejercicios propuestos
1) Dadas las siguientes hipótesis:

H0:   10
H1:   10

En una muestra aleatoria de 10 observaciones, la media muestral fue 12, y la


desviación estándar muestral 3. Usando el nivel de significancia 0,05:

a) Establezca la regla de decisión.


b) Calcule el valor del estadístico de prueba.
c) ¿Cuál es su decisión respecto a la hipótesis nula?

R: a) Se rechaza H0 si t > 1,833 ; b) t = 2,108; c) Se rechaza H0. La media es mayor


que 10.

2) El gerente de ventas de una empresa editora de libros de texto, afirma que los
representantes de ventas hacen en promedio 40 llamadas semanales a profesores. Varios
representantes consideran que esta estimación es muy baja. Para investigar esto, se toma
una muestra aleatoria de 28 representantes de ventas y se encuentra que la media de
llamadas es 42. la desviación estándar muestral es 2,1 llamadas. Usando el nivel de
significancia 0,05. ¿Se puede concluir que el número medio de llamadas semanales es
mayor que 40?

R: H0:   40 ; H1:   40 ; Se rechaza H0 si t > 1,703 ; t = 5,040 ;


Se rechaza H0 y se concluye que el número de llamadas es de más de 40
por semana.

3) Los registros de la empresa “Yellowstone Trucks” indican que la duración media de


un juego de bujías es 22.100 millas. La distribución de los tiempos de vida útil de las
bujías es aproximadamente normal. Un fabricante de bujías tiene afirma que sus bujías
tienen una duración media superior a 22.100 millas. El dueño de los camiones compra
muchos de estos juegos. En una muestra de 18 juegos el tiempo de vida útil fue 23.400
millas, y la desviación estándar, 1.500 millas. ¿Hay suficiente evidencias, con el nivel
de significancia 0,05, que apoyen la afirmación del fabricante de bujías?

R: H0:   22.100 ; H1:   22.100 . Se rechaza H0 si t > 22.100


t = 3.680. Se rechaza H0 y se concluye que la vida media de las bujías es de
más de 22.100 millas

4) La longitud media de una barra de equilibrio es 43 milímetros. El supervisor de


producción sospecha que la máquina que produce las barras se ha desajustado, y le pide
al departamento de ingeniería que investigue el caso. El departamento de ingeniería
tomas una muestra aleatoria de 12 barras y mide cada una. Los resultados de las
mediciones se dan abajo, en milímetros.

111
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
42 39 42 45 43 40 39 41 40 42 43 42

¿Es razonable concluir que la longitud de las barras ha variado? Use 0,02 como nivel de
significancia.

R: H0:  = 43 ; H1:   43 ; X = 41,5 ; s = 1,78 ; t = - 2, 92

Se rehecha la hipótesis nula de que la media es 43 milímetros porque – 2,92 , que es el


valor de t obtenido mediante los cálculos, se encuentra en el área de rechazo, a la
izquierda de -2,718. Se acepta H1 . La máquina deberá ser ajustada

Análisis de Varianza
Características de la Distribución F

•Existe una “familia” de distribuciones F.


•Cada miembro de la familia está determinado por dos parámetros: los grados de
libertad (gl) en el numerador y los grados de libertad en el denominador.
•El valor de F no puede ser negativo y es una distribución continua.
•La distribución F tiene sesgo positivo.
•Sus valores varían de 0 a ∞ con forme F → ∞ la curva se aproxima al eje X.
•Para prueba de dos colas, el estadístico de prueba está dado por:

S12
F 2
S2

S12 y S22 son las varianzas muestrales para las dos muestras. La hipótesis nula se
rechaza si el cálculo del estadístico de prueba es más grande que el valor crítico (de
tablas) con nivel de confianza α /2 y grados de libertad para el numerador y el
denominador.

Ejemplo:

•Colin, agente de bolsa del Critical Securities, reportó que la tasa media de retorno en
una muestra de 10 acciones de software fue 12.6% con una desviación estándar de
3.9%. La tasa media de retorno en una muestra de 8 acciones de compañías de servicios
fue 10.9% con desviación estándar de 3.5%. Para .05 de nivel de significancia, ¿puede
Colin concluir que hay mayor variación en las acciones de software?

•Paso 1:
H0:s  u H1:s  u
•Paso 2: H0 se rechaza si F > 3.68,
gl = (9, 7), α = .05

112
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 3

F  (39 . )2  12416
. )2 / (35 .

•Paso 4: H0 no se rechaza. No hay evidencia suficiente para asegurar que hay mayor
variación en las acciones de software.
•La distribución F también se usa para probar la igualdad de más de dos medias con
una técnica llamada análisis de varianza (ANOVA).
ANOVA requiere las siguientes condiciones:·la población que se muestrea tiene una
distribución normal.
·las poblaciones tienen desviaciones estándar iguales
·las muestras se seleccionan al azar y son independientes

Procedimientos de análisis de varianza


•Hipótesis nula: las medias de las poblaciones son iguales.
•Hipótesis alternativa: al menos una de las medias es diferente.
•Estadístico de prueba: F = (variancia entre muestras)/(varianza dentro de muestras).
•Regla de decisión: para un nivel de significancia α, la hipótesis nula se rechaza si F
(calculada) es mayor que F (en tablas) con grados de libertad en el numerador y en el
denominador.

•Si se muestrean k poblaciones, entonces los gl (numerador) = k – 1.


•Si hay un total de N puntos en la muestra, entonces los gl (denominador) = N - k
•El estadístico de prueba se calcula con:
F = [(SST) /(k - 1)] /[(SSE) /(N - k)].
•SST es la suma de cuadrados de los tratamientos.
•SSE es la suma de cuadrados del error.
•Sea TC el total de la columna, nc el número de observaciones en cada columna, y SX
la suma de todas las observaciones.

SS (total )  X 2  
X 2
n
 T  X 
2 2
SST   c


 nc  n
SSE  SS (total) - SST

Ejemplo:

Los restaurantes Rosenbaum se especializan en comidas para retirados y familias. Su


presidenta Katy Polsby acaba de desarrollar un nuevo platillo de pastel de carne. Antes
de hacerlo parte del menú normal decidió probarlo en varios de sus restaurantes. Quiere
saber si hay diferencia en el número medio de comidas vendidas por día en los

113
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
restaurantes Sylvania, Perrysburg y Point Place para una muestra de cinco días. Con .05
de nivel de significancia, ¿puede Katy concluir que hay una diferencia en el número
medio de comidas de carne vendidas por día en los tres restaurantes?

Silvania Perrysburg Point Place


13 10 18
12 12 16
14 13 17
12 11 17

1 7 to ta l

T c 5 1 4 6 8 5 1 8 2

n c 4 4 5 1 3

6 5 3 5 3 4 1 4 4 7 2 6 3 4

86 -76.25=9.75

F = [76.25 /2] /[9.75 /10] = 39.1026


•Paso 1: H0: m1= m2= m3 H1: no todas las medias son iguales
•Paso 2: H0 se rechaza si F > 4.10
•Paso 3: F = 39.10•Paso 4: H0 se rechaza. Existe una diferencia en el número medio de
comidas vendidas.
•De la tabla, Katy determina SST = 76.25, SSE = 9.75, y el estadístico de prueba:

Inferencias acerca de las medias de tratamiento


•Cuando se rechaza la hipótesis nula de que las medias son iguales, quizá sea bueno
saber qué medias de tratamiento difieren.
•Uno de los procedimientos más sencillo es el uso de los intervalos de confianza.
•Donde t se obtiene de la tabla con (N - k) grados de libertad.
•MSE = [SSE /(N - k)]
1 1
X 1  X 2   t MSE   
 n1 n2 

•Del EJEMPLO 2 desarrolle un intervalo de confianza de 95% para la diferencia en el


número medio de comidas de pastel de carne vendidas en Point Place (pob # 1) y
Sylvania (pob # 2). ¿Puede Katy concluir que existe diferencia entre los dos
restaurantes?

114
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
 1 1
(17  12.75)  2.228 .975  
 4 5
4.25  1.48  ( 2.77 ,5.73)

Dos factores ANOVA


•Para ANOVA de dos factores se prueba si existe una diferencia signifcativa entre el
efecto de tratamiento y si existe una diference en la variable de bloqueo.•Sea Br el total
de bloque (r según las filas).
•SSB representa la suma de los cuadrados de los bloques, donde:

 B 2  ( X ) 2
SSB    r  
k  n
Ejemplo:

•La Bieber Manufacturing Co. opera 24 horas al día, cinco días a la semana. Los
trabajadores rotan su turno cada semana. Todd Bieber, el propietario, se interesa en
saber si hay una diferencia en el número de unidades producidas cuando los empleados
trabajan diferentes turnos. Se seleccionó una muestra de cinco trabajadores y se registró
su producción en cada turno. Con .05 de nivel de significancia, ¿se puede concluir que
existe una diferencia en la producción media por turno y por empleado?
•Variable de tratamiento

Empleado Producción en el Producción en Producció


día la tarde n en la
noche
McCartney 31 25 35

Neary 33 26 33

Schoen 28 24 30

Thompson 30 29 28

Wagner 28 26 27

•Paso 1: H0: m1= m2= m3 H1: no todas las medias son iguales.
•Paso 2: H0 se rechaza si F > 4.46, gl = (2, 8).
•Calcule la variable de suma de cuadrados: SS (total) = 139.73, SST = 62.53, SSB =
33.73, SSE = 43.47. gl(bloque) = 4, gl(tratamiento) = 2, gl(error) = 8.
•Paso 3: F = [62.53 /2] /[43.47 /8] = 5.75
•Paso 4: H0 se rechaza. Existe una diferencia en el número promedio de unidades
producidas para los distintos periodos o turnos.

115
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Variable de bloqueo:
·Paso 1: H0: m1= m2= m3= m4= m5 H1: no todas las medias son iguales.·Paso 2: H0
se rechaza si F > 3.84, gl = (4,8)
·Paso 3: F = [33.73 / 4] / [43.47 / 8] = 1.55
·Paso 4: H0 no se rechaza ya que no existe una diferencia significativa en el número
promedio de unidades producidas para los distintos trabajadores.

Análisis de Varianza
Características de la Distribución chi-cuadrada

•Las características principales de la distribución chi-cuadrada son:


-tiene sesgo positivo
-es no negativa
-está basada en los grados de liberad
-cuando los grados de libertad cambian se crea una nueva distribución

g.l. 3
g.l. 5
g.l.10

• Sean fo y fe las frecuencias observada y esperada respectivas.


• Ho : no hay diferencia entre fo y fe
• H1: existe una diferencia entre fo y fe
• El estadístico de prueba es:

  f  f 2 
x   
2 0 e

 fe 

•El valor crítico es un valor de chi-cuadrada con


(k - 1) grados de libertad, donde k es el número de categorías.

Ejemplo:

•Los siguientes datos de ausentismo se recolectaron en una planta manufacturera. Para


.05 de nivel de confianza, realice una prueba para determinar si existe diferencia en el
tasa de ausentismo por día de la semana.

116
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Día Frecuencia
Lunes 120
Martes 45
Miércoles 60
Jueves 90
Viernes 130

•Los siguientes datos de ausentismo se recolectaron en una planta manufacturera. Para


.05 de nivel de confianza, realice una prueba para determinar si existe diferencia en la
tasa de ausentismo por día de la semana.

•Suponga frecuencias esperadas iguales:

(120 + 45 + 60 + 90 + 130) / 5 = 89.

•Use estos números para calcular que el estadístico de prueba es 42.4719.


•Los grados de libertad son (5 - 1) = 4.
•Entonces, el valor crítico es 9.488

•H0 : no existe diferencia entre las frecuencias observadas y esperadas de ausencias.


•H0 : existe una diferencia entre las frecuencias observadas y esperadas de ausencias.
•Estadístico de prueba: chi-cuadrada = 60.8
•Regla de decisión: rechazar H0 si el estadístico de prueba es mayor que el valor crítico.
•Conclusión: rechazar H0 y concluir que existe una diferencia entre las frecuencias
observadas y las esperadas de ausencias.

Prueba de Bondad de Ajuste: frecuencias esperadas


distintas

•El U.S. Bureau of the Census indica que 63.9% de la población está casada, 7.7% es
viuda, 6.9% divorciada (y no vuelta a casar) y 21.5% soltera (nunca casada). Una
muestra de 500 adultos del área de Filadelfia indica que 310 personas estaban casadas,
40 viudas, 30 divorciadas y 120 solteras. Para .05 de nivel de significancia ¿se puede
concluir que el área de Filadelfia es diferente al de Estados Unidos como un todo?

Estado fo fe (fo-fe)2/fe
Casado 310 319.5 0.2825
Viudo 40 38.5 0.0584
Divorciado 30 34.5 0.5870
Soltero 120 107.5 1.4535
Total 500 2.3814

117
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 1: H0 : la distribución no ha cambiado.
•H1 : la distribución cambió.
•Paso 2: H0 se rechaza si.

x 2 > 7.815, gl = 3,
α =.05

•Paso 3:
x 2  2.3824

•Paso 4: H0 se rechaza. La distribución cambió.

Prueba de bondad de ajuste para normalidad


•Propósito: probar si las frecuencias observadas en una distribución de frecuencias se
ajusta a la distribución normal teórica.
•Procedimiento: determinar la media y la desviación estándar de la distribución de
frecuencias.
-Calcular el valor z para el límite inferior y superior de cada clase.
-Determinar fe para cada categoría
-Usar la prueba de bondad de ajuste de chi-cuadrada para determinar si fo coincide
con fe.

Ejemplo:

•Una muestra de 500 donativos a la Arthritis Foundation se presenta con la siguiente


distribución de frecuencias. ¿Es razonable concluir que se tiene una distribución normal
con media de $10 y desviación estándar de $2? Use .05 de nivel de significancia.

•Nota: para calcular para la primera clase, primero se calcula la probabildad de esta
clase. P(X<6)=P[Z<(6-10)/2]=.0228. Así, es (.0228) (500)=11.4

cantidad
gastada fo área fe (fo-fe)2/fe
<$6 20 0.02 11.40 6.49
$6-8 60 0.14 67.95 0.93
$8-10 140 0.34 170.65 5.50
$10-12 120 0.34 170.65 15.03
$12-14 90 0.14 67.95 7.16
>$14 70 0.02 11.40 301.22
Total 500 500 336.33
Divorciado 30 34.5 0.5870
Soltero 120 107.5 1.4535
Total 500 2.3814

118
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
•Paso 1: H0 : la distribución es normal.
•H1 : la distribución no es normal.
•Paso 2: H0 se rechaza si x 2 > 11.07, gl = 5, =.05
•Paso 3:
x 2  336.33

•Paso 4: H0 se rechaza. La distribución no es normal.

Ejercicios propuestos
1. La empresa T Company ensambla componentes eléctricos. Durante los últimos
10 días la compañía ha experimentado un promedio de 9 productos defectuosos,
con una desviación estándar de 2. Otra compañía ha elaborado en promedio 8,5
componentes con defectos, con una desviación de 1,5 productos durante el
mismo periodo. Al nivel del 0.05, es posible concluir que hay más variación en
el número de componentes defectuosos al día que se atribuyen a T Company?

2. Una compañía realizó un estudio acerca de los hábitos de escuchar la radio por
parte de hombres y mujeres. Un aspecto del estudio comprendió el tiempo
promedio de audición. Se descubrió que tal tiempo para los varones es de 35
min. al día. La desviación de la muestra de 10 personas del sexo masculino que
se estudiaron fue de 10 min. diarios. El tiempo promedio de audición para las 12
mujeres en el estudio fue también de 35 minutos., pero la desviación de la
muestra resulto de 12 min. Al nivel del 0.1, es posible concluir que existe una
diferencia en la variación en el nº de minutos que los hombres y mujeres
escuchan la radio?

3. Clean All es un nuevo limpiador de uso múltiple cuya demanda se prueba


exhibiéndolo en tres lugares diferentes dentro de varios supermercados. A
continuación se muestra el nº de botellas de 12 onzas que se vendieron en cada
ubicación:

Lugar Ventas
Cerca del pan 20 15 24 18
Cerca de las cervezas 12 18 10 15
Con otros limpiadores 25 28 30 32

Al nivel de significancia de 0.05, existe una diferencia en el nº medio de botellas


vendidas en los tres lugares?

4. La siguiente información es muestral. Pruebe la hipótesis de que las medias de


tratamiento son iguales. Utilice el nivel del 0.05

119
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Tratamiento 1 Tratamiento 2 Tratamiento 3
9 13 10
7 20 9
11 14 15
9 13 14
12 15
10

5. Los siguientes datos representan el costo de colegiaturas (en miles de $) de una


muestra de universidades privadas en diversas regiones de EE.UU. al nivel de
significancia de 0.05, puede concluirse que existe una diferencia en el costo
promedio de las colegiaturas?

Noreste Sureste Oeste


(miles de $) (miles $) (miles de $)
10 8 7
11 9 8
12 10 6
10 8 7
12 6

6. Una empresa vende 3 champús: para cabello seco, normal y graso. Las ventas en
millones de $, durante los últimos cinco meses, se presentan en la siguiente
tabla:

Ventas (miles de $)
Mes Seco Normal Graso
Junio 7 9 12
Julio 11 12 14
Agosto 13 11 8
Setiembre 8 9 7
Octubre 9 10 13

Utilizando el nivel de 0.05, aplique el procedimiento ANOVA para probar si: a) las
ventas promedio de los tipos de productos para los diferentes tipos de pelo son iguales,
b) las ventas promedio son las mismas para cada uno de los cinco meses?

Aplicaciones de Chi-cuadrado

1. Una gerente de personal está preocupada respecto al ausentismo. Ha decidido


muestrear las listas de asistencia para determinar si el ausentismo está
distribuido uniformemente durante los 6 días de la semana laboral. La hipótesis
nula que ha de ser probada es: el ausentismo está distribuido equitativamente

120
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
durante toda la semana. Se usara el nivel de 0.01. Los resultados de la muestra
son:

Ausencias
Lunes 12
Martes 9
Miércoles 11
Jueves 10
Viernes 9
Sábado 9

2. El director de seguridad de la empresa Honda, de EE.UU., tomo muestras al azar


del archivo de accidentes menores, y los clasifico de acuerdo con el tiempo en
que tuvo lugar cada uno.

Hora nº de accidentes
8 a 9 am 6
9 a 10 am 6
10 a 11 am 20
11 a 12 pm 8
1 a 2 pm 7
2 a 3 pm 8
3 a 4 pm 19
4 a 5 pm 6

Utilizando la prueba de bondad de ajuste y el nivel del 0.01, determine si los accidentes
están distribuidos uniformemente o no durante el día. De una breve explicación acerca
de la conclusión.

3. Una asociación de contabilidad clasifica las cuentas por cobrar como al


corriente, atrasadas y no cobrables. Las cifras en la industria muestran que el
60% de las cuentas por cobrar son al corriente, 30% son atrasadas y 10% son no
cobrables. Una empresa de abogados tienen 500 cuentas por cobrar, 320 están al
día, 102 tienen atraso y 60 son no cobrables. Estos números concuerdan con la
distribución en la industria? Utilice el nivel de significancia de 0.05

4. El fabricante de una terminal de computadora informa en su material de


publicidad que la duración media de tal dispositivo, según uso normal, es de 6
años, con una desviación estándar de 1,4 años. Una muestra de 90 unidades
vendidas hace 10 años, mostró la siguiente distribución de las duraciones. Al
nivel de significancia de 0.05, puede el fabricante concluir que tales tiempos
están distribuidos normalmente?

121
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Vida util (años) Frecuencia
Hasta 4 7
4a5 14
5a6 25
6a7 22
7a8 16
8 o mayor 6

5. Una socióloga estuvo investigando esta cuestión: existe alguna relación entre el
nivel de educación y las actividades sociales de una persona? Decidió manejar
tres niveles de educación: asistió o termino la instrucción universitaria, asistió o
termino la preparatoria y asistió o termino la primaria o inferior. Cada persona
llevo un registro de sus actividades sociales. La socióloga los dividió en
frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al
promedio.

Actividad social
Instrucción Superior Inferior
al promedio Promedio al promedio
Universitaria 18 12 10
Preparatoria 17 15 13
Primaria 9 9 22

a) cómo se denomina esta tabla, b) establezca la hipótesis nula, c) debe


rechazarse la Ho al nivel del 0.05.

6. El director de mercadotecnia de un diario metropolitano estudia la relación entre


el tipo de comunidad en que el ( o la) lector (a) vive y la parte del periódico que
lee primero. Para una muestra de lectores se reunió la información que sigue.

Al nivel de significancia de 0.05, se puede concluir que existe una relación entre el tipo
de comunidad donde la persona reside y la parte del diario que lee primero?

Comunidad Noticias nacionales Deportes Historietas cómicas


Urbana 170 124 90
Rural 120 112 100
Granjera 130 90 88

122
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas
Bibliografía

 Chao, Lincon (1993) Estadística para las ciencias administrativas. de Bogotá:


Ed.: Mc Graw-Hill. Santa Fe.
 Spiegel, Murray R.- Schiller, John- Srinivasan, R. Alu(1997) Probabilidad y
Estadística. Bogotá: Ed. McGraw- Hill.
 Kazmier,Ph.D.Leonard J. ( 2007) Estadística Aplicada a la administración y
economía. Hill.México: Mc Graw.

Sitios web

 aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php

 www.eyeintheskygroup.com/.../Calculo-Distribucion-Chi-Ji-Cuadrado.htm

123
Elaboración: Lic. Sergio Ayala
Revisión: Lic. Sara Rodas

También podría gustarte