Estimacion y Prueba de Hipotesis

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 101

INFERENCIA ESTADÍSTICA

La Inferencia Estadística:

Es la parte de la estadística en la que se hacen afirmaciones de la


población o de sus parámetros, en base a la información obtenida
de una muestra o muestras extraídas de dicha población o se
toman decisiones, frente a la incertidumbre. En este capítulo
estudiaremos temas respecto a:

1)Teoría de estimación: Estimación de parámetros

2)Pruebas de hipótesis

3) Pruebas de independencia de variables ( Prueba Chi cuadrado)

En la mayoría de estudios estadísticos es imposible tener contacto con


todos los elementos que conforman la población y por lo tanto es
imposible calcular características específicas tales como la media y
desviación estándar de esa población. Basados en la Inducción
Estadística o Inferencia Estadística podemos estimar esas
características mediante una muestra extraída de esa población
garantizando dicha estimación mediante procedimientos estadísticos
que proporciona la teoría de probabilidades.

Definición: La Inferencia Estadística: son un conjunto de


operaciones que basadas en el cálculo de probabilidades y la
estadística matemática permiten hacer estimaciones pruebas de
hipótesis, generalizaciones o predicciones de una población.

TEORIA DE ESTIMACION

La estimación estadística: es un proceso de estadística


inferencial que tiene como finalidad aproximar el valor del
parámetro poblacional a partir de los datos tomados de una
muestra.

Existen dos formas de realizar la estimación de parametros: La


estimación puntual y la estimación por intervalos.

El objetivo principal de la estadística inferencial es la estimación, esto


es que mediante el estudio de una muestra de una población se quiere
generalizar las conclusiones al total de la misma. Como vimos en la
sección anterior, los estadísticos varían mucho dentro de sus
distribuciones muestrales, y mientras menor sea el error estándar de
un estadístico, más cercanos serán unos de otros sus valores.

Existen dos tipos de estimaciones para parámetros; puntuales y por


intervalo. Una estimación puntual es un único valor estadístico y se
usa para estimar un parámetro. El estadístico usado se
denomina estimador. Estimación: Es el proceso de usar un
estadístico muestral para estimar el correspondiente parámetro
poblacional. En forma general un parámetro es representado
simbólicamente por θ y su estimador por θ

Estadístico o estadigrafo: Es una mediada usada para describir una


característica de una muestra, tal como la media aritmética, desviación
estándar, etc.

Parámetro: Es una mediada usada para describir alguna


característica de la población.

La estimación puede ser: Puntual o Interválica, un estimador puntual


o de punto es un valor único, un estimador de intervalo es un recorrido
establecido dentro del cual podemos esperar que este el valor del
parámetro θ, es decir:

θ−b<θ<θ+ b

Una estimación por intervalo es un rango, generalmente de ancho


finito, que se espera que contenga el parámetro.

Estimación Puntual

La inferencia estadística está casi siempre concentrada en obtener


algún tipo de conclusión acerca de uno o más parámetros
(características poblacionales). Para hacerlo, se requiere que un
investigador obtenga datos muestrales de cada una de las
poblaciones en estudio. Entonces, las conclusiones pueden estar
basadas en los valores calculados de varias cantidades muestrales .
Po ejemplo, representamos con   (parámetro) el verdadero promedio
de resistencia a la ruptura de conexiones de alambres utilizados para
unir obleas de semiconductores. Podría tomarse una muestra aleatoria
de 10 conexiones para determinar la resistencia a la ruptura de cada
una, y la media muestral de la resistencia a la ruptura  se podía
emplear para sacar una conclusión acerca del valor de  . De forma
similar, si   es la varianza de la distribución de resistencia a la
ruptura, el valor de la varianza muestral s 2 se podría utilizar pra inferir
algo acerca de  .

Cuando se analizan conceptos generales y métodos de inferencia es


conveniente tener un símbolo genérico para el parámetro de interés.
Se utilizará la letra griega   para este propósito. El objetivo de la
estimación puntual es seleccionar sólo un número, basados en datos
de la muestra, que represente el valor más razonable de  .

Una muestra aleatoria de 3 baterías para calculadora podría presentar


duraciones observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor
calculado de la duración media muestral es  = 5.77, y es razonable
considerar 5.77 como el valor más adecuado de  .

Una estimación puntual de un parámetro   es un sólo número que


se puede considerar como el valor más razonable de  . La estimación
puntual se obtiene al seleccionar una estadística apropiada y calcular
su valor a partir de datos de la muestra dada. La estadística
seleccionada se llama estimador puntual de  .

El símbolo  (theta sombrero) suele utilizarse para representar el


estimador de   y la estimación puntual resultante de una muestra
dada. Entonces   se lee como "el estimador puntual de   es la
media muestral  ". El enunciado "la estimación puntual de   es 5.77"
se puede escribir en forma abreviada  .

Ejemplo:

En el futuro habrá cada vez más interés en desarrollar aleaciones de


Mg de bajo costo, para varios procesos de fundición. En
consecuencia, es importante contar con métodos prácticos para
determinar varias propiedades mecánicas de esas aleaciones.
Examine la siguiente muestra de mediciones del módulo de elasticidad
obtenidos de un proceso de fundición a presión:

44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1


Suponga que esas observaciones son el resultado de una muestra
aleatoria. Se desea estimar la varianza poblacional  . Un estimador
natural es la varianza muestral:

En el mejor de los casos, se encontrará un estimador   para el cual


siempre. Sin embargo,   es una función de las Xi muestrales, por
lo que en sí misma una variable aleatoria.

+ error de estimación

Entonces el estimador preciso sería uno que produzca sólo pequeñas


diferencias de estimación, de modo que los valores estimados se
acerquen al valor verdadero.

Propiedades de un Buen Estimador

Insesgado.- Se dice que un estimador puntual  es un estimador


insesgado de   si  , para todo valor posible de  . En otras
palabras, un estimador insesgado es aquel para el cual la media de la
distribución muestral es el parámetro estimado. Si se usa la media
muestral   para estimar la media poblacional  , se sabe que la 
, por lo tanto la media es un estimador insesgado.

Eficiente o con varianza mínima.- Suponga que  1 y  2 son dos


estimadores insesgados de  . Entonces, aun cuando la distribución de
cada estimador esté centrada en el valor verdadero de  , las
dispersiones de las distribuciones alrededor del valor verdadero
pueden ser diferentes.

Entre todos los estimadores de   que son insesgados, seleccione al


que tenga varianza mínima. El   resultante recibe el nombre
de estimador insesgado con varianza mínima (MVUE, minimum
variance unbiased estimator) de  .

En otras palabras, la eficiencia se refiere al tamaño de error estándar


de la estadística. Si comparamos dos estaíisticas de una muestra del
mismo tamaño y tratamos de decidir cual de ellas es un estimador
mas eficiente, escogeríamos la estadística que tuviera el menor error
estándar, o la menor desviación estándar de la distribución de
muestreo.

Tiene sentido pensar que un estimador con un error estándar menor


tendrá una mayor oportunidad de producir una estimación mas
cercana al parámetro de población que se esta considerando.

Como se puede observar las dos distribuciones tienen un mismo valor


en el parámetro sólo que la distribución muestral de medias tiene una
menor varianza, por lo que la media se convierte en un estimador
eficiente e insesgado.

Coherencia.- Una estadística es un estimador coherente de un


parámetro de población, si al aumentar el tamaño de la muestra se
tiene casi la certeza de que el valor de la estadística se aproxima
bastante al valor del parámetro de la población. Si un estimador es
coherente se vuelve mas confiable si tenemos tamaños de muestras
mas grandes.

Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la


información contenida de la muestra que ningún otro estimador podría
extraer información adicional de la muestra sobre el parámetro de la
población que se esta estimando.

Es decir se pretende que al extraer la muestra el estadístico calculado


contenga toda la información de esa muestra. Por ejemplo, cuando se
calcula la media de la muestra, se necesitan todos los datos. Cuando
se calcula la mediana de una muestra sólo se utiliza a un dato o a dos.
Esto es solo el dato o los datos del centro son los que van a
representar la muestra. Con esto se deduce que si utilizamos a todos
los datos de la muestra como es en el caso de la media, la varianza,
desviación estándar, etc; se tendrá un estimador suficiente.
Estimación por Intervalos

Un estimado puntual, por ser un sólo número, no proporciona por sí


mismo información alguna sobre la precisión y confiabilidad de la
estimación. Por ejemplo, imagine que se usa el estadístico  para
calcular un estimado puntual de la resistencia real a la ruptura de
toallas de papel de cierta marca, y suponga que  = 9322.7. Debido a
la variabilidad de la muestra, nunca se tendrá el caso de que  = . El
estimado puntual nada dice sobre lo cercano que esta de  . Una
alternativa para reportar un solo valor del parámetro que se esté
estimando es calcular e informar todo un intervalo de valores factibles,
un estimado de intervalo o intervalo de confianza (IC). Un intervalo de
confianza se calcula siempre seleccionando primero un nivel de
confianza, que es una medida de el grado de fiabilidad en el intervalo.
Un intervalo de confianza con un nivel de confianza de 95% de la
resistencia real promedio a la ruptura podría tener un límite inferior de
9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza
de 95%, es posible tener cualquier valor de   entre 9162.5 y 9482.9.
Un nivel de confianza de 95% implica que 95% de todas las muestras
daría lugar a un intervalo que incluye   o cualquier otro parámetro
que se esté estimando, y sólo 5% de las muestras producirá un
intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos
creer que el valor del parámetro que se estima está dentro del
intervalo.

Una interpretación correcta de la "confianza de 95%" radica en la


interpretación frecuente de probabilidad a largo plazo: decir que un
evento A tiene una probabilidad de 0.95, es decir que si el
experimento donde A está definido re realiza una y otra vez, a largo
plazo A ocurrirá 95% de las veces. Para este caso

el 95% de los intervalos de confianza calculados contendrán a  .


Esta es una construcción repetida de intervalos de confianza de 95% y
se puede observar que de los 11 intervalos calculados sólo el tercero y
el último no contienen el valor de  .

De acuerdo con esta interpretación, el nivel de confianza de 95% no


es tanto un enunciado sobre cualquier intervalo en particular, más bien
se refiere a lo que sucedería si se tuvieran que construir un gran
número de intervalos semejantes.

Encontrar z a partir de un nivel de confianza

Existen varias tablas en las cuales podemos encontrar el valor de z,


según sea el área proporcionada por la misma. En esta sección se
realizará un ejemplo para encontrar el valor de z utilizando tres tablas
diferentes.

Ejemplo:

Encuentre el valor de z para un nivel de confianza del 95%.

Solución 1:

Se utilizará la tabla que tiene el área bajo la curva de -  hasta z. Si lo


vemos gráficamente sería:
El nivel de confianza bilateral está dividido en partes iguales bajo la
curva:

En base a la tabla que se esta utilizando, se tendrá que buscar el área


de 0.975, ya que cada extremo o cola de la curva tiene un valor de
0.025.

Por lo que el valor de z es de 1.96.

Solución 2:

Si se utiliza una tabla en donde el área bajo la curva es de 0 a z:

En este caso sólo se tendrá que buscar adentro de la tabla el área de


0.475 y el resultado del valor de z será el mismo, para este ejemplo
1.96.

Solución 3:

Para la tabla en donde el área bajo la curva va desde z hasta  :


Se busca el valor de 0.025 para encontrar z de 1.96.

Independientemente del valor del Nivel de Confianza este será el


procedimiento a seguir para localizar a z. En el caso de que no se
encuentre el valor exacto se tendrá que interpolar.

Estimación para la Media

Es conocido de nosotros durante este curso, que en base a la


distribución muestral de medias que se generó en el tema anterior, la

fórmula para el cálculo de probabilidad es la siguiente:  .


Como en este caso no conocemos el parámetro y lo queremos estimar
por medio de la media de la muestra, sólo se despejará   de la
formula anterior, quedando lo siguiente:

De esta fórmula se puede observar que tanto el tamaño de la muestra


como el valor de z se conocerán. Z se puede obtener de la tabla de la
distribución normal a partir del nivel de confianza establecido. Pero en
ocasiones se desconoce   por lo que en esos casos lo correcto es
utilizar otra distribución llamada "t" de student si la población de donde
provienen los datos es normal.

Para el caso de tamaños de muestra grande se puede utilizar una


estimación puntual de la desviación estándar, es decir igualar la
desviación estándar de la muestra a la de la población (s= ).

Ejemplos:

1. Se encuentra que la concentración promedio de zinc que se


saca del agua a partir de una muestra de mediciones de zinc en
36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los
intervalos de confianza de 95% y 99% para la concentración
media de zinc en el río. Suponga que la desviación estándar de
la población es 0.3.

Solución:

La estimación puntual de   es = 2.6. El valor de z para un nivel


de confianza del 95% es 1.96, por lo tanto:

Para un nivel de confianza de 99% el valor de z es de 2.575 por


lo que el intervalo será más amplio:

El intervalo de confianza proporciona una estimación de la


precisión de nuestra estimación puntual. Si   es realmente el
valor central de intervalo, entonces  estima   sin error. La
mayor parte de las veces, sin embargo,   no será exactamente
igual a   y la estimación puntual es errónea. La magnitud de
este error será el valor absoluto de la diferencia entre   y  , y
podemos tener el nivel de confianza de que esta diferencia no

excederá  .

Como se puede observar en los resultados del ejercicio se tiene


un error de estimación mayor cuando el nivel de confianza es
del 99% y más pequeño cuando se reduce a un nivel de
confianza del 95%.

2. Una empresa eléctrica fabrica focos que tienen una duración


aproximadamente distribuida de forma normal con una
desviación estándar de 40 horas. Si una muestra de 30 focos
tiene una duración promedio de 780 horas, encuentre un
intervalo de confianza de 96% para la media de la población de
todos los focos que produce esta empresa.

Solución:

Con un nivel de confianza del 96% se sabe que la duración


media de los focos que produce la empresa está entre 765 y 765
horas.

3. La prueba de corte sesgado es el procedimiento más aceptado


para evaluar la calidad de una unión entre un material de
reparación y su sustrato de concreto. El artículo "Testing the
Bond Between Repair Materials and Concrete Substrate"
informa que, en cierta investigación, se obtuvo una resistencia
promedio muestral de 17.17 N/mm2, con una muestra de 48
observaciones de resistencia al corte, y la desviación estándar
muestral fue 3.28 N/mm2. Utilice un nivel de
confianza inferior del 95% para estimar la media real de la
resistencia al corte.

Solución:

En este ejercicio se nos presentan dos situaciones diferentes a los


ejercicios anteriores. La primera que desconoce la desviación
estándar de la población y la segunda que nos piden un intervalo de
confianza unilateral.

El primer caso ya se había comentado y se solucionará utilizando la


desviación estándar de la muestra como estimación puntual de sigma.

Para el intervalo de confianza unilateral, se cargará el área bajo la


curva hacia un solo lado como sigue:
Esto quiere decir que con un nivel de confianza de 95%, el valor de la
media está en el intervalo (16.39,  ).

Estimación de una Proporción

Un estimador puntual de la proporción P en un experimento binomial está


dado por la estadística P=X/N, donde x representa el número de éxitos
en n pruebas. Por tanto, la proporción de la muestra p =x/n se utiuñlizará
como estimador puntual del parámetro P.

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó


de 1, se puede establecer un intervalo de confianza para P al considerar la
distribución muestral de proporciones.

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y


es precisamente lo que queremos estimar, por lo que lo sustituiremos por la
proporción de la muestra p siempre y cuando el tamaño de muestra no sea
pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0


ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir
que np ó nq sea mayor o igual a 5.

El error de estimación será la diferencia absoluta entre p y P, y podemos tener

el nivel de confianza de que esta diferencia no excederá  .

Ejemplos:

1. Un fabricante de reproductores de discos compactos utiliza un conjunto


de pruebas amplias para evaluar la función eléctrica de su producto.
Todos los reproductores de discos compactos deben pasar todas las
pruebas antes de venderse. Una muestra aleatoria de 500 reproductores
tiene como resultado 15 que fallan en una o más pruebas. Encuentre un
intervalo de confianza de 90% para la proporción de los reproductores
de discos compactos de la población que no pasan todas las pruebas.

Solución:

n=500

p = 15/500 = 0.03

z(0.90) = 1.645

0.0237<P<0.0376

Se sabe con un nivel de confianza del 90% que la proporción de discos


defectuosos que no pasan la prueba en esa población esta entre 0.0237
y 0.0376.

2. En una muestra de 400 pilas tipo B fabricadas por la Everlast


Company, se encontraron 20 defectuosas. Si la proporción p de pilas
defectuosas en esa muestra se usa para estimar P, que vendrá a ser la
proporción verdadera de todas las pilas defectuosas tipo B fabricadas
por la Everlast Company, encuentre el máximo error de estimación   
tal que se pueda tener un 95% de confianza en que P dista menos de   
de p.

Solución:
p=x/n = 20/400=0.05

z(0.95)=1.96

Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en


que P dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa
para erstimar P, el error máximo de estimación será aproximadamente
0.021 con un nivel de confianza del 95%.

Para calcular el intervalo de confianza se tendría:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de


confianza del 95% se sabe que la proporción de pulas defectuosas de
esta compañía está entre 0.029 y 0.071.

Si se requiere un menor error con un mismo nivel de confianza sólo


se necesita aumentar el tamaño de la muestra.

3. En un estudio de 300 accidentes de automóvil en una ciudad específica,


60 tuvieron consecuencias fatales. Con base en esta muestra, construya
un intervalo del 90% de confianza para aproximar la proporción de
todos los accidentes automovilísticos que en esa ciudad tienen
consecuencias fatales.

Solución:

P= 60/300 = 0.20

Z(0.90) = 1.645

0.162<P<0.238

Estimación de la Diferencia entre dos Medias

Si se tienen dos poblaciones con medias  1 y  2 y varianzas  12 y  22,
respectivamente, un estimador puntual de la diferencia entre  1 y  2 está
dado por la estadística  . Por tanto. Para obtener una estimación puntual
de 
1-  2, se seleccionan dos muestras aleatorias independientes, una de cada

población, de tamaño n1 y n2, se calcula la diferencia  , de las medias


muestrales.

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación  1-  2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños


de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como
una estimación puntual.

Ejemplos:

1. Se lleva a cabo un experimento en que se comparan dos tipos de


motores, A y B. Se mide el rendimiento en millas por galón de
gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el
motor tipo B. La gasolina que se utiliza y las demás condiciones se
mantienen constantes. El rendimiento promedio de gasolina para el
motor A es de 36 millas por galón y el promedio para el motor B es 24
millas por galón. Encuentre un intervalo de confianza de 96% sobre la
diferencia promedio real para los motores A y B. Suponga que las
desviaciones estándar poblacionales son 6 y 8 para los motores A y B
respectivamente.

Solución:

Es deseable que la diferencia de medias sea positiva por lo que se


recomienda restar la media mayor menos la media menor. En este caso
será la media del motor B menos la media del motor A.

El valor de z para un nivel de confianza del 96% es de 2.05.


3.43< B - A<8.57

La interpretación de este ejemplo sería que con un nivel de confianza


del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57
millas por galón a favor del motor B. Esto quiere decir que el motor B
da mas rendimiento promedio que el motor A, ya que los dos valores
del intervalo son positivos.

2. Una compañía de taxis trata de decidir si comprar neumáticos de la


marca A o de la B para su flotilla de taxis. Para estimar la diferencia de
las dos marcas, se lleva a cabo un experimento utilizando 12 de cada
marca. Los neumáticos se utilizan hasta que se desgastan, dando como
resultado promedio para la marca A 36,300 kilómetros y para la marca
B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la
diferencia promedio de las dos marcas, si se sabe que las poblaciones se
distribuyen de forma aproximadamente normal con desviación estándar
de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B.

Solución:

-2662.68< B - A <6262.67

Gráficamente:

Como el intervalo contiene el valor "cero", no hay razón para creer que
el promedio de duración del neumático de la marca B es mayor al de
la marca A, pues el cero nos está indicando que pueden tener la
misma duración promedio.
Estimación de la Diferencia de dos Proporciones

En la sección anterior se vio el tema de la generación de las


distribuciones muestrales, en donde se tenía el valor de los
parámetros, se seleccionaban dos muestras y podíamos calcular la
probabilidad del comportamiento de los estadísticos. Para este caso
en particular se utilizará la distribución muestral de diferencia de
proporciones para la estimación de la misma. Recordando la fórmula:

Despejando P1-P2 de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción,


ya que al hacer el despeje nos queda las dos proporciones
poblacionales y es precisamente lo que queremos estimar, por lo que
se utilizarán las proporciones de la muestra como estimadores
puntuales:

Ejemplos:

1. Se considera cierto cambio en un proceso de fabricación de


partes componentes. Se toman muestras del procedimiento
existente y del nuevo para determinar si éste tiene como
resultado una mejoría. Si se encuentra que 75 de 1500 artículos
del procedimiento actual son defectuosos y 80 de 2000 artículos
del procedimiento nuevo también lo son, encuentre un intervalo
de confianza de 90% para la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo.

Solución:

Sean P1 y P2 las proporciones reales de defectuosos para los


procesos actual y nuevo, respectivamente. De aquí, p1=75/1500
= 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos
que z para un nivel de confianza del 90% es de 1.645.
-0.0017<P1-P2<0.0217

Como el intervalo contiene el valor de cero, no hay razón para


creer que el nuevo procedimiento producirá una disminución
significativa en la proporción de artículos defectuosos
comparado con el método existente.

2. Un artículo relacionado con la salud, reporta los siguientes datos


sobre la incidencia de disfunciones importantes entre recién
nacidos con madres fumadoras de marihuana y de madres que
no la fumaban:

  Usuaria No Usuaria

Tamaño Muestral 1246 11178

Número de disfunciones 42 294

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la


diferencia de proporciones.

Solución:

Representemos P1 la proporción de nacimientos donde aparecen


disfunciones entre todas las madres que fuman marihuana y
definamos P2, de manera similar, para las no fumadoras. El valor de z
para un 99% de confianza es de 2.58.

-0.0064<P1-P2<0.0212

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido


estimado de manera precisa.
INTERVALOS CONFIDENCIALES EN POBLACIONES NORMALES

1.-Intervalo confidencia para la media de una población normal

a) Cuando la varianza de la población σ2 es conocida o n>30

El intervalo para estimar θ=μ dado por es

σ σ
x−Z α / 2 ≤ μ≤ x+ Z 1−α /2
√n √n

$ " 
" 

Z" /2 Z1- " /2

Dónde:

n = tamaño de muestra

σ2/n = es la varianza de la media muestral

β = Probabilidad de aceptación de que la media de la población


se halle en el intervalo.

α= Es la probabilidad de rechazo, α=1 - 

Z α /2 y Z 1−α /2 son abcisas de la distribución normal estándar.


n
∑ xi
i=1
x̄ =es la media muestra muestral = n

b) Si n > 30 y σ2, es desconocido, debe ser estimado mediante la


2
2 2 ∑ ( xi −x )
s =S =
varianza de la muestra: n−1

El intervalo de confianza para μ en este caso es:

S S
x̄−t α / 2 ( n−1) < μ< x̄ +t 1−α / 2 ( n−1)
√n √n
Donde tα/2 y t1- α/2, son valores obtenido en la tabla T para (n-1) grados
de libertad (gl).

En los casos en que el tamaño de muestra es n>30 debe ser usado el


intervalo del caso a), con la varianza muestral estimada.

Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el


cambio medio de presión sanguínea por paciente en un sanatorio. Se
ha seleccionado una muestra al azar de 30 pacientes y se halló que
puls/seg. Los investigadores saben que la desviación estándar
de los cambios de presión sanguínea para todos los pacientes es  =
3 puls/seg según estudios anteriores. Ellos desean estimar el cambio
medio de la presión sanguínea por paciente con un intervalo del 95%
de confianza, suponiendo que la variable aleatoria "cambios de
presión sanguínea" tiene asociada una distribución normal de
probabilidad.

Solucion:

Solucion:

X = cambio en la presión sanguínea por paciente del sanatorio (en


pulsaciones por segundo)

n = 30 ; = 3 , 1 -  = 0.95

Por tabla: Entonces:

Límite inferior (LI) =

Límite superior (LS) =

Por lo tanto resulta el Intervalo del 95% de confianza para la media:

ICM0,95 = (3,9 ; 6,1)

Luego, puede decirse que el cambio medio en la presión sanguínea


por paciente, pertenece al intervalo (3,9 ; 6,1) pulsaciones, con un
nivel de confianza del 95%.
Ejemplo 2: Una muestra de 15 aves tomadas al azar en un
establecimiento con 5000 aves, (que elabora alimentos balanceados),
permitió establecer un aumento de peso promedio de 90 g por semana
y por ave, y un desvío típico de 10 g. Se busca estimar el incremento
de peso promedio para las 5000 aves del establecimiento con un
intervalo de confianza del 90%.

Solución:

X = aumento de peso por ave

n = 15 ; = 90 g; S = 10 g ; ¿ICM 0,90?

Por tabla:

y el intervalo resulta:

Interpretando este resultado, se dice que el aumento de peso por ave


por semana en el establecimiento está entre 85,5 y 94,6 gramos, con
un 90% de confianza.

2.-Intervalo de Confianza para la Diferencia de Medias.

a)CASO 1: Poblaciones normales y con y


conocidos.

Se fija el nivel de confianza (1 - ), se extraen dos muestras


independientes de X1 y X2 de tamaño n. Ya se ha visto que:

y el estadístico tipificado tiene la siguiente

distribución: (1)

Además, (2)

Reemplazando en (2), a Z por la expresión (1), se obtiene:


Dónde:

Ejemplo 3: Al determinar la superficie en miles de hectáreas de las


explotaciones agrícola-ganaderas de cierta zona, una muestra de 40
explotaciones dio una superficie media de 900 ha, con una desviación
típica de 300 ha. En otra zona, al muestrear también 40 explotaciones,
la superficie media fue de 600 ha con una desviación típica de 150 ha.
Suponiendo que en ambas zonas la variable "superficie en ha por
explotación" se distribuye normalmente, estimar por un intervalo de
confianza del 90%, la diferencia entre las superficies medias de las
explotaciones de ambas zonas.

Solucion:

X1 = superficie de cada explotación agrícola de la primera zona

X2 = superficie de cada explotación agrícola de la segunda zona

, n = 40 ¿ICDM 0,90?

Por tabla: Luego:

= 300 ± 87,24 = (212,76 ; 387,24) = (212,8 ; 387,2)


Interpretando este resultado, se dice que la diferencia entre las
superficies medias de las explotaciones agrícolo-ganaderas de ambas
zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de confianza.

Observación: En la fórmula también puede utilizarse y en ese


caso debe considerarse en lugar de

b)CASO 2: Poblaciones normales y con y


desconocidos

Se extraen dos muestras independientes (una de cada población) de


tamaños n1 y n2 respectivamente, se fija (1 - ), se calculan y su
diferencia.

a) Si  1 y  2 son desconocidos pero estadísticamente pueden

considerares iguales (1 =  2), se estiman por y se


procede como en el caso 1. (Sa es la variancia amalgamada o
mancomunada)

b) Si  1 y  2 son desconocidos pero estadísticamente no pueden


considerarse iguales ( 1 =  2),

Se fija (1 - ±), se extraen dos muestras independientes, se calcula


y la distribución en el muestreo del estadístico de prueba, ya
tipificado, es:

 t

Donde el número de grados de libertad de la distribución t de Student


viene dado por la fórmula:
De manera análoga al primer caso, se deduce que:

Ejemplo 4: Las variables aleatorias X1 y X2 distribuidas normalmente,


representan las edades al morir de tuberculosis de los individuos en
dos ciudades. Una muestra de 10 individuos que murieron por tal
enfermedad en la primera ciudad dio una edad media de 48 años y
una desviación típica de 5 años. En la segunda ciudad, una muestra
de 12 individuos dio una edad media de 41 años y una desviación
típica de 3 años. Se desea estimar por intervalos con un 95% de
confianza, la diferencia entre las edades medias de los muertos por
tuberculosis en ambas ciudades, sabiendo que investigaciones
anteriores no permiten tomar las desviaciones típicas de ambas
variables como iguales.

X1 = edad al morir de tuberculosis en la ciudad A.

X2 = edad al morir de tuberculosis en la ciudad B.

n1 = 10, , S1 = 5

n2 = 12, , S2 = 3, ¿ICDM 0,95?

Solución :(corresponde al item b) del caso 2)

Con estos datos, reemplazamos en la fórmula para calcular los grados


de libertad:

grados de libertad.

Luego, por tabla, t0,05; (15) = 2,1315 y finalmente el intervalo resulta:

ICDM 0,95 =

= 7 ± 3,843 = (3,157 ; 10,843) = (3 ; 11)


Interpretando el resultado se puede decir que la diferencia entre las
edades medias de las personas que murieron de tuberculosis en
ambas ciudades, se encuentra entre 3 y 11 años, con una confianza
del 95%.

3.-Intervalo confidencial para la Varianza

El intervalo de confianza para la varianza de una población normal es


construido en forma de intervalo bilateral como sigue:

( n−1) S 2 2 ( n−1) S 2
<s <
X 2 ( n−1)( α / 2) X 2 ( n−1 )( 1−α / 2)

Dónde: S2 = varianza muestral

x2 = es una variable Ji-cuadrado con n-1 grados de


libertad, debe ser determinada tanto para /2 como 1 - /2.
Ejemplo 5: Un productor de fertilizantes, para controlar el buen
embolsado de sus productos, pesa 15 bolsas del mismo, obteniendo
una desviación típica de 0,50 kg. ¿Qué varianza puede inferirse con
un 98% de confianza que tendrá la producción total?

Respuesta:

X = peso de cada bolsa de fertilizante

n = 15 , S = 0,50 kg. ¿ICV0,98?

Por tabla:

Luego, el intervalo buscado es:

Se interpreta este resultado diciendo que existe un 98% de confianza


de que la variancia del peso por bolsa en toda la producción de bolsas
de fertilizantes de ese productor esté entre 0,12 y 0,75

3.1.1.4. Intervalo de confianza para la proporción poblacional


Si n > 30 de preferencia n > 50, la distribución binomial de la
proporción será aproximada mediante la distribución normal. El
intervalo de confianza es aproximadamente:

pq pq
p−Z α / 2 √ < P< p+Z 1−α / 2 √
√n √n
Dónde: p =probabilidad de éxitos en la muestra

p = probabilidad de éxitos en la población

q = 1 - p = probabilidad de fracaso en la muestra

Q= 1 - P = probabilidad de fracasos en la población.

Si 2 = PQ / n es desconocido P debe ser estimado mediante la


muestra.

Luego sp= √ pq /n es el estimador de Op.

Por definición P = x / n, x = número de elementos en la clase de


éxito

n = Tamaño de muestra.
Estimación para la Media

Es conocido de nosotros durante este curso, que en base a la


distribución muestral de medias que se generó en el tema anterior, la

fórmula para el cálculo de probabilidad es la siguiente:  .


Como en este caso no conocemos el parámetro y lo queremos estimar
por medio de la media de la muestra, sólo se despejará   de la
formula anterior, quedando lo siguiente:

De esta fórmula se puede observar que tanto el tamaño de la muestra


como el valor de z se conocerán. Z se puede obtener de la tabla de la
distribución normal a partir del nivel de confianza establecido. Pero en
ocasiones se desconoce   por lo que en esos casos lo correcto es
utilizar otra distribución llamada "t" de student si la población de donde
provienen los datos es normal.

Para el caso de tamaños de muestra grande se puede utilizar una


estimación puntual de la desviación estándar, es decir igualar la
desviación estándar de la muestra a la de la población (s= ).

Ejemplos:

4. Se encuentra que la concentración promedio de zinc que se


saca del agua a partir de una muestra de mediciones de zinc en
36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los
intervalos de confianza de 95% y 99% para la concentración
media de zinc en el río. Suponga que la desviación estándar de
la población es 0.3.

Solución:

La estimación puntual de   es = 2.6. El valor de z para un nivel


de confianza del 95% es 1.96, por lo tanto:

Para un nivel de confianza de 99% el valor de z es de 2.575 por


lo que el intervalo será más amplio:

El intervalo de confianza proporciona una estimación de la


precisión de nuestra estimación puntual. Si   es realmente el
valor central de intervalo, entonces  estima   sin error. La
mayor parte de las veces, sin embargo,   no será exactamente
igual a   y la estimación puntual es errónea. La magnitud de
este error será el valor absoluto de la diferencia entre   y  , y
podemos tener el nivel de confianza de que esta diferencia no

excederá  .
Como se puede observar en los resultados del ejercicio se tiene
un error de estimación mayor cuando el nivel de confianza es
del 99% y más pequeño cuando se reduce a un nivel de
confianza del 95%.

5. Una empresa eléctrica fabrica focos que tienen una duración


aproximadamente distribuida de forma normal con una
desviación estándar de 40 horas. Si una muestra de 30 focos
tiene una duración promedio de 780 horas, encuentre un
intervalo de confianza de 96% para la media de la población de
todos los focos que produce esta empresa.

Solución:

Con un nivel de confianza del 96% se sabe que la duración


media de los focos que produce la empresa está entre 765 y 765
horas.

6. La prueba de corte sesgado es el procedimiento más aceptado


para evaluar la calidad de una unión entre un material de
reparación y su sustrato de concreto. El artículo "Testing the
Bond Between Repair Materials and Concrete Substrate"
informa que, en cierta investigación, se obtuvo una resistencia
promedio muestral de 17.17 N/mm2, con una muestra de 48
observaciones de resistencia al corte, y la desviación estándar
muestral fue 3.28 N/mm2. Utilice un nivel de
confianza inferior del 95% para estimar la media real de la
resistencia al corte.

Solución:

En este ejercicio se nos presentan dos situaciones diferentes a los


ejercicios anteriores. La primera que desconoce la desviación
estándar de la población y la segunda que nos piden un intervalo de
confianza unilateral.

El primer caso ya se había comentado y se solucionará utilizando la


desviación estándar de la muestra como estimación puntual de sigma.

Para el intervalo de confianza unilateral, se cargará el área bajo la


curva hacia un solo lado como sigue:
Esto quiere decir que con un nivel de confianza de 95%, el valor de la
media está en el intervalo (16.39,  ).

Estimación de una Proporción

Un estimador puntual de la proporción P en un experimento binomial está


dado por la estadística P=X/N, donde x representa el número de éxitos
en n pruebas. Por tanto, la proporción de la muestra p =x/n se utiuñlizará
como estimador puntual del parámetro P.

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó


de 1, se puede establecer un intervalo de confianza para P al considerar la
distribución muestral de proporciones.

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y


es precisamente lo que queremos estimar, por lo que lo sustituiremos por la
proporción de la muestra p siempre y cuando el tamaño de muestra no sea
pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0


ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir
que np ó nq sea mayor o igual a 5.

El error de estimación será la diferencia absoluta entre p y P, y podemos tener

el nivel de confianza de que esta diferencia no excederá  .

Ejemplos:

4. Un fabricante de reproductores de discos compactos utiliza un conjunto


de pruebas amplias para evaluar la función eléctrica de su producto.
Todos los reproductores de discos compactos deben pasar todas las
pruebas antes de venderse. Una muestra aleatoria de 500 reproductores
tiene como resultado 15 que fallan en una o más pruebas. Encuentre un
intervalo de confianza de 90% para la proporción de los reproductores
de discos compactos de la población que no pasan todas las pruebas.

Solución:

n=500

p = 15/500 = 0.03

z(0.90) = 1.645

0.0237<P<0.0376

Se sabe con un nivel de confianza del 90% que la proporción de discos


defectuosos que no pasan la prueba en esa población esta entre 0.0237
y 0.0376.

5. En una muestra de 400 pilas tipo B fabricadas por la Everlast


Company, se encontraron 20 defectuosas. Si la proporción p de pilas
defectuosas en esa muestra se usa para estimar P, que vendrá a ser la
proporción verdadera de todas las pilas defectuosas tipo B fabricadas
por la Everlast Company, encuentre el máximo error de estimación   
tal que se pueda tener un 95% de confianza en que P dista menos de   
de p.

Solución:
p=x/n = 20/400=0.05

z(0.95)=1.96

Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en


que P dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa
para erstimar P, el error máximo de estimación será aproximadamente
0.021 con un nivel de confianza del 95%.

Para calcular el intervalo de confianza se tendría:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de


confianza del 95% se sabe que la proporción de pulas defectuosas de
esta compañía está entre 0.029 y 0.071.

Si se requiere un menor error con un mismo nivel de confianza sólo


se necesita aumentar el tamaño de la muestra.

6. En un estudio de 300 accidentes de automóvil en una ciudad específica,


60 tuvieron consecuencias fatales. Con base en esta muestra, construya
un intervalo del 90% de confianza para aproximar la proporción de
todos los accidentes automovilísticos que en esa ciudad tienen
consecuencias fatales.

Solución:

P= 60/300 = 0.20

Z(0.90) = 1.645

0.162<P<0.238

Estimación de la Diferencia entre dos Medias

Si se tienen dos poblaciones con medias  1 y  2 y varianzas  12 y  22,
respectivamente, un estimador puntual de la diferencia entre  1 y  2 está
dado por la estadística  . Por tanto. Para obtener una estimación puntual
de 
1-  2, se seleccionan dos muestras aleatorias independientes, una de cada

población, de tamaño n1 y n2, se calcula la diferencia  , de las medias


muestrales.

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación  1-  2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños


de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como
una estimación puntual.

Ejemplos:

3. Se lleva a cabo un experimento en que se comparan dos tipos de


motores, A y B. Se mide el rendimiento en millas por galón de
gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el
motor tipo B. La gasolina que se utiliza y las demás condiciones se
mantienen constantes. El rendimiento promedio de gasolina para el
motor A es de 36 millas por galón y el promedio para el motor B es 24
millas por galón. Encuentre un intervalo de confianza de 96% sobre la
diferencia promedio real para los motores A y B. Suponga que las
desviaciones estándar poblacionales son 6 y 8 para los motores A y B
respectivamente.

Solución:

Es deseable que la diferencia de medias sea positiva por lo que se


recomienda restar la media mayor menos la media menor. En este caso
será la media del motor B menos la media del motor A.

El valor de z para un nivel de confianza del 96% es de 2.05.


3.43< B - A<8.57

La interpretación de este ejemplo sería que con un nivel de confianza


del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57
millas por galón a favor del motor B. Esto quiere decir que el motor B
da mas rendimiento promedio que el motor A, ya que los dos valores
del intervalo son positivos.

4. Una compañía de taxis trata de decidir si comprar neumáticos de la


marca A o de la B para su flotilla de taxis. Para estimar la diferencia de
las dos marcas, se lleva a cabo un experimento utilizando 12 de cada
marca. Los neumáticos se utilizan hasta que se desgastan, dando como
resultado promedio para la marca A 36,300 kilómetros y para la marca
B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la
diferencia promedio de las dos marcas, si se sabe que las poblaciones se
distribuyen de forma aproximadamente normal con desviación estándar
de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B.

Solución:

-2662.68< B - A <6262.67

Gráficamente:

Como el intervalo contiene el valor "cero", no hay razón para creer que
el promedio de duración del neumático de la marca B es mayor al de
la marca A, pues el cero nos está indicando que pueden tener la
misma duración promedio.
Estimación de la Diferencia de dos Proporciones

En la sección anterior se vio el tema de la generación de las


distribuciones muestrales, en donde se tenía el valor de los
parámetros, se seleccionaban dos muestras y podíamos calcular la
probabilidad del comportamiento de los estadísticos. Para este caso
en particular se utilizará la distribución muestral de diferencia de
proporciones para la estimación de la misma. Recordando la fórmula:

Despejando P1-P2 de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción,


ya que al hacer el despeje nos queda las dos proporciones
poblacionales y es precisamente lo que queremos estimar, por lo que
se utilizarán las proporciones de la muestra como estimadores
puntuales:

Ejemplos:

3. Se considera cierto cambio en un proceso de fabricación de


partes componentes. Se toman muestras del procedimiento
existente y del nuevo para determinar si éste tiene como
resultado una mejoría. Si se encuentra que 75 de 1500 artículos
del procedimiento actual son defectuosos y 80 de 2000 artículos
del procedimiento nuevo también lo son, encuentre un intervalo
de confianza de 90% para la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo.

Solución:

Sean P1 y P2 las proporciones reales de defectuosos para los


procesos actual y nuevo, respectivamente. De aquí, p1=75/1500
= 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos
que z para un nivel de confianza del 90% es de 1.645.
-0.0017<P1-P2<0.0217

Como el intervalo contiene el valor de cero, no hay razón para


creer que el nuevo procedimiento producirá una disminución
significativa en la proporción de artículos defectuosos
comparado con el método existente.

4. Un artículo relacionado con la salud, reporta los siguientes datos


sobre la incidencia de disfunciones importantes entre recién
nacidos con madres fumadoras de marihuana y de madres que
no la fumaban:

  Usuaria No Usuaria

Tamaño Muestral 1246 11178

Número de disfunciones 42 294

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la


diferencia de proporciones.

Solución:

Representemos P1 la proporción de nacimientos donde aparecen


disfunciones entre todas las madres que fuman marihuana y
definamos P2, de manera similar, para las no fumadoras. El valor de z
para un 99% de confianza es de 2.58.

-0.0064<P1-P2<0.0212

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido


estimado de manera precisa.
PRUEBA DE HIPOTESIS

Las secciones anteriores han mostrado cómo puede estimarse un


parámetro a partir de los datos contenidos en una muestra. Puede
encontrarse ya sea un sólo número (estimador puntual) o un intervalo
de valores posibles (intervalo de confianza). Sin embargo, muchos
problemas de ingeniería, ciencia, y administración, requieren que se
tome una decisión entre aceptar o rechazar una proposición sobre
algún parámetro. Esta proposición recibe el nombre
de hipótesis. Este es uno de los aspectos más útiles de la inferencia
estadística, puesto que muchos tipos de problemas de toma de
decisiones, pruebas o experimentos en el mundo de la ingeniería,
pueden formularse como problemas de prueba de hipótesis.

Una hipótesis es una suposición que se formula con el propósito de


ser verificada. Las hipótesis científicas o de investigación suelen
transformarse en hipótesis estadísticas. Una hipótesis estadística es
una proposición o supuesto sobre los parámetros de una o más
poblaciones. Las hipótesis estadísticas se formulan en pareja como
Hipótesis Nula vs hipótesis Alternativa:

La hipótesis nula se representa por: H0 ; establece que no existe


diferencias. En ella se supone que el parámetro de la población que
se está estudiando tiene determinado valor y se formula con la
intención de rechazarla.

La hipótesis alternativa ( H1 o Ha ) Es la hipótesis estadística que


suponemos es verdadera y deseamos establecer, es una hipótesis
diferente a la hipótesis nula.

Prueba de hipótesis estadística: Es un procedimiento para decidir si


se acepta o se rechaza una hipótesis estadistica

PASOS BÁSICOS DE LA PRUEBA DE HIPÓTESIS CON EL


MÉTODO DE VALOR CRÍTICO

Paso1. Formule la hipótesis nula y la hipótesis alternativa. La


hipótesis nula (H0 es el valor paramétrico hipotético que se compara
con el resultado muestral. Se le rechaza sólo si es poco probable que
el resultado muestral haya ocurrido dado lo correcto de la hipótesis. La
hipótesis alternativa (H1) se acepta sólo si la hipótesis nula es
rechazada. En muchos libros de texto la hipótesis alternativa también
se designa como Ha.
Paso 2. Especifique el nivel de significancia por aplicar. El nivel de
significancia es el estándar estadístico que se especifica para
rechazar la hipótesis nula. Si se especifica un nivel de significancia de
5%, la hipótesis nula se rechaza sólo si el resultado muestral es tan
diferente del valor hipotético que una diferencia por ese monto o un
monto superior ocurriría al azar con una probabilidad de 0.05 o menos.
Nótese que si se usa el nivel de significancia de 5%, hay una
probabilidad de 0.05 de rechazar la hipótesis nula aun siendo
efectivamente cierta. Esto se llama error tipo I La probabilidad del error
tipo I siempre es igual al nivel de significancia empleado como
estándar para rechazar la hipótesis nula; se le designa con la letra
griega minúscula  (alfa), de modo que a designa también al nivel de
significancia. Los niveles de significancia de uso más frecuente en la
prueba de hipótesis son los de 5% en Ciencias e ingeniería y 1%. En
ciencias médicas.

Ocurre un error tipo II si la hipótesis nula no se rechaza, y es por lo


tanto aceptada, cuando en realidad es falsa. La determinación de la
probabilidad del error tipo II se explica. En la tabla correspondiente se
resumen los tipos de decisiones y las posibles consecuencias de las
decisiones tomadas en pruebas de hipótesis.

Consecuencias de las Decisiones en Pruebas de Hipótesis.

Decisiones Situaciones Posibles


Posibles  La hipótesis nula La hipótesis nula es falsa
es verdadera
Aceptar la Se acepta Error tipo II  
Hipótesis Nula correctamente
Rechazar la Error tipo I Se rechaza correctamente  
Hipótesis Nula

Paso 3. Seleccione la estadística de prueba. La estadística de prueba


se encuentra en el formulario dado en el texto guía (FORMUÑLARIO
N° 7 PRUEBAS DE HIPOTESIS MAS USUALES) 

Paso 4. Determinación de la Región de aceptación y de rechazo:


Establezca el valor o valores críticos de la estadística de prueba.
Habiendo especificado la hipótesis nula, el nivel de significancia y la
estadística de prueba por usar, se establece entonces el(los) valor(es)
crítico(s) de la estadística de prueba. Estos valores pueden ser uno o
dos, dependiendo de si están implicadas las así llamadas pruebas
unilaterales o bilaterales. En cualquier caso, un valor crítico identifica
el valor de la estadística de prueba requerido para rechazar la
hipótesis nula.

Paso 5. Calculo de valor de la estadística de prueba. Consiste en


reemplazar los valores muestrales en la Estadística de prueba o
estadístico de contraste y obtener un valor numérico. 

Paso 6. Tome la decisión. El valor calculado de la estadística de


prueba obtenido en el paso anterior ; l se compara con el valor (o
valores) crítico(s) de la estadística de prueba. Si este valor calculado
cae en la región de rechazo de la hipótesis nula Se rechaza dicha
hipótesis nula. Si sucede lo contrario se acepta; Si la hipótesis nula
es rechazada, se acepta la hipótesis alternativa. Esta decisión tendrá
relevancia a su vez para otras decisiones por tomar por los gerentes
de operación.

Ejemplo : Suponga que se tiene interés en la rapidez de combustión


de un agente propulsor sólido utilizado en los sistemas de salida de
emergencia para la tripulación de aeronaves. El interés se centra
sobre la rapidez de combustión promedio. De manera específica, el
interés recae en decir si la rapidez de combustión promedio es o no 50
cm/s. Esto puede expresarse de manera formal como

Ho;   = 50 cm/s

H1;     50 cm/s

La proposición Ho;   = 50 cm/s, se conoce como hipótesis nula,


mientras que la proposición H1;     50 cm/s, recibe el nombre
de hipótesis alternativa. Puesto que la hipótesis alternativa
especifica valores de  que pueden ser mayores o menores que 50
cm/s, también se conoce como hipótesis alternativa bilateral. En
algunas situaciones, lo que se desea es formular una hipótesis
alternativa unilateral, como en

Ho;   = 50 cm/s Ho;   = 50 cm/s

H1;   < 50 cm/s H1;   > 50 cm/s

Es importante recordar que las hipótesis siempre son proposiciones


sobre la población o distribución bajo estudio, no proposiciones sobre
la muestra. Por lo general, el valor del parámetro de la población
especificado en la hipótesis nula se determina en una de tres maneras
diferentes:

1. Puede ser resultado de la experiencia pasada o del


conocimiento del proceso, entonces el objetivo de la prueba de
hipótesis usualmente es determinar si ha cambiado el valor del
parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se
relaciona con el proceso bajo estudio. En este caso, el objetivo
de la prueba de hipótesis es verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones
externas, tales como las especificaciones de diseño o ingeniería,
o de obligaciones contractuales. En esta situación, el objetivo
usual de la prueba de hipótesis es probar el cumplimiento de las
especificaciones.

Un procedimiento que conduce a una decisión sobre una hipótesis en


particular recibe el nombre de prueba de hipótesis. Los
procedimientos de prueba de hipótesis dependen del empleo de la
información contenida en la muestra aleatoria de la población de
interés. Si esta información es consistente con la hipótesis, se
concluye que ésta es verdadera; sin embargo si esta información es
inconsistente con la hipótesis, se concluye que esta es falsa. Debe
hacerse hincapié en que la verdad o falsedad de una hipótesis en
particular nunca puede conocerse con certidumbre, a menos que
pueda examinarse a toda la población. Usualmente esto es imposible
en muchas situaciones prácticas. Por tanto, es necesario desarrollar
un procedimiento de prueba de hipótesis teniendo en cuenta la
probabilidad de llegar a una conclusión equivocada.

La hipótesis nula, representada por Ho, es la afirmación sobre una o


más características de poblaciones que al inicio se supone cierta (es
decir, la "creencia a priori").

La hipótesis alternativa, representada por H1, es la afirmación


contradictoria a Ho, y ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo


si la evidencia muestral sugiere que Ho es falsa. Si la muestra no
contradice decididamente a Ho, se continúa creyendo en la validez de
la hipótesis nula. Entonces, las dos conclusiones posibles de un
análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.

Prueba de una Hipótesis Estadística


Para ilustrar los conceptos generales, considere el problema de la
rapidez de combustión del agente propulsor presentado con
anterioridad. La hipótesis nula es que la rapidez promedio de
combustión es 50 cm/s, mientras que la hipótesis alternativa es que
ésta no es igual a 50 cm/s. Esto es, se desea probar:

Ho;   = 50 cm/s

H1;     50 cm/s

Supóngase que se realiza una prueba sobre una muestra de 10


especímenes, y que se observa cual es la rapidez de combustión
promedio muestral. La media muestral es un estimador de la media
verdadera de la población. Un valor de la media muestral   que este
próximo al valor hipotético   = 50 cm/s es una evidencia de que el
verdadero valor de la media   es realmente 50 cm/s; esto es, tal
evidencia apoya la hipótesis nula Ho. Por otra parte, una media
muestral muy diferente de 50 cm/s constituye una evidencia que
apoya la hipótesis alternativa H1. Por tanto, en este caso, la media
muestral es el estadístico de prueba.

La media muestral puede tomar muchos valores diferentes.


Supóngase que si 48.5 51.5, entonces no se rechaza la hipótesis
nula Ho;   = 50 cm/s, y que si  <48.5 ó  >51.5, entonces se acepta
la hipótesis alternativa H1;     50 cm/s.

Los valores de  que son menores que 48.5 o mayores que 51.5
constituyen la región crítica de la prueba, mientras que todos los
valores que están en el intervalo 48.5 51.5 forman la región de
aceptación. Las fronteras entre las regiones críticas y de aceptación
reciben el nombre de valores críticos. La costumbre es establecer
conclusiones con respecto a la hipótesis nula Ho. Por tanto, se rechaza
Ho en favor de H1 si el estadístico de prueba cae en la región crítica,
de lo contrario, no se rechaza Ho.

Este procedimiento de decisión puede conducir a una de dos


conclusiones erróneas. Por ejemplo, es posible que el valor verdadero
de la rapidez promedio de combustión del agente propulsor sea igual a
50 cm/s. Sin embargo, para todos los especímenes bajo prueba, bien
puede observarse un valor del estadístico de prueba  que cae en la
región crítica. En este caso, la hipótesis nula H o será rechazada en
favor de la alternativa H1cuando, de hecho, Ho en realidad es
verdadera. Este tipo de conclusión equivocada se conoce como error
tipo I.
El error tipo I se define como el rechazo de la hipótesis nula
Ho cuando ésta es verdadera. También es conocido como   ó nivel
de significancia.

Si tuviéramos un nivel de confianza del 95% entonces el nivel de


significancia sería del 5%. Análogamente si se tiene un nivel de
confianza del 90% entonces el nivel de significancia sería del 10%.

Ahora supóngase que la verdadera rapidez promedio de combustión


es diferente de 50 cm/s, aunque la media muestral  caiga dentro de la
región de aceptación. En este caso se acepta Ho cuando ésta es falsa.
Este tipo de conclusión recibe el nombre de error tipo II.

El error tipo II ó error   se define como la aceptación de la hipótesis


nula cuando ésta es falsa.

Por tanto, al probar cualquier hipótesis estadística, existen cuatro


situaciones diferentes que determinan si la decisión final es correcta o
errónea.

Decisión Ho es verdadera Ho es falsa

Aceptar Ho No hay error Error tipo II ó 

Rechazar Ho Error tipo I ó  No hay error

1. Los errores tipo I y tipo II están relacionados. Una disminución


en la probabilidad de uno por lo general tiene como resultado un
aumento en la probabilidad del otro.
2. El tamaño de la región crítica, y por tanto la probabilidad de
cometer un error tipo I, siempre se puede reducir al ajustar el o
los valores críticos.
3. Un aumento en el tamaño muestral n reducirá   y   de forma
simultánea.
4. Si la hipótesis nula es falsa,   es un máximo cuando el valor
real del parámetro se aproxima al hipotético. Entre más grande
sea la distancia entre el valor real y el valor hipotético, será
menor 

Tipos de Ensayo

Se pueden presentar tres tipos de ensayo de hipótesis que son:

 Unilateral Derecho
 Unilateral Izquierdo
 Bilateral

Dependiendo de la evaluación que se quiera hacer se seleccionará el tipo de


ensayo.

 Unilateral Derecho. El investigador desea comprobar la hipótesis de un


aumento en el parámetro, en este caso el nivel de significancia se carga
todo hacia el lado derecho, para definir las regiones de aceptación y de
rechazo.

Ensayo de hipótesis:

Ho; Parámetro   x

H1; Parámetro  x

 Unilateral Izquierdo: El investigador desea comprobar la


hipótesis de una disminución en el parámetro, en este caso el
nivel de significancia se carga todo hacia el lado izquierdo, para
definir las regiones de aceptación y de rechazo.

Ensayo de hipótesis:

Ho; Parámetro   x

H1; Parámetro  x

 Bilateral: El investigador desea comprobar la hipótesis de un


cambio en el parámetro. El nivel de significancia se divide en
dos y existen dos regiones de rechazo.
Ensayo de hipótesis:

Ho; Parámetro = x

H1; Parámetro   x

Para realizar los ejemplos y ejercicios de ensayo de hipótesis se


recomienda seguir los pasos mencionados anteriormente. Los
ejemplos siguientes se solucionarán por los pasos recomendados,
teniéndose una variedad de problemas en donde se incluirán a todas
las distribuciones muestrales que se han visto hasta aquí.

PRUEBA DE HIPÓTESIS RELACIONADAS CON UNA SOLA MEDIA

a) Prueba de una sola media (variación conocida)

En esta sección se presentan las pruebas de hipótesis, acerca de una sola media
poblacional.

Se debe primero describir las suposiciones sobre las cuales se basa el experimento. El
modelo para la situación fundamental se centra alrededor de un experimento X 1,
X2,...,Xn que representa una muestra aleatoria de una distribución con media y
2
varianza  > 0.

Considérese primero la hipótesis Ho: μ = μo

H: μ > μo

El estadístico de prueba apropiado deberá basarse en la variable aleatoria x,


establece que no obstante la distribución x, la variable aleatoria x tiene una
distribución aproximadamente normal con media μ y varianza σ2/n de tal forma que:

: μ x = : μ y s 2x̄ =σ2/n. Puede determinarse una región crítica con base en el

promedio muestral calculado, x .

Es conveniente estandarizar la x e incluir formalmente la variable aleatoria normal


estándar Z, donde:

x̄− m
Z=
s/ √ n

x̄− m o
Se sabe que bajo Ho, esto es, si μ =μo entonces s /√ n tiene una distribución N
(0,1) y de aquí que la expresión,

x̄−m o
(
P − Z α / 2<
s/√n )
< Z α / 2 =1− α

Puede utilizarse para escribir una región crítica apropiada. El considerar que,
formalmente la región crítica se crea para controlar α, la probabilidad de error de tipo I
debe ser obvio que se necesita una señal de dos colas para respaldar H1. Así, dado un
valor calculado x̄ la prueba formal implica rechazar H o si el estadístico de prueba
calculado

x− mo
Z= > Z α / 2 <- Z α / 2
s/ √ n Si
Z /2 < 2 < Z α /2 no se rechaza Ho. El
rechazo Ho, por supuesto, implica la aceptación de la hipótesis alternativa μ> μo.

Con esta definición de la región crítica debe quedar claro que existe la probabilidad 
de rechazar Ho (al caer en la región crítica cuando en realidad, μ= μo.

No obstante es más fácil entender la región crítica en términos de Z se escribe la


misma región en términos del promedio.

Lo siguiente puede expresarse como procedimiento idéntico de decisión se rechaza H o


si x̄ >b o x̄ <a.

s
a=mo −Z α /2
√n
s
b=mo +Z α /2
Dónde: √n
De aquí, que para un nivel de significancia, los valores críticos de la variable aleatoria
Zy x̄ se muestran en la siguiente Fig.

Las pruebas de hipótesis unilaterales acerca de la media comprenden el mismo


estadístico que el escrito para el caso bilateral. La diferencia, por el supuesto, es que
la región crítica es de una sola cola de la distribución normal.
1-" " 
" 

a µo b
-Z" /2 0 Z" /2
Z=Escala

b) Prueba sobre una sola media (Variación desconocida):

Con bastante certeza podría sospechar que las pruebas sobre una media poblacional
μ desconociendo σ2, igual que con la estimación del intervalo de confianza, deben
involucrar el uso de la distribución de t de Student, en sentido estricto, la aplicación de
la t de Student tanto en intervalos de confianza como en pruebas de hipótesis, se
desarrolla bajo las siguientes suposiciones. Las variables aleatorias X1, X2, ... , Xn

representan una muestra aleatoria √ n( x̄−m)/ S tiene una distribución t. Como


resultado:

Para la hipótesis bilateral:

H o :m=mo
H 1 :m¹ mo

El rechazo de Ho en un nivel de significancia α resulta cuando la estadística t


calculada:

x̄ −mo
t=
S / √n

Excede a t/2, n-1 o es menor que - t/2,n-1. El lector debe recordar que la distribución t
es simétrica alrededor del origen. De esta manera, esta región crítica de doble cola se
aplica en un estilo similar al de caso de α conocida. Para la hipótesis bilateral en un
nivel de significancia α, se aplican las regiones críticas de doble cola. Para H1: μ >μo, el
rechazo resulta cuando t > ta,n-1. Para H1: μ< μo, la región crítica está dada por t< - ta,n-1.

Un test de una hipótesis es un procedimiento estadístico usado para tomar una


decisión sobre el valor de un parámetro poblacional.

La hipótesis nula (H0) especifica el valor de un parámetro poblacional. Se conduce un


experimento para ver si el valor especificado no es razonable.
Ejemplo1: Un semillero publicita que el peso promedio de una espiga de una cierta
variedad es de 180 gramos con un desvío estándar de 30 gramos. Un productor de
avanzada sospecha que el peso es distinto de 180 gramos, decide por lo tanto
conducir un experimento. El propósito del mismo es ver si el peso de 180 gramos es
incorrecto. Por lo tanto la hipótesis nula de interés es: H 0 : = 180 gramos La hipótesis
alternativa (H1) da una suposición opuesta a aquella presentada en la hipótesis nula.
El experimento se lleva a cabo para conocer si la hipótesis alternativa puede ser
sustentada.

En el ejemplo previo el productor sospecha que el peso medio es distinto de 180


gramos. Esta es la hipótesis a ser sustentada y así la hipótesis alternativa es:

H1  > 180 gramos ó  < 180 gramos ó  180 gramos

Se puede ver que las hipótesis son excluyentes. La hipótesis alternativa


frecuentemente se llama hipótesis de investigación, porque este tipo de hipótesis
expresa la teoría que el investigador o experimentador cree va a ser verdadera.

Un test estadístico es una cantidad calculada de la muestra y se usa cuando se va a


hacer una decisión sobre la hipótesis de interés.

Después que el productor de este ejemplo prueba la variedad en 50 parcelas


sembradas al azar, seleccionando un conjunto de espigas por parcela, el test

estadístico debe ser calculado. Por ejemplo la media de la muestra se podría usar
como test estadístico para tomar una decisión acerca del valor de  , o si se obtiene
una muestra suficientemente grande se podría utilizar una estadística z para comparar

el valor observado de con respecto a 180 gramos especificado en la hipótesis nula.


Así un posible test estadístico cuando 2 se conoce, sería:

Para interpretar el valor del test estadístico es necesario introducir un elemento más al
test de hipótesis: la región de rechazo, que especifica los valores del test estadístico
para los cuales la hipótesis nula es rechazada (y para los cuales la hipótesis
alternativa no es rechazada).
La región de rechazo identifica los valores del test estadístico que sostienen o
sustentan la alternativa y serían improbables, (raros) si la hipótesis nula fuera
verdadera.

Ya que no se espera observar sucesos raros (valores improbables del test estadístico)
la hipótesis nula se rechazará cuando la muestra produzca un valor tal.

Para el ejemplo si la media fuera menor que 180 gr. o mayor que 180 gr. esta
sustentaría la hipótesis alternativa

( 180) y un valor de más de 2, (1,96) errores estándares por debajo o por encima
de 180 sería raro o poco probable.

El propósito de cualquier test de hipótesis es decidir cuál hipótesis, la nula o la


alternativa sería rechazada. Ya que cualquier decisión estará basada sobre
información parcial de una población, contenida en una muestra, habrá siempre una
posibilidad de una decisión incorrecta. La siguiente tabla resume cuatro posibles
situaciones que pueden surgir en un test de hipótesis.

  Verdadero estado de la población

Decisión posible H0 es cierta H1 es cierta


Se rechazó H0 Error de tipo I ( ) Decisión correcta
No se rechaza H0 Decisión correcta Error de tipo II ( )

Si la hipótesis nula es rechazada y de hecho, la hipótesis nula es verdadera, se

cometió un error, que se llama Error de tipo I ( ). Un Error de tipo II ( ) ocurriría si


la hipótesis nula fuera aceptada y de hecho, la hipótesis alternativa es verdadera.

Ya que nunca se puede eliminar la posibilidad de cometer un error de tipo I o un error


de tipo II cuando se usan muestras para hacer inferencias, se considerarán las
posibilidades de cometer estos errores.

= P (error de tipo I)

P (rechazar H0 si H0 es verdadera)

= P (error de tipo II)


P (aceptar H0 si H0 es falsa)

Es deseable que tanto como estén próximos a cero pero en general esto no es
posible, ya que el experimentador desea concluir que H1 es verdadera (rechazar H0) el
interés está en que tenga una probabilidad pequeña tal como 0,01 ó 0,05. En otras
palabras, se desea estar seguro que si H0 es verdadera, será muy rara que sea
rechazada. El experimentador es libre de elegir el valor de , esto es, determinar cuán

raro un suceso observado debe ser para rechazar H 0. Determinar si el valor de


estará presente para el test de hipótesis es algo más complicado, de modo que no se
intentará su cálculo.

Manteniendo pequeño se evita aceptar la hipótesis de investigación (alternativa) si la


hipótesis nula es verdadera. De otra forma se induciría a la crítica de que se ha
sesgado la investigación para probar la alternativa. El sacrificio de mantener
pequeña es que la "chance" de aceptar la hipótesis nula, si la hipótesis de

investigación es verdadera ( ), puede ser mayor de lo que se desea.

Resumiendo, en el ejemplo considerado el productor aceptando un error de 0,05


(5%), conocido también como nivel de significación y utilizando la estadística z,
plantearía la hipótesis como sigue:

H0:  = 180 gramos

H1:  180 gramos

Suponiendo que los resultados del experimento produjeron una media muestral de 187
gramos, el test estadístico se construiría como:

Dónde: 187 = media de la muestra ( = 187)

180 = media hipotética (poblacional = 180)

30 = desvío estándar poblacional (conocido) ( =30)


50 = tamaño de la muestra o repeticiones (n =50)

Para decidir si la hipótesis nula (H0) se rechaza o no se compara el valor de z


calculado (1,65) con el valor de z tabulado N (0,1), para un nivel de probabilidad =
0,05. Por tratarse de una prueba bilateral, indicado por la desigualdad de la hipótesis
alternativa (¼ 180) el valor de se particiona en dos /2 = 0,025, lo que implica
que la probabilidad con la que se busca el valor de z, en la tabla de la distribución
normal es 0,975, el valor de z correspondiente a esta probabilidad es 1,96.

Gráficamente las zonas de rechazo y aceptación serían:

Como el valor de z calculado = 1,65 es menor que l, 96 o sea cae en la región de


aceptación, no hay evidencias suficientes como para rechazar la hipótesis de que la
media de la población es igual a 180.

Conclusión: la publicidad que hace el semillero de que el peso promedio de las


espigas de una cierta variedad es de 180 gramos, es correcta, aunque podría existir
una probabilidad de error tipo II, si de hecho la media de tal variedad no fuera 180
gramos

Hipótesis Unilaterales

Si en el mismo ejemplo, el productor, basándose en algún conocimiento de la variedad


en cuestión sospechara que el peso promedio de las espigas es menor que 180, las
hipótesis se plantearían como:

H0:  = 180 gramos o H0 :  > 180 gramos

H1:  < 180 gramos

 = 0,05
En este caso la desigualdad de la hipótesis alternativa indica cuál sería la zona de
rechazo, el valor de ya no se particiona sino que se acumula todo hacia un solo lado,
el izquierdo en este ejemplo y el valor tabulado de z se busca en la tabla con un valor
de probabilidad del 95% siendo z = -1,64 (el signo negativo no figura en la tabla ya que
siendo la distribución normal simétrica, lo que se hace es anteponer el signo negativo
al valor de z que corresponde al nivel de probabilidad especificado)

Si por otra parte, el productor sospechara que el peso promedio es mayor que 180
gramos, la hipótesis y la zona de rechazo se plantearían como:

H0:  = 180 gramos ó H0:  < 180 gramos

H1:  > 180 gramos

 = 0,05

en ambas situaciones el test estadístico se construye como:

Cuando se desconoce, el test estadístico se construye como:


Este valor difiere del anterior en que, en lugar de aparecer la desviación estándar de la
población, nos encontramos con su estimador muestral insesgado S, que se
distribuye, t de Student (t  t(n-1))

Ejemplo 2.- Una muestra aleatoria de 100 muertes registradas en los estados unidos
durante el año pasado mostró una vida promedio de 71.8 año, parecía esto indicar que
la vida promedio hoy en días es mayor que 70 años? Utilice un nivel de significancia
del 0,05.

Solución:

1) Ho: μ=70 años

2) H1: μ>70 años

3) α= 0,05

x−mo
Z=
4) región crítica: Z > 1.645, donde s/ √ n

7 .8−8
Z= =-2 .83
5) Cálculos x̄ =71.8 años,  = 8,9 años, y 0 . 5/ √ 50

6) Decisión: Se rechaza Ho y se concluye que la vida promedio hoy en día es mayor


que 70 años.

Ejemplo 3: Un fabricante de equipo deportivo ha desarrollado un nuevo sedal sintético


para pesca que se considera tiene una resistencia a la ruptura de 80kg con una
desviación estándar de 0.5kg. Pruébese la hipótesis de que μ=8kg en contraposición a
la alternativa de que μ  8kg. Si se prueba una muestra aleatoria de 50 sedales y se
encuentra que tiene una resistencia promedio a la ruptura de 7.8kg. Utilice un nivel de
significancia de 0.01.

Solución :

1) Ho: μ=8kg

2) H1: μ 8kg

3) α= 0,01

x̄−mo
Z=
4) Región crítica: z<-2.575 y z> 2.575, donde s/ √ n
7 .8−8
Z= =-2 .83
5) Cálculos x̄ =7.8kg. n = 50 y de aquí que 0 . 5/ √ 50

6) Decisión: se rechaza Ho se concluye que la resistencia promedio a la ruptura no es


igual que 8 pero es de hecho menor que 8kg.

Ejemplo 4: Un fabricante sostiene que un galón de su pintura puede cubrir 200 pies
cuadrados. Un agente de gobierno somete a prueba la validez de esta afirmación
tomando una muestra de 36 latas de un galón las que cubrieron un promedio de 385
pies cuadrados con una desviación estándar de 8 pies cuadrados. Se acepta o se
rechaza la afirmación del fabricante al 5% de nivel de significación?

Solución:

n=36 ( grande ); x = 385 ; s = 8 ; α= 0.05 σ=s=8

Ho: μ=400

H1: μ ‹ 400

Usamos z y zα = 1.96

Regla de decisión:

Se rechaza Ho sí z<-1.96 o z>1.96

x̄−mo 385−400
Z= = =- 11. 25
s/ √ n 5/ 6

z = -11.25 cae en la región de rechazo. Luego se rechaza Ho: μ=400. Se rechaza la


información del fabricante al 5% de nivel de confianza; esto es, el galón de pintura no
cubre los 400 pies cuadrados; es decir se acepta la hipótesis alternante H 1: μ  400
con un nivel de confianza, o bien, se rechaza Ho

Sí x< μo - 1.96 s/√n = 400 - 1.96 (8/6) = 397.39 ó;

x>μo+ 1.96 s/√n = 400 + 1.96 (8/6) = 402.61.

La regla de decisión se reduce a:

Se rechaza Ho si x>402.61 ó x<397.39 con 0.05 como el punto muestral x = 385 cae
en la región de rechazo, se rechaza Ho: μ = 400 y se acepta H1: μ 400.

Se rechaza la afirmación del fabricante de que un galón de su pintura cubra 400 pies
cuadrados y se acepta que μ ‹ 400 al 5% de confianza, es decir, el galón de pintura
no cubre los 400 pies cuadrados.

Ejemplo 5: En una muestra aleatoria de 10 latas de un proveedor B, el peso medio por


lata de maracuyá fue x̄ = 9.4 de desviación típica, s=1.8 onza. Contiene esta
muestra suficiente evidencia para indicar que el peso medio es menor que 10 onzas a
un nivel α=0.1.

Solución

1) Ho: μ=10 y H1: μ<10

2) α=0.1

x̄ −mo
t=
3) Desde que n=10 es pequeño, la estadística de prueba es s / √n , que
contiene una distribución t con (n-1)=9 grados de libertad. Suponiendo que la
población tiene una distribución aproximadamente normal.

4) región crítica o de rechazo: P [t < tα]=α de donde tα=-1.383 es decir, R.C. = (-∞,
1.383).

5) Del enunciado del problema se tiene x̄ = 9.4; s=1.8; n=10.

9. 4−10
t= =-1 .054
Luego 1 . 8/ √ 10

6) Conclusión: t = -1.054  a (-∞,-1.383) no se rechaza Ho; es decir, esta muestra no


contiene suficiente evidencia para indicar que el peso medio es menor que 10 onzas a
un nivel de significación 0.1.

Ejemplo 6: Para estimar el rendimiento de parcelas plantadas con papa de una cierta
variedad, se cosecharon ocho de ellas, obteniéndose la siguiente información
expresada en kg/parcela: 4,5 5,3 5,4 4,9 5,3 5,7 6,2 4,8

¿Se puede asegurar, con  =0,05, de que esta variedad de papas tiene un
rendimiento promedio de 5,25 kg?

H0:  = 5,25

H1:  5,25
A partir de los datos se calcula y S², para este ejemplo = 5,5625 y S² =0,2884.

Como el valor de t calculado cae entre –2,365 y 2,365 (valor tabulado de t para 7
grados de libertad y  = 0,025, no se rechaza la hipótesis nula.

Conclusión: No hay suficiente evidencia, a partir de los datos de la muestra, para decir
que el rendimiento de papa por parcela no es igual a 5,25.

PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE MEDIAS.

En muchos problemas prácticos se está interesado en determinar si existe o no una


diferencia significativa entre las medias x y y de dos poblaciones variables
aleatorias x e y. La prueba de hipótesis que comprenden dos medias, x - y las
mismas que la de una sola media, salvo que se necesita dos muestras, de cada
población. La hipótesis nula suele escribirse así, Ho:x=y ó Ho: x - y = 0.

La hipótesis alternativa toma una de las siguientes formas:

a) H1: x  y ó Ho: x - y=0

b) H1: x < y ó H1: x - y< 0

c) H1: x > y ó H1: x - y>0

Si H1 toma la forma (a) se utiliza la prueba bilateral, en los otros casos se da la prueba
unilateral.

CASOS SIGUIENTES

a) Prueba unilateral.-

Primer caso: 1) consideremos la siguiente prueba

a) Ho: x = y ó x - y=0

b) H1: x > y ó x - y > 0

2) Escojamos el nivel de significación 

3) la estadística para la diferencia de medias poblaciones x - y es la diferencia de


medias muéstrales x̄ - ȳ .

Si la población tiene una distribución normal con desviaciones estándar x y y


conocidas ( o si las muestras son grandes n30, m30 ; aun cuando la población no

tenga distribución normal), la distribución de x̄ - ȳ es normal con media x - y y


varianza

s 2x s 2y
+
n m , por lo tanto la variable aleatoria,

x̄− ȳ −(m x−m y )


Z=
s 2x s 2y
√ n m
+
, tiene una distribución normal estándar.

4) Es razonable rechazar Ho en favor de H1 si la diferencia de las medias muéstrales


es demasiado grande con respecto a O. Una región crítica puede obtenerse
escogiendo el valor crítico x̄ de la diferencia de medias de manera que:

R.C. = ( x̄ , ) tal que P[ x̄ - ȳ > x̄ /Ho]= ó

x̄− ȳ −0 x̄ c x̄ c
P
[√ s 2x
n
+
s 2y
m
>

√ s 2x
n
+
s 2y
m
][√ ]
=P Z >
s 2x
n
+
s 2y
m

En el supuesto de que Ho es verdadero, es decir x - y=0. De la tabla obtenemos Z1-

2 2
sx s y
, luego,
x̄=Z1−α
√ +
n m

5) Cálculo de la diferencia de medias muestrales x̄ - ȳ  S x̄ -


ȳ si no se
2 2
conoce
s x , s y para muestras grandes se utiliza S x̄ -
ȳ .

6) Conclusión: si x̄ - ȳ , pertenece a la R.C., se rechaza Ho, en caso contrario


se acepta.

Segundo caso: si la prueba es Ho: x = y, H1: x < y se sigue el mismo procedimiento
anterior.
b) Prueba bilateral

1.- Consideremos ahora la prueba bilateral

Ho: x = y ó x - y=0

H1: x  y ó x - y  0

2.- Elegir el nivel de significación 

3.- La estadística de prueba es la misma que en los casos anteriores.

4.- La región crítica, obtendremos la región de aceptación por facilidad R.A.=(a, b) tal

que P[a< x̄ - ȳ <b\Ho]=1- 

a−0 x̄− ȳ−0 a−0

ó
P

[√ s 2x
n
+
s 2y
m
<
s 2x
√ √
n
+
s2y
m
<
s 2x
n
+
s2y
m
] =1−α

En el supuesto de que Ho sea verdadera, es decir x - y=0. El caso más simple es


cuando

a=-b, luego las áreas en las colas son Z/2. Es decir se tiene. P [-Z/2 < Z < Z/2]=1- 

s 2x s 2y
a =- Z α / 2
√ n m
s2x s2y
+

De donde:
b=Z α / 2
√n m
+

2
5.- Calcular x̄ - ȳ de la muestra observada de tamaños n y m. También S x y

S 2y si no se conocen  2x y s 2y y las muestras son grandes.

6.- Conclusión: si x̄ - ȳ ͼ R.A.=(a, b), aceptar Ho, en caso contrario rechazar.

Ejemplo:

Como Psicólogo de un hospital para enfermos mentales el lector obtiene


calificaciones para una prueba visual - motora para cada uno de los grupos de
pacientes. La calificación media para el grupo A (10 pacientes) es 70 con
desviación estándar 22. El lector cree tener suficientes razones para considerar
las desviaciones estándar de población iguales ¿Difieren significativamente las
calificaciones con nivel del 10%?.

Solución:

1) Ho: μA= μB y H1: μA  μB

2)  = 0.10

3) Se usa la distribución t, debido a que las muestras son pequeñas.

4) La R.C.:

t < t/2 ó t > t/2 = t1- /2

 = 0.10, /2 = 0. 05 , 1- =0.95,

Con este valor y con 10 + 15 -2 =23 grados de libertad, se encuentra

t/2 = -t/2 = 1.714

Luego región de aceptación = (-1.714, 1.714); entonces,

x A−x B
t= 2 2
√ nm( n+m−2 )/(n+m)
√ ( n−1) S A +( n−1)S B
80−70
t= 2 2
√ 150( 23)/(50 )=1 .193
5) √ 9( 18 ) +14(22 )

6. Conclusión: desde que, t = 1.193  (-1.174, 1.174), no se rechazó Ho, es decir


la diferencia no es significativa a un nivel de 10%.

Desviaciones Típicas desconocidas y Muestras Pequeñas.

Si se quiere probar la hipótesis sobre la diferencia de medias bajo él supuesto que H o


sea verdadera; es decir x - y=0, cuando los tamaños de las muestras son pequeñas y
las distribuciones de la población son normales, con desviaciones estándar iguales se
utiliza la variable aleatoria.

x̄− ȳ nm(n+m−2 )
t=
√(n−1 )S2x +(m−1)S 2y
.
√ n+m

Que tiene una distribución t con n+m-2 grados de libertad. Cuando la hipótesis
alternativa es H1: x - y>0 se determina la región crítica, calculando t 1-  tal que P [t < t1-
]=1- ; luego, R.C.=( t1- , )

"

t" =t1- " /2

Si la hipótesis alternativa es H1: x - y<0 la región crítica se determina x - y


obteniendo t tal que P [t < t ] = 1- ; es decir, R.C. = (- , t )

"

-t "

y finalmente cuando, la hipótesis alternativa es, H 1: x - y  0 la región crítica se


determina obteniendo los valores -t  y t 

tal que P[-t <t< t ]=1-; R.C.= (- , -t )U (t 1- , )

" /2 " /2

-t " /2 t" /2 = t1-" /2

Ejemplo 1:

Para determinar el impacto de las cuales sin ventajas sobre el desarrollo psicológico
de los escolares se cometió a una misma prueba de ansiedad a una grupo de 40 niños
de una escuela sin ventajas y aun grupo de 30 niños de una escuela sin ventajas. Los
resultados de la prueba aparecen a continuación.

Escuelas sin ventajas x̄ =177, sx = 10, n=40

Escuelas con ventajas ȳ =112, sy=12, n=30

Si Ud. está dispuesto a rechazar una hipótesis verdadera no más de 5 veces en 100
casos, puede concluir que el impacto de los dos tipos de escuela sobre la ansiedad de
los niños no es lo mismo?

Solución:

1.- Ho: x = y ó x - y=0

H1: x  y ó x - y 0

2.-  = 0.05

3.- Desde que las muestras son grandes n=40 y m==30 usamos la distribución

normal. Es decir x̄ - ȳ tiene una distribución normal y

x̄− ȳ−(mx −m y )
z=
S 2X S 2y
√ n m
+
es N(0,1)

4.- La región crítica es: Z<- Z /2= -1.96 ó Z> Z/2=1.96 ya que =0.05, /2=0.025.
luego la región de aceptación es R.A.=(-1.96; 1.96).

5.- De los datos: x̄ =117; Sx=10; n=40

ȳ =112; Sy=12; m=30

x̄− ȳ−(m x −m y ) 117−12−0


z= = =1. 85
S 2X S 2y 100 144

n m
+ +
40 30√
Bajo él supuesto que Ho sea verdadera, es decir, x - y=0.

6.- Conclusión: Desde que Z=1.95  R.A., aceptamos Ho.

Ejemplo 2:

Dos grupos de 50 niños de una escuela elemental, han sido enseñados a leer por dos
métodos diferentes. Una vez terminada la inscripción, una prueba de lectura da los
siguientes resultados.

x̄ =73.4 ȳ =70.2; Sx=9 Sy=10

Probar la hipótesis x = y

Solución:
1.- Ho: x = y contra la alternativa; H1: x > y.

2.- Escogemos =0.05.

3.- Debido a que las muestras son grandes, entonces X - Y tiene una distribución
normal. Es decir, la variable aleatoria,

x̄− ȳ−(mx −m y )
z=
S 2X S 2y
√ n m
+
es N(0,1).

4.- La región crítica es: Z>Z, =0.05 da la tabla Z=1.64 entonces R.C.=(1.64; ).

5.- De los datos: x̄ =73.4; ȳ =70.2; Sx=9; Sy=10 y n=m=50

x̄− ȳ−(mx −m y ) 73. 4−70 . 2−0


z= = =1 .68
S 2X S 2y 81 100
Luego: √n m
+ +
50 50 √
6.- Conclusión: desde que Z=1.68  R.C.=(1.64; ), rechazamos Ho.

Ejemplo 3:

10 barras de acero fabricadas por un proceso A tienen una fuerza de ruptura media de
50, con desviación estándar muestral de 10, mientras que 8 fabricadas por un proceso
B tienen una fuerza de ruptura de 55, con desviación estándar muestral de 12.
Supóngase la población de fuerzas de ruptura normal con la misma desviación
estándar. Pruébese con nivel de significación del 5% la hipótesis de los dos procesos
producen así acero de la misma fuerza en contra de la posibilidad que no es así.

Solución:

1.- Ho: A = B y H1: A  B

2.- =0.05

3.- Desde que las muestras son pequeñas son normales, usamos la variable
aleatoria:

x̄ A − ȳ B −0 nm(n+m−2 )
t=
√(n−1 )S2x +(m−1)S 2y
.
√ n+m

Que tiene una distribución t, con n+m-2 grados de libertad bajo él supuesto que
Ho sea verdadera, es decir, A - B=0.

4.- Región crítica: t < -t/2 ó t > t/2=t1-/2.,

=0.05, /2=0.0025, 1-=0.975, de la tabla de la distribución con

10+8-2=16 grados de libertad, obtenemos t1-/2=2.12. por lo tanto

-t/2=2.12, es decir, la R.A. = (-2.12; 2.12).

5.- De los datos x̄ =50;


A SA=10; n=10

x̄ B =55; SB=12; m=8

Luego:

x̄ A − x̄ B nm(n+m−2 ) 55−50 80 .16


t=
√(n−1 )S2x +(m−1)S 2y
.
√ n+m
=

√ 9 .10 2+7 .122 18
=0 . 965

6.- Conclusión: Desde que t=0.97  (-2.12; 2.12), no rechazamos Ho, es decir no
hay razón para creer que los dos procesos producen acero con fuerzas
diferentes.

Ejemplo 4:

Se llevó a cabo un experimento para comprar el deterioro abrasivo de dos materiales


laminados diferentes. Se probaron 12 piezas de material 1, exponiendo cada una en
una máquina para medir el deterioro. De la misma manera, se probaron 10 piezas del
material 2. En cada caso se observó la profundidad del deterioro. Las muestras del
material 1 dieron un deterioro promedio de 85 unidades con una variación estándar
muestral de 4, mientras que las muestras del material 2 dieron un promedio 81 y una
desviación estándar muestral de 5 puede concluirse en el nivel de significancia de 0.05
que el deterioro abrasivo del materia l 1 excede al del material 2 por más de dos
unidades. Asuma que las poblaciones son aproximadamente normales con varianzas
iguales.

Solución:

Si 1 y 2 representan 1 s m días población de los deterioros abrasivos por el material


1 2, respectivamente.

1.- Ho: 1 - 2=2 H1: 1 - 2 > 2.


2.- =0.05

( x̄ 1 − x̄ 2 )−d 0
t=
3.- Región crítica: t >1.725, donde S p √ 1/n1 +1/n2 con v=20 gl.

4.- Cálculo: x̄ =85;


1 S1=4; n1=12

x̄ 2 =81; S2=5; n2=10

11 x 16+9 x 25
5.- De aquí que Sp=
S p=
√ 12+10−2
=4 . 478

( x̄ 1 − x̄ 2 )−d 0 ( 85+81)−2
t= = =1 . 04
S p √ 1/n1 +1/n2 4 . 478 √ 1/12+1 /10 P(T-1.04)  0.16

El valor p se obtiene mediante el uso de un paquete de computadora.

6.- Decisión: se acepta Ho. No se está en condiciones de concluir que el deterioro


abrasivo del material 1 excede al del material 2 por más de dos unidades.

Prueba de Hipótesis para dos Media Poblacionales para muestras


Independientes.

a) Los desvíos de las poblaciones son conocidos

Los supuestos que se deben cumplir son que las medias poblacionales 1 y 2 son

normales, los desvíos poblacionales y conocidos y las muestras, independientes,


de tamaño n1 y n2 respectivamente, estableciendo las siguientes hipótesis:

H0:  1 - 2 = 0 ó Ho:  1 ≠  2

a) H1 :  1 2

b) H1 :  1 >  2

c) H1 :  1 <  2

= 0,05

En cualquiera de estos casos el test estadístico que se utiliza es


Que se distribuye como una N (0,1).

Si y son iguales, lo que equivale a decir que hay una sola variancia, la fórmula
anterior se puede reemplazar por la siguiente:

En el contraste a) valores grandes y pequeños de ( ) y por lo tanto pequeños de


Z son suficientes para confirmar H1. Por lo tanto para un ensayo bilateral con nivel de
significación , la hipótesis H0 se rechaza si:

Z< ó Z>

En el contraste b) sólo valores grandes de ( ) y de Z confirman la hipótesis H1.


En un ensayo unilateral, rechazamos H0 cuando:

Z > Z 1-

En el contraste c) valores pequeños de la diferencias de medias muestrales y por lo


tanto valores pequeños de Z confirman H1 y rechazamos H0 cuando:

Z<Z

Ejemplo 1: El porcentaje de calcio de dos muestras de soja se determinó por dos


métodos de mineralización: (A) cenizas secas y (B) mineralización húmeda. Los datos
obtenidos fueron:

(A): 0,32 3,32 0,36 0,29 0,27 0,29 0,28

(B): 0,35 0,35 0,34 0,36 0,31 0,28 0,28

Se sabe, por experiencias anteriores que  1 =  2 = 0,03. Se desea verificar si ambos


métodos producen los mismos resultados. (α = 0,05).
H0:  A = B ó  A - B =0

H1:  A  B

Por ser un test bilateral, los valores críticos de la distribución normal, para  = 0,05
son –1,96 y 1,96. Como el valor de la estadística calculada cae entre los valores
críticos, no hay evidencias como para rechazar la hipótesis nula. Por lo tanto las
medias de los dos métodos de mineralización no difieren.

b) Los desvíos de las poblaciones son desconocidos:

a) Se suponen iguales ( ):

Los supuestos que se deben cumplir son: datos extraídos de dos muestras aleatorias
independientes de tamaño n1 y n2 respectivamente, cuyas poblaciones son normales

con medias poblacionales  1 y  2. Las variancias poblacionales no se


conocen y se supone que son iguales. Primero se debería probar la igualdad de dichas
varianzas, en particular si los tamaños de las muestras son distintos, a través de la
prueba de F de Snedecor. Si son estadísticamente iguales, aplicamos el siguiente test
estadístico:

Donde

Que se distribuye aproximadamente como una t de Student con n 1 + n2 -2 grados de


libertad. (tn1 + n2 - 2)

Ejemplo 2: Dieciocho plantas de una misma variedad de naranjos fueron tratadas con
fertilizantes. A nueve de ellas se les aplico una cierta dosis de nitrógeno (N) y al resto
una de nitrógeno y fósforo (NP). Se midió el rendimiento en Kg. por planta; los
resultados obtenidos fueron:

N: X = 28 kg S² = 9

NP: X = 21 kg S² = 7

Interesa conocer si existen diferencias significativas entre los rendimientos de las


plantas tratadas con los dos tipos de fertilizante. ( = 0,01).

H0 :  N =  NP ó H0 :  N - NP = 0

H1 :  N  NP

Suponiendo que las variancias poblacionales son iguales, de las cuales S²N y S²NP son
estimaciones, se calcula la variancia amalgamada. Si el supuesto no fuera válido
debería verificarse primeramente la homogeneidad de variancia a través del test F, en
particular si las muestras de las poblaciones no son iguales.

Donde

El valor tabulado de t, para 16 grados de libertad y nivel de significación del 1% es


igual a  2,921. Como el valor de la estadística calculada supera al valor tabulado, se
rechaza H0. Conclusión existen diferencias estadísticamente significativas entre los
tratamientos, siendo superior el promedio por planta de naranjo, de aquellas que
reciben el tratamiento NP.

b) se suponen distintos ( )

Los supuestos son los mismos, pero el test estadístico es:


Estadística que se distribuye aproximadamente como una t de Student con grados
de libertad que se obtienen mediante la fórmula de Satterwitte:

Gráficamente podemos representar la zona de aceptación y rechazo en la distribución


t

Si t < -t t>t si t  -t ótt

Se rechaza H0 Se rechaza H0 Se rechaza H0

PRUEBA DE HIPÓTESIS PARA DOS MEDIAS POBLACIONALES: MUESTRAS


APAREADAS

Esta estrategia de la investigación surge cuando cada observación para un tratamiento


está apareada con otra observación para el otro tratamiento. Este par está compuesto
por las mismas unidades experimentales observadas dos veces en distintos momentos
de la investigación, o por unidades semejantes. El procedimiento consiste en buscar
pares de unidades experimentales con características similares y asignar
aleatoriamente cada unidad del par a cada uno de los dos tratamientos en estudio. Por
ejemplo parejas de gemelos pueden ser asignadas al azar para que reciban dos
tratamientos, de tal manera que los miembros de una sola pareja, reciban tratamientos
distintos. Pueden así mismo ensayarse dos raciones distintas en dos lotes de terneros
formando pares de raza de la misma edad, sexo, etc. y ocurrir que al cabo de un
tiempo, exista diferencia significativa o no, entre los promedios de ganancia de peso
de ambos lotes, (se elimina la influencia diferencia de calidad entre los lotes).
También puede ocurrir que al estudiar en dos lotes de plantas homogéneas de a
pares, la aplicación de herbicidas (uno en cada lote), para ciertas plagas (se obtenga
diferencias de resistencia entre los lotes de plantas).

La hipótesis planteada es:

H0: ó H0: ó H0:

H1 ) H1 : > 0 H1 : <0

= 0,05

Como se establece una hipótesis de un único parámetro poblacional (se podría pensar

en una sola muestra) , el número de grados de liberad es (n - 1) el test


estadístico es:

Donde

Luego se compara el tc con tn -1. Las reglas de decisión son:

No se rechaza H0 cuando -t <t<t

Rechazar H0 si t < -t ót>t

Ejemplo 4: La siguiente tabla muestra los niveles de colesterol en suero para 12


individuos, al principio del programa (ANTES) y al final del mismo (DESPUES).

INDIVIDUO ANTES XI DESPUES YI di di2


1 201 200 -1 1

2 231 236 +5 25

3 221 216 -5 25

4 260 233 - 27 625

5 228 224 -4 16

6 237 216 - 21 441

7 226 296 - 30 900

8 235 195 - 40 1600

9 210 207 - 33 1089

10 267 247 - 20 400

11 284 210 - 74 5176

12 201 209 +8 64

TOTAL   -242 10.766

La pregunta que se plantea es: ¿proporcionan los datos suficiente evidencia cómo
para concluir que el programa es efectivo en la reducción de los niveles de colesterol
en suero?

Aplicar un test de hipótesis para llegar a una decisión al repecto, utilizando un del
0,05.

Las hipótesis planteadas son:

H0)

H1) <0

 = 0,05
t (11; 0,05) = - 1,7959 (valor de tabla)

Se rechaza H0 ya que -3,02 es menor que -1,7959

Conclusión: Se rechaza la hipótesis nula, existen diferencias altamente significativas


entre ANTES y DESPUES. El programa es efectivo.

PRUEBAS PARA LA PROPORCIÓN POBLACIONAL.

Las pruebas de hipótesis relativas a proporciones son útiles para muchos campos.

Los políticos quieren saber que fracción de los votantes los apoyarán en las próximas
elecciones.

Estudiaremos el problema de probar 1 hipótesis de que la proporción de éxitos en


experimento binomial sea igual a determinado valor. Es decir, se va a probar la
hipótesis nula Ho de que P = P0 donde P es el parámetro de la distribución binomial.

La hipótesis alterna puede ser una de las alterativas usuales unilaterales o bilaterales:
P<P0; P>P0 ó PP0.

La estadística apropiada en la cual se basa el criterio de decisión es la variable

aleatoria binomial X, aunque se puede usar en la misma forma la estadística P^ =


X/n. Los valores de X que están alejados de la media =n.P0 conducirán a rechazo de
la hipótesis nula. Para probar la hipótesis:

Ho: P=P0, H1: P<P0

Se recurre a la distribución binomial con P=P 0 y Q=1-P0 para determinar P(Xx\ Ho es


verdadera). El valor x es el número de éxitos en la muestra de tamaño n. Si P(Xx\ Ho
es verdadera) <  la prueba es significativa al nivel , Ho se rechaza en favor de H 1;
similarmente para probar la hipótesis

Ho: P=P0, H1: P>P0

Se encuentra P(X  x \ Ho es verdadera) y se rechaza H1 en favor de Ho si esta


probabilidad es menor que . Finalmente para probar la hipótesis:

Ho: P=P0, H1: PP0

Al nivel de significancia, Ho se rechaza cuando x<n.P0 y P(Xx\ Ho es verdadera) <


/2 ó cuando x> n.P0 y P(X  x \ Ho es verdadera)< /2.

Los pasos para aprobar una hipótesis acerca de una proporción contra las diferentes
alternativas se resumen a continuación:

1.- Ho: P=P0,

2.- H1: las alternativas son: P<P0, P>P0 ó PP0.

3.- Se escoge un nivel de significancia igual a .

4.- Región crítica:

a) Todos los valores X tales que P(X≤x\ Ho es verdadera) <  para la alternativa
P<P0.

b) Todos los valores x tales que P(X  x \ Ho es verdadera) <  para alternativa
P>P0.

c) La unión de todos los valores x tales que P(X<x\ H o es verdadera) < /2
cuando x<n.P0, todos los valores x tales que P(X  x \ Ho es verdadera) < /2
cuando x>n.P0 para alternativa PP0.

5.- Cómputos: encuentre x y calcule la probabilidad adecuada.

6.- Conclusión: rechace Ho si x cae en la región crítica; si no es así acepte Ho.

Ejemplo 1:

Un cazador afirma que derriba el 80% de los pájaros a los que dispara. Acepta usted
esa afirmación si, en un día dado él derriba 9 de las 15 aves a las que disparó. Utilice
un nivel de significación de 0.05.

Solución:

1.- Ho: P=0.8.

2.- H1: P  0.8.

3.- =0.05

4.- Región crítica: todos los valores de x tales que

P(X ≥ x\ Ho es verdadera) < 0.025.

5.- Cómputos: se tiene que x=9 y n=15. por lo tanto usamos la suma de
probabilidades binomial.

9
P( X≤9|P=0,8 )= ∑ b ( X ;15 ,08 )
X =0
= 0.0611>0.025

6.- Conclusión: acepte Ho y llegará a la conclusión de que no hay razón para dudar
de la afirmación del cazador.

Ejemplo 2:

Una compañía manufacturera ha encontrado que el 90% de los artículos producidos


mediante cierto proceso no están defectuosos. Se está considerando la conveniencia
de introducir una modificación en el se cree disminuirá la proporción de artículos
defectuosos a menos del 10% actual. En un experimento de 100 artículos producidos
con el nuevo proceso se encuentran 5 defectuosos. ¿Es esta evidencia suficiente para
afirmar que el procedimiento modificado es mejor? Use un nivel de significancia de
0.05.

Solución:

1.- Ho: p=0.9 ^ H1: p>0.9

2.- =0.05

3.- Región crítica: Z> 1.645

4.- cómputos: x 95, nP0=100, nP0=(100)(0.95)=95, y

95−90
Z= =1.67
(100 )(0.90)(0. 10)

5.- Conclusión: Se rechaza Ho y se concluye que l proceso modificado ha reducido


la proporción de artículos defectuosos.

Ejemplo 3:

Un fabricante de cigarrillos asegura que el 20% de los fumadores de cigarrillos


prefieren la marca A, para probar esta aseveración toma una muestra aleatoria de 20
fumadores de cigarrillos y se les pregunta por la marca que prefieren. Si de los 20
fumadores, 6 prefieren la marca A, que concluye?

Solución:

1.- Ho: p=0.2 ^ H1: p  0.2


2.- =0.01

3.- se usa la distribución binomial, pues n es pequeña.

4.- Región Crítica: todos los x tal que P[X > x \ H o es verdadera] < 0.005 pues n.po
=20(0.2)=4 < x = 6

5.- Cálculo: x=6n=20 y usando la tabla de la binomial

20
∑ b( x , 20 , 0 .2 )
x =6

¿ ∑ (0 . 2) x ( 0 . 8)20− x=0 . 1958>0 . 005


P [x>6\p=0.2]=

6.- Conclusión: aceptamos Ho, es decir, no hay razón para dudar que el 20% de los
fumadores prefieren la marca A a un nivel del 1%.

Ejemplo 4:

La oficina de relaciones familiares informa que el 50% de los matrimonios viven en la


ciudad A llegan a la corte de divorcios dentro de su primer año de casados que
conclusión puede sacarse acerca de la validez de este informe si de una muestra
aleatoria de 400 matrimonios, solo 193 fueron a una corte de divorcios dentro de su
primer año de casados? Utilice un nivel de significación =0.01

Solución:

1.- Ho:p=0.50 ^ H1:p <0.50

2.- =0.01

3.- Se usa la distribución normal como aproximación de la binomial n=400.

4.- Región Crítica: Z<-Z=-2.33 ya que =0.01

5.- x=193 , po=0.5, qo=0.5, npo= 400(0.5) luego

193−400(0,5)
Z= =-0 . 7
√ 400 (0,5)(0,5 )
6.- Conclusión: desde que z=-0.7>-2.33 o sea Z no pertenece a la R.A. se acepta H 1,
es decir no hay razón para dudar el informe a un nivel de significación del 1%.

Ejemplo 5:
Se supone que en una cierta zona de la provincia de Buenos Aires, el 90% de los
productores cultivan maíz. De 110 productores de la zona que se encuestaron, 95
hacen maíz. ¿Está este resultado en conformidad con el valor supuesto?. ( = 0,05)

H0: P = 0,90

H1: P ≠ 0,90

Como el valor calculado de Z = –0,97 reside entre los valores tabulados –1,96 y 1,96
(valores críticos de la distribución normal) no se rechaza H0.

Conclusión, la información proporcionada por la muestra no es suficiente como para


decir que la proporción de productos de tal zona que cultivan maíz es distinto de 90%.

PRUEBA DE LA DIFERENCIA ENTRE DOS PROPORCIONES.

Con frecuencia surgen situaciones en donde se desea probar la hipótesis de que dos
proporciones son iguales. Por ejemplo se podría demostrar la evidencia de que la
proporción de médicos que son pediatras en un estado es igual a la proporción de
pediatras en otro estado. Una persona puede dejar de fumar sólo se convence de que
la proporción de fumadores con cáncer pulmonar excede la proporción de no
fumadores que padecen del mismo problema.

En general se desea probar la hipótesis nula de que dos proporciones, o


parámetros binomiales, son iguales. Esto es, está probándose que P 1=P2 en
contraposición a las alternativas P1-P2 < 0, P1-P2 > 0, P1-P2  0. El estadístico sobre el

cual se basa la decisión es la variable aleatoria


P^ 1− P^ 2 .

Se selecciona al azar muestras independientes de tamaño n1 y n2 de dos

poblaciones binomiales y se calcula las proporciones de éxito


P^ 1 y P 2 para ambas
muestras.
En la determinación de los intervalos de confianza para P1 y P2 para una n lo

bastante grande, que los estimadores puntuales


P^ 1 
y P2 tienen distribución

mP^ − P^ =P1−P2
aproximadamente normal con media: 1 2

2
P
^ − P^ p1 q1 p2 q2
s 1 2
= +
y varianza n1 n2

Por lo tanto las regiones de aceptación y crítica pueden establecerse mediante la


variable normal estándar:

^ − P^ )−( p −p )
(P 1 2 1 2
Z=
√( p1 q 2 /n 1 )+( p 2 q2 /n2 )
Cuando Ho es verdadera puede sustituirse p1=p2=p y q1=q2=q (donde p y q son los
valores comunes) en la fórmula anterior para z quedando de la forma:

P^ 1− P^ 2
Z=
1 1
√ ( pq )[ + ]
n1 n2

Sin embargo para calcular  valor de Z deben estimarse los parámetros p y q que
aparecen en el radical. Al combinar los datos de ambas muestras, la estimación
combinada de la proporción P es:

x 1+ x 2
P=
^
n 1 +n2

donde x1 \y x2 son el número de éxitos en cada uno de los datos o de las dos

muestras. Al sustituir P^ para p y q=1- P^ para q, el valor Z para probar p1 y p2 se


determina de la fórmula:

p^ 1− p^ 2
Z=
√ ^p q^ [(1/n1 )+(1 /n 2 )
Las regiones críticas para las hipótesis alternativas apropiadas establecen como antes
utilizando puntos críticos de la curva normal estándar. De aquí que, para 1 alternativa
P1P2. En el nivel de significancia, las regiones críticas son Z<- Z/2 y Z>Z/2. Para una
prueba donde la alternativa es P1<P2 la región crítica es: Z<-Z y cuando la alternativa
es P1> P2 la región crítica es: Z>Z.
Ejemplo 1

Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para


determinar si los estudiantes difieren en términos de estar a favor de la nueva
enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18
están a favor, en tanto que del paralelo B están a favor 14. ¿Es posible concluir con un
nivel de significación de 0,05 que los estudiantes que están a favor de la nueva
enseñanza de la Estadística es la misma en los dos paralelos?.

Los datos son: n1 =20; n2 =20; x1 = 18; x2 = 14

Las hipótesis son: Ho: p1 =p2


H1: p1 =p2

Como se trata de una prueba de hipótesis de dos colas se debe calcular:

α = 0,05 =0,025

2 2

En la tabla para un área de 0,025, le corresponde un valor Z tabla = ± 1,96.

Calculando la proporción muestral se obtiene:


Decisión:
Ho es aceptada, ya que Z prueba =1,58 está en la zona de aceptación, Z tabla = ±
1,96; entonces la proporción de los estudiantes que están a favor de la nueva
enseñanza de la Estadística es la misma en los dos paralelos.

Ejemplo 2:

Sobre parcelas sembradas con dos variedades distintas de maíz (A y B), se aplicó un
herbicida que resultó ser nocivo en el sentido que destruyó gran parte de las plantas.
De un total de 500 plantas de la primera variedad fueron destruidas 200 y de 570
plantas de la segunda variedad, murieron también 200. ¿Se puede considerar que el
herbicida es igualmente nocivo para las dos variedades? (α= 0,05).

H0: PA = PB, implica que (PA – PB) = 0 H1: PA  PB

Por ser una prueba bilateral, los valores críticos de la distribución normal son –1,96 y
1,96 ( =0,05), como el valor de Z = 1, l8 cae entre estos valores, no se rechaza la
hipótesis nula.

Conclusión: Se puede considerar que el herbicida es igualmente nocivo para las dos
variedades.

Más ejemplos:

1. Una muestra aleatoria de 100 muertes registradas en Estados


Unidos el año pasado muestra una vida promedio de 71.8 años.
Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoy en día es mayor que
70 años? Utilice un nivel de significancia de 0.05.

Solución:
1. Se trata de una distribución muestral de medias con desviación estándar
conocida.
2. Datos:

=70 años

 = 8.9 años

= 71.8 años

n = 100

 = 0.05

3. Ensayo de hipótesis

Ho;   = 70 años.

H1;   > 70 años.

4. Regla de decisión:

Si zR  1.645 no se rechaza Ho.

Si zR> 1.645 se rechaza Ho.

5. Cálculos:

6. Justificación y decisión.

Como 2.02 >1.645 se rechaza Ho y se concluye con un nivel de


significancia del 0.05 que la vida media hoy en día es mayor que
70 años.

Existe otra manera de resolver este ejercicio, tomando la decisión en


base al estadístico real, en este caso la media de la muestra. De la
fórmula de la distribución muestral de medias se despeja la media de
la muestra:

Regla de decisión:

Si   71.46 No se rechaza Ho

Si  > 71.46 Se rechaza Ho

Como la media de la muestral es de 71.8 años y es mayor al valor de


la media muestral límite de 71.46 por lo tanto se rechaza H o y se llega
a la misma conclusión.

2. Una empresa eléctrica fabrica focos que tienen una duración


que se distribuye de forma aproximadamente normal con una
media de 800 horas y una desviación estándar de 40 horas. Si
una muestra aleatoria de 30 focos tiene una duración promedio
de 788 horas, ¿muestran los datos suficiente evidencia para
decir que la duración media ha cambiado? Utilice un nivel de
significancia del 0.04.

Solución:

1. Se trata de una distribución muestral de medias con desviación


estándar conocida.
2. Datos:

=800 horas
 = 40 horas

= 788 horas

n = 30

 = 0.04

3. Ensayo de hipótesis

Ho;   = 800 horas

H1;     800 horas

4. Regla de Decisión:

Si –2.052  ZR  2.052 No se rechaza Ho

Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho

5. Cálculos:

6. Justificación y decisión:

Como –2.052  -1.643  2.052 por lo tanto, no se rechaza Ho y se


concluye con un nivel de significancia del 0.04 que la duración
media de los focos no ha cambiado.

Solución por el otro método:


 785.02 y 814.98

Regla de decisión:

Si 785.02     814.98 No se rechaza Ho

Si  < 785.02 ó  > 814.98 se rechaza Ho

Como la  = 788 horas, entonces no se rechaza Ho y se concluye que


la duración media de los focos no ha cambiado.

3. Una muestra aleatoria de 64 bolsas de palomitas de maíz


pesan, en pomedio 5.23 onzas con una desviación estándar de
0.24 onzas. Pruebe la hipótesis de que   = 5.5 onzas contra al
hipótesis alternativa, 

< 5.5 onzas en el nivel de significancia de 0.05.

Solución:

1. Se trata de una distribución muestral de medias con desviación


estándar desconocida, pero como el tamaño de muestra es
mayor a 30 se puede tomar la desviación muestral como un
estimador puntual para la poblacional.
2. Datos:

= 5.5 onzas

s= 0.24 onzas

= 5.23 onzas

n = 64
 = 0.05

3. Ensayo de hipótesis

Ho;   = 5.5 onzas

H1;   < 5.5 onzas

4. Regla de decisión:

Si ZR   -1.645 No se rechaza Ho

Si ZR < -1.645 Se rechaza Ho

5. Cálculos:

6. Justificación y decisión:

Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con


un nivel de significancia del 0.05 que las bolsas de palomitas
pesan en promedio menos de 5.5 onzas.

Solución por el otro método:


Regla de decisión:

Si   5.45 No se Rechaza Ho

Si  < 5.45 Se rechaza Ho

Como la  = 5.23 y este valor es menor que 5.45 pot lo tanto se
rechaza Ho.

4. Un constructor afirma que se instalan bombas de calor en 70%


de todas las casas que se construyen hoy en día en la ciudad de
Richmond. ¿Estaría de acuerdo con esta afirmación si una
investigación de casas nuevas en esta ciudad muestra que 8 de
15 tienen instaladas bombas de calor? Utilice un nivel de
significancia de 0.10.

Solución:

1. Se trata de una distribución muestral de proporciones.


2. Datos:

P= 0.70

p = 8/15 = 0.5333

n = 15

 = 0.10

3. Ensayo de hipótesis

Ho; P = 0.70

H1; P   0.70
4. Regla de Decisión:

Si –1.645  ZR  1.645 No se rechaza Ho

Si ZR < -1.645 ó si ZR > 1.645 Se rechaza Ho

5. Cálculos:

6. Justificación y decisión:

Como –1.645  -1.41  1.645 No se rechaza Ho y se concluye


con un nivel de significancia de 0.10 que la afirmación del
constructor es cierta.

Solución por el otro método:

 = 0.505 y 0.894

Regla de decisión:

Si 0.505  pR  0.894 No se rechaza Ho


Si pR < 0.505 ó si ZR > 0.894 Se rechaza Ho

Como el valor del estadístico real es de 0.533 por lo tanto no se


rechaza Ho y se llega a la misma conclusión.

3. Un fabricante de semiconductores produce controladores que se


emplean en aplicaciones de motores automovilísticos. El cliente
requiere que la fracción de controladores defectuosos en uno de
los pasos de manufactura críticos no sea mayor que 0.05, y que
el fabricante demuestre esta característica del proceso de
fabricación con este nivel de calidad, utilizando 

= 0.05. El fabricante de semiconductores toma una muestra aleatoria


de 200 dispositivos y encuentra que cuatro de ellos son defectuosos.
¿El fabricante puede demostrar al cliente la calidad del proceso?

Solución:
1. Se trata de una distribución muestral de proporciones.
2. Datos:

P= 0.05

p = 4/200 = 0.02

n = 200

 = 0.05

3. Ensayo de hipótesis

Ho; P = 0.05

H1; P < 0.05

4. Regla de decisión:

Si ZR   -1.645 No se rechaza Ho

Si ZR < -1.645 Se rechaza Ho


5. Cálculos:

6. Justificación y decisión:

Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un


nivel de significancia del 0.05 que la fracción de artículos
defectuosos es menor que 0.05.

6. Un diseñador de productos está interesado en reducir el tiempo


de secado de una pintura tapaporos. Se prueban dos fórmulas
de pintura; la fórmula 1 tiene el contenido químico estándar, y la
fórmula 2 tiene un nuevo ingrediente secante que debe reducir
el tiempo de secado. De la experiencia se sabe que la
desviación estándar del tiempo de secado es ocho minutos, y
esta variabilidad inherente no debe verse afectada por la adición
del nuevo ingrediente. Se pintan diez especímenes con la
fórmula 1, y otros diez con la fórmula 2. Los dos tiempos
promedio de secado muestrales son 121 min y 112 min
respectivamente. ¿A qué conclusiones puede llegar el diseñador
del producto sobre la eficacia del nuevo ingrediente,
utilizando 

= 0.05?

Solución:

1. Se trata de una distribución muestral de diferencia de medias


con desviación estándar conocida.
2. Datos:

1 = 2 =8

n1=n2= 10

 = 0.05

3. Ensayo de hipótesis
Ho;  1 - 2  = 0

H1;  1- 2 > 0 Se desea rechazar Ho si el nuevo ingrediente


disminuye el tiempo promedio de secado, por eso se pone la
diferencia mayor a cero o sea positiva para poder probar que 
2 es menor que  1.

4. Regla de decisión:

Si zR  1.645 no se rechaza Ho.

Si zR> 1.645 se rechaza Ho.

5. Cálculos:

6. Justificación y decisión:

Puesto que 2.52>1.645, se rechaza Ho, y se concluye con un


nivel de significancia de 0.05 que la adición del nuevo
ingrediente a la pintura si disminuye de manera significativa el
tiempo promedio de secado.

Solución por el otro método:


Regla de decisión:

Si   5.88 No se rechaza Ho

Si  > 5.88 Se rechaza Ho

Puesto que  = 121-112 = 9 y este número es mayor a


5.88 por lo tanto se rechaza Ho.

7. Se utilizan dos máquinas para llenar botellas de plástico con un


volumen neto de 16.0 onzas. Las distribuciones de los
volúmenes de llenado pueden suponerse normales, con
desviaciones estándar  1= 0.020 y  2 = 0.025 onzas. Un
miembro del grupo de ingeniería de calidad sospecha que el
volumen neto de llenado de ambas máquinas es el mismo, sin
importar si éste es o no de 16 onzas. De cada máquina se toma
una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero
en lo correcto? Utilice 

= 0.05
MAQUINA 1 MAQUINA 2

16.03 16.01 16.02 16.03

16.04 15.96 15.97 16.04

16.05 15.98 15.96 16.02

16.05 16.02 16.01 16.01

16.02 15.99 15.99 16.00

Solución:
1. Se trata de una distribución muestral de diferencia de medias
con desviación estándar conocida.
2. Datos:

1 = 0.020

2 = 0.025

 Este dato se obtuvo calculando la media de los datos


en la máquina 1.

 Este dato se obtuvo calculando la media de los datos


en la máquina 2.

n1=n2 = 10

 = 0.05

3. Ensayo de hipótesis

Ho;  1 - 2  = 0

H1;  1- 2   0 Si se cae en Ho se podrá probar que el volumen


de llenado es el mismo en las dos máquinas.

4. Regla de Decisión:

Si –1.96  ZR  1.96 No se rechaza Ho

Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho

5. Cálculos:
6. Justificación y decisión:

Como –1.96  0.987  1.96 entonces no se rechaza Ho y se concluye


con un nivel de significancia de 0.05 que las dos máquinas tienen en
promedio la misma cantidad de llenado.

Solución por el otro método:

-0.019 y 0.019

Regla de decisión:

Si –0-019  0.019 No se rechaza Ho

Si  < -0.019 ó  > 0.019 Se rechaza Ho

Como  = 16.015 – 16.005 = 0.01, entonces cae en la región de


aceptación y no se rechaza Ho.

8. Existen dos tipos de plástico apropiados para su uso por un


fabricante de componentes electrónicos. La tensión de ruptura
de ese plástico es un parámetro importante . Se sabe que  1=
2= 1.0 psi. De una muestra aleatoria de tamaño 10 y 12 para
cada plástico respectivamente, se tiene una media de 162.5
para el plástico 1 y de 155 para el plástico 2. La compañía no
adoptará el plástico 1 a menos que la tensión de ruptura de éste
exceda a la del plástico 2 al menos por 10 psi. Con base a la
información contenida en la muestra, ¿la compañía deberá
utilizar el plástico 1? Utilice 
= 0.05 para llegar a una decisión.

Solución:

1. Se trata de una distribución muestral de diferencia de medias


con desviación estándar conocida.
2. Datos:

1 = 2 = 1.0 psi

n1= 10

n2= 12

= 0.05

3. Ensayo de hipótesis

Ho;  1 - 2  = 10

H1;  1- 2 > 10 Se desea rechazar Ho si la media del plástico 1


supera a la media del plástico 2 en por lo menos 10 psi.

4. Regla de decisión:

Si zR  1.645 no se rechaza Ho.

Si zR> 1.645 se rechaza Ho.

5. Cálculos:
6. Justificación y decisión:

No existe evidencia suficiente para apoyar el uso del plástico 1 ya


que 
–5.83  1.645, por lo tanto no se rechaza Ho.

Solución por el otro método:

Regla de decisión:

Si   10.70 No se rechaza Ho

Si  > 10.70 Se rechaza Ho

Puesto que  = 162.5-155 = 7.5 y este número es no es mayor


a 10.7 por lo tanto no se rechaza Ho.

8. Se evalúan dos tipos diferentes de soluciones para pulir, para su


posible uso en una operación de pulido en la fabricación de
lentes intraoculares utilizados en el ojo humano después de una
cirugía de cataratas. Se pulen 300 lentes con la primera solución
y, de éstos, 253 no presentaron defectos inducidos por el pulido.
Después se pulen otros 300 lentes con la segunda solución, de
los cuales 196 resultan satisfactorios. ¿Existe alguna razón para
creer que las dos soluciones para pulir son diferentes? Utilice 

= 0.01

 
Solución:

1. Se trata de una distribución muestral de diferencia de


proporciones.
2. Datos:

p1= 253/300= 0.8433

p2 = 196/300= 0.6533

n1=n2 = 300

3. Ensayo de hipótesis:

Ho; P1-P2 = 0

H1; P1-P2   0

4. Regla de Decisión:

Si –2.575  ZR  2.575 No se rechaza Ho

Si ZR < -2.575 ó si ZR > 2.575 Se rechaza Ho

5. Cálculos:

En esta fórmula se puede observar que en el denominador se


tienen a las proporciones poblacionales o sea los parámetros,
los cuales no se conocen, por lo que en el ensayo de hipótesis
la fórmula para poder calcular la ZR cambia, estimando a el
parámetro común P de la siguiente forma:
 ó bien 

Entonces la fórmula de ZR  quedaría de la siguiente manera:

Se calculará el valor de P:

6. Justificación y decisión:

Puesto que 5.36>2.575, se rechaza la hipótesis nula y se


concluye con un nivel de significancia de 0.01 que los dos
fluidos para pulir son diferentes.

10. Se tomará el voto entre los residentes de una ciudad y el


condado circundante para determinar si se debe construir una
planta química propuesta. El lugar de construcción está dentro
de los límites de la ciudad y por esta razón muchos votantes del
condado consideran que la propuesta pasará debido a la gran
proporción de votantes que favorecen la construcción. Para
determinar si hay una diferencia significativa en la proporción de
votantes de la ciudad y votantes del condado que favorecen la
propuesta, se realiza una encuesta. Si 120 de 200 votantes de la
ciudad favorecen la propuesta y 240 de 500 residentes del
condado también lo hacen, ¿estaría de acuerdo en que la
proporción de votantes de la ciudad que favorecen la propuesta
es más alto que la proporción de votantes del condado? Utilice
un nivel de significancia de 0.025.

Solución:

1. Se trata de una distribución muestral de diferencia de


proporciones.
2. Datos:

p1= 120/200= 0.60

p2 = 240/500= 0.48

n1 = 200

n2 = 500

3. Ensayo de hipótesis:

Ho; P1-P2 = 0

H1; P1-P2 > 0

4. Regla de decisión:

Si zR  1.96 no se rechaza Ho.

Si zR> 1.96 se rechaza Ho.

5. Cálculos:

Se calculará el valor de P:
6. Justificación y decisión:

Puesto que 2.9>1.96, se rechaza la hipótesis nula y se concluye


con un nivel de significancia de 0.025 que la proporción de
votantes de la ciudad a favor de la propuesta es más alta que la
proporción de votantes del condado.

. Uso de valores P para la toma de decisiones

Al probar hipótesis en las que la estadística de prueba es discreta, la región


crítica se puede elegir de forma arbitraria y determinar su tamaño. Si   es
demasiado grande, se puede reducir al hacer un ajuste en el valor
crítico. Puede ser necesario aumentar el tamaño de la muestra para
compensar la disminución que ocurre de manera automática en la
potencia de la prueba (probabilidad de rechazar Ho dado que una
alternativa específica es verdadera).

Por generaciones enteras de análisis estadístico, se ha hecho


costumbre elegir un nivel de significancia de 0.05 ó 0.01 y seleccionar
la región crítica en consecuencia. Entonces, por supuesto, el rechazo
o no rechazo estricto de Ho dependerá de esa región crítica. En la
estadística aplicada los usuarios han adoptado de forma extensa la
aproximación del valor P. La aproximación se diseña para dar al
usuario una alternativa a la simple conclusión de "rechazo" o "no
rechazo".

La aproximación del valor P como ayuda en la toma de decisiones es


bastante natural pues casi todos los paquetes de computadora que
proporcionan el cálculo de prueba de hipótesis entregan valores de P
junto con valores de la estadística de la prueba apropiada.

 Un valor P es el nivel (de significancia) más bajo en el que el


valor observado de la estadística de prueba es significativo.
 El valor P es el nivel de significancia más pequeño que conduce
al rechazo de la hipótesis nula Ho.
 El valor P es el mínimo nivel de significancia en el cual H o sería
rechazada cuando se utiliza un procedimiento de prueba
especificado con un conjunto dado de información. Una vez que
el valor de P se haya determinado, la conclusión en cualquier
nivel   particular resulta de comparar el valor P con 

1. Valor P      rechazar Ho al nivel  .


2. Valor P >    No rechazar Ho al nivel 

APLICACIONES DE LA DISTRIBUCION CHI CUADRADO.

Al analizar en una población un carácter cualitativo o cuantitativo el


estudio resulta muy tedioso por el gran número de elementos del que
consta la población. Generalmente, se examina una muestra tomada
de la población, lo que lleva a tener una serie de datos, y ver hasta
qué punto la muestra se pude considerar perteneciente a una
distribución teórica conocida. Siempre existirán desviaciones entre la
distribución empírica u observada y la distribución teórica. Se plantea
la cuestión de saber si estas desviaciones son debidas al azar o al
haber tomado una distribución teórica inadecuada. A continuación, se
desarrollará la teoría correspondiente a las Pruebas de Hipótesis, que
son importantes para poder entender el proceso de aplicación de las
pruebas de Chi Cuadrado. La prueba de hipótesis comienza con una
afirmación, o supuesto, acerca de un parámetro de la población, como
la media poblacional, el cual se denomina este enunciado como la
hipótesis.

Se define a La Prueba de Hipótesis como: el “Procedimiento basado


en la evidencia muestral y en teoría de probabilidad, que se emplea
para determinar si la hipótesis es un enunciado razonable”. El
procedimiento para probar una hipótesis consta de cinco (5) pasos
que son los siguientes: Paso 1: Plantear la Hipótesis Nula(Ho) y la
Hipótesis Alternativa(H1). Paso 2: Seleccionar el Nivel de
Significancia. Paso 3: Calcular el Valor Estadístico de Prueba. Paso
4:Construir la región de aceptación y rechazo 5.Calculo del valor de
prueba 6: Tomar una Decisión. La prueba de hipótesis es un
procedimiento sistemático. Al llegar al paso cinco (5), se tiene ya la
capacidad de tomar la decisión de rechazar o no la hipótesis. A
continuación se definirán las aplicaciones de las pruebas de Chi
Cuadrado, 17 siendo éstas las que nos permitirán determinar el valor
estadístico y tomar la decisión en casos determinados.

Las Pruebas de Bondad de Ajuste: “Es una cuyo objetivo es


determinar cuán bien se ajusta un conjunto de frecuencias
observadas, a un conjunto esperado de éstas. Considera una sola
variable con escala nominal”. Estas pruebas de Bondad de Ajuste,
pueden usarse para cualquier nivel de datos, estas se pueden
presentar de la siguiente manera: • Pruebas de Bondad de Ajuste,
para frecuencias esperadas iguales. • Prueba de Bondad de Ajuste,
para frecuencias esperadas desiguales. Para su cálculo, ambas tienen
un procedimiento similar al de las pruebas de hipótesis. Pruebas de
Bondad de Ajuste es: “una prueba estadística para determinar si existe
una diferencia significativa entre una distribución de frecuencias
observadas y una distribución de probabilidad teórica e hipotetizada
para describir la distribución observada”. Según
http://www.so.ucr.ac.cr/Enlaces/Estadística. Según Mason et al.
(2000:583). Las Tablas de contingencia consiste en: “Si dos
características, como educación e ingreso, se registran en
clasificación cruzada en una tabla, el resultado se denomina tabla de
contingencia”. El valor estadístico de la prueba Chi Cuadrado, se
aplica para determinar si las dos características están relacionadas.

La Prueba de Independencia
es: “una prueba estadística de proporciones de 18 frecuencias que se
utiliza para determinar si la pertenencia de una variable a categorías
es diferente como función de la pertenencia a la categoría de una
segunda variable”. En la tabla de contingencia para pruebas de
independencia, las frecuencias de las celdas son llamadas
Frecuencias Bidimensionales. En total la frecuencia de cada hilera o
cada columna es llamada la Frecuencia Marginal. Al probar una
hipótesis se involucra una tabla de contingencia, primero se calcula las
correspondientes frecuencias esperadas o teóricas de acuerdo con la
hipótesis. La suma de todas las frecuencias esperadas debe ser igual
a las sumas de todas las frecuencias observadas. Las tablas de
contingencia son usadas frecuentemente en pruebas de
independencia. Este tipo de pruebas nos dirá si son o no
independientes (o no relacionadas), las dos bases de clasificación
usadas respectivamente hileras y columnas.

La Prueba de Homogeneidad consiste “De varias muestras


cualitativas, consiste en comprobar si varias muestras de un carácter
cualitativo proceden de la misma población”, por ejemplo: comprobar
si, ¿Tres muestras de alumnos provienen de poblaciones con igual
distribución de aprobados?. Es necesario que las dos variables
medibles, estén representadas mediante categorías con las cuales
construiremos una tabla de contingencia.

PRUEBA DE INDEPENDENCIA: Llamada también prueba de


asociación de variables; es un procedimiento de contrastación que se
utiliza para determinar la dependencia (relación o asociación) o
independencia entre dos variables categóricas. Los datos pueden
disponerse en una tabla de doble entrada llamada Tabla de
Contingencia de r filas y k columnas. Pasos a seguir:

1.-Formulacion de la Hipótesis:
Ho: Existe independencia entre las variables.
H1: No existe Independencia entre las variables.
2.-Nivel de significancia: α.
3.-Estadistica de Prueba:
X2 = ∑∑ (fij – eij)2 X2(n)

eij.
Dónde: n = ( r-1) (k-1) , grados de libertad.
e ij = fi. x f.j
n
f ij = frecuencias observadas.
e ij = frecuencias esperadas.
4.-Estableciomiento de los criterios de decisión:

5. Cálculos: Consiste en
reemplazar en la Estadística de Prueba los datos muestrales.

6: Decisión: Se acepta   cuando  . En caso


contrario sí se rechaza.

Ejemplo de Aplicación
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se
seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

  Sin depresión Con depresión  Total


Deportista 38 9 47
No deportista 31 22 53
 Total 69 31 100
1.-Ho: Existe independencia entre la práctica de algún deporte y la depresión.
H1: No existe Independencia entre la práctica de algún deporte y la depresión.
2.-Nivel de significancia: α = 5%.
3.-Estadistica de Prueba:

X2 = ∑∑ (fij – eij)2 X2(n) ; Dónde: n = ( r-1) (k-1) , grados de libertad.


eij.
e ij = fi. x f.j , ; donde : f ij = frecuencias observadas. ; e ij = frecuencias esperadas.
n
4.-Estableciomiento de los criterios de decisión:

5. Cálculos:

X2 = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 –


16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico X2 calculado, es 5,8227. Buscando en la tabla
teórica de Chi Cuadrado para 1 grado de libertad se aprecia Xtabular = 3,84146 <
5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un
nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye
el riesgo de depresión.

También podría gustarte