DISTRIBUCIONES DE MUESTREO v8

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 67

DISTRIBUCIONES

MUESTRALES
Inducción
Unidad de estudio

Unidad de muestreo

Muestreo
Es una técnica de obtención de un subconjunto de una población
(muestra) para estimar e inferir con respecto a la característica de una
población (parámetro).
La población ideal que se pretende estudiar se denomina población
objetivo.
Ventajas

1. La naturaleza destructiva de algunas pruebas


2. La imposibilidad física de chequear todos los elementos
de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de
la población.
5. El tiempo para contactar a toda la población es inviable.
Ejemplos

• Estimar la proporción de lavadoras que se descomponen antes del


tiempo de garantía. Para estimar esta probabilidad es necesario recopilar
información acerca del número de lavadoras descompuestas en cierto período
o de una producción dada. El parámetro o característica de interés no es
conocida, pero puede ser aproximada de la información recopilada.

• Estimar el tiempo promedio que una persona permanece en un banco, se


hace necesario conocer la distribución de dichos tiempos (lo cual no siempre
es posible). Es necesario observar los tiempos empleados por n personas
para obtener una aproximación del tiempo promedio real (parámetro de
interés).

• En un proceso de elaboración de materiales para construcción


establecer la variación en los diámetros de las varillas usadas para
columnas de concreto. Se recopila información acerca de los diámetros de
un conjunto de varillas y se aproxima dicha variabilidad con estos datos.
Muestra aleatoria de tamaño n

Es un conjunto de n v.a independientes e idénticamente distribuidas.


Es decir, si X1, … , Xn es una muestra aleatoria, entonces cumple
que:

Ejemplo
Sea X e Y v.a discretas independientes con
Halle la distribución conjunta de X e Y.

Solución
Por independencia tenemos: p(x, y) = p(x).p(y)
Muestra probabilística: Muestra que se selecciona de
modo que cada integrante de la población en estudio tenga una
probabilidad conocida ( no igual a cero) de ser incluido en la
muestra

Tipos de muestreo probabilísticas


Muestreo aleatorio simple (m.a.s.) En general, las técnicas de
Muestreo estratificado inferencia estadística
Muestreo sistemático suponen que la muestra ha sido
elegida usando m.a.s.
Muestreo por conglomerados

Muestra no probabilística: Métodos en los que no todos


los integrantes tienen probabilidad de ser incluidos en la muestra
Constante Variable aleatoria
Error No Muestral

Los errores que surgen al tomar las muestras y que no pueden clasificarse
como errores muestrales y se denominan errores no muestrales.

El sesgo de las muestras es un tipo de error no muestral. El sesgo


muestral se refiere a una tendencia sistemática inherente a un método de
muestreo que da estimaciones de un parámetro que son, en promedio,
menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro
real.

Ejemplo: la longitud del dedo índice de personas de la misma edad y sexo.


El sesgo muestral puede suprimirse, o minimizarse, usando la
aleatorización.

La aleatorización se refiere a cualquier proceso de selección de una


muestra “n” de la población en el que la selección es imparcial o no está
sesgada; una muestra elegida con procedimientos aleatorios se llama
muestra aleatoria muestra aleatoria.
Error de Muestreo
Si seleccionamos una muestra por el método de muestreo aleatorio
simple, por otro tipo de muestreo, es poco probable que la media de
la muestra sea idéntica a la media de la población de donde fue
obtenida. De la misma forma, es probable que la desviación estándar
de la muestra no sea exactamente igual al valor correspondiente de
la población.

Por lo tanto podemos esperar alguna diferencia entre un estadístico


muestral y el correspondiente parámetro poblacional. Esta diferencia
es llamada error de muestreo.
Error de muestreo es la diferencia entre un estadístico muestral y
su correspondiente parámetro poblacional

El error muestral se refiere a la variación natural existente entre muestras


tomadas de la misma población.
El error de muestreo es no direccional o no sigue un patrón de
comportamiento o sistema, porque las medidas al exhibir error aleatorio
son igual de probables para ser demasiadas altas como bajas.

Es importante diferenciar de:

El Error de Respuesta: Algunos encuestados "pueden distorsionar" la


verdad (para ponerla bondadosamente) al responder a una pregunta.
Puede exagerar su ingreso, le puede quitar importancia a su edad, o puede
proveer que las respuestas que piensan son " aceptable.

Error de no respuesta: No todo el mundo en la muestra cooperará


devolviendo el cuestionario o en contestar las preguntas de un
entrevistador. Esto no sería un problema, excepto que esos que responden
pueden ser diferentes a esos que no lo hacen. Por ejemplo, si estamos
usando un cuestionario del correo para averiguar la extensión para la cual
las personas están familiarizadas con las obras de William Shakespeare,
esos que son menos literatos o menos interesados en este autor clásico
también puede tener menos probabilidad de completar y devolver nuestros
cuestionarios. Como consecuencia, nosotros "podríamos medir" un nivel
muy alto de interés que realmente es.
Distribución muestral de la media
La distribución muestral de la media es una distribución probabilística
que consta de una lista de todas las medias muestrales posibles de un
tamaño de muestra dado de una población y la probabilidad de
ocurrencia asociada con cada media muestral. La media muestral es un
estadístico con media y varianza como sigue:

σ2
[ ]
E X =µ [ ]
y V X =
n
Población infinita

σ2  N −n
[ ]
E X =µ [ ]
y V X =  
n  N −1 
Población finita
Ejemplo Finita

Posibles muestras de tamaño n=2

[ ] 1 1 1
E X = 1.5( ) + 2( ) + 2.5( ) = 2
3 3 3
[ ] 1 1 1
V X = 1.52 ( ) + 2 2 ( ) + 2.52 ( ) − 2 2 = 0.167
3 3 3
σ 2  N − n  0.67  3 − 2 
[ ]
V X = 
n  N −1 
= 
2  3 −1 
 = 0.1675
Distribución muestral de la media con σ2 conocida

Población infinita

Si la distribución de X es desconocida o no es normal

Población infinita
¿Cuando se considera que n es “suficientemente”
grande?

No hay por desgracia ninguna respuesta universal, depende de la


forma de la distribución de X: si esta no es muy diferente de una
distribución Normal, no hace falta un n muy grande para que la
aproximación de la distribución de la media muestral por una Normal
sea satisfactoria.

En cambio, si es muy distinta de una distribución Normal, será


necesario una muestra grande. Se suele considerar como indicación
que n mayor de 30 es suficiente en la mayoría de los casos (pero no
es más que una indicación...).
Ejemplo

Una habitación requiere 8 focos de cierto tipo, cuya intensidad


lumínica promedio sea superior a 9.8 L/W (lúmen por vatios). Si la
intensidad lumínica de este tipo de focos es aproximadamente normal
con media 9.9 L/W y desviación estándar 0.3 L/W. ¿Qué proporción
de veces se cumple el requisito exigido?
Solución
Suponga que X1,…,Xn es una m.a de v.a. que representan las
intensidades lumínicas de los 8 focos elegidos al azar.

“El 82.64% de las muestras de 8 focos de este tipo cumplen el


requisito acerca de la intensidad lumínica requerida”
Ejemplo

La resistencia a la compresión del concreto es una v.a. con una


resistencia media de 2500 psi y una desviación estándar de 50 psi.
Encuentre la probabilidad de que en una muestra de 36 especimenes
de concreto, la resistencia promedio esté entre 2497 y 2505 psi.
Solución
Suponga que X1,…,X36 es una m.a. donde cada Xi representa la
resistencia de cada espécimen de concreto, i=1,2,…,36
Ejemplo
La acidez de los suelos se indica usualmente por el PH, el cual varía de 0 a
14. Se desea estimar el PH de un gran campo, para lo cual, se toman n
mediciones de PH aleatoriamente sobre este campo. La experiencia ha
mostrado que las mediciones de PH fluctúan en un rango de 5 a 8. Si se
toman 40 mediciones. ¿Cuál es la probabilidad de que el PH promedio de
ésta muestra se desvíe a lo más 0.2 unidades de PH del valor real de PH
para éste campo?
Solución
Suponga que X1,…,X40 es una m.a. de mediciones de PH para este
campo y suponga
CASO PRÁCTICO

Según viene publicado en una prestigiosa revista de economía, el salario


semanal medio de trabajadores de construcción es de 406,15 u.m. Se
estima además que la desviación estándar de dichos salarios es de 55,5
u.m. Si suponemos que se toma una muestra aleatoria de 100 trabajadores
para estudiar sus salarios, calcular las siguientes probabilidades referentes
a la media de dicha muestra:

1. La probabilidad de que la media de la muestra sea menor de 400 u.m.


2. La probabilidad de que la media de la muestra esté entre 400 y 410 u.m.
3. La probabilidad de que la media de la muestra sea mayor de 415 u.m.
4. Hallar el valor del salario medio c tal que excluya el 5% de los salarios
promedio semanales superiores
Solución
Distribución muestral de la media con σ2 desconocida*

En caso de que la población sea normal con varianza desconocida,


puede evaluarse el comportamiento de la media muestral con:

X −µ
t= (Población infinita)
S
n

X −µ
t= (Población finita)
S N −n
n N −1

(*) Para muestras grandes la distribución t se aproxima a la normal)


Ejemplo

En un recorrido de 16 pruebas de una hora cada uno, el consumo


promedio de gasolina de un motor fue 16.4 galones, con una
desviación estándar de 2.1 galones. Se quiere saber si es cierta la
afirmación de que “el consumo promedio de gasolina es 12
galones/hora”.
Solución
Tenemos la siguiente información:

Para responder la pregunta debemos verificar que tan probable es que una
muestra de 16.4 galones pertenezca a una distribución con una media de 12.
Por lo tanto, debemos calcular la probabilidad de que la media muestral sea
mayor o igual que 16.4 si la verdadera media de donde proviene dicha muestra
es 12 galones. Esto es:

En la tabla de la distribución t con 15 grados de libertad, tenemos que para una


probabilidad de 0.005 el respectivo valor de t es 2.947, lo cual implica que la
probabilidad para t = 8.38 es cero). Por lo tanto, concluimos que la probabilidad
de obtener una muestra con una media de 16.4 de una población cuya media es
12.0 es cero, es decir, que “el consumo promedio de gasolina no es 12
galones/hora”, sino que es superior.
Ejemplo

El gasto diario en llamadas telefónicas en el departamento de


una empresa sigue una distribución normal con media µ = 64
nuevos soles. Si para dicho departamento se elige al azar 10
días y se encuentra un gasto promedio de 60 nuevos soles y una
desviación estándar de 7. Calcular la probabilidad de que el
gasto medio en el periodo muestral sea menor a lo observado.
Solución

1. Como X es normal con media = 60


2. varianza desconocida
3. Muestra pequeña n = 10
Calculamos el valor t- student con 10-1=9 grados libertad:

60 − 64
t= = −1.81
7 / 10
Distribución muestral de la proporción
Ejemplo
Un distribuidor de tornillos determina a través de pruebas que el 4% de
los tornillos fabricados por una determinada compañía son
defectuosos. El distribuidor vende paquetes de 150 tornillos con
garantía de que el paquete contiene el 92% de tornillos no defectuosos.
¿Cuál es la probabilidad de que un paquete no satisfaga la garantía?
Solucion:

El porcentaje de tornillos defectuosos fabricados por la compañía es


p = 0,04. Como n = 150 > 30, la proporción muestral se distribuye:

Luego la probabilidad de que un paquete no satisfaga la garantía es:


Ejemplo
Un encuestador considera que el 20% de los votantes de cierta área,
están a favor de cierta política judicial. Se selecciona al azar 64
votantes de esta área. ¿Cuál es la probabilidad de que la fracción de
votantes en la muestra a favor de la política judicial se aleje a lo más
0.06 de la fracción real?
Solución
Sea X : # personas en la muestra de 64, a favor de dicha política

=
Ejemplo
Se supone que el 12% de la población en una ciudad tiene una
segunda residencia. Con el fin de obtener una información más
precisa se toma una m.a. de 250 familias. ¿Cuál es la probabilidad
de que la proporción de familias de la muestra con segunda
residencia esté comprendida entre un 10% y un 15%?.

Solución

Debemos calcular

Pr( 0.10 < P < 0.15) = Pr(P < 0.15) – Pr(P < 0.1)

0.15 − 0.12 0.1 − 0.12


z1 = = 1.46 z2 = = −0.97
0.12(0.88) 0.12(0.88)
250 250
Luego
Pr( 0.10 < P < 0.15) = 0.927855 - 0.166023
= 0.761832
Ejemplo
Una agencia de publicidad determina que aproximadamente dos de
cada 40 compradores potenciales de un producto ve cierto anuncio en
un periódico, dos de cada 10 ve el anuncio correspondiente en la
televisión y 4 de cada 100 ve los dos anuncios. Además, uno de 6
compra realmente el producto si ha visto el anuncio, y de cada 10 que
no han visto el anuncio sólo uno compra.
a) Si se entrevista a 200 personas, ¿cuál es la probabilidad de que por
lo menos 30 de ellos compren realmente el producto?
b) ¿Cuál debe ser el número de personas entrevistadas para tener un
95% de probabilidad de que la proporción muestral se desvíe de su
valor real en no más. de 0.04?
Solución
El diagrama de Ven de los compradores del producto que ven el
anuncio en el periódico y TV se muestra en la figura 1.4 y el
diagrama de árbol de probabilidad de compradores y no
compradores del producto se muestra en la figura 1.5

2/40=0.05

2/10=0.20
Ejemplo
La precisión de un instrumento de prueba es admisible si su
variabilidad no es mayor a 10 unidades2 de medida. Para verificar la
precisión de dicho instrumento, se realizan 27 lecturas sobre un
dispositivo los que proporcionan una varianza de 16.8 unidades. Si se
asume que las lecturas son obtenidas de una población normal.
a) ¿Cuál es la probabilidad de que la desviación estándar esté entre 3
y 4?
b) ¿Se puede afirmar que el instrumento es aceptable?
Solución
a) Sea X: lecturas de cierto instrumento ∼ N(µ, σ2=10)
P(3<S<4) = P(9<S2<16)

 (26)(9) (n − 1) S 2 (26)(16) 
p < < 
 10 σ 2
10 
(
= P 23.4 < χ 2 < 41.6 )
= P (χ ) (
< 41.6 − P χ 2 < 23.4
2
)
= 0.97302 − 0.38977 = 0.58325
b) Debemos determinar si probabilísticamente el instrumento
es admisible
P(S2 > 16.8)

 (n − 1) S 2 (26)(16.8)  Poco
p > 
 = P ( χ 2
> 43.68) = 0.01636
 σ
2 probable
10 
Ejemplo
Un fabricante de baterías para automóviles garantiza que sus baterías
duran, en promedio tres años con una desviación estándar de un año.
Si cinco de sus baterías tienen duraciones de 1.9, 2.4 , 3.0, 3.5 y 4.3
años, puede asegurarse que las baterías tiene una duración estándar
de un año?. Suponga que la duración de las baterías sigue una
distribución normal.
Solución

Debemos evaluar: P( S 2 < 0.815)


Esto es

Luego
P( S 2 < 0.815) = P( χ 2 < 3.26) = 0.572

la cual es excesivamente alta. Por lo tanto, no hay evidencia para


concluir que la muestra no pertenece a una población con una
varianza de uno.
Cociente de varianzas muestrales

Una v.a. F es la razón de


dos v.a. Chi-cuadrados
Ejemplo
Los directores de una empresa que fabrica plásticos desean saber si se
pueden comparar dos procesos de manufactura en relación con la
variabilidad de la resistencia que tiene el producto respecto de la
tracción. Manifiestan ellos que en su concepto los dos procesos
producirán plásticos con igual resistencia a la tracción si la razón entre
las varianzas muestrales de especimenes de los dos procesos no es
demasiado grande. Consideran que la razón es demasiado grande si la
probabilidad de obtener un valor mayor o igual al cociente observado es
menor que 0,04. Las muestras aleatorias independientes de 25
especimenes cada uno de los procesos dan varianzas de 540 y 256.
¿Creerán los directores que ambos procesos producen plásticos con la
misma variabilidad de resistencia de la tracción?. Suponga que las
resistencias a la tracción de los productos fabricados con los dos
procesos están normalmente distribuidos.
Solución
Diferencia de medias muestrales
Ejemplo: Caso a
La vida útil de un dispositivo fabricado por la empresa A es de
1.400 horas, con una desviación estándar de 200 horas. Por su
parte, el mismo dispositivo fabricado por la empresa B de la
competencia tiene una duración de 1.200 horas con un desvío de
100 horas. Se eligen 125 dispositivos de cada empresa con un
muestreo al azar. Calcular la probabilidad que los de la empresa A
duren 250 días más que los de B.
Solución
Poblaciones normales con varianzas conocidas

Entonces, la probabilidad pedida es igual al área a la derecha de este


valor en la curva de Gauss.

P (Z > 2.5) = 0,0062. Lo que significa que hay un 0,6% de probabilidad


porcentual de que la vida útil del dispositivo fabricado por A dure 250
horas más que el de su competencia.
Ejemplo:
Solución
Ejercicio
Debido a las buenas perspectivas que presenta la economía peruana, un grupo
de empresarios europeos han decidido invertir en nuestro país, para lo cual está
evaluando la compra de una de las dos cadenas de restaurantes de comida
rápida que funcionan en Lima. Los empresarios europeos calificaron como muy
buenas alternativas para iniciarse en el negocio de alimentos. Sin embargo. para
tomar su decisión por la compra de una de las cadenas, establecieron los
siguientes criterios:

a) Se elegirá a la cadena de tiendas que presente similares niveles de ingresos


en sus locales, pues, esto permitirá a los inversionistas planear con mayor
exactitud sus ingresos, esperados para los siguientes años y lograr una mejor
estimación del tiempo de recuperación de su inversión. Debido a la alta volatilidad
en el consumo de clientes de los estratos sociales medio-alto y medio, los
inversionistas presumen que existe mayor dispersión en los niveles de ventas de
la cadena A con respecto a las ventas de la cadena B.

b) Adquirir la cadena de comida rápida que presente mayor nivel de utilidad


promedio, para tal fin definen la variable utilidad mediante la relación:
UTILIDAD = VENTAS – COSTO TOTALES

y asumen que existen diferencias significativas entre la variabilidad de los


niveles de utilidad de ambas cadenas.

c) Los empresarios decidirán invertir si aquella cadena de comida rápida que


presente mayor número promedio de clientes potenciales a ser atendidos,
para esto cuentan con la información de que. los clientes potenciales de los
restaurantes son aproximadamente el 35% de la población de cada distrito.
Por otro lado, según estudios anteriores se decidió que el nivel de variabilidad
del número de clientes atendidos en ambas cadenas no ha presentado
diferencias significativas. Para tomar una decisión adecuada en base a estos
tres criterios, se recolectó información sobre los niveles de ventas y los costos
totales de ambas cadenas de comida rápida ubicadas en los distritos en
estudio correspondiente al mes de abril. Estas informaciones se presenta en
los siguientes cuadros.
140052

Promedio venta mensual de A


= 37,903.25
= 6,892.3

Promedio venta mensual de B


A

Tomando en cuenta la información proporcionada. en base a cada uno de


los tres criterios expuestos y asumiendo que las variables venta, utilidad y
número de habitantes tienen distribución normal; ¿qué cadena de comida
rápida deberían comprar los empresarios europeos?
Ejercicio
Se registraron los siguientes datos, en minutos, que tardan
algunos empleados varones y mujeres en realizar cierta actividad
en una empresa, los cuales fueron seleccionados aleatoriamente

Suponga que los tiempos para los dos grupos se distribuyen


normalmente
Calcule la probabilidad de que las mujeres tardan mas de 3
minutos en realizar la misma tarea que los varones.
Diferencia de proporciones muestrales
Ejemplo:
Solución

También podría gustarte