5 - Unidad 5

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

76

UNIDAD V

Muestreo de la población. Métodos de muestreo de probabilidad: aleatorio


simple, aleatorio sistemático, aleatorio estratificado, por conglomeración.
Error de muestreo. Distribución de muestreo de medias muestrales. Teorema
del límite central. Uso de la distribución de muestreo de la media muestral.
Estimaciones puntuales e intervalos de confianza. Intervalo de confianza pa-
ra una proporción. Factor de corrección para población finita.

MUESTREO DE LA POBLACIÓN

En algunos casos, el muestreo es la única forma de determinar algo acerca de la po-


blación. A continuación, algunas de las principales razones por las que el muestreo es
necesario:

1. Naturaleza destructiva de ciertas pruebas: ejemplo de esto son las catas de vino; se
imaginan si tuvieran que beber todo el vino para evaluar la vendimia, consumirían
toda la producción y no quedaría producto disponible para la venta.
2. Imposibilidad física de revisar todos los integrantes de la población: las poblaciones
de peces, aves, mosquitos y similares son grandes y están en movimiento constan-
te, los seres nacen y mueren.
3. Costo de estudiar a todos los integrantes de una población es en general, prohibiti-
vo.
4. Lo adecuado de los resultados de la muestra: incluso si se contara con los fondos,
es dudoso que la precisión adicional de una muestra de 100% (es decir, el estudio
de la población completa) resulte fundamental en la mayor parte de los problemas.
5. En ocasiones se necesitaría mucho tiempo para entrevistar a toda la población

MÉTODOS DE MUESTREO DE PROBABILIDAD

Por lo general, hay dos tipos de muestras: la muestra probabilística y la muestra no


probabilística.

Muestra probabilística: Muestra que se selecciona de modo que cada integrante


de la población en estudio tenga una probabilidad conocida (pero distinta de cero)
de ser incluido en la muestra.

Debemos tener presente que no existe un método que sea “el mejor” para tomar una
muestra probabilística de una población ya que un método que se usa para tomar una
muestra de facturas de un archivo puede no ser el más adecuado para tomar una
muestra de votantes a nivel nacional. Sin embargo, todos los métodos probabilísticos
tienen un propósito común: permitir que el azar determine los elementos o personas
que se incluirán en la muestra.

Muestreo aleatorio simple

Es el tipo de muestreo más utilizado y se llama así a la muestra seleccionada de ma-


nera que cada integrante de la población tenga la misma probabilidad de quedar in-
cluido.

Para ilustrar el muestreo aleatorio simple y la selección, supongamos que una pobla-
ción consta de 845 empleados de una empresa industrial. Se seleccionará una mues-
77

tra de 52 a partir de esa población. Una forma de asegurar que todos los trabajadores
en la población tengan la misma oportunidad de ser elegidos, es escribir primero el
nombre de cada uno en una papeleta y depositar en una caja todos los papeles; des-
pués que se han mezclado bien, se realiza la primera selección sacando una papeleta
de la caja sin mirarla. Este proceso se repite hasta que se eligen 52, el tamaño de la
muestra.

Un método más adecuado de seleccionar una muestra aleatoria es emplear el número


de identificación de cada empleado y una tabla de números aleatorios o bien utilizar
esa función del programa Excel.

Muestreo aleatorio sistemático

El procedimiento de muestreo aleatorio simple puede ser difícil de utilizar en algunos


casos de investigación. Vamos a suponer que la población de interés consta de 2000
facturas colocadas en un archivo; para obtener una muestra aleatoria simple, primero
se necesitaría numerar dichos elementos del 0000 al 1999. Usando una tabla aleatoria
o la fórmula de Excel, una muestra de 100 números, habría que localizar en las gave-
tas una factura que se corresponda con cada uno de esos 100 números, lo que sería
una tarea prolongada. En su lugar se puede tomar una muestra aleatoria sistemática,
seleccionando una factura cada 20 de las que se encuentran en el archivo. La primera
factura se elegiría utilizando el proceso al azar o fortuito, si se selecciona el número 10
como punto de inicio, la muestra constaría de las facturas números 10, 30, 50, 70, …
etc. Como el primer elemento que se elige al azar, todas las facturas tienen la misma
probabilidad de ser seleccionadas para la muestra.

Muestra aleatoria sistemática: los integrantes o elementos de la población se


ordenan en alguna forma, se selecciona al azar un punto de partida y después se
elige para la muestra cada k-ésimo elemento de la población.

Sin embargo, no debe utilizarse una muestra sistemática si hay un patrón predetermi-
nado en la población.

Muestreo aleatorio estratificado

Otro tipo de muestreo de probabilidad es el llamado muestreo aleatorio estratificado.

Muestreo aleatorio estratificado: Una población se divide en subgrupos, deno-


minados estratos y se selecciona una muestra de cada uno.

Después de que la muestra se ha dividido en estratos, puede seleccionarse una mues-


tra proporcional o no proporcional que, como su nombre lo indica, un procedimiento de
muestreo proporcional requiere que el número de elementos en cada estrato tenga la
misma proporción que se encuentra en la población. En una muestra estratificada no
proporcional, la cantidad de elementos estudiada en cada estrato es desproporcionada
respecto de su número en la población, luego se ponderan los resultados de la mues-
tra de acuerdo con la proporción del estrato respecto a la población total.

Este muestreo estratificado tiene la ventaja, en algunos casos, de reflejar con mayor
precisión las características de la población, que el muestreo aleatorio simple o el
aleatorio sistemático.

Muestreo por conglomeración

Otro tipo común de muestreo es el muestreo por conglomeración, el cual se emplea


frecuentemente para reducir el costo de muestrear una población dispersa en un área
78

geográfica grande ya que subdivide una región extensa en áreas menores. General-
mente se denominan a éstas unidades primarias.

Error de muestreo

Hemos visto la importancia de seleccionar una muestra de manera que cada elemento
o individuo de la población tenga una probabilidad real de ser escogido. Para lograr
esto, podríamos elegir un muestreo aleatorio simple, uno sistemático, uno estratifica-
do, uno por conglomeración o bien una combinación de estos métodos. Sin embargo,
es poco probable que una media muestral sea idéntica a la media poblacional. De
igual forma, la desviación estándar o cualquier otra medida calculada a partir de la
muestra, probablemente no sería exactamente igual al valor correspondiente de la
población. Por tanto, podemos esperar que haya una diferencia entre un valor estadís-
tico de muestra y el correspondiente parámetro de población.

Error de muestreo: diferencia entre un valor estadístico de muestra y su paráme-


tro de población.

Supongamos una población de 5 empleados cuyos índices de eficiencia son de 97,


103, 96, 99 y 105. Consideremos además, que se selecciona una muestra de dos índi-
ces (97 y 105) de la población para calcular el índice media de la misma, cuyo valor
sería 101. Se selecciona otra muestra de dos: 103 y 96 con una media muestral de
99,5. La media poblacional es igual a 100. El error de muestreo en el primer caso es
de 1, determinado por x - µ = 101 - 100. La segunda muestra tiene un error de mues-
treo de -0,5. Cada diferencia (1 y -0,5) es el error que habría al evaluar la media po-
blacional con base en la media muestral y estos errores de muestreo se deben al azar.
La cantidad de estos errores será diferente de una muestra a la siguiente.

DISTRIBUCIÓN DE MUESTREO DE MEDIAS MUESTRALES

Ahora que hemos descubierto la posibilidad de un error de muestreo cuando se usan


los resultados de la muestra para determinar un parámetro de población ¿cómo se
puede realizar un pronóstico exacto sobre el éxito posible de un EPP recientemente
elaborado o algún otro producto, únicamente con base en resultados muestrales? Para
responder a preguntas como ésta, primero se debe desarrollar una distribución de
muestreo de las medias muestrales.

Distribución de muestreo de medias muestrales: es una distribución de proba-


bilidad que consta de todas las medias muestrales posibles de un tamaño de
muestra dado.

TEOREMA DEL LÍMITE CENTRAL

El teorema del límite central establece que, para muestras aleatorias grandes, la forma
de distribución de medias muestrales se acerca a la de la distribución del tipo normal.
La aproximación es más exacta para muestras grandes que para pequeñas, esta es
una de las conclusiones más útiles en Estadística. Se puede razonar acerca de la dis-
tribución de las medias muestrales sin contar con alguna información respecto de la
forma de la distribución original de la cual se toma la muestra. En otras palabras, el
teorema del límite central es cierto para todas las distribuciones.
79

Teorema del Límite Central: Si se seleccionan de cualquier población todas las


muestras de un tamaño determinado, la distribución de las medias muestrales se
acercará a una del tipo normal. Esta aproximación aumenta en el caso de mues-
tras más grandes.

Si la población está distribuida normalmente, entonces, para cualquier tamaño de


muestra, la distribución de la media muestral también lo estará. Si la distribución de la
población es simétrica (pero no normal) se verá surgir la forma normal del Teorema del
Límite Central, con muestras tan pequeñas como 10. Por otra parte, si se comienza
con una distribución que es sesgada o tiene extremos gruesos, es posible que se ne-
cesiten muestras de al menos 30 para observar el aspecto de normalidad 2.

Como se observa, el Teorema del Límite Central no menciona nada acerca de la dis-
persión de la distribución de medias muestrales o respecto de una comparación entre
el valor medio de las medias muestrales y el de la población. Sin embargo, se puede
observar que existe menos dispersión en la distribución de las medias muestrales que
en la de la población, al comparar la amplitud de variación de la población y la de las
medias muestrales. Asimismo, el valor medio de todas las medias muestrales se en-
cuentra cerca de la media de la población. Se puede ver que la media de la distribu-
ción muestral es la media poblacional, y si la desviación estándar de la población es σ,
la desviación estándar en las medias muestrales es sigma sobre la raíz de n donde n
representa el número de observaciones en cada muestra. Nos referiremos a esta últi-
ma expresión como el error estándar de la media, conocido también como la desvia-
ción estándar de la distribución de muestreo de la media muestral.
𝜎𝜎
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑒𝑒𝑒𝑒𝑒𝑒á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 = 𝜎𝜎𝑥𝑥 =
√𝑛𝑛

De todo lo expuesto, llegamos a las siguientes conclusiones:

1. La media de la distribución de la media muestral será exactamente igual a la media


poblacional, si se pueden seleccionar todas las muestras de un determinado tama-
ño de una población. Esto es, aún si no se toman todas las muestras se puede es-
perar que la media de la distribución de la media muestral sea cercana a la media
poblacional.
2. Habrá menos dispersión en la distribución muestral de la media muestral que en la
poblacional. Si la desviación estándar de la población es σ, la desviación estándar
de la distribución de la media muestral es 𝜎𝜎/√𝑛𝑛. Obsérvese que cuando el tamaño
de la muestra aumenta, el error estándar de la media disminuye.

2
La mayoría de los estadísticos considera que una muestra de 30 o más resulta suficiente para que se emplee el Teorema del
Límite Central.
80

AUTOEVALUACIÓN

Una empresa tiene 20 representantes de ventas que venden su pro-


ducto en todo el país. A continuación se enlistan los números de uni-
dades vendidas durante un mes por cada representante. Supóngase
que tales cifras son una población de valores: 2 – 3 - 2 – 3 – 3 – 4 -
2 – 4 – 3 – 2 – 2 – 7 – 3 – 4 – 5 – 3 – 3 – 3 – 3 – 5.

a. Elaborar un gráfico de la población.


b. Calcular la media poblacional.
c. Seleccionar al azar cinco muestras de 5 elementos de cada una y
calcular la media de cada muestra.
d. Comparar la media de la distribución de medias muestrales, con la
media de la población. ¿Se esperaría que fueran iguales?
e. Trazar un histograma de las medias muestrales ¿Observa alguna
diferencia entre la forma de la distribución de dichas medias y la
distribución de la población?

USO DE LA DISTRIBUCIÓN
DE MUESTREO DE LA MEDIA MUESTRAL

La mayoría de las decisiones en los negocios se toman basándose en los resultados


de una muestra. Por lo general se cuenta con una población de la que se tiene alguna
información, se toma una muestra de la población y se desea determinar si el error
muestral, es decir, si la diferencia entre el parámetro poblacional y el estadístico mues-
tral se debe a la casualidad.

Usando los conceptos expuestos anteriormente, se puede calcular la probabilidad de


que una media muestral se encuentre dentro de cierto intervalo. Se sabe que la distri-
bución muestral de la media muestral sigue una distribución de probabilidad normal si
se dan dos condiciones:

1. Si las muestras se toman de poblaciones que siguen la distribución de probabilidad


normal. En este caso, el tamaño de la muestra no tiene importancia.
2. Si no se conoce la forma de la distribución de probabilidad de la población o, si se
sabe que no es normal, pero el tamaño de la muestra es por lo menos de 30 obser-
vaciones.

Como la mayor parte de las decisiones se basan en muestras y no sólo en una obser-
vación, nos interesa la distribución de la media muestral y no de una sola observación.
Para determinar el valor de z, ésta es el primer cambio que hay que hacer y el segun-
do es se usa el error estándar de la media de n observaciones en lugar de la desvia-
ción estándar poblacional. Es decir que se usa 𝜎𝜎/√𝑛𝑛 en el denominador en lugar de
sólo σ. Por tanto, para encontrar la probabilidad de que un valor muestral esté en un
determinado intervalo, se usa primero la fórmula siguiente para encontrar el valor co-
rrespondiente de z y luego la tabla de distribución normal para encontrar la probabili-
dad.
𝑥𝑥 − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎
� 𝑛𝑛

81

Hay muchas situaciones muestrales en las que conviene decir algo acerca de la po-
blación, pero no se sabe mucho de ésta; aquí ayuda la potencia del Teorema del Lími-
te Central. Sabemos que cualquiera que sea la forma de la distribución de la pobla-
ción, si se toma una muestra suficientemente grande, la distribución muestral de la
media muestral seguirá la distribución normal. La teoría estadística ha demostrado que
muestras de por lo menos 30 son suficientemente grandes para permitir considerar
que la distribución muestral sigue una distribución normal.

Frecuentemente se desconoce la desviación estándar poblacional, con lo que, si la


muestra es de por lo menos 30 observaciones, se estima la desviación estándar po-
blacional con la desviación estándar muestral y la fórmula quedaría expresada como
sigue:
𝑥𝑥 − 𝜇𝜇
𝑧𝑧 = 𝑠𝑠
� 𝑛𝑛

Ejemplo: Una asociación de estaciones de servicios estima que en una estación se


venden en promedio 20 mil litros diarios. La forma de al distribución no se conoce. En
una muestra que se tomó ayer, de 70 estaciones de servicio, la media fue de 19.480 y
la desviación estándar de 4.250 litros. ¿Es razonable la aseveración de que la media
poblacional sea de 20 mil litros? ¿Cuál es la probabilidad de tomar una muestra con el
estadístico dado de la población propuesta? ¿Qué suposiciones hay que hacer?

No se está seguro de la forma de la población de litros vendidos por día, sin embargo,
la muestra es suficientemente grande para poder considerar que la distribución mues-
tral de la media muestral siga una distribución normal. El Teorema del Límite Central
proporciona la teoría estadística necesaria. Como el tamño de la muestra es suficien-
temente grande, podemos sustituir la desviación estándar poblacional por la desvia-
ción estándar muestral.

𝑥𝑥 − 𝜇𝜇 19480 − 20000
𝑧𝑧 = 𝑠𝑠 = = −1,02
� 𝑛𝑛 4250�
√ √70

De la tabla de distribución normal obtenemos la probabilidad de tener un valor z entre


0 y -1,02 que es 0,3461. La probabilidad de tener 19480 galones o menos como media
muestral en la población específica es 0,1539 (que se obtiene de 0,5 - 0,3461) Dicho
de otra manera, existe un 15% de probabilidad de seleccionar una muestra de 70 es-
taciones de servicios y encontrar que su media es 19480 litros o menos, por lo que sí
se considera razonable concluir que la media poblacional sea 20 mil litros.

AUTOEVALUACIÓN

La media de una población normal es 60 y la desviación estándar es


12. Se toma una muestra aleatoria de 9. Calcular la probabilidad de
que la media muestral:

a. Sea mayor que 63.


b. Menor que 56.
c. Esté entre 56 y 63.
82

En cierta ciudad, el alquiler promedio de un cuarto es de $1200 por


mes. La distribución de este precio en los alquileres no sigue una dis-
tribución normal sino que es positivamente sesgada. ¿Cuál es la pro-
babilidad de tomar una muestra de 50 alquileres de cuartos y que
tenga una media de por lo menos $950? La desviación estándar
muestral es $250.

ESTIMACIONES PUNTUALES
E INTERVALOS DE CONFIANZA

Hay casos en los que resulta fácil obtener la media poblacional, ya sea porque se tie-
nen todos los datos o porque la población no es demasiado grande; sin embargo, en la
mayor parte de los casos, la población es grande o resulta difícil identificar a todos sus
miembros, de manera que es necesario apoyarse en la información de una muestra.

Una estimación puntual es un solo estadístico que se usa para estimar un parámetro
poblacional. Supóngase que una empresa fabricante de audífonos quiere estimar la
edad promedio de las personas que lo utilizan. Toman una muestra aleatoria de 50
compradores recientes, determinan la edad de cada uno y calculan la edad promedio
de los compradores de la muestra. La media de la muestra es una estimación puntual
de la media poblacional. También se podría usar la mediana muestral. Sin embargo, la
mediana muestral no es tan eficiente, lo que significa que hay más dispersión en la
distribución de las medianas muestrales que en la de las medias muestrales.

Estimación puntual: estadístico calculado a partir de la información obtenida de


la muestra y que se usa para estimar el parámetro poblacional.

Pero una estimación puntual no da mucha información; como se espera que la estima-
ción puntual esté cerca del parámetro poblacional, sería deseable saber qué tan cerca
está en realidad. El intervalo de confianza cumple este propósito.

Intervalo de confianza: un conjunto de valores obtenido a partir de los datos


muestrales, en el que hay una determinada probabilidad de que se encuentre el
parámetro. A esta probabilidad se la conoce como el nivel de confianza.

Si se tienen muestras razonablemente grandes, el Teorema del Límite Central permite


establecer:

• 99% de las medias muestrales obtenidas de una población se encuentran a no más


de 1,96 desviaciones estándar de la media poblacional.
• 99% de las medias poblacionales se encuentran a no más de 2,58 desviaciones es-
tándar de la media poblacional.

La desviación estándar de la que se trata acá es la desviación estándar de la distribu-


ción muestral de la media muestral. A esta desviación estándar se la llama general-
mente “error estándar”. A los intervalos calculados de esta manera se les llama inter-
valo de confianza de 95% e intervalo de confianza de 99%. ¿Cómo se obtienen los
valores 1,96 y 2,58? El 95% y el 99% son el porcentaje de las veces que los intervalos
obtenidos de manera semejante comprenderán al parámetro que se está estimando.
El 95% por ejemplo, se refiere al 95% central de las observaciones, por tanto, el 5%
restante queda repartido en dos partes iguales entre las dos colas.
83

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

Lo expuesto hasta ahora usa mediciones del nivel de razón. En la escala nominal cada
observación se clasifica en dos o más grupos mutuamente excluyentes.

Proporción: fracción, razón o porcentaje que indica la parte de la muestra o po-


blación que tiene una característica determinada.

Para determinar un intervalo de confianza para una proporción poblacional se deben


satisfacer las siguientes suposiciones:

1. Que las condiciones binomiales se cumplan


a. Los datos muestrales son el resultado de contar algo.
b. Sólo hay dos resultados posibles.
c. La probabilidad de éxito no cambia de un ensayo a otro.
2. Los resultados son independientes.
a. Que los valores nρ y n(1-ρ) sean mayores o iguales a 5. Esta condición permite
recurrir al Teorema del Límite Central y emplear la distribución normal estándar,
es decir, z como parte del intervalo de confianza.

Ejemplo: El sindicato de una empresa está considerando la propuesta de fusionarse


con otro sindicato. De acuerdo con los estatutos del sindicato de la empresa, es nece-
sario que por lo menos tres cuartas partes de los miembros del sindicato aprueben la
fusión. En una muestra aleatoria de 2000 miembros del sindicato, se tiene que 1600
están a favor de la fusión. ¿Cuál es el valor estimado de la proporción poblacional?
Determine un intervalo de confianza de 95% para la proporción poblacional. Interprete
los resultados. Basándose en los resultados de la información muestral, se puede con-
cluir que se tiene la proporción necesaria de miembros a favor de la fusión.

Primero calcularemos la proporción muestral:

𝑥𝑥 1600
𝑝𝑝 = = = 0,80
𝑛𝑛 2000

En consecuencia, se estima que el 80% de la población favorece la fusión. El intervalo


de confianza de 95% se determina con la fórmula siguiente, el valor de z que corres-
ponde al nivel de confianza de 95% es 1,96:

𝑝𝑝(1 − 𝑝𝑝) 0,80 (1 − 0,80)


𝑝𝑝 ± 𝑧𝑧� = 0,80 ± 1,96� = 0,80 ± 0,018
𝑛𝑛 2000

Los extremos del intervalo de confianza son entonces 0,782 y 0,818. El extremo infe-
rior es mayor que 0,75; por tanto, se concluye que se aceptará la propuesta.
84

AUTOEVALUACIÓN

Se realizó una investigación de mercado para estimar la proporción


de constructores de casas que reconocen el nombre comercial de un
purificador con solo ver la forma y el color del empaque. En una
muestra de 1400 constructores de casa, 420 reconoció el nombre
comercial.

a. Estimar el valor de la proporción poblacional.


b. Calcule el error estándar de la proporción.
c. Determine un intervalo de confianza de 99% para la proporción
poblacional.
d. Interprete los resultados.

FACTOR DE CORRECCIÓN PARA POBLACIÓN FINITA

Hasta aquí la población de la que tomamos la muestra es muy grande o infinita. Ahora
vamos a analizar lo que sucede si la población no es muy grande ya que en este caso
debemos realizar un ajuste en el cálculo del error estándar, ya sea de la media mues-
tral o de la proporción muestral.

Una población que tiene un determinado límite superior es finita. En una población
finita, en la que el número total de objetos es N y el tamaño de la muestra es n, al error
estándar de la media muestral de la proporción muestral se le aplica el siguiente ajus-
te:

𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑒𝑒𝑒𝑒𝑒𝑒á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢 𝑢𝑢𝑢𝑢 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐ó𝑛𝑛: 𝜎𝜎𝑥𝑥
𝜎𝜎 𝑁𝑁 − 𝑛𝑛
= �
√𝑛𝑛 𝑁𝑁 − 1
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑒𝑒𝑒𝑒𝑒𝑒á𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑐𝑐𝑐𝑐𝑐𝑐 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐ó𝑛𝑛: 𝜎𝜎𝑝𝑝
𝑝𝑝(1 − 𝑝𝑝) 𝑁𝑁 − 𝑛𝑛
=� �
𝑛𝑛 𝑁𝑁 − 1

A este ajuste se le llama factor de corrección para una población finita. Lógicamente si
la muestra es un porcentaje substancial de la población, la estimación será más preci-
sa.

Para visualizar el efecto que tiene el término (N-n)/(N-1) supongamos que la población
es 1000 y la muestra es 100. Entonces este cociente es (1000 - 100)/(1000-1) o
900/999. Al calcular la raíz cuadrada se obtiene el factor de corrección 0,9492. La mul-
tiplicación de este factor de corrección por el error estándar reduce el error estándar
en aproximadamente 5% (1-0,9492 = 0,0508) Esta reducción en el tamaño del error
estándar genera un intervalo menor de valores al estimar la media poblacional o la
proporción poblacional. Si la muestra es de 200, el factor de corrección es 0,8949 lo
que significa que el error estándar se ha reducido en más de 10%. Cuando la muestra
es inferior al 5% de la población, el impacto del factor de corrección es muy pequeño,
la regla que se sigue es que cuando el cociente n/N es inferior a 0,05, se ignora el fac-
tor de corrección.
85

Ejemplo: En una determinada localidad hay 250 familias. Una encuesta realizada a 40
familias indica que su contribución anual media es $450 con una desviación estándar
de $75. Determinar un intervalo de confianza de 90% para la contribución anual media.

Primero se observa que la población es finita. El número de personas en la localidad


tiene un límite. Segundo, se observa que la muestra constituye más de 5% de la po-
blación: n/N=40/250 =0,16. En consecuencia usa el factor de corrección para una po-
blación finita. El intervalo de confianza de 90% se construye como sigue:

𝑠𝑠 𝑁𝑁 − 𝑛𝑛 75 250 − 40
𝑥𝑥 ± 𝑧𝑧 �� � = 450 ± 1,65 �� � = 450 ± 19,57 ��0,8434�
√𝑛𝑛 𝑁𝑁 − 1 √40 250 − 1
= 450 ± 17,97

Los extremos del intervalo de confianza son $432,03 y $467,97. Es probable que la
media poblacional caiga en este intervalo.

AUTOEVALUACIÓN

Se realizó el mismo estudio del ejemplo anterior y se encontró que 15


de las 40 familias asisten a la iglesia regularmente. Determinar un in-
tervalo de confianza de 95% para la proporción de las familias que
van a la iglesia con frecuencia. ¿Debe usarse el factor de corrección
para poblaciones finitas? ¿Por qué si o por qué no?

TAMAÑO APROPIADO DE LA MUESTRA

Una pregunta frecuente al diseñar un estudio estadístico es ¿Cuántos objetos deben


tomarse en la muestra? Si la muestra es demasiado grande, se desperdicia dinero al
obtener los datos, si la muestra es demasiado pequeña, la conclusión obtenida será
insegura.

El tamaño necesario de la muestra depende de tres factores:

1. El nivel de confianza deseado: las personas que hacen el estudio eligen el nivel de
confianza; los más comúnmente usados son 95% y 99% pero se puede elegir cual-
quier nivel entre 0 y 100%. El nivel de confianza 95% corresponde al z=1,96 y el de
99% al z=2,58. Entre mayor sea el nivel de confianza elegido, mayor será el tamaño
de la muestra correspondiente.
2. El margen de error que el investigador está dispuesto a tolerar (error permitido): el
máximo error permitido se designa con E, es la cantidad que se suma o resta a la
media muestral (o a la proporción muestral) para determinar los extremos del inter-
valo de confianza. Este error corresponde a la mitad de la amplitud del intervalo de
confianza. Si el error permitido es grande, esto permitirá una muestra más pequeña.
3. La variabilidad de la población que se estudia (desviación estándar poblacional) Si
la población está muy dispersa, se requerirá una muestra grande, por el contrario, si
la población está concentrada (es homogénea) el tamaño de muestra requerido se-
86

rá más pequeño. Será necesario usar una estimación de la desviación estándar po-
blacional. A continuación se indican tres sugerencias para obtener esa estimación:
a. Uso de un estudio comparable: se utiliza cuando existe una estimación de la dis-
persión que se obtuvo en otro estudio.
b. Uso de un método basado en el intervalo: para este se necesita conocer o tener
un valor estimado de los valores mayor y menor de la población.
c. Realizar un estudio piloto: es el estudio más utilizado.

La interpretación entre estos tres factores y el tamaño de la muestra se puede expre-


sar en la siguiente fórmula:
𝑠𝑠 𝑧𝑧𝑧𝑧 2
𝐸𝐸 = 𝑧𝑧 → 𝑛𝑛 = � �
√𝑛𝑛 𝐸𝐸

Donde:
n es el tamaño de la muestra
z es el valor normal estándar que corresponde al tamaño de la muestra
s es una estimación de la desviación estándar de la población
E es el máximo error permitido

Como este resultado no siempre es un número entero, se acostumbra a redondearlo al


siguiente entero.

Ejemplo: Un estudiante de administración pública quiere determinar el ingreso medio


mensual de los miembros del consejo ciudadano de una ciudad grande. El error al
estimar la media debe ser inferior a $100 con un nivel de confianza de 95%. El estu-
diante encontró un informe de la Secretaría de Trabajo en el que se estimó que la des-
viación estándar era $1000 ¿De qué tamaño deberá ser la muestra?

El máximo error permitido E es $100. El valor de z para un nivel de confianza de 95%


es 1,96 y el valor estimado de la desviación estándar es de $10000. Sustituyendo es-
tos valores tenemos que el tamaño de la muestra deberá ser:

𝑧𝑧𝑧𝑧 2 1,96 ∗ 1000 2


𝑛𝑛 = � � = � � = 384,16
𝐸𝐸 100

Como el valor obtenido es 384,16 se redondea entonces a 385 como el tamaño de la


muestra que satisface las especificaciones.

Si se quisiera aumentar el nivel de confianza, por ejemplo a 99%, se requerirá una


muestra más grande. El valor de z para 99% es 2,58. Si reemplazamos tenemos:

𝑧𝑧𝑧𝑧 2 2,58 ∗ 1000 2


𝑛𝑛 = � � = � � = 665,64
𝐸𝐸 100

Aquí se recomienda una muestra de 666. Observe qué tanto aumenta el tamaño de la
muestra por el cambio en el nivel de confianza. El aumento de un nivel de confianza
de 95% a 99% ocasiona un aumento de 281 observaciones. Esto podría incrementar
enormemente el costo del estudio, tanto en términos de tiempo como de dinero. Por
tanto se debe ser muy cuidadoso al seleccionar el nivel de confianza.

Ejemplo: En el estudio del ejemplo anterior también se quiere estimar la proporción de


colonias que tienen recolectores de basura privados. El estudiante quiere que la esti-
mación esté dentro del 0,1 de la proporción poblacional, el nivel de confianza deseado
es 90% y no se cuenta con una estimación de la proporción poblacional. ¿De qué ta-
maño deberá ser la muestra?
87

La estimación de la proporción poblacional debe estar dentro del 0,10 por lo que
E=0,10 y el nivel de confianza deseado es 0,90 que corresponde al valor z=1,65. Co-
mo no se cuenta con una estimación de la proporción poblacional, se usa 0,50.

1,65 2
𝑛𝑛 = 0,5 ∗ (1 − 0,5) � � = 68,0625
0,10

El estudiante necesita una muestra de 69 colonias.

También podría gustarte