Unidad Iii
Unidad Iii
Como su nombre lo indica, el Muestreo Aleatorio Simple, es el Muestreo más simple o sencillo de
todos los Muestreos Probabilísticos. Asimismo, como lo veremos, es la base en la cual se sustentan
todos los demás Muestreos Probabilísticos.
1. Todos los Elementos (o en su caso las Unidades de Muestreo) de la Población tienen la misma
probabilidad de ser seleccionados en la Muestra aleatoria.
𝑛
⇒ P(Elemento ∈ Muestra) =
𝑁
Esta característica implica que todas las muestras del mismo tamaño “𝑛” tienen la misma
probabilidad de ser seleccionadas:
1
⇒ P(muestra cualquiera) =
(𝑁
𝑛)
Donde: (𝑁
𝑛
) es el número total de muestras posibles en un muestreo sin remplazo
1
Es decir, en aquellas poblaciones cuyos Elementos de Muestreo presentan valores muy similares
con base en la variable objeto de estudio.
Sin embargo, no hay una regla que nos permita determinar cuándo una población deja de ser
homogénea y se convierte en heterogénea o viceversa, así que esto depende del juicio del
investigador.
Fórmula para calcular el tamaño de muestra (𝒏) óptimo para estimar la Media de la Población
(𝜇𝑥 ):
Somos conscientes que en todo estudio de Muestreo se incurre en el Error de Muestreo (𝜀), así
que para determinar el tamaño de muestra (𝑛) es necesario que por adelantado se establezca el
máximo Error de Muestreo que se está dispuesto a aceptar en una investigación. Asimismo, como
el Error de Muestreo es una variable aleatoria (ya que sabemos que depende del Estimador
utilizado para inferir el valor del Parámetro: 𝜀 = 𝑥̅ - 𝜇𝑥 ), entonces también es necesario fijar el
Nivel de Confiabilidad (algunos autores le denominan también “Intervalo de Confianza”, porque
sabemos que éste se obtiene sumándole y restándole el Error de Muestreo al Estimador en
cuestión: ⇒ 𝑥̅ ∓ 𝜀).
Límite del Error de Muestreo, Precisión, Margen de Error o Cota de Error (𝜀):
Es el máximo Error de Muestreo que se está dispuesto a tolerar en un Estudio de Muestreo. Es
decir, es la máxima diferencia entre el valor del Estimador y el valor del Parámetro que se está
dispuesto a aceptar en un Muestreo aleatorio.
2
Recordando el TCL: La media muestral (𝑥̅ ) se distribuye como una Normal cuando la muestra es
𝜎𝑥2
grande con media 𝜇𝑥 y varianza . Es decir, simbólicamente:
𝑛
𝜎𝑥2
v. a. 𝑥̅ ~ N(𝜇𝑥 , 𝑛
) ⇔𝑛→∞
Estandarizando la v. a. 𝑥̅ :
𝑥̅ − 𝜇𝑥̅
⇒ La v. a. Z = 𝜎𝑥̅
……… (1)
Como 𝜇𝑥̅ = 𝜇𝑥 :
𝑥̅ − 𝜇𝑥
⇒ v. a. Z = 𝜎𝑥̅
……… (2)
𝑛 𝑍∝2⁄2
⇒ 𝜎𝑥2
= 𝜀2
Despejando “𝑛”:
𝑍∝2⁄2 𝜎𝑥2
𝑛= 𝜀2
………… (8.a) ← fórmula para calcular “n” con el fin de estimar 𝝁𝒙 en una población
Infinita (en un MAS)
3
En este caso a la Varianza de la media muestral (𝜎𝑥̅2 ) se le agrega el factor de corrección por finitud
(fcf) en la expresión (6.a):
𝜎𝑥2 𝑵−𝒏
⇒ 𝜎𝑥̅2 = (
𝑛 𝑵−𝟏
)……… (6.b)
𝜎𝑥2 𝑁−𝑛 𝜀2
⇒ ( ) =
𝑁−1 𝑛 𝑍∝2⁄2
𝑁−𝑛 (𝑁−1)𝜀 2
⇒ 𝑛
= 𝑍𝛼2⁄2 𝜎𝑥2
𝑁 𝑛 (𝑁−1)𝜀2
⇒ – = 2 𝜎2
𝑛 𝑛 𝑍𝛼 ⁄2 𝑥
𝑁 (𝑁−1)𝜀2
⇒ –1= 2 𝜎2
𝑛 𝑍𝛼 ⁄2 𝑥
𝑁 (𝑁−1)𝜀 2
⇒ 𝑛
= 𝑍𝛼2⁄2 𝜎𝑥2
+1
𝑛 𝑍2⁄ 𝜎𝑥2
⇒ = (𝑁−1)𝜀𝛼2 2
𝑁 + 𝑍∝2⁄2 𝜎𝑥2
Despejando “𝑛”:
𝑁 𝑍2⁄ 𝜎𝑥2
⇒ 𝑛 = (𝑁−1)𝜀2𝛼+2𝑍2 2
∝⁄2 𝜎𝑥
Nota: con el fin de simplificar dicha expresión, supongamos que N – 1 = N (cabe mencionar que en
varios textos de Muestreo se considera este supuesto):
2 2
𝑁 𝑍𝛼 ⁄2 𝜎𝑥
𝑛= ……… (8.b) ← fórmula para calcular “n” con el fin de estimar 𝝁𝒙 en una población
𝑁𝜀 2 + 𝑍∝2⁄2 𝜎𝑥2
Nota: Los Niveles de Confiabilidad más utilizados son también los que usamos en la estimación del
Error de Muestreo y en el Intervalo de Confianza:
4
Ejercicio: Estimar la superficie promedio (𝜇𝑥 ) de los productores de crisantemo de
Tequexquinahuac, Texcoco, Estado de México.
Condiciones deseadas:
1. 95% de confiabilidad: ⇒ 𝑍𝛼⁄2 = 𝑍0.025 = 1.96
2. Margen de Error o Cota de Error: 𝜀 = 120 m2 ⇒ |𝑥̅ - 𝜇𝑥 | ≤ 120
5
24 MACEDONIO VALDEZ MERAZ 1,064
25 MARIO ESPEJEL MIERANDA 208
26 DOMINGO GONZALEZ MERAZ 237
27 DIEGO CARRILLO MARTINEZ 1,775
28 FIDENCIO ESPEJEL RAMIREZ 993
29 ROBERTO HERNANDEZ MERAZ 530
30 ADOLFO PINEDA GUERRERO 990
31 JOSE CASTILLO JUAREZ 1,556
32 JOSE MELENCIO INOCENCIO MERAZ 816
33 PASCAL ORTIZ VALDEZ 2,122
34 ROBERTO NAVA SANCHEZ 731
35 RUBEN PEREZ ESPEJEL 136
36 ELODIA SAANCHEZ ESPEJEL 787
37 EUSTOQUIA NAVA HERNANDEZ 200
38 TELESFORO VALDEZ NAVA 488
39 MIGUEL HERNANDEZ ESPEJEL 195
40 ALEJANDRO AGUILAR ESPEJEL 416
41 EULALIO MENDEZ MONSALVO 1,260
42 GUILLERMO CERVANTES CASTILLO 240
43 JOSE LUIS MENDOZA 810
44 MARIO GUTIERREZ VALDEZ 108
45 JUAN MORALES MARTINEZ 756
46 JOSE LUIS CARRILLO MARTINEZ 600
47 RAUL GONZALEZ VALDEZ 399
48 BRUNO HERNANDEZ ISLAS 300
49 PEDRO SANCHEZ ESPEJEL 480
50 PEDRO MARTINEZ ESPEJEL 480
51 PEDRO CERVANTES BELTRAN 280
52 ELISEO MERAZ HERNANDEZ 986
53 RAYMUNDO MERAZ URIBE 3,337
54 PEDRO ROSA AYALA 592
55 BERNARDINO SANCHEZ CORONA 1,022
56 GUILLERMO SANCHEZ CORONA 766
57 NOE SANCHEZ SANCHEZ 1,235
58 PEDRO SANCHEZ SANCHEZ 1,240
59 AGUSTIN ROSAS GALICIA 990
60 MARIA ZARAGOZA ESPEJEL 240
61 MARCELO CERVANTES ROJAS 600
62 PEDRO SANCHEZ MEJIA 435
63 CRECENCIO ESPEJEL ESPEJEL 977
64 MANUEL FLORES ESPEJEL 176
6
65 MARTIN AYALA RIVERO 1,944
66 GREGORIO SANCHEZ LOPEZ 4,840
67 RAUL VALENCIA SANDOVAL 790
68 HERIBERTO TORRES NAVARRO 795
69 LUIS AYALA HERNANDEZ 575
70 FILIBERTO AYALA HERNANDEZ 1,150
71 CECILIO ROMERO AYALA 468
72 VICTOR ESPEJEL ESPEJEL 576
73 ARNULFO GALVAN MOSQUEDA 300
74 ARNULFO GALVAN FLORES 504
75 ALEJANDRO MOSQUEDA BUENDIA 1,440
76 DANIEL RIVERA BUENDIA 1,920
77 JOAQUIN ROMERO HERNANDEZ 936
78 ESTEBAN HERNANDEZ VELAZQUEZ 890
79 SALVADOR ESPINOZA MIRANDA 540
80 FELIPE ESPEJEL TERRAZAS 390
Calcular el tamaño de muestra (𝑛) apropiado para cumplir con las dos condiciones deseadas:
Nota: Como son 80 productores, entonces es obvio que se trata de una “población finita”
𝑁 𝑍∝2⁄2 𝜎𝑥2
⇒𝑛 = 𝑁𝜀 2 + 𝑍∝2⁄2 𝜎𝑥2
80(1.96)2 𝜎 2
𝑥 80(3.8416) 𝜎 2
𝑥 307.328 𝜎2
𝑥
⇒ 𝑛 = 80(𝟏𝟐𝟎)2 +(1.96)2 𝜎 2 = 80(𝟏𝟒,𝟒𝟎𝟎) +3.8416 𝜎2 = 𝟏′ 𝟏𝟓𝟐,𝟎𝟎𝟎+3.8416 𝜎2
𝑥 𝑥 𝑥
Para tener un valor exacto de la Varianza de la Población (𝜎𝑥2 ) deberíamos realizar un “censo”, es
decir, contar con todos los valores de la variable X (superficie): 𝑋1 , 𝑋2 , 𝑋3 ,…, 𝑋80 . Pero en ese
caso podríamos también calcular el valor exacto de 𝜇𝑥 y por tanto, ya no tendría sentido llevar a
cabo el Estudio de Muestreo. Obviamente, este procedimiento (un censo) sería muy laborioso y
costoso.
Entonces, ¿Cómo le hacemos para contar con un valor sobre 𝜎𝑥2 y que no sea mediante la
aplicación de un censo? Para resolver lo anterior, se puede recurrir a alguna de las siguientes dos
opciones:
a) 1ª. opción: Revisar estudios o investigaciones recientes, sobre el mismo tema y en la misma
región en los cuales se reporte el valor de la Varianza o de la Desviación Estándar; o al menos que
se publique información sobre dicha variable X (la superficie) mediante la cual podamos obtener
una estimación de la varianza.
b) 2ª. opción: Levantar una muestra piloto y a partir de la información de ésta obtener una
estimación de la Varianza Poblacional. (cabe mencionar, que esta es la opción más utilizada).
7
Así que en este problema vamos a levantar una muestra piloto de 12 productores de crisantemo
(Cabe hacer mención que no existe una regla para determinar el tamaño adecuado de la muestra
piloto, así que queda al criterio del investigador).
Pero debe ser una “muestra aleatoria”, así que en este ejercicio nos ubicaremos en la tabla de
números aleatorios en: la fila 81, columna 14, por columna y los últimos dos dígitos (ya que el
número N = 80 tiene 2 dígitos).
Los 12 números aleatorios son los siguientes (vamos a usar la modalidad de números aleatorios,
comenzando por el uno, así que los Elementos de Muestreo quedarían numerados como: 01, 02,
03, …, 80) ⇒ 56, 62, 41, 36, 28, 48, 08, 67, 50, 31, 71, 29 (33, 39, 30) ← añado tres números por si
algún o algunos productores se niegan a responder la encuesta o no se les localiza cuando se lleve
a cabo el estudio o ya no se dedican al cultivo de crisantemo o a lo mejor ya ni existen porque el
Marco de Muestreo no está actualizado, etc.
∴ 𝑛 = 29 productores
Pero, quiero trabajar con un tamaño de muestra más pequeño, por lo que tenemos dos opciones:
1. Disminuir el nivel de confiabilidad, por ejemplo, con un 90%: 𝑍𝛼⁄2 = 𝑍0.05 = 1.65
2. Bajar la precisión en nuestra estimación, es decir, aumentando el valor de la Cota de Error; por
ejemplo, aplicar 𝜀 = 150 m2 ⇒ |𝑥̅ - 𝜇𝑥 | ≤ 150 (en este ejercicio, yo voy aplicar esta última opción)
3. O ambas opciones: modificar la Cota de Error y el Nivel de Confianza simultáneamente
8
51´ 346,462.4 51´346,462.4 51´346,462.4 51´346,462.4
⇒𝑛 = = = = = 21.027…
80 (𝟏𝟓𝟎)2 + 641,830.78 80 (𝟐𝟐,𝟓𝟎𝟎) + 641,830.78 𝟏´𝟖𝟎𝟎,𝟎𝟎𝟎 + 641,830.78 𝟐´ 𝟒𝟒𝟏,𝟖𝟑𝟎
Notas:
1. Cuando el valor de “𝑛” sea un número fraccionario (lo que es muy probable que suceda)
siempre se debe redondear hacia arriba. Porque el tamaño de muestra mínimo para cumplir
cabalmente las dos condiciones deseadas (95% de confiabilidad y 𝜀 = 150 m2) es de 𝒏 = 21.027 y
no de 𝑛 = 21.
Obviamente 𝑛 = 22 es una muestra pequeña y, por tanto, no aplica el TCL para garantizar que la
Media Muestral (𝑥̅ ) se distribuya como una Normal. Así que vamos a suponer que la Población o
sea la v. a. X (en este ejercicio, la superficie cultivada con crisantemo) se distribuye (si no
exactamente, al menos aproximadamente) como una Normal (desde luego en un problema real
habría que verificar el cumplimiento de este supuesto).
Nota:
Con el fin de aprovechar la información recabada en la muestra piloto (puesto que representa
trabajo ya realizado y recursos financieros ya desembolsados), entonces hay que ubicarnos en el
mismo punto de la tabla de números aleatorios y con las mismas condiciones (fila 81, columna 14,
por columna y los últimos dos dígitos).
Los 22 números aleatorios son: 56, 62, 41, 36, 28, 48, 08, 67, 50, 31, 71, 29, 33, 39, 30, 72, 47, 80,
68, 30, 67, 70, 21, 62, 01 (79, 75, 18, 53, 65, 19).
9
18 80 𝑥18 = 390
19 68 𝑥19 = 795
20 70 𝑥20 = 1,150
21 21 𝑥21 = 225
𝒏 = 22 01 𝑥22 = 480
----- 79 ----------
----- 75 Σ𝑥𝑖 = 17,078
----- 18 y
----- 53 2
Σ𝑥𝑖 = 18’169,076
----- 65 ----------
----- 19 ----------
1 1
1) 𝑆𝑥 = 483.6316… y 2) 𝑥̅ = 𝑛 Σ𝑥𝑖 = 22 (17,078) = 776.272…
̅ = 776.3 m2
⇒ 𝒙
Por tanto, se estima que la superficie promedio (𝜇𝑥 ) que cultivan con crisantemo los productores
de Tequexquinahuac es de 776.3 m2. (Obviamente, esta es una estimación puntual).
¿Qué tan buena (o mala) es esta estimación?, es decir ¿qué tan cerca (o alejada) se encuentra
esta estimación (𝑥̅ = 776.3 m2) de la superficie promedio verdadera (𝜇𝑥 ), o sea del Parámetro
poblacional? No sabemos (porque desconocemos el valor exacto de 𝜇𝑥 ), pero confiamos en que
se encuentra cerca, ya que partimos de una confiabilidad de 95% al calcular el tamaño de muestra
(𝑛).
10
Para responder qué tan cerca o alejada se encuentra nuestra estimación (𝑥̅ = 776.3 m2) de la
verdadera superficie promedio (𝜇𝑥 ), entonces vamos a obtener una estimación del Error de
Muestreo (e). Utilicemos también una confiabilidad de 95% (aunque se puede usar un nivel de
confiabilidad distinto al usado para calcular el tamaño de muestra, así que podríamos utilizar un
90%, un 92%, un 97.5%, un 99%, etc.).
⇒ e = 𝑡𝛼,𝑛−1 𝑆𝑥̅
2
𝑆𝑥 𝑵−𝒏 𝟏
⇒ e = 𝑡𝛼,𝑛−1 ( )𝟐
2 √𝑛 𝑵−𝟏
Datos:
d) 𝑡𝛼,𝑛−1 = 𝑡0.025,22−1 = 𝑡0.025,21 = 2.0796; Véase que es un poco mayor que: 𝑍0.025 = 1.96
2
Sustituyendo valores:
∴ e ≃ 183.7 m2
Nota:
Como e = 183.7 m2 resultó mayor que la Cota de Error (es decir, que la máxima diferencia
aceptable entre el valor de 𝑥̅ y el valor de 𝜇𝑥 ), entonces se debe aumentar el tamaño de muestra
hasta que se logre que e ≤ 𝜺 = 150. (Pero nosotros así lo vamos a dejar, ya que incrementé la
muestra hasta 𝑛 = 30 y, aun así, no fue posible cumplir dicha condición).
Interpretación:
Con un 95% de confiabilidad, la diferencia es MENOR o cuando más igual a 183.7 m2 entre la
superficie promedio estimada (𝑥̅ = 776.3 m2) y la superficie promedio verdadera (𝜇𝑥 ) cultivada con
crisantemo por los productores de Tequexquinahuac.
11
Nota:
Como en este ejercicio contamos con la información de la superficie cultivada por todos los
productores de crisantemo, entonces podemos calcular la superficie promedio verdadera (𝜇𝑥 ),
misma que asciende a 854 m2; por lo que el Error de Muestreo verdadero es: 𝜀 = 𝑥̅ - 𝜇𝑥 = 776 – 854
= -78 = |-78| = 78 m2. Error que claramente es inferior al Error de Muestreo máximo calculado de
183.7 m2 al 95%.
El Intervalo de Confianza para la superficie promedio real (𝜇𝑥 ) con un 95% de confiabilidad:
⇒ 𝑥̅ ∓ e
Interpretación:
Con un 95% de confiabilidad, el Intervalo [592.6 m2, 960 m2] contiene a la superficie promedio
cultivada con crisantemo por los productores de Tequexquinahuac de Texcoco, Estado de México.
Interpretación convencional:
Con un 95% de confiabilidad, la superficie promedio cultivada con crisantemo por los productores
de Tequexquinahuac se encuentra entre 592.6 m2 y 960 m2.
Nota:
También véase que el Intervalo [592.6, 960] contiene al Parámetro 𝜇𝑥 = 854 𝑚2
Nota:
Parece que el Error de Muestreo (e) y la longitud del I de C son muy grandes, así que para tener
una estimación (𝑥̅ ) más precisa (más cercana a µ𝑥) deberíamos incrementar el tamaño de muestra.
Así tenemos:
a) e = 183.7 ← muy grande
b) Amplitud del I de C: A = LS – LI = 960 – 592.6 = 367.4 = 2(e) ← demasiado amplio
𝜇𝑥 = ?
⏞
⃡ −𝑒 𝑥̅ = 776 +𝑒 ← con un 95% de confiabilidad
𝜇𝑥 = ?
𝐿𝐼 = 592.6 𝑥̅ = 776.3 𝐿𝑆 = 960 ← con 95% de confiabilidad
12
Conclusión:
Si la diferencia entre 𝑥̅ = 776.3 y 𝜇𝑥 es MENOR o cuando más igual a 183.7 m2 (véase el inciso 1),
entonces eso significa también que el I de C incluye a 𝜇𝑥 (véase el inciso 2). Es decir, si el I de C
incluye a 𝜇𝑥 (véase el inciso 2), entonces, también significa que la diferencia entre 𝑥̅ = 776.3 y el
valor de 𝜇𝑥 (o sea el Error de Muestreo) es MENOR o cuando más igual a 183.7 m2 (véase inciso
1).
Por eso es que se afirma que tanto la interpretación del Error de Muestreo como la del Intervalo
de Confianza conducen a la misma conclusión; por eso en los Estudios de Muestreo únicamente se
reporta el valor del Error de Muestreo (e).
1) Véase gráficamente, cuando la diferencia entre 𝑥̅ y 𝜇𝑥 es mayor al Error de Muestreo estimado (e):
⃡ ⃡− 𝑒 𝑥̅ = 776.3 +𝑒
↑ ↑ ← con un 5%
𝜇𝑥 = ? 𝜇𝑥 = ?
𝐿𝐼 𝑥̅ = 776.3 𝐿𝑆
↑ ↑ ← con un 5%
𝜇𝑥 = ? 𝜇𝑥 = ?
↓ ↓
⇒ 𝜇𝑥 < 592.6 ⇒ 𝜇𝑥 > 960
Conclusión:
Si la diferencia real entre 𝑥̅ y 𝜇𝑥 es mayor que e = 183.7 (véase el inciso 1), entonces también
significa que el Intervalo no incluye a 𝝁𝒙 (véase el inciso 2) y, viceversa. O sea que si el I de C no
incluye a 𝝁𝒙 (véase el inciso 2), entonces también implica que la diferencia entre 𝑥̅ y 𝜇𝑥 es mayor
que e = 183.7 (véase el inciso 1).
Así que nuevamente, ambas interpretaciones (del Error de Muestreo y del Intervalo) conllevan a la
misma conclusión, es decir, en un Estudio de Muestreo es suficiente una sola interpretación.
13
Σ𝑋𝑖 𝑋1 + … +𝑋𝑁 𝐸𝑙 𝑇𝑜𝑡𝑎𝑙 𝜏
𝜇𝑥 = 𝑁
= 𝑁
= 𝑁
=𝑁
𝜏 = 𝑁𝜇𝑥 ………. (9) ← esta es la fórmula del cálculo del Parámetro Total Poblacional. Sustituyendo
𝜇𝑥 por 𝑥̅ , se obtiene el Estimador: Total de la Muestra (𝜏̂ )
Así que el Total Poblacional (𝜏) se estima mediante su Estimador natural, el Total muestral (𝜏̂ ):
Pero como en una Muestreo únicamente obtenemos el Error Estándar estimado (𝑆𝑥̅ ) y no el valor
exacto de 𝜎𝑥̅ ; entonces ya sabemos que lo que se obtiene es una estimación del Error de Muestreo
(e):
𝑒𝑥̅ = (𝑍𝛼 o 𝑡𝛼,𝑛−1 )(𝑆𝑥̅ ) ……….. (16), y sustituyendo la expresión (16) en la (15.b):
2 2
∴ 𝑒𝜏̂ = 𝑁𝑒𝑥̅ ………. (17) ← es la fórmula para el cálculo del Error de Muestreo del Total muestral (o estimado)
14
𝜏̂ ∓ 𝑒𝜏̂ ………. (18.a) ← en forma resumida
a) LI = 𝜏̂ - 𝑒𝜏̂
b) LS = 𝜏̂ + 𝑒𝜏̂
⇒ 𝜏̂ = N𝑥̅
Por tanto, se estima que en Tequexquinahuac se cultivan 6.2 hectáreas con crisantemo
Así que la diferencia entre la superficie total estimada (6.2 Ha) y la superficie total verdadera
cultivada con crisantemo en Tequexquinahuac, Texcoco, Estado de México es MENOR o cuando
más igual 1.5 hectáreas con un 95% de confiabilidad.
2) Obtener el Intervalo de Confianza para la superficie total (𝜏) cultivada con crisantemo al 95%:
⇒ 𝜏̂ ∓ 𝑒𝜏̂
Por lo tanto, se estima que la superficie total cultivada con crisantemo en Tequexquinahuac se
encuentra entre 4.7 y 7.7 hectáreas con un 95% de confiabilidad.
15
3. La Cota de Error deseada: 𝜀
Nota:
Obviamente los dos factores que aparecen en el numerador (𝑍𝛼⁄2 y 𝜎𝑥2 ) tienen una relación
directa y, por el contrario, el factor que aparece en el denominador (𝜀) tiene una relación inversa
con el tamaño de muestra (𝑛).
Así si deseamos:
a) 90% ⇒ 𝑛 = 17
b) 95% ⇒ 𝑛 = 22
c) 99% ⇒ 𝑛 = 31
16
𝑵𝑍𝛼2⁄2 𝜎𝑥2
⇒𝑛 =
𝑵𝜀 2 + 𝑍𝛼2⁄2 𝜎𝑥2
Detectamos que existe un cuarto factor que incide en la determinación del tamaño de la muestra:
el tamaño de la Población (N).
¿Y cómo incide N en el tamaño de la muestra (𝑛)? Vemos que N aparece tanto en el numerador
como en el denominador. Pero el dato de N en el numerador incide completamente en “𝑛”, en
cambio, N en el denominador aparece en uno de los dos términos, por tanto se diluye su efecto en
N, en consecuencia el efecto del dato de N en el numerador impera sobre el que aparece en el
denominador.
Así que al aparecer en el numerador el valor de N de mayor incidencia sobre “𝑛”, entonces se
desprende que se establece una relación directa entre N y el tamaño de la muestra (𝑛).
Lo cual parece lógico, así a menor tamaño de la Población menor tamaño de la muestra y
viceversa, o sea a mayor tamaño de la Población mayor tamaño de muestra.
Notas:
a) Obsérvese que cuando la Población es Infinita se alcanza el tamaño de muestra más grande
posible.
b) Asimismo, véase que el tamaño de la población únicamente incide en el tamaño de la muestra
cuando la Población es finita.
Conclusión:
Por tanto, podemos afirmar que hay tres factores fundamentales que determinan el tamaño de
muestra (el Nivel de Confiabilidad deseado, la Cota de Error deseada y la Variación de la
Población). Y hay un cuarto factor, el tamaño de la población, pero éste incide sólo de manera
marginal en el tamaño de muestra.
Nota:
Cuando estudiemos el Muestreo Aleatorio Estratificado nos daremos cuenta que hay un quinto
factor, a saber el Costo Unitario de Investigación, es decir, el recurso financiero (el dinero).
Nota:
En ciertas situaciones, por ejemplo cuando el tamaño de la Población fluctúa entre 7,000 y 10,000;
no sabemos si dicha Población la tratamos como Finita o Infinita y, por tanto, no sabemos cuál
fórmula utilizar para calcular el tamaño de muestra (si la de Población Infinita o la de Finita).
17
1er. paso: Se calcula el tamaño de muestra (𝑛) como si la Población fuese Infinita: esto, como ya
vimos, garantiza el mayor tamaño de muestra posible:
𝑍𝛼2⁄2 𝜎𝑥2
⇒𝑛 = 𝜀2
a) Si 𝑛⁄𝑁 ≤ 0.05; entonces se concluye que la Población es Infinita y por tanto, se usa el
tamaño de muestra calculado en el primer paso.
b) Si 𝑛⁄𝑁 > 0.05; entonces se concluye que la Población es Finita y por tanto, se procede a
recalcular el tamaño de muestra con base en la fórmula de Población Finita:
𝑁 𝑍𝛼2⁄2 𝜎𝑥2
⇒𝑛 = 𝑁𝜀 2 + 𝑍𝛼2⁄2 𝜎𝑥2
Ya hemos mencionado que uno de los pocos Parámetros que podemos obtener en Variables
Cualitativas es la Proporción.
Derivación de la fórmula para calcular el tamaño de muestra (𝑛) óptimo para estimar la
Proporción de la Población (𝑝):
Recordemos que en la Unidad II también dijimos que los Estadísticos han encontrado que cuando
el tamaño de muestra es grande entonces la Proporción Muestral se distribuye como una
Normal.
𝑝𝑞 𝒑𝒒
⇒ La v. a. 𝑝̂ ~ N(𝑝, 𝑛
) ⇔ 𝑛 → ∞ ⇒ a) 𝝁𝒑̂ = 𝒑 y b) 𝝈𝟐𝒑̂ = 𝒏
Incorporando las dos condiciones deseadas: el Nivel de confiabilidad (1- α) y la Cota de Error: 𝜀 ≤
|𝑝̂ − 𝑝|:
𝜀
⇒ 𝑍𝛼 = 𝜎 ……….. (20)
2 ̂
𝑝
18
Despejando el Error (la desviación) Estándar de la Proporción Muestral (𝜎𝑝̂ ):
𝜀
⇒ 𝜎𝑝̂ = ……… (21)
𝑍𝛼
2
𝑛
a) Primer caso: Si la Población es Infinita (si 𝑁 ≤ 0.05 o si N = ?)
𝑝𝑞
⇒ 𝜎𝑝2̂ = 𝑛
………. (23.a)
Despejando 𝑛:
2
𝑍𝛼 ⁄2 𝑝𝑞
𝑛= ………….. (24.a) ← fórmula para calcular “n” con el fin de estimar p en una población
𝜀2
Infinita (en un MAS)
En este caso a la Varianza de la Proporción Muestral (𝜎𝑝2̂ ) hay que agregarle el fcf:
𝑝𝑞 𝑵−𝒏
⇒ 𝜎𝑝2̂ = ( ) ……….. (23.b)
𝑛 𝑵−𝟏
𝑁−𝑛 𝑝𝑞 𝜺𝟐
⇒ =
𝑛 𝑁−1 𝒁𝟐∝⁄𝟐
Despejando 𝑛:
𝑁𝑍2⁄ 𝑝𝑞
⇒ 𝑛 = (𝑁−1)𝜀2𝛼+2𝑍2
𝛼⁄2 𝑝𝑞
19
𝑁 𝑍𝛼2⁄2 𝑝𝑞
𝑛= 𝑁𝜀 2 + 𝑍𝛼2⁄2 𝑝𝑞
……….. (24.b) ← fórmula para calcular “n” con el fin de estimar p en una
población
finita (en un MAS)
Nota: Se puede constatar que estas fórmulas (24.a y 24.b) son muy similares a sus
correspondientes cuando se desea estimar la Media (𝜇𝑥 ) y únicamente difieren en que el factor
“pq” se reemplaza por la Varianza de la Población (𝝈𝟐𝒙 ).
𝒑𝒒 𝝈𝟐𝒙
Lo cual se debe a que: 𝜎𝑝2̂ = 𝑛
versus 𝜎𝑥̅2 = 𝑛
; por lo tanto, nótese que ambas Varianzas
difieren sólo en el numerador.
Ejercicio:
Estimar la Proporción (o el porcentaje) de alumnas en la generación de 5o. año de la DICEA. O sea
aplicar un “Muestreo de Atributos”.
Condiciones deseadas:
1) 95% de Confiabilidad
2) Cota de Error: 𝜀 = 5% = 0.05 ⇒ |𝑝̂ − 𝑝| ≤ 0.05 o 5%
No. NOMBRE
1 AGUILAR RAMÍREZ ADCEL GUADALUPE
2 ALBARRÁN CASANOVA NAOMI LILIANA
3 ANDREU MARCOS OSCAR
4 BARRIOS GARCÍA GRISELDA SOLEDAD
5 CANDELARIO DAMASO ELSA
6 CETINA CHEL EFRAÍN VIDAL
7 CORTEZ PINEDA AZUL DAYANA
8 CRUZ SANTOS JOSELINE
9 ESCALANTE ESPARZA TANIA MELISA
10 ESPINOSA ZAVALA MARIO ERNESTO
11 FIERRO CORTES SELENE
12 GARCÍA VALDEZ CLAUDIA ITZEL
13 GUZMÁN GARCÍA JOSÉ MANUEL
14 HERNÁNDEZ LEÓN LORENA ESTEPHANIA
15 IGNACIO HERNÁNDEZ ROSENDA
16 LÓPEZ ORTIZ DYLAN KRISTOFF
17 MARTÍNEZ GONZÁLEZ ARHALY
20
18 MARTÍNEZ MUÑOZ IRVIN
19 MARTÍNEZ ZARAGOZA DALIA GUADALUPE
20 MIRANDA JIMÉNEZ JAIR
21 ORTEGA DOMÍNGUEZ NOEMÍ
22 PACHECO OLIVARES LUIS EDUARDO
23 PERALTA NEQUIZ SERGIO ADÁN
24 PÉREZ HERNÁNDEZ JOSELYN LIZETH
25 PINEDA LUVIANO EDWIN
26 RAMÍREZ GARCÍA LENIN MIGUEL
27 ROJAS MARTÍNEZ DAYRA AURORA
28 SÁNCHEZ LÓPEZ CARMEN
29 SANTIAGO CRUZ ISAIAS
30 VALENCIA GÓMEZ QUETZALLI
31 ZEPEDA NAVARRETE PERLA RAQUEL
21
54 ORTEGA MARTÍNEZ MARÍA DOLORES
55 PACHECO VIZCAINO SANDRA LUZ
56 PÉREZ CONTRERAS YANELI RUBÍ
57 PÉREZ SILVANO ZITLALLI ISAMAR
58 RAMÍREZ BAUTISTA LUIS DONALDO
59 REYES ÁLVAREZ LARISSA DANIELA
60 RUIZ GARCÍA CAROLINA
61 VEGA VEGA HORACIO
62 VENADO LÓPEZ JULIETA ARIANNE
63 VIVEROS SALAZAR MARÍA CELIA
22
91 TORRES VALERIANO MAURICIO
92 VELÁZQUEZ ARTEAGA TANIA
93 YESCAS VILLEGAS JOSÉ YUVANEL
23
127 CASTRO MORALES DIEGO
128 CERVANTES CARPIO LESLY GUADALUPE
129 CHÁVEZ ARAMBULA ERNESTO
130 CORDOBA MEZA FRANCISCO JAVIER
131 CRISTOBAL BAUTISTA RICARDO
132 DELGADO VIVAR DIANA AKETZALI
133 FERNÁNDEZ ARREOLA GABRIELA
134 GALINDO VICUÑA JUAN CARLOS
135 GONZÁLEZ GALLARDO SHECCID GUADALUPE
136 GONZÁLEZ REYES CLAUDIA JOHANNY
137 GRANADOS CRUZ ISRAEL
138 GUZMÁN PÉREZ DANIELA GUADALUPE
139 HERNÁNDEZ TORRESCANO RENÉ JAVIER
140 JERÓNIMO JIMÉNEZ ARACELI
141 LAUREANO NAVA JORGE LUIS
142 MÁRQUEZ CARREÓN DIANA ISABEL
143 MORENO TORRES MONSERRAT
144 NIETO MUÑOZ ERICK DANIEL
145 PÉREZ ANAYA JACQUELINE
146 PÉREZ JUSTO ALDO RENÉ
147 RAMÍREZ TORRES CHRISTIAN
148 RIVERA SANTIAGO HILDA
149 SOSA MÁRQUEZ NAYELI
150 VELÁZQUEZ ROSALES ALBERTO
24
164 HERNÁNDEZ SANTIAGO MONTZERRAT
165 HERNÁNDEZ SOLANO FATIMA ELIN
166 JAIMES MONTES DE OCA DIANA LAURA
167 JERÓNIMO SANTIAGO DANIEL
168 LÓPEZ GARCÍA LUZ MARELIA
169 MORA MÉNDEZ FLORIBERTO
170 NICOLAS JULIAN ERNESTO
171 ORTIZ SORIANO BEATRÍZ
172 PÉREZ CASTRO ITZI
173 PLATAS YEPEZ DIEGO CHAPINGO
174 RIOS AVENDAÑO MILKA JASIVE
175 RÍOS GURROLA KARINA LIZETH
176 ROLDAN CABRERA FRIDA
177 ROMERO GONZÁLEZ ALEJANDRO
178 ROMERO SOLÍS DANIELA LARISSA
179 SANTIAGO SANTIAGO DANIEL ALEJANDRO
180 SEGOVIA PÉREZ YUREL JUANA
181 VÁLDEZ CENICEROS DANIEL ISAAC
25
200 NARVÁEZ EUCARIO EDGAR JARED
201 RAMÍREZ LIZCANO OMAR
202 RAMÍREZ VÁSQUEZ CARMELITA
203 RODRÍGUEZ FLORES JUAN FELIPE
204 ROSAS RODRÍGUEZ JOSHUA ABAD
205 SALVADOR NÚÑEZ ADRIANA
206 SÁNCHEZ CAMACHO ITZEL EVELYN
207 SÁNCHEZ LÓPEZ VERONICA
208 SEGOVIA YÁÑEZ MICHELL ABIGAIL
209 TEMOXTLE PANZO LORENA
26
⇒ N = 236 alumnos en 5º. año de la DICEA
Vamos a utilizar la modalidad de numeración que hemos venido usando, es decir, iniciando a
partir del número uno. ¿Cuántos dígitos se deben utilizar?: como el número 2 3 6 tiene tres
dígitos, entonces se deben usar números aleatorios con tres dígitos, a saber: 001, 002,…, 010,
011,…, 099, 100,…, 204, 236.
𝑁 𝑍𝛼2⁄2 𝑝𝑞
⇒ 𝑛= 𝑁𝜀 2 + 𝑍𝛼2⁄2 𝑝𝑞
Nuevamente, como en el caso del cálculo de “𝑛” para la Media (𝜇𝑥 ), nos enfrentamos que en la
fórmula de “𝑛” aparece un Parámetro y, no solo eso, sino que en este caso necesitamos conocer el
propio Parámetro que deseamos estimar en este Estudio de Muestreo, o sea la Proporción
Poblacional (p). Pero ya dijimos que no vamos a llevar a cabo un Censo sino un Muestreo.
Entonces, ¿Qué hacemos para contar con un valor de la Proporción Población (p)?. Casi lo mismo
que hacemos en el caso de la Media de la Población (𝜇𝑥 ).
a) 1ª. opción: Revisar estudios o investigaciones recientes, sobre el mismo tema y en la misma
región en los cuales se reporte el valor de la Proporción de la Población; o al menos que se
publique información sobre variable 𝑋 mediante la cual podamos obtener una estimación sobre la
Proporción.
b) 2ª. opción: Levantar una muestra piloto y a partir de la información de ésta obtener una
estimación de la Proporción Poblacional. (Cabe mencionar, que esta es la opción más utilizada).
Nota: véase que estas dos opciones son las mismas que se usan cuando se desea estimar la Media
c) 3ª. opción: Asignarle a la Proporción el valor de 0.5 y esto nos conduce al tamaño de muestra
máximo posible, así que cualquier valor de “p” distinto a 0.5 da lugar a una muestra más pequeña.
Nota:
27
Recordemos que la Varianza de la Proporción Muestral (𝜎𝑝2̂ ) es (en el caso de una Población
Infinita):
𝑝𝑞
⇒ 𝜎𝑝2̂ = 𝑛
Entonces, 𝜎𝑝2̂ depende directamente del valor de “𝑝”, y también se puede verificar que cuando p =
̂ . Por eso a esta alternativa se le conoce como
0.5, se alcanza el valor máximo de la Varianza de 𝒑
el Muestreo de Atributos de Máxima Varianza o variación máxima.
p q = 1- p pq
0.1 0.9 0.09
0.3 0.7 0.21
0.47 0.53 0.2491
0.5 0.5 0.25
0.6 0.4 0.24
0.8 0.2 0.16
0.9 0.1 0.09
Nota:
Retomando nuestra tarea pendiente de calcular el tamaño de la muestra (𝑛). Vamos a obtener una
estimación de “𝑝” con base en la información de una muestra piloto de 20 alumnos: ⇒ 𝑛’ = 20 y
desde luego debe ser una muestra aleatoria. Así que ahora nos vamos a ubicar en la fila 96,
columna 4, por fila y los tres últimos dígitos.
Los 20 números aleatorios son: 136, 180, 092, 098, 003, 017, 204, 202, 203, 098, 183, 216, 053,
036, 199, 132, 011, 011, 179, 194, 207 y 198
No. Número
aleatorio Nombre Sexo 𝑥
1 136 González Reyes Claudia Johanny F 1
2 180 Segovia Pérez Yurel Juana F 2
3 092 Velázquez Arteaga Tania F 3
4 098 Camargo Mendoza Carlos Rubén M ----
5 003 Andreu Marcos Oscar M ----
6 017 Martínez González Arhaly F 4
7 204 Rosas Rodríguez Joshua Abad M ----
8 202 Ramírez Vásquez Carmelita F 5
9 203 Rodríguez Flores Juan Felipe M ----
10 183 Amador Tzapot Rosalinda F 6
11 216 Hernández Hernández Cristian Alexander M ----
12 053 Mortera Vergara Mairim F 7
13 036 Cedeño Zúñiga Alejandra Guadalupe F 8
14 199 Mejía Cruz Ángel Daniel M ----
28
15 132 Delgado Vivar Diana Aketzali F 9
16 011 Fierro Cortes Selene F 10
17 179 Santiago Santiago Daniel Alejandro M ----
18 194 Herrera Ozuna Amairany F 11
′
19 207 Sánchez López Verónica F 𝒙 = 12
𝒏’ = 20 198 Lucero Uribe Jonathan M ----
𝑛 = 144 alumnos ⇒ entrevistar a muchos alumnos de un total de 236, es decir, al 61% de ellos
Nota:
Si a la proporción Poblacional (𝑝) le asignamos el valor de 0.5, es decir, suponiendo “máxima
variación” de la población, entonces el tamaño de muestra sería:
Nota:
Si ahora adoptamos una Cota de Error (𝜀) de 12%, o sea una condición menos exigente en nuestra
estimación, entonces:
⇒ 𝑛 = 51 alumnos (aun así, para un ejercicio de clase es algo laborioso, sobre todo para generar
los números aleatorios). Así que voy a disminuir el Nivel de Confiabilidad a un 90%, es decir,
también adoptaremos una postura menos exigente que al 95%:
Nota:
Finalmente, las condiciones deseadas utilizadas serán:
1) Nivel de Confiabilidad o un intervalo de confianza de: 90% ⇒ 𝑍𝛼⁄2 = 𝑍0.05 = 1.65
2) Precisión o Cota de Error: 𝜀 = 12% = 0.12 ⇒ |𝑝̂ − 𝑝| ≤ 0.12 o 12% ⇒ un Margen de Error
demasiado grande, ya les he mencionado que en los procesos electorales se utiliza un 𝜀 = 2.5% =
0.025
𝑁 𝑍𝛼2⁄2 𝑝𝑞
⇒ 𝑛= 𝑁𝜀 2 + 𝑍𝛼2⁄2 𝑝𝑞
29
∴ 𝑛 = 39 alumnos ← esta es la muestra definitiva (recordemos que para realizar inferencias sobre
la Proporción Poblacional necesariamente la muestra debe ser grande: 𝑛 ≥ 30).
Nota: como ya tenemos 20 alumnos en la muestra piloto, entonces únicamente vamos añadir
diecinueve y para que concuerden los primeros 20 números aleatorios, entonces debemos
ubicarnos nuevamente en la fila 96, columna 4, por fila y los últimos dígitos.
Así los 39 números aleatorios son: 136, 180, 092, 098, 003, 017, 204, 202, 203, 098, 183, 216, 053,
036, 199, 132, 011, 011, 179, 194, 207, 198, 095, 174, 130, 179, 081, 167, 093, 004, 121, 110, 008,
053, 016, 194, 013, 213, 069, 014, 045, 103 y 060
30
32 016 López Ortiz Dylan Kristoff M ----
33 013 Guzmán García José Manuel M ----
34 213 Espinosa Martínez Prisma Yaret F 20
35 069 Castillo Garrido Luis Felipe M ----
36 014 Hernández León Lorena Estephania F 21
37 045 Hernández Durán Oscar Arturo M ----
38 103 Galán Hernández Jesús Alejandro M ----
𝒏 = 39 060 Ruiz García Carolina F 𝒙 = 22
En consecuencia:
𝑥 22
𝑝̂ = ⇒ 𝑝̂ = = 0.56410… (Redondeando el resultado a 3 decimales para que expresado en
𝑛 39
porcentaje quede con un solo decimal)
̂ = 0.564 = 56.4% 𝑒𝑠𝑡𝑖𝑚𝑎 𝑎: 𝑝 = ? ← Desde luego, la Proporción real de alumnas sigue siendo una
𝒑
incógnita y ya sabemos que para conocer su valor exacto deberíamos implementar un Censo, o
sea estudiar a cada uno de los 236 estudiantes de 5º. año de la DICEA.
⇒ Así que estimamos que un 56.4% de la matrícula de la generación de 5º. año de la DICEA son
alumnas.
También ya hemos mencionado que lo más seguro es que esta estimación de 56.4% difiere de la
Proporción verdadera de alumnas (p) porque nuestro resultado lo estamos basando en una
muestra (o fracción) de la Población.
Así que vamos a obtener una estimación del Error de Muestreo (e) también al 90% para comparar
el valor de éste con la Cota de Error prestablecida del 12%:
⇒ e = 𝑍𝛼 𝑆𝑝̂ ← como es una Población Finita (y si tenemos alguna duda, entonces obtenemos la
2
fracción de muestreo: 𝑛⁄𝑁 = 39⁄236 = 0.165 > 0.05); asimismo, significa que la muestra
representa el 16.5% de la población (y, por tanto, estamos dejando fuera del estudio de muestreo
al 83.5% de los alumnos de la generación de 5º. año): ⇒ incorporar el fcf en el cálculo del Error
Estándar (𝑆𝑝̂ ).
𝑝̂𝑞̂ 𝑵−𝒏
⇒ 𝑆𝑝2̂ = [ 𝑛 ][𝑵−𝟏]
Cuyos valores son: a) 𝑝̂ = 56.4%; b) 𝑞̂ = 43.6% (que en este caso significa la proporción de
alumnos); c) N = 236 y d) 𝑛 = 39
56.4(43.6) 236−39 2,459.04 197
⇒ 𝑆𝑝2̂ = [ 39
][ 236 −1 ] =[ 39
][235] = 63.05230769(0.838297872) = 52.8566…%2
1
∴ 𝑆𝑝̂ = [52.8566…%2 ]2 ≃ 7.270255%
31
⇒ e = 𝑍0.05 𝑆𝑝̂ = 1.65 (7.270255%) = 11.9959…% (redondeando a un decimal)
∴ e = 12%
Nota: como e = 12% ≡ 𝜀 = 12%, entonces nos encontramos justamente en el límite deseado del
Error de Muestreo por lo que no hay necesidad de incrementar el tamaño de la muestra como en
el ejercicio anterior.
Simbólicamente:
|𝑝̂ = 56.4% − 𝑝| ≤ 12% ← con un 90%
Por lo tanto, existe una probabilidad de 10% que esa diferencia sea superior a 12%, sin embargo,
esta probabilidad es relativamente pequeña.
Nota:
Como contamos con la información de los 236 alumnos, entonces podemos calcular el valor
exacto de la Proporción verdadera (𝑝). Se puede constatar que 𝑋 = 133 y N = 236 ⇒ 𝑝 =
133⁄236 = 56.36%, por lo tanto, nuestra estimación de 56.41% difiere apenas en 0.05% de ese
valor real. Es decir, nuestra estimación, en realidad, es una estimación sumamente precisa del
Parámetro. Por lo que el Error de Muestreo verdadero es de apenas: 𝜀 = 𝑝̂ – 𝑝 = 56.41 – 56.36 =
0.05%.
⇒ 𝑝̂ ∓ e
32
∴ P(44.4% ≤ 𝑝 ≤ 68.4%) = 90% ⇒ Amplitud = 68.4 – 44.4 = 24% ⇒ una anchura muy grande y
véase que es dos veces el Error de Muestreo: 2(e) = 2(12%) = 24%, como ya lo hemos mencionado
previamente. Por lo que si el Error de Muestreo es grande también lo será la amplitud del I de C y
viceversa.
Conclusión: Por eso es que muchas investigaciones de Mercado se basan en una muestra de al
menos 400 cuestionarios o entrevistas sobre los miembros de la población de interés.
Nota: Si consideramos que en las encuestas de los procesos electorales se proponen una Precisión
en sus estimaciones de 2.5% o 0.025: ⇒ |𝑝̂ − 𝑝| ≤ 2.5%
2
𝑍𝛼 ⁄2 𝑝𝑞 (2)2 (0.5)(0.5) 1
⇒n= = = = 1,600 ← con una muestra de al menos 1,600 electores, las
𝜀2 (0.025)2 0.000625
empresas encuestadoras obtienen sus estimaciones sobre las preferencias de la ciudadanía
mexicana sobre los candidatos de los distintos partidos.
33