Secme 22659
Secme 22659
Secme 22659
Agosto , 2015
Contenido
La importancia del muestreo cobra importancia por ser una herramienta fundamental en
la investigación económica y empresarial, dado ayuda a generar datos de poblaciones,
y contrastar hipótesis sobre ellas o realizar descripciones o análisis prospectivos.
La primera parte de este material se detiene en considerar y precisar algunos
conceptos básicos en el estudio del muestreo, la segunda parte se refiere a los métodos
probabilísticos de muestreo; aleatorio simple, sistemático, estratificado y por
conglomerados.
El alumno encontrará las referencias bibliográficas que le permitan adentrarse con una
mayor precisión a la teoría y aplicación de dichas técnicas.
Justificación
Por ello, la teoría de la probabilidad y estadística cobra relevancia en descubrir aspectos del
mundo que nos rodea; nos ayuda responder preguntas; nos auxilia a evaluar los riesgos de
generalizar a partir de un conjunto de observaciones. Esta es la esencia de la práctica de la
estadística: hacer afirmaciones probabilísticas sobre las características de un conjunto de
elementos con base en la información que podamos obtener sobre un subconjunto de él.
Por la importancia que esto representa es necesario poner especial atención en la recopilación
de la información y por tanto, en la realización de un buen diseño de muestreo que permita la
representatividad de la población que se estudia, y ello se logra atendiendo estrictamente las
consideraciones teóricas del muestreo.
Objetivo General
Objetivos particulares:
Muestreos no probabilistas
¾ No tiene el carácter de aleatoriedad.
¾ Técnicas de muestreo con tendencia al sesgo.
¾ Ejemplo: Muestreo intencional, casual o incidental,
por conveniencia, bola de nieve.
Tipos de muestreo
Muestreo aleatorio
Si tenemos una población finita, de la que deseamos
extraer una muestra.
Si el proceso de extracción garantiza a cada elemento de
la población la misma probabilidad de ser elegido.
• Sin reemplazo
Muestreo • Con reemplazo
aleatorio
Características; Muestreo probabilístico
13
Técnicas de muestreo
14
Muestreo Aleatorio Simple (MAS)
2
Nótese que si N es infinito, V ( y )
S
, y
tenemos: ˆ ˆ
Y NY Ny
[ ]
P ˆ 1.96 V(ˆ) ˆ 1.96 V(ˆ) 0.95
• Si no conocemos V (ˆ) tenemos que estimarla:
[
P ˆ 1.96 V(
ˆ ˆ) ˆ 1.96 V( ]
ˆ ˆ) 0.95
y 2 2
1 1.96 S
n
2
1 2
1.96 S y N
2 2
Recordemos que:
N
Y Y
2
i
E yi E ( yi ) E yi Y
2 2 2 i
y
N
Y Y
2
N i
S
2
y2 , S y2
y
N 1 N 1
Estimación del total poblacional ()
N n
2 n S
2
2 n S
2
P Yˆ 1.95 N 1 Y Yˆ 1.95 N 1 0.95
Nn Nn
Tamaño de la muestra
1
y
V ( y ) 2
1
Así N n
CV0
E( y ) Y
Despejando n, se obtiene:
S y2
n 2
S
(CV0 ) Y
2 2 y
N
Así: y ~N Y,V y
P y z V ( y ) Y y z V ( y ) 1
2 2
si 1 .95
n S 2
n S 2
P y 1.96 (1 ) Y y 1.96 (1 ) 0.95
N n N n
Si se desea un tamaño de muestra tal que el error
de estimación sea inferior a con una probabilidad
de 1-, esto es:
[ ]
P | y Y | 1 , z
2
V ( yˆ )
1
dividiendo entre V y 2
y Y
P 1
1
1
[V ( y )] 2 [V ( y )] 2
De las tablas de la normal estándar, Z~N(0,1), se
obtiene un valor z/2 tal que
P [ Z z ] 1
/2
y Y
1
V y 2 sea un valor arbitrario de Z y
que:
(a)
z / 2 1
V y 2 S y2 n
1
n N
De aquí (a) se despeja n:
1 z2 / 2 S y2
n
2
1 2
2 2
z / 2 S y N
si = 0.05 entonces:
2 2
(1.96) S y
n
2
2 2
z / 2 S y
Se puede usar n ' como una primera
2
n'
aproximación y luego corregir usandon
n'
1
N
1
P U U U 2
1
P U U U 1 2
1
P U U U U U 1
2
1
P y V ( y ) Y y V ( y ) 1 2
1 1
2 1 .75 3 1 .889
2
2
1
4.4 1 .95
2
1
4.4 V ( y ) n .
(2)
2
1
2 2
(4.4) S N
En las expresiones anteriores, si tanto como S
se expresan en por ciento de la media,
S
' 100 , CV 100 la expresión (2) se
y y
2 2
transforma a: 1 z / 2 (CV )
n .
' '
2 2
1
2 2
Z / 2 (CV ) N
Si no se supone normalidad para la distribución
de y y con confianza del 95%, por la desigualdad
de Tchebycheff, entonces (2) se transforma a:
2
1 (4.4)(CV )
n
( ´) 2
1 ( ´) 2
2 2
(4.4) (CV ) N
Estimación de una proporción poblacional (P)
Y Y
2
i
1
S
2
Y
i
NP 1 P
N 1 N 1
N
P 1 P , 2 P (1 P )
N 1
n
con estimador
y y
2
ˆ
i
nPˆ
S y sy
2 2 i
(1 Pˆ ).
n 1 n 1
Con este nuevo valor la expresión resulta:
N
1 P 1 P
n N 1 (4)
1 P P CV0 2
CV0 P
2
N 1
Para usar esta expresión, se estima a priori o
con una prueba piloto el valor de P y se fija el
CVo que se desea.
Si utilizamos la desigualdad de Tchebycheff
tenemos:
N
(4.4)2
P(1 P)
1 N 1
n
2
1 2
2 N N
(4.4) P(1 P)
N 1
2
(4.4)
4 5
n 2
2
Nótese que si P está cercano a cero, el valor de
n aumenta.
2 2
z S y N
2
Si se quiere conocer P, las Yi son 0 ó 1.
N
S
2
y P(1 P) P(1 P)
N 1
z2 / 2 P (1 P )
n
2
Si .05 z 1.96 2 , además como
2
ˆ n ˆ
Np (1 ˆ
p )
V ( pˆ ) 1
N N 1 n
Cálculo de “n”
1
2
n S 2
1
y
Así
V ( y ) 2
1
N n
CV0
E( y ) Y
Despejando n, se obtiene:
2
S y
n
S y2
(CV0 ) 2 Y 2
N
Si n es "grande” se espera que el teorema Central
del Límite dé una buena aproximación de la
distribución de .
y
Así: y ~N Y,V y
P y z V ( y ) Y y z V ( y ) 1
2 2
si 1 .95
n S 2
n S 2
P y 1.96 (1 ) Y y 1.96 (1 ) 0.95
N n N n
Entonces y Y se distribuye
V ( y )
1
2
N n
Si se desea un tamaño de muestra tal que el error
de estimación sea inferior a con una probabilidad
de 1-, esto es:
[ ]
P | y Y | 1 , z
2
V ( yˆ )
1
diviendo entre V y 2
y Y
P 1
1
1
[V ( y )] 2 [V ( y )] 2
De las tablas de la normal estándar, Z~N(0,1), se
obtiene un valor z/2 tal que
P [ Z z ] 1
/2
y Y
sea un valor arbitrario de Z y
1
V y
que:
2
(a)
z / 2 1
V y 2 S y2 n
1
n N
De aquí (a) se despeja n:
2 2
1 z / 2 S y
n
2
1 2
2 2
z / 2 S y N
si = 0.05 entonces:
2 2
(1.96) S y
n
2
2 2
z / 2 S y
Se puede usar n ' como una primera
2
aproximación y luego corregir usando n'
n
n'
1
N
Si no se puede suponer normalidad de la
distribución del estimador, se recurre a la
desigualdad de Tchebycheff.
1
P U U U U U 1
2
1
P y V ( y ) Y y V ( y ) 1 2
1 1
2 1 .75 3 1 .889
2
2
1
4.4 1 .95
2
II
Muestreo Aleatorio Sistemático
(MASI)
Este tipo de muestreo se utiliza mucho
en el control de la calidad en los
procesos de líneas de fabricación en
donde se opera sin interrupciones.
Integración de la muestra:
Se hará de manera sistemática a partir de la primera (k) según el proceso
siguiente.
Nota: Si la secuencia proporciona un elemento muestral fuera del rango, se continúa a partir del límite
inferior del rango de forma tal que se recorra la imagen de los datos poblacionales.
Para determinar que elementos conforman la muestra, se procede
a asignar un número de identificación a los elementos muestrales.
y
Una estimación de μ esta dada por
i
i 1 17066
y sy 80.5
n 212
S 2
y2
i
n
i
1486800 170662 212
535.48
n 1 211
2 V y 2
sy 2.06 2.9
habiendo realizado la muestra de 1 – en – 7 , conocemos
N. Suponiendo N = 1484 resulta
V y
s 2 N n 535.48 1484 212
sy 2.16
n N 212 1484
Votante Respuesta
4 1
10 0
16 1
.
.
.
5760 0
5766 0
5772
----------------
962
I 1
i 652
Solución 962
de μ es 1 n 1
y i 3.75 3.38 .... 4.38 4.16
s
ns i 1 10
i 1 10
Varianza estimada de es:
2 V 4.163 2 0.0365 4.16 0.38
N n
i 1
y i
400 80 4.104
V 0.0365
N n s n s 1 400 109
Estrato 2
Estrato 1
Estrato 3
Estrato 4
Nota: Los estratos más grandes tendrán mayor probabilidad de
ser representados
Tipos de estratos
E1 E2 E3
Región I Región II Región III E1 E2 E3
n1 20
35 28 26 41 27 4 49 10 8 15 21 7 n2 8 n3 12
43 29 32 37 15 41 25 30 14 30 20 11 y 33.900
y 2 25.125 y 3 19.00
36 25 29 31 12 32 34 24 s12 35.358 s 22 232.411 s 32 87.636
39 38 40 45
N 1 155 N 2 62 N 3 93
28 27 35 34
A) Estime el tiempo promedio que se ve televisión, en horas por semana para (a) los
hogares de la Región I y (b) hogares de la Región II.
B). Fije un límite para el error de estimación.
C). Estime .
D). Fije un límite para el error de estimación.
Solución:
L
1 1
y st
N
N1 y1 N 2 y 2 ...... N L y L
N N y
i 1
i i
y st
1
N
N1 y1 N 2 y 2 N 3 y3
14
310
15533.900 6225.125 9319.000
27.7
• Es la mejor estimación del número promedio de horas por semana en que en
todos los hogares de la ciudad ve TV.
1
L 2
2 N 1 n1 s1
1552 0.8735.358 622 0.871232.411 932 0.87187.636
1
V ( yst ) 2
N i
N i 1 N 1 n1
3102
20
8
12
1.97
• La estimación de la media poblacional, con un limite para el error de
estimación al nivel del 0.95, esta dada por
B). Las n=8 observaciones del E2 provienen de una MAI, por lo tanto la estimación
del tiempo promedio de ver TV en la Región II, su error de estimación es:
N n2 s 22
y 2 2 2 25.1 2 62 8 232.411 25.1 10.1
N2 n 2 62 8
( y st ) 310 1.97 189,278.56
2
V ( N y st ) N V
2
D). Por lo que, la estimación del total del número de horas que la
población dedica a ver TV, con un limite para el error de estimación será:
N y st 2 V (N y st ) 8,587 2 189,278.56
435.068 x(2) 8,587 870
Ejemplo, de la encuesta anterior sugiere que las varianzas de los estratos del
ejemplo 1 son aproximadamente.
Solución
2 V (y st ) 2
V (y st ) 1
Por lo tanto D = 1
Se sabe que: N 1 155, N 2 62 y N 3 93.
3
N i2 i2 N 12 12 N 22 22 N 32 32
Por lo tanto i 1
wi
w1
w2
w3
1552 25 622 225 932 100 2402575 3844675 8649300
1 1 1
3 3 3
6991275
3
N i 1
i i2 N 1 12 N 2 22 N 3 32 15525 62225 93100 27125
Entonces: L
N i2 i2
i 1
wi 6991275 6991275
n 56.7
L 96100 27125 123225
N 2D N
i 1
i i
2
pi
a). Estimar de hogares donde se ve el programa X.
b). Fije un límite para el error de estimación.
Ei n Núm. de hogares p
donde se ve el
programa X
1 n1 = 20 16 0.80
2 n2 = 8 2 0.25
3 n3 = 12 6 0.50
Solución
1
pst 310 1550.80 620.25 930.50 0.60
1
i 1
Error de estimación es
2 V pst 20.07 1.4
Límite del error de estimación:
0.60 1.4
IV
Muestreo por conglomerados
Muestreo por conglomerados
•A veces muestreo aleatorio simple, sistemático
o estratificado no es posible
•Requieren listas (totales o por estratos)
•En muchos casos: esas listas no existen (o no
son accesibles legalmente)
•Pero sí existen listas de “grupos heterogéneos
de sujetos”, o conglomerados
•Hacemos muestreo aleatorio de conglomerados
•Dentro de los conglomerados elegidos: todos
los elementos, o muestreo aleatorio simple
Ejemplo: estudio sobre estudiantes universitarios
españoles
Ejemplo:
◆Municipios de Castilla-La Mancha son conglomerados, pero
heterogéneos entre sí
◆Hacer “estratos de conglomerados” por tamaño de la población, o
por actividad económica dominante
◆Seleccionar aleatoriamente, dentro de cada estrato, un número
de municipios (muestreo estratificado por conglomerados)
Dentro de cada municipio, las manzanas son
conglomerados
Distribuir las manzanas de cada municipio en estratos
por niveles de renta, u otro indicador conocido
Hacer muestreo aleatorio de manzanas en cada
estrato de cada municipio (otra vez: muestreo
estratificado por conglomerados)
En cada manzana hacer un muestreo sistemático
de casas
En cada casa hacer un muestreo aleatorio simple
de los individuos residentes en la casa
Muestreos no probabilísticos
•Aquellos en los que no es posible calcular la probabilidad de las
diferentes muestras
•NO ES POSIBLE aplicar métodos de estadística inferencial cuando
usamos estos muestreos.
•Típico ejemplo: muestra voluntaria
– Criterio.
– Elección específica.
– Cumplan con el perfíl.