Secme 22659

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 111

Universidad Autónoma del Estado de México

Centro Universitario UAEMex


Lic. En Relaciones Económicas Internacionales

Unidad de aprendizaje: Estadística Inferencial


(Introducción al Muestreo)

M. En C. Rafael Morales Ibarra

Agosto , 2015
Contenido

I. Introducción . Muestreo Aleatorio


Objetivos Sistemático
Conceptos básicos
Técnicas de muestreo Introducción
Tipos de muestreo Una estimación de μ
a). Probabilístico Limite del error de
b). No probabilísticos estimación
II. Muestreo Aleatorio Simple sin Cálculo de la muestra
reemplazo
Estimación de la media poblacional IV. Muestreo Aleatorio
Estimación del total poblacional
Estimación del tamaño de muestra
irrestricto Replicado
Desigualdad de Chevysheff Estime la proporción (p)
Estimación de una proporción Ejemplo estimación de μ
Cálculo del tamaño de muestra. Ejemplo estimación de (p)
Ejemplo estimación del
III limite de error
Introducción
En un curso tradicional de inferencia estadística se estudia cómo realizar estimaciones
de los parámetros poblacionales, en función de la información disponible en una
muestra, el objetivo de estas notas, es proporcionar la base teórica al estudiante para
poder tener un manejo adecuado de los métodos de muestro más usuales en las
disciplinas económico administrativas y licenciatura en Relaciones Económicas
Internacionales y Economía.

Particularmente nos interesa analizar:


• Como seleccionar la observaciones en una muestra.
• Como proceder en esa selección con muestras pequeñas.

La importancia del muestreo cobra importancia por ser una herramienta fundamental en
la investigación económica y empresarial, dado ayuda a generar datos de poblaciones,
y contrastar hipótesis sobre ellas o realizar descripciones o análisis prospectivos.
La primera parte de este material se detiene en considerar y precisar algunos
conceptos básicos en el estudio del muestreo, la segunda parte se refiere a los métodos
probabilísticos de muestreo; aleatorio simple, sistemático, estratificado y por
conglomerados.

El alumno encontrará las referencias bibliográficas que le permitan adentrarse con una
mayor precisión a la teoría y aplicación de dichas técnicas.
Justificación

El plan de estudios de la licenciatura en Relaciones Económicas internacionales de la UAEMex,


no contempla la materia de muestreo y no obstante una gran parte de los trabajos de
investigación de campo, tareas y trabajos de tesis se fundamentan en información en las que se
requieren técnicas solidas de la aplicación de encuestas.

Por ello, la teoría de la probabilidad y estadística cobra relevancia en descubrir aspectos del
mundo que nos rodea; nos ayuda responder preguntas; nos auxilia a evaluar los riesgos de
generalizar a partir de un conjunto de observaciones. Esta es la esencia de la práctica de la
estadística: hacer afirmaciones probabilísticas sobre las características de un conjunto de
elementos con base en la información que podamos obtener sobre un subconjunto de él.

Por la importancia que esto representa es necesario poner especial atención en la recopilación
de la información y por tanto, en la realización de un buen diseño de muestreo que permita la
representatividad de la población que se estudia, y ello se logra atendiendo estrictamente las
consideraciones teóricas del muestreo.
Objetivo General

• Analizar cómo se realizan las estimaciones de los principales parámetros y el


tamaño de muestra mediante los distintos tipos de muestreo probabilístico.

Objetivos particulares:

• Particularmente nos interesa analizar:


• Cómo seleccionar los elementos u observaciones de una muestra según el tipo de
muestreo empleado.
• Cómo proceder en esa selección y cuál es su tamaño adecuado, cuando se tienen
muestras pequeñas.
• Acompañar la mayoría de las aplicaciones con ejemplos para busca apoyar la
comprensión y entendimiento.
• Impulsar que el alumno emprenda un proyecto en grupo para aplicar lo
aprendido.
2. Conceptos estadísticos básicos

 Muestreo: Proceso mediante el cual un subconjunto de la


población se emplea para realizar inferencias de una
población.
 Población (N): Conjunto total de unidades, objetos,
individuos, cosas, que comparten una característica en común.
 Muestra (n): Parte representativa de la población, debe ser
representativa y reflejar las similitudes y diferencias
encontradas en la población.
 Muestreo estadístico: se basa en el principio de
equiprobabilidad. todos los individuos, elementos, tienen la
misma probabilidad de ser elegidos 
Conceptos estadísticos básicos….

 Marco muestral: listado que identifica a los elementos de la


población objetivo.
 Elemento: cada una de las unidades sobre las que interesa obtener
información.
 Unidad muestral: unidad seleccionada de la población para la
aplicación de la técnica de investigación; contiene los elementos de
la población que pueden formar parte de la muestra.
 Potencia de una prueba; Se refiere a la probabilidad de detectar
diferencias estadísticamente significativas entre las sub poblaciones
analizadas. (Potencia = 1 – Beta).
 Parámetro: característica numérica que proviene de la población.
 Estadístico: Característica numérica que proviene de la muestra.
Conceptos estadísticos básicos….

 Teorema Central del Límite: si el n >30 y si las muestras se


extraen aleatoriamente, el TCL nos dice que la distribución de
muestreo de la media aproximadamente tendrá una
distribución normal con una media igual a la µ y varianza igual
a 2/n.
 Inferencia estadística: Consiste en declarar respecto algún
parámetro poblacional con base en las observaciones hechas
sobre un subconjunto de la población; muestra.
 Intervalo de confianza: intervalo con una determinada
probabilidad de incluir el valor poblacional. Se determina a
partir de los resultados muestrales y .
 Método de muestreo: procedimiento utilizado para seleccionar
de forma representativa las unidades muestrales.
Técnicas de muestreo
 Muestreos probabilístico
• Se conoce la probabilidad de que un elemento sea
elegido para la muestra.
• Apropiados para uso de teoría estadística y
matemática.

 Muestreos no probabilistas
¾ No tiene el carácter de aleatoriedad.
¾ Técnicas de muestreo con tendencia al sesgo.
¾ Ejemplo: Muestreo intencional, casual o incidental,
por conveniencia, bola de nieve.
Tipos de muestreo

Muestreo aleatorio
 Si tenemos una población finita, de la que deseamos
extraer una muestra.
 Si el proceso de extracción garantiza a cada elemento de
la población la misma probabilidad de ser elegido.

• Sin reemplazo
Muestreo • Con reemplazo
aleatorio
Características; Muestreo probabilístico

 Las muestras se seleccionan al azar, no se seleccionan por los


investigadores.
 Cada elemento de la población tiene la misma probabilidad de
ser elegido.
 Se puede conocer el error muestral, el nivel de confianza y el
nivel de precisión de las estimaciones.
 Los resultados se pueden generalizar.
 Es el único método que puede evaluar la representatividad de la
muestra.
 Es más caro que el muestreo no probabilística.
 Es, en general, más lento y complicado que el muestreo no
probabilística.
Fuentes de sesgo
• Las poblaciones objetivo y de estudio pueden diferir en cuanto a
las variables que estudiamos.
• El nivel económico en la población de estudio es mayor que en la
objetivo.
• Los individuos que se eligen en la calle pueden ser de mayor edad
(mayor frecuencia de jubilados p.ej.)…
– En este caso, diremos que las muestras que se elijan estarán sesgadas. Al tipo de
sesgo debido a diferencias sistemáticas entre población objetivo y población de
estudio se denomina sesgo de selección.
• Otras fuentes de sesgo
– No respuesta a encuestas “delicadas”
• Consumo de drogas, violencia doméstica, prácticas poco éticas,…
– Mentir en las preguntas.

• Para evitar este tipo de sesgo se utilizan la técnica de respuesta


aleatorizada.

13
Técnicas de muestreo

Cuando elegimos individuo de una población de estudio para


formar muestras podemos encontrarnos en las siguientes
situaciones:
– Muestreos probabilistas
• Conocemos la probabilidad de que un individuo sea elegido para la
muestra.
• Interesantes para usar estadística matemática con ellos.
– Muestreos no probabilistas
• No se conoce la probabilidad.
• Son muestreos que seguramente esconden sesgos.
• En principio no se pueden extrapolar los resultados a la población.
– A pesar de ello una buena parte de los estudios que se publican usan esta
técnica.

++En adelante vamos a tratar exclusivamente con muestreos


probabilísticos.

14
Muestreo Aleatorio Simple (MAS)

 Procedimiento probabilístico de selección de


muestras más sencillo y conocido.
 Requiere de un marco muestral.
 Asigna un número a cada individuo de la población
 Empleando una técnica aleatoria seleccionar tantos
elementos para integrar la muestra requerida.
 Una condición para emplear este método es que la
población se numerable. finita
 Útil en poblaciones pequeñas.
 Ampliamente utilizado en estudios experimentales.
 Base para el desarrollo de métodos más complejos
(muestreo estratificado y en etapas).
Inconvenientes del MAS

 Su utilización está supeditada a la existencia de un marco


muestral.
 La extracción al azar dispersa totalmente a los componentes de
la muestra.
 No tiene en cuenta criterios de homogeneidad/heterogeneidad
entre conjuntos de elementos del universo.
 Es un método lento, sobre todo cuando el número de
elementos que constituyen el universo objeto de estudio y/o la
muestra es elevado.
Muestreo Aleatorio Sistemático (MASI)

 Técnica que requiere de numerar todos los elementos de la


población, pero en lugar de extraer n-números aleatorios sólo
se extrae uno (k).
 Se parte de este i-esimo número aleatorio, y los elementos
que integran la muestra son los que ocupa los lugares i, i+k,
i+2k, i+3k,...,i+(n-1)k .
 El número i que empleamos como punto de partida será un
número al azar entre 1 y k.
 Tiene más precisión que el MAS, ya que recorre la población
de un modo más uniforme.
Muestreo Aleatorio Estratificado (MAC)

 Se aplica cuando existen ciertos factores (variables,


subpoblaciones o estratos) que pueden influir en el estudio y se
requiere asegurar el tener cierta cantidad mínima de individuos de
cada tipo:

 Hombres y mujeres, pobres y muy pobres, sur y norte,…


 Jóvenes, adultos y ancianos,…

 Se realiza entonces una MAS de los individuos de cada uno de los


estratos.

 Para realizar la inferencias de los resultados, debe tenerse en


cuenta el tamaño relativo del estrato respecto al total poblacional
Muestreo por conglomerados (MAC)

 Se aplica cuando es difícil tener el marco muestral de la


población en estudio, sin embargo, se sabe que se encuentran
agrupados naturalmente en grupos.
 Se eligen varios grupos al azar, y ya elegidos algunos se
estudia a todos los individuos de los grupos elegidos o bien se
puede seguir replicar más muestreos por grupos, por estratos,
aleatorios simples.
 Al igual que en el MAE al extrapolar los resultados a la
población debe tenerse en cuenta el tamaño relativo de unos
grupos con respecto a otros.
 Útil cuando la población se encuentra dispersa. La selección de
la muestra puede requerir varias etapas.
3. Proceso de selección de la muestra

1. Definición de la población objetivo: en términos de contenido, unidades,


extensión y tiempo.
2. Identificar el marco muestral.
3. Determinar el método de muestreo.
4. Determinar el tamaño de la muestra: Considerar los siguientes factores
cualitativos:
 Importancia de la decisión.
 Naturaleza de la investigación.
 Número de variables.
 Naturaleza del análisis.
 Revisión de estudios similares.
 Restricciones de recursos.
 Bibliografía
3. Etapas en la selección de la muestra…

5. Selección material de la muestra: elegir los componentes de


la muestra y localizar físicamente las unidades.
6. Decidir el trato que se ha de dar a la falta de respuestas: la
no respuesta, no se localiza, no sabe contestar o no es
accesible. Para reducir este riesgo de no respuesta hay varios
procedimientos:
 Mejorar el diseño de la investigación para reducir las
negativas.
 Repetir los intentos.
 Rediseñar instrumentos
 Capacitar a los encuestadores
 Estimar los efectos de la falta de respuesta en lo que
respecta a la calidad de la información.
6. Proceso de selección de la muestra….

 Precisión: La selección de una “n” representativa es importante para


todos los investigadores. No obstante, el grado de precisión necesario
o la tolerancia del investigador al error de muestreo y de no muestreo
pueden ser distintos en cada proyecto, sobre todo cuando se busca
reducir precisión por ahorrar costos.
 Recursos: Los costos asociados a las diversas técnicas de muestreo
varían. Si los recursos financieros y humanos del investigador son
restringidos, habrán de eliminarse ciertas opciones.
 Tiempo: El investigador que necesite cumplir con un plazo o
completar un proyecto rápidamente seguramente elegirá un diseño
simple que ocupe poco tiempo.
 Conocimiento previo de la población: disponibilidad del marco
muestral.
 Necesidad de análisis estadístico.
I
Muestreo Aleatorio Simple
(MAS)
Muestreo aleatorio simple (sin reemplazo)

 Método más usado, la condición es p cuando se tiene un marco de


muestreo que especifique la manera de identificar cada unidad en la
población.

 Además no se tiene conocimiento a priori sobre los posibles valores


de Yi ni otras mediciones asociadas a Yi.

 En este caso cada unidad se extrae con igual probabilidad, por


etapas, y sin reemplazo, hasta tener las n unidades de la muestra.
 En la primera extracción, la probabilidad de que se
seleccione una de las n unidades es n .
N
 En la segunda extracción la probabilidad de que se
seleccione una de las restantes n-1 unidades es:
y así sucesivamente. n  1
N 1
 En la selección k, la probabilidad de una unidad l es
.
n  k 1
N  k 1
N
 Para estimar Y   Yi / N se obtiene el
i 1
n
promedio de la muestra: ˆ
y  Y   yi / n
… (1)
i 1

 Este es un estimador insesgado (


E  y   Y , el
promedio de los posibles valores y al tomar
muchas muestras es ).
Y
 La varianza de y es:
2
 S
n y
V ( y)  E  y Y 
2
 1  
 N n
N
1
donde Sy 
2

N  1 i 1
(Yi  Y ) 2

2
 Nótese que si N es infinito, V ( y ) 
S
, y

es el resultado que se obtiene n


para poblaciones infinitas.
 n es la fracción de muestreo o proporción
N de la población que se muestrea, y

 1  n es el factor de corrección por finitud


N (fcf).

 Se puede demostrar que con este proceso de


selección, la probabilidad de que cualquier
unidad ui esté en la muestra es n
i 
y la de que ambas una ui y una uj N
estén en la muestra es  ij  n(n  1)
N ( N  1)
N
• Para estimar el total  Y  NY  Y
i
i

tenemos: ˆ ˆ
Y  NY  Ny

• Además si ˆ~N[ ,V(ˆ, )]entonces:

[ ]
P ˆ  1.96 V(ˆ)    ˆ  1.96 V(ˆ)  0.95
• Si no conocemos V (ˆ) tenemos que estimarla:

[
P ˆ  1.96 V(
ˆ ˆ)    ˆ  1.96 V( ]
ˆ ˆ)  0.95

• En el caso particular del “mas” tenemos:


2
n S
ˆ 
ˆ 
  Y ,   y y V   V  y   1  
 N n
y
 En el caso particular del “mas” tenemos:
2
S
  n y
  Y ,   y y V   V  y   1  
ˆ ˆ
 N n
 
 S 2
S 2 
 n y  n y
P  y  1.96 1-   Y  y  1.96 1-   0.95
  N n  N n 
        
  
 P  y  Y     0.95
 = error absoluto.
 Despejando n de   1.96 V ( y ) se tiene:

  y 2 2
1 1.96 S
n 
 2
1  2

1.96  S y N
2 2
 Recordemos que:
N

 Y  Y 
2
i
E  yi  E ( yi )   E  yi  Y    
2 2 2 i
y
N

 Y  Y 
2
N i
S 
2
 y2 , S y2 
y
N 1  N  1
Estimación del total poblacional ()

 Si lo que se quiere Yˆ  NYˆ  Ny


estimar es Y. Entonces
2
n S
V (Yˆ )  V ( Ny )  N V ( y )  N (1  )
2 2

N n

 2 n  S
2
2 n  S
2

P Yˆ  1.95 N 1    Y  Yˆ  1.95 N 1     0.95
  Nn  Nn 
Tamaño de la muestra

 El valor de S2y ó s2y se estima con una prueba


piloto o bien se “adivina” usando tablas, así como
del conocimiento previo sobre la población.

 Si se considera que y no se ajusta a la distribución


normal, se usa el criterio de fijar la magnitud de la
varianza o del coeficiente de variación de y .

Se determina n para que produzca un coeficiente


de variación dado (CV0) usando estimaciones
“gruesas” de y y de S2y .
1
 2
n S  2

1  
y

V ( y ) 2
1
 Así  N  n 
CV0  
E( y ) Y

Despejando n, se obtiene:

S y2
n 2
S
(CV0 ) Y 
2 2 y

N
Así: y ~N  Y,V  y 

P  y  z V ( y )  Y  y  z V ( y )   1  
 2 2 

si 1    .95

 n S 2
n S 2 
P  y  1.96 (1  )  Y  y  1.96 (1  )   0.95
 N n N n 
Si se desea un tamaño de muestra tal que el error
de estimación sea inferior a  con una probabilidad
de 1-, esto es:

[ ]
P | y  Y |   1   ,   z
2
V ( yˆ )

1
dividiendo entre V  y  2

 y Y  
P 1
 1
  1
 [V ( y )] 2 [V ( y )] 2 
De las tablas de la normal estándar, Z~N(0,1), se
obtiene un valor z/2 tal que

P [ Z  z ]  1
 /2

(z/2 es el valor de Z obtenido en las tablas que


deja un área de /2 a la derecha de él).
y Y
• Como 1
~N (0,1) , hacemos
que V  y  2

y Y
1
V  y  2 sea un valor arbitrario de Z y
que:

  (a)
z / 2  1

V  y  2 S y2  n
1  
n  N
De aquí (a) se despeja n:
1 z2 / 2 S y2
n 
 2
1  2

2 2

z / 2 S y N
si = 0.05 entonces:
2 2
(1.96) S y
n 
 2
2 2
z / 2 S y
Se puede usar n '  como una primera
2
n'
aproximación y luego corregir usandon 
n'
1
N

Si no se puede suponer normalidad de la


distribución del estimador, se recurre a la
desigualdad de Tchebycheff.
Desigualdad de Tchebycheff

Sea U una variable aleatoria con cualquier


distribución y E (U )   , V (U )   2
U U

1
 P  U  U   U   2

1
 P  U  U   U   1  2

1
 P U   U  U  U   U   1 
 2

1
 P  y   V ( y )  Y  y   V ( y )   1  2

1 1
  2 1  .75   3 1  .889
 2
 2

1
  4.4 1   .95
 2
1
  4.4 V ( y )  n  .
(2)
 2
1
2 2

(4.4) S N
En las expresiones anteriores, si tanto  como S
se expresan en por ciento de la media,
 S
 '  100 , CV  100 la expresión (2) se
y y
2 2
transforma a: 1 z / 2 (CV )
n  .
 '  '
2 2
1
2 2

Z / 2 (CV ) N
Si no se supone normalidad para la distribución
de y y con confianza del 95%, por la desigualdad
de Tchebycheff, entonces (2) se transforma a:

2
1 (4.4)(CV )
n 
( ´) 2
1 ( ´) 2

2 2

(4.4) (CV ) N
Estimación de una proporción poblacional (P)

Y(ui) es una medida o indicador de la presencia o


ausencia de una característica en la unidad ui con
valor 1 si la característica está presente y 0 si no
es así. En este caso
Y P = proporción de unidades en la
población
que tienen
N la característica

 i Yi 
Y   P .
 N 
 
 
p  y que es la proporción de unidades en la
muestra con la característica.

El valor de S2y en términos de P resulta:


N

 Y  Y 
2
i
1
S 
2
Y
i
 NP 1  P 
N 1 N 1
N
 P 1  P  ,  2  P (1  P )
N 1
n
con estimador
 y  y 
2

ˆ
i
nPˆ
S y  sy 
2 2 i
 (1  Pˆ ).
n 1 n 1
Con este nuevo valor la expresión resulta:
N
1  P  1 P
n N  1  (4)
 1  P  P CV0 2
CV0  P  
2

 N 1 
Para usar esta expresión, se estima a priori o
con una prueba piloto el valor de P y se fija el
CVo que se desea.
Si utilizamos la desigualdad de Tchebycheff
tenemos:
N
(4.4)2
P(1  P)
1 N  1
n 

 2
1  2

2 N N
(4.4) P(1  P)
N 1
2
(4.4)
4 5
n   2
2

Nótese que si P está cercano a cero, el valor de
n aumenta.

Esto indica que para estimar la proporción de


unidades con una característica rara se
requieren muchas unidades en la muestra.
Esto es lo contrario de lo que sucede si se
usa la aproximación a la normal, en cuyo
caso se usa la expresión (4) con
NP
S 
2
Y 1  P 
N 1
2 2
1 z S y
 n  2
.
 2
1  2

2 2

z S y N
2
Si se quiere conocer P, las Yi son 0 ó 1.

N
S 
2
y P(1  P)  P(1  P)
N 1

z2 / 2 P (1  P )
 n
 2
Si   .05  z  1.96  2 , además como
2

la varianza de P̂ es máxima cuando P = 0.5,


se usa P(1-P)=(.5)(.5)=0.25 como margen de
seguridad
2
2 (.25) 1
 n  
 2
 2
Además, siPˆ ~N ( P, V ( Pˆ )) entonces se
debe reportar el resultado de la estimación
de P con un intervalo de confianza
aproximado dado por:

P  p  1.96 Vˆ ( p)  P  p  1.96 Vˆ ( p)   .95,


 

ˆ  n  ˆ
Np (1  ˆ
p )
V ( pˆ )  1  
 N   N  1 n
Cálculo de “n”
1
 2
n S  2

1  
y
Así 
V ( y ) 2
1
 N  n 
CV0  
E( y ) Y

Despejando n, se obtiene:
2
S y
n
S y2
(CV0 ) 2 Y 2 
N
Si n es "grande” se espera que el teorema Central
del Límite dé una buena aproximación de la
distribución de .
y
Así: y ~N  Y,V  y 

P  y  z V ( y )  Y  y  z V ( y )   1  
 2 2 

si 1    .95

 n S 2
n S 2 
P  y  1.96 (1  )  Y  y  1.96 (1  )   0.95
 N n N n 
Entonces y  Y se distribuye
V ( y )
1
2

aproximadamente como una normal


estandarizada (media cero y varianza uno),
donde
2
 n S
V  y   1  
y

 N n
Si se desea un tamaño de muestra tal que el error
de estimación sea inferior a  con una probabilidad
de 1-, esto es:

[ ]
P | y  Y |   1   ,   z
2
V ( yˆ )
1
diviendo entre V  y  2

 y Y  
P 1
 1
  1
 [V ( y )] 2 [V ( y )] 2 
De las tablas de la normal estándar, Z~N(0,1), se
obtiene un valor z/2 tal que

P [ Z  z ]  1
 /2

(z/2 es el valor de Z obtenido en las tablas que


deja un área de /2 a la derecha de él).
y Y
Como 1
~N (0,1) , hacemos que
V  y  2

y Y
sea un valor arbitrario de Z y
1
V  y 
que:
 
2

  (a)
z / 2  1

V  y  2 S y2  n
1  
n  N
De aquí (a) se despeja n:
2 2
1 z / 2 S y
n 
 2
1  2

2 2

z / 2 S y N
si = 0.05 entonces:

2 2
(1.96) S y
n 
 2
2 2
z / 2 S y
Se puede usar n '  como una primera
2
aproximación y luego corregir usando n'
n
n'
1
N
Si no se puede suponer normalidad de la
distribución del estimador, se recurre a la
desigualdad de Tchebycheff.
1
 P U   U  U  U   U   1 
 2

1
 P  y   V ( y )  Y  y   V ( y )   1  2

1 1
  2 1  .75   3 1  .889
 2
 2

1
  4.4 1   .95
 2
II
Muestreo Aleatorio Sistemático
(MASI)
 Este tipo de muestreo se utiliza mucho
en el control de la calidad en los
procesos de líneas de fabricación en
donde se opera sin interrupciones.

 No es un muestreo probabilístico pero


si representativo del proceso de
producción de la unidades mustrales,
generalmente más acucioso que un
muestreo CA (Complet la Azar) y sobre
todo, más económico.
Muestreo Aleatorio Sistemático (MASI)
Introducción

Como ya se había comentado el MASI, es una técnica en la que se elige


mediante una observación (k) cualquiera al azar, una vez elegida esta se hace
una sucesivamente respetando el intervalo o distancia preestablecido.
Método empleado cuando se desea cubrir el rango de las unidades comprendidas
en la población.

Integración de la muestra:
Se hará de manera sistemática a partir de la primera (k) según el proceso
siguiente.

 Generamos un número aleatorio (R). Obtenga su valor entero comprendido en


el rango de 1 a N.
 A partir de este número se obtiene un cierto valor “k” donde k = N/n Sumamos
k a R para obtener el siguiente número que corresponde a segundo elemento
muestral seleccionado.

 Procedimiento que se repite para cada número seleccionado, recorriendo así


todo el marco muestral de la población.

Nota: Si la secuencia proporciona un elemento muestral fuera del rango, se continúa a partir del límite
inferior del rango de forma tal que se recorra la imagen de los datos poblacionales.
 Para determinar que elementos conforman la muestra, se procede
a asignar un número de identificación a los elementos muestrales.

 Estos serán los elementos que conforman la población.

 mediante números aleatorios se seleccionan uno a uno hasta


completar el tamaño de n.
 Los números aleatorios se pueden generar mediante un software,
calculadora o en última instancia recurrir a las tablas de números
aleatorios.

 En caso de repetirse un número ya escogido se desecha y se


continúa el proceso.

• Nota: si los números aleatorios son generados por computadora o


la calculadora, tendrán valores entre 0 y 1, por lo que deben
multiplicarse por un Número k, tal que proporcione un número
entero.

• Ejemplo. Un investigador desea determinar la calidad del jarabe contenido en la
savia de las árboles. El número total de árboles N es desconocido; par lo tanto es
imposible realizar una muestra irrestricta aleatoria de árboles. Como un
procedimiento alternativo, el investigador decide usar una muestra sistemática de 1-
en-7. Los datos se listan a continuación. Donde el porcentaje del contenido de la
savia en los árboles muestreadas. Emplear los datos para estimar μ, el contenido de
savia promedio de los árboles y establezca un límite para el error de estimación.

• Árbol Contenido de azúcar


• muestreado en la savia, y Y
• 1 82 6724
• 2 76 5776
• 3 83 6889
• . . .
• . . .
• . . .
• 210 84 7056
• 211 80 6400
• 212 79 6241

• Solución
• n

y
 Una estimación de μ esta dada por
i
i 1 17066
y sy    80.5
n 212

 Para encontrar un límite para el error de estimación, primero debemos


calcular
 y  2

S 2

 y2
i
n
i


1486800  170662 212
 535.48
n 1 211

 Intuitivamente, podemos suponer que la población de árboles en la finca


es aleatoria. Según esta suposición la varianza estimada de esta dada por

2 V y   2
sy 2.06  2.9
habiendo realizado la muestra de 1 – en – 7 , conocemos
N. Suponiendo N = 1484 resulta

V y 
s 2  N  n  535.48  1484  212 
sy       2.16
n  N  212  1484 

Un limite aproximado para el error de estimación esta dado


por
2 V y   2 2.06  2.9
sy

 En resumen, estimamos que el promedio de azúcar


contenido en la savia es de 80.5%. Estamos bastante
confiados en que el limite para el error de estimación es
menor de 2.9%.
• Ejemplo 2. Una muestra sistemática de 1 en 6 es obtenida de una lista de votantes
registrados para estimar la proporción de votantes que están a favor de la emisión de
bonos propuesta. Los resultados codificados de esta encuesta de elección previa se
cuestan en la tabla siguiente . Estime la proporción (p) de los N= 5,775 votantes
registrados que están a favor de la emisión de bonos propuesta y obtenga un limite
para el error de estimación.

Votante Respuesta
4 1
10 0
16 1
.
.
.
5760 0
5766 0
5772
----------------
962


I 1
i  652
Solución 962

 La proporción muestral es: y


i 1
i
652
p sy    0.6878
962 962

 Puesto que N es grande y varios puntos de inicio aleatorio fueron


seleccionado en la extracción de la muestra sistemática, podemos suponer
que  
  p sy q sy  N  n 
V ( p sy )   
n 1  N 
 
 Proporciona una buena estimación de V ( p sy )

 El limite de error de estimación es  


  p sy q sy  N  n 
2 V ( p sy )  2  
n 1  N 
 0.6780.322  5775  962 
2     0.028
 961  5775 

 Por lo tanto se estima que 67.8% de los votantes registrados favorecen a la


emisión de bonos propuesta.
 Con un error de estimación menor al 2.8%.
MASI Replicado

 Es el MASI con iteraciones. Es decir, es la selección de más de una


muestra sistemática.

 Por ejemplo:10 muestras sistemáticas de 1 en 50, cada una


conteniendo 6 mediciones, podría ser obtenidas en aproximadamente
en el mismo tiempo que una muestra sistemática de 1 en 5
conteniendo 60 mediciones.

 Ambos procedimientos producen 60 mediciones para estimar la


media poblacional μ. La bondad del procedimiento de muestreo
replicado permite estimar V y sy  al emplear el cuadrado de las
desviaciones de las ns= 10 medias muestrales individuales alrededor
de su media.

 El promedio de las 10 medias muestrales permitirá estimar μ.


Ejemplo 3. Un parque estatal cobra la admisión por automóvil en lugar de por persona, y
un funcionario del parque quiere estimar el numero promedio de personas por automóvil
para un día efectivo en particular durante el verano. El funcionario sabe por experiencia
que entraran al parque alrededor de 400 automóviles y quiere muestrear 80 de ellos. Para
obtener una estimación de la varianza, utiliza el muestreo sistemático replicado con 10
muestras de 8 automóviles de cada una. usando los datos que se presentan en la tabla
adjunta estime el numero promedio de personas por automóvil y establezca un limite para
el error de estimación
Punto de Segundo Tercer Cuarto Quinto Sexto Séptimo Octavo
inicio elemento elemento elemento elemento elemento elemento elemento yi
aleatorio

2(3) 52(4) 102(5) 152(3) 202(6) 252(1) 302(4) 352(4) 3.75

5(5) 55(3) 105(4) 155(2) 205(4) 255(2) 305(3) 355(4) 3.38

13(6) 63(4) 113(6) 163(7) 213(2) 263(3) 313(2) 363(7) 2.88

26(4) 76(5) 126(7) 176(4) 226(2) 276(6) 326(2) 376(6) 4.50

31(7) 81(6) 131(4) 181(4) 231(3) 281(6) 331(7) 381(5) 5.25

35(3) 85(3) 135(2) 185(3) 235(6) 285(5) 335(6) 385(8) 4.50

40(2) 90(6) 140(2) 190(5) 240(5) 290(4) 340(4) 390(5) 4.12

45(2) 95(6) 145(3) 195(6) 245(4) 295(4) 345(5) 395(4) 4.25

46(6) 96(5) 146(4) 196(6) 246(3) 296(3) 346(5) 396(3) 4.38


Solucion
N 400
 Para una muestra sistemática k  5
n 80

por lo tanto para ns= 10 muestras


k’ = 10k = 10(5) = 50
 Los siguientes 10 números aleatorios entre el 1 y el 50 son:
13,35,2,40,26,7,31,45,5,46
Los automóviles con estos números forman los puntos de inicio
aleatorio para las muestras sistemáticas.

 La cantidad y de la tabla es el promedio para la primera hilera, es el


1

promedioy de la segunda hilera, y así sucesivamente. La estimación


2

de μ es 1 n 1
   y i  3.75  3.38  ....  4.38  4.16
s

ns i 1 10

puede establecerse la siguiente identidad 2


ns ns
1  ns 
 y    y    y i 
2 2
i i
i 1 i 1 ns  i 1 
sustituyendo, se obtiene ns
1
 y i    177.410  1733.06  4.104
2

i 1 10


 Varianza estimada de es:



 2 V     4.163  2 0.0365  4.16  0.38
 

 Estimación de μ con un limite para el error de estimación es


ns 2
  

  
  N  n
 
 i 1 
y i   
  400  80   4.104 
V        0.0365
   N  n s n s  1  400   109  

Observe que la mejor estimación del promedio de personas por


automóvil es 4.16. y con un error de estimación menor a 0.38 con
probabilidad de 0.95
III
Muestreo Aleatorio Estratificado
(MAE)
Muestreo Aleatorio Estratificado (MAE)
Características:

 Este tipo de muestreo se utiliza especialmente cuando se


sospecha que la población es heterogénea en cuanto a alguna
característica asociada a las variables de estudio.
 Esto obliga a dividir a la población en subpoblaciones o estratos
de acuerdo a la variabilidad de esta característica, con el objeto
de mejorar las estimaciones.
 Se realiza una MAS de cada una de los estratos.
 Para generar este tipo de muestreo es necesario identificar
dentro de la población cada subpoblación o estrato y luego
realizar una selección aleatoria simple de los elementos al
interior de cada una de estas subpoblaciones.
 Método que permite reducir los costos, es definiendo estrato.
Para conformar los estratos es importantes que los elementos sean
homogéneos en su interior, diferentes entre si en propiedades y tamaño.

Estrato 2

Estrato 1

Estrato 3
Estrato 4
Nota: Los estratos más grandes tendrán mayor probabilidad de
ser representados
Tipos de estratos

1. Afijación uniforme: selecciona la misma cantidad de


elementos en cada uno de los estratos (Ei)

2. Afijación óptima: caso particular del anterior, consiste en


seleccionar la muestra de tal manera que los estrato más
heterogéneos tengan mas casos. Ello requiere conocer la
variabilidad entre estratos.
Afijación uniforme
 Selecciona la misma cantidad de elementos en cada
uno de los estratos (Ei)
 Ajusta convencionalmente los tamaños de los
estratos muestrales para aumentar la eficiencia de la
selección de los grupos más pequeños.
 Esta condición se deberá tener en cuenta al hacer
inferencias (corregir las inferencias).
Muestreo estratificado no proporcional

Ejemplo: estudio comparativo de accesos a servicios de


salud entre personas que viven en municipios o
comunidades pequeñas, medianas y grandes.

• Si MAS, muy poca gente de municipios pequeños.


• Muestras muy pequeñas ⇒ error muestral grande
⇒imposible realizar inferencias y análisis
comparativo.
• Solución, realizar muestreo estratificado con
muestras del mismo tamaño de personas que
viven en municipios pequeños, medianos y
grandes.
1. Afijación proporcional:

 El número de unidades de análisis, seleccionado de


cada estrato, es proporcional al número de elementos en cada
estrato para la población.
 Establece la distribución proporcional del universo y
aplica esta distribución a su tamaño muestral para
conformar estratos en la muestra.
 Se eligen aleatoriamente los elementos al interior de cada
estrato hasta ajustar su tamaño.
 Es mejor que el MAS pues disminuye el error estándar
de la medición muestral.
Muestreo estratificado proporcional
Ejemplo: muestras de estudiantes.
Se sospecha que el genero influye en la respuesta.
Se conoce la proporción de hombres y mujeres en la
población.

Muestreo Estratificado Proporcional

• Calcular numero de hombre y mujeres con la


proporción poblacional.
• MAS de hombres y mujeres.
• Resultado. “Mejor” que la aplicación de MAS
• Error muestral puede ser menor al existente con MAS.
Afijación óptima

 Caso particular del anterior, consiste en seleccionar la muestra


de tal manera que los estrato más heterogéneos tengan mas
casos. Ello requiere conocer la variabilidad entre estratos.

 Selecciona el tamaño de los estratos en función de la


desviación estándar de cada uno de ellos, de tal manera que los
estratos más heterogéneos (mayores varianzas) aporten más
casos a la muestra total.
Ejemplo, suponga que se realiza una encuesta donde a una empresa cuenta con
tiempo y dinero suficientes para entrevistar n= 40 hogares y decide seleccionar m.a de
tamaño n1 =20 del pueblo A, n2 = 8 del pueblo B y n3 = 12 del área rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas.

Los resultados, de mediciones del tiempo en horas por semana que se ve TV se


muestran en las siguientes tablas. (

E1 E2 E3
Región I Región II Región III E1 E2 E3
n1  20
35 28 26 41 27 4 49 10 8 15 21 7 n2  8 n3  12
43 29 32 37 15 41 25 30 14 30 20 11 y  33.900
y 2  25.125 y 3  19.00
36 25 29 31 12 32 34 24 s12  35.358 s 22  232.411 s 32  87.636
39 38 40 45
N 1  155 N 2  62 N 3  93
28 27 35 34

A) Estime el tiempo promedio que se ve televisión, en horas por semana para (a) los
hogares de la Región I y (b) hogares de la Región II.
B). Fije un límite para el error de estimación.
C). Estime .
D). Fije un límite para el error de estimación.
Solución:

A). de los valores de la segunda tabla y usando

 
L
1 1
y st 
N
N1 y1  N 2 y 2  ......  N L y L 
N N y
i 1
i i

 y st 
1
N

N1 y1  N 2 y 2  N 3 y3 
14
310

15533.900  6225.125  9319.000
 27.7
• Es la mejor estimación del número promedio de horas por semana en que en
todos los hogares de la ciudad ve TV.

1
L  2
2  N 1  n1  s1
  1552 0.8735.358 622 0.871232.411 932 0.87187.636
 1
V ( yst )  2
N i 
N i 1  N 1  n1

 3102


 20

8

12


 1.97
• La estimación de la media poblacional, con un limite para el error de
estimación al nivel del 0.95, esta dada por

yst  2 V yst   27.7  2 1.97  27.7  2.8



 Entonces se estima que el número promedio de horas que se ve televisión en
los hogares del ciudad= 27.7 hrs.
 Error de estimación= 2.8 hrs con una probabilidad de 0.95.

B). Las n=8 observaciones del E2 provienen de una MAI, por lo tanto la estimación
del tiempo promedio de ver TV en la Región II, su error de estimación es:

 N  n2  s 22 
y 2  2  2    25.1  2  62  8  232.411   25.1  10.1
 
 N2  n 2   62  8 

 Se observa un límite grande para el error de estimación debido a la presencia


de una varianza amplia y un tamaño de “n” pequeño.
 No obstante, la estimación de µ es buena pero la media del estrato no.
 Por lo tanto, si se desea una estimación para un estrato en particular, su “n”
debe ser lo bastante grande para proporcionar un límite de error de estimación
razonable.
C). Se obtiene:

N y st  310(27.7)  8,587 horas


Con varianza estimada:

 
( y st )  310 1.97   189,278.56
2
V ( N y st )  N V
2

D). Por lo que, la estimación del total del número de horas que la
población dedica a ver TV, con un limite para el error de estimación será:


N y st  2 V (N y st )  8,587  2 189,278.56 
 435.068 x(2)  8,587  870
Ejemplo, de la encuesta anterior sugiere que las varianzas de los estratos del
ejemplo 1 son aproximadamente.

 12  25,  22  225, y ,  32  100


 Estimar µ.
 Obtener un límite en el error de estimación igual a 2 horas

Si las fracciones asignadas son


1 1 1
w1  , w2  y w3 
3 3 3
 Nota suponga que toma un igual número de observaciones para cada Ei.

Solución

 Limite de error de estimación de 2 hrs implica que


2 V (y st ) 2

 V (y st ) 1
 Por lo tanto D = 1
Se sabe que: N 1  155, N 2  62 y N 3  93.
3
N i2 i2 N 12 12 N 22 22 N 32 32
Por lo tanto  i 1
wi

w1

w2

w3


1552 25  622 225  932 100  2402575  3844675  8649300
1 1 1
3 3 3
 6991275
3

N i 1
i  i2  N 1  12  N 2  22  N 3  32  15525  62225  93100  27125

N2 D = 310  1  96100


2

Entonces: L
N i2 i2
i 1
wi 6991275 6991275
n    56.7
L 96100  27125 123225
N 2D  N 
i 1
i i
2

Por lo que se debe tomar n= 57 observaciones distribuidas de la siguiente


manera:
1
n1  nw1   57   19
3
n 2  19
n  19
 Por otra parte, la empresa tiene el interés de estimar la P de hogares
en el ciudad donde se ve el programa X. Recuerde que la Cd. Esta
dividida en tres estratos: E1, E2, y E3.
 Los estratos contienen N1  155, N 2  62 y N 3  93. hogares,
respectivamente. Una muestra aleatoria estratificada de n = 40 se
toma una MIA de cada estrato de la siguente manera: n1  20, n 2  8 y n 3  12.

 Las entrevistas son tomadas en los 40 hogares muestreados; los


resultados se presentan en la siguiente tabla.

pi
a). Estimar de hogares donde se ve el programa X.
b). Fije un límite para el error de estimación.

Ei n Núm. de hogares p
donde se ve el
programa X
1 n1 = 20 16 0.80
2 n2 = 8 2 0.25
3 n3 = 12 6 0.50
Solución

1
pst  310 1550.80  620.25  930.50  0.60

Las varianzas para cada Ei:


   
 
 

   N  ni
  pq
  155  20  0.800.20 
V p  1   N i

 n  1    155 
 1  19
  0.8710.008  0.007

   
    
 
   
    N 2  n 2  pq
  62  8  0.250.75 
V p 2   N 2  n 2  1   62 
 

7
  0.8710.027  0.024

   
 
   
 
   
    N 3  n3  pq
  93  12  0.50.50 
V p  3 


N 3  n 3  1   93 
  
11
  0.8710.023  0.020

   
Entonces la varianza es  

  1   

V st N  V  i   310 155 0.007  62 0.024  93 0.020  0.0045


L 
 p   N 2

p 1
i
2
2
2 2 2

   
i 1

Error de estimación es    
  2 V  pst   20.07  1.4
 
Límite del error de estimación:
0.60  1.4
IV
Muestreo por conglomerados
Muestreo por conglomerados
•A veces muestreo aleatorio simple, sistemático
o estratificado no es posible
•Requieren listas (totales o por estratos)
•En muchos casos: esas listas no existen (o no
son accesibles legalmente)
•Pero sí existen listas de “grupos heterogéneos
de sujetos”, o conglomerados
•Hacemos muestreo aleatorio de conglomerados
•Dentro de los conglomerados elegidos: todos
los elementos, o muestreo aleatorio simple
Ejemplo: estudio sobre estudiantes universitarios
españoles

No hay lista de todos los estudiantes, ni por


estratos
Pero sí: lista de universidades y facultades

Muestreo por conglomerados:

◆Muestreo aleatorio simple de universidades


◆Idem de facultades
◆Idem de grupos
◆Dentro del grupo (ya hay lista): todos, o muestreo aleatorio simple
Solución muy práctica cuando conglomerados definidos
geográficamente: enorme reducción costes extracción
datos (viajes, tiempo, etc...)

Diferencia con estratos:

• Estratos son homogéneos internamente; interesa


conocer diferencias entre estratos

• Conglomerados son heterogéneos internamente; no


interesa particularmente diferencias; es sólo un medio
de tomar datos más económico y simple
Requisitos: los conglomerados lo más
heterogéneos posibles (como la población)
internamente; muy parecidos entre sí.

Esto nunca es del todo así Sobre todo


conglomerados geográficos: gente igual vive
junta (barrios, ciudades).
Resultados: más error muestral que muestra
aleatoria simple
Métodos inferencia: diferentes
V
Muestreo polietápico
Muestreo polietápico
•Combinación de varios métodos de muestreo
•Para poblaciones complejas
•Diferentes pasos en la selección de la muestra que
•usan diferentes métodos

Ejemplo:
◆Municipios de Castilla-La Mancha son conglomerados, pero
heterogéneos entre sí
◆Hacer “estratos de conglomerados” por tamaño de la población, o
por actividad económica dominante
◆Seleccionar aleatoriamente, dentro de cada estrato, un número
de municipios (muestreo estratificado por conglomerados)
Dentro de cada municipio, las manzanas son
conglomerados
Distribuir las manzanas de cada municipio en estratos
por niveles de renta, u otro indicador conocido
Hacer muestreo aleatorio de manzanas en cada
estrato de cada municipio (otra vez: muestreo
estratificado por conglomerados)
En cada manzana hacer un muestreo sistemático
de casas
En cada casa hacer un muestreo aleatorio simple
de los individuos residentes en la casa
Muestreos no probabilísticos
•Aquellos en los que no es posible calcular la probabilidad de las
diferentes muestras
•NO ES POSIBLE aplicar métodos de estadística inferencial cuando
usamos estos muestreos.
•Típico ejemplo: muestra voluntaria

◆Cupón en revista, que pide contestación por correo


◆Oyentes de programa de radio o televisión, a los que se pide que
llamen a un teléfono

★Doble distorsión: el programa y el sentimiento intenso


sobre el tema

NO es una muestra representativa: es una muestra sesgada.


AUNQUE LLAMEN CIENTOS DE MILES DE PERSONAS!!!!
Otro ejemplo: muestreo “de calle”: entrevistador se planta en
una esquina y entrevista a gente que pasa.
Muestra sesgada: lugar, hora, día de la semana, proceso de
“selección” por el entrevistador de a quién parar...

Otro ejemplo: Muestreo de conveniencia: empresa que


encuesta a sus clientes para conocer las opiniones de los
compradores de un producto; sindicato que encuesta a sus
afiliados para conocer opiniones de los trabajadores.

• Todos estos ejemplos: error o sesgo de selección


•NO se pueden aplicar métodos de estadística inferencial
•NO son muestras representativas
VI
No probabilísticos
Muestreo accidental.
• El investigador elige a aquellos individuos que
están a mano.

• No se utilizan ningún criterio especial de


elección.
Muestreo por cuotas.
• Consiste en facilitar al entrevistador el perfil
de las personas:

– Criterio.
– Elección específica.
– Cumplan con el perfíl.

• Se aplica en la última fase del muestreo.


Muestreo intencionado.
• Se basa en una buena estrategia y el buen juicio del
muestreo.
• Frecuentemente se toman elementos que se juzgan
típicos o representativos de la población, suponiendo
que los errores en la selección se compensan unos
con otros.
• Problema: comprobación de si los casos típicos lo son
en realidad, y como afecta a esos casos típicos los
posibles cambios que se producen.
Bibliografía

1. COCHRAN, William. "Técnicas de Muestreo". Compañía Editorial


Continental, S.A. México. 1.985.
2. DOWNIE, M. "Métodos Estadísticos Aplicados". Harper & Row
Publishers INC. México. 1.973
3. LEWIS, Alvin. "Bioestadística". Compañía Editorial Continental,
S.A. México. S/F.
4. NETER y Otros. "Fundamentos de Estadística para Negocios y
Economía". Compañía Editorial Continental, S.A. México. S/F.
5. STEVENSON, William. "Estadística para Administración y
Economía". HARLA. México. 1.981.

También podría gustarte