Distribución de Muestreo para Pedagogía
Distribución de Muestreo para Pedagogía
Distribución de Muestreo para Pedagogía
Muestreo y distribuciones en el
muestreo
1.1. INTRODUCCIÓN
Anteriormente hemos estudiado conceptos fundamentales, como eran el concepto de variable
aleatoria y su distribución de probabilidades, estudiamos diferentes modelos de distribuciones
tanto de tipo discreto como de tipo continuo y analizábamos sus características básicas (media,
varianza, etc.). A partir de ahora estaremos interesados en saber qué modelo sigue la población,
y para ello nos basaremos en la información que se obtenga de un subconjunto o parte de esa
población que llamaremos muestra.
Cuando realizamos una introducción general de la estadística decimos que uno de los objeti-
vos fundamentales es el obtener conclusiones basándonos en los datos que se han observado, pro-
ceso que se conoce con el nombre de inferencia estadística, es decir utilizando la información
que nos proporciona una muestra de la población se obtienen conclusiones o se infieren valores
sobre características poblacionales.
En este capítulo daremos una serie de conceptos básicos que serán fundamentales para el
desarrollo posterior de la inferencia estadística.
seleccionar un elemento concreto será: 1 . Vemos pues que en el muestreo con reempla-
N –1
zamiento la probabilidad de seleccionar uno a uno los n elementos de la muestra permanece
constante y en el muestreo sin reemplazamiento no sucede lo mismo ya que en cada extracción
no se devuelve el elemento a la población y ésta va disminuyendo a medida que se selecciona la
muestra, siendo los tamaños poblacionales N , N – 1, N – 2, …, N – (n – 1).
1ª 2ª nª
…
extracción extracción extracción
1 1 1
Muestreo con reemplazamiento …
N N N
1 1 1
Muestreo sin reemplazamiento …
N N –1 N – n +1
Al ser las variables aleatorias X1, X2, …, Xn independientes, resulta que la función de distribución
conjunta será igual al producto de las funciones de distribución marginales, es decir:
n
F ( x1 , ..., xn ) = ∏ F ( xi )
i =1
n n
P ( X 1 = x1 , ..., X n = xn ) = ∏ P ( X = xi ) = ∏ Pi
i =1 i =1
1
En lo sucesivo y si no indicamos lo contrario, las muestras que utilizaremos serán aleatorias simples, aunque a
veces por abreviar digamos simplemente muestra aleatoria.
n
f ( x1 , …, xn ) = ∏ f ( xi )
i =1
– ax
f (x) =
{ae
0
x>0
x≤0
pero esta función de densidad no estará totalmente descrita hasta que no se dé el valor del pará-
metro a, y entonces será cuando podremos formular preguntas concretas sobre esa distribución,
es decir, podremos calcular las diferentes probabilidades.
Si la característica a investigar sigue una distribución normal, N(μ, σ), cuya función de
densidad es:
1 ( x – µ )2
1 – ·
f ( x) = σ2
2
e
σ 2
observamos que aparecen dos parámetros μ y σ, que no se han especificado, y para describir
totalmente la función de densidad tendremos que dar valores a los dos parámetros μ y σ, pues si
damos valor a un solo parámetro entonces diremos que está descrita parcialmente.
En la mayoría de los modelos probabilísticos nos encontraremos parámetros cuyos valores
tendremos que fijar para especificar completamente el modelo y poder calcular las probabilida-
des deseadas2. De manera más concreta podemos decir que uno de los problemas centrales en
estadística se nos presenta cuando deseamos estudiar una población con función de distribución
F(x, θ), donde la forma de la función de distribución es conocida pero depende de un parámetro θ
En la Estadística clásica un parámetro se puede considerar como una constante fija cuyo valor se desconoce.
2
g (X X + ... + X
1 1 , ..., X )=
n
1
n
n
X X
2 2
+ ... +
g (X
2 1 , ..., X )=
n
1
n
n
(X – X ) (X – X )
2 2
+ ... +
g (X
3 1 , ..., X )=
n
1
n
n
T = g(X1, …, Xn)
es decir, como una función g de las observaciones muestrales, que a su vez será también una va-
riable aleatoria, pues para cada muestra el estadístico T tomará una valor diferente, así pues para
una muestra concreta (x1, …, xn) el estadístico tomará el valor:
3
Seguiremos como norma general el utilizar letras mayúsculas para indicar las variables aleatorias, para los estadísti-
cos, estimadores y para representar una muestra aleatoria general, y utilizaremos letras minúsculas para los valores con-
cretos que puedan tomar las variables aleatorias, las estimaciones y la realización de una muestra o muestra concreta.
y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadístico,
resultando que efectivamente el estadístico T es también una variable aleatoria y por consiguiente
tendrá su correspondiente distribución, a la que llamaremos distribución muestral del estadís‑
tico, como veremos posteriormente.
Vemos pues que un parámetro y un estadístico son conceptos muy diferentes, pues el parámetro
es una constante y cuando se conoce determina completamente el modelo probabilístico, sin em-
bargo el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales.
En diferentes ocasiones se han estudiado medidas numéricas correspondientes a conjuntos de
datos, así pues estudiamos, entre otras, la media y la desviación típica. Ahora vamos a distinguir
entre medidas numéricas calculadas con conjuntos de datos poblacionales y las calculadas con
datos muestrales. Así pues, si la medida numérica se calcula para el conjunto de datos poblacio-
nales le llamaremos valor del parámetro poblacional y si se calcula para el conjunto de datos
muestrales, le llamaremos valor del estadístico muestral.
1 N
µ= ∑Xi [1.1]
N i =1
1 N
∑ ( X1 – µ)
2
σ2 = [1.2]
N i =1
4
Si la población es infinita utilizaremos la misma notación para designar estos parámetros poblacionales, pero estos
no pueden ser calculados a partir de estas sumas finitas, sino que tendremos que recurrir al cálculo de valores espera-
dos de variables aleatorias de tipo continuo.
Para una muestra aleatoria simple de tamaño n, (X1, …, Xn) los estadísticos media,
varianza y proporción muestral se definen como:
1 n
X= ∑ Xi [1.4]
n i =1
1 n
∑ ( Xi – X )
2 2
S = [1.5]
n – 1 i =1
El estadístico varianza muestral, S2, se puede formular también mediante las siguientes
expresiones algebraicas:
( (∑ X )
)
n 2
( ∑X ) = n 1– 1
i
1 n n
∑ X i2
2
i =1
S2 = i
2
– nX –
n –1 i= 1 i =1 n
[1.7]
En efecto para ver la equivalencia de la expresión [1.5] con la [1.7], consideramos el numera-
dor de la [1.5] y tendremos:
n n
∑ ( Xi – X ) = ∑ ( Xi – 2Xi X + X )
2 2 2
i =1 i =1
n n n
= ∑ Xi – 2X ∑ Xi + ∑ X
2 2
i =1 i =1 i =1
n
= ∑ Xi – 2X (n X ) + n X
2 2
i =1
( )
n 2
n n ∑ Xi
= ∑ X i – nX = ∑ X i –
2 2 2 i =1
i =1 i =1 n [1.8]
F (x) = P(X ≤ x)
N (x)
Fn ( x ) = [1.12]
n
Ejemplo 1.1
Dada una muestra aleatoria formada por las observaciones muestrales (3, 8, 5, 4, 5). Obtener
la función de distribución empírica y su correspondiente representación gráfica.
5
Se observa que al definir el estadístico varianza muestral se divide por n – 1 en lugar de por n, la razón la veremos
con más detalle después, pero aquí ya adelantamos que se ha definido así la varianza muestral s2, para que esta s2 sea
un estimador insesgado de la varianza poblacional σ2, pues si hubiéramos dividido por n entonces el estadístico no
sería un estimador insesgado.
La función de distribución empírica tiene las mismas propiedades que la función de distribu-
ción de la variable aleatoria, y, se puede demostrar, utilizando el teorema de Glivenko‑Cantelli6,
que Fn(x) converge en probabilidad a F(x). Lo cual, a efectos prácticos, implica que cuando el
6
El teorema de Glivenko-Cantelli, llamado también Teorema fundamental de la Estadística, por su papel funda-
mental en la inferencia estadística, indica que la función de distribución empírica de la muestra Fn(x) converge en
probabilidad a la función de distribución de la población F(x). Es decir, para ε > 0, se verifica:
Ejemplo 1.2
Sea una empresa dedicada al transporte y distribución de mercancías, la cual tiene una plan-
tilla de 50 trabajadores. Durante el último año se ha observado que 25 trabajadores han faltado
un solo día al trabajo, 20 trabajadores han faltado dos días y 5 trabajadores han faltado tres días.
Si se toma una muestra aleatoria, con reemplazamiento, de tamaño dos (X1, X2) del total de la
plantilla, obtener:
1. La distribución de probabilidad del número de días que ha faltado al trabajo un empleado,
su media y su varianza.
–
2. Distribución de probabilidad del estadístico media muestral X.
3. La distribución de probabilidad del estadístico varianza muestral, S2.
4. La media y varianza del estadístico media muestral.
–
5. La probabilidad de que el estadístico media muestral, X, sea menor que 2.
6. La media y varianza del estadístico varianza muestral.
7. La probabilidad de que el estadístico varianza muestral, S2, sea menor o igual que 0,5.
Solución:
1. Empezaremos obteniendo la distribución de probabilidad de la variable aleatoria:
X: número de días que ha faltado al trabajo un empleado elegido aleatoriamente de la plan-
tilla total.
–
La variable aleatoria X, puede tomar los valores 1, 2 o 3, y como la selección se hace de ma-
nera aleatoria, todos los trabajadores tendrán la misma probabilidad de ser seleccionados, luego
la distribución de probabilidad de la variable aleatoria X viene dada en la Tabla 1.2, y será la
distribución de probabilidad de la población.
Observaciones muestrales X
Probabilidades P(X=x)=P(x)
x
25
1 P ( X = 1) = P (1) = = 0, 5
50
20
2 P ( X = 2) = P (2) = = 0, 4
50
5
3 P ( X = 3 ) = P (3 ) = = 0,1
50
y la varianza:
2
Var ((XX)) ==EE [(
σσ 2 ==Var [( XX –– µµ )])] == ∑
∑ (( xx11 –– µµ ))22 ·· PP (( XX == xxi i ))
ii
== ((11 –– 1,6
1,6))22 ((0,5
0,5)) ++ ((22 –– 1,6
1,6))22 ((0,4
0,4)) ++ ((33 –– 1,6
1,6))22 ((0,1
0,1))
== 0,44
0,44
Observamos que si sumamos el número total de faltas al trabajo que se han producido en la
población de los 50 empleados y dividimos por los 50 empleados tenemos la media.
25 · 1 + 20 · 2 + 5 · 3 80
= = 1, 6
50 50
1
X= ( X1 + X 2 )
2
ésta estará relacionada con la distribución de probabilidad de las variables aleatorias X1 y X2.
–
Para tener las distribuciones de probabilidad de los estadísticos media X y varianza S2 mues-
tral necesitaremos tener los diferentes valores que puede tomar y sus probabilidades. Para ello
empezaremos obteniendo las posibles muestras, con reemplazamiento, de tamaño dos, sus pro-
babilidades y los valores correspondientes de los estadísticos media y varianza muestral, que
vienen dados en la Tabla 1.3.
Para obtener las probabilidades correspondientes a los diferentes valores muestrales, tendre-
mos en cuenta que las variables x1 y x2 son independientes, pues el muestreo se ha realizado con
reemplazamiento. Luego:
P (X = 1) = P ( X1 = 1, X2 = 1)
= P ( X1 = 1) · P ( X2 = 1)
= (0,5) (0,5) = 0,25
P (X = 1,5) = P [( X1 = 1, X2 = 2) o ( X1 = 2, X2 = 1)]
= P ( X1 = 1, X2 = 2) + P ( X1 = 2, X2 = 1)
= P ( X1 = 1) · P ( X2 = 2) + P ( X1 = 2) · P ( X2 = 1)
= (0,5) (0,4) + (0,4) (0,5)
= 0,20 + 0,20 = 0,40
–
P ( X = 1 ) = 0,25
–
P ( X = 1,5 ) = 0,20 + 0,20 = 0,40
–
P ( X = 2 ) = 0,05 + 0,16 + 0,05 = 0,26
–
P ( X = 2,5 ) = 0,04 + 0,04 = 0,08
–
P ( X = 3 ) = 0,01
1 n
∑ ( xi – x )
2
S2 =
n – 1 i =1
1
=
2 –1
[ (1 – 1)2 + (1 – 1)2 ] = 0
1
S2 =
2 –1
[ (1 – 1, 5 )2 + ( 2 – 1, 5 )2 ] = 0, 5
4. Para el cálculo de la media y varianza del estadístico media muestral tendremos en cuenta
su distribución de probabilidad dada en la Tabla 1.4.
Utilizando la definición de valor esperado de una variable aleatoria de tipo discreto tenemos:
µ x = E[ X ] = ∑ xi · P ( X = xi )
i
σX2 = Var (X ) = E [( X – E (X )) 2]
= ∑ ( xi – 1, 60 ) · P ( X = xi )
2
i
2 2
= (1 – 1, 60) (0, 25) + ... + (3 – 1, 60) (0, 01)
= 0, 09 + ... + 0, 019
= 0, 22
–
5. Teniendo en cuenta la distribución de probabilidad del estadístico media muestral X, Ta-
bla 1.4, se tiene:
– – –
P ( X < 2 ) = P ( X = 1 ) + P ( X = 1,5 )
= 0,25 + 0,40
= 0,65
µ s = E [ S 2 ] = ∑ si2 · P ( S 2 = si2 )
2
= ∑ ( si2 – 0, 44 ) P ( S 2 = si2 )
i
Con este ejemplo, se pone de manifiesto que incluso para muestras de tamaño pequeño y
estadísticos con pocos valores posibles se hace pesado el obtener la distribución de probabilidad
de los estadísticos muestrales. Para evitar esto en los siguientes apartados daremos algunos resul-
tados que simplifican estos problemas.
Estadístico Estadístico
Población
media muestral varianza muestral
X
X̄ S2
Media μ = E [ X ] = 1,6 μx̄ = E [ X̄ ] = 1,6 μs2 = E [ S 2 ] = 0,44
Estos resultados no sólo se verifican para este ejemplo sino que se verifican en general,
como veremos en los siguientes teoremas.
Teorema 1.1
Si (X1, ..., Xn) es una muestra aleatoria simple de tamaño n procedente de una población,
descrita por la variable aleatoria X, con media E[X] = µ y varianza Var (X) = σ2, entonces la
esperanza de la media muestral es igual a la media de la población, µ, y la varianza de la
media muestral es igual a la varianza poblacional, σ2, dividida por n, es decir:
σ2
E X =µ Var X =
y [1.13] [ ] ( ) n
Demostración:
Teniendo en cuenta la definición de muestra aleatoria simple, resulta que las variables alea-
torias X1, …, Xn son independientes, todas tienen la misma distribución de probabilidad que
la población X y en consecuencia todas tienen la misma media y la misma varianza que la
población X, es decir:
E [ X 1 ] = ... = E [ X n ] = E [ X ] = µ
Luego si tenemos en cuenta las propiedades de los valores esperados, resulta que la media o
esperanza matemática del estadístico media muestral será:
E [X ] = E [ X1 + + X n
n ]
1
E [ X1 + + X n ]
=
n
1
= ( E [ X1] + + E [ X n ] )
n
32 INFERENCIA ESTADÍSTICA
1 PARA ECONOMÍA
= µ + +µ =
n
( nµ
n
=µ )
E [X ] = E [ X1 + + X n
n ]
1
= E [ X1 + + X n ]
n
1
= ( E [ X1] + + E [ X n ] )
n
1
(
= µ + +µ =
n
nµ
n
=µ )
Análogamente para la varianza, y dado que las variables aleatorias X1, …, Xn son indepen-
dientes, resulta:
Var ( X ) = Var (
X 1 + ... + X n
n
)
=
1
n2
(
Var X 1 + ... + X n )
1
= 2 (Var ( X 1 ) + ... + Var ( Xn ))
n
1
(
= 2 σ 2 + ... + σ 2 = 2 =
n
nσ 2 σ 2
n n
)
–
A la correspondiente desviación típica del estadístico X se le llama error estándar de la
media y viene dado por:
σ
error estándar de la media muestral X= [1.14]
n
Observando los resultados de la expresión [1.13] se pone de manifiesto que el valor central del
estadístico media muestral es la media poblacional µ, y como la dispersión del estadístico media
–
muestral X en torno a su media µ es:
2
Var ( X ) = E [( X – µ ) ] = σn
2
–
resulta que cuanto mayor sea el tamaño muestral n menor será la Var(X), es decir, menor será la
– –
dispersión de X en torno a la media poblacional µ, y el valor observado del estadístico X estará
–
más próximo a µ, lo cual nos permite decir que el estadístico media muestral X puede ser consi-
derado como un buen estimador de la media poblacional µ.
–
En el Gráfico 1.2 se indica la distribución muestral del estadístico media muestral, X, para
muestras de tamaño n = 25 y n = 110 procedentes de una población normal N(100, 6), en don-
de se observa que cada distribución muestral está centrada sobre la media poblacional, pero
cuando el tamaño muestral aumenta la distribución muestral del estadístico media muestral
está más concentrada en torno a la media de la población. En consecuencia el error estándar de
la media muestral es una función decreciente del tamaño n de la muestra, y la probabilidad de
que la media muestral difiera de la media poblacional en una cantidad fija, disminuye cuando
el tamaño de la muestra crece.
El aumento de la muestra tiene un límite, pues llega un momento que aunque el tamaño de
la muestra siga aumentando la precisión prácticamente no aumenta. En efecto, supongamos una
–
población con σ = 12 y calculamos la desviación estándar del estadístico X para diferentes valores
de n, obteniéndose la Tabla 1.7.
–
Tabla 1.7. Diferentes valores de la desviación estándar de X cuando σ = 12 para n = 5, 10, 20, 30, …
Valores de n 5 10 20 30 40 50 60 70 80 90 100
σ
X=
Desviación estándar 5,38 3,79 2,68 2,19 1,89 1,69 1,55 1,43 1,34 1,26 1,20
n