Distribución de Muestreo para Pedagogía

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

CAPÍTULO 1

Muestreo y distribuciones en el
muestreo

1.1. INTRODUCCIÓN
Anteriormente hemos estudiado conceptos fundamentales, como eran el concepto de variable
aleatoria y su distribución de probabilidades, estudiamos diferentes modelos de distribuciones
tanto de tipo discreto como de tipo continuo y analizábamos sus características básicas (media,
varianza, etc.). A partir de ahora estaremos interesados en saber qué modelo sigue la población,
y para ello nos basaremos en la información que se obtenga de un subconjunto o parte de esa
población que llamaremos muestra.
Cuando realizamos una introducción general de la estadística decimos que uno de los objeti-
vos fundamentales es el obtener conclusiones basándonos en los datos que se han observado, pro-
ceso que se conoce con el nombre de inferencia estadística, es decir utilizando la información
que nos proporciona una muestra de la población se obtienen conclusiones o se infieren valores
sobre características poblacionales.
En este capítulo daremos una serie de conceptos básicos que serán fundamentales para el
desarrollo posterior de la inferencia estadística.

1.2. Muestra aleatoria


Sabemos que hay diferentes métodos para investigar u observar una población (observación
exhaustiva o censo, subpoblación, muestra y observación mixta), aquí nos vamos a referir a la
observación parcial mediante una muestra y diremos que se ha investigado la población a partir
de una muestra cuando los elementos que componen la muestra no reúnen ninguna característica
esencial que los diferencie de los restantes, representando, por tanto, a toda la población. Las con-
clusiones sacadas de la muestra se pueden inferir o extender a la población total. Así por ejemplo,
supongamos que deseamos conocer el precio medio o valor medio de las viviendas en una zona
de Madrid en el año 2017. Para conocer la característica precio de la vivienda en esa zona, nece-

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  15


sitaríamos saber el precio de venta de cada una de las viviendas vendidas durante ese período de
tiempo y el precio por el cual cada propietario vendería la suya. Esta lista completa de viviendas
con sus precios, constituye la población en la que estamos interesados, cuya característica, precio
medio de la vivienda o media poblacional, deseamos conocer. Pero, en ésta y en otras muchas
situaciones prácticas no será posible o no será fácil, por diversas razones el obtener la población
entera en la cual estamos interesados. Sin embargo, sí podemos obtener la información necesaria,
precio de la vivienda, para una muestra representativa de la población y a partir de la cual inferir
y obtener conclusiones para toda la población total.
La muestra debe de ser representativa de toda la población y, por tanto, tendrá características
similares a las que se observarían en la población entera, de tal manera que si observando los
precios de las viviendas que han sido incluidas en la muestra resulta que el precio medio de las
viviendas de la muestra, media muestral x̄, ha resultado ser 240.000 unidades monetarias podre-
mos inferir que la media poblacional precio medio de la vivienda en toda la población o zona que
estamos considerando está en torno a 240.000 unidades monetarias.
La razón principal para investigar una muestra en lugar de la población completa es que la
recogida de la información para toda la población daría lugar a un coste muy elevado tanto en
recursos económicos como en tiempo. Incluso en ciertos casos en que los recursos fueran sufi-
cientes para investigar la población completa, puede ser preferible el investigar sólo una muestra
muy representativa, concentrando sobre ella un mayor esfuerzo para obtener medidas más pre-
cisas de las características que nos interesen. De esta forma se puede evitar lo que algunas veces
ocurre en las grandes operaciones censales, por ejemplo, en el censo decenal de población de los
Estados Unidos, en donde se investigó toda la población, se observó que ciertas características
y grupos poblacionales estaban muy poco representados, lo cual era debido a la problemática
que lleva consigo una gran operación censal, tanto por el volumen de cuestionarios como por la
cantidad de información.
Cuando se selecciona una muestra de una población, un objetivo fundamental es el poder hacer
inferencias sobre características poblacionales u obtener conclusiones que sean válidas para toda
la población. Por tanto, es muy importante que la muestra sea representativa de la población; así
pues la calidad de la inferencia o conclusión obtenida a partir de la muestra, sobre las diferentes
características poblacionales estará directamente relacionada con la representatividad de la mues-
tra. Por ejemplo, supongamos que un director comercial desea conocer la opinión sobre un nuevo
producto de limpieza. No sería correcto que limitara la correspondiente encuesta a sus amigos
y a las personas que viven en su barrio, pues tales personas no reflejarían la opinión de toda la
población ya que la muestra no sería representativa de toda la población, ni aleatoria. Para evitar
estos problemas y poder realizar una inferencia correctamente sobre toda la población a partir de
una muestra es necesario que se verifique la representatividad y la aleatoriedad de la muestra.
Un objetivo básico en muestreo es seleccionar una muestra que garantice con un costo razo-
nable una buena representatividad de la población.
El procedimiento de selección de la muestra puede conducir a diferentes tipos de muestreo,
como veremos al estudiar el muestreo en poblaciones finitas. Aquí nos vamos a referir a un solo
tipo de muestreo, aunque inicialmente consideremos dos:
— muestreo con reemplazamiento, y
— muestreo sin reemplazamiento.

16  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


El muestreo con reemplazamiento consiste en seleccionar, por mercanismos aleatorios,
los elementos de la población que entran a formar parte de la muestra, pero de tal manera que
cuando se observa la característica, que estamos investigando, del primer elemento seleccio-
nado, se devuelve el elemento a la población, se selecciona el segundo elemento entre todos
los elementos de la población, se anota la característica que se está investigando y se devuelve
a la población, y así sucesivamente. Este procedimiento permite que un elemento de la pobla-
ción pueda ser seleccionado en más de una ocasión para formar parte de una muestra, pues la
selección se realiza con reemplazamiento, es decir, con devolución del elemento seleccionado
a la población.
En el muestreo sin reemplazamiento, los elementos de la población que entran a formar
parte de la muestra también se seleccionan aleatoriamente, pero después de observar la carac-
terística que estamos investigando no se devuelve el elemento de nuevo a la población, con lo
cual no pueden volver a ser seleccionados como ocurría en el muestreo con reemplazamiento.
Así pues, si tenemos una población de N elementos y queremos seleccionar una muestra de
tamaño n resulta que la probabilidad de que un elemento de la población sea seleccionado en
1
la primera extracción para formar parte de la muestra será , en ambos tipos de muestreo.
N
Sin embargo, en la selección del segundo elemento las probabilidades son diferentes, pues en el

muestreo con reemplazamiento continúa siendo 1 , ya que el número de elementos de la pobla-


N
ción sigue siendo N, pero en el muestreo sin reemplazamiento el tamaño de la población es N – 1,
pues el primer elemento seleccionado no se devuelve a la población y entonces la probabilidad de

seleccionar un elemento concreto será: 1 . Vemos pues que en el muestreo con reempla-
N –1
zamiento la probabilidad de seleccionar uno a uno los n elementos de la muestra permanece
constante y en el muestreo sin reemplazamiento no sucede lo mismo ya que en cada extracción
no se devuelve el elemento a la población y ésta va disminuyendo a medida que se selecciona la
muestra, siendo los tamaños poblacionales N , N – 1, N – 2, …, N – (n – 1).

Luego, la probabilidad de seleccionar una muestra concreta de n elementos será:

1ª 2ª nª

extracción extracción extracción
1 1 1
Muestreo con reemplazamiento …
N N N

1 1 1
Muestreo sin reemplazamiento …
N N –1 N – n +1

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  17


Si el tamaño de la población es infinito o muy grande, entonces el tamaño de la muestra
n en comparación con ese tamaño N infinito o muy grande de la población es prácticamente
despreciable, y entonces no existe diferencia significativa entre ambos tipos de muestreo.
En consecuencia, a partir de ahora nos vamos a referir a poblaciones de tamaño infinito o
muy grandes, de tal manera que no haremos distinción ni referencia alguna a que el muestreo
sea con reemplazamiento o sin reemplazamiento pues la diferencia existente entre ambos será
irrelevante para nuestro estudio. No obstante hemos de tener en cuenta que si el tamaño N de la
población es finito y realizamos un muestreo con reemplazamiento entonces le daremos el mis-
mo tratamiento que si la población fuese de tamaño infinito, pues como hemos visto también
dan lugar a un conjunto de variables aleatorias independientes e idénticamente distribuidas,
es decir, a muestras aleatorias simples. Una muestra aleatoria simple de tamaño n de una
población X está constituida por un conjunto de n-variables aleatorias X1, …, Xn independien-
tes e idénticamente distribuidas a la población X, es decir está constituida por un conjunto de
observaciones muestrales independientes e idénticamente distribuidas.
Definimos a continuación de manera formal el concepto de muestra aleatoria simple con el
que trabajamos en Inferencia estadística.

Definición 1.1. Muestra aleatoria simple.

Sea X la variable aleatoria correspondiente a una población con función de distribu-


ción F(x). Si las variables aleatorias X1, X2, …, Xn son independientes y tienen la misma
función de distribución, F(x), que la de la distribución de la población, entonces las varia-
bles aleatorias X1, X2, …, Xn forman un conjunto de variables aleatorias independientes
e idénticamente distribuidas que constituyen una muestra aleatoria simple de tamaño n
de la población F(x).1

Al ser las variables aleatorias X1, X2, …, Xn independientes, resulta que la función de distribución
conjunta será igual al producto de las funciones de distribución marginales, es decir:

n
F ( x1 , ..., xn ) = ∏ F ( xi )
i =1

Si la población de partida es tipo discreto entonces la función de probabilidad de la muestra será:

n n
P ( X 1 = x1 , ..., X n = xn ) = ∏ P ( X = xi ) = ∏ Pi
i =1 i =1

1
  En lo sucesivo y si no indicamos lo contrario, las muestras que utilizaremos serán aleatorias simples, aunque a
veces por abreviar digamos simplemente muestra aleatoria.

18  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


Si la muestra aleatoria simple procede de una población de tipo continuo con función de den-
sidad f (x), entonces la función de densidad de la muestra será:

n
f ( x1 , …, xn ) = ∏ f ( xi )
i =1

1.3. parámetros poblacionales y


estadísticos muestrales
En general diremos que los parámetros poblacionales son las características numéricas
de la población. En concreto, un parámetro es una caracterización numérica de la distribu-
ción de la población. El conocimiento del parámetro permite describir parcial o totalmente la
función de probabilidad de la característica que estamos investigando. Así por ejemplo, si la
característica a investigar sabemos que sigue una distribución exponencial de parámetro a, su
función de densidad será:

– ax

f (x) =
{ae
0
x>0
x≤0

pero esta función de densidad no estará totalmente descrita hasta que no se dé el valor del pará-
metro a, y entonces será cuando podremos formular preguntas concretas sobre esa distribución,
es decir, podremos calcular las diferentes probabilidades.
Si la característica a investigar sigue una distribución normal, N(μ, σ), cuya función de
densidad es:

1 ( x – µ )2
1 – ·
f ( x) = σ2
2
e
σ 2

observamos que aparecen dos parámetros μ y σ, que no se han especificado, y para describir
totalmente la función de densidad tendremos que dar valores a los dos parámetros μ y σ, pues si
damos valor a un solo parámetro entonces diremos que está descrita parcialmente.
En la mayoría de los modelos probabilísticos nos encontraremos parámetros cuyos valores
tendremos que fijar para especificar completamente el modelo y poder calcular las probabilida-
des deseadas2. De manera más concreta podemos decir que uno de los problemas centrales en
estadística se nos presenta cuando deseamos estudiar una población con función de distribución
F(x, θ), donde la forma de la función de distribución es conocida pero depende de un parámetro θ

  En la Estadística clásica un parámetro se puede considerar como una constante fija cuyo valor se desconoce.
2

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  19


desconocido, ya que si θ fuese conocido tendríamos totalmente especificada la función de distri-
bución. Si el parámetro θ no se conoce, entonces se selecciona una muestra aleatoria simple (X1,
…, Xn) de tamaño n de la población, y se calcula para las observaciones de la muestra el valor
de alguna función g(x1, …, xn), que representa o estima el parámetro desconocido θ. El problema
es determinar qué función será la mejor para estimar el parámetro θ, lo cual será resuelto en el
capítulo dedicado a la estimación.
A continuación exponemos el concepto de estadístico que es fundamental para estimar los
parámetros poblacionales, pues los estimaremos mediante estadísticos definidos a partir de las
observaciones de una muestra aleatoria.

Definición 1.2. Estadístico.

Un estadístico es cualquier función real de las variables aleatorias que integran la


muestra, es decir, es una función de las observaciones muestrales, la cual no contiene
ningún valor o parámetro desconocido.

Continuando con la población de función de distribución F(x, θ), en donde θ es un paráme-


tro desconocido, y considerando una muestra aleatoria simple, (X1, …, Xn), constituida por n
variables aleatorias independientes e idénticamente distribuidas, podemos definir algunos es-
tadísticos o funciones de esas variables aleatorias, como por ejemplo:

g (X X + ... + X
1 1 , ..., X )=
n
1

n
n

X X
2 2
+ ... +
g (X
2 1 , ..., X )=
n
1

n
n

(X – X ) (X – X )
2 2
+ ... +
g (X
3 1 , ..., X )=
n
1

n
n

los cuales se determinan totalmente a partir de las observaciones muestrales.


En general un estadístico T lo representaremos como3:

T = g(X1, …, Xn)

es decir, como una función g de las observaciones muestrales, que a su vez será también una va-
riable aleatoria, pues para cada muestra el estadístico T tomará una valor diferente, así pues para
una muestra concreta (x1, …, xn) el estadístico tomará el valor:

3
  Seguiremos como norma general el utilizar letras mayúsculas para indicar las variables aleatorias, para los estadísti-
cos, estimadores y para representar una muestra aleatoria general, y utilizaremos letras minúsculas para los valores con-
cretos que puedan tomar las variables aleatorias, las estimaciones y la realización de una muestra o muestra concreta.

20  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


T = g(x1, …, xn)

y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadístico,
resultando que efectivamente el estadístico T es también una variable aleatoria y por consiguiente
tendrá su correspondiente distribución, a la que llamaremos distribución muestral del estadís‑
tico, como veremos posteriormente.
Vemos pues que un parámetro y un estadístico son conceptos muy diferentes, pues el parámetro
es una constante y cuando se conoce determina completamente el modelo probabilístico, sin em-
bargo el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales.
En diferentes ocasiones se han estudiado medidas numéricas correspondientes a conjuntos de
datos, así pues estudiamos, entre otras, la media y la desviación típica. Ahora vamos a distinguir
entre medidas numéricas calculadas con conjuntos de datos poblacionales y las calculadas con
datos muestrales. Así pues, si la medida numérica se calcula para el conjunto de datos poblacio-
nales le llamaremos valor del parámetro poblacional y si se calcula para el conjunto de datos
muestrales, le llamaremos valor del estadístico muestral.

Definición 1.3. Parámetros media, varianza y proporción poblacional.4

En una población finita de tamaño N los parámetros poblacionales media, varianza


y proporción poblacional vienen dados por4:

1 N
µ= ∑Xi [1.1]
N i =1

1 N
∑ ( X1 – µ)
2
σ2 = [1.2]
N i =1

X número de éxitos en N pruebas


p= =
N número de pruebas [1.3]

4
  Si la población es infinita utilizaremos la misma notación para designar estos parámetros poblacionales, pero estos
no pueden ser calculados a partir de estas sumas finitas, sino que tendremos que recurrir al cálculo de valores espera-
dos de variables aleatorias de tipo continuo.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  21


Definición 1.4. Estadístico media, varianza y proporción muestral.

Para una muestra aleatoria simple de tamaño n, (X1, …, Xn) los estadísticos media,
varianza y proporción muestral se definen como:

1 n
X= ∑ Xi [1.4]
n i =1

1 n
∑ ( Xi – X )
2 2
S = [1.5]
n – 1 i =1

X número de éxitos en n pruebas


Px = = [1.6]
n número de pruebas

El estadístico varianza muestral, S2, se puede formular también mediante las siguientes
expresiones algebraicas:

( (∑ X )
)
n 2

( ∑X ) = n 1– 1
i
1 n n
∑ X i2
2
i =1
S2 = i
2
– nX –
n –1 i= 1 i =1 n
[1.7]

En efecto para ver la equivalencia de la expresión [1.5] con la [1.7], consideramos el numera-
dor de la [1.5] y tendremos:

n n
∑ ( Xi – X ) = ∑ ( Xi – 2Xi X + X )
2 2 2

i =1 i =1

n n n
= ∑ Xi – 2X ∑ Xi + ∑ X
2 2

i =1 i =1 i =1
n
= ∑ Xi – 2X (n X ) + n X
2 2

i =1

( )
n 2

n n ∑ Xi
= ∑ X i – nX = ∑ X i –
2 2 2 i =1

i =1 i =1 n [1.8]

Si en lugar de considerar las n variables aleatorias, independientes e idénticamente distribui-


das (X1, …, Xn), que constituyen la muestra aleatoria simple, consideramos una muestra concreta
(x1, …, xn) entonces los valores de estos estadísticos muestrales son:

22  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


1 n
x= ∑ xi
n i =1 [1.9]
1 2
s2 =
n –1
( xi – x ) [1.10]
x
p= [1.11]
n
Luego vemos que efectivamente el estadístico es una función de las observaciones muestra-
les, y en estos casos asigna a cada muestra observada la media de los valores, la varianza o la
proporción, respectivamente5.

1.4. Función de distribución empírica


Sabemos que la función de distribución de una variable aleatoria X estaba definida como:

F (x) = P(X ≤ x)

y puede representar la proporción de valores que son menores o iguales que x.


De manera similar podemos definir la función de distribución empírica para una muestra.

Definición 1.5. Función de distribución empírica de la muestra.

Consideremos una población con función de distribución F(x) y sean (x , … , x) los


valores observados correspondientes a una muestra aleatoria simple procedente de esa po-
blación, y designamos por N(x) el número de valores observados que son menores o iguales
que  x. Entonces definimos la función de distribución empírica de la muestra, que la
notaremos por Fn(x), como:

N (x)
Fn ( x ) = [1.12]
n

Ejemplo 1.1
Dada una muestra aleatoria formada por las observaciones muestrales (3, 8, 5, 4, 5). Obtener
la función de distribución empírica y su correspondiente representación gráfica.

5
  Se observa que al definir el estadístico varianza muestral se divide por n – 1 en lugar de por n, la razón la veremos
con más detalle después, pero aquí ya adelantamos que se ha definido así la varianza muestral s2, para que esta s2 sea
un estimador insesgado de la varianza poblacional σ2, pues si hubiéramos dividido por n entonces el estadístico no
sería un estimador insesgado.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  23


Solución:
Utilizando la expresión [1.12] podemos obtener la función de distribución empírica que apa-
rece en la Tabla 1.1.

Tabla 1.1. Función de distribución empírica.

Observaciones muestrales x N(x) F5(x)


— < 3, 0 0,0
3 ≤ 3, 1 0,2
4 ≤ 4, 2 0,4
5 ≤ 5, 4 0,8
8 ≤ 8, 5 1,0

La representación gráfica de esta función de distribución la tenemos en el Gráfico 1.1.

Gráfico 1.1. Función de distribución empírica.

La función de distribución empírica tiene las mismas propiedades que la función de distribu-
ción de la variable aleatoria, y, se puede demostrar, utilizando el teorema de Glivenko‑­Cantelli6,
que Fn(x) converge en probabilidad a F(x). Lo cual, a efectos prácticos, implica que cuando el

6
  El teorema de Glivenko-Cantelli, llamado también Teorema fundamental de la Estadística, por su papel funda-
mental en la inferencia estadística, indica que la función de distribución empírica de la muestra Fn(x) converge en
probabilidad a la función de distribución de la población F(x). Es decir, para ε > 0, se verifica:

24  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


tamaño de la muestra crece la gráfica de la función de distribución empírica se aproxima bastante
a la de la función de distribución de la población, y se puede utilizar como estimador de la misma.
De todo esto se deduce que la función de distribución empírica o su gráfica se puede utilizar
para determinar la forma general de la distribución poblacional. También es fácil y muy frecuente
el reconocer la forma de la distribución observando el histograma correspondiente que nos daría
idea de la función de densidad.

1.5. Distribución muestral de estadísticos


Como veremos posteriormente los estadísticos muestrales (proporción, media y varianza
muestral) se pueden utilizar para estimar los correspondientes parámetros poblacionales. Así
pues, para estudiar propiedades de estos estadísticos, como estimadores de los parámetros po-
blacionales, será necesario estudiar las características de la distribución de probabilidad de estos
estadísticos.
Sabemos que los estadísticos muestrales se calculan a partir de los valores (X1, … , Xn) de
una muestra aleatoria, y estos estadísticos son también variables aleatorias. Como tales variables
aleatorias tienen su distribución de probabilidad, así pues los estadísticos muestrales: proporción,
media, varianza, etc., tendrán su correspondiente distribución de probabilidad. Si tales distribu-
ciones de probabilidad se pueden obtener, entonces será posible establecer afirmaciones probabi-
lísticas sobre esos estadísticos.
La distribución exacta de los estadísticos dependerá del tamaño muestral n. Así, en muchas

situaciones, encontrar la distribución de probabilidad exacta del estadístico media muestral X,
incluso para n pequeño y variables aleatorias discretas, será bastante pesado, pero sin grandes
dificultades teóricas. En muchos casos esto será relativamente sencillo, mientras que en otros lo
mejor que se puede hacer es tomar una muestra grande y utilizar la distribución límite apropiada.
El término distribución muestral se utiliza para poner de manifiesto que hay diferencia entre
la distribución de la población de la cual se ha extraído la muestra y la distribución de alguna
función de esa muestra.
Conceptualmente, la distribución muestral de un estadístico puede ser obtenida tomando to-
das las posibles muestras de un tamaño fijado n, calculando el valor del estadístico para cada
muestra y construyendo la distribución de estos valores.
En esta sección estamos interesados en determinar las distribuciones de probabilidad de algu­

nos estadísticos muestrales, en concreto, para la media X y varianza S2 muestral, que serán de
bastante utilidad en diferentes aplicaciones estadísticas.

lím P [   sup   |  Fn (x) – F(x) |  ≥ ε ] = 0


n → ∞   – ∞ < x < + ∞
Lo cual significa que si la muestra es suficientemente grande y se verifica el teorema, entonces la muestra puede pro-
porcionar información casi exacta sobre la distribución de la población.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  25


– –
Así, por ejemplo, si el estadístico es la media muestral X, la distribución muestral de X puede
construirse tomando todas las muestras posibles de tamaño n, calculando el valor del estadís­

tico X para cada muestra, que lo notaremos por xˉ, y formando la distribución de los valores xˉ.

Ejemplo 1.2
Sea una empresa dedicada al transporte y distribución de mercancías, la cual tiene una plan-
tilla de 50 trabajadores. Durante el último año se ha observado que 25 trabajadores han faltado
un solo día al trabajo, 20 trabajadores han faltado dos días y 5 trabajadores han faltado tres días.
Si se toma una muestra aleatoria, con reemplazamiento, de tamaño dos (X1, X2) del total de la
plantilla, obtener:
1. La distribución de probabilidad del número de días que ha faltado al trabajo un empleado,
su media y su varianza.

2. Distribución de probabilidad del estadístico media muestral X.
3. La distribución de probabilidad del estadístico varianza muestral, S2.
4. La media y varianza del estadístico media muestral.

5. La probabilidad de que el estadístico media muestral, X, sea menor que 2.
6. La media y varianza del estadístico varianza muestral.
7. La probabilidad de que el estadístico varianza muestral, S2, sea menor o igual que 0,5.
Solución:
1. Empezaremos obteniendo la distribución de probabilidad de la variable aleatoria:
X: número de días que ha faltado al trabajo un empleado elegido aleatoriamente de la plan-
tilla total.

La variable aleatoria X, puede tomar los valores 1, 2 o 3, y como la selección se hace de ma-
nera aleatoria, todos los trabajadores tendrán la misma probabilidad de ser seleccionados, luego
la distribución de probabilidad de la variable aleatoria X viene dada en la Tabla 1.2, y será la
distribución de probabilidad de la población.

Tabla 1.2. Distribución de probabilidad de la variable aleatoria X.

Observaciones muestrales X
Probabilidades P(X=x)=P(x)
x

25
1 P ( X = 1) = P (1) = = 0, 5
50

20
2 P ( X = 2) = P (2) = = 0, 4
50
5
3 P ( X = 3 ) = P (3 ) = = 0,1
50

26  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


A partir de esta distribución de probabilidad tenemos que la media será:
nn
µµ == EE[[XX ]]== ∑
∑ XXi iPP((XX == xxi i))==11((00,,55))++22((00,,44))++33((00,,11))==11,,66
i =11
i=

y la varianza:

2
Var ((XX)) ==EE [(
σσ 2 ==Var [( XX –– µµ )])] == ∑
∑ (( xx11 –– µµ ))22 ·· PP (( XX == xxi i ))
ii

== ((11 –– 1,6
1,6))22 ((0,5
0,5)) ++ ((22 –– 1,6
1,6))22 ((0,4
0,4)) ++ ((33 –– 1,6
1,6))22 ((0,1
0,1))
== 0,44
0,44
Observamos que si sumamos el número total de faltas al trabajo que se han producido en la
población de los 50 empleados y dividimos por los 50 empleados tenemos la media.

25 · 1 + 20 · 2 + 5 · 3 80
= = 1, 6
50 50

Análogamente sucede con la varianza.


Por esto, en lo sucesivo μ y σ2 serán consideradas como la media y la varianza poblacional,
respectivamente.
2. Seleccionamos una muestra aleatoria, con reemplazamiento, de tamaño dos (X1, X2),
siendo:
X1: variable aleatoria correspondiente al número de días que falta el primer trabajador selec-
cionado.
X2: variable aleatoria correspondiente al número de días que falta el segundo trabajador se-
leccionado.
Ambas variables aleatorias X1 y X2 tienen la misma distribución de probabilidad que la de la
variable aleatoria X, correspondiente a la población.
Pero como nos interesa obtener la distribución de probabilidad del estadístico media muestral:

1
X= ( X1 + X 2 )
2

ésta estará relacionada con la distribución de probabilidad de las variables aleatorias X1 y X2.

Para tener las distribuciones de probabilidad de los estadísticos media X y varianza S2 mues-
tral necesitaremos tener los diferentes valores que puede tomar y sus probabilidades. Para ello
empezaremos obteniendo las posibles muestras, con reemplazamiento, de tamaño dos, sus pro-
babilidades y los valores correspondientes de los estadísticos media y varianza muestral, que
vienen dados en la Tabla 1.3.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  27



Tabla 1.3. Muestras de tamaño dos y valores obtenidos para las distribuciones de probabilidad de X y S2 .

Muestras de tamaño dos –


X S2 P(X1=x1, X2=x2)
(x1 , x2)
(1, 1) 1,0 0,0 0,25
(1, 2) 1,5 0,5 0,20
(1, 3) 2,0 2,0 0,05
(2, 1) 1,5 0,5 0,20
(2, 2) 2,0 0,0 0,16
(2, 3) 2,5 0,5 0,04
(3, 1) 2,0 2,0 0,05
(3, 2) 2,5 0,5 0,04
(3, 3) 3,0 0,0 0,01

Para obtener las probabilidades correspondientes a los diferentes valores muestrales, tendre-
mos en cuenta que las variables x1 y x2 son independientes, pues el muestreo se ha realizado con
reemplazamiento. Luego:

P (X = 1) = P ( X1 = 1, X2 = 1)
= P ( X1 = 1) · P ( X2 = 1)
= (0,5) (0,5) = 0,25

P (X = 1,5) = P [( X1 = 1, X2 = 2) o ( X1 = 2, X2 = 1)]
= P ( X1 = 1, X2 = 2) + P ( X1 = 2, X2 = 1)
= P ( X1 = 1) · P ( X2 = 2) + P ( X1 = 2) · P ( X2 = 1)
= (0,5) (0,4) + (0,4) (0,5)
= 0,20 + 0,20 = 0,40

Análogamente obtendremos las restantes probabilidades.


La información que nos proporciona la Tabla 1.3 la utilizaremos para obtener la distribución

de probabilidad del estadístico media muestral X, así pues:


P ( X = 1 ) = 0,25

P ( X = 1,5 ) = 0,20 + 0,20 = 0,40

P ( X = 2 ) = 0,05 + 0,16 + 0,05 = 0,26

P ( X = 2,5 ) = 0,04 + 0,04 = 0,08

P ( X = 3 ) = 0,01

28  INFERENCIA ESTADÍSTICA PARA ECONOMÍA



Luego la distribución de probabilidad del estadístico media muestral X la tenemos en la
Tabla 1.4.

Tabla 1.4. Distribución de probabilidad del estadístico media muestral X .

Valores del estadístico X –
Probabilidades P(X= xˉ )=P( xˉ )

1 0,25
1,5 0,40
2 0,26
2,5 0,08
3 0,01

3. Análogamente podemos obtener la distribución de probabilidad del estadístico varianza


muestral S2. Los diferentes valores del estadístico S2 aparecen en la tercera columna de la Ta-
bla 1.3, así pues, para la primera muestra tenemos:

1 n
∑ ( xi – x )
2
S2 =
n – 1 i =1

1
=
2 –1
[ (1 – 1)2 + (1 – 1)2 ] = 0

Para la segunda muestra será:

1
S2 =
2 –1
[ (1 – 1, 5 )2 + ( 2 – 1, 5 )2 ] = 0, 5

y de manera análoga tendríamos los restantes valores.


Las probabilidades correspondientes a los diferentes valores del estadístico S2, las obtenemos
a partir de la Tabla 1.3, así pues:

P ( S2 = 0,0 ) = 0,25 + 0,16 + 0,01 = 0,42


P ( S2 = 0,5 ) = 0,20 + 0,20 + 0,04 + 0,04 = 0,48
P ( S2 = 2,0 ) = 0,05 + 0,05 = 0,10

Y la distribución de probabilidad del estadístico varianza muestral S2 viene dada en la


Tabla 1.5.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  29


Tabla 1.5. Distribución de probabilidad del estadístico varianza muestral S2 .

Valores del estadístico S2


Probabilidades P(S2 = s2 )=P( s2 )
s2
0,0 0,42
0,5 0,48
2,0 0,10

4. Para el cálculo de la media y varianza del estadístico media muestral tendremos en cuenta
su distribución de probabilidad dada en la Tabla 1.4.
Utilizando la definición de valor esperado de una variable aleatoria de tipo discreto tenemos:

µ x = E[ X ] = ∑ xi · P ( X = xi )
i

= 1(0,25) + 1,5(0,40) + 2(0,26) + 2,5(0,08) + 3(0,01)


= 1,60

σX2 = Var (X ) = E [( X – E (X )) 2]

= ∑ ( xi – 1, 60 ) · P ( X = xi )
2

i
2 2
= (1 – 1, 60) (0, 25) + ... + (3 – 1, 60) (0, 01)
= 0, 09 + ... + 0, 019
= 0, 22


5. Teniendo en cuenta la distribución de probabilidad del estadístico media muestral X, Ta-
bla 1.4, se tiene:
– – –
P ( X < 2 ) = P ( X = 1 ) + P ( X = 1,5 )
= 0,25 + 0,40
= 0,65

6. Teniendo en cuenta la distribución de probabilidad del estadístico varianza muestral, S2,


dada en la Tabla 1.5, y procediendo de manera análoga a como lo hemos hecho para el estadístico
media muestral, tendremos:

µ s = E [ S 2 ] = ∑ si2 · P ( S 2 = si2 )
2

= 0,0(0,42) + 0,5(0,48) + 2,0(0,10)


= 0,44

30  INFERENCIA ESTADÍSTICA PARA ECONOMÍA


[( S )]
2
σ s2 = Var ( S 2 ) = E 2
– E [S 2]

= ∑ ( si2 – 0, 44 ) P ( S 2 = si2 )
i

= (0, 0 – 0, 44) 2 ( 0, 42 ) + (0, 5 – 0, 44) 2 (0, 48) + (2, 0 – 0, 44) 2 (0,10)


= 0, 0813 + 0, 0017 + 0, 2434
= 0, 32

7. Basándonos en la distribución de probabilidad del estadístico varianza muestral S2, Ta-


bla 1.5, se tiene:

P ( S2 ≤ 0,5 ) = P ( S = 0,0 ) + P ( S2 = 0,5 )


= 0,42 + 0,48
= 0,90

Con este ejemplo, se pone de manifiesto que incluso para muestras de tamaño pequeño y
estadísticos con pocos valores posibles se hace pesado el obtener la distribución de probabilidad
de los estadísticos muestrales. Para evitar esto en los siguientes apartados daremos algunos resul-
tados que simplifican estos problemas.

1.6. Media y varianza de algunos estadísticos


En el Ejemplo 1.2 hemos obtenido:
— La media, µ, y varianza, σ2, poblacional.

— Los estadísticos media X y varianza S2 muestral.

— La media y varianza de los estadísticos media muestral, X, y varianza muestral, S2 para
una muestra de tamaño n = 2.
Estos resultados se recogen en la Tabla 1.6, en donde se observa:

1.º Que E [ X ] = E [ X ],
es decir, que la media del estadístico media muestral es igual a la media de la población.
2.º Que E [ S2 ] = Var ( X ),
es decir, que la media del estadístico varianza muestral es igual a la varianza de la po-
blación.
– Var ( X )
3.º Que Var ( X ) = ,
n
es decir, que la varianza del estadístico media muestral es igual a la varianza de la pobla-
ción dividida por el tamaño de la muestra, n.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  31


Tabla 1.6. Media y varianza poblacional de los estadísticos media y varianza muestral del Ejem-
plo 1.3, para n = 2.

Estadístico Estadístico
Población
media muestral varianza muestral
X
X̄ S2
Media μ = E [ X ] = 1,6 μx̄ = E [ X̄ ] = 1,6 μs2 = E [ S 2 ] = 0,44

Varianza σ = Var ( X ) = 0,44 σx̄2 = Var ( X̄ ) = 0,22 σs22 = Var ( S 2 ) = 0,32

Estos resultados no sólo se verifican para este ejemplo sino que se verifican en general,
como veremos en los siguientes teoremas.

Teorema 1.1

Si (X1, ..., Xn) es una muestra aleatoria simple de tamaño n procedente de una población,
descrita por la variable aleatoria X, con media E[X] = µ y varianza Var (X) = σ2, entonces la
esperanza de la media muestral es igual a la media de la población, µ, y la varianza de la
media muestral es igual a la varianza poblacional, σ2, dividida por n, es decir:

σ2
E X =µ Var X =
y [1.13] [ ] ( ) n

Demostración:
Teniendo en cuenta la definición de muestra aleatoria simple, resulta que las variables alea-
torias X1, …, Xn son independientes, todas tienen la misma distribución de probabilidad que
la población X y en consecuencia todas tienen la misma media y la misma varianza que la
población X, es decir:

E [ X 1 ] = ... = E [ X n ] = E [ X ] = µ

Var ( X 1 ) = ... = Var ( X n ) = Var ( X ) = σ 2

Luego si tenemos en cuenta las propiedades de los valores esperados, resulta que la media o
esperanza matemática del estadístico media muestral será:

E [X ] = E [ X1 +  + X n
n ]
1
E [ X1 +  + X n ]
=
n
1
= ( E [ X1] +  + E [ X n ] )
n
32  INFERENCIA ESTADÍSTICA
1 PARA ECONOMÍA
= µ +  +µ =
n
( nµ
n
=µ )
E [X ] = E [ X1 +  + X n
n ]
1
= E [ X1 +  + X n ]
n
1
= ( E [ X1] +  + E [ X n ] )
n
1
(
= µ +  +µ =
n

n
=µ )
Análogamente para la varianza, y dado que las variables aleatorias X1, …, Xn son indepen-
dientes, resulta:

Var ( X ) = Var (
X 1 + ... + X n
n
)
=
1
n2
(
Var X 1 + ... + X n )
1
= 2 (Var ( X 1 ) + ... + Var ( Xn ))
n
1
(
= 2 σ 2 + ... + σ 2 = 2 =
n
nσ 2 σ 2
n n
)

A la correspondiente desviación típica del estadístico X se le llama error estándar de la
media y viene dado por:
σ
error estándar de la media muestral X= [1.14]
n
Observando los resultados de la expresión [1.13] se pone de manifiesto que el valor central del
estadístico media muestral es la media poblacional µ, y como la dispersión del estadístico media

muestral X en torno a su media µ es:
2
Var ( X ) = E [( X – µ ) ] = σn
2


resulta que cuanto mayor sea el tamaño muestral n menor será la Var(X), es decir, menor será la
– –
dispersión de X en torno a la media poblacional µ, y el valor observado del estadístico X estará

más próximo a µ, lo cual nos permite decir que el estadístico media muestral X puede ser consi-
derado como un buen estimador de la media poblacional µ.

En el Gráfico 1.2 se indica la distribución muestral del estadístico media muestral, X, para
muestras de tamaño n = 25 y n = 110 procedentes de una población normal N(100, 6), en don-
de se observa que cada distribución muestral está centrada sobre la media poblacional, pero
cuando el tamaño muestral aumenta la distribución muestral del estadístico media muestral
está más concentrada en torno a la media de la población. En consecuencia el error estándar de
la media muestral es una función decreciente del tamaño n de la muestra, y la probabilidad de
que la media muestral difiera de la media poblacional en una cantidad fija, disminuye cuando
el tamaño de la muestra crece.

MUESTREO Y DISTRIBUCIONES EN EL MUESTREO  33


Gráfico 1.2. Representación gráfica de las funciones de densidad del estadístico media muestral
para muestras de tamaño n = 25 y n = 110, de una población N(100, 6).

El aumento de la muestra tiene un límite, pues llega un momento que aunque el tamaño de
la muestra siga aumentando la precisión prácticamente no aumenta. En efecto, supongamos una

población con σ = 12 y calculamos la desviación estándar del estadístico X para diferentes valores
de n, obteniéndose la Tabla 1.7.

Tabla 1.7. Diferentes valores de la desviación estándar de X cuando σ = 12 para n = 5, 10, 20, 30, …

Valores de n 5 10 20 30 40 50 60 70 80 90 100

σ
X=
Desviación estándar 5,38 3,79 2,68 2,19 1,89 1,69 1,55 1,43 1,34 1,26 1,20
n

Observando los valores de la Tabla 1.7 y su correspondiente representación gráfica, Gráfi-



co 1.2, se observa que la desviación estándar de X disminuye sustancialmente a medida que n
aumenta, pero cuando n pasa de 40 esta disminución se reduce hasta tal extremo que cuando n

sigue creciendo y toma valores superiores a 80 o 90 la desviación estándar de X prácticmente
no disminuye. En consecuencia, podemos decir que si utilizamos el estadístico media muestral

X para tener conocimiento o hacer inferencias sobre el parámetro media poblacional µ no es con-
veniente tomar muestras de tamaño demasiado grande pues el aumento del coste no compensa
con la escasa disminución de la precisión.

34  INFERENCIA ESTADÍSTICA PARA ECONOMÍA

También podría gustarte