Tema 6. Elementos de Estadistica Inferencial

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

Elementos de Estadística Inferencial

INTRODUCCIÓN
Todas las herramientas estadísticas con las que se cuenta hasta ahora, tales como tablas,
gráficos y cálculo de medidas descriptivas se podrían englobar en el término Estadística
Descriptiva, puesto que ellas esencialmente permiten describir, presentar y resumir
información que ha sido recolectada de alguna forma.
Sin embargo las técnicas de la Estadística Descriptiva no permiten responder interrogantes
que pueden surgir cuando no se dispone de la información sobre todos los individuos de
la población de interés sino sólo una parte de ella, es decir, que los datos provienen de una
muestra de individuos de la población bajo estudio.
Esto nos lleva al campo de la Estadística Inferencial, las cuales se usan esencialmente para
determinar la probabilidad de que una conclusión sacada a partir de los datos de una
muestra sea cierta en la población.
Lo que se hace entonces es analizar la muestra y extrapolar conclusiones desde la muestra
a la población.
6.1PARÁMETRO POBLACIONALES Y ESTIMADORES O ESTADÍSTICOS
Un objetivo que se presenta frecuentemente en las investigaciones de diferentes áreas es
conocer el promedio de alguna característica cuantitativa o la proporción de individuos
que poseen determinada característica cualitativa. Por ejemplo, la edad media de las
“mujeres de una dada región que usan determinado servicio”; o la proporción de “egresados
universitarios de un país” que hacen una carrera de posgrado. En general, las características
de interés en un estudio se denominan parámetros poblacionales. En los ejemplos dados los
parámetros poblacionales son la media y la proporción y generalmente se denotan con  a
la media y con  a la proporción.
Para determinar los parámetros poblacionales se requiere conocer los valores de la
variable para todos los individuos de la población, por ejemplo para determinar la edad
media se requiere conocer la edad de todas las mujeres que usan el servicio. Sin embargo,
no siempre es posible obtener la información de todos los individuos que componen la
población por razones de costo, tiempo y dinero, y cuando eso ocurre se hace necesario
recurrir a una muestra de la población. Luego, a partir de los datos de la muestra se busca
una manera de combinar la información de la muestra para obtener la característica de
interés.
En el ejemplo donde el parámetro de interés es la edad media, se toma una muestra de n
(tamaño de la muestra) mujeres de la población y se calcula el promedio de las edades en
la muestra. Surge entonces el interrogante a cerca de cual medida de promedio se usará
(media aritmética o mediana). Cualquiera sea la medida que se use, cada una de ella recibe
el nombre de estimador o estadístico. Si se conviene en usar la media aritmética, o sea, la
media muestral X , ella es en este caso el estimador de la media poblacional .

1
TEMA 6 Elementos de Estadística Inferencial

Se debe observar que para obtener el valor de X se debe combinar los valores observados
en la muestra y esto ocurre con cualquier estadístico o estimador de un parámetro, de
manera que formalmente se puede dar la siguiente definición:
Un estadístico o estimador es una función de los valores observados en los individuos que componen
la muestra, es decir, es la expresión matemática que indica la forma de combinar los datos.
La siguiente tabla muestra los símbolos de los parámetros y sus respectivos estimadores
de uso más frecuente

Características Símbolo del parámetro Símbolo del Estadístico


Media  X
Desviación estándar  S
Varianza 2 S2
Proporción  p
El valor que toma el estimador para una particular muestra se denomina una estimación del
parámetro poblacional. Por ejemplo, si en una muestra de 100 mujeres se calcula el valor
de la media aritmética y se obtiene X = 25.5 años, entonces 25.5 representa un valor
particular de X , es decir es una estimación del estimador. Obviamente con cada posible
muestra se tendría un valor diferente del estimador, es decir, se obtendría una estimación
diferente para el parámetro de interés. Por lo tanto, un estimador toma diferentes valores
para cada muestra, es decir, varía de muestra en muestra. Teniendo en cuenta este aspecto
de un estimador se puede dar una segunda definición de estimador:
Un estadístico o estimador es una variable aleatoria que toma diferentes valores para cada muestra
seleccionada.
De esta manera, las estimaciones dependen de la particular muestra con que estemos
trabajando.
En resumen, si se está interesado en conocer algún parámetro de una población de interés
(media, varianza, proporción, etc.), y no es posible observar o medir a todos los
individuos de la población para obtener el valor de dicho parámetro, entonces, una
posibilidad es obtener una muestra de tamaño n y conseguir una estimación del parámetro
usando un estimador del parámetro.
6.2 PLANTEAMIENTO GENERAL DE LOS PROBLEMAS DE ESTADÍSTICA INFERENCIAL
La inferencia estadística busca obtener información sobre la población a partir del estudio
de una muestra. Los problemas que aborda la inferencia estadística pueden clasificarse en
dos grandes grupos que son la estimación estadística y el contraste de hipótesis.
Estimación estadística: Pretende conocer cual es el valor o rango de valores más probable
para un determinado parámetro poblacional a partir de algún estadístico muestral.
Responde a preguntas del tipo: Obtenida una muestra de tamaño n y conocida su media
¿Cuál es el valor más probable para la media de la población? O ¿Entre qué valores se
encontrará la media de la población, con una seguridad del 95%?.

2
TEMA 6 Elementos de Estadística Inferencial

Contraste de hipótesis: Pretende demostrar o rechazar una hipótesis científica que


involucra a toda la población a partir del análisis de una muestra. Responde a preguntas
como: ¿Puede considerarse que el peso de las personas sigue una distribución normal? ¿El
rendimiento medio de dos máquinas diferentes es el mismo? ¿Existe relación entre los
accidentes laborales y el día de la semana? En el primer caso se trataría de una prueba de
bondad de ajuste o conformidad de los datos con una determinada distribución, en el
segundo una prueba de homogeneidad y en el tercero de una prueba de independencia.
La estimación estadística se basa en el hecho intuitivo de que algunas propiedades de la
muestra deben estar relacionadas con propiedades de la población de la que procede. Más
exactamente: siempre es posible encontrar un estadístico de la muestra cuya distribución de
probabilidad está relacionada con la distribución de probabilidad del parámetro poblacional de
interés.
Nota: Para poder aplicar el modelo se debe realizar de forma que todos los elementos de la
población tengan la misma probabilidad de ser elegidos en la muestra.
Esta condición es indispensable ya que de no cumplirse invalida todo el modelo y los
resultados dejan de ser admisibles.

6.3 DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES


La extracción de una muestra aleatoria a partir de una población constituye un
experimento aleatorio del cual podemos estudiar diferentes variables entre las que cabe
destacar la media y la varianza de la muestra obtenida. Es decir, dado el experimento
aleatorio de sacar una muestra al azar de tamaño n a partir de una población de tamaño N,
media  y varianza 2, podemos definir, entre otras, las variables aleatorias:
X = Media de la muestra obtenida.
S2= Varianza de la muestra obtenida.
Naturalmente hay muchos otros estadísticos importantes, pero evidentemente los mencionados
desempeñan un papel importante en muchas aplicaciones estadísticas. Estableceremos (y
demostraremos) algunos teoremas que se refieren a los estadísticos anteriores.
Al repetir el experimento un gran número de veces, es decir, si extraemos una muestra y
anotamos su media obtenemos una distribución de la variable aleatoria X . A esta
distribución se la denomina distribución muestral de la media y es una distribución normal
cuya media y varianza vienen dados en el siguiente teorema.
Teorema. Sea X una variable aleatoria con esperanza E X    y varianza V  X    2 . Sea X el
promedio muestral de una muestra aleatoria de tamaño n. Entonces:
a) E X    .

b) V X    2 / n .
X 
c) Para n grande, tiene aproximadamente la distribución N (0,1).
/ n

3
TEMA 6 Elementos de Estadística Inferencial

Demostración: (a) y (b) se deducen inmediatamente de las propiedades de la esperanza y de la


varianza establecidas anteriormente:
1 n  1 n
E X   E   X i    E  X i   n  
1
 n i 1  n i 1 n
Puesto que los Xi son independientes
1 n  1 2
V X   V   X i   2
n

V  X i  
1
n 2

 n i 1  n i 1 n2 n
(c) se deduce de una aplicación directa del teorema límite central que se desarrollará más adelante.
El siguiente teorema nos da información acerca del estadístico S 2 .
Teorema: Suponiendo que X 1 , X 2 ,..., X n es una muestra aleatoria de una variable aleatoria X con
esperanza  y varianza  2 . Sea

S2 
1 n
 X i  X 2
n  1 i 1

En donde X es el promedio muestral. Entonces se tiene lo siguiente:


 
a) E S 2   2 .
 
b) Si X está distribuida normalmente, n  1 /  2 S 2 tiene una distribución  cuadrado con
(n-1) grados de libertad.
Demostraremos a)
Escribiendo

 X  X    X i      X 
n n
2 2
i
i 1 i 1

i 1

   X i     2  X  X i       X 
2 2

   X i     2  X   X i     n  X 
n n
2 2

i 1 i 1

   X i     2n  X   n  X 
n
2 2 2

i 1

   X i     n  X 
n
2 2

i 1

Luego
 1 n 2 1  2 2
E   X  X     n  n  
2

 
i
 n 1 i 1  n 1  n 

4
TEMA 6 Elementos de Estadística Inferencial

Observación: si hubiésemos dividido por n en vez de (n-1) al definir S 2 , la propiedad anterior no


habría sido válida.
En resumen, podemos decir que
  
X ~ N  , 
 n
Este resultado se conoce como uno de los teoremas más importantes de la teoría
estadística, llamado Teorema del Límite Central, que se enuncia a continuación sin mucha
formalidad.
Dada una población con media  y desviación estándar  (finita), la distribución muestral
de la media basada en muestras aleatorias repetidas de tamaño n (grande) tiene las
siguientes propiedades:
1. La media de la distribución muestral de X , es decir, el valor esperado  X = E( X ) de la
distribución de probabilidad de X , es igual a la media  de la distribución de
probabilidad de la variable X.

2. La desviación estándar en la distribución muestral de X es igual a .
n
3. Con muestras de tamaño grande, la distribución muestral de X sigue un modelo teórico
denominado modelo de distribución normal, sin importar la forma de la distribución de
la población original, siempre que se cumplan las condiciones mencionadas.
Otra manera de expresar este resultado y que resulta útil para expresar los resultados de
los métodos de inferencia es la siguiente:
6.3.1 Teorema del límite central

Independiente de la distribución que tenga la variable aleatoria X, siempre que tenga media  y
varianza 2 finitas, al hacerse lo bastante grande el tamaño de muestra n, entonces la distribución
del estadístico
X 
Z
/ n

es Normal con media 0 y varianza 1, es decir, N(0, 1).

Observación:
Aunque siempre hay excepciones, tamaños de muestras de n = 30, o más, en la gran
mayoría de los casos aseguran la validez del teorema del límite central, es decir, la
distribución muestral para X tendrá aproximadamente una distribución normal para
n  30 si  es conocido.

5
TEMA 6 Elementos de Estadística Inferencial

6.4 ESTIMACIÓN
Como ya se dijo, uno de los principales usos de la Estadística Inferencial es la
aproximación de parámetros poblacionales a partir de los correspondientes estadísticos
muestrales.
El valor obtenido del estadístico a partir de una muestra recibe el nombre de estimación
puntual, que pretende determinar cual es el valor más probable para un parámetro
poblacional a partir de los estadísticos muestrales. Por ejemplo: se sabe que la media de la
muestra es el mejor estimador de la media de la población y que la desviación estándar es
el mejor estimador de la desviación típica poblacional. Estos resultados de la estimación
puntual son el punto de partida para la determinación de los intervalos de confianza con
los que opera la estimación por intervalo, pero no son suficientes por si solos ya que no
dicen nada sobre la posibilidad de que el parámetro poblacional adopte otros valores.
Tomar como parámetro poblacional el valor de una estimación puntual, sin más, es un
procedimiento no recomendable.

6.4.1 Propiedades de los buenos estimadores


Debe aclararse que no se puede evaluar la bondad de un procedimiento de estimación
sobre la base de un sólo resultado. Una medida de la bondad de la estimación sólo puede
determinarse cuando el procedimiento se realiza muchas veces. En la práctica estadística,
aunque se trabaje con una sola muestra y, en consecuencia, con un sólo valor del
estimador, la bondad del mismo estará respaldada por toda la teoría acerca de la
distribución del estimador alrededor del parámetro que estima.
Con esta analogía en mente, se pasará ahora a considerar las cuatro propiedades más
importantes que deben reunir los buenos estimadores.
Ellas son:
1. Insesgabilidad: La propiedad de insesgabilidad establece que el promedio o valor
esperado de todos los valores posibles que puede tomar un estimador sea igual al
parámetro estimado.
En otras palabras, si se toman todas las muestras posibles de un tamaño determinado de
una población y se calcula en cada muestra el estimador del parámetro de interés, se
puede obtener el promedio de estos valores. Si el valor encontrado coincide con el
parámetro, se dice que el estimador es insesgado.
En símbolos:
 parámetro 1 estimador
si E[1] = 
1 es un estimador insesgado de .
Si por el contrario,
E[1] =  + k
1 es un estimador sesgado de  siendo k la magnitud del sesgo.

6
TEMA 6 Elementos de Estadística Inferencial

2. Insesgabilidad de la varianza mínima: Esta propiedad dice que un buen estimador es


aquel de mínima varianza con respecto a otros estimadores posibles del mismo parámetro.
En símbolos:
 parámetro 1 y 2 estimadores de 
si V [1] < V [2]
1 es mejor estimador de  que 2.
En general, si se tienen las siguientes distribuciones de frecuencias correspondientes a dos
estimadores 1 y 2 de un cierto parámetro :

f (1)

f (2)

1 = 2

los dos estimadores son insesgados pues su esperanza coincide con el valor del parámetro
. Pero, ¿qué se puede decir con respecto a su variabilidad? Evidentemente los valores que toma 1
están mucho más concentrados alrededor del parámetro a estimar que los valores de 2.
Intuitivamente un investigador confiará más en un estimador muestral que tenga menor
posibilidad de alejarse del verdadero valor del parámetro poblacional.
Generalmente, suele decirse que un estimador de mínima varianza es un estimador
eficiente.
3. Consistencia: Un estimador puede ser sesgado para muestras chicas pero a medida que
se incrementa el tamaño de la muestra, se va convirtiendo en insesgado, llegando a
desviarse del verdadero valor del parámetro en una cantidad infinitesimal.
Cuando se presenta esta situación, se dice que el estimador es consistente.
4. Distribución asintóticamente normal: Se dice que un estimador es asintóticamente
normal si además de ser insesgado y eficiente, cumple con la propiedad de tener
distribución normal cuando el tamaño de la muestra se incrementa.
Por último, se puede decir que las propiedades 1 y 2 son satisfechas por estimadores
calculados en muestras de cualquier tamaño, mientras que las propiedades 3 y 4 se
cumplen solamente cuando los estimadores se calculan en base a observaciones
provenientes de muestras grandes.

7
TEMA 6 Elementos de Estadística Inferencial

6.5 PROCEDIMIENTOS DE ESTIMACIÓN


Los procedimientos de estimación se pueden dividir básicamente en dos tipos:
a) Estimación puntual
b) Estimación por intervalos
La estimación puntual es un proceso mediante el cual se estima el parámetro en un punto,
dando un valor específico como estimación.
Los dos métodos tradicionales de estimación puntual de parámetros son el de mínimos
cuadrados y el de máxima verosimilitud.

Nota: Es muy probable que el estadístico insesgado más eficiente no estime el parámetro
poblacional con “exactitud”, esto se debe a que en realidad cuando realizamos la
estimación sólo tomamos una muestra, y obtenemos uno de los posibles valores del
estadístico que en general no necesariamente debe coincidir con el valor del parámetro
que se quiere estimar.

6.5.1 Estimación por Intervalos


Si bien la precisión se incrementa con muestras grandes no hay razón para esperar que la
estimación puntual de una muestra dada deba ser exactamente igual al parámetro
poblacional que se supone estimar. Entonces, existen muchas situaciones en las cuales es
preferible determinar un intervalo dentro del cual se esperaría encontrar el valor del
parámetro, tal metodología se conoce como estimación por intervalos y el intervalo se
denomina Intervalo de Confianza
Los Intervalos de Confianza son intervalos aleatorios obtenidos a partir de los datos y en los
cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo contenga
al verdadero valor del parámetro que se quiere estimar.
Al nivel de confianza se lo denota como 100(1-)%, donde  se considera a menudo como la
probabilidad de cometer un error, ya que indica la proporción de veces en que uno se
equivoca o comete un error al suponer que el intervalo contiene al parámetro poblacional.
De esta manera, 1- será la proporción de veces que los distintos intervalos de confianza
contienen al parámetro. Usualmente el valor 100 (1- )% se lo fija en el 95%, lo que llevaría
a establecer que en promedio sólo en el 5% de los casos se cometería error al suponer que
el intervalo contiene al verdadero valor del parámetro.
Para encontrar estos intervalos debemos conocer la distribución muestral de cada
estimador, que como ya se vio esto depende del parámetro de interés y del estadístico que
se elija para estimar dicho parámetro. Sin embargo es posible dar la forma general que
adopta un intervalo de confianza en cualquier caso.

8
TEMA 6 Elementos de Estadística Inferencial

El procedimiento general para realizar una estimación estadística de un parámetro


poblacional a partir de una muestra será:
1. Determinar, según el parámetro buscado, que estadístico o estadísticos muestrales
intervienen en su distribución de probabilidad. En el ejemplo anterior sería X .
2. Calcular dichos estadísticos.
3. Construir un intervalo de confianza para el parámetro estudiado con el nivel de
significación elegido, a partir de su distribución de probabilidad.
A continuación aparecen los estadísticos muestrales y su distribución de probabilidad para
la estimación de distintos parámetros poblacionales.

6.5.2 Estimación del parámetro media poblacional 


a) Estimación puntual
Se supone que se quiere conocer el verdadero valor del parámetro µ. La única solución a
este problema será recurrir a una muestra y calcular el promedio. Se obtendrá así el valor
de un estadístico muestral mediante el cual se estimará el verdadero promedio de la
población objetivo.
X es el mejor estimador de µ pues cumple con todas las propiedades de un buen
estimador:
- es un estimador insesgado ya que EX    .
- es un estimador más eficiente que la mediana ya que:
V Me  V X 
b) Estimación por intervalos
Hemos explicado que X es el mejor estimador puntual de  pero nos sorprendería
realmente que la media muestral fuera exactamente igual a . Resultaría más comprensible
pensar que el valor aportado por un estimador se ubica en las cercanías del parámetro.
Esta situación sugiere que puede ser más apropiado efectuar un intervalo alrededor de X
y establecer una cierta confianza de que  esté comprendido en dicho intervalo.
En otras palabras, dada una muestra en particular donde se ha calculado X , se puede
definir un intervalo alrededor del estadístico media muestral y establecer una cierta
probabilidad de que  esté comprendido en dicho intervalo.
Cuando hablemos de probabilidad en la estimación por intervalos de un parámetro
poblacional siempre hablaremos de la probabilidad de que el intervalo contenga al
parámetro y no de la probabilidad de que el parámetro caiga en un intervalo determinado.
Una regla de oro en este punto es la siguiente:
El parámetro es una cantidad desconocida pero fija, el intervalo es aleatorio.
Hemos aclarado el concepto de estimación por intervalos, desarrollaremos ahora en
detalle su construcción para el parámetro media poblacional .

9
TEMA 6 Elementos de Estadística Inferencial

Ya sabemos que el mejor estimador puntual de  es X , la media muestral y, en


consecuencia, la utilizaremos para la construcción del intervalo de confianza.
Basándonos en el teorema del límite central podemos establecer:
  
X ~ N  , 
 n
pero podemos utilizar la tabla de probabilidades normales, para ello debemos
estandarizar esta variable aleatoria.
Entonces, podemos escribir:

X 
z ~ N 0,1 (1)
/ n
Siendo z una variable normal estandarizada, se deberán buscar dos valores -z/2 y z/2
tales que:
P(-z/2 z  z/2) = 1 - 
O lo que es lo mismo
 X  
P  z / 2   z / 2   1  
 / n 
Si graficamos la expresión anterior, tenemos:

1- 

-z/2 0 z/2

El coeficiente 1- se conoce con el nombre de coeficiente de confianza del que podemos dar
la siguiente definición:
El coeficiente de confianza es la probabilidad de que un intervalo contenga al parámetro estimado.
Luego, un intervalo de confianza 100(1-)% para la  media de una población normal,
cuando el valor de  se conoce, está dado por
   
 X  z / 2  n , X  z / 2  n  (1)
 

O, lo que es equivalente, por X  z / 2 
n

10
TEMA 6 Elementos de Estadística Inferencial

El coeficiente de confianza es un valor fijado por el investigador antes de comenzar la


estimación. Así, si decide trabajar con una confianza del 95% para efectuar la estimación,
el razonamiento será el siguiente:
“Sobre 100 muestras aleatorias de un cierto tamaño n de una población, si en cada una se calcula la
media muestral X y, a partir de ellas, se construyen 100 intervalos de confianza para el parámetro
que se desea estimar 95 contendrán al verdadero valor del parámetro poblacional, mientras que 5 no
lo abarcarán”.
Volvamos ahora al problema de construir el intervalo de confianza para estimar .
Ya tenemos un estadístico que liga al parámetro que se desea estimar con su mejor
estimador puntual expresado es la variable z que, como sabemos, tiene una distribución
normal N(0,1).
Una vez fijado el coeficiente de confianza 1-, por ejemplo, igual a 0.95, podemos buscar
en la tabla de probabilidades correspondiente a la distribución normal los valores de
 z / 2 y z / 2 que definen un intervalo simétrico de probabilidad igual a 0.95 alrededor de
=0.
Gráficamente tenemos:

0.95

-z/2 = -1.96 0 z/2 = 1.96

z / 2 es un valor de la variable estandarizada que acumula una probabilidad igual a 0.975 y


 z / 2 es un valor de la misma variable que acumula una probabilidad de 0.025.

Si buscamos en la tabla de probabilidades, vemos que  z / 2 = -1.96 y z / 2 =1.96.


Entonces, podemos escribir:
 X  
P  1.96   1.96   0.95
 / n 
Ahora bien, como estamos tratando de estimar el parámetro , lo razonable sería despejar
convenientemente de modo que quede en el centro del intervalo sólo este parámetro. Por
lo tanto tenemos
   
P X  1.96    X  1.96   0.95
 n n
Y esto no es más que el intervalo de confianza para el parámetro  cuando trabajamos con
una confianza del 95%.

11
TEMA 6 Elementos de Estadística Inferencial

Nota: Aun cuando se pueda utilizar (1) para obtener un intervalo con cualquier grado
deseado de confianza, solo hay tres niveles de confianza que se utilizan mas
frecuentemente en la práctica. Éstos son 99%, 95% y 90%, y los intervalos se obtienen
empleando 2.58, 1.96 y 1.645, respectivamente, en lugar de z / 2 .
Ahora, si consideramos que la longitud del intervalo especifica su precisión o exactitud,
entonces el nivel de confianza (o confiabilidad) del intervalo está inversamente
relacionado con su precisión. Una estimación de intervalo altamente confiable puede ser
imprecisa en que los puntos extremos del intervalo pueden estar muy separados, en tanto
que un intervalo preciso puede ocasionar relativamente poca confiabilidad. Por lo tanto,
no se puede decir de manera equívoca que un intervalo de 99% se prefiere a uno de 95%;
la ganancia en confiabilidad ocasiona una pérdida en precisión.
Una estrategia atractiva consiste en especificar el nivel deseado de confianza y la longitud
del intervalo deseado y luego determinar el tamaño de muestra necesario.
La fórmula general para el tamaño muestral n necesario para asegurar una longitud L de
intervalo se obtiene de L  2 z / 2   / n como


2

n   2 z / 2  
 L
Cuanto más pequeña sea la longitud L deseada, mayor debe ser n. Además, n es una
función creciente de  (más variabilidad de la población necesita mayor tamaño muestral)
y el nivel de confianza 100(1-) (a medida que  decrece, z / 2 aumenta).

La medida problemática que aparece en (1) es , que ya sabemos identifica a la desviación


estándar poblacional.
En situaciones reales de investigación, la población generalmente es grande y  es un
parámetro desconocido. Para solucionar este problema,  también debe ser estimado. Su
estimador lógico será S, la desviación estándar de la muestra.
Si el tamaño de la muestra es suficientemente grande (algunos autores opinan mayor a 30,
otros mayor a 50), no hay problemas en seguir utilizando la distribución de probabilidad
normal para medir la confianza de la estimación.
Si  es desconocida se debe sustituir por S. También hay que tener en cuenta que si el
tamaño de la población es finito hay que multiplicar  o S por el factor
N n
N 1
En cambio, si la muestra es chica y  es desconocida, se debe estimar usando los datos de la
muestra. Un estimador razonable para  es el desvío estándar de la muestra

 x  X 
n
2
i
S i 1
(2)
n 1
Reemplazar  por S en (1) resulta razonable ya que se demostró que S2 es un estimador
insesgado de 2, es decir, E[S2] = 2. Sin embargo, la distribución muestral del estadístico
que resulta de esa sustitución, es:

12
TEMA 6 Elementos de Estadística Inferencial

X 
t (3)
S/ n
y ya no es N(0,1) debido a que se usa una estimación para  y en consecuencia se
introduce en la expresión (3) una variabilidad adicional. En efecto, el estadístico t definido
en (3) posee una distribución denominada t de Student, la cual tiene una apariencia similar
a la distribución normal, simétricas y en forma de campana, pero la distribución t es más
dispersa. El único parámetro de la distribución t de Student es el denominado grados de
libertad y que en este caso se encuentra relacionado al tamaño de muestra n. Denotamos
este parámetro por la letra griega , luego
 = n-1
Posibles valores de  son los enteros positivos 1,2,3,…. Cada valor diferente de 
corresponde a una distribución t diferente.
Para cualquier valor fijo del parámetro , la función de densidad que especifica la curva t
asociada tiene un aspecto todavía más complicado que la función de densidad normal.
Afortunadamente, solo necesitamos preocuparnos de varias de las más importantes
características de estas curvas.
Propiedades de distribuciones t
Denotemos por t la curva de función de densidad para  grados de libertad
1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t está más dispersa que la curva normal estándar.
3. A medida que  aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que , la secuencia de curvas t se aproxima a la curva normal
estándar.
Como deseamos utilizar t para obtener un intervalo de confianza es necesario establecer
una notación para la distribución t.
Sea t , el valor sobre el eje de medición cuya área bajo la curva t con grados de libertad  a
la derecha de t , es ; t , se llama valor crítico t.

t,v

A continuación se presenta una serie de problemas de cálculo de intervalos de confianza para la


media poblacional.

Ejemplo 1 ( conocido): Unos ingenieros industriales, que se especializan en ergonomía, están


interesados en el diseño de espacios de trabajo y aparatos manejados por trabajadores, para alcanzar
alta productividad y comodidad. El artículo “Studies on Ergonomicall Designed Alphanumeric
Keyboards” (Human Factors, 1985, pp. 175-187) reporta un estudio de altura preferida para un
teclado experimental con un gran soporte para el puño y antebrazo. Se seleccionó una muestra de 31

13
TEMA 6 Elementos de Estadística Inferencial

mecanógrafas capacitadas, y se determinó la altura preferida del teclado para cada una. La altura
resultante preferida promedio de la muestra fue de 80 cm. Si se supone que cada altura preferida
está normalmente distribuida con =2 cm. (un valor sugerido por la información del artículo)
obtener un intervalo de confianza al 95% para .
Para realizar la estimación se deberán reemplazar en la expresión del intervalo dada anteriormente
los siguientes datos:
n = 31 σ = 2 cm
X  80 cm 1 – α = 0,95  α = 0,05; luego 1 – (α/2) = 0,975

De manera que el intervalo quedará planteado de la siguiente manera:


   
P X  z / 2    X  z / 2   0.95
 n n
Para hallar z / 2 se debe usar la Tabla. Resulta necesario entrar en la tabla buscando la
probabilidad 0,975 en el cuerpo del cuadro y hallar z / 2 al cual corresponde el valor 1.96;
luego por simetría  z / 2  1.96
Luego, reemplazando los valores en la expresión anterior, tenemos
 2 2 
P 80  1.96    80  1.96   0.95
 31 31 
Resolviendo las operaciones
P79.3    80.7  0.95
Luego el intervalo de confianza para el parámetro  cuando trabajamos con una confianza del 95%,
es 79.3,80.7

Ejemplo 2 ( desconocido, n grande): Las medidas de los diámetros de una muestra al azar de 30
cojinetes de bolas hechos por una determinada máquina durante una semana dieron una media de
0,824 pulgadas y una desviación estándar de 0,042 pulgadas. Se desea hallar los límites de
confianza del 95 % para el diámetro medio de todos los cojinetes.
Del enunciado se pueden extraer los siguientes datos:
n = 30 σ = S = 0,042 pulgadas
X = 0,824 pulgadas 1 – α = 0,95  α = 0,05, luego 1 – (α/2) = 0,975
De manera que el intervalo quedará planteado de la siguiente manera:
 0,042 0,042 
P 0,824  1,96     0,824  1,96    0,95
 30 30 
P0,824  1,96  0,008    0,824  1,96  0,008  0,95
P0,824  0,0015    0,824  0,0015   0,95
P0,8225    0,8255   0,95

14
TEMA 6 Elementos de Estadística Inferencial

Ejemplo 3 ( desconocido, n chico): Un ingeniero civil hace pruebas con la resistencia a la


compresión del concreto. Para ello somete 12 probetas de concreto a ensayos cuyos valores arroja
una media de 2259,91 Kg. y una desviación estándar de 34,05 kg. Se desea hallar el intervalo de
confianza del 95 % para la resistencia promedio.
Para realizar la estimación se deberán reemplazar en la expresión del intervalo dado anteriormente
los siguientes datos:
n = 12 S = 34,05 Kg.
X = 2259,91 Kg. 1 – α = 0,95  α = 0,05
De manera que el intervalo quedará planteado de la siguiente manera:
 34,05 
P 2259,91  t  0,05 
34,05
   2259,91  t  0,05   0,95


121,  
 2 
12 121, 
 2 
12 

 34,05 34,05 
P 2259 ,91  t11 ; 0, 025    2259 ,91  t11 ; 0, 025   0,95
 12 12 
Para hallar t 11 ; 0,025 se debe usar la tabla de distribución de probabilidad t-Student. Entrando en la
tabla con 11 grados de libertad por el costado izquierdo de la tabla y buscando una probabilidad de
0,975 (resulta de realizar 1-0.025) en la parte superior, se tiene:
t 11 ; 0,975 = 2,20
Luego se completa y resuelve el intervalo:
 34,05 34,05 
P 2259 ,91  2,20     2259 ,91  2,20    0,95
 12 12 

P2259,91  2,20  9,8294    2259,91  2,20  9,8294   0,95


P2259,91  21,63    2259,91  21,63  0,95
P2238,28    2281,54  0,95

6.5.3 Estimación del parámetro poblacional 2


Existen situaciones prácticas generalmente ligadas a la investigación industrial, en las que
interesa estimar al parámetro varianza poblacional.
Así por ejemplo, los instrumentos de medición, tan utilizados por los ingenieros que
monitorean sistemas productivos, deben medir con la mayor exactitud posible. El sesgo de
un instrumento de medición puede ser corregido pero su precisión se mide por la
desviación estándar de las mediciones que efectúa. La precisión generalmente está ligada
al diseño del instrumento y no puede ser aumentada por el operador de la máquina. Por
ello resulta de gran importancia conocer la variabilidad de las mediciones antes de decidir,
por ejemplo, la compra de un instrumento de medición.
Los profesionales ligados al área de control de calidad de una empresa reconocen la
importancia que tiene, en la calidad de un producto, el estudio de la capacidad de un
proceso productivo para garantizar la producción de piezas homogéneas. Cuanto más
homogéneas son las mediciones de las piezas, mayor es su calidad. No es lo mismo
vender, por ejemplo, un producto alimenticio empaquetado en bolsitas de 1kg. que han

15
TEMA 6 Elementos de Estadística Inferencial

sido llenadas por máquinas que operan con una precisión de 0.050Kg. que con máquinas
que empaqueten con una precisión de 0.350Kg.
Siempre que tenemos que estimar variabilidad, debemos hacer una estimación del
parámetro poblacional 2.
a) Estimación puntual
El estimador lógico del parámetro 2 será evidentemente, la varianza muestral S2, es decir

 x  X 
n
2
i
S2  i 1
n 1
b) Estimación por intervalos
Para utilizar a S2 como estimador de 2 necesitamos conocer su distribución de
probabilidad. De esta manera podremos establecer un cierto coeficiente de confianza de la
estimación.
No existe una distribución conocida para S2 pero sí para cierta transformación del mismo.
Si la muestra proviene de una población en la cual la variable en estudio se distribuye
normalmente, tenemos:
 n  1 s 2
~  n21
 2


2
donde es la distribución chi cuadrado con n-1 grados de libertad.
n 1

Una vez que contamos con esta información, podemos establecer un intervalo de
confianza para estimar 2, de la siguiente manera
 2
P 
n  1S 2  2 
 n11 / 2 

 2     
  1  
 n 1 / 2

Despejando convenientemente, obtenemos el siguiente intervalo
 
 n  1S 2 n  1S 2 
P 2   2
2
  1
  n1 / 2 
 n11 / 2 
Si en el Ejemplo 2, se desea hallar el intervalo de confianza del 99 % para la varianza de la
población de cojinetes.
El intervalo quedará planteado de la siguiente manera:
 
 30  10,0042 2 30  10,0042  
2
P  
2
 0,99
  301 ,  1 0, 01 
2
 2  0,01  
301 ,  
  2   2  
 29  0,000018 29  0,000018 
P   2
   0,99
  29;0,995  29
2 2
, 0, 005 

16
TEMA 6 Elementos de Estadística Inferencial

Para hallar 2 29 ; 0,995 y 2 29 ; 0,005 se debe usar la tabla de distribución de probabilidad chi-
cuadrado. Entrando con 29 grados de libertad por el costado izquierdo de la tabla y probabilidades
de 0,995 y de 0,005 por la parte superior se tiene:
2 29 ; 0,995 = 52,3 y 2 29 ; 0,005 = 13,1

Luego se completa y resuelve el intervalo:


 0,00051 0,00051 
P 2   0,99
 52,3 13,1 

P 0,00001   2  0,00004  0,99 

6.5.4 Estimación del parámetro proporción poblacional 


a) Estimación puntual
El mejor estimador puntual de  será, intuitivamente, la proporción muestral p.
Esta proporción se obtiene
x
p
n
donde la cantidad x representa el número total de éxitos en n pruebas binomiales y n el
total de pruebas.
Se conoce que la proporción muestral p es un estimador insesgado de  y además posee
varianza mínima cuando se la compara con otros estimadores.
b) Estimación por intervalos
Cuando n es suficientemente grande (n>30) podemos decir que p tiene una distribución
normal con media
p
~ N  0,1
p (1  p )
n
Para ilustrar el manejo de las anteriores relaciones veamos un ejemplo:
De un registro de accidentes de tráfico se seleccionan 500 al azar, encontrándose que el
número de ellos en los que hubo víctimas mortales es del 20%. Queremos saber con una
probabilidad del 95% entre que valores se encuentra dicho porcentaje en el total de
accidentes.
Como se trata de estimar una proporción poblacional  a partir de una muestra utilizamos
el estadístico:
p
p (1  p )
n
que en este caso queda:

17
TEMA 6 Elementos de Estadística Inferencial

0.2  
 55.9 (0.2   )
0.2  0.8
500
Sabemos que este valor se distribuye según una N(0, 1), por lo tanto su intervalo de
confianza al 95% vendrá dado por [-1.96, 1.96]. Por lo tanto basta con deducir los valores
del intervalo para  resolviendo:
55.9(0.2- ) = -1.96   = 0.235
55.9(0.2- ) = 1.96   = 0.165
Luego el intervalo de confianza buscado es el [16.5, 23.5].

18

También podría gustarte