Tema 6. Elementos de Estadistica Inferencial
Tema 6. Elementos de Estadistica Inferencial
Tema 6. Elementos de Estadistica Inferencial
INTRODUCCIÓN
Todas las herramientas estadísticas con las que se cuenta hasta ahora, tales como tablas,
gráficos y cálculo de medidas descriptivas se podrían englobar en el término Estadística
Descriptiva, puesto que ellas esencialmente permiten describir, presentar y resumir
información que ha sido recolectada de alguna forma.
Sin embargo las técnicas de la Estadística Descriptiva no permiten responder interrogantes
que pueden surgir cuando no se dispone de la información sobre todos los individuos de
la población de interés sino sólo una parte de ella, es decir, que los datos provienen de una
muestra de individuos de la población bajo estudio.
Esto nos lleva al campo de la Estadística Inferencial, las cuales se usan esencialmente para
determinar la probabilidad de que una conclusión sacada a partir de los datos de una
muestra sea cierta en la población.
Lo que se hace entonces es analizar la muestra y extrapolar conclusiones desde la muestra
a la población.
6.1PARÁMETRO POBLACIONALES Y ESTIMADORES O ESTADÍSTICOS
Un objetivo que se presenta frecuentemente en las investigaciones de diferentes áreas es
conocer el promedio de alguna característica cuantitativa o la proporción de individuos
que poseen determinada característica cualitativa. Por ejemplo, la edad media de las
“mujeres de una dada región que usan determinado servicio”; o la proporción de “egresados
universitarios de un país” que hacen una carrera de posgrado. En general, las características
de interés en un estudio se denominan parámetros poblacionales. En los ejemplos dados los
parámetros poblacionales son la media y la proporción y generalmente se denotan con a
la media y con a la proporción.
Para determinar los parámetros poblacionales se requiere conocer los valores de la
variable para todos los individuos de la población, por ejemplo para determinar la edad
media se requiere conocer la edad de todas las mujeres que usan el servicio. Sin embargo,
no siempre es posible obtener la información de todos los individuos que componen la
población por razones de costo, tiempo y dinero, y cuando eso ocurre se hace necesario
recurrir a una muestra de la población. Luego, a partir de los datos de la muestra se busca
una manera de combinar la información de la muestra para obtener la característica de
interés.
En el ejemplo donde el parámetro de interés es la edad media, se toma una muestra de n
(tamaño de la muestra) mujeres de la población y se calcula el promedio de las edades en
la muestra. Surge entonces el interrogante a cerca de cual medida de promedio se usará
(media aritmética o mediana). Cualquiera sea la medida que se use, cada una de ella recibe
el nombre de estimador o estadístico. Si se conviene en usar la media aritmética, o sea, la
media muestral X , ella es en este caso el estimador de la media poblacional .
1
TEMA 6 Elementos de Estadística Inferencial
Se debe observar que para obtener el valor de X se debe combinar los valores observados
en la muestra y esto ocurre con cualquier estadístico o estimador de un parámetro, de
manera que formalmente se puede dar la siguiente definición:
Un estadístico o estimador es una función de los valores observados en los individuos que componen
la muestra, es decir, es la expresión matemática que indica la forma de combinar los datos.
La siguiente tabla muestra los símbolos de los parámetros y sus respectivos estimadores
de uso más frecuente
2
TEMA 6 Elementos de Estadística Inferencial
b) V X 2 / n .
X
c) Para n grande, tiene aproximadamente la distribución N (0,1).
/ n
3
TEMA 6 Elementos de Estadística Inferencial
V X i
1
n 2
n i 1 n i 1 n2 n
(c) se deduce de una aplicación directa del teorema límite central que se desarrollará más adelante.
El siguiente teorema nos da información acerca del estadístico S 2 .
Teorema: Suponiendo que X 1 , X 2 ,..., X n es una muestra aleatoria de una variable aleatoria X con
esperanza y varianza 2 . Sea
S2
1 n
X i X 2
n 1 i 1
X X X i X
n n
2 2
i
i 1 i 1
i 1
X i 2 X X i X
2 2
X i 2 X X i n X
n n
2 2
i 1 i 1
X i 2n X n X
n
2 2 2
i 1
X i n X
n
2 2
i 1
Luego
1 n 2 1 2 2
E X X n n
2
i
n 1 i 1 n 1 n
4
TEMA 6 Elementos de Estadística Inferencial
Independiente de la distribución que tenga la variable aleatoria X, siempre que tenga media y
varianza 2 finitas, al hacerse lo bastante grande el tamaño de muestra n, entonces la distribución
del estadístico
X
Z
/ n
Observación:
Aunque siempre hay excepciones, tamaños de muestras de n = 30, o más, en la gran
mayoría de los casos aseguran la validez del teorema del límite central, es decir, la
distribución muestral para X tendrá aproximadamente una distribución normal para
n 30 si es conocido.
5
TEMA 6 Elementos de Estadística Inferencial
6.4 ESTIMACIÓN
Como ya se dijo, uno de los principales usos de la Estadística Inferencial es la
aproximación de parámetros poblacionales a partir de los correspondientes estadísticos
muestrales.
El valor obtenido del estadístico a partir de una muestra recibe el nombre de estimación
puntual, que pretende determinar cual es el valor más probable para un parámetro
poblacional a partir de los estadísticos muestrales. Por ejemplo: se sabe que la media de la
muestra es el mejor estimador de la media de la población y que la desviación estándar es
el mejor estimador de la desviación típica poblacional. Estos resultados de la estimación
puntual son el punto de partida para la determinación de los intervalos de confianza con
los que opera la estimación por intervalo, pero no son suficientes por si solos ya que no
dicen nada sobre la posibilidad de que el parámetro poblacional adopte otros valores.
Tomar como parámetro poblacional el valor de una estimación puntual, sin más, es un
procedimiento no recomendable.
6
TEMA 6 Elementos de Estadística Inferencial
f (1)
f (2)
1 = 2
los dos estimadores son insesgados pues su esperanza coincide con el valor del parámetro
. Pero, ¿qué se puede decir con respecto a su variabilidad? Evidentemente los valores que toma 1
están mucho más concentrados alrededor del parámetro a estimar que los valores de 2.
Intuitivamente un investigador confiará más en un estimador muestral que tenga menor
posibilidad de alejarse del verdadero valor del parámetro poblacional.
Generalmente, suele decirse que un estimador de mínima varianza es un estimador
eficiente.
3. Consistencia: Un estimador puede ser sesgado para muestras chicas pero a medida que
se incrementa el tamaño de la muestra, se va convirtiendo en insesgado, llegando a
desviarse del verdadero valor del parámetro en una cantidad infinitesimal.
Cuando se presenta esta situación, se dice que el estimador es consistente.
4. Distribución asintóticamente normal: Se dice que un estimador es asintóticamente
normal si además de ser insesgado y eficiente, cumple con la propiedad de tener
distribución normal cuando el tamaño de la muestra se incrementa.
Por último, se puede decir que las propiedades 1 y 2 son satisfechas por estimadores
calculados en muestras de cualquier tamaño, mientras que las propiedades 3 y 4 se
cumplen solamente cuando los estimadores se calculan en base a observaciones
provenientes de muestras grandes.
7
TEMA 6 Elementos de Estadística Inferencial
Nota: Es muy probable que el estadístico insesgado más eficiente no estime el parámetro
poblacional con “exactitud”, esto se debe a que en realidad cuando realizamos la
estimación sólo tomamos una muestra, y obtenemos uno de los posibles valores del
estadístico que en general no necesariamente debe coincidir con el valor del parámetro
que se quiere estimar.
8
TEMA 6 Elementos de Estadística Inferencial
9
TEMA 6 Elementos de Estadística Inferencial
X
z ~ N 0,1 (1)
/ n
Siendo z una variable normal estandarizada, se deberán buscar dos valores -z/2 y z/2
tales que:
P(-z/2 z z/2) = 1 -
O lo que es lo mismo
X
P z / 2 z / 2 1
/ n
Si graficamos la expresión anterior, tenemos:
1-
-z/2 0 z/2
El coeficiente 1- se conoce con el nombre de coeficiente de confianza del que podemos dar
la siguiente definición:
El coeficiente de confianza es la probabilidad de que un intervalo contenga al parámetro estimado.
Luego, un intervalo de confianza 100(1-)% para la media de una población normal,
cuando el valor de se conoce, está dado por
X z / 2 n , X z / 2 n (1)
O, lo que es equivalente, por X z / 2
n
10
TEMA 6 Elementos de Estadística Inferencial
0.95
11
TEMA 6 Elementos de Estadística Inferencial
Nota: Aun cuando se pueda utilizar (1) para obtener un intervalo con cualquier grado
deseado de confianza, solo hay tres niveles de confianza que se utilizan mas
frecuentemente en la práctica. Éstos son 99%, 95% y 90%, y los intervalos se obtienen
empleando 2.58, 1.96 y 1.645, respectivamente, en lugar de z / 2 .
Ahora, si consideramos que la longitud del intervalo especifica su precisión o exactitud,
entonces el nivel de confianza (o confiabilidad) del intervalo está inversamente
relacionado con su precisión. Una estimación de intervalo altamente confiable puede ser
imprecisa en que los puntos extremos del intervalo pueden estar muy separados, en tanto
que un intervalo preciso puede ocasionar relativamente poca confiabilidad. Por lo tanto,
no se puede decir de manera equívoca que un intervalo de 99% se prefiere a uno de 95%;
la ganancia en confiabilidad ocasiona una pérdida en precisión.
Una estrategia atractiva consiste en especificar el nivel deseado de confianza y la longitud
del intervalo deseado y luego determinar el tamaño de muestra necesario.
La fórmula general para el tamaño muestral n necesario para asegurar una longitud L de
intervalo se obtiene de L 2 z / 2 / n como
2
n 2 z / 2
L
Cuanto más pequeña sea la longitud L deseada, mayor debe ser n. Además, n es una
función creciente de (más variabilidad de la población necesita mayor tamaño muestral)
y el nivel de confianza 100(1-) (a medida que decrece, z / 2 aumenta).
x X
n
2
i
S i 1
(2)
n 1
Reemplazar por S en (1) resulta razonable ya que se demostró que S2 es un estimador
insesgado de 2, es decir, E[S2] = 2. Sin embargo, la distribución muestral del estadístico
que resulta de esa sustitución, es:
12
TEMA 6 Elementos de Estadística Inferencial
X
t (3)
S/ n
y ya no es N(0,1) debido a que se usa una estimación para y en consecuencia se
introduce en la expresión (3) una variabilidad adicional. En efecto, el estadístico t definido
en (3) posee una distribución denominada t de Student, la cual tiene una apariencia similar
a la distribución normal, simétricas y en forma de campana, pero la distribución t es más
dispersa. El único parámetro de la distribución t de Student es el denominado grados de
libertad y que en este caso se encuentra relacionado al tamaño de muestra n. Denotamos
este parámetro por la letra griega , luego
= n-1
Posibles valores de son los enteros positivos 1,2,3,…. Cada valor diferente de
corresponde a una distribución t diferente.
Para cualquier valor fijo del parámetro , la función de densidad que especifica la curva t
asociada tiene un aspecto todavía más complicado que la función de densidad normal.
Afortunadamente, solo necesitamos preocuparnos de varias de las más importantes
características de estas curvas.
Propiedades de distribuciones t
Denotemos por t la curva de función de densidad para grados de libertad
1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t está más dispersa que la curva normal estándar.
3. A medida que aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que , la secuencia de curvas t se aproxima a la curva normal
estándar.
Como deseamos utilizar t para obtener un intervalo de confianza es necesario establecer
una notación para la distribución t.
Sea t , el valor sobre el eje de medición cuya área bajo la curva t con grados de libertad a
la derecha de t , es ; t , se llama valor crítico t.
t,v
13
TEMA 6 Elementos de Estadística Inferencial
mecanógrafas capacitadas, y se determinó la altura preferida del teclado para cada una. La altura
resultante preferida promedio de la muestra fue de 80 cm. Si se supone que cada altura preferida
está normalmente distribuida con =2 cm. (un valor sugerido por la información del artículo)
obtener un intervalo de confianza al 95% para .
Para realizar la estimación se deberán reemplazar en la expresión del intervalo dada anteriormente
los siguientes datos:
n = 31 σ = 2 cm
X 80 cm 1 – α = 0,95 α = 0,05; luego 1 – (α/2) = 0,975
Ejemplo 2 ( desconocido, n grande): Las medidas de los diámetros de una muestra al azar de 30
cojinetes de bolas hechos por una determinada máquina durante una semana dieron una media de
0,824 pulgadas y una desviación estándar de 0,042 pulgadas. Se desea hallar los límites de
confianza del 95 % para el diámetro medio de todos los cojinetes.
Del enunciado se pueden extraer los siguientes datos:
n = 30 σ = S = 0,042 pulgadas
X = 0,824 pulgadas 1 – α = 0,95 α = 0,05, luego 1 – (α/2) = 0,975
De manera que el intervalo quedará planteado de la siguiente manera:
0,042 0,042
P 0,824 1,96 0,824 1,96 0,95
30 30
P0,824 1,96 0,008 0,824 1,96 0,008 0,95
P0,824 0,0015 0,824 0,0015 0,95
P0,8225 0,8255 0,95
14
TEMA 6 Elementos de Estadística Inferencial
34,05 34,05
P 2259 ,91 t11 ; 0, 025 2259 ,91 t11 ; 0, 025 0,95
12 12
Para hallar t 11 ; 0,025 se debe usar la tabla de distribución de probabilidad t-Student. Entrando en la
tabla con 11 grados de libertad por el costado izquierdo de la tabla y buscando una probabilidad de
0,975 (resulta de realizar 1-0.025) en la parte superior, se tiene:
t 11 ; 0,975 = 2,20
Luego se completa y resuelve el intervalo:
34,05 34,05
P 2259 ,91 2,20 2259 ,91 2,20 0,95
12 12
15
TEMA 6 Elementos de Estadística Inferencial
sido llenadas por máquinas que operan con una precisión de 0.050Kg. que con máquinas
que empaqueten con una precisión de 0.350Kg.
Siempre que tenemos que estimar variabilidad, debemos hacer una estimación del
parámetro poblacional 2.
a) Estimación puntual
El estimador lógico del parámetro 2 será evidentemente, la varianza muestral S2, es decir
x X
n
2
i
S2 i 1
n 1
b) Estimación por intervalos
Para utilizar a S2 como estimador de 2 necesitamos conocer su distribución de
probabilidad. De esta manera podremos establecer un cierto coeficiente de confianza de la
estimación.
No existe una distribución conocida para S2 pero sí para cierta transformación del mismo.
Si la muestra proviene de una población en la cual la variable en estudio se distribuye
normalmente, tenemos:
n 1 s 2
~ n21
2
2
donde es la distribución chi cuadrado con n-1 grados de libertad.
n 1
Una vez que contamos con esta información, podemos establecer un intervalo de
confianza para estimar 2, de la siguiente manera
2
P
n 1S 2 2
n11 / 2
2
1
n 1 / 2
Despejando convenientemente, obtenemos el siguiente intervalo
n 1S 2 n 1S 2
P 2 2
2
1
n1 / 2
n11 / 2
Si en el Ejemplo 2, se desea hallar el intervalo de confianza del 99 % para la varianza de la
población de cojinetes.
El intervalo quedará planteado de la siguiente manera:
30 10,0042 2 30 10,0042
2
P
2
0,99
301 , 1 0, 01
2
2 0,01
301 ,
2 2
29 0,000018 29 0,000018
P 2
0,99
29;0,995 29
2 2
, 0, 005
16
TEMA 6 Elementos de Estadística Inferencial
Para hallar 2 29 ; 0,995 y 2 29 ; 0,005 se debe usar la tabla de distribución de probabilidad chi-
cuadrado. Entrando con 29 grados de libertad por el costado izquierdo de la tabla y probabilidades
de 0,995 y de 0,005 por la parte superior se tiene:
2 29 ; 0,995 = 52,3 y 2 29 ; 0,005 = 13,1
17
TEMA 6 Elementos de Estadística Inferencial
0.2
55.9 (0.2 )
0.2 0.8
500
Sabemos que este valor se distribuye según una N(0, 1), por lo tanto su intervalo de
confianza al 95% vendrá dado por [-1.96, 1.96]. Por lo tanto basta con deducir los valores
del intervalo para resolviendo:
55.9(0.2- ) = -1.96 = 0.235
55.9(0.2- ) = 1.96 = 0.165
Luego el intervalo de confianza buscado es el [16.5, 23.5].
18