ESTADÍSTICA INFERENCIAL Estimación de Media Aritmética Poblacional - 1395730978

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

La ESTADÍSTICA INFERENCIAL se ocupa de resolver 2 temas centrales entre otros:

1) La estimación de la media aritmética µ de una población a partir de la media aritmética


de una muestra representativa tomada de la primera.

La media aritmética de la población es denominada “parámetro”, mientras que la media


aritmética de la muestra se denomina “estadístico” o “estimador”.
La estimación de un parámetro permite determinar, con alguna probabilidad de error
prefijada, un intervalo en el cual es posible encontrar tal parámetro.

Ejemplo:
Si se quiere estimar el tiempo medio que emplea una población que vive en determinada
zona de la ciudad para ir de su casa al lugar de trabajo, la forma de proceder consiste en
tomar una muestra aleatoria y representativa de los tiempos que tarda la población de esa
zona para obtener la información a partir de la cual se podrá inferir (estimar) la media
aritmética que tarda la población de esa zona.
Después de realizar la estimación (esto se estudiará más adelante) se tendrá una
afirmación del siguiente estilo: “Se estima que el tiempo medio empleado, por una persona
de la población en cuestión, para llegar del sitio donde reside al sitio donde trabaja, está
comprendida entre los valores a y b con una probabilidad de cometer error de α = x%. (α
se llama nivel de significación)

2) La prueba de Hipótesis. En realidad, no es posible determinar con certeza si el resultado


de la prueba permite concluir si la hipótesis planteada es cierta o falsa pero los resultados
de la prueba serán cercanos a la realidad en la medida en que la muestra, a partir de la
cual se está haciendo la inferencia, sea aleatoria y represente bien a la población a la que
pertenece.

Ejemplo:
Para validar la hipótesis de que el tiempo medio que emplea una persona —que vive en
una cierta zona de la ciudad— para ir de su casa al sitio donde trabaja es menor que 1,5
horas, la forma de proceder consiste en tomar una muestra aleatoria y representativa de
la población de datos para obtener la información a partir de la cual se va a validar o no la
hipótesis.
Después de realizar la prueba de hipótesis (esto se estudiará más adelante) se tendrá una
afirmación, por ejemplo, del siguiente estilo: “Se puede rechazar o aceptar (según sea el
resultado de la prueba) la hipótesis con una probabilidad de cometer error de α = x%. (α
se llama nivel de significación).

Para abordar los temas planteado debemos hacer un paréntesis en la explicación para
presentar un contenido teórico imprescindible para la comprensión de ellos.
EL TEOREMA CENTRAL DEL LÍMITE

El teorema central del límite (TCL) es una teoría estadística que desarrollaremos a
continuación:
Si en una población normal con una media aritmética μ y un desvío estándar σ extraemos n
muestras todas de tamaño N obtendremos n medias aritméticas 𝐱 ̅ 𝑖 . Estas n medias
aritméticas, obviamente, no serán iguales entre sí, dado que son muestras obtenidas de la
población por algún procedimiento azaroso. Esquemáticamente el proceso sería el siguiente:

Si representáramos las n medias aritméticas 𝐱̅ 𝐢 obtenidas, la distribución de las medias


muestrales seguiría una distribución normal que tiene dos propiedades de gran utilidad en el
ámbito estadístico y probabilístico.

1. La media aritmética de la distribución de medias aritméticas 𝑥̅ 𝑖 la simbolizaremos


como μm, concuerda con la media aritmética de la población μ de la cual fueron
obtenidas las n muestras:
μm = μ (1)
2. El Desvío Standard de la distribución muestral de medias σm es el siguiente:

σm = σ/√𝑵 (2)

A σm también se lo denomina error standard (EE)


Se deduce de la ecuación (2) que a medida que las muestras aumentan su tamaño (o sea
que aumenta N) el desvío standard de la distribución muestral disminuye y por lo tanto las
medias aritméticas de todas las muestras obtenidas se acercan a μ. El caso límite sería
cuando el N de las muestras tuviera el mismo tamaño que la población y en tal caso,
obviamente, todas las muestras serían iguales y tendrían una media aritmética igual a μ.

Asimismo, se puede probar que para N > 30 estas distribuciones muestrales siguen siempre
muy aproximadamente la distribución normal, independientemente del tipo de variable que
se trate. Así, a la distribución hecha con las medias se la llama distribución muestral de
medias, que tendrá una media que llamaremos μ y un desvío estándar σm al que llamamos
error stándard.
Hemos visto que cuanto mayor sea el tamaño de la muestra, menor será el error stándard,
siendo éste siempre menor al desvío de la población.
En la práctica, al no conocer el desvío poblacional, usamos en su reemplazo el desvío
standard de la muestra que es la mejor aproximación con la que contamos.
Presentamos gráficamente las dos distribuciones mencionadas:

Vemos que en el gráfico punteado


(Distribución muestral de medias) el
desvío standard es menor que el
correspondiente a la distribución de la
población de acuerdo con la ecuación
(2) σm = σ/√𝑁, pero ambos tienen la
misma media aritmética de acuerdo con
la ecuación (1). Esto implica que
cualquier media aritmética 𝐱̅ 𝐢 de una
muestra aleatoria tomada de la
población, si su tamaño es grande, se
aproxima al valor de la media
aritmética de la población μ.

Debemos tener presente que, de muestra a muestra hay variabilidad, y por lo tanto nunca
estaremos seguros de la confiabilidad de la muestra obtenida. Y por eso debemos admitir
que nuestro cálculo de la media poblacional tiene un grado de incertidumbre que es posible
acotar como ya veremos.
Las conclusiones expresadas en las ecuaciones (1) y (2) precedentes son esenciales
para resolver el 1° y el 2° de los temas planteados.
1° LA ESTIMACIÓN DE LA MEDIA ARITMÉTICA µ DE UNA POBLACIÓN: Se lleva a cabo
a partir de la media aritmética de una muestra representativa tomada de la primera.
Considerando que la distribución standarizada de las medias muestrales, como todas las
distribuciones gaussianas, es asintótica y los valores de z van de - ∞ a + ∞ se hace
necesario adoptar un “nivel de confianza” que abarque como mínimo al 95% de las
probabilidades de la distribución muestral, dejando como posible error al 5% restante en
ambos extremos de la curva.
Esa probabilidad de cometer error, simbolizado como, por ejemplo como α = 5% (se
denomina nivel de significación), deberá repartirse en dos áreas (recuerden que las
probabilidades son representadas por áreas entre la curva y el eje horizontal) de esta
manera:
• α/2 = 2,5% en el margen izquierdo de la curva (cola izquierda)
• α/2 = 2,5% en el margen derecho de la curva (cola derecha)
El motivo de esta repartición de α en ambos extremos de la curva obedece a que no es
posible saber a priori si la media aritmética 𝐱
̅ de la muestra aleatoria obtenida, que servirá
de base de cálculo de la media poblacional, se situará a la izquierda o a la derecha de la
media poblacional µ.
Los niveles de confianza se eligen siempre como mínimo del orden del 95% de las
probabilidades de la distribución muestral. Pero pueden ser otros. Esto significa que toda
estimación de media poblacional se alcanza con un terminado nivel de error que podemos
definir como: Nivel de error α (en %) = 100% - Nivel de confianza (en %)

GRAFICO α=5%. N.C= 95%


Dejando a la izquierda de
Z2 una superficie de
97,50 %, o sea una
probabilidad = 0,9750
encontramos Z2 = +1,96 y
por simetría Z1= -1,96

GRAFICO α=1%. N.C= 99%


Dejando a la izquierda de
Z2 una superficie de
99,50 %, o sea una
probabilidad = 0,9950
encontramos Z2 = +2.58
y por simetría Z1= -2,58

De los conocimientos previos y de los gráficos anteriores vamos a deducir la fórmula para
determinar la media poblacional a partir de una muestra aleatoria de la población que tiene
una media aritmética 𝐱̅ y un desvío standard S.
La conocida fórmula de transferencia del modelo normal al modelo standarizado es la
siguiente:
Despejando µ de la fórmula:

Reemplazando valores en la fórmula: Z por los puntos Z1 y Z2 que definen el intervalo de


confianza, X por la media aritmética de la muestra aleatoria obtenida de la población 𝐱 ̅ yσ
por el desvío standard de la muestra, que, de acuerdo con la ecuación (2) del teorema central
del límite, es S/√𝑵 , quedan definidos los dos límites en que la media de la población estará
comprendida con la confianza estipulada.

(3) Límite superior de la media aritmética de la población

(4) El límite inferior de la media aritmética de la población

Ejercicio:
Se desea conocer la media aritmética de colesterol en sangre de una población de adultos
mayores de 65 años a partir de una muestra aleatoria de tamaño =100 personas, obtenida
de dicha población. Los valores de los estadísticos de la muestra son x
̅ = 200 mg /dl y S =
20 mg/dl. La investigación se lleva a cabo con una confianza del 95%.

Por lo tanto:
Siendo la confianza de 95 % el valor de α será del 5%.
Z2 (límite superior) = +1,96 y Z1 (límite inferior) = -1,96 (Se ha visto la obtención de esos
valores en página anterior).

Reemplazando valores en las fórmulas precedentes (3) y (4) vemos que:

Límite sup. de la media aritmética de la población µ= 200 + 1,96. 20/ √𝟏𝟎𝟎 = 203,92 mg /dl

Límite inf. de la media aritmética de la población µ= 200 - 1,96. 20/√𝟏𝟎𝟎 = 196,08 mg /dl

Resultado: la media de la población está comprendida entre 203,92 mg /dl y 196,08 mg /dl
Afirmación realizada con una confianza del 95%.

DISTRIBUCIÓN T DE STUDENT

Cuando se trabaja con muestras de poco tamaño (N ≤ 30) la curva normal no se ajusta
adecuadamente a los requerimientos para hacer una estimación precisa.
En probabilidad y estadística, la distribución t (de Student) es una distribución de
probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Fue desarrollada por William Sealy Gosset, bajo el seudónimo Student.
La distribución t es muy semejante a la normal de Gauss y presenta Tablas específicas para
hallar las probabilidades bajo la curva (Tablas t ).
Las fórmulas para estimar la media poblacional µ son similares a las utilizadas cuando se
trabaja con N>30.
La única diferencia es que se reemplaza el valor Z por el valor T de Student y las fórmulas
(3) y (4) vistas anteriormente, devienen en las siguientes:

(5) Límite superior de la media aritmética de la población

(6) Límite inferior de la media aritmética de la población

n, que encabeza la columna izquierda de la Tabla t, son los grados de libertad n = N - 1


α, es el nivel de significación en probabilidad, α = 1 - Nivel de Confianza (probabilidad)
Ejercicio:
Se desea conocer la media aritmética de colesterol en sangre de una población de adultos
mayores de 65 años a partir de una muestra aleatoria de tamaño N=21 personas, obtenida
de dicha población. Los valores de los estadísticos de la muestra son x
̅ = 200 mg /dl y S =
20 mg/dl. La investigación se lleva a cabo con una confianza del 95%.
Por lo tanto:
α = 1- 0,95 = 0,05 y los grados de libertad n = N - 1= 21 - 1= 20
Con α = 0,05 y n = 20 encontramos que:
• t (límite superior) = + 2,0860
• t (límite inferior) = - 2,0860
Reemplazando valores en ecuaciones (5) y (6) se obtiene:

Límite sup. de la media aritmética de la población µ= 200 + 2,0860. 20/ √𝟐𝟏 = 209,10 mg /dl

Límite inf. de la media aritmética de la población µ= 200 - 2,0860. 20/ √𝟐𝟏 = 190,90 mg /dl

Resultado: la media de la población está comprendida entre 209,10 mg /dl y 190,90 mg /dl
Afirmación realizada con una confianza del 95%.

Compare los resultados con el ejercicio anterior en que el N= 100.

También podría gustarte