EI1 - 3I1 - T1Portafolio Estadistica Inferencial

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 38

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL.

ESTADÍSTICA INFERENCIAL I

UNIDAD 1: Distribuciones Fundamentales para el Muestreo.

INTEGRANTES DEL EQUIPO:

ABRAHAM DE JESUS DZIB PACHECO

CARLOS MARIO CAUICH PEREZ

ANDREA CONCEPCION GUZMAN MANUEL

ANGEL DAVID SALAS ROMERO

PORTAFOLIO DE EVIDENCIAS

GRUPO: 3I1.

PROFESOR: ING. LUIS EDUARDO BASTO AGUILAR

CURSO EN LINEA, SEMESTRE FEBRERO – JUNIO 2021.

FECHA DE ENTREGA: 05 de Marzo de 2021

ISO 9001:2015 8.1, 8.2.2, 8.5.1, 7.1.5, 9.1.1, 8.6 R E V 06 ITMER-AC-PO-003-01


Contenido
Introducción. ............................................................................................................ 3

1. Distribuciones Fundamentales para el Muestreo. ............................................... 4

1.1 Introducción a la Estadística inferencial. ........................................................... 5

1.2 Tipos de muestreo. ............................................................................................ 6

1.3 Teorema de limite central. ............................................................................... 10

1.4 Distribuciones fundamentales de muestreo. .................................................... 16

1.4.1 Distribución muestral de medias................................................................... 16

1.4.2 Distribución muestral de medias con 𝜎 desconocida.................................... 22

1.4.3 Distribución muestral de diferencia de medias. ............................................ 24

1.4.4 Distribución muestral de proporciones. ........................................................ 27

1.4.5 Distribución muestral de una varianza. ......................................................... 30

1.4.6 Distribución muestral de relación de varianzas. ........................................... 33

Conclusión............................................................................................................. 37

Referencias. .......................................................................................................... 38
Introducción.
En esta actividad de aprendizaje, vamos a presentar las bases necesarias para el
entendimiento de la estadística inferencial, empezando por los antecedentes de la
asignatura, los conceptos fundamentales, teoremas específicos, y formulas de
acuerdo con el tópico presentado.

De tal manera que sea más amena la presentación de información, facilitando el


estudio para nosotros, y la manera en la que se evaluara el portafolio.

También vamos a dar entrada a todas las aplicaciones prácticas y teóricas


necesarias para plasmar y comprender todos los problemas que son resueltos con
los fundamentos de la estadística inferencial.

Y por último daremos una conclusión general, en la cual explicaremos cuales son
los beneficios, ventajas y desventajas de el uso de esta ciencia.
1. Distribuciones Fundamentales para el Muestreo.
Se busca establecer los fundamentos conceptuales de la vertiente inferencial del
análisis de los datos estadísticos que se obtienen por muestreo. Los datos
muestrales constituyen estimaciones de la información poblacional, esto es, se
infiere una característica de toda la población a partir de una parte de esta.

En función del tamaño de muestra y de otras características de los datos es posible


establecer la significación de nuestra información y determinar el margen de error
que estamos cometiendo en las estimaciones.

Todas las técnicas de análisis de datos basadas en muestras estadísticas


necesitaran apoyarse en este tipo de razonamiento inferencial para establecer la
significación de los resultados y la validez de las hipótesis de la investigación.

La estadística inferencial o estadística deductiva es aquella que deduce las


características de una población a partir de muestras extraídas de ella, mediante
una serie de técnicas de análisis. Con la información obtenida, se elaboran modelos
que luego permiten hacer predicciones acerca del comportamiento de dicha
población.

Por ello, la estadística inferencial se ha convertido en la ciencia número uno en


ofrecer el sustento y los instrumentos que un sinnúmero de disciplinas requiere, al
momento de tomar decisiones.

Física, química, biología, ingeniería y ciencias sociales, se benefician


continuamente de estas herramientas cuando crean sus modelos y diseñan e
implementan experimentos.
1.1 Introducción a la Estadística inferencial.
La Estadística es una ciencia formal que estudia la recolección, análisis e
interpretación de datos de una muestra representativa, ya sea para ayudar en la
toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar
a cabo el proceso relacionado con la investigación científica.

Es transversal a una amplia variedad de disciplinas, desde la física hasta las


ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa
para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

 La estadística descriptiva: se dedica a la descripción, visualización y resumen


de datos originados a partir de los fenómenos de estudio. Los datos pueden
ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros
estadísticos son: la media y la desviación estándar. Algunos ejemplos
gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
 La estadística inferencial: se dedica a la generación de los modelos,
inferencias y predicciones asociadas a los fenómenos en cuestión teniendo
en cuenta la aleatoriedad de las observaciones. Se usa para modelar
patrones en los datos y extraer inferencias acerca de la población bajo
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas
si/no (prueba de hipótesis), estimaciones de unas características numéricas
(estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables
(análisis de regresión).

La Estadística Inferencial se centra en tomar una pequeña muestra


representativa de la población y a partir de ésta, infiere que el resto de la
población tiene el mismo comportamiento.
1.2 Tipos de muestreo.
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos
los elementos de una población), se selecciona una muestra, entendiendo por tal
una parte representativa de la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya


función básica es determinar que parte de una población debe examinarse, con la
finalidad de hacer inferencias sobre dicha población.

La muestra debe lograr una representación adecuada de la población, en la que se


reproduzca de la mejor manera los rasgos esenciales de dicha población que son
importantes para la investigación. Para que una muestra sea representativa, y por
lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la
población, es decir ejemplificar las características de ésta.

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,


aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.

Métodos de muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio


de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la
misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos
nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos
los siguientes tipos:

1) Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se


asigna un número a cada individuo de la población y a través de algún medio
mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad
práctica cuando la población que estamos manejando es muy grande.

2) Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior,


numerar todos los elementos de la población, pero en lugar de extraer n
números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i,
que es un número elegido al azar, y los elementos que integran la muestra
son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman
los individuos de k en k, siendo k el resultado de dividir el tamaño de la
población entre el tamaño de la muestra: k= N/n. El número i que empleamos
como punto de partida será un número al azar entre 1 y k. El riesgo este tipo
de muestreo está en los casos en que se dan periodicidades en la población
ya que al elegir a los miembros de la muestra con una periodicidad constante
(k) podemos introducir una homogeneidad que no se da en la población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10
individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si
empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
representación de los dos sexos.

3) Muestreo aleatorio estratificado: Trata de obviar las dificultades que


presentan los anteriores ya que simplifican los procesos y suelen reducir el
error muestral para un tamaño dado de la muestra. Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran
homogeneidad respecto a alguna característica (se puede estratificar, por
ejemplo, según la profesión, el municipio de residencia, el sexo, el estado
civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de
que todos los estratos de interés estarán representados adecuadamente en
la muestra. Cada estrato funciona independientemente, pudiendo aplicarse
dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los
elementos concretos que formarán parte de la muestra. En ocasiones las
dificultades que plantean son demasiado grandes, pues exige un
conocimiento detallado de la población. (Tamaño geográfico, sexos,
edades...).

4) Muestreo aleatorio por conglomerados: Los métodos presentados hasta


ahora están pensados para seleccionar directamente los elementos de la
población, es decir, que las unidades muéstrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo
de elementos de la población que forman una unidad, a la que llamamos
conglomerado. Las unidades hospitalarias, los departamentos universitarios,
una caja de determinado producto, etc., son conglomerados naturales. En
otras ocasiones se pueden utilizar conglomerados no naturales como, por
ejemplo, las urnas electorales. Cuando los conglomerados son áreas
geográficas suele hablarse de "muestreo por áreas". El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto numero de
conglomerados (el necesario para alcanzar el tamaño muestral establecido)
y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.

Métodos de muestreo no probabilísticos.

A veces, para estudios exploratorios, el muestreo probabilístico resulta


excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no sirven para realizar generalizaciones (estimaciones
inferenciales sobre la población), pues no se tiene certeza de que la muestra
extraída sea representativa, ya que no todos los sujetos de la población tienen la
misma probabilidad de se elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la
muestra sea representativa.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación
encontramos:

1) Muestreo por cuotas: También denominado en ocasiones "accidental". Se


asienta generalmente sobre la base de un buen conocimiento de los estratos
de la población y/o de los individuos más "representativos" o "adecuados"
para los fines de la investigación. Mantiene, por tanto, semejanzas con el
muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de
aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un
número de individuos que reúnen unas determinadas condiciones. Una vez
determinada la cuota se eligen los primeros que se encuentren que cumplan
esas características. Este método se utiliza mucho en las encuestas de
opinión.

2) Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza


por un esfuerzo deliberado de obtener muestras "representativas" mediante
la inclusión en la muestra de grupos supuestamente típicos. Es muy
frecuente su utilización en sondeos preelectorales de zonas que en
anteriores votaciones han marcado tendencias de voto. También puede ser
que el investigador seleccione directa e intencionadamente los individuos de
la población. El caso más frecuente de este procedimiento el utilizar como
muestra los individuos a los que se tiene fácil acceso (los profesores de
universidad emplean con mucha frecuencia a sus propios alumnos).

3) Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros,


y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se
emplea muy frecuentemente cuando se hacen estudios con poblaciones
"marginales", delincuentes, sectas, determinados tipos de enfermos, etc.

4) Muestreo Discrecional · A criterio del investigador los elementos son elegidos


sobre lo que él cree que pueden aportar al estudio.
1.3 Teorema de limite central.
El teorema del límite central es un teorema fundamental de probabilidad y
estadística. El teorema describe la distribución de la media de una muestra aleatoria
proveniente de una población con varianza finita. Cuando el tamaño de la muestra
es lo suficientemente grande, la distribución de las medias sigue aproximadamente
una distribución normal. El teorema se aplica independientemente de la forma de la
distribución de la población. Muchos procedimientos estadísticos comunes
requieren que los datos sean aproximadamente normales.

Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa,


la media muestral se acercará a la media de la población. Por tanto, mediante el
TCL podemos definir la distribución de la media muestral de una determinada
población con una varianza conocida. De manera que la distribución seguirá una
distribución normal si el tamaño de la muestra es lo suficientemente grande.

Principales propiedades del teorema central del límite

El teorema central del límite tiene una serie de propiedades de gran utilidad en el
ámbito estadístico y probabilístico. Las principales son:

 Si el tamaño de la muestra es suficientemente grande, la distribución de las


medias muestrales seguirá aproximadamente una distribución normal. El
TCL considera una muestra como grande cuando el tamaño de la misma es
superior a 30. Por tanto, si la muestra es superior a 30, la media muestral
tendrá una función de distribución próxima a una normal. Y esto se cumple
independientemente de la forma de la distribución con la que estamos
trabajando.
 La media poblacional y la media muestral serán iguales. Es decir, la media
de la distribución de todas las medias muestrales será igual a la media del
total de la población.
 La varianza de la distribución de las medias muestrales será σ²/n. Que es la
varianza de la población dividido entre el tamaño de la muestra.
Que la distribución de las medias muestrales se parezca a una normal es
tremendamente útil. Porque la distribución normal es muy fácil de aplicar para
realizar contrastes de hipótesis y construcción de intervalos de confianza. En
estadística que una distribución sea normal es bastante importante, dado que
muchos estadísticos requieren este tipo de distribución. Además, el TCL nos
permitirá hacer inferencia sobre la media poblacional a través de la media muestral.
Y esto es de gran utilidad cuando por falta de medios no podemos recolectar datos
de toda una población.

El teorema de límite central le permite aplicar estos procedimientos útiles a


poblaciones que son considerablemente no normales. El tamaño que debe tener la
muestra depende de la forma de la distribución original. Si la distribución de la
población es simétrica, un tamaño de muestra de 5 podría producir una
aproximación adecuada. Si la distribución de la población es considerablemente
asimétrica, es necesario un tamaño de muestra más grande.

Por ejemplo, la distribución de la media puede ser aproximadamente normal si el


tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos
de cómo la distribución afecta el tamaño de la muestra que se necesita.

Muestra de una población uniforme:

Una población que sigue una distribución uniforme es simétrica, pero


marcadamente no normal, como lo demuestra el primer histograma. Sin embargo,
la distribución de las medias de 1000 muestras de tamaño 5 de esta población es
aproximadamente normal debido al teorema del límite central, como lo demuestra
el segundo histograma. Este histograma de las medias de las muestras incluye una
curva normal superpuesta para ilustrar esta normalidad.
Muestra de una población exponencial:

Una población que sigue una distribución exponencial es asimétrica y no normal,


como lo demuestra el primer histograma. Sin embargo, la distribución de las medias
de 1000 muestras de tamaño 50 de esta población es aproximadamente normal
debido al teorema del límite central, como lo demuestra el segundo histograma. Este
histograma de las medias de las muestras incluye una curva normal superpuesta
para ilustrar esta normalidad.

De manera general, si
son variables de media o esperanza
y varianza se verifica que la variable suma Y=X1+X2+...+X (si nn es un número
tendiendo a infinito) se puede aproximar por una variable normal, de media la
suma de las medias y varianza la suma de varianzas (desviación típica = raiz de
la suma de varianzas), es decir :
Ejemplo 1:

La proporción de una característica A en una muestra sigue una distribución


normal. Comprobémoslo.

La proporción muestral de una característica A es el número de veces que dicha


característica AA aparece en una muestra. Por ejemplo, si A representa tener una
enfermedad cualquiera, p=P(A) es la probabilidad de que una persona tenga la
enfermedad.
Si se seleccionan, de manera independiente, nn personas, tenemos una muestra
de nn individuos de esa población, y la proporción muestral es:

En vez de tener una enfermedad, A puede representar estar de acuerdo o no con


algo, tener trabajo o no, etc (cualquier cosa que admita solo 2 posibilidades
complementarias).
Cada vez que consideramos una persona, podemos considerar la variable de
Bernoulli X= tiene la enfermedad (o característica) A. Esta variable toma los
valores 11 con probabilidad p y 0 con probabilidad 1−p.
De esta manera, la proporción muestral que acabamos de definir se puede
considerar como:

donde X1 es la variable X en el individuo 1,…, Xn es la variable X en el


individuo n, es decir vale 1 o 0 en cada individuo, según tenga la
característica A o no la tenga.
De manera que, si n es grande, por el teorema central del límite, la variable
suma X1 +X2 +…+Xn se aproximará mediante una distribución normal, de media
la suma de las medias (cada variable de Bernoulli tiene de media p) y de
desviación típica la raiz cuadrada de la suma de varianzas (y cada variable de
Bernoulli tiene de varianza p⋅(1−p). En consecuencia, la variable suma Y
verificará:

Supongamos ahora que lanzamos una moneda. La variable X que vale 1 si sale
cara y 0 si sale cruz es una variable de Bernoulli. Si lanzamos una moneda, por
ejemplo, 200 veces, la variable que mide el número de caras que salen es una
suma de 200 variables (Xi cuenta 1 o 0 si sale cara en el lanzamiento i).
Supongamos que repetimos esta operación 10 veces (cada operación es lanzar
la moneda 200 veces). La primera vez pueden salir 115 caras, la segunda 94, etc.
Se supone que el número de caras andará cerca de 100 (es la media, 200 ⋅ 0.5).

Como vemos, se parece mucho a la campana de Gauss, con media 100 y


desviación típica √ 200⋅0.5⋅0. =7.071.

Consideremos de nuevo una proporción. Según acabamos de ver, la proporción


muestral es:
y, como la suma de arriba es aproximadamente una distribución normal, de
parámetros media np y varianza np(1−p) la proporción muestral también sigue

aproximadamente una distribución normal.

Ejemplo 2:

Zenón de Citium era un famoso filósofo que tardaba en comer un jabalí de


media 12 minutos y desviación típica 3. ¿Cuál era la probabilidad de que tardase
menos de 9 horas y media en comer 50 jabalies?

Solución

La variable T=tiempo que tarda Zenón en comer un jabalí tiene media 12 y


varianza 9.
Por lo tanto, la variable que mide el tiempo en comer 50 jabalíes sigue,
aproximadamente, una distribución normal de media 50⋅12 y varianza 50⋅9 Es,
por lo tanto, aproximadamente N(600,√ 450 )=N(600,21.21)

Así, la probabilidad pedida es


1.4 Distribuciones fundamentales de muestreo.

1.4.1 Distribución muestral de medias.


Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del
límite central) que la fdp de la media muestral es también normal con media m y
varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena

aproximación con n>30) para poblaciones cualesquiera. Es decir es el error


típico, o error estándar de la media

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1
(la llamada z); pero haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una variable normal tipificada que deja a su derecha un


área bajo la curva de a, es decir, que la probabilidad que la variable sea mayor que
ese valor es a (estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la


forma
para los que la probabilidad es 1 - a.

Teniendo en cuenta la simetría de la normal y manipulando algebraícamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un


intervalo de este tipo se le denomina intervalo de confianza con un nivel de
confianza del 100(1 - a)%, o nivel de significación de 100a%. El nivel de confianza

habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina

estimación puntual y se dice que es un estimador de m.

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria

de tamaño 20 en la que se calcula se puede decir que m tiene una


probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para m


En general esto es poco útil, en los casos en que no se conoce m tampoco suele
conocerse s2; en el caso más realista de s2 desconocida los intervalos de confianza
se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar
de la z.

o, haciendo énfasis en que es el error estándar estimado de la media,

Esta manera de construir los intervalos de confianza sólo es válido si la variable es


normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.

Ejemplo numero 1

Las notas de cierto examen se distribuyen según una normal de media 5,8 y
desviación típica 2,4. Hallar la probabilidad de que la media de una muestra tomada
al azar de 16 estudiantes esté comprendida entre 5 y 7

La población es N(5,8 , 2,4) , con n=16 la distribución muestral de medias se


distribuye N(5,8 , 0,6)

Compara los gráficos de la distribución muestral y de la distribución de la población.


Estas distribuciones están dibujadas con una escala diferente a la N(0,1), puedes
cambiarla con el valor ESCALA.

Si x es la media de la muestra hemos de calcular la probabilidad

P(5 £ x £ 7) = P(-1,33 £ z £ 2) = P(z £ 2)-[1-P(z £ 1,3 3)] = 0,8854


Ejercicio numero 2

La duración media de las bombillas de una determinada marca sigue una


distribución normal N(1500,160)

a) Si escogemos una bombilla al azar, ¿cuál es la probabilidad de que funcione más


de 1524 horas?
b) Si escogemos una muestra de 100 bombillas y calculamos su duración media,
¿cuál es la probabilidad de que sea superior a 1524 horas?

Apartado a:

Si escogemos sólo una bombilla, estamos teniendo en cuenta toda la población que
sigue una distribución normal de media μ y desviación típica σ N(μ,σ):

Que en nuestro caso es:

Nos preguntan la probabilidad de que una bombilla funcione más de 1524 horas, es
decir:

Por tanto, lo primero que tenemos que hacer es tipificar la x:


Sustituyo valores y obtengo el valor de z:

La probabilidad de durar más de 1524 horas es igual a la probabilidad de que z sea


mayor que 0,15 y para poder utilizar la tabla de distribución normal, eso es igual a
1 menos la probabilidad de que z sea menor o igual a 0,15:

La probabilidad de que z sea menor o igual a 0,15 la obtengo directamente de la


tabla y me da:

Sustituyo este valor y calculo:

Por tanto, la probabilidad de que una bombilla funcione más de 1524 horas es de
44,04% o lo que es lo mismo el 44,04% podría durar más de 1524 horas.

Apartado b:

Si tomamos un muestra de 100 bombillas la distribución normal tiene la misma


media que la población, pero la desviación típica estará dividida entre raíz de N:

Me piden cuál es la probabilidad a que la duración media de esa muestra sea


superior a 1524 horas:
Tipificamos la media, pero teniendo en cuenta la nueva desviación típica:

Sustituyo datos y calculo:

La probabilidad de la media sea superior 1524 horas es igual a la probabilidad de


que z sea mayor que 1,5 y para poder utilizar la tabla de distribución normal, eso es
igual a 1 menos la probabilidad de que z sea menor o igual a 1,5:

Obtengo la probabilidad de que z sea menor o igual a 0,15 directamente de la tabla:

Sustituyo este valor y calculo:

Hay un 6,68% de probabilidad de que si tomo una muestra de 100 bombillas, la


media de su duración sea superior a 1524 horas.
1.4.2 Distribución muestral de medias con 𝝈 desconocida.

Cuando se conoce la varianza de la población de la que se extrae la muestra, pero


esta no será la situación general, sino que la mayoría de las veces no conocemos
la varianza de la población, entonces cómo se dispone de una muestra aleatoria de
tamaño n, podemos, calcular la varianza muestral S 2 y utilizarla en lugar de la
varianza poblacional σ2 desconocida, pues S2 es, como veremos después, un buen
estimador de σ2.

X¯−µ σ
Cuando σ2 es desconocido, la distribución muestral de 𝑍 = depende del
√n

tamaño de la muestra. Veamos los siguientes dos casos:

a) El tamaño de la muestra es grande (n ≥ 30).

Cuando el tamaño de la muestra es grande, es decir, (n ≥ 30) la distribución del


estadístico:

X¯−µ σ
𝑍= √n

Sigue siendo aproximadamente N (0, 1).

Ejemplo 1: El precio de venta de una casa nueva en Mérida se distribuye Normal


con media 450000 BsF. De una muestra aleatoria de 100 casas nuevas de esta
ciudad se obtuvo que la desviación estándar era de 60000. ¿Cuál es la probabilidad
de que la media muestral de los precios de venta sea menor de 460000 BsF? Se
puede notar que la varianza de la población no es conocida, pero como el tamaño
de la muestra es mayor que 30 (n = 100), podemos usar la varianza muestral en
lugar de la varianza poblacional, con lo cual el estadístico Z = X¯−µ S/√ n se
distribuye N (0, 1). Por lo tanto,
b) El tamaño de la muestra es pequeño (n < 30).

Si el tamaño de la muestra es pequeño, n < 30, los valores de la varianza muestral


S 2 varían considerablemente de muestra en muestra, pues S 2 disminuye a medida
que n aumenta, y la distribución del estadístico ya no sería una distribución normal.
Este problema fue resuelto en 1908 por el estadístico Gosset a partir del siguiente
teorema.

Teorema 1.4.4: Sea X1, X2,..., Xn una muestra aleatoria extraída de una población
que se distribuye N (µ, σ2 ) donde σ 2 es desconocido. Entonces el estadístico

Se distribuye t-Student con n − 1 grados de libertad

La demostración de este teorema se basa en la definición de una variable aleatoria


t-Student, la cual como se vio antes, es el cociente entre una normal estándar y la
raíz cuadrada de una chí-cuadrado sobre sus grados de libertad.

Ejemplo 1.4.8 Consideremos el ejemplo anterior, pero supongamos que la muestra


fue de 20 casas. Entonces, como la varianza poblacional es desconocida y el
X¯−µ S
tamaño de la muestra es menor que 30, el estadístico 𝑇 = se distribuye t-
√n

Student con 19 grados de libertad. Por lo tanto,


1.4.3 Distribución muestral de diferencia de medias.

Dos poblaciones que sigan distribuciones normales N(μ1, σ1) y N(μ2, σ2), o bien, si
ambas poblaciones tienen distribuciones cualesquiera con media μ 1 y μ2,
desviaciones típicas σ1 y σ2, y las respectivas muestras son de tamaño n 1 y n2,
suficientemente grandes, entonces la distribución muestral de diferencia de
medias sigue una distribución normal:

Y la variable tipificada viene dada por la expresión:


Ejemplo 1:

El responsable de la sede central de una empresa afirma que las edades de sus
empleados siguen una distribución normal con una media de 41 años y una
desviación típica de 5 años. Por otro lado, el responsable de una sede de las
sucursales de dicha empresa en otro país, ha determinado que sus empleados
también tienen edades que se ajustan a una distribución normal con una media de
39 años y desviación típica de 3 años.
Con el fin de hacer un estudio comparativo se seleccionan muestras de 40 personas
de cada sede de la empresa.
a) Determina la distribución para la diferencia de las medias muestrales.
b) ¿Cuál es la probabilidad de que los empleados de la sede central tengas una
media de edad de al menos 3 años mayor que los de la sucursal extranjera?
Ejemplo 2:

Las pruebas de control de calidad para un modelo A de bombilla han determinado


que la duración se distribuye como una normal de media 3300 horas y desviación
típica 180 horas; mientras que para otro modelo B la duración media es de 3200
horas y desviación típica 155 horas. Si se toman muestras aleatorias de
100 bombillas de cada modelo: a) ¿Cuáles son los parámetros de media y
desviación típica de la diferencia de las medias muestrales? b) Halla la
probabilidad de que la diferencia de las medias de las duraciones de las bombillas
de cada modelo sea inferior a 40 horas.
1.4.4 Distribución muestral de proporciones.
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes. A continuación, se citan algunos
ejemplos:
Educación. - ¿Es mayor la proporción de los estudiantes que aprueban matemáticas
que las de los que aprueban inglés?

Medicina. - ¿Es menor el porcentaje de los usuarios del medicamento A que


presentan una reacción adversa que el de los usuarios del fármaco B que también
presentan una reacción de ese tipo?

Administración. - ¿Hay diferencia entre los porcentajes de hombres y mujeres en


posiciones gerenciales?

Ingeniería. - ¿Existe diferencia entre la proporción de artículos defectuosos que


genera la máquina A a los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos


proporciones muestrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1
5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales
aproximadamente normales, así que su diferencia p1-p2 también tiene una
distribución muestral aproximadamente normal.
Cuando se estudió a la distribución muestral de proporciones se comprobó

que y que , por lo que no es difícil deducir

que y que .
La fórmula que se utilizará para el calculo de probabilidad del estadístico de
diferencia de proporciones es:

Ejemplo 1:

Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren
en sus opiniones sobre la promulgación de la pena de muerte para personas
culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor
de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se
pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre
la promulgación de la pena de muerte, determine la probabilidad de que el
porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres.
Solución:
Datos:
PH =0.12
PM =0.10
nH =100
nM =100
p(pH-pM 0.03)=?

Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una
distribución binomial y se está utilizando la distribución normal.
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena
de muerte, al menos 3% mayor que el de mujeres es de 0.4562.

Ejemplo 2

Se sabe que el 10 % de los habitantes de una determinada ciudad va regularmente


al teatro. Se toma una muestra al azar de 100 habitantes de esta ciudad, ¿cuál es
la probabilidad aproximada de que al menos el 13 % de ellos vaya regularmente al
teatro?
1.4.5 Distribución muestral de una varianza.
La distribución t de Student o distribución t es un modelo teórico utilizado para
aproximar el momento de primer orden de una población normalmente distribuida
cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica.

En otras palabras, la distribución t es una distribución de probabilidad que estima el


valor de la media de una muestra pequeña extraída de una población que sigue
una distribución normal y de la cual no conocemos su desviación típica.

Fórmula de la distribución t de Student

Dada una variable aleatoria continua L, decimos que la frecuencia de sus


observaciones puede aproximarse satisfactoriamente a una distribución t con g
grados de libertad tal que:

La variable aleatoria L sigue una distribución t con g grados de libertad.

Representación de la distribución t de Student

Función de densidad de una distribución t con 3 grados de libertad (df).

Como podemos ver, la representación de la distribución t se parece mucho a la


distribución normal salvo que la distribución normal tiene las colas más anchas y es
más apuntalada. En otras palabras, deberíamos añadir más grados de libertad a la
distribución t para que la distribución “crezca” y se parezca más a la distribución
normal.

Aplicación de la t de Student

La distribución t se utiliza cuando:

 Queremos estimar la media de una población normalmente distribuida a partir


de una muestra pequeña.

 Tamaño de la muestra es inferior a 30 elementos, es decir, n < 30.

A partir de 30 observaciones, la distribución t se parece mucho a la distribución


normal y, por tanto, utilizaremos la distribución normal.

 No se conoce la desviación típica o estándar de una población y tiene que


ser estimada a partir de las observaciones de la muestra.

Ejemplo 1:

Suponemos que tenemos 28 observaciones de una variable aleatoria G que sigue


una distribución t de Student con 27 grados de libertad (df).

28 observaciones de la variable aleatoria G que sigue una distribución t con 27


grados de libertad.

Variable aleatoria G que sigue una distribución t con 27


grados de libertad.

Dado que estamos trabajando con datos reales, siempre habrá un error de
aproximación entre los datos y la distribución. En otras palabras, la media, mediana
y moda no siempre serán cero (0) o exactamente iguales.
Representamos la frecuencia de cada observación de la variable G mediante un
histograma.

Ejemplo 2:

Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación


promedio de 62.1 con una desviación estándar de 5.83. Se sabe que el valor
correcto de la prueba debe ser mayor a 60. ¿Existe suficiente evidencia para
comprobar que no hay problemas de autoestima en el grupo seleccionado?

Paso 1. Hipótesis alternativa: la que se va a comprobar. El grupo no tiene problemas


de autoestima. Valor de prueba para determinar autoestima mayor a 60. Hipótesis
nula, lo contrario a la hipótesis alternativa.

H1 > 60;

H0 =< 60.

Paso 2. Determinar el nivel de significancia alfa: alfa = 0.05.

Paso 3. Resultados de la evidencia muestral: X = 62.1; s = 5.83

Paso 4. Aplicar la distribución de probabilidad calculando T:


El resultado de la ecuación es 1.8. Dado que 1.8 es mayor que 1.7109 cae en la
región de H1 y se acepta la hipótesis alternativa. Si buscamos el valor de 1.8 bajo
la curva normal encontraremos que es de 0.0359 el cual es menor que 0.05. La
conclusión es que no hay problemas de autoestima en el grupo estudiado. Esto con
el diseño de la investigación presentado.

1.4.6 Distribución muestral de relación de varianzas.


La necesidad de disponer de métodos estadísticos para comparar las varianzas de
dos poblaciones es evidente a partir del análisis de una sola población.
Frecuentemente se desea comparar la precisión de un instrumento de medición con
la de otro, la estabilidad de un proceso de manufactura con la de otro o hasta la
forma en que varía el procedimiento para calificar de un profesor universitario con
la de otro.

Intuitivamente, podríamos comparar las varianzas de dos poblaciones, 𝜎12 𝑦 𝜎22 ,


utilizando la razón de las varianzas muestrales 𝑆12 /𝑆22 . Si 𝑆12 /𝑆22 es casi igual a 1, se
tendrá poca evidencia para indicar que 𝜎12 𝑦 𝜎22 no son iguales. Por otra parte, un
valor muy grande o pequeño para 𝑆12 /𝑆22 , proporcionará evidencia de una diferencia
en las varianzas de las poblaciones. La variable aleatoria F se define como el
cociente de dos variables aleatorias Ji cuadrada independientes, cada una dividida
𝑈⁄
𝑉1
entre sus respectivos grados de libertad. Esto es, 𝐹 = 𝑉⁄ donde U y V son
𝑉2

variables aleatorias ji-cuadrada independientes con grados de libertad n1 y n2


respectivamente.
La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la
derecha. La distribución F tiene una apariencia muy similar a la distribución
jicuadrada; sin embargo, se encuentra centrada respecto a 1, y los dos parámetros
n1 y n2 proporcionan una flexibilidad adicional con respecto a la forma de la
distribución.

Si 𝑆12 𝑦 𝑆22 son las varianzas muestrales independientes de tamaño n1 y n2 tomadas


de poblaciones normales con varianzas 𝜎12 𝑦 𝜎22 , respectivamente, entonces:
Ejemplo 1:
Ejemplo 2:

Estos resultados los podemos interpretar de la siguiente manera:

Con un nivel de confianza del 90% se sabe que la relación de varianzas𝜎12 /𝜎22 esta
entre 1.07 y 3.93. Esto supondría que la varianza de la población 1 es mayor a la
varianza de la población 2 entre 1.07 y 3.93.
Conclusión.

Dentro de este documento, se encuentran todos los recursos necesarios para la


comprensión de los conceptos y temas fundamentales sobre la estadística
inferencial, dándonos a conocer una cantidad enorme de información, la cual
acomodamos y presentamos, para que el estudio sea ameno.

En conclusión, con el trabajo, cerramos con que la estadística inferencial es la base


de muchas de las ciencias en las que las personas son inferidas por diferentes
sugestiones, o mas bien, se infieren ante características que definen una cantidad
de población, en la que nos basaremos, para demostrar como estadísticamente
hablando, hay miles de soluciones posibles o no.

Sin darle tantas vueltas al asunto, se presentan los teoremas, leyes, fundamentos,
formulas y ecuaciones, que se encargan de manejar la estadística de manera
correcta. También demostramos ejemplos de los problemas a resolver, ya que es
importante conocer las problemáticas que se encuentran en la vida real, y ya con el
conocimiento adquirido, buscar la solución más factible, dependiendo de lo que la
estadística nos diga.
Referencias.
1) http://estadisticaiiiuba.blogspot.com/p/blog-
page_8525.html#:~:text=La%20estad%C3%ADstica%20inferencial%3A%20
se%20dedica,de%20la%20poblaci%C3%B3n%20bajo%20estudio.
Consultado (02/03/2021).
2) https://ddd.uab.cat/record/163560 . Consultado (02/03/2021).
3) http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf. Consultado
(02/03/2021).

4) Webdelprofesor. (2019, marzo). Distribuciones muestrales. Recuperado 1 de marzo


de 2021, de
http://webdelprofesor.ula.ve/economia/drivas/materias/metodosII/Distribuciones%2
0en%20el%20muestreo.pdf
5) Cálculo.cc. (2020, julio). Estadística inferencial.Distribución muestral de diferencia
de medias. Ejemplos resueltos. Recuperado marzo de 2021, de
https://calculo.cc/temas/temas_estadistica/muestreo/teoria/dist_difer_medias.html
6) http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/u0304.pdf
Consultado (02/03/2021).

También podría gustarte