Tema 4 MUESTRA
Tema 4 MUESTRA
Tema 4 MUESTRA
Primada de América
Fundada el 28 de octubre del 1538
Facultad de Humanidades
Escuela de Psicología
Sustentante (autor/a)
Nathacha F. Henríquez González
Matrícula
100414567
Asignatura
Estadística Inferencial para Psicólogos (PSI-228)
Sección:
01
Maestro:
Joel A. Patiño De Los Santos
IV. DISTRIBUCIONES MUESTRALES. Y LA ESTIMACION
Una población es el conjunto de todos los elementos que interesan en un estudio. La población es todo
el grupo de individuos u objetos en estudio, y la muestra es una parte o subconjunto de dicha población.
Es el total de individuos que deseo estudiar o caracterizar.
En el ejemplo anterior es la población de México, pero podemos pensar en todo tipo de universos, más
generales y más concretos. Por ejemplo, si quiero saber cuánto fuman de media los fumadores de
México, el universo en este caso sería "los fumadores de México".
POBLACIÓN o UNIVERSO: Es todo conjunto de elementos, finito o infinito, definido por una o más
características, de las que gozan todos los elementos que lo componen, y sólo ellos. En muestreo, se
entiende por población a la totalidad del universo que interesa conocer, y que es necesario que esté
bien definido para que se sepa en todo momento qué elementos lo componen. Conviene recordar que
población es el conjunto de elementos a los cuales se quieren inferir los resultados.
Cuando se estudian las características de una población, existen diversas razones prácticas para preferir
la selección de porciones o muestras de una población para observar y medir. He aquí algunas razones
para muestrear:
✔ Ventajas
✘ Desventajas:
Muestra representativa: no existe una definición formal que nos permita afirmar que una
muestra es o no representativa de la población objeto de estudio.
Error de muestreo o error aleatorio: es el error que se comete debido al hecho de sacar
conclusiones sobre una población a partir del estudio de una muestra de ella.
4. MÉTODOS DE MUESTREO PROBABILÍSTICO:
son aquellos que se basan en el principio de probabilidad. Es decir, aquellos en los que todos los
individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
elegidas. Sólo estos métodos de muestreo probabilístico nos aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo
probabilístico encontramos los siguientes tipos:
En un muestreo aleatorio simple todos los individuos tienen la misma probabilidad de ser seleccionados.
La selección de la muestra puede realizarse a través de cualquier mecanismo probabilístico en el que
todos los elementos tengan las mismas opciones de salir. Por ejemplo uno de estos mecanismos es
utilizar una tabla de números aleatorios, o también con un ordenador generar números aleatorios,
comprendidos entre cero y uno, y multiplicarlos por el tamaño de la población, este es el que vamos a
utilizarada. Es aquel muestreo que mediante la asignación de números se selecciona de forma mecánica
varios elementos de la muestra.
Es un tipo de muestreo aleatorio simple en el que los elementos se seleccionan según un patrón que se
inicia con una elección aleatoria. Es aquel muestreo que al igual que el aleatorio simple, se asignan
números a la muestra, pero la diferencia existente es que solo se selecciona un elemento de la muestra.
Es aquel muestreo en la que se consideran que todos los elementos seleccionados en la muestra,
cumplan con los requisitos expuestos en el estudio.
Por ejemplo, para analizar los gastos familiares o para controlar el nivel de audiencia de los programas y
cadenas de televisión, se utiliza un muestreo por conglomerados-familias que han sido elegidas
aleatoriamente.
9. EL MUESTREO NO PROBABILÍSTICO:
es una técnica de muestreo donde las muestras se recogen en un proceso que no brinda a todos los
individuos de la población iguales oportunidades de ser seleccionados. El muestreo no probabilístico es
una técnica de muestreo en la cual el investigador selecciona muestras basadas en un juicio subjetivo en
lugar de hacer la selección al azar. El muestreo no probabilístico es más útil para estudios exploratorios
como la encuesta piloto (una encuesta que se implementa en una muestra más pequeña, en
comparación con el tamaño de muestra predeterminado). El muestreo no probabilístico se utiliza donde
no es posible extraer un muestreo de probabilidad aleatorio debido a consideraciones de tiempo o
costo.
El muestreo por conveniencia es una técnica de muestreo no probabilística donde las muestras de la
población se seleccionan solo porque están convenientemente disponibles para el investigador. Estas
muestras se seleccionan solo porque son fáciles de reclutar y porque el investigador no consideró
seleccionar una muestra que represente a toda la población. Son seleccionadas porque son accesibles
para el investigar, los sujetos son elegidos simplemente porque son fáciles de reclutar.
Un ejemplo de muestreo por conveniencia sería utilizar a estudiantes voluntarios que sean conocidos
del investigador. El investigador puede enviar la encuesta a los estudiantes y ellos en este caso actuarían
como muestra.
2. Muestreo consecutivo
Esta técnica de muestreo no probabilística es muy similar al muestreo por conveniencia (con una ligera
variación). Aquí, el investigador elige una sola persona o un grupo de muestra, realiza una investigación
durante un periodo de tiempo, analiza los resultados y luego pasa a otra asignatura o grupo de sujetos si
es necesario.
Esta técnica de muestreo le da al investigador la oportunidad de trabajar con muchos temas y afinar su
investigación mediante la recopilación de resultados que tienen conocimientos vitales.
El muestreo por cuotas es una técnica de muestreo no probabilístico en donde el investigador asegura
una representación equitativa y proporcionada de los sujetos, en función de qué rasgo es considerado
base de la cuota.
Por ejemplo, si la base de la cuota es de nivel de año en la universidad y el investigador necesita una
representación igual, con un tamaño de muestra de 100, debe seleccionar 25 estudiantes de 1º año, 25
de 2° año, 25 de 3º año y 25 de 4º año. Las bases de la cuota generalmente son la edad, el género, la
educación, la etnia, la religión y el nivel socioeconómico.
El muestreo de bola de nieve se lleva a cabo generalmente cuando hay una población muy pequeña. En
este tipo de muestreo, el investigador le pide al primer sujeto que identifique a otro sujeto potencial
que también cumpla con los criterios de la investigación. La desventaja de usar una muestra de bola de
nieve es que difícilmente sea representativa de la población.
DISEÑO DE ENCUESTAS
es la distribución de las resultadas si en realidad seleccionara todas las muestras pasibles. El resultado
único que usted obtiene en la práctica es solo uno de las resultadas en Ja distribución de muestreo.
Una distribución de probabilidad de todas las medias posibles de las muestras es una distribución de las
medias de las muestras. Los especialistas en estadística la conocen como distribución de muestreo de la
media
distribución de muestra media
es la distribución de todas las medias muestrales posibles, si se seleccionaran todas las muestras
pasibles de un tamaño determinado.
Formula:
Es cuando queremos realizar el estudio de una población cualquiera de la que desconocemos sus
parámetros. Por ejemplo:
Estimaciones puntuales: es el valor de un solo estadístico muestra1. como una media muesttal. Una
estimación puntual es un solo número que se utiliza para estimar un parámetro de población
desconocido. Un estimador puntual consiste en un solo valor (punto) deducido de una muestra para
estimar el valor de una población. Por ejemplo, suponga que elige una muestra de 50 ejecutivos de nivel
medio y le pregunta a cada uno la cantidad de horas que laboró la semana pasada. Se calcula la media
de esta muestra de 50 y se utiliza el valor de la media muestral como estimador puntual de la media
poblacional desconocida. Ahora bien, un estimador puntual es un solo valor.
Un enfoque que arroja más información consiste en presentar un intervalo de valores del que se espera
que se estime el parámetro poblacional. Dicho intervalo de valores recibe el nombre de intervalo de
confianza. Una estimación de intervalo es un rango de valores que se utiliza para estimar un parámetro
de la población. Una estimación de este tipo indica el error de dos maneras: por la extensión del
intervalo y por la probabilidad de que el verdadero parámetro poblacional se encuentre dentro del
intervalo. Una estimación de intervalo es un rango de números llamado Intervalo. que se construye en
torno a un estimador purnual. El Intervalo de confianza se construye de manera que permita conocer la
pro00b!11doo de que el Intervalo Incluya al parámetro poblac!onal.
Características estimadores:
1) Sesgo. Se dice que un estimador es insesgado si la Media de la distribución del estimador es igual al
parámetro. Estimadores insesgados son la Media muestral (estimador de la Media de la población) y
la Varianza (estimador de la Varianza de la población):
Ejemplo:
En una población de 500 puntuaciones cuya Media (m) es igual a 5.09 han hecho un muestreo aleatorio
(número de muestras= 10000, tamaño de las muestras= 100) y hallan que la Media de las Medias
muestrales es igual a 5.09, (la media poblacional y la media de las medias muestrales coinciden). En
cambio, la Mediana de la población es igual a 5 y la Media de las Medianas es igual a 5.1 esto es, hay
diferencia ya que la Mediana es un estimador sesgado.
La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas obtenidas con la Varianza en
un muestreo de 1000 muestras (n=25) en que la Varianza de la población es igual a 9.56 ha resultado
igual a 9.12, esto es, no coinciden. En cambio, al utilizar la Cuasivarianza la Media de las Varianzas
muestrales es igual a 9.5, esto es, coincide con la Varianza de la población ya que la Cuasivarianza es
un estimador insesgado.
Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho tres muestreos
aleatorios (número de muestras= 100) con los siguientes resultados:
vemos que el muestreo en que n=100 la Media de las Medias muestrales toma el mismo valor que la
Media de la población.
3) Eficiencia. Diremos que un estimador es más eficiente que otro si la Varianza de la distribución
muestral del estimador es menor a la del otro estimador. Cuanto menor es la eficiencia, menor es la
confianza de que el estadístico obtenido en la muestra aproxime al parámetro poblacional.
Ejemplo:
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal, y
resulta:
a) Debe ser insesgado: un estimador es insesgado, si en promedio, tiende a tomar valores que están por
encima del parámetro de la población con la misma frecuencia y la misma extensión, con la que tiende a
asumir valores por debajo del parámetro de población que se está estimando.
b) Debe ser eficiente: de varios estimadores insesgados, el más eficiente es el que tiene el error
estándar más pequeño.
c) Debe ser consistente: significa que a medida que aumenta el tamaño de la muestra, la estimación se
aproxima al valor del parámetro.
d) Debe ser suficiente: significa que ningún otro estimador puede suministrar más información sobre el
parámetro.
Supongamos que trabajas con la siguiente situación: el peso promedio de un estudiante de género
masculino en la Universidad ABC es de 82 kg (180 lb). Analizarás qué tan precisamente podrás predecir
el peso de los estudiantes varones de la universidad ABC dentro de un intervalo de confianza dado.
Esta es la que utilizarás en la recolección de datos para evaluar tu hipótesis. Supongamos que
seleccionaste, al azar, 1000 estudiantes hombres.
Escoge un dato estadístico de tu muestra (por ejemplo, el promedio o la desviación estándar) que
quieras usar para estimar el parámetro de tu población escogida. Un parámetro de población es un valor
que representa una característica particular de la población. Así es cómo puedes encontrar el promedio
y la desviación estándar de tu muestra:
Para calcular el promedio (o media) de los datos de la muestra, solo suma todos los pesos de los 1000
hombres que elegiste y divide el resultado entre 1000, es decir, el número de hombres. Esto debe darte
un valor del peso promedio de 84,4 kg (186 lb).
Para calcular la desviación estándar de la muestra, tendrás que encontrar el promedio o la media de los
datos. Luego, tendrás que encontrar la varianza de los datos o el promedio al cuadrado de las
diferencias con respecto al valor medio. Una vez que encuentres este número, solo calcula su raíz
cuadrada. Supongamos que la desviación en este caso es de 14 kg (30 lb) (ten en cuenta que esta
información algunas veces podría estar disponible para ti al resolver un problema de estadística).
Los niveles de confianza usados con mayor frecuencia son 90 %, 95 % y 99 %. Al resolver un problema,
es posible que tengas este dato a tu disposición. Supongamos que escogiste 95 %.
Puedes encontrar el margen de error usando la siguiente fórmula: Za/2 * σ/√(n). Za/2 = coeficiente de
confianza, donde a = nivel de confianza, σ = desviación estándar, n = tamaño de muestra. Esta es otra
forma de decir que deberías multiplicar el valor crítico por el error estándar. Así es como puedes
resolver esta fórmula al dividirla en partes:
Para hallar el valor crítico, o Za/2: en este caso el nivel de confianza es de 95 %. Convierte el porcentaje
a un número decimal 0,95 y divídelo entre 2 para tener 0,025. Luego, revisa la tabla de valores z para
encontrar el valor que corresponde a 0,025. Verás que el valor más cercano es -1,96 en la intersección
de la fila 1,9 y la columna 0,6.
Calcula el error estándar: toma la desviación estándar, 14 kg (30 lb), y divídela entre la raíz cuadrada del
tamaño de la muestra, 1000. Obtendrás 14/31,6 o 0,44 kg (0,95 lb).
Multiplica 1,96 por 0,44 (tu valor crítico por tu error estándar) para obtener 0,86; tu margen de error.
Para expresar el intervalo de confianza, simplemente tienes que tomar el promedio o la media (82), y
escribirla al lado de ± y el margen de error. La respuesta es: 82 ± 0,86. Puedes encontrar los límites
superior e inferior del intervalo de confianza, sumando y restando el margen de error a la media.
Entonces, tu límite inferior es 82 – 0,86 o 81,14 kg (178,14 lb), y tu límite superior es 82 + 0,86, o 82,86
kg (181,86 lb).
También puedes usar esta fórmula práctica para encontrar el intervalo de confianza: x̅ ± Za/2 * σ/√(n).
Aquí, x̅ representa la media.
al sumar y restar al estimador puntual una cantidad llamada margen de error. La fórmula general de una
estimación por intervalo es
El objetivo de la estimación por intervalo es aportar información de qué tan cerca se encuentra la
estimación puntual, obtenida de la muestra, del valor del parámetro poblacional.
El error estándar (EE) es una medida de la variación del estimador que permite cuantificar el error de
estimación (variación entre las estimaciones).
El EE del estadistico media muestral indica la confiabilidad de la media obtenida de una muestra de
tamaño n, se calcula como
Suele ser útil expresar el error estándar en términos relativos. El error estándar es una estimación de
cuánto varía el valor de una estadística de prueba de muestra a muestra. El error estándar se calcula
tomando la desviación estándar de la distribución de muestreo para la estadística de prueba. La
distribución de muestreo es la distribución de todas las muestras posibles.
La desviación estándar (SD) representa la variación en los valores de una variable, mientras que el error
estándar de la media (Estándar Error of the Mean, SEM) representa la dispersión que tendría la media
de una muestra de valores si se continuaran tomando muestras. Por lo tanto, el SEM proporciona una
idea de la precisión de la media y el SD nos da una idea de la variabilidad de las observaciones
individuales. Estos dos parámetros están relacionados:
SEM = SD/√n
Donde:
SD = Desviación estándar
n = tamaño de la muestra
Intervalo de población:
Para determinar el tamaño de muestra necesario para estimar una proporción poblacional se utiliza
un método similar al empleado para la media poblacional.l Recuerde que al determinar el tamaño de
la muestra de un intervalo de confianza para la media. el error de muestreo se define por
Nivel de precisión
El nivel de precisión, también llamado error de muestreo, es el rango en donde se estima que está el
valor real de la población. Este rango se expresa en puntos porcentuales. Por lo tanto, si un investigador
descubre que el 70% de los agricultores de la muestra han adoptado una tecnología recomendada con
una tasa de precisión de ~+mn~ 5%, el investigador puede concluir que entre el 65% y el 75% de los
agricultores de la población han adoptado la nueva tecnología.
Nivel de confianza
El intervalo de confianza es la medida estadística del número de veces de cada 100 que se espera que
los resultados se encuentren dentro de un rango específico.
Por ejemplo, un intervalo de confianza de 90% significa que los resultados de una acción probablemente
cubrirán las expectativas el 90% de las veces.
La idea básica descripta en el Teorema del límite central es que cuando una población se muestrea
muchas veces, el valor promedio de un atributo obtenido es igual al valor real de la población. En otras
palabras, si un intervalo de confianza es del 95%, significa que 95 de 100 muestras tendrán el valor real
de la población dentro del rango de precisión.
Grado de variabilidad
Existen muchos enfoques para determinar el tamaño de la muestra, incluyendo el uso de un censo en el
caso de poblaciones más pequeñas, el uso de tablas publicadas, imitar un tamaño de muestra de
estudios similares y aplicar fórmulas para calcular un tamaño de la muestra.