Investigacion Estadistica
Investigacion Estadistica
Investigacion Estadistica
TEMAS DE INVESTIGACION
El muestreo es un proceso o conjunto de métodos para obtener una muestra finita de una
población finita o infinita, con el fin de estimar valores de parámetros o corroborar
hipótesis sobre la forma de una distribución de probabilidades o sobre el valor de un
parámetro de una o más poblaciones.
El muestreo además de ser una ciencia Estadística, es un arte, donde no solo los elementos
se seleccionan al azar con una medida de probabilidad, si no que, además, requiere pericia
por parte de investigador/a en el diseño de la muestra a la hora de determinar:
Objetivos:
El objetivo es que la muestra sea representativa. Es decir, que sus indicadores como la
media de edad, el ingreso promedio, el porcentaje de hombres y de mujeres, entre otros, sea
el mismo, o muy similar al de la población.
Ventajas:
CONCEPTO
a) Muestra
b) Muestreo Probabilístico.
Por ejemplo, si tienes una población de 100 personas, cada persona tendría una
probabilidad de 1 de 100 de ser seleccionado. El método de muestreo probabilístico te
ofrece la mejor oportunidad de crear una muestra representativa de la población.
Sistemático:
Se elige una observación al azar y, para seleccionar el resto de la muestra, se utilizan
intervalos numéricos regulares. Es decir, que se tiene una población de 10.000 y,
aleatoriamente, selecciono la observación 600, después de lo cual se puede considerar
intervalos de 30 observaciones. En este caso, se tomaría las observaciones 600, 630, 660,
690, 720, 750, 780, y así sucesivamente.
Aleatorio estratificado:
Se divide a la población en estratos, que son grupos que comparten características en
común y son más homogéneos, inclusive, que la población en su conjunto. Entonces, se
selecciona una muestra, ya sea de manera aleatoria o sistemática, dentro de cada estrato. El
objetivo es lograr una representatividad de cada estrato.
a. Muestreo no probabilístico
Esta es una de las razones por las que los investigadores confían en el muestreo por
conveniencia, que es la técnica de muestreo no probabilística más común, debido a su
velocidad, costo-efectividad y facilidad de disponibilidad de la muestra.
Un ejemplo de muestreo por conveniencia sería utilizar a estudiantes voluntarios que sean
conocidos del investigador. El investigador puede enviar la encuesta a los estudiantes y
ellos en este caso actuarían como muestra.
Para comprender mejor una población, el investigador solo necesitará una muestra, no a
toda la población. Además, el investigador está interesado en estratos particulares dentro de
la población. Es aquí donde el muestreo por cuotas ayuda a dividir la población en estratos
o grupos.
Para estudiar los objetivos de más de 500 empleados, técnicamente la muestra seleccionada
debe tener un número proporcional de hombres y mujeres. Lo que significa que debe haber
250 hombres y 250 mujeres. Como esto es improbable, los grupos o estratos se seleccionan
mediante el muestreo por cuotas
La desventaja del muestreo intencional es que los resultados pueden estar influenciados por
nociones percibidas del investigador. Por lo tanto, hay una gran cantidad de ambigüedad
involucrada en esta técnica de investigación. Por ejemplo, este tipo de método de muestreo
se puede utilizar en estudios piloto.
Muestreo de bola de nieve: Este tipo de técnica de muestreo ayuda a los investigadores a
encontrar muestras cuando son difíciles de localizar. Los investigadores utilizan esta
técnica cuando el tamaño de la muestra es pequeño y no está disponible fácilmente.
Este sistema de muestreo bola de nieve funciona como el programa de referencia. Una vez
que los investigadores encuentran sujetos adecuados, se le pide a este ayuda para buscar a
sujetos similares y así poder formar una muestra de buen tamaño.
Por ejemplo, este tipo de muestreo se puede utilizar para realizar investigaciones que
involucran una enfermedad particular en pacientes o tal vez una enfermedad rara también.
Los investigadores pueden buscar ayuda de las personas enfermas para que estos refieran a
otros que sufran de la misma dolencia y con esto formar una muestra subjetiva para llevar a
cabo el estudio.
c) Población
Población estadística infinita: Se trata de aquella población que no tiene fin. Por
ejemplo, el número de planetas que existen en el universo. Aunque puede que sea
finito, el número es tan grande y desconocido que estadísticamente se asume como
infinito.
d) Parámetro
Un parámetro estadístico es un número que se obtiene a partir de los datos de una muestra
estadística. Los parámetros estadísticos también se conocen como estadísticos descriptivos.
Los parámetros estadísticos sirven para sintetizar o resumir la información dada por una
tabla o por una gráfica. En otras palabras, dados unos pocos parámetros estadísticos se
puede tener una idea general de la distribución de la información.
Los parámetros estadísticos se clasifican según la información que resumen. Los dos tipos
más comunes de parámetros estadísticos son:
De tendencia central
De dispersión
Moda: La moda es el valor que más se repite en una muestra. Es decir, es el valor
más frecuente.
Medidas de dispersión
Las medidas de dispersión informan sobre cuánto se alejan del centro los valores de la
distribución. Es decir, son un resumen sobre qué tan dispersos están los datos.
Algunas medidas de dispersión son:
e) Estadígrafo
Simbología Principal
Los símbolos usados para representar los estadísticos y los parámetros, en éste y los
siguientes capítulos, son resumidos en la tabla siguiente:
Distribución Muestral de la media
Cuando hacemos investigación nos interesa inferir si los hallazgos de un grupo de pacientes
son similares a los de la población general, o a los de otro grupo, o bien si se trata de
valores distintivos. Para inferir si hay o no diferencias es que resulta fundamental trabajar
con la distribución muestral de medias.
Cuando en una población se toma una muestra y se mide una variable continua, se obtiene
un conjunto de mediciones que puede resumirse en un valor de media. Si se toma otra
muestra de la misma medición se obtendrá otra media. Puede intuirse entonces que
podemos tomar infinitas muestras y obtener por lo tanto infinitas medias. Esas medias por
lo tanto constituyen a su vez una variable continua, que como toda variable continua tiene
determinada distribución de probabilidades.
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite
central) que la fdp de la media muestral es también normal con media m y varianza s2/n.
Esto es exacto para poblaciones normales y aproximado (buena aproximación con n>30)
1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la
llamada z); pero haciendo la transformación (llamada tipificación)
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de
Esta manera de construir los intervalos de confianza sólo es válida si la variable es normal.
Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
Para determinar el tamaño óptimo de una muestra se deben tomar en cuenta varios aspectos
relacionados con:
El parámetro
El estimador
El sesgo
El error muestral
El nivel de confianza y
La varianza poblacional.
¿A cuántas familias tendríamos que estudiar para conocer la preferencia del mercado en
cuanto a las marcas de champo para bebé, si se conoce que el número de familias con bebés
en el sector de interés es de 15000?
Seguridad: 95%
Precisión: 3%
Proporción esperada: se sume que puede ser próxima al 5%; si no se tuviese ninguna idea
de dicha proporción se usaría el valor p = 0,5 que maximiza el tamaño muestral.
Estimación de los Parámetros
La estimación de parámetros es un método que consiste en asignar un valor al parámetro o
al conjunto de parámetros que caracterizan el campo sujeto a estudio. La fórmula
matemática que lo determina se denomina estimador.
Los estadísticos de muestra tienen como objetivo el análisis descriptivo, para lograr las
estimaciones de los parámetros de la población junto con la media de errores relacionada
con esas estimaciones.
Pueden considerarse funcionales del modelo matemático para determinar un parámetro que
entreguen estimaciones del mismo o podrían ser hipotéticas al mejor estimador del
parámetro de la media.
El modelo lineal generalizado es desigual al modelo lineal general ya que tiene dos
aspectos fundamentales que son:
Queremos información sobre el resultado de las elecciones generales e intentar predecir qué
porcentaje de votos tendrá cada partido político. Tras utilizar las técnicas pertinentes se
extraen los siguientes resultados:
o Partido A: 32%
o Partido B: 51%
o Partido C: 17%
Sin embargo, al estar conscientes, de que es una estimación y utilizando las fórmulas
adecuadas, se establece los intervalos de confianza al 95%.
o Partido A: [30 – 34]%
o Partido B: [47 – 53]%
o Partido C: [15-19]%
Tras los resultados obtenidos se puede interpretar que existe un 95% de probabilidades de
que el resultado de los partidos políticos esté en ese rango. Aun así, existe un 5% de
probabilidades de que los resultados estén fuere de ese rango.
El método de lotería sólo funciona bien con pequeñas poblaciones de la muestra, es poco
práctico para su uso con poblaciones más grandes.
Un ejemplo del uso del método de lotería sería la selección de una muestra aleatoria de
entre un grupo de 100 miembros. Se ponen todos los nombres en un recipiente y se van
sacando uno por uno hasta tener el tamaño suficiente de nuestra muestra.
Al utilizar el sistema de sorteo, los números que representa cada elemento de la población
objetivo son colocadas en chips (es decir, tarjetas, papel u otros objetos).
En una tabla de números aleatorios no se sigue un patrón particular. Pueden ser leídos de
cualquier manera, es decir, horizontal, vertical, diagonal, hacia delante o hacia atrás. El
número de dígitos que se utiliza debe corresponder al tamaño total de la población objetivo.
Los números que el investigador encuentra que no concuerdan con los números asignados a
elementos de la población objetivo son ignorados. Este proceso de la tabla de números
aleatorios es un proceso tedioso, consume tiempo, y no se recomienda para grandes
poblaciones.
En su lugar, se pueden utilizar softwares estadísticos u hojas de cálculo para generar
números aleatorios. Los elementos de las poblaciones cuyos números asignados coinciden
con los números generados por el software son incluido en la muestra. Se puede seleccionar
un número de una tabla de números aleatorios para usarlo como el número de partida para
el procedimiento.
Además, cierta combinación de elementos, como los elementos que son adyacentes entre sí
en el marco de muestreo, pueden no ser seleccionados. Muestreos sistemáticos repetidos
pueden utilizarse para abordar este problema.
No olvidemos que una parte muy importante del muestreo consiste en tener el tamaño de la
muestra correcta, para no tener un error de muestreo, el cual debe ser el mínimo posible.
Muestreo Estadístico
Al realizar cualquier investigación social o de mercados, la mayor parte de las veces se
rebasa la capacidad de los investigadores/as para llegar a toda la población o universo de
estudio, por lo que se suele optar por métodos de muestreo que sirvan para acotar ese
universo y así poder realizar la investigación dentro de nuestras posibilidades.
El uso de estos métodos de muestreo, como su propio nombre indica, nos ayuda a obtener
información fiable de la población a partir de una muestra de la que extraer inferencias
estadísticas con un margen de error medido en términos de probabilidades. En otras palabras,
en una investigación por muestreo podremos estudiar el comportamiento y las opiniones de
toda una población analizando únicamente una parte de esta, teniendo en cuenta que siempre
existirá un margen de error a la hora de realizar dichos cálculos.
Muestreo simple: Este tipo de muestreo toma solamente una muestra de una población
dada para el propósito de inferencia estadística. Puesto que solamente una muestra es
tomada, el tamaño de muestra debe ser los suficientemente grandes para extraer una
conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.
Muestreo aleatorio simple: Es aquel en que cada elemento de la población tiene la misma
probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es
aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple.
Estimación puntual
Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor
para estimar ese parámetro, es decir, se usa un punto en concreto de la muestra para estimar
el valor deseado.
Cuando se estima un parámetro de forma puntual, se puede saber con certeza, cual es ese
valor. Imaginemos una población de 30 personas de las que seleccionamos una muestra de
20 para las que conocemos sus edades. Estimar de forma puntual la media de edad, sería tan
sencillo como sumar esos 20 datos y dividirlos entre el total de la muestra estadística.
Ejemplos de estimaciones puntuales
Un intervalo de confianza estadística en estadística permite calcular los valores que existen
alrededor de una media muestral. Dentro de la muestra, se encuentra un rango superior y
otro inferior. Dentro de dicho rango, se estima la probabilidad determinada y se localiza el
parámetro poblacional. De modo que esto permite expresar con precisión si la estimación
de la muestra coincide con el valor de toda la población.
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución
Normal, y resulta:
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral
son los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se
pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la
población y obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor
de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa
razón, la distancia desde m a la Media muestral es la misma que va de la Media muestral a
m. En consecuencia, si hacemos un muestreo con un número grande de muestras
observamos que el 95% de las veces (aproximadamente) el valor de la Media de la
población (m) se encuentra dentro del intervalo definido alrededor de cada uno de los
valores de la Media muestral. El porcentaje de veces que el valor de m se halla dentro de
alguno de los intervalos de confianza es del 95%, y es denominado nivel de confianza.
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral
son los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se
pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la
población y obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor
de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa
razón, la distancia desde m a la Media muestral es la misma que va de la Media muestral a
m. En consecuencia, si hacemos un muestreo con un número grande de muestras
observamos que el 95% de las veces (aproximadamente) el valor de la Media de la
población (m) se encuentra dentro del intervalo definido alrededor de cada uno de los
valores de la Media muestral. El porcentaje de veces que el valor de m se halla dentro de
alguno de los intervalos de confianza es del 95%, y es denominado nivel de confianza.
Estimación de un Total
Estimación (o estimar) es el proceso de encontrar una aproximación sobre una medida, lo
que se ha de valorar con algún propósito es utilizable incluso si los datos de entrada pueden
estar incompletos, incierto, o inestables. En el ámbito de la estadística estimación implica »
usar el valor de una estadística derivada de una muestra para estimar el valor de
un parámetro correspondiente a población»; la muestra establece que la información puede
ser proyectada a través de diversos factores, formal o informalmente, son procesos para
determinar una gama muy probablemente y descubrir la información que falta. Cuando una
estimación resulta ser incorrecta, se denomina “overestimate” si la estimación superó el
resultado real y una subestimación si la estimación se quedó corto del resultado real.
Sin embargo, el punto de estimación es probable que sea incorrecto, debido a que el tamaño
de la muestra (en este caso, el número de caramelos son visibles), es un número demasiado
pequeño para estar seguro de que no que contienen anomalías que difieren de la población
en su conjunto; este concepto es correspondiente a una estimación de intervalo que captura
una gama mucho más amplia de posibilidades, pero es demasiado amplio para ser útil.
REFERENCIA BIBLIOGRAFICA
http://humanidades.cchs.csic.es/cchs/web_UAE/muestreo/muestreo.html
https://www.chospab.es/calidad/archivos/Metodos/Muestreo.pdf
https://enciclopediaeconomica.com/muestreo-probabilistico/
https://definicion.de/estadigrafo/
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/
supporting-topics/data-concepts/what-are-parameters-parameter-estimates-and-sampling-
distributions/
https://www.questionpro.com/blog/es/muestreo-no-probabilistico/
https://www.questionpro.com/blog/es/como-realizar-un-muestreo-probabilistico/
https://explorable.com/es/muestreo-de-poblacion
http://asignatura.us.es/dadpsico/apuntes/Muestreo.pdf
http://www.hrc.es/bioest/esti_medias.html
https://explorable.com/es/tamano-de-la-muestra
https://economipedia.com/definiciones/estimacion-de-parametros.html
https://www.questionpro.com/blog/es/muestreo-aleatorio-simple/
http://asignatura.us.es/dadpsico/apuntes/EstimacionEstadistica.pdf