Intervalo de Confianza

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

Intervalo de confianza

 Francisco Javier Marco Sanjuán


 3 min
 Referenciar
Un intervalo de confianza es una técnica de estimación utilizada en inferencia
estadística que permite acotar un par o varios pares de valores, dentro de los
cuales se encontrará la estimación puntual buscada (con una determinada
probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una
media muestral (uno superior y otro inferior). Estos valores van a acotar
un rango dentro del cual, con una determinada probabilidad, se va a localizar el
parámetro poblacional.

Intervalo de confianza = media +- margen de error

Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado.
Pensemos en una población de 4 millones de personas. ¿Podríamos saber el
gasto medio en consumo por hogar de esa población? En principio sí.
Simplemente tendríamos que hacer una encuesta entre todos los hogares y
calcular la media. Sin embargo, seguir ese proceso sería tremendamente
laborioso y complicaría bastante el estudio.

Factores de los que depende un intervalo de confianza


El cálculo de un intervalo de confianza depende principalmente de los siguientes
factores:

 Tamaño de la muestra seleccionada: Dependiendo de la cantidad de


datos que se hayan utilizado para calcular el valor muestral, este se
acercará más o menos al verdadero parámetro poblacional.
 Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra
estimación acierta. Los niveles habituales son el 95% y el 99%.
 Margen de error de nuestra estimación: Este se denomina como alfa y
nos informa de la probabilidad que existe de que el valor poblacional esté
fuera de nuestro intervalo.
 Lo estimado en la muestra (media, varianza, diferencia de
medias…): De esto va a depender el estadístico pivote para el cálculo del
intervalo.
Ejemplo de intervalo de confianza para la media,
asumiendo normalidad y conocida la desviación típica
El estadístico pivote utilizado para el cálculo sería el siguiente:

El intervalo resultante sería el siguiente:

Vemos como en el intervalo a la izquierda y derecha de la desigualdad tenemos la


cota inferior y superior respectivamente. Por tanto la expresión nos dice, que la
probabilidad de que la media poblacional se sitúe entre esos valores es de 1-alfa
(nivel de confianza).

Veamos mejor lo anterior con un ejercicio resuelto a modo de ejemplo.

Se desea estimar la media del tiempo que un corredor emplea para completar una
maratón. Para ello se han cronometrado 10 maratones  y se ha obtenido una
media de 4 horas con una desviación típica de 33 minutos (0,55 horas). Se desea
obtener un intervalo al 95% de confianza.

Para obtener el intervalo, no tendríamos más que sustituir los datos en la fórmula
del intervalo.
El intervalo de confianza, sería la parte de la distribución que queda sombreada en
azul. Los 2 valores acotados por este serían los correspondientes a las 2 líneas de
color rojo. La línea central que parte la distribución en 2 sería el verdadero valor
poblacional.

Es importante resaltar que en este caso, dado que la función de densidad de la


distribución N(0,1) nos da la probabilidad acumulada (desde la izquierda hasta el
valor crítico), tenemos que encontrar el valor que nos deja a la izquierda 0,975%
(este es 1,96).

Medidas de tendencia central y medidas de dispersión

Medidas de tendencia central y dispersión


Measures of central tendency and dispersion
Fernando Quevedo Ricardi

Resumen

En la sección Series, Medwave publica artículos relacionados con el


desarrollo y discusión de herramientas metodológicas para la
investigación clínica, la gestión en salud, la gesión de la calidad y otros
temas de interés. En esta edición se presentan dos artículos que forman
parte del programa de formación en Medicina Basada en Evidencias que
se dicta por e-Campus de Medwave. El artículo siguiente pertenece a la
Serie "Estadística Aplicada a la Investigación en Salud".
Las medidas de tendencia central son medidas estadísticas que
pretenden resumir en un solo valor a un conjunto de valores.
Representan un centro en torno al cual se encuentra ubicado el conjunto
de los datos. Las medidas de tendencia central más utilizadas
son: media, mediana y moda. Las medidas de dispersión en cambio
miden el grado de dispersión de los valores de la variable. Dicho en
otros términos las medidas de dispersión pretenden evaluar en qué
medida los datos difieren entre sí. De esta forma, ambos tipos de
medidas usadas en conjunto permiten describir un conjunto de datos
entregando información acerca de su posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren


levemente dependiendo de la forma en que se encuentren los datos. Si
los datos se encuentran ordenados en una tabla estadística diremos que
se encuentran “agrupados” y si los datos no están en una tabla
hablaremos de datos “no agrupados”.

Según este criterio, haremos primero el estudio de las medidas


estadísticas para datos no agrupados y luego para datos agrupados.
Medidas estadísticas en datos no agrupado
Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media
aritmética o promedio aritmético. Se representa por la letra griega µ
cuando se trata del promedio del universo o población y por Ȳ (léase Y
barra) cuando se trata del promedio de la muestra. Es importante
destacar que µ es una cantidad fija mientras que el promedio de la
muestra es variable puesto que diferentes muestras extraídas de la
misma población tienden a tener diferentes medias. La media se
expresa en la misma unidad que los datos originales: centímetros,
horas, gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el


estadígrafo será:
Tamaño completo 

Estos cálculos se pueden simbolizar:

Tamaño completo 

Donde Y1 es el valor de la variable en la primera observación, Y2 es el


valor de la segunda observación y así sucesivamente. En general, con
“n” observaciones, Yi representa el valor de la i-ésima observación. En
este caso el promedio está dado por

Tamaño completo 

De aquí se desprende la fórmula definitiva del promedio:

Tamaño completo 

Desviaciones: Se define como la desviación de un dato a la diferencia


entre el valor del dato y la media:

Tamaño completo 

Ejemplo de desviaciones:
Tamaño completo 

Una propiedad interesante de la media aritmética es que la suma de las


desviaciones es cero.

Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor
de la variable que ocupa la posición central, cuando los datos se
disponen en orden de magnitud. Es decir, el 50% de las observaciones
tiene valores iguales o inferiores a la mediana y el otro 50% tiene
valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al


promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9,
11, 15, la mediana es (9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que
más se repite. En un polígono de frecuencia la moda corresponde al
valor de la variable que está bajo el punto más alto del gráfico. Una
muestra puede tener más de una moda.

Medidas de dispersión

Las medidas de dispersión entregan información sobre la variación de la


variable. Pretenden resumir en un solo valor la dispersión que tiene un
conjunto de datos. Las medidas de dispersión más utilizadas son: Rango
de variación, Varianza, Desviación estándar, Coeficiente de variación.

Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el
menor valor de la variable.
Tamaño completo 

La mejor medida de dispersión, y la más generalizada es la varianza, o


su raíz cuadrada, la desviación estándar. La varianza se representa con
el símbolo σ² (sigma cuadrado) para el universo o población y con el
símbolo s2 (s cuadrado), cuando se trata de la muestra. La desviación
estándar, que es la raíz cuadrada de la varianza, se representa por σ
(sigma) cuando pertenece al universo o población y por “s”, cuando
pertenece a la muestra. σ² y σ son parámetros, constantes para una
población particular; s2 y s son estadígrafos, valores que cambian de
muestra en muestra dentro de una misma población. La varianza se
expresa en unidades de variable al cuadrado y la desviación estándar
simplemente en unidades de variable.

Fórmulas
Donde µ es el promedio de la población.

Tamaño completo 

Donde Ȳ es el promedio de la muestra.

Tamaño completo 

Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de


las medidas de dispersión:
Tamaño completo 

s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33


= 3,4.

Interpretación de la varianza (válida también para la desviación


estándar): un alto valor de la varianza indica que los datos están
alejados del promedio. Es difícil hacer una interpretación de la varianza
teniendo un solo valor de ella. La situación es más clara si se comparan
las varianzas de dos muestras, por ejemplo varianza de la muestra igual
18 y varianza de la muestra b igual 25. En este caso diremos que los
datos de la muestra b tienen mayor dispersión que los datos de la
muestra a. esto significa que en la muestra a los datos están más cerca
del promedio y en cambio en la muestra b los datos están más alejados
del promedio.

Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la
desviación estándar de la muestra expresada como porcentaje de la
media muestral.

Tamaño completo 

Es de particular utilidad para comparar la dispersión entre variables con


distintas unidades de medida. Esto porque el coeficiente de variación, a
diferencia de la desviación estándar, es independiente de la unidad de
medida de la variable de estudio.
Medidas de tendencia central y de dispersión en datos
agrupados

Se identifica como datos agrupados a los datos dispuestos en una


distribución de frecuencia. En tal caso las fórmulas para el cálculo de
promedio, mediana, modo, varianza y desviación estándar deben incluir
una leve modificación. A continuación se entregan los detalles para cada
una de las medidas.

Promedio en datos agrupados


La fórmula es la siguiente:

Tamaño completo 

Donde ni representa cada una de las frecuencias correspondientes a los


diferentes valores de Yi.

Consideremos como ejemplo una distribución de frecuencia de madres


que asisten a un programa de lactancia materna, clasificadas según el
número de partos. Por tratarse de una variable en escala discreta, las
clases o categorías asumen sólo ciertos valores: 1, 2, 3, 4, 5.

Tamaño completo 

Tamaño completo 
Entonces las 42 madres han tenido, en promedio, 2,78 partos.

Si la variable de interés es de tipo continuo será necesario determinar,


para cada intervalo, un valor medio que lo represente. Este valor se
llama marca de clase (Yc) y se calcula dividiendo por 2 la suma de los
límites reales del intervalo de clase. De ahí en adelante se procede del
mismo modo que en el ejercicio anterior, reemplazando, en la formula
de promedio, Yi por Yc.

Mediana en datos agrupados


Si la variable es de tipo discreto la mediana será el valor de la variable
que corresponda a la frecuencia acumulada que supere inmediatamente
a n/2. En los datos de la tabla 1 Me=3, ya que 42/2 es igual a 21 y la
frecuencia acumulada que supera inmediatamente a 21 es 33, que
corresponde a un valor de variable (Yi) igual a 3.

Si la variable es de tipo continuo es necesario, primero, identificar la


frecuencia acumulada que supere en forma inmediata a n/2, y luego
aplicar la siguiente fórmula:

Tamaño completo 

Donde:

Tamaño completo 

Moda en datos agrupados


Si la variable es de tipo discreto la moda o modo será al valor de la
variable (Yi) que tenga la mayor frecuencia absoluta ( ). En los datos de
la tabla 1 el valor de la moda es 3 ya que este valor de variable
corresponde a la mayor frecuencia absoluta =16.

Más adelante se presenta un ejemplo integrado para promedio,


mediana, varianza y desviación estándar en datos agrupados con
intervalos.

Varianza en datos agrupados


Para el cálculo de varianza en datos agrupados se utiliza la fórmula

Tamaño completo 

Con los datos del ejemplo y recordando que el promedio (Y) resultó ser
2,78 partos por madre,

Tamaño completo 

Tamaño completo 

Cuando los datos están agrupados en intervalos de clase, se trabaja con


la marca de clase (Yc), de tal modo que la fórmula queda:

Tamaño completo 
Donde Yc es el punto medio del intervalo y se llama marca de clase del
intervalo

Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.

Percentiles

Los percentiles son valores de la variable que dividen la distribución en


100 partes iguales. De este modo si el percentil 80 (P80) es igual a 35
años de edad, significa que el 80% de los casos tiene edad igual o
inferior a 35 años.

Su procedimiento de cálculo es relativamente simple en datos


agrupados sin intervalos.

Retomemos el ejemplo de la variable número de partos:

Tamaño completo 

El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya


frecuencia acumulada supera inmediatamente al “j” % de los casos
(jxn/100).

El percentil 80, en los datos de la tabla, será el valor de la variable cuyo


Ni sea inmediatamente superior a 33,6 ((80x42) /100).

El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le


corresponde el valor 4. Se dice entonces que el percentil 80 es 4 partos
(P80=4). Este resultado significa que un 80% de las madres estudiadas
han tenido 4 partos o menos.

Si los datos están agrupados en una tabla con intervalos, el


procedimiento es levemente más complejo ya que se hace necesaria la
aplicación de una fórmula.

Tamaño completo 

Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea


inmediatamente superior al “j” % de los casos (jxn/100).

En la siguiente tabla se muestra la distribución de 40 familias según su


ingreso mensual en miles de pesos. Nótese que para calcular el centro
de clase se usaron los límites reales de cada intervalo.

Tamaño completo 

1. El ingreso mensual promedio será:

Tamaño completo 

2. La mediana será:

Tamaño completo 
Esto significa que un 50% de las familias tiene ingreso mensual igual o
inferior a $127.270.

3. El percentil 78 será:

Tamaño completo 

Por lo tanto se puede decir que 78% de las familias tienen ingreso igual
o inferior a $174.660.

4. Los percentiles 10 y 90 serán:

Tamaño completo 

Tamaño completo 

A base de los valores de los percentiles 10 y 90 se pueden hacer tres


afirmaciones:

 El 10% de las familias tiene ingreso igual o inferior a $90.000.


 El 90% de las familias tiene ingreso igual o inferior a $210.000.
 El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000

5. - La varianza será:

Tamaño completo 
6. La desviación estándar es la raíz cuadrada de esta cifra, es decir:
43,76.

Prueba de Kruskal-Wallis: Qué


es, ventajas y cómo se realiza
La prueba de Kruskal Wallis toma su nombre de William Kruskal y W. Allen
Wallis y se utiliza en la estadística para corroborar si un conjunto de datos
proviene o no de la misma población. 

En este artículo encontrarás en qué consiste, cuáles son sus ventajas y cómo
desarrollarla paso a paso.

¿Qué es la prueba de Kruskal Wallis?


La prueba H de Kruskal-Wallis es una prueba no paramétrica basada en el rango
que puede utilizarse para corroborar si existen diferencias relevantes a nivel
estadístico entre dos o más grupos de una variable independiente en una variable
dependiente ordinal o continua. 

La prueba determina si las medianas de dos o más grupos son diferentes. De esta
forma, calcula un estadístico de prueba y lo compara con un punto de corte de la
distribución. 

El estadístico de prueba utilizado se denomina estadístico H. Las hipótesis de la


prueba son:

 H0: las medianas de la población son iguales.


 H1: las medianas de la población no son iguales.

¿Cuál es la importancia del test de Kruskal Wallis?


La prueba de Kruskal Wallis se considera la alternativa no paramétrica
al ANOVA unidireccional, y una extensión de la prueba U de Mann-Whitney para
permitir la comparación de más de dos grupos independientes. 

La prueba H se utiliza cuando no se cumplen los supuestos del ANOVA (como el


supuesto de normalidad). A veces se denomina ANOVA unidireccional sobre
rangos, ya que en la prueba se utilizan los rangos de los valores de los datos en
lugar de los puntos de datos reales.

Al ser no paramétrica, la prueba no asume que los datos provienen de una


distribución particular. La prueba de Kruskal Wallis te dirá si hay una diferencia
significativa entre los grupos. Sin embargo, no te dirá qué grupos son diferentes.

Descubre cómo garantizar la  validez y confiabilidad en una investigación


 

Ventajas de utilizar los modelos de Kruskal Wallis


Algunas de las ventajas de utilizar los modelos de Kruskal Wallis son:

1. Puede aplicarse a un gran número de situaciones.


2. Se puede entender fácilmente de forma intuitiva.
3. Puede utilizarse con tamaños de muestra más pequeños.
4. Puede utilizarse con diversos tipos de datos.
5. Necesita menos supuestos o menos estrictos sobre la naturaleza de la
distribución de la población.
6. Es generalmente robusto y no suele verse afectado por valores extremos
en los datos, como los valores atípicos.
7. Tiene un alto nivel de eficiencia relativa asintótica en comparación con
las pruebas paramétricas clásicas.
Conoce las  diferencias entre las pruebas no paramétricas y las pruebas paramétricas
 

¿Cuándo se puede utilizar la prueba de Kruskal Wallis?


Cuando decidas analizar tus datos mediante una prueba H de Kruskal-Wallis,
parte del proceso consiste en comprobar que los datos que se desean analizar
pueden realmente analizarse mediante una prueba H de Kruskal-Wallis. 
Sólo es apropiado utilizar una prueba H de Kruskal-Wallis si tus datos “pasan”
por cuatro supuestos que son necesarios para que una prueba H de Kruskal-
Wallis pueda arrojar un resultado válido:

 Supuesto No. 1: Es necesario medir a nivel ordinal o continuo su variable


dependiente.
 Supuesto No. 2: Dos o más de dos grupos categóricos e independientes
conforman su variable independiente. La prueba H de Kruskal-Wallis se
utiliza cuando se tienen tres o más grupos categóricos independientes,
pero puede utilizarse sólo para dos grupos.
 Supuesto No. 3: Es necesario que haya independencia de las
observaciones, es decir, no se presente ninguna relación entre las
observaciones de los grupos o entre los grupos.
Conoce los diversos  tipos de variables en una investigación
 

¿Cómo realizar la prueba de Kruskal Wallis?


Ahora que ya conoces en qué consiste la prueba de Krustal Wallis, cuál es su
importancia y cómo saber si se puede utilizar la prueba de Kruskal Wallis, es
momento de presentarte cómo realizarla paso a paso:

 Paso1: Ordena los datos de todos los grupos o muestras en orden


ascendente en un conjunto combinado.
 Paso 2: Asigna rangos a los puntos de datos ordenados. Asigna a los
valores empatados el rango medio.
 Paso 3: Suma los diferentes rangos de cada grupo/muestra.
 Paso 4: Calcula el estadístico H
Donde:

n = suma de los tamaños de las muestras para todas las muestras.

c = número de muestras.

Tj = suma de rangos en la muestra.

nj = tamaño de la muestra.
 Paso 5: Encuentra el valor crítico de chi-cuadrado, con c-1 grados de
libertad. Para 3 – 1 grados de libertad y un nivel de alfa de 0,05, el valor
crítico de chi cuadrado es 5,9915.
 Paso 6: Compara el valor H del Paso 4 con el valor crítico de chi-cuadrado
del Paso 5.
Si el valor crítico de chi-cuadrado es menor que el estadístico H, rechaza la
hipótesis nula de que las medianas son iguales.

Si el valor de chi-cuadrado no es menor que el estadístico H, no hay suficiente


evidencia para sugerir que las medianas son desiguales.

Conclusión
Como toda prueba no paramétrica, el uso de la prueba de Kruskal Wallis es
conveniente cuando se trabaja con muestras pequeñas, con la finalidad de
corroborar los resultados obtenidos con base en el uso de la teoría basada en la
normal.

Si te gustaría conocer más herramientas de investigación, te invitamos a


descargar nuestro Ebook de Metodologías de investigación avanzadas, donde
encontrarás información a detalle sobre técnicas como el análisis conjunto, lógicas
de investigación avanzadas, informes y métodos de análisis para garantizar el
éxito en tu próxima investigación.

Recuerda que en QuestionPro Audience contamos con diversos servicios de


investigación y levantamiento de muestras de respondentes, además de nuestra
plataforma gratuita de encuestas online. Si te gustaría conocer más información,
escríbenos en nuestro chat en línea cuáles son tus necesidades.

También podría gustarte