Medidas de Dispersión, Asimetría y Curtosis

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Medidas de dispersión

Las medidas de tendencia central se refieren a la concentración de puntuaciones


(datos) de una determinada escala numérica en un grupo. Una medida particular de
tendencia central da lugar a una de puntuación o valor que en cierto sentido
“representa” a todas las puntuaciones del grupo. En este proceso pasa por alto las
diferencias entre las puntuaciones en sí. Asimismo, para evaluar la variación de las
puntuaciones se necesitan estadígrafos descriptivos que miden la heterogeneidad,
dispersión o esparcimiento de las puntuaciones.

Para describir en forma adecuada un conjunto de datos, son necesarios dos tipos de
medidas de resumen: Las de tendencia central y las de dispersión. Además, para
obtener información al respecto a la parte media de un conjunto de números, también
es conveniente tener un método para expresar la cantidad de dispersión que hay entre
los datos. Por ejemplo, las medidas de dispersión indican si los valores están
relativamente cercanos uno de otro o si se encuentran dispersos.

Observen la siguiente figura

En el primer caso podemos ver que existe una dispersión baja en los datos, es decir, se
encuentran a muy poca distancia uno del otro. Mientras que el segundo tiene una alta
dispersión. Existen diversas medidas que nos permiten calcular la dispersión de un
conjunto de datos, estudiaremos algunas de ellas

Rango

Dicha medida es generalmente la medida más fácil de calcular y también de


comprender. Aprendimos como sacar el rango cuando realizamos la tabla de frecuencia
para la variable cuantitativa. Se puede expresar como

a) La diferencia entre los valores mayor y menor de la muestra


b) Los valores mayor y menor del grupo

La ventaja de utilizar el rango como medida de dispersión se basa en el hecho de que su


obtención es relativamente sencilla, aun cuando se trate de un conjunto grande de
datos.
La principal desventaja del rango es que considera solamente los valores extremos de
un conjunto y no proporciona mayor información respecto de los demás, a veces existen
dos valores extremos que jamás se repiten en la muestra y si los consideramos podemos
dar una falsa imagen del conjunto.

En este caso se presentan 3 conjuntos de puntuaciones bastante diferentes que poseen


el mismo rango. En el primer caso los valores se distribuyen uniformemente, por lo
tanto, el rango cumple con su objetivo. En el segundo caso los valores se encuentran
más agrupados. No obstante, el tercer conjunto demuestra cómo se puede influir
fácilmente en el rango mediante valores extremos y presentar información bastante
engañosa respecto a la dispersión.

Rango intercuantil (RQ)

El rango intercuantil es la diferencia entre el primer y tercer cuartil esto es:

𝑅𝑄 ∶ 𝑄3 − 𝑄1

Esta medida, para propositos descriptivos, es definitivamente superior al rango, se dice


que es superior porque se calcula entre el primer y tercer cuartil, eliminando dos
extremos de un cuarto de la muestra, considerando que la mayoria de las puntuaciones
se agruparan en la proporción restante, excepto en cuanto a simplicidad de cálculos.

Varianza (𝒔𝟐 ) y desviación estándar (𝒔)

La varianza de una muestra o conjunto de datos es la desviación promedio de valores


obtenidos a partir de la media, elevada al cuadrado y dividida entre 𝑛 − 1. Cuando
trabajamos sobre una población dividiremos por 𝑛 y cuando trabajemos sobre la
muestra dividiremos por 𝑛 − 1.

La varianza se representa como 𝒔𝟐 cuando se refiere a la varianza muestral y como


𝜎 2 (letra griega sigma minúscula al cuadrado) cuando se trata de una población.

La fórmula para calcular la varianza de una muestra tiene pequeñas modificaciones


según trabajemos con datos agrupados o no agrupados. A continuación, les dejo una
tabla que representa cada caso.
La siguiente tabla muestra el cálculo de la varianza para una muestra.

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)
𝒏
𝟐
∑𝒊=𝟏(𝒙𝒊 − 𝒙
̅) 𝟐
𝟐
∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
̅) 𝟐 𝟐
∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙̅) 𝟐
𝒔 = 𝒔 = 𝒔 =
𝒏−𝟏 𝒏−𝟏 𝒏−𝟏
Donde: Donde: Donde:
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias 𝑚𝑖 : valor de la marca de
𝑥̅ : valor de la media clase
𝑛 : número de datos o
elementos

La siguiente tabla muestra el cálculo de la varianza para una población.

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)
𝒏
∑𝒊=𝟏(𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙̅) 𝟐
𝒔𝟐 = 𝒔𝟐 = 𝒔𝟐 =
𝒏 𝒏 𝒏
Donde: Donde: Donde:
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias 𝑚𝑖 : valor de la marca de
𝑥̅ : valor de la media clase
𝑛 : número de datos o
elementos

Deviación estándar o desviación típica

Se llama desviación o desvío a la diferencia entre un valor individual 𝑥𝑖 y la media 𝑥̅ . LA


varianza es una medida de sipersión en la que hallamos desviaciones al cuadrado. Esto
indica que la unidad de medida de la varianza se expresa en unidades al cuadrado.

Para superar esa insuficiencia y disponer de una medida de la dispersión de las


puntuaciones que se exprese en unidades, que no sean al cuadrado, se calcula la raíz
cuadrada de la varianza conocida como desviación estándar.

La desviación estándar es una de las medidas de resumen que más se utiliza para las
distribuciones y desempeña un papel preponderante en la estadística. Es importante
observar que las unidades en las que se expresa la desviación estándar son las mismas
que la media. Por ejemplo, si la media se da a conocer en unidades monetarias, la
desviación estándar también lo estará. Su la media está en metros, ocurrirá lo mismo
con la desviación estándar.

La desviación estándar es simplemente la raíz cuadrada de la varianza. Entonces se


deduce que para obtener la desviación estándar se debe calcular primero la varianza y
después hallar su raíz cuadrada.

La siguiente tabla muestra el cálculo de la desviación estándar para una muestra.

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)

∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙
̅) 𝟐
𝒔=√ 𝒔=√ 𝒔 = √ 𝒊=𝟏
𝒏−𝟏 𝒏−𝟏 𝒏−𝟏
Donde: Donde: Donde:
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias 𝑚𝑖 : valor de la marca de
𝑥̅ : valor de la media clase
𝑛 : número de datos o
elementos

La siguiente tabla muestra el cálculo de la desviación estándar para una población.

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)

∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
̅) 𝟐 ∑𝒏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙
̅) 𝟐
𝒔=√ 𝒔=√ 𝒔 = √ 𝒊=𝟏
𝒏 𝒏 𝒏
Donde: Donde: Donde:
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias 𝑚𝑖 : valor de la marca de
𝑥̅ : valor de la media clase
𝑛 : número de datos o
elementos
Medidas de asimetría y curtosis

Hasta ahora hemos desarrollado métodos para describir la tendencia central de un


conjunto de valores (media, mediana, moda) y también para medir su grado de
dispersión (varianza y desviación estándar). Otra característica que puede medirse en
un conjunto de datos es el grado de asimetría y curtosis.

Conociendo estos resultados será posible resumir de manera eficaz las características
de un conjunto de datos con cuatro indicadores: Una medida de centralización, una
medida de dispersión (desviación estándar), una medida de asimetría y una medida de
altura (curtosis). Veamos entonces como calcular estas medidas.

Asimetría

Como vimos anteriormente el conjunto de datos puede presentar simetría, asimetría


positiva o asimetría negativa. La forma de calcular la asimetría que más se utiliza es el
coeficiente de asimetría, definido como 𝛼3 que también se define como el tercer
momento con respecto a la media y se encuentra definida por la siguiente fórmula para
cada tipo de series:

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)
𝟏 𝒏 𝟏 𝒏 𝛼3
∑𝒊=𝟏(𝒙𝒊 − 𝒙̅) 𝟑 ̅) 𝟑
∑𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
𝛼3 = 𝒏 𝛼3 = 𝒏 𝟏 𝒏
𝒔𝟑 𝒔𝟑 ∑𝒊=𝟏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙̅) 𝟑
= 𝒏
Donde: Donde: 𝒔𝟑
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias Donde:
𝑥̅ : valor de la media 𝑚𝑖 : valor de la marca de
𝑛 : número de datos o clase
elementos
𝑠 3 : cubo de la desviación
estándar
A continuación, se presentan los criterios para la interpretación del valor del
coeficiente de asimetría

𝛼3 = 0, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑚é𝑡𝑟𝑖𝑐𝑎


𝑎3 = { 𝛼3 > 0, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑎𝑠𝑖𝑚é𝑡𝑟𝑖𝑐𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎
𝛼3 < 0, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑎𝑠𝑖𝑚é𝑡𝑟𝑖𝑐𝑎 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎
Medidas de curtosis (una medida de las puntas)

Dos distribuciones pueden tener la misma media, la misma desviación estándar y ser
perfectamente simétricas, pero siguen siendo diferentes si una es “puntiaguda” y otra
es “achatada”. Las distribuciones puntiagudas y con extremos relativamente anchos
reciben el nombre de leptocúrticas, en tanto que las que tienden a ser chatas y con colas
relativamente estrechas se llaman platocúrticas.

La manera formal para determinar la altura de una distribución es calculando el


coeficiente de curtosis definido como 𝛼4 , que también se precisa como el cuarto
momento con respecto a la media, definido por la siguiente fórmula para cada tipo de
serie:

Series simple (datos sin Series de frecuencias Series de clases y


agrupar) (variable discreta sin frecuencias (datos
intervalos) agrupados en intervalos)
𝟏 𝒏 𝟏 𝒏 𝛼4
∑𝒊=𝟏(𝒙𝒊 − 𝒙̅) 𝟒 ̅) 𝟒
∑𝒊=𝟏 𝒏𝒊 ∗ (𝒙𝒊 − 𝒙
𝛼4 = 𝒏 𝛼4 = 𝒏 𝟏 𝒏
𝒔𝟒 𝒔𝟑 ∑𝒊=𝟏 𝒏𝒊 ∗ (𝒎𝒊 − 𝒙̅) 𝟒
= 𝒏
Donde: Donde: 𝒔𝟒
𝑥𝑖 : valores de x (dato) 𝑛𝑖 : frecuencias Donde:
𝑥̅ : valor de la media 𝑚𝑖 : valor de la marca de
𝑛 : número de datos o clase
elementos
𝑠 4 : desviación estándar
elevada a la cuarta

Esta medida de altura no depende de la ubicación o varianza de la distribución y, por lo


tanto, no puede utilizarse con propósitos comparativos. La altura de la distribución
“normal” es empleada comúnmente como la estándar de la altura que debe tener una
distribución. Para una distribución normal, el valor del coeficiente 𝛼4 = 3. Si en otras
pruebas el valor del coeficiente de curtosis es mayor que 3, la distribución es
leptocúrtica, mientras que, si es menor a 3, es platocúrtica.
𝛼4 = 3, 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑑𝑒 𝑡𝑖𝑝𝑜 𝑛𝑜𝑟𝑚𝑎𝑙
𝑎3 = { 𝛼4 > 3, 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑙𝑒𝑝𝑡𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎
𝛼4 < 3, 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑒𝑠 𝑝𝑙𝑎𝑡𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎

También podría gustarte