Medidas de Tendencia Central 2
Medidas de Tendencia Central 2
Medidas de Tendencia Central 2
1
Descripción de los datos
Ahora desarrollaremos métodos para describir datos encontrando un único valor para
describir un conjunto de ellos. Este único valor se le conoce como medida de tendencia
central, por lo común se le denomina promedio.
Medida de Tendencia Central: un único valor que resume un conjunto de datos. Señala al
centro de los valores.
Media de la población
A partir de los datos en vivo, los que no han sido agrupados en una distribución de
frecuencias o en una representación de tallo y hoja; la media de una población está dada
por:
∑𝑿
𝑴𝑬𝑫𝑰𝑨 𝑫𝑬 𝑼𝑵𝑨 𝑷𝑶𝑩𝑳𝑨𝑪𝑰𝑶𝑵 𝝁=
𝑵
2
𝜇 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛. 𝐿𝑒𝑡𝑟𝑎 𝑔𝑟𝑖𝑒𝑔𝑎
Media de la muestra
EJEMPLO: La empresa “MLGF” se especializa en tratos a largo plazo de países extranjeros. Interesa
saber la tasa de interés de estos acuerdos financieros. Una muestra aleatoria de seis bonos
presento lo siguiente:
Tasa de
Articulo
interés
Bonos del Gobierno de Australia 9,50%
Bonos del Gobierno de Bélgica 7,25
Bonos del Gobierno de Canadá 6,50
Bonos del Gobierno de Francia 4,75
Bonos del Gobierno de Italia 12,00
Bonos del Gobierno de España 8,30
¿Cuál es la media de las tasas de interés en esta muestra de tratos de finanzas a largo plazo?
Solución: Como se trata de una muestra se puede utilizar la fórmula de media muestral:
3
∑𝑿 9.50 + 7.25 + 6.5 + 4.75 + 12 + 8.3
̅=
𝑿 ̅=
𝑿 = 8.05%
𝒏 6
La tasa de interés media (aritmética) de la muestra es igual al valor de 8.05%
1. Todo conjunto de datos de nivel de intervalo y de nivel de razón tiene un valor medio.
2. Al evaluar la media se incluyen todos los valores.
3. Un conjunto de datos solo tiene una media. Este es un valor único.
4. La media es una medida muy útil para comparar dos o más poblaciones. Ejemplo se puede
comparar el promedio de calificaciones en el primer hemisemestre de la asignatura de
Estadística Descriptiva de los paralelos A y B de UPS.
5. La media es la única medida de ubicación donde la suma de las desviaciones de cada valor
respecto a la media siempre será cero.
̅) = 𝟎
𝑳𝑨𝑺 𝑫𝑬𝑺𝑽𝑰𝑨𝑪𝑰𝑶𝑵𝑬𝑺 𝑹𝑬𝑺𝑷𝑬𝑪𝑻𝑶 𝑨 𝑳𝑨 𝑴𝑬𝑫𝑰𝑨 𝑺𝑼𝑴𝑨𝑵 𝑪𝑬𝑹𝑶: ∑(𝑿 − 𝑿
Por lo tanto, se puede considerar la media como un punto de equilibrio para un conjunto de
datos.
1. Si uno o dos datos es muy grande o pequeño; por ejemplo se toma la estatura a 5 estudiantes
de la UPS y se tiene los siguientes datos: 1.65, 1,70, 1.72, 1.63, 2.15; su media es de 𝑋̅ =
1.77𝑐𝑚; nótese que el valor de estatura de 2.15 afecto considerablemente a la media pues la
mayoría de los datos no están dentro de esa media.
2. La media es inadecuada si hay clase de extremos abiertos para datos agrupados en una
distribución de frecuencias.
Media ponderada.
Es un caso especial de la media aritmética; se presenta cuando hay varias observaciones del
mismo valor que pueden ocurrir si los datos se han agrupado en una distribución de frecuencias.
∑(𝑤𝑋)
𝑴𝑬𝑫𝑰𝑨 𝑷𝑶𝑵𝑫𝑬𝑹𝑨𝑫𝑨 𝑋̅𝑤 =
∑𝑤
4
EJEMPLO: La constructora “CCT” paga a sus empleados $6.50, $7.50, o bien $8.50 por hora. Hay 26
empleados por hora; 14 reciben la tarifa de $6.50, 10 la de $7.50 y 2 la de $8.50. ¿Cuál es la media
de la tarifa por hora pagada a los 26 trabajadores?
Mediana
Se señaló que para datos que contienen uno o dos valores sumamente grandes o pequeños, la
media aritmética puede no ser representativa. El punto central de tales datos puede ser descrito
utilizando como medida de tendencia central la mediana.
Mediana: es el punto medio de los valores después de ordenarlos de menor a mayor, o de mayor
a menor. Se tiene que el 50% de las observaciones se encuentran por arriba de la mediana y 50%
por debajo de ella.
Para aclarar lo expuesto; supongamos que los precios de ciertos departamentos son de $60.000;
$65.000; $70.000; $80.000 y un penthouse de super lujo cuesta $275.000. La media aritmética es
de $110.000, pero la media aritmética está haciendo que los precios se inclinen hacia arriba, por lo
que es un promedio no representativo. Parecería ser que un precio entre $65.000 y $75.000 es un
promedio más típico y representativo, y de hecho lo es. En casos, como este la mediana
proporciona una medida más exacta de tendencia central.
Para determinar esta medida ordenemos los datos de manera ascendente y descendente.
Precios de
Precios de
menor a
mayor a menor
mayor
$ 60.000 $ 275.000
65000 80000
70000 Mediana 70000
80000 65000
275000 60000
Obsérvese que hay el mismo número de precios por debajo de $70.000 como por arriba. Por lo
tanto la mediana no se ve afectada por observaciones muy bajas o muy altas.
5
EJEMPLO: Se presentan la edad de 10 personas en la tienda de videos en un Centro comercial a las
10 a.m. Determine la mediana.
12 8 17 6 11 14 8 17 10 8
6
8
8
8
10 Mediana=(10+11)/2=10.5 años
11
12
14
17
17
Propiedades de la mediana:
Moda
Propiedades de la moda:
Tiene algunas desventajas, por lo que es menos utilizada con menos frecuencia que la media o la
mediana, podemos citar:
1. Para muchos conjuntos de datos no hay moda; por ejemplo: Para las observaciones de datos:
2, 4, 6, 7,9.
2. Por lo contrario para otros conjuntos de datos, esta medida no es única; ejemplo: Para la
observación de las edades de un conjunto de personas se tiene: 24, 25, 25, 26, 28, 31, 31;
6
tanto las edades de 25 y 31 son modas: por tanto, esta agrupación de edades se conoce como
bimodal. Es cuestionable utilizar 2 modas para representar la tendencia central de este
conjunto de datos de edades.
Media geométrica
La media geométrica es útil para encontrar el promedio de porcentajes, razones, índices o tasas de
crecimiento. Muy utilizada en los negocios, porque usualmente interesa encontrar el cambio
porcentual en las ventas, sueldos y cifras económicas como PNB.
𝒏
𝑴𝑬𝑫𝑰𝑨 𝑮𝑬𝑶𝑴𝑬𝑻𝑹𝑰𝑪𝑨 𝑴𝑮 = √(𝒙𝟏 )(𝒙𝟐 ) … … (𝒙𝒏 )
La media geométrica siempre será menor o igual que la media aritmética y el valor del conjunto de
datos siempre debe ser positivos.
EJEMPLO: Suponga que recibe un aumento del 8% de su sueldo este año, y recibirá uno de 16% el
próximo año. Encuentre la media geométrica.
𝑀𝐺 = √(1.08)(1.16) = 1.1193
Lo anterior podemos verificar con el ejemplo siguiente: Supongamos, que el salario actual es de
$2.000; tendríamos:
Que es equivalente:
EJEMPLO: Las ganancias obtenidas por una Consultora de Auditoria en cuatro proyectos son: 12%,
14%, 16%, 21%. ¿Cuál es la media geométrica de la ganancia?
𝑛
𝑀𝐺 = √(𝑥1 )(𝑥2 ) … … (𝑥𝑛 )
𝑀𝐺 = 4√(12)(14)(16)(21) = 15.41%
12+14+16+21
La media aritmética: 𝑋̅ = 4
= 15.75%
7
Media geométrica en un promedio en un periodo dado
13 480
𝑀𝐺 = √ − 1 = 0.0515
250
Media
∑ 𝑓𝑋
𝑋̅ =
𝑛
Precios de venta
(en miles de $) Frecuencia
12 a 15 8
15 a 18 23
18 a 21 17
21a 24 18
24 a 27 8
27 a 30 4
30 a 33 1
33 a 36 1
Total 80
8
Precios de venta Frecuencia
(en miles de $) (f) Punto f*X
medio (X)
12 a 15 8 13,5 108
15 a 18 23 16,5 379,5
18 a 21 17 19,5 331,5
21a 24 18 22,5 405
24 a 27 8 25,5 204
27 a 30 4 28,5 114
30 a 33 1 31,5 31,5
33 a 36 1 34,5 34,5
Total 80 1608
∑ 𝑓𝑋 1608
𝑋̅ = = = 20.1
𝑛 80
Se concluye que la media del precio de venta de los vehículos es aproximadamente de $20.100
Mediana
La mediana se define como el valor abajo del cual se encuentran la mitad de los valores, y arriba
del cual se halla la otra mitad. Una vez que los datos en vivo (originales) se han organizado en una
distribución de frecuencias, parte de la información no es identificable; por lo tanto, no es posible
identificar la mediana exacta.
𝑛
− 𝐹𝐴
𝑴𝑬𝑫𝑰𝑨𝑵𝑨 𝑫𝑬 𝑫𝑨𝑻𝑶𝑺 𝑨𝑮𝑹𝑼𝑷𝑨𝑫𝑶𝑺 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿 + 2 (𝑖)
𝑓
9
Consideremos el ejemplo de la venta de autos para determinar la media de los datos agrupados.
¿Cuál es la mediana del precio de venta?
Precios de Frecuencia
venta (en Frecuencia f acumulada
miles de $) FA
12 a 15 8 8
15 a 18 23 31
18 a 21 17 48
21a 24 18 66
24 a 27 8 74
27 a 30 4 78
30 a 33 1 79
33 a 36 1 80
Total 80
9
= ($3000) = $1588
17
𝑛 = 80
10
80
2
− 31
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = $18.000 + ($3.000) = $19.588
17
OBSERVACION:
Moda
La moda es el valor que ocurre con mayor frecuencia. Para datos agrupados en una distribución de
frecuencias, es posible aproximar la moda como el punto medio de la clase que contiene el mayor
número de frecuencias.
EJEMPLO: Las ventas netas de una muestra de pequeñas plantas de estampado se organizaron en
la siguiente tabla de distribución de frecuencias. ¿Cuál es la moda y mediana?
11
4a7 14
7 a 10 40
10 a 13 23
13 y mayores 10
Total 100
SOLUCION: Para el ejemplo seleccionamos la clase que tiene mayor frecuencia esto es: 7 a 10 cuya
frecuencia es de 40. La moda estará representada por el punto medio que es 8.5 millones de
dólares. Esto indica que las plantas de estampado tuvieron ventas netas de 8.5 millones de dólares
más que otros valores.
Cuando un conjunto de datos tiene más de dos modas se les llama bimodales, y si tiene más de
dos modas se llama multimodales. Esto ocurre cuando el conjunto de datos no es homogéneo. Por
ejemplo en una fábrica en la que se reclute personal nuevo y se mantenga personal antiguo.
Tenemos 22, 25, 31, 31, 31, 35, 36, 53, 60, 60,60.
Ventas netas
Porcentaje
(millones de FA
del total
$)
1a4 13 13
4a7 14 27
7 a 10 40 67
10 a 13 23 90
13 y mayores 10 100
Total 100
100
𝐶𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑒𝑛𝑐𝑢𝑒𝑛𝑡𝑟𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎: = 50 (7 𝑎 10)
2
100
2
− 27
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 7 + (3) = $8.725 𝑒𝑛 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 𝑑𝑒 $
40
12
El polígono de frecuencias es simétrico, significa que la distribución de frecuencias tiene la misma
forma a ambos lados del centro. Para esta distribución la moda, la mediana y la media se localizan
al centro y son iguales.
Frecuencias
2 Años
Media=Moda=Media
Para el caso de la figura cualquiera de las medidas de tendencia central son las adecuadas para
representar esta distribución de frecuencias.
Media
Frecuencias
15 20 35
Años
En este caso la media no sería un promedio útil; la mediana y la moda son más representativas.
13
En una distribución negativamente asimétrica, la media es el menor de los tres promedios, que se
ve afectada por valores muy pequeños; la mediana es mayor que la media aritmética, y la moda es
el mayor de los promedios. En este caso al igual que el anterior la media no debe ser utilizada para
representar los datos.
Moda
Mediana
Frecuencias
Media
15 18 35 Años
Medidas de dispersión
Un promedio, como la media y la mediana, solo localizan el centro de los datos y es importante
desde un punto de vista, pero no dice nada acerca de la diseminación de los datos. Por ejemplo, si
una guía de información turística nos indica que la profundidad promedio de un rio es de 1.80
metros. ¿Lo cruzaría sin información adicional? Probablemente no, sin una información adicional;
porque la profundidad podría variar de 1.60 a 2.00 metros o podría suceder que varíe de 0.40 a
3.20. Esta información adicional es la que nos permite, tomar decisiones adecuadas.
Un valor pequeño para una medida de dispersión indica que los datos se encuentran acumulados
cercanamente alrededor de la media aritmética; por lo tanto, esta se considera representativa de
los datos, por lo tanto, este valor es un promedio confiable. Lo contrario un valor alto de una
medida de dispersión, indica que la media es poco representativa del conjunto de datos.
MEDIDAS DE DISPERSION.
14
Se consideran varias medidas de dispersión: La amplitud de variación, la desviación media, la
varianza y la desviación estándar se basan en desviaciones respecto a la media.
Amplitud de variación
La medida de dispersión más sencilla. Se trata de la diferencia entre el valor más grande y el más
pequeño de un conjunto de datos.
Desviación media
El defecto de la amplitud es que solo se basa en dos valores el más grande y el más pequeño, no
considera todos los datos. La desviación media si lo hace y mide el valor promedio en los que
varían los valores de una población o muestra respecto a su media.
Desviación Media: Es la media aritmética de los valores absolutos de las desviaciones respecto a
su media aritmética.
∑|𝑋 − 𝑋̅|
𝐷𝑀 =
𝑛
EJEMPLO: El número de pacientes atendidos en la sala de urgencias en un hospital XXX para una
muestra de 5 días el año pasado fueron: 103, 97, 101, 106 y 103. Determine la amplitud de
variación y la desviación media.
Numero de Número de
datos casos
1 103 1
2 97 5
3 101 1
5 106 4
5 103 1
TOTAL 510 12
15
510
𝑋̅ = = 102
5
∑|𝑋 − 𝑋̅| 12
𝐷𝑀 = = = 2.4
𝑛 5
La desviación media es 2.4 pacientes por día. El número de esta varia, en promedio, en 2.4
pacientes por día respecto de la media 102 enfermos por día.
CONCLUSIONES:
La desviación media tiene dos ventajas. Primero utiliza todos los valores de la muestra.
Segundo, es fácil comprender, pues es el promedio en que los valores se desvían respecto a la
media.
Su desventaja es el uso de valores absolutos.
La desviación media no se usa frecuentemente como otras medidas de dispersión, tales como
la desviación estándar.
Varianza poblacional
Las fórmulas para la varianza poblacional y muestral difieren un poco. La varianza poblacional
para datos no agrupados, o para datos no tabulados en una distribución de frecuencias, se
obtiene:
∑(𝑋 − 𝜇)2
𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴 𝑃𝑂𝐵𝐿𝐴𝐶𝐼𝑂𝑁𝐴𝐿 𝜎2 =
𝑁
“sigma cuadrada”
16
EJEMPLO: El reporte de la empresa Dennis Industries dio los siguientes rendimientos de capital
para los accionistas, en el mismo periodo de cinco años (en %):13.2, 5.0, 10.2, 17.5, y 12.9
SOLUCION:
Rendimiento
Datos capital (%) X-μ (X-μ)2
X
1 13,20 1,44 2,07
2 5,00 -6,76 45,70
3 10,20 -1,56 2,43
4 17,50 5,74 32,95
5 12,90 1,14 1,30
TOTAL 58,80 0,00 84,45
Media: 11,76
Varianza: 16,89
∑ 𝑋 58.80
𝜇= = = 11.76
𝑁 5
∑(𝑋 − 𝜇)2
𝐷𝐸𝑆𝑉𝐼𝐴𝐶𝐼𝑂𝑁 𝐸𝑆𝑇𝐴𝑁𝐷𝐴𝑅 𝑃𝑂𝐵𝐿𝐴𝐶𝐼𝑂𝑁𝐴𝐿 𝜎=√
𝑁
X observaciones en la muestra
𝑋̅ media de la muestra
(∑ 𝑋)2
∑(𝑋 − 𝑋̅)2 = ∑ 𝑋 2 −
𝑛
(∑ 𝑋)2
∑ 𝑋2 −
𝑛
𝑠2 =
𝑛−1
(∑ 𝑋)2
∑ 𝑋2 −
𝑠= √ 𝑛
𝑛−1
EJEMPLO: La empresa DAD, una empresa de equipos que instala abridores automáticos de puertas
de garaje. Con base, en una muestra, los siguientes son los tiempos, en minutos requeridos para
instalar 10 puertas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42. Determine:
SOLUCION:
Tiempo (min)
Datos X2
X
1 28 -10 100 784
2 32 -6 36 1024
18
3 24 -14 196 576
4 46 8 64 2116
5 44 6 36 1936
6 40 2 4 1600
7 54 16 256 2916
8 38 0 0 1444
9 32 -6 36 1024
10 42 4 16 1764
TOTAL 380 0 744 15184
∑(𝑋−𝑋̅)2 744
a) 𝑠 2 = 𝑛−1
= 10−1 = 82.67 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2
(∑ 𝑋)2 (380)2
∑ 𝑋2− 15184−
2
b) 𝑠 = 𝑛−1
𝑛
= 10−1
10
= 82.67 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2
Amplitud de variación
Para datos agrupados en una distribución de frecuencias, se resta el límite inferior de la clase más
pequeña del límite superior de la clase mayor.
Desviación estándar
(∑ 𝑓𝑋)2
∑ 𝑓𝑋 2 −
𝑠=√ 𝑛
𝑛−1
f frecuencia de clase
19
EJEMPLO: Una muestra de las cantidades que los empleados de DPC invierten quincenalmente en
el plan de participación de utilidades, se organizó en una distribución de frecuencias. ¿Cuál es la
amplitud de la muestra, la desviación estándar de estos datos? ¿Cuál es la varianza muestral?
Cantidad Número de
invertida empleados
$30 a $ 35 3
35 a 40 7
40 a 45 11
45 a 50 22
50 a 55 40
55 a 60 24
60 a 65 9
65 a 70 4
SOLUCION:
b) Desviación estándar
(∑ 𝑓𝑋)2
∑ 𝑓𝑋 2 −
𝑠= √ 𝑛
𝑛−1
20
(6185)2
325.500 − 120
𝑠=√ = $7.51
120 − 1
c) Varianza muestral.
Por lo común la desviación estándar se emplea como una medida para comparar la dispersión en
dos o más conjuntos de datos. Ejemplo:
Supóngase que los datos que se presentan a continuación corresponden al salario de grupos de
trabajadores de Sierra y Amazonia.
Se puede analizar que las medias son aproximadamente iguales, pero las desviaciones estándar
difieren en mayor medida en la Amazonia, pudiéndose concluir que la media para este grupo de
trabajadores no es una medida muy confiable porque sus valores se concentran más dispersos en
relación a la media.
Teorema de Chevyshev
Una desviación estándar pequeña para un conjunto de datos indica que estos se encuentran
localizados cerca de la media, y cuando esta es grande sucede lo contrario.
El matemático ruso P.L Chevyshev (1821 – 1894) desarrollo un teorema que permite determinar la
proporción mínima de los valores que se encuentran dentro de un número especificado de
desviaciones estándares con respecto a la media. De acuerdo a Chevyshev se establece que sin
importar la forma de la distribución (simetría y asimetría):
21
En términos generales el teorema de Chevyshev establece que:
Ejemplo: Determinar para 𝑋̅ = 51.54 𝑦 𝑠 = 7.51que porcentaje de valores esta a una distancia de
± 3.5 desviaciones estándares respecto a la media.
1 1
% 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 = 1 − 2
=1− = 0.92
𝑘 (3.5)2
% 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 = 92%
Regla Empírica
De igual forma, si se conoce que la amplitud es 90 para una distribución de frecuencias simétrica
de campana, podemos aproximar la desviación estándar dividiendo entre 6 el valor de la amplitud;
90
para el ejemplo: 𝑠 = = 15
6
22
1. Aproximadamente, ¿entre cuales dos cantidades esta el 68% de los gastos mensuales en
alimentos?
𝑋 ± 𝑠 = 190 ± 25 = 165 𝑎 215
2. Aproximadamente, ¿entre cuales dos cantidades se hallan el 95% de los gastos mensuales por
alimentación?
𝑋 ± 2𝑠 = 190 ± 2(25) = 140 𝑎 240
3. Aproximadamente, ¿entre cuales dos cantidades se hallan todos de los gastos mensuales por
alimentación?
𝑋 ± 3𝑠 = 190 ± 3(25) = 115 𝑎 265
Dispersión relativa
Resulta imposible una comparación directa de dos o más medidas de dispersión; por ejemplo, la
desviación estándar para un ingreso mensual de un grupo de empleados(s=$1.150) y la desviación
estándar de la inasistencia para el mismo grupo de empleados(s=5.3 días); obviamente no
podemos comparar directamente dólares con días de inasistencia.
A fin de realizar una comparación significativa de la distribución de ingresos y faltas, se puede
convertir estas medidas a un valor relativo, es decir, a un porcentaje. El mismo es conocido como
coeficiente de variación (CV), que es una medida muy útil cuando:
1. Los datos están en unidades diferentes (como dólares y días de inasistencia).
2. Los datos están en las mismas unidades, pero las medias muy distantes (como salarios de
ejecutivos y salarios de empleados no calificados).
DESCRIPCION 𝑋̅ s
Calificaciones 120 20
Años de servicio 20 2
20
𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖𝑜𝑛𝑒𝑠: 𝐶𝑉 = ∗ 100 = 16.67%
120
23
2
𝐴ñ𝑜𝑠 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜: 𝐶𝑉 = ∗ 100 = 10%
20
Se puede apreciar que existe una mayor dispersión relativa respecto a la media en la distribución
de calificaciones en relación a los años de servicio.
Se trata de una distribución simétrica que también tiene forma de campana. Esta
distribución posee la misma forma a cualquier lado del centro. Si el polígono estuviera
doblado a la mitad, las dos mitades serían idénticas. En cualquier distribución simétrica, la
moda, la mediana y la media siempre son iguales. Cualqu frecuencias con sesgo positivo.
La moda es la menor de las tres medidas. La media no sería una medida adecuada. La
mediana y la moda serían más representativas.
Por el contrario, si una distribución tiene un sesgo negativo, la media es la menor medida
de las tres. Por supuesto, la media es sensible a la influencia de una cantidad
extremadamente pequeña de observaciones. La mediana es mayor que la media
aritmética y la moda es la más grande de las tres medidas. De nuevo, si la distribución
tiene un sesgo muy pronunciado, la media no se utilizaría para representar a los datos.
Asimetría
24
Recuerde que una distribución de frecuencias es simétrica cuando media mediana y moda son
iguales, es decir no tiene sesgo, es decir se asimetría es nula. Así mismo si una o más
observaciones son sumamente altas, la media es mayor que las otras medidas y es asimétrica con
sesgo positivo y cuando las observaciones una o más son sumamente pequeñas la media es menor
que las otras medidas y se produce una asimetría con sesgo negativo.
Karl Pearson desarrollo una medida para evaluar el grado de asimetría en lo referente a su sesgo
denominado coeficiente de asimetría.
𝟑(𝒎𝒆𝒅𝒊𝒂 − 𝒎𝒆𝒅𝒊𝒂𝒏𝒂)
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑎𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 𝑪𝑽 =
𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓
EJEMPLO: Una muestra de las casas que se ofrecen en venta en la ciudad de Quito, revelo que el
precio medio solicitado es de $75.900, la mediana $70.100 y el precio modal es $67.200. La
desviación estándar de la distribución es $5.900
𝟑(𝒎𝒆𝒅𝒊𝒂 − 𝒎𝒆𝒅𝒊𝒂𝒏𝒂)
𝑪𝑽 =
𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓
3(75.900 − 70.100)
𝐶𝑉 = = 2.95
5.900
Interpretación: El coeficiente de asimetría por lo general se encuentra entre -3 y +3, por lo que el
valor 2.95 indica un grado importante con sesgo positivo. Lo que indica que un alto número de las
casas ofrecidas en venta tendrán dificultad de ser vendidas.
25
Cuartiles deciles y centiles (o porcentiles)
La varianza y la desviación estándar son las medidas de dispersión más ampliamente utilizadas.
Además, existen otras medidas para determinar la diseminación de un conjunto de datos; un
método es determinar la ubicación de los valores que dividen un conjunto de observaciones en
partes iguales. Estas medidas son los cuartiles, deciles y los centiles.
Los cuartiles dividen un conjunto de observaciones en cuatro partes iguales. Para aclarar lo
expuesto, recordemos que la mediana representaba el valor central de un conjunto de
observaciones ordenadas de menor a mayor; esto es, el 50% de las observaciones son mayores
que la mediana y el 50% son menores. De manera similar, los cuartiles dividen un conjunto de
observaciones en 4 partes iguales. El primer cuartil simbolizado como 𝑄1 , es el valor abajo del cual
se encuentran el 25% de las observaciones y el tercer cuartil 𝑄3 , constituye el valor abajo del cual
se encuentra el 75% de las observaciones. 𝑄2 viene a representar la mediana.
Se tiene que 𝑄1 puede ser considerada como la “mediana” de la mitad inferior de las
observaciones y 𝑄3 como la mediana de la mitad superior de los datos.
Los deciles dividen a un conjunto de observaciones en 10 partes iguales; así como los centiles en
100 partes iguales.Por lo tanto si una persona se entera que su promedio de calificaciones se
encuentra en el 8ctavo decil, se puede concluir que el 80% de los estudiantes tiene un promedio
menor que uno (persona) y que el 20% tiene un promedio mayor.
𝑃
𝑈𝐵𝐼𝐶𝐴𝐶𝐼𝑂𝑁 𝐷𝐸 𝑈𝑁 𝐶𝐸𝑁𝑇𝐼𝐿 𝐿𝑃 = (𝑛 + 1)
100
Donde:
n=número de observaciones.
P= porcentil deseado.
26
EJEMPLO: A continuación se presenta las comisiones obtenidas el mes pasado por una muestra de
15 corredores de la empresa “CCA”.
(𝑛+1) (15+1)
Mediana: se encuentra en el centro de los valores y se localiza: 2
= 2
= 8; la
posición 8 corresponde al valor de Mediana=$2038
Primer cuartil:
𝑃 25
𝐿𝑃 = (𝑛 + 1) 𝐿𝑃 = (15 + 1) =4
100 100
𝑄1 = $1721
Tercer Cuartil
𝑃 75
𝐿𝑃 = (𝑛 + 1) 𝐿𝑃 = (15 + 1) = 12
100 100
𝑄3 = $2205
EJEMPLO 2: Supongamos que un conjunto de datos incluye los siguientes valores: 91, 75, 61, 101,
43 y 104.Determinar el primer y tercer cuartil.
𝑃 25
𝐿𝑃 = (𝑛 + 1) 𝐿𝑃 = (6 + 1) = 1.75
100 100
27
𝑃 75
𝐿𝑃 = (𝑛 + 1) 𝐿𝑃 = (6 + 1) = 5.25
100 100
𝑄3 = 101 + 0.25(104 − 101) = 101.75
Podemos extender lo anterior tanto a los deciles como a los centiles. Si desearíamos encontrar
el centil 23 en una muestra de 80 observaciones; buscaríamos la posición:
𝑃 23
𝐿𝑃 = (𝑛 + 1) 𝐿𝑃 = (80 + 1) = 18.63
100 100
Un diagrama de caja es una representación gráfica, basada en cuartiles, que ayuda a presentar un
conjunto de datos. Para construir un diagrama de caja, sólo necesita cinco estadísticos: el valor
mínimo, Q1 (primer cuartil), la mediana, Q3 (tercer cuartil) y el valor máximo. Un ejemplo ayudará
a explicarlo.
Ejemplo: Pizza Hot; ofrece entregas gratuitas de pizza a 15 Km a la redonda. Alex, el propietario,
desea información relacionada con el tiempo de entrega. ¿Cuánto tiempo tarda una entrega
típica? ¿En qué margen de tiempo deben completarse la mayoría de las entregas? En el caso de
una muestra de 20 entregas, Alex recopiló la siguiente información:
Q1 = 15 minutos
Mediana = 18 minutos
Q3 = 22 minutos
Elabore un diagrama de caja de los tiempos de entrega. ¿Qué conclusiones deduce sobre los
tiempos de entrega?
Solución El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada a
lo largo del eje horizontal. Luego, se debe dibujar una caja que inicie en Q1 (15 minutos) y termine
en Q3 (22 minutos). Dentro de la caja trazamos una línea vertical para representar a la mediana
(18 minutos). Por último, prolongamos líneas horizontales a partir de la caja dirigida al valor
mínimo (13 minutos) y al valor máximo (30 minutos). Estas líneas horizontales que salen de la caja,
a veces reciben el nombre de bigotes, en virtud de que se asemejan a los bigotes de un gato.
28
El diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15 y 22
minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil. Este rango,
que es la distancia entre el primer y el tercer cuartiles, muestra la propagación o dispersión de la
mayoría de las entregas.
LI 116
Q1 224 214
Mediana 253
Q3 298,75 304.25
LS 353
25
𝑃𝑟𝑖𝑚𝑒𝑟 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝐿𝑛 = (28 + 1) = 7.25 𝑄1 = 209 + 0.25(229 − 209) = 214
100
50
𝑆𝑒𝑔𝑢𝑛𝑑𝑜 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝐿𝑛 = (28 + 1) = 14.5 𝑄2 = 246 + 0.50(260 − 246) = 253
100
75
𝑇𝑒𝑟𝑐𝑒𝑟 𝑐𝑢𝑎𝑟𝑡𝑖𝑙: 𝐿𝑛 = (28 + 1) = 21.75 𝑄3 = 296 + 0.75(307 − 296) = 304.25
100
29
30