Tema 4 Medidas de Dispersión PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

UNIVERSIDAD CATÓLICA DEL TÁCHIRA

Facultad de Ciencias Económicas y Sociales


Escuela de Administración y Contaduría
Lcda. Keila Moncada
Cátedra: Estadística I. 2do. Año Contaduría Pública

TEMA 4: Medidas de Dispersión o Variabilidad

En el esfuerzo de describir un conjunto de números, hemos visto que es de utilidad ubicar el centro del conjunto
de datos. Sin embargo, no es suficiente identificar una medida de tendencia central, pues los conjuntos pueden tener el
mismo centro, pero con aspecto diferente, por la forma en que los números se dispersan desde el centro. Por ejemplo,
en la figura se observa que ambas distribuciones están centradas en 𝑥 = 4, pero hay una gran diferencia en la forma en
que las mediciones se dispersan o varían. Las mediciones de la figura a) varían de 3 a 5, mientras que en la figura b) las
mediciones varían de 0 a 8.

De aquí que, una descripción más completa del conjunto de datos puede obtenerse si se mide qué tan dispersos
están los datos alrededor del punto central. Esto es precisamente lo que hacen las medidas de dispersión, también
conocidas como medidas de variabilidad, indican cuánto se desvían las observaciones alrededor de su media.

“Las medidas de dispersión miden qué tanto se dispersan las observaciones alrededor de su media”.

Supongamos que la edad media de cinco personas presentes en una fiesta de cumpleaños es de 18 años. Si no
se da ninguna información respecto a la variabilidad de los datos, el lector desprevenido podría concluir que la fiesta
estaba compuesta sólo de adolescentes. La misma edad media podría haberse calculado si se tratara de una abuela de
73 años que ofreciera una fiesta a su nieto de cinco años y a sus tres primos de 3, 5 y 4.

En este tema estudiaremos las medidas de variabilidad siguientes: Amplitud o rango, el rango intercuartil, la
desviación media absoluta, la varianza, la desviación típica y el coeficiente de variación.

El rango

La medida más simple de variabilidad es el rango, que es la diferencia entre el valor máximo y el mínimo de un
conjunto de datos.
Cuanto mayor es la dispersión de los datos con respecto al centro de la distribución, mayor es el rango. Como el
rango sólo tiene en cuenta la observación mayor y la menor, puede estar muy distorsionado si hay una observación
excepcionalmente extrema. Aunque el rango mide la dispersión total de los datos, puede ser una medida insatisfactoria
de la variabilidad (dispersión) debido a que los casos atípicos, o bien muy altos o bien muy bajos, influyen en él.
El rango tiene un valor limitado como medida de variabilidad. En primer lugar, toma en cuenta solamente los
valores extremos de un conjunto de datos y no da ningún indicio sobre la forma como varían los valores en el interior del
intervalo. En segundo lugar, el rango de una muestra depende de su tamaño. Los valores extremos de una población,
por ser menos numerosos, no son tan propensos a aparecer en las muestras pequeñas y sí en las grandes y, en
consecuencia, las muestras pequeñas tienden a tener rangos pequeños y las muestras más grandes rangos grandes.

EJEMPLO 4.1: Las distancias (medidas en cuadras) a que viven 15 empleados de una empresa respecto de su lugar de
trabajo son: 11, 20, 12, 11, 14, 8, 16, 5, 7, 13, 18, 12, 9, 11, 10. Luego el rango de estas distancias es 20 − 5 = 15
cuadras.

El rango intercuartil o desviación semi-intercuartil.

Una manera de evitar la influencia de los valores atípicos sobre el rango, es ordenar los datos en sentido
ascendente o descendente, descartar algunos de los números más altos y algunos de los más bajos y hallar el rango del
resto. Esta medida es el rango intercuartílico, el cual mide la dispersión del 50% intermedio de los datos.
El rango intercuartílico (RIC) mide la dispersión que hay en el 50 por ciento central de los datos; es la diferencia
entre la observación de 𝑄3 , el tercer cuartil (o sea, el percentil 75) y la observación de 𝑄1 , el primer cuartil (o sea, el
percentil 25). Por lo tanto,
𝑅𝐼𝐶 = 𝑄3 − 𝑄1

EJEMPLO 4.2: Para las distancias (medidas en cuadras) a que viven 15 empleados de una empresa respecto de su lugar
de trabajo (ejemplo 4.1) determine el rango intercuartil.

5, 7, 8, 9, 10, 11, 11, 11, 12, 12, 13, 14, 16, 18, 20

1(15+1) 16
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑄1 = = =4 𝑄1 = 9
4 4

3(15+1) 48
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑄3 = 4
= 4
= 12 𝑄3 = 14

𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 14 − 9 = 5

Interpretación: El 50% intermedio de los datos tiene una dispersión de 5 cuadras de distancia entre su vivienda y el lugar
de trabajo.

La Desviación media absoluta.

La desviación media absoluta es una medida que se utiliza para calcular cuánto varían de su media los valores de
un conjunto de datos. También se conoce como desviación media, o desviación absoluta media.
La Desviación media, es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Se
simboliza por 𝑀𝐴𝐷 (por sus siglas en inglés).
∑|𝑥 − 𝑋̅|
𝑀𝐴𝐷 =
𝑛

Una desviación media elevada implica mucha variabilidad en los datos, mientras que una desviación media
absoluta igual a cero implica que todos los valores son iguales y por lo tanto coinciden con la media.
EJEMPLO 4.3: Para las distancias (medidas en cuadras) a que viven 15 empleados de una empresa respecto de su lugar
de trabajo (ejemplo 4.1) determine la media absoluta.

5, 7, 8, 9, 10, 11, 11, 11, 12, 12, 13, 14, 16, 18, 20

5 + 7 + 8 + 9 + 10 + 11 + 11 + 11 + 12 + 12 + 13 + 14 + 16 + 18 + 20 177
𝑥̅ = = = 11,8 ≅ 12 𝑐𝑢𝑎𝑑𝑟𝑎𝑠
15 15

∑|𝑥 − 𝑋̅|
𝑀𝐴𝐷 =
𝑛

|5 − 12| + |7 − 12| + |8 − 12| + |9 − 12| + |10 − 12| + 3|11 − 12| + 2|12 − 12| + |13 − 12| + |14 − 12| + |16 − 12| + |18 − 12| + |20 − 12|
𝑀𝐴𝐷 =
15

7 + 5 + 4 + 3 + 2 + 3 + 0 + 1 + 2 + 4 + 6 + 8 45
𝑀𝐴𝐷 = = =3
15 15

Interpretación: los datos se alejan en promedio de la media en tres cuadras.

La varianza

La varianza de un conjunto de datos se obtiene restando a cada uno de los valores el valor de la media de todos
los valores, elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias al cuadrado y
dividiendo este total por el número de valores si es una población, o entre el total de valores menos 1 si se trata de una
muestra. La varianza poblacional se denota por el símbolo 𝜎 2 . La letra griega 𝜎 se denomina “sigma” y la varianza
muestral por 𝑠2 .

∑𝑛 ̅ )2
𝑖=1(𝑥𝑖 −𝜇 2 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
𝜎2 = 𝑠 =
𝑁 𝑛−1

Interpretación: los datos presentan una variación cuadrática de … respecto a la media (en unidades cuadradas).

EJEMPLO 4.4: Para las distancias (medidas en cuadras) a que viven 15 empleados de una empresa respecto de su lugar
de trabajo (ejemplo 4.1) determine la varianza.

5, 7, 8, 9, 10, 11, 11, 11, 12, 12, 13, 14, 16, 18, 20 𝑥̅ = 11,8 ≅ 12 𝑐𝑢𝑎𝑑𝑟𝑎𝑠

2
∑𝑛
𝑖=1(𝑥𝑖 − 𝑥)
̅
𝑠2 =
𝑛−1
(5 − 12)2 + (7 − 12)2 + (8 − 12)2 + (9 − 12)2 + (10 − 12)2 + 3(11 − 12)2 + 2(12 − 12)2 + (13 − 12)2 + (14 − 12)2 + (16 − 12)2 + (18 − 12)2 + (20 − 12)2
𝑠2 =
15 − 1

49 + 25 + 16 + 9 + 4 + 3(1) + 2(0) + 1 + 4 + 16 + 36 + 64 227


𝑠2 = = = 16,2
15 − 1 14

La distancia en cuadras desde la vivienda al sitio de trabajo de los empleados, presenta una variación cuadrática de 16
cuadras al cuadrado respecto a la media.
La desviación típica o desviación estándar:

La raíz cuadrada positiva de la varianza se denomina desviación típica. Para muchos fines es una medida de
variabilidad más útil que la varianza. Por un lado, la desviación típica se expresa en las mismas unidades que las
observaciones originales y la media, mientras que la varianza se expresa en unidades elevadas al cuadrado.

2 2
∑𝑛
𝑖=1(𝑥𝑖 − 𝜇)
̅ ∑𝑛
𝑖=1(𝑥𝑖 − 𝑥)
̅
𝜎=√ 𝑠=√
𝑁 𝑛−1

Interpretación: los datos varían … respecto a la media (en la misma unidad de los datos).

EJEMPLO 4.5: Para las distancias (medidas en cuadras) a que viven 15 empleados de una empresa respecto de su lugar
de trabajo (ejemplo 4.1) determine la desviación estándar.

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ = √𝑠 2 = √16,2 = 4,02 ≅ 4
𝑛−1

Para la muestra de 15 empleados, la distancia en cuadras a la que viven éstos de su sitio de trabajo, varían en 4
cuadras respecto a la media.

Media 11,8
Desviación estándar 4,02
Varianza de la muestra 16,17

Ejercicios: En cada ejercicio calcular e interpretar las medidas de dispersión (rango, rango intercuartil,
desviación media absoluta, varianza y desviación estándar).
La varianza y la desviación típica para datos agrupados.

Con el fin de calcular la varianza y la desviación típica a partir de datos agrupados debemos suponer como lo hicimos
para el cálculo de la media, que las observaciones de un intervalo de clase determinado están localizadas en el punto
medio del intervalo. La fórmula para calcular la varianza a partir de datos agrupados de una muestra es:

∑ 𝑓 𝑥𝑖 2 − 𝑁𝜇̅ 2 ∑ 𝑓 𝑥𝑖 2 − 𝑛𝑥̅ 2
𝜎2 = 𝑠2 =
𝑁 𝑛−1

𝜎 = √𝜎 2 𝑠 = √𝑠 2

Donde:
𝑓 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎
𝑥𝑖 = 𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑥̅ = 𝑀𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

También se puede utilizar esta otra fórmula:

∑ 𝑓𝑖 (𝑥𝑖 − 𝜇̅ )2 ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝜎2 = 𝑠2 =
𝑁 𝑛−1

EJEMPLO 4.6: El Director de vuelo de Copa Airlines requiere información respecto a la dispersión del número de
pasajeros. Las decisiones que se tomen respecto a la programación y al tamaño más eficiente de los aviones, dependerá
de la fluctuación en el transporte de pasajeros. Si esta variación en número de pasajeros es grande (> 10), se pueden
necesitar aviones más grandes para evitar el sobrecupo en los días en los que el transporte de pasajeros es más
solicitado. La tabla de frecuencia en los últimos 50 días para Copa Airlines es la siguiente:
Clase (pasajeros) f (días) Límite Límite Marca de
(fi) (fi). (Xi) (Xi)2 (fi).(Xi)2
50-59 3 Inferior Superior Clase (Xi)
50 59 54,5 3 163,5 2970,25 8910,75
60-69 7
60 69 64,5 7 451,5 4160,25 29121,75
70-79 18
70 79 74,5 18 1341 5550,25 99904,50
80-89 12
80 89 84,5 12 1014 7140,25 85683,00
90-99 8
90 99 94,5 8 756 8930,25 71442,00
100-109 2
100 109 104,5 2 209 10920,25 21840,50
TOTALES 50 3935 316902,50

∑ 𝑓𝑖 . 𝑥𝑖 3935
𝑥̅ = = = 78,7
𝑛 50

∑ 𝑓 𝑥𝑖 2 − 𝑛𝑥̅ 2 316902,50 − 50(78,7)2 316902,50 − 309684,5 7218


𝑠2 = = = = = 147,3
𝑛−1 50 − 1 49 49

El Número de pasajeros los últimos 50 días presenta una variación cuadrática de 147,3 pasajeros al cuadrado respecto a
la media.
𝑠 = √𝑠2 = √147,3 = 12,13

Para la muestra de 50 días en cuanto al número de pasajeros, éstos varían en 12 pasajeros respecto a la media. Dado
que la variación respecto a la media es mayor a 10 personas, las cuales pueden quedarse sin poder abordar en caso de
presentarse todos los pasajeros, se deben considerar tomar decisiones respecto a la programación y al tamaño más
eficiente de los aviones.

EJEMPLO 4.7: En un estudio de exploración y reconocimiento de una región con posibilidad de explotación aurífera, se
registró el porcentaje de Pirita de aquellos yacimientos posiblemente explotables. La información se presenta en la tabla
siguiente:

Determine: (a) el porcentaje medio de Pirita encontrado en los yacimientos posiblemente explotables. (b) la variabilidad
(desviación típica) del porcentaje de Pirita.

EJEMPLO 4.8: Con el objeto de modificar la política de ingreso al nivel superior, algunas universidades e institutos
superiores realizan pruebas pilotos que incluyen un estudio del coeficiente intelectual (C.I.), la distribución de C.I. para
1000 estudiantes se muestra en la siguiente tabla.
EJEMPLO 4.9: En un experimento de psicología, se pide a varios individuos que memoricen cierta secuencia de
palabras. La tabla siguiente muestra los tiempos en segundos, que necesitaron los participantes del experimento para la
memorización. Prepare la de distribución de frecuencias correspondiente y calcule las medidas de tendencia central y
de dispersión.

100 107 34 57 66 30 79 84 118 77 135 95 130 138


89 128 100 88 61 108 79 37 93 116 45 57 112 73
107 109 32 106 122 41 70 96 98 117 97 99 62 88
75 105 50 99 50 79 43 90 114 53 123 100 69 87
126 100 102 112 78 118 135 110 64 62 107 127 102 129
98 110 93 135 58 73 80 125 88 142 103 149 90 145
119 76 93 99 52 129 85 64 88 96 126 46 149 85

1. 𝑅𝑎𝑛𝑔𝑜 = 𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 = 149 − 30 = 119


2. Regla de Sturges. No. de clases = 1 + 3,3 log 𝑛 = 1 + 3,3 log 98 = 7,57 ≈ 8 clases.
𝑅𝑎𝑛𝑔𝑜 119
3. Calculamos la amplitud del intervalo: 𝐼𝐶 = = = 14,87 ≈ 15
𝑁° 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 8

4. Nuevo rango = No. De Clases × amplitud del intervalo = 8 × 15 = 120 diferencia = 1


5. Se tiene la tabla de distribución de frecuencias:

Límite Límite Marca de


(fi) (fi). (Xi) (Xi)2 (fi).(Xi)2
Inferior Superior Clase (Xi)
(29 44 36,5 6 219 1332,25 7993,50
(44 59 51,5 9 463,5 2652,25 23870,25
(59 74 66,5 10 665 4422,25 44222,50
(74 89 81,5 17 1385,5 6642,25 112918,25
(89 104 96,5 21 2026,5 9312,25 195557,25
(104 119 111,5 17 1895,5 12432,25 211348,25
(119 134 126,5 10 1265 16002,25 160022,50
(134 149 141,5 8 1132 20022,25 160178,00
TOTALES 98 9052 916110,50

∑ 𝑓𝑖 . 𝑥𝑖 9052
𝑥̅ = = = 92,36
𝑛 98
∑ 𝑓 𝑥𝑖 2 − 𝑛𝑥̅ 2 916110,50 − 98(92,36)2 916110,50 − 835976,22 80134,28
𝑠2 = = = = = 826,13
𝑛−1 98 − 1 97 97

El tiempo requerido para la memorización de la secuencia de palabras por los participantes presenta una variación
cuadrática de 826 segundos al cuadrado respecto a la media.

𝑠 = √𝑠2 = √826,13 = 28,74 ≅ 29 seg.

El tiempo para la memorización de la secuencia de palabras por parte de los participantes del experimento, varía en 29
segundos respecto a la media.

EJEMPLO 4.10: Un proveedor de Internet del suroeste de Estados Unidos, elaboró una distribución de frecuencias sobre
la edad de los usuarios de internet. Determine la media y la deviación estándar.

Edad (años) frecuencia


10-20 3
20-30 7
30-40 18
40-50 20
50-60 12

EJEMPLO 4.11: El IRS (Internal Revenue Servicio) estaba interesado en el número de formas fiscales individuales que
preparan las pequeñas empresas de contabilidad. El IRS tomó una muestra aleatoria de 50 empresas de contabilidad
pública con 10 o más empleados que operan en la zona de Dallas-Fort Worth. La siguiente tabla de frecuencias muestra
los resultados del estudio. Calcula la media y la desviación estándar.

Número de Clientes frecuencia


20-30 1
30-40 15
40-50 22
50-60 8
60-70 4

EJEMPLO 4.12: Los gastos de publicidad constituyen un elemento significativo del costo de los artículos vendidos. En
seguida aparece una distribución de frecuencias que muestra los gastos en publicidad de 60 compañías manufactureras
ubicadas en el suroeste de Estados Unidos. Calcule la media y la desviación estándar de los gastos en publicidad.

Gastos en publicidad Número de


(millones de dólares) Compañías
25-35 5
35-45 10
45-55 21
55-65 16
65-75 8
EJEMPLO 4.13: La Tabla muestra los datos sobre la velocidad de escribir a máquina (medida en palabras por minuto) de
100 secretarias experimentadas. Con base en estos datos, prepare la tabla de distribución de frecuencias
correspondiente y calcule las medidas de tendencia central y de dispersión.

40 36 41 40 39 34 61 42 47 53 43 39 93 46 32 44 71
49 31 35 36 84 81 51 51 52 66 55 44 38 33 38 38 42
65 54 97 67 88 44 39 42 35 50 73 60 41 40 39 44 58
30 31 32 34 48 76 38 52 63 41 36 50 31 56 35 45 36
32 37 75 30 68 54 37 30 50 50 40 65 52 50 36 38 38
36 55 45 45 55 62 48 53 41 51 45 61 47 48 43

El Coeficiente de Variación

Un uso importante de la desviación estándar es servir como medida de dispersión. Sin embargo, se
aplican ciertas limitaciones. Cuando se consideran dos o más distribuciones que tienen medias
significativamente diferentes, o que están medidas en unidades distintas, es peligroso sacar conclusiones
respecto a la dispersión sólo con base en la desviación estándar. Por tanto, con frecuencia debemos
considerar el Coeficiente de variación (CV), el cual sirve como medida relativa de dispersión.

El coeficiente de variación determina el grado de dispersión de un conjunto de datos relativo a su


media. Es una medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación
estándar del conjunto entre su media aritmética y se expresa generalmente en términos porcentuales.

Propiedades

- Puesto que tanto la desviación estándar como la media se miden en las unidades originales, el CV es
una medida independiente de las unidades de medición, ya que éste se expresa en porcentaje.
- Debido a la propiedad anterior el CV es la cantidad más adecuada para comparar la variabilidad de dos
conjuntos de datos.

𝑠
Para calcular el CV de una muestra utilizamos la siguiente fórmula 𝐶𝑉 = 𝑥̅ . 100

Donde:
𝑠 : Es la desviación estándar de la muestra.
𝑥̅ : Es la media aritmética de la muestra.

EJEMPLO 4.14: Matías, un estudiante universitario, tiene las siguientes calificaciones en las 10 asignaturas que
recibe en su carrera: 8, 7, 10, 9, 8, 7, 8, 10, 9 y 10. Josué, un compañero de Matías, tiene las siguientes
calificaciones: 8, 9, 8, 7, 8, 9, 10, 7, 8 y 10. ¿Cuál estudiante tiene menor variabilidad en sus calificaciones, para
hacerlo consejero estudiantil?

Matías:
8 + 7 + 10 + 9 + 8 + 7 + 8 + 10 + 9 + 10
𝑥̅ = = 8,6
10

3(8 − 8,6)2 + 2(7 − 8,6)2 + 3(10 − 8,6)2 + 2(9 − 8,6)2 1,08 + 5,12 + 5,88 + 0,32 12,4
𝑠2 = = = = 1,37
10 − 1 9 9

𝑠 = √1,37 = 1,17

𝐶𝑉𝑀𝑎𝑡í𝑎𝑠 = 1,17
̅̅̅̅̅̅ . 100 = 13,6%
8,6

Josué:

8 + 9 + 8 + 7 + 8 + 9 + 10 + 7 + 8 + 10
𝑥̅ = = 8,4
10

4(8 − 8,4)2 + 2(7 − 8,4)2 + 2(10 − 8,4)2 + 2(9 − 8,4)2 0,64 + 3,92 + 5,12 + 0,72 10,4
𝑠2 = = = = 1,16
10 − 1 9 9

𝑠 = √1,16 = 1,07

𝐶𝑉𝐽𝑜𝑠𝑢é = 1,07
̅̅̅̅̅̅ . 100 = 12,7%
8,4
Dado que Josué presenta menor variabilidad en sus calificaciones 12,7% que Matías 13,6% es el mejor candidato para
consejero estudiantil.

EJEMPLO 4.15: María es una joven de 16 años, quien está invitada a dos paseos de diversión, a uno la media de las
edades de los asistentes es de 16 años con una varianza de 3904, en la otra la media de los asistentes es de 17 años con
una varianza de 16 años. A cuál de los dos paseos debe asistir María de acuerdo a sus intereses de diversión.

También podría gustarte