Unidad 2. Estadística Descriptiva (Parte I)
Unidad 2. Estadística Descriptiva (Parte I)
Unidad 2. Estadística Descriptiva (Parte I)
Está formada por los valores que toma la variable que se estudia acompañados de sus
respectivas frecuencias de ocurrencia. El conjunto de datos se organiza en una tabla de
frecuencias.
1. Datos no agrupados
2. Datos agrupados por intervalos de clase
Muestra: 15, 16, 19, 18, 16, 17, 15, 18, 18, 17, 20, 16, 17, 18, 17,
19, 20, 21, 16, 17
Se denotará a:
𝑛𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
La frecuencia absoluta también puede presentarse como una fracción o porcentaje, surgiendo lo
que se denomina frecuencia relativa (𝑓𝑖 ). Matemáticamente se expresa como: 𝑓𝑖 = 𝑛𝑖 /𝑛
𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 → 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎
𝐹𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖 → 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎
Estadística Descriptiva
Distribución de frecuencias para datos no agrupados
La tabla de frecuencias viene dada por:
i Créditos 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖 ¿Cómo se interpreta 𝑓3 ?
1 15 2 0,1 2 0,1
2 16 4 0,2 6 0,3 El 25% de las estudiantes matriculo 17 créditos.
3 17 5 0,25 11 0,55
4 18 4 0,2 15 0,75
5 19 2 0,1 17 0,85
¿Cómo se interpreta 𝐹5 ?
6 20 2 0,1 19 0,95
7 21 1 0,05 20 1,00 El 85% de los estudiantes matriculo máximo 19
Total 20 1 créditos.
𝑛1 2 𝑛3 5
𝑓1 = = = 0,10 ; 𝑓3 = = = 0,25 ; 𝑁4 = 2 + 4 + 5 + 4 = 15
𝑛 20 𝑛 20
𝑁4 15
𝐹4 = 0,10 + 0,2 + 0,25 + 0,2 = 0,75 ; 𝐹4 = = = 0,75
𝑛 20
Estadística Descriptiva
Propiedades de una tabla de frecuencias
Si se toma una muestra aleatoria de n datos, de los cuales hay m distintos que ordenamos en
forma creciente (𝑥1 , 𝑥2 , … , 𝑥𝑚 ), entonces:
1) 0 ni n 7) n1 = N1 N 2 N 3 ... N m = n
m
2) n
i =1
i =n 8) 𝑓1 = 𝐹1 ≤ 𝐹2 ≤ 𝐹3 ≤. . . ≤ 𝐹𝑚 = 1
j
9) F j = f i
3) 0 f i 1 i =1
m
4) f
i =1
i =1
j
5) N j = ni
i =1
6) N m = n
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase
Supóngase que el instrumento de medición usado para medir el diámetro de los tornillos que se
producen en una compañía tiene una precisión hasta las centésimas de milímetro, así pues un
valor podría ser 1,74325 milímetros.
i Diametro 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
1 1,74325 1 0,01 1 0,01
2 1,74327 1 0,01 2 0,02 Una tabla de este tipo no resume
3 1,74348 1 0,01 3 0,03 la información
… … … … … …
100 2,94870 1 0,01 100 100
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase
No es de interés conocer con ese nivel detalle la información, por ejemplo, no es de interés
conocer cuantos tornillos presentan un diámetro de 2,012 milímetros. En estos casos es más
fácil agrupar la información en los llamados intervalos de clase.
Cuando nos encontramos con una distribución con un gran número de datos, se suelen
agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio
un inconveniente, debido a que se pierde información sobre la propia distribución.
Por ejemplo, en el intervalo (2 – 5], no sabemos con certeza, cuantos datos son iguales a 2,8.
𝐿𝑖−1 al límite inferior del intervalo El intervalo (2 – 3,1] se lee como los valores
𝐿𝑖 al límite superior del intervalo mayores que 2, pero menores o iguales a 3,1
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase
Para operar se utilizará la marca de clase, que resulta ser el punto medio del intervalo de clase, es
decir:
L +L
X i = i −1 i
2
Para el ejemplo se tiene:
2 + 3,1
Xi = = 2,55
2
No es recomendable aproximar los decimales de las marcas de clase, puesto que al realizar un
intervalo ya se esta realizando un resumen de los datos.
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase
La pregunta que surge es: ¿Cómo obtener a partir de un conjunto de datos, una tabla de
frecuencias?
Li −1 + Li
Paso 5: calcular las marcas de clase Xi =
2
Estadística Descriptiva
Ejemplo de aplicación
Ejemplo 2: los costos semanales de mantenimiento en millones de pesos para una fábrica, en
una muestra aleatoria de 40 semanas vienen dados por:
3,9 3,7 4,3 4,6 5,1
¿Cuál es la variable de análisis?
5,3 4,3 6,0 5,1 4,4 a) Los costos semanales de mantenimiento
3,3 4,1 4,4 6,1 5,3 b) La fábrica
4,0 3,9 3,3 4,7 4,5 c) Las 40 semanas
4,7 5,6 4,9 6,1 4,5
3,9 5,0 4,7 4,2 5,8 ¿Cuál es el tipo de variable y escala de
4,3 5,8 4,8 4,3 4,5 medición?
5,4 4,7 4,5 4,2 4,8 a) Cuantitativa Continua y escala de razón
b) Cuantitativa Continua y escala de
¿Cuál es la unidad de muestreo? intervalo
a) La fábrica
b) La semana
c) Millones de pesos
Estadística Descriptiva
Construcción de la tabla de frecuencias en el ejemplo aplicado
𝐶𝑖 ≅ 0,5
Estadística Descriptiva
Construcción de la tabla de frecuencias en el ejemplo aplicado
i ( Li −1 − Li ] Xi ni fi Ni Fi
L1 = 3,2 + 0,5 = 3,7 1 (3,2 - 3,7] 3,45 3 0,075 3 0,075
Para calcular probabilidades como 𝑃 𝑋 < 4,5 , 𝑃 𝑋 > 4,8 , 𝑃(3,1 < 𝑋 < 5,1) se emplea la
función de distribución acumulada, cuya expresión matemática viene dada por:
fi
P( X a) = Fi −1 + (a − Li −1 )
Ci
Cuando una variable se agrupa en intervalos de clase o es cuantitativa continua, las siguientes
expresiones matemáticas son equivalentes:
P( X a ) = P( X a ) P( X a ) = 1 − P( X a )
P(a X b) = P(a X b) P(a X b) = P( X b) − P( X a)
P( X b) = P( X b)
P( X = a ) = 0
Estadística Descriptiva
Función de distribución acumulativa
Son aquellos cuyo objetivo es explicar mediante un valor numérico, la tendencia mayoritaria de
las observaciones que se analiza.
x i
1 n xn i i m
x= i =1
= xi ; x= i =1
= xi f i 𝑚 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒
n n i =1 n i =1
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
x 1 i
N xn i i
= i =1 = xi ; = i =1
N N i =1 N
Datos agrupados
Datos no agrupados
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del número de créditos que matriculó el estudiante, se tiene:
i 𝑋𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 15 2 0,1 2 0,1 𝑥lj =
2 16 4 0,2 6 0,3 𝑛
3 17 5 0,25 11 0,55 15∗2+16∗4+17∗5+18∗4+19∗2+20∗2+21∗1
4 18 4 0,2 15 0,75 𝑥lj = = 17,5
20
5 19 2 0,1 17 0,85
6 20 2 0,1 19 0,95 El número promedio de créditos que matriculó el
7 21 1 0,05 20 1,00
Total 20 1 2 0,1
estudiante es 18.
Ejemplo 4: la calificación del primer parcial de Probabilidad y Estadística para una muestra de 8
estudiantes resultó ser: 3,5 3,9 4,9 5,0 5,0 3,2 4,5 2,2
3,5 + 3,9 + 4,9 + 5,0 + 5,0 + 3,2 + 4,5 + 2,2
𝑥lj = = 4,025
8
La calificación promedio muestral del primer parcial de Probabilidad y Estadística resultó ser 4,025.
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del costo semanal de mantenimiento de la fábrica, estimar la media e
interpretar:
i ( Li −1 − Li ] Xi ni fi Ni Fi
σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 𝑥lj =
𝑛
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
3,45∗3 + 3,95 ∗ 7 + ⋯ + 5,95 ∗ 5
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 𝑥lj = = 4,65
40
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0
El promedio del costo semanal de mantenimiento de la fábrica es igual a 4,65 millones de pesos.
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del grosor de los discos, estimar la media e interpretar el indicador.
i ( Li −1 − Li ] Xi ni fi Ni Fi σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08 𝑥lj =
𝑛
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 1,07 ∗ 16 + 1,12 ∗ 20 + ⋯ + 1,32 ∗ 22
𝑥lj =
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68 200
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89 𝑥lj = 1,20785
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200
Es un número tal que, si ordenamos los datos de forma creciente, cumple con la condición
de ser mayor que la mitad pero menor o igual que la otra mitad. Divide a la población o
muestra en dos partes aproximadamente iguales.
2. El valor de la mediana será aquel que ocupe la posición central del conjunto de datos,
definiendo la posición central como:
X ( n +1) / 2 ; si n es impar
Me =
(X n/2 + X n / 2+1 ) / 2 ; si n es par
Estadística Descriptiva
Ejemplo de aplicación de la mediana
Para el ejemplo del número de créditos que matriculó el estudiante se tiene:
15, 16, 19, 18, 16, 17, 15, 18, 18, 17, 20, 16, 17, 18, 17, 19,
20, 21, 16, 17
1. Ordenar los datos de menor a mayor
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 𝑥12 𝑥13 𝑥14 𝑥15 𝑥16 𝑥17 𝑥18 𝑥19 𝑥20
15 15 16 16 16 16 17 17 17 17 17 18 18 18 18 19 19 20 20 21
Para estimar la mediana, primero se debe ordenar los datos de menor a mayor.
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑀𝑒 = 3,1
2,2 2,5 2,8 3,1 3,4 4,1 25,6
La mitad de los funcionarios ganan máximo 3,1 millones de pesos. También se puede
interpretar como: la mitad de los funcionarios ganan más de 3,1 millones de pesos.
Estadística Descriptiva
Ejemplo de aplicación de la mediana
¿Cuál es el mejor indicador para representar el conjunto de datos?
𝑀𝑒𝑑𝑖𝑎 = 6,24
Dato atípico
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 3,1
La moda corresponde al dato de la muestra que tiene la mayor frecuencia, cuando la variable
aleatoria no se encuentra agrupada mediante intervalos de clase. Es el único indicador que
puede tomar dos o más valores para una misma muestra o población.
Retomando el ejemplo del número de créditos que matriculó el estudiante, ¿Cuál es la moda e
interpretar según el contexto del problema?
i 𝑋𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖 La moda es 17, puesto que corresponde al valor
1 15 2 0,1 2 0,1 que más se repite. La interpretación correcta es:
2 16 4 0,2 6 0,3
3 17 5 0,25 11 0,55 a) La mayoría de los estudiantes matriculó 17
4 18 4 0,2 15 0,75
5 19 2 0,1 17 0,85
créditos.
6 20 2 0,1 19 0,95 b) El número de créditos que matricularon los
7 21 1 0,05 20 1,00 estudiantes con mayor frecuencia es 17.
Total 20 1 2 0,1 c) El promedio del créditos que matricularon los
estudiantes con mayor frecuencia es 17.
Estadística Descriptiva
Moda
Cuando se trata de una variable de naturaleza continua, la moda corresponde a los valores
alrededor de los cuales se produce una mayor concentración de datos, es decir; los puntos de
mayor densidad de frecuencia.
Cuando todas las amplitudes de los intervalos de la tabla de frecuencia son iguales, la moda
viene dada por:
f i − f i −1
Mo = Li −1 + * Ci
2 * f i − f i −1 − f i +1
La Moda es el único indicador que puede ser calculado para variables cualitativas.
Estadística Descriptiva
Ejemplo de aplicación de la moda
Estimar la moda para el ejemplo del costo semanal de mantenimiento e interpretar el indicador
según el contexto del problema.
𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖−1 + ∗ 𝐶𝑖
i ( Li −1 − Li ] Xi ni fi Ni Fi 2 ∗ 𝑓𝑖 − 𝑓𝑖−1 − 𝑓𝑖+1
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075
𝑓𝑖−1 = 0,175
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
𝑓𝑖 = 0,375
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 𝑓𝑖+1 = 0,15
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
0,375 − 0,175
𝑀𝑜 = 4,2 + ∗ 0,50
Total 40 1,0
2 ∗ 0,375 − 0,175 − 0,15
Ejemplo 6: la Corporación Autónoma Regional del Valle del Cauca (CVC) cuenta con 606
empleados, de los cuales 410 son profesionales y 196 técnicos. El salario promedio de los
profesionales y técnicos es $ 4,25 y $ 1,82 millones respectivamente. ¿Cuál es el salario
promedio de los empleados?
𝑋1 = Salario mensual de los profesionales ; 𝑋2 = Salario mensual de los técnicos
Una población se subdivide en tres grupos de 25, 15 y 22 elementos cada uno; sus medias
aritméticas son 10, 8 y 12 respectivamente, entonces la media de la población es (25+15+22)/3
= 20,66
a) Verdadero
b) Falso
𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 +. . . +𝑁𝑘 ∗ 𝜇𝑘
𝜇𝑇 =
𝑁1 + 𝑁2 +. . . +𝑁𝑘
𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 + 𝑁3 ∗ 𝜇3 25 ∗ 10 + 15 ∗ 8 + 22 ∗ 12
𝜇= = = 10,2258
𝑁1 + 𝑁2 + 𝑁3 25 + 15 + 22
Estadística Descriptiva
Ejercicios aplicados
Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000
Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000
2. La interpretación correcta de la mediana es:
a) El 50% de los trabajadores ganan en promedio menos de $ 2.251.000
b) La mayoría de los trabajadores devengan un salario de $ 2.251.000
c) La mayoría de los trabajadores devengan un salario promedio de $ 2.251.000
d) La mitad de los trabajadores devengan un salario inferior a $ 2.251.000
e) La mitad de los trabajadores devengan un salario de $ 2.251.000
Estadística Descriptiva
Ejercicios aplicados
Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000
3. La interpretación correcta de la moda es:
a) La mayoría de los trabajadores devengan un salario de $ 2.257.000
b) La mayoría de los trabajadores devengan un salario promedio de $ 2.257.000
c) El salario con mayor frecuencia que devengan los trabajadores es $ 2.257.000
d) La mitad de los trabajadores devengan un salario de $ 2.257.000
Estadística Descriptiva
Ejercicios aplicados
5. El único indicador de tendencia central que puede tomar dos o más valores para una muestra
es la moda
a) Verdadero
b) Falso
Estadística Descriptiva
Ejercicios aplicados
1. La suma de las desviaciones de los datos con respecto a la media es cero. Es decir:
n
(x − x) = 0
i =1
i
Ejemplo 8: supongamos que la calificación del primer parcial de Probabilidad y Estadística para
una muestra de cinco estudiantes resultó ser:
Estudiante Calificación Calificación - Media 𝑥lj =
4,8 + 3,5 + 4,3 + 3,2 + 4,2
= 4,0
1 4,8 0,8 5
𝑛
2 3,5 -0,5
𝑥𝑖 − 𝑥lj = 0,8 − 0,5 + 0,3 − 0,8 + 0,2 = 0
3 4,3 0,3 𝑖=1
4 3,2 -0,8
De manera empírica se puede comprobar
5 4,2 0,2
la propiedad, sin necesidad de demostrar
4,8 − 4,0 = 0,8 matemáticamente.
Estadística Descriptiva
Propiedades de la media muestral o poblacional
2. Si todos los valores de una muestra son iguales a un valor 𝑘, entonces la media será igual al
valor 𝑘. Matemáticamente: si 𝑦𝑖 = 𝑘 , entonces 𝑥ҧ = 𝑘
Ejemplo 9: supongamos que la calificación del primer parcial de Probabilidad y Estadística para
una muestra de cinco estudiantes resultó ser:
Ejemplo 10: supongamos que la calificación del primer parcial de Probabilidad y Estadística
para una muestra de cinco estudiantes resultó ser:
Estudiante Calificación Calif. Ajustada 4,8 + 3,5 + 4,3 + 3,2 + 4,2
𝑥lj = = 4,0
5
1 4,8 5,0
2 3,5 3,7 Si el profesor otorga una bonificación de dos
3 4,3 4,5 decimas a cada uno de los estudiantes, ¿Cuál es
4 3,2 3,4 la nueva calificación promedio?
5 4,2 4,4
Aplicando la propiedad se puede obtener la
5,0 + 3,7 + 4,5 + 3,4 + 4,4
𝑥lj = = 4,2 calificación promedio: 𝑦ത = 𝑥ҧ + 𝑘 = 4,0 + 0,2 = 4,2
5
Estadística Descriptiva
Propiedades de la media muestral o poblacional
4. Si todos los datos de una muestra se multiplican por una constante, entonces el promedio de
la muestra se obtiene multiplicando por la misma constante, es decir: si 𝑦𝑖 = 𝑘𝑥𝑖 , entonces
𝑦ത = 𝑘𝑥ҧ
Ejemplo 11: por la actual situación económica del país, las utilidades de un determinado Banco
se han disminuido en un 50%. Antes de la crisis, las utilidades en promedio eran de $ 900 mil
millones. ¿Cuál es la nueva utilidad promedio del Banco?
Sea 𝑋 = "𝑢𝑡𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑟𝑖𝑠𝑖𝑠 𝑠𝑎𝑛𝑖𝑡𝑎𝑟𝑖𝑎"