Unidad 2. Estadística Descriptiva (Parte I)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 50

Estadística Descriptiva

Primer Semestre 2021

Unidad 2. Estadística Descriptiva (Parte I)

Diego Alejandro Castro


Asignatura: Probabilidad y Estadística
Facultad de Ciencias Básicas
Universidad Autónoma de Occidente
Estadística Descriptiva
Distribución de frecuencias

Está formada por los valores que toma la variable que se estudia acompañados de sus
respectivas frecuencias de ocurrencia. El conjunto de datos se organiza en una tabla de
frecuencias.

Se pueden clasificar en:

1. Datos no agrupados
2. Datos agrupados por intervalos de clase

El primero de ellos, se emplea generalmente cuando la variable es cuantitativa discreta y se


tienen pocos registros u observaciones. Por su parte, el segundo método se considera cuando la
variable es cuantitativa y se agrupa en intervalos de clase.
Estadística Descriptiva
Distribución de frecuencias para datos no agrupados

Ejemplo 1: se consideró una muestra aleatoria de 20 estudiante del programa académico de


Ingeniería Mecánica de la UAO y se preguntó el número de créditos que matriculó en el
semestre. Los resultados son:

Muestra: 15, 16, 19, 18, 16, 17, 15, 18, 18, 17, 20, 16, 17, 18, 17,
19, 20, 21, 16, 17

Se denotará a:
𝑛𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎

La frecuencia absoluta también puede presentarse como una fracción o porcentaje, surgiendo lo
que se denomina frecuencia relativa (𝑓𝑖 ). Matemáticamente se expresa como: 𝑓𝑖 = 𝑛𝑖 /𝑛
𝑁𝑖 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑖 → 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎
𝐹𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑖 → 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎
Estadística Descriptiva
Distribución de frecuencias para datos no agrupados
La tabla de frecuencias viene dada por:
i Créditos 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖 ¿Cómo se interpreta 𝑓3 ?
1 15 2 0,1 2 0,1
2 16 4 0,2 6 0,3 El 25% de las estudiantes matriculo 17 créditos.
3 17 5 0,25 11 0,55
4 18 4 0,2 15 0,75
5 19 2 0,1 17 0,85
¿Cómo se interpreta 𝐹5 ?
6 20 2 0,1 19 0,95
7 21 1 0,05 20 1,00 El 85% de los estudiantes matriculo máximo 19
Total 20 1 créditos.

𝑛1 2 𝑛3 5
𝑓1 = = = 0,10 ; 𝑓3 = = = 0,25 ; 𝑁4 = 2 + 4 + 5 + 4 = 15
𝑛 20 𝑛 20
𝑁4 15
𝐹4 = 0,10 + 0,2 + 0,25 + 0,2 = 0,75 ; 𝐹4 = = = 0,75
𝑛 20
Estadística Descriptiva
Propiedades de una tabla de frecuencias
Si se toma una muestra aleatoria de n datos, de los cuales hay m distintos que ordenamos en
forma creciente (𝑥1 , 𝑥2 , … , 𝑥𝑚 ), entonces:
1) 0  ni  n 7) n1 = N1  N 2  N 3  ...  N m = n
m

2) n
i =1
i =n 8) 𝑓1 = 𝐹1 ≤ 𝐹2 ≤ 𝐹3 ≤. . . ≤ 𝐹𝑚 = 1
j
9) F j =  f i
3) 0  f i  1 i =1
m

4) f
i =1
i =1

j
5) N j =  ni
i =1

6) N m = n
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase

Supóngase que el instrumento de medición usado para medir el diámetro de los tornillos que se
producen en una compañía tiene una precisión hasta las centésimas de milímetro, así pues un
valor podría ser 1,74325 milímetros.

Si se pretendiera aplicar el procedimiento que se uso anteriormente para resumir la


información en un tabla habría varios problemas uno de ellos es que seguramente, todos los
datos son distintos, lo que generaría una tabla de frecuencias absolutas con el mismo nivel de
información que la muestra bruta.

i Diametro 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
1 1,74325 1 0,01 1 0,01
2 1,74327 1 0,01 2 0,02 Una tabla de este tipo no resume
3 1,74348 1 0,01 3 0,03 la información
… … … … … …
100 2,94870 1 0,01 100 100
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase

No es de interés conocer con ese nivel detalle la información, por ejemplo, no es de interés
conocer cuantos tornillos presentan un diámetro de 2,012 milímetros. En estos casos es más
fácil agrupar la información en los llamados intervalos de clase.

Cuando nos encontramos con una distribución con un gran número de datos, se suelen
agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio
un inconveniente, debido a que se pierde información sobre la propia distribución.

Por ejemplo, en el intervalo (2 – 5], no sabemos con certeza, cuantos datos son iguales a 2,8.

El intervalo viene dado de la forma (𝐿𝑖−1 − 𝐿𝑖 ].

𝐿𝑖−1 al límite inferior del intervalo El intervalo (2 – 3,1] se lee como los valores
𝐿𝑖 al límite superior del intervalo mayores que 2, pero menores o iguales a 3,1
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase

Para operar se utilizará la marca de clase, que resulta ser el punto medio del intervalo de clase, es
decir:
L +L
X i = i −1 i
2
Para el ejemplo se tiene:
2 + 3,1
Xi = = 2,55
2

No es recomendable aproximar los decimales de las marcas de clase, puesto que al realizar un
intervalo ya se esta realizando un resumen de los datos.
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase

La pregunta que surge es: ¿Cómo obtener a partir de un conjunto de datos, una tabla de
frecuencias?

Para resolver esta pregunta, se puede considerar la Regla de Sturgles:

Paso 1: se calcula el número de intervalos


𝑚 = 1 + 3,3 ∗ log( 𝑛)

Paso 2: se obtiene el rango o la amplitud del conjunto de datos


𝑟 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

Paso 3: se obtiene la amplitud de cada uno de los intervalos


𝑟 𝐶𝑖 = 1,42 ≅ 1,5
𝐶𝑖 =
𝑚 𝐶𝑖 = 1,84 ≅ 1,9
La amplitud siempre se debe aproximar a un solo decimal por encima 𝐶𝑖 = 1,91 ≅ 2,0
Estadística Descriptiva
Tabla de frecuencias para datos agrupados por intervalos de clase

Paso 4: definir los límites de cada intervalo (punto de arranque)


 m * Ci − rango 
L0 = X Min −  
 2 
Los demás intervalos se calculan como:
L1 = L0 + C1
L2 = L1 + C2
L3 = L2 + C3

Lm = Lm −1 + Cm

Li −1 + Li
Paso 5: calcular las marcas de clase Xi =
2
Estadística Descriptiva
Ejemplo de aplicación

Ejemplo 2: los costos semanales de mantenimiento en millones de pesos para una fábrica, en
una muestra aleatoria de 40 semanas vienen dados por:
3,9 3,7 4,3 4,6 5,1
¿Cuál es la variable de análisis?
5,3 4,3 6,0 5,1 4,4 a) Los costos semanales de mantenimiento
3,3 4,1 4,4 6,1 5,3 b) La fábrica
4,0 3,9 3,3 4,7 4,5 c) Las 40 semanas
4,7 5,6 4,9 6,1 4,5
3,9 5,0 4,7 4,2 5,8 ¿Cuál es el tipo de variable y escala de
4,3 5,8 4,8 4,3 4,5 medición?
5,4 4,7 4,5 4,2 4,8 a) Cuantitativa Continua y escala de razón
b) Cuantitativa Continua y escala de
¿Cuál es la unidad de muestreo? intervalo
a) La fábrica
b) La semana
c) Millones de pesos
Estadística Descriptiva
Construcción de la tabla de frecuencias en el ejemplo aplicado

Paso 1: se obtiene el número de clases o intervalos


m = 1 + 3,3* log ( 40) = 6,2867  6

Paso 2: se calcula el rango del conjunto de datos


r = X max − X min = 6,1 − 3,3 = 2,8

La máxima discrepancia entre el costo de mantenimiento de una semana en relación a otra es de


2,8 millones de pesos.

Paso 3: se calcula la amplitud de los intervalos


𝑟𝑎𝑛𝑔𝑜 2,8
𝐶𝑖 = = = 0,46
𝑚 6

𝐶𝑖 ≅ 0,5
Estadística Descriptiva
Construcción de la tabla de frecuencias en el ejemplo aplicado

Paso 4: definir los límites de cada intervalo

 m * Ci − rango   6 * 0,50 − 2,8 


L0 = X Min −   = 3,3 −   = 3,3 − 0,1 = 3,2
 2   2 

i ( Li −1 − Li ] Xi ni fi Ni Fi
L1 = 3,2 + 0,5 = 3,7 1 (3,2 - 3,7] 3,45 3 0,075 3 0,075

L2 = 3,7 + 0,5 = 4,2 2 (3,7 - 4,2] 3,95 7 0,175 10 0,25


3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
L3 = 4,2 + 0,5 = 4,7 4 (4,7 - 5,2] 4,95 6 0,15 31 0,775
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
L4 = 4,7 + 0,5 = 5,2
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
L5 = 5,2 + 0,5 = 5,7 Total 40 1,0

L6 = 5,7 + 0,5 = 6,2 𝑛1 3 𝑁3 25


𝑓1 = = = 0,075 ; 𝑁3 = 3 + 7 + 15 = 25 ; 𝐹3 = = = 0,625
𝑛 40 𝑛 40
Estadística Descriptiva
Construcción de la tabla de frecuencias en el ejemplo aplicado

Recordemos que la muestra aleatoria resultó ser:


3,9 3,7 4,3 4,6 5,1 En la práctica se emplean los siguientes
5,3 4,3 6,0 5,1 4,4 programas para agrupar el conjunto de
3,3 4,1 4,4 6,1 5,3 datos:
4,0 3,9 3,3 4,7 4,5
6,1
• Excel
4,7 5,6 4,9 4,5
• RStudio
3,9 5,0 4,7 4,2 5,8
4,3 5,8 4,8 4,3 4,5
Veamos como se obtiene la tabla de
5,4 4,7 4,5 4,2 4,8 frecuencias en el programa Excel.
Estadística Descriptiva
Cálculo de probabilidades en tablas de frecuencia

i ( Li −1 − Li ] Xi ni fi Ni Fi ¿Cuántas semanas tienen un costo de


1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 mantenimiento mayor a 3,2 pero menor o
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25 igual a 3,7 millones de pesos?
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 a) 3
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875 b) 7
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0 c) 15
Total 40 1,0 d) 0

¿Cuál es el porcentaje de semanas en la fábrica con un costo de mantenimiento máximo de 4,7


millones de pesos?
a) 7,5%
b) 25%
c) 62,5%
d) 77,5%
Estadística Descriptiva
Cálculo de probabilidades en tablas de frecuencia

i ( Li −1 − Li ] Xi ni fi Ni Fi ¿Qué porcentaje de semanas presentan un


1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 costo de mantenimiento superior a 4,2
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25 millones de pesos?
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 a) 62,5%
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875 b) 77,5%
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0 c) 37,5%
Total 40 1,0 d) 75%

Existen diferentes maneras para resolver el ejercicio.


15+6+4+5 30
Manera 1: 𝑃 𝑋 > 4,2 = = = 0,75
40 40

Manera 2: 𝑃 𝑋 > 4,2 = 0,375 + 0,15 + 0,10 + 0,125 = 0,75

Manera 3: 𝑃 𝑋 > 4,2 = 1 − P X ≤ 4,2 = 1 − 0,25 = 0,75


Estadística Descriptiva
Función de distribución acumulativa

Para calcular probabilidades como 𝑃 𝑋 < 4,5 , 𝑃 𝑋 > 4,8 , 𝑃(3,1 < 𝑋 < 5,1) se emplea la
función de distribución acumulada, cuya expresión matemática viene dada por:
fi
P( X  a) = Fi −1 + (a − Li −1 )
Ci
Cuando una variable se agrupa en intervalos de clase o es cuantitativa continua, las siguientes
expresiones matemáticas son equivalentes:
P( X  a ) = P( X  a ) P( X  a ) = 1 − P( X  a )
P(a  X  b) = P(a  X  b) P(a  X  b) = P( X  b) − P( X  a)
P( X  b) = P( X  b)

P( X = a ) = 0
Estadística Descriptiva
Función de distribución acumulativa

¿Cuál es la probabilidad de que el costo semanal de mantenimiento en la fábrica en una semana


cualquiera sea máximo de 4,5 millones de pesos?
𝐿𝑖−1 = 4,2 𝑎 = 4,5
i ( Li −1 − Li ] Xi ni fi N i Fi 𝑓𝑖
𝑃(𝑋 ≤ 𝑎) = 𝐹𝑖−1 + (𝑎 − 𝐿𝑖−1 )
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 𝐶𝑖
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25 0,375
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625 𝑃(𝑋 ≤ 4,5) = 0,25 + (4,5 − 4,2)
0,5
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
𝑃 𝑋 ≤ 4,5 = 0,475 = 47,5%
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0 𝐹𝑖−1 = 0,25

𝐶𝑖 = 4,7 − 4,2 = 0,5 𝑓𝑖 = 0,375


Estadística Descriptiva
Función de distribución acumulativa

¿Cuál es la probabilidad de que el costo semanal de mantenimiento en la fábrica en una semana


cualquiera sea menor a 5,8 millones de pesos?
𝐿𝑖−1 = 5,7 𝑎 = 5,8
i ( Li −1 − Li ] Xi ni fi N i Fi 𝑓𝑖
𝑃(𝑋 < 𝑎) = 𝐹𝑖−1 + (𝑎 − 𝐿𝑖−1 )
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 𝐶𝑖
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25 0,125
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625 𝑃(𝑋 < 5,8) = 0,875 + (5,8 − 5,7)
0,5
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875 𝑃 𝑋 < 5,8 = 0,90 = 90%
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0 𝐹𝑖−1 = 0,875

𝐶𝑖 = 6,2 − 5,7 = 0,5 𝑓𝑖 = 0,125


Estadística Descriptiva
Función de distribución acumulativa

¿Cuál es la probabilidad de que el costo semanal de mantenimiento en la fábrica en una semana


cualquiera sea superior a 4,5 pero menor a 5,8 millones de pesos?
i ( Li −1 − Li ] Xi ni fi Ni Fi 𝑃 𝑎 < 𝑋 < 𝑏 = 𝑃 𝑋 < 𝑏 − 𝑃(𝑋 < 𝑎)
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25 𝑃 4,5 < 𝑋 < 5,8 = 𝑃 𝑋 < 5,8 − 𝑃(𝑋 < 4,5)
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
𝑃 4,5 < 𝑋 < 5,8 = 0,90 − 0,475 = 0,425
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0

¿Cuál es la probabilidad de que el costo semanal de mantenimiento en la fábrica en una semana


sea superior a 4,5 millones de pesos?
𝑃 𝑋 >𝑏 =1−𝑃 𝑋 ≤𝑏 𝑃 𝑋 > 4,5 = 1 − 𝑃 𝑋 ≤ 4,5 = 1 − 0,475 = 0,525
Estadística Descriptiva
Ejemplo de aplicación
Ejemplo 3: en una empresa se realiza un proceso de inyección de plástico, una característica de
calidad del producto (disco) es su grosor, que debe ser de 1,20 mm con una tolerancia de
± 0,10 𝑚𝑚. Así, para considerar que el proceso de inyección fue satisfactorio, el grosor del
disco debe estar entre la especificación inferior y la superior. La selección de un disco es
independiente de otro. Se tomó una muestra aleatoria de 200 discos, obteniendo la siguiente
tabla de frecuencia:
i ( Li −1 − Li ] Xi ni fi Ni Fi
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08 En un estudio de capacidad para este
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18 proceso es necesario responder: ¿Qué
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 porcentaje de discos se están produciendo
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68 con las especificaciones, es decir, se
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89 encuentre entre 1,1 y 1,3 mm?
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200
Estadística Descriptiva
Función de distribución acumulativa

Los límite de especificación son: 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑃 𝑋 ≤ 𝑏 − 𝑃(𝑋 ≤ 𝑎)


Inferior = 1,2 – 0,1 = 1,1
𝑃 1,1 ≤ 𝑋 ≤ 1,3 = 𝑃 𝑋 ≤ 1,3 − 𝑃(𝑋 ≤ 1,1)
Superior = 1,2 + 0,1 = 1,3
𝑓𝑖 𝑎 = 1,3
i ( Li −1 − Li ] Xi ni fi Ni Fi 𝑃(𝑋 ≤ 𝑎) = 𝐹𝑖−1 + (𝑎 − 𝐿𝑖−1 )
𝐶𝑖
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18 0,11
𝑃(𝑋 ≤ 1,3) = 0,89 + (1,3 − 1,29)
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 0,06
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68
𝑃 𝑋 ≤ 1,3 = 0,908333
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200 𝐹𝑖−1 = 0,89

𝐶𝑖 = 1,35 − 1,29 = 0,06 𝑓𝑖 = 0,11


𝐿𝑖−1 = 1,29
Estadística Descriptiva
Función de distribución acumulativa

Los límite de especificación son: 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑃 𝑋 ≤ 𝑏 − 𝑃(𝑋 ≤ 𝑎)


Inferior = 1,2 – 0,1 = 1,1
𝑃 1,1 ≤ 𝑋 ≤ 1,3 = 𝑃 𝑋 ≤ 1,3 − 𝑃(𝑋 ≤ 1,1)
Superior = 1,2 + 0,1 = 1,3
𝑓𝑖
i ( Li −1 − Li ] Xi ni fi Ni Fi 𝑃(𝑋 ≤ 𝑎) = 𝐹𝑖−1 + (𝑎 − 𝐿𝑖−1 ) 𝑎 = 1,1
𝐶𝑖
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18 0,10
𝑃(𝑋 ≤ 1,1) = 0,08 + (1,1 − 1,09)
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 0,06
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68
𝑃 𝑋 ≤ 1,1 = 0,096666
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0 𝐹𝑖−1 = 0,08
Total 200
𝑃 1,1 ≤ 𝑋 ≤ 1,3 = 0,908333 − 0,096666
𝐶𝑖 = 1,15 − 1,09 = 0,06 𝑓𝑖 = 0,10 𝑃 1,1 ≤ 𝑋 ≤ 1,3 = 0,811667 = 81,1667%
𝐿𝑖−1 = 1,09
Estadística Descriptiva
Indicadores de tendencia central

Son aquellos cuyo objetivo es explicar mediante un valor numérico, la tendencia mayoritaria de
las observaciones que se analiza.

Media: también suele llamarse promedio, valor esperado, o media


aritmética. Corresponde al promedio del conjunto de datos.
Medidas de
tendencia central Mediana: también suele llamarse cuartil 2 o percentil 50. Corresponde
al valor donde se encuentra acumulado la mitad de las observaciones.

Moda: corresponde al valor con mayor frecuencia. Es el único indicador


que puede tomar dos o más valores para una misma muestra o población

Promedio ponderado: es el valor promedio representativo de grupos de observaciones


separadas o diferentes y que podrían estar consolidadas en tablas de frecuencia independientes
Estadística Descriptiva
Media

Sea 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 una muestra aleatoria de una característica de la población. Se estima como:


n m

x i
1 n  xn i i m
x= i =1
=   xi  ; x= i =1
=  xi f i 𝑚 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒
n n  i =1  n i =1
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠

Sea 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑁 las observaciones de una característica de una población. Se calcula


como:
N m

x 1 i
 N xn i i
 = i =1 =   xi  ; = i =1
N N  i =1  N

Datos agrupados
Datos no agrupados
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del número de créditos que matriculó el estudiante, se tiene:
i 𝑋𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖
σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 15 2 0,1 2 0,1 𝑥lj =
2 16 4 0,2 6 0,3 𝑛
3 17 5 0,25 11 0,55 15∗2+16∗4+17∗5+18∗4+19∗2+20∗2+21∗1
4 18 4 0,2 15 0,75 𝑥lj = = 17,5
20
5 19 2 0,1 17 0,85
6 20 2 0,1 19 0,95 El número promedio de créditos que matriculó el
7 21 1 0,05 20 1,00
Total 20 1 2 0,1
estudiante es 18.

Ejemplo 4: la calificación del primer parcial de Probabilidad y Estadística para una muestra de 8
estudiantes resultó ser: 3,5 3,9 4,9 5,0 5,0 3,2 4,5 2,2
3,5 + 3,9 + 4,9 + 5,0 + 5,0 + 3,2 + 4,5 + 2,2
𝑥lj = = 4,025
8
La calificación promedio muestral del primer parcial de Probabilidad y Estadística resultó ser 4,025.
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del costo semanal de mantenimiento de la fábrica, estimar la media e
interpretar:
i ( Li −1 − Li ] Xi ni fi Ni Fi
σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 𝑥lj =
𝑛
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
3,45∗3 + 3,95 ∗ 7 + ⋯ + 5,95 ∗ 5
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 𝑥lj = = 4,65
40
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0

El promedio del costo semanal de mantenimiento de la fábrica es igual a 4,65 millones de pesos.
Estadística Descriptiva
Ejemplo de aplicación de la media
Retomando el ejemplo del grosor de los discos, estimar la media e interpretar el indicador.
i ( Li −1 − Li ] Xi ni fi Ni Fi σ𝑚
𝑖=1 𝑥𝑖 𝑛𝑖
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08 𝑥lj =
𝑛
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 1,07 ∗ 16 + 1,12 ∗ 20 + ⋯ + 1,32 ∗ 22
𝑥lj =
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68 200
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89 𝑥lj = 1,20785
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200

El promedio del grosor de los discos es igual a 1,20785 mm


Estadística Descriptiva
Mediana

Es un número tal que, si ordenamos los datos de forma creciente, cumple con la condición
de ser mayor que la mitad pero menor o igual que la otra mitad. Divide a la población o
muestra en dos partes aproximadamente iguales.

Pasos para calcular la mediana en datos no agrupados:

1. Ordene los datos ascendentemente (de menor a mayor)

2. El valor de la mediana será aquel que ocupe la posición central del conjunto de datos,
definiendo la posición central como:

 X ( n +1) / 2 ; si n es impar
Me = 
(X n/2 + X n / 2+1 ) / 2 ; si n es par

Estadística Descriptiva
Ejemplo de aplicación de la mediana
Para el ejemplo del número de créditos que matriculó el estudiante se tiene:
15, 16, 19, 18, 16, 17, 15, 18, 18, 17, 20, 16, 17, 18, 17, 19,
20, 21, 16, 17
1. Ordenar los datos de menor a mayor
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 𝑥12 𝑥13 𝑥14 𝑥15 𝑥16 𝑥17 𝑥18 𝑥19 𝑥20
15 15 16 16 16 16 17 17 17 17 17 18 18 18 18 19 19 20 20 21

2. El valor de la mediana será aquel que ocupe la posición central


𝑋10 + 𝑋11 17 + 17
𝑀𝑒 = = = 17
2 2

El 50% de los estudiantes matriculó máximo 17 créditos


Nota: en presencial de valores atípicos (observaciones que son muy diferentes a las
demás), el mejor indicador es la mediana.
Estadística Descriptiva
Ejemplo de aplicación de la mediana
Ejemplo 4: se consideró una muestra aleatoria de 7 funcionarios de un Banco, cuyo salario
mensual (millones de pesos) resultó ser:
2,5 3,4 2,8 25,6 3,1 2,2 4,1
Estimar la media y la mediana e interpretar cada indicador según el contexto.
2,5 + 3,4 + 2,8 + 25,6 + 3,1 + 2,2 + 4,1
𝑥lj = = 6,24
7
El salario promedio para la muestra de funcionarios del Banco es igual a 6,24 millones de pesos.

Para estimar la mediana, primero se debe ordenar los datos de menor a mayor.
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑀𝑒 = 3,1
2,2 2,5 2,8 3,1 3,4 4,1 25,6

La mitad de los funcionarios ganan máximo 3,1 millones de pesos. También se puede
interpretar como: la mitad de los funcionarios ganan más de 3,1 millones de pesos.
Estadística Descriptiva
Ejemplo de aplicación de la mediana
¿Cuál es el mejor indicador para representar el conjunto de datos?

𝑀𝑒𝑑𝑖𝑎 = 6,24
Dato atípico
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 3,1

La mediana es el mejor indicador, puesto que en la muestra se presenta un dato atípico.

2,5 3,4 2,8 25,6 3,1 2,2 4,1

Existen herramientas estadísticas para determinar si un dato es o no un dato atípico.

Una de la maneras para determinar si un dato es un posible atípico, es el diagrama de cajas y


alambres, gráfico que veremos más adelante.
Estadística Descriptiva
Mediana en datos agrupados en intervalos de clase
Se considera el primer intervalo de clase que concentre al menos el 50% del conjunto de datos
acumulados (𝐹𝑖−1 ≥ 0,50). La expresión matemática viene dada por:
Ci
𝐿𝑖−1 = 4,2 Me = Li −1 + ( 0,50 − Fi −1 )
fi
Para el ejemplo del costo semanal de mantenimiento de la fábrica, estimar la mediana e
interpretar el indicador según el contexto del problema.
i ( Li −1 − Li ] Xi ni fi Ni Fi 0,50
Me = 4,2 + (0,50 − 0,25) = 4,5333
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 0,375
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 𝐹𝑖−1 = 0,25
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0 𝑓𝑖 = 0,375
Total 40 1,0
𝐶𝑖 = 4,7 − 4,2 = 0,50
Estadística Descriptiva
Mediana en datos agrupados en intervalos de clase

La mediana se puede interpretar como:


a) El 50% de las semanas registraron costo de mantenimiento igual a 4,5333 SMLV
b) El 50% de las semanas registraron un costo de mantenimiento máximo de 4,5333 SMLV
c) La mayoría de las semanas registraron un costo de mantenimiento igual a 4,5333 SMLV
d) El promedio del costo semanal de mantenimiento de la fábrica resultó ser 4,5333 SMLV.

Ejemplo 5: responder verdadero o falso la siguiente afirmación.

La mediana siempre será igual a uno de los valores de la muestra o población


a) Verdadero 4 6 7 9 10 11
b) Falso
Estadística Descriptiva
Mediana en datos agrupados en intervalos de clase
Para el ejemplo del grosor de los discos, obtener la mediana e interpretar el indicador según el
contexto del problema.
i ( Li −1 − Li ] Xi ni fi Ni Fi
𝑀𝑒 = 𝐿𝑖−1 + (0,50 − 𝐹𝑖−1 )
𝐶𝑖
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08 𝑓𝑖
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18 0,05
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36 𝑀𝑒 = 1,19 + 0,50 − 0,36 ∗
0,32
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89 𝐹𝑖−1 = 0,36 𝑀𝑒 = 1,211875
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200
El 50% de los discos presentaron un grosor
𝐶𝑖 = 1,24 − 1,19 = 0,05 menor o igual a 1,211875 mm.

𝐿𝑖−1 = 1,19 𝑓𝑖 = 0,32 Otra interpretación es: El 50% de los discos


presentaron un grosor mayor a 1,211875
mm.
Estadística Descriptiva
Moda y ejemplo de aplicación

La moda corresponde al dato de la muestra que tiene la mayor frecuencia, cuando la variable
aleatoria no se encuentra agrupada mediante intervalos de clase. Es el único indicador que
puede tomar dos o más valores para una misma muestra o población.

Retomando el ejemplo del número de créditos que matriculó el estudiante, ¿Cuál es la moda e
interpretar según el contexto del problema?
i 𝑋𝑖 𝑛𝑖 𝑓𝑖 𝑁𝑖 𝐹𝑖 La moda es 17, puesto que corresponde al valor
1 15 2 0,1 2 0,1 que más se repite. La interpretación correcta es:
2 16 4 0,2 6 0,3
3 17 5 0,25 11 0,55 a) La mayoría de los estudiantes matriculó 17
4 18 4 0,2 15 0,75
5 19 2 0,1 17 0,85
créditos.
6 20 2 0,1 19 0,95 b) El número de créditos que matricularon los
7 21 1 0,05 20 1,00 estudiantes con mayor frecuencia es 17.
Total 20 1 2 0,1 c) El promedio del créditos que matricularon los
estudiantes con mayor frecuencia es 17.
Estadística Descriptiva
Moda

Cuando se trata de una variable de naturaleza continua, la moda corresponde a los valores
alrededor de los cuales se produce una mayor concentración de datos, es decir; los puntos de
mayor densidad de frecuencia.

Cuando todas las amplitudes de los intervalos de la tabla de frecuencia son iguales, la moda
viene dada por:  
f i − f i −1
Mo = Li −1 +   * Ci
 2 * f i − f i −1 − f i +1 

Si la amplitud de los intervalos es diferente, la expresión matemática para la moda es:


 f i f i −1 
 − 
C Ci −1 Se evaluará solo en la
Mo = Li −1 +  i *C
 f i f i −1 f i +1  i
 C −C −C
2 *  habilitación
 i i −1 i +1 

La Moda es el único indicador que puede ser calculado para variables cualitativas.
Estadística Descriptiva
Ejemplo de aplicación de la moda

Estimar la moda para el ejemplo del costo semanal de mantenimiento e interpretar el indicador
según el contexto del problema.
𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖−1 + ∗ 𝐶𝑖
i ( Li −1 − Li ] Xi ni fi Ni Fi 2 ∗ 𝑓𝑖 − 𝑓𝑖−1 − 𝑓𝑖+1
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075
𝑓𝑖−1 = 0,175
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625
𝑓𝑖 = 0,375
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 𝑓𝑖+1 = 0,15
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
0,375 − 0,175
𝑀𝑜 = 4,2 + ∗ 0,50
Total 40 1,0
2 ∗ 0,375 − 0,175 − 0,15

𝐶𝑖 = 4,7 − 4,2 = 0,5 𝑀𝑜 = 4,435

𝐿𝑖−1 = 4,2 El costo semanal de mantenimiento con mayor


frecuencia es 4,435 millones de pesos.
Estadística Descriptiva
Promedio Ponderado o total

El promedio total o ponderado considerando k grupos en muestras aleatorias es:


𝑛1 ∗ 𝑋ሜ1 + 𝑛2 ∗ 𝑋ሜ 2 +. . . +𝑛𝑘 ∗ 𝑋ሜ 𝑘
𝑋ሜ 𝑇 =
𝑛1 + 𝑛2 +. . . +𝑛𝑘

donde 𝑛𝑖 es el número de observaciones en la muestra del grupo i-ésimo


𝑥ҧ𝑖 es el promedio correspondiente en la muestra del grupo i-ésimo

El promedio total o ponderado considerando k poblaciones es:


𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 +. . . +𝑁𝑘 ∗ 𝜇𝑘
𝜇𝑇 =
𝑁1 + 𝑁2 +. . . +𝑁𝑘

donde 𝑁𝑖 es el número de observaciones en la i-ésima población


𝜇𝑖 es el promedio correspondiente en la i-ésima población
Estadística Descriptiva
Promedio Ponderado o total

Ejemplo 6: la Corporación Autónoma Regional del Valle del Cauca (CVC) cuenta con 606
empleados, de los cuales 410 son profesionales y 196 técnicos. El salario promedio de los
profesionales y técnicos es $ 4,25 y $ 1,82 millones respectivamente. ¿Cuál es el salario
promedio de los empleados?
𝑋1 = Salario mensual de los profesionales ; 𝑋2 = Salario mensual de los técnicos

¿Cuál expresión matemática se debe considerar?


𝑛1 ∗ 𝑋ሜ1 + 𝑛2 ∗ 𝑋ሜ 2 +. . . +𝑛𝑘 ∗ 𝑋ሜ 𝑘 𝑁1 = 410 ; 𝜇1 = 4,25
𝑋ሜ 𝑇 =
𝑛1 + 𝑛2 +. . . +𝑛𝑘
𝑁2 = 196 ; 𝜇2 = 1,82
𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 +. . . +𝑁𝑘 ∗ 𝜇𝑘
𝜇𝑇 =
𝑁1 + 𝑁2 +. . . +𝑁𝑘

𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 410 ∗ 4,25 + 196 ∗ 1,82


𝜇= = = $ 3,46
𝑁1 + 𝑁2 410 + 196
Estadística Descriptiva
Promedio Ponderado o total

Ejemplo 7: responder verdadero o falso la siguiente afirmación

Una población se subdivide en tres grupos de 25, 15 y 22 elementos cada uno; sus medias
aritméticas son 10, 8 y 12 respectivamente, entonces la media de la población es (25+15+22)/3
= 20,66
a) Verdadero
b) Falso

𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 +. . . +𝑁𝑘 ∗ 𝜇𝑘
𝜇𝑇 =
𝑁1 + 𝑁2 +. . . +𝑁𝑘

𝑁1 ∗ 𝜇1 + 𝑁2 ∗ 𝜇2 + 𝑁3 ∗ 𝜇3 25 ∗ 10 + 15 ∗ 8 + 22 ∗ 12
𝜇= = = 10,2258
𝑁1 + 𝑁2 + 𝑁3 25 + 15 + 22
Estadística Descriptiva
Ejercicios aplicados

Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000

1. La interpretación correcta de la media es:


a) Es el promedio de los trabajadores que devengan un salario mensual de $2.245.000
b) 2.245.000 es el salario promedio mensual que devenga la mayoría de los trabajadores
c) El salario promedio mensual del grupo de trabajadores es de $2.245.000
d) El 50% de los trabajadores devengan un salario menor a $ 2.245.000
Estadística Descriptiva
Ejercicios aplicados

Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000
2. La interpretación correcta de la mediana es:
a) El 50% de los trabajadores ganan en promedio menos de $ 2.251.000
b) La mayoría de los trabajadores devengan un salario de $ 2.251.000
c) La mayoría de los trabajadores devengan un salario promedio de $ 2.251.000
d) La mitad de los trabajadores devengan un salario inferior a $ 2.251.000
e) La mitad de los trabajadores devengan un salario de $ 2.251.000
Estadística Descriptiva
Ejercicios aplicados

Se presentan los indicadores de tendencia central más importantes para el salario mensual de un
grupo de trabajadores de la empresa Centroaguas.
Media $2.245.000
Mediana $2.251.000
Moda $2.257.000
3. La interpretación correcta de la moda es:
a) La mayoría de los trabajadores devengan un salario de $ 2.257.000
b) La mayoría de los trabajadores devengan un salario promedio de $ 2.257.000
c) El salario con mayor frecuencia que devengan los trabajadores es $ 2.257.000
d) La mitad de los trabajadores devengan un salario de $ 2.257.000
Estadística Descriptiva
Ejercicios aplicados

Responda verdadero o falso cada una de las siguientes afirmaciones.

4. En una tabla de frecuencias los siguientes valores son consistentes:


𝐹5 = 0,39 ; 𝑁4 = 30 ; 𝑛5 = 9 ; 𝑛 = 50
a) Verdadero 𝑁5 = 𝑁4 + 𝑛5 𝑁5 39
𝐹5 = = = 0,78
b) Falso 𝑛 50
𝑁5 = 30 + 9 = 39

5. El único indicador de tendencia central que puede tomar dos o más valores para una muestra
es la moda
a) Verdadero
b) Falso
Estadística Descriptiva
Ejercicios aplicados

6. La mediana es el mejor indicador de tendencia central en presencia de valores atípicos.


a) Verdadero
b) Falso

7. En variables cualitativas, el único indicador de tendencia central que se puede calcular es la


moda.
a) Verdadero
b) Falso
Estadística Descriptiva
Propiedades de la media muestral o poblacional

1. La suma de las desviaciones de los datos con respecto a la media es cero. Es decir:
n

 (x − x) = 0
i =1
i

Ejemplo 8: supongamos que la calificación del primer parcial de Probabilidad y Estadística para
una muestra de cinco estudiantes resultó ser:
Estudiante Calificación Calificación - Media 𝑥lj =
4,8 + 3,5 + 4,3 + 3,2 + 4,2
= 4,0
1 4,8 0,8 5
𝑛
2 3,5 -0,5
෍ 𝑥𝑖 − 𝑥lj = 0,8 − 0,5 + 0,3 − 0,8 + 0,2 = 0
3 4,3 0,3 𝑖=1
4 3,2 -0,8
De manera empírica se puede comprobar
5 4,2 0,2
la propiedad, sin necesidad de demostrar
4,8 − 4,0 = 0,8 matemáticamente.
Estadística Descriptiva
Propiedades de la media muestral o poblacional
2. Si todos los valores de una muestra son iguales a un valor 𝑘, entonces la media será igual al
valor 𝑘. Matemáticamente: si 𝑦𝑖 = 𝑘 , entonces 𝑥ҧ = 𝑘

De igual manera esta propiedad aplica para la media poblacional.

Ejemplo 9: supongamos que la calificación del primer parcial de Probabilidad y Estadística para
una muestra de cinco estudiantes resultó ser:

Estudiante Calificación 4,1 + 4,1 + 4,1 + 4,1 + 4,1


𝑥lj = = 4,1
1 4,1 5
2 4,1
3 4,1
4 4,1
5 4,1
Estadística Descriptiva
Propiedades de la media muestral o poblacional
3. Si a cada uno de los valores de la muestra se le suma una misma constante, la media resulta
ser el promedio de los datos más la constante Matemáticamente: si 𝑦𝑖 = 𝑥𝑖 + 𝑘 ,
entonces: 𝑦ത = 𝑥ҧ + 𝑘
De igual manera esta propiedad aplica para la media poblacional.

Ejemplo 10: supongamos que la calificación del primer parcial de Probabilidad y Estadística
para una muestra de cinco estudiantes resultó ser:
Estudiante Calificación Calif. Ajustada 4,8 + 3,5 + 4,3 + 3,2 + 4,2
𝑥lj = = 4,0
5
1 4,8 5,0
2 3,5 3,7 Si el profesor otorga una bonificación de dos
3 4,3 4,5 decimas a cada uno de los estudiantes, ¿Cuál es
4 3,2 3,4 la nueva calificación promedio?
5 4,2 4,4
Aplicando la propiedad se puede obtener la
5,0 + 3,7 + 4,5 + 3,4 + 4,4
𝑥lj = = 4,2 calificación promedio: 𝑦ത = 𝑥ҧ + 𝑘 = 4,0 + 0,2 = 4,2
5
Estadística Descriptiva
Propiedades de la media muestral o poblacional
4. Si todos los datos de una muestra se multiplican por una constante, entonces el promedio de
la muestra se obtiene multiplicando por la misma constante, es decir: si 𝑦𝑖 = 𝑘𝑥𝑖 , entonces
𝑦ത = 𝑘𝑥ҧ

Ejemplo 11: por la actual situación económica del país, las utilidades de un determinado Banco
se han disminuido en un 50%. Antes de la crisis, las utilidades en promedio eran de $ 900 mil
millones. ¿Cuál es la nueva utilidad promedio del Banco?
Sea 𝑋 = "𝑢𝑡𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑟𝑖𝑠𝑖𝑠 𝑠𝑎𝑛𝑖𝑡𝑎𝑟𝑖𝑎"

𝑌 = "𝑢𝑡𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑐𝑟𝑖𝑠𝑖𝑠 𝑠𝑎𝑛𝑖𝑡𝑎𝑟𝑖𝑎"

𝜇𝑥 = $ 900 𝑚𝑖𝑙 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠


𝜇𝑦 = 0,50 ∗ 900 = $ 450 mil millones

También podría gustarte