Estadistica Parte 4
Estadistica Parte 4
Estadistica Parte 4
4.4 Ejercicios
1. Construya un gráfico para representar los datos de los ejercicios 2, 3,
4, 5 y 6 del capítulo 3.
2. Se realizó un estudio en el
municipio de Bello con el fin de
evaluar el riesgo nutricional de los
jóvenes que se encuentran
estudiando, para ello se realizó un
estudio comparativo de todos los
estudiantes de las instituciones
escolares de carácter público. Los
resultados se muestran a
continuación (interprete la gráfica):
6.000 5.458
5.000
4.000
3.338
3.000
2.000
1.254
1.000
0
LEVE MODERADO SEVERO
Intervalos %fri
5–7 5.8
7 - 11 12.3
11 – 18 15.2
18 – 24 18.4
24 – 34 19.0
34 – 44 11.8
44 – 60 10.8
60 y más años 6.7
a. Construya el histograma y sobre éste el polígono de frecuencias
relativas.
b. Realice como mínimo 5 interpretaciones de la gráfica.
c. ¿Entre qué grupo de edades se encuentra el mayor porcentaje de
la población?
d. ¿Cuál cree usted que sería la tendencia si graficáramos sobre los
mismos ejes los datos de un censo que se realizara el año entrante
en Antioquia?
6. Una muestra de 400 baterías tomadas al azar de una línea de
producción fue sometida a un test de laboratorio para determinar su
duración. Con los resultados de dicho test se obtuvo la siguiente
distribución de frecuencias.
Duración en Número de
días baterías
300 – 400 14
400 – 500 46
500 – 600 58
600 – 700 76
700 – 800 68
800 – 900 60
900 – 1000 48
1000 – 1100 22
1100 – 1200 8
a. Realice la ficha técnica del estudio.
b. Construya el polígono de frecuencias absolutas acumuladas.
Estadística - Pagina 4
c. ¿Qué probabilidad hay de que una batería dura 620 días cuando
menos?
d. ¿Qué riesgo correría el fabricante si estableciera una garantía de
que la duración mínima de cualquiera de las baterías es de 450
días de servicio?
e. Si el fabricante otorgara una garantía de devolución del precio
pagado por la batería válida por 90 días. ¿Cuál sería el riesgo de
tener que hacer efectiva dicha garantía?
7. Se registraron los gastos diarios de un grupo de familias del barrio
Laureles, los datos obtenidos se muestran a continuación:
Xi fai
10000 – 12000 100
12000 – 14000 150
14000 – 16000 200
16000 – 18000 200
18000 – 20000 150
20000 – 22000 80
22000 – 24000 50
24000 – 26000 30
26000 – 28000 20
28000 - 30000 20
a. Realice la ficha técnica de dicho estudio.
b. Construya el polígono de frecuencias absolutas acumuladas.
c. ¿Cuántas familias y qué porcentaje gastan más de 25000
diariamente?
d. ¿Cuántas familias y qué porcentaje gastan menos de 18000
diariamente?
e. ¿Cuántas familias y qué porcentaje gastan entre 11000 y 23000
diariamente?
f. El 80% de las familias gastan más de qué cantidad de dinero?
g. El 30% de las familias gastan menos de qué cantidad de dinero?
Capítulo 5
Objetivos:
– Conocer las diversas medidas descriptivas de una muestra, con el
fin de mejorar la interpretación de los datos, superando así las
limitaciones que pueden traer los análisis gráficos por parte de
cada investigador.
– Diferenciar cada una de las medidas descriptivas de una muestra,
observando su complementariedad.
Estadística - Pagina 5
La riqueza le respondió:
Y la vanidad contestó:
- ¿Quién me ayudó?
Y la sabiduría aclaró:
Ejemplo
2:
La media aritmética ponderada para el número de hijos por familia en el
barrio “Belén Rosales” de la ciudad de Medellín (p 25) sería:
k
x i fai 11 0 * 3 + 1* 5 + 2 * 4 + 3 * 3 + 4 * 7 + 5 * 2 + 6 * 4 + 7 * 4 + 8 * 2 + 9 * 4 + 11* 2
x=∑ =∑
i =1 n i =1 40
k
x i fai
x=∑
i =1 n = 4.7 ≅ 5 hijos
es decir, las familias encuestadas tienen un número medio de hijos de
aproximadamente 5.
Ejempl
o 3:
Se midieron los niveles de hemoglobina a un grupo de 34 pacientes que
poseían un extraño tipo de anemia (los valores están en g/dl), siendo
valores normales los encontrados en el rango 14.0 – 18.0.
La tabla de distribución de frecuencias en intervalos está dada por:
Li – Ls xi fai %fri Faan %Fran
7.5 – 9.0 8.25 3 8.8 3 8.8
9.0 –10.5 9.75 8 23.6 11 32.4
10.5 – 12.0 11.25 10 29.4 21 61.8
12.0 – 13.5 12.75 10 29.4 31 91.2
13.5 – 15.0 14.25 1 2.9 32 94.1
Estadística - Pagina 9
Ejempl
o 1:
La distribución de frecuencias absolutas acumuladas en el ejemplo sobre
el número de hijos en el barrio “Belén Rosales” era:
Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11
1 1 2 2 2 3 3 3 40
Frecuencias Acumuladas( Faan) 3 8
2 5 2 4 8 2 4 8
Como es n/2=20
15 < 20 < 22
la mediana será Me=(3+4)/2.
Me = 3.5 = 4 hijos. Concluimos que el 50% de las familias tiene 4 hijos o
menos.
Ejempl
o 2:
La distribución de frecuencias del ejemplo de los niveles de
Hemoglobina (p 38) es:
7.5- 9.0- 10.5- 12.0- 13.5- 15.0-
Intervalo Li - Ls
9.0 10.5 12.0 13.5 15.0 16.5
Frecuencia Absolu
fai 3 8 10 10 1 2
ta
Frecuencia
Faan 3 11 21 31 32 34
Acumulada
Como n/2 = 17 y estar comprendido entre los datos dados
11 < 17 < 21
Estadística - Pagina 12
En donde:
Li es el límite inferior que contiene la moda.
fai+aes la frecuencia absoluta correspondiente al intervalo posterior del
que contiene la moda.
Estadística - Pagina 13
Ejempl
o 1:
En el caso de los niveles de hemoglobina, vemos que presenta un caso
de distribución bimodal, ya que tanto el intervalo (10'5 - 12] como el (12
- 13'5] tienen frecuencia absoluta máxima. Deberíamos aplicar, por
tanto, para cada uno de los dos intervalos la fórmula anterior,
determinando así las dos modas de la distribución. No obstante, este
ejemplo presenta además la peculiaridad adicional de ser ambos
intervalos modales contiguos. En esta situación se considera la
distribución unimodal, eligiendo como moda el extremo común, Mo =
12.
Por lo tanto el nivel más común de hemoglobina en la sangre de estos
pacientes es de 12 g/dl.
Ejempl
o 2:
Si los intervalos tuvieran distinta amplitud Ai, primero debemos
normalizar las frecuencias absolutas fai, determinando los cocientes
siguientes:
fa i
cj = , i =1,2,..., k
Ai
y luego aplicar la regla definida para el caso de intervalos de amplitud
constante a los cj. Es decir, primero calcular el cj = max{c1,...., ck} para
determinar el intervalo modal [xj-1, xj) y luego aplicar la fórmula
c j +1
Mo = Li + * Aj
c j −1 +c j +1
siendo Aj la amplitud del intervalo modal [xj-1, xj).
30-40 12 1.2
40-45 10 2.0
45-50 9 1.8
50-60 10 1.0
60-80 8 0.4
80-100 4 0.2
con lo que el intervalo modal es el [40 - 45) y la moda, pues posee la
mayor frecuencia normalizada 2.0
c j +1
Mo = Li + * Aj
c j −1 + c j +1
1.8
Mo = 40 + * 5 = 43
1.2 + 1.8
Con lo cual podríamos decir que la puntuación más frecuente en un test
psicológico es de 43 puntos.
Ejempl
o 3:
A diferencia de lo que ocurre con la media o con la mediana, sí es
posible determinar la moda en el caso de datos cualitativos. Así, en el
ejemplo del tratamiento de radiación seguido de cirugía (p 32) puede
afirmarse que la causa modal por la que no fue completado el
tratamiento es Mo = rehusaron cirugía.
n
x i 5 + 10 + 42
x=∑ = = 19 años
i =1 n 3
Aunque ambos grupos de datos presentan el mismo promedio, vemos
como el primer grupo de datos presenta una pequeña dispersión,
mientras que en el segundo grupo es muy grande. La dispersión es una
característica muy importante de un conjunto de datos. Por ejemplo una
máquina productora de tornillos milimétricos debe presentar una
dispersión pequeña en el diámetro de los mismos, pues de lo contrario
una alta proporción de ellos resultaría defectuosos.
Las medidas de dispersión o variabilidad, a las cuales dedicaremos esta
sección, tienen como propósito estudiar lo concentrada que está la
distribución en torno a algún promedio. Las cuatro medidas de
dispersión más utilizadas son:
– Rango
– Varianza
– Desviación estándar
– Coeficiente de variación
5.2.1 Rango
Nos indica la diferencia que existe entre el dato mayor y el dato menor
de la distribución. Si xmax es el dato mayor o la última marca de clase, si
es que los datos vienen agrupados en intervalos, y xmin el dato menor o
primera marca de clase, llamaremos rango a
R=x max -x min
Ejemp
los
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11
Frecuencias Absolutas( fai) 3 5 4 3 7 2 4 4 2 4 2
R= 11 – 0 = 11 hijos
Vemos aquí que el número de hijos varía en 11, siendo 0 el menor
número de hijos presentes y 11 el mayor número de hijos que tiene una
familia, mostrando una variabilidad relativamente alta.
Para los niveles de hemoglobina en la sangre para pacientes que
padecen un extraño tipo de anemia:
7.5- 9.0- 10.5- 12.0- 13.5- 15.0-
Intervalo Li – Ls
9.0 10.5 12.0 13.5 15.0 16.5
Marca de clase xi 8.25 9.75 11.25 12.75 14.25 15.75
Estadística - Pagina 16
Ejempl
o 1:
Para las edades de los jóvenes la varianza sería:
σ2 =
1
3−1
[ 1
2
] [ 1
]
(18 − 19) 2 + (19 − 19) 2 + (20 − 19) 2 = (−1) 2 + (0) 2 + (1) 2 = [ 2] = 1
2 año2
Ejempl
o 2:
En las edades de los integrantes de una familia:
σ2 =
1
3 −1
[ ] 1
[ ]
(5 − 19) 2 + (10 − 19) 2 + ( 42 − 19) 2 = (−14) 2 + (−9) 2 + (23) 2 =
2
1
2
[ ]
1
2
1
(−14) 2 + (−9) 2 + (23) 2 = [196 + 81 + 529] = [ 806] = 403
2 años2
Se observa entonces la gran diferencia en cuanto a la dispersión o
variabilidad que presentan las edades de los integrantes de una familia,
comparativamente con las edades de los jóvenes, aunque sus promedios
sean los mismos.
5.2.2 Varianza para datos agrupados en tablas de frecuencias
simples o en intervalos de clase
Si los datos se encuentran agrupados en una tabla de frecuencias
simples (fila de datos) o en intervalos, la fórmula para calcular la
varianza debe incluir a la frecuencia absoluta (fai) respectiva a cada una
de las categorías que toma la variable o a sus marcas de clase, según
sea el agrupamiento:
Estadística - Pagina 17
2
k
k
n ∑ x i fa i − ∑ x x fa i
2
i =1
σ 2 = i =1
n(n − 1)
En donde k= al número de categorías que toma la variable o a las
marcas de clase.
Ejemplo 1:
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
xi fai %fri Faan %Fran xi2fai xifai
0 3 7.5 3 7.5 0 0
1 5 12.5 8 20 5 5
2 4 10 12 30 16 8
3 3 7.5 15 37.5 27 9
4 7 17.5 22 55 112 28
5 2 5 24 60 50 10
6 4 10 28 70 144 24
7 4 10 32 80 196 28
8 2 5 34 85 128 16
9 4 10 38 95 324 36
11 2 5 40 100 242 22
∑ fai ∑%fri = ∑ xi2fai = ∑ xifai =
=40 100% 1244 186
Reemplazando en la fórmula de la varianza, tendríamos:
40(1244) − (186) 2 49760− 34596 15164
σ =
2
= = = 9.7
40(40 − 1) 40(39) 1560 hijos2
Ejempl
o 2:
Para los niveles de hemoglobina en la sangre de un grupo de pacientes
con un extraño tipo de anemia
Li - Ls xi fai %fri Faan %Fran xi2fai xifai
7.5 – 9.0 8.25 3 8.8 3 8.8 204.2 24.75
9.0 –10.5 9.75 8 23.6 11 32.4 760.5 78.0
10.5 – 1265.6 112.5
11.25 10 29.4 21 61.8
12.0
12.0 – 1625.6 127.5
12.75 10 29.4 31 91.2
13.5
13.5 – 203.1 14.25
14.25 1 2.9 32 94.1
15.0
15.0 – 15.75 2 5.9 34 100.0 496.1 31.5
Estadística - Pagina 18
16.5
å fai = %fri = ∑ xi2fai = å xifai =
34 100.0 4555.1 388.5
σ = σ2
Ejempl
os:
En el ejemplo sobre el número de hijos por familia en el barrio “Belén
Rosales”:
σ = 9.7 = 3.1 hijos
Para los niveles de hemoglobina en la sangre de un grupo de pacientes
con un extraño tipo de anemia
σ = 3.5 = 1.9 g/dl
5.2.4 Coeficiente de Variación
La desviación estándar sirve para medir de forma eficaz la dispersión de
un conjunto de datos entorno a su media. Desgraciadamente esta
medida puede resultar engañosa cuando tratamos de comparar la
dispersión de dos conjuntos de datos. Así, si por ejemplo tenemos dos
grupos de mujeres de 11 y 25 años con medias y desviaciones típicas
dadas por la tabla siguiente:
Peso Medio Desviación Estándar
11 años 40 Kg 2 Kg
25 años 50 Kg 2 Kg
puede parecernos, al observar en ambos grupos una desviación típica
igual, que ambos grupos de datos tienen la misma dispersión. No
Estadística - Pagina 19
68%
95%
99%
Todos los intervalos anteriores son validos únicamente para los datos
muestrales y no necesariamente para toda la población. Sin embargo si
los intervalos se calculan con la media (promedio) y desviación estándar
de la población entonces serán validos para toda la población: De otro
modo, si la media y la desviación estándar se han calculado a partir de
muestreo probabilísticos aleatorios, entonces los intervalos anteriores
podrán dar una idea aproximada de lo que pasa en toda la población,
sea ésta un lote o un proceso.
Lo anteriormente propuesto está basado en lo que se conoce como la
Regla Empírica; como su nombre lo dice estos resultados obtenidos han
sido deducidos de la experimentación y no a través de ninguna teoría
matemática.
∑ (x
i =1
i − x) 3 fai
Af =
nσ 3
siendo xi las categorías que toma la variable o las marcas de clase.
La interpretación del coeficiente de Fisher es la misma que la del
coeficiente de Pearson: si la distribución es simétrica vale cero, siendo
positivo o negativo cuando exista asimetría a la derecha o izquierda
respectivamente.
Estadística - Pagina 22
n(n + 1) n
x i − x
4
3(n − 1) 2
Curtosis = ∑
−
(n − 1)(n − 2)(n − 3) i =1 σ (n − 2)(n − 3)
Prueba
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
10. Una asistencia social desea saber cuál es el índice de natalidad en 2 barrios de Pereira
para lo que encuestó a 10 familias de cada barrio con los siguientes resultados
0 6 1 2 3 1 4 3 6 4
A
B 3 4 1 4 2 3 1 5 4 3
ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC
2 950 1 1 990 1 1 995 1 1 1 1 1
001 100 080 100 000 060 040 150 000 000
Estadística - Pagina 26