Varianza PDF
Varianza PDF
Varianza PDF
3
Para analizar el comportamiento o distribucin de un conjunto de datos
comnmente se inicia calculando los estadsticos bsicos; como son: La Media,
la Mediana y la Moda, como medidas de tendencia central, y la Varianza, la
Desviacin estndar y la Amplitud, como medidas de variabilidad, entre otras.
(2.1)
(2.2)
La Mediana:
4
Ejemplo 2.1. Sea el siguiente conjunto de datos, para el caso 1 y caso
2, tenemos que
La Moda:
En un conjunto de nmeros es el dato que ocurre con mayor frecuencia,
es decir, es el dato mas frecuente.
La moda puede no existir en la distribucin e incluso puede tener hasta
dos o ms.
En el caso de una moda la distribucin es unimodal, en el caso de dos
modas es bimodal, en el caso de tres modas es trimodal, y as
sucesivamente.
En la figura 2.2 se observan las grficas que muestran los distintos sesgos
que se pueden presentar en una distribucin de datos, como lo son sesgo a la
izquierda o sesgo a la derecha o sin sesgo.
5
2.1.2 Medidas de Dispersin.
La dispersin o variabilidad de los datos intenta dar una idea de que tan
esparcidos se encuentran los datos de una distribucin. Las medidas de
dispersin ms comunes son:
Rango o Amplitud:
2 4 3 5 4 3 5 7 6 2 4 5 7 4
La Desviacin Estndar:
6
(2.4)
(2.5)
La Varianza:
(2.6)
(2.7)
Coeficiente de Variacin:
7
El coeficiente de variacin se denota y se define matemticamente
como la expresin 2.8,
(2.8)
Desviacin Media:
(2.9)
| |
8
El valor de la desviacin media es,
| | | | | | | | | | | |
9
Ejemplo 2.4. Aplicar la regla emprica para los datos del ejemplo2.2
2 4 3 5 4 3 5 7 6 2 4 5 7 4
En la tabla 2.1 se pueden ver los intervalos segn la regla emprica. Para
una desviacin estndar tenemos que, el 68% de los datos estn entre 2.81 a
5.99. Para dos desviaciones estndar se tiene que el 95% de los datos estn
entre 1.22 a 7.58 y si son tres desviaciones estndar el 99.7% de los datos
estn entre 0 y 9.17.
10
2.2 Descripcin grfica de un conjunto de datos.
El Histograma
El histograma es una grfica de las frecuencias observadas de un
conjunto de datos (Montgomery D.C., 1991); es uno de los mtodos
grficos ms comnmente usados para ver la distribucin de los datos.
Tiene varias ventajas, una de ellas es que podemos observar la
tendencia central y su dispersin (ver figura 2.4).
11
Figura 2.5 Formas Tpicas del Histogramas
12
Dependiendo de las caractersticas de los datos, el histograma puede
tomar varias formas tpicas, en la figura 2.5 se dan algunos ejemplos de las
formas tpicas en que suelen presentarse en un histograma.
36 25 37 24 39 20 36 45 31 31 30 25 24 24 30 35 38 40 30 41
39 24 29 23 41 40 33 24 34 40 35 35 36 29 27 29 35 33 32 38
Usando los datos de la tabla 2.2, el histograma para las edades de las
personas se obtiene mediante los siguientes pasos:
13
PASO 3. Fijar la longitud de clase. Una forma de asignar la misma
importancia a todas las clases es tomando la longitud de clase (lc) igual
a
CLASE INTERVALO
1 20 -24.16
2 24.16-28.32
3 28.32-32.48
4 32.48-36.64
5 36.64-40.80
6 40.80-45.00
1 20 -24.16 7
2 24.16-28.32 3
3 28.32-32.48 9
4 32.48-36.64 10
5 36.64-40.80 8
6 40.80-45.00 3
14
PASO 6. Las frecuencias relativas de cada intervalo de clase. Las frecuencias
relativas se obtienen dividiendo cada frecuencia por el total de datos, como se
puede ver en la tabla 2.5.
FRECUENCIA
CLASE INTERVALO FRECUENCIA RELATIVA
1 20 -24.16 7 0.1750
2 24.16-28.32 3 0.075
3 28.32-32.48 9 0.225
4 32.48-36.64 10 0.25
5 36.64-40.80 8 0.20
6 40.80-45.00 3 0.075
Histograma Histograma
10 25
porcentaje=frec. relativa*100
8 20
frecuencia
6 15
4 10
2 5
0 0
20 25 30 35 40 45 20 25 30 35 40 45
EDADES EDADES
15
2.2.2 Diagrama de caja.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de cuartiles:
16
ordenados. Como N/2 =10; como N es un numero par, la mediana es el valor
promedio del decimo dato mas el dato que le sigue,
17
1- Si la parte izquierda de la caja es mayor que la de la derecha, ello
quiere decir que las edades comprendidas entre el 25% y el 50% de la
poblacin est ms dispersa que entre el 50% y el 75%.
2- El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha;
por ello el 25% de los ms jvenes estn ms concentrados que el 25%
de los mayores.
3- El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la
poblacin est comprendido en 14,5 aos.
El grafico de barras y la grafica circular son muy tiles para cuando los
datos son del tipo cualitativo o categrico. Los Datos Cualitativos o
Categricos, son aquellos que expresan atributos o categoras. Para facilitar el
anlisis estadstico de este tipo de datos frecuentemente se codifican a
nmeros, esta codificacin da lugar a dos subtipos de datos categricos:
Las graficas de barras son de utilidad para describir una variable cuyos
valores son categoras o para clasificar o ver la relacin entre dos o ms
variables. En la figura 2.9 esta la grafica de barras que muestra las
temperaturas en grados Fahrenheit diarias durante una semana.
18
Fig. 2.9 Grfica de Barras
T C H T H O M H T H C H O T H O
M H C H O C C C H M M O H H T O T
Donde: C= COSTURA, M= MONTAJE, T=TELA, O=CORTE y H=HILO.
19
En la Tabla 2.6 se puede ver la tabla de frecuencias para los defectos de
ropa encontrados. En las figuras 2.11; y 2.12 se muestran, la grfica de
barras y la grfica circular respectivamente del ejemplo 2.7.
12 18.18% 18.18%
10 DEFECTO
COSTURA
8
frecuencia
HILO
MONTAJE
6
CORTE
18.18%
TELA
4
2 33.33%
0 12.12%
COSTURA HILO MONTAJE CORTE TELA
Figura 2.11 Grafica de barras para defectos en Figura 2.12 Grafica Circular para defectos en
prendas de vestir prendas de vestir
El Diagrama de Pareto
{[} es una forma especial de grfico de barras
{\}
Fue creado sobre la base del principio de Pareto, segn el cual, el 80% de
los problemas son provenientes de apenas el 20% de las causas (ley 80-20,
pocos vitales, muchos triviales). Vilfredo Pareto fue un economista italiano
20
que, en el siglo XIX, present una frmula que mostraba la desigualdad en la
distribucin de los salarios.
T C H T H O M H T H C H O T H O
M H C H O C C C H M M O H H T O T
COMO CONSTRUIRLO?
Se trazan dos ejes verticales de la misma longitud perpendicular en
cada esquina de un eje horizontal. En el eje vertical izquierdo, se traza una
escala desde el cero hasta el nmero de defectos en listados. En el eje vertical
derecho haga una escala de 0 a 100%. El 100% corresponder al total de
defectos enlistados. Divida el eje horizontal en intervalos iguales, de acuerdo
con la cantidad de categoras o lista de defectos. Construya y denomine las
barras, colocando las categoras en orden decreciente de frecuencia, de
izquierda a derecha. Trace una lnea punteada que conecte el origen con la
esquina superior derecha de la primera barra, se suma la altura de la primera
barra, la altura de la segunda barra. Marque con un punto el valor obtenido en
la prolongacin del lado derecho de la segunda barra. Sume a esta nueva
altura la altura de la tercera barra. Marque con un punto el valor obtenido en la
prolongacin del lado derecho de la tercera barra. Hacer esto, sucesivamente,
hasta la ltima barra .Enlace todos los puntos marcados con una lnea, dando
continuidad a la lnea punteada iniciada en el origen, para formar la curva de
Pareto. El ltimo punto representa el 100 % de los eventos. Complete el
21
grfico con informaciones tales como: nombre del grfico, perodo,
responsable, etc.
40
100.00
30 87.88
frecuencia
69.70
20 51.52
33.33
10
0
Hilo Tela Corte Costura Montaje
Ejercicios de la unidad 2.
22
Problema 1.- En un estudio de dos semanas sobre la productividad de 100
trabajadores, se obtuvieron los siguientes datos sobre el nmero total de
piezas fabricadas por trabajador.
65 39 54 79 32 43 53 41 40 47
68 35 68 22 35 50 35 43 76 58
46 51 61 65 34 76 69 57 33 40
45 85 84 63 53 64 54 51 52 70
55 55 62 44 28 21 36 34 82 56
60 47 73 53 88 42 56 45 37 48
65 49 52 50 80 41 70 68 38 77
35 55 45 56 51 67 74 74 75 62
36 57 45 82 67 60 61 78 60 26
72 62 73 59 59 74 52 50 61 48
2.1 19.2 14.1 3.7 9.0 4.1 8.7 1.6 8.2 0.2
8.2 1.3 26.7 9.9 1.2 18.0 0.4 6.1 9.6 1.6
0.3 18.0 32.3 3.3 2.4 5.6 3.9 1.4 7.4 7.4
11.4 2.7 4.3 2.4 23.1 6.6 0.2 14.7 5.8 8.3
4.4 6.9 1.0 12.6 2.0 18.4 24.0 13.5 16.7 3.5
23
Problema 3.-Los datos siguientes son las velocidades del viento promedio (en
millas por hora) que se producen en 45 ciudades seleccionadas de la Republica
Mexicana.
74 100 90 99 97 89 108 94 87 79
101 90 105 83 91 96 81 98 81 98
24
Problema 5.-.En la elaboracin de envases de plstico primero se elabora la
preforma, para la cual se tienen varios criterios de calidad, uno de ellos es el
peso de esta. Para cierto envase se tiene que el peso debe estar en 28
A continuacin se muestran los ltimos 112 datos.
25
Lote Peso en costales Lote Peso en costales Lote Peso en costales
26
Problema 8.- En la elaboracin de una bebida se desea garantizar que el
porcentaje de (gas) ste entre 2.5 y 3. En el monitoreo del proceso se
obtuvieron los siguientes 115 datos. Obtenga resultados e interprete.
MARZO
Tipo de queja Semana 1 Semana 2 Semana 3 TOTAL
Problema 10.- En una empresa se est buscando reducir las quejas de clientes.
Se tienen los registros del ltimo semestre, clasificados por rea de trabajo y
turno.
27
rea Turno1 Turno2 Quejas:
C Ooooo Oooooooo
x Xxxxx
+ /
D Oooo ooooooooooooo
xx xxxxx
++ // ++++
Problema 11.- En una empresa procesadora de carnes fras se tienen los datos
de una semana de los defectos en la inspeccin final de la salchicha se muestran
a continuacin.
28