Capitulo 6
Capitulo 6
LA DISTRIBUCIÓN NORMAL
6.1 INTRODUCCIÓN
Dicha pauta de variabilidad, que como hemos indicado es muy corriente en datos
reales, puede modelarse razonablemente asumiendo que la variable estudiada sigue
en la población una distribución de probabilidad denominada distribución Normal
(Otras denominaciones utilizadas son las de distribución de Laplace o distribución de
Gauss, que hacen referencia a los apellidos de los dos famosos astrónomos y
matemáticos que utilizaron dicha distribución para el estudio de los errores en sus
observaciones).
Como sabemos toda variable aleatoria continua viene caracterizada por su función de
densidad f(x), que indica la densidad de probabilidad asociada a cada valor posible x.
( x -m)2
1 -
f(x) = e 2s 2
( -¥ < x < +¥ )
s 2p
68
Dicha función de densidad f(x) tiene forma de una curva en campana, con una
densidad máxima en m, que es la media y la mediana de la distribución. La densidad
decrece de forma simétrica a ambos lados de m, de forma más o menos rápida en
función del valor que tenga la desviación típica σ (puede comprobarse que coincide
con la distancia desde la media m al punto de inflexión de la función de densidad). Los
dos parámetros m y caracterizan por completo la distribución de una variable normal.
o sea que es bastante raro (probabilidad menor que el 5%) encontrar un valor de una
variable normal que difiera de su media en más de dos desviaciones típicas, y es muy
improbable (probabilidad menor que el 3 por mil) encontrar un valor que difiera de la
media en más de tres desviaciones típicas.
69
Nota técnica: el requisito de independencia exigido en la propiedad 2 es realmente una
condición suficiente pero no necesaria. La condición necesaria y suficiente para que una
combinación lineal de dos variables normales se distribuya normalmente es que dichas
variables tengan una distribución conjunta normal bidimensional (concepto que no se aborda en
este texto), siendo la independencia una condición suficiente para que esto se verifique
La probabilidad de que una N[0,1] sea mayor que un valor dado z vendrá dada por la
integral de su función de densidad desde z hasta
x2
¥ 1 -
P (N(0,1) > z ) = ò e 2
dx
z
2p
Los valores de esta integral, que deben obtenerse por métodos numéricos dado que
no puede calcularse directamente al no existir la primitiva de f(x), vienen recogidos en
la tabla de la página siguiente para valores de z entre 0 y 4
Autoevaluación: Calcular la probabilidad de que una variable N[0,1] sea mayor que 2. Comparar el
resultado obtenido con lo indicado en la segunda de las figuras anteriores.
Obviamente la tabla puede también utilizarse para calcular probabilidades del tipo
P(X<a), sin más que hacer dicha probabilidad igual a 1 - P(X>a).
Dado, por otra parte, que una distribución N[0,1] es simétrica respecto al origen,
P(N(0,1)>z) = P(N(0,1)<-z), por lo que la tabla da también directamente la probabi-
lidad de que la variable sea menor que un valor negativo. Adicionalmente la
probabilidad de cualquier intervalo (a,b) puede calcularse sin más que restar P(X<b) -
P(X<a).
¿Cómo se calculan probabilidades para las variables normales no tipificadas, que son
las que se encuentran en la práctica? Basta para ello transformar la expresión
probabilística de interés, en una equivalente relativa a una variable N[0,1],
aprovechando la Propiedad 1 expuesta en el apartado anterior.
Así, siendo X una variable normal de media m y desviación típica σ, N[m,σ], se tiene:
æ x -m z -mö æ z -mö
P(X > z) = P ç > ÷ = P ç N(0,1) >
è s s ø è s ÷ø
70
71
Autoevaluación: La dureza de los asientos de poliuretano fabricados en una factoría fluctúa
normalmente con media 185 newtons y desviación típica 12 newtons. ¿Qué porcentajes de los
asientos fabricados cumplirán las especificaciones establecidas que son de 180 20
newtons?
Si se centrase correctamente el proceso de forma que su media resultara 180, por ejemplo
utilizando el valor adecuado de la cantidad de poliol e isocianato, ¿en cuánto se reduciría el
porcentaje de asientos defectuosos obtenidos?
La escala vertical del papel probabilístico está modificada -tal como se aprecia en la
siguiente figura que corresponde a las estaturas de las chicas en la encuesta
curs8990.sf3- de forma que corresponde a los valores de la función de distribución de
una normal tipificada. Así, por ejemplo, el intervalo entre los puntos correspondientes
al 50% y al 80% es muy parecido al existente entre este último y el del 95%, dado que
los valores correspondientes a dichas probabilidades acumuladas en una N[0,1] están
aproximadamente equiespaciados (concretamente son 0, 0.84 y 1.65)
72
La idea básica para la utilización del papel probabilístico normal es la siguiente:
Cuando datos procedentes de una distribución normal se representan en este papel,
los puntos correspondientes se sitúan aproximadamente a lo largo de una recta.
Si la representación de los datos difiere claramente de una línea recta ello es una
prueba de que la población muestreada no se distribuye normalmente. En la siguiente
figura vemos aspectos típicos de representaciones correspondientes a diferentes tipos
de datos no normales.
Autoevaluación: Obtener una representación en papel probabilístico normal de los datos de PESO
en los chicos. ¿Se distribuye el peso de los chicos de forma aproximadamente normal? ¿Cómo
podría estimarse aproximadamente la estatura media de los chicos a partir de la representación
anterior? ¿Cómo podría estimarse aproximadamente la desviación típica de la distribución a partir
de la representación considerada?
73
Nota técnica: la condición necesaria y suficiente para que se verifique dicho teorema
es complicada. Intuitivamente lo que exige es que ninguno de los sumandos
predomine claramente sobre el resto. Una sencilla condición suficiente al respecto es
que todas las variables que se suman tengan la misma distribución (Teorema de
Linderbeg-Levy)
Este resultado teórico justifica, en cierto sentido, la frecuencia con la que se presentan
en la realidad variables aleatorias cuya distribución se asemeja a la pauta de
variabilidad teórica de una distribución normal. En efecto, muchas variables reales
pueden considerarse como el resultado de la actuación de un conjunto de factores
independientes. Así el rendimiento obtenido en una parcela cultivada depende de las
características del suelo, de las condiciones microclimáticas, del grado de incidencia
de diversas plagas, del potencial genético de las semillas concretas utilizadas,
etcétera... Como consecuencia del teorema central del límite cabe esperar que dicho
rendimiento, que en cierto sentido es la suma de una serie de factores independientes,
se distribuya aproximadamente de forma normal.
Dado que una variable binomial no es más que la suma de N variables de Bernuoilli
independientes, cabe esperar que su distribución se vaya aproximando a la de una
normal a medida que aumente N. En efecto si X es una variable Binomial (N,p) y su
varianza Np(1-p) es moderadamente grande (valores mayores o iguales que 9 son
suficientes para obtener aproximaciones razonables) la variable tipificada Y =
X - Np
tiende a distribuirse aproximadamente como una N[0,1], pudiendo utili-
Np(1 - p)
zarse las tablas de ésta para calcular las probabilidades de la primera.
Nota técnica: al aproximar una variable Binomial por una Normal (o, en general,
siempre que se aproxime una variable discreta con valores enteros por una continua)
es aconsejable, para mejorar la calidad de la aproximación, realizar una corrección de
continuidad. Esta corrección consiste en asimilar cada valor entero x de la variable
discreta, al intervalo [x-0.5 x+0.5] para la variable continua
También una variable de Poisson puede aproximarse por una normal si su parámetro λ
no es muy pequeño (valores del orden de 9 ó más son recomendables para obtener
aproximaciones satisfactorias). Así si X sigue una distribución de Poisson de
X-l
parámetro λ, la variable tipificada Y = sigue aproximadamente una distribución
l
N[0,1], si es suficientemente grande.
74
Nota: dado que se dispone de un ábaco que permite fácilmente calcular probabilidades de
variables de Poisson de parámetro ≤ 30, la aproximación normal se utilizará para valores de
mayores que 30.
Autoevaluación: A una centralita telefónica llegan en promedio 2 llamadas por minuto. Calcular
aproximadamente la probabilidad de que en una hora se reciban más de 150 llamadas. (Ver
respuesta en el Anejo al final del Tema)
75
Toda distribución logarítmico normal es no negativa y presenta asimetría positiva, tal
como se refleja en la siguiente figura, constituyendo frecuentemente un modelo
adecuado para variables asimétricas positivas (como, por ejemplo, el tiempo hasta el
fallo de equipos o piezas, el contenido en impurezas resultante de un proceso, el
descentrado en operaciones de mecanizado, etcétera...)
a) La probabilidad de que una naranja seleccionada al azar pese más de 200 grs. será
P(mayor > 200) = 1 – P(mayor<200) = 1 – P(todas pesen < 200) = 1 – (1-0.0475) 15 = 0.518
b) La probabilidad de que una naranja seleccionada al azar pese menos de 120 grs. será
P(menor < 120) = 1 – P(menor>120) = 1 – P(todas pesen > 200) = 1 – (1-0.1587) 15 = 0.925
76
c) Siendo Xi el peso de la naranja i-ésima (i=1...15) e Y el peso neto total de la bolsa:
Y = X1 + ... + X15 Y Normal con mY = 150 +...+ 150 = 2250 y 2Y = 302 +...+ 302 = 13500
(la segunda propiedad se cumple por ser los pesos Xi independientes)
.
Siendo Xi el número de puntos al lanzar el dado i, se tiene:
æ Z - 70 80.5 - 70 ö
P(Y>80) P(ZN(70,7.64)>80.5) = P ç > = P(N(0,1) > 1.37) = 0.0853
è 7.64 7.64 ÷ø
X: número de dígitos impares al elegir 131, suponiendo p(impar) = p(par) = 0.5 será un
binomial con N=131 y p=0.5. Por ser Np(1-p) = 131x0.5x(1-0.5) = 32.75 >> 9, se podrá
aproximar por una normal con su misma media (131x0.5=65.5) y desviación típica 32.75
=5.72
æ Z - 65.5 87.5 - 65.5 ö
P(X>87) P(ZN(65.5,72)>87.5) = P ç > ÷ = P(N(0,1) > 3.85) = 0.00006
è 5.72 5.72 ø
Autoevaluación: A una centralita telefónica llegan en promedio 2 llamadas por minuto. Calcular
aproximadamente la probabilidad de que en una hora se reciban más de 150 llamadas.
Siendo Xi las llamadas en el minuto i Y: número de llamadas en una hora = X 1 +...+ X60.
Suponiendo que las Xi son independientes (criticar esta hipótesis) Y Poisson(=2+...+2=120).
Como >> 9 Y se puede aproximar por una normal con su misma media (120) y desviación
típica 120 = 10.95
P(Y>150) P(ZN(120,10.95)>150.5) =
77
Autoevaluación: La superficie X de las explotaciones hortofrutícolas en una región sigue una
distribución LogNormal. Se sabe que la mediana de X es 15 hanegadas y que sólo el 1% de las
explotaciones son mayores de 50 hanegadas. ¿Qué porcentaje de las explotaciones serán
menores de 5 hanegadas?
3.912 - 2.708
P(X>50) = 0.01 P(Y > log(50)=3.912) = 0.01 habrá de ser = 2.33
sY
(mirando en la tabla de la Normal tipificada el valor que corresponde a una probabilidad 0.01)
3.912 - 2.708
Y = = 0.517
2.33
æ 1.609 - 2.708 ö
P(X<5) = P(Y < log(5)=1.609) = P ç N(0,1) < = -2.13 ÷ = 0.0166
è 0.517 ø
El peso de las naranjas de cierto calibre se distribuye normalmente con media 150 grs y
desviación típica 25 grs. Estas naranjas se expiden en bolsas de malla que se llenan
seleccionando al azar las naranjas
¿Cuál es el número mínimo de naranjas a meter en cada bolsa si se desea tener una
probabilidad mayor que 0.99 de que el peso total sea superior a 2 kgs
2000 - 150N
El menor valor de N que verifica < -2.33 es N = 15
25 N
Una partida defectuosa de tornillos tiene una resistencia a la torsión X que fluctúa normalmente
con media 25 nwt y σ = 4 nwt. Los tornillos se utilizan para cerrar las cajas que contiene ciertos
módulos electrónicos y se atornillan mediante una atornilladora que produce un par de apriete
Y que fluctúa normalmente con una media de 12 nwt y una σ = 3 nwt.
¿Qué porcentaje de los tornillos se partirán al apretarse?
æ 0 - ( -13) ö
P(parta tornillo) = P(Z>0) = P ç N(0,1) > = 2.6 ÷ = 0.0047
è 5 ø
(se partirán el 4.7 por mil de los tornillos)
78
6.A.3 Ejercicios adicionales
El peso neto de los botes de un determinado tipo de conserva fluctúa normalmente siendo los
dos cuartiles de la distribución iguales a 480 y 530 gramos respectivamente. Calcular la media
y la desviación típica de dicha distribución
La carga de seguridad del ascensor de un hotel es 1000 kgs. El peso de las personas que
suben al mismo fluctúa normalmente con media 65 kgs y desviación típica 10 kgs. ¿Cuál es el
número máximo de personas que pueden subir a la vez, si se desea que la probabilidad de
rebasar la carga de seguridad sea inferior a 0.001?
En promedio el 20% de los asientos fabricados en una factoría deben repararse para
solucionar problemas ocasionados por arrugas en la tela del forro. Si un día se fabrican 400
asientos ¿cuál es la probabilidad de que haya que reparar más de 100 asientos? (Aproximar la
binomial por una normal, haciendo la correspondiente corrección de continuidad)
El diámetro Φa de ciertos agujeros que se realizan en unas planchas fluctúa normalmente con
media 20 mm y desviación típica 1 mm. En dicho agujeros se han de fijar unos casquillos de
caucho fabricados por un proveedor, cuyo diámetro Φ c fluctúa normalmente con media 20.5
mm y desviación típica 1 mm. Se sabe que si Φ a - Φc es mayor que 1 mm el casquillo se cae,
mientras que si Φc - Φa es mayor que 1.5 mm el casquillo no entra.
Calcular el % de veces que se presentarán problemas al montar los casquillos.
¿Cuál debería ser el valor medio de Φa para minimizar dicho %, suponiendo que no es posible
modificar Φc?
Para venir en coche a la universidad un estudiante puede elegir entre dos caminos alternativos.
El tiempo que tarda por el camino A fluctúa aleatoriamente de unos días a otros,
distribuyéndose como una variable normal de media=25' y σ=7', mientras que el tiempo que
tarda por el camino B se distribuye normalmente con media=30' y σ=3'.
a) ¿Qué camino debe elegir si desea salir lo más tarde posible de su casa pero teniendo la
garantía de llegar a tiempo al menos el 95% de los días? (Razonar la respuesta calculando con
cuantos minutos de antelación debería salir según el camino que escoja)
b) Si las clases comienzan a las 9 de la mañana calcular el camino que se debe escoger en
función de la hora a la que se salga de casa, con el fin de maximizar la probabilidad de llegar a
tiempo
El deterioro de una pieza a lo largo del tiempo viene provocado por un agrietado de la misma.
El tamaño X (en micras) de dicha grieta aumenta con el tiempo T de funcionamiento (en miles
de horas) según la expresión X = T, donde fluctúa aleatoriamente en la población de las
piezas siguiendo una distribución LogNormal de parámetros = 0.8 y 2 = 0.02.
Hallar la vida mediana de las piezas, sabiendo que el fallo se produce cuando el tamaño de la
grieta alcanza las 2.5 micras
¿Qué porcentaje de las piezas durarán más de 1000 horas?
79